fix: ffmpeg_microphone_live key error
When using ffmpeg_microphone_live for realtime audio streaming, I got error because of key validation.
After applying this PR, kotoba-whisper can use ffmpeg_microphone_live.
(but, v2.1/v1.1 have the same key validation as this PR. I don't know the reason it was cut in v2.2. )
(以下日本語で同内容)
AutomaticSpeechRecognitionPipelineでaudio stream処理をしたい場合、最も簡単に書けるのは from transformers.pipelines.audio_utils import ffmpeg_microphone_live
の活用かなと認識しております(ex, https://huggingface.co/learn/audio-course/en/chapter7/voice-assistant )が、
transformers最新の実装ではキー名がarrayではなくrawのため、エラーとなります。
https://github.com/huggingface/transformers/blob/v4.46.2/src/transformers/pipelines/audio_utils.py#L258
こちらのPRにて、kotoba-whisperでのffmpeg_microphone_liveの動作確認がとれました。
しかし気になっているのが、v2.1/v1.1などではキー名を考慮されており、v2.2で意図的にvalidationを落としているのでしょうか(大きな問題がなければ残す需要はありそうな気がしております)。
https://huggingface.co/kotoba-tech/kotoba-whisper-v2.1/blob/main/kotoba_whisper.py#L157