kotoba-tech/kotoba-whisper-v2.2 · fix: ffmpeg_microphone

10 days ago

•

When using ffmpeg_microphone_live for realtime audio streaming, I got error because of key validation.
After applying this PR, kotoba-whisper can use ffmpeg_microphone_live.
(but, v2.1/v1.1 have the same key validation as this PR. I don't know the reason it was cut in v2.2. )

(以下日本語で同内容)
AutomaticSpeechRecognitionPipelineでaudio stream処理をしたい場合、最も簡単に書けるのは from transformers.pipelines.audio_utils import ffmpeg_microphone_live の活用かなと認識しております(ex, https://huggingface.co/learn/audio-course/en/chapter7/voice-assistant )が、
transformers最新の実装ではキー名がarrayではなくrawのため、エラーとなります。
https://github.com/huggingface/transformers/blob/v4.46.2/src/transformers/pipelines/audio_utils.py#L258

こちらのPRにて、kotoba-whisperでのffmpeg_microphone_liveの動作確認がとれました。

しかし気になっているのが、v2.1/v1.1などではキー名を考慮されており、v2.2で意図的にvalidationを落としているのでしょうか（大きな問題がなければ残す需要はありそうな気がしております）。
https://huggingface.co/kotoba-tech/kotoba-whisper-v2.1/blob/main/kotoba_whisper.py#L157

ffmpeg_microphone_live利用時のエラー対応a7e3c07e

daraiii changed pull request title from ffmpeg_microphone_live利用時のエラー対応 to fix: ffmpeg_microphone_live key error 10 days ago