Spaces:

RachAmm
/

Wav2vec-vs-Whisper

Runtime error

Rachid Ammari commited on Oct 4, 2022

Commit

1320bd0

•

1 Parent(s): 84024ab

added italian language

Files changed (3) hide show

A304176327.mp3000.mp3 ADDED Viewed

Binary file (720 kB). View file

Ansa_voice_barbero_no_sigla.mp3000.mp3 ADDED Viewed

Binary file (960 kB). View file

app.py CHANGED Viewed

@@ -6,7 +6,8 @@ import whisper
 wav2vec_models = {
     "en" : pipeline("automatic-speech-recognition", model="facebook/wav2vec2-base-960h"),
     "fr" : pipeline("automatic-speech-recognition", model="facebook/wav2vec2-large-xlsr-53-french"),
-    "es" : pipeline("automatic-speech-recognition", model="facebook/wav2vec2-large-xlsr-53-spanish")
 }
 whisper_model = whisper.load_model("base")
@@ -33,12 +34,14 @@ examples = [["en", None, "english_sentence.flac"],
             ["fr", None, "2022-a-Droite-un-fauteuil-pour-trois-3034044.mp3000.mp3"],
             ["fr", None, "podcast-bdl-episode-5-mix-v2.mp3000.mp3"],
             ["es", None, "momiasartesecretodelantiguoegipto-nationalgeographicespana-ivoox73191074.mp3000.mp3"],
-            ["es", None, "millonarioscohetesrepresentaestanuev-xataka-ivoox73148634.mp3000.mp3"]]
 gr.Interface(
     fn=transcribe_audio,
     inputs=[
-        gr.Radio(label="Language", choices=["en", "fr", "es"], value="en"),
         gr.Audio(source="microphone", type="filepath", optional=True),
         gr.Audio(source="upload", type="filepath", optional=True),
     ],

 wav2vec_models = {
     "en" : pipeline("automatic-speech-recognition", model="facebook/wav2vec2-base-960h"),
     "fr" : pipeline("automatic-speech-recognition", model="facebook/wav2vec2-large-xlsr-53-french"),
+    "es" : pipeline("automatic-speech-recognition", model="facebook/wav2vec2-large-xlsr-53-spanish"),
+    "it" : pipeline("automatic-speech-recognition", model="facebook/wav2vec2-large-xlsr-53-italian")
 }
 whisper_model = whisper.load_model("base")
             ["fr", None, "2022-a-Droite-un-fauteuil-pour-trois-3034044.mp3000.mp3"],
             ["fr", None, "podcast-bdl-episode-5-mix-v2.mp3000.mp3"],
             ["es", None, "momiasartesecretodelantiguoegipto-nationalgeographicespana-ivoox73191074.mp3000.mp3"],
+            ["es", None, "millonarioscohetesrepresentaestanuev-xataka-ivoox73148634.mp3000.mp3"],
+            ["it", None, "Ansa_voice_barbero_no_sigla.mp3000.mp3"],
+            ["it", None, "A304176327.mp3000.mp3"]]
 gr.Interface(
     fn=transcribe_audio,
     inputs=[
+        gr.Radio(label="Language", choices=["en", "fr", "es","it"], value="en"),
         gr.Audio(source="microphone", type="filepath", optional=True),
         gr.Audio(source="upload", type="filepath", optional=True),
     ],