Spaces:

jkang
/

espnet2_librispeech_100h_word_vs_bpe_vs_char

Runtime error

jaekookang commited on Feb 23, 2022

Commit

836ff83

1 Parent(s): 1aa7e27

changed from filepath to numpy

Files changed (1) hide show

gradio_asr_en_libri100_word_vs_bpe.py CHANGED Viewed

@@ -8,8 +8,8 @@ import os
 from difflib import Differ
 from glob import glob
 from loguru import logger
-# import librosa
-import wavio
 import gradio as gr
 from espnet2.bin.asr_inference import Speech2Text
@@ -45,9 +45,10 @@ def predict(wav_file):
     logger.info('wav file loaded')
     # Load audio
     # speech, rate = librosa.load(wav_file, sr=16000)
-    wav = wavio.read(wav_file)
-    speech = wav.data
-    rate = wav.rate
     # number_of_samples = round(len(speech_raw) * float(16000) / rate)
     # speech = sps.resample(speech_raw, number_of_samples)
@@ -68,7 +69,7 @@ iface = gr.Interface(
     title='Comparison between word vs BPE tokens based on ESPNet2 ASR models',
     description='Two models were trained on Librispeech (clean-100h)',
     inputs=[
-        gr.inputs.Audio(label='wav file', source='microphone', type='filepath')
     ],
     outputs=[
         gr.outputs.Textbox(label='Decoding result (word-token model)'),

 from difflib import Differ
 from glob import glob
 from loguru import logger
+import librosa
+# import wavio
 import gradio as gr
 from espnet2.bin.asr_inference import Speech2Text
     logger.info('wav file loaded')
     # Load audio
     # speech, rate = librosa.load(wav_file, sr=16000)
+    rate, speech = wav_file
+    # wav = wavio.read(wav_file)
+    # speech = wav.data
+    # rate = wav.rate
     # number_of_samples = round(len(speech_raw) * float(16000) / rate)
     # speech = sps.resample(speech_raw, number_of_samples)
     title='Comparison between word vs BPE tokens based on ESPNet2 ASR models',
     description='Two models were trained on Librispeech (clean-100h)',
     inputs=[
+        gr.inputs.Audio(label='wav file', source='microphone', type='numpy')
     ],
     outputs=[
         gr.outputs.Textbox(label='Decoding result (word-token model)'),