Spaces:

jkang
/

espnet2_librispeech_100h_word_vs_bpe_vs_char

Runtime error

jaekookang commited on Feb 23, 2022

Commit

63da1fa

•

1 Parent(s): 3d0edc0

added librosa

Files changed (1) hide show

gradio_asr_en_libri100_word_vs_bpe.py CHANGED Viewed

@@ -44,17 +44,17 @@ logger.info('model loaded')
 def predict(wav_file):
     logger.info('wav file loaded')
     # Load audio
-    # speech, rate = librosa.load(wav_file, sr=16000)
-    rate, speech = wav_file
-    if len(speech.shape) == 2:
-        speech = speech.T[0]
     # wav = wavio.read(wav_file)
     # speech = wav.data
     # rate = wav.rate
     logger.info(f'speech.shape: {speech.shape}')
     logger.info(f'speech.dtype: {speech.dtype}')
     logger.info(f'speech rate: {rate}')
-    speech = speech.astype('float32')
     # number_of_samples = round(len(speech_raw) * float(16000) / rate)
     # speech = sps.resample(speech_raw, number_of_samples)
@@ -76,7 +76,7 @@ iface = gr.Interface(
     title='Comparison between word vs BPE tokens based on ESPNet2 ASR models',
     description='Two models were trained on Librispeech (clean-100h)',
     inputs=[
-        gr.inputs.Audio(label='wav file', source='microphone', type='numpy')
     ],
     outputs=[
         gr.outputs.Textbox(label='Decoding result (word-token model)'),

 def predict(wav_file):
     logger.info('wav file loaded')
     # Load audio
+    speech, rate = librosa.load(wav_file, sr=16000)
+    # rate, speech = wav_file
+    # if len(speech.shape) == 2:
+    #     speech = speech.T[0]
     # wav = wavio.read(wav_file)
     # speech = wav.data
     # rate = wav.rate
     logger.info(f'speech.shape: {speech.shape}')
     logger.info(f'speech.dtype: {speech.dtype}')
     logger.info(f'speech rate: {rate}')
+    # speech = speech.astype('float32')
     # number_of_samples = round(len(speech_raw) * float(16000) / rate)
     # speech = sps.resample(speech_raw, number_of_samples)
     title='Comparison between word vs BPE tokens based on ESPNet2 ASR models',
     description='Two models were trained on Librispeech (clean-100h)',
     inputs=[
+        gr.inputs.Audio(label='wav file', source='microphone', type='filepath')
     ],
     outputs=[
         gr.outputs.Textbox(label='Decoding result (word-token model)'),