Spaces:

theodotus
/

streaming-asr-uk

Sleeping

theodotus commited on Sep 20, 2022

Commit

4f90f68

1 Parent(s): 0fe1069

Added numpy workflow

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,15 +1,51 @@
 import gradio as gr
 import nemo.collections.asr as nemo_asr
 asr_model = nemo_asr.models.EncDecCTCModelBPE. \
-                    from_pretrained("theodotus/stt_uk_squeezeformer_ctc_xs",map_location="cpu")
 def transcribe(audio, state=""):
-    text = asr_model.transcribe([audio], batch_size=1)[0]
     state += text + " "
     return state, state
@@ -17,7 +53,7 @@ def transcribe(audio, state=""):
 gr.Interface(
     fn=transcribe,
     inputs=[
-        gr.Audio(source="microphone", type="filepath", streaming=True),
         "state"
     ],
     outputs=[

 import gradio as gr
+import numpy as np
+import resampy
+import torch
 import nemo.collections.asr as nemo_asr
 asr_model = nemo_asr.models.EncDecCTCModelBPE. \
+                    from_pretrained("NeonBohdan/stt_uk_citrinet_512_gamma_0_25",map_location="cpu")
+asr_model.preprocessor.featurizer.dither = 0.0
+asr_model.preprocessor.featurizer.pad_to = 0
+asr_model.eval()
+asr_model.encoder.freeze()
+asr_model.decoder.freeze()
+def resample(sr, audio_data):
+    audio_fp32 = np.divide(audio_data, np.iinfo(audio_data.dtype).max, dtype=np.float32)
+    audio_16k = resampy.resample(audio_fp32, sr, asr_model.cfg["sample_rate"])
+    return audio_16k
+def model(audio_16k):
+    logits, logits_len, greedy_predictions = asr_model.forward(
+        input_signal=torch.tensor([audio_16k]),
+        input_signal_length=torch.tensor([len(audio_16k)])
+    )
+    current_hypotheses, all_hyp = asr_model.decoding.ctc_decoder_predictions_tensor(
+        logits, decoder_lengths=logits_len, return_hypotheses=False,
+    )
+    return current_hypotheses[0]
 def transcribe(audio, state=""):
+    # if state is None:
+    #     pass
+    sr, audio_data = audio
+    audio_16k = resample(sr, audio_data)
+    text = model(audio_16k)
     state += text + " "
     return state, state
 gr.Interface(
     fn=transcribe,
     inputs=[
+        gr.Audio(source="microphone", type="numpy", streaming=True),
         "state"
     ],
     outputs=[