indic-conformerPi

Running

App Files Files Community

AshwinSankar commited on Mar 11

Commit

49a5c13

verified ·

1 Parent(s): 5ea365d

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -10

app.py CHANGED Viewed

@@ -67,28 +67,74 @@ DEFAULT_TARGET_LANGUAGE = "Bengali"
 @spaces.GPU
 def run_asr_ctc(input_audio: str, target_language: str) -> str:
-    # preprocess_audio(input_audio)
-    # input_audio, orig_freq = torchaudio.load(input_audio)
-    # input_audio = torchaudio.functional.resample(input_audio, orig_freq=orig_freq, new_freq=16000)
     lang_id = LANGUAGE_NAME_TO_CODE[target_language]
     model.cur_decoder = "ctc"
-    ctc_text = model.transcribe([input_audio], batch_size=1, logprobs=False, language_id=lang_id)[0]
     return ctc_text[0]
 @spaces.GPU
 def run_asr_rnnt(input_audio: str, target_language: str) -> str:
-    # preprocess_audio(input_audio)
-    # input_audio, orig_freq = torchaudio.load(input_audio)
-    # input_audio = torchaudio.functional.resample(input_audio, orig_freq=orig_freq, new_freq=16000)
     lang_id = LANGUAGE_NAME_TO_CODE[target_language]
     model.cur_decoder = "rnnt"
-    ctc_text = model.transcribe([input_audio], batch_size=1,logprobs=False, language_id=lang_id)[0]
     return ctc_text[0]
 with gr.Blocks() as demo_asr_ctc:

 @spaces.GPU
 def run_asr_ctc(input_audio: str, target_language: str) -> str:
     lang_id = LANGUAGE_NAME_TO_CODE[target_language]
+    # Load and preprocess audio
+    audio_tensor, orig_freq = torchaudio.load(input_audio)
+    # Convert to mono if not already
+    if audio_tensor.shape[0] > 1:
+        audio_tensor = torch.mean(audio_tensor, dim=0, keepdim=True)
+    # Ensure shape [B x T]
+    if len(audio_tensor.shape) == 1:
+        audio_tensor = audio_tensor.unsqueeze(0)  # Add batch dimension if missing
+    # Resample to 16kHz
+    audio_tensor = torchaudio.functional.resample(audio_tensor, orig_freq=orig_freq, new_freq=16000)
     model.cur_decoder = "ctc"
+    ctc_text = model.transcribe([audio_tensor.numpy()], batch_size=1, logprobs=False, language_id=lang_id)[0]
     return ctc_text[0]
+# @spaces.GPU
+# def run_asr_ctc(input_audio: str, target_language: str) -> str:
+#     # preprocess_audio(input_audio)
+#     # input_audio, orig_freq = torchaudio.load(input_audio)
+#     # input_audio = torchaudio.functional.resample(input_audio, orig_freq=orig_freq, new_freq=16000)
+#     lang_id = LANGUAGE_NAME_TO_CODE[target_language]
+#     model.cur_decoder = "ctc"
+#     ctc_text = model.transcribe([input_audio], batch_size=1, logprobs=False, language_id=lang_id)[0]
+#     return ctc_text[0]
 @spaces.GPU
 def run_asr_rnnt(input_audio: str, target_language: str) -> str:
     lang_id = LANGUAGE_NAME_TO_CODE[target_language]
+    # Load and preprocess audio
+    audio_tensor, orig_freq = torchaudio.load(input_audio)
+    # Convert to mono if not already
+    if audio_tensor.shape[0] > 1:
+        audio_tensor = torch.mean(audio_tensor, dim=0, keepdim=True)
+    # Ensure shape [B x T]
+    if len(audio_tensor.shape) == 1:
+        audio_tensor = audio_tensor.unsqueeze(0)  # Add batch dimension if missing
+    # Resample to 16kHz
+    audio_tensor = torchaudio.functional.resample(audio_tensor, orig_freq=orig_freq, new_freq=16000)
     model.cur_decoder = "rnnt"
+    ctc_text = model.transcribe([audio_tensor.numpy()], batch_size=1, logprobs=False, language_id=lang_id)[0]
     return ctc_text[0]
+# @spaces.GPU
+# def run_asr_rnnt(input_audio: str, target_language: str) -> str:
+#     # preprocess_audio(input_audio)
+#     # input_audio, orig_freq = torchaudio.load(input_audio)
+#     # input_audio = torchaudio.functional.resample(input_audio, orig_freq=orig_freq, new_freq=16000)
+#     lang_id = LANGUAGE_NAME_TO_CODE[target_language]
+#     model.cur_decoder = "rnnt"
+#     ctc_text = model.transcribe([input_audio], batch_size=1,logprobs=False, language_id=lang_id)[0]
+#     return ctc_text[0]
 with gr.Blocks() as demo_asr_ctc: