speech-to-speech-translation

Sleeping

preetam8 commited on Nov 11, 2024

Commit

cc6d9dc

1 Parent(s): 32e9053

Account for recorded audio format

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import gradio as gr
 import logging
 import numpy as np
 import torch
@@ -28,6 +29,15 @@ speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze
 def translate(audio):
     input_features = whisper_processor(audio["array"], sampling_rate=16000, return_tensors="pt").input_features
     predicted_ids = whisper_model.generate(input_features, forced_decoder_ids=decoder_ids)
     translated_text = whisper_processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]

 import gradio as gr
+import librosa
 import logging
 import numpy as np
 import torch
 def translate(audio):
+    if isinstance(audio, str):
+        # Account for recorded audio
+        audio = {
+            "path": audio,
+            "sampling_rate": 16_000,
+            "array": librosa.load(audio, sr=16_000)[0]
+        }
+    elif audio["sampling_rate"] != 16_000:
+        audio["array"] = librosa.resample(audio["array"], audio["sampling_rate"], 16_000)
     input_features = whisper_processor(audio["array"], sampling_rate=16000, return_tensors="pt").input_features
     predicted_ids = whisper_model.generate(input_features, forced_decoder_ids=decoder_ids)
     translated_text = whisper_processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]