Spaces:

frogcho123
/

speech2speech

Runtime error

frogcho123 commited on Jun 8, 2023

Commit

dcb549e

1 Parent(s): 341a129

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import os
 import gradio as gr
-import numpy as np
 import whisper
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from gtts import gTTS
@@ -13,12 +13,9 @@ tokenizer = AutoTokenizer.from_pretrained("alirezamsh/small100")
 model = AutoModelForSeq2SeqLM.from_pretrained("alirezamsh/small100")
 def translate_speech(audio, target_lang):
-    if isinstance(audio, tuple):
-        audio = audio[0]
-    if isinstance(audio, int):
-        audio = [audio]
-    audio = np.array(audio).astype("float32")  # Convert audio to float32
-    audio = whisper.pad_or_trim(audio, whisper_model.audio_config.sample_rate)
     mel = whisper.log_mel_spectrogram(audio).to(whisper_model.device)
     _, probs = whisper_model.detect_language(mel)
     options = whisper.DecodingOptions(fp16=False)
@@ -39,8 +36,6 @@ def translate_speech(audio, target_lang):
     return audio_path
 def translate_speech_interface(audio, target_lang):
     translated_audio = translate_speech(audio, target_lang)
     translated_audio_bytes = open(translated_audio, "rb").read()

 import os
 import gradio as gr
+import numpy as np
 import whisper
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from gtts import gTTS
 model = AutoModelForSeq2SeqLM.from_pretrained("alirezamsh/small100")
 def translate_speech(audio, target_lang):
+    audio = audio[0].astype("float32")  # Extract audio from tuple and convert to float32
+    sample_rate = whisper.sample_rate  # Get sample rate from whisper_model
+    audio = whisper.pad_or_trim(audio, sample_rate)
     mel = whisper.log_mel_spectrogram(audio).to(whisper_model.device)
     _, probs = whisper_model.detect_language(mel)
     options = whisper.DecodingOptions(fp16=False)
     return audio_path
 def translate_speech_interface(audio, target_lang):
     translated_audio = translate_speech(audio, target_lang)
     translated_audio_bytes = open(translated_audio, "rb").read()