Spaces:

frogcho123
/

s2s

Build error

frogcho123 commited on Jun 6, 2023

Commit

bc7920f

•

1 Parent(s): b2d1906

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import gradio as gr
 import whisper
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from gtts import gTTS
-import sounddevice as sd
 import scipy.io.wavfile as wav
 import os
@@ -36,18 +36,19 @@ def translate_speech_to_speech(input_audio):
     # Text-to-speech (TTS) code from the first code snippet
     tts = gTTS(text=translated_text, lang=to_lang)
-    output_file = "translated_speech.mp3"
     tts.save(output_file)
     # Load the translated audio and return as an output
-    translated_audio = open(output_file, "rb")
-    return translated_audio
 title = "Speech-to-Speech Translator"
 input_audio = gr.inputs.Audio(type=["mp3", "wav"])
-output_audio = gr.outputs.Audio(type=["mp3", "wav"])
 stt_demo = gr.Interface(
     fn=translate_speech_to_speech,
@@ -61,3 +62,4 @@ if __name__ == "__main__":
     stt_demo.launch()

 import whisper
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from gtts import gTTS
+import soundfile as sf
 import scipy.io.wavfile as wav
 import os
     # Text-to-speech (TTS) code from the first code snippet
     tts = gTTS(text=translated_text, lang=to_lang)
+    output_file = "translated_speech.wav"
     tts.save(output_file)
     # Load the translated audio and return as an output
+    translated_audio, sr = sf.read(output_file, dtype="float32")
+    translated_audio = (translated_audio * 32767).astype("int16")
+    return translated_audio, sr
 title = "Speech-to-Speech Translator"
 input_audio = gr.inputs.Audio(type=["mp3", "wav"])
+output_audio = gr.outputs.Audio(type=["mp3", "wav"], sample_rate=44100)
 stt_demo = gr.Interface(
     fn=translate_speech_to_speech,
     stt_demo.launch()