Spaces:

cngsm
/

whisper_coqui

Build error

cngsm commited on Nov 29, 2024

Commit

3afc76b

verified ·

1 Parent(s): 1ce2420

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,44 +1,38 @@
-import gradio as gr
 import whisper
 from TTS.api import TTS
 import ffmpeg
-# Função principal
-def process_audio(file):
-    # Salvar o arquivo carregado
-    input_file = "input_audio_or_video.mp4"
-    with open(input_file, "wb") as f:
-        f.write(file.read())
-    # Carregar modelo Whisper
     model = whisper.load_model("base")
-    # Transcrição e tradução
-    result = model.transcribe(input_file, task="translate", language="pt")
     translated_text = result['text']
-    # Salvar texto traduzido
-    with open("translated_text.txt", "w") as f:
-        f.write(translated_text)
-    # Gerar áudio traduzido com Coqui TTS
-    tts = TTS(model_name="tts_models/pt-cv-vits", progress_bar=False)
     output_audio = "translated_audio.wav"
-    tts.tts_to_file(text=translated_text, file_path=output_audio)
-    return translated_text, output_audio
 # Interface Gradio
-iface = gr.Interface(
-    fn=process_audio,
-    inputs=gr.Audio(source="upload", type="file"),
-    outputs=[
-        gr.Textbox(label="Texto traduzido"),
-        gr.Audio(label="Áudio traduzido")
-    ],
-    title="Traduzir Áudio/Vídeo com Whisper e Coqui TTS",
-    description="Carregue um arquivo de áudio ou vídeo para transcrição e tradução para português, com geração de áudio traduzido."
-)
-# Iniciar a interface
-iface.launch()

 import whisper
 from TTS.api import TTS
 import ffmpeg
+import gradio as gr
+# Função para transcrever e traduzir
+def transcrever_traduzir(file):
     model = whisper.load_model("base")
+    result = model.transcribe(file.name, task="translate", language="en")
     translated_text = result['text']
+    return translated_text
+# Função para sintetizar áudio
+def sintetizar_audio(texto):
+    tts = TTS(model_name="tts_models/pt/cv/vits", progress_bar=True)
     output_audio = "translated_audio.wav"
+    tts.tts_to_file(text=texto, file_path=output_audio)
+    return output_audio
+# Função principal para processar áudio/vídeo
+def processar(file):
+    texto_traduzido = transcrever_traduzir(file)
+    audio_gerado = sintetizar_audio(texto_traduzido)
+    return texto_traduzido, audio_gerado
 # Interface Gradio
+with gr.Blocks() as app:
+    gr.Markdown("# Tradutor de Áudio com Whisper e Coqui TTS")
+    with gr.Row():
+        file_input = gr.File(label="Envie seu arquivo de áudio ou vídeo")
+        texto_output = gr.Textbox(label="Texto Traduzido")
+        audio_output = gr.Audio(label="Áudio Gerado", type="filepath")
+    submit_btn = gr.Button("Processar")
+    submit_btn.click(processar, inputs=file_input, outputs=[texto_output, audio_output])
+# Rodar o aplicativo
+if __name__ == "__main__":
+    app.launch()