Spaces:

fargerm
/

LangTransAudio

Sleeping

fargerm commited on Aug 23, 2024

Commit

f4e544b

verified ·

1 Parent(s): 0010eeb

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,7 @@
 import streamlit as st
-from transformers import MarianMTModel, MarianTokenizer, pipeline
 from io import BytesIO
 # Define the language options
@@ -35,14 +37,20 @@ def translate_text(text, target_lang):
     return translated_text
 def synthesize_speech(text, lang):
     # Synthesize speech
-    tts_pipeline = pipeline("text-to-speech", model="microsoft/speecht5_tts")
-    try:
-        audio = tts_pipeline(text)
-        audio_bytes = BytesIO(audio["audio"])
-        return audio_bytes, None
-    except Exception as e:
-        return None, str(e)
 if st.button("Translate and Synthesize Speech"):
     # Perform translation
@@ -58,3 +66,4 @@ if st.button("Translate and Synthesize Speech"):

 import streamlit as st
+from transformers import MarianMTModel, MarianTokenizer, SpeechT5Processor, SpeechT5ForTextToSpeech
+from datasets import load_dataset
+import torch
 from io import BytesIO
 # Define the language options
     return translated_text
 def synthesize_speech(text, lang):
+    # Load the TTS model and processor
+    processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+    model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
+    # Load speaker embeddings
+    embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+    speaker_embeddings = torch.tensor(embeddings_dataset[0]["xvector"]).unsqueeze(0)
     # Synthesize speech
+    inputs = processor(text=text, return_tensors="pt")
+    speech = model.generate_speech(inputs["input_ids"], speaker_embeddings)
+    audio_bytes = BytesIO(speech.numpy())
+    return audio_bytes, None
 if st.button("Translate and Synthesize Speech"):
     # Perform translation