speech-to-speech-translation

Sleeping

preetam8 commited on Nov 11, 2024

Commit

6ab6711

1 Parent(s): cc6d9dc

Change to MMS

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import numpy as np
 import torch
 from datasets import load_dataset
-from transformers import SpeechT5ForTextToSpeech, SpeechT5HifiGan, SpeechT5Processor
 from transformers import WhisperForConditionalGeneration, WhisperProcessor
@@ -19,13 +19,10 @@ whisper_model = WhisperForConditionalGeneration.from_pretrained(whisper_model_na
 decoder_ids = whisper_processor.get_decoder_prompt_ids(language=target_language, task="transcribe")
 # load text-to-speech checkpoint and speaker embeddings
-processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
-model = SpeechT5ForTextToSpeech.from_pretrained("preetam8/speecht5_finetuned_voxpopuli_fr").to(device)
-vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan").to(device)
-embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
 def translate(audio):
@@ -45,8 +42,10 @@ def translate(audio):
 def synthesise(text):
-    inputs = processor(text=text, return_tensors="pt")
-    speech = model.generate_speech(inputs["input_ids"].to(device), speaker_embeddings.to(device), vocoder=vocoder)
     return speech.cpu()

 import torch
 from datasets import load_dataset
+from transformers import VitsModel, VitsTokenizer
 from transformers import WhisperForConditionalGeneration, WhisperProcessor
 decoder_ids = whisper_processor.get_decoder_prompt_ids(language=target_language, task="transcribe")
 # load text-to-speech checkpoint and speaker embeddings
+model = VitsModel.from_pretrained("facebook/mms-tts-fra")
+tokenizer = VitsTokenizer.from_pretrained("facebook/mms-tts-fra")
 def translate(audio):
 def synthesise(text):
+    inputs = tokenizer(text, return_tensors="pt")
+    with torch.no_grad():
+        outputs = model(inputs["input_ids"])
+    speech = outputs["waveform"]
     return speech.cpu()