speech-to-speech-translation

Sleeping

Everton Aleixo commited on Aug 29, 2023

Commit

b9f4b9a

•

1 Parent(s): 6f45890

Change asr

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,7 +8,19 @@ from transformers import SpeechT5ForTextToSpeech, SpeechT5HifiGan, SpeechT5Proce
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # load speech translation checkpoint
-asr_pipe = pipeline("automatic-speech-recognition", model="jonatasgrosman/whisper-large-pt-cv11", device=device)
 asr_pipe.model.config.forced_decoder_ids = (
   asr_pipe.tokenizer.get_decoder_prompt_ids(
     language="pt",
@@ -28,6 +40,7 @@ speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze
 def translate(audio):
     outputs = asr_pipe(audio)
     return outputs["text"]

 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # load speech translation checkpoint
+# asr_pipe = pipeline("automatic-speech-recognition", model="jonatasgrosman/whisper-large-pt-cv11", device=device)
+# asr_pipe.model.config.forced_decoder_ids = (
+#   asr_pipe.tokenizer.get_decoder_prompt_ids(
+#     language="pt",
+#     task="transcribe"
+#   )
+# )
+asr_pipe = pipeline(
+  "automatic-speech-recognition",
+  model="jonatasgrosman/whisper-large-pt-cv11"
+)
 asr_pipe.model.config.forced_decoder_ids = (
   asr_pipe.tokenizer.get_decoder_prompt_ids(
     language="pt",
 def translate(audio):
     outputs = asr_pipe(audio)
+    print('translate', outputs)
     return outputs["text"]