speech-to-speech-translation

Sleeping

Marco-Cheung commited on Aug 19, 2023

Commit

de411e0

•

1 Parent(s): e9f9b4b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -15,15 +15,14 @@ device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # load speech translation checkpoint
 asr_pipe = pipeline("automatic-speech-recognition", model=ASR_MODEL_NAME, chunk_length_s=10,device=device)
 # load text-to-speech checkpoint
 processor = AutoProcessor.from_pretrained("suno/bark-small")
 model = BarkModel.from_pretrained("suno/bark-small").to(device)
 sampling_rate = model.generation_config.sample_rate
-# set the forced ids
-model.generation_config.forced_decoder_ids = processor.tokenizer.get_decoder_prompt_ids(language='de', task="translate")
 def translate(audio):
     outputs = asr_pipe(audio, max_new_tokens=256, generate_kwargs={"task": "translate"})
     return outputs["text"]

 # load speech translation checkpoint
 asr_pipe = pipeline("automatic-speech-recognition", model=ASR_MODEL_NAME, chunk_length_s=10,device=device)
+# set the forced ids
+asr_pipe.model.config.forced_decoder_ids = asr_pipe.tokenizer.get_decoder_prompt_ids(language='de', task="translate")
 # load text-to-speech checkpoint
 processor = AutoProcessor.from_pretrained("suno/bark-small")
 model = BarkModel.from_pretrained("suno/bark-small").to(device)
 sampling_rate = model.generation_config.sample_rate
 def translate(audio):
     outputs = asr_pipe(audio, max_new_tokens=256, generate_kwargs={"task": "translate"})
     return outputs["text"]