speech-to-speech-translation

Sleeping

Everton Aleixo commited on Aug 29, 2023

Commit

efac2a4

•

1 Parent(s): 6f6baeb

Debuging.

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,9 +4,22 @@ import torch
 from datasets import load_dataset
 from transformers import SpeechT5ForTextToSpeech, SpeechT5HifiGan, SpeechT5Processor, pipeline
 from gradio_client import serializing
 print('kesy', serializing.COMPONENT_MAPPING.keys())
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # load speech translation checkpoint
@@ -24,6 +37,7 @@ speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze
 def translate(audio):
     outputs = asr_pipe(audio, max_new_tokens=256, generate_kwargs={"task": "transcribe", "language":"portuguese"})
     return outputs["text"]
@@ -35,6 +49,7 @@ def synthesise(text):
 def speech_to_speech_translation(audio):
     translated_text = translate(audio)
     synthesised_speech = synthesise(translated_text)
     synthesised_speech = (synthesised_speech.numpy() * 32767).astype(np.int16)
     return 16000, synthesised_speech

 from datasets import load_dataset
 from transformers import SpeechT5ForTextToSpeech, SpeechT5HifiGan, SpeechT5Processor, pipeline
+from huggingface_hub import HfFolder
+import requests
 from gradio_client import serializing
 print('kesy', serializing.COMPONENT_MAPPING.keys())
+print('HF', HfFolder().get_token())
+def query(text, model_id="tiiuae/falcon-7b-instruct"):
+    api_url = f"https://api-inference.huggingface.co/models/{model_id}"
+    headers = {"Authorization": f"Bearer {HfFolder().get_token()}"}
+    payload = {"inputs": text}
+    print(f"Querying...: {text}")
+    response = requests.post(api_url, headers=headers, json=payload)
+    return response.json()[0]["generated_text"][len(text) + 1 :]
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # load speech translation checkpoint
 def translate(audio):
     outputs = asr_pipe(audio, max_new_tokens=256, generate_kwargs={"task": "transcribe", "language":"portuguese"})
+    print('outputs', outputs)
     return outputs["text"]
 def speech_to_speech_translation(audio):
     translated_text = translate(audio)
+    print('translated', translated_text)
     synthesised_speech = synthesise(translated_text)
     synthesised_speech = (synthesised_speech.numpy() * 32767).astype(np.int16)
     return 16000, synthesised_speech