speech-to-speech-translation

Runtime error

App Files Files Community

yujiro666 commited on Dec 19, 2023

Commit

1622d47

1 Parent(s): 9ff1388

Upload app.py

Browse files

Files changed (1) hide show

app.py +9 -15

app.py CHANGED Viewed

@@ -1,11 +1,3 @@
-# -*- coding: utf-8 -*-
-"""HW3_ml.ipynb
-Automatically generated by Colaboratory.
-Original file is located at
-    https://colab.research.google.com/drive/1z4ht7K9pttbgWmDDnrQhqoZ6SYAiaeUe
-"""
 # !pip -q uninstall gradio -y
 # !pip -q install gradio==3.50.2
@@ -24,9 +16,7 @@ device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # load speech translation checkpoint
 asr_pipe = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-300m", device=device)
-# !pip -q install sentencepiece
-# load text-to-speech checkpoint and speaker embeddings
-# processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
 processor = WhisperProcessor.from_pretrained(
     "openai/whisper-small")
@@ -35,7 +25,6 @@ translator2 = pipeline("translation", model="Helsinki-NLP/opus-mt-en-ru")
 from transformers import VitsModel, VitsTokenizer
-# model = pipeline("text-to-speech", model="suno/bark-small")
 model = VitsModel.from_pretrained("facebook/mms-tts-rus")
 tokenizer = VitsTokenizer.from_pretrained("facebook/mms-tts-rus")
@@ -70,11 +59,16 @@ def speech_to_speech_translation(audio):
 title = "Cascaded STST"
 description = """
-* Данная модель распознает текст на 56 языках
-Demo for cascaded speech-to-speech translation (STST), mapping from source speech in any language to target speech in Russian. Demo uses facebook/mms-tts-rus model for text-to-speech:
-![Cascaded STST](https://huggingface.co/datasets/huggingface-course/audio-course-images/resolve/main/s2st_cascaded.png "Diagram of cascaded speech to speech translation")
 """
 demo = gr.Blocks()

 # !pip -q uninstall gradio -y
 # !pip -q install gradio==3.50.2
 # load speech translation checkpoint
 asr_pipe = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-300m", device=device)
 processor = WhisperProcessor.from_pretrained(
     "openai/whisper-small")
 from transformers import VitsModel, VitsTokenizer
 model = VitsModel.from_pretrained("facebook/mms-tts-rus")
 tokenizer = VitsTokenizer.from_pretrained("facebook/mms-tts-rus")
 title = "Cascaded STST"
 description = """
+* В качестве ASR модели была выбрана - https://huggingface.co/voidful/wav2vec2-xlsr-multilingual-56, если поставить фильтры multilingual и wav2vec, то эта модель самая популярная после фейсбуковских -
+https://imgur.com/UNH5ym1
+* Далее идет перевод с языка, на котором была запись, на английский, и после этого на русский
+* Потом переведенный текст воспроизводится на русском языке
 """
 demo = gr.Blocks()