synthesis

Runtime error

adowu commited on Oct 28, 2024

Commit

3062c72

verified ·

1 Parent(s): b416379

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,6 +2,8 @@ import spaces
 import gradio as gr
 import torch
 from TTS.api import TTS
 import os
 import json
 import scipy.io.wavfile as wavfile
@@ -13,31 +15,30 @@ device = "cuda"
 tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
 @spaces.GPU(enable_queue=True)
 def clone(text, audio):
     # Generowanie mowy
-    result = tts.tts(text=text, speaker_wav=audio, language="pl", return_dict=True)
     # Konwersja do numpy array i zapisanie jako plik WAV
-    wav_np = np.array(result['wav'])
     wavfile.write("./output.wav", 24000, (wav_np * 32767).astype(np.int16))
     # Przygotowanie informacji o fonemach
     phonemes_data = []
-    cumulative_duration = 0
-    if 'phonemes' in result and 'durations' in result:
-        for phoneme, duration in zip(result['phonemes'], result['durations']):
-            start_time = cumulative_duration
-            end_time = start_time + duration
-            phonemes_data.append({
-                "phoneme": phoneme,
-                "start": float(start_time),
-                "end": float(end_time),
-                "duration": float(duration)
-            })
-            cumulative_duration = end_time
-    else:
-        phonemes_data.append({"error": "Brak informacji o fonemach"})
     # Zapisywanie informacji o fonemach do pliku JSON
     with open("./phonemes_info.json", "w", encoding="utf-8") as f:

 import gradio as gr
 import torch
 from TTS.api import TTS
+from TTS.tts.utils.text.tokenizer import TTSTokenizer
+from TTS.tts.utils.text.phonemizer import Phonemizer
 import os
 import json
 import scipy.io.wavfile as wavfile
 tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
+# Inicjalizacja tokenizera i fonemizera
+tokenizer = TTSTokenizer(use_phonemes=False)
+phonemizer = Phonemizer()
 @spaces.GPU(enable_queue=True)
 def clone(text, audio):
     # Generowanie mowy
+    wav = tts.tts(text=text, speaker_wav=audio, language="pl")
     # Konwersja do numpy array i zapisanie jako plik WAV
+    wav_np = np.array(wav)
     wavfile.write("./output.wav", 24000, (wav_np * 32767).astype(np.int16))
+    # Przetwarzanie tekstu na fonemy
+    tokens = tokenizer.text_to_ids(text)
+    phonemes = phonemizer.phonemize(tokens, language="pl")
     # Przygotowanie informacji o fonemach
     phonemes_data = []
+    for i, phoneme in enumerate(phonemes):
+        phonemes_data.append({
+            "phoneme": phoneme,
+            "index": i
+        })
     # Zapisywanie informacji o fonemach do pliku JSON
     with open("./phonemes_info.json", "w", encoding="utf-8") as f: