Spaces:

unijoh
/

metaambod

Runtime error

unijoh commited on Jun 15

Commit

51e6dce

•

1 Parent(s): cb292d6

Update tts.py

Files changed (1) hide show

tts.py CHANGED Viewed

@@ -1,22 +1,21 @@
 import torch
-from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 import logging
 import numpy as np
 import soundfile as sf
-from huggingface_hub import hf_hub_download
 # Set up logging
 logging.basicConfig(level=logging.DEBUG)
 MODEL_ID = "facebook/mms-tts-fao"
-# Try to load the model and processor
 try:
-    processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
-    model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
-    logging.info("Model and processor loaded successfully.")
 except Exception as e:
-    logging.error(f"Error loading model or processor: {e}")
     raise
 def synthesize_speech(text):
@@ -26,18 +25,18 @@ def synthesize_speech(text):
             logging.error("Text input is empty.")
             return None
-        inputs = processor(text, return_tensors="pt")
         device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         model.to(device)
         inputs = inputs.to(device)
         with torch.no_grad():
-            speech = model.generate(**inputs)
         logging.info("Speech generated successfully.")
-        # Decode the generated speech and save to an audio file
-        waveform = speech.cpu().numpy().flatten()
         # Normalize waveform to the range [-1, 1]
         waveform = np.clip(waveform, -1.0, 1.0)

 import torch
+from transformers import AutoTokenizer, AutoModelForTextToWaveform
 import logging
 import numpy as np
 import soundfile as sf
 # Set up logging
 logging.basicConfig(level=logging.DEBUG)
 MODEL_ID = "facebook/mms-tts-fao"
+# Try to load the model and tokenizer
 try:
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+    model = AutoModelForTextToWaveform.from_pretrained(MODEL_ID)
+    logging.info("Model and tokenizer loaded successfully.")
 except Exception as e:
+    logging.error(f"Error loading model or tokenizer: {e}")
     raise
 def synthesize_speech(text):
             logging.error("Text input is empty.")
             return None
+        inputs = tokenizer(text, return_tensors="pt")
         device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         model.to(device)
         inputs = inputs.to(device)
         with torch.no_grad():
+            outputs = model.generate(**inputs)
         logging.info("Speech generated successfully.")
+        # Convert outputs to waveform
+        waveform = outputs.cpu().numpy().flatten()
         # Normalize waveform to the range [-1, 1]
         waveform = np.clip(waveform, -1.0, 1.0)