juliandreykorn
/

xtts-v2

Inference Endpoints

Model card Files Files and versions Community

juliandreykorn commited on Mar 17

Commit

a9dae97

•

1 Parent(s): 8b65bcb

Adds speaker_wav capability

Files changed (1) hide show

handler.py +14 -6

handler.py CHANGED Viewed

@@ -16,26 +16,34 @@ class EndpointHandler:
         self.tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
     def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
         text = data['inputs']
         if text == 'url':
             response = requests.get(data.get('url'))
             text = response.text
         speaker = data.get('speaker', None)
-        speaker_wav = data.get('speaker_wav', None)
         language = data.get('language', 'en')
         if speaker is not None:
             if speaker in available_speakers:
-                #speaker_wav = f"/path/to/{speaker}.wav"
-                timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
-                output_file = f"/tmp/TTS_{timestamp}.wav"
-                self.tts.tts_to_file(text=text, file_path=output_file, speaker=speaker, language="en")
                 # Save or process the outputs as needed
                 result = self.upload_file_and_get_url(output_file)
                 os.remove(output_file)
                 return result
             else:
                 return "Invalid speaker specified."
         return "No speaker specified."
     def upload_file_and_get_url(self, file_path):

         self.tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
     def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
+        speaker_path = "/tmp/speaker.wav"
         text = data['inputs']
         if text == 'url':
             response = requests.get(data.get('url'))
             text = response.text
         speaker = data.get('speaker', None)
+        speaker_wav_url = data.get('speaker_wav_url', None)
         language = data.get('language', 'en')
+        timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
+        output_file = f"/tmp/TTS_{timestamp}.wav"
         if speaker is not None:
             if speaker in available_speakers:
+                self.tts.tts_to_file(text=text, file_path=output_file, speaker=speaker, language=language)
                 # Save or process the outputs as needed
                 result = self.upload_file_and_get_url(output_file)
                 os.remove(output_file)
                 return result
             else:
                 return "Invalid speaker specified."
+        elif speaker_wav_url is not None:
+            with open(speaker_path, 'wb') as file:
+                file.write(requests.get(speaker_wav_url).content)
+            self.tts.tts_to_file(text=text, file_path=output_file, speaker_wav=speaker_path, language=language)
+            # Save or process the outputs as needed
+            result = self.upload_file_and_get_url(output_file)
+            os.remove(output_file)
+            os.remove(speaker_path)
+            return result
         return "No speaker specified."
     def upload_file_and_get_url(self, file_path):