Spaces:

rrg92
/

xtts

Running on Zero

rrg92 commited on Nov 10, 2024

Commit

3e62df4

•

1 Parent(s): 140b723

Minor fixes

Files changed (5) hide show

Dockerfile CHANGED Viewed

@@ -7,7 +7,7 @@ RUN apt-get update && \
 WORKDIR /app
 COPY requirements.txt .
-RUN python -m pip install --use-deprecated=legacy-resolver -r requirements.txt \
     && python -m pip cache purge
 RUN python -m unidic download

 WORKDIR /app
 COPY requirements.txt .
+RUN python -m pip install -r requirements.txt \
     && python -m pip cache purge
 RUN python -m unidic download

README.md CHANGED Viewed

@@ -4,9 +4,10 @@ emoji: ⚡
 colorFrom: red
 colorTo: green
 sdk: gradio
-sdk_version: 4.43.0
 app_file: app.py
 pinned: false
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 colorFrom: red
 colorTo: green
 sdk: gradio
+sdk_version: 4.44.0
 app_file: app.py
 pinned: false
+startup_duration_timeout: 2h
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

docker-compose.yml CHANGED Viewed

@@ -1,5 +1,3 @@
-name: webui-docker
 volumes:
     servel-model-root:
@@ -13,7 +11,7 @@ services:
             COQUI_TOS_AGREED: 1
             CUSTOM_MODEL_PATH: /root/.local/share/tts/tts_models--multilingual--multi-dataset--xtts_v2
         ports:
-            - 3000:7860
         volumes:
             - type: volume
               source: servel-model-root

 volumes:
     servel-model-root:
             COQUI_TOS_AGREED: 1
             CUSTOM_MODEL_PATH: /root/.local/share/tts/tts_models--multilingual--multi-dataset--xtts_v2
         ports:
+            - 8080:7860
         volumes:
             - type: volume
               source: servel-model-root

requirements.txt CHANGED Viewed

@@ -1,15 +1,15 @@
-torch
-torchvision
-torchaudio
-gradio
-numpy
 TTS @ git+https://github.com/coqui-ai/TTS@fa28f99f1508b5b5366539b2149963edcb80ba62
 uvicorn[standard]==0.23.2
-deepspeed
-pydantic
-python-multipart==0.0.6
 typing-extensions>=4.8.0
-cutlet
 mecab-python3==1.0.6
 unidic-lite==1.0.8
 unidic==1.1.0

+torch==2.1.0
+torchvision==0.16.0
+torchaudio==2.1.0
+gradio==4.44
+numpy==1.22.0
 TTS @ git+https://github.com/coqui-ai/TTS@fa28f99f1508b5b5366539b2149963edcb80ba62
 uvicorn[standard]==0.23.2
+deepspeed==0.15.1
+pydantic==2.9.0
+python-multipart==0.0.9
 typing-extensions>=4.8.0
+cutlet==0.4.0
 mecab-python3==1.0.6
 unidic-lite==1.0.8
 unidic==1.1.0

xtts.py CHANGED Viewed

@@ -150,6 +150,13 @@ class TTSInputs(BaseModel):
 def predict_speech(parsed_input: TTSInputs):
     speaker_embedding = torch.tensor(parsed_input.speaker_embedding).unsqueeze(0).unsqueeze(-1)
     gpt_cond_latent = torch.tensor(parsed_input.gpt_cond_latent).reshape((-1, 1024)).unsqueeze(0)
     text = parsed_input.text
     language = parsed_input.language
     temperature = parsed_input.temperature

 def predict_speech(parsed_input: TTSInputs):
     speaker_embedding = torch.tensor(parsed_input.speaker_embedding).unsqueeze(0).unsqueeze(-1)
     gpt_cond_latent = torch.tensor(parsed_input.gpt_cond_latent).reshape((-1, 1024)).unsqueeze(0)
+    print("speaker embedding")
+    print(speaker_embedding)
+    print("latent")
+    print(gpt_cond_latent)
     text = parsed_input.text
     language = parsed_input.language
     temperature = parsed_input.temperature