Spaces:

ygauravyy
/

nanee-convo

Sleeping

App Files Files Community

ygauravyy commited on Dec 7, 2024

Commit

3c5d4a8

verified ·

1 Parent(s): a4d2895

Update app.py

Browse files

Files changed (1) hide show

app.py +1 -19

app.py CHANGED Viewed

@@ -17,7 +17,6 @@ import uvicorn
 # Load environment variables
 load_dotenv()
-# Function to download and extract checkpoints
 def download_and_extract_checkpoints():
     zip_url = "https://huggingface.co/camenduru/OpenVoice/resolve/main/checkpoints_1226.zip"
     zip_path = "checkpoints.zip"
@@ -43,7 +42,6 @@ openai.api_key = os.getenv("OPENAI_API_KEY")
 if not openai.api_key:
     raise ValueError("Please set the OPENAI_API_KEY environment variable.")
-# Define paths to checkpoints
 en_ckpt_base = 'checkpoints/base_speakers/EN'
 zh_ckpt_base = 'checkpoints/base_speakers/ZH'
 ckpt_converter = 'checkpoints/converter'
@@ -51,7 +49,6 @@ device = 'cuda' if torch.cuda.is_available() else 'cpu'
 output_dir = 'outputs'
 os.makedirs(output_dir, exist_ok=True)
-# Load TTS models
 en_base_speaker_tts = BaseSpeakerTTS(f'{en_ckpt_base}/config.json', device=device)
 en_base_speaker_tts.load_ckpt(f'{en_ckpt_base}/checkpoint.pth')
 zh_base_speaker_tts = BaseSpeakerTTS(f'{zh_ckpt_base}/config.json', device=device)
@@ -60,12 +57,10 @@ zh_base_speaker_tts.load_ckpt(f'{zh_ckpt_base}/checkpoint.pth')
 tone_color_converter = ToneColorConverter(f'{ckpt_converter}/config.json', device=device)
 tone_color_converter.load_ckpt(f'{ckpt_converter}/checkpoint.pth')
-# Load speaker embeddings
 en_source_default_se = torch.load(f'{en_ckpt_base}/en_default_se.pth').to(device)
 en_source_style_se = torch.load(f'{en_ckpt_base}/en_style_se.pth').to(device)
 zh_source_se = torch.load(f'{zh_ckpt_base}/zh_default_se.pth').to(device)
-# Extract speaker embedding from the default Mickey Mouse audio
 default_speaker_audio = "resources/output.wav"
 try:
     target_se, _ = se_extractor.get_se(
@@ -78,19 +73,16 @@ try:
 except Exception as e:
     raise RuntimeError(f"Failed to extract speaker embedding from {default_speaker_audio}: {str(e)}")
-# Supported languages
 supported_languages = ['zh', 'en']
 def predict(audio_file_pth, agree):
     text_hint = ''
     synthesized_audio_path = None
-    # Agree with the terms
     if not agree:
         text_hint += '[ERROR] Please accept the Terms & Conditions!\n'
         return (text_hint, None)
-    # Check if audio file is provided
     if audio_file_pth is not None:
         speaker_wav = audio_file_pth
     else:
@@ -115,7 +107,6 @@ def predict(audio_file_pth, agree):
         text_hint += "[ERROR] No speech detected in the audio.\n"
         return (text_hint, None)
-    # Detect language
     language_predicted = langid.classify(input_text)[0].strip()
     print(f"Detected language: {language_predicted}")
@@ -123,7 +114,6 @@ def predict(audio_file_pth, agree):
         text_hint += f"[ERROR] The detected language '{language_predicted}' is not supported. Supported languages are: {supported_languages}\n"
         return (text_hint, None)
-    # Select TTS model based on language
     if language_predicted == "zh":
         tts_model = zh_base_speaker_tts
         language = 'Chinese'
@@ -133,7 +123,6 @@ def predict(audio_file_pth, agree):
         language = 'English'
         speaker_style = 'default'
-    # Generate response using OpenAI GPT-4
     try:
         response = openai.chat.completions.create(
             model="gpt-4o-mini",
@@ -152,10 +141,8 @@ def predict(audio_file_pth, agree):
         text_hint += f"[ERROR] Failed to get response from OpenAI GPT-4: {str(e)}\n"
         return (text_hint, None)
-    # Synthesize reply text to audio
     try:
         src_path = os.path.join(output_dir, 'tmp_reply.wav')
         tts_model.tts(reply_text, src_path, speaker=speaker_style, language=language)
         print(f"Audio synthesized and saved to {src_path}")
@@ -172,7 +159,6 @@ def predict(audio_file_pth, agree):
         text_hint += "Response generated successfully.\n"
         synthesized_audio_path = save_path
     except Exception as e:
         text_hint += f"[ERROR] Failed to synthesize audio: {str(e)}\n"
         traceback.print_exc()
@@ -184,7 +170,6 @@ app = FastAPI()
 @app.post("/predict")
 async def predict_endpoint(agree: bool = Form(...), audio_file: UploadFile = File(...)):
-    # Save the uploaded file locally
     temp_dir = "temp"
     os.makedirs(temp_dir, exist_ok=True)
     audio_path = os.path.join(temp_dir, audio_file.filename)
@@ -193,12 +178,9 @@ async def predict_endpoint(agree: bool = Form(...), audio_file: UploadFile = Fil
     info, audio_output_path = predict(audio_path, agree)
     if audio_output_path:
-        # Return a JSON response with info and a path to the audio file.
-        # You could return the file content as base64 if you prefer.
         return JSONResponse(content={"info": info, "audio_path": audio_output_path})
     else:
         return JSONResponse(content={"info": info, "audio_path": None}, status_code=400)
 if __name__ == "__main__":
-    uvicorn.run(app, host="0.0.0.0", port=int(os.environ.get("PORT", 7860)), debug=True)

 # Load environment variables
 load_dotenv()
 def download_and_extract_checkpoints():
     zip_url = "https://huggingface.co/camenduru/OpenVoice/resolve/main/checkpoints_1226.zip"
     zip_path = "checkpoints.zip"
 if not openai.api_key:
     raise ValueError("Please set the OPENAI_API_KEY environment variable.")
 en_ckpt_base = 'checkpoints/base_speakers/EN'
 zh_ckpt_base = 'checkpoints/base_speakers/ZH'
 ckpt_converter = 'checkpoints/converter'
 output_dir = 'outputs'
 os.makedirs(output_dir, exist_ok=True)
 en_base_speaker_tts = BaseSpeakerTTS(f'{en_ckpt_base}/config.json', device=device)
 en_base_speaker_tts.load_ckpt(f'{en_ckpt_base}/checkpoint.pth')
 zh_base_speaker_tts = BaseSpeakerTTS(f'{zh_ckpt_base}/config.json', device=device)
 tone_color_converter = ToneColorConverter(f'{ckpt_converter}/config.json', device=device)
 tone_color_converter.load_ckpt(f'{ckpt_converter}/checkpoint.pth')
 en_source_default_se = torch.load(f'{en_ckpt_base}/en_default_se.pth').to(device)
 en_source_style_se = torch.load(f'{en_ckpt_base}/en_style_se.pth').to(device)
 zh_source_se = torch.load(f'{zh_ckpt_base}/zh_default_se.pth').to(device)
 default_speaker_audio = "resources/output.wav"
 try:
     target_se, _ = se_extractor.get_se(
 except Exception as e:
     raise RuntimeError(f"Failed to extract speaker embedding from {default_speaker_audio}: {str(e)}")
 supported_languages = ['zh', 'en']
 def predict(audio_file_pth, agree):
     text_hint = ''
     synthesized_audio_path = None
     if not agree:
         text_hint += '[ERROR] Please accept the Terms & Conditions!\n'
         return (text_hint, None)
     if audio_file_pth is not None:
         speaker_wav = audio_file_pth
     else:
         text_hint += "[ERROR] No speech detected in the audio.\n"
         return (text_hint, None)
     language_predicted = langid.classify(input_text)[0].strip()
     print(f"Detected language: {language_predicted}")
         text_hint += f"[ERROR] The detected language '{language_predicted}' is not supported. Supported languages are: {supported_languages}\n"
         return (text_hint, None)
     if language_predicted == "zh":
         tts_model = zh_base_speaker_tts
         language = 'Chinese'
         language = 'English'
         speaker_style = 'default'
     try:
         response = openai.chat.completions.create(
             model="gpt-4o-mini",
         text_hint += f"[ERROR] Failed to get response from OpenAI GPT-4: {str(e)}\n"
         return (text_hint, None)
     try:
         src_path = os.path.join(output_dir, 'tmp_reply.wav')
         tts_model.tts(reply_text, src_path, speaker=speaker_style, language=language)
         print(f"Audio synthesized and saved to {src_path}")
         text_hint += "Response generated successfully.\n"
         synthesized_audio_path = save_path
     except Exception as e:
         text_hint += f"[ERROR] Failed to synthesize audio: {str(e)}\n"
         traceback.print_exc()
 @app.post("/predict")
 async def predict_endpoint(agree: bool = Form(...), audio_file: UploadFile = File(...)):
     temp_dir = "temp"
     os.makedirs(temp_dir, exist_ok=True)
     audio_path = os.path.join(temp_dir, audio_file.filename)
     info, audio_output_path = predict(audio_path, agree)
     if audio_output_path:
         return JSONResponse(content={"info": info, "audio_path": audio_output_path})
     else:
         return JSONResponse(content={"info": info, "audio_path": None}, status_code=400)
 if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=int(os.environ.get("PORT", 7860)))