Voice_Assistant_TTS_long

Sleeping

Siddhant commited on Sep 8

Commit

03648b3

•

1 Parent(s): 925a881

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -72,7 +72,7 @@ ASR_model = AutoModelForSpeechSeq2Seq.from_pretrained(
 ).to("cpu")
 LM_tokenizer = AutoTokenizer.from_pretrained("HuggingFaceTB/SmolLM-360M-Instruct")
 LM_model = AutoModelForCausalLM.from_pretrained(
-    "HuggingFaceTB/SmolLM-360M-Instruct", torch_dtype=torch_dtype, trust_remote_code=True
 ).to("cpu")
 LM_pipe = pipeline(
     "text-generation", model=LM_model, tokenizer=LM_tokenizer, device="cpu"
@@ -109,7 +109,7 @@ def transcribe(stream, new_chunk):
         duration_ms = len(array) / sr * 1000
         if (not(duration_ms < min_speech_ms or duration_ms > max_speech_ms)):
             input_features = ASR_processor(
-                spoken_prompt, sampling_rate=16000, return_tensors="pt"
             ).input_features
             input_features = input_features.to("cpu", dtype="float16")
             pred_ids = ASR_model.generate(input_features, gen_max_new_tokens=128, gen_min_new_tokens=0, gen_num_beams=1, gen_return_timestamps=False,gen_task="transcribe",gen_language="en")
@@ -119,7 +119,7 @@ def transcribe(stream, new_chunk):
             # prompt=ASR_model.transcribe(array)["text"].strip()
             chat.append({"role": user_role, "content": prompt})
             chat_messages = chat.to_list()
-            output=pipeline(
                 chat_messages,
                 gen_max_new_tokens=128,
                 gen_min_new_tokens=0,

 ).to("cpu")
 LM_tokenizer = AutoTokenizer.from_pretrained("HuggingFaceTB/SmolLM-360M-Instruct")
 LM_model = AutoModelForCausalLM.from_pretrained(
+    "HuggingFaceTB/SmolLM-360M-Instruct", torch_dtype="float16", trust_remote_code=True
 ).to("cpu")
 LM_pipe = pipeline(
     "text-generation", model=LM_model, tokenizer=LM_tokenizer, device="cpu"
         duration_ms = len(array) / sr * 1000
         if (not(duration_ms < min_speech_ms or duration_ms > max_speech_ms)):
             input_features = ASR_processor(
+                array, sampling_rate=16000, return_tensors="pt"
             ).input_features
             input_features = input_features.to("cpu", dtype="float16")
             pred_ids = ASR_model.generate(input_features, gen_max_new_tokens=128, gen_min_new_tokens=0, gen_num_beams=1, gen_return_timestamps=False,gen_task="transcribe",gen_language="en")
             # prompt=ASR_model.transcribe(array)["text"].strip()
             chat.append({"role": user_role, "content": prompt})
             chat_messages = chat.to_list()
+            output=LM_pipe(
                 chat_messages,
                 gen_max_new_tokens=128,
                 gen_min_new_tokens=0,