Voice_Assistant_TTS_long

Sleeping

Siddhant commited on Sep 8

Commit

4ba2ab9

•

1 Parent(s): a3aa488

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -88,7 +88,7 @@ vad_iterator = VADIterator(
     speech_pad_ms=500,
 )
 def transcribe(stream, new_chunk):
     sr, y = new_chunk
     global text_str
@@ -119,19 +119,22 @@ def transcribe(stream, new_chunk):
             # prompt = ASR_processor.batch_decode(
             #     pred_ids, skip_special_tokens=True, decode_with_timestamps=False
             # )[0]
             prompt=transcriber({"sampling_rate": sr, "raw": array})["text"]
             print(prompt)
             # prompt=ASR_model.transcribe(array)["text"].strip()
             chat.append({"role": user_role, "content": prompt})
             chat_messages = chat.to_list()
             output=LM_pipe(
                 chat_messages,
-                max_new_tokens=128,
                 min_new_tokens=0,
                 temperature=0.0,
                 do_sample=False,
             )
             print(output)
             generated_text = output[0]['generated_text'][-1]["content"]
             print(generated_text)
             # torch.mps.empty_cache()
@@ -142,6 +145,7 @@ def transcribe(stream, new_chunk):
             audio_chunk = tts_model.tts_to_file(text_str, speaker_id, quiet=True)
             audio_chunk = (audio_chunk * 32768).astype(np.int16)
             audio_output=(44100, audio_chunk)
     # else:
     #     audio_output=None
     text_str1=text_str

     speech_pad_ms=500,
 )
+import time
 def transcribe(stream, new_chunk):
     sr, y = new_chunk
     global text_str
             # prompt = ASR_processor.batch_decode(
             #     pred_ids, skip_special_tokens=True, decode_with_timestamps=False
             # )[0]
+            start_time = time.time()
             prompt=transcriber({"sampling_rate": sr, "raw": array})["text"]
             print(prompt)
+            print("--- %s seconds ---" % (time.time() - start_time))
             # prompt=ASR_model.transcribe(array)["text"].strip()
             chat.append({"role": user_role, "content": prompt})
             chat_messages = chat.to_list()
             output=LM_pipe(
                 chat_messages,
+                max_new_tokens=32,
                 min_new_tokens=0,
                 temperature=0.0,
                 do_sample=False,
             )
             print(output)
+            print("--- %s seconds ---" % (time.time() - start_time))
             generated_text = output[0]['generated_text'][-1]["content"]
             print(generated_text)
             # torch.mps.empty_cache()
             audio_chunk = tts_model.tts_to_file(text_str, speaker_id, quiet=True)
             audio_chunk = (audio_chunk * 32768).astype(np.int16)
             audio_output=(44100, audio_chunk)
+            print("--- %s seconds ---" % (time.time() - start_time))
     # else:
     #     audio_output=None
     text_str1=text_str