Voice_Assistant_TTS_long

Sleeping

Siddhant commited on 23 days ago

Commit

0b47b7c

•

1 Parent(s): daefe1f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -185,7 +185,7 @@ def transcribe(stream, new_chunk):
         if (vad.is_speech(y[i*960:(i+1)*960].tobytes(), orig_sr)):
             vad_count+=1
     print(vad_count)
-    if vad_output is None and vad_count>15:
         vad_curr=True
         if vad_output is None:
             vad_output=[torch.from_numpy(audio_float32)]
@@ -216,6 +216,8 @@ def transcribe(stream, new_chunk):
             #     pred_ids, skip_special_tokens=True, decode_with_timestamps=False
             # )[0]
             print(len(array))
             start_time = time.time()
             prompt=" ".join(s2t(array)[0][0].split()[1:])
             vad_output = None
@@ -224,6 +226,7 @@ def transcribe(stream, new_chunk):
                 return stream, text_str1, audio_output
             # prompt=transcriber({"sampling_rate": sr, "raw": array})["text"]
             print(prompt)
             print("--- %s seconds ---" % (time.time() - start_time))
             # prompt=ASR_model.transcribe(array)["text"].strip()

         if (vad.is_speech(y[i*960:(i+1)*960].tobytes(), orig_sr)):
             vad_count+=1
     print(vad_count)
+    if vad_output is None and vad_count>12:
         vad_curr=True
         if vad_output is None:
             vad_output=[torch.from_numpy(audio_float32)]
             #     pred_ids, skip_special_tokens=True, decode_with_timestamps=False
             # )[0]
             print(len(array))
+            array = librosa.util.fix_length(array, size=(16000 * 30))
+            print(len(array))
             start_time = time.time()
             prompt=" ".join(s2t(array)[0][0].split()[1:])
             vad_output = None
                 return stream, text_str1, audio_output
             # prompt=transcriber({"sampling_rate": sr, "raw": array})["text"]
+            print(len(prompt.strip().split()))
             print(prompt)
             print("--- %s seconds ---" % (time.time() - start_time))
             # prompt=ASR_model.transcribe(array)["text"].strip()