Voice_Assistant_TTS_long

Sleeping

Siddhant commited on 23 days ago

Commit

ad2eea0

•

1 Parent(s): ff79b53

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -115,6 +115,7 @@ def int2float(sound):
     return sound
 text_str=""
 audio_output = None
 min_speech_ms=500
 max_speech_ms=float("inf")
@@ -146,14 +147,15 @@ LM_pipe(
 )
 end_event.record()
 torch.cuda.synchronize()
-vad_model, _ = torch.hub.load("snakers4/silero-vad:v4.0", "silero_vad")
-vad_iterator = VADIterator(
-    vad_model,
-    threshold=0.3,
-    sampling_rate=16000,
-    min_silence_duration_ms=250,
-    speech_pad_ms=500,
-)
 import time
 def transcribe(stream, new_chunk):
@@ -162,6 +164,7 @@ def transcribe(stream, new_chunk):
     global chat
     global user_role
     global audio_output
     audio_int16 = np.frombuffer(y, dtype=np.int16)
     audio_float32 = int2float(audio_int16)
@@ -175,9 +178,23 @@ def transcribe(stream, new_chunk):
     print(log_mel_spectrogram)
     print(sr)
     print(audio_float32.shape)
-    vad_output = vad_iterator(torch.from_numpy(audio_float32))
-    if vad_output is not None and len(vad_output) != 0:
         print("VAD: end of speech detected")
         array = torch.cat(vad_output).cpu().numpy()
         duration_ms = len(array) / sr * 1000

     return sound
 text_str=""
+vad_output=None
 audio_output = None
 min_speech_ms=500
 max_speech_ms=float("inf")
 )
 end_event.record()
 torch.cuda.synchronize()
+# vad_model, _ = torch.hub.load("snakers4/silero-vad:v4.0", "silero_vad")
+# vad_iterator = VADIterator(
+#     vad_model,
+#     threshold=0.3,
+#     sampling_rate=16000,
+#     min_silence_duration_ms=250,
+#     speech_pad_ms=500,
+# )
+import webrtcvad
 import time
 def transcribe(stream, new_chunk):
     global chat
     global user_role
     global audio_output
+    global vad_output
     audio_int16 = np.frombuffer(y, dtype=np.int16)
     audio_float32 = int2float(audio_int16)
     print(log_mel_spectrogram)
     print(sr)
     print(audio_float32.shape)
+    # vad_output = vad_iterator(torch.from_numpy(audio_float32))
+    vad_count=0
+    for i in range(int(len(y)/960)):
+        vad = webrtcvad.Vad()
+        vad.set_mode(3)
+        if (vad.is_speech(y[i*960:(i+1)*960].tobytes(), orig_sr)):
+            vad_count+=1
+    if vad_count>10:
+        vad_curr=True
+        if vad_output is None:
+            vad_output=[torch.from_numpy(audio_float32)]
+        else:
+            vad_output.append(torch.from_numpy(audio_float32))
+    else:
+        vad_curr=False
+    if vad_output is not None and vad_curr==False:
         print("VAD: end of speech detected")
         array = torch.cat(vad_output).cpu().numpy()
         duration_ms = len(array) / sr * 1000