xaman4

Running

App Files Files Community

salomonsky commited on Jan 25

Commit

eb77a73

verified ·

1 Parent(s): 1d6048e

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -56

app.py CHANGED Viewed

@@ -1,10 +1,9 @@
 import streamlit as st
 import torch
 import numpy as np
-import pyaudio
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 from gtts import gTTS
-import os
 class VoiceAssistant:
     def __init__(self):
@@ -14,67 +13,31 @@ class VoiceAssistant:
         self.sample_rate = 16000
         self.chunk_size = 480
-        self.p = pyaudio.PyAudio()
-        self.input_device_index = self.select_input_device()
-        self.stream = self.p.open(
-            format=pyaudio.paFloat32,
-            channels=1,
-            rate=self.sample_rate,
-            input=True,
-            input_device_index=self.input_device_index,
-            frames_per_buffer=self.chunk_size
-        )
         self.keyword_activation = "jarvis"
         self.keyword_deactivation = "detente"
         self.listening = False
-    def select_input_device(self):
-        for i in range(self.p.get_device_count()):
-            dev = self.p.get_device_info_by_index(i)
-            if dev['maxInputChannels'] > 0:
-                print(f"Dispositivo {i}: {dev['name']}")
-        for i in range(self.p.get_device_count()):
-            dev = self.p.get_device_info_by_index(i)
-            if dev['maxInputChannels'] > 0:
-                try:
-                    test_stream = self.p.open(
-                        format=pyaudio.paFloat32,
-                        channels=1,
-                        rate=self.sample_rate,
-                        input=True,
-                        input_device_index=i,
-                        frames_per_buffer=self.chunk_size
-                    )
-                    test_stream.close()
-                    return i
-                except Exception:
-                    continue
-        raise RuntimeError("No input device found")
     def vad_collector(self):
         audio_chunks, keyword_detected = [], False
-        while self.listening:
-            try:
-                data = self.stream.read(self.chunk_size)
-                audio_chunk = np.frombuffer(data, dtype=np.float32)
-                if self.keyword_activation.lower() in str(audio_chunk).lower():
-                    keyword_detected = True
-                    break
-                if self.keyword_deactivation.lower() in str(audio_chunk).lower():
-                    self.listening = False
                     break
-                audio_chunks.append(audio_chunk)
-            except Exception as e:
-                st.error(f"Audio capture error: {e}")
-                break
         return audio_chunks, keyword_detected
@@ -125,4 +88,4 @@ def main():
     assistant.run()
 if __name__ == "__main__":
-    main()

 import streamlit as st
 import torch
+import torchaudio
 import numpy as np
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 from gtts import gTTS
 class VoiceAssistant:
     def __init__(self):
         self.sample_rate = 16000
         self.chunk_size = 480
         self.keyword_activation = "jarvis"
         self.keyword_deactivation = "detente"
         self.listening = False
     def vad_collector(self):
         audio_chunks, keyword_detected = [], False
+        with torchaudio.io.AudioStream(sample_rate=self.sample_rate, channels=1, format='wav') as stream:
+            while self.listening:
+                try:
+                    data = stream.read(self.chunk_size)
+                    audio_chunk = torch.from_numpy(np.frombuffer(data, dtype=np.float32))
+                    if self.keyword_activation.lower() in str(audio_chunk).lower():
+                        keyword_detected = True
+                        break
+                    if self.keyword_deactivation.lower() in str(audio_chunk).lower():
+                        self.listening = False
+                        break
+                    audio_chunks.append(audio_chunk.numpy())
+                except Exception as e:
+                    st.error(f"Audio capture error: {e}")
                     break
         return audio_chunks, keyword_detected
     assistant.run()
 if __name__ == "__main__":
+    main()