Spaces:

salomonsky
/

xaman2

Sleeping

App Files Files Community

salomonsky commited on Jan 20, 2024

Commit

0ee9f45

verified ·

1 Parent(s): 5bbd161

Update app.py

Browse files

Files changed (1) hide show

app.py +65 -31

app.py CHANGED Viewed

@@ -3,33 +3,68 @@ import base64
 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
-from audiorecorder import audiorecorder
 import speech_recognition as sr
-from pydub import AudioSegment
 if "history" not in st.session_state:
     st.session_state.history = []
 def recognize_speech(audio_data, show_messages=True):
     recognizer = sr.Recognizer()
-    audio_recording = sr.AudioFile(audio_data)
-    with audio_recording as source:
-        audio = recognizer.record(source)
     try:
-        audio_text = recognizer.recognize_google(audio, language="es-ES")
         if show_messages:
             st.subheader("Texto Reconocido:")
             st.write(audio_text)
             st.success("Reconocimiento de voz completado.")
     except sr.UnknownValueError:
         st.warning("No se pudo reconocer el audio. ¿Intentaste grabar algo?")
-        audio_text = ""
     except sr.RequestError:
-        st.error("Hablame para comenzar!")
-        audio_text = ""
     return audio_text
 def format_prompt(message, history):
@@ -84,26 +119,25 @@ def text_to_speech(text, speed=1.3):
 def main():
     st.title("Chatbot de Voz a Voz")
-    audio_data = audiorecorder("Habla para grabar", "Deteniendo la grabación...")
-    if not audio_data.empty():
-        st.audio(audio_data.export().read(), format="audio/wav")
-        audio_data.export("audio.wav", format="wav")
-        audio_text = recognize_speech("audio.wav")
-        if audio_text:
-            output, audio_file = generate(audio_text, history=st.session_state.history)
-            if audio_text:
-                st.session_state.history.append((audio_text, output))
-            if audio_file is not None:
-                st.markdown(
-                    f"""
-                    <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
-                    """,
-                    unsafe_allow_html=True
-                )
 if __name__ == "__main__":
     main()

 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
+import pyaudio
+import numpy as np
 import speech_recognition as sr
 if "history" not in st.session_state:
     st.session_state.history = []
+def find_input_device():
+    p = pyaudio.PyAudio()
+    for i in range(p.get_device_count()):
+        info = p.get_device_info_by_index(i)
+        if info['maxInputChannels'] > 0:
+            return i
+    return None
+def record_audio(prompt):
+    st.subheader(prompt)
+    fs = 44100  # Sample rate
+    seconds = 5  # Duration of recording
+    device_index = find_input_device()
+    if device_index is None:
+        st.warning("No se detectaron dispositivos de entrada. Asegúrate de tener un micrófono conectado y configurado correctamente.")
+        st.stop()
+    p = pyaudio.PyAudio()
+    stream = p.open(format=pyaudio.paInt16,
+                    channels=2,
+                    rate=fs,
+                    input=True,
+                    input_device_index=device_index,
+                    frames_per_buffer=1024)
+    frames = []
+    with st.spinner("Grabando..."):
+        for i in range(int(fs / 1024 * seconds)):
+            frames.append(stream.read(1024))
+    stream.stop_stream()
+    stream.close()
+    p.terminate()
+    return np.frombuffer(b''.join(frames), dtype=np.int16)
 def recognize_speech(audio_data, show_messages=True):
     recognizer = sr.Recognizer()
+    audio_array = np.array(audio_data, dtype=np.int16)
+    audio_text = ""
     try:
+        audio_text = recognizer.recognize_google(audio_array, language="es-ES")
         if show_messages:
             st.subheader("Texto Reconocido:")
             st.write(audio_text)
             st.success("Reconocimiento de voz completado.")
     except sr.UnknownValueError:
         st.warning("No se pudo reconocer el audio. ¿Intentaste grabar algo?")
     except sr.RequestError:
+        st.error("Error al reconocer el audio. Asegúrate de tener una conexión a Internet.")
     return audio_text
 def format_prompt(message, history):
 def main():
     st.title("Chatbot de Voz a Voz")
+    audio_data = record_audio("Habla para grabar")
+    st.audio(audio_data, format="audio/wav", sample_rate=44100)
+    audio_text = recognize_speech(audio_data)
+    if audio_text:
+        output, audio_file = generate(audio_text, history=st.session_state.history)
+        if audio_text:
+            st.session_state.history.append((audio_text, output))
+        if audio_file is not None:
+            st.markdown(
+                f"""
+                <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
+                """,
+                unsafe_allow_html=True
+            )
 if __name__ == "__main__":
     main()