Spaces:

salomonsky
/

xaman2

Sleeping

App Files Files Community

salomonsky commited on Jan 24, 2024

Commit

d6b9b98

verified ·

1 Parent(s): 32cf407

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -27

app.py CHANGED Viewed

@@ -1,12 +1,16 @@
 import io
 import base64
-import numpy as np
-import soundfile as sf
 from gtts import gTTS
 import streamlit as st
 import speech_recognition as sr
 from huggingface_hub import InferenceClient
 from streamlit_mic_recorder import mic_recorder
 if "history" not in st.session_state:
     st.session_state.history = []
@@ -14,24 +18,22 @@ if "history" not in st.session_state:
 if "pre_prompt_sent" not in st.session_state:
     st.session_state.pre_prompt_sent = False
-pre_prompt_text = "eres una IA conductual, tus respuestas serán breves."
-def recognize_speech(audio_data, sample_rate, show_messages=True):
     recognizer = sr.Recognizer()
-    try:
-        adjusted_audio_data = sf.resample(audio_data, sample_rate, 16000, subtype='PCM_16')
-        audio_text = recognizer.recognize_google(adjusted_audio_data, language="es-ES")
-        if show_messages:
-            st.subheader("Texto Reconocido:")
-            st.write(audio_text)
-            st.success("Reconocimiento de voz completado.")
-    except sr.UnknownValueError:
-        st.warning("No se pudo reconocer el audio. ¿Intentaste grabar algo?")
-        audio_text = ""
-    except sr.RequestError:
-        st.error("Hablame para comenzar!")
-        audio_text = ""
     return audio_text
@@ -100,15 +102,19 @@ def main():
     audio = mic_recorder(start_prompt="▶️", stop_prompt="🛑", key='recorder')
-    if audio:
-        st.audio(audio['bytes'], format="audio/wav")
-        audio_bytes = np.frombuffer(audio["bytes"], dtype=np.int16)
-        sample_rate = audio["sample_rate"]
-        audio_text = recognize_speech(audio_bytes, sample_rate)
-        if audio_text:
-            st.session_state.history.append((audio_text, ""))
 if __name__ == "__main__":
     main()

 import io
 import base64
 from gtts import gTTS
 import streamlit as st
 import speech_recognition as sr
 from huggingface_hub import InferenceClient
 from streamlit_mic_recorder import mic_recorder
+import wave
+import numpy as np
+import os
+pre_prompt_text = "eres una IA conductual, tus respuestas serán breves."
+temp_audio_file_path = "./output.wav"
 if "history" not in st.session_state:
     st.session_state.history = []
 if "pre_prompt_sent" not in st.session_state:
     st.session_state.pre_prompt_sent = False
+def recognize_speech(audio_data, show_messages=True):
     recognizer = sr.Recognizer()
+    with io.BytesIO(audio_data) as audio_file:
+        try:
+            audio_text = recognizer.recognize_google(audio_file, language="es-ES")
+            if show_messages:
+                st.subheader("Texto Reconocido:")
+                st.write(audio_text)
+                st.success("Reconocimiento de voz completado.")
+        except sr.UnknownValueError:
+            st.warning("No se pudo reconocer el audio. ¿Intentaste grabar algo?")
+            audio_text = ""
+        except sr.RequestError:
+            st.error("Hablame para comenzar!")
+            audio_text = ""
     return audio_text
     audio = mic_recorder(start_prompt="▶️", stop_prompt="🛑", key='recorder')
+    if audio:
+        st.audio(audio['bytes'])
+        audio_bytes = audio["bytes"]
+        sample_width = audio["sample_width"]  # 2 bytes per sample for 16-bit PCM
+        sample_rate = audio["sample_rate"]  # 44.1 kHz sample rate
+        num_channels = 1  # 1 channel for mono, 2 for stereo
+        with wave.open(temp_audio_file_path, 'w') as wave_file:
+            wave_file.setnchannels(num_channels)
+            wave_file.setsampwidth(sample_width)
+            wave_file.setframerate(sample_rate)
+            wave_file.writeframes(audio_bytes)
 if __name__ == "__main__":
     main()