Spaces:

salomonsky
/

xaman2

Sleeping

salomonsky commited on Jan 24, 2024

Commit

713e319

verified ·

1 Parent(s): 08bb6b5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,7 @@
 import io
 import base64
 from gtts import gTTS
 import streamlit as st
 import speech_recognition as sr
@@ -14,11 +16,12 @@ if "pre_prompt_sent" not in st.session_state:
 pre_prompt_text = "eres una IA conductual, tus respuestas serán breves."
-def recognize_speech(audio_data, show_messages=True):
     recognizer = sr.Recognizer()
     try:
-        audio_text = recognizer.recognize_google(audio_data, language="es-ES")
         if show_messages:
             st.subheader("Texto Reconocido:")
             st.write(audio_text)
@@ -95,17 +98,17 @@ def main():
     if not st.session_state.pre_prompt_sent:
         st.session_state.pre_prompt_sent = True
-    audio = mic_recorder(start_prompt="▶️", stop_prompt="🛑", key='recorder', sample_rate=16000)
     if audio:
         st.audio(audio['bytes'], format="audio/wav")
-        audio_bytes = audio["bytes"]
-        audio_text = recognize_speech(audio_bytes)
         if audio_text:
-            output, audio_file = generate(audio_text, history=st.session_state.history)
-            display_recognition_result(audio_text, output, audio_file)
 if __name__ == "__main__":
     main()

 import io
 import base64
+import numpy as np
+import soundfile as sf
 from gtts import gTTS
 import streamlit as st
 import speech_recognition as sr
 pre_prompt_text = "eres una IA conductual, tus respuestas serán breves."
+def recognize_speech(audio_data, sample_rate, show_messages=True):
     recognizer = sr.Recognizer()
     try:
+        adjusted_audio_data = sf.resample(audio_data, sample_rate, 16000, subtype='PCM_16')
+        audio_text = recognizer.recognize_google(adjusted_audio_data, language="es-ES")
         if show_messages:
             st.subheader("Texto Reconocido:")
             st.write(audio_text)
     if not st.session_state.pre_prompt_sent:
         st.session_state.pre_prompt_sent = True
+    audio = mic_recorder(start_prompt="▶️", stop_prompt="🛑", key='recorder')
     if audio:
         st.audio(audio['bytes'], format="audio/wav")
+        audio_bytes = np.frombuffer(audio["bytes"], dtype=np.int16)
+        sample_rate = audio["sample_rate"]
+        audio_text = recognize_speech(audio_bytes, sample_rate)
         if audio_text:
+            st.session_state.history.append((audio_text, ""))
 if __name__ == "__main__":
     main()