Spaces:

salomonsky
/

xaman2

Sleeping

App Files Files Community

salomonsky commited on Jan 24, 2024

Commit

ff663fa

verified ·

1 Parent(s): badb078

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -30

app.py CHANGED Viewed

@@ -1,15 +1,10 @@
 import io
 import base64
-import numpy as np
 from gtts import gTTS
 import streamlit as st
 import speech_recognition as sr
 from huggingface_hub import InferenceClient
 from streamlit_mic_recorder import mic_recorder
-import webrtcvad
-import wave
-temp_audio_file_path = "./output.wav"
 if "history" not in st.session_state:
     st.session_state.history = []
@@ -97,12 +92,6 @@ def display_recognition_result(audio_text, output, audio_file):
             f"""<audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>""",
             unsafe_allow_html=True)
-def detect_silence(audio_data, sample_rate, silence_threshold=5000, silence_duration=5000):
-    is_silence = lambda x: max(x) < silence_threshold
-    chunks = [audio_data[i:i+silence_duration] for i in range(0, len(audio_data), silence_duration)]
-    silent_chunks = [chunk for chunk in chunks if is_silence(chunk)]
-    return silent_chunks
 def main():
     if not st.session_state.pre_prompt_sent:
         st.session_state.pre_prompt_sent = True
@@ -112,25 +101,12 @@ def main():
     if audio:
         st.audio(audio['bytes'], format="audio/wav")
         audio_bytes = audio["bytes"]
-        sample_width = audio["sample_width"]
-        sample_rate = audio["sample_rate"]
-        with wave.open(temp_audio_file_path, 'wb') as wave_file:
-            wave_file.setnchannels(1)
-            wave_file.setsampwidth(sample_width)
-            wave_file.setframerate(sample_rate)
-            wave_file.writeframes(audio_bytes)
-        audio_data = np.frombuffer(audio_bytes, dtype=np.int16)
-        silent_chunks = detect_silence(audio_data, sample_rate)
-        for silent_chunk in silent_chunks:
-            audio_text = recognize_speech(silent_chunk)
-            st.subheader("Texto Reconocido:")
-            st.write(audio_text)
-            st.session_state.history.append((audio_text, ""))
-            response, audio_file = generate(audio_text, st.session_state.history)
-            display_recognition_result(audio_text, response, audio_file)
 if __name__ == "__main__":
     main()

 import io
 import base64
 from gtts import gTTS
 import streamlit as st
 import speech_recognition as sr
 from huggingface_hub import InferenceClient
 from streamlit_mic_recorder import mic_recorder
 if "history" not in st.session_state:
     st.session_state.history = []
             f"""<audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>""",
             unsafe_allow_html=True)
 def main():
     if not st.session_state.pre_prompt_sent:
         st.session_state.pre_prompt_sent = True
     if audio:
         st.audio(audio['bytes'], format="audio/wav")
         audio_bytes = audio["bytes"]
+        audio_text = recognize_speech(audio_bytes)
+        if audio_text:
+            output, audio_file = generate(audio_text, history=st.session_state.history)
+            display_recognition_result(audio_text, output, audio_file)
 if __name__ == "__main__":
     main()