llama-3.2-3b-voice-webrtc

Running

App Files Files Community

freddyaboulton HF staff commited on Nov 1

Commit

645d699

•

1 Parent(s): e9633ca

modify

Browse files

Files changed (1) hide show

app.py +36 -46

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ import openai
 import time
 import base64
 def create_client(api_key):
     return openai.OpenAI(
         base_url="https://llama3-1-8b.lepton.run/api/v1/",
@@ -24,7 +25,8 @@ def update_or_append_conversation(conversation, id, role, content):
     conversation.append({"id": id, "role": role, "content": content})
-def generate_response_and_audio(audio_bytes: bytes, lepton_conversation: list[str], client: OpenAI, output_format: str):
     if client is None:
         raise gr.Error("Please enter a valid API key first.")
@@ -32,7 +34,7 @@ def generate_response_and_audio(audio_bytes: bytes, lepton_conversation: list[st
     audio_data = base64.b64encode(audio_bytes).decode()
     try:
-        stream = state.client.chat.completions.create(
             extra_body={
                 "require_audio": True,
                 "tts_preset_id": "jessica",
@@ -82,7 +84,7 @@ def generate_response_and_audio(audio_bytes: bytes, lepton_conversation: list[st
         raise gr.Error(f"Error during audio streaming: {e}")
 def response(audio: tuple[int, np.ndarray], lepton_conversation: list[dict],
-             gradio_conversation: list[dict], client: OpenAI, output_format: str):
     audio_buffer = io.BytesIO()
     segment = AudioSegment(
@@ -93,7 +95,7 @@ def response(audio: tuple[int, np.ndarray], lepton_conversation: list[dict],
     )
     segment.export(audio_buffer, format="wav")
-    generator = generate_response_and_audio(audio_buffer.getvalue(), state)
     for id, text, asr, audio in generator:
         if asr:
@@ -107,53 +109,41 @@ def response(audio: tuple[int, np.ndarray], lepton_conversation: list[dict],
         else:
             yield AdditionalOutputs(lepton_conversation, gradio_conversation)
-with gr.Blocks() as demo:
-    with gr.Row():
-        api_key_input = gr.Textbox(type="password", label="Enter your Lepton API Key")
-        set_key_button = gr.Button("Set API Key")
-    api_key_status = gr.Textbox(label="API Key Status", interactive=False)
-    with gr.Row():
-        format_dropdown = gr.Dropdown(choices=["mp3", "opus"], value="mp3", label="Output Audio Format")
     with gr.Row():
-        with gr.Column():
-            input_audio = gr.Audio(label="Input Audio", sources="microphone", type="numpy")
-        with gr.Column():
             chatbot = gr.Chatbot(label="Conversation", type="messages")
-            output_audio = gr.Audio(label="Output Audio", autoplay=True)
-    state = gr.State(AppState())
-    set_key_button.click(set_api_key, inputs=[api_key_input, state], outputs=[api_key_status, state])
-    format_dropdown.change(update_format, inputs=[format_dropdown, state], outputs=[state])
-    stream = input_audio.stream(
-        process_audio,
-        [input_audio, state],
-        [input_audio, state],
-        stream_every=0.25,  # Reduced to make it more responsive
-        time_limit=60,  # Increased to allow for longer messages
-    )
-    stream.then(
-        maybe_call_response,
-        inputs=[state],
-        outputs=[chatbot, output_audio, state],
-    )
-    # Automatically restart recording after the assistant's response
-    restart = output_audio.change(
-        start_recording_user,
-        [state],
-        [input_audio]
     )
-    # Add a "Stop Conversation" button
-    cancel = gr.Button("Stop Conversation", variant="stop")
-    cancel.click(lambda: (AppState(stopped=True), gr.update(recording=False)), None,
-                 [state, input_audio], cancels=[stream, restart])
     demo.launch()

 import time
 import base64
 def create_client(api_key):
     return openai.OpenAI(
         base_url="https://llama3-1-8b.lepton.run/api/v1/",
     conversation.append({"id": id, "role": role, "content": content})
+def generate_response_and_audio(audio_bytes: bytes, lepton_conversation: list[dict],
+                                client: openai.OpenAI, output_format: str):
     if client is None:
         raise gr.Error("Please enter a valid API key first.")
     audio_data = base64.b64encode(audio_bytes).decode()
     try:
+        stream = client.chat.completions.create(
             extra_body={
                 "require_audio": True,
                 "tts_preset_id": "jessica",
         raise gr.Error(f"Error during audio streaming: {e}")
 def response(audio: tuple[int, np.ndarray], lepton_conversation: list[dict],
+             gradio_conversation: list[dict], client: openai.OpenAI, output_format: str):
     audio_buffer = io.BytesIO()
     segment = AudioSegment(
     )
     segment.export(audio_buffer, format="wav")
+    generator = generate_response_and_audio(audio_buffer.getvalue(), lepton_conversation, client, output_format)
     for id, text, asr, audio in generator:
         if asr:
         else:
             yield AdditionalOutputs(lepton_conversation, gradio_conversation)
+def set_api_key(api_key):
+    if not api_key:
+        raise gr.Error("Please enter a valid API key.")
+    client = create_client(api_key)
+    return client
+with gr.Blocks() as demo:
     with gr.Row():
+        with gr.Group():
+            with gr.Column():
+                api_key_input = gr.Textbox(type="password", label="Enter your Lepton API Key")
+                api_key_status = gr.Textbox(label="API Key Status", interactive=False)
+            with gr.Column():
+                set_key_button = gr.Button("Set API Key")
+    with gr.Group():
+        with gr.Row():
             chatbot = gr.Chatbot(label="Conversation", type="messages")
+        with gr.Row():
+            with gr.Column():
+                format_dropdown = gr.Dropdown(choices=["mp3", "opus"], value="mp3", label="Output Audio Format")
+            with gr.Column():
+                audio = WebRTC(modality="audio", mode="send-receive",
+                               label="Audio Stream")
+    client_state = gr.State(None)
+    lepton_conversation = gr.State([])
+    audio.stream(
+        ReplyOnPause(response),
+        inputs=[audio, lepton_conversation, chatbot, client_state, format_dropdown],
+        outputs=[audio]
     )
+    audio.on_additional_outputs(lambda l, g: (l, g), outputs=[lepton_conversation, chatbot])
+if __name__ == "__main__":
     demo.launch()