llama-3.2-3b-voice-webrtc

Running

App Files Files Community

freddyaboulton HF staff commited on Nov 6, 2024

Commit

1ee1757

1 Parent(s): bcdc799

code

Browse files

Files changed (3) hide show

README.md +2 -2
app.py +48 -37
requirements.txt +1 -1

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
-title: Llama 3.2 3b Voice
-emoji: 👁
 colorFrom: green
 colorTo: indigo
 sdk: gradio

 ---
+title: Llama 3.2 3b WebRTC
+emoji: ⚡️
 colorFrom: green
 colorTo: indigo
 sdk: gradio

app.py CHANGED Viewed

@@ -25,12 +25,6 @@ else:
     rtc_configuration = None
-def create_client(api_key):
-    return openai.OpenAI(
-        base_url="https://llama3-1-8b.lepton.run/api/v1/",
-        api_key=api_key
-    )
 def update_or_append_conversation(conversation, id, role, content):
     # Find if there's an existing message with the given id
@@ -43,11 +37,12 @@ def update_or_append_conversation(conversation, id, role, content):
 def generate_response_and_audio(audio_bytes: bytes, lepton_conversation: list[dict],
-                                client: openai.OpenAI, output_format: str):
     if client is None:
         raise gr.Error("Please enter a valid API key first.")
-    bitrate = 128 if output_format == "mp3" else 32  # Higher bitrate for MP3, lower for OPUS
     audio_data = base64.b64encode(audio_bytes).decode()
     try:
@@ -55,7 +50,7 @@ def generate_response_and_audio(audio_bytes: bytes, lepton_conversation: list[di
             extra_body={
                 "require_audio": True,
                 "tts_preset_id": "jessica",
-                "tts_audio_format": format_,
                 "tts_audio_bitrate": bitrate
             },
             model="llama3.1-8b",
@@ -68,40 +63,48 @@ def generate_response_and_audio(audio_bytes: bytes, lepton_conversation: list[di
         id = str(time.time())
         full_response = ""
         asr_result = ""
-        for chunk in stream:
             if not chunk.choices:
                 continue
             delta = chunk.choices[0].delta
-            content = delta.get("content", "")
             audio = getattr(chunk.choices[0], "audio", [])
             asr_results = getattr(chunk.choices[0], "asr_results", [])
             if asr_results:
                 asr_result += "".join(asr_results)
                 yield id, None, asr_result, None
             if content:
                 full_response += content
                 yield id, full_response, None, None
             if audio:
                 # Accumulate audio bytes and yield them
                 audio_bytes_accumulated = b''.join([base64.b64decode(a) for a in audio])
-                audio = AudioSegment.from_file(io.BytesIO(audio_bytes_accumulated))
                 audio_array = np.array(audio.get_array_of_samples(), dtype=np.int16).reshape(1, -1)
-                print("audio.shape", audio_array.shape)
-                print("sampling_rate", audio.frame_rate)
                 yield id, None, None, (audio.frame_rate, audio_array)
         yield id, full_response, asr_result, None
     except Exception as e:
         raise gr.Error(f"Error during audio streaming: {e}")
 def response(audio: tuple[int, np.ndarray], lepton_conversation: list[dict],
-             gradio_conversation: list[dict], client: openai.OpenAI, output_format: str):
     audio_buffer = io.BytesIO()
     segment = AudioSegment(
@@ -110,55 +113,63 @@ def response(audio: tuple[int, np.ndarray], lepton_conversation: list[dict],
         sample_width=audio[1].dtype.itemsize,
         channels=1,
     )
-    segment.export(audio_buffer, format="wav")
-    generator = generate_response_and_audio(audio_buffer.getvalue(), lepton_conversation, client, output_format)
     for id, text, asr, audio in generator:
         if asr:
             update_or_append_conversation(lepton_conversation, id, "user", asr)
             update_or_append_conversation(gradio_conversation, id, "user", asr)
         if text:
             update_or_append_conversation(lepton_conversation, id, "assistant", text)
             update_or_append_conversation(gradio_conversation, id, "assistant", text)
         if audio:
-            yield audio, AdditionalOutputs(lepton_conversation, gradio_conversation)
         else:
             yield AdditionalOutputs(lepton_conversation, gradio_conversation)
-def set_api_key(api_key):
-    if not api_key:
-        raise gr.Error("Please enter a valid API key.")
-    client = create_client(api_key)
-    gr.Info("Set API Key Successfully")
-    return client, gr.skip()
 with gr.Blocks() as demo:
     with gr.Group():
         with gr.Row():
             chatbot = gr.Chatbot(label="Conversation", type="messages")
-        with gr.Row(equal_height=True):
-            with gr.Column(scale=1):
-                format_dropdown = gr.Dropdown(choices=["mp3", "opus"], value="mp3", label="Output Audio Format")
-                api_key_input = gr.Textbox(type="password", label="Enter your Lepton API Key")
-                set_key_button = gr.Button("Set API Key", variant="primary")
-            with gr.Column(scale=3):
-                audio = WebRTC(modality="audio", mode="send-receive",
                                 label="Audio Stream",
                                 rtc_configuration=rtc_configuration)
     client_state = gr.State(None)
-    lepton_conversation = gr.State([])
-    set_key_button.click(set_api_key, inputs=[api_key_input], outputs=[client_state, set_key_button])
     audio.stream(
         ReplyOnPause(response),
-        inputs=[audio, lepton_conversation, chatbot, client_state, format_dropdown],
         outputs=[audio]
     )
-    audio.on_additional_outputs(lambda l, g: (l, g), outputs=[lepton_conversation, chatbot])
     demo.launch()

     rtc_configuration = None
 def update_or_append_conversation(conversation, id, role, content):
     # Find if there's an existing message with the given id
 def generate_response_and_audio(audio_bytes: bytes, lepton_conversation: list[dict],
+                                client: openai.OpenAI):
     if client is None:
         raise gr.Error("Please enter a valid API key first.")
+    # mp3 bitrate
+    bitrate = 128
     audio_data = base64.b64encode(audio_bytes).decode()
     try:
             extra_body={
                 "require_audio": True,
                 "tts_preset_id": "jessica",
+                "tts_audio_format": "mp3",
                 "tts_audio_bitrate": bitrate
             },
             model="llama3.1-8b",
         id = str(time.time())
         full_response = ""
         asr_result = ""
+        all_audio = b""
+        for i, chunk in enumerate(stream):
             if not chunk.choices:
                 continue
             delta = chunk.choices[0].delta
+            content = delta.content
             audio = getattr(chunk.choices[0], "audio", [])
             asr_results = getattr(chunk.choices[0], "asr_results", [])
             if asr_results:
+                print(i, "asr_results")
                 asr_result += "".join(asr_results)
                 yield id, None, asr_result, None
             if content:
+                print(i, "content")
                 full_response += content
                 yield id, full_response, None, None
             if audio:
+                print(i, "audio")
                 # Accumulate audio bytes and yield them
                 audio_bytes_accumulated = b''.join([base64.b64decode(a) for a in audio])
+                all_audio += audio_bytes_accumulated
+                audio = AudioSegment.from_file(io.BytesIO(audio_bytes_accumulated), format="mp3")
                 audio_array = np.array(audio.get_array_of_samples(), dtype=np.int16).reshape(1, -1)
+                print("audio.frame_rate", audio.frame_rate)
                 yield id, None, None, (audio.frame_rate, audio_array)
+        if all_audio:
+            all_audio = AudioSegment.from_file(io.BytesIO(all_audio), format="mp3")
+            all_audio.export("all_audio.mp3", format="mp3")
         yield id, full_response, asr_result, None
+        print("finishing loop")
     except Exception as e:
         raise gr.Error(f"Error during audio streaming: {e}")
 def response(audio: tuple[int, np.ndarray], lepton_conversation: list[dict],
+             gradio_conversation: list[dict], client: openai.OpenAI):
     audio_buffer = io.BytesIO()
     segment = AudioSegment(
         sample_width=audio[1].dtype.itemsize,
         channels=1,
     )
+    segment.export(audio_buffer, format="mp3")
+    generator = generate_response_and_audio(audio_buffer.getvalue(), lepton_conversation, client)
     for id, text, asr, audio in generator:
         if asr:
             update_or_append_conversation(lepton_conversation, id, "user", asr)
             update_or_append_conversation(gradio_conversation, id, "user", asr)
+            yield AdditionalOutputs(lepton_conversation, gradio_conversation)
         if text:
             update_or_append_conversation(lepton_conversation, id, "assistant", text)
             update_or_append_conversation(gradio_conversation, id, "assistant", text)
+            yield AdditionalOutputs(lepton_conversation, gradio_conversation)
         if audio:
+            yield audio
         else:
             yield AdditionalOutputs(lepton_conversation, gradio_conversation)
+def set_api_key(lepton_api_key):
+    try:
+       client = openai.OpenAI(
+        base_url="https://llama3-1-8b.lepton.run/api/v1/",
+        api_key=lepton_api_key
+    )
+    except:
+        raise gr.Error("Invalid API keys. Please try again.")
+    gr.Info("Successfully set API keys.", duration=3)
+    return client, gr.update(visible=True), gr.update(visible=False)
 with gr.Blocks() as demo:
     with gr.Group():
         with gr.Row():
             chatbot = gr.Chatbot(label="Conversation", type="messages")
+        with gr.Row(visible=False) as mic_row:
+            audio = WebRTC(modality="audio", mode="send-receive",
                                 label="Audio Stream",
                                 rtc_configuration=rtc_configuration)
+        with gr.Row(equal_height=True) as api_row:
+            api_key_input = gr.Textbox(type="password", value=os.getenv("LEPTONAI_API_KEY"),
+                                                label="Enter Your Lepton AI Key")
     client_state = gr.State(None)
+    lepton_conversation = gr.State([{"role": "system",
+                                     "content": "You are a knowledgeable assistant who will engage in spoken conversations with users. "
+                                     "Keep your answers short and natural as they will be read aloud."}])
+    api_key_input.submit(set_api_key, inputs=[api_key_input],
+                         outputs=[client_state, mic_row, api_row])
     audio.stream(
         ReplyOnPause(response),
+        inputs=[audio, lepton_conversation, chatbot, client_state],
         outputs=[audio]
     )
+    audio.on_additional_outputs(lambda l, g: (l, g), outputs=[lepton_conversation, chatbot],
+                                queue=False, show_progress="hidden")
     demo.launch()

requirements.txt CHANGED Viewed

@@ -1,3 +1,3 @@
-gradio_webrtc[vad]==0.0.11
 openai
 twilio

+gradio_webrtc[vad]==0.0.12
 openai
 twilio