Spaces:

MusIre
/

practiceAI

Sleeping

App Files Files Community

MusIre commited on Nov 27, 2023

Commit

e416e8e

1 Parent(s): 630d7c9

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -28

app.py CHANGED Viewed

@@ -3,43 +3,55 @@ import gradio as gr  # Add this import statement
 subprocess.run(["python", "-m", "pip", "install", "--upgrade", "pip"])
 subprocess.run(["pip", "install", "gradio", "--upgrade"])
-subprocess.run(["pip", "install", "transformers"])
-subprocess.run(["pip", "install", "torch", "torchvision", "torchaudio", "-f", "https://download.pytorch.org/whl/torch_stable.html"])
 import gradio as gr
-import torchaudio
-from transformers import AutoModelForSpeechRecognition, AutoTokenizer, pipeline
-# Load the Whispy/Whisper Italian ASR model
-model_name = "facebook/whisper-large-italian"
-whisper_italian_asr = pipeline("automatic-speech-recognition", model=model_name, device=0)
-# Define the ASR function
-def transcribe_audio(audio):
-    # Save the audio file
-    torchaudio.save("user_audio.wav", audio.squeeze().numpy(), 16000)
-    # Load the saved audio file
-    user_audio, _ = torchaudio.load("user_audio.wav", normalize=True)
-    # Perform ASR using the Whispy/Whisper Italian model
-    transcription = whisper_italian_asr(user_audio.numpy())
-    return transcription[0]["transcription"]
-# Create the Gradio interface
-audio_input = gr.Audio(preprocess=torchaudio.transforms.Resample(orig_freq=44100, new_freq=16000))
-iface = gr.Interface(
-    fn=transcribe_audio,
-    inputs=audio_input,
-    outputs="text",
-    live=True,
-    interpretation="default"
-)
 # Launch the Gradio app
-iface.launch(share=True)

 subprocess.run(["python", "-m", "pip", "install", "--upgrade", "pip"])
 subprocess.run(["pip", "install", "gradio", "--upgrade"])
+subprocess.run(["pip", "install", "soundfile"])
+subprocess.run(["pip", "install", "numpy"])
+subprocess.run(["pip", "install", "pydub"])
+subprocess.run(["pip", "install", "openai"])
 import gradio as gr
+import openai
+import soundfile as sf
+import numpy as np
+from pydub import AudioSegment
+from io import BytesIO
+# Set your OpenAI API key
+openai.api_key = "YOUR_OPENAI_API_KEY"
+# Whisper ASR model
+whisper_model = "whisper-small"
+# Define the Gradio interface
+iface = gr.Interface(
+    fn=None,  # To be defined later
+    inputs=gr.Audio(),
+    outputs=gr.Textbox(),
+    live=True,
+)
+# Define the function for ASR
+def transcribe_audio(audio_data):
+    # Convert the audio data to a suitable format
+    audio = AudioSegment.from_file(BytesIO(audio_data), format="wav")
+    audio.export("temp.wav", format="wav")
+    # Load the audio file using soundfile
+    audio_array, _ = sf.read("temp.wav")
+    # Perform ASR using OpenAI's Whisper
+    response = openai.Completion.create(
+        engine=whisper_model,
+        audio_input=audio_array.tolist(),
+        content_type="audio/wav",
+    )
+    # Extract the transcribed text from the response
+    transcription = response["choices"][0]["text"].strip()
+    return transcription
+# Set the function for the Gradio interface
+iface.fn = transcribe_audio
 # Launch the Gradio app
+iface.launch()