Spaces:

sikhuni
/

yt_to_text_model

Build error

App Files Files Community

amritsar commited on Dec 13, 2024

Commit

cd70190

verified ·

1 Parent(s): b581197

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -34

app.py CHANGED Viewed

@@ -1,46 +1,33 @@
 import gradio as gr
-from transformers import WhisperProcessor, WhisperForConditionalGeneration
-from pytube import YouTube
-import torch
-import os
-# Load Whisper model
-model_id = "openai/whisper-large-v2"
-processor = WhisperProcessor.from_pretrained(model_id)
-model = WhisperForConditionalGeneration.from_pretrained(model_id)
-def transcribe_youtube_video(youtube_url):
     try:
-        # Download audio from YouTube
-        yt = YouTube(youtube_url)
-        audio_stream = yt.streams.filter(only_audio=True).first()
-        audio_file_path = audio_stream.download(filename="audio.mp4")
-        # Load and preprocess the audio
-        import librosa
-        audio, _ = librosa.load(audio_file_path, sr=16000)
-        input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features
-        # Generate token ids
-        predicted_ids = model.generate(input_features)
-        # Decode token ids to text
-        transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
-        # Clean up
-        os.remove(audio_file_path)
-        return transcription
     except Exception as e:
         return f"Error: {str(e)}"
 # Gradio interface
 iface = gr.Interface(
-    fn=transcribe_youtube_video,
-    inputs=gr.Textbox(label="YouTube Video URL"),
-    outputs=gr.Textbox(label="Transcription"),
-    title="YouTube Video Transcription",
-    description="Enter a YouTube video URL to transcribe its audio."
 )
 iface.launch()

 import gradio as gr
+from transformers import Wav2Vec2BertForCTC, pipeline
+from m4t_processor_with_lm import M4TProcessorWithLM
+# Load the Punjabi ASR model
+model_id = 'kdcyberdude/w2v-bert-punjabi'
+processor = M4TProcessorWithLM.from_pretrained(model_id)
+model = Wav2Vec2BertForCTC.from_pretrained(model_id)
+pipe = pipeline('automatic-speech-recognition',
+                model=model,
+                tokenizer=processor.tokenizer,
+                feature_extractor=processor.feature_extractor,
+                decoder=processor.decoder,
+                return_timestamps='word')
+def transcribe_audio(audio_file):
     try:
+        output = pipe(audio_file, chunk_length_s=20, stride_length_s=(4, 4))
+        return output['text']
     except Exception as e:
         return f"Error: {str(e)}"
 # Gradio interface
 iface = gr.Interface(
+    fn=transcribe_audio,
+    inputs=gr.Audio(source="upload", type="filepath"),
+    outputs=gr.Textbox(label="Punjabi Transcription"),
+    title="Punjabi Audio Transcription",
+    description="Upload an audio file to transcribe Punjabi speech."
 )
 iface.launch()