Spaces:

sikhuni
/

yt_to_text_model

Build error

amritsar commited on Dec 13, 2024

Commit

461f105

verified ·

1 Parent(s): 00f6a88

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,6 +2,7 @@ import gradio as gr
 from transformers import Wav2Vec2Processor, Wav2Vec2BertForCTC
 import torch
 import librosa
 # Load the correct processor and model
 model_id = "kdcyberdude/w2v-bert-punjabi"
@@ -11,8 +12,15 @@ model = Wav2Vec2BertForCTC.from_pretrained(model_id)
 def transcribe_audio(audio_file):
     try:
         # Load and preprocess the audio
-        audio, rate = librosa.load(audio_file, sr=16000)
-        chunk_size = 30 * rate  # 30-second chunks
         transcription = []
         for i in range(0, len(audio), chunk_size):
@@ -23,7 +31,7 @@ def transcribe_audio(audio_file):
             with torch.no_grad():
                 logits = model(input_values).logits
-            # Decode the predicted ids to text
             predicted_ids = torch.argmax(logits, dim=-1)
             transcription.append(processor.batch_decode(predicted_ids)[0])

 from transformers import Wav2Vec2Processor, Wav2Vec2BertForCTC
 import torch
 import librosa
+import numpy as np
 # Load the correct processor and model
 model_id = "kdcyberdude/w2v-bert-punjabi"
 def transcribe_audio(audio_file):
     try:
         # Load and preprocess the audio
+        audio, rate = librosa.load(audio_file, sr=16000)  # Resample to 16 kHz
+        if len(audio.shape) > 1:  # If stereo, convert to mono
+            audio = np.mean(audio, axis=1)
+        # Normalize audio to match expected input range [-1, 1]
+        audio = librosa.util.normalize(audio)
+        # Split into manageable chunks (30 seconds each)
+        chunk_size = int(30 * rate)  # 30 seconds in samples
         transcription = []
         for i in range(0, len(audio), chunk_size):
             with torch.no_grad():
                 logits = model(input_values).logits
+            # Decode predicted IDs to text
             predicted_ids = torch.argmax(logits, dim=-1)
             transcription.append(processor.batch_decode(predicted_ids)[0])