Spaces:

ixxan
/

uyghur-speech-models

Running

ixxan commited on Nov 30, 2024

Commit

3da96bb

verified ·

1 Parent(s): bf18876

Update asr.py

Files changed (1) hide show

asr.py CHANGED Viewed

@@ -7,6 +7,7 @@ import numpy as np
 processor = AutoProcessor.from_pretrained("ixxan/whisper-small-common-voice-ug")
 model = AutoModelForSpeechSeq2Seq.from_pretrained("ixxan/whisper-small-common-voice-ug")
 def transcribe(audio_data) -> str:
     """
@@ -32,15 +33,15 @@ def transcribe(audio_data) -> str:
     else:
         return "<<ERROR: Invalid Audio Input Instance: {}>>".format(type(audio_data))
     # Resample if needed
-    if sampling_rate != processor.feature_extractor.sampling_rate:
-        resampler = torchaudio.transforms.Resample(sampling_rate, processor.feature_extractor.sampling_rate)
         audio_input = resampler(audio_input)
     # Preprocess the audio input
-    inputs = processor(audio_input.squeeze(), sampling_rate=16000, return_tensors="pt")
     # Move model to GPU if available
     device = "cuda" if torch.cuda.is_available() else "cpu"

 processor = AutoProcessor.from_pretrained("ixxan/whisper-small-common-voice-ug")
 model = AutoModelForSpeechSeq2Seq.from_pretrained("ixxan/whisper-small-common-voice-ug")
+target_sr = processor.feature_extractor.sampling_rate
 def transcribe(audio_data) -> str:
     """
     else:
         return "<<ERROR: Invalid Audio Input Instance: {}>>".format(type(audio_data))
     # Resample if needed
+    if sampling_rate != target_sr:
+        resampler = torchaudio.transforms.Resample(sampling_rate, target_sr)
         audio_input = resampler(audio_input)
     # Preprocess the audio input
+    inputs = processor(audio_input.squeeze(), sampling_rate=target_sr, return_tensors="pt")
     # Move model to GPU if available
     device = "cuda" if torch.cuda.is_available() else "cpu"