Spaces:

Macedonian-ASR
/

Comparison-Macedonian-ASR

Sleeping

App Files Files Community

Porjaz commited on Oct 10, 2024

Commit

0f3bb36

verified ·

1 Parent(s): ea700fc

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -8

app.py CHANGED Viewed

@@ -21,7 +21,7 @@ def clean_up_memory():
     gc.collect()
     torch.cuda.empty_cache()
-@spaces.GPU
 def recap_sentence(string):
     # Restore capitalization and punctuation using the model
     inputs = recap_tokenizer(["restore capitalization and punctuation: " + string], return_tensors="pt", padding=True).to(device)
@@ -29,15 +29,15 @@ def recap_sentence(string):
     recap_result = recap_tokenizer.decode(outputs, skip_special_tokens=True)
     return recap_result
-@spaces.GPU
 def return_prediction_w2v2(mic=None, file=None, device=device):
     if mic is not None:
         waveform, sr = librosa.load(mic, sr=16000)
-        waveform = waveform[:30*sr]
         w2v2_result = w2v2_classifier.classify_file_w2v2(waveform, device)
     elif file is not None:
         waveform, sr = librosa.load(file, sr=16000)
-        waveform = waveform[:30*sr]
         w2v2_result = w2v2_classifier.classify_file_w2v2(waveform, device)
     else:
         return "You must either provide a mic recording or a file"
@@ -57,11 +57,11 @@ def return_prediction_w2v2(mic=None, file=None, device=device):
 def return_prediction_whisper(mic=None, file=None, device=device):
     if mic is not None:
         waveform, sr = librosa.load(mic, sr=16000)
-        waveform = waveform[:30*sr]
         whisper_result = whisper_classifier.classify_file_whisper_mkd(waveform, device)
     elif file is not None:
         waveform, sr = librosa.load(file, sr=16000)
-        waveform = waveform[:30*sr]
         whisper_result = whisper_classifier.classify_file_whisper_mkd(waveform, device)
     else:
         return "You must either provide a mic recording or a file"
@@ -83,7 +83,7 @@ def return_prediction_compare(mic=None, file=None, device=device):
     # mms_model.to(device)
     if mic is not None:
         waveform, sr = librosa.load(mic, sr=16000)
-        waveform = waveform[:30*sr]
         whisper_mkd_result = whisper_classifier.classify_file_whisper_mkd(waveform, device)
         # result_generator_w2v2 = w2v2_classifier.classify_file_w2v2(mic, device)
         whisper_result = whisper_classifier.classify_file_whisper(waveform, pipe_whisper, device)
@@ -91,7 +91,7 @@ def return_prediction_compare(mic=None, file=None, device=device):
     elif file is not None:
         waveform, sr = librosa.load(file, sr=16000)
-        waveform = waveform[:30*sr]
         whisper_mkd_result = whisper_classifier.classify_file_whisper_mkd(waveform, device)
         # result_generator_w2v2 = w2v2_classifier.classify_file_w2v2(file, device)
         whisper_result = whisper_classifier.classify_file_whisper(waveform, pipe_whisper, device)

     gc.collect()
     torch.cuda.empty_cache()
+@spaces.GPU(duration=30)
 def recap_sentence(string):
     # Restore capitalization and punctuation using the model
     inputs = recap_tokenizer(["restore capitalization and punctuation: " + string], return_tensors="pt", padding=True).to(device)
     recap_result = recap_tokenizer.decode(outputs, skip_special_tokens=True)
     return recap_result
 def return_prediction_w2v2(mic=None, file=None, device=device):
     if mic is not None:
         waveform, sr = librosa.load(mic, sr=16000)
+        waveform = waveform[:120*sr]
         w2v2_result = w2v2_classifier.classify_file_w2v2(waveform, device)
     elif file is not None:
         waveform, sr = librosa.load(file, sr=16000)
+        waveform = waveform[:120*sr]
         w2v2_result = w2v2_classifier.classify_file_w2v2(waveform, device)
     else:
         return "You must either provide a mic recording or a file"
 def return_prediction_whisper(mic=None, file=None, device=device):
     if mic is not None:
         waveform, sr = librosa.load(mic, sr=16000)
+        waveform = waveform[:120*sr]
         whisper_result = whisper_classifier.classify_file_whisper_mkd(waveform, device)
     elif file is not None:
         waveform, sr = librosa.load(file, sr=16000)
+        waveform = waveform[:120*sr]
         whisper_result = whisper_classifier.classify_file_whisper_mkd(waveform, device)
     else:
         return "You must either provide a mic recording or a file"
     # mms_model.to(device)
     if mic is not None:
         waveform, sr = librosa.load(mic, sr=16000)
+        waveform = waveform[:120*sr]
         whisper_mkd_result = whisper_classifier.classify_file_whisper_mkd(waveform, device)
         # result_generator_w2v2 = w2v2_classifier.classify_file_w2v2(mic, device)
         whisper_result = whisper_classifier.classify_file_whisper(waveform, pipe_whisper, device)
     elif file is not None:
         waveform, sr = librosa.load(file, sr=16000)
+        waveform = waveform[:120*sr]
         whisper_mkd_result = whisper_classifier.classify_file_whisper_mkd(waveform, device)
         # result_generator_w2v2 = w2v2_classifier.classify_file_w2v2(file, device)
         whisper_result = whisper_classifier.classify_file_whisper(waveform, pipe_whisper, device)