Spaces:

jiuuee
/

my-alexa

Runtime error

App Files Files Community

jiuuee commited on May 2, 2024

Commit

2ca3e3f

verified ·

1 Parent(s): 8b2f563

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -9

app.py CHANGED Viewed

@@ -1,7 +1,3 @@
 '''
 import gradio as gr
 from transformers import pipeline
@@ -11,6 +7,7 @@ asr_pipeline = pipeline("automatic-speech-recognition", model="nvidia/canary-1b"
 qa_pipeline = pipeline("question-answering", model="LLAMA/llama3-base-qa", tokenizer="LLAMA/llama3-base-qa")
 tts_pipeline = pipeline("text-to-speech", model="patrickvonplaten/vits-large", device=0)
 '''
 import gradio as gr
 import json
 import librosa
@@ -26,7 +23,7 @@ from nemo.collections.asr.parts.utils.streaming_utils import FrameBatchMultiTask
 from nemo.collections.asr.parts.utils.transcribe_utils import get_buffered_pred_feat_multitaskAED
 SAMPLE_RATE = 16000 # Hz
-MAX_AUDIO_MINUTES = 10 # wont try to transcribe if longer than this
 model = ASRModel.from_pretrained("nvidia/canary-1b")
 model.eval()
@@ -59,12 +56,11 @@ def convert_audio(audio_filepath, tmpdir, utt_id):
 	Do not convert and raise error if audio too long.
 	Returns output filename and duration.
 	"""
 	data, sr = librosa.load(audio_filepath, sr=None, mono=True)
 	duration = librosa.get_duration(y=data, sr=sr)
-	if duration / 60.0 > MAX_AUDIO_MINUTES:
 		raise gr.Error(
 			f"This demo can transcribe up to {MAX_AUDIO_MINUTES} minutes of audio. "
 			"If you wish, you may trim the audio using the Audio viewer in Step 1 "
@@ -92,9 +88,9 @@ def transcribe(audio_filepath, src_lang, tgt_lang, pnc):
 	utt_id = uuid.uuid4()
 	with tempfile.TemporaryDirectory() as tmpdir:
-		converted_audio_filepath, duration = convert_audio(audio_filepath, tmpdir, str(utt_
-                                                                                       # make manifest file and save
 		manifest_data = {
 			"audio_filepath": converted_audio_filepath,
 			"source_lang": src_lang,

 '''
 import gradio as gr
 from transformers import pipeline
 qa_pipeline = pipeline("question-answering", model="LLAMA/llama3-base-qa", tokenizer="LLAMA/llama3-base-qa")
 tts_pipeline = pipeline("text-to-speech", model="patrickvonplaten/vits-large", device=0)
 '''
 import gradio as gr
 import json
 import librosa
 from nemo.collections.asr.parts.utils.transcribe_utils import get_buffered_pred_feat_multitaskAED
 SAMPLE_RATE = 16000 # Hz
+MAX_AUDIO_SECS = 30 # wont try to transcribe if longer than this
 model = ASRModel.from_pretrained("nvidia/canary-1b")
 model.eval()
 	Do not convert and raise error if audio too long.
 	Returns output filename and duration.
 	"""
 	data, sr = librosa.load(audio_filepath, sr=None, mono=True)
 	duration = librosa.get_duration(y=data, sr=sr)
+	if duration > MAX_AUDIO_SECS:
 		raise gr.Error(
 			f"This demo can transcribe up to {MAX_AUDIO_MINUTES} minutes of audio. "
 			"If you wish, you may trim the audio using the Audio viewer in Step 1 "
 	utt_id = uuid.uuid4()
 	with tempfile.TemporaryDirectory() as tmpdir:
+		converted_audio_filepath, duration = convert_audio(audio_filepath, tmpdir, str(utt_id))
+        # make manifest file and save
 		manifest_data = {
 			"audio_filepath": converted_audio_filepath,
 			"source_lang": src_lang,