Spaces:

Bishan
/

test-odia

Sleeping

App Files Files Community

Bishan commited on Aug 10, 2023

Commit

0c5f390

1 Parent(s): 4ba2ace

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -64

app.py CHANGED Viewed

@@ -24,37 +24,18 @@ def resampler(input_file_path, output_file_path):
     subprocess.call(command, shell=True)
-# def parse_transcription_with_lm(logits):
-#     result = processor_with_LM.batch_decode(logits.cpu().numpy())
-#     text = result.text
-#     transcription = text[0].replace('<s>','')
-#     return transcription
 def parse_transcription(logits):
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
     return transcription
-# def parse(wav_file, applyLM):
-#     input_values = read_file_and_process(wav_file)
-#     with torch.no_grad():
-#         logits = model(**input_values).logits
-#     if applyLM:
-#         # return parse_transcription_with_lm(logits)
-#         return "done"
-#     else:
-#         return parse_transcription(logits)
-def parse(wav_file, applyLM):
     input_values = read_file_and_process(wav_file)
     with torch.no_grad():
         logits = model(**input_values).logits
-    if applyLM:
-        # return parse_transcription_with_lm(logits)
-        return "done"
-    else:
         return parse_transcription(logits)
@@ -76,57 +57,19 @@ def parse(wav_file, applyLM):
 # This is hindi
 model_id = "Harveenchadha/vakyansh-wav2vec2-hindi-him-4200"
-# processor = Wav2Vec2Processor.from_pretrained(model_id)
-# # processor_with_LM = Wav2Vec2ProcessorWithLM.from_pretrained(model_id)
-# model = Wav2Vec2ForCTC.from_pretrained(model_id)
-# input_ = gr.Audio(source="microphone", type="filepath")
-# txtbox = gr.Textbox(
-#             label="Output from model will appear here:",
-#             lines=5
-#         )
-# chkbox = gr.Checkbox(label="Apply LM", value=False)
-# gr.Interface(parse, inputs = [input_, chkbox],  outputs=txtbox,
-#              streaming=True, interactive=True,
-#              analytics_enabled=False, show_tips=False, enable_queue=True).launch(inline=False);
 processor = Wav2Vec2Processor.from_pretrained(model_id)
 model = Wav2Vec2ForCTC.from_pretrained(model_id)
 # input_ = gr.inputs.File(source="upload", type="filepath")  # Change input source to "upload" and type to "audio"
 input_ = gr.Audio(source="upload", type="filepath")
 txtbox = gr.Textbox(
     label="Output from the model will appear here:",
     lines=5
 )
-chkbox = gr.Checkbox(label="Apply LM", value=False)
-gr.Interface(parse, inputs=[input_, chkbox], outputs=txtbox,
              streaming=True, interactive=True,
              analytics_enabled=False, show_tips=False, enable_queue=True).launch(inline=False);

     subprocess.call(command, shell=True)
 def parse_transcription(logits):
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
     return transcription
+def parse(wav_file):
     input_values = read_file_and_process(wav_file)
     with torch.no_grad():
         logits = model(**input_values).logits
+    if wav_file:
         return parse_transcription(logits)
 # This is hindi
 model_id = "Harveenchadha/vakyansh-wav2vec2-hindi-him-4200"
 processor = Wav2Vec2Processor.from_pretrained(model_id)
 model = Wav2Vec2ForCTC.from_pretrained(model_id)
+# input_ = gr.Audio(source="microphone", type="filepath")
 # input_ = gr.inputs.File(source="upload", type="filepath")  # Change input source to "upload" and type to "audio"
 input_ = gr.Audio(source="upload", type="filepath")
 txtbox = gr.Textbox(
     label="Output from the model will appear here:",
     lines=5
 )
+# chkbox = gr.Checkbox(label="Apply LM", value=False)
+# gr.Interface(parse, inputs=[input_, chkbox], outputs=txtbox,
+gr.Interface(parse, inputs=[input_], outputs=txtbox,
              streaming=True, interactive=True,
              analytics_enabled=False, show_tips=False, enable_queue=True).launch(inline=False);