Spaces:

imansarraf
/

Persian_ASR

Sleeping

App Files Files Community

imansarraf commited on Dec 17, 2024

Commit

3be8c66

verified ·

1 Parent(s): 1a69e12

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -17

app.py CHANGED Viewed

@@ -5,23 +5,20 @@ from autosub import GOOGLE_SPEECH_API_KEY
 import soundfile as sf
 import io
-cssfa = """
  textarea { direction: rtl; text-align: right; font-family: Calibri, sans-serif; font-size: 16px;}
 """
-cssen = """
- textarea { direction: ltr; text-align: left; font-family: Calibri, sans-serif; font-size: 16px;}
-"""
-css=""
 seg = Segmenter(ffmpeg_path="ffmpeg",model_path="keras_speech_music_noise_cnn.hdf5" , device="cpu",vad_type="vad")
 def process_segment(args):
- segment, wav,recognizer = args
  start, stop = segment
  # pp = converter((start, stop))
  pp = pcm_to_flac(wav[int(start*16000) : int(stop*16000)])
@@ -35,12 +32,8 @@ def pcm_to_flac(pcm_data, sample_rate=16000):
  return flac_data
-def transcribe_audio(audio_file,lan):
-    if (lan=="en"):
-          css = cssen
-    else:
-        css = cssfa
-    recognizer = SpeechRecognizer(language=lan, rate=16000,api_key=GOOGLE_SPEECH_API_KEY, proxies=None)
     text=""
     isig,wav =  seg(audio_file)
     isig = filter_output(isig , max_silence=0.5 ,ignore_small_speech_segments=0.1 , max_speech_len=15 ,split_speech_bigger_than=20)
@@ -48,7 +41,7 @@ def transcribe_audio(audio_file,lan):
     print(isig)
     results=[]
     for segment in isig:
-         results.append (process_segment((segment, wav,recognizer)))
     for start, stop, tr_beamsearch_lm in results:
           try:
@@ -65,10 +58,8 @@ def transcribe_audio(audio_file,lan):
 # Define the Gradio interface
 interface = gr.Interface(
     fn=transcribe_audio,
-    inputs=[
-        gr.Audio(type="filepath"),
-        gr.Radio(choices=["fa", "en", "ar"], label="Language")
-    ],
     outputs=gr.Textbox(label="Transcription", elem_id="output-text",interactive=True),
     title="Persian Audio Transcription",
     description="Upload an audio file or record audio to get the transcription.",

 import soundfile as sf
 import io
+css = """
  textarea { direction: rtl; text-align: right; font-family: Calibri, sans-serif; font-size: 16px;}
 """
+recognizer = SpeechRecognizer(language="fa", rate=16000,api_key=GOOGLE_SPEECH_API_KEY, proxies=None)
 seg = Segmenter(ffmpeg_path="ffmpeg",model_path="keras_speech_music_noise_cnn.hdf5" , device="cpu",vad_type="vad")
 def process_segment(args):
+ segment, wav = args
  start, stop = segment
  # pp = converter((start, stop))
  pp = pcm_to_flac(wav[int(start*16000) : int(stop*16000)])
  return flac_data
+def transcribe_audio(audio_file):
     text=""
     isig,wav =  seg(audio_file)
     isig = filter_output(isig , max_silence=0.5 ,ignore_small_speech_segments=0.1 , max_speech_len=15 ,split_speech_bigger_than=20)
     print(isig)
     results=[]
     for segment in isig:
+         results.append (process_segment((segment, wav)))
     for start, stop, tr_beamsearch_lm in results:
           try:
 # Define the Gradio interface
 interface = gr.Interface(
     fn=transcribe_audio,
+    inputs=gr.Audio(type="filepath"),
     outputs=gr.Textbox(label="Transcription", elem_id="output-text",interactive=True),
     title="Persian Audio Transcription",
     description="Upload an audio file or record audio to get the transcription.",