Spaces:

imansarraf
/

Persian_ASR

Running

imansarraf commited on Dec 17, 2024

Commit

ccb1371

verified ·

1 Parent(s): 5f18828

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,12 +1,44 @@
 import gradio as gr
 from sad_tf import *
 seg = Segmenter(ffmpeg_path="ffmpeg",model_path="keras_speech_music_noise_cnn.hdf5" , device="cpu",vad_type="vad")
 def transcribe_audio(audio_file):
-    isig =  seg(audio_file)
-    return isig
 # Define the Gradio interface
 interface = gr.Interface(

 import gradio as gr
 from sad_tf import *
+from autosub import SpeechRecognizer
+from autosub import GOOGLE_SPEECH_API_KEY
+import soundfile as sf
 seg = Segmenter(ffmpeg_path="ffmpeg",model_path="keras_speech_music_noise_cnn.hdf5" , device="cpu",vad_type="vad")
+recognizer = SpeechRecognizer(language="fa", rate=16000,api_key=GOOGLE_SPEECH_API_KEY, proxies=None)
+def process_segment(args):
+ segment, wav = args
+ start, stop = segment
+ # pp = converter((start, stop))
+ pp = pcm_to_flac(wav[int(start*16000) : int(stop*16000)])
+ tr_beamsearch_lm = recognizer(pp)
+ return start, stop, tr_beamsearch_lm
+def pcm_to_flac(pcm_data, sample_rate=16000):
+ buffer = io.BytesIO()
+ sf.write(buffer, pcm_data, sample_rate, format='FLAC')
+ flac_data = buffer.getvalue()
+ return flac_data
 def transcribe_audio(audio_file):
+    text=""
+    isig,wav =  seg(audio_file)
+    isig = filter_output(isig , max_silence=0.5 ,ignore_small_speech_segments=0.1 , max_speech_len=15 ,split_speech_bigger_than=20)
+    isig = [(a,b) for x,a,b,_,_ in isig]
+    results=[]
+    for segment in tqdm(isig):
+         results.append (process_segment((segment, wav)))
+    for start, stop, tr_beamsearch_lm in results:
+          try:
+              text += ' ' + tr_beamsearch_lm + '\r\n'
+          except:
+               pass
+    return text
 # Define the Gradio interface
 interface = gr.Interface(