Spaces:

mizoru
/

wav2tsv

Sleeping

mizoru commited on Apr 19, 2024

Commit

b0ab37c

1 Parent(s): 0412962

global probs

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,12 +3,14 @@ import numpy as np
 from vad_utils import get_speech_probs, make_visualization, probs2speech_timestamps, read_audio
 import torch
 def process_audio(audio_input):
     wav = read_audio(audio_input, sampling_rate=16_000)
     probs = get_speech_probs(wav, sampling_rate=16_000)
     return make_visualization(probs, 512 / 16_000)
-def process_parameters(probs, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms):
     return probs2speech_timestamps(probs, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms)
 def main():
@@ -24,7 +26,6 @@ def main():
         button1.click(process_audio, inputs=[audio_input], outputs=figure)
         with gr.Row():
-            probs = gr.State(None)
             threshold = gr.Number(label="Threshold", value=0.5, minimum=0.0, maximum=1.0)
             min_speech_duration_ms = gr.Number(label="Min Speech Duration (ms)", value=250)
             min_silence_duration_ms = gr.Number(label="Min Silence Duration (ms)", value=100)
@@ -33,7 +34,7 @@ def main():
             button2 = gr.Button("Process Parameters")
             output_text = gr.Textbox()
-        button2.click(process_parameters, inputs=[probs, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms], outputs=output_text)
     demo.launch()

 from vad_utils import get_speech_probs, make_visualization, probs2speech_timestamps, read_audio
 import torch
+probs = None
 def process_audio(audio_input):
+    global probs
     wav = read_audio(audio_input, sampling_rate=16_000)
     probs = get_speech_probs(wav, sampling_rate=16_000)
     return make_visualization(probs, 512 / 16_000)
+def process_parameters(threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms):
     return probs2speech_timestamps(probs, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms)
 def main():
         button1.click(process_audio, inputs=[audio_input], outputs=figure)
         with gr.Row():
             threshold = gr.Number(label="Threshold", value=0.5, minimum=0.0, maximum=1.0)
             min_speech_duration_ms = gr.Number(label="Min Speech Duration (ms)", value=250)
             min_silence_duration_ms = gr.Number(label="Min Silence Duration (ms)", value=100)
             button2 = gr.Button("Process Parameters")
             output_text = gr.Textbox()
+        button2.click(process_parameters, inputs=[threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms], outputs=output_text)
     demo.launch()