Spaces:

mizoru
/

wav2tsv

Sleeping

mizoru commited on Apr 19, 2024

Commit

a00d114

1 Parent(s): b0ab37c

mroe fixes

Files changed (3) hide show

app.py CHANGED Viewed

@@ -4,14 +4,25 @@ from vad_utils import get_speech_probs, make_visualization, probs2speech_timesta
 import torch
 probs = None
 def process_audio(audio_input):
     global probs
     wav = read_audio(audio_input, sampling_rate=16_000)
     probs = get_speech_probs(wav, sampling_rate=16_000)
     return make_visualization(probs, 512 / 16_000)
 def process_parameters(threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms):
-    return probs2speech_timestamps(probs, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms)
 def main():
@@ -20,8 +31,8 @@ def main():
     with gr.Blocks() as demo:
         with gr.Row():
             audio_input = gr.Audio(type="filepath")
-            button1 = gr.Button("Process Audio")
-            figure = gr.Image()
         button1.click(process_audio, inputs=[audio_input], outputs=figure)

 import torch
 probs = None
+audio_length_samples = None
 def process_audio(audio_input):
     global probs
+    global audio_length_samples
     wav = read_audio(audio_input, sampling_rate=16_000)
+    audio_length_samples = len(wav)
     probs = get_speech_probs(wav, sampling_rate=16_000)
     return make_visualization(probs, 512 / 16_000)
 def process_parameters(threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms):
+    print(probs)
+    timestamps = probs2speech_timestamps(probs, audio_length_samples,
+                                         threshold = threshold,
+                                         min_speech_duration_ms = min_speech_duration_ms,
+                                         min_silence_duration_ms=min_silence_duration_ms,
+                                         window_size_samples=window_size_samples,
+                                         speech_pad_ms=speech_pad_ms)
+    print(timestamps)
+    return timestamps
 def main():
     with gr.Blocks() as demo:
         with gr.Row():
             audio_input = gr.Audio(type="filepath")
+            button1 = gr.Button("Compute Probabilities")
+            figure = gr.Plot()
         button1.click(process_audio, inputs=[audio_input], outputs=figure)

requirements.txt CHANGED Viewed

@@ -1,3 +1,4 @@
 torchaudio
 onnxruntime
-gradio

 torchaudio
 onnxruntime
+gradio
+pandas

vad_utils.py CHANGED Viewed

@@ -157,7 +157,7 @@ def probs2speech_timestamps(speech_probs, audio_length_samples,
 def make_visualization(probs, step):
     import pandas as pd
-    pd.DataFrame({'probs': probs},
                  index=[x * step for x in range(len(probs))]).plot(figsize=(16, 8),
                  kind='area', ylim=[0, 1.05], xlim=[0, len(probs) * step],
                  xlabel='seconds',

 def make_visualization(probs, step):
     import pandas as pd
+    return pd.DataFrame({'probs': probs},
                  index=[x * step for x in range(len(probs))]).plot(figsize=(16, 8),
                  kind='area', ylim=[0, 1.05], xlim=[0, len(probs) * step],
                  xlabel='seconds',