Spaces:

mizoru
/

wav2tsv

Sleeping

App Files Files Community

mizoru commited on Apr 25, 2024

Commit

3b8e519

•

1 Parent(s): 9117637

Everything working fine, all needed info

Browse files

Files changed (2) hide show

app.py +12 -9
vad_utils.py +0 -1

app.py CHANGED Viewed

@@ -5,14 +5,15 @@ import torch
 import pandas as pd
 import gdown
-def process_audio(audio_input):
     wav = read_audio(audio_input, sampling_rate=16_000)
     audio_length_samples = len(wav)
-    probs = get_speech_probs(wav, sampling_rate=16_000)
     return make_visualization(probs, 512 / 16_000), probs, audio_length_samples
 def process_parameters(probs, audio_length_samples, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms):
-    print(probs, audio_length_samples)
     timestamps = probs2speech_timestamps(probs, audio_length_samples,
                                          threshold = threshold,
                                          min_speech_duration_ms = min_speech_duration_ms,
@@ -21,7 +22,7 @@ def process_parameters(probs, audio_length_samples, threshold, min_speech_durati
                                          speech_pad_ms=speech_pad_ms,
                                          return_seconds=True,
                                          rounding=3)
     df = pd.DataFrame(timestamps)
     df["note"] = ""
     df.to_csv("timestamps.txt", sep = '\t', header=False, index=False)
@@ -46,18 +47,20 @@ def main():
         with gr.Row():
             audio_input = gr.Audio(type="filepath")
-            button1 = gr.Button("Compute Speech Probabilities")
             figure = gr.Plot()
         download_button.click(download_gdrive, inputs=[gdrive_str], outputs=audio_input)
-        button1.click(process_audio, inputs=[audio_input], outputs=[figure, probs, audio_length_samples])
         with gr.Row():
             threshold = gr.Number(label="Threshold", value=0.6, minimum=0.0, maximum=1.0)
-            min_speech_duration_ms = gr.Number(label="Min Speech Duration (ms)", value=10_000)
-            min_silence_duration_ms = gr.Number(label="Min Silence Duration (ms)", value=5_000)
-            window_size_samples = gr.Dropdown(label="Window Size Samples", choices=[512, 1024, 1536], value=1536)
             speech_pad_ms = gr.Number(label="Speech Pad (ms)", value=30)
             button2 = gr.Button("Compute Speech Timestamps")
             output_file = gr.File()

 import pandas as pd
 import gdown
+def process_audio(audio_input, window_size_samples):
     wav = read_audio(audio_input, sampling_rate=16_000)
     audio_length_samples = len(wav)
+    probs = get_speech_probs(wav, window_size_samples=window_size_samples, sampling_rate=16_000)
     return make_visualization(probs, 512 / 16_000), probs, audio_length_samples
 def process_parameters(probs, audio_length_samples, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms):
+    min_speech_duration_ms *= 1000
+    min_silence_duration_ms *= 1000
     timestamps = probs2speech_timestamps(probs, audio_length_samples,
                                          threshold = threshold,
                                          min_speech_duration_ms = min_speech_duration_ms,
                                          speech_pad_ms=speech_pad_ms,
                                          return_seconds=True,
                                          rounding=3)
+    print(timestamps)
     df = pd.DataFrame(timestamps)
     df["note"] = ""
     df.to_csv("timestamps.txt", sep = '\t', header=False, index=False)
         with gr.Row():
             audio_input = gr.Audio(type="filepath")
+            with gr.Column():
+                md = gr.Markdown("[Parameter Documentation](https://github.com/snakers4/silero-vad/blob/master/utils_vad.py#L198)")
+                window_size_samples = gr.Dropdown(label="Window Size (samples)", choices=[512, 1024, 1536], value=512)
+                button1 = gr.Button("Compute Speech Probabilities")
             figure = gr.Plot()
         download_button.click(download_gdrive, inputs=[gdrive_str], outputs=audio_input)
+        button1.click(process_audio, inputs=[audio_input, window_size_samples], outputs=[figure, probs, audio_length_samples])
         with gr.Row():
             threshold = gr.Number(label="Threshold", value=0.6, minimum=0.0, maximum=1.0)
+            min_speech_duration_ms = gr.Number(label="Mininmum Speech Duration (s)", value=10.5)
+            min_silence_duration_ms = gr.Number(label="Minimum Silence Duration (s)", value=5.5)
             speech_pad_ms = gr.Number(label="Speech Pad (ms)", value=30)
             button2 = gr.Button("Compute Speech Timestamps")
             output_file = gr.File()

vad_utils.py CHANGED Viewed

@@ -9,7 +9,6 @@ from matplotlib import pyplot as plt
 def get_speech_probs(audio: torch.Tensor,
                         #   model,
-                          threshold: float = 0.5,
                           sampling_rate: int = 16000,
                           window_size_samples: int = 512,
                           progress_tracking_callback: Callable[[float], None] = None):

 def get_speech_probs(audio: torch.Tensor,
                         #   model,
                           sampling_rate: int = 16000,
                           window_size_samples: int = 512,
                           progress_tracking_callback: Callable[[float], None] = None):