Spaces:

mizoru
/

wav2tsv

Sleeping

App Files Files Community

mizoru commited on Apr 19, 2024

Commit

50a5992

1 Parent(s): a00d114

fully fledged

Browse files

Files changed (3) hide show

app.py +25 -9
requirements.txt +1 -1
vad_utils.py +8 -4

app.py CHANGED Viewed

@@ -2,6 +2,8 @@ import gradio as gr
 import numpy as np
 from vad_utils import get_speech_probs, make_visualization, probs2speech_timestamps, read_audio
 import torch
 probs = None
 audio_length_samples = None
@@ -14,26 +16,37 @@ def process_audio(audio_input):
     return make_visualization(probs, 512 / 16_000)
 def process_parameters(threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms):
-    print(probs)
     timestamps = probs2speech_timestamps(probs, audio_length_samples,
                                          threshold = threshold,
                                          min_speech_duration_ms = min_speech_duration_ms,
                                          min_silence_duration_ms=min_silence_duration_ms,
                                          window_size_samples=window_size_samples,
                                          speech_pad_ms=speech_pad_ms)
-    print(timestamps)
-    return timestamps
-def main():
     with gr.Blocks() as demo:
         with gr.Row():
             audio_input = gr.Audio(type="filepath")
-            button1 = gr.Button("Compute Probabilities")
             figure = gr.Plot()
         button1.click(process_audio, inputs=[audio_input], outputs=figure)
         with gr.Row():
@@ -42,10 +55,13 @@ def main():
             min_silence_duration_ms = gr.Number(label="Min Silence Duration (ms)", value=100)
             window_size_samples = gr.Dropdown(label="Window Size Samples", choices=[512, 1024, 1536], value=1536)
             speech_pad_ms = gr.Number(label="Speech Pad (ms)", value=30)
-            button2 = gr.Button("Process Parameters")
-            output_text = gr.Textbox()
-        button2.click(process_parameters, inputs=[threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms], outputs=output_text)
     demo.launch()

 import numpy as np
 from vad_utils import get_speech_probs, make_visualization, probs2speech_timestamps, read_audio
 import torch
+import pandas as pd
+import gdown
 probs = None
 audio_length_samples = None
     return make_visualization(probs, 512 / 16_000)
 def process_parameters(threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms):
     timestamps = probs2speech_timestamps(probs, audio_length_samples,
                                          threshold = threshold,
                                          min_speech_duration_ms = min_speech_duration_ms,
                                          min_silence_duration_ms=min_silence_duration_ms,
                                          window_size_samples=window_size_samples,
                                          speech_pad_ms=speech_pad_ms)
+    df = pd.DataFrame(timestamps)
+    df["note"] = ""
+    df.to_csv("timestamps.txt", sep = '\t', header=False, index=False)
+    return "timestamps.txt", df
+def download_gdrive(id):
+    output_file = "audio.wav"  # Replace "data_file.ext" with the desired output filename and extension
+    gdown.download(f"https://drive.google.com/uc?id={id}", output_file)
+    return "output_file.wav"
+def main():
     with gr.Blocks() as demo:
+        with gr.Row():
+            gdrive_str = gr.Text("File ID")
+            download_button = gr.Button("Download Audio")
         with gr.Row():
             audio_input = gr.Audio(type="filepath")
+            button1 = gr.Button("Compute Speech Probabilities")
             figure = gr.Plot()
+        download_button.click(download_gdrive, inputs=[gdrive_str], outputs=audio_input)
         button1.click(process_audio, inputs=[audio_input], outputs=figure)
         with gr.Row():
             min_silence_duration_ms = gr.Number(label="Min Silence Duration (ms)", value=100)
             window_size_samples = gr.Dropdown(label="Window Size Samples", choices=[512, 1024, 1536], value=1536)
             speech_pad_ms = gr.Number(label="Speech Pad (ms)", value=30)
+            button2 = gr.Button("Compute Speech Timestamps")
+            output_file = gr.File()
+        with gr.Row():
+            output_df = gr.DataFrame()
+        button2.click(process_parameters, inputs=[threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms],
+                      outputs=[output_file, output_df])
     demo.launch()

requirements.txt CHANGED Viewed

@@ -1,4 +1,4 @@
 torchaudio
 onnxruntime
 gradio
-pandas

 torchaudio
 onnxruntime
 gradio
+gdown

vad_utils.py CHANGED Viewed

@@ -4,6 +4,8 @@ import torchaudio
 from typing import Callable, List
 import torch.nn.functional as F
 import warnings
 def get_speech_probs(audio: torch.Tensor,
                         #   model,
@@ -156,13 +158,15 @@ def probs2speech_timestamps(speech_probs, audio_length_samples,
     return speeches
 def make_visualization(probs, step):
-    import pandas as pd
-    return pd.DataFrame({'probs': probs},
-                 index=[x * step for x in range(len(probs))]).plot(figsize=(16, 8),
                  kind='area', ylim=[0, 1.05], xlim=[0, len(probs) * step],
                  xlabel='seconds',
                  ylabel='speech probability',
                  colormap='tab20')
 torch.set_num_threads(1)
@@ -172,7 +176,7 @@ USE_ONNX = True # change this to True if you want to test onnx model
 model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
                             model='silero_vad',
-                            force_reload=True,
                             onnx=USE_ONNX)
 (_,
 _, read_audio,

 from typing import Callable, List
 import torch.nn.functional as F
 import warnings
+import pandas as pd
+from matplotlib import pyplot as plt
 def get_speech_probs(audio: torch.Tensor,
                         #   model,
     return speeches
 def make_visualization(probs, step):
+    fig, ax = plt.subplots(figsize=(16, 8),)
+    pd.DataFrame({'probs': probs},
+                 index=[x * step for x in range(len(probs))]).plot(ax = ax,
                  kind='area', ylim=[0, 1.05], xlim=[0, len(probs) * step],
                  xlabel='seconds',
                  ylabel='speech probability',
                  colormap='tab20')
+    return fig
 torch.set_num_threads(1)
 model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
                             model='silero_vad',
+                            # force_reload=True,
                             onnx=USE_ONNX)
 (_,
 _, read_audio,