Spaces:

mizoru
/

wav2tsv

Sleeping

mizoru commited on Apr 25, 2024

Commit

9117637

1 Parent(s): 8e14b4c

w/e

Files changed (2) hide show

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ import torch
 import pandas as pd
 import gdown
-audio_length_samples = None
 def process_audio(audio_input):
     wav = read_audio(audio_input, sampling_rate=16_000)
     audio_length_samples = len(wav)
@@ -13,7 +12,7 @@ def process_audio(audio_input):
     return make_visualization(probs, 512 / 16_000), probs, audio_length_samples
 def process_parameters(probs, audio_length_samples, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms):
     timestamps = probs2speech_timestamps(probs, audio_length_samples,
                                          threshold = threshold,
                                          min_speech_duration_ms = min_speech_duration_ms,

 import pandas as pd
 import gdown
 def process_audio(audio_input):
     wav = read_audio(audio_input, sampling_rate=16_000)
     audio_length_samples = len(wav)
     return make_visualization(probs, 512 / 16_000), probs, audio_length_samples
 def process_parameters(probs, audio_length_samples, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms):
+    print(probs, audio_length_samples)
     timestamps = probs2speech_timestamps(probs, audio_length_samples,
                                          threshold = threshold,
                                          min_speech_duration_ms = min_speech_duration_ms,

vad_utils.py CHANGED Viewed

@@ -66,7 +66,7 @@ def probs2speech_timestamps(speech_probs, audio_length_samples,
                           min_silence_duration_ms: int = 100,
                           window_size_samples: int = 512,
                           speech_pad_ms: int = 30,
-                          return_seconds: bool = False,
                           rounding: int = 1,):
     step = sampling_rate // 16000

                           min_silence_duration_ms: int = 100,
                           window_size_samples: int = 512,
                           speech_pad_ms: int = 30,
+                          return_seconds: bool = True,
                           rounding: int = 1,):
     step = sampling_rate // 16000