Spaces:

Yehor
/

hubert-uk-demo

Sleeping

App Files Files Community

Yehor Smoliakov commited on Jul 26, 2024

Commit

d6446fc

1 Parent(s): 3f925e7

Remove librosa

Browse files

Files changed (3) hide show

README.md +7 -1
app.py +25 -11
requirements.txt +2 -2

README.md CHANGED Viewed

@@ -20,4 +20,10 @@ uv pip install -r requirements.txt
 # in development mode
 uv pip install -r requirements-dev.txt
-```

 # in development mode
 uv pip install -r requirements-dev.txt
+```
+## Run
+```shell
+python app.py
+```

app.py CHANGED Viewed

@@ -2,7 +2,8 @@ import sys
 import time
 import torch
-import librosa
 import gradio as gr
@@ -74,7 +75,7 @@ description_head = f"""
 This space uses https://huggingface.co/Yehor/w2v-bert-2.0-uk-v2 model to recognize audio files.
-> For demo, audio duration **must not** exceed **{max_duration}** seconds.
 """.strip()
 description_foot = f"""
@@ -93,7 +94,7 @@ Check out other ASR models: https://github.com/egorsmkv/speech-recognition-uk
 transcription_value = """
 Recognized text will appear here.
-Choose **an example file** below the Recognize button, upload **your audio file**, or use **the microphone** to record something.
 """.strip()
 tech_env = f"""
@@ -108,10 +109,10 @@ tech_env = f"""
 tech_libraries = f"""
 #### Libraries
-- PyTorch: {torch.__version__}
-- Transformers: {transformers_version}
-- Librosa: {librosa.version.version}
-- Gradio: {gr.__version__}
 """.strip()
@@ -122,8 +123,10 @@ def inference(audio_path, progress=gr.Progress()):
     gr.Info("Starting recognition", duration=2)
     progress(0, desc="Recognizing")
-    duration = librosa.get_duration(path=audio_path)
     if duration < min_duration:
         raise gr.Error(
             f"The duration of the file is less than {min_duration} seconds, it is {round(duration, 2)} seconds."
@@ -140,8 +143,19 @@ def inference(audio_path, progress=gr.Progress()):
     for path in progress.tqdm(paths, desc="Recognizing...", unit="file"):
         t0 = time.time()
-        audio_duration = librosa.get_duration(path=path, sr=16_000)
-        audio_input, _ = librosa.load(path, mono=True, sr=16_000)
         features = processor([audio_input], sampling_rate=16_000).input_features
         features = torch.tensor(features).to(device)
@@ -196,7 +210,7 @@ demo = gr.Blocks(
 with demo:
     gr.Markdown(description_head)
-    gr.Markdown("## Demo")
     with gr.Row():
         audio_file = gr.Audio(label="Audio file", type="filepath")

 import time
 import torch
+import torchaudio
+import torchaudio.transforms as T
 import gradio as gr
 This space uses https://huggingface.co/Yehor/w2v-bert-2.0-uk-v2 model to recognize audio files.
+> Due to resource limitations, audio duration **must not** exceed **{max_duration}** seconds.
 """.strip()
 description_foot = f"""
 transcription_value = """
 Recognized text will appear here.
+Choose **an example file** below the Recognize button, upload **your audio file**, or use **the microphone** to record own voice.
 """.strip()
 tech_env = f"""
 tech_libraries = f"""
 #### Libraries
+- torch: {torch.__version__}
+- torchaudio: {torchaudio.__version__}
+- transformers: {transformers_version}
+- gradio: {gr.__version__}
 """.strip()
     gr.Info("Starting recognition", duration=2)
     progress(0, desc="Recognizing")
+    meta = torchaudio.info(audio_path)
+    duration = meta.num_frames / meta.sample_rate
     if duration < min_duration:
         raise gr.Error(
             f"The duration of the file is less than {min_duration} seconds, it is {round(duration, 2)} seconds."
     for path in progress.tqdm(paths, desc="Recognizing...", unit="file"):
         t0 = time.time()
+        meta = torchaudio.info(audio_path)
+        audio_duration = meta.num_frames / meta.sample_rate
+        audio_input, sr = torchaudio.load(path)
+        if meta.num_channels > 1:
+            audio_input = torch.mean(audio_input, dim=0, keepdim=True)
+        if meta.sample_rate != 16_000:
+            resampler = T.Resample(sr, 16_000, dtype=audio_input.dtype)
+            audio_input = resampler(audio_input)
+        audio_input = audio_input.squeeze().numpy()
         features = processor([audio_input], sampling_rate=16_000).input_features
         features = torch.tensor(features).to(device)
 with demo:
     gr.Markdown(description_head)
+    gr.Markdown("## Usage")
     with gr.Row():
         audio_file = gr.Audio(label="Audio file", type="filepath")

requirements.txt CHANGED Viewed

@@ -3,9 +3,9 @@ gradio
 torch
 torchaudio
 triton
 setuptools
 transformers
-librosa

 torch
 torchaudio
+soundfile
 triton
 setuptools
 transformers