Spaces:

englissi
/

bgtts

Runtime error

englissi commited on Oct 30

Commit

bb16e26

•

1 Parent(s): 1c30f5b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,27 +1,29 @@
 import gradio as gr
-import os
-import time  # To add a short delay
-# Force install torch (though this should ideally be handled in requirements.txt)
-os.system("pip install torch")
-time.sleep(10)  # Adding a short delay to ensure installation completes
 import torch
-from transformers import pipeline
-# Initialize the ASR pipeline for Bulgarian
-# Load model directly
 from transformers import AutoProcessor, AutoModelForCTC
 processor = AutoProcessor.from_pretrained("infinitejoy/wav2vec2-large-xls-r-300m-bulgarian")
 model = AutoModelForCTC.from_pretrained("infinitejoy/wav2vec2-large-xls-r-300m-bulgarian")
 # ASR 변환 함수 (speech-to-text conversion)
 def asr_generate(audio):
-    transcription = asr_pipeline(audio)["text"]
     return transcription
 # Gradio 인터페이스 생성
 iface = gr.Interface(
     fn=asr_generate,
@@ -33,4 +35,4 @@ iface = gr.Interface(
 # 인터페이스 실행
 if __name__ == "__main__":
-    iface.launch()

 import gradio as gr
 import torch
 from transformers import AutoProcessor, AutoModelForCTC
+import soundfile as sf  # To handle audio input
+# Load the processor and model directly for Bulgarian ASR
 processor = AutoProcessor.from_pretrained("infinitejoy/wav2vec2-large-xls-r-300m-bulgarian")
 model = AutoModelForCTC.from_pretrained("infinitejoy/wav2vec2-large-xls-r-300m-bulgarian")
 # ASR 변환 함수 (speech-to-text conversion)
 def asr_generate(audio):
+    # Load and process the audio file
+    speech, _ = sf.read(audio)
+    inputs = processor(speech, sampling_rate=16000, return_tensors="pt", padding=True)
+    with torch.no_grad():
+        logits = model(**inputs).logits
+    # Get predicted IDs and decode the text
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.batch_decode(predicted_ids)[0]
     return transcription
 # Gradio 인터페이스 생성
 iface = gr.Interface(
     fn=asr_generate,
 # 인터페이스 실행
 if __name__ == "__main__":
+    iface.launch()