Spaces:

LordCoffee
/

facebook-wav2vec2-large-960h-lv60-self

Runtime error

App Files Files Community

LordCoffee commited on Jun 15

Commit

1eb675b

•

1 Parent(s): 56b6854

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -33

app.py CHANGED Viewed

@@ -1,43 +1,40 @@
 import gradio as gr
-from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC, pipeline
-# Cargar el modelo Wav2Vec2 para transcripción de audio
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60-self")
-model_wav2vec2 = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60-self")
-# Cargar el modelo BART para generación de texto
-generator = pipeline('text2text-generation', model='facebook/bart-large')
-# Función para transcribir audio y evaluar fluidez
-def transcribe_and_evaluate(audio):
-    input_values = processor(audio.read(), return_tensors="pt").input_values
-    logits = model_wav2vec2(input_values).logits
-    transcription = processor.batch_decode(torch.argmax(logits, dim=-1))
-    # Evaluar la fluidez del texto generado
-    fluency_score = evaluate_fluency(transcription)
     return transcription, fluency_score
-# Función para evaluar la fluidez del texto
-def evaluate_fluency(text):
-    # Puedes implementar métricas más sofisticadas aquí si es necesario
-    fluency_score = len(text.split())  # Ejemplo simple: contar palabras
     return fluency_score
-# Configurar la interfaz de Gradio
 audio_input = gr.inputs.Audio(source="upload", type="file")
-output_text = gr.outputs.Textbox()
-output_fluency = gr.outputs.Textbox()
-# Definir la función de Gradio
-iface = gr.Interface(
-    fn=transcribe_and_evaluate,
     inputs=audio_input,
-    outputs=[output_text, output_fluency],
-    title="Transcripción de Audio y Evaluación de Fluidez",
-    description="Carga un archivo de audio y obtén la transcripción junto con el puntaje de fluidez del texto generado."
-)
-# Ejecutar la interfaz de Gradio
-iface.launch()

 import gradio as gr
+import torch
+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+# Cargar el modelo Wav2Vec2 y el procesador
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60-self")
+model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60-self")
+# Función para transcribir audio y evaluar la fluidez del texto
+def evaluate_fluency(audio):
+    inputs = processor(audio, return_tensors="pt", sampling_rate=16_000).input_values
+    with torch.no_grad():
+        logits = model(inputs).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.batch_decode(predicted_ids)[0]
+    # Evaluar fluidez (métrica personalizada)
+    fluency_score = my_custom_fluency_metric(transcription)
     return transcription, fluency_score
+# Función de métrica personalizada para evaluar fluidez
+def my_custom_fluency_metric(transcription):
+    # Implementa tu lógica para evaluar la fluidez del texto generado aquí
+    # Puedes usar métricas de NLP como ROUGE, BLEU o crear una métrica personalizada
+    # En este ejemplo, simplemente devuelve la longitud del texto como una métrica de "fluidez"
+    fluency_score = len(transcription.split())
     return fluency_score
+# Interfaz Gradio para la aplicación
 audio_input = gr.inputs.Audio(source="upload", type="file")
+output_text = gr.outputs.Textbox(label="Transcription")
+output_score = gr.outputs.Textbox(label="Fluency Score")
+gr.Interface(
+    fn=evaluate_fluency,
     inputs=audio_input,
+    outputs=[output_text, output_score],
+    title="Audio Transcription & Fluency Evaluation",
+    description="Upload an audio file and evaluate transcription & fluency of the generated text."
+).launch()