Spaces:

GAS17
/

sp

Sleeping

App Files Files Community

GAS17 commited on Oct 16, 2024

Commit

844ccec

verified ·

1 Parent(s): bad5c84

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -23

app.py CHANGED Viewed

@@ -2,6 +2,7 @@ import os
 import gradio as gr
 import replicate
 from pydub import AudioSegment
 # Asegúrate de que REPLICATE_API_TOKEN esté configurado en las variables de entorno
 replicate_token = os.getenv("REPLICATE_API_TOKEN")
@@ -10,7 +11,7 @@ if not replicate_token:
     raise ValueError("No se ha encontrado el token de API de Replicate.")
 # Función para dividir el archivo de audio en segmentos de duración definida (en milisegundos)
-def dividir_audio(audio_path, segment_duration_ms):
     audio = AudioSegment.from_file(audio_path)
     audio_length = len(audio)
     segments = []
@@ -30,8 +31,25 @@ def dividir_audio(audio_path, segment_duration_ms):
     return segments
-# Función para transcribir los segmentos de audio usando Replicate API
-def transcribe_audio(audio_file):
     # Cargar el archivo de audio completo
     audio = AudioSegment.from_file(audio_file)
     audio_duration_minutes = len(audio) / (1000 * 60)  # Duración en minutos
@@ -45,35 +63,44 @@ def transcribe_audio(audio_file):
     # Almacenar todas las transcripciones
     all_transcriptions = []
-    # Procesar cada segmento individualmente
-    for segment_path in segments:
         with open(segment_path, "rb") as audio:
-            output = replicate.run(
-                "vaibhavs10/incredibly-fast-whisper:3ab86df6c8f54c11309d4d1f930ac292bad43ace52d10c80d87eb258b3c9f79c",
-                input={
-                    "task": "transcribe",
-                    "audio": audio,  # El archivo de audio cargado
-                    "language": "None",  # Detecta automáticamente el idioma
-                    "timestamp": "chunk",  # Incluye marcas de tiempo
-                    "batch_size": 64,
-                    "diarise_audio": False
-                }
-            )
-            # Almacenar la transcripción del segmento
-            all_transcriptions.append(output['text'])
     # Combina todas las transcripciones en una sola cadena
     full_transcription = "\n".join(all_transcriptions)
-    return full_transcription  # Devuelve la transcripción completa
 # Crea la interfaz de Gradio
 with gr.Blocks() as demo:
-    gr.Markdown("# Transcriptor de Audio a Texto")
     audio_input = gr.Audio(type="filepath", label="Sube tu archivo de audio")
     output_text = gr.Textbox(label="Transcripción")
-    transcribe_button = gr.Button("Transcribir")
-    transcribe_button.click(fn=transcribe_audio, inputs=audio_input, outputs=output_text)
 # Ejecuta la aplicación
 demo.launch()

 import gradio as gr
 import replicate
 from pydub import AudioSegment
+from fpdf import FPDF
 # Asegúrate de que REPLICATE_API_TOKEN esté configurado en las variables de entorno
 replicate_token = os.getenv("REPLICATE_API_TOKEN")
     raise ValueError("No se ha encontrado el token de API de Replicate.")
 # Función para dividir el archivo de audio en segmentos de duración definida (en milisegundos)
+def dividir_audio(audio_path, segment_duration_ms=5*60*1000):
     audio = AudioSegment.from_file(audio_path)
     audio_length = len(audio)
     segments = []
     return segments
+# Función para crear el PDF
+def crear_pdf(transcripcion):
+    pdf = FPDF()
+    pdf.add_page()
+    pdf.set_font("Arial", size=12)
+    # Agregar la transcripción al PDF línea por línea
+    for line in transcripcion.split("\n"):
+        pdf.multi_cell(0, 10, line)
+    # Guardar el archivo PDF en la carpeta actual
+    pdf_path = "/mnt/data/transcripcion_audio.pdf"
+    pdf.output(pdf_path)
+    return pdf_path
+# Función para transcribir los segmentos de audio y generar el PDF
+def transcribe_audio_y_pdf(audio_file, progress=gr.Progress()):
     # Cargar el archivo de audio completo
     audio = AudioSegment.from_file(audio_file)
     audio_duration_minutes = len(audio) / (1000 * 60)  # Duración en minutos
     # Almacenar todas las transcripciones
     all_transcriptions = []
+    # Procesar cada segmento individualmente y mostrar progresivamente
+    for index, segment_path in enumerate(segments):
         with open(segment_path, "rb") as audio:
+            try:
+                progress(index / len(segments))  # Actualizar el progreso
+                output = replicate.run(
+                    "vaibhavs10/incredibly-fast-whisper:3ab86df6c8f54c11309d4d1f930ac292bad43ace52d10c80d87eb258b3c9f79c",
+                    input={
+                        "task": "transcribe",
+                        "audio": audio,  # El archivo de audio cargado
+                        "language": "None",  # Detecta automáticamente el idioma
+                        "timestamp": "chunk",  # Incluye marcas de tiempo
+                        "batch_size": 64,
+                        "diarise_audio": False
+                    }
+                )
+                transcription = output['text']
+                all_transcriptions.append(f"Segment {index + 1}:\n{transcription}")
+            except Exception as e:
+                return f"Error transcribiendo el segmento {index + 1}: {e}"
     # Combina todas las transcripciones en una sola cadena
     full_transcription = "\n".join(all_transcriptions)
+    # Crear PDF y devolver la ruta del archivo
+    pdf_path = crear_pdf(full_transcription)
+    return full_transcription, pdf_path
 # Crea la interfaz de Gradio
 with gr.Blocks() as demo:
+    gr.Markdown("# Transcriptor de Audio a Texto (Genera PDF)")
     audio_input = gr.Audio(type="filepath", label="Sube tu archivo de audio")
     output_text = gr.Textbox(label="Transcripción")
+    output_pdf = gr.File(label="Descarga el PDF")
+    transcribe_button = gr.Button("Transcribir y Crear PDF")
+    transcribe_button.click(fn=transcribe_audio_y_pdf, inputs=audio_input, outputs=[output_text, output_pdf])
 # Ejecuta la aplicación
 demo.launch()