Spaces:

GAS17
/

sp

Sleeping

App Files Files Community

GAS17 commited on Oct 16, 2024

Commit

9cf7fd7

verified ·

1 Parent(s): 9951904

Update app.py

Browse files

Files changed (1) hide show

app.py +64 -32

app.py CHANGED Viewed

@@ -13,12 +13,15 @@ if not replicate_token:
 # Función para dividir el archivo de audio en segmentos de duración definida (en milisegundos)
 def dividir_audio(audio_path, segment_duration_ms=5*60*1000):
     audio = AudioSegment.from_file(audio_path)
     segments = []
-    for i in range(0, len(audio), segment_duration_ms):
-        segment = audio[i:i + segment_duration_ms]
-        segment_path = f"segment_{i // (60 * 1000)}.wav"
-        segment.export(segment_path, format="wav")
         segments.append(segment_path)
     return segments
@@ -36,52 +39,81 @@ def crear_pdf(transcripcion, progress=gr.Progress()):
         pdf.multi_cell(0, 10, line)
         progress(i / len(lines))  # Actualiza la barra de progreso
     pdf_path = "/mnt/data/transcripcion_audio.pdf"
     pdf.output(pdf_path)
     return pdf_path
 # Función para transcribir los segmentos de audio y generar el PDF
 def transcribe_audio_y_pdf(audio_file, progress=gr.Progress()):
     audio = AudioSegment.from_file(audio_file)
-    if len(audio) > 5 * 60 * 1000:
-        segments = dividir_audio(audio_file)
     else:
-        segments = [audio_file]
     all_transcriptions = []
-    for i, segment in enumerate(segments):
-        with open(segment, "rb") as audio:
-            output = replicate.run(
-                "model/replicate",
-                input={"task": "transcribe", "audio": audio}
-            )
-            transcription = output['text']
-            all_transcriptions.append(f"Segment {i + 1}:\n{transcription}")
-            yield "\n".join(all_transcriptions), None
     full_transcription = "\n".join(all_transcriptions)
     pdf_path = crear_pdf(full_transcription, progress)
     yield full_transcription, pdf_path
-# Definir el script JavaScript para auto-scroll
-scroll_jscode = """
-    function autoScroll() {
-        var textbox = document.getElementById('transcription');
-        textbox.scrollTop = textbox.scrollHeight;
-    }
-"""
 # Crea la interfaz de Gradio con scroll automático en el campo de texto
 with gr.Blocks() as demo:
-    gr.Markdown("# Transcriptor con Progreso y Scroll")
-    audio_input = gr.Audio(type="filepath", label="Sube tu archivo de audio")
-    output_text = gr.Textbox(lines=20, label="Transcripción", elem_id="transcription")
     output_pdf = gr.File(label="Descarga el PDF")
-    transcribe_button = gr.Button("Transcribir y Crear PDF")
     transcribe_button.click(fn=transcribe_audio_y_pdf, inputs=audio_input, outputs=[output_text, output_pdf])
-    # JavaScript para auto-scroll al final de la caja de texto
-    demo.load(js=scroll_jscode)
 demo.launch()

 # Función para dividir el archivo de audio en segmentos de duración definida (en milisegundos)
 def dividir_audio(audio_path, segment_duration_ms=5*60*1000):
     audio = AudioSegment.from_file(audio_path)
+    audio_length = len(audio)
     segments = []
+    # Divide el audio en fragmentos de la duración especificada
+    for i in range(0, audio_length, segment_duration_ms):
+        segment = audio[i:i + segment_duration_ms]  # Cada fragmento de hasta la duración especificada
+        segment_path = f"segment_{i // (60 * 1000)}.wav"  # Nombre del archivo con el índice del minuto
+        segment.export(segment_path, format="wav")  # Exporta el fragmento como un archivo WAV
         segments.append(segment_path)
     return segments
         pdf.multi_cell(0, 10, line)
         progress(i / len(lines))  # Actualiza la barra de progreso
+    # Guardar el archivo PDF
     pdf_path = "/mnt/data/transcripcion_audio.pdf"
     pdf.output(pdf_path)
     return pdf_path
 # Función para transcribir los segmentos de audio y generar el PDF
 def transcribe_audio_y_pdf(audio_file, progress=gr.Progress()):
+    # Cargar el archivo de audio completo
     audio = AudioSegment.from_file(audio_file)
+    audio_duration_minutes = len(audio) / (1000 * 60)  # Duración en minutos
+    # Si el audio dura más de 5 minutos, dividirlo en segmentos de 5 minutos
+    if audio_duration_minutes > 5:
+        segments = dividir_audio(audio_file, segment_duration_ms=5 * 60 * 1000)  # 5 minutos en milisegundos
     else:
+        segments = [audio_file]  # Si es menor de 5 minutos, no dividir
+    # Almacenar todas las transcripciones
     all_transcriptions = []
+    # Procesar cada segmento individualmente y mostrar progresivamente
+    for index, segment_path in enumerate(segments):
+        with open(segment_path, "rb") as audio:
+            try:
+                output = replicate.run(
+                    "vaibhavs10/incredibly-fast-whisper:3ab86df6c8f54c11309d4d1f930ac292bad43ace52d10c80d87eb258b3c9f79c",
+                    input={
+                        "task": "transcribe",
+                        "audio": audio,  # El archivo de audio cargado
+                        "language": "None",  # Detecta automáticamente el idioma
+                        "timestamp": "chunk",  # Incluye marcas de tiempo
+                        "batch_size": 64,
+                        "diarise_audio": False
+                    }
+                )
+                transcription = output['text']
+                all_transcriptions.append(f"Segment {index + 1}:\n{transcription}")
+                # Actualizar la transcripción en tiempo real
+                yield "\n".join(all_transcriptions), None
+            except Exception as e:
+                yield f"Error transcribiendo el segmento {index + 1}: {e}", None
+    # Combina todas las transcripciones en una sola cadena
     full_transcription = "\n".join(all_transcriptions)
+    # Crear PDF con progreso y devolver la ruta del archivo
     pdf_path = crear_pdf(full_transcription, progress)
     yield full_transcription, pdf_path
 # Crea la interfaz de Gradio con scroll automático en el campo de texto
 with gr.Blocks() as demo:
+    gr.Markdown("# Transcriptor de Audio a Texto (con actualizaciones progresivas, scroll y PDF)")
+    with gr.Row():
+        audio_input = gr.Audio(type="filepath", label="Sube tu archivo de audio")
+        transcribe_button = gr.Button("Transcribir y Crear PDF")
+    # Caja de texto con scroll para ver la transcripción progresivamente
+    output_text = gr.Textbox(label="Transcripción (scroll automático y manual)", lines=20, interactive=True, elem_id="transcripcion")
     output_pdf = gr.File(label="Descarga el PDF")
+    # Botón de transcripción y conexión con las funciones
     transcribe_button.click(fn=transcribe_audio_y_pdf, inputs=audio_input, outputs=[output_text, output_pdf])
+    # JavaScript para hacer el scroll automático de la caja de texto
+    demo.load(js="""
+        function autoScroll() {
+            const textbox = document.getElementById('transcripcion');
+            textbox.scrollTop = textbox.scrollHeight;
+        }
+        document.addEventListener('gradio:output', autoScroll);
+    """)
+# Ejecuta la aplicación
 demo.launch()