Spaces:

katospiegel
/

amanu

Runtime error

App Files Files Community

katospiegel commited on Oct 19, 2023

Commit

db096e5

1 Parent(s): 51cca5c

Improving the ouptut and scoring highlight

Browse files

Files changed (2) hide show

app.py +11 -2
helpers.py +46 -68

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ from transcription import fast_transcription, speech_to_text, doWhisperX
 from whisperx.utils import get_writer
 from audio import normalizeAudio, separateVoiceInstrumental, mp3_to_wav, stereo_to_mono, cutaudio, compose_audio
 from helpers import guardar_en_archivo, guardar_dataframe_en_csv, generar_transcripcion
 import json
@@ -79,8 +80,15 @@ def transcribeWhisperX(audiofile, model, language, patience,
     ###########################################################################
-    outputs = (audio_path, audio_normalized_path, vocal_path, novocal_path, lineas_txt_string, nombre_file_txt,
-               str(file_path), guardar_dataframe_en_csv(diarize_segments), json.dumps(result_speakers))
     return outputs
@@ -127,6 +135,7 @@ transcribeII = gr.Interface(
              gr.Audio(type="filepath", label="vocal"),
              gr.Audio(type="filepath", label="no_vocal"),
              gr.TextArea(label="Transcripción"),
              gr.File(label="Archivo TXT generado"),
              gr.File(label="Archivo SRT generado con turno de palabra"),
              gr.File(label="Archivo CSV generado con turno de palabra"),

 from whisperx.utils import get_writer
 from audio import normalizeAudio, separateVoiceInstrumental, mp3_to_wav, stereo_to_mono, cutaudio, compose_audio
 from helpers import guardar_en_archivo, guardar_dataframe_en_csv, generar_transcripcion
+from helpers import crear_diccionario, generar_html_palabras
 import json
     ###########################################################################
+    # Creating the highlight
+    dout = crear_diccionario(json_data)
+    htmlout = generar_html_palabras(dout["word"], dout["score"])
+    ############################################################################
+    outputs = (audio_path, audio_normalized_path, vocal_path, novocal_path, lineas_txt_string, htmlout,
+               nombre_file_txt, str(file_path), guardar_dataframe_en_csv(diarize_segments), json.dumps(result_speakers))
     return outputs
              gr.Audio(type="filepath", label="vocal"),
              gr.Audio(type="filepath", label="no_vocal"),
              gr.TextArea(label="Transcripción"),
+             gr.HTML(label="Scoring color mapping"),
              gr.File(label="Archivo TXT generado"),
              gr.File(label="Archivo SRT generado con turno de palabra"),
              gr.File(label="Archivo CSV generado con turno de palabra"),

helpers.py CHANGED Viewed

@@ -39,82 +39,33 @@ def dataframe_a_lista(df):
     return lista_strings
-# def generar_transcripcion(dataframe):
-#     # Ordenamos el DataFrame por Timestamp
-#     dataframe = dataframe.sort_values(by='Timestamp')
-#     # Creamos un diccionario para almacenar los textos de cada speaker
-#     textos_por_speaker = {}
-#     # Iteramos sobre las filas del DataFrame
-#     for index, row in dataframe.iterrows():
-#         # Obtenemos los valores de la fila
-#         timestamp = row['Timestamp']
-#         speaker = row['speaker']
-#         texto = row['text']
-#         # Si el speaker no está en el diccionario, lo agregamos
-#         if speaker not in textos_por_speaker:
-#             textos_por_speaker[speaker] = []
-#         # Agregamos el texto al diccionario
-#         textos_por_speaker[speaker].append(texto)
-#     # Creamos una lista para almacenar las líneas de la transcripción
-#     lineas_transcripcion = []
-#     # Iteramos sobre los speakers y sus textos
-#     for speaker, textos in textos_por_speaker.items():
-#         # Creamos un párrafo con todos los textos del speaker
-#         parrafo = ' '.join(textos)
-#         # Agregamos la línea de la transcripción con el timestamp y el speaker
-#         linea = f"{timestamp} - {speaker}: {parrafo}"
-#         # Agregamos la línea a la lista de la transcripción
-#         lineas_transcripcion.append(linea)
-#     # Guardamos la transcripción en un archivo de texto
-#     nombre_archivo = guardar_en_archivo(lineas_transcripcion)
-#     return lineas_transcripcion, nombre_archivo
 # def generar_transcripcion(diccionario):
 #     # Obtenemos la lista de segmentos del diccionario
 #     segmentos = diccionario['segments']
-#     # Creamos un diccionario para almacenar los textos de cada speaker
-#     textos_por_speaker = {}
-#     # Iteramos sobre los segmentos del diccionario
-#     for segmento in segmentos:
-#         # Obtenemos los valores del segmento
-#         speaker = segmento['speaker']
-#         texto = segmento['text']
-#         # Si el speaker no está en el diccionario, lo agregamos
-#         if speaker not in textos_por_speaker:
-#             textos_por_speaker[speaker] = []
-#         # Agregamos el texto al diccionario
-#         textos_por_speaker[speaker].append(texto)
 #     # Creamos una lista para almacenar las líneas de la transcripción
 #     lineas_transcripcion = []
-#     # Iteramos sobre los speakers y sus textos
-#     for speaker, textos in textos_por_speaker.items():
-#         # Creamos un párrafo con todos los textos del speaker
-#         parrafo = ' '.join(textos)
-#         # Agregamos el speaker al principio del párrafo
-#         parrafo_con_speaker = f"{speaker}: {parrafo}"
-#         # Agregamos la línea de la transcripción
 #         linea = parrafo_con_speaker
-#         # Agregamos la línea a la lista de la transcripción
 #         lineas_transcripcion.append(linea)
 #     # Guardamos la transcripción en un archivo de texto
 #     nombre_archivo = guardar_en_archivo(lineas_transcripcion)
@@ -131,9 +82,10 @@ def generar_transcripcion(diccionario):
     # Iteramos sobre los segmentos del diccionario
     i = 0
     while i < len(segmentos):
-        # Obtenemos el speaker y el texto del segmento actual
         speaker_actual = segmentos[i]['speaker']
         texto_actual = segmentos[i]['text']
         # Buscamos el siguiente segmento con un speaker diferente
         j = i + 1
@@ -142,7 +94,7 @@ def generar_transcripcion(diccionario):
             j += 1
         # Agregamos el texto del speaker actual a la transcripción
-        parrafo_con_speaker = f"{speaker_actual}: {texto_actual}"
         linea = parrafo_con_speaker
         lineas_transcripcion.append(linea)
@@ -181,4 +133,30 @@ def crear_diccionario(json_data):
             diccionario['word'].append(word)
             diccionario['score'].append(score)
-    return diccionario

     return lista_strings
 # def generar_transcripcion(diccionario):
 #     # Obtenemos la lista de segmentos del diccionario
 #     segmentos = diccionario['segments']
 #     # Creamos una lista para almacenar las líneas de la transcripción
 #     lineas_transcripcion = []
+#     # Iteramos sobre los segmentos del diccionario
+#     i = 0
+#     while i < len(segmentos):
+#         # Obtenemos el speaker y el texto del segmento actual
+#         speaker_actual = segmentos[i]['speaker']
+#         texto_actual = segmentos[i]['text']
+#         # Buscamos el siguiente segmento con un speaker diferente
+#         j = i + 1
+#         while j < len(segmentos) and segmentos[j]['speaker'] == speaker_actual:
+#             texto_actual += ' ' + segmentos[j]['text']
+#             j += 1
+#         # Agregamos el texto del speaker actual a la transcripción
+#         parrafo_con_speaker = f"{speaker_actual}: {texto_actual}"
 #         linea = parrafo_con_speaker
 #         lineas_transcripcion.append(linea)
+#         # Actualizamos el índice para el siguiente speaker
+#         i = j
 #     # Guardamos la transcripción en un archivo de texto
 #     nombre_archivo = guardar_en_archivo(lineas_transcripcion)
     # Iteramos sobre los segmentos del diccionario
     i = 0
     while i < len(segmentos):
+        # Obtenemos el speaker, el texto y el start time del segmento actual
         speaker_actual = segmentos[i]['speaker']
         texto_actual = segmentos[i]['text']
+        start_time = segmentos[i]['start']
         # Buscamos el siguiente segmento con un speaker diferente
         j = i + 1
             j += 1
         # Agregamos el texto del speaker actual a la transcripción
+        parrafo_con_speaker = f"{speaker_actual} ({start_time}): {texto_actual}"
         linea = parrafo_con_speaker
         lineas_transcripcion.append(linea)
             diccionario['word'].append(word)
             diccionario['score'].append(score)
+    return diccionario
+def generar_html_palabras(palabras, scores):
+    # Creamos una lista para almacenar los códigos HTML de cada palabra
+    html_palabras = []
+    # Iteramos sobre las palabras y sus scores
+    for palabra, score in zip(palabras, scores):
+        # Mapeamos el score a un color en rojo o verde
+        if score < 0.5:
+            color = f"rgb({int(255*score*2)}, {int(255*(1-score*2))}, 0)"
+        else:
+            color = f"rgb({int(255*(1-score)*2)}, {int(255*score*2)}, 0)"
+        # Creamos el código HTML para la palabra con el color asociado
+        html_palabra = f"<span style='color: {color}'>{palabra}</span>"
+        # Agregamos el código HTML a la lista
+        html_palabras.append(html_palabra)
+    # Unimos los códigos HTML de las palabras en una sola cadena
+    html_texto = ' '.join(html_palabras)
+    # Creamos el código HTML completo con el texto resaltado
+    html_completo = f"<p>{html_texto}</p>"
+    return html_completo