Spaces:

katospiegel
/

amanu

Runtime error

App Files Files Community

katospiegel commited on Oct 19, 2023

Commit

51cca5c

1 Parent(s): 9471b7a

Bug in the method to allow inter speaker turns

Browse files

Files changed (1) hide show

helpers.py +86 -24

helpers.py CHANGED Viewed

@@ -79,44 +79,106 @@ def dataframe_a_lista(df):
 #     return lineas_transcripcion, nombre_archivo
-def generar_transcripcion(diccionario):
-    # Obtenemos la lista de segmentos del diccionario
-    segmentos = diccionario['segments']
-    # Creamos un diccionario para almacenar los textos de cada speaker
-    textos_por_speaker = {}
-    # Iteramos sobre los segmentos del diccionario
-    for segmento in segmentos:
-        # Obtenemos los valores del segmento
-        speaker = segmento['speaker']
-        texto = segmento['text']
-        # Si el speaker no está en el diccionario, lo agregamos
-        if speaker not in textos_por_speaker:
-            textos_por_speaker[speaker] = []
-        # Agregamos el texto al diccionario
-        textos_por_speaker[speaker].append(texto)
     # Creamos una lista para almacenar las líneas de la transcripción
     lineas_transcripcion = []
-    # Iteramos sobre los speakers y sus textos
-    for speaker, textos in textos_por_speaker.items():
-        # Creamos un párrafo con todos los textos del speaker
-        parrafo = ' '.join(textos)
-        # Agregamos el speaker al principio del párrafo
-        parrafo_con_speaker = f"{speaker}: {parrafo}"
-        # Agregamos la línea de la transcripción
         linea = parrafo_con_speaker
-        # Agregamos la línea a la lista de la transcripción
         lineas_transcripcion.append(linea)
     # Guardamos la transcripción en un archivo de texto
     nombre_archivo = guardar_en_archivo(lineas_transcripcion)
     return lineas_transcripcion, nombre_archivo

 #     return lineas_transcripcion, nombre_archivo
+# def generar_transcripcion(diccionario):
+#     # Obtenemos la lista de segmentos del diccionario
+#     segmentos = diccionario['segments']
+#     # Creamos un diccionario para almacenar los textos de cada speaker
+#     textos_por_speaker = {}
+#     # Iteramos sobre los segmentos del diccionario
+#     for segmento in segmentos:
+#         # Obtenemos los valores del segmento
+#         speaker = segmento['speaker']
+#         texto = segmento['text']
+#         # Si el speaker no está en el diccionario, lo agregamos
+#         if speaker not in textos_por_speaker:
+#             textos_por_speaker[speaker] = []
+#         # Agregamos el texto al diccionario
+#         textos_por_speaker[speaker].append(texto)
+#     # Creamos una lista para almacenar las líneas de la transcripción
+#     lineas_transcripcion = []
+#     # Iteramos sobre los speakers y sus textos
+#     for speaker, textos in textos_por_speaker.items():
+#         # Creamos un párrafo con todos los textos del speaker
+#         parrafo = ' '.join(textos)
+#         # Agregamos el speaker al principio del párrafo
+#         parrafo_con_speaker = f"{speaker}: {parrafo}"
+#         # Agregamos la línea de la transcripción
+#         linea = parrafo_con_speaker
+#         # Agregamos la línea a la lista de la transcripción
+#         lineas_transcripcion.append(linea)
+#     # Guardamos la transcripción en un archivo de texto
+#     nombre_archivo = guardar_en_archivo(lineas_transcripcion)
+#     return lineas_transcripcion, nombre_archivo
+def generar_transcripcion(diccionario):
+    # Obtenemos la lista de segmentos del diccionario
+    segmentos = diccionario['segments']
     # Creamos una lista para almacenar las líneas de la transcripción
     lineas_transcripcion = []
+    # Iteramos sobre los segmentos del diccionario
+    i = 0
+    while i < len(segmentos):
+        # Obtenemos el speaker y el texto del segmento actual
+        speaker_actual = segmentos[i]['speaker']
+        texto_actual = segmentos[i]['text']
+        # Buscamos el siguiente segmento con un speaker diferente
+        j = i + 1
+        while j < len(segmentos) and segmentos[j]['speaker'] == speaker_actual:
+            texto_actual += ' ' + segmentos[j]['text']
+            j += 1
+        # Agregamos el texto del speaker actual a la transcripción
+        parrafo_con_speaker = f"{speaker_actual}: {texto_actual}"
         linea = parrafo_con_speaker
         lineas_transcripcion.append(linea)
+        # Actualizamos el índice para el siguiente speaker
+        i = j
     # Guardamos la transcripción en un archivo de texto
     nombre_archivo = guardar_en_archivo(lineas_transcripcion)
     return lineas_transcripcion, nombre_archivo
+def crear_diccionario(json_data):
+    # Obtenemos la lista de segmentos del JSON
+    segmentos = json_data['segments']
+    # Creamos los diccionarios para almacenar los datos
+    diccionario = {'start_time': [], 'speaker': [], 'word': [], 'score': []}
+    # Iteramos sobre los segmentos del JSON
+    for segmento in segmentos:
+        # Obtenemos los valores del segmento
+        start_time = segmento['start']
+        speaker = segmento['speaker']
+        palabras = segmento['words']
+        # Iteramos sobre las palabras del segmento
+        for palabra in palabras:
+            # Obtenemos los valores de la palabra
+            word = palabra['word']
+            score = palabra['score']
+            # Agregamos los valores al diccionario
+            diccionario['start_time'].append(start_time)
+            diccionario['speaker'].append(speaker)
+            diccionario['word'].append(word)
+            diccionario['score'].append(score)
+    return diccionario