Spaces:

katospiegel
/

amanu

Runtime error

App Files Files Community

katospiegel commited on Oct 19, 2023

Commit

36d2951

1 Parent(s): fe5ca43

adding fix for exporting language

Browse files

Files changed (3) hide show

README.md +1 -0
app.py +2 -1
transcription.py +7 -7

README.md CHANGED Viewed

@@ -46,6 +46,7 @@ The user will logging using a password and user specified by me. That user and p
 - [ ] Obtain plain txt with segments.
 - [ ] Introduce POS.
 - [ ] Optional Preprocessing
 Introduce Tab for analysis including POS. Maybe it would be great to have a visualizer with the timestamps and other features in Streamlit. Quizas correcciones.

 - [ ] Obtain plain txt with segments.
 - [ ] Introduce POS.
 - [ ] Optional Preprocessing
+- [ ] Trasncripcion box as the text being written.
 Introduce Tab for analysis including POS. Maybe it would be great to have a visualizer with the timestamps and other features in Streamlit. Quizas correcciones.

app.py CHANGED Viewed

@@ -48,7 +48,7 @@ def transcribeWhisperX(audiofile, model, language, patiente,
     vocal_path = mp3_to_wav(vocal_path, "vocal")
     #result = fast_transcription(vocal_path, model, "es")
-    result_aligned, result_speakers, diarize_segments = doWhisperX(vocal_path, whisper_model=model, language=language)
     #out = [str(s["start"]) + " " + s["text"] for s in result["segments"]]
@@ -79,6 +79,7 @@ def transcribeWhisperX(audiofile, model, language, patiente,
     file_path = Path(nombre_archivo)
     writter_args = {"highlight_words": None, "max_line_count": None, "max_line_width": None}
     srt_writer = get_writer("srt", Path("."))
     srt_writer(result_aligned, str(file_path.stem), writter_args)
     # with open(

     vocal_path = mp3_to_wav(vocal_path, "vocal")
     #result = fast_transcription(vocal_path, model, "es")
+    result_whisper, result_aligned, result_speakers, diarize_segments = doWhisperX(vocal_path, whisper_model=model, language=language)
     #out = [str(s["start"]) + " " + s["text"] for s in result["segments"]]
     file_path = Path(nombre_archivo)
     writter_args = {"highlight_words": None, "max_line_count": None, "max_line_width": None}
     srt_writer = get_writer("srt", Path("."))
+    result_aligned["language"] = language
     srt_writer(result_aligned, str(file_path.stem), writter_args)
     # with open(

transcription.py CHANGED Viewed

@@ -35,7 +35,7 @@ import gc
 def doWhisperX(audio_file, whisper_model="large-v2", language="es"):
     if language == "Cualquiera":
         language = None
     device = "cuda" if torch.cuda.is_available() else "cpu"
     #audio_file = "audio.mp3"
     batch_size = 16 # reduce if low on GPU mem
@@ -45,17 +45,17 @@ def doWhisperX(audio_file, whisper_model="large-v2", language="es"):
     model = whisperx.load_model(whisper_model, device, compute_type=compute_type)
     audio = whisperx.load_audio(audio_file)
-    result = model.transcribe(audio, language=language, batch_size=batch_size)
-    #print(result["segments"]) # before alignment
     # delete model if low on GPU resources
     # import gc; gc.collect(); torch.cuda.empty_cache(); del model
     # 2. Align whisper output
-    model_a, metadata = whisperx.load_align_model(language_code=result["language"], device=device)
-    result_aligned = whisperx.align(result["segments"], model_a, metadata, audio, device, return_char_alignments=False)
-    #print(result["segments"]) # after alignment
     # delete model if low on GPU resources
     # import gc; gc.collect(); torch.cuda.empty_cache(); del model_a
@@ -70,7 +70,7 @@ def doWhisperX(audio_file, whisper_model="large-v2", language="es"):
     result_speakers = whisperx.assign_word_speakers(diarize_segments, result_aligned)
     #print(diarize_segments)
     #print(result["segments"]) # segments are now assigned speaker IDs
-    return result_aligned, result_speakers, diarize_segments
 embedding_model = PretrainedSpeakerEmbedding(
     "speechbrain/spkrec-ecapa-voxceleb",

 def doWhisperX(audio_file, whisper_model="large-v2", language="es"):
     if language == "Cualquiera":
         language = None
     device = "cuda" if torch.cuda.is_available() else "cpu"
     #audio_file = "audio.mp3"
     batch_size = 16 # reduce if low on GPU mem
     model = whisperx.load_model(whisper_model, device, compute_type=compute_type)
     audio = whisperx.load_audio(audio_file)
+    result_whisper = model.transcribe(audio, language=language, batch_size=batch_size)
+    print(result_whisper["segments"]) # before alignment
     # delete model if low on GPU resources
     # import gc; gc.collect(); torch.cuda.empty_cache(); del model
     # 2. Align whisper output
+    model_a, metadata = whisperx.load_align_model(language_code=result_whisper["language"], device=device)
+    result_aligned = whisperx.align(result_whisper["segments"], model_a, metadata, audio, device, return_char_alignments=False)
+    print(result_aligned) # after alignment
     # delete model if low on GPU resources
     # import gc; gc.collect(); torch.cuda.empty_cache(); del model_a
     result_speakers = whisperx.assign_word_speakers(diarize_segments, result_aligned)
     #print(diarize_segments)
     #print(result["segments"]) # segments are now assigned speaker IDs
+    return result_whisper, result_aligned, result_speakers, diarize_segments
 embedding_model = PretrainedSpeakerEmbedding(
     "speechbrain/spkrec-ecapa-voxceleb",