tomiwa1a
/

video-search

Automatic Speech Recognition

generic

audio

endpoints-template

Inference Endpoints

Model card Files Files and versions Community

tomiwa1a commited on Jan 1, 2023

Commit

c36201b

•

1 Parent(s): 4678908

fix bug for when transcript length is 1 and combine_transcripts was skipping last segment by using len()-1

Browse files

Files changed (1) hide show

handler.py +7 -11

handler.py CHANGED Viewed

@@ -49,9 +49,9 @@ class EndpointHandler():
             video_with_transcript = self.transcribe_video(video_url)
             encode_transcript = data.pop("encode_transcript", True)
             if encode_transcript:
-                video_with_transcript['transcript']['segments'] = self.combine_transcripts(video_with_transcript)
                 encoded_segments = {
-                    "encoded_segments": self.encode_sentences(video_with_transcript['transcript']['segments'])
                 }
             return {
                 **video_with_transcript,
@@ -112,18 +112,14 @@ class EndpointHandler():
         all_batches = []
         for i in tqdm(range(0, len(transcripts), batch_size)):
             # find end position of batch (for when we hit end of data)
-            i_end = min(len(transcripts) - 1, i + batch_size)
             # extract the metadata like text, start/end positions, etc
             batch_meta = [{
-                **transcripts[x]
-            } for x in range(i, i_end)]
             # extract only text to be encoded by embedding model
             batch_text = [
-                row['text'] for row in transcripts[i:i_end]
-            ]
-            # extract IDs to be attached to each embedding and metadata
-            batch_ids = [
-                row['id'] for row in transcripts[i:i_end]
             ]
             # create the embedding vectors
             batch_vectors = self.sentence_transformer_model.encode(batch_text).tolist()
@@ -152,7 +148,7 @@ class EndpointHandler():
         video_info = video['video']
         transcript_segments = video['transcript']['segments']
         for i in tqdm(range(0, len(transcript_segments), stride)):
-            i_end = min(len(transcript_segments) - 1, i + window)
             text = ' '.join(transcript['text']
                             for transcript in
                             transcript_segments[i:i_end])

             video_with_transcript = self.transcribe_video(video_url)
             encode_transcript = data.pop("encode_transcript", True)
             if encode_transcript:
+                encoded_segments = self.combine_transcripts(video_with_transcript)
                 encoded_segments = {
+                    "encoded_segments": self.encode_sentences(encoded_segments)
                 }
             return {
                 **video_with_transcript,
         all_batches = []
         for i in tqdm(range(0, len(transcripts), batch_size)):
             # find end position of batch (for when we hit end of data)
+            i_end = min(len(transcripts), i + batch_size)
             # extract the metadata like text, start/end positions, etc
             batch_meta = [{
+                **row
+            } for row in transcripts[i:i_end]]
             # extract only text to be encoded by embedding model
             batch_text = [
+                row['text'] for row in batch_meta
             ]
             # create the embedding vectors
             batch_vectors = self.sentence_transformer_model.encode(batch_text).tolist()
         video_info = video['video']
         transcript_segments = video['transcript']['segments']
         for i in tqdm(range(0, len(transcript_segments), stride)):
+            i_end = min(len(transcript_segments), i + window)
             text = ' '.join(transcript['text']
                             for transcript in
                             transcript_segments[i:i_end])