Spaces:

Kr08
/

ASR

Sleeping

App Files Files Community

Kr08 commited on Nov 13, 2024

Commit

bed663f

verified ·

1 Parent(s): 8cc69ea

Update audio_processing.py

Browse files

Files changed (1) hide show

audio_processing.py +8 -0

audio_processing.py CHANGED Viewed

@@ -10,12 +10,15 @@ from transformers import (
     AutoTokenizer,
     AutoModelForSeq2SeqLM
 )
 import logging
 from difflib import SequenceMatcher
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
 class AudioProcessor:
     def __init__(self, chunk_size=5, overlap=1, sample_rate=16000):
         self.chunk_size = chunk_size
@@ -47,6 +50,7 @@ class AudioProcessor:
             'translation': (translation_model, translation_tokenizer)
         }
     def identify_language(self, audio_chunk, models):
         """Identify language of audio chunk"""
         lid_model, lid_processor = models['lid']
@@ -59,6 +63,7 @@ class AudioProcessor:
         return detected_lang
     def transcribe_chunk(self, audio_chunk, language, models):
         """Transcribe audio chunk"""
         mms_model, mms_processor = models['mms']
@@ -75,6 +80,7 @@ class AudioProcessor:
         return transcription
     def translate_text(self, text, models):
         """Translate text to English"""
         translation_model, translation_tokenizer = models['translation']
@@ -92,6 +98,7 @@ class AudioProcessor:
         return translation
     def process_audio(self, audio_path, translate=False):
         """Main processing function"""
         try:
@@ -163,6 +170,7 @@ class AudioProcessor:
             logger.error(f"Error processing audio: {str(e)}")
             raise
     def merge_segments(self, segments, time_threshold=0.5, similarity_threshold=0.7):
         """Merge similar nearby segments"""
         if not segments:

     AutoTokenizer,
     AutoModelForSeq2SeqLM
 )
+import spaces
 import logging
 from difflib import SequenceMatcher
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
 class AudioProcessor:
     def __init__(self, chunk_size=5, overlap=1, sample_rate=16000):
         self.chunk_size = chunk_size
             'translation': (translation_model, translation_tokenizer)
         }
+    @spaces.GPU(duration=60)
     def identify_language(self, audio_chunk, models):
         """Identify language of audio chunk"""
         lid_model, lid_processor = models['lid']
         return detected_lang
+    @spaces.GPU(duration=60)
     def transcribe_chunk(self, audio_chunk, language, models):
         """Transcribe audio chunk"""
         mms_model, mms_processor = models['mms']
         return transcription
+    @spaces.GPU(duration=60)
     def translate_text(self, text, models):
         """Translate text to English"""
         translation_model, translation_tokenizer = models['translation']
         return translation
+    @spaces.GPU(duration=60)
     def process_audio(self, audio_path, translate=False):
         """Main processing function"""
         try:
             logger.error(f"Error processing audio: {str(e)}")
             raise
     def merge_segments(self, segments, time_threshold=0.5, similarity_threshold=0.7):
         """Merge similar nearby segments"""
         if not segments: