Spaces:

Kr08
/

ASR

Build error

App Files Files Community

Kr08 commited on Nov 13, 2024

Commit

37ddb1d

verified ·

1 Parent(s): cb9c78a

Update audio_processing.py

Browse files

Files changed (1) hide show

audio_processing.py +56 -2

audio_processing.py CHANGED Viewed

@@ -98,6 +98,51 @@ class AudioProcessor:
         return translation
     @spaces.GPU(duration=60)
     def process_audio(self, audio_path, translate=False):
         """Main processing function"""
@@ -106,10 +151,19 @@ class AudioProcessor:
             waveform, sample_rate = torchaudio.load(audio_path)
             if waveform.shape[0] > 1:
                 waveform = torch.mean(waveform, dim=0)
             # Resample if necessary
             if sample_rate != self.sample_rate:
-                waveform = torchaudio.transforms.Resample(sample_rate, self.sample_rate)(waveform)
             # Load models
             models = self.load_models()

         return translation
+    def preprocess_audio(self, audio):
+        """
+        Create overlapping chunks with improved timing logic
+        """
+        chunk_samples = int(self.chunk_size * self.sample_rate)
+        overlap_samples = int(self.overlap * self.sample_rate)
+        chunks_with_times = []
+        start_idx = 0
+        while start_idx < len(audio):
+            end_idx = min(start_idx + chunk_samples, len(audio))
+            # Add padding for first chunk
+            if start_idx == 0:
+                chunk = audio[start_idx:end_idx]
+                padding = torch.zeros(int(1 * self.sample_rate))
+                chunk = torch.cat([padding, chunk])
+            else:
+                # Include overlap from previous chunk
+                actual_start = max(0, start_idx - overlap_samples)
+                chunk = audio[actual_start:end_idx]
+            # Pad if necessary
+            if len(chunk) < chunk_samples:
+                chunk = torch.nn.functional.pad(chunk, (0, chunk_samples - len(chunk)))
+            # Adjust time ranges to account for overlaps
+            chunk_start_time = max(0, (start_idx / self.sample_rate) - self.overlap)
+            chunk_end_time = min((end_idx / self.sample_rate) + self.overlap, len(audio) / self.sample_rate)
+            chunks_with_times.append({
+                'chunk': chunk,
+                'start_time': start_idx / self.sample_rate,
+                'end_time': end_idx / self.sample_rate,
+                'transcribe_start': chunk_start_time,
+                'transcribe_end': chunk_end_time
+            })
+            # Move to next chunk with smaller step size for better continuity
+            start_idx += (chunk_samples - overlap_samples)
+        return chunks_with_times
     @spaces.GPU(duration=60)
     def process_audio(self, audio_path, translate=False):
         """Main processing function"""
             waveform, sample_rate = torchaudio.load(audio_path)
             if waveform.shape[0] > 1:
                 waveform = torch.mean(waveform, dim=0)
+            else:
+                waveform = waveform.squeeze(0)
             # Resample if necessary
             if sample_rate != self.sample_rate:
+                resampler = torchaudio.transforms.Resample(
+                    orig_freq=sample_rate,
+                    new_freq=self.sample_rate
+                )
+                waveform = resampler(waveform)
+            # if sample_rate != self.sample_rate:
+            #     waveform = torchaudio.transforms.Resample(sample_rate, self.sample_rate)(waveform)
             # Load models
             models = self.load_models()