kotoba-tech
/

kotoba-whisper-v2.2

@@ -2,15 +2,14 @@
 language: ja
 library_name: transformers
 license: apache-2.0
 tags:
 - audio
 - automatic-speech-recognition
 - hf-asr-leaderboard
 widget:
 - example_title: Sample 1
-  src: >-
-    https://huggingface.co/kotoba-tech/kotoba-whisper-v2.2/resolve/main/sample_audio/sample_diarization_japanese.mp3
-pipeline_tag: automatic-speech-recognition
 ---
 # Kotoba-Whisper-v2.2

 language: ja
 library_name: transformers
 license: apache-2.0
+pipeline_tag: automatic-speech-recognition
 tags:
 - audio
 - automatic-speech-recognition
 - hf-asr-leaderboard
 widget:
 - example_title: Sample 1
+  src: https://huggingface.co/kotoba-tech/kotoba-whisper-v2.2/resolve/main/sample_audio/sample_diarization_japanese.mp3
 ---
 # Kotoba-Whisper-v2.2

kotoba_whisper.py CHANGED Viewed

@@ -12,29 +12,63 @@ from transformers.tokenization_utils import PreTrainedTokenizer
 from transformers.feature_extraction_sequence_utils import SequenceFeatureExtractor
 from pyannote.audio import Pipeline
 from pyannote.core.annotation import Annotation
 class SpeakerDiarization:
-    def __init__(self, model_id: str, device: torch.device):
         self.device = device
         self.pipeline = Pipeline.from_pretrained(model_id)
         self.pipeline = self.pipeline.to(self.device)
-    def __call__(self,
-                 audio: Union[str, torch.Tensor, np.ndarray],
-                 sampling_rate: Optional[int] = None) -> Annotation:
-        if type(audio) is torch.Tensor or type(audio) is np.ndarray:
-            if sampling_rate is None:
-                raise ValueError("sampling_rate must be provided")
-            if type(audio) is np.ndarray:
-                audio = torch.as_tensor(audio)
-            audio = torch.as_tensor(audio, dtype=torch.float32)
-            if len(audio.shape) == 1:
-                audio = audio.unsqueeze(0)
-            elif len(audio.shape) > 3:
-                raise ValueError("audio shape must be (channel, time)")
-            audio = {"waveform": audio.to(self.device), "sample_rate": sampling_rate}
         output = self.pipeline(audio)
         return output
@@ -43,23 +77,33 @@ class KotobaWhisperPipeline(AutomaticSpeechRecognitionPipeline):
     def __init__(self,
                  model: "PreTrainedModel",
-                 model_diarizarization: str="pyannote/speaker-diarization-3.1",
                  feature_extractor: Union["SequenceFeatureExtractor", str] = None,
                  tokenizer: Optional[PreTrainedTokenizer] = None,
                  device: Union[int, "torch.device"] = None,
-                 device_diarizarization: Union[int, "torch.device"] = None,
                  torch_dtype: Optional[Union[str, "torch.dtype"]] = None,
-                 return_unique_speaker: bool = False,
                  **kwargs):
         self.type = "seq2seq_whisper"
         if device is None:
             device = "cpu"
-        if device_diarizarization is None:
-            device_diarizarization = device
-        if type(device_diarizarization) is str:
-            device_diarizarization = torch.device(device_diarizarization)
-        self.model_speaker_diarization = SpeakerDiarization(model_diarizarization, device_diarizarization)
         self.return_unique_speaker = return_unique_speaker
         super().__init__(
             model=model,
             feature_extractor=feature_extractor,
@@ -269,11 +313,18 @@ class KotobaWhisperPipeline(AutomaticSpeechRecognitionPipeline):
             else:
                 i["speaker"] = []
         outputs["chunks"] = new_chunks
         outputs["text"] = "".join([c["text"] for c in outputs["chunks"]])
         outputs["speakers"] = sd.labels()
         outputs.pop("audio_array")
         for s in outputs["speakers"]:
-            outputs[f"text/{s}"] = "".join([c["text"] for c in outputs["chunks"] if s in c["speaker"]])
-            outputs[f"chunks/{s}"] = [c for c in outputs["chunks"] if s in c["speaker"]]
         return outputs

 from transformers.feature_extraction_sequence_utils import SequenceFeatureExtractor
 from pyannote.audio import Pipeline
 from pyannote.core.annotation import Annotation
+from punctuators.models import PunctCapSegModelONNX
+from diarizers import SegmentationModel
+class Punctuator:
+    ja_punctuations = ["!", "?", "、", "。"]
+    def __init__(self, model: str = "pcs_47lang"):
+        self.punctuation_model = PunctCapSegModelONNX.from_pretrained(model)
+    def punctuate(self, pipeline_chunk: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
+        def validate_punctuation(raw: str, punctuated: str):
+            if 'unk' in punctuated.lower() or any(p in raw for p in self.ja_punctuations):
+                return raw
+            if punctuated.count("。") > 1:
+                ind = punctuated.rfind("。")
+                punctuated = punctuated.replace("。", "")
+                punctuated = punctuated[:ind] + "。" + punctuated[ind:]
+            return punctuated
+        text_edit = self.punctuation_model.infer([c['text'] for c in pipeline_chunk])
+        return [
+            {
+                'timestamp': c['timestamp'],
+                'text': validate_punctuation(c['text'], "".join(e))
+            } for c, e in zip(pipeline_chunk, text_edit)
+        ]
 class SpeakerDiarization:
+    def __init__(self,
+                 device: torch.device,
+                 model_id: str = "pyannote/speaker-diarization-3.1",
+                 model_id_diarizers: Optional[str] = None):
         self.device = device
         self.pipeline = Pipeline.from_pretrained(model_id)
         self.pipeline = self.pipeline.to(self.device)
+        if model_id_diarizers:
+            self.pipeline._segmentation.model = SegmentationModel().from_pretrained(
+                model_id_diarizers
+            ).to_pyannote_model().to(self.device)
+    def __call__(self, audio: Union[torch.Tensor, np.ndarray], sampling_rate: int) -> Annotation:
+        if sampling_rate is None:
+            raise ValueError("sampling_rate must be provided")
+        if type(audio) is np.ndarray:
+            audio = torch.as_tensor(audio)
+        audio = torch.as_tensor(audio, dtype=torch.float32)
+        if len(audio.shape) == 1:
+            audio = audio.unsqueeze(0)
+        elif len(audio.shape) > 3:
+            raise ValueError("audio shape must be (channel, time)")
+        audio = {"waveform": audio.to(self.device), "sample_rate": sampling_rate}
         output = self.pipeline(audio)
         return output
     def __init__(self,
                  model: "PreTrainedModel",
+                 model_pyannote: str = "pyannote/speaker-diarization-3.1",
+                 model_diarizers: Optional[str] = "diarizers-community/speaker-segmentation-fine-tuned-callhome-jpn",
                  feature_extractor: Union["SequenceFeatureExtractor", str] = None,
                  tokenizer: Optional[PreTrainedTokenizer] = None,
                  device: Union[int, "torch.device"] = None,
+                 device_pyannote: Union[int, "torch.device"] = None,
                  torch_dtype: Optional[Union[str, "torch.dtype"]] = None,
+                 return_unique_speaker: bool = True,
+                 punctuator: bool = False,
                  **kwargs):
         self.type = "seq2seq_whisper"
         if device is None:
             device = "cpu"
+        if device_pyannote is None:
+            device_pyannote = device
+        if type(device_pyannote) is str:
+            device_pyannote = torch.device(device_pyannote)
+        self.model_speaker_diarization = SpeakerDiarization(
+            device=device_pyannote,
+            model_id=model_pyannote,
+            model_id_diarizers=model_diarizers
+        )
         self.return_unique_speaker = return_unique_speaker
+        if punctuator:
+            self.punctuator = Punctuator()
+        else:
+            self.punctuator = None
         super().__init__(
             model=model,
             feature_extractor=feature_extractor,
             else:
                 i["speaker"] = []
         outputs["chunks"] = new_chunks
+        if self.punctuator:
+            outputs["chunks"] = self.punctuator.punctuate(outputs["chunks"])
         outputs["text"] = "".join([c["text"] for c in outputs["chunks"]])
         outputs["speakers"] = sd.labels()
         outputs.pop("audio_array")
+        speakers = []
         for s in outputs["speakers"]:
+            chunk_s = [c for c in outputs["chunks"] if s in c["speaker"]]
+            if len(chunk_s) != 0:
+                outputs[f"chunks/{s}"] = chunk_s
+                outputs[f"text/{s}"] = "".join([c["text"] for c in outputs["chunks"] if s in c["speaker"]])
+                speakers.append(s)
+        outputs["speakers"] = speakers
         return outputs