Fix handling of long text.

by tealgreen0503 - opened Nov 20, 2023

←

Files changed (2) hide show

tokenization_deberta_v2_jumanpp.py CHANGED Viewed

@@ -28,9 +28,9 @@ class JumanppTokenizer:
         self.jumanpp = rhoknp.Jumanpp()
     def tokenize(self, text: str) -> str:
-        morphemes = self.jumanpp.apply_to_sentence(text).morphemes
-        if not morphemes:
             doc = self.rhoknp.Document.from_raw_text(text)
             morphemes = self.jumanpp.apply_to_document(doc).morphemes
         return " ".join([morpheme.surf for morpheme in morphemes])

         self.jumanpp = rhoknp.Jumanpp()
     def tokenize(self, text: str) -> str:
+        try:
+            morphemes = self.jumanpp.apply_to_sentence(text).morphemes
+        except RuntimeError:
             doc = self.rhoknp.Document.from_raw_text(text)
             morphemes = self.jumanpp.apply_to_document(doc).morphemes
         return " ".join([morpheme.surf for morpheme in morphemes])

tokenization_deberta_v2_jumanpp_fast.py CHANGED Viewed

@@ -62,8 +62,9 @@ class JumanppPreTokenizer:
         pretok.split(self.jumanpp_split)
     def jumanpp_split(self, i: int, normalized_string: NormalizedString) -> List[NormalizedString]:
-        offsets = [morpheme.span for morpheme in self.jumanpp.apply_to_sentence(str(normalized_string)).morphemes]
-        if not offsets:
             doc = self.rhoknp.Document.from_raw_text(str(normalized_string))
             offsets = [morpheme.span for morpheme in self.jumanpp.apply_to_document(doc).morphemes]
         return [normalized_string[offset[0]:offset[1]] for offset in offsets]

         pretok.split(self.jumanpp_split)
     def jumanpp_split(self, i: int, normalized_string: NormalizedString) -> List[NormalizedString]:
+        try:
+            offsets = [morpheme.span for morpheme in self.jumanpp.apply_to_sentence(str(normalized_string)).morphemes]
+        except RuntimeError:
             doc = self.rhoknp.Document.from_raw_text(str(normalized_string))
             offsets = [morpheme.span for morpheme in self.jumanpp.apply_to_document(doc).morphemes]
         return [normalized_string[offset[0]:offset[1]] for offset in offsets]