Add vocab

Files changed (4) hide show

README.md CHANGED Viewed

@@ -58,7 +58,8 @@ model = GecBERTModel(
     split_chunk=True
 )
 model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
-# Theo đó, Thủ tướng dự kiến tiếp Bộ trưởng Nông nghiệp Mỹ Tom Wilsack, Bộ trưởng Thương mại Mỹ Gina Raimondo, Bộ trưởng Tài chính Janet Yellen, gặp gỡ thượng nghị sĩ Patrick Leahy và một số nghị sĩ Mỹ khác.
 ```
 **This model can work on arbitrarily large text in Vietnamese language.**

     split_chunk=True
 )
 model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
+# Always return list of outputs.
+# ['Theo đó, Thủ tướng dự kiến tiếp Bộ trưởng Nông nghiệp Mỹ Tom Wilsack, Bộ trưởng Thương mại Mỹ Gina Raimondo, Bộ trưởng Tài chính Janet Yellen, gặp gỡ Thượng nghị sĩ Patrick Leahy và một số nghị sĩ Mỹ khác.']
 ```
 **This model can work on arbitrarily large text in Vietnamese language.**

gec_model.py CHANGED Viewed

@@ -9,9 +9,9 @@ import warnings
 import torch
 from transformers import AutoTokenizer
-from .modeling_seq2labels import Seq2LabelsModel
-from .vocabulary import Vocabulary
-from .utils import PAD, UNK, START_TOKEN, get_target_sent_by_edits
 logging.getLogger("werkzeug").setLevel(logging.ERROR)
 logger = logging.getLogger(__file__)
@@ -440,4 +440,4 @@ class GecBERTModel(torch.nn.Module):
         if merge_punc:
             final_batch = [re.sub(r'\s+(%s)' % self.punc_str, r'\1', x) for x in final_batch]
-        return final_batch, total_updates

 import torch
 from transformers import AutoTokenizer
+from modeling_seq2labels import Seq2LabelsModel
+from vocabulary import Vocabulary
+from utils import PAD, UNK, START_TOKEN, get_target_sent_by_edits
 logging.getLogger("werkzeug").setLevel(logging.ERROR)
 logger = logging.getLogger(__file__)
         if merge_punc:
             final_batch = [re.sub(r'\s+(%s)' % self.punc_str, r'\1', x) for x in final_batch]
+        return final_batch

utils.py CHANGED Viewed

@@ -3,7 +3,7 @@ from pathlib import Path
 import re
-VOCAB_DIR = Path(__file__).resolve().parent.parent / "data"
 PAD = "@@PADDING@@"
 UNK = "@@UNKNOWN@@"
 START_TOKEN = "$START"

 import re
+VOCAB_DIR = Path(__file__).resolve().parent
 PAD = "@@PADDING@@"
 UNK = "@@UNKNOWN@@"
 START_TOKEN = "$START"

verb-form-vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff