dragonSwing
commited on
Commit
•
d8fc81f
1
Parent(s):
ecdcd80
Add vocab
Browse files- README.md +2 -1
- gec_model.py +4 -4
- utils.py +1 -1
- verb-form-vocab.txt +0 -0
README.md
CHANGED
@@ -58,7 +58,8 @@ model = GecBERTModel(
|
|
58 |
split_chunk=True
|
59 |
)
|
60 |
model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
|
61 |
-
#
|
|
|
62 |
```
|
63 |
**This model can work on arbitrarily large text in Vietnamese language.**
|
64 |
|
|
|
58 |
split_chunk=True
|
59 |
)
|
60 |
model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
|
61 |
+
# Always return list of outputs.
|
62 |
+
# ['Theo đó, Thủ tướng dự kiến tiếp Bộ trưởng Nông nghiệp Mỹ Tom Wilsack, Bộ trưởng Thương mại Mỹ Gina Raimondo, Bộ trưởng Tài chính Janet Yellen, gặp gỡ Thượng nghị sĩ Patrick Leahy và một số nghị sĩ Mỹ khác.']
|
63 |
```
|
64 |
**This model can work on arbitrarily large text in Vietnamese language.**
|
65 |
|
gec_model.py
CHANGED
@@ -9,9 +9,9 @@ import warnings
|
|
9 |
|
10 |
import torch
|
11 |
from transformers import AutoTokenizer
|
12 |
-
from
|
13 |
-
from
|
14 |
-
from
|
15 |
|
16 |
logging.getLogger("werkzeug").setLevel(logging.ERROR)
|
17 |
logger = logging.getLogger(__file__)
|
@@ -440,4 +440,4 @@ class GecBERTModel(torch.nn.Module):
|
|
440 |
if merge_punc:
|
441 |
final_batch = [re.sub(r'\s+(%s)' % self.punc_str, r'\1', x) for x in final_batch]
|
442 |
|
443 |
-
return final_batch
|
|
|
9 |
|
10 |
import torch
|
11 |
from transformers import AutoTokenizer
|
12 |
+
from modeling_seq2labels import Seq2LabelsModel
|
13 |
+
from vocabulary import Vocabulary
|
14 |
+
from utils import PAD, UNK, START_TOKEN, get_target_sent_by_edits
|
15 |
|
16 |
logging.getLogger("werkzeug").setLevel(logging.ERROR)
|
17 |
logger = logging.getLogger(__file__)
|
|
|
440 |
if merge_punc:
|
441 |
final_batch = [re.sub(r'\s+(%s)' % self.punc_str, r'\1', x) for x in final_batch]
|
442 |
|
443 |
+
return final_batch
|
utils.py
CHANGED
@@ -3,7 +3,7 @@ from pathlib import Path
|
|
3 |
import re
|
4 |
|
5 |
|
6 |
-
VOCAB_DIR = Path(__file__).resolve().parent
|
7 |
PAD = "@@PADDING@@"
|
8 |
UNK = "@@UNKNOWN@@"
|
9 |
START_TOKEN = "$START"
|
|
|
3 |
import re
|
4 |
|
5 |
|
6 |
+
VOCAB_DIR = Path(__file__).resolve().parent
|
7 |
PAD = "@@PADDING@@"
|
8 |
UNK = "@@UNKNOWN@@"
|
9 |
START_TOKEN = "$START"
|
verb-form-vocab.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|