Update README.md
Browse files
README.md
CHANGED
@@ -35,12 +35,14 @@
|
|
35 |
![Evaluation Accuracy Graph](https://cdn-uploads.huggingface.co/production/uploads/64a0fd6fd3149e05bc5260dd/LPq5M6S8LTwkFSCepD33S.png)
|
36 |
|
37 |
## 사용 방법
|
|
|
38 |
```python
|
39 |
from transformers import AutoModel, AutoTokenizer
|
|
|
40 |
|
41 |
# 모델과 토크나이저 불러오기
|
42 |
-
model =
|
43 |
-
tokenizer =
|
44 |
|
45 |
# 텍스트를 토큰으로 변환하고 예측 수행
|
46 |
inputs = tokenizer("여기에 한국어 텍스트 입력", return_tensors="pt")
|
|
|
35 |
![Evaluation Accuracy Graph](https://cdn-uploads.huggingface.co/production/uploads/64a0fd6fd3149e05bc5260dd/LPq5M6S8LTwkFSCepD33S.png)
|
36 |
|
37 |
## 사용 방법
|
38 |
+
## tokenizer의 경우 wordpiece가 아닌 syllable 단위이기에 AutoTokenizer가 아니라 SyllableTokenizer를 사용해야 합니다. (레포에서 제공하고 있는 syllabletokenizer.py를 가져와서 사용해야 합니다.)
|
39 |
```python
|
40 |
from transformers import AutoModel, AutoTokenizer
|
41 |
+
from syllabletokenizer import SyllableTokenizer
|
42 |
|
43 |
# 모델과 토크나이저 불러오기
|
44 |
+
model = AutoModelForMaskedLM.from_pretrained("Trofish/korean_syllable_roberta")
|
45 |
+
tokenizer = SyllableTokenizer(vocab_file='vocab.json',**tokenizer_kwargs)
|
46 |
|
47 |
# 텍스트를 토큰으로 변환하고 예측 수행
|
48 |
inputs = tokenizer("여기에 한국어 텍스트 입력", return_tensors="pt")
|