Trofish commited on
Commit
2c959b8
1 Parent(s): fa3719a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -2
README.md CHANGED
@@ -35,12 +35,14 @@
35
  ![Evaluation Accuracy Graph](https://cdn-uploads.huggingface.co/production/uploads/64a0fd6fd3149e05bc5260dd/LPq5M6S8LTwkFSCepD33S.png)
36
 
37
  ## 사용 방법
 
38
  ```python
39
  from transformers import AutoModel, AutoTokenizer
 
40
 
41
  # 모델과 토크나이저 불러오기
42
- model = AutoModel.from_pretrained("your_model_name")
43
- tokenizer = AutoTokenizer.from_pretrained("your_tokenizer_name")
44
 
45
  # 텍스트를 토큰으로 변환하고 예측 수행
46
  inputs = tokenizer("여기에 한국어 텍스트 입력", return_tensors="pt")
 
35
  ![Evaluation Accuracy Graph](https://cdn-uploads.huggingface.co/production/uploads/64a0fd6fd3149e05bc5260dd/LPq5M6S8LTwkFSCepD33S.png)
36
 
37
  ## 사용 방법
38
+ ## tokenizer의 경우 wordpiece가 아닌 syllable 단위이기에 AutoTokenizer가 아니라 SyllableTokenizer를 사용해야 합니다. (레포에서 제공하고 있는 syllabletokenizer.py를 가져와서 사용해야 합니다.)
39
  ```python
40
  from transformers import AutoModel, AutoTokenizer
41
+ from syllabletokenizer import SyllableTokenizer
42
 
43
  # 모델과 토크나이저 불러오기
44
+ model = AutoModelForMaskedLM.from_pretrained("Trofish/korean_syllable_roberta")
45
+ tokenizer = SyllableTokenizer(vocab_file='vocab.json',**tokenizer_kwargs)
46
 
47
  # 텍스트를 토큰으로 변환하고 예측 수행
48
  inputs = tokenizer("여기에 한국어 텍스트 입력", return_tensors="pt")