heegyu commited on
Commit
aba37a8
1 Parent(s): 2acea0c

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -3
README.md CHANGED
@@ -17,7 +17,7 @@ widget:
17
  - Learning Rate: 6e-4, Batch Size: 4(x8), Scheudler: Linear, WarmUp: 1000 step
18
  - adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01
19
  - Training Steps: 625000 (3 epoch)
20
- - 학습 토큰 수: 57.22B (625000step * 3epoch * 1024seq * 8dev * 4batch / 1024^3)
21
  - 학습 기간: 2022/12/21 ~ 2022/12/25
22
 
23
  ## 학습에 사용한 데이터
@@ -31,12 +31,11 @@ widget:
31
  - 국립국어원 일상대화 말뭉치(29.5MB)
32
  - 국립국어원 문어 말뭉치(2.91GB)
33
  - 국립국어원 구어 말뭉치(1.1GB)
34
- - 국립국어원 뉴스 말뭉치(14.16GB)
35
  - 청와대 국민청원(651.8MB)
36
  - KcBERT Pre-Training Corpus(11.86GB)
37
 
38
  데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
39
- 총 토큰 수는 약 19B
40
 
41
  ## 사용 예시
42
  ```python
 
17
  - Learning Rate: 6e-4, Batch Size: 4(x8), Scheudler: Linear, WarmUp: 1000 step
18
  - adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01
19
  - Training Steps: 625000 (3 epoch)
20
+ - 학습 토큰 수: 19.22B (625000step * 1024seq * 8dev * 4batch / 1024^3)
21
  - 학습 기간: 2022/12/21 ~ 2022/12/25
22
 
23
  ## 학습에 사용한 데이터
 
31
  - 국립국어원 일상대화 말뭉치(29.5MB)
32
  - 국립국어원 문어 말뭉치(2.91GB)
33
  - 국립국어원 구어 말뭉치(1.1GB)
 
34
  - 청와대 국민청원(651.8MB)
35
  - KcBERT Pre-Training Corpus(11.86GB)
36
 
37
  데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
38
+ 총 토큰 수는 약 6.4B
39
 
40
  ## 사용 예시
41
  ```python