kogpt-j-base-24L / README.md
heegyu's picture
Update README.md
aba37a8
|
raw
history blame
4.56 kB
metadata
license: mit
widget:
  - text: 오늘 아침 정부는 발표를 통해
  - text: |
      아 배고프다

모델 구성

  • GPT-J(Flax, Pytorch)
  • 24 Layers, 768 hidden dim, 3072 intermediate, 12 heads, 51200 vocab size
  • 1024 max_seq_len
  • 파라미터 수: 237M

학습 환경 및 하이퍼파라미터

  • TPU V2-8
  • Learning Rate: 6e-4, Batch Size: 4(x8), Scheudler: Linear, WarmUp: 1000 step
  • adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01
  • Training Steps: 625000 (3 epoch)
  • 학습 토큰 수: 19.22B (625000step * 1024seq * 8dev * 4batch / 1024^3)
  • 학습 기간: 2022/12/21 ~ 2022/12/25

학습에 사용한 데이터

  • AIHub SNS 대화(747MB)
  • AIHub 구어체(435MB)
  • AIHub 도서(1.6MB)
  • AIHub 대규모 웹데이터 기반 한국어 말뭉치(11.1GB)
  • 한국어 위키(773MB)
  • 나무위키(5.8GB)
  • 국립국어원 메신저 대화(21MB)
  • 국립국어원 일상대화 말뭉치(29.5MB)
  • 국립국어원 문어 말뭉치(2.91GB)
  • 국립국어원 구어 말뭉치(1.1GB)
  • 청와대 국민청원(651.8MB)
  • KcBERT Pre-Training Corpus(11.86GB)

데이터셋 크기는 전처리한 jsonl파일을 기준으로 함. 총 토큰 수는 약 6.4B임

사용 예시

from transformers import pipeline

model_name = "heegyu/kogpt-j-base-24L"
pipe = pipeline('text-generation', model=model_name)

print(pipe("안녕하세요", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128))
print(pipe("오늘 정부 발표에 따르면, ", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128))
print(pipe("싸늘하다. 가슴에 비수가 날아와 꽂힌다. ", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128, min_length=64))

결과

[{'generated_text': '안녕하세요. 전 고등학교 3학년인데요, 최근 수능이 끝나고 친구들과 만나서 이야기 중에 제가 (이름)를 너무 좋아하고 정말 잘하고 있는 거 같아서 기분이 좋아졌습니다. 그런데 아직 시간이 안 됐는데도 불구하고 친구들이 제 외모를 놀려대서 되게 마음이 불편했습니다. 그래서 솔직히 저도 그때 좀 고민이 많았는데 그 당시에는 친구한테 말을 잘못해서 그런 건 아니잖아요? 하하... 이런 상황에서 어떻게 대처해야할지 몰랐는데 친구들 중에서 아무도 나서지 않아 당황스러웠고 저는 아무 말도 하지 못한 채 그냥 멍하니 서있고 말았습니다. 그리고 그렇게 한참을 있었는데 친구가 저에게 지금 뭐하고 있을까? 이렇게 물어보길래 아 너무 슬픈 나머지 울 뻔 했습니다.. -(3번) -1 나-'}]
[{'generated_text': '오늘 정부 발표에 따르면, 美 제조업, 내수 모두 하락했다.미 상무부는 지난달 미국의 제조업 수주가 전월대비 0.5% 감소했다고 22일 밝혔다. 이는 직전월과 같은 수치다. 서비스업지수도 0.3% 후퇴하며 증가세를 견인하고 있다. 미국 제조업 수주도 전월에 비해 1포인트 저하한 수준이다.미중 무역전쟁에 따른 불안감이 지속되면서 뉴욕증시가 6주 연속 하락하면서 투자 심리를 악화시켰다.미국 연방준비제도(연준)의 9·12 양적완화(qe) 결정으로 6년반 만에 사상 최대로 늘어난 자금이 시장에 유입되고 있다는 분석이다'}]
[{'generated_text': '싸늘하다. 가슴에 비수가 날아와 꽂힌다. \n“내, 정말 안 된다고? 알았어! 그럼 난 다시 또...”라며 혼잣말을 한다 (103화) “넌 나에게 있어서 그저 소모품이야.”(110~111화) 그리고 ‘도망치는 건 나니까’, ”너를 지켜볼 뿐이고 나는 다 잃었을 뿐이다’라는 메시지가 나온다.(212번째) 도리어 내뱉는 말이 가관이다.. 자신의 행동에 대해 사과를 해야지 왜 아무 말도 안한 나한테 사과하라면서 화풀이를 하는가...(504회)‘정말로 너 때문에 내가 죽어야 되냐?!’(758번) 이런 식의 대화가 계속된다……. 하지만'}]

Issues

  • 나무위키 전처리가 잘못되어 }}}가 자주 등장.. 추후 재학습 예정

주의사항

이 모델의 학습 데이터는 각종 차별/혐오 데이터가 포함되어있으며, 별로의 제거작업을 진행하지 않았습니다. 따라서 모델이 생성하는 문장에 특정 인물이나 인종, 성별, 장애에 따른 차별/혐오발언을 생성할 수 있습니다.