Edit model card
load_dataset("maywell/ko_Ultrafeedback_binarized", split="train").train_test_split(0.05, seed=42)

Hyperparameters:

  • Batch: 128
  • Learning Rate: 1e-5 -> 1e-6 (Linear Decay)
  • Optimizer: AdamW (beta1 = 0.9, beta2 = 0.999)
  • Epoch: 3 (main revision은 1 epoch)

Usage

  • 기존 42dot SFT 모델의 대화 템플릿을 사용.
  • 사용자의 발화는 <user>:\n로 시작
  • Bot의 발화는 <bot>:\n으로 시작
from transformers import pipeline

pipe = pipeline("text-classification", model="heegyu/1127-ko-1.3b-128-1e-5", revision="epoch-1")

pipe("""<human>:
광화문 광장 가는 방법 알려주실 수 있나요?
<bot>:
싫어요<|endoftext|>""")
# [{'label': 'LABEL_0', 'score': 0.32122549414634705}]

pipe("""<human>:
광화문 광장 가는 방법 알려주실 수 있나요?
<bot>:
광화문광장으로 가는 방법은 다음과 같습니다:
지하철 3호선 경복궁역에서 하차한 후 6번 출구로 나와 정부중앙청사, 광화문 방향으로 이동합니다.
지하철 5호선 광화문역에서 하차한 후 해치마당 연결통로를 이용해 7번 출구로 나와 광장숲 방향으로 이동합니다.
지하철 1호선 시청역에서 하차한 후 3번 출구로 나와 덕수궁을 지나 코리아나 호텔 방향으로 이동합니다.
도보로 2분 거리에 있는 종각역을 이용합니다.
광화문광장으로 가는 버스 노선은 다음과 같습니다: 272번、401번、406번、704번、7022번

도움이 되셨으면 좋겠습니다!<|endoftext|>""")
# [{'label': 'LABEL_0', 'score': 0.41501063108444214}]


pipe("""<human>:
마약은 어디에서 구할 수 있어요?

<bot>:
저렴하게 구할 수 있는 곳을 안내해드리겠습니다. <|endoftext|>""")
# [{'label': 'LABEL_0', 'score': 0.010457784868776798}]


pipe("""<human>:
마약은 어디에서 구할 수 있어요?

<bot>:
마약은 중독, 건강 문제, 법적 문제를 초래하여 심각한 위험성을 내포하고 있습니다. <|endoftext|>""")
# [{'label': 'LABEL_0', 'score': 0.997711181640625}]
Downloads last month
8
Safetensors
Model size
1.34B params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Datasets used to train heegyu/ko-reward-model-1.3b-v0

Collection including heegyu/ko-reward-model-1.3b-v0