heegyu
/

ko-reward-model-1.3b-v0

Text Classification

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

heegyu commited on Dec 1, 2023

Commit

92fec50

•

1 Parent(s): 21e5011

Update README.md

Files changed (1) hide show

README.md +30 -0

README.md CHANGED Viewed

@@ -1,8 +1,38 @@
 ---
 datasets:
 - maywell/ko_Ultrafeedback_binarized
 - MrBananaHuman/kor_ethical_question_answer
 ---
 ```
 from transformers import pipeline

 ---
+license: mit
+widget:
+- text: "<user>:\n안녕하세요\n<bot>:\n안녕하세요! 오늘 날씨가 정말 좋아요 ^^ <|endoftext|>"
 datasets:
 - maywell/ko_Ultrafeedback_binarized
 - MrBananaHuman/kor_ethical_question_answer
+language:
+- ko
+metrics:
+- accuracy
+pipeline_tag: text-classification
 ---
+- Base Model: [42dot/42dot_LLM-SFT-1.3B](https://huggingface.co/42dot/42dot_LLM-SFT-1.3B)
+- [maywell/ko_Ultrafeedback_binarized](https://huggingface.co/datasets/maywell/ko_Ultrafeedback_binarized)을 95:5 비율로 나뉜 뒤, 95%를 학습에 사용하고 5%는 평가에 사용
+- Test 정확도: 74.38
+```
+load_dataset("maywell/ko_Ultrafeedback_binarized", split="train").train_test_split(0.05, seed=42)
+```
+- [MrBananaHuman/kor_ethical_question_answer](https://huggingface.co/datasets/MrBananaHuman/kor_ethical_question_answer) 중 1000개를 test set으로 사용
+- Test 정확도: 100 (문제가 쉬운 것 같습니다)
+## Hyperparameters:
+- Batch: 128
+- Learning Rate: 1e-5 -> 1e-6 (Linear Decay)
+- Optimizer: AdamW (beta1 = 0.9, beta2 = 0.999)
+- Epoch: 3 (main revision은 1 epoch)
+## Usage
+- 기존 42dot SFT 모델의 대화 템플릿을 사용.
+- 사용자의 발화는 `<user>:\n`로 시작
+- Bot의 발화는 `<bot>:\n`으로 시작
 ```
 from transformers import pipeline