--- datasets: - Magpie-Align/Magpie-Pro-MT-300K-v0.1 - HAERAE-HUB/qarv-instruct-100k - kuotient/orca-math-korean-preference - iknow-lab/ko-genstruct-v1-output --- ChatML 템플릿 사용 ## 성능 ``` Epoch-1 카테고리: 추론(Reasoning), 싱글 점수 평균: 6.86, 멀티 점수 평균: 4.00 카테고리: 수학(Math), 싱글 점수 평균: 6.00, 멀티 점수 평균: 4.00 카테고리: 글쓰기(Writing), 싱글 점수 평균: 3.57, 멀티 점수 평균: 4.00 카테고리: 코딩(Coding), 싱글 점수 평균: 5.71, 멀티 점수 평균: 6.71 카테고리: 이해(Understanding), 싱글 점수 평균: 6.57, 멀티 점수 평균: 4.14 카테고리: 문법(Grammar), 싱글 점수 평균: 6.29, 멀티 점수 평균: 1.43 전체 싱글 점수 평균: 5.83 전체 멀티 점수 평균: 4.05 전체 점수: 4.94 Epoch-2 (Main) 카테고리: 추론(Reasoning), 싱글 점수 평균: 5.86, 멀티 점수 평균: 4.71 카테고리: 수학(Math), 싱글 점수 평균: 5.43, 멀티 점수 평균: 2.86 카테고리: 글쓰기(Writing), 싱글 점수 평균: 3.86, 멀티 점수 평균: 3.57 카테고리: 코딩(Coding), 싱글 점수 평균: 4.57, 멀티 점수 평균: 6.00 카테고리: 이해(Understanding), 싱글 점수 평균: 7.14, 멀티 점수 평균: 6.29 카테고리: 문법(Grammar), 싱글 점수 평균: 6.14, 멀티 점수 평균: 2.71 전체 싱글 점수 평균: 5.50 전체 멀티 점수 평균: 4.36 전체 점수: 4.93 ```