Edit model card

Model Card for Model ID

aeolian83/Llama-3-Open-Ko-8B-aeolian83-chatvec 모델은

chat-vector 논문( https://arxiv.org/abs/2310.04799v2 )에 근거하여,

llama3의 pre-trained 모델의 parameter와 instruction 모델의 매개변수의 차이를

beomi님의 Llama-3-Open-Ko-8B에 적용한 모델

이 방법이 가능하다면 llama3의 instruction 모델에

llama3의 pre-trained 모델과 한국어 CP모델인 Llama-3-Open-Ko-8B 모델의 매개변수 차이를

instruction 모델에 넣었을 때 어떻게 되는지 확인하는 모델

매개변수에 가중치를 0.7 줌

Metric

results/all/aeolian83/Llama-3-8B-Instruct-cp-transfer_0.7

0 5
kobest_boolq (macro_f1) 0.786414 0.775213
kobest_copa (macro_f1) 0.67162 0.719676
kobest_hellaswag (macro_f1) 0.436275 0.423664
kobest_sentineg (macro_f1) 0.503784 0.901741
kohatespeech (macro_f1) 0.260168 0.339337
kohatespeech_apeach (macro_f1) 0.337667 0.611894
kohatespeech_gen_bias (macro_f1) 0.124535 0.505005
korunsmile (f1) 0.410636 0.323403
nsmc (acc) 0.53778 0.81346
pawsx_ko (acc) 0.5485 0.486

Used Model

  • Base model(weight diff를 구하기 위한 베이스 모델) : meta-llama/Meta-Llama-3-8B
  • Chat model(weight diff를 제공하는 cp model) : beomi/Llama-3-Open-Ko-8B
  • Target model(weight diff를 적용해서 instruction 튠을 하고자 하는 모델) : meta-llama/Meta-Llama-3-8B-Instruct
Downloads last month
6
Safetensors
Model size
8.03B params
Tensor type
BF16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.