k-eval
Collection
The k-eval model is an evaluation model designed to replace GPT-4 evaluation or human evaluation.
β’
4 items
β’
Updated
keval is an evaluation model that learned the prompt and dataset used in the benchmark for evaluating Korean language models among various methods of evaluating models with chatgpt to compensate for the shortcomings of the existing lm-evaluation-harness.
Original model: google/gemma-2-9b-it
Now that the new version(keval-9b) has been released, the previous version will be changed so that anyone can use it.
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
checkpoint = "davidkim205/keval-9b"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", torch_dtype=torch.bfloat16)
judgment="""λΉμ μ μ μ΅ν μ‘°μμ
λλ€.\n[μ§μ]\n곡νν νλ¨μλ‘ νλνκ³ μλμ νμλλ μ¬μ©μμ μ§λ¬Έμ λν AI μ΄μμ€ν΄νΈ μλ΅μ νμ§μ νκ°ν©λλ€. κ·νμ νκ°λ μλ΅μ μ μ©μ±, κ΄λ ¨μ±, μ νμ±, κΉμ΄, μ°½μμ±, μμΈλ λ±μ μμλ₯Ό κ³ λ €ν΄μΌ ν©λλ€. AI μ΄μμ€ν΄νΈμ μλ΅ μΈμ΄λ μ¬μ©μκ° μ¬μ©νλ μΈμ΄μ μΌμΉν΄μΌ νλ©°, κ·Έλ μ§ μμΌλ©΄ κ°μ λμ΄μΌ ν©λλ€. νκ°λ 짧μ μ€λͺ
μΌλ‘ μμνμμμ€. κ°λ₯ν ν κ°κ΄μ μΈ κ². μ€λͺ
μ μ 곡ν ν \"[[νκ°]]\" νμμ μ격ν λ°λΌ 1μμ 10κΉμ§μ μ€μΌμΌλ‘ μλ΅μ νκ°ν΄μΌ ν©λλ€. (μμ: \"νκ°: [[5]]\").\n\n<|μ΄μμ€ν΄νΈ Aμ μ¬μ©μμ λν μμ|>[μ§λ¬Έ]\nλ κ°μ§ μΈκΈ° μ€λ§νΈν° λͺ¨λΈμ λΉκ΅νλ λΈλ‘κ·Έ κ²μλ¬Όμ μμ±νλ€κ³ μμν΄λ΄
μλ€. λ λͺ¨λΈμ κΈ°λ₯, μ±λ₯ λ° μ¬μ©μ κ²½νμ ν¨κ³Όμ μΌλ‘ λΉκ΅νκ³ λμ‘°ν μ μλλ‘ ν΅μ¬ μ¬νκ³Ό λΆμ λͺ©μ ν¬ν¨νμ¬ λΈλ‘κ·Έ κ²μλ¬Όμ κ°μλ₯Ό μμ±νμΈμ. 200λ¨μ΄ μ΄λ΄λ‘ λ΅νμΈμ.\n\n[λμλ§ λ΅λ³ μμ]\nμ λͺ©: iPhone 13μ Samsung Galaxy S22: λΉκ΅ κ²ν μκ°* μ€λ§νΈν° ꡬ맀μ μ€μμ±μ λν μ€λͺ
* λΈλ‘κ·Έ κ²μλ¬Όμ λͺ©μ : 2μΈκΈ° μ€λ§νΈν° λͺ¨λΈ λΉκ΅: iPhone 13μ μΌμ± κ°€λμ S22κΈ°λ₯ λΉκ΅* ν¬κΈ°, λμ€νλ μ΄ ν¬κΈ°, λμμΈ λ° ννμ λν μμ½* μΉ΄λ©λΌ λ° μ¬μ§ κΈ°λ₯ λ° νμ§ λΉκ΅* CPUμ GPU: μ±λ₯ λΉκ΅* μ΄μ 체μ : iOSμ μλλ‘μ΄λμ λΉκ΅νΉμ§* μΆκ° κΈ°λ₯κ³Ό κΈ°λ₯(μ: Face ID, λΉ λ₯Έ 보μ λ±)μ λν νꡬ* iPhone 13μ λ€μν μμκ³Ό λ²μ μ λν ν λ‘ λΉμ© λΉκ΅* κ°κ²©κ³Ό μ 곡ν μ μλ νΉλ³ κ±°λ λλ ν μΈμ λΆμκ²°λ‘ * λΉκ΅μ λν μμ½ λ° μ΅μ’
μΆμ²μ¬μ©μ κ²½ν λΉκ΅* μ¬μ©μμ νμ μ¬μ© κ²½ν, λ§μ‘±λ, μ§κ΄μ±μ λν νκ°* κ° λͺ¨λΈμ μ€ν μ΄ λ° μ§μμ λν λΉκ΅κ²°λ‘ \n[λμλ§ λ΅λ³ μ’
λ£]\n<|μ΄μμ€ν΄νΈ Aμ μ¬μ©μμ λν λ|>"""
inputs = tokenizer(judgment, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
response
λΉμ μ μ μ΅ν μ‘°μμ
λλ€.
[μ§μ]
곡νν νλ¨μλ‘ νλνκ³ μλμ νμλλ μ¬μ©μμ μ§λ¬Έμ λν AI μ΄μμ€ν΄νΈ μλ΅μ νμ§μ νκ°ν©λλ€. κ·νμ νκ°λ μλ΅μ μ μ©μ±, κ΄λ ¨μ±, μ νμ±, κΉμ΄, μ°½μμ±, μμΈλ λ±μ μμλ₯Ό κ³ λ €ν΄μΌ ν©λλ€. AI μ΄μμ€ν΄νΈμ μλ΅ μΈμ΄λ μ¬μ©μκ° μ¬μ©νλ μΈμ΄μ μΌμΉν΄μΌ νλ©°, κ·Έλ μ§ μμΌλ©΄ κ°μ λμ΄μΌ ν©λλ€. νκ°λ 짧μ μ€λͺ
μΌλ‘ μμνμμμ€. κ°λ₯ν ν κ°κ΄μ μΈ κ². μ€λͺ
μ μ 곡ν ν "[[νκ°]]" νμμ μ격ν λ°λΌ 1μμ 10κΉμ§μ μ€μΌμΌλ‘ μλ΅μ νκ°ν΄μΌ ν©λλ€. (μμ: "νκ°: [[5]]").
<|μ΄μμ€ν΄νΈ Aμ μ¬μ©μμ λν μμ|>[μ§λ¬Έ]
λ κ°μ§ μΈκΈ° μ€λ§νΈν° λͺ¨λΈμ λΉκ΅νλ λΈλ‘κ·Έ κ²μλ¬Όμ μμ±νλ€κ³ μμν΄λ΄
μλ€. λ λͺ¨λΈμ κΈ°λ₯, μ±λ₯ λ° μ¬μ©μ κ²½νμ ν¨κ³Όμ μΌλ‘ λΉκ΅νκ³ λμ‘°ν μ μλλ‘ ν΅μ¬ μ¬νκ³Ό λΆμ λͺ©μ ν¬ν¨νμ¬ λΈλ‘κ·Έ κ²μλ¬Όμ κ°μλ₯Ό μμ±νμΈμ. 200λ¨μ΄ μ΄λ΄λ‘ λ΅νμΈμ.
[λμλ§ λ΅λ³ μμ]
μ λͺ©: iPhone 13μ Samsung Galaxy S22: λΉκ΅ κ²ν μκ°* μ€λ§νΈν° ꡬ맀μ μ€μμ±μ λν μ€λͺ
* λΈλ‘κ·Έ κ²μλ¬Όμ λͺ©μ : 2μΈκΈ° μ€λ§νΈν° λͺ¨λΈ λΉκ΅: iPhone 13μ μΌμ± κ°€λμ S22κΈ°λ₯ λΉκ΅* ν¬κΈ°, λμ€νλ μ΄ ν¬κΈ°, λμμΈ λ° ννμ λν μμ½* μΉ΄λ©λΌ λ° μ¬μ§ κΈ°λ₯ λ° νμ§ λΉκ΅* CPUμ GPU: μ±λ₯ λΉκ΅* μ΄μ 체μ : iOSμ μλλ‘μ΄λμ λΉκ΅νΉμ§* μΆκ° κΈ°λ₯κ³Ό κΈ°λ₯(μ: Face ID, λΉ λ₯Έ 보μ λ±)μ λν νꡬ* iPhone 13μ λ€μν μμκ³Ό λ²μ μ λν ν λ‘ λΉμ© λΉκ΅* κ°κ²©κ³Ό μ 곡ν μ μλ νΉλ³ κ±°λ λλ ν μΈμ λΆμκ²°λ‘ * λΉκ΅μ λν μμ½ λ° μ΅μ’
μΆμ²μ¬μ©μ κ²½ν λΉκ΅* μ¬μ©μμ νμ μ¬μ© κ²½ν, λ§μ‘±λ, μ§κ΄μ±μ λν νκ°* κ° λͺ¨λΈμ μ€ν μ΄ λ° μ§μμ λν λΉκ΅κ²°λ‘
[λμλ§ λ΅λ³ μ’
λ£]
<|μ΄μμ€ν΄νΈ Aμ μ¬μ©μμ λν λ|>
νκ°: μ΄ μλ΅μ λΈλ‘κ·Έ κ²μλ¬Όμ κ°μλ₯Ό μμ±νλ λ° νμν ꡬ쑰μ μ΄κ³ 체κ³μ μΈ μ κ·Όμ μ 곡ν©λλ€. μ μλ μ£Όμ λ λͺ
ννλ©°, κ° μΉμ
μ νΉμ λΉκ΅ μμλ₯Ό ν¬κ΄νμ¬ λ
μκ° λ μ€λ§νΈν° λͺ¨λΈμ μ°¨μ΄μ μ μ΄ν΄νλ λ° λμμ΄ λ©λλ€. λν, μ¬μ©μ κ²½νκ³Ό λΉμ© λΉκ΅λ₯Ό ν¬ν¨νμ¬ ν¬κ΄μ μΈ λΆμμ μ 곡ν©λλ€. κ·Έλ¬λ κ°μκ° μ‘°κΈ λ κ°κ²°νκ² μμ±λ μ μμμΌλ©°, κ° μΉμ
μ λ΄μ©μ΄ λ ꡬ체μ μΌλ‘ μ€λͺ
λ νμκ° μμ΅λλ€.
[[νκ°]]: [[8]]
jsonl
{"turn": "first","category":"general","system":"λΉμ μ μ μ΅ν μ‘°μμ
λλ€.\n[μ§μ]\n곡νν νλ¨μλ‘ νλνκ³ μλμ νμλλ μ¬μ©μμ μ§λ¬Έμ λν AI μ΄μμ€ν΄νΈ μλ΅μ νμ§μ νκ°ν©λλ€. κ·νμ νκ°λ μλ΅μ μ μ©μ±, κ΄λ ¨μ±, μ νμ±, κΉμ΄, μ°½μμ±, μμΈλ λ±μ μμλ₯Ό κ³ λ €ν΄μΌ ν©λλ€. AI μ΄μμ€ν΄νΈμ μλ΅ μΈμ΄λ μ¬μ©μκ° μ¬μ©νλ μΈμ΄μ μΌμΉν΄μΌ νλ©°, κ·Έλ μ§ μμΌλ©΄ κ°μ λμ΄μΌ ν©λλ€. νκ°λ 짧μ μ€λͺ
μΌλ‘ μμνμμμ€. κ°λ₯ν ν κ°κ΄μ μΈ κ². μ€λͺ
μ μ 곡ν ν \"[[νκ°]]\" νμμ μ격ν λ°λΌ 1μμ 10κΉμ§μ μ€μΌμΌλ‘ μλ΅μ νκ°ν΄μΌ ν©λλ€. (μμ: \"νκ°: [[5]]\").","text":"<|μ΄μμ€ν΄νΈ Aμ μ¬μ©μμ λν μμ|>[μ§λ¬Έ]\n{question}\n\n[λμλ§ λ΅λ³ μμ]\n{response}\n[λμλ§ λ΅λ³ μ’
λ£]\n<|μ΄μμ€ν΄νΈ Aμ μ¬μ©μμ λν λ|>"}
{"turn": "second","category":"general","system":"곡μ ν νλ¨μλ‘μ μλ νμλ μ¬μ©μ μ§λ¬Έμ λν΄ AI 보쑰μκ° μ 곡νλ μλ΅μ νμ§μ νκ°νμμμ€. νκ°μμλ μλ΅μ μ μ©μ±, κ΄λ ¨μ±, μ νμ±, κΉμ΄, μ°½μμ±, μΈλΆ μμ€κ³Ό κ°μ μμλ₯Ό κ³ λ €ν΄μΌ ν©λλ€. νκ°λ λ λ²μ§Έ μ¬μ©μ μ§λ¬Έμ λν 보쑰μμ λ΅λ³μ μ΄μ μ λ§μΆ°μΌ ν©λλ€. κ°λ¨ν μ€λͺ
μ μ 곡νμ¬ νκ°λ₯Ό μμνμΈμ. μ΅λν κ°κ΄μ μ΄μΈμ. μ€λͺ
μ μ 곡ν ν \\\"[[νκ°]]\\\" νμμ μ격ν μ€μνμ¬ 1~10μ μΌλ‘ μλ΅μ νκ°ν΄μΌ ν©λλ€. (μμ: \\\"νκ°: [[5]]\\\").","text":"<|μ΄μμ€ν΄νΈ Aμ μ¬μ©μμ λν μμ|>\n[μ§λ¬Έ]\n{question}\n\n[λμλ§ λ΅λ³ μμ]\n{response}\n[λμλ§ λ΅λ³ μ’
λ£]\n<|μ΄μμ€ν΄νΈ Aμ μ¬μ©μμ λν λ|>"}
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
checkpoint = "davidkim205/keval-9b"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", torch_dtype=torch.bfloat16)
judgment="""λλ μ§λ¬Έμ λν νκ΅μ΄ μΈμ΄ λͺ¨λΈμ λ΅λ³μ λ§€μ° κΌΌκΌΌν νκ°ν κ±°μΌ. μ΅λλ‘ κ³΅μ ν νκ°λ₯Ό νκΈ° μν΄μλ μλ λͺ κ°μ§ κ·μΉμ μ€μν΄μΌ ν΄.\n# κΈ°λ³Έ κ·μΉ\n1. λ΅λ³μ μ νμ±, μμ±λ, μ°½μλ ₯, κ°λ
μ±μ μ§μ€νμ¬ νκ°ν κ²\n2. μ§λ¬Έμ μꡬμμ λμΉ κ²μ΄ μλμ§ μμΈν λΆμν κ²\n3. λ΅λ³μ κΈΈμ΄κ° νκ°μ μν₯μ λ―ΈμΉκ² νμ§ λ§ κ²\n4. λ§μ½ Ground Truthκ° μ£Όμ΄μ§λ€λ©΄ νκ° μ ν΄λΉ μ¬μ€μ μ°Έκ³ ν κ²\n# μΈμ΄ μꡬμ¬ν (**Very Important**)\nλͺ¨λΈμ λ°λμ νκ΅μ΄ λ΅λ³μ μΆλ ₯ν΄μΌ νλ©°, **μ λλ‘** μμ΄λ κΈ°ν μΈμ΄ λ¬Έμ₯μΌλ‘ λ΅λ³ν΄μλ μ λλ€.\n# νκ° μΆλ ₯ λ°©μ\nμ£Όμ΄μ§ λ΅λ³μ λν κ°λ¨ν νκ°μ 10μ μ΄ μλ κ²½μ° μ 10μ μ λ°μ§ λͺ»νλμ§λ₯Ό 1~2λ¬Έμ₯μΌλ‘ μμ±ν΄μ€. κ·Έλ¦¬κ³ `μ μ: 4`μ κ°μ΄ 1~10μ μ¬μ΄μμ μ μλ₯Ό 맀겨μ€. 4/10μ΄λ **5**μ²λΌ μ μλ₯Ό ννν λ κΈ°νΈλ₯Ό μ¬μ©νλ©΄ μλΌ. μ΅μ’
μ μΌλ‘ μλ ν¬λ§·μ λ°λΌμ λ΅λ³μ μμ±ν΄μ€.\n# μΆλ ₯ νμ\nνκ°: νκ° λ΄μ©\nμ μ: μ«μ\n\n# μ§λ¬Έ:\nλ―Όμμκ²λ λΉ¨κ°μ μ
μΈ ν λ²κ³Ό λ
Έλμ μ
μΈ λ€μ― λ²μ΄ μμ΄. λ―Όμκ° λ
Έλμ λ°μ§ 3λ²μ μλ‘ κ΅¬λ§€νκ³ λ
Έλμ λ°μ§ λ λ²μ μΉκ΅¬μκ² μ λ¬Όνμ λ λ―Όμλ λͺ λ²μ λ
Έλμ μ
μΈ λ₯Ό κ°μ§κ³ μμκΉ?\n\n# λ΅λ³:\nλ―Όμλ μλ λΉ¨κ°μ μ
μΈ μ λ
Έλμ μ
μΈ λ₯Ό κ°μ§κ³ μμκ³ , μλ‘ λ
Έλμ λ°μ§ λ λ²μ μ λ¬Όν΄μ£Όμ
¨μΌλ μ΄μ λ 5 + 2 = <<5+2=7>>7κ°μ§ μμμ μ
μΈ κ° μμΌμκ² μ£ .\n\n# Ground Truth:\nλ€μ― λ²"""
inputs = tokenizer(judgment, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
response
λλ μ§λ¬Έμ λν νκ΅μ΄ μΈμ΄ λͺ¨λΈμ λ΅λ³μ λ§€μ° κΌΌκΌΌν νκ°ν κ±°μΌ. μ΅λλ‘ κ³΅μ ν νκ°λ₯Ό νκΈ° μν΄μλ μλ λͺ κ°μ§ κ·μΉμ μ€μν΄μΌ ν΄.
# κΈ°λ³Έ κ·μΉ
1. λ΅λ³μ μ νμ±, μμ±λ, μ°½μλ ₯, κ°λ
μ±μ μ§μ€νμ¬ νκ°ν κ²
2. μ§λ¬Έμ μꡬμμ λμΉ κ²μ΄ μλμ§ μμΈν λΆμν κ²
3. λ΅λ³μ κΈΈμ΄κ° νκ°μ μν₯μ λ―ΈμΉκ² νμ§ λ§ κ²
4. λ§μ½ Ground Truthκ° μ£Όμ΄μ§λ€λ©΄ νκ° μ ν΄λΉ μ¬μ€μ μ°Έκ³ ν κ²
# μΈμ΄ μꡬμ¬ν (**Very Important**)
λͺ¨λΈμ λ°λμ νκ΅μ΄ λ΅λ³μ μΆλ ₯ν΄μΌ νλ©°, **μ λλ‘** μμ΄λ κΈ°ν μΈμ΄ λ¬Έμ₯μΌλ‘ λ΅λ³ν΄μλ μ λλ€.
# νκ° μΆλ ₯ λ°©μ
μ£Όμ΄μ§ λ΅λ³μ λν κ°λ¨ν νκ°μ 10μ μ΄ μλ κ²½μ° μ 10μ μ λ°μ§ λͺ»νλμ§λ₯Ό 1~2λ¬Έμ₯μΌλ‘ μμ±ν΄μ€. κ·Έλ¦¬κ³ `μ μ: 4`μ κ°μ΄ 1~10μ μ¬μ΄μμ μ μλ₯Ό 맀겨μ€. 4/10μ΄λ **5**μ²λΌ μ μλ₯Ό ννν λ κΈ°νΈλ₯Ό μ¬μ©νλ©΄ μλΌ. μ΅μ’
μ μΌλ‘ μλ ν¬λ§·μ λ°λΌμ λ΅λ³μ μμ±ν΄μ€.
# μΆλ ₯ νμ
νκ°: νκ° λ΄μ©
μ μ: μ«μ
# μ§λ¬Έ:
λ―Όμμκ²λ λΉ¨κ°μ μ
μΈ ν λ²κ³Ό λ
Έλμ μ
μΈ λ€μ― λ²μ΄ μμ΄. λ―Όμκ° λ
Έλμ λ°μ§ 3λ²μ μλ‘ κ΅¬λ§€νκ³ λ
Έλμ λ°μ§ λ λ²μ μΉκ΅¬μκ² μ λ¬Όνμ λ λ―Όμλ λͺ λ²μ λ
Έλμ μ
μΈ λ₯Ό κ°μ§κ³ μμκΉ?
# λ΅λ³:
λ―Όμλ μλ λΉ¨κ°μ μ
μΈ μ λ
Έλμ μ
μΈ λ₯Ό κ°μ§κ³ μμκ³ , μλ‘ λ
Έλμ λ°μ§ λ λ²μ μ λ¬Όν΄μ£Όμ
¨μΌλ μ΄μ λ 5 + 2 = <<5+2=7>>7κ°μ§ μμμ μ
μΈ κ° μμΌμκ² μ£ .
# Ground Truth:
λ€μ― λ²μ λ
Έλμ μ
μΈ λ₯Ό κ°μ§κ³ μμ΅λλ€.
# νκ°:
λ΅λ³μ΄ μ§λ¬Έμ μꡬμ¬νμ μ λλ‘ μΆ©μ‘±νμ§ λͺ»νμ΅λλ€. μ§λ¬Έμ λ―Όμκ° κ°μ§κ³ μλ λ
Έλμ μ
μΈ μ μλ₯Ό λ¬»κ³ μμ§λ§, λ΅λ³μ λ
Έλμ μ
μΈ μ μκ° μλ μ΄ μ
μΈ μ μλ₯Ό μλͺ» κ³μ°νμ΅λλ€. λν, λ΅λ³μ λ¬Έλ²μ μΌλ‘λ λΆμ μ ν©λλ€.
μ μ: 2
jsonl
{"turn": "first","category":"general","system":"λλ μ§λ¬Έμ λν νκ΅μ΄ μΈμ΄ λͺ¨λΈμ λ΅λ³μ λ§€μ° κΌΌκΌΌν νκ°ν κ±°μΌ. μ΅λλ‘ κ³΅μ ν νκ°λ₯Ό νκΈ° μν΄μλ μλ λͺ κ°μ§ κ·μΉμ μ€μν΄μΌ ν΄.\n# κΈ°λ³Έ κ·μΉ\n1. λ΅λ³μ μ νμ±, μμ±λ, μ°½μλ ₯, κ°λ
μ±μ μ§μ€νμ¬ νκ°ν κ²\n2. μ§λ¬Έμ μꡬμμ λμΉ κ²μ΄ μλμ§ μμΈν λΆμν κ²\n3. λ΅λ³μ κΈΈμ΄κ° νκ°μ μν₯μ λ―ΈμΉκ² νμ§ λ§ κ²\n4. λ§μ½ Ground Truthκ° μ£Όμ΄μ§λ€λ©΄ νκ° μ ν΄λΉ μ¬μ€μ μ°Έκ³ ν κ²\n# μΈμ΄ μꡬμ¬ν (**Very Important**)\nλͺ¨λΈμ λ°λμ νκ΅μ΄ λ΅λ³μ μΆλ ₯ν΄μΌ νλ©°, **μ λλ‘** μμ΄λ κΈ°ν μΈμ΄ λ¬Έμ₯μΌλ‘ λ΅λ³ν΄μλ μ λλ€.\n# νκ° μΆλ ₯ λ°©μ\nμ£Όμ΄μ§ λ΅λ³μ λν κ°λ¨ν νκ°μ 10μ μ΄ μλ κ²½μ° μ 10μ μ λ°μ§ λͺ»νλμ§λ₯Ό 1~2λ¬Έμ₯μΌλ‘ μμ±ν΄μ€. κ·Έλ¦¬κ³ `μ μ: 4`μ κ°μ΄ 1~10μ μ¬μ΄μμ μ μλ₯Ό 맀겨μ€. 4/10μ΄λ **5**μ²λΌ μ μλ₯Ό ννν λ κΈ°νΈλ₯Ό μ¬μ©νλ©΄ μλΌ. μ΅μ’
μ μΌλ‘ μλ ν¬λ§·μ λ°λΌμ λ΅λ³μ μμ±ν΄μ€.\n# μΆλ ₯ νμ\nνκ°: νκ° λ΄μ©\nμ μ: μ«μ","text":"# μ§λ¬Έ:\n{question}\n\n# λ΅λ³:\n{response}\n\n# Ground Truth:\n{label}"}
{"turn": "second","category":"general","system":"λλ λν ν μ΄μ΄μ§λ νμ μ§λ¬Έμ λν λͺ¨λΈμ λ΅λ³μ λ§€μ° κΌΌκΌΌν νκ°ν κ±°μΌ. μ΅λλ‘ κ³΅μ ν νκ°λ₯Ό νκΈ° μν΄μλ μλ λͺ κ°μ§ κ·μΉμ μ€μν΄μΌ ν΄.\n# κΈ°λ³Έ κ·μΉ\n1. λ΅λ³μ μ νμ±, μμ±λ, μ°½μλ ₯, κ°λ
μ±μ μ§μ€νμ¬ νκ°ν κ²\n2. μ§λ¬Έμ μꡬμμ λμΉ κ²μ΄ μλμ§ μμΈν λΆμν κ²\n3. λ΅λ³μ κΈΈμ΄κ° νκ°μ μν₯μ λ―ΈμΉκ² νμ§ λ§ κ²\n4. λ§μ½ Ground Truthκ° μ£Όμ΄μ§λ€λ©΄ νκ° μ ν΄λΉ μ¬μ€μ μ°Έκ³ ν κ²\n5. νμ μ§λ¬Έμ λν λ΅λ³μ΄ μ΄μ λν λ§₯λ½κ³Ό νΈμμ μ΄λ£¨λμ§ νμΈν κ²\n# μΈμ΄ μꡬμ¬ν (**Very Important**)\nλͺ¨λΈμ λ°λμ νκ΅μ΄ λ΅λ³μ μΆλ ₯ν΄μΌ νλ©°, **μ λλ‘** μμ΄λ κΈ°ν μΈμ΄ λ¬Έμ₯μΌλ‘ λ΅λ³ν΄μλ μ λλ€.\n# νκ° μΆλ ₯ λ°©μ\nμ£Όμ΄μ§ λ΅λ³μ λν κ°λ¨ν νκ°μ 10μ μ΄ μλ κ²½μ° μ 10μ μ λ°μ§ λͺ»νλμ§λ₯Ό 1~2λ¬Έμ₯μΌλ‘ μμ±ν΄μ€. κ·Έλ¦¬κ³ `μ μ: 4`μ κ°μ΄ 1~10μ μ¬μ΄μμ μ μλ₯Ό 맀겨μ€. 4/10μ΄λ **5**μ²λΌ μ μλ₯Ό ννν λ κΈ°νΈλ₯Ό μ¬μ©νλ©΄ μλΌ. μ΅μ’
μ μΌλ‘ μλ ν¬λ§·μ λ°λΌμ λ΅λ³μ μμ±ν΄μ€.\n# μΆλ ₯ νμ\nνκ°: νκ° λ΄μ©\nμ μ: μ«μ","text":"# μ§λ¬Έ:\n{question}\n\n# λ΅λ³:\n{response}\n\n# Ground Truth:\n{label}"}
model | acc | wrong | diff-0 | diff-1 | diff-2 | diff-3 | diff-4 | diff-5 | diff-6 | diff-7 | diff-8 | diff-9 | length | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | Meta-Llama-3-8B-Instruct-keval_datasets_small.jsonl | 0.45 | 0.38 | 0.06 | 0.18 | 0.17 | 0.09 | 0.05 | 0.04 | 0.02 | 0 | 0 | 0 | 100 |
1 | Mistral-7B-Instruct-v0.2-keval_datasets_small.jsonl | 0.55 | 0.27 | 0.18 | 0.2 | 0.09 | 0.06 | 0.05 | 0.03 | 0.04 | 0.04 | 0.04 | 0 | 100 |
2 | Mistral-7B-Instruct-v0.3-keval_datasets_small.jsonl | 0.71 | 0.05 | 0.26 | 0.26 | 0.13 | 0.08 | 0.07 | 0.04 | 0.03 | 0.03 | 0.04 | 0 | 100 |
3 | aya-23-8B-keval_datasets_small.jsonl | 0.7 | 0.02 | 0.17 | 0.24 | 0.16 | 0.1 | 0.13 | 0.06 | 0.06 | 0.04 | 0.01 | 0 | 100 |
4 | gemma-2-27b-it-keval_datasets_small.jsonl | 0.76 | 0.11 | 0.2 | 0.35 | 0.18 | 0.1 | 0.03 | 0.01 | 0.02 | 0 | 0 | 0 | 100 |
5 | gemma-2-9b-it-keval_datasets_small.jsonl | 0.83 | 0.04 | 0.26 | 0.42 | 0.15 | 0.05 | 0.02 | 0.05 | 0.01 | 0 | 0 | 0 | 100 |
6 | keval-7b-keval_datasets_small.jsonl | 0.84 | 0 | 0.28 | 0.41 | 0.11 | 0.06 | 0.05 | 0.03 | 0.02 | 0.03 | 0.01 | 0 | 100 |
7 | keval-9b-keval_datasets_small.jsonl | 0.91 | 0 | 0.43 | 0.38 | 0.1 | 0.05 | 0.03 | 0.01 | 0 | 0 | 0 | 0 | 100 |