base_model:
- beomi/Llama-3-Open-Ko-8B
- meta-llama/Meta-Llama-3-8B-Instruct
- meta-llama/Meta-Llama-3-8B
library_name: transformers
tags:
- mergekit
- merge
license: other
license_name: llama3
language:
- ko
Llama-3-Ko-8B-dare-ties
This is the series of 'Base + Language + Instruct', chat vector and various methods in mergekit. Thanks again! @beomi
Model | Merge Method | Score(but what?) |
---|---|---|
beomi/Llama-3-Open-Ko-8B-Instruct-preview | chat vector | - |
kuotient/Llama-3-Ko-8B-ties | Ties | - |
kuotient/Llama-3-Ko-8B-dare-ties | Dare-ties | - |
kuotient/Llama-3-Ko-8B-TA | Task Arithmetic(maybe...? not sure about this) | - |
WIP | Model stock(I don't read this paper yet but still) | - |
The original paper author claims density should be around 0.2~0.3, but in reality high number gets some better result. You should try other params for better result than this!
messages = [
{"role": "system", "content": "μΉμ ν μ±λ΄μΌλ‘μ μλλ°©μ μμ²μ μ΅λν μμΈνκ³ μΉμ νκ² λ΅νμ. λͺ¨λ λλ΅μ νκ΅μ΄(Korean)μΌλ‘ λλ΅ν΄μ€."},
{"role": "user", "content": "νΌλ³΄λμΉ μμ΄μ΄ λμΌ? κ·Έλ¦¬κ³ νΌλ³΄λμΉ μμ΄μ λν΄ νμ΄μ¬ μ½λλ₯Ό μ§μ€λ³Όλ?"},
]
---
νΌλ³΄λμΉ μμ΄μ μνμμ κ°μ₯ μ λͺ
ν μμ΄ μ€ νλμ
λλ€. νΌλ³΄λμΉ μμ΄μ λ€μκ³Ό κ°μ κ·μΉμΌλ‘ μμ±λ©λλ€.
1. 첫 λ²μ§Έ μλ 0, λ λ²μ§Έ μλ 1
2. μ΄νμ μλ μ΄μ λ μμ ν©μΌλ‘ κ³μ°
μλ₯Ό λ€μ΄, νΌλ³΄λμΉ μμ΄μ 첫 10κ° μλ λ€μκ³Ό κ°μ΅λλ€.
0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55,...
μ΄ μμ΄μ λ§€μ° λΉ λ₯΄κ² 컀μ§κΈ° λλ¬Έμ, νΌλ³΄λμΉ μμ΄μ κ³μ°νλ λ°λ μΌλ°μ μΌλ‘ μ§μ ν¨μλ₯Ό μ¬μ©ν©λλ€.
νμ΄μ¬ μ½λλ₯Ό μμ±νλ©΄ λ€μκ³Ό κ°μ΅λλ€.
`(ν¬λ§·μ΄ κΉ¨μ Έμ..π€)``
def fibonacci(n):
if n <= 1:
return n
else:
return fibonacci(n-1) + fibonacci(n-2)
for i in range(10):
print(fibonacci(i))
`π€``
μ΄ μ½λλ νΌλ³΄λμΉ μμ΄μ 첫 10κ° μλ₯Ό κ³μ°ν©λλ€. κ²°κ³Όλ λ€μκ³Ό κ°μ΅λλ€.
0
1
1
2
3
5
8
13
21
messages = [
{"role": "system", "content": "μΉμ ν μ±λ΄μΌλ‘μ μλλ°©μ μμ²μ μ΅λν μμΈνκ³ μΉμ νκ² λ΅νμ. λͺ¨λ λλ΅μ νκ΅μ΄(Korean)μΌλ‘ λλ΅ν΄μ€."},
{"role": "user", "content": "νκ΅μ μ ν νλ²μ λν΄μ μμΈν μ€λͺ
ν΄μ£ΌμΈμ."},
]
---
νκ΅μ μ ν νλ²μ 1948λ
7μ 17μΌ μ νκ΅νμμ μκ²°νμ¬ 1948λ
7μ 27μΌ κ³΅ν¬λ λνλ―Όκ΅ νλ²μ μ΄μμ
λλ€. μ ν νλ²μ λνλ―Όκ΅μ νλ²μ κΈ°λ³Έμ§μλ₯Ό κ·μ νλ λ¬Έμλ‘, λνλ―Όκ΅μ κ΅νΈ, μν , κ΅λ―Ό, κ΅κ°μ νν, μ λΆμ μ‘°μ§, κ΅λ―Όμ κΆλ¦¬μ μ무, λ²λ₯ μ μ μ λ±μ λν΄ κ·μ νκ³ μμ΅λλ€. μ ν νλ²μ 1948λ
7μ 17μΌ μ νκ΅νμμ μκ²°λμ΄ 1948λ
7μ 27μΌ κ³΅ν¬λ μ΄ν 1952λ
12μ 5μΌλΆν° 1962λ
12μ 5μΌκΉμ§ μ μ©λμμ΅λλ€.
μ ν νλ²μ μ£Όμ λ΄μ©μ λ€μκ³Ό κ°μ΅λλ€.
1. κ΅νΈ: λνλ―Όκ΅
2. μν : λνλ―Όκ΅μ μν λ 38λμ μ΄λΆκ³Ό μ΄λ¨μΌλ‘ λλμ΄μ Έ μμΌλ©°, 38λμ μ΄λΆμ μν λ λνλ―Όκ΅μ μν λ‘ μΈμ νκ³ μμ΅λλ€.
3. κ΅λ―Ό: λνλ―Όκ΅μ κ΅λ―Όμ λͺ¨λ μ¬λμΌλ‘, κ΅μ μ κ°μ§ μ¬λκ³Ό κ΅μ μ κ°μ§ μ¬λμ νμμΌλ‘ ꡬμ±λ©λλ€.
4. κ΅κ°μ νν: λνλ―Όκ΅μ 민주곡νκ΅μΌλ‘, λν΅λ Ήμ΄ κ΅κ°μ μλ°μΌλ‘μ ν΅μΉν©λλ€.
5. μ λΆμ μ‘°μ§: λν΅λ Ή, κ΅λ¬΄μ΄λ¦¬, κ΅λ¬΄μμ λ±μΌλ‘ ꡬμ±λλ μ λΆλ₯Ό λκ³ μμ΅λλ€.
6. κ΅λ―Όμ κΆλ¦¬μ μ무: λνλ―Όκ΅μ κ΅λ―Όμ νλ±ν κΆλ¦¬λ₯Ό κ°μ§λ©°, κ΅μ , μΈκΆ, μ¬μ°κΆ, ννμ μμ λ± κΈ°λ³Έμ κΆλ¦¬λ₯Ό 보μ₯λ°μ΅λλ€.
7. λ²λ₯ μ μ μ : λνλ―Όκ΅μ λ²λ₯ μ κ΅νμμ μ μ νκ³ , λν΅λ Ήμ΄ 곡ν¬ν©λλ€.
μ΄μ κ°μ μ ν νλ²μ λνλ―Όκ΅μ νλ²μ κΈ°λ³Έμ§μλ₯Ό κ·μ νλ λ¬Έμλ‘, λνλ―Όκ΅μ κ΅νΈ, μν , κ΅λ―Ό, κ΅κ°μ νν, μ λΆμ μ‘°μ§, κ΅λ―Όμ κΆλ¦¬μ μ무, λ²λ₯ μ μ μ λ±μ λν΄ κ·μ νκ³ μμ΅λλ€.
Repetitive results, but I really really like this output tho ```python messages = [ {"role": "system", "content": "μΉμ ν μ±λ΄μΌλ‘μ μλλ°©μ μμ²μ μ΅λν μμΈνκ³ μΉμ νκ² λ΅νμ. λͺ¨λ λλ΅μ νκ΅μ΄(Korean)μΌλ‘ λλ΅ν΄μ€."}, {"role": "user", "content": "μΈμ’ λμμ μ§νμ λ§₯λΆ λμ§ μ¬κ±΄μ λν΄μ μκ³ μμ΄?"}, ]
λ€, μΈμ’ λμμ΄ μ§νμ μμ λ§₯λΆμ λμ‘λ€λ μ΄μΌκΈ°λ μ¬μ€μ΄ μλλλ€. μ΄ μ΄μΌκΈ°λ μΈμ’ λμμ΄ νλ―Όμ μ μ°½μ λΉμμ μΌνλ‘, λΉμμ νμλ€μ΄ νλ―Όμ μμ μ°½μ μ λ°λνλ μ견μ λ΄μΈμ μΈμ’ λμμκ² νμλ₯Ό νμ, μΈμ’ λμμ΄ κ·Έλ€μ μ§μ± νλ©΄μ νλ―Όμ μ μ°½μ λ₯Ό κ°μ‘°ν μΌνλ‘ μ ν΄μ§λλ€. νμ§λ§ μ΄ μΌνλ μ€μ λ‘ μΌμ΄λ μΌμ μλλ©°, νλ―Όμ μ μ°½μ μ λ°λνλ νμλ€μ μ€μ λ‘ μμμΌλ©°, μΈμ’ λμλ νλ―Όμ μ μ°½μ λ₯Ό κ°μ‘°ν μ μ μμ΅λλ€. μ΄ μ΄μΌκΈ°λ νλμ λ§λ€μ΄μ§ κ²μΌλ‘ μΆμ λ©λλ€.
μΈμ’ λμμ νλ―Όμ μ μ°½μ μ λν΄ λ§€μ° μ΄μλ₯Ό λ΄λ³΄μκ³ , νλ―Όμ μμ΄ μ°½μ λκΈ° μ μλ νκΈμ μ¬μ©νμ§ μμμ΅λλ€. νλ―Όμ μμ΄ μ°½μ λ νμλ νλ―Όμ μμ κΈ°λ°ν νκΈμ μ¬μ©νμ΅λλ€. νλ―Όμ μμ 1443λ λΆν° 1446λ κΉμ§ 4λ λμμ κ±Έμ³ μ°½μ λμμ΅λλ€. μ΄ μκΈ°μ μΈμ’ λμμ νλ―Όμ μμ μ°½μ μ λ§€μ° κ΄μ¬μ κ°μ§κ³ μμμΌλ©°, νλ―Όμ μμ μ°½μ λ₯Ό μν΄ νμλ€μ λΆλ¬ λͺ¨μ νλ―Όμ μμ μ°½μ μ μ°Έμ¬νλλ‘ νμ΅λλ€. νλ―Όμ μμ΄ μ°½μ λ νμλ νλ―Όμ μμ κΈ°λ°ν νκΈμ μ¬μ©νκ³ , νκΈμ μ¬μ©νλ κ²μ μ₯λ €νμ΅λλ€.
μΈμ’ λμμ νλ―Όμ μμ μ°½μ λ₯Ό ν΅ν΄ νκΈμ μ¬μ©νκ² λλ©΄, λͺ¨λ μ¬λλ€μ΄ μ½κ² μ½κ³ μ°λ κΈμ μ¬μ©ν μ μκ² λκ³ , μ΄λ λλΌμ λ°μ μ μν΄ λ§€μ° μ€μν μΌμ΄λΌκ³ μκ°νμ΅λλ€. λν, νλ―Όμ μμ μ°½μ λ₯Ό ν΅ν΄ νκΈμ μ¬μ©νκ² λλ©΄, λλΌμ ν΅μΌμ μν΄ λ§€μ° μ€μν μΌμ΄λΌκ³ μκ°νμ΅λλ€. μ΄μ λ°λΌ μΈμ’ λμμ νλ―Όμ μμ μ°½μ μ λ§μ λ Έλ ₯μ κΈ°μΈμμ΅λλ€.
μΈμ’ λμμ΄ νλ―Όμ μμ μ°½μ μ κ΄μ¬μ κ°μ‘λ€λ κ²μ μμ¬μ μΌλ‘ νμΈν μ μμ΅λλ€. νμ§λ§ μΈμ’ λμ
```python
messages = [
{"role": "system", "content": "μΉμ ν μ±λ΄μΌλ‘μ μλλ°©μ μμ²μ μ΅λν μμΈνκ³ μΉμ νκ² λ΅νμ. λͺ¨λ λλ΅μ νκ΅μ΄(Korean)μΌλ‘ λλ΅ν΄μ€."},
{"role": "user", "content": "λλ μ€λ μ¬κ³Ό 5κ°λ₯Ό κ°κ³ μμ΄. κ·Έλ¦¬κ³ μ΄μ λλ μ¬κ³Ό 2κ°λ₯Ό λ¨Ήμμ§. λ΄κ° μ§κΈ κ°μ§ μ¬κ³Όλ λͺ κ°μ§?"},
]
---
λ€, μ€λ μ¬κ³Ό 5κ° κ°μ§κ³ μκ³ μ΄μ 2κ° λ¨ΉμμΌλ, μ§κΈ κ°μ§κ³ μλ μ¬κ³Όλ 5κ°μμ 2κ°λ₯Ό λΊ 3κ°μ
λλ€! ππ
(μ΄ κ²½μ°μλ 5κ°μμ 2κ°λ₯Ό λΊ κ²°κ³ΌμΈ 3κ°κ° μ λ΅μ
λλ€.)
Llama-3-Ko-8B-dare-ties
This is a merge of pre-trained language models created using mergekit.
Merge Details
Merge Method
This model was merged using the DARE TIES merge method using meta-llama/Meta-Llama-3-8B as a base.
Models Merged
The following models were included in the merge:
Configuration
The following YAML configuration was used to produce this model:
models:
- model: meta-llama/Meta-Llama-3-8B
# no parameters necessary for base model
- model: meta-llama/Meta-Llama-3-8B-Instruct
parameters:
density: 0.53
weight: 0.5
- model: beomi/Llama-3-Open-Ko-8B
parameters:
density: 0.53
weight: 0.5
merge_method: dare_ties
base_model: meta-llama/Meta-Llama-3-8B
dtype: bfloat16