File size: 8,561 Bytes
da98e9f 341c294 6738548 341c294 6738548 4cb9d01 6738548 33d593d 341c294 6738548 341c294 da98e9f 341c294 da98e9f 341c294 6738548 341c294 6738548 341c294 da98e9f 341c294 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 |
---
base_model:
- beomi/Llama-3-Open-Ko-8B
- meta-llama/Meta-Llama-3-8B-Instruct
- meta-llama/Meta-Llama-3-8B
library_name: transformers
tags:
- mergekit
- merge
license: other
license_name: llama3
language:
- ko
---
# Llama-3-Ko-8B-dare-ties
This is the series of 'Base + Language + Instruct', chat vector and various methods in mergekit.
Thanks again! @beomi
| Model | Merge Method | Score(but what?) |
|---|---|---|
| [beomi/Llama-3-Open-Ko-8B-Instruct-preview](https://huggingface.co/beomi/Llama-3-Open-Ko-8B-Instruct-preview) | chat vector | - |
| [kuotient/Llama-3-Ko-8B-ties](https://huggingface.co/kuotient/Llama-3-Ko-8B-ties) | Ties | - |
| [kuotient/Llama-3-Ko-8B-dare-ties](https://huggingface.co/kuotient/Llama-3-Ko-8B-dare-ties) | Dare-ties | - |
| [kuotient/Llama-3-Ko-8B-TA](https://huggingface.co/kuotient/Llama-3-Ko-8B-TA) | Task Arithmetic(maybe...? not sure about this) | - |
| WIP | Model stock(I don't read this paper yet but still) | - |
The original paper author claims density should be around 0.2~0.3, but in reality high number gets some better result. You should try other params for better result than this!
```python
messages = [
{"role": "system", "content": "μΉμ ν μ±λ΄μΌλ‘μ μλλ°©μ μμ²μ μ΅λν μμΈνκ³ μΉμ νκ² λ΅νμ. λͺ¨λ λλ΅μ νκ΅μ΄(Korean)μΌλ‘ λλ΅ν΄μ€."},
{"role": "user", "content": "νΌλ³΄λμΉ μμ΄μ΄ λμΌ? κ·Έλ¦¬κ³ νΌλ³΄λμΉ μμ΄μ λν΄ νμ΄μ¬ μ½λλ₯Ό μ§μ€λ³Όλ?"},
]
---
νΌλ³΄λμΉ μμ΄μ μνμμ κ°μ₯ μ λͺ
ν μμ΄ μ€ νλμ
λλ€. νΌλ³΄λμΉ μμ΄μ λ€μκ³Ό κ°μ κ·μΉμΌλ‘ μμ±λ©λλ€.
1. 첫 λ²μ§Έ μλ 0, λ λ²μ§Έ μλ 1
2. μ΄νμ μλ μ΄μ λ μμ ν©μΌλ‘ κ³μ°
μλ₯Ό λ€μ΄, νΌλ³΄λμΉ μμ΄μ 첫 10κ° μλ λ€μκ³Ό κ°μ΅λλ€.
0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55,...
μ΄ μμ΄μ λ§€μ° λΉ λ₯΄κ² 컀μ§κΈ° λλ¬Έμ, νΌλ³΄λμΉ μμ΄μ κ³μ°νλ λ°λ μΌλ°μ μΌλ‘ μ§μ ν¨μλ₯Ό μ¬μ©ν©λλ€.
νμ΄μ¬ μ½λλ₯Ό μμ±νλ©΄ λ€μκ³Ό κ°μ΅λλ€.
`(ν¬λ§·μ΄ κΉ¨μ Έμ..π€)``
def fibonacci(n):
if n <= 1:
return n
else:
return fibonacci(n-1) + fibonacci(n-2)
for i in range(10):
print(fibonacci(i))
`π€``
μ΄ μ½λλ νΌλ³΄λμΉ μμ΄μ 첫 10κ° μλ₯Ό κ³μ°ν©λλ€. κ²°κ³Όλ λ€μκ³Ό κ°μ΅λλ€.
0
1
1
2
3
5
8
13
21
```
```python
messages = [
{"role": "system", "content": "μΉμ ν μ±λ΄μΌλ‘μ μλλ°©μ μμ²μ μ΅λν μμΈνκ³ μΉμ νκ² λ΅νμ. λͺ¨λ λλ΅μ νκ΅μ΄(Korean)μΌλ‘ λλ΅ν΄μ€."},
{"role": "user", "content": "νκ΅μ μ ν νλ²μ λν΄μ μμΈν μ€λͺ
ν΄μ£ΌμΈμ."},
]
---
νκ΅μ μ ν νλ²μ 1948λ
7μ 17μΌ μ νκ΅νμμ μκ²°νμ¬ 1948λ
7μ 27μΌ κ³΅ν¬λ λνλ―Όκ΅ νλ²μ μ΄μμ
λλ€. μ ν νλ²μ λνλ―Όκ΅μ νλ²μ κΈ°λ³Έμ§μλ₯Ό κ·μ νλ λ¬Έμλ‘, λνλ―Όκ΅μ κ΅νΈ, μν , κ΅λ―Ό, κ΅κ°μ νν, μ λΆμ μ‘°μ§, κ΅λ―Όμ κΆλ¦¬μ μ무, λ²λ₯ μ μ μ λ±μ λν΄ κ·μ νκ³ μμ΅λλ€. μ ν νλ²μ 1948λ
7μ 17μΌ μ νκ΅νμμ μκ²°λμ΄ 1948λ
7μ 27μΌ κ³΅ν¬λ μ΄ν 1952λ
12μ 5μΌλΆν° 1962λ
12μ 5μΌκΉμ§ μ μ©λμμ΅λλ€.
μ ν νλ²μ μ£Όμ λ΄μ©μ λ€μκ³Ό κ°μ΅λλ€.
1. κ΅νΈ: λνλ―Όκ΅
2. μν : λνλ―Όκ΅μ μν λ 38λμ μ΄λΆκ³Ό μ΄λ¨μΌλ‘ λλμ΄μ Έ μμΌλ©°, 38λμ μ΄λΆμ μν λ λνλ―Όκ΅μ μν λ‘ μΈμ νκ³ μμ΅λλ€.
3. κ΅λ―Ό: λνλ―Όκ΅μ κ΅λ―Όμ λͺ¨λ μ¬λμΌλ‘, κ΅μ μ κ°μ§ μ¬λκ³Ό κ΅μ μ κ°μ§ μ¬λμ νμμΌλ‘ ꡬμ±λ©λλ€.
4. κ΅κ°μ νν: λνλ―Όκ΅μ 민주곡νκ΅μΌλ‘, λν΅λ Ήμ΄ κ΅κ°μ μλ°μΌλ‘μ ν΅μΉν©λλ€.
5. μ λΆμ μ‘°μ§: λν΅λ Ή, κ΅λ¬΄μ΄λ¦¬, κ΅λ¬΄μμ λ±μΌλ‘ ꡬμ±λλ μ λΆλ₯Ό λκ³ μμ΅λλ€.
6. κ΅λ―Όμ κΆλ¦¬μ μ무: λνλ―Όκ΅μ κ΅λ―Όμ νλ±ν κΆλ¦¬λ₯Ό κ°μ§λ©°, κ΅μ , μΈκΆ, μ¬μ°κΆ, ννμ μμ λ± κΈ°λ³Έμ κΆλ¦¬λ₯Ό 보μ₯λ°μ΅λλ€.
7. λ²λ₯ μ μ μ : λνλ―Όκ΅μ λ²λ₯ μ κ΅νμμ μ μ νκ³ , λν΅λ Ήμ΄ 곡ν¬ν©λλ€.
μ΄μ κ°μ μ ν νλ²μ λνλ―Όκ΅μ νλ²μ κΈ°λ³Έμ§μλ₯Ό κ·μ νλ λ¬Έμλ‘, λνλ―Όκ΅μ κ΅νΈ, μν , κ΅λ―Ό, κ΅κ°μ νν, μ λΆμ μ‘°μ§, κ΅λ―Όμ κΆλ¦¬μ μ무, λ²λ₯ μ μ μ λ±μ λν΄ κ·μ νκ³ μμ΅λλ€.
```
Repetitive results, but I **really really** like this output tho
```python
messages = [
{"role": "system", "content": "μΉμ ν μ±λ΄μΌλ‘μ μλλ°©μ μμ²μ μ΅λν μμΈνκ³ μΉμ νκ² λ΅νμ. λͺ¨λ λλ΅μ νκ΅μ΄(Korean)μΌλ‘ λλ΅ν΄μ€."},
{"role": "user", "content": "μΈμ’
λμμ μ§νμ λ§₯λΆ λμ§ μ¬κ±΄μ λν΄μ μκ³ μμ΄?"},
]
---
λ€, μΈμ’
λμμ΄ μ§νμ μμ λ§₯λΆμ λμ‘λ€λ μ΄μΌκΈ°λ μ¬μ€μ΄ μλλλ€. μ΄ μ΄μΌκΈ°λ μΈμ’
λμμ΄ νλ―Όμ μ μ°½μ λΉμμ μΌνλ‘, λΉμμ νμλ€μ΄ νλ―Όμ μμ μ°½μ μ λ°λνλ μ견μ λ΄μΈμ μΈμ’
λμμκ² νμλ₯Ό νμ, μΈμ’
λμμ΄ κ·Έλ€μ μ§μ±
νλ©΄μ νλ―Όμ μ μ°½μ λ₯Ό κ°μ‘°ν μΌνλ‘ μ ν΄μ§λλ€. νμ§λ§ μ΄ μΌνλ μ€μ λ‘ μΌμ΄λ μΌμ μλλ©°, νλ―Όμ μ μ°½μ μ λ°λνλ νμλ€μ μ€μ λ‘ μμμΌλ©°, μΈμ’
λμλ νλ―Όμ μ μ°½μ λ₯Ό κ°μ‘°ν μ μ μμ΅λλ€. μ΄ μ΄μΌκΈ°λ νλμ λ§λ€μ΄μ§ κ²μΌλ‘ μΆμ λ©λλ€.
μΈμ’
λμμ νλ―Όμ μ μ°½μ μ λν΄ λ§€μ° μ΄μλ₯Ό λ΄λ³΄μκ³ , νλ―Όμ μμ΄ μ°½μ λκΈ° μ μλ νκΈμ μ¬μ©νμ§ μμμ΅λλ€. νλ―Όμ μμ΄ μ°½μ λ νμλ νλ―Όμ μμ κΈ°λ°ν νκΈμ μ¬μ©νμ΅λλ€. νλ―Όμ μμ 1443λ
λΆν° 1446λ
κΉμ§ 4λ
λμμ κ±Έμ³ μ°½μ λμμ΅λλ€. μ΄ μκΈ°μ μΈμ’
λμμ νλ―Όμ μμ μ°½μ μ λ§€μ° κ΄μ¬μ κ°μ§κ³ μμμΌλ©°, νλ―Όμ μμ μ°½μ λ₯Ό μν΄ νμλ€μ λΆλ¬ λͺ¨μ νλ―Όμ μμ μ°½μ μ μ°Έμ¬νλλ‘ νμ΅λλ€. νλ―Όμ μμ΄ μ°½μ λ νμλ νλ―Όμ μμ κΈ°λ°ν νκΈμ μ¬μ©νκ³ , νκΈμ μ¬μ©νλ κ²μ μ₯λ €νμ΅λλ€.
μΈμ’
λμμ νλ―Όμ μμ μ°½μ λ₯Ό ν΅ν΄ νκΈμ μ¬μ©νκ² λλ©΄, λͺ¨λ μ¬λλ€μ΄ μ½κ² μ½κ³ μ°λ κΈμ μ¬μ©ν μ μκ² λκ³ , μ΄λ λλΌμ λ°μ μ μν΄ λ§€μ° μ€μν μΌμ΄λΌκ³ μκ°νμ΅λλ€. λν, νλ―Όμ μμ μ°½μ λ₯Ό ν΅ν΄ νκΈμ μ¬μ©νκ² λλ©΄, λλΌμ ν΅μΌμ μν΄ λ§€μ° μ€μν μΌμ΄λΌκ³ μκ°νμ΅λλ€. μ΄μ λ°λΌ μΈμ’
λμμ νλ―Όμ μμ μ°½μ μ λ§μ λ
Έλ ₯μ κΈ°μΈμμ΅λλ€.
μΈμ’
λμμ΄ νλ―Όμ μμ μ°½μ μ κ΄μ¬μ κ°μ‘λ€λ κ²μ μμ¬μ μΌλ‘ νμΈν μ μμ΅λλ€. νμ§λ§ μΈμ’
λμ
```
```python
messages = [
{"role": "system", "content": "μΉμ ν μ±λ΄μΌλ‘μ μλλ°©μ μμ²μ μ΅λν μμΈνκ³ μΉμ νκ² λ΅νμ. λͺ¨λ λλ΅μ νκ΅μ΄(Korean)μΌλ‘ λλ΅ν΄μ€."},
{"role": "user", "content": "λλ μ€λ μ¬κ³Ό 5κ°λ₯Ό κ°κ³ μμ΄. κ·Έλ¦¬κ³ μ΄μ λλ μ¬κ³Ό 2κ°λ₯Ό λ¨Ήμμ§. λ΄κ° μ§κΈ κ°μ§ μ¬κ³Όλ λͺ κ°μ§?"},
]
---
λ€, μ€λ μ¬κ³Ό 5κ° κ°μ§κ³ μκ³ μ΄μ 2κ° λ¨ΉμμΌλ, μ§κΈ κ°μ§κ³ μλ μ¬κ³Όλ 5κ°μμ 2κ°λ₯Ό λΊ 3κ°μ
λλ€! ππ
(μ΄ κ²½μ°μλ 5κ°μμ 2κ°λ₯Ό λΊ κ²°κ³ΌμΈ 3κ°κ° μ λ΅μ
λλ€.)
```
# Llama-3-Ko-8B-dare-ties
This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
## Merge Details
### Merge Method
This model was merged using the [DARE](https://arxiv.org/abs/2311.03099) [TIES](https://arxiv.org/abs/2306.01708) merge method using [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) as a base.
### Models Merged
The following models were included in the merge:
* [beomi/Llama-3-Open-Ko-8B](https://huggingface.co/beomi/Llama-3-Open-Ko-8B)
* [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct)
### Configuration
The following YAML configuration was used to produce this model:
```yaml
models:
- model: meta-llama/Meta-Llama-3-8B
# no parameters necessary for base model
- model: meta-llama/Meta-Llama-3-8B-Instruct
parameters:
density: 0.53
weight: 0.5
- model: beomi/Llama-3-Open-Ko-8B
parameters:
density: 0.53
weight: 0.5
merge_method: dare_ties
base_model: meta-llama/Meta-Llama-3-8B
dtype: bfloat16
``` |