Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,55 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: llama3
|
3 |
+
language:
|
4 |
+
- ja
|
5 |
+
- en
|
6 |
+
tags:
|
7 |
+
- code
|
8 |
+
- sql
|
9 |
+
---
|
10 |
+
|
11 |
+
### モデルの説明(English explanation is below.)
|
12 |
+
|
13 |
+
このモデルは、MergeKitツールを使用して作成されたMixture of Experts (MoE) 言語モデルです。
|
14 |
+
|
15 |
+
gguf版(今後拡充予定)は [こちら](https://huggingface.co/keitokei1994/Llama-3-Umievo-Shizuko-sqlcoder-2x8B-gguf) 。
|
16 |
+
|
17 |
+
umiyukiさんが公開している[Llama-3-Umievo-itr014-Shizuko-8b](https://huggingface.co/umiyuki/Llama-3-Umievo-itr014-Shizuko-8b) に、SQLデータセットでファインチューニングされた[rdefog/llama-3-sqlcoder-8b](https://huggingface.co/defog/llama-3-sqlcoder-8b)を合わせることで、日本語能力とSQL生成能力を両立させようとしたMoEモデルです。
|
18 |
+
|
19 |
+
### モデルの詳細
|
20 |
+
|
21 |
+
- **モデル名**: Llama-3-Umievo-Shizuko-sqlcoder-2x8B
|
22 |
+
- **モデルアーキテクチャ**: Mixture of Experts (MoE)
|
23 |
+
- **ベースモデル**: rdefog/llama-3-sqlcoder-8b, defog/llama-3-sqlcoder-8b
|
24 |
+
- **マージツール**: MergeKit
|
25 |
+
|
26 |
+
#### 要求スペック
|
27 |
+
Q4_K_M量子化モデルであれば、RTX3060 12GBでフルロード可能です。
|
28 |
+
|
29 |
+
筆者はWSL2やGoogle Colaboratotry Proでの作成後、Llama.cppとLMstudioにて動作確認を行なっています。
|
30 |
+
|
31 |
+
- CPU: Ryzen 5 3600
|
32 |
+
- GPU: GeForce RTX 3060 12GB
|
33 |
+
- RAM: DDR4-3200 96GB
|
34 |
+
- OS: Windows 10
|
35 |
+
|
36 |
+
---
|
37 |
+
|
38 |
+
### Model Description
|
39 |
+
This model is a Mixture of Experts (MoE) language model created using the MergeKit tool.
|
40 |
+
The gguf version (planned to be expanded in the future) can be found [here](https://huggingface.co/keitokei1994/Llama-3-Umievo-Shizuko-sqlcoder-2x8B-gguf).
|
41 |
+
This MoE model aims to achieve both Japanese language ability and SQL generation capability by combining [Llama-3-Umievo-itr014-Shizuko-8b](https://huggingface.co/umiyuki/Llama-3-Umievo-itr014-Shizuko-8b), released by umiyuki, with [rdefog/llama-3-sqlcoder-8b](https://huggingface.co/defog/llama-3-sqlcoder-8b), which has been fine-tuned on an SQL dataset.
|
42 |
+
|
43 |
+
### Model Details
|
44 |
+
- **Model Name**: Llama-3-Umievo-Shizuko-sqlcoder-2x8B
|
45 |
+
- **Model Architecture**: Mixture of Experts (MoE)
|
46 |
+
- **Base Models**: rdefog/llama-3-sqlcoder-8b, defog/llama-3-sqlcoder-8b
|
47 |
+
- **Merge Tool**: MergeKit
|
48 |
+
|
49 |
+
#### Required Specifications
|
50 |
+
If using the Q4_K_M quantized model, it can be fully loaded on an RTX 3060 12GB.
|
51 |
+
The author has created the model using WSL2 and Google Colaboratory Pro, and has tested it using Llama.cpp and LMstudio.
|
52 |
+
- CPU: Ryzen 5 3600
|
53 |
+
- GPU: GeForce RTX 3060 12GB
|
54 |
+
- RAM: DDR4-3200 96GB
|
55 |
+
- OS: Windows 10
|