keitokei1994 commited on
Commit
a67fb89
1 Parent(s): 4d02f86

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +55 -0
README.md ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: llama3
3
+ language:
4
+ - ja
5
+ - en
6
+ tags:
7
+ - code
8
+ - sql
9
+ ---
10
+
11
+ ### モデルの説明(English explanation is below.)
12
+
13
+ このモデルは、MergeKitツールを使用して作成されたMixture of Experts (MoE) 言語モデルです。
14
+
15
+ gguf版(今後拡充予定)は [こちら](https://huggingface.co/keitokei1994/Llama-3-Umievo-Shizuko-sqlcoder-2x8B-gguf) 。
16
+
17
+ umiyukiさんが公開している[Llama-3-Umievo-itr014-Shizuko-8b](https://huggingface.co/umiyuki/Llama-3-Umievo-itr014-Shizuko-8b) に、SQLデータセットでファインチューニングされた[rdefog/llama-3-sqlcoder-8b](https://huggingface.co/defog/llama-3-sqlcoder-8b)を合わせることで、日本語能力とSQL生成能力を両立させようとしたMoEモデルです。
18
+
19
+ ### モデルの詳細
20
+
21
+ - **モデル名**: Llama-3-Umievo-Shizuko-sqlcoder-2x8B
22
+ - **モデルアーキテクチャ**: Mixture of Experts (MoE)
23
+ - **ベースモデル**: rdefog/llama-3-sqlcoder-8b, defog/llama-3-sqlcoder-8b
24
+ - **マージツール**: MergeKit
25
+
26
+ #### 要求スペック
27
+ Q4_K_M量子化モデルであれば、RTX3060 12GBでフルロード可能です。
28
+
29
+ 筆者はWSL2やGoogle Colaboratotry Proでの作成後、Llama.cppとLMstudioにて動作確認を行なっています。
30
+
31
+ - CPU: Ryzen 5 3600
32
+ - GPU: GeForce RTX 3060 12GB
33
+ - RAM: DDR4-3200 96GB
34
+ - OS: Windows 10
35
+
36
+ ---
37
+
38
+ ### Model Description
39
+ This model is a Mixture of Experts (MoE) language model created using the MergeKit tool.
40
+ The gguf version (planned to be expanded in the future) can be found [here](https://huggingface.co/keitokei1994/Llama-3-Umievo-Shizuko-sqlcoder-2x8B-gguf).
41
+ This MoE model aims to achieve both Japanese language ability and SQL generation capability by combining [Llama-3-Umievo-itr014-Shizuko-8b](https://huggingface.co/umiyuki/Llama-3-Umievo-itr014-Shizuko-8b), released by umiyuki, with [rdefog/llama-3-sqlcoder-8b](https://huggingface.co/defog/llama-3-sqlcoder-8b), which has been fine-tuned on an SQL dataset.
42
+
43
+ ### Model Details
44
+ - **Model Name**: Llama-3-Umievo-Shizuko-sqlcoder-2x8B
45
+ - **Model Architecture**: Mixture of Experts (MoE)
46
+ - **Base Models**: rdefog/llama-3-sqlcoder-8b, defog/llama-3-sqlcoder-8b
47
+ - **Merge Tool**: MergeKit
48
+
49
+ #### Required Specifications
50
+ If using the Q4_K_M quantized model, it can be fully loaded on an RTX 3060 12GB.
51
+ The author has created the model using WSL2 and Google Colaboratory Pro, and has tested it using Llama.cpp and LMstudio.
52
+ - CPU: Ryzen 5 3600
53
+ - GPU: GeForce RTX 3060 12GB
54
+ - RAM: DDR4-3200 96GB
55
+ - OS: Windows 10