Update README.md
Browse files
README.md
CHANGED
@@ -10,6 +10,14 @@ language:
|
|
10 |
[shisa-aiさんが公開しているshisa-v1-qwen2-7b](https://huggingface.co/shisa-ai/shisa-v1-qwen2-7b)のggufフォーマット変換版です。
|
11 |
|
12 |
# Notice
|
13 |
-
|
14 |
-
|
15 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10 |
[shisa-aiさんが公開しているshisa-v1-qwen2-7b](https://huggingface.co/shisa-ai/shisa-v1-qwen2-7b)のggufフォーマット変換版です。
|
11 |
|
12 |
# Notice
|
13 |
+
* 現在、qwen2-7B系列を基にしたモデルをGGUF形式で動かそうとすると、出力が壊れてしまうバグが出ています。Flash Attentionを有効化して動かすと回避できます。
|
14 |
+
* LMStudioであれば、PresetからFlash Attentionを有効化してください。
|
15 |
+
* Llama.cppであれば、以下の手順で対応してください:
|
16 |
+
1. 以下のコマンドでビルドします:
|
17 |
+
```
|
18 |
+
make LLAMA_CUDA_FA_ALL_QUANTS=true && LLAMA_CUDA=1
|
19 |
+
```
|
20 |
+
2. 以下のようなコマンドでFlashAttentionを有効化して実行します:
|
21 |
+
```
|
22 |
+
./server -m ./models/shisa-v1-qwen2-7b.Q8_0.gguf -ngl 99 --port 8888 -fa
|
23 |
+
```
|