keitokei1994 commited on
Commit
2148ff1
·
verified ·
1 Parent(s): 9889a3b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +11 -3
README.md CHANGED
@@ -10,6 +10,14 @@ language:
10
  [shisa-aiさんが公開しているshisa-v1-qwen2-7b](https://huggingface.co/shisa-ai/shisa-v1-qwen2-7b)のggufフォーマット変換版です。
11
 
12
  # Notice
13
- - 現在、qwen2-7B系列を基にしたモデルをGGUF形式で動かそうとすると、出力が壊れてしまうバグが出ています。Flash Attentionを有効化して動かすと回避できます。
14
- - LMStudioであれば、PresetからFlash Attentionを有効化してください。
15
- - Llama.cppであれば、「make LLAMA_CUDA_FA_ALL_QUANTS=true && LLAMA_CUDA=1」でビルドして、「./server -m ./models/shisa-v1-qwen2-7b.Q8_0.gguf -ngl 99 --port 8888 -fa」のようなコマンドでFlashAttentionを有効化してください。
 
 
 
 
 
 
 
 
 
10
  [shisa-aiさんが公開しているshisa-v1-qwen2-7b](https://huggingface.co/shisa-ai/shisa-v1-qwen2-7b)のggufフォーマット変換版です。
11
 
12
  # Notice
13
+ * 現在、qwen2-7B系列を基にしたモデルをGGUF形式で動かそうとすると、出力が壊れてしまうバグが出ています。Flash Attentionを有効化して動かすと回避できます。
14
+ * LMStudioであれば、PresetからFlash Attentionを有効化してください。
15
+ * Llama.cppであれば、以下の手順で対応してください:
16
+ 1. 以下のコマンドでビルドします:
17
+ ```
18
+ make LLAMA_CUDA_FA_ALL_QUANTS=true && LLAMA_CUDA=1
19
+ ```
20
+ 2. 以下のようなコマンドでFlashAttentionを有効化して実行します:
21
+ ```
22
+ ./server -m ./models/shisa-v1-qwen2-7b.Q8_0.gguf -ngl 99 --port 8888 -fa
23
+ ```