keitokei1994
/

shisa-v1-qwen2-7b-GGUF

Inference Endpoints

Model card Files Files and versions Community

keitokei1994 commited on Jun 10, 2024

Commit

2148ff1

·

verified ·

1 Parent(s): 9889a3b

Update README.md

Files changed (1) hide show

README.md +11 -3

README.md CHANGED Viewed

@@ -10,6 +10,14 @@ language:
 [shisa-aiさんが公開しているshisa-v1-qwen2-7b](https://huggingface.co/shisa-ai/shisa-v1-qwen2-7b)のggufフォーマット変換版です。
 # Notice
-- 現在、qwen2-7B系列を基にしたモデルをGGUF形式で動かそうとすると、出力が壊れてしまうバグが出ています。Flash Attentionを有効化して動かすと回避できます。
-  - LMStudioであれば、PresetからFlash Attentionを有効化してください。
-  - Llama.cppであれば、「make LLAMA_CUDA_FA_ALL_QUANTS=true && LLAMA_CUDA=1」でビルドして、「./server -m ./models/shisa-v1-qwen2-7b.Q8_0.gguf -ngl 99 --port 8888 -fa」のようなコマンドでFlashAttentionを有効化してください。

 [shisa-aiさんが公開しているshisa-v1-qwen2-7b](https://huggingface.co/shisa-ai/shisa-v1-qwen2-7b)のggufフォーマット変換版です。
 # Notice
+* 現在、qwen2-7B系列を基にしたモデルをGGUF形式で動かそうとすると、出力が壊れてしまうバグが出ています。Flash Attentionを有効化して動かすと回避できます。
+  * LMStudioであれば、PresetからFlash Attentionを有効化してください。
+  * Llama.cppであれば、以下の手順で対応してください:
+    1. 以下のコマンドでビルドします:
+       ```
+       make LLAMA_CUDA_FA_ALL_QUANTS=true && LLAMA_CUDA=1
+       ```
+    2. 以下のようなコマンドでFlashAttentionを有効化して実行します:
+       ```
+       ./server -m ./models/shisa-v1-qwen2-7b.Q8_0.gguf -ngl 99 --port 8888 -fa
+       ```