File size: 1,728 Bytes
d8716f0
 
 
 
 
 
 
 
250db7a
d8716f0
 
e0220f5
2148ff1
 
 
 
 
7f20af8
2148ff1
 
 
c45ee6a
250db7a
 
 
 
 
 
 
 
 
 
 
7f20af8
250db7a
 
 
c45ee6a
250db7a
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
---
license: apache-2.0
tags:
- qwen
language:
- ja
- en
---
# shisa-v1-qwen2-7b-gguf (English explanation is below.)
[shisa-aiさんが公開しているshisa-v1-qwen2-7b](https://huggingface.co/shisa-ai/shisa-v1-qwen2-7b)のggufフォーマット変換版です。

# Notice
* 現在、qwen2-7B系列を基にしたモデルをGGUF形式で動かそうとすると、出力が壊れてしまうバグが出ています。Flash Attentionを有効化して動かすと回避できます。
  * LMStudioであれば、PresetからFlash Attentionを有効化してください。
  * Llama.cppであれば、以下の手順で対応してください:
    1. 以下のコマンドでビルドします:
       ```
       make LLAMA_CUDA_FA_ALL_QUANTS=true GGML_CUDA=1
       ```
    2. 以下のようなコマンドでFlashAttentionを有効化して実行します:
       ```
       ./llama-server -m ./models/shisa-v1-qwen2-7b.Q8_0.gguf -ngl 99 --port 8888 -fa
       ```

# shisa-v1-qwen2-7b-gguf
This is a gguf format conversion of [shisa-v1-qwen2-7b](https://huggingface.co/shisa-ai/shisa-v1-qwen2-7b) published by shisa-ai.

# Notice
* Currently, there is a bug where the output gets corrupted when trying to run models based on the qwen2-7B series in GGUF format. This can be avoided by enabling Flash Attention.
  * If using LMStudio, please enable Flash Attention from the Preset.
  * If using Llama.cpp, please follow these steps:
    1. Build with the following command:
      ```
      make LLAMA_CUDA_FA_ALL_QUANTS=true GGML_CUDA=1  
      ```
    2. Run with Flash Attention enabled using a command like this:
      ```
      ./llama-server -m ./models/shisa-v1-qwen2-7b.Q8_0.gguf -ngl 99 --port 8888 -fa
      ```