---
base_model:
- NTQAI/chatntq-ja-7b-v1.0
- Elizezen/Antler-7B
datasets:
- TFMC/imatrix-dataset-for-japanese-llm
language:
- ja
tags:
- mistral
- mixtral
- merge
- moe
- not-for-all-audiences
- nsfw
pipeline_tag: text-generation
---

# LightChatAssistant-TypeB-2x7B-GGUF

[Sdff-Ltba/LightChatAssistant-TypeB-2x7B](https://huggingface.co/Sdff-Ltba/LightChatAssistant-TypeB-2x7B)をGGUF変換したものです。  
ファイル名に`_imatrix`が付いているものはiMatrixを併用して量子化しています。  
iMatrix作成用データとして[TFMC/imatrix-dataset-for-japanese-llm](https://huggingface.co/datasets/TFMC/imatrix-dataset-for-japanese-llm)を使わせていただきました。

## 量子化手順

以下の通りに実行しました。(iMatrixを併用してiQ4XSにする場合)
```
python ./llama.cpp/convert.py ./LightChatAssistant-TypeB-2x7B --outtype f16 --outfile ./gguf-model_f16.gguf
./llama.cpp/imatrix -m ./gguf-model_f16.gguf -f ./c4_en_ja_imatrix.txt -o ./gguf-model.imatrix --chunks 32
./llama.cpp/quantize --imatrix ./gguf-model.imatrix ./gguf-model_f16.gguf ./LightChatAssistant-TypeB-2x7B_iq4xs.gguf iq4_xs
```

## おすすめ量子化タイプ(VRAM12GBの場合)

- 容量対精度に優れる: iQ4XS or Q4KM (製作者おすすめ)
- ContextSizeを32768にしつつVRAMにフルロード: iQ3XXS
- 精度重視: Q6K or Q8

#### 参考

- [llama.cpp：複雑化する量子化バリエーションの整理（2024.02現在） - ローカルLLM自由帳](https://sc-bakushu.hatenablog.com/entry/2024/02/26/062547)  
  「追記：KL-divergence による量子化評価」を参考にさせていただきました。
- [llama.cpp：iMatrix量子化は日本語性能にどう影響するか？ - ローカルLLM自由帳](https://sc-bakushu.hatenablog.com/entry/2024/04/20/050213)  
  iMatrix作成に用いるデータを検証していらっしゃって、とても参考になります。また公開してくださった日英混合iMatrix用テキストを使用させていただきました。

## 環境

- CPU: Ryzen 5 5600X
- GPU: GeForce RTX 3060 12GB
- RAM: DDR4-3200 96GB
- OS: Windows 10
- software: Python 3.10.11、[KoboldCpp](https://github.com/LostRuins/koboldcpp) v1.62.2

#### KoboldCppの設定

(デフォルトから変更したもののみ記載)
- `GPU Layers: 33` (33以上でフルロード)
- `Context Size: 32768`