|
--- |
|
base_model: |
|
- NTQAI/chatntq-ja-7b-v1.0 |
|
- Elizezen/Antler-7B |
|
language: |
|
- ja |
|
tags: |
|
- mistral |
|
- mixtral |
|
- merge |
|
- moe |
|
- not-for-all-audiences |
|
- nsfw |
|
pipeline_tag: text-generation |
|
--- |
|
|
|
# LightChatAssistant-TypeB-2x7B-GGUF |
|
|
|
[Sdff-Ltba/LightChatAssistant-TypeB-2x7B](https://huggingface.co/Sdff-Ltba/LightChatAssistant-TypeB-2x7B)をGGUF変換したものです。 |
|
ファイル名に`_imatrix`が付いているものはiMatrixを併用して量子化しています。 |
|
|
|
## 量子化手順 |
|
|
|
以下の通りに実行しました。(iMatrixを併用してiQ4XSにする場合) |
|
``` |
|
python ./llama.cpp/convert.py ./LightChatAssistant-TypeB-2x7B --outtype f16 --outfile ./gguf-model_f16.gguf |
|
./llama.cpp/imatrix -m ./gguf-model_f16.gguf -f ./wiki.train.raw -o ./gguf-model.imatrix --chunks 32 |
|
./llama.cpp/quantize --imatrix ./gguf-model.imatrix ./gguf-model_f16.gguf ./LightChatAssistant-TypeB-2x7B_iq4xs.gguf iq4_xs |
|
``` |
|
|
|
## おすすめ量子化タイプ(VRAM12GBの場合) |
|
|
|
- 容量対精度に優れる: iQ4XS (製作者おすすめ) |
|
- ContextSizeを32768にしつつVRAMにフルロード: iQ3XXS |
|
- 精度重視: Q6K or Q8 |
|
|
|
#### 参考 |
|
|
|
- [llama.cpp:複雑化する量子化バリエーションの整理(2024.02現在) - ローカルLLM自由帳](https://sc-bakushu.hatenablog.com/entry/2024/02/26/062547) |
|
「追記:KL-divergence による量子化評価」を参考にさせていただきました |
|
|
|
## 環境 |
|
|
|
- CPU: Ryzen 5 5600X |
|
- GPU: GeForce RTX 3060 12GB |
|
- RAM: DDR4-3200 96GB |
|
- OS: Windows 10 |
|
- software: Python 3.10.11、[KoboldCpp](https://github.com/LostRuins/koboldcpp) v1.62.2 |
|
|
|
#### KoboldCppの設定 |
|
|
|
(デフォルトから変更したもののみ記載) |
|
- `GPU Layers: 33` (33以上でフルロード) |
|
- `Context Size: 32768` |
|
|