RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF
Описание
Эта модель представляет собой квантизированную версию RuadaptQwen2.5-32B-instruct, выполненную с использованием Activation-aware Weight Quantization (AWQ) с 6-битной точностью, а затем экспортированную в формат GGUF.
Конфигурация квантизации
{
"zero_point": true,
"q_group_size": 128,
"w_bit": 6,
"version": "GEMM"
}
Шаги для экспорта в GGUF:
- AWQ квантизация: Вычисляются масштабы (scales) и применяются к модели.
- Сохранение модели в формате FP16: Весовые параметры сохраняются без полной квантизации.
- Преобразование в GGUF: Используется convert.py для преобразования весов из формата HuggingFace FP16 в GGUF FP16.
- Квантизация GGUF: Применяется финальная квантизация в формате GGUF (например, 4-битная) для достижения реального сжатия.
- Downloads last month
- 18
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
HF Inference deployability: The model has no library tag.
Model tree for pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF
Base model
msu-rcc-lair/RuadaptQwen2.5-32B-Instruct