Update README.md
Browse files
README.md
CHANGED
@@ -13,13 +13,11 @@ tags:
|
|
13 |
- GEMM
|
14 |
---
|
15 |
|
|
|
16 |
|
17 |
## Описание
|
18 |
Эта модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием **Activation-aware Weight Quantization (AWQ)** с 6-битной точностью, а затем экспортированную в формат **GGUF**.
|
19 |
|
20 |
-
## Что такое GGUF?
|
21 |
-
**GGUF (General-purpose GPU-Friendly Format)** — это формат, разработанный для повышения совместимости моделей с различными фреймворками и устройствами. В данном случае используется метод AWQ для вычисления масштабов и последующего применения их к весам без полной квантизации. Это сохраняет преимущества AWQ при повышении совместимости.
|
22 |
-
|
23 |
## Конфигурация квантизации
|
24 |
|
25 |
```json
|
|
|
13 |
- GEMM
|
14 |
---
|
15 |
|
16 |
+
# RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF
|
17 |
|
18 |
## Описание
|
19 |
Эта модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием **Activation-aware Weight Quantization (AWQ)** с 6-битной точностью, а затем экспортированную в формат **GGUF**.
|
20 |
|
|
|
|
|
|
|
21 |
## Конфигурация квантизации
|
22 |
|
23 |
```json
|