altomek
/

Llama-3.1-Minitron-4B-Width-Base-Q4_0_4_4-GGUF

Model card Files Files and versions Community

Edit model card

Llama-3.1-Minitron-4B-Width-Base

ExLlamav2 8 bpw quant of https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Width-Base

Downloads last month: 23

GGUF

Model size

4.51B params

Architecture

llama

4-bit

Inference API

Inference API (serverless) has been turned off for this model.

Model tree for altomek/Llama-3.1-Minitron-4B-Width-Base-Q4_0_4_4-GGUF

Base model

nvidia/Llama-3.1-Minitron-4B-Width-Base

Quantized

(16)

this model

Collection including altomek/Llama-3.1-Minitron-4B-Width-Base-Q4_0_4_4-GGUF

Quants for ARM

10 items • Updated about 5 hours ago