afrideva
/

Mixtral-GQA-400m-v2-GGUF

Text Generation

Model card Files Files and versions Community

Mixtral-GQA-400m-v2-GGUF / README.md

afrideva's picture

Upload README.md with huggingface_hub

b460d08 11 months ago

|

history blame contribute delete

2.34 kB

	---
	base_model: BEE-spoke-data/Mixtral-GQA-400m-v2
	inference: false
	language:
	- en
	license: apache-2.0
	model_creator: BEE-spoke-data
	model_name: Mixtral-GQA-400m-v2
	pipeline_tag: text-generation
	quantized_by: afrideva
	tags:
	- gguf
	- ggml
	- quantized
	- q2_k
	- q3_k_m
	- q4_k_m
	- q5_k_m
	- q6_k
	- q8_0
	---
	# BEE-spoke-data/Mixtral-GQA-400m-v2-GGUF

	Quantized GGUF model files for [Mixtral-GQA-400m-v2](https://huggingface.co/BEE-spoke-data/Mixtral-GQA-400m-v2) from [BEE-spoke-data](https://huggingface.co/BEE-spoke-data)


	\| Name \| Quant method \| Size \|
	\| ---- \| ---- \| ---- \|
	\| [mixtral-gqa-400m-v2.fp16.gguf](https://huggingface.co/afrideva/Mixtral-GQA-400m-v2-GGUF/resolve/main/mixtral-gqa-400m-v2.fp16.gguf) \| fp16 \| 4.01 GB \|
	\| [mixtral-gqa-400m-v2.q2_k.gguf](https://huggingface.co/afrideva/Mixtral-GQA-400m-v2-GGUF/resolve/main/mixtral-gqa-400m-v2.q2_k.gguf) \| q2_k \| 703.28 MB \|
	\| [mixtral-gqa-400m-v2.q3_k_m.gguf](https://huggingface.co/afrideva/Mixtral-GQA-400m-v2-GGUF/resolve/main/mixtral-gqa-400m-v2.q3_k_m.gguf) \| q3_k_m \| 899.86 MB \|
	\| [mixtral-gqa-400m-v2.q4_k_m.gguf](https://huggingface.co/afrideva/Mixtral-GQA-400m-v2-GGUF/resolve/main/mixtral-gqa-400m-v2.q4_k_m.gguf) \| q4_k_m \| 1.15 GB \|
	\| [mixtral-gqa-400m-v2.q5_k_m.gguf](https://huggingface.co/afrideva/Mixtral-GQA-400m-v2-GGUF/resolve/main/mixtral-gqa-400m-v2.q5_k_m.gguf) \| q5_k_m \| 1.39 GB \|
	\| [mixtral-gqa-400m-v2.q6_k.gguf](https://huggingface.co/afrideva/Mixtral-GQA-400m-v2-GGUF/resolve/main/mixtral-gqa-400m-v2.q6_k.gguf) \| q6_k \| 1.65 GB \|
	\| [mixtral-gqa-400m-v2.q8_0.gguf](https://huggingface.co/afrideva/Mixtral-GQA-400m-v2-GGUF/resolve/main/mixtral-gqa-400m-v2.q8_0.gguf) \| q8_0 \| 2.13 GB \|



	## Original Model Card:
	# BEE-spoke-data/Mixtral-GQA-400m-v2




	## testing code

	```python
	# !pip install -U -q transformers datasets accelerate sentencepiece
	import pprint as pp
	from transformers import pipeline

	pipe = pipeline(
	"text-generation",
	model="BEE-spoke-data/Mixtral-GQA-400m-v2",
	device_map="auto",
	)
	pipe.model.config.pad_token_id = pipe.model.config.eos_token_id

	prompt = "My favorite movie is Godfather because"

	res = pipe(
	prompt,
	max_new_tokens=256,
	top_k=4,
	penalty_alpha=0.6,
	use_cache=True,
	no_repeat_ngram_size=4,
	repetition_penalty=1.1,
	renormalize_logits=True,
	)
	pp.pprint(res[0])
	```