dumb-dev
/

flan-t5-xxl-gguf

Inference Endpoints

Model card Files Files and versions Community

dumb-dev commited on Oct 29

Commit

8aba5bf

•

1 Parent(s): 5d94c0e

Update README.md

Files changed (1) hide show

README.md +37 -5

README.md CHANGED Viewed

@@ -8,13 +8,45 @@ language:
 base_model:
 - google/flan-t5-xxl
 ---
-Original Model: https://huggingface.co/google/flan-t5-xxl/
-Original Readme: https://huggingface.co/google/flan-t5-xxl/blob/main/README.md
-Disclaimer: I don't claim any rights on this modell. All rights go to google.
-How to use:
-./llama-cli -m /path/to/file.gguf --prompt "your prompt"  --n-gpu-layers nn
 nn --> numbers of layers to offload to gpu

 base_model:
 - google/flan-t5-xxl
 ---
+# flan-t5-xxl-gguf
+## This is a quantized version of [google/flan-t5-xxl](https://huggingface.co/google/flan-t5-xxl/)
+![Google Original Model Architecture](https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/model_doc/flan2_architecture.jpg)
+## Usage/Examples
+```sh
+./llama-cli -m /path/to/file.gguf --prompt "your prompt" --n-gpu-layers nn
+```
 nn --> numbers of layers to offload to gpu
+## Quants
+BITs     |       TYPE    |
+--------|-------------  |
+Q2      |       Q2_K     |
+Q3      | Q3_K, Q3_K_L, Q3_K_M, Q3_K_S  |
+Q4      | Q4_0, Q4_1, Q4_K, Q4_K_M, Q4_K_S  |
+Q5      | Q5_0, Q5_1, Q5_K, Q5_K_M, Q5_K_S  |
+Q6      | Q6_K          |
+Q8      | Q_8K       |
+#### Additional:
+float   |
+--------|
+f16     |
+f32     |
+## Disclaimer
+ I don't claim any rights on this modell. All rights go to google.
+## Acknowledgements
+ - [Original model](https://huggingface.co/google/flan-t5-xxl/)
+ - [Original README](https://huggingface.co/google/flan-t5-xxl/blob/main/README.md)
+ - [Original license](https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md)