catid
/

cat-llama-3-8b-awq-q128-w4-gemm

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

catid commited on Apr 19, 2024

Commit

431c053

·

verified ·

1 Parent(s): 94b862b

Update README.md

Files changed (1) hide show

README.md +7 -0

README.md CHANGED Viewed

@@ -13,4 +13,11 @@ conda create -n vllm8 python=3.10 -y && conda activate vllm8
 pip install -U git+https://github.com/vllm-project/vllm.git@a134ef6
 python -m vllm.entrypoints.openai.api_server --model cat-llama-3-8b-awq-q128-w4-gemm
 ```

 pip install -U git+https://github.com/vllm-project/vllm.git@a134ef6
 python -m vllm.entrypoints.openai.api_server --model cat-llama-3-8b-awq-q128-w4-gemm
+```
+To use 2 GPUs add `--tensor-parallel-size 2 --gpu-memory-utilization 0.95`:
+```
+python -m vllm.entrypoints.openai.api_server --model cat-llama-3-8b-awq-q128-w4-gemm --tensor-parallel-size 2 --gpu-memory-utilization 0.95
 ```