casperhansen
/

mpt-7b-8k-chat-awq

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

casperhansen commited on Jul 28, 2023

Commit

19fe3d1

•

1 Parent(s): 364bcfc

Update README.md

Files changed (1) hide show

README.md +5 -2

README.md CHANGED Viewed

@@ -10,13 +10,16 @@ Original model can be found at [https://huggingface.co/mosaicml/mpt-7b-8k-chat](
 ## ⚡ 4-bit Inference Speed
-This was tested on RunPod. Speed varies across machines, I have not been able to reproduce 117 tokens/s consistently on a 4090 yet.
 H100:
 - CUDA 12.0, Driver 525.105.17: 92 tokens/s (10.82 ms/token)
-RTX 4090 (4 different VMs):
 - CUDA 12.0, Driver 525.125.06: 117 tokens/s (8.52 ms/token)
 - CUDA 12.2, Driver 535.54.03: 53 tokens/s (18.6 ms/token)
 - CUDA 12.2, Driver 535.54.03: 56 tokens/s (17.71 ms/token)
 - CUDA 12.0, Driver 525.125.06: 55 tokens/ (18.15 ms/token)

 ## ⚡ 4-bit Inference Speed
+Machines rented from RunPod - speed may vary dependent on both GPU/CPU.
 H100:
 - CUDA 12.0, Driver 525.105.17: 92 tokens/s (10.82 ms/token)
+RTX 4090 + Intel i9 13900K (2 different VMs):
+- CUDA 12.0, Driver 525.125.06: 134 tokens/s (7.46 ms/token)
 - CUDA 12.0, Driver 525.125.06: 117 tokens/s (8.52 ms/token)
+RTX 4090 + AMD EPYC 7-Series (2 different VMs):
 - CUDA 12.2, Driver 535.54.03: 53 tokens/s (18.6 ms/token)
 - CUDA 12.2, Driver 535.54.03: 56 tokens/s (17.71 ms/token)
 - CUDA 12.0, Driver 525.125.06: 55 tokens/ (18.15 ms/token)