Spaces:
Running
Running
File size: 7,621 Bytes
2fcb72a abb9e2b 2fcb72a abb9e2b 2fcb72a abb9e2b 2fcb72a |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 |
Model,Quantization,Params (B),Model Size (GB),Prefill (tokens/s),Decode (tokens/s),Backend
gemma-2-9b,Q8_0,10.159,10.796,2.169,0.012,llama_cpp
DeepSeek-V2-Lite,Q4_K_M,15.706,10.36,4.304,1.764,llama_cpp
aya-expanse-8b,Q8_0,9.077,9.644,3.1,0.027,llama_cpp
aya-23-8b,Q8_0,9.077,9.644,3.174,0.027,llama_cpp
Yi-1.5-9B,Q8_0,8.829,9.382,2.585,0.019,llama_cpp
Qwen2.5-14B,Q4_K_M,14.77,8.982,1.916,0.018,llama_cpp
DeepSeek-V2-Lite,Q4_0_4_4,15.706,8.901,7.788,3.867,llama_cpp
Phi-3-medium-128k-instruct,Q4_K_M,13.96,8.566,1.819,0.02,llama_cpp
Hermes-3-Llama-3.1-8B,Q8_0,8.03,8.533,3.286,0.922,llama_cpp
Qwen2.5-14B,Q4_0_4_4,14.77,8.512,4.698,0.028,llama_cpp
internlm2_5-7b-chat,Q8_0,7.738,8.222,3.258,1.238,llama_cpp
dolphin-2.9.2-qwen2-7b,Q8_0,7.616,8.093,4.241,1.301,llama_cpp
Qwen2.5-7B,Q8_0,7.616,8.093,4.253,1.302,llama_cpp
Phi-3-medium-128k-instruct,Q4_0_4_4,13.96,7.896,4.715,0.038,llama_cpp
NexusRaven-V2-13B,Q4_K_M,13.016,7.865,2.066,0.035,llama_cpp
Mistral-7B-Instruct-v0.3,Q8_0,7.248,7.702,4.104,1.29,llama_cpp
dolphin-2.9.3-mistral-7B-32k,Q8_0,7.248,7.702,4.135,1.294,llama_cpp
Yarn-Mistral-7b-128k,Q8_0,7.242,7.695,4.082,1.292,llama_cpp
Starling-LM-7B-beta,Q8_0,7.242,7.695,4.132,1.296,llama_cpp
Mistral-Nemo-Base-2407,Q4_K_M,12.248,7.469,2.453,1.358,llama_cpp
NexusRaven-V2-13B,Q4_0_4_4,13.016,7.365,4.979,1.348,llama_cpp
OLMoE-1B-7B-0924,Q8_0,6.919,7.358,26.942,7.489,llama_cpp
OLMo-7B-0724-hf,Q8_0,6.888,7.319,4.515,1.371,llama_cpp
mpt-7b-instruct,Q8_0,6.856,7.285,4.287,1.367,llama_cpp
Amber,Q8_0,6.738,7.16,4.442,1.373,llama_cpp
Mistral-Nemo-Base-2407,Q4_0_4_4,12.248,7.064,9.103,1.48,llama_cpp
gemma-2-9b,Q4_K_M,10.159,6.508,3.531,1.629,llama_cpp
Yarn-Solar-10b-64k,Q4_K_M,10.732,6.461,2.905,1.503,llama_cpp
SOLAR-10.7B-v1.0,Q4_K_M,10.732,6.461,2.925,1.505,llama_cpp
SOLAR-10.7B-Instruct-v1.0,Q4_K_M,10.732,6.461,2.916,1.506,llama_cpp
Yi-1.5-6B,Q8_0,6.061,6.441,5.269,1.584,llama_cpp
gemma-2-9b,Q4_0_4_4,10.159,6.19,10.553,1.757,llama_cpp
SOLAR-10.7B-v1.0,Q4_0_4_4,10.732,6.072,9.315,1.635,llama_cpp
SOLAR-10.7B-Instruct-v1.0,Q4_0_4_4,10.732,6.072,9.332,1.635,llama_cpp
Yarn-Solar-10b-64k,Q4_0_4_4,10.732,6.072,9.352,1.638,llama_cpp
aya-expanse-8b,Q4_K_M,9.077,5.906,4.406,1.911,llama_cpp
aya-23-8B,Q4_K_M,9.077,5.906,4.428,1.914,llama_cpp
aya-expanse-8b,Q4_0_4_4,9.077,5.647,14.074,2.05,llama_cpp
aya-23-8B,Q4_0_4_4,9.077,5.647,14.113,2.051,llama_cpp
Yi-1.5-9B,Q4_K_M,8.829,5.327,3.681,1.85,llama_cpp
Yi-1.5-9B,Q4_0_4_4,8.829,5.035,11.33,2.0,llama_cpp
Hermes-3-Llama-3.1-8B,Q4_K_M,8.03,4.913,4.375,2.078,llama_cpp
Llama-3.1-8B,Q4_K_M,8.03,4.913,4.403,2.086,llama_cpp
internlm2_5-7b-chat,Q4_K_M,7.738,4.711,4.4,2.133,llama_cpp
Qwen2.5-7B,Q4_K_M,7.616,4.677,4.769,2.201,llama_cpp
dolphin-2.9.2-qwen2-7b,Q4_K_M,7.616,4.677,4.759,2.204,llama_cpp
Llama-3.1-8B,Q4_0_4_4,8.03,4.653,13.99,2.245,llama_cpp
Hermes-3-Llama-3.1-8B,Q4_0_4_4,8.03,4.653,14.006,2.245,llama_cpp
internlm2_5-7b-chat,Q4_0_4_4,7.738,4.451,14.036,2.31,llama_cpp
mpt-7b-instruct,Q4_K_M,6.856,4.442,4.162,2.213,llama_cpp
Qwen2.5-7B,Q4_0_4_4,7.616,4.425,15.563,2.386,llama_cpp
dolphin-2.9.2-qwen2-7b,Q4_0_4_4,7.616,4.425,15.58,2.387,llama_cpp
dolphin-2.9.3-mistral-7B-32k,Q4_K_M,7.248,4.372,4.387,2.227,llama_cpp
Mistral-7B-Instruct-v0.3,Q4_K_M,7.248,4.372,4.462,2.241,llama_cpp
Starling-LM-7B-beta,Q4_K_M,7.242,4.368,4.406,2.234,llama_cpp
Yarn-Mistral-7b-128k,Q4_K_M,7.242,4.368,4.434,2.245,llama_cpp
OLMoE-1B-7B-0924,Q4_K_M,6.919,4.212,26.902,12.119,llama_cpp
OLMo-7B-0724-hf,Q4_K_M,6.888,4.183,4.706,2.339,llama_cpp
dolphin-2.9.3-mistral-7B-32k,Q4_0_4_4,7.248,4.113,14.053,2.427,llama_cpp
Mistral-7B-Instruct-v0.3,Q4_0_4_4,7.248,4.113,14.177,2.43,llama_cpp
Starling-LM-7B-beta,Q4_0_4_4,7.242,4.108,14.068,2.427,llama_cpp
Yarn-Mistral-7b-128k,Q4_0_4_4,7.242,4.108,14.139,2.436,llama_cpp
Amber,Q4_K_M,6.738,4.08,4.594,2.351,llama_cpp
Phi-3.5-mini-instruct,Q8_0,3.821,4.06,7.951,2.423,llama_cpp
Phi-3-mini-128k-instruct,Q8_0,3.821,4.06,7.947,2.426,llama_cpp
mpt-7b-instruct,Q4_0_4_4,6.856,3.964,14.569,2.533,llama_cpp
OLMoE-1B-7B-0924,Q4_0_4_4,6.919,3.926,50.413,12.989,llama_cpp
Llama-3.2-3B,Q8_0,3.607,3.833,10.31,2.83,llama_cpp
Amber,Q4_0_4_4,6.738,3.825,14.442,2.57,llama_cpp
Yi-1.5-6B,Q4_K_M,6.061,3.672,5.58,2.72,llama_cpp
Qwen2.5-3B,Q8_0,3.397,3.61,10.473,2.939,llama_cpp
Yi-1.5-6B,Q4_0_4_4,6.061,3.478,17.017,2.945,llama_cpp
dolphin-2.9.4-gemma2-2b,Q8_0,3.204,3.405,13.966,3.381,llama_cpp
gemma-2-2b,Q8_0,3.204,3.405,13.996,3.385,llama_cpp
stable-code-instruct-3b,Q8_0,2.795,2.971,10.668,3.316,llama_cpp
Phi-3.5-mini-instruct,Q4_K_M,3.821,2.393,7.502,3.936,llama_cpp
Phi-3-mini-128k-instruct,Q4_K_M,3.821,2.393,7.519,3.938,llama_cpp
Llama-3.2-3B,Q4_K_M,3.607,2.335,10.691,4.674,llama_cpp
Llama-3.2-3B,Q4_0_4_4,3.607,2.233,31.72,5.025,llama_cpp
gemma-2-2b,Q4_K_M,3.204,2.186,14.202,5.253,llama_cpp
dolphin-2.9.4-gemma2-2b,Q4_K_M,3.204,2.186,14.218,5.253,llama_cpp
Qwen2.5-3B,Q4_K_M,3.397,2.179,10.638,4.808,llama_cpp
Phi-3.5-mini-instruct,Q4_0_4_4,3.821,2.175,23.369,4.428,llama_cpp
Phi-3-mini-128k-instruct,Q4_0_4_4,3.821,2.175,23.461,4.436,llama_cpp
gemma-2-2b,Q4_0_4_4,3.204,2.107,40.616,5.552,llama_cpp
dolphin-2.9.4-gemma2-2b,Q4_0_4_4,3.204,2.107,40.977,5.58,llama_cpp
Qwen2.5-3B,Q4_0_4_4,3.397,2.072,32.434,5.239,llama_cpp
internlm2_5-1_8b-chat,Q8_0,1.889,2.007,19.329,5.279,llama_cpp
SmolLM2-1.7B-Instruct,Q8_0,1.812,1.926,17.524,5.177,llama_cpp
Qwen2.5-1.5B,Q8_0,1.777,1.889,21.927,5.793,llama_cpp
stable-code-instruct-3b,Q4_K_M,2.795,1.707,10.803,5.564,llama_cpp
stable-code-instruct-3b,Q4_0_4_4,2.795,1.607,28.926,5.957,llama_cpp
Llama-3.2-1B,Q8_0,1.498,1.592,29.722,7.295,llama_cpp
Yi-Coder-1.5B,Q8_0,1.476,1.569,23.894,6.596,llama_cpp
OLMo-1B-0724-hf,Q8_0,1.28,1.36,27.787,7.591,llama_cpp
Qwen2.5-1.5B,Q4_K_M,1.777,1.172,22.326,9.56,llama_cpp
internlm2_5-1_8b-chat,Q4_K_M,1.889,1.17,19.453,8.56,llama_cpp
TinyLlama-1.1B-Chat-v1.0,Q8_0,1.1,1.169,28.472,8.637,llama_cpp
TinyLlama_v1.1,Q8_0,1.1,1.169,28.538,8.652,llama_cpp
SmolLM2-1.7B-Instruct,Q4_K_M,1.812,1.136,17.72,8.497,llama_cpp
Qwen2.5-1.5B,Q4_0_4_4,1.777,1.12,65.915,10.128,llama_cpp
internlm2_5-1_8b-chat,Q4_0_4_4,1.889,1.112,57.736,9.243,llama_cpp
SmolLM2-1.7B-Instruct,Q4_0_4_4,1.812,1.072,50.27,9.239,llama_cpp
Llama-3.2-1B,Q4_K_M,1.498,1.015,30.451,11.51,llama_cpp
Llama-3.2-1B,Q4_0_4_4,1.498,0.979,86.772,12.364,llama_cpp
Yi-Coder-1.5B,Q4_K_M,1.476,0.962,23.267,10.03,llama_cpp
Yi-Coder-1.5B,Q4_0_4_4,1.476,0.865,67.713,11.422,llama_cpp
OLMo-1B-0724-hf,Q4_K_M,1.28,0.79,28.276,12.321,llama_cpp
OLMo-1B-0724-hf,Q4_0_4_4,1.28,0.746,84.882,13.339,llama_cpp
Qwen2.5-0.5B,Q8_0,0.63,0.67,75.456,18.06,llama_cpp
TinyLlama-1.1B-Chat-v1.0,Q4_K_M,1.1,0.667,29.44,14.305,llama_cpp
TinyLlama_v1.1,Q4_K_M,1.1,0.667,29.397,14.346,llama_cpp
TinyLlama-1.1B-Chat-v1.0,Q4_0_4_4,1.1,0.636,77.823,15.509,llama_cpp
TinyLlama_v1.1,Q4_0_4_4,1.1,0.636,77.943,15.543,llama_cpp
Qwen2.5-0.5B,Q4_K_M,0.63,0.537,52.916,22.324,llama_cpp
Qwen2.5-0.5B,Q4_0_4_4,0.63,0.491,189.874,26.738,llama_cpp
gpt2-medium,Q8_0,0.406,0.436,83.423,23.016,llama_cpp
SmolLM2-360M-Instruct,Q8_0,0.409,0.435,79.518,22.857,llama_cpp
SmolLM2-360M-Instruct,Q4_K_M,0.409,0.319,55.774,30.718,llama_cpp
SmolLM2-360M-Instruct,Q4_0_4_4,0.409,0.277,173.275,37.176,llama_cpp
gpt2-medium,Q4_K_M,0.406,0.269,73.615,33.913,llama_cpp
gpt2-medium,Q4_0_4_4,0.406,0.247,178.73,37.89,llama_cpp
gpt2,Q8_0,0.163,0.176,302.932,68.191,llama_cpp
SmolLM2-135M-Instruct,Q8_0,0.163,0.173,212.146,57.992,llama_cpp
SmolLM2-135M-Instruct,Q4_K_M,0.163,0.134,153.439,73.272,llama_cpp
SmolLM2-135M-Instruct,Q4_0_4_4,0.163,0.12,381.667,86.735,llama_cpp
gpt2,Q4_K_M,0.163,0.111,269.906,92.707,llama_cpp
gpt2,Q4_0_4_4,0.163,0.105,582.32,101.509,llama_cpp
|