neuralmagic
/

Meta-Llama-3.1-8B-Instruct-quantized.w8a8

@@ -33,7 +33,7 @@ base_model: meta-llama/Meta-Llama-3.1-8B-Instruct
 - **Model Developers:** Neural Magic
 Quantized version of [Meta-Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct).
-It achieves scores within 1.3% of the scores of the unquantized model for MMLU, ARC-Challenge, GSM-8k, Hellaswag, Winogrande and TruthfulQA.
 ### Model Optimizations
@@ -152,31 +152,31 @@ This version of the lm-evaluation-harness includes versions of MMLU, ARC-Challen
   <tr>
    <td>MMLU (5-shot)
    </td>
-   <td>69.43
    </td>
-   <td>68.78
    </td>
-   <td>99.1%
    </td>
   </tr>
   <tr>
    <td>MMLU (CoT, 0-shot)
    </td>
-   <td>72.56
    </td>
-   <td>72.20
    </td>
-   <td>99.5%
    </td>
   </tr>
   <tr>
    <td>ARC Challenge (0-shot)
    </td>
-   <td>81.57
    </td>
-   <td>81.06
    </td>
-   <td>99.4%
    </td>
   </tr>
   <tr>
@@ -184,27 +184,27 @@ This version of the lm-evaluation-harness includes versions of MMLU, ARC-Challen
    </td>
    <td>82.79
    </td>
-   <td>81.96
    </td>
-   <td>99.0%
    </td>
   </tr>
   <tr>
    <td>Hellaswag (10-shot)
    </td>
-   <td>80.01
    </td>
-   <td>79.85
    </td>
-   <td>99.8%
    </td>
   </tr>
   <tr>
    <td>Winogrande (5-shot)
    </td>
-   <td>77.90
    </td>
-   <td>77.11
    </td>
    <td>99.0%
    </td>
@@ -212,21 +212,21 @@ This version of the lm-evaluation-harness includes versions of MMLU, ARC-Challen
   <tr>
    <td>TruthfulQA (0-shot, mc2)
    </td>
-   <td>54.04
    </td>
-   <td>54.19
    </td>
-   <td>100.3%
    </td>
   </tr>
   <tr>
    <td><strong>Average</strong>
    </td>
-   <td><strong>74.04</strong>
    </td>
-   <td><strong>73.59</strong>
    </td>
-   <td><strong>99.4%</strong>
    </td>
   </tr>
 </table>

 - **Model Developers:** Neural Magic
 Quantized version of [Meta-Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct).
+It achieves scores within 1.0% of the scores of the unquantized model for MMLU, ARC-Challenge, GSM-8k, Hellaswag, Winogrande and TruthfulQA.
 ### Model Optimizations
   <tr>
    <td>MMLU (5-shot)
    </td>
+   <td>68.32
    </td>
+   <td>67.83
    </td>
+   <td>99.3%
    </td>
   </tr>
   <tr>
    <td>MMLU (CoT, 0-shot)
    </td>
+   <td>72.83
    </td>
+   <td>72.18
    </td>
+   <td>99.1%
    </td>
   </tr>
   <tr>
    <td>ARC Challenge (0-shot)
    </td>
+   <td>81.40
    </td>
+   <td>81.66
    </td>
+   <td>100.3%
    </td>
   </tr>
   <tr>
    </td>
    <td>82.79
    </td>
+   <td>84.84
    </td>
+   <td>102.5%
    </td>
   </tr>
   <tr>
    <td>Hellaswag (10-shot)
    </td>
+   <td>80.47
    </td>
+   <td>79.96
    </td>
+   <td>99.4%
    </td>
   </tr>
   <tr>
    <td>Winogrande (5-shot)
    </td>
+   <td>78.06
    </td>
+   <td>77.27
    </td>
    <td>99.0%
    </td>
   <tr>
    <td>TruthfulQA (0-shot, mc2)
    </td>
+   <td>54.48
    </td>
+   <td>54.17
    </td>
+   <td>99.4%
    </td>
   </tr>
   <tr>
    <td><strong>Average</strong>
    </td>
+   <td><strong>74.05</strong>
    </td>
+   <td><strong>73.99</strong>
    </td>
+   <td><strong>99.9%</strong>
    </td>
   </tr>
 </table>