lighteternal
/

Llama3-merge-biomed-8b

@@ -24,20 +24,19 @@ I recommend using the prompt template of Llama3: https://llama.meta.com/docs/mod
 | Task                                 | Metric                   | Ours (%) | Llama38BInstr. (%) |OpenBioLLM8B (%) |
 |--------------------------------------|--------------------------|------------------|------------|-------------|
-| **ARC Challenge**                    | Accuracy                 | 59.39            | 57.17      | 55.38       |
-|                                      | Normalized Accuracy      | 63.65            | 60.75      | 58.62       |
-| **Hellaswag**                        | Accuracy                 | 62.59            | 59.04      | 61.83       |
-|                                      | Normalized Accuracy      | 81.53            | 78.55      | 80.76       |
-| **Winogrande**                       | Accuracy                 | 75.93            | 74.51      | 70.88       |
-| **GSM8K**                            | Accuracy                 | 59.36            | 68.69      | 10.16       |
-| **HendrycksTest-Average**            | Accuracy                 | 67.85            | 67.07      | 64.40       |
-|                                      | Normalized Accuracy      | 67.85            | 67.07      | 64.40       |
-| **HendrycksTest-Anatomy**            | Accuracy                 | 72.59            | 65.19      | 56.30       |
-| **HendrycksTest-Clinical Knowledge** | Accuracy                 | 77.83            | 74.72      | 60.38       |
-| **HendrycksTest-College Biology**    | Accuracy                 | 79.86            | 79.86      | 79.86       |
-| **HendrycksTest-College Medicine**   | Accuracy                 | 70.81            | 63.58      | 62.28       |
-| **HendrycksTest-Medical Genetics**   | Accuracy                 | 84.00            | 80.00      | 76.00       |
-| **HendrycksTest-Professional Medicine** | Accuracy              | 71.69            | 71.69      | 69.41       |
 This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).

 | Task                                 | Metric                   | Ours (%) | Llama38BInstr. (%) |OpenBioLLM8B (%) |
 |--------------------------------------|--------------------------|------------------|------------|-------------|
+| **ARC Challenge**                    | Accuracy                 | **59.39**            | 57.17      | 55.38       |
+|                                      | Normalized Accuracy      | **63.65**            | 60.75      | 58.62       |
+| **Hellaswag**                        | Accuracy                 | **62.59**           | 59.04      | 61.83       |
+|                                      | Normalized Accuracy      | **81.53**            | 78.55      | 80.76       |
+| **Winogrande**                       | Accuracy                 | **75.93**            | 74.51      | 70.88       |
+| **GSM8K**                            | Accuracy                 | 59.36            | **68.69**      | 10.15       |
+| **HendrycksTest-Anatomy**            | Accuracy                 | **72.59**            | 65.19      | 69.62       |
+| **HendrycksTest-Clinical Knowledge** | Accuracy                 | **77.83**            | 74.72      | 60.38       |
+| **HendrycksTest-College Biology**    | Accuracy                 | **81.94**            | 79.86      | 79.86       |
+| **HendrycksTest-College Medicine**   | Accuracy                 | **69.36**            | 63.58      | 70.52       |
+| **HendrycksTest-Medical Genetics**   | Accuracy                 | **86.00**            | 80.00      | 80.00       |
+| **HendrycksTest-Professional Medicine** | Accuracy              | **77.94**            | 71.69      | 77.94      |
 This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).