FuseAI
/

FuseChat-Llama-3.1-8B-Instruct

Model card Files Files and versions Community

AALF commited on Nov 21, 2024

Commit

943b2c3

·

verified ·

1 Parent(s): 11c28ac

Update README.md

Files changed (1) hide show

README.md +0 -18

README.md CHANGED Viewed

@@ -50,21 +50,3 @@ seed: 42
 warmup_ratio: 0.1
 save_only_model: true
 ```
-## Evaluation Results
-| Datasets                        | Llama3.1-8B-Instruct | FuseChat-Llama-3.1-8B-SFT | FuseChat-Llama-3.1-8B-Instruct |
-|---------------------------------|----------------------|---------------------------|--------------------------------|
-| AlpacaEval-2 (LC/WR)            | 28.3/28.7             | 41.3/37.7                  | 65.4/63.3                       |
-| Arena-Hard (WR/SC)              | 28.1/23.8             | 38.7/29                    | 58.2/46.4                       |
-| MT-Bench                        | 8.38                  | 8.54                       | 9                              |
-| AlignBench v1.1                 | 4.61                  | 6.25                       | 6.69                           |
-| LiveBench 0831                  | 27.6                  | 30.2                       | 32                             |
-| GSM8K                           | 85.9                  | 87                         | 88                             |
-| MATH                            | 50.7                  | 54.7                       | 55.2                           |
-| AMC 23                          | 25                    | 30                         | 37.5                           |
-| MMLU-Pro                        | 50                    | 47.8                       | 49.2                           |
-| MMLU-redux                      | 67.2                  | 68.4                       | 69.2                           |
-| GPQA-Diamond                    | 33.8                  | 37.9                       | 34.9                           |
-| HumanEval                       | 69.5                  | 69.5                       | 71.3                           |
-| MBPP                            | 75.4                  | 71.4                       | 72                             |
-| LiveCodeBench 2408-2411 (all/esay) | 12.3/40.5          | 12.6/39                    | 13.1/43.2                       |

 warmup_ratio: 0.1
 save_only_model: true
 ```