cstr
/

llama3.1-8b-spaetzle-v51

@@ -10,7 +10,7 @@ language:
 - de
 ---
-# llama3-8b-spaetzle-v51
 This is only a quick test in merging 3 and 3.1 llamas despite a number of differences in tokenizer setup i.a., also motivated by ongoing problems with BOS, looping, etc, with 3.1, esp. with llama.cpp, missing full RoPE scaling yet, etc. Performance is yet not satisfactory of course, which might have a number of causes.
@@ -19,12 +19,12 @@ This is only a quick test in merging 3 and 3.1 llamas despite a number of differ
 |                                   Model                                    | AGIEval | TruthfulQA | Bigbench |
 |----------------------------------------------------------------------------|--------:|-----------:|---------:|
-| [llama3-8b-spaetzle-v51](https://huggingface.co/cstr/llama3-8b-spaetzle-v51)|   42.23 |      57.29 |    44.3 |
 | [llama3-8b-spaetzle-v39](https://huggingface.co/cstr/llama3-8b-spaetzle-v39)|   43.43 |       60.0 |   45.89 |
 ### AGIEval Results
-|             Task             | llama3-8b-spaetzle-v51 | llama3-8b-spaetzle-v39 |
 |------------------------------|-----------------------:|-----------------------:|
 | agieval_aqua_rat             |                   27.95|                   24.41|
 | agieval_logiqa_en            |                   38.10|                   37.94|
@@ -38,7 +38,7 @@ This is only a quick test in merging 3 and 3.1 llamas despite a number of differ
 ### TruthfulQA Results
-|    Task     | llama3-8b-spaetzle-v51 | llama3-8b-spaetzle-v39 |
 |-------------|-----------------------:|-----------------------:|
 | mc1         |                   38.07|                   43.82|
 | mc2         |                   57.29|                   60.00|
@@ -46,7 +46,7 @@ This is only a quick test in merging 3 and 3.1 llamas despite a number of differ
 ### Bigbench Results
-|                      Task                      | llama3-8b-spaetzle-v51 | llama3-8b-spaetzle-v39 |
 |------------------------------------------------|-----------------------:|-----------------------:|
 | bigbench_causal_judgement                      |                   56.32|                   59.47|
 | bigbench_date_understanding                    |                   69.65|                   70.73|

 - de
 ---
+# llama3.1-8b-spaetzle-v51
 This is only a quick test in merging 3 and 3.1 llamas despite a number of differences in tokenizer setup i.a., also motivated by ongoing problems with BOS, looping, etc, with 3.1, esp. with llama.cpp, missing full RoPE scaling yet, etc. Performance is yet not satisfactory of course, which might have a number of causes.
 |                                   Model                                    | AGIEval | TruthfulQA | Bigbench |
 |----------------------------------------------------------------------------|--------:|-----------:|---------:|
+| [llama3.1-8b-spaetzle-v51](https://huggingface.co/cstr/llama3-8b-spaetzle-v51)|   42.23 |      57.29 |    44.3 |
 | [llama3-8b-spaetzle-v39](https://huggingface.co/cstr/llama3-8b-spaetzle-v39)|   43.43 |       60.0 |   45.89 |
 ### AGIEval Results
+|             Task             | llama3.1-8b-spaetzle-v51 | llama3-8b-spaetzle-v39 |
 |------------------------------|-----------------------:|-----------------------:|
 | agieval_aqua_rat             |                   27.95|                   24.41|
 | agieval_logiqa_en            |                   38.10|                   37.94|
 ### TruthfulQA Results
+|    Task     | llama3.1-8b-spaetzle-v51 | llama3-8b-spaetzle-v39 |
 |-------------|-----------------------:|-----------------------:|
 | mc1         |                   38.07|                   43.82|
 | mc2         |                   57.29|                   60.00|
 ### Bigbench Results
+|                      Task                      | llama3.1-8b-spaetzle-v51 | llama3-8b-spaetzle-v39 |
 |------------------------------------------------|-----------------------:|-----------------------:|
 | bigbench_causal_judgement                      |                   56.32|                   59.47|
 | bigbench_date_understanding                    |                   69.65|                   70.73|