Spaces:
Running
Running
update score
Browse files- all_results.json +158 -1
all_results.json
CHANGED
@@ -10483,7 +10483,164 @@
|
|
10483 |
},
|
10484 |
"five_shot": {
|
10485 |
"cross_mmlu": {
|
10486 |
-
"prompt_1":
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10487 |
},
|
10488 |
"cross_logiqa": {
|
10489 |
"prompt_1": {
|
|
|
10483 |
},
|
10484 |
"five_shot": {
|
10485 |
"cross_mmlu": {
|
10486 |
+
"prompt_1": {
|
10487 |
+
"overall_acc": 0.2552380952380952,
|
10488 |
+
"language_acc": {
|
10489 |
+
"Malay": 0.2,
|
10490 |
+
"English": 0.26,
|
10491 |
+
"Vietnamese": 0.32666666666666666,
|
10492 |
+
"Spanish": 0.28,
|
10493 |
+
"Indonesian": 0.24666666666666667,
|
10494 |
+
"Filipino": 0.25333333333333335,
|
10495 |
+
"Chinese": 0.22
|
10496 |
+
},
|
10497 |
+
"consistency_score_2": 0.25047619047619046,
|
10498 |
+
"consistency_score_3": 0.06457142857142857,
|
10499 |
+
"consistency_score_4": 0.015428571428571423,
|
10500 |
+
"consistency_score_5": 0.0028571428571428576,
|
10501 |
+
"consistency_score_6": 0.0,
|
10502 |
+
"consistency_score_7": 0.0,
|
10503 |
+
"detailed_consistency_score": {
|
10504 |
+
"2_combine": {
|
10505 |
+
"Malay,English": 0.26,
|
10506 |
+
"Malay,Vietnamese": 0.30666666666666664,
|
10507 |
+
"Malay,Spanish": 0.22666666666666666,
|
10508 |
+
"Malay,Indonesian": 0.26666666666666666,
|
10509 |
+
"Malay,Filipino": 0.24666666666666667,
|
10510 |
+
"Malay,Chinese": 0.2,
|
10511 |
+
"English,Vietnamese": 0.22666666666666666,
|
10512 |
+
"English,Spanish": 0.2733333333333333,
|
10513 |
+
"English,Indonesian": 0.3,
|
10514 |
+
"English,Filipino": 0.24,
|
10515 |
+
"English,Chinese": 0.23333333333333334,
|
10516 |
+
"Vietnamese,Spanish": 0.24,
|
10517 |
+
"Vietnamese,Indonesian": 0.21333333333333335,
|
10518 |
+
"Vietnamese,Filipino": 0.2866666666666667,
|
10519 |
+
"Vietnamese,Chinese": 0.28,
|
10520 |
+
"Spanish,Indonesian": 0.24666666666666667,
|
10521 |
+
"Spanish,Filipino": 0.29333333333333333,
|
10522 |
+
"Spanish,Chinese": 0.24,
|
10523 |
+
"Indonesian,Filipino": 0.22,
|
10524 |
+
"Indonesian,Chinese": 0.24,
|
10525 |
+
"Filipino,Chinese": 0.22
|
10526 |
+
},
|
10527 |
+
"3_combine": {
|
10528 |
+
"Malay,English,Vietnamese": 0.08,
|
10529 |
+
"Malay,English,Spanish": 0.07333333333333333,
|
10530 |
+
"Malay,English,Indonesian": 0.1,
|
10531 |
+
"Malay,English,Filipino": 0.08,
|
10532 |
+
"Malay,English,Chinese": 0.04,
|
10533 |
+
"Malay,Vietnamese,Spanish": 0.07333333333333333,
|
10534 |
+
"Malay,Vietnamese,Indonesian": 0.07333333333333333,
|
10535 |
+
"Malay,Vietnamese,Filipino": 0.07333333333333333,
|
10536 |
+
"Malay,Vietnamese,Chinese": 0.05333333333333334,
|
10537 |
+
"Malay,Spanish,Indonesian": 0.07333333333333333,
|
10538 |
+
"Malay,Spanish,Filipino": 0.07333333333333333,
|
10539 |
+
"Malay,Spanish,Chinese": 0.04666666666666667,
|
10540 |
+
"Malay,Indonesian,Filipino": 0.06666666666666667,
|
10541 |
+
"Malay,Indonesian,Chinese": 0.04,
|
10542 |
+
"Malay,Filipino,Chinese": 0.06,
|
10543 |
+
"English,Vietnamese,Spanish": 0.08,
|
10544 |
+
"English,Vietnamese,Indonesian": 0.06666666666666667,
|
10545 |
+
"English,Vietnamese,Filipino": 0.07333333333333333,
|
10546 |
+
"English,Vietnamese,Chinese": 0.04666666666666667,
|
10547 |
+
"English,Spanish,Indonesian": 0.08666666666666667,
|
10548 |
+
"English,Spanish,Filipino": 0.07333333333333333,
|
10549 |
+
"English,Spanish,Chinese": 0.06666666666666667,
|
10550 |
+
"English,Indonesian,Filipino": 0.05333333333333334,
|
10551 |
+
"English,Indonesian,Chinese": 0.06666666666666667,
|
10552 |
+
"English,Filipino,Chinese": 0.04666666666666667,
|
10553 |
+
"Vietnamese,Spanish,Indonesian": 0.06666666666666667,
|
10554 |
+
"Vietnamese,Spanish,Filipino": 0.07333333333333333,
|
10555 |
+
"Vietnamese,Spanish,Chinese": 0.06,
|
10556 |
+
"Vietnamese,Indonesian,Filipino": 0.04666666666666667,
|
10557 |
+
"Vietnamese,Indonesian,Chinese": 0.05333333333333334,
|
10558 |
+
"Vietnamese,Filipino,Chinese": 0.07333333333333333,
|
10559 |
+
"Spanish,Indonesian,Filipino": 0.06666666666666667,
|
10560 |
+
"Spanish,Indonesian,Chinese": 0.05333333333333334,
|
10561 |
+
"Spanish,Filipino,Chinese": 0.06,
|
10562 |
+
"Indonesian,Filipino,Chinese": 0.04
|
10563 |
+
},
|
10564 |
+
"4_combine": {
|
10565 |
+
"Malay,English,Vietnamese,Spanish": 0.03333333333333333,
|
10566 |
+
"Malay,English,Vietnamese,Indonesian": 0.02666666666666667,
|
10567 |
+
"Malay,English,Vietnamese,Filipino": 0.02,
|
10568 |
+
"Malay,English,Vietnamese,Chinese": 0.006666666666666667,
|
10569 |
+
"Malay,English,Spanish,Indonesian": 0.03333333333333333,
|
10570 |
+
"Malay,English,Spanish,Filipino": 0.02666666666666667,
|
10571 |
+
"Malay,English,Spanish,Chinese": 0.006666666666666667,
|
10572 |
+
"Malay,English,Indonesian,Filipino": 0.02,
|
10573 |
+
"Malay,English,Indonesian,Chinese": 0.02,
|
10574 |
+
"Malay,English,Filipino,Chinese": 0.006666666666666667,
|
10575 |
+
"Malay,Vietnamese,Spanish,Indonesian": 0.02,
|
10576 |
+
"Malay,Vietnamese,Spanish,Filipino": 0.02,
|
10577 |
+
"Malay,Vietnamese,Spanish,Chinese": 0.013333333333333334,
|
10578 |
+
"Malay,Vietnamese,Indonesian,Filipino": 0.013333333333333334,
|
10579 |
+
"Malay,Vietnamese,Indonesian,Chinese": 0.013333333333333334,
|
10580 |
+
"Malay,Vietnamese,Filipino,Chinese": 0.006666666666666667,
|
10581 |
+
"Malay,Spanish,Indonesian,Filipino": 0.013333333333333334,
|
10582 |
+
"Malay,Spanish,Indonesian,Chinese": 0.006666666666666667,
|
10583 |
+
"Malay,Spanish,Filipino,Chinese": 0.013333333333333334,
|
10584 |
+
"Malay,Indonesian,Filipino,Chinese": 0.02,
|
10585 |
+
"English,Vietnamese,Spanish,Indonesian": 0.02666666666666667,
|
10586 |
+
"English,Vietnamese,Spanish,Filipino": 0.02,
|
10587 |
+
"English,Vietnamese,Spanish,Chinese": 0.006666666666666667,
|
10588 |
+
"English,Vietnamese,Indonesian,Filipino": 0.02,
|
10589 |
+
"English,Vietnamese,Indonesian,Chinese": 0.0,
|
10590 |
+
"English,Vietnamese,Filipino,Chinese": 0.02,
|
10591 |
+
"English,Spanish,Indonesian,Filipino": 0.013333333333333334,
|
10592 |
+
"English,Spanish,Indonesian,Chinese": 0.02,
|
10593 |
+
"English,Spanish,Filipino,Chinese": 0.02,
|
10594 |
+
"English,Indonesian,Filipino,Chinese": 0.006666666666666667,
|
10595 |
+
"Vietnamese,Spanish,Indonesian,Filipino": 0.013333333333333334,
|
10596 |
+
"Vietnamese,Spanish,Indonesian,Chinese": 0.013333333333333334,
|
10597 |
+
"Vietnamese,Spanish,Filipino,Chinese": 0.013333333333333334,
|
10598 |
+
"Vietnamese,Indonesian,Filipino,Chinese": 0.006666666666666667,
|
10599 |
+
"Spanish,Indonesian,Filipino,Chinese": 0.0
|
10600 |
+
},
|
10601 |
+
"5_combine": {
|
10602 |
+
"Malay,English,Vietnamese,Spanish,Indonesian": 0.013333333333333334,
|
10603 |
+
"Malay,English,Vietnamese,Spanish,Filipino": 0.006666666666666667,
|
10604 |
+
"Malay,English,Vietnamese,Spanish,Chinese": 0.0,
|
10605 |
+
"Malay,English,Vietnamese,Indonesian,Filipino": 0.0,
|
10606 |
+
"Malay,English,Vietnamese,Indonesian,Chinese": 0.0,
|
10607 |
+
"Malay,English,Vietnamese,Filipino,Chinese": 0.0,
|
10608 |
+
"Malay,English,Spanish,Indonesian,Filipino": 0.006666666666666667,
|
10609 |
+
"Malay,English,Spanish,Indonesian,Chinese": 0.006666666666666667,
|
10610 |
+
"Malay,English,Spanish,Filipino,Chinese": 0.0,
|
10611 |
+
"Malay,English,Indonesian,Filipino,Chinese": 0.006666666666666667,
|
10612 |
+
"Malay,Vietnamese,Spanish,Indonesian,Filipino": 0.0,
|
10613 |
+
"Malay,Vietnamese,Spanish,Indonesian,Chinese": 0.0,
|
10614 |
+
"Malay,Vietnamese,Spanish,Filipino,Chinese": 0.0,
|
10615 |
+
"Malay,Vietnamese,Indonesian,Filipino,Chinese": 0.006666666666666667,
|
10616 |
+
"Malay,Spanish,Indonesian,Filipino,Chinese": 0.0,
|
10617 |
+
"English,Vietnamese,Spanish,Indonesian,Filipino": 0.006666666666666667,
|
10618 |
+
"English,Vietnamese,Spanish,Indonesian,Chinese": 0.0,
|
10619 |
+
"English,Vietnamese,Spanish,Filipino,Chinese": 0.006666666666666667,
|
10620 |
+
"English,Vietnamese,Indonesian,Filipino,Chinese": 0.0,
|
10621 |
+
"English,Spanish,Indonesian,Filipino,Chinese": 0.0,
|
10622 |
+
"Vietnamese,Spanish,Indonesian,Filipino,Chinese": 0.0
|
10623 |
+
},
|
10624 |
+
"6_combine": {
|
10625 |
+
"Malay,English,Vietnamese,Spanish,Indonesian,Filipino": 0.0,
|
10626 |
+
"Malay,English,Vietnamese,Spanish,Indonesian,Chinese": 0.0,
|
10627 |
+
"Malay,English,Vietnamese,Spanish,Filipino,Chinese": 0.0,
|
10628 |
+
"Malay,English,Vietnamese,Indonesian,Filipino,Chinese": 0.0,
|
10629 |
+
"Malay,English,Spanish,Indonesian,Filipino,Chinese": 0.0,
|
10630 |
+
"Malay,Vietnamese,Spanish,Indonesian,Filipino,Chinese": 0.0,
|
10631 |
+
"English,Vietnamese,Spanish,Indonesian,Filipino,Chinese": 0.0
|
10632 |
+
},
|
10633 |
+
"7_combine": {
|
10634 |
+
"Malay,English,Vietnamese,Spanish,Indonesian,Filipino,Chinese": 0.0
|
10635 |
+
}
|
10636 |
+
},
|
10637 |
+
"AC3_2": 0.25283472329320233,
|
10638 |
+
"AC3_3": 0.10306815277982001,
|
10639 |
+
"AC3_4": 0.0290982205582652,
|
10640 |
+
"AC3_5": 0.005651027936661305,
|
10641 |
+
"AC3_6": 0.0,
|
10642 |
+
"AC3_7": 0.0
|
10643 |
+
}
|
10644 |
},
|
10645 |
"cross_logiqa": {
|
10646 |
"prompt_1": {
|