binwang commited on
Commit
b6e5026
·
1 Parent(s): 4ceaa06

update score

Browse files
Files changed (1) hide show
  1. all_results.json +158 -1
all_results.json CHANGED
@@ -10483,7 +10483,164 @@
10483
  },
10484
  "five_shot": {
10485
  "cross_mmlu": {
10486
- "prompt_1": -1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10487
  },
10488
  "cross_logiqa": {
10489
  "prompt_1": {
 
10483
  },
10484
  "five_shot": {
10485
  "cross_mmlu": {
10486
+ "prompt_1": {
10487
+ "overall_acc": 0.2552380952380952,
10488
+ "language_acc": {
10489
+ "Malay": 0.2,
10490
+ "English": 0.26,
10491
+ "Vietnamese": 0.32666666666666666,
10492
+ "Spanish": 0.28,
10493
+ "Indonesian": 0.24666666666666667,
10494
+ "Filipino": 0.25333333333333335,
10495
+ "Chinese": 0.22
10496
+ },
10497
+ "consistency_score_2": 0.25047619047619046,
10498
+ "consistency_score_3": 0.06457142857142857,
10499
+ "consistency_score_4": 0.015428571428571423,
10500
+ "consistency_score_5": 0.0028571428571428576,
10501
+ "consistency_score_6": 0.0,
10502
+ "consistency_score_7": 0.0,
10503
+ "detailed_consistency_score": {
10504
+ "2_combine": {
10505
+ "Malay,English": 0.26,
10506
+ "Malay,Vietnamese": 0.30666666666666664,
10507
+ "Malay,Spanish": 0.22666666666666666,
10508
+ "Malay,Indonesian": 0.26666666666666666,
10509
+ "Malay,Filipino": 0.24666666666666667,
10510
+ "Malay,Chinese": 0.2,
10511
+ "English,Vietnamese": 0.22666666666666666,
10512
+ "English,Spanish": 0.2733333333333333,
10513
+ "English,Indonesian": 0.3,
10514
+ "English,Filipino": 0.24,
10515
+ "English,Chinese": 0.23333333333333334,
10516
+ "Vietnamese,Spanish": 0.24,
10517
+ "Vietnamese,Indonesian": 0.21333333333333335,
10518
+ "Vietnamese,Filipino": 0.2866666666666667,
10519
+ "Vietnamese,Chinese": 0.28,
10520
+ "Spanish,Indonesian": 0.24666666666666667,
10521
+ "Spanish,Filipino": 0.29333333333333333,
10522
+ "Spanish,Chinese": 0.24,
10523
+ "Indonesian,Filipino": 0.22,
10524
+ "Indonesian,Chinese": 0.24,
10525
+ "Filipino,Chinese": 0.22
10526
+ },
10527
+ "3_combine": {
10528
+ "Malay,English,Vietnamese": 0.08,
10529
+ "Malay,English,Spanish": 0.07333333333333333,
10530
+ "Malay,English,Indonesian": 0.1,
10531
+ "Malay,English,Filipino": 0.08,
10532
+ "Malay,English,Chinese": 0.04,
10533
+ "Malay,Vietnamese,Spanish": 0.07333333333333333,
10534
+ "Malay,Vietnamese,Indonesian": 0.07333333333333333,
10535
+ "Malay,Vietnamese,Filipino": 0.07333333333333333,
10536
+ "Malay,Vietnamese,Chinese": 0.05333333333333334,
10537
+ "Malay,Spanish,Indonesian": 0.07333333333333333,
10538
+ "Malay,Spanish,Filipino": 0.07333333333333333,
10539
+ "Malay,Spanish,Chinese": 0.04666666666666667,
10540
+ "Malay,Indonesian,Filipino": 0.06666666666666667,
10541
+ "Malay,Indonesian,Chinese": 0.04,
10542
+ "Malay,Filipino,Chinese": 0.06,
10543
+ "English,Vietnamese,Spanish": 0.08,
10544
+ "English,Vietnamese,Indonesian": 0.06666666666666667,
10545
+ "English,Vietnamese,Filipino": 0.07333333333333333,
10546
+ "English,Vietnamese,Chinese": 0.04666666666666667,
10547
+ "English,Spanish,Indonesian": 0.08666666666666667,
10548
+ "English,Spanish,Filipino": 0.07333333333333333,
10549
+ "English,Spanish,Chinese": 0.06666666666666667,
10550
+ "English,Indonesian,Filipino": 0.05333333333333334,
10551
+ "English,Indonesian,Chinese": 0.06666666666666667,
10552
+ "English,Filipino,Chinese": 0.04666666666666667,
10553
+ "Vietnamese,Spanish,Indonesian": 0.06666666666666667,
10554
+ "Vietnamese,Spanish,Filipino": 0.07333333333333333,
10555
+ "Vietnamese,Spanish,Chinese": 0.06,
10556
+ "Vietnamese,Indonesian,Filipino": 0.04666666666666667,
10557
+ "Vietnamese,Indonesian,Chinese": 0.05333333333333334,
10558
+ "Vietnamese,Filipino,Chinese": 0.07333333333333333,
10559
+ "Spanish,Indonesian,Filipino": 0.06666666666666667,
10560
+ "Spanish,Indonesian,Chinese": 0.05333333333333334,
10561
+ "Spanish,Filipino,Chinese": 0.06,
10562
+ "Indonesian,Filipino,Chinese": 0.04
10563
+ },
10564
+ "4_combine": {
10565
+ "Malay,English,Vietnamese,Spanish": 0.03333333333333333,
10566
+ "Malay,English,Vietnamese,Indonesian": 0.02666666666666667,
10567
+ "Malay,English,Vietnamese,Filipino": 0.02,
10568
+ "Malay,English,Vietnamese,Chinese": 0.006666666666666667,
10569
+ "Malay,English,Spanish,Indonesian": 0.03333333333333333,
10570
+ "Malay,English,Spanish,Filipino": 0.02666666666666667,
10571
+ "Malay,English,Spanish,Chinese": 0.006666666666666667,
10572
+ "Malay,English,Indonesian,Filipino": 0.02,
10573
+ "Malay,English,Indonesian,Chinese": 0.02,
10574
+ "Malay,English,Filipino,Chinese": 0.006666666666666667,
10575
+ "Malay,Vietnamese,Spanish,Indonesian": 0.02,
10576
+ "Malay,Vietnamese,Spanish,Filipino": 0.02,
10577
+ "Malay,Vietnamese,Spanish,Chinese": 0.013333333333333334,
10578
+ "Malay,Vietnamese,Indonesian,Filipino": 0.013333333333333334,
10579
+ "Malay,Vietnamese,Indonesian,Chinese": 0.013333333333333334,
10580
+ "Malay,Vietnamese,Filipino,Chinese": 0.006666666666666667,
10581
+ "Malay,Spanish,Indonesian,Filipino": 0.013333333333333334,
10582
+ "Malay,Spanish,Indonesian,Chinese": 0.006666666666666667,
10583
+ "Malay,Spanish,Filipino,Chinese": 0.013333333333333334,
10584
+ "Malay,Indonesian,Filipino,Chinese": 0.02,
10585
+ "English,Vietnamese,Spanish,Indonesian": 0.02666666666666667,
10586
+ "English,Vietnamese,Spanish,Filipino": 0.02,
10587
+ "English,Vietnamese,Spanish,Chinese": 0.006666666666666667,
10588
+ "English,Vietnamese,Indonesian,Filipino": 0.02,
10589
+ "English,Vietnamese,Indonesian,Chinese": 0.0,
10590
+ "English,Vietnamese,Filipino,Chinese": 0.02,
10591
+ "English,Spanish,Indonesian,Filipino": 0.013333333333333334,
10592
+ "English,Spanish,Indonesian,Chinese": 0.02,
10593
+ "English,Spanish,Filipino,Chinese": 0.02,
10594
+ "English,Indonesian,Filipino,Chinese": 0.006666666666666667,
10595
+ "Vietnamese,Spanish,Indonesian,Filipino": 0.013333333333333334,
10596
+ "Vietnamese,Spanish,Indonesian,Chinese": 0.013333333333333334,
10597
+ "Vietnamese,Spanish,Filipino,Chinese": 0.013333333333333334,
10598
+ "Vietnamese,Indonesian,Filipino,Chinese": 0.006666666666666667,
10599
+ "Spanish,Indonesian,Filipino,Chinese": 0.0
10600
+ },
10601
+ "5_combine": {
10602
+ "Malay,English,Vietnamese,Spanish,Indonesian": 0.013333333333333334,
10603
+ "Malay,English,Vietnamese,Spanish,Filipino": 0.006666666666666667,
10604
+ "Malay,English,Vietnamese,Spanish,Chinese": 0.0,
10605
+ "Malay,English,Vietnamese,Indonesian,Filipino": 0.0,
10606
+ "Malay,English,Vietnamese,Indonesian,Chinese": 0.0,
10607
+ "Malay,English,Vietnamese,Filipino,Chinese": 0.0,
10608
+ "Malay,English,Spanish,Indonesian,Filipino": 0.006666666666666667,
10609
+ "Malay,English,Spanish,Indonesian,Chinese": 0.006666666666666667,
10610
+ "Malay,English,Spanish,Filipino,Chinese": 0.0,
10611
+ "Malay,English,Indonesian,Filipino,Chinese": 0.006666666666666667,
10612
+ "Malay,Vietnamese,Spanish,Indonesian,Filipino": 0.0,
10613
+ "Malay,Vietnamese,Spanish,Indonesian,Chinese": 0.0,
10614
+ "Malay,Vietnamese,Spanish,Filipino,Chinese": 0.0,
10615
+ "Malay,Vietnamese,Indonesian,Filipino,Chinese": 0.006666666666666667,
10616
+ "Malay,Spanish,Indonesian,Filipino,Chinese": 0.0,
10617
+ "English,Vietnamese,Spanish,Indonesian,Filipino": 0.006666666666666667,
10618
+ "English,Vietnamese,Spanish,Indonesian,Chinese": 0.0,
10619
+ "English,Vietnamese,Spanish,Filipino,Chinese": 0.006666666666666667,
10620
+ "English,Vietnamese,Indonesian,Filipino,Chinese": 0.0,
10621
+ "English,Spanish,Indonesian,Filipino,Chinese": 0.0,
10622
+ "Vietnamese,Spanish,Indonesian,Filipino,Chinese": 0.0
10623
+ },
10624
+ "6_combine": {
10625
+ "Malay,English,Vietnamese,Spanish,Indonesian,Filipino": 0.0,
10626
+ "Malay,English,Vietnamese,Spanish,Indonesian,Chinese": 0.0,
10627
+ "Malay,English,Vietnamese,Spanish,Filipino,Chinese": 0.0,
10628
+ "Malay,English,Vietnamese,Indonesian,Filipino,Chinese": 0.0,
10629
+ "Malay,English,Spanish,Indonesian,Filipino,Chinese": 0.0,
10630
+ "Malay,Vietnamese,Spanish,Indonesian,Filipino,Chinese": 0.0,
10631
+ "English,Vietnamese,Spanish,Indonesian,Filipino,Chinese": 0.0
10632
+ },
10633
+ "7_combine": {
10634
+ "Malay,English,Vietnamese,Spanish,Indonesian,Filipino,Chinese": 0.0
10635
+ }
10636
+ },
10637
+ "AC3_2": 0.25283472329320233,
10638
+ "AC3_3": 0.10306815277982001,
10639
+ "AC3_4": 0.0290982205582652,
10640
+ "AC3_5": 0.005651027936661305,
10641
+ "AC3_6": 0.0,
10642
+ "AC3_7": 0.0
10643
+ }
10644
  },
10645
  "cross_logiqa": {
10646
  "prompt_1": {