Spaces:

MERaLiON
/

SeaEval_Leaderboard

Running

App Files Files Community

zhuohan-7 commited on Sep 3, 2024

Commit

90da191

verified ·

1 Parent(s): c7ff547

Upload folder using huggingface_hub

Browse files

Files changed (42) hide show

results/cultural_reasoning/few_shot/cn_eval.csv +0 -4
results/cultural_reasoning/few_shot/ph_eval.csv +0 -4
results/cultural_reasoning/few_shot/sg_eval_v2_open.csv +1 -0
results/cultural_reasoning/few_shot/us_eval.csv +0 -4
results/cultural_reasoning/zero_shot/cn_eval.csv +6 -9
results/cultural_reasoning/zero_shot/ph_eval.csv +5 -8
results/cultural_reasoning/zero_shot/sg_eval_v2_open.csv +3 -0
results/cultural_reasoning/zero_shot/us_eval.csv +5 -8
results/dialogue/few_shot/dream.csv +0 -4
results/dialogue/zero_shot/dream.csv +3 -8
results/emotion/few_shot/ind_emotion.csv +0 -4
results/emotion/few_shot/sst2.csv +0 -4
results/emotion/zero_shot/ind_emotion.csv +3 -8
results/emotion/zero_shot/sst2.csv +3 -8
results/fundamental_nlp_tasks/few_shot/c3.csv +0 -4
results/fundamental_nlp_tasks/few_shot/cola.csv +0 -4
results/fundamental_nlp_tasks/few_shot/mnli.csv +0 -4
results/fundamental_nlp_tasks/few_shot/mrpc.csv +0 -4
results/fundamental_nlp_tasks/few_shot/ocnli.csv +0 -4
results/fundamental_nlp_tasks/few_shot/qnli.csv +0 -4
results/fundamental_nlp_tasks/few_shot/qqp.csv +0 -4
results/fundamental_nlp_tasks/few_shot/rte.csv +0 -4
results/fundamental_nlp_tasks/few_shot/wnli.csv +0 -4
results/fundamental_nlp_tasks/zero_shot/c3.csv +3 -8
results/fundamental_nlp_tasks/zero_shot/cola.csv +3 -8
results/fundamental_nlp_tasks/zero_shot/mnli.csv +3 -8
results/fundamental_nlp_tasks/zero_shot/mrpc.csv +1 -7
results/fundamental_nlp_tasks/zero_shot/ocnli.csv +3 -8
results/fundamental_nlp_tasks/zero_shot/qnli.csv +2 -8
results/fundamental_nlp_tasks/zero_shot/qqp.csv +3 -8
results/fundamental_nlp_tasks/zero_shot/rte.csv +2 -8
results/fundamental_nlp_tasks/zero_shot/wnli.csv +2 -8
results/general_reasoning/few_shot/c_eval.csv +0 -4
results/general_reasoning/few_shot/cmmlu.csv +0 -4
results/general_reasoning/few_shot/indommlu.csv +0 -4
results/general_reasoning/few_shot/mmlu.csv +0 -4
results/general_reasoning/few_shot/zbench.csv +0 -4
results/general_reasoning/zero_shot/c_eval.csv +6 -9
results/general_reasoning/zero_shot/cmmlu.csv +6 -9
results/general_reasoning/zero_shot/indommlu.csv +3 -8
results/general_reasoning/zero_shot/mmlu.csv +6 -9
results/general_reasoning/zero_shot/zbench.csv +4 -8

results/cultural_reasoning/few_shot/cn_eval.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.6
-Meta-Llama-3-8B,0.41904761904761906
-llama3-8b-cpt-sea-lionv2-base,0.4095238095238095
-Meta-Llama-3.1-8B,0.4857142857142857


1	Model,Accuracy

results/cultural_reasoning/few_shot/ph_eval.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.68
-Meta-Llama-3-8B,0.54
-llama3-8b-cpt-sea-lionv2-base,0.52
-Meta-Llama-3.1-8B,0.51


1	Model,Accuracy

results/cultural_reasoning/few_shot/sg_eval_v2_open.csv ADDED Viewed

	@@ -0,0 +1 @@


1	+ Model,Accuracy

results/cultural_reasoning/few_shot/us_eval.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.8785046728971962
-Meta-Llama-3-8B,0.6915887850467289
-llama3-8b-cpt-sea-lionv2-base,0.719626168224299
-Meta-Llama-3.1-8B,0.6728971962616822


1	Model,Accuracy

results/cultural_reasoning/zero_shot/cn_eval.csv CHANGED Viewed

@@ -1,10 +1,7 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.8095238095238095
-Meta-Llama-3.1-8B-Instruct,0.42857142857142855
-Qwen2-72B-Instruct,0.8571428571428571
-Meta-Llama-3-8B-Instruct,0.37142857142857144
-SeaLLMs-v3-7B-Chat,0.8095238095238095
-gemma-2-9b-it,0.6190476190476191
-Meta-Llama-3-70B-Instruct,0.5142857142857142
-gemma-2-2b-it,0.4095238095238095
-llama3-8b-cpt-sea-lionv2-instruct,0.47619047619047616

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.4857142857142857
+Meta-Llama-3.1-70B-Instruct,0.5428571428571428
+gemma-2-9b-it,0.580952380952381
+Meta-Llama-3-70B-Instruct,0.5333333333333333
+sg_llama3_70b_inst,0.5523809523809524
+GPT4o_0513,0.8095238095238095

results/cultural_reasoning/zero_shot/ph_eval.csv CHANGED Viewed

@@ -1,10 +1,7 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.51
-Meta-Llama-3.1-8B-Instruct,0.56
-Qwen2-72B-Instruct,0.63
-Meta-Llama-3-8B-Instruct,0.54
-SeaLLMs-v3-7B-Chat,0.5
-gemma-2-9b-it,0.61
 Meta-Llama-3-70B-Instruct,0.63
-gemma-2-2b-it,0.39
-llama3-8b-cpt-sea-lionv2-instruct,0.53

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.6
+Meta-Llama-3.1-70B-Instruct,0.68
+gemma-2-9b-it,0.58
 Meta-Llama-3-70B-Instruct,0.63
+sg_llama3_70b_inst,0.69
+GPT4o_0513,0.77

results/cultural_reasoning/zero_shot/sg_eval_v2_open.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+Model,Accuracy
+Meta-Llama-3-70B-Instruct,50.599999999999994
+sg_llama3_70b_inst,51.959999999999994

results/cultural_reasoning/zero_shot/us_eval.csv CHANGED Viewed

@@ -1,10 +1,7 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.719626168224299
-Meta-Llama-3.1-8B-Instruct,0.6448598130841121
-Qwen2-72B-Instruct,0.8504672897196262
-Meta-Llama-3-8B-Instruct,0.6448598130841121
-SeaLLMs-v3-7B-Chat,0.7009345794392523
-gemma-2-9b-it,0.8317757009345794
 Meta-Llama-3-70B-Instruct,0.8691588785046729
-gemma-2-2b-it,0.7102803738317757
-llama3-8b-cpt-sea-lionv2-instruct,0.6542056074766355

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.7289719626168224
+Meta-Llama-3.1-70B-Instruct,0.8411214953271028
+gemma-2-9b-it,0.8130841121495327
 Meta-Llama-3-70B-Instruct,0.8691588785046729
+sg_llama3_70b_inst,0.8598130841121495
+GPT4o_0513,0.8691588785046729

results/dialogue/few_shot/dream.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.9510044096031357
-Meta-Llama-3-8B,0.8250857422831945
-llama3-8b-cpt-sea-lionv2-base,0.8515433610975012
-Meta-Llama-3.1-8B,0.8530132288094071


1	Model,Accuracy

results/dialogue/zero_shot/dream.csv CHANGED Viewed

@@ -1,10 +1,5 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.9338559529642332
-Meta-Llama-3.1-8B-Instruct,0.8858402743753062
-Qwen2-72B-Instruct,0.9603135717785399
-Meta-Llama-3-8B-Instruct,0.5433610975012249
-SeaLLMs-v3-7B-Chat,0.9211170994610485
-gemma-2-9b-it,0.9397354238118569
 Meta-Llama-3-70B-Instruct,0.9480646741793238
-gemma-2-2b-it,0.8486036256736894
-llama3-8b-cpt-sea-lionv2-instruct,0.7555120039196472

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.9039686428221461
 Meta-Llama-3-70B-Instruct,0.9480646741793238
+sg_llama3_70b_inst,0.9524742773150416
+GPT4o_0513,0.9583537481626654

results/emotion/few_shot/ind_emotion.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.7159090909090909
-Meta-Llama-3-8B,0.4636363636363636
-llama3-8b-cpt-sea-lionv2-base,0.525
-Meta-Llama-3.1-8B,0.5136363636363637


1	Model,Accuracy

results/emotion/few_shot/sst2.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.9002293577981652
-Meta-Llama-3-8B,0.6697247706422018
-llama3-8b-cpt-sea-lionv2-base,0.75
-Meta-Llama-3.1-8B,0.8405963302752294


1	Model,Accuracy

results/emotion/zero_shot/ind_emotion.csv CHANGED Viewed

@@ -1,10 +1,5 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.6386363636363637
-Meta-Llama-3.1-8B-Instruct,0.6295454545454545
-Qwen2-72B-Instruct,0.675
-Meta-Llama-3-8B-Instruct,0.6522727272727272
-SeaLLMs-v3-7B-Chat,0.34545454545454546
-gemma-2-9b-it,0.7431818181818182
 Meta-Llama-3-70B-Instruct,0.6909090909090909
-gemma-2-2b-it,0.625
-llama3-8b-cpt-sea-lionv2-instruct,0.6272727272727273

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.6545454545454545
 Meta-Llama-3-70B-Instruct,0.6909090909090909
+sg_llama3_70b_inst,0.7
+GPT4o_0513,0.7068181818181818

results/emotion/zero_shot/sst2.csv CHANGED Viewed

@@ -1,10 +1,5 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.9231651376146789
-Meta-Llama-3.1-8B-Instruct,0.8784403669724771
-Qwen2-72B-Instruct,0.9369266055045872
-Meta-Llama-3-8B-Instruct,0.8669724770642202
-SeaLLMs-v3-7B-Chat,0.9346330275229358
-gemma-2-9b-it,0.9311926605504587
 Meta-Llama-3-70B-Instruct,0.9495412844036697
-gemma-2-2b-it,0.9208715596330275
-llama3-8b-cpt-sea-lionv2-instruct,0.9162844036697247

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.8646788990825688
 Meta-Llama-3-70B-Instruct,0.9495412844036697
+sg_llama3_70b_inst,0.9334862385321101
+GPT4o_0513,0.9415137614678899

results/fundamental_nlp_tasks/few_shot/c3.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.9390426327599103
-Meta-Llama-3-8B,0.7703814510097232
-llama3-8b-cpt-sea-lionv2-base,0.7913238593866866
-Meta-Llama-3.1-8B,0.8208676140613314


1	Model,Accuracy

results/fundamental_nlp_tasks/few_shot/cola.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.7171620325982742
-Meta-Llama-3-8B,0.6596356663470757
-llama3-8b-cpt-sea-lionv2-base,0.6021093000958773
-Meta-Llama-3.1-8B,0.6222435282837967


1	Model,Accuracy

results/fundamental_nlp_tasks/few_shot/mnli.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.7505
-Meta-Llama-3-8B,0.46174988547869905
-llama3-8b-cpt-sea-lionv2-base,0.472
-Meta-Llama-3.1-8B,0.48506133251895966


1	Model,Accuracy

results/fundamental_nlp_tasks/few_shot/mrpc.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.6764705882352942
-Meta-Llama-3-8B,0.5906862745098039
-llama3-8b-cpt-sea-lionv2-base,0.6078431372549019
-Meta-Llama-3.1-8B,0.5661764705882353


1	Model,Accuracy

results/fundamental_nlp_tasks/few_shot/ocnli.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.6840677966101695
-Meta-Llama-3-8B,0.3935593220338983
-llama3-8b-cpt-sea-lionv2-base,0.3840677966101695
-Meta-Llama-3.1-8B,0.411864406779661


1	Model,Accuracy

results/fundamental_nlp_tasks/few_shot/qnli.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.572
-Meta-Llama-3-8B,0.5059491122094087
-llama3-8b-cpt-sea-lionv2-base,0.49716273110012815
-Meta-Llama-3.1-8B,0.5081457074867289


1	Model,Accuracy

results/fundamental_nlp_tasks/few_shot/qqp.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.7215
-Meta-Llama-3-8B,0.551
-llama3-8b-cpt-sea-lionv2-base,0.519
-Meta-Llama-3.1-8B,0.5565


1	Model,Accuracy

results/fundamental_nlp_tasks/few_shot/rte.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.776173285198556
-Meta-Llama-3-8B,0.5487364620938628
-llama3-8b-cpt-sea-lionv2-base,0.6462093862815884
-Meta-Llama-3.1-8B,0.6137184115523465


1	Model,Accuracy

results/fundamental_nlp_tasks/few_shot/wnli.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.8169014084507042
-Meta-Llama-3-8B,0.4647887323943662
-llama3-8b-cpt-sea-lionv2-base,0.5915492957746479
-Meta-Llama-3.1-8B,0.5211267605633803


1	Model,Accuracy

results/fundamental_nlp_tasks/zero_shot/c3.csv CHANGED Viewed

@@ -1,10 +1,5 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.9233358264771877
-Meta-Llama-3.1-8B-Instruct,0.7984293193717278
-Qwen2-72B-Instruct,0.9599850411368736
-Meta-Llama-3-8B-Instruct,0.8515332834704562
-SeaLLMs-v3-7B-Chat,0.912490650710546
-gemma-2-9b-it,0.9210919970082274
 Meta-Llama-3-70B-Instruct,0.9521316379955124
-gemma-2-2b-it,0.7703814510097232
-llama3-8b-cpt-sea-lionv2-instruct,0.675392670157068

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.8672400897531788
 Meta-Llama-3-70B-Instruct,0.9521316379955124
+sg_llama3_70b_inst,0.9289454001495886
+GPT4o_0513,0.9648466716529543

results/fundamental_nlp_tasks/zero_shot/cola.csv CHANGED Viewed

@@ -1,10 +1,5 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.7861936720997124
-Meta-Llama-3.1-8B-Instruct,0.7046979865771812
-Qwen2-72B-Instruct,0.8360498561840843
-Meta-Llama-3-8B-Instruct,0.6481303930968361
-SeaLLMs-v3-7B-Chat,0.7890699904122723
-gemma-2-9b-it,0.7967401725790988
 Meta-Llama-3-70B-Instruct,0.835091083413231
-gemma-2-2b-it,0.6711409395973155
-llama3-8b-cpt-sea-lionv2-instruct,0.5915627996164909

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.6673058485139022
 Meta-Llama-3-70B-Instruct,0.835091083413231
+sg_llama3_70b_inst,0.8696069031639502
+GPT4o_0513,0.8398849472674976

results/fundamental_nlp_tasks/zero_shot/mnli.csv CHANGED Viewed

@@ -1,10 +1,5 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.7341578867002596
-Meta-Llama-3.1-8B-Instruct,0.4603756298671553
-Qwen2-72B-Instruct,0.7979844251030692
-Meta-Llama-3-8B-Instruct,0.5296991907161399
-SeaLLMs-v3-7B-Chat,0.638
-gemma-2-9b-it,0.707
 Meta-Llama-3-70B-Instruct,0.6709421285692472
-gemma-2-2b-it,0.612
-llama3-8b-cpt-sea-lionv2-instruct,0.5276123581208327

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.4825
 Meta-Llama-3-70B-Instruct,0.6709421285692472
+sg_llama3_70b_inst,0.7685
+GPT4o_0513,0.8335

results/fundamental_nlp_tasks/zero_shot/mrpc.csv CHANGED Viewed

@@ -1,10 +1,4 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.7745098039215687
 Meta-Llama-3.1-8B-Instruct,0.6740196078431373
-Qwen2-72B-Instruct,0.7941176470588235
-Meta-Llama-3-8B-Instruct,0.6764705882352942
-SeaLLMs-v3-7B-Chat,0.7475490196078431
-gemma-2-9b-it,0.7450980392156863
 Meta-Llama-3-70B-Instruct,0.7598039215686274
-gemma-2-2b-it,0.7132352941176471
-llama3-8b-cpt-sea-lionv2-instruct,0.49264705882352944

 Model,Accuracy
 Meta-Llama-3.1-8B-Instruct,0.6740196078431373
 Meta-Llama-3-70B-Instruct,0.7598039215686274
+sg_llama3_70b_inst,0.7892156862745098

results/fundamental_nlp_tasks/zero_shot/ocnli.csv CHANGED Viewed

@@ -1,10 +1,5 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.6474576271186441
-Meta-Llama-3.1-8B-Instruct,0.42135593220338985
-Qwen2-72B-Instruct,0.7874576271186441
-Meta-Llama-3-8B-Instruct,0.4322033898305085
-SeaLLMs-v3-7B-Chat,0.5613559322033899
-gemma-2-9b-it,0.6183050847457627
 Meta-Llama-3-70B-Instruct,0.5928813559322034
-gemma-2-2b-it,0.4335593220338983
-llama3-8b-cpt-sea-lionv2-instruct,0.4135593220338983

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.40983050847457625
 Meta-Llama-3-70B-Instruct,0.5928813559322034
+sg_llama3_70b_inst,0.6420338983050847
+GPT4o_0513,0.7308474576271187

results/fundamental_nlp_tasks/zero_shot/qnli.csv CHANGED Viewed

@@ -1,10 +1,4 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.8169503935566539
-Meta-Llama-3.1-8B-Instruct,0.6027823540179389
-Qwen2-72B-Instruct,0.8894380377082189
-Meta-Llama-3-8B-Instruct,0.5689181768259198
-SeaLLMs-v3-7B-Chat,0.7181036060772469
-gemma-2-9b-it,0.90481420464946
 Meta-Llama-3-70B-Instruct,0.876807614863628
-gemma-2-2b-it,0.779974373055098
-llama3-8b-cpt-sea-lionv2-instruct,0.5652571846970529

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.5777045579352005
 Meta-Llama-3-70B-Instruct,0.876807614863628
+sg_llama3_70b_inst,0.9004210140948197

results/fundamental_nlp_tasks/zero_shot/qqp.csv CHANGED Viewed

@@ -1,10 +1,5 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.7771209497897601
-Meta-Llama-3.1-8B-Instruct,0.5058125154588177
-Qwen2-72B-Instruct,0.7992332426416028
-Meta-Llama-3-8B-Instruct,0.5512490724709375
-SeaLLMs-v3-7B-Chat,0.757
-gemma-2-9b-it,0.761
 Meta-Llama-3-70B-Instruct,0.7876082117239673
-gemma-2-2b-it,0.771
-llama3-8b-cpt-sea-lionv2-instruct,0.585

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.5645
 Meta-Llama-3-70B-Instruct,0.7876082117239673
+sg_llama3_70b_inst,0.804
+GPT4o_0513,0.8085

results/fundamental_nlp_tasks/zero_shot/rte.csv CHANGED Viewed

@@ -1,10 +1,4 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.8411552346570397
-Meta-Llama-3.1-8B-Instruct,0.6895306859205776
-Qwen2-72B-Instruct,0.8592057761732852
-Meta-Llama-3-8B-Instruct,0.6028880866425993
-SeaLLMs-v3-7B-Chat,0.7870036101083032
-gemma-2-9b-it,0.7472924187725631
 Meta-Llama-3-70B-Instruct,0.8086642599277978
-gemma-2-2b-it,0.7003610108303249
-llama3-8b-cpt-sea-lionv2-instruct,0.6209386281588448

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.6750902527075813
 Meta-Llama-3-70B-Instruct,0.8086642599277978
+sg_llama3_70b_inst,0.8916967509025271

results/fundamental_nlp_tasks/zero_shot/wnli.csv CHANGED Viewed

@@ -1,10 +1,4 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.647887323943662
-Meta-Llama-3.1-8B-Instruct,0.4507042253521127
-Qwen2-72B-Instruct,0.9014084507042254
-Meta-Llama-3-8B-Instruct,0.4507042253521127
-SeaLLMs-v3-7B-Chat,0.6619718309859155
-gemma-2-9b-it,0.7464788732394366
 Meta-Llama-3-70B-Instruct,0.7887323943661971
-gemma-2-2b-it,0.43661971830985913
-llama3-8b-cpt-sea-lionv2-instruct,0.4788732394366197

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.49295774647887325
 Meta-Llama-3-70B-Instruct,0.7887323943661971
+sg_llama3_70b_inst,0.8309859154929577

results/general_reasoning/few_shot/c_eval.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.6183063511830635
-Meta-Llama-3-8B,0.43773349937733497
-llama3-8b-cpt-sea-lionv2-base,0.42092154420921546
-Meta-Llama-3.1-8B,0.44458281444582815


1	Model,Accuracy

results/general_reasoning/few_shot/cmmlu.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.652650664824728
-Meta-Llama-3-8B,0.4308409601105163
-llama3-8b-cpt-sea-lionv2-base,0.4389570022448627
-Meta-Llama-3.1-8B,0.4556207908824037


1	Model,Accuracy

results/general_reasoning/few_shot/indommlu.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.6355564456906335
-Meta-Llama-3-8B,0.4500300420588824
-llama3-8b-cpt-sea-lionv2-base,0.5077775552440082
-Meta-Llama-3.1-8B,0.4644502303224514


1	Model,Accuracy

results/general_reasoning/few_shot/mmlu.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.7509474436896675
-Meta-Llama-3-8B,0.5651054701465856
-llama3-8b-cpt-sea-lionv2-base,0.5598140865212728
-Meta-Llama-3.1-8B,0.5749731855559528


1	Model,Accuracy

results/general_reasoning/few_shot/zbench.csv CHANGED Viewed

@@ -1,5 +1 @@
 Model,Accuracy
-Meta-Llama-3-70B,0.5151515151515151
-Meta-Llama-3-8B,0.2727272727272727
-llama3-8b-cpt-sea-lionv2-base,0.3333333333333333
-Meta-Llama-3.1-8B,0.3939393939393939


1	Model,Accuracy

results/general_reasoning/zero_shot/c_eval.csv CHANGED Viewed

@@ -1,10 +1,7 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.7546699875466999
-Meta-Llama-3.1-8B-Instruct,0.3493150684931507
-Qwen2-72B-Instruct,0.823785803237858
-Meta-Llama-3-8B-Instruct,0.4533001245330012
-SeaLLMs-v3-7B-Chat,0.7440846824408468
-gemma-2-9b-it,0.547945205479452
-Meta-Llama-3-70B-Instruct,0.6046077210460772
-gemma-2-2b-it,0.4153175591531756
-llama3-8b-cpt-sea-lionv2-instruct,0.398505603985056

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.5149439601494396
+Meta-Llama-3.1-70B-Instruct,0.6612702366127023
+gemma-2-9b-it,0.5523038605230386
+Meta-Llama-3-70B-Instruct,0.6220423412204235
+sg_llama3_70b_inst,0.5722291407222914
+GPT4o_0513,0.7073474470734745

results/general_reasoning/zero_shot/cmmlu.csv CHANGED Viewed

@@ -1,10 +1,7 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.7656708685891901
-Meta-Llama-3.1-8B-Instruct,0.38240372992574684
-Qwen2-72B-Instruct,0.8240372992574685
-Meta-Llama-3-8B-Instruct,0.4679675358314626
-SeaLLMs-v3-7B-Chat,0.7718010706268348
-gemma-2-9b-it,0.5721809704714211
-Meta-Llama-3-70B-Instruct,0.6195821101709549
-gemma-2-2b-it,0.4336902089449145
-llama3-8b-cpt-sea-lionv2-instruct,0.4105508547746503

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.5246934898981178
+Meta-Llama-3.1-70B-Instruct,0.6814885166637886
+gemma-2-9b-it,0.5700224486271801
+Meta-Llama-3-70B-Instruct,0.6494560524952513
+sg_llama3_70b_inst,0.6044724572612675
+GPT4o_0513,0.7414954239336902

results/general_reasoning/zero_shot/indommlu.csv CHANGED Viewed

@@ -1,10 +1,5 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.53027571934041
-Meta-Llama-3.1-8B-Instruct,0.4701916015755391
-Qwen2-72B-Instruct,0.6356232058214835
-Meta-Llama-3-8B-Instruct,0.5115161225716003
-SeaLLMs-v3-7B-Chat,0.42826623940182923
-gemma-2-9b-it,0.5599839775685961
 Meta-Llama-3-70B-Instruct,0.6323519594098405
-gemma-2-2b-it,0.43447493157086586
-llama3-8b-cpt-sea-lionv2-instruct,0.4962280526069831

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.5252687095266707
 Meta-Llama-3-70B-Instruct,0.6323519594098405
+sg_llama3_70b_inst,0.6394285332799252
+GPT4o_0513,0.7584618465852193

results/general_reasoning/zero_shot/mmlu.csv CHANGED Viewed

@@ -1,10 +1,7 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.6654272434751519
-Meta-Llama-3.1-8B-Instruct,0.5518770110833036
-Qwen2-72B-Instruct,0.7935645334286736
-Meta-Llama-3-8B-Instruct,0.508044333214158
-SeaLLMs-v3-7B-Chat,0.6637826242402575
-gemma-2-9b-it,0.7107615302109402
-Meta-Llama-3-70B-Instruct,0.7607436539149088
-gemma-2-2b-it,0.5676081515909903
-llama3-8b-cpt-sea-lionv2-instruct,0.5619592420450482

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.6037182695745441
+Meta-Llama-3.1-70B-Instruct,0.8058634250983197
+gemma-2-9b-it,0.7100464783696818
+Meta-Llama-3-70B-Instruct,0.7649624597783339
+sg_llama3_70b_inst,0.7407937075437969
+GPT4o_0513,0.8308187343582409

results/general_reasoning/zero_shot/zbench.csv CHANGED Viewed

@@ -1,10 +1,6 @@
 Model,Accuracy
-Qwen2-7B-Instruct,0.696969696969697
-Meta-Llama-3.1-8B-Instruct,0.45454545454545453
-Qwen2-72B-Instruct,0.5757575757575758
-Meta-Llama-3-8B-Instruct,0.30303030303030304
-SeaLLMs-v3-7B-Chat,0.5151515151515151
 gemma-2-9b-it,0.48484848484848486
-Meta-Llama-3-70B-Instruct,0.45454545454545453
-gemma-2-2b-it,0.21212121212121213
-llama3-8b-cpt-sea-lionv2-instruct,0.09090909090909091

 Model,Accuracy
+Meta-Llama-3.1-8B-Instruct,0.42424242424242425
+Meta-Llama-3.1-70B-Instruct,0.48484848484848486
 gemma-2-9b-it,0.48484848484848486
+Meta-Llama-3-70B-Instruct,0.5151515151515151
+sg_llama3_70b_inst,0.42424242424242425