Spaces:

taresco
/

open_african_languages_eval_leaderboard

Running

ToluClassics commited on Sep 1, 2024

Commit

4a7f4b8

1 Parent(s): c25e6bb

fix prod bugs

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,7 +16,7 @@ AFRIXNLI_TRANSLATE = "afrixnli_translate"
 BENCHMARKS = [AFRIMMLU_DIRECT, AFRIMMLU_TRANSLATE, AFRIXNLI_DIRECT, AFRIXNLI_TRANSLATE]
-METRICS = ["acc_norm", "acc_norm", "acc_norm", "mc2"]
 LANGS = ['amh', 'eng', 'ewe', 'fra', 'hau', 'ibo', 'kin', 'lin', 'lug', 'orm', 'sna', 'sot', 'swa', 'twi', 'wol', 'xho', 'yor', 'zul']
@@ -66,11 +66,17 @@ def collect_results():
         pretrained_models.add(pretrained)
         for lang_task, perfs in results.items():
-            task, lang = lang_task.split('_')
             assert task in BENCHMARKS
             if lang and task:
-                metric = METRICS[BENCHMARKS.index(task)]
                 p = round(perfs[metric] * 100, 1)
                 performance_dict[(pretrained, lang)][task] = p
     return performance_dict, pretrained_models

 BENCHMARKS = [AFRIMMLU_DIRECT, AFRIMMLU_TRANSLATE, AFRIXNLI_DIRECT, AFRIXNLI_TRANSLATE]
+METRICS = ["acc_norm", "acc_norm", "acc_norm"]
 LANGS = ['amh', 'eng', 'ewe', 'fra', 'hau', 'ibo', 'kin', 'lin', 'lug', 'orm', 'sna', 'sot', 'swa', 'twi', 'wol', 'xho', 'yor', 'zul']
         pretrained_models.add(pretrained)
         for lang_task, perfs in results.items():
+            print(lang_task)
+            print(perfs)
+            lang_task = lang_task.split('_')
+            lang = lang_task[-1]
+            task = '_'.join(lang_task[:-1])
             assert task in BENCHMARKS
             if lang and task:
+                print(BENCHMARKS.index(task))
+                metric = METRICS[BENCHMARKS.index(task)-1]
                 p = round(perfs[metric] * 100, 1)
                 performance_dict[(pretrained, lang)][task] = p
     return performance_dict, pretrained_models