Spaces:

hallucinations-leaderboard
/

leaderboard

Running on CPU Upgrade

pingnieuk commited on Dec 18, 2023

Commit

01c342c

1 Parent(s): 620ce47

add selfcheck for hulueval-cli test

Files changed (1) hide show

cli/halueval-cli.py CHANGED Viewed

@@ -8,6 +8,7 @@ from src.backend.manage_requests import EvalRequest
 from src.backend.run_eval_suite import run_evaluation
 from src.backend.tasks.xsum.task import XSum
 from lm_eval.tasks import initialize_tasks, include_task_folder
 from lm_eval import tasks, evaluator, utils
@@ -32,8 +33,9 @@ def main():
     # my_task = Task("memo-trap", "acc", "memo-trap", 0)
     my_task = Task("xsum", "rougeLsum", "XSum", 2)
-    TASKS_HARNESS = [my_task]
     # task_names = ['triviaqa']
     # TASKS_HARNESS = [task.value for task in Tasks]

 from src.backend.run_eval_suite import run_evaluation
 from src.backend.tasks.xsum.task import XSum
+from src.backend.tasks.selfcheckgpt.task import SelfCheckGpt
 from lm_eval.tasks import initialize_tasks, include_task_folder
 from lm_eval import tasks, evaluator, utils
     # my_task = Task("memo-trap", "acc", "memo-trap", 0)
     my_task = Task("xsum", "rougeLsum", "XSum", 2)
+    my_task_selfcheckgpt = Task("selfcheckgpt", "max-selfcheckgpt", "selfcheckgpt", 0)
+    TASKS_HARNESS = [my_task, my_task_selfcheckgpt]
     # task_names = ['triviaqa']
     # TASKS_HARNESS = [task.value for task in Tasks]