Tasks

LightevalTask

LightevalTaskConfig

class lighteval.tasks.lighteval_task.LightevalTaskConfig

( name: str prompt_function: typing.Callable[[dict, str], lighteval.tasks.requests.Doc | None] hf_repo: str hf_subset: str metric: list[lighteval.metrics.utils.metric_utils.Metric | lighteval.metrics.metrics.Metrics] | tuple[lighteval.metrics.utils.metric_utils.Metric | lighteval.metrics.metrics.Metrics, ...] hf_revision: typing.Optional[str] = None hf_filter: typing.Optional[typing.Callable[[dict], bool]] = None hf_avail_splits: typing.Union[list[str], tuple[str, ...], NoneType] = <factory> trust_dataset: bool = False evaluation_splits: list[str] | tuple[str, ...] = <factory> few_shots_split: typing.Optional[str] = None few_shots_select: typing.Optional[str] = None generation_size: typing.Optional[int] = None generation_grammar: typing.Optional[huggingface_hub.inference._generated.types.text_generation.TextGenerationInputGrammarType] = None stop_sequence: typing.Union[list[str], tuple[str, ...], NoneType] = None num_samples: typing.Optional[list[int]] = None suite: list[str] | tuple[str, ...] = <factory> original_num_docs: int = -1 effective_num_docs: int = -1 must_remove_duplicate_docs: bool = False version: int = 0 )

Parameters

name (str) — Short name of the evaluation task.
suite (list[str]) — Evaluation suites to which the task belongs.
prompt_function (Callable[[dict, str], Doc]) — Function used to create the Doc samples from each line of the evaluation dataset.
hf_repo (str) — Path of the hub dataset repository containing the evaluation information.
hf_subset (str) — Subset used for the current task, will be default if none is selected.
hf_avail_splits (list[str]) — All the available splits in the evaluation dataset
evaluation_splits (list[str]) — List of the splits actually used for this evaluation
few_shots_split (str) — Name of the split from which to sample few-shot examples
few_shots_select (str) — Method with which to sample few-shot examples
generation_size (int) — Maximum allowed size of the generation
generation_grammar (TextGenerationInputGrammarType) — The grammar to generate completion according to. Currently only available for TGI and Inference Endpoint models.
metric (list[str]) — List of all the metrics for the current task.
stop_sequence (list[str]) — Stop sequence which interrupts the generation for generative metrics.
original_num_docs (int) — Number of documents in the task
effective_num_docs (int) — Number of documents used in a specific evaluation
truncated_num_docs (bool) — Whether less than the total number of documents were used
trust_dataset (bool) — Whether to trust the dataset at execution or not
version (int) — The version of the task. Defaults to 0. Can be increased if the underlying dataset or the prompt changes.

Stored configuration of a given LightevalTask.

Lighteval

Tasks

LightevalTask

LightevalTaskConfig

class lighteval.tasks.lighteval_task.LightevalTaskConfig

LightevalTask

class lighteval.tasks.lighteval_task.LightevalTask

aggregation

construct_requests

eval_docs

fewshot_docs

get_first_possible_fewshot_splits

load_datasets

PromptManager

class lighteval.tasks.prompt_manager.PromptManager

doc_to_fewshot_sorting_class

doc_to_target

doc_to_text

Registry

class lighteval.tasks.registry.Registry

expand_task_definition

get_task_dict

get_task_instance

print_all_tasks

Requests

class lighteval.tasks.requests.Request

class lighteval.tasks.requests.LoglikelihoodRequest

class lighteval.tasks.requests.LoglikelihoodSingleTokenRequest

class lighteval.tasks.requests.LoglikelihoodRollingRequest

class lighteval.tasks.requests.GreedyUntilRequest

class lighteval.tasks.requests.GreedyUntilMultiTurnRequest

Datasets

class lighteval.data.DynamicBatchDataset

get_original_order

get_split_start_end

splits_start_end_iterator

class lighteval.data.LoglikelihoodDataset

class lighteval.data.LoglikelihoodSingleTokenDataset

class lighteval.data.GenerativeTaskDataset

init_split_limits

class lighteval.data.GenerativeTaskDatasetNanotron

class lighteval.data.GenDistributedSampler