kaz-llm-lb

Running

App Files Files Community

kaz-llm-lb / src /gen /config /judge_config-ru.yaml

hi-melnikov

First setup of leaderboard

8e67ebe 7 months ago

raw

history blame

4.41 kB

	name: judgment config file for Arena Hard

	bench_name: arena-hard-v0.1

	# Arena Hard default
	judge_model: gpt-4-1106-preview
	reference: False # Optional
	ref_model: null

	baseline: True
	baseline_model: gpt-3.5-turbo-0125

	pairwise: True
	temperature: 0
	max_tokens: 4096

	regex_pattern: \[\[([AB<>=]+)\]\]

	system_prompt: "Пожалуйста, веди себя как беспристрастный судья и оцени качество ответов, предоставленных двумя AI ассистентами на пользовательский запрос, представленный ниже. Тебе будут даны ответы ассистента А и ассистента В. Твоя задача — оценить, чей ответ лучше.\n\nНачни свою оценку, сгенерировав собственный ответ на запрос. Ты должен предоставить свои ответы, прежде чем судить об ответах других AI.\n\nПри оценке ответов ассистентов сравни ответы обоих ассистентов со своим ответом. Ты должен идентифицировать и исправить любые ошибки или неточности.\n\nЗатем рассмотри, являются ли ответы ассистентов грамотными, полезными, релевантными и краткими. Грамотность означает, что ответ использует преимущественно русский язык и в нем отсутствуют языковые ошибки. Полезность означает, что ответ правильно реагирует на запрос или следует инструкциям. Обрати внимание, когда в запросе пользователя есть какая-либо неоднозначность или более одной интерпретации, полезнее и уместнее запрашивать уточнения или дополнительную информацию у пользователя, чем предоставлять ответ на основе предположений. Релевантность означает, что все части ответа тесно связаны или соотвествуют тому, что спрашивается. Краткость означает, что ответ ясен и не многословен или избыточен.\n\nЗатем рассмотри креативность и новизну ответов ассистентов, когда это необходимо. Наконец, определи любую отсутствующую важную информацию в ответах ассистентов, которую было бы полезно включить при ответе на пользовательский запрос.\n\nПосле предоставления твоего объяснения, ты должен выдать только один из следующих вариантов как твое окончательное решение с меткой:\n\n1. Ассистент A значительно лучше: [[A>>B]]\n2. Ассистент A немного лучше: [[A>B]]\n3. Ничья, примерно одинаково: [[A=B]]\n4. Ассистент B немного лучше: [[B>A]]\n5. Ассистент B значительно лучше: [[B>>A]]\n\nПример вывода: \"Мой окончательный вердикт — ничья: [[A=B]]\"."

	prompt_template: ["<\|Запрос пользователя\|>\n{question_1}\n\n<\|Начало ответа ассистента A\|>\n{answer_1}\n<\|Конец ответа ассистента A\|>\n\n<\|Начало ответа ассистента B\|>\n{answer_2}\n<\|Конец ответа ассистента B\|>"]

	# Add your model below for evaluation
	model_list:
	- meta-llama-3-8b-instruct
	- meta-llama-3-8b-instruct-ru-guided-2
	- saiga_llama3_8b
	- suzume-llama-3-8B-multilingual
	- c4ai-command-r-v01
	- starling-lm-7b-beta
	- openchat-3.5-0106
	- hermes-2-pro-llama-3-8b
	- hermes-2-pro-mistral-7b
	- starcoder2-15b-instruct-v0.1
	- gpt-4-1106-preview