dataset-sft
Viewer • Updated • 206k • 3.63k • 255Note Multilingual human curated
CohereForAI/aya_collection
Viewer • Updated • 514M • 1.08k • 184Note FLAN-like from multilingual multitask NLP datasets
HuggingFaceTB/cosmopedia
Viewer • Updated • 31.1M • 2.85k • 512Note 百科全书式数据,由Mistral-7bx8-instruct-v0.1生成
HuggingFaceTB/ultrachat_questions_about_world
Viewer • Updated • 578k • 10 • 4m-a-p/Code-Feedback
Viewer • Updated • 66.4k • 665 • 175bigcode/commitpackft
Viewer • Updated • 702k • 128k • 52databricks/databricks-dolly-15k
Viewer • Updated • 15k • 22.9k • 675
arbml/CIDAR
Viewer • Updated • 10k • 113 • 35Note Arabic sft
m-a-p/COIG-CQIA
Viewer • Updated • 44.7k • 3.25k • 515Note Chinese sft
nvidia/OpenMathInstruct-1
Viewer • Updated • 6.88M • 918 • 191fka/awesome-chatgpt-prompts
Viewer • Updated • 153 • 6.84k • 5.01k
nvidia/HelpSteer
Viewer • Updated • 37.1k • 1.37k • 194Note 1. 使用来自 Open Assistant (OASST) 中标注的 quality, toxicity, violence, helpfulness, creativity, humor and inappropriateness 作为 response 属性训练 attribute prediction model (APM) 2. 用 APM 标注现有 sft dataset D 用得到 D'(x,y,v), v 为 attributes 3. 用 llm 在 D' 上 sft,得到 llm' 4. 用 llm' 加属性在 sft 上采样生成大量 response,然后用 APM 重新预测属性得到 v',再用新的 v' 结合生成的 responses 再巡一遍 llm 得到 llm' 这种方式可以用 language-modelling 的方式学习到反馈信号,而不必 rlhf
NobodyExistsOnTheInternet/ToxicDPOqa
Viewer • Updated • 6.87k • 101 • 14Note dpo; system prompt; toxic
Naomibas/llm-system-prompts-benchmark
Viewer • Updated • 100 • 4 • 7Note 支持离线评测,类似 IFEval
NobodyExistsOnTheInternet/Fixed-FilteredTruthyDPO
Viewer • Updated • 477 • 4Note dpo; system prompt; roleplay
shidowake/slimorca-with-system-prompt-5k
Viewer • Updated • 5k • 1Note sft; system prompt; system prompt 多样性一般
NobodyExistsOnTheInternet/SystemMessageContradictionsSharegpt
Viewer • Updated • 90.3k • 3Note system prompt; contradicted system prompt; 1. 先构造 system prompt + input 生成对应 response 2. 生成一个 contradict system prompt + input 生成对应 response 这个可以用来避免 system prompt 句式单一,都是肯定句,让模型能够遵循 system prompt 里的否定指令。
ZenMoore/RoleBench
Preview • Updated • 44 • 72Note roleplay; train/test; benchmark
bai-roleplay/evol-character-entire
Viewer • Updated • 3.76k • 7 • 28Note roleplay; chinese; 中文
NobodyExistsOnTheInternet/system-message-DPO
Viewer • Updated • 90.3k • 35 • 3abacusai/SystemChat
Viewer • Updated • 7.02k • 297 • 111BAAI/COIG-PC
Viewer • Updated • 540M • 10 • 255BAAI/COIG-PC-Lite
Viewer • Updated • 1.08M • 11 • 30m-a-p/COIG-Kun
Viewer • Updated • 368k • 4 • 28