RefDPO - a yale-nlp Collection

yale-nlp 's Collections

updated Jul 19

Model and data collection for our work "Understanding Reference Policies in Direct Preference Optimization" (https://arxiv.org/abs/2407.13709)

Upvote

yale-nlp/RefDPO

Viewer • Updated Jul 18 • 312k • 114

Note Datasets
yale-nlp/tulu2-7b-dpo-beta-0.1

Text Generation • Updated Jul 18 • 15
yale-nlp/tulu2-7b-dpo-beta-0.02

Text Generation • Updated Jul 18 • 10
yale-nlp/tulu2-7b-dpo-beta-0.005

Text Generation • Updated Jul 18 • 11
yale-nlp/mistral-7b-dpo-beta-0.1

Text Generation • Updated Jul 18 • 7
yale-nlp/mistral-7b-dpo-beta-0.05

Text Generation • Updated Jul 18 • 5
yale-nlp/mistral-7b-dpo-beta-0.02

Text Generation • Updated Jul 18 • 8
yale-nlp/mistral-7b-dpo-beta-0.01

Text Generation • Updated Jul 18 • 10
yale-nlp/mistral-7b-dpo-beta-0.005

Text Generation • Updated Jul 18 • 5
yale-nlp/mistral-likelihood

Text Generation • Updated Jul 18 • 11
yale-nlp/mistral-probability

Text Generation • Updated Jul 18 • 11
yale-nlp/mistral-7b-dpo-mistralv2-7b-beta-10.0

Text Generation • Updated Jul 18 • 11
yale-nlp/mistral-7b-dpo-mistralv2-7b-beta-1.0

Text Generation • Updated Jul 18 • 10
yale-nlp/mistral-7b-dpo-mistralv2-7b-beta-0.1

Text Generation • Updated Jul 18 • 12
yale-nlp/mistral-7b-dpo-mistralv2-7b-beta-0.01

Text Generation • Updated Jul 18 • 17
yale-nlp/mistral-7b-dpo-mistralv2-7b-beta-0.005

Text Generation • Updated Jul 18 • 5
yale-nlp/mistral-7b-dpo-llama3-70b-beta-10.0

Text Generation • Updated Jul 18 • 18
yale-nlp/mistral-7b-dpo-llama3-70b-beta-1.0

Text Generation • Updated Jul 18 • 15
yale-nlp/mistral-7b-dpo-llama3-70b-beta-0.1

Text Generation • Updated Jul 18 • 7
yale-nlp/mistral-7b-dpo-llama3-70b-beta-0.01

Text Generation • Updated Jul 18 • 6
yale-nlp/mistral-7b-dpo-llama3-70b-beta-0.005

Text Generation • Updated Jul 18 • 11
yale-nlp/tulu2-7b-dpo-mistralv2-7b-beta-10.0

Text Generation • Updated Jul 18 • 15
yale-nlp/tulu2-7b-dpo-mistralv2-7b-beta-1.0

Text Generation • Updated Jul 18 • 9
yale-nlp/tulu2-7b-dpo-mistralv2-7b-beta-0.1

Text Generation • Updated Jul 18 • 8
yale-nlp/tulu2-7b-dpo-mistralv2-7b-beta-0.01

Text Generation • Updated Jul 18 • 9
yale-nlp/tulu2-7b-dpo-llama3-70b-beta-10.0

Text Generation • Updated Jul 18 • 15
yale-nlp/tulu2-7b-dpo-llama3-70b-beta-1.0

Text Generation • Updated Jul 18 • 15
yale-nlp/tulu2-7b-dpo-llama3-70b-beta-0.1

Text Generation • Updated Jul 18 • 9
yale-nlp/tulu2-7b-dpo-llama3-70b-beta-0.01

Text Generation • Updated Jul 18 • 20
yale-nlp/tulu2-7b-dpo-llama3-70b-beta-0.005

Text Generation • Updated Jul 18 • 10
yale-nlp/tulu2-7b-dpo-beta-0.05

Text Generation • Updated Jul 19 • 10
yale-nlp/tulu2-7b-dpo-beta-0.01

Text Generation • Updated Jul 19 • 6

Upvote

Collection guide
Browse collections