Tulu V2.5 Suite - a allenai Collection

allenai 's Collections

PixMo

OLMo 2

Tulu 3 Datasets

Molmo

OLMoE

Tulu V2.5 Suite

Paloma

SciRIFF

AI2 Safety Toolkit

Zebra Logic Bench

ACE

Tulu V2.5 Suite

updated Nov 27, 2024

A suite of models trained using DPO and PPO across a wide variety (up to 14) of preference datasets. See https://arxiv.org/abs/2406.09279 for more!

allenai/tulu-v2.5-ppo-13b-uf-mean-70b-uf-rm

Text Generation • Updated Jun 14, 2024 • 305 • 6

Note Our overall best model, a 13B Tulu 2 model trained using PPO with a 70B reward model trained on UltraFeedback! We also release the value and reward models associated with this model - see the model card for details
allenai/tulu-2.5-preference-data

Viewer • Updated Jul 22, 2024 • 2.12M • 345 • 17

Note The datasets used for training PPO, DPO, and reward models in our paper.
allenai/tulu-2.5-prompts

Viewer • Updated Jul 6, 2024 • 189k • 28 • 2

Note The prompt sets used during PPO training in our paper. Below, see all our PPO-trained models!
allenai/tulu-v2.5-ppo-13b-uf-mean

Text Generation • Updated Jun 14, 2024 • 81
allenai/tulu-v2.5-ppo-13b-uf-mean-13b-mix-rm

Text Generation • Updated Jun 14, 2024 • 33
allenai/tulu-v2.5-ppo-13b-uf-mean-70b-mix-rm

Text Generation • Updated Jun 14, 2024 • 21
allenai/tulu-v2.5-ppo-13b-uf-mean-70b-uf-rm-mixed-prompts

Text Generation • Updated Jun 14, 2024 • 25

Note Below is our PPO data ablations.
allenai/tulu-v2.5-ppo-13b-hh-rlhf-60k

Text Generation • Updated Jun 14, 2024 • 38
allenai/tulu-v2.5-ppo-13b-chatbot-arena-2023

Text Generation • Updated Jun 14, 2024 • 40
allenai/tulu-v2.5-ppo-13b-stackexchange-60k

Text Generation • Updated Jun 14, 2024 • 51
allenai/tulu-v2.5-ppo-13b-nectar-60k

Text Generation • Updated Jun 14, 2024 • 50

Note Below is our DPO data ablations.
allenai/tulu-v2.5-dpo-13b-uf-mean

Text Generation • Updated Jun 14, 2024 • 78
allenai/tulu-v2.5-dpo-13b-helpsteer

Text Generation • Updated Jun 14, 2024 • 21
allenai/tulu-v2.5-dpo-13b-shp2

Text Generation • Updated Jun 14, 2024 • 39
allenai/tulu-v2.5-dpo-13b-stackexchange

Text Generation • Updated Jun 14, 2024 • 20
allenai/tulu-v2.5-dpo-13b-uf-overall

Text Generation • Updated Jun 14, 2024 • 28
allenai/tulu-v2.5-dpo-13b-capybara

Text Generation • Updated Jun 14, 2024 • 23
allenai/tulu-v2.5-dpo-13b-prm-phase-2

Text Generation • Updated Jun 14, 2024 • 23
allenai/tulu-v2.5-dpo-13b-hh-rlhf

Text Generation • Updated Jun 14, 2024 • 35 • 1
allenai/tulu-v2.5-dpo-13b-nectar

Text Generation • Updated Jun 14, 2024 • 25
allenai/tulu-v2.5-dpo-13b-chatbot-arena-2023

Text Generation • Updated Jun 14, 2024 • 38
allenai/tulu-v2.5-dpo-13b-chatbot-arena-2024

Text Generation • Updated Jun 14, 2024 • 33
allenai/tulu-v2.5-dpo-13b-alpacafarm-human-pref

Text Generation • Updated Jun 14, 2024 • 20
allenai/tulu-v2.5-dpo-13b-alpacafarm-gpt4-pref

Text Generation • Updated Jun 14, 2024 • 35
allenai/tulu-v2.5-dpo-13b-hh-rlhf-60k

Text Generation • Updated Jun 14, 2024 • 41
allenai/tulu-v2.5-dpo-13b-stackexchange-60k

Text Generation • Updated Jun 14, 2024 • 43 • 1
allenai/tulu-v2.5-dpo-13b-argilla-orca-pairs

Text Generation • Updated Jun 14, 2024 • 27
allenai/tulu-v2.5-dpo-13b-nectar-60k

Text Generation • Updated Jun 14, 2024 • 50 • 1

Note Below are our reward models!
allenai/tulu-v2.5-13b-uf-rm

Text Classification • Updated Jun 14, 2024 • 22
allenai/tulu-v2.5-13b-preference-mix-rm

Text Classification • Updated Jun 14, 2024 • 33
allenai/tulu-v2.5-70b-uf-rm

Text Classification • Updated Jun 14, 2024 • 22
allenai/tulu-v2.5-70b-preference-mix-rm

Text Classification • Updated Jun 14, 2024 • 34
allenai/tulu-v2.5-13b-nectar-60k-rm

Text Classification • Updated Jun 14, 2024 • 21
allenai/tulu-v2.5-13b-chatbot-arena-2023-rm

Text Classification • Updated Jun 14, 2024 • 20
allenai/tulu-v2.5-13b-hh-rlhf-60k-rm

Text Classification • Updated Jun 14, 2024 • 28
allenai/tulu-v2.5-13b-stackexchange-60k-rm

Text Classification • Updated Jun 14, 2024 • 25

Note Below are our value models.
allenai/tulu-v2.5-ppo-13b-uf-mean-13b-uf-rm-value

Token Classification • Updated Jun 14, 2024 • 23
allenai/tulu-v2.5-ppo-13b-uf-mean-13b-mix-rm-value

Token Classification • Updated Jun 14, 2024 • 37
allenai/tulu-v2.5-ppo-13b-uf-mean-70b-uf-rm-value

Token Classification • Updated Jun 14, 2024 • 23
allenai/tulu-v2.5-ppo-13b-uf-mean-70b-mix-rm-value

Token Classification • Updated Jun 14, 2024 • 35
allenai/tulu-v2.5-ppo-13b-uf-mean-70b-uf-rm-mixed-prompts-value

Token Classification • Updated Jun 14, 2024 • 32

Note Below is llama 3 models:
allenai/llama-3-tulu-v2.5-8b-uf-mean-8b-uf-rm

Updated Oct 14, 2024 • 10
allenai/llama-3-tulu-v2.5-8b-uf-mean-70b-uf-rm-mixed-prompts

Updated Oct 14, 2024 • 12 • 1
allenai/llama-3-tulu-v2.5-8b-uf-mean-70b-uf-rm

Updated Oct 14, 2024 • 12