RLHFlow

university

RLHFlow

RLHFlow

AI & ML interests

Workflow of Reinforcement Learning from Human Feedback (RLHF). Blog: https://rlhflow.github.io/

Recent Activity

weqweasdas updated a dataset about 1 month ago

RLHFlow/self_rewarding_turn2_example

weqweasdas published a dataset about 1 month ago

RLHFlow/self_rewarding_turn2_example

weqweasdas updated a dataset about 1 month ago

RLHFlow/self_rewarding_turn1_with_rewards_example

View all activity

Collections 10

models 27

RLHFlow/Qwen2.5-7B-SFT

Updated Feb 17 • 30

RLHFlow/Qwen2.5-7B-RAFT-Zero

Updated Feb 17 • 3

RLHFlow/Qwen2.5-7B-DPO-NLL-Zero

Updated Feb 17 • 3

RLHFlow/Qwen2.5-7B-DPO-Zero

Updated Feb 17 • 6

RLHFlow/Qwen2.5-7B-DPO

Updated Feb 17 • 10

RLHFlow/Qwen2.5-7B-PPO-Zero

Updated Feb 17 • 10 • 2

RLHFlow/Decision-Tree-Reward-Gemma-2-27B

Text Classification • Updated Jan 24 • 17 • 6

RLHFlow/Decision-Tree-Reward-Llama-3.1-8B

Text Classification • Updated Jan 24 • 91 • 6

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

Text Generation • Updated Nov 9, 2024 • 301 • 9

RLHFlow/Llama3.1-8B-PRM-Deepseek-Data

Text Generation • Updated Nov 9, 2024 • 20.7k • 33

datasets 83

RLHFlow/self_rewarding_turn2_example

Updated Mar 2 • 50

RLHFlow/self_rewarding_turn1_with_rewards_example

Updated Mar 2 • 36

RLHFlow/self_rewarding_rl_prompt

Updated Mar 2 • 30

RLHFlow/self_rewarding_sft_prompt

Viewer • Updated Mar 2 • 40k • 51

RLHFlow/self_rewarding_ift_example_raw_data1

Viewer • Updated Feb 26 • 16.3k • 43

RLHFlow/self_rewarding_ift_example

Viewer • Updated Feb 26 • 32k • 156

RLHFlow/qwq_gen_sft_15k

Viewer • Updated Feb 17 • 15k • 36

RLHFlow/numia_prompt_ppo

Viewer • Updated Feb 13 • 404k • 82 • 1

RLHFlow/numia_prompt_dpo_test

Viewer • Updated Feb 11 • 1.02k • 28

RLHFlow/numia_prompt_dpo9

Viewer • Updated Feb 11 • 20k • 23