tzwilliam0
/

maxmin-dpo-init-kl-coef-0.5-fix-reward-norm-dongnan

Reinforcement Learning

Inference Endpoints

Model card Files Files and versions Community

maxmin-dpo-init-kl-coef-0.5-fix-reward-norm-dongnan

Commit History

new

b612944

v-guidongnan commited on Jan 10

Upload tokenizer

e0b98f5
verified

tzwilliam0 commited on Jan 10

Upload model

f625fef
verified

tzwilliam0 commited on Jan 10

initial commit

87c4ce5
verified

tzwilliam0 commited on Jan 10