bikalnetomi
/

rlhf-ppo-llama3-1B-Reward-model-lora-bikal

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

rlhf-ppo-llama3-1B-Reward-model-lora-bikal

Commit History

bikalnetomi/RLHF-PPO-RewardModel-LLama3-1B-v2

c98b2f1
verified

bikalnetomi commited on Dec 2, 2024

initial commit

c83b604
verified

bikalnetomi commited on Dec 2, 2024