jiazhengli
/

Meta-Llama-3-8B-QLoRA-Assessment-Rationale-dpo

Generated from Trainer

Model card Files Files and versions Community

Meta-Llama-3-8B-QLoRA-Assessment-Rationale-dpo / training_rewards_accuracies.png

Jiazheng Li

init push

a57f764 5 months ago

history contribute delete

52.2 kB