bikalnetomi
/

RLHF-PPO-PPOModel-LLama3-1B-v1.0

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

RLHF-PPO-PPOModel-LLama3-1B-v1.0 / training_args.bin

Commit History

End of training

98e1741
verified

bikalnetomi commited on 24 days ago

End of training

7fda261
verified

bikalnetomi commited on 24 days ago

End of training

0c22cdc
verified

bikalnetomi commited on 24 days ago

End of training

b60abfe
verified

bikalnetomi commited on 24 days ago