sergiopaniego
/

smolvlm-instruct-trl-dpo-rlaif-v

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

sergiopaniego commited on Dec 10, 2024

Commit

bd8694e

·

verified ·

1 Parent(s): d60fb9a

Model save

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -36,7 +36,7 @@ This model was trained with DPO, a method introduced in [Direct Preference Optim
 - TRL: 0.12.2
 - Transformers: 4.46.3
 - Pytorch: 2.5.1+cu121
-- Datasets: 3.1.0
 - Tokenizers: 0.20.3
 ## Citations

 - TRL: 0.12.2
 - Transformers: 4.46.3
 - Pytorch: 2.5.1+cu121
+- Datasets: 3.2.0
 - Tokenizers: 0.20.3
 ## Citations