Shahradmz
/

OLMo-1B-hf-DPO-constitution-2

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

Shahradmz commited on 29 days ago

Commit

839c719

•

1 Parent(s): e6cbef1

Model save

Files changed (1) hide show

README.md +2 -3

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 base_model: allenai/OLMo-1B-hf
-library_name: peft
 model_name: OLMo-1B-hf-DPO-constitution-2
 tags:
 - generated_from_trainer
@@ -27,13 +27,12 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/shahrad_m/DPO-OLMo-1B-hf-constitution-2/runs/pstf92mj)
 This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).
 ### Framework versions
-- PEFT 0.13.2
 - TRL: 0.12.1
 - Transformers: 4.46.2
 - Pytorch: 2.5.1

 ---
 base_model: allenai/OLMo-1B-hf
+library_name: transformers
 model_name: OLMo-1B-hf-DPO-constitution-2
 tags:
 - generated_from_trainer
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/shahrad_m/DPO-OLMo-1B-hf-constitution-2/runs/hpghf4ax)
 This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).
 ### Framework versions
 - TRL: 0.12.1
 - Transformers: 4.46.2
 - Pytorch: 2.5.1