Jise
/

flan-t5-hh-dpo

Text2Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Jise commited on Nov 25, 2024

Commit

eb18db8

·

verified ·

1 Parent(s): 5417321

Model save

Files changed (2) hide show

README.md +3 -3
generation_config.json +1 -1

README.md CHANGED Viewed

@@ -27,15 +27,15 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/jise/huggingface/runs/vzkfljfz)
 This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).
 ### Framework versions
 - TRL: 0.12.1
-- Transformers: 4.46.2
-- Pytorch: 2.5.1+cu121
 - Datasets: 3.1.0
 - Tokenizers: 0.20.3

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/jise/huggingface/runs/95dj5zn3)
 This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).
 ### Framework versions
 - TRL: 0.12.1
+- Transformers: 4.46.3
+- Pytorch: 2.1.0+cu118
 - Datasets: 3.1.0
 - Tokenizers: 0.20.3

generation_config.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
-  "transformers_version": "4.46.2"
 }

   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
+  "transformers_version": "4.46.3"
 }