End of training

Browse files

Files changed (6) hide show

README.md +64 -0
all_results.json +9 -0
config.json +1 -1
generation_config.json +14 -0
train_results.json +9 -0
trainer_state.json +924 -0

README.md ADDED Viewed

	@@ -0,0 +1,64 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: yiran-wang3/qwen1_chat_adamw_iter3
+tags:
+- alignment-handbook
+- generated_from_trainer
+- trl
+- dpo
+datasets:
+- self-generate/qw1_sppo_hard_new_cn_mining_oj_iter3-binarized
+model-index:
+- name: qwen1_chat_adamw_iter4
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# qwen1_chat_adamw_iter4
+This model is a fine-tuned version of [yiran-wang3/qwen1_chat_adamw_iter3](https://huggingface.co/yiran-wang3/qwen1_chat_adamw_iter3) on the self-generate/qw1_sppo_hard_new_cn_mining_oj_iter3-binarized dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 8
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- total_train_batch_size: 64
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
+- lr_scheduler_warmup_ratio: 0.1
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 1.0
+### Training results
+### Framework versions
+- Transformers 4.45.0
+- Pytorch 2.4.0+cu121
+- Datasets 2.14.6
+- Tokenizers 0.20.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4958818086556026,
+    "train_runtime": 153.9035,
+    "train_samples": 2688,
+    "train_samples_per_second": 17.465,
+    "train_steps_per_second": 0.273
+}

config.json CHANGED Viewed

@@ -23,7 +23,7 @@
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
-  "use_cache": false,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
+  "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.45.0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4958818086556026,
+    "train_runtime": 153.9035,
+    "train_samples": 2688,
+    "train_samples_per_second": 17.465,
+    "train_steps_per_second": 0.273
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,924 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 100,
+  "global_step": 42,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "debug/policy_chosen_logits": -0.6439481973648071,
+      "debug/policy_chosen_logps": -163.79736328125,
+      "debug/policy_rejected_logits": -0.6659940481185913,
+      "debug/policy_rejected_logps": -166.54815673828125,
+      "debug/reference_chosen_logps": -163.79736328125,
+      "debug/reference_rejected_logps": -166.54815673828125,
+      "epoch": 0.023809523809523808,
+      "grad_norm": 8.358603090602669,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.6439481973648071,
+      "logits/rejected": -0.6659940481185913,
+      "logps/chosen": -163.79736328125,
+      "logps/rejected": -166.54815673828125,
+      "loss": 0.5,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "debug/policy_chosen_logits": -0.7713825702667236,
+      "debug/policy_chosen_logps": -184.54640197753906,
+      "debug/policy_rejected_logits": -0.652373731136322,
+      "debug/policy_rejected_logps": -165.83177185058594,
+      "debug/reference_chosen_logps": -184.75267028808594,
+      "debug/reference_rejected_logps": -166.013916015625,
+      "epoch": 0.047619047619047616,
+      "grad_norm": 7.3640129793355005,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7713825702667236,
+      "logits/rejected": -0.652373731136322,
+      "logps/chosen": -184.54640197753906,
+      "logps/rejected": -165.83177185058594,
+      "loss": 0.5002,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.002062625717371702,
+      "rewards/margins": 0.00024105067132040858,
+      "rewards/rejected": 0.0018215751042589545,
+      "step": 2
+    },
+    {
+      "debug/policy_chosen_logits": -0.6304819583892822,
+      "debug/policy_chosen_logps": -217.33445739746094,
+      "debug/policy_rejected_logits": -0.6844841837882996,
+      "debug/policy_rejected_logps": -181.04327392578125,
+      "debug/reference_chosen_logps": -217.23004150390625,
+      "debug/reference_rejected_logps": -180.46067810058594,
+      "epoch": 0.07142857142857142,
+      "grad_norm": 7.75582359273493,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.6304819583892822,
+      "logits/rejected": -0.6844841837882996,
+      "logps/chosen": -217.33445739746094,
+      "logps/rejected": -181.04327392578125,
+      "loss": 0.499,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.0010441780323162675,
+      "rewards/margins": 0.0047818757593631744,
+      "rewards/rejected": -0.005826053209602833,
+      "step": 3
+    },
+    {
+      "debug/policy_chosen_logits": -0.7617719769477844,
+      "debug/policy_chosen_logps": -149.78887939453125,
+      "debug/policy_rejected_logits": -0.7908269762992859,
+      "debug/policy_rejected_logps": -156.19158935546875,
+      "debug/reference_chosen_logps": -150.406494140625,
+      "debug/reference_rejected_logps": -156.66110229492188,
+      "epoch": 0.09523809523809523,
+      "grad_norm": 7.458999772215554,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7617719769477844,
+      "logits/rejected": -0.7908269762992859,
+      "logps/chosen": -149.78887939453125,
+      "logps/rejected": -156.19158935546875,
+      "loss": 0.5011,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.006176195107400417,
+      "rewards/margins": 0.0014810848515480757,
+      "rewards/rejected": 0.004695110023021698,
+      "step": 4
+    },
+    {
+      "debug/policy_chosen_logits": -0.8336195945739746,
+      "debug/policy_chosen_logps": -167.17535400390625,
+      "debug/policy_rejected_logits": -0.815830409526825,
+      "debug/policy_rejected_logps": -167.67922973632812,
+      "debug/reference_chosen_logps": -166.9479217529297,
+      "debug/reference_rejected_logps": -167.18917846679688,
+      "epoch": 0.11904761904761904,
+      "grad_norm": 7.115986789851628,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8336195945739746,
+      "logits/rejected": -0.815830409526825,
+      "logps/chosen": -167.17535400390625,
+      "logps/rejected": -167.67922973632812,
+      "loss": 0.4994,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.0022743605077266693,
+      "rewards/margins": 0.002626247238367796,
+      "rewards/rejected": -0.004900607746094465,
+      "step": 5
+    },
+    {
+      "debug/policy_chosen_logits": -0.7617685198783875,
+      "debug/policy_chosen_logps": -184.65655517578125,
+      "debug/policy_rejected_logits": -0.8746406435966492,
+      "debug/policy_rejected_logps": -182.16636657714844,
+      "debug/reference_chosen_logps": -185.37466430664062,
+      "debug/reference_rejected_logps": -182.4168243408203,
+      "epoch": 0.14285714285714285,
+      "grad_norm": 8.182698444266666,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7617685198783875,
+      "logits/rejected": -0.8746406435966492,
+      "logps/chosen": -184.65655517578125,
+      "logps/rejected": -182.16636657714844,
+      "loss": 0.4999,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.007181110326200724,
+      "rewards/margins": 0.004676399286836386,
+      "rewards/rejected": 0.002504711039364338,
+      "step": 6
+    },
+    {
+      "debug/policy_chosen_logits": -0.6539808511734009,
+      "debug/policy_chosen_logps": -176.93988037109375,
+      "debug/policy_rejected_logits": -0.8548093438148499,
+      "debug/policy_rejected_logps": -169.08441162109375,
+      "debug/reference_chosen_logps": -178.0904541015625,
+      "debug/reference_rejected_logps": -169.7830810546875,
+      "epoch": 0.16666666666666666,
+      "grad_norm": 7.369445143000824,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.6539808511734009,
+      "logits/rejected": -0.8548093438148499,
+      "logps/chosen": -176.93988037109375,
+      "logps/rejected": -169.08441162109375,
+      "loss": 0.499,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.011505775153636932,
+      "rewards/margins": 0.004519080743193626,
+      "rewards/rejected": 0.006986694410443306,
+      "step": 7
+    },
+    {
+      "debug/policy_chosen_logits": -0.7742728590965271,
+      "debug/policy_chosen_logps": -182.88198852539062,
+      "debug/policy_rejected_logits": -0.9402408599853516,
+      "debug/policy_rejected_logps": -163.03701782226562,
+      "debug/reference_chosen_logps": -182.63662719726562,
+      "debug/reference_rejected_logps": -162.864013671875,
+      "epoch": 0.19047619047619047,
+      "grad_norm": 7.553395553689711,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7742728590965271,
+      "logits/rejected": -0.9402408599853516,
+      "logps/chosen": -182.88198852539062,
+      "logps/rejected": -163.03701782226562,
+      "loss": 0.4921,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.002453470602631569,
+      "rewards/margins": -0.0007233805954456329,
+      "rewards/rejected": -0.0017300891922786832,
+      "step": 8
+    },
+    {
+      "debug/policy_chosen_logits": -0.8858636617660522,
+      "debug/policy_chosen_logps": -185.8077850341797,
+      "debug/policy_rejected_logits": -0.7941207885742188,
+      "debug/policy_rejected_logps": -175.6250762939453,
+      "debug/reference_chosen_logps": -186.4120330810547,
+      "debug/reference_rejected_logps": -175.30789184570312,
+      "epoch": 0.21428571428571427,
+      "grad_norm": 7.467636712052708,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8858636617660522,
+      "logits/rejected": -0.7941207885742188,
+      "logps/chosen": -185.8077850341797,
+      "logps/rejected": -175.6250762939453,
+      "loss": 0.4997,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.006042527966201305,
+      "rewards/margins": 0.009214296005666256,
+      "rewards/rejected": -0.003171768505126238,
+      "step": 9
+    },
+    {
+      "debug/policy_chosen_logits": -0.7334473729133606,
+      "debug/policy_chosen_logps": -190.0528564453125,
+      "debug/policy_rejected_logits": -0.7853918075561523,
+      "debug/policy_rejected_logps": -195.84039306640625,
+      "debug/reference_chosen_logps": -189.301025390625,
+      "debug/reference_rejected_logps": -194.78436279296875,
+      "epoch": 0.23809523809523808,
+      "grad_norm": 7.964770440555194,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7334473729133606,
+      "logits/rejected": -0.7853918075561523,
+      "logps/chosen": -190.0528564453125,
+      "logps/rejected": -195.84039306640625,
+      "loss": 0.4948,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.007518520578742027,
+      "rewards/margins": 0.0030419151298701763,
+      "rewards/rejected": -0.010560436174273491,
+      "step": 10
+    },
+    {
+      "debug/policy_chosen_logits": -0.8003349304199219,
+      "debug/policy_chosen_logps": -168.6732177734375,
+      "debug/policy_rejected_logits": -0.9006801247596741,
+      "debug/policy_rejected_logps": -167.43930053710938,
+      "debug/reference_chosen_logps": -169.00479125976562,
+      "debug/reference_rejected_logps": -167.300537109375,
+      "epoch": 0.2619047619047619,
+      "grad_norm": 7.30274943780698,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8003349304199219,
+      "logits/rejected": -0.9006801247596741,
+      "logps/chosen": -168.6732177734375,
+      "logps/rejected": -167.43930053710938,
+      "loss": 0.4969,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0033157537691295147,
+      "rewards/margins": 0.004703282844275236,
+      "rewards/rejected": -0.0013875290751457214,
+      "step": 11
+    },
+    {
+      "debug/policy_chosen_logits": -0.6824413537979126,
+      "debug/policy_chosen_logps": -184.35902404785156,
+      "debug/policy_rejected_logits": -0.789950430393219,
+      "debug/policy_rejected_logps": -166.5255889892578,
+      "debug/reference_chosen_logps": -183.53871154785156,
+      "debug/reference_rejected_logps": -165.9300537109375,
+      "epoch": 0.2857142857142857,
+      "grad_norm": 8.173133805318917,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.6824413537979126,
+      "logits/rejected": -0.789950430393219,
+      "logps/chosen": -184.35902404785156,
+      "logps/rejected": -166.5255889892578,
+      "loss": 0.5052,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.008203163743019104,
+      "rewards/margins": -0.002247829921543598,
+      "rewards/rejected": -0.005955332890152931,
+      "step": 12
+    },
+    {
+      "debug/policy_chosen_logits": -0.6157864928245544,
+      "debug/policy_chosen_logps": -211.65432739257812,
+      "debug/policy_rejected_logits": -0.6641220450401306,
+      "debug/policy_rejected_logps": -185.09515380859375,
+      "debug/reference_chosen_logps": -211.2996826171875,
+      "debug/reference_rejected_logps": -183.47618103027344,
+      "epoch": 0.30952380952380953,
+      "grad_norm": 8.444033138598066,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.6157864928245544,
+      "logits/rejected": -0.6641220450401306,
+      "logps/chosen": -211.65432739257812,
+      "logps/rejected": -185.09515380859375,
+      "loss": 0.5043,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.003546419320628047,
+      "rewards/margins": 0.012643384747207165,
+      "rewards/rejected": -0.016189804300665855,
+      "step": 13
+    },
+    {
+      "debug/policy_chosen_logits": -0.7403644919395447,
+      "debug/policy_chosen_logps": -195.4632110595703,
+      "debug/policy_rejected_logits": -0.7375439405441284,
+      "debug/policy_rejected_logps": -183.90927124023438,
+      "debug/reference_chosen_logps": -195.64161682128906,
+      "debug/reference_rejected_logps": -182.89498901367188,
+      "epoch": 0.3333333333333333,
+      "grad_norm": 7.408605476058083,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7403644919395447,
+      "logits/rejected": -0.7375439405441284,
+      "logps/chosen": -195.4632110595703,
+      "logps/rejected": -183.90927124023438,
+      "loss": 0.5004,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.0017841914668679237,
+      "rewards/margins": 0.01192712876945734,
+      "rewards/rejected": -0.010142937302589417,
+      "step": 14
+    },
+    {
+      "debug/policy_chosen_logits": -0.7125188112258911,
+      "debug/policy_chosen_logps": -185.01406860351562,
+      "debug/policy_rejected_logits": -0.6736459732055664,
+      "debug/policy_rejected_logps": -198.6136474609375,
+      "debug/reference_chosen_logps": -184.66270446777344,
+      "debug/reference_rejected_logps": -199.4155731201172,
+      "epoch": 0.35714285714285715,
+      "grad_norm": 7.276791758228749,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7125188112258911,
+      "logits/rejected": -0.6736459732055664,
+      "logps/chosen": -185.01406860351562,
+      "logps/rejected": -198.6136474609375,
+      "loss": 0.5004,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": -0.0035135941579937935,
+      "rewards/margins": -0.011532812379300594,
+      "rewards/rejected": 0.0080192182213068,
+      "step": 15
+    },
+    {
+      "debug/policy_chosen_logits": -0.5169116854667664,
+      "debug/policy_chosen_logps": -190.42169189453125,
+      "debug/policy_rejected_logits": -0.6472907662391663,
+      "debug/policy_rejected_logps": -190.09664916992188,
+      "debug/reference_chosen_logps": -189.55734252929688,
+      "debug/reference_rejected_logps": -190.24142456054688,
+      "epoch": 0.38095238095238093,
+      "grad_norm": 8.20069010191667,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.5169116854667664,
+      "logits/rejected": -0.6472907662391663,
+      "logps/chosen": -190.42169189453125,
+      "logps/rejected": -190.09664916992188,
+      "loss": 0.499,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": -0.008643608540296555,
+      "rewards/margins": -0.01009130384773016,
+      "rewards/rejected": 0.0014476971700787544,
+      "step": 16
+    },
+    {
+      "debug/policy_chosen_logits": -0.7377853393554688,
+      "debug/policy_chosen_logps": -200.92160034179688,
+      "debug/policy_rejected_logits": -0.7474555969238281,
+      "debug/policy_rejected_logps": -171.23770141601562,
+      "debug/reference_chosen_logps": -203.17816162109375,
+      "debug/reference_rejected_logps": -173.13076782226562,
+      "epoch": 0.40476190476190477,
+      "grad_norm": 7.891928207816402,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7377853393554688,
+      "logits/rejected": -0.7474555969238281,
+      "logps/chosen": -200.92160034179688,
+      "logps/rejected": -171.23770141601562,
+      "loss": 0.4943,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.022565487772226334,
+      "rewards/margins": 0.0036347098648548126,
+      "rewards/rejected": 0.01893077790737152,
+      "step": 17
+    },
+    {
+      "debug/policy_chosen_logits": -0.7308653593063354,
+      "debug/policy_chosen_logps": -167.10345458984375,
+      "debug/policy_rejected_logits": -0.6757017970085144,
+      "debug/policy_rejected_logps": -181.9193115234375,
+      "debug/reference_chosen_logps": -167.61911010742188,
+      "debug/reference_rejected_logps": -181.3040313720703,
+      "epoch": 0.42857142857142855,
+      "grad_norm": 7.194541349513648,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7308653593063354,
+      "logits/rejected": -0.6757017970085144,
+      "logps/chosen": -167.10345458984375,
+      "logps/rejected": -181.9193115234375,
+      "loss": 0.4943,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.005156440194696188,
+      "rewards/margins": 0.011309223249554634,
+      "rewards/rejected": -0.0061527821235358715,
+      "step": 18
+    },
+    {
+      "debug/policy_chosen_logits": -1.0581732988357544,
+      "debug/policy_chosen_logps": -179.4306640625,
+      "debug/policy_rejected_logits": -0.7043694853782654,
+      "debug/policy_rejected_logps": -193.04718017578125,
+      "debug/reference_chosen_logps": -180.15823364257812,
+      "debug/reference_rejected_logps": -190.65826416015625,
+      "epoch": 0.4523809523809524,
+      "grad_norm": 7.6448718281675925,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.0581732988357544,
+      "logits/rejected": -0.7043694853782654,
+      "logps/chosen": -179.4306640625,
+      "logps/rejected": -193.04718017578125,
+      "loss": 0.4931,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.007275867275893688,
+      "rewards/margins": 0.031165312975645065,
+      "rewards/rejected": -0.02388944663107395,
+      "step": 19
+    },
+    {
+      "debug/policy_chosen_logits": -0.9795810580253601,
+      "debug/policy_chosen_logps": -144.11380004882812,
+      "debug/policy_rejected_logits": -0.7538442611694336,
+      "debug/policy_rejected_logps": -214.71441650390625,
+      "debug/reference_chosen_logps": -144.12933349609375,
+      "debug/reference_rejected_logps": -213.61111450195312,
+      "epoch": 0.47619047619047616,
+      "grad_norm": 7.786576857481396,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.9795810580253601,
+      "logits/rejected": -0.7538442611694336,
+      "logps/chosen": -144.11380004882812,
+      "logps/rejected": -214.71441650390625,
+      "loss": 0.4928,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.00015540141612291336,
+      "rewards/margins": 0.011188210919499397,
+      "rewards/rejected": -0.011032810434699059,
+      "step": 20
+    },
+    {
+      "debug/policy_chosen_logits": -0.7604963183403015,
+      "debug/policy_chosen_logps": -157.40818786621094,
+      "debug/policy_rejected_logits": -0.6597434282302856,
+      "debug/policy_rejected_logps": -185.41986083984375,
+      "debug/reference_chosen_logps": -160.44407653808594,
+      "debug/reference_rejected_logps": -182.03868103027344,
+      "epoch": 0.5,
+      "grad_norm": 7.858114281838474,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7604963183403015,
+      "logits/rejected": -0.6597434282302856,
+      "logps/chosen": -157.40818786621094,
+      "logps/rejected": -185.41986083984375,
+      "loss": 0.4914,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.03035891428589821,
+      "rewards/margins": 0.06417068839073181,
+      "rewards/rejected": -0.0338117778301239,
+      "step": 21
+    },
+    {
+      "debug/policy_chosen_logits": -0.8006449341773987,
+      "debug/policy_chosen_logps": -162.42440795898438,
+      "debug/policy_rejected_logits": -0.8503648638725281,
+      "debug/policy_rejected_logps": -174.94754028320312,
+      "debug/reference_chosen_logps": -162.67764282226562,
+      "debug/reference_rejected_logps": -174.77188110351562,
+      "epoch": 0.5238095238095238,
+      "grad_norm": 7.589809681723597,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8006449341773987,
+      "logits/rejected": -0.8503648638725281,
+      "logps/chosen": -162.42440795898438,
+      "logps/rejected": -174.94754028320312,
+      "loss": 0.4952,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0025324064772576094,
+      "rewards/margins": 0.00428897887468338,
+      "rewards/rejected": -0.00175657297950238,
+      "step": 22
+    },
+    {
+      "debug/policy_chosen_logits": -0.6231905221939087,
+      "debug/policy_chosen_logps": -183.37933349609375,
+      "debug/policy_rejected_logits": -0.7476862668991089,
+      "debug/policy_rejected_logps": -187.78033447265625,
+      "debug/reference_chosen_logps": -184.22604370117188,
+      "debug/reference_rejected_logps": -189.98977661132812,
+      "epoch": 0.5476190476190477,
+      "grad_norm": 7.69965081121822,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.6231905221939087,
+      "logits/rejected": -0.7476862668991089,
+      "logps/chosen": -183.37933349609375,
+      "logps/rejected": -187.78033447265625,
+      "loss": 0.4966,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.008467159233987331,
+      "rewards/margins": -0.013627204112708569,
+      "rewards/rejected": 0.0220943633466959,
+      "step": 23
+    },
+    {
+      "debug/policy_chosen_logits": -0.7983882427215576,
+      "debug/policy_chosen_logps": -185.93341064453125,
+      "debug/policy_rejected_logits": -0.6273135542869568,
+      "debug/policy_rejected_logps": -189.53146362304688,
+      "debug/reference_chosen_logps": -187.12313842773438,
+      "debug/reference_rejected_logps": -185.13299560546875,
+      "epoch": 0.5714285714285714,
+      "grad_norm": 7.265726875759624,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7983882427215576,
+      "logits/rejected": -0.6273135542869568,
+      "logps/chosen": -185.93341064453125,
+      "logps/rejected": -189.53146362304688,
+      "loss": 0.4943,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.011897353455424309,
+      "rewards/margins": 0.05588197708129883,
+      "rewards/rejected": -0.04398462548851967,
+      "step": 24
+    },
+    {
+      "debug/policy_chosen_logits": -0.7363254427909851,
+      "debug/policy_chosen_logps": -190.56884765625,
+      "debug/policy_rejected_logits": -0.8710167407989502,
+      "debug/policy_rejected_logps": -178.10833740234375,
+      "debug/reference_chosen_logps": -191.86727905273438,
+      "debug/reference_rejected_logps": -178.6790771484375,
+      "epoch": 0.5952380952380952,
+      "grad_norm": 8.03325556485008,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7363254427909851,
+      "logits/rejected": -0.8710167407989502,
+      "logps/chosen": -190.56884765625,
+      "logps/rejected": -178.10833740234375,
+      "loss": 0.4987,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.01298445649445057,
+      "rewards/margins": 0.007277126424014568,
+      "rewards/rejected": 0.005707330536097288,
+      "step": 25
+    },
+    {
+      "debug/policy_chosen_logits": -0.7094403505325317,
+      "debug/policy_chosen_logps": -192.48045349121094,
+      "debug/policy_rejected_logits": -0.8579303622245789,
+      "debug/policy_rejected_logps": -160.70278930664062,
+      "debug/reference_chosen_logps": -192.60931396484375,
+      "debug/reference_rejected_logps": -160.4152069091797,
+      "epoch": 0.6190476190476191,
+      "grad_norm": 8.392052457610536,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7094403505325317,
+      "logits/rejected": -0.8579303622245789,
+      "logps/chosen": -192.48045349121094,
+      "logps/rejected": -160.70278930664062,
+      "loss": 0.4925,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0012884328607469797,
+      "rewards/margins": 0.004164162091910839,
+      "rewards/rejected": -0.002875728067010641,
+      "step": 26
+    },
+    {
+      "debug/policy_chosen_logits": -0.7367204427719116,
+      "debug/policy_chosen_logps": -184.6185302734375,
+      "debug/policy_rejected_logits": -0.9200541377067566,
+      "debug/policy_rejected_logps": -154.06069946289062,
+      "debug/reference_chosen_logps": -183.95535278320312,
+      "debug/reference_rejected_logps": -151.5093994140625,
+      "epoch": 0.6428571428571429,
+      "grad_norm": 7.914288836516155,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7367204427719116,
+      "logits/rejected": -0.9200541377067566,
+      "logps/chosen": -184.6185302734375,
+      "logps/rejected": -154.06069946289062,
+      "loss": 0.4969,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.006631812080740929,
+      "rewards/margins": 0.018881112337112427,
+      "rewards/rejected": -0.025512924417853355,
+      "step": 27
+    },
+    {
+      "debug/policy_chosen_logits": -0.7553640604019165,
+      "debug/policy_chosen_logps": -168.9253387451172,
+      "debug/policy_rejected_logits": -0.7094727754592896,
+      "debug/policy_rejected_logps": -187.59722900390625,
+      "debug/reference_chosen_logps": -169.41290283203125,
+      "debug/reference_rejected_logps": -185.31549072265625,
+      "epoch": 0.6666666666666666,
+      "grad_norm": 7.711585954287691,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7553640604019165,
+      "logits/rejected": -0.7094727754592896,
+      "logps/chosen": -168.9253387451172,
+      "logps/rejected": -187.59722900390625,
+      "loss": 0.4958,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.004875545389950275,
+      "rewards/margins": 0.027692819014191628,
+      "rewards/rejected": -0.022817274555563927,
+      "step": 28
+    },
+    {
+      "debug/policy_chosen_logits": -0.7795163989067078,
+      "debug/policy_chosen_logps": -174.99765014648438,
+      "debug/policy_rejected_logits": -0.6498023867607117,
+      "debug/policy_rejected_logps": -176.65753173828125,
+      "debug/reference_chosen_logps": -177.16432189941406,
+      "debug/reference_rejected_logps": -169.98782348632812,
+      "epoch": 0.6904761904761905,
+      "grad_norm": 8.24116900154138,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7795163989067078,
+      "logits/rejected": -0.6498023867607117,
+      "logps/chosen": -174.99765014648438,
+      "logps/rejected": -176.65753173828125,
+      "loss": 0.4927,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.02166653797030449,
+      "rewards/margins": 0.0883636474609375,
+      "rewards/rejected": -0.06669710576534271,
+      "step": 29
+    },
+    {
+      "debug/policy_chosen_logits": -0.765297532081604,
+      "debug/policy_chosen_logps": -166.05271911621094,
+      "debug/policy_rejected_logits": -0.7573273181915283,
+      "debug/policy_rejected_logps": -172.04452514648438,
+      "debug/reference_chosen_logps": -168.9293212890625,
+      "debug/reference_rejected_logps": -166.12124633789062,
+      "epoch": 0.7142857142857143,
+      "grad_norm": 7.684221348146213,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.765297532081604,
+      "logits/rejected": -0.7573273181915283,
+      "logps/chosen": -166.05271911621094,
+      "logps/rejected": -172.04452514648438,
+      "loss": 0.4765,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.02876604162156582,
+      "rewards/margins": 0.0879988819360733,
+      "rewards/rejected": -0.05923284590244293,
+      "step": 30
+    },
+    {
+      "debug/policy_chosen_logits": -0.8140920400619507,
+      "debug/policy_chosen_logps": -157.61114501953125,
+      "debug/policy_rejected_logits": -0.8540012240409851,
+      "debug/policy_rejected_logps": -149.83985900878906,
+      "debug/reference_chosen_logps": -157.62954711914062,
+      "debug/reference_rejected_logps": -150.52252197265625,
+      "epoch": 0.7380952380952381,
+      "grad_norm": 7.312129798518852,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8140920400619507,
+      "logits/rejected": -0.8540012240409851,
+      "logps/chosen": -157.61114501953125,
+      "logps/rejected": -149.83985900878906,
+      "loss": 0.4846,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.00018399255350232124,
+      "rewards/margins": -0.006642608437687159,
+      "rewards/rejected": 0.0068266005255281925,
+      "step": 31
+    },
+    {
+      "debug/policy_chosen_logits": -0.828736424446106,
+      "debug/policy_chosen_logps": -199.23670959472656,
+      "debug/policy_rejected_logits": -0.8586711883544922,
+      "debug/policy_rejected_logps": -195.8037109375,
+      "debug/reference_chosen_logps": -202.66885375976562,
+      "debug/reference_rejected_logps": -196.2105712890625,
+      "epoch": 0.7619047619047619,
+      "grad_norm": 8.499188978992954,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.828736424446106,
+      "logits/rejected": -0.8586711883544922,
+      "logps/chosen": -199.23670959472656,
+      "logps/rejected": -195.8037109375,
+      "loss": 0.4947,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.03432141989469528,
+      "rewards/margins": 0.030252739787101746,
+      "rewards/rejected": 0.004068680107593536,
+      "step": 32
+    },
+    {
+      "debug/policy_chosen_logits": -0.999685525894165,
+      "debug/policy_chosen_logps": -152.76031494140625,
+      "debug/policy_rejected_logits": -0.9262170195579529,
+      "debug/policy_rejected_logps": -162.0545654296875,
+      "debug/reference_chosen_logps": -154.5694580078125,
+      "debug/reference_rejected_logps": -163.3520050048828,
+      "epoch": 0.7857142857142857,
+      "grad_norm": 9.443819086095726,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.999685525894165,
+      "logits/rejected": -0.9262170195579529,
+      "logps/chosen": -152.76031494140625,
+      "logps/rejected": -162.0545654296875,
+      "loss": 0.4979,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.018091343343257904,
+      "rewards/margins": 0.005116909742355347,
+      "rewards/rejected": 0.012974433600902557,
+      "step": 33
+    },
+    {
+      "debug/policy_chosen_logits": -0.8131186366081238,
+      "debug/policy_chosen_logps": -176.6094970703125,
+      "debug/policy_rejected_logits": -0.8697344660758972,
+      "debug/policy_rejected_logps": -163.28733825683594,
+      "debug/reference_chosen_logps": -178.95578002929688,
+      "debug/reference_rejected_logps": -164.67742919921875,
+      "epoch": 0.8095238095238095,
+      "grad_norm": 7.712830918193006,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8131186366081238,
+      "logits/rejected": -0.8697344660758972,
+      "logps/chosen": -176.6094970703125,
+      "logps/rejected": -163.28733825683594,
+      "loss": 0.4802,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.023462962359189987,
+      "rewards/margins": 0.009562014602124691,
+      "rewards/rejected": 0.013900947757065296,
+      "step": 34
+    },
+    {
+      "debug/policy_chosen_logits": -0.8859131336212158,
+      "debug/policy_chosen_logps": -151.08670043945312,
+      "debug/policy_rejected_logits": -0.7367634177207947,
+      "debug/policy_rejected_logps": -187.77529907226562,
+      "debug/reference_chosen_logps": -151.78994750976562,
+      "debug/reference_rejected_logps": -188.71148681640625,
+      "epoch": 0.8333333333333334,
+      "grad_norm": 7.772010316317829,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8859131336212158,
+      "logits/rejected": -0.7367634177207947,
+      "logps/chosen": -151.08670043945312,
+      "logps/rejected": -187.77529907226562,
+      "loss": 0.4987,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.007032603491097689,
+      "rewards/margins": -0.0023292540572583675,
+      "rewards/rejected": 0.009361859411001205,
+      "step": 35
+    },
+    {
+      "debug/policy_chosen_logits": -1.021881103515625,
+      "debug/policy_chosen_logps": -152.13558959960938,
+      "debug/policy_rejected_logits": -0.9204192757606506,
+      "debug/policy_rejected_logps": -156.73532104492188,
+      "debug/reference_chosen_logps": -153.53016662597656,
+      "debug/reference_rejected_logps": -155.900390625,
+      "epoch": 0.8571428571428571,
+      "grad_norm": 7.79269703298962,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.021881103515625,
+      "logits/rejected": -0.9204192757606506,
+      "logps/chosen": -152.13558959960938,
+      "logps/rejected": -156.73532104492188,
+      "loss": 0.4992,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.013945741578936577,
+      "rewards/margins": 0.022295091301202774,
+      "rewards/rejected": -0.008349351584911346,
+      "step": 36
+    },
+    {
+      "debug/policy_chosen_logits": -0.9045673608779907,
+      "debug/policy_chosen_logps": -162.5475616455078,
+      "debug/policy_rejected_logits": -0.7598194479942322,
+      "debug/policy_rejected_logps": -182.2893524169922,
+      "debug/reference_chosen_logps": -160.34432983398438,
+      "debug/reference_rejected_logps": -181.31771850585938,
+      "epoch": 0.8809523809523809,
+      "grad_norm": 7.302553625861432,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.9045673608779907,
+      "logits/rejected": -0.7598194479942322,
+      "logps/chosen": -162.5475616455078,
+      "logps/rejected": -182.2893524169922,
+      "loss": 0.4948,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.022032355889678,
+      "rewards/margins": -0.012315940111875534,
+      "rewards/rejected": -0.009716415777802467,
+      "step": 37
+    },
+    {
+      "debug/policy_chosen_logits": -0.8838567137718201,
+      "debug/policy_chosen_logps": -159.49447631835938,
+      "debug/policy_rejected_logits": -0.7277163863182068,
+      "debug/policy_rejected_logps": -173.29983520507812,
+      "debug/reference_chosen_logps": -157.34768676757812,
+      "debug/reference_rejected_logps": -174.5061798095703,
+      "epoch": 0.9047619047619048,
+      "grad_norm": 8.009966690297112,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8838567137718201,
+      "logits/rejected": -0.7277163863182068,
+      "logps/chosen": -159.49447631835938,
+      "logps/rejected": -173.29983520507812,
+      "loss": 0.4969,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.021467961370944977,
+      "rewards/margins": -0.033531542867422104,
+      "rewards/rejected": 0.012063578702509403,
+      "step": 38
+    },
+    {
+      "debug/policy_chosen_logits": -0.8647378087043762,
+      "debug/policy_chosen_logps": -168.72879028320312,
+      "debug/policy_rejected_logits": -0.8511701226234436,
+      "debug/policy_rejected_logps": -167.3757781982422,
+      "debug/reference_chosen_logps": -170.26791381835938,
+      "debug/reference_rejected_logps": -156.91049194335938,
+      "epoch": 0.9285714285714286,
+      "grad_norm": 10.230464779726292,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8647378087043762,
+      "logits/rejected": -0.8511701226234436,
+      "logps/chosen": -168.72879028320312,
+      "logps/rejected": -167.3757781982422,
+      "loss": 0.4957,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.015391308814287186,
+      "rewards/margins": 0.12004411220550537,
+      "rewards/rejected": -0.10465279966592789,
+      "step": 39
+    },
+    {
+      "debug/policy_chosen_logits": -0.8634677529335022,
+      "debug/policy_chosen_logps": -165.60440063476562,
+      "debug/policy_rejected_logits": -0.8949252963066101,
+      "debug/policy_rejected_logps": -175.58946228027344,
+      "debug/reference_chosen_logps": -165.80642700195312,
+      "debug/reference_rejected_logps": -175.4860076904297,
+      "epoch": 0.9523809523809523,
+      "grad_norm": 7.9621712252904775,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8634677529335022,
+      "logits/rejected": -0.8949252963066101,
+      "logps/chosen": -165.60440063476562,
+      "logps/rejected": -175.58946228027344,
+      "loss": 0.5005,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.002020292915403843,
+      "rewards/margins": 0.003054857486858964,
+      "rewards/rejected": -0.0010345648042857647,
+      "step": 40
+    },
+    {
+      "debug/policy_chosen_logits": -0.7188435792922974,
+      "debug/policy_chosen_logps": -172.37435913085938,
+      "debug/policy_rejected_logits": -0.7236220240592957,
+      "debug/policy_rejected_logps": -183.69638061523438,
+      "debug/reference_chosen_logps": -175.7699432373047,
+      "debug/reference_rejected_logps": -184.23777770996094,
+      "epoch": 0.9761904761904762,
+      "grad_norm": 7.838370371563211,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7188435792922974,
+      "logits/rejected": -0.7236220240592957,
+      "logps/chosen": -172.37435913085938,
+      "logps/rejected": -183.69638061523438,
+      "loss": 0.4862,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.033955782651901245,
+      "rewards/margins": 0.028541620820760727,
+      "rewards/rejected": 0.005414160899817944,
+      "step": 41
+    },
+    {
+      "debug/policy_chosen_logits": -0.5989887118339539,
+      "debug/policy_chosen_logps": -197.09739685058594,
+      "debug/policy_rejected_logits": -0.6930462718009949,
+      "debug/policy_rejected_logps": -169.6961212158203,
+      "debug/reference_chosen_logps": -200.82525634765625,
+      "debug/reference_rejected_logps": -174.00146484375,
+      "epoch": 1.0,
+      "grad_norm": 9.25027887070611,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.5989887118339539,
+      "logits/rejected": -0.6930462718009949,
+      "logps/chosen": -197.09739685058594,
+      "logps/rejected": -169.6961212158203,
+      "loss": 0.5012,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.037278518080711365,
+      "rewards/margins": -0.005774736870080233,
+      "rewards/rejected": 0.04305325448513031,
+      "step": 42
+    },
+    {
+      "epoch": 1.0,
+      "step": 42,
+      "total_flos": 0.0,
+      "train_loss": 0.4958818086556026,
+      "train_runtime": 153.9035,
+      "train_samples_per_second": 17.465,
+      "train_steps_per_second": 0.273
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 42,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}