End of training

Browse files

Files changed (6) hide show

README.md +64 -0
all_results.json +9 -0
config.json +1 -1
generation_config.json +14 -0
train_results.json +9 -0
trainer_state.json +840 -0

README.md ADDED Viewed

	@@ -0,0 +1,64 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: yiran-wang3/qwen2_coder_reflct_adamw_iter3
+tags:
+- alignment-handbook
+- generated_from_trainer
+- trl
+- dpo
+datasets:
+- self-generate/qwcoder2_reflct_sppo_hard_new_cn_mining_oj_iter3-binarized-reflection-scored
+model-index:
+- name: qwen2_coder_reflct_adamw_iter4
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# qwen2_coder_reflct_adamw_iter4
+This model is a fine-tuned version of [yiran-wang3/qwen2_coder_reflct_adamw_iter3](https://huggingface.co/yiran-wang3/qwen2_coder_reflct_adamw_iter3) on the self-generate/qwcoder2_reflct_sppo_hard_new_cn_mining_oj_iter3-binarized-reflection-scored dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 8
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- total_train_batch_size: 64
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
+- lr_scheduler_warmup_ratio: 0.1
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 1.0
+### Training results
+### Framework versions
+- Transformers 4.45.0
+- Pytorch 2.4.0+cu121
+- Datasets 2.14.6
+- Tokenizers 0.20.2

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4622946350198043,
+    "train_runtime": 144.3728,
+    "train_samples": 2428,
+    "train_samples_per_second": 16.818,
+    "train_steps_per_second": 0.263
+}

config.json CHANGED Viewed

@@ -23,7 +23,7 @@
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
-  "use_cache": false,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
+  "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.45.0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4622946350198043,
+    "train_runtime": 144.3728,
+    "train_samples": 2428,
+    "train_samples_per_second": 16.818,
+    "train_steps_per_second": 0.263
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,840 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 100,
+  "global_step": 38,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "debug/policy_chosen_logits": -3.0018529891967773,
+      "debug/policy_chosen_logps": -178.11398315429688,
+      "debug/policy_rejected_logits": -3.148291826248169,
+      "debug/policy_rejected_logps": -211.41403198242188,
+      "debug/reference_chosen_logps": -178.11398315429688,
+      "debug/reference_rejected_logps": -211.41403198242188,
+      "epoch": 0.02631578947368421,
+      "grad_norm": 7.001357289258973,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.0018529891967773,
+      "logits/rejected": -3.148291826248169,
+      "logps/chosen": -178.11398315429688,
+      "logps/rejected": -211.41403198242188,
+      "loss": 0.5,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "debug/policy_chosen_logits": -3.109767436981201,
+      "debug/policy_chosen_logps": -181.03724670410156,
+      "debug/policy_rejected_logits": -3.0829992294311523,
+      "debug/policy_rejected_logps": -192.5626220703125,
+      "debug/reference_chosen_logps": -180.47354125976562,
+      "debug/reference_rejected_logps": -192.10348510742188,
+      "epoch": 0.05263157894736842,
+      "grad_norm": 6.690576807834117,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.109767436981201,
+      "logits/rejected": -3.0829992294311523,
+      "logps/chosen": -181.03724670410156,
+      "logps/rejected": -192.5626220703125,
+      "loss": 0.5012,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.005636939778923988,
+      "rewards/margins": -0.0010454560397192836,
+      "rewards/rejected": -0.004591483622789383,
+      "step": 2
+    },
+    {
+      "debug/policy_chosen_logits": -3.1953020095825195,
+      "debug/policy_chosen_logps": -168.2648162841797,
+      "debug/policy_rejected_logits": -3.0766544342041016,
+      "debug/policy_rejected_logps": -181.56866455078125,
+      "debug/reference_chosen_logps": -168.64642333984375,
+      "debug/reference_rejected_logps": -181.52621459960938,
+      "epoch": 0.07894736842105263,
+      "grad_norm": 10.217915675316835,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.1953020095825195,
+      "logits/rejected": -3.0766544342041016,
+      "logps/chosen": -168.2648162841797,
+      "logps/rejected": -181.56866455078125,
+      "loss": 0.4988,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.0038160705007612705,
+      "rewards/margins": 0.004240531474351883,
+      "rewards/rejected": -0.00042446135194040835,
+      "step": 3
+    },
+    {
+      "debug/policy_chosen_logits": -2.936859607696533,
+      "debug/policy_chosen_logps": -196.4380645751953,
+      "debug/policy_rejected_logits": -2.9797654151916504,
+      "debug/policy_rejected_logps": -223.4413299560547,
+      "debug/reference_chosen_logps": -196.45535278320312,
+      "debug/reference_rejected_logps": -223.3170166015625,
+      "epoch": 0.10526315789473684,
+      "grad_norm": 6.408309822092249,
+      "learning_rate": 1e-06,
+      "logits/chosen": -2.936859607696533,
+      "logits/rejected": -2.9797654151916504,
+      "logps/chosen": -196.4380645751953,
+      "logps/rejected": -223.4413299560547,
+      "loss": 0.4949,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.00017278676386922598,
+      "rewards/margins": 0.001416072715073824,
+      "rewards/rejected": -0.0012432858347892761,
+      "step": 4
+    },
+    {
+      "debug/policy_chosen_logits": -3.322523593902588,
+      "debug/policy_chosen_logps": -167.5500946044922,
+      "debug/policy_rejected_logits": -3.356478214263916,
+      "debug/policy_rejected_logps": -200.8585205078125,
+      "debug/reference_chosen_logps": -167.9774169921875,
+      "debug/reference_rejected_logps": -200.06298828125,
+      "epoch": 0.13157894736842105,
+      "grad_norm": 7.788497859306542,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.322523593902588,
+      "logits/rejected": -3.356478214263916,
+      "logps/chosen": -167.5500946044922,
+      "logps/rejected": -200.8585205078125,
+      "loss": 0.4933,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.00427322369068861,
+      "rewards/margins": 0.012228774838149548,
+      "rewards/rejected": -0.007955551147460938,
+      "step": 5
+    },
+    {
+      "debug/policy_chosen_logits": -2.9735865592956543,
+      "debug/policy_chosen_logps": -180.93771362304688,
+      "debug/policy_rejected_logits": -3.0403549671173096,
+      "debug/policy_rejected_logps": -221.18209838867188,
+      "debug/reference_chosen_logps": -181.0188751220703,
+      "debug/reference_rejected_logps": -219.86424255371094,
+      "epoch": 0.15789473684210525,
+      "grad_norm": 7.672338278520194,
+      "learning_rate": 1e-06,
+      "logits/chosen": -2.9735865592956543,
+      "logits/rejected": -3.0403549671173096,
+      "logps/chosen": -180.93771362304688,
+      "logps/rejected": -221.18209838867188,
+      "loss": 0.491,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.0008116818498820066,
+      "rewards/margins": 0.013990296050906181,
+      "rewards/rejected": -0.013178614899516106,
+      "step": 6
+    },
+    {
+      "debug/policy_chosen_logits": -3.1537790298461914,
+      "debug/policy_chosen_logps": -170.55799865722656,
+      "debug/policy_rejected_logits": -3.094151020050049,
+      "debug/policy_rejected_logps": -186.5414276123047,
+      "debug/reference_chosen_logps": -170.28248596191406,
+      "debug/reference_rejected_logps": -185.3914794921875,
+      "epoch": 0.18421052631578946,
+      "grad_norm": 9.985482485638771,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.1537790298461914,
+      "logits/rejected": -3.094151020050049,
+      "logps/chosen": -170.55799865722656,
+      "logps/rejected": -186.5414276123047,
+      "loss": 0.4911,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.0027551264502108097,
+      "rewards/margins": 0.008744277991354465,
+      "rewards/rejected": -0.011499403975903988,
+      "step": 7
+    },
+    {
+      "debug/policy_chosen_logits": -3.1766419410705566,
+      "debug/policy_chosen_logps": -162.15562438964844,
+      "debug/policy_rejected_logits": -3.1496686935424805,
+      "debug/policy_rejected_logps": -205.495361328125,
+      "debug/reference_chosen_logps": -162.75245666503906,
+      "debug/reference_rejected_logps": -204.7869873046875,
+      "epoch": 0.21052631578947367,
+      "grad_norm": 9.955698852386796,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.1766419410705566,
+      "logits/rejected": -3.1496686935424805,
+      "logps/chosen": -162.15562438964844,
+      "logps/rejected": -205.495361328125,
+      "loss": 0.4907,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.005968417041003704,
+      "rewards/margins": 0.013052292168140411,
+      "rewards/rejected": -0.007083873264491558,
+      "step": 8
+    },
+    {
+      "debug/policy_chosen_logits": -3.072287082672119,
+      "debug/policy_chosen_logps": -169.07131958007812,
+      "debug/policy_rejected_logits": -3.13765287399292,
+      "debug/policy_rejected_logps": -239.11859130859375,
+      "debug/reference_chosen_logps": -170.79885864257812,
+      "debug/reference_rejected_logps": -237.47584533691406,
+      "epoch": 0.23684210526315788,
+      "grad_norm": 7.624438441931389,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.072287082672119,
+      "logits/rejected": -3.13765287399292,
+      "logps/chosen": -169.07131958007812,
+      "logps/rejected": -239.11859130859375,
+      "loss": 0.4938,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.017275407910346985,
+      "rewards/margins": 0.033702850341796875,
+      "rewards/rejected": -0.01642744056880474,
+      "step": 9
+    },
+    {
+      "debug/policy_chosen_logits": -3.0883498191833496,
+      "debug/policy_chosen_logps": -162.46302795410156,
+      "debug/policy_rejected_logits": -3.048661231994629,
+      "debug/policy_rejected_logps": -195.8798828125,
+      "debug/reference_chosen_logps": -166.1143798828125,
+      "debug/reference_rejected_logps": -195.7821807861328,
+      "epoch": 0.2631578947368421,
+      "grad_norm": 6.502437447513198,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.0883498191833496,
+      "logits/rejected": -3.048661231994629,
+      "logps/chosen": -162.46302795410156,
+      "logps/rejected": -195.8798828125,
+      "loss": 0.474,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.03651344031095505,
+      "rewards/margins": 0.037490349262952805,
+      "rewards/rejected": -0.0009769070893526077,
+      "step": 10
+    },
+    {
+      "debug/policy_chosen_logits": -3.0253381729125977,
+      "debug/policy_chosen_logps": -188.37547302246094,
+      "debug/policy_rejected_logits": -2.9573111534118652,
+      "debug/policy_rejected_logps": -183.5548553466797,
+      "debug/reference_chosen_logps": -190.44561767578125,
+      "debug/reference_rejected_logps": -185.97744750976562,
+      "epoch": 0.2894736842105263,
+      "grad_norm": 6.481854486966455,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.0253381729125977,
+      "logits/rejected": -2.9573111534118652,
+      "logps/chosen": -188.37547302246094,
+      "logps/rejected": -183.5548553466797,
+      "loss": 0.491,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.02070142701268196,
+      "rewards/margins": -0.0035245325416326523,
+      "rewards/rejected": 0.024225957691669464,
+      "step": 11
+    },
+    {
+      "debug/policy_chosen_logits": -3.051511287689209,
+      "debug/policy_chosen_logps": -179.14675903320312,
+      "debug/policy_rejected_logits": -3.232536792755127,
+      "debug/policy_rejected_logps": -183.38912963867188,
+      "debug/reference_chosen_logps": -184.552490234375,
+      "debug/reference_rejected_logps": -185.21734619140625,
+      "epoch": 0.3157894736842105,
+      "grad_norm": 7.869767154728272,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.051511287689209,
+      "logits/rejected": -3.232536792755127,
+      "logps/chosen": -179.14675903320312,
+      "logps/rejected": -183.38912963867188,
+      "loss": 0.4665,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.0540575236082077,
+      "rewards/margins": 0.035775475203990936,
+      "rewards/rejected": 0.018282050266861916,
+      "step": 12
+    },
+    {
+      "debug/policy_chosen_logits": -3.1170427799224854,
+      "debug/policy_chosen_logps": -175.19915771484375,
+      "debug/policy_rejected_logits": -3.182417869567871,
+      "debug/policy_rejected_logps": -176.825927734375,
+      "debug/reference_chosen_logps": -177.46597290039062,
+      "debug/reference_rejected_logps": -179.0623779296875,
+      "epoch": 0.34210526315789475,
+      "grad_norm": 12.633470392723837,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.1170427799224854,
+      "logits/rejected": -3.182417869567871,
+      "logps/chosen": -175.19915771484375,
+      "logps/rejected": -176.825927734375,
+      "loss": 0.4774,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.022668171674013138,
+      "rewards/margins": 0.0003036591224372387,
+      "rewards/rejected": 0.022364510223269463,
+      "step": 13
+    },
+    {
+      "debug/policy_chosen_logits": -3.0715718269348145,
+      "debug/policy_chosen_logps": -196.95872497558594,
+      "debug/policy_rejected_logits": -3.0461950302124023,
+      "debug/policy_rejected_logps": -234.42738342285156,
+      "debug/reference_chosen_logps": -198.927001953125,
+      "debug/reference_rejected_logps": -231.70632934570312,
+      "epoch": 0.3684210526315789,
+      "grad_norm": 7.86574979608913,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.0715718269348145,
+      "logits/rejected": -3.0461950302124023,
+      "logps/chosen": -196.95872497558594,
+      "logps/rejected": -234.42738342285156,
+      "loss": 0.4723,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.019682805985212326,
+      "rewards/margins": 0.046893440186977386,
+      "rewards/rejected": -0.02721063420176506,
+      "step": 14
+    },
+    {
+      "debug/policy_chosen_logits": -3.148141622543335,
+      "debug/policy_chosen_logps": -174.8628692626953,
+      "debug/policy_rejected_logits": -3.151831865310669,
+      "debug/policy_rejected_logps": -239.0707244873047,
+      "debug/reference_chosen_logps": -179.73025512695312,
+      "debug/reference_rejected_logps": -234.18270874023438,
+      "epoch": 0.39473684210526316,
+      "grad_norm": 7.551670325207112,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.148141622543335,
+      "logits/rejected": -3.151831865310669,
+      "logps/chosen": -174.8628692626953,
+      "logps/rejected": -239.0707244873047,
+      "loss": 0.4394,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.0486738383769989,
+      "rewards/margins": 0.09755405783653259,
+      "rewards/rejected": -0.048880212008953094,
+      "step": 15
+    },
+    {
+      "debug/policy_chosen_logits": -3.2363226413726807,
+      "debug/policy_chosen_logps": -180.26939392089844,
+      "debug/policy_rejected_logits": -3.2402045726776123,
+      "debug/policy_rejected_logps": -191.19422912597656,
+      "debug/reference_chosen_logps": -182.0409698486328,
+      "debug/reference_rejected_logps": -188.7088623046875,
+      "epoch": 0.42105263157894735,
+      "grad_norm": 7.971499111246793,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.2363226413726807,
+      "logits/rejected": -3.2402045726776123,
+      "logps/chosen": -180.26939392089844,
+      "logps/rejected": -191.19422912597656,
+      "loss": 0.4732,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.01771572232246399,
+      "rewards/margins": 0.042569201439619064,
+      "rewards/rejected": -0.024853479117155075,
+      "step": 16
+    },
+    {
+      "debug/policy_chosen_logits": -3.1031575202941895,
+      "debug/policy_chosen_logps": -181.3292999267578,
+      "debug/policy_rejected_logits": -3.198836326599121,
+      "debug/policy_rejected_logps": -221.01437377929688,
+      "debug/reference_chosen_logps": -179.9342041015625,
+      "debug/reference_rejected_logps": -214.72239685058594,
+      "epoch": 0.4473684210526316,
+      "grad_norm": 10.584039363754105,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.1031575202941895,
+      "logits/rejected": -3.198836326599121,
+      "logps/chosen": -181.3292999267578,
+      "logps/rejected": -221.01437377929688,
+      "loss": 0.4709,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.013950958847999573,
+      "rewards/margins": 0.04896876960992813,
+      "rewards/rejected": -0.0629197359085083,
+      "step": 17
+    },
+    {
+      "debug/policy_chosen_logits": -3.0805013179779053,
+      "debug/policy_chosen_logps": -217.13873291015625,
+      "debug/policy_rejected_logits": -3.088634967803955,
+      "debug/policy_rejected_logps": -210.9022674560547,
+      "debug/reference_chosen_logps": -213.02728271484375,
+      "debug/reference_rejected_logps": -202.1422576904297,
+      "epoch": 0.47368421052631576,
+      "grad_norm": 15.605225931338353,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.0805013179779053,
+      "logits/rejected": -3.088634967803955,
+      "logps/chosen": -217.13873291015625,
+      "logps/rejected": -210.9022674560547,
+      "loss": 0.4666,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.041114576160907745,
+      "rewards/margins": 0.046485595405101776,
+      "rewards/rejected": -0.08760017156600952,
+      "step": 18
+    },
+    {
+      "debug/policy_chosen_logits": -3.227140426635742,
+      "debug/policy_chosen_logps": -176.44325256347656,
+      "debug/policy_rejected_logits": -3.1130940914154053,
+      "debug/policy_rejected_logps": -197.5587921142578,
+      "debug/reference_chosen_logps": -171.158203125,
+      "debug/reference_rejected_logps": -189.12246704101562,
+      "epoch": 0.5,
+      "grad_norm": 20.388524998578973,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.227140426635742,
+      "logits/rejected": -3.1130940914154053,
+      "logps/chosen": -176.44325256347656,
+      "logps/rejected": -197.5587921142578,
+      "loss": 0.4711,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.052850380539894104,
+      "rewards/margins": 0.031512755900621414,
+      "rewards/rejected": -0.08436313271522522,
+      "step": 19
+    },
+    {
+      "debug/policy_chosen_logits": -3.2375006675720215,
+      "debug/policy_chosen_logps": -178.27442932128906,
+      "debug/policy_rejected_logits": -3.2282068729400635,
+      "debug/policy_rejected_logps": -236.70098876953125,
+      "debug/reference_chosen_logps": -175.0205078125,
+      "debug/reference_rejected_logps": -222.80160522460938,
+      "epoch": 0.5263157894736842,
+      "grad_norm": 19.93135079488986,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.2375006675720215,
+      "logits/rejected": -3.2282068729400635,
+      "logps/chosen": -178.27442932128906,
+      "logps/rejected": -236.70098876953125,
+      "loss": 0.4549,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.03253912180662155,
+      "rewards/margins": 0.10645455867052078,
+      "rewards/rejected": -0.13899368047714233,
+      "step": 20
+    },
+    {
+      "debug/policy_chosen_logits": -3.1386053562164307,
+      "debug/policy_chosen_logps": -197.573486328125,
+      "debug/policy_rejected_logits": -3.2233846187591553,
+      "debug/policy_rejected_logps": -214.78076171875,
+      "debug/reference_chosen_logps": -199.56964111328125,
+      "debug/reference_rejected_logps": -205.45248413085938,
+      "epoch": 0.5526315789473685,
+      "grad_norm": 7.07361132167883,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.1386053562164307,
+      "logits/rejected": -3.2233846187591553,
+      "logps/chosen": -197.573486328125,
+      "logps/rejected": -214.78076171875,
+      "loss": 0.4536,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.019961394369602203,
+      "rewards/margins": 0.11324435472488403,
+      "rewards/rejected": -0.09328296780586243,
+      "step": 21
+    },
+    {
+      "debug/policy_chosen_logits": -3.124323844909668,
+      "debug/policy_chosen_logps": -199.28509521484375,
+      "debug/policy_rejected_logits": -3.118931770324707,
+      "debug/policy_rejected_logps": -212.33740234375,
+      "debug/reference_chosen_logps": -196.1334686279297,
+      "debug/reference_rejected_logps": -212.9163360595703,
+      "epoch": 0.5789473684210527,
+      "grad_norm": 12.998049377939719,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.124323844909668,
+      "logits/rejected": -3.118931770324707,
+      "logps/chosen": -199.28509521484375,
+      "logps/rejected": -212.33740234375,
+      "loss": 0.4404,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.03151614964008331,
+      "rewards/margins": -0.037305522710084915,
+      "rewards/rejected": 0.005789373070001602,
+      "step": 22
+    },
+    {
+      "debug/policy_chosen_logits": -3.2582762241363525,
+      "debug/policy_chosen_logps": -173.89572143554688,
+      "debug/policy_rejected_logits": -3.2754862308502197,
+      "debug/policy_rejected_logps": -203.75881958007812,
+      "debug/reference_chosen_logps": -178.55136108398438,
+      "debug/reference_rejected_logps": -199.2237548828125,
+      "epoch": 0.6052631578947368,
+      "grad_norm": 16.668545244677244,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.2582762241363525,
+      "logits/rejected": -3.2754862308502197,
+      "logps/chosen": -173.89572143554688,
+      "logps/rejected": -203.75881958007812,
+      "loss": 0.4502,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.04655652865767479,
+      "rewards/margins": 0.09190709888935089,
+      "rewards/rejected": -0.0453505702316761,
+      "step": 23
+    },
+    {
+      "debug/policy_chosen_logits": -3.2273776531219482,
+      "debug/policy_chosen_logps": -150.5181121826172,
+      "debug/policy_rejected_logits": -3.2226057052612305,
+      "debug/policy_rejected_logps": -208.79214477539062,
+      "debug/reference_chosen_logps": -158.41482543945312,
+      "debug/reference_rejected_logps": -212.96640014648438,
+      "epoch": 0.631578947368421,
+      "grad_norm": 13.427151271997946,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.2273776531219482,
+      "logits/rejected": -3.2226057052612305,
+      "logps/chosen": -150.5181121826172,
+      "logps/rejected": -208.79214477539062,
+      "loss": 0.4678,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.07896722853183746,
+      "rewards/margins": 0.0372246578335762,
+      "rewards/rejected": 0.04174257069826126,
+      "step": 24
+    },
+    {
+      "debug/policy_chosen_logits": -3.165872573852539,
+      "debug/policy_chosen_logps": -172.341064453125,
+      "debug/policy_rejected_logits": -3.2021644115448,
+      "debug/policy_rejected_logps": -201.33978271484375,
+      "debug/reference_chosen_logps": -186.38406372070312,
+      "debug/reference_rejected_logps": -198.79547119140625,
+      "epoch": 0.6578947368421053,
+      "grad_norm": 18.736524383787305,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.165872573852539,
+      "logits/rejected": -3.2021644115448,
+      "logps/chosen": -172.341064453125,
+      "logps/rejected": -201.33978271484375,
+      "loss": 0.4624,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.14042991399765015,
+      "rewards/margins": 0.1658729612827301,
+      "rewards/rejected": -0.02544303983449936,
+      "step": 25
+    },
+    {
+      "debug/policy_chosen_logits": -3.1740562915802,
+      "debug/policy_chosen_logps": -177.84255981445312,
+      "debug/policy_rejected_logits": -3.151543140411377,
+      "debug/policy_rejected_logps": -191.53330993652344,
+      "debug/reference_chosen_logps": -182.20455932617188,
+      "debug/reference_rejected_logps": -196.35205078125,
+      "epoch": 0.6842105263157895,
+      "grad_norm": 7.938159632089657,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.1740562915802,
+      "logits/rejected": -3.151543140411377,
+      "logps/chosen": -177.84255981445312,
+      "logps/rejected": -191.53330993652344,
+      "loss": 0.4525,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.043619830161333084,
+      "rewards/margins": -0.004567727446556091,
+      "rewards/rejected": 0.048187561333179474,
+      "step": 26
+    },
+    {
+      "debug/policy_chosen_logits": -3.146756649017334,
+      "debug/policy_chosen_logps": -178.16688537597656,
+      "debug/policy_rejected_logits": -3.192675828933716,
+      "debug/policy_rejected_logps": -213.1707763671875,
+      "debug/reference_chosen_logps": -184.39260864257812,
+      "debug/reference_rejected_logps": -201.81924438476562,
+      "epoch": 0.7105263157894737,
+      "grad_norm": 10.884065391328518,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.146756649017334,
+      "logits/rejected": -3.192675828933716,
+      "logps/chosen": -178.16688537597656,
+      "logps/rejected": -213.1707763671875,
+      "loss": 0.4459,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.06225726753473282,
+      "rewards/margins": 0.17577265202999115,
+      "rewards/rejected": -0.11351536959409714,
+      "step": 27
+    },
+    {
+      "debug/policy_chosen_logits": -3.281649589538574,
+      "debug/policy_chosen_logps": -199.9445343017578,
+      "debug/policy_rejected_logits": -3.2994844913482666,
+      "debug/policy_rejected_logps": -219.6336669921875,
+      "debug/reference_chosen_logps": -196.85604858398438,
+      "debug/reference_rejected_logps": -210.05245971679688,
+      "epoch": 0.7368421052631579,
+      "grad_norm": 6.010691347934726,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.281649589538574,
+      "logits/rejected": -3.2994844913482666,
+      "logps/chosen": -199.9445343017578,
+      "logps/rejected": -219.6336669921875,
+      "loss": 0.4625,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": -0.03088477998971939,
+      "rewards/margins": 0.06492738425731659,
+      "rewards/rejected": -0.09581217169761658,
+      "step": 28
+    },
+    {
+      "debug/policy_chosen_logits": -3.335418939590454,
+      "debug/policy_chosen_logps": -163.25552368164062,
+      "debug/policy_rejected_logits": -3.3753366470336914,
+      "debug/policy_rejected_logps": -188.67388916015625,
+      "debug/reference_chosen_logps": -169.972412109375,
+      "debug/reference_rejected_logps": -187.3748321533203,
+      "epoch": 0.7631578947368421,
+      "grad_norm": 9.368732561204727,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.335418939590454,
+      "logits/rejected": -3.3753366470336914,
+      "logps/chosen": -163.25552368164062,
+      "logps/rejected": -188.67388916015625,
+      "loss": 0.4284,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.06716887652873993,
+      "rewards/margins": 0.08015935868024826,
+      "rewards/rejected": -0.012990472838282585,
+      "step": 29
+    },
+    {
+      "debug/policy_chosen_logits": -3.1683101654052734,
+      "debug/policy_chosen_logps": -170.42584228515625,
+      "debug/policy_rejected_logits": -3.232621908187866,
+      "debug/policy_rejected_logps": -190.65835571289062,
+      "debug/reference_chosen_logps": -174.41644287109375,
+      "debug/reference_rejected_logps": -181.63363647460938,
+      "epoch": 0.7894736842105263,
+      "grad_norm": 8.036358997916743,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.1683101654052734,
+      "logits/rejected": -3.232621908187866,
+      "logps/chosen": -170.42584228515625,
+      "logps/rejected": -190.65835571289062,
+      "loss": 0.3995,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.03990606591105461,
+      "rewards/margins": 0.13015341758728027,
+      "rewards/rejected": -0.09024736285209656,
+      "step": 30
+    },
+    {
+      "debug/policy_chosen_logits": -3.2613167762756348,
+      "debug/policy_chosen_logps": -181.21347045898438,
+      "debug/policy_rejected_logits": -3.233255386352539,
+      "debug/policy_rejected_logps": -194.60850524902344,
+      "debug/reference_chosen_logps": -173.81005859375,
+      "debug/reference_rejected_logps": -193.19393920898438,
+      "epoch": 0.8157894736842105,
+      "grad_norm": 21.754243234566374,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.2613167762756348,
+      "logits/rejected": -3.233255386352539,
+      "logps/chosen": -181.21347045898438,
+      "logps/rejected": -194.60850524902344,
+      "loss": 0.4758,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.07403402030467987,
+      "rewards/margins": -0.059888288378715515,
+      "rewards/rejected": -0.014145737513899803,
+      "step": 31
+    },
+    {
+      "debug/policy_chosen_logits": -3.1505517959594727,
+      "debug/policy_chosen_logps": -178.563720703125,
+      "debug/policy_rejected_logits": -3.3182621002197266,
+      "debug/policy_rejected_logps": -229.11212158203125,
+      "debug/reference_chosen_logps": -185.50924682617188,
+      "debug/reference_rejected_logps": -218.29916381835938,
+      "epoch": 0.8421052631578947,
+      "grad_norm": 34.79466400268049,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.1505517959594727,
+      "logits/rejected": -3.3182621002197266,
+      "logps/chosen": -178.563720703125,
+      "logps/rejected": -229.11212158203125,
+      "loss": 0.4946,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.06945528090000153,
+      "rewards/margins": 0.17758482694625854,
+      "rewards/rejected": -0.10812953114509583,
+      "step": 32
+    },
+    {
+      "debug/policy_chosen_logits": -3.2886526584625244,
+      "debug/policy_chosen_logps": -183.58511352539062,
+      "debug/policy_rejected_logits": -3.3318674564361572,
+      "debug/policy_rejected_logps": -178.8451690673828,
+      "debug/reference_chosen_logps": -192.07305908203125,
+      "debug/reference_rejected_logps": -176.05474853515625,
+      "epoch": 0.868421052631579,
+      "grad_norm": 13.98393503620536,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.2886526584625244,
+      "logits/rejected": -3.3318674564361572,
+      "logps/chosen": -183.58511352539062,
+      "logps/rejected": -178.8451690673828,
+      "loss": 0.4312,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.08487950265407562,
+      "rewards/margins": 0.11278380453586578,
+      "rewards/rejected": -0.027904313057661057,
+      "step": 33
+    },
+    {
+      "debug/policy_chosen_logits": -3.1525185108184814,
+      "debug/policy_chosen_logps": -180.24249267578125,
+      "debug/policy_rejected_logits": -3.143476963043213,
+      "debug/policy_rejected_logps": -204.80078125,
+      "debug/reference_chosen_logps": -180.59463500976562,
+      "debug/reference_rejected_logps": -201.7593536376953,
+      "epoch": 0.8947368421052632,
+      "grad_norm": 28.559943285925073,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.1525185108184814,
+      "logits/rejected": -3.143476963043213,
+      "logps/chosen": -180.24249267578125,
+      "logps/rejected": -204.80078125,
+      "loss": 0.4658,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0035214386880397797,
+      "rewards/margins": 0.03393552824854851,
+      "rewards/rejected": -0.03041408583521843,
+      "step": 34
+    },
+    {
+      "debug/policy_chosen_logits": -3.2434704303741455,
+      "debug/policy_chosen_logps": -153.05389404296875,
+      "debug/policy_rejected_logits": -3.1566455364227295,
+      "debug/policy_rejected_logps": -205.80572509765625,
+      "debug/reference_chosen_logps": -168.76995849609375,
+      "debug/reference_rejected_logps": -203.63229370117188,
+      "epoch": 0.9210526315789473,
+      "grad_norm": 12.367548900105426,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.2434704303741455,
+      "logits/rejected": -3.1566455364227295,
+      "logps/chosen": -153.05389404296875,
+      "logps/rejected": -205.80572509765625,
+      "loss": 0.3944,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.15716060996055603,
+      "rewards/margins": 0.17889487743377686,
+      "rewards/rejected": -0.02173428051173687,
+      "step": 35
+    },
+    {
+      "debug/policy_chosen_logits": -3.1490585803985596,
+      "debug/policy_chosen_logps": -184.06216430664062,
+      "debug/policy_rejected_logits": -3.078645706176758,
+      "debug/policy_rejected_logps": -192.70101928710938,
+      "debug/reference_chosen_logps": -187.65826416015625,
+      "debug/reference_rejected_logps": -196.99972534179688,
+      "epoch": 0.9473684210526315,
+      "grad_norm": 6.171234961762308,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.1490585803985596,
+      "logits/rejected": -3.078645706176758,
+      "logps/chosen": -184.06216430664062,
+      "logps/rejected": -192.70101928710938,
+      "loss": 0.4299,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.0359608456492424,
+      "rewards/margins": -0.0070261843502521515,
+      "rewards/rejected": 0.04298701882362366,
+      "step": 36
+    },
+    {
+      "debug/policy_chosen_logits": -3.260350227355957,
+      "debug/policy_chosen_logps": -186.05783081054688,
+      "debug/policy_rejected_logits": -3.428133964538574,
+      "debug/policy_rejected_logps": -219.6826934814453,
+      "debug/reference_chosen_logps": -198.08245849609375,
+      "debug/reference_rejected_logps": -213.1524658203125,
+      "epoch": 0.9736842105263158,
+      "grad_norm": 7.8362879657016995,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.260350227355957,
+      "logits/rejected": -3.428133964538574,
+      "logps/chosen": -186.05783081054688,
+      "logps/rejected": -219.6826934814453,
+      "loss": 0.4041,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.12024623155593872,
+      "rewards/margins": 0.18554842472076416,
+      "rewards/rejected": -0.06530220061540604,
+      "step": 37
+    },
+    {
+      "debug/policy_chosen_logits": -3.2531356811523438,
+      "debug/policy_chosen_logps": -186.32887268066406,
+      "debug/policy_rejected_logits": -3.2301692962646484,
+      "debug/policy_rejected_logps": -201.42446899414062,
+      "debug/reference_chosen_logps": -190.052490234375,
+      "debug/reference_rejected_logps": -197.30398559570312,
+      "epoch": 1.0,
+      "grad_norm": 10.428660286754967,
+      "learning_rate": 1e-06,
+      "logits/chosen": -3.2531356811523438,
+      "logits/rejected": -3.2301692962646484,
+      "logps/chosen": -186.32887268066406,
+      "logps/rejected": -201.42446899414062,
+      "loss": 0.3962,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.03723614662885666,
+      "rewards/margins": 0.07844101637601852,
+      "rewards/rejected": -0.041204869747161865,
+      "step": 38
+    },
+    {
+      "epoch": 1.0,
+      "step": 38,
+      "total_flos": 0.0,
+      "train_loss": 0.4622946350198043,
+      "train_runtime": 144.3728,
+      "train_samples_per_second": 16.818,
+      "train_steps_per_second": 0.263
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 38,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}