Model save

Browse files

Files changed (5) hide show

README.md +77 -0
adapter_model.safetensors +1 -1
all_results.json +8 -0
train_results.json +8 -0
trainer_state.json +571 -0

README.md ADDED Viewed

	@@ -0,0 +1,77 @@

+---
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+base_model: allenai/tulu-2-7b
+model-index:
+- name: tulu2-7b-cost-UI-both-5e-7
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# tulu2-7b-cost-UI-both-5e-7
+This model is a fine-tuned version of [allenai/tulu-2-7b](https://huggingface.co/allenai/tulu-2-7b) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6928
+- Rewards/chosen: -0.0002
+- Rewards/rejected: -0.0001
+- Rewards/accuracies: 0.5159
+- Rewards/margins: -0.0001
+- Rewards/margins Max: 0.0190
+- Rewards/margins Min: -0.0190
+- Rewards/margins Std: 0.0125
+- Logps/rejected: -338.8891
+- Logps/chosen: -345.6230
+- Logits/rejected: 0.8420
+- Logits/chosen: 0.7124
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-07
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Rewards/margins Max | Rewards/margins Min | Rewards/margins Std | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:-------------------:|:-------------------:|:-------------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6764        | 1.0   | 289  | 0.6928          | -0.0002        | -0.0001          | 0.5159             | -0.0001         | 0.0190              | -0.0190             | 0.0125              | -338.8891      | -345.6230    | 0.8420          | 0.7124        |
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.39.0.dev0
+- Pytorch 2.1.2+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51745a2e0ce4dd3e2b9e87dfbad689d8102b51e429b81ecd8335090d5e1808de
 size 639692768

 version https://git-lfs.github.com/spec/v1
+oid sha256:86739c0322f6b1ea5b274578df67afec4d4aa82c2927f6a3add22ee23935c015
 size 639692768

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.6824996727148142,
+    "train_runtime": 3006.8067,
+    "train_samples": 18509,
+    "train_samples_per_second": 6.156,
+    "train_steps_per_second": 0.096
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.6824996727148142,
+    "train_runtime": 3006.8067,
+    "train_samples": 18509,
+    "train_samples_per_second": 6.156,
+    "train_steps_per_second": 0.096
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,571 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9991356957649092,
+  "eval_steps": 100,
+  "global_step": 289,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "grad_norm": 0.2373046875,
+      "learning_rate": 1.7241379310344825e-08,
+      "logits/chosen": -0.1198696494102478,
+      "logits/rejected": 0.2811677157878876,
+      "logps/chosen": -217.16847229003906,
+      "logps/rejected": -155.17271423339844,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/margins_max": 0.0,
+      "rewards/margins_min": 0.0,
+      "rewards/margins_std": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 0.248046875,
+      "learning_rate": 1.7241379310344828e-07,
+      "logits/chosen": -0.13907119631767273,
+      "logits/rejected": 0.10448222607374191,
+      "logps/chosen": -224.61839294433594,
+      "logps/rejected": -217.18283081054688,
+      "loss": 0.6932,
+      "rewards/accuracies": 0.4027777910232544,
+      "rewards/chosen": -0.00020672479877248406,
+      "rewards/margins": -0.0004321257583796978,
+      "rewards/margins_max": 0.0018353578634560108,
+      "rewards/margins_min": -0.0026996093802154064,
+      "rewards/margins_std": 0.0032067059073597193,
+      "rewards/rejected": 0.00022540091595146805,
+      "step": 10
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 0.2353515625,
+      "learning_rate": 3.4482758620689656e-07,
+      "logits/chosen": -0.19345124065876007,
+      "logits/rejected": 0.05696944519877434,
+      "logps/chosen": -191.2423553466797,
+      "logps/rejected": -176.5889434814453,
+      "loss": 0.6929,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -2.7165409846929833e-05,
+      "rewards/margins": 0.0008886352297849953,
+      "rewards/margins_max": 0.002847478026524186,
+      "rewards/margins_min": -0.0010702075669541955,
+      "rewards/margins_std": 0.0027702220249921083,
+      "rewards/rejected": -0.0009158005705103278,
+      "step": 20
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.265625,
+      "learning_rate": 4.999817502139027e-07,
+      "logits/chosen": -0.19917765259742737,
+      "logits/rejected": 0.08285371214151382,
+      "logps/chosen": -247.91159057617188,
+      "logps/rejected": -218.81246948242188,
+      "loss": 0.6922,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.0009048490901477635,
+      "rewards/margins": 0.0024331805761903524,
+      "rewards/margins_max": 0.005544544197618961,
+      "rewards/margins_min": -0.0006781836273148656,
+      "rewards/margins_std": 0.004400133155286312,
+      "rewards/rejected": -0.0015283313114196062,
+      "step": 30
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.267578125,
+      "learning_rate": 4.977949980164773e-07,
+      "logits/chosen": -0.05700277164578438,
+      "logits/rejected": 0.11779887974262238,
+      "logps/chosen": -193.61355590820312,
+      "logps/rejected": -203.84695434570312,
+      "loss": 0.6914,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": 0.0017391880974173546,
+      "rewards/margins": 0.004240007139742374,
+      "rewards/margins_max": 0.008039236068725586,
+      "rewards/margins_min": 0.0004407777450978756,
+      "rewards/margins_std": 0.005372921004891396,
+      "rewards/rejected": -0.0025008185766637325,
+      "step": 40
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 0.2314453125,
+      "learning_rate": 4.919948367622307e-07,
+      "logits/chosen": -0.1814556121826172,
+      "logits/rejected": 0.02914687618613243,
+      "logps/chosen": -220.93115234375,
+      "logps/rejected": -223.7554168701172,
+      "loss": 0.6902,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": 0.0025483686476945877,
+      "rewards/margins": 0.0058803861029446125,
+      "rewards/margins_max": 0.009798353537917137,
+      "rewards/margins_min": 0.0019624175038188696,
+      "rewards/margins_std": 0.005540843587368727,
+      "rewards/rejected": -0.003332017455250025,
+      "step": 50
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.2275390625,
+      "learning_rate": 4.826658458630755e-07,
+      "logits/chosen": -0.17724668979644775,
+      "logits/rejected": 0.1624217927455902,
+      "logps/chosen": -226.7654571533203,
+      "logps/rejected": -178.1088104248047,
+      "loss": 0.6892,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.004519807640463114,
+      "rewards/margins": 0.008648158982396126,
+      "rewards/margins_max": 0.013417336158454418,
+      "rewards/margins_min": 0.0038789804093539715,
+      "rewards/margins_std": 0.006744635757058859,
+      "rewards/rejected": -0.004128350876271725,
+      "step": 60
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.248046875,
+      "learning_rate": 4.699440630133794e-07,
+      "logits/chosen": -0.15689274668693542,
+      "logits/rejected": 0.0655246376991272,
+      "logps/chosen": -205.931884765625,
+      "logps/rejected": -213.77328491210938,
+      "loss": 0.6879,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": 0.004349945578724146,
+      "rewards/margins": 0.010797133669257164,
+      "rewards/margins_max": 0.016608919948339462,
+      "rewards/margins_min": 0.004985347390174866,
+      "rewards/margins_std": 0.008219106122851372,
+      "rewards/rejected": -0.006447188556194305,
+      "step": 70
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.267578125,
+      "learning_rate": 4.5401500045405117e-07,
+      "logits/chosen": -0.13238832354545593,
+      "logits/rejected": 0.1644008904695511,
+      "logps/chosen": -232.31631469726562,
+      "logps/rejected": -199.2275390625,
+      "loss": 0.6865,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.004281439818441868,
+      "rewards/margins": 0.012644032016396523,
+      "rewards/margins_max": 0.01821981742978096,
+      "rewards/margins_min": 0.007068246603012085,
+      "rewards/margins_std": 0.007885349914431572,
+      "rewards/rejected": -0.00836259126663208,
+      "step": 80
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.244140625,
+      "learning_rate": 4.3511093978633086e-07,
+      "logits/chosen": -0.2108915150165558,
+      "logits/rejected": -0.023733098059892654,
+      "logps/chosen": -223.54336547851562,
+      "logps/rejected": -231.7197265625,
+      "loss": 0.6859,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.006567983888089657,
+      "rewards/margins": 0.016123134642839432,
+      "rewards/margins_max": 0.02399933896958828,
+      "rewards/margins_min": 0.008246931247413158,
+      "rewards/margins_std": 0.011138634756207466,
+      "rewards/rejected": -0.009555150754749775,
+      "step": 90
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 0.2451171875,
+      "learning_rate": 4.135075447829911e-07,
+      "logits/chosen": -0.13402007520198822,
+      "logits/rejected": 0.23311862349510193,
+      "logps/chosen": -242.7605438232422,
+      "logps/rejected": -215.2969970703125,
+      "loss": 0.6846,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.006707096938043833,
+      "rewards/margins": 0.020004788413643837,
+      "rewards/margins_max": 0.03050144948065281,
+      "rewards/margins_min": 0.009508123621344566,
+      "rewards/margins_std": 0.01484452374279499,
+      "rewards/rejected": -0.013297691941261292,
+      "step": 100
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.240234375,
+      "learning_rate": 3.895198415897896e-07,
+      "logits/chosen": -0.10960109531879425,
+      "logits/rejected": 0.09310563653707504,
+      "logps/chosen": -215.31460571289062,
+      "logps/rejected": -208.97097778320312,
+      "loss": 0.684,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.007017076015472412,
+      "rewards/margins": 0.01683773659169674,
+      "rewards/margins_max": 0.026084523648023605,
+      "rewards/margins_min": 0.007590950932353735,
+      "rewards/margins_std": 0.01307692937552929,
+      "rewards/rejected": -0.009820659644901752,
+      "step": 110
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.2451171875,
+      "learning_rate": 3.634976249348867e-07,
+      "logits/chosen": -0.13226808607578278,
+      "logits/rejected": 0.15200194716453552,
+      "logps/chosen": -242.24966430664062,
+      "logps/rejected": -212.1212921142578,
+      "loss": 0.6826,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": 0.006220725364983082,
+      "rewards/margins": 0.01998782530426979,
+      "rewards/margins_max": 0.03047138825058937,
+      "rewards/margins_min": 0.009504261426627636,
+      "rewards/margins_std": 0.014825996942818165,
+      "rewards/rejected": -0.013767099007964134,
+      "step": 120
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.2353515625,
+      "learning_rate": 3.358203573340396e-07,
+      "logits/chosen": -0.15161535143852234,
+      "logits/rejected": 0.06725052744150162,
+      "logps/chosen": -220.3600311279297,
+      "logps/rejected": -238.15267944335938,
+      "loss": 0.6817,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.00594148738309741,
+      "rewards/margins": 0.02438289485871792,
+      "rewards/margins_max": 0.03674236685037613,
+      "rewards/margins_min": 0.012023425661027431,
+      "rewards/margins_std": 0.017478929832577705,
+      "rewards/rejected": -0.01844140887260437,
+      "step": 130
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.2373046875,
+      "learning_rate": 3.0689163567264746e-07,
+      "logits/chosen": -0.1485133320093155,
+      "logits/rejected": 0.12535016238689423,
+      "logps/chosen": -246.51065063476562,
+      "logps/rejected": -233.1022186279297,
+      "loss": 0.6808,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.009529241360723972,
+      "rewards/margins": 0.021075651049613953,
+      "rewards/margins_max": 0.03406635671854019,
+      "rewards/margins_min": 0.008084945380687714,
+      "rewards/margins_std": 0.01837163418531418,
+      "rewards/rejected": -0.011546410620212555,
+      "step": 140
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.2470703125,
+      "learning_rate": 2.771333058543416e-07,
+      "logits/chosen": -0.0800982341170311,
+      "logits/rejected": 0.1670171320438385,
+      "logps/chosen": -229.39120483398438,
+      "logps/rejected": -211.8321990966797,
+      "loss": 0.6804,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.010588416829705238,
+      "rewards/margins": 0.026508808135986328,
+      "rewards/margins_max": 0.043856311589479446,
+      "rewards/margins_min": 0.009161303751170635,
+      "rewards/margins_std": 0.024533074349164963,
+      "rewards/rejected": -0.01592039130628109,
+      "step": 150
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 0.482421875,
+      "learning_rate": 2.469793113377957e-07,
+      "logits/chosen": -0.12969347834587097,
+      "logits/rejected": 0.2130148708820343,
+      "logps/chosen": -207.0413818359375,
+      "logps/rejected": -174.50192260742188,
+      "loss": 0.6789,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.009559371508657932,
+      "rewards/margins": 0.02586180530488491,
+      "rewards/margins_max": 0.04229948669672012,
+      "rewards/margins_min": 0.009424128569662571,
+      "rewards/margins_std": 0.023246387019753456,
+      "rewards/rejected": -0.016302434727549553,
+      "step": 160
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 0.2265625,
+      "learning_rate": 2.1686936526394318e-07,
+      "logits/chosen": -0.1643756926059723,
+      "logits/rejected": 0.09980125725269318,
+      "logps/chosen": -232.63479614257812,
+      "logps/rejected": -222.15707397460938,
+      "loss": 0.6785,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.009239903651177883,
+      "rewards/margins": 0.031400762498378754,
+      "rewards/margins_max": 0.04692839831113815,
+      "rewards/margins_min": 0.015873130410909653,
+      "rewards/margins_std": 0.021959390491247177,
+      "rewards/rejected": -0.022160857915878296,
+      "step": 170
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.306640625,
+      "learning_rate": 1.8724253844823456e-07,
+      "logits/chosen": -0.10444211959838867,
+      "logits/rejected": 0.11585960537195206,
+      "logps/chosen": -217.49295043945312,
+      "logps/rejected": -236.1336212158203,
+      "loss": 0.6789,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.009765163995325565,
+      "rewards/margins": 0.02891402505338192,
+      "rewards/margins_max": 0.04084194451570511,
+      "rewards/margins_min": 0.016986116766929626,
+      "rewards/margins_std": 0.01686861552298069,
+      "rewards/rejected": -0.019148865714669228,
+      "step": 180
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.2451171875,
+      "learning_rate": 1.5853085673944694e-07,
+      "logits/chosen": -0.21767011284828186,
+      "logits/rejected": 0.03656459227204323,
+      "logps/chosen": -205.89724731445312,
+      "logps/rejected": -195.54986572265625,
+      "loss": 0.677,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.009529804810881615,
+      "rewards/margins": 0.034868255257606506,
+      "rewards/margins_max": 0.05301555246114731,
+      "rewards/margins_min": 0.016720956191420555,
+      "rewards/margins_std": 0.025664156302809715,
+      "rewards/rejected": -0.02533845044672489,
+      "step": 190
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 0.2412109375,
+      "learning_rate": 1.3115300110997096e-07,
+      "logits/chosen": -0.12012083828449249,
+      "logits/rejected": 0.10849084705114365,
+      "logps/chosen": -219.48818969726562,
+      "logps/rejected": -228.03585815429688,
+      "loss": 0.6777,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.007625420577824116,
+      "rewards/margins": 0.030659427866339684,
+      "rewards/margins_max": 0.044585634022951126,
+      "rewards/margins_min": 0.01673322357237339,
+      "rewards/margins_std": 0.019694630056619644,
+      "rewards/rejected": -0.023034008219838142,
+      "step": 200
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 0.2236328125,
+      "learning_rate": 1.0550820234444626e-07,
+      "logits/chosen": -0.13823586702346802,
+      "logits/rejected": 0.07014124095439911,
+      "logps/chosen": -209.46163940429688,
+      "logps/rejected": -220.68325805664062,
+      "loss": 0.6771,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.010470154695212841,
+      "rewards/margins": 0.03657643496990204,
+      "rewards/margins_max": 0.050303250551223755,
+      "rewards/margins_min": 0.02284962125122547,
+      "rewards/margins_std": 0.019412647932767868,
+      "rewards/rejected": -0.026106279343366623,
+      "step": 210
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.244140625,
+      "learning_rate": 8.197041935593179e-08,
+      "logits/chosen": -0.15651056170463562,
+      "logits/rejected": 0.06445064395666122,
+      "logps/chosen": -212.4806671142578,
+      "logps/rejected": -226.1749267578125,
+      "loss": 0.6765,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.00890127569437027,
+      "rewards/margins": 0.035758793354034424,
+      "rewards/margins_max": 0.053012482821941376,
+      "rewards/margins_min": 0.01850510574877262,
+      "rewards/margins_std": 0.02440040186047554,
+      "rewards/rejected": -0.026857519522309303,
+      "step": 220
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.2333984375,
+      "learning_rate": 6.088288602287158e-08,
+      "logits/chosen": -0.19696348905563354,
+      "logits/rejected": -0.03903040662407875,
+      "logps/chosen": -213.6901397705078,
+      "logps/rejected": -221.56021118164062,
+      "loss": 0.6783,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.009939353913068771,
+      "rewards/margins": 0.033906787633895874,
+      "rewards/margins_max": 0.05103258416056633,
+      "rewards/margins_min": 0.016780991107225418,
+      "rewards/margins_std": 0.024219539016485214,
+      "rewards/rejected": -0.023967433720827103,
+      "step": 230
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.2392578125,
+      "learning_rate": 4.255310606625123e-08,
+      "logits/chosen": -0.18151769042015076,
+      "logits/rejected": 0.08627013117074966,
+      "logps/chosen": -232.16629028320312,
+      "logps/rejected": -224.4107208251953,
+      "loss": 0.6781,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.012780356220901012,
+      "rewards/margins": 0.03826562687754631,
+      "rewards/margins_max": 0.055571459233760834,
+      "rewards/margins_min": 0.020959796383976936,
+      "rewards/margins_std": 0.024474143981933594,
+      "rewards/rejected": -0.025485267862677574,
+      "step": 240
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.2451171875,
+      "learning_rate": 2.724836895290805e-08,
+      "logits/chosen": -0.1553465723991394,
+      "logits/rejected": 0.18157121539115906,
+      "logps/chosen": -247.65811157226562,
+      "logps/rejected": -212.87515258789062,
+      "loss": 0.6772,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.011063109152019024,
+      "rewards/margins": 0.030740728601813316,
+      "rewards/margins_max": 0.044029705226421356,
+      "rewards/margins_min": 0.017451755702495575,
+      "rewards/margins_std": 0.018793445080518723,
+      "rewards/rejected": -0.019677620381116867,
+      "step": 250
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.2578125,
+      "learning_rate": 1.5191852213221196e-08,
+      "logits/chosen": -0.13707074522972107,
+      "logits/rejected": 0.0773903951048851,
+      "logps/chosen": -215.07275390625,
+      "logps/rejected": -215.782958984375,
+      "loss": 0.6772,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": 0.002797811757773161,
+      "rewards/margins": 0.031788431107997894,
+      "rewards/margins_max": 0.05227842181921005,
+      "rewards/margins_min": 0.01129843108355999,
+      "rewards/margins_std": 0.028977233916521072,
+      "rewards/rejected": -0.028990617021918297,
+      "step": 260
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.2373046875,
+      "learning_rate": 6.559367010166628e-09,
+      "logits/chosen": -0.16215373575687408,
+      "logits/rejected": 0.14343757927417755,
+      "logps/chosen": -248.9391632080078,
+      "logps/rejected": -220.1829833984375,
+      "loss": 0.6783,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.009577736258506775,
+      "rewards/margins": 0.028629934415221214,
+      "rewards/margins_max": 0.045094698667526245,
+      "rewards/margins_min": 0.012165175750851631,
+      "rewards/margins_std": 0.023284688591957092,
+      "rewards/rejected": -0.01905220001935959,
+      "step": 270
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.2490234375,
+      "learning_rate": 1.476794416668703e-09,
+      "logits/chosen": -0.1460862010717392,
+      "logits/rejected": 0.10489644855260849,
+      "logps/chosen": -217.80380249023438,
+      "logps/rejected": -210.3385009765625,
+      "loss": 0.6764,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.011174037121236324,
+      "rewards/margins": 0.03286902233958244,
+      "rewards/margins_max": 0.050892699509859085,
+      "rewards/margins_min": 0.014845346100628376,
+      "rewards/margins_std": 0.025489334017038345,
+      "rewards/rejected": -0.021694988012313843,
+      "step": 280
+    },
+    {
+      "epoch": 1.0,
+      "eval_logits/chosen": 0.7124304175376892,
+      "eval_logits/rejected": 0.8419629335403442,
+      "eval_logps/chosen": -345.623046875,
+      "eval_logps/rejected": -338.8891296386719,
+      "eval_loss": 0.6928284764289856,
+      "eval_rewards/accuracies": 0.5158730149269104,
+      "eval_rewards/chosen": -0.00016850981046445668,
+      "eval_rewards/margins": -0.00010753136302810162,
+      "eval_rewards/margins_max": 0.019001232460141182,
+      "eval_rewards/margins_min": -0.01899593509733677,
+      "eval_rewards/margins_std": 0.012460649013519287,
+      "eval_rewards/rejected": -6.097855293774046e-05,
+      "eval_runtime": 224.8356,
+      "eval_samples_per_second": 17.791,
+      "eval_steps_per_second": 0.28,
+      "step": 289
+    },
+    {
+      "epoch": 1.0,
+      "step": 289,
+      "total_flos": 0.0,
+      "train_loss": 0.6824996727148142,
+      "train_runtime": 3006.8067,
+      "train_samples_per_second": 6.156,
+      "train_steps_per_second": 0.096
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 289,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}