huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +2 -2
pytorch_model.bin +2 -2
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +475 -489
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/ofa47ov0/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/11x8tlht) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/11x8tlht/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/2et9dwlh/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/22e6ddab) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/22e6ddab/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~31595703959465027~~, "eval_runtime": ~~694~~.~~9722~~, "eval_samples_per_second": 0.~~892~~, "eval_steps_per_second": 0.~~112~~, "epoch": 3.0}


1	+ {"eval_loss": 0.3614741861820221, "eval_runtime": 29.4359, "eval_samples_per_second": 21.878, "eval_steps_per_second": 2.752, "epoch": 3.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:051a2aa5612a00aefd0743508426504ceff0614f418bc3ffd2fae00bc7e2e01a
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:d821cc38972b02052486350836768147963aaeb46cf69d3f41e17bfd52a8d71d
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:593f24adf357165ae7c067bfdec9e2e06abf005b482f2df7913d65b234eb4c23
-size 995599857

 version https://git-lfs.github.com/spec/v1
+oid sha256:35bd2c569b3675430dd87749d2e9e88b6c22f4d1277083f1eb323e5a78ccb1b7
+size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4f3731cebd57313c0396ec7ec7278cbf2f4370924b703a6aa6ddad82d193a89
-size 510401385

 version https://git-lfs.github.com/spec/v1
+oid sha256:58d89bc75fcb0d32ac9fa6dcb15dddc93183abf0fb0e94b1c0e81fa3acad906e
+size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a26923031d40478a72fa6bcd5409ab432e85028c059b7b08da05ecaa1c93850
-size 13547

 version https://git-lfs.github.com/spec/v1
+oid sha256:049b9bcbcaee102a87fbbdf3ad0f08b27c66519b58ffa7a05152155bdbc8fb60
+size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2587493ffef7a83ac744fa257014e43dd335fe886fa10856cabfbe630d057f3b
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:02117a90c598eeedf1944bd81ff7344fb6927e0e3a13871b9e0ceb3095f3a8d3
 size 623

trainer_state.json CHANGED Viewed

@@ -1,1138 +1,1124 @@
 {
-  "best_metric": 0.31595703959465027,
-  "best_model_checkpoint": "output/eminem/checkpoint-916",
   "epoch": 2.0,
-  "global_step": 916,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 9.668898730225426e-06,
-      "loss": 0.6451,
       "step": 5
     },
     {
       "epoch": 0.02,
-      "learning_rate": 8.494471426523322e-06,
-      "loss": 0.6405,
       "step": 10
     },
     {
       "epoch": 0.03,
-      "learning_rate": 7.391359230778123e-06,
-      "loss": 0.6683,
       "step": 15
     },
     {
       "epoch": 0.04,
-      "learning_rate": 6.360870983745512e-06,
-      "loss": 0.6156,
       "step": 20
     },
     {
       "epoch": 0.05,
-      "learning_rate": 5.404229357984623e-06,
-      "loss": 0.7032,
       "step": 25
     },
     {
       "epoch": 0.07,
-      "learning_rate": 4.522569407168996e-06,
-      "loss": 0.6814,
       "step": 30
     },
     {
       "epoch": 0.08,
-      "learning_rate": 3.7169372193369285e-06,
-      "loss": 0.7428,
       "step": 35
     },
     {
       "epoch": 0.09,
-      "learning_rate": 2.988288675715626e-06,
-      "loss": 0.6695,
       "step": 40
     },
     {
       "epoch": 0.1,
-      "learning_rate": 2.3374883165699825e-06,
-      "loss": 0.6716,
       "step": 45
     },
     {
       "epoch": 0.11,
-      "learning_rate": 1.7653083154249965e-06,
-      "loss": 0.6442,
       "step": 50
     },
     {
       "epoch": 0.12,
-      "learning_rate": 1.2724275628843243e-06,
-      "loss": 0.7111,
       "step": 55
     },
     {
       "epoch": 0.13,
-      "learning_rate": 8.594308611261225e-07,
-      "loss": 0.717,
       "step": 60
     },
     {
       "epoch": 0.14,
-      "learning_rate": 5.26808230038689e-07,
-      "loss": 0.6728,
       "step": 65
     },
     {
       "epoch": 0.15,
-      "learning_rate": 2.7495432581104424e-07,
-      "loss": 0.5893,
       "step": 70
     },
     {
       "epoch": 0.16,
-      "learning_rate": 1.0416797267454092e-07,
-      "loss": 0.6088,
       "step": 75
     },
     {
       "epoch": 0.18,
-      "learning_rate": 1.465180834793276e-08,
-      "loss": 0.6029,
       "step": 80
     },
     {
       "epoch": 0.19,
-      "learning_rate": 6.5120436089167734e-09,
-      "loss": 0.6099,
       "step": 85
     },
     {
       "epoch": 0.2,
-      "learning_rate": 7.975833627447873e-08,
-      "loss": 0.5843,
       "step": 90
     },
     {
       "epoch": 0.21,
-      "learning_rate": 2.3430377974243327e-07,
-      "loss": 0.6587,
       "step": 95
     },
     {
       "epoch": 0.22,
-      "learning_rate": 4.699650061053238e-07,
-      "loss": 0.5792,
       "step": 100
     },
     {
       "epoch": 0.23,
-      "learning_rate": 7.864624037171852e-07,
-      "loss": 0.6884,
       "step": 105
     },
     {
       "epoch": 0.24,
-      "learning_rate": 1.1834204489510753e-06,
-      "loss": 0.6179,
       "step": 110
     },
     {
       "epoch": 0.25,
-      "learning_rate": 1.6603681517579621e-06,
-      "loss": 0.6588,
       "step": 115
     },
     {
       "epoch": 0.26,
-      "learning_rate": 2.2167396144949356e-06,
-      "loss": 0.5756,
       "step": 120
     },
     {
       "epoch": 0.27,
-      "learning_rate": 2.851874703363704e-06,
-      "loss": 0.7218,
       "step": 125
     },
     {
       "epoch": 0.29,
-      "learning_rate": 3.565019831655522e-06,
-      "loss": 0.6423,
       "step": 130
     },
     {
       "epoch": 0.3,
-      "learning_rate": 4.3553288538822644e-06,
-      "loss": 0.7181,
       "step": 135
     },
     {
       "epoch": 0.31,
-      "learning_rate": 5.221864069725448e-06,
-      "loss": 0.7147,
       "step": 140
     },
     {
       "epoch": 0.32,
-      "learning_rate": 6.163597336619036e-06,
-      "loss": 0.6411,
       "step": 145
     },
     {
       "epoch": 0.33,
-      "learning_rate": 7.179411289634524e-06,
-      "loss": 0.6499,
       "step": 150
     },
     {
       "epoch": 0.34,
-      "learning_rate": 8.268100667234415e-06,
-      "loss": 0.6962,
       "step": 155
     },
     {
       "epoch": 0.35,
-      "learning_rate": 9.428373741315982e-06,
-      "loss": 0.6569,
       "step": 160
     },
     {
       "epoch": 0.36,
-      "learning_rate": 1.0658853849838009e-05,
-      "loss": 0.6364,
       "step": 165
     },
     {
       "epoch": 0.37,
-      "learning_rate": 1.1958081030236758e-05,
-      "loss": 0.6697,
       "step": 170
     },
     {
       "epoch": 0.38,
-      "learning_rate": 1.3324513751656602e-05,
-      "loss": 0.6964,
       "step": 175
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 1.47565307439888e-05,
-      "loss": 0.6235,
       "step": 180
     },
     {
       "epoch": 0.41,
-      "learning_rate": 1.6252432921492454e-05,
-      "loss": 0.6185,
       "step": 185
     },
     {
       "epoch": 0.42,
-      "learning_rate": 1.7810445398767395e-05,
-      "loss": 0.7024,
       "step": 190
     },
     {
       "epoch": 0.43,
-      "learning_rate": 1.9428719596644185e-05,
-      "loss": 0.6126,
       "step": 195
     },
     {
       "epoch": 0.44,
-      "learning_rate": 2.1105335435523642e-05,
-      "loss": 0.6189,
       "step": 200
     },
     {
       "epoch": 0.45,
-      "learning_rate": 2.283830361355242e-05,
-      "loss": 0.5719,
       "step": 205
     },
     {
       "epoch": 0.46,
-      "learning_rate": 2.4625567966918e-05,
-      "loss": 0.7211,
       "step": 210
     },
     {
       "epoch": 0.47,
-      "learning_rate": 2.6465007909489048e-05,
-      "loss": 0.6735,
       "step": 215
     },
     {
       "epoch": 0.48,
-      "learning_rate": 2.8354440948884326e-05,
-      "loss": 0.5916,
       "step": 220
     },
     {
       "epoch": 0.49,
-      "learning_rate": 3.0291625276002506e-05,
-      "loss": 0.5753,
       "step": 225
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 3.2274262424915514e-05,
-      "loss": 0.6077,
       "step": 230
     },
     {
       "epoch": 0.52,
-      "learning_rate": 3.430000000000064e-05,
-      "loss": 0.7398,
       "step": 235
     },
     {
       "epoch": 0.53,
-      "learning_rate": 3.636643446705075e-05,
-      "loss": 0.7589,
       "step": 240
     },
     {
       "epoch": 0.54,
-      "learning_rate": 3.847111400507036e-05,
-      "loss": 0.7287,
       "step": 245
     },
     {
       "epoch": 0.55,
-      "learning_rate": 4.0611541415345134e-05,
-      "loss": 0.7015,
       "step": 250
     },
     {
       "epoch": 0.56,
-      "learning_rate": 4.2785177084377745e-05,
-      "loss": 0.6185,
       "step": 255
     },
     {
       "epoch": 0.57,
-      "learning_rate": 4.49894419971228e-05,
-      "loss": 0.6638,
       "step": 260
     },
     {
       "epoch": 0.58,
-      "learning_rate": 4.7221720796988937e-05,
-      "loss": 0.6769,
       "step": 265
     },
     {
       "epoch": 0.59,
-      "learning_rate": 4.947936488896066e-05,
-      "loss": 0.7237,
       "step": 270
     },
     {
       "epoch": 0.6,
-      "learning_rate": 5.1759695582140806e-05,
-      "loss": 0.7138,
       "step": 275
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 5.4060007268020076e-05,
-      "loss": 0.655,
       "step": 280
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 5.637757063067322e-05,
-      "loss": 0.7932,
       "step": 285
     },
     {
       "epoch": 0.64,
-      "learning_rate": 5.870963588509545e-05,
-      "loss": 0.6143,
       "step": 290
     },
     {
       "epoch": 0.65,
-      "learning_rate": 6.105343603980619e-05,
-      "loss": 0.6686,
       "step": 295
     },
     {
       "epoch": 0.66,
-      "learning_rate": 6.34061901798874e-05,
-      "loss": 0.7298,
       "step": 300
     },
     {
       "epoch": 0.67,
-      "learning_rate": 6.576510676653068e-05,
-      "loss": 0.6932,
       "step": 305
     },
     {
       "epoch": 0.68,
-      "learning_rate": 6.812738694920095e-05,
-      "loss": 0.7121,
       "step": 310
     },
     {
       "epoch": 0.69,
-      "learning_rate": 7.049022788645635e-05,
-      "loss": 0.668,
       "step": 315
     },
     {
       "epoch": 0.7,
-      "learning_rate": 7.285082607152067e-05,
-      "loss": 0.6626,
       "step": 320
     },
     {
       "epoch": 0.71,
-      "learning_rate": 7.52063806586452e-05,
-      "loss": 0.7163,
       "step": 325
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 7.755409678629386e-05,
-      "loss": 0.753,
       "step": 330
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 7.989118889325919e-05,
-      "loss": 0.6771,
       "step": 335
     },
     {
       "epoch": 0.75,
-      "learning_rate": 8.221488402370275e-05,
-      "loss": 0.6505,
       "step": 340
     },
     {
       "epoch": 0.76,
-      "learning_rate": 8.452242511728957e-05,
-      "loss": 0.6098,
       "step": 345
     },
     {
       "epoch": 0.77,
-      "learning_rate": 8.681107428041253e-05,
-      "loss": 0.6978,
       "step": 350
     },
     {
       "epoch": 0.78,
-      "learning_rate": 8.907811603471558e-05,
-      "loss": 0.6606,
       "step": 355
     },
     {
       "epoch": 0.79,
-      "learning_rate": 9.132086053899106e-05,
-      "loss": 0.788,
       "step": 360
     },
     {
       "epoch": 0.8,
-      "learning_rate": 9.353664678067919e-05,
-      "loss": 0.7524,
       "step": 365
     },
     {
       "epoch": 0.81,
-      "learning_rate": 9.572284573315139e-05,
-      "loss": 0.6861,
       "step": 370
     },
     {
       "epoch": 0.82,
-      "learning_rate": 9.787686347505305e-05,
-      "loss": 0.6812,
       "step": 375
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 9.999614426797605e-05,
-      "loss": 0.6453,
       "step": 380
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 0.00010207817358884356,
-      "loss": 0.7003,
       "step": 385
     },
     {
       "epoch": 0.86,
-      "learning_rate": 0.00010412048111339246,
-      "loss": 0.714,
       "step": 390
     },
     {
       "epoch": 0.87,
-      "learning_rate": 0.00010612064364719859,
-      "loss": 0.7008,
       "step": 395
     },
     {
       "epoch": 0.88,
-      "learning_rate": 0.00010807628800079975,
-      "loss": 0.6857,
       "step": 400
     },
     {
       "epoch": 0.89,
-      "learning_rate": 0.00010998509380547761,
-      "loss": 0.7609,
       "step": 405
     },
     {
       "epoch": 0.9,
-      "learning_rate": 0.00011184479626637769,
-      "loss": 0.7942,
       "step": 410
     },
     {
       "epoch": 0.91,
-      "learning_rate": 0.00011365318884967352,
-      "loss": 0.6518,
       "step": 415
     },
     {
       "epoch": 0.92,
-      "learning_rate": 0.00011540812590062915,
-      "loss": 0.7253,
       "step": 420
     },
     {
       "epoch": 0.93,
-      "learning_rate": 0.000117107525189397,
-      "loss": 0.7335,
       "step": 425
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 0.00011874937038159925,
-      "loss": 0.7592,
       "step": 430
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 0.00012033171343069444,
-      "loss": 0.7893,
       "step": 435
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 0.00012185267688933072,
-      "loss": 0.7095,
       "step": 440
     },
     {
       "epoch": 0.98,
-      "learning_rate": 0.00012331045613693775,
-      "loss": 0.7761,
       "step": 445
     },
     {
       "epoch": 0.99,
-      "learning_rate": 0.0001247033215209036,
-      "loss": 0.6766,
       "step": 450
     },
     {
       "epoch": 1.0,
-      "learning_rate": 0.00012602962040880915,
-      "loss": 0.7222,
       "step": 455
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.41102197766304016,
-      "eval_runtime": 15.2365,
-      "eval_samples_per_second": 41.742,
-      "eval_steps_per_second": 5.251,
-      "step": 456
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 0.00011710752518939759,
-      "loss": 0.6694,
       "step": 460
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 0.00011539283602861273,
-      "loss": 0.6712,
       "step": 465
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 0.00011362164035023001,
-      "loss": 0.7083,
       "step": 470
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 0.00011179607703080105,
-      "loss": 0.6899,
       "step": 475
     },
     {
-      "epoch": 1.06,
-      "learning_rate": 0.000109918350600647,
-      "loss": 0.7508,
       "step": 480
     },
     {
       "epoch": 1.07,
-      "learning_rate": 0.0001079907285816916,
-      "loss": 0.6351,
       "step": 485
     },
     {
       "epoch": 1.08,
-      "learning_rate": 0.00010601553874922655,
-      "loss": 0.7873,
       "step": 490
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 0.0001039951663209155,
-      "loss": 0.7405,
       "step": 495
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 0.00010193205107643125,
-      "loss": 0.8115,
       "step": 500
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 9.982868441120446e-05,
-      "loss": 0.8309,
       "step": 505
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 9.768760632784171e-05,
-      "loss": 0.7548,
       "step": 510
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 9.551140236884618e-05,
-      "loss": 0.7107,
       "step": 515
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 9.330270049434476e-05,
-      "loss": 0.6035,
       "step": 520
     },
     {
-      "epoch": 1.16,
-      "learning_rate": 9.1064167908592e-05,
-      "loss": 0.724,
       "step": 525
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 8.879850783908354e-05,
-      "loss": 0.6642,
       "step": 530
     },
     {
       "epoch": 1.18,
-      "learning_rate": 8.650845627216803e-05,
-      "loss": 0.6811,
       "step": 535
     },
     {
       "epoch": 1.19,
-      "learning_rate": 8.41967786490999e-05,
-      "loss": 0.6505,
       "step": 540
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 8.186626652652275e-05,
-      "loss": 0.7759,
       "step": 545
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 7.951973420541605e-05,
-      "loss": 0.6233,
       "step": 550
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 7.716001533257597e-05,
-      "loss": 0.7224,
       "step": 555
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 7.478995947873449e-05,
-      "loss": 0.7252,
       "step": 560
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 7.241242869744897e-05,
-      "loss": 0.6465,
       "step": 565
     },
     {
-      "epoch": 1.26,
-      "learning_rate": 7.003029406891743e-05,
-      "loss": 0.7505,
       "step": 570
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 6.764643223289357e-05,
-      "loss": 0.7117,
       "step": 575
     },
     {
-      "epoch": 1.28,
-      "learning_rate": 6.526372191488798e-05,
-      "loss": 0.7289,
       "step": 580
     },
     {
       "epoch": 1.29,
-      "learning_rate": 6.288504044985065e-05,
-      "loss": 0.7069,
       "step": 585
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 6.05132603075328e-05,
-      "loss": 0.7925,
       "step": 590
     },
     {
-      "epoch": 1.32,
-      "learning_rate": 5.8151245623725575e-05,
-      "loss": 0.7614,
       "step": 595
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 5.5801848741551456e-05,
-      "loss": 0.6241,
       "step": 600
     },
     {
-      "epoch": 1.34,
-      "learning_rate": 5.3467906767025034e-05,
-      "loss": 0.6841,
       "step": 605
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 5.115223814297748e-05,
-      "loss": 0.7002,
       "step": 610
     },
     {
-      "epoch": 1.36,
-      "learning_rate": 4.885763924553591e-05,
-      "loss": 0.7048,
       "step": 615
     },
     {
-      "epoch": 1.37,
-      "learning_rate": 4.65868810072671e-05,
-      "loss": 0.6762,
       "step": 620
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 4.434270557101253e-05,
-      "loss": 0.6848,
       "step": 625
     },
     {
-      "epoch": 1.39,
-      "learning_rate": 4.2127822978506955e-05,
-      "loss": 0.7911,
       "step": 630
     },
     {
       "epoch": 1.4,
-      "learning_rate": 3.9944907897778e-05,
-      "loss": 0.767,
       "step": 635
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 3.779659639322971e-05,
-      "loss": 0.6907,
       "step": 640
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 3.568548274236045e-05,
-      "loss": 0.7518,
       "step": 645
     },
     {
-      "epoch": 1.44,
-      "learning_rate": 3.361411630295728e-05,
-      "loss": 0.6918,
       "step": 650
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 3.158499843450359e-05,
-      "loss": 0.7341,
       "step": 655
     },
     {
-      "epoch": 1.46,
-      "learning_rate": 2.9600579477565238e-05,
-      "loss": 0.6637,
       "step": 660
     },
     {
-      "epoch": 1.47,
-      "learning_rate": 2.7663255794802226e-05,
-      "loss": 0.7897,
       "step": 665
     },
     {
-      "epoch": 1.48,
-      "learning_rate": 2.5775366877124698e-05,
-      "loss": 0.5947,
       "step": 670
     },
     {
-      "epoch": 1.49,
-      "learning_rate": 2.393919251856543e-05,
-      "loss": 0.6711,
       "step": 675
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 2.21569500632249e-05,
-      "loss": 0.789,
       "step": 680
     },
     {
-      "epoch": 1.52,
-      "learning_rate": 2.043079172761756e-05,
-      "loss": 0.6784,
       "step": 685
     },
     {
-      "epoch": 1.53,
-      "learning_rate": 1.876280200169214e-05,
-      "loss": 0.648,
       "step": 690
     },
     {
-      "epoch": 1.54,
-      "learning_rate": 1.7154995131623676e-05,
-      "loss": 0.8539,
       "step": 695
     },
     {
-      "epoch": 1.55,
-      "learning_rate": 1.5609312687419874e-05,
-      "loss": 0.8157,
       "step": 700
     },
     {
-      "epoch": 1.56,
-      "learning_rate": 1.4127621218314657e-05,
-      "loss": 0.6428,
       "step": 705
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 1.2711709998742864e-05,
-      "loss": 0.6836,
       "step": 710
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 1.1363288867621515e-05,
-      "loss": 0.6848,
       "step": 715
     },
     {
-      "epoch": 1.59,
-      "learning_rate": 1.0083986163577838e-05,
-      "loss": 0.687,
       "step": 720
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 8.875346758584498e-06,
-      "loss": 0.6913,
       "step": 725
     },
     {
-      "epoch": 1.62,
-      "learning_rate": 7.738830192380085e-06,
-      "loss": 0.7138,
       "step": 730
     },
     {
-      "epoch": 1.63,
-      "learning_rate": 6.675808909954194e-06,
-      "loss": 0.7293,
       "step": 735
     },
     {
-      "epoch": 1.64,
-      "learning_rate": 5.687566604196989e-06,
-      "loss": 0.7797,
       "step": 740
     },
     {
-      "epoch": 1.65,
-      "learning_rate": 4.7752966657182915e-06,
-      "loss": 0.6821,
       "step": 745
     },
     {
-      "epoch": 1.66,
-      "learning_rate": 3.940100741730516e-06,
-      "loss": 0.5752,
       "step": 750
     },
     {
-      "epoch": 1.67,
-      "learning_rate": 3.182987405707336e-06,
-      "loss": 0.7456,
       "step": 755
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 2.5048709394422254e-06,
-      "loss": 0.694,
       "step": 760
     },
     {
-      "epoch": 1.69,
-      "learning_rate": 1.9065702289717339e-06,
-      "loss": 0.6621,
       "step": 765
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 1.3888077756976535e-06,
-      "loss": 0.706,
       "step": 770
     },
     {
-      "epoch": 1.71,
-      "learning_rate": 9.522088239022507e-07,
-      "loss": 0.7326,
       "step": 775
     },
     {
-      "epoch": 1.73,
-      "learning_rate": 5.973006057100785e-07,
-      "loss": 0.6361,
       "step": 780
     },
     {
-      "epoch": 1.74,
-      "learning_rate": 3.245117044082019e-07,
-      "loss": 0.647,
       "step": 785
     },
     {
-      "epoch": 1.75,
-      "learning_rate": 1.3417153689374065e-07,
-      "loss": 0.7488,
       "step": 790
     },
     {
-      "epoch": 1.76,
-      "learning_rate": 2.6509955873614998e-08,
-      "loss": 0.7149,
       "step": 795
     },
     {
-      "epoch": 1.77,
-      "learning_rate": 1.6569722969137058e-09,
-      "loss": 0.6775,
       "step": 800
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 5.964259835508488e-08,
-      "loss": 0.7746,
       "step": 805
     },
     {
-      "epoch": 1.79,
-      "learning_rate": 2.003968112395687e-07,
-      "loss": 0.6598,
       "step": 810
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 4.2374963770057325e-07,
-      "loss": 0.6891,
       "step": 815
     },
     {
-      "epoch": 1.81,
-      "learning_rate": 7.294313593051582e-07,
-      "loss": 0.6988,
       "step": 820
     },
     {
-      "epoch": 1.83,
-      "learning_rate": 1.1170728381449087e-06,
-      "loss": 0.6761,
       "step": 825
     },
     {
-      "epoch": 1.84,
-      "learning_rate": 1.5862059626056298e-06,
-      "loss": 0.7306,
       "step": 830
     },
     {
-      "epoch": 1.85,
-      "learning_rate": 2.1362642126509973e-06,
-      "loss": 0.6297,
       "step": 835
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 2.766583343947401e-06,
-      "loss": 0.7385,
       "step": 840
     },
     {
-      "epoch": 1.87,
-      "learning_rate": 3.4764021899978206e-06,
-      "loss": 0.7045,
       "step": 845
     },
     {
-      "epoch": 1.88,
-      "learning_rate": 4.264863581318223e-06,
-      "loss": 0.6952,
       "step": 850
     },
     {
-      "epoch": 1.89,
-      "learning_rate": 5.131015380546021e-06,
-      "loss": 0.7021,
       "step": 855
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 6.073811632230782e-06,
-      "loss": 0.6392,
       "step": 860
     },
     {
-      "epoch": 1.91,
-      "learning_rate": 7.09211382591858e-06,
-      "loss": 0.694,
       "step": 865
     },
     {
-      "epoch": 1.92,
-      "learning_rate": 8.18469227100481e-06,
-      "loss": 0.6864,
       "step": 870
     },
     {
-      "epoch": 1.94,
-      "learning_rate": 9.350227581695092e-06,
-      "loss": 0.7318,
       "step": 875
     },
     {
-      "epoch": 1.95,
-      "learning_rate": 1.0587312270281189e-05,
-      "loss": 0.6326,
       "step": 880
     },
     {
-      "epoch": 1.96,
-      "learning_rate": 1.1894452446807735e-05,
-      "loss": 0.7141,
       "step": 885
     },
     {
-      "epoch": 1.97,
-      "learning_rate": 1.3270069623077462e-05,
-      "loss": 0.713,
       "step": 890
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 1.47125026188163e-05,
-      "loss": 0.7505,
       "step": 895
     },
-    {
-      "epoch": 1.99,
-      "learning_rate": 1.6220009567696506e-05,
-      "loss": 0.7118,
-      "step": 900
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 0.3754318356513977,
-      "eval_runtime": 8.7593,
-      "eval_samples_per_second": 76.147,
-      "eval_steps_per_second": 9.59,
-      "step": 904
-    },
     {
       "epoch": 1.98,
-      "learning_rate": 4.956064306819408e-05,
-      "loss": 0.7479,
-      "step": 905
     },
     {
       "epoch": 1.99,
-      "learning_rate": 4.7311949670299134e-05,
-      "loss": 0.7304,
-      "step": 910
     },
     {
       "epoch": 2.0,
-      "learning_rate": 4.508829441538651e-05,
-      "loss": 0.666,
-      "step": 915
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.31595703959465027,
-      "eval_runtime": 690.3622,
-      "eval_samples_per_second": 0.898,
-      "eval_steps_per_second": 0.113,
-      "step": 916
     }
   ],
-  "max_steps": 1374,
   "num_train_epochs": 3,
-  "total_flos": 955022376960000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.3614741861820221,
+  "best_model_checkpoint": "output/eminem/checkpoint-910",
   "epoch": 2.0,
+  "global_step": 910,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 1.0194653534426477e-06,
+      "loss": 0.6762,
       "step": 5
     },
     {
       "epoch": 0.02,
+      "learning_rate": 6.530415424531046e-07,
+      "loss": 0.6579,
       "step": 10
     },
     {
       "epoch": 0.03,
+      "learning_rate": 3.675914059099763e-07,
+      "loss": 0.7016,
       "step": 15
     },
     {
       "epoch": 0.04,
+      "learning_rate": 1.6345512013444254e-07,
+      "loss": 0.6176,
       "step": 20
     },
     {
       "epoch": 0.05,
+      "learning_rate": 4.087595819659287e-08,
+      "loss": 0.563,
       "step": 25
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.0,
+      "loss": 0.689,
       "step": 30
     },
     {
       "epoch": 0.08,
+      "learning_rate": 4.0875958196577634e-08,
+      "loss": 0.6532,
       "step": 35
     },
     {
       "epoch": 0.09,
+      "learning_rate": 1.634551201344197e-07,
+      "loss": 0.5922,
       "step": 40
     },
     {
       "epoch": 0.1,
+      "learning_rate": 3.6759140590974026e-07,
+      "loss": 0.6565,
       "step": 45
     },
     {
       "epoch": 0.11,
+      "learning_rate": 6.530415424530588e-07,
+      "loss": 0.7043,
       "step": 50
     },
     {
       "epoch": 0.12,
+      "learning_rate": 1.0194653534425943e-06,
+      "loss": 0.597,
       "step": 55
     },
     {
       "epoch": 0.13,
+      "learning_rate": 1.4664261646975495e-06,
+      "loss": 0.7246,
       "step": 60
     },
     {
       "epoch": 0.14,
+      "learning_rate": 1.993391324572832e-06,
+      "loss": 0.639,
       "step": 65
     },
     {
       "epoch": 0.15,
+      "learning_rate": 2.5997328387288936e-06,
+      "loss": 0.6834,
       "step": 70
     },
     {
       "epoch": 0.16,
+      "learning_rate": 3.2847281185253694e-06,
+      "loss": 0.6745,
       "step": 75
     },
     {
       "epoch": 0.18,
+      "learning_rate": 4.0475608421405796e-06,
+      "loss": 0.5851,
       "step": 80
     },
     {
       "epoch": 0.19,
+      "learning_rate": 4.887321927404397e-06,
+      "loss": 0.6805,
       "step": 85
     },
     {
       "epoch": 0.2,
+      "learning_rate": 5.803010615159864e-06,
+      "loss": 0.6536,
       "step": 90
     },
     {
       "epoch": 0.21,
+      "learning_rate": 6.793535661893871e-06,
+      "loss": 0.6119,
       "step": 95
     },
     {
       "epoch": 0.22,
+      "learning_rate": 7.857716640189427e-06,
+      "loss": 0.6954,
       "step": 100
     },
     {
       "epoch": 0.23,
+      "learning_rate": 8.994285345464919e-06,
+      "loss": 0.7077,
       "step": 105
     },
     {
       "epoch": 0.24,
+      "learning_rate": 1.0201887307313696e-05,
+      "loss": 0.6852,
       "step": 110
     },
     {
       "epoch": 0.25,
+      "learning_rate": 1.147908340365762e-05,
+      "loss": 0.6743,
       "step": 115
     },
     {
       "epoch": 0.26,
+      "learning_rate": 1.2824351575772418e-05,
+      "loss": 0.7093,
       "step": 120
     },
     {
       "epoch": 0.27,
+      "learning_rate": 1.4236088642155879e-05,
+      "loss": 0.696,
       "step": 125
     },
     {
       "epoch": 0.29,
+      "learning_rate": 1.5712612209063624e-05,
+      "loss": 0.6607,
       "step": 130
     },
     {
       "epoch": 0.3,
+      "learning_rate": 1.7252162675462687e-05,
+      "loss": 0.5847,
       "step": 135
     },
     {
       "epoch": 0.31,
+      "learning_rate": 1.8852905329964338e-05,
+      "loss": 0.6638,
       "step": 140
     },
     {
       "epoch": 0.32,
+      "learning_rate": 2.051293253729783e-05,
+      "loss": 0.6221,
       "step": 145
     },
     {
       "epoch": 0.33,
+      "learning_rate": 2.2230266011669234e-05,
+      "loss": 0.5733,
       "step": 150
     },
     {
       "epoch": 0.34,
+      "learning_rate": 2.4002859174324688e-05,
+      "loss": 0.6478,
       "step": 155
     },
     {
       "epoch": 0.35,
+      "learning_rate": 2.5828599592491126e-05,
+      "loss": 0.5237,
       "step": 160
     },
     {
       "epoch": 0.36,
+      "learning_rate": 2.770531149681108e-05,
+      "loss": 0.6559,
       "step": 165
     },
     {
       "epoch": 0.37,
+      "learning_rate": 2.9630758374242324e-05,
+      "loss": 0.6755,
       "step": 170
     },
     {
       "epoch": 0.38,
+      "learning_rate": 3.1602645633354207e-05,
+      "loss": 0.6611,
       "step": 175
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 3.3618623338835595e-05,
+      "loss": 0.651,
       "step": 180
     },
     {
       "epoch": 0.41,
+      "learning_rate": 3.5676289011958925e-05,
+      "loss": 0.7284,
       "step": 185
     },
     {
       "epoch": 0.42,
+      "learning_rate": 3.7773190493652644e-05,
+      "loss": 0.6301,
       "step": 190
     },
     {
       "epoch": 0.43,
+      "learning_rate": 3.990682886679578e-05,
+      "loss": 0.6188,
       "step": 195
     },
     {
       "epoch": 0.44,
+      "learning_rate": 4.2074661434217846e-05,
+      "loss": 0.586,
       "step": 200
     },
     {
       "epoch": 0.45,
+      "learning_rate": 4.427410474888269e-05,
+      "loss": 0.6809,
       "step": 205
     },
     {
       "epoch": 0.46,
+      "learning_rate": 4.650253769262196e-05,
+      "loss": 0.6343,
       "step": 210
     },
     {
       "epoch": 0.47,
+      "learning_rate": 4.875730459979135e-05,
+      "loss": 0.7333,
       "step": 215
     },
     {
       "epoch": 0.48,
+      "learning_rate": 5.103571842205178e-05,
+      "loss": 0.6158,
       "step": 220
     },
     {
       "epoch": 0.49,
+      "learning_rate": 5.3335063930595955e-05,
+      "loss": 0.6216,
       "step": 225
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 5.565260095192864e-05,
+      "loss": 0.7031,
       "step": 230
     },
     {
       "epoch": 0.52,
+      "learning_rate": 5.7985567633386964e-05,
+      "loss": 0.7186,
       "step": 235
     },
     {
       "epoch": 0.53,
+      "learning_rate": 6.033118373448471e-05,
+      "loss": 0.6841,
       "step": 240
     },
     {
       "epoch": 0.54,
+      "learning_rate": 6.268665394018899e-05,
+      "loss": 0.6929,
       "step": 245
     },
     {
       "epoch": 0.55,
+      "learning_rate": 6.504917119214232e-05,
+      "loss": 0.8001,
       "step": 250
     },
     {
       "epoch": 0.56,
+      "learning_rate": 6.741592003389098e-05,
+      "loss": 0.6497,
       "step": 255
     },
     {
       "epoch": 0.57,
+      "learning_rate": 6.978407996610794e-05,
+      "loss": 0.6001,
       "step": 260
     },
     {
       "epoch": 0.58,
+      "learning_rate": 7.21508288078566e-05,
+      "loss": 0.7792,
       "step": 265
     },
     {
       "epoch": 0.59,
+      "learning_rate": 7.451334605980994e-05,
+      "loss": 0.6229,
       "step": 270
     },
     {
       "epoch": 0.6,
+      "learning_rate": 7.686881626551423e-05,
+      "loss": 0.6103,
       "step": 275
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 7.921443236661197e-05,
+      "loss": 0.6509,
       "step": 280
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 8.15473990480703e-05,
+      "loss": 0.7008,
       "step": 285
     },
     {
       "epoch": 0.64,
+      "learning_rate": 8.3864936069403e-05,
+      "loss": 0.6919,
       "step": 290
     },
     {
       "epoch": 0.65,
+      "learning_rate": 8.616428157794718e-05,
+      "loss": 0.7347,
       "step": 295
     },
     {
       "epoch": 0.66,
+      "learning_rate": 8.844269540020762e-05,
+      "loss": 0.7356,
       "step": 300
     },
     {
       "epoch": 0.67,
+      "learning_rate": 9.069746230737702e-05,
+      "loss": 0.7,
       "step": 305
     },
     {
       "epoch": 0.68,
+      "learning_rate": 9.29258952511163e-05,
+      "loss": 0.6359,
       "step": 310
     },
     {
       "epoch": 0.69,
+      "learning_rate": 9.512533856578116e-05,
+      "loss": 0.7165,
       "step": 315
     },
     {
       "epoch": 0.7,
+      "learning_rate": 9.729317113320324e-05,
+      "loss": 0.7637,
       "step": 320
     },
     {
       "epoch": 0.71,
+      "learning_rate": 9.942680950634639e-05,
+      "loss": 0.6223,
       "step": 325
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 0.00010152371098804014,
+      "loss": 0.5555,
       "step": 330
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 0.00010358137666116348,
+      "loss": 0.7219,
       "step": 335
     },
     {
       "epoch": 0.75,
+      "learning_rate": 0.00010559735436664489,
+      "loss": 0.7501,
       "step": 340
     },
     {
       "epoch": 0.76,
+      "learning_rate": 0.0001075692416257568,
+      "loss": 0.7454,
       "step": 345
     },
     {
       "epoch": 0.77,
+      "learning_rate": 0.00010949468850318805,
+      "loss": 0.6956,
       "step": 350
     },
     {
       "epoch": 0.78,
+      "learning_rate": 0.00011137140040750957,
+      "loss": 0.7294,
       "step": 355
     },
     {
       "epoch": 0.79,
+      "learning_rate": 0.00011319714082567451,
+      "loss": 0.7416,
       "step": 360
     },
     {
       "epoch": 0.8,
+      "learning_rate": 0.00011496973398832998,
+      "loss": 0.6926,
       "step": 365
     },
     {
       "epoch": 0.81,
+      "learning_rate": 0.00011668706746270142,
+      "loss": 0.7841,
       "step": 370
     },
     {
       "epoch": 0.82,
+      "learning_rate": 0.00011834709467003491,
+      "loss": 0.7603,
       "step": 375
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 0.00011994783732453659,
+      "loss": 0.7249,
       "step": 380
     },
     {
+      "epoch": 0.85,
+      "learning_rate": 0.0001214873877909357,
+      "loss": 0.7231,
       "step": 385
     },
     {
       "epoch": 0.86,
+      "learning_rate": 0.00012296391135784465,
+      "loss": 0.7101,
       "step": 390
     },
     {
       "epoch": 0.87,
+      "learning_rate": 0.00012437564842422694,
+      "loss": 0.7521,
       "step": 395
     },
     {
       "epoch": 0.88,
+      "learning_rate": 0.00012572091659634178,
+      "loss": 0.6694,
       "step": 400
     },
     {
       "epoch": 0.89,
+      "learning_rate": 0.00012699811269268675,
+      "loss": 0.6763,
       "step": 405
     },
     {
       "epoch": 0.9,
+      "learning_rate": 0.00012820571465453455,
+      "loss": 0.7881,
       "step": 410
     },
     {
       "epoch": 0.91,
+      "learning_rate": 0.00012934228335981007,
+      "loss": 0.7906,
       "step": 415
     },
     {
       "epoch": 0.92,
+      "learning_rate": 0.00013040646433810568,
+      "loss": 0.7662,
       "step": 420
     },
     {
       "epoch": 0.93,
+      "learning_rate": 0.00013139698938483972,
+      "loss": 0.7165,
       "step": 425
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 0.00013231267807259521,
+      "loss": 0.7159,
       "step": 430
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 0.00013315243915785907,
+      "loss": 0.7796,
       "step": 435
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 0.0001339152718814749,
+      "loss": 0.8222,
       "step": 440
     },
     {
       "epoch": 0.98,
+      "learning_rate": 0.0001346002671612708,
+      "loss": 0.7428,
       "step": 445
     },
     {
       "epoch": 0.99,
+      "learning_rate": 0.00013520660867542692,
+      "loss": 0.7597,
       "step": 450
     },
     {
       "epoch": 1.0,
+      "learning_rate": 0.00013573357383530262,
+      "loss": 0.8769,
       "step": 455
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.36263224482536316,
+      "eval_runtime": 29.2619,
+      "eval_samples_per_second": 22.008,
+      "eval_steps_per_second": 2.768,
+      "step": 455
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 0.0001361805346465572,
+      "loss": 0.6009,
       "step": 460
     },
     {
+      "epoch": 1.02,
+      "learning_rate": 0.00013654695845754679,
+      "loss": 0.6886,
       "step": 465
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 0.00013683240859409016,
+      "loss": 0.648,
       "step": 470
     },
     {
+      "epoch": 1.04,
+      "learning_rate": 0.0001370365448798655,
+      "loss": 0.6639,
       "step": 475
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 0.00013715912404180336,
+      "loss": 0.6411,
       "step": 480
     },
     {
       "epoch": 1.07,
+      "learning_rate": 0.0001372,
+      "loss": 0.5669,
       "step": 485
     },
     {
       "epoch": 1.08,
+      "learning_rate": 0.00013715912404180345,
+      "loss": 0.7041,
       "step": 490
     },
     {
+      "epoch": 1.09,
+      "learning_rate": 0.00013703654487986564,
+      "loss": 0.7196,
       "step": 495
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 0.00013683240859409013,
+      "loss": 0.6656,
       "step": 500
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 0.00013654695845754679,
+      "loss": 0.7371,
       "step": 505
     },
     {
+      "epoch": 1.12,
+      "learning_rate": 0.00013618053464655754,
+      "loss": 0.6728,
       "step": 510
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 0.0001357335738353026,
+      "loss": 0.663,
       "step": 515
     },
     {
+      "epoch": 1.14,
+      "learning_rate": 0.00013520660867542687,
+      "loss": 0.5962,
       "step": 520
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 0.0001346002671612713,
+      "loss": 0.6391,
       "step": 525
     },
     {
+      "epoch": 1.16,
+      "learning_rate": 0.00013391527188147485,
+      "loss": 0.7195,
       "step": 530
     },
     {
       "epoch": 1.18,
+      "learning_rate": 0.00013315243915785902,
+      "loss": 0.7751,
       "step": 535
     },
     {
       "epoch": 1.19,
+      "learning_rate": 0.0001323126780725959,
+      "loss": 0.6413,
       "step": 540
     },
     {
+      "epoch": 1.2,
+      "learning_rate": 0.00013139698938484045,
+      "loss": 0.7913,
       "step": 545
     },
     {
+      "epoch": 1.21,
+      "learning_rate": 0.0001304064643381056,
+      "loss": 0.7761,
       "step": 550
     },
     {
+      "epoch": 1.22,
+      "learning_rate": 0.00012934228335981002,
+      "loss": 0.6472,
       "step": 555
     },
     {
+      "epoch": 1.23,
+      "learning_rate": 0.00012820571465453544,
+      "loss": 0.6222,
       "step": 560
     },
     {
+      "epoch": 1.24,
+      "learning_rate": 0.0001269981126926867,
+      "loss": 0.6736,
       "step": 565
     },
     {
+      "epoch": 1.25,
+      "learning_rate": 0.00012572091659634172,
+      "loss": 0.73,
       "step": 570
     },
     {
+      "epoch": 1.26,
+      "learning_rate": 0.000124375648424228,
+      "loss": 0.6426,
       "step": 575
     },
     {
+      "epoch": 1.27,
+      "learning_rate": 0.00012296391135784457,
+      "loss": 0.7043,
       "step": 580
     },
     {
       "epoch": 1.29,
+      "learning_rate": 0.00012148738779093562,
+      "loss": 0.7227,
       "step": 585
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 0.00011994783732453781,
+      "loss": 0.7366,
       "step": 590
     },
     {
+      "epoch": 1.31,
+      "learning_rate": 0.00011834709467003617,
+      "loss": 0.7144,
       "step": 595
     },
     {
+      "epoch": 1.32,
+      "learning_rate": 0.00011668706746270132,
+      "loss": 0.6817,
       "step": 600
     },
     {
+      "epoch": 1.33,
+      "learning_rate": 0.00011496973398833133,
+      "loss": 0.6274,
       "step": 605
     },
     {
+      "epoch": 1.34,
+      "learning_rate": 0.00011319714082567588,
+      "loss": 0.6754,
       "step": 610
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 0.00011137140040750945,
+      "loss": 0.6134,
       "step": 615
     },
     {
+      "epoch": 1.36,
+      "learning_rate": 0.00010949468850318951,
+      "loss": 0.698,
       "step": 620
     },
     {
+      "epoch": 1.37,
+      "learning_rate": 0.00010756924162575829,
+      "loss": 0.8638,
       "step": 625
     },
     {
+      "epoch": 1.38,
+      "learning_rate": 0.00010559735436664478,
+      "loss": 0.7123,
       "step": 630
     },
     {
       "epoch": 1.4,
+      "learning_rate": 0.00010358137666116336,
+      "loss": 0.666,
       "step": 635
     },
     {
+      "epoch": 1.41,
+      "learning_rate": 0.00010152371098804174,
+      "loss": 0.6977,
       "step": 640
     },
     {
+      "epoch": 1.42,
+      "learning_rate": 9.942680950634801e-05,
+      "loss": 0.5854,
       "step": 645
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 9.729317113320311e-05,
+      "loss": 0.6888,
       "step": 650
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 9.512533856578284e-05,
+      "loss": 0.6905,
       "step": 655
     },
     {
+      "epoch": 1.45,
+      "learning_rate": 9.2925895251118e-05,
+      "loss": 0.664,
       "step": 660
     },
     {
+      "epoch": 1.46,
+      "learning_rate": 9.069746230737689e-05,
+      "loss": 0.7013,
       "step": 665
     },
     {
+      "epoch": 1.47,
+      "learning_rate": 8.844269540020936e-05,
+      "loss": 0.6946,
       "step": 670
     },
     {
+      "epoch": 1.48,
+      "learning_rate": 8.616428157794893e-05,
+      "loss": 0.7819,
       "step": 675
     },
     {
+      "epoch": 1.49,
+      "learning_rate": 8.386493606940288e-05,
+      "loss": 0.6662,
       "step": 680
     },
     {
+      "epoch": 1.51,
+      "learning_rate": 8.154739904807017e-05,
+      "loss": 0.5889,
       "step": 685
     },
     {
+      "epoch": 1.52,
+      "learning_rate": 7.921443236661376e-05,
+      "loss": 0.7833,
       "step": 690
     },
     {
+      "epoch": 1.53,
+      "learning_rate": 7.686881626551602e-05,
+      "loss": 0.7548,
       "step": 695
     },
     {
+      "epoch": 1.54,
+      "learning_rate": 7.45133460598098e-05,
+      "loss": 0.6886,
       "step": 700
     },
     {
+      "epoch": 1.55,
+      "learning_rate": 7.215082880785842e-05,
+      "loss": 0.7179,
       "step": 705
     },
     {
+      "epoch": 1.56,
+      "learning_rate": 6.978407996610975e-05,
+      "loss": 0.745,
       "step": 710
     },
     {
+      "epoch": 1.57,
+      "learning_rate": 6.741592003389085e-05,
+      "loss": 0.5811,
       "step": 715
     },
     {
+      "epoch": 1.58,
+      "learning_rate": 6.504917119214413e-05,
+      "loss": 0.6962,
       "step": 720
     },
     {
+      "epoch": 1.59,
+      "learning_rate": 6.268665394019079e-05,
+      "loss": 0.6763,
       "step": 725
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 6.033118373448457e-05,
+      "loss": 0.6247,
       "step": 730
     },
     {
+      "epoch": 1.62,
+      "learning_rate": 5.7985567633386836e-05,
+      "loss": 0.7763,
       "step": 735
     },
     {
+      "epoch": 1.63,
+      "learning_rate": 5.5652600951930425e-05,
+      "loss": 0.6239,
       "step": 740
     },
     {
+      "epoch": 1.64,
+      "learning_rate": 5.333506393059772e-05,
+      "loss": 0.7218,
       "step": 745
     },
     {
+      "epoch": 1.65,
+      "learning_rate": 5.103571842205165e-05,
+      "loss": 0.695,
       "step": 750
     },
     {
+      "epoch": 1.66,
+      "learning_rate": 4.8757304599793096e-05,
+      "loss": 0.7938,
       "step": 755
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 4.650253769262368e-05,
+      "loss": 0.7333,
       "step": 760
     },
     {
+      "epoch": 1.68,
+      "learning_rate": 4.4274104748882565e-05,
+      "loss": 0.7092,
       "step": 765
     },
     {
+      "epoch": 1.69,
+      "learning_rate": 4.2074661434219527e-05,
+      "loss": 0.764,
       "step": 770
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 3.9906828866797437e-05,
+      "loss": 0.7929,
       "step": 775
     },
     {
+      "epoch": 1.71,
+      "learning_rate": 3.777319049365253e-05,
+      "loss": 0.6747,
       "step": 780
     },
     {
+      "epoch": 1.73,
+      "learning_rate": 3.56762890119588e-05,
+      "loss": 0.6921,
       "step": 785
     },
     {
+      "epoch": 1.74,
+      "learning_rate": 3.361862333883716e-05,
+      "loss": 0.7049,
       "step": 790
     },
     {
+      "epoch": 1.75,
+      "learning_rate": 3.160264563335574e-05,
+      "loss": 0.778,
       "step": 795
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 2.9630758374242215e-05,
+      "loss": 0.6684,
       "step": 800
     },
     {
+      "epoch": 1.77,
+      "learning_rate": 2.7705311496812532e-05,
+      "loss": 0.6652,
       "step": 805
     },
     {
+      "epoch": 1.78,
+      "learning_rate": 2.582859959249102e-05,
+      "loss": 0.7384,
       "step": 810
     },
     {
+      "epoch": 1.79,
+      "learning_rate": 2.400285917432458e-05,
+      "loss": 0.6104,
       "step": 815
     },
     {
+      "epoch": 1.8,
+      "learning_rate": 2.2230266011670566e-05,
+      "loss": 0.7144,
       "step": 820
     },
     {
+      "epoch": 1.81,
+      "learning_rate": 2.0512932537299123e-05,
+      "loss": 0.5937,
       "step": 825
     },
     {
+      "epoch": 1.82,
+      "learning_rate": 1.885290532996424e-05,
+      "loss": 0.7779,
       "step": 830
     },
     {
+      "epoch": 1.84,
+      "learning_rate": 1.7252162675462595e-05,
+      "loss": 0.7421,
       "step": 835
     },
     {
+      "epoch": 1.85,
+      "learning_rate": 1.571261220906478e-05,
+      "loss": 0.7221,
       "step": 840
     },
     {
+      "epoch": 1.86,
+      "learning_rate": 1.4236088642155802e-05,
+      "loss": 0.757,
       "step": 845
     },
     {
+      "epoch": 1.87,
+      "learning_rate": 1.2824351575772341e-05,
+      "loss": 0.752,
       "step": 850
     },
     {
+      "epoch": 1.88,
+      "learning_rate": 1.1479083403658627e-05,
+      "loss": 0.743,
       "step": 855
     },
     {
+      "epoch": 1.89,
+      "learning_rate": 1.0201887307313627e-05,
+      "loss": 0.5773,
       "step": 860
     },
     {
+      "epoch": 1.9,
+      "learning_rate": 8.994285345464858e-06,
+      "loss": 0.7125,
       "step": 865
     },
     {
+      "epoch": 1.91,
+      "learning_rate": 7.857716640190273e-06,
+      "loss": 0.6377,
       "step": 870
     },
     {
+      "epoch": 1.92,
+      "learning_rate": 6.793535661894656e-06,
+      "loss": 0.7089,
       "step": 875
     },
     {
+      "epoch": 1.93,
+      "learning_rate": 5.803010615159811e-06,
+      "loss": 0.61,
       "step": 880
     },
     {
+      "epoch": 1.95,
+      "learning_rate": 4.887321927404351e-06,
+      "loss": 0.696,
       "step": 885
     },
     {
+      "epoch": 1.96,
+      "learning_rate": 4.047560842141189e-06,
+      "loss": 0.6485,
       "step": 890
     },
     {
+      "epoch": 1.97,
+      "learning_rate": 3.2847281185253237e-06,
+      "loss": 0.6823,
       "step": 895
     },
     {
       "epoch": 1.98,
+      "learning_rate": 2.599732838728863e-06,
+      "loss": 0.7038,
+      "step": 900
     },
     {
       "epoch": 1.99,
+      "learning_rate": 1.993391324573266e-06,
+      "loss": 0.6816,
+      "step": 905
     },
     {
       "epoch": 2.0,
+      "learning_rate": 1.4664261646975266e-06,
+      "loss": 0.6658,
+      "step": 910
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.3614741861820221,
+      "eval_runtime": 29.3257,
+      "eval_samples_per_second": 21.96,
+      "eval_steps_per_second": 2.762,
+      "step": 910
     }
   ],
+  "max_steps": 1365,
   "num_train_epochs": 3,
+  "total_flos": 949535244288000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98ff7520005bd1b7cd3b14407c7fae7975d1a94564c7ae5c3bb82fb25346e68c
 size 3055

 version https://git-lfs.github.com/spec/v1
+oid sha256:20a154128815e7bbba517b0e4c2b881a6382b44d7ef3cd0aa609175592021c15
 size 3055