huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +203 -217
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/1hflh7u6/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/4gvmxrna) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/4gvmxrna/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/2mol6j1a/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/35sq6jaq) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/35sq6jaq/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~17033791542053223~~, "eval_runtime": 13.~~3261~~, "eval_samples_per_second": 45.~~099~~, "eval_steps_per_second": 5.~~703~~, "epoch": 2.0}


1	+ {"eval_loss": 0.200975701212883, "eval_runtime": 14.714, "eval_samples_per_second": 43.224, "eval_steps_per_second": 5.437, "epoch": 2.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84c1e0b5ec78700742efecda3264cb6c05363dcd0cfd2603f9208a76f99a8e57
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:b69833549ccfd36fe66e772afe6f4a3d07369b965ae5d6a0ecb8bd1a0536b2df
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0dd1f75aa87ace65ff5eabf8bf35c462a5ea435576d30fa3ae79699f3a222ffd
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2d59312be6947afd2ba8011456d4e8908905235d6e1780c6feaddcce691dd0f
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05239515b946d463e5c208905abbc650450660236b44874d528bf2e8ff9404e4
 size 510396521

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e59175cb5178adcc41b3c715192961b8befb8944063b8edbaff0c3fe9b07e8e
 size 510396521

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a51ff024d36f5b16e406a7ff85689d3f4ab6243d4b5396f02ca94ed03ed314b
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:94e43063477db1b2b70df331c88c4d6e034ea15f0e3e30c9c64fc77e81e122fc
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68dcd37ec9f598b778dcfcdd0e6ff8990fdc855c792ae8971ac9bb4e2c9c2527
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa23e484404e2ec35aa04932ba167a546a0ca5eb25f20a84b410351d432dbc48
 size 623

trainer_state.json CHANGED Viewed

@@ -1,584 +1,570 @@
 {
-  "best_metric": 0.17033791542053223,
-  "best_model_checkpoint": "output/eminem/checkpoint-460",
   "epoch": 1.0,
-  "global_step": 460,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 0.00013711989076069754,
-      "loss": 0.4887,
       "step": 5
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.00013719345930102362,
-      "loss": 0.4564,
       "step": 10
     },
     {
       "epoch": 0.03,
-      "learning_rate": 0.00013718528371963108,
-      "loss": 0.4132,
       "step": 15
     },
     {
       "epoch": 0.04,
-      "learning_rate": 0.00013709537375951485,
-      "loss": 0.4758,
       "step": 20
     },
     {
       "epoch": 0.05,
-      "learning_rate": 0.00013692383656807334,
-      "loss": 0.4929,
       "step": 25
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.00013667087656941957,
-      "loss": 0.4404,
       "step": 30
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.0001363367952207642,
-      "loss": 0.4726,
       "step": 35
     },
     {
       "epoch": 0.09,
-      "learning_rate": 0.00013592199065316386,
-      "loss": 0.4448,
       "step": 40
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.00013542695719706024,
-      "loss": 0.4852,
       "step": 45
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.00013485228479317936,
-      "loss": 0.4865,
       "step": 50
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.00013419865828948315,
-      "loss": 0.5125,
       "step": 55
     },
     {
       "epoch": 0.13,
-      "learning_rate": 0.00013346685662502967,
-      "loss": 0.5314,
       "step": 60
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.00013265775190169146,
-      "loss": 0.4813,
       "step": 65
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.00013177230834485767,
-      "loss": 0.4348,
       "step": 70
     },
     {
       "epoch": 0.16,
-      "learning_rate": 0.00013081158115434713,
-      "loss": 0.4715,
       "step": 75
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.00012977671524691005,
-      "loss": 0.4864,
       "step": 80
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.0001286689438918043,
-      "loss": 0.4764,
       "step": 85
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.0001274895872410883,
-      "loss": 0.5284,
       "step": 90
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.0001262400507563689,
-      "loss": 0.5136,
       "step": 95
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.00012492182353389172,
-      "loss": 0.5015,
       "step": 100
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.00012353647652994513,
-      "loss": 0.5157,
       "step": 105
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.00012208566068873714,
-      "loss": 0.5087,
       "step": 110
     },
     {
       "epoch": 0.25,
-      "learning_rate": 0.00012057110497492192,
-      "loss": 0.5977,
       "step": 115
     },
     {
       "epoch": 0.26,
-      "learning_rate": 0.00011899461431316551,
-      "loss": 0.4527,
       "step": 120
     },
     {
       "epoch": 0.27,
-      "learning_rate": 0.00011735806743718042,
-      "loss": 0.4758,
       "step": 125
     },
     {
       "epoch": 0.29,
-      "learning_rate": 0.00011566341465080868,
-      "loss": 0.4566,
       "step": 130
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.00011391267550379983,
-      "loss": 0.4963,
       "step": 135
     },
     {
       "epoch": 0.31,
-      "learning_rate": 0.00011210793638508056,
-      "loss": 0.4994,
       "step": 140
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.00011025134803636436,
-      "loss": 0.5175,
       "step": 145
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.00010834512298907191,
-      "loss": 0.5139,
       "step": 150
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.00010639153292761406,
-      "loss": 0.515,
       "step": 155
     },
     {
       "epoch": 0.35,
-      "learning_rate": 0.0001043929059821889,
-      "loss": 0.4672,
       "step": 160
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.00010235162395429551,
-      "loss": 0.5449,
       "step": 165
     },
     {
       "epoch": 0.37,
-      "learning_rate": 0.00010027011947830235,
-      "loss": 0.5187,
       "step": 170
     },
     {
       "epoch": 0.38,
-      "learning_rate": 9.81508731224277e-05,
-      "loss": 0.5283,
       "step": 175
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 9.599641043260833e-05,
-      "loss": 0.4869,
       "step": 180
     },
     {
       "epoch": 0.41,
-      "learning_rate": 9.380929892273937e-05,
-      "loss": 0.4807,
       "step": 185
     },
     {
       "epoch": 0.42,
-      "learning_rate": 9.15921450149442e-05,
-      "loss": 0.5009,
       "step": 190
     },
     {
       "epoch": 0.43,
-      "learning_rate": 8.93475909334324e-05,
-      "loss": 0.5661,
       "step": 195
     },
     {
       "epoch": 0.44,
-      "learning_rate": 8.70783115557202e-05,
-      "loss": 0.5181,
       "step": 200
     },
     {
       "epoch": 0.45,
-      "learning_rate": 8.478701122492464e-05,
-      "loss": 0.5132,
       "step": 205
     },
     {
       "epoch": 0.46,
-      "learning_rate": 8.247642052695435e-05,
-      "loss": 0.4738,
       "step": 210
     },
     {
       "epoch": 0.47,
-      "learning_rate": 8.014929303640746e-05,
-      "loss": 0.4718,
       "step": 215
     },
     {
       "epoch": 0.48,
-      "learning_rate": 7.780840203509217e-05,
-      "loss": 0.5202,
       "step": 220
     },
     {
       "epoch": 0.49,
-      "learning_rate": 7.545653720705064e-05,
-      "loss": 0.4643,
       "step": 225
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 7.309650131404948e-05,
-      "loss": 0.4846,
       "step": 230
     },
     {
       "epoch": 0.52,
-      "learning_rate": 7.073110685545424e-05,
-      "loss": 0.4528,
       "step": 235
     },
     {
       "epoch": 0.53,
-      "learning_rate": 6.836317271654793e-05,
-      "loss": 0.4695,
       "step": 240
     },
     {
       "epoch": 0.54,
-      "learning_rate": 6.599552080919084e-05,
-      "loss": 0.4723,
       "step": 245
     },
     {
       "epoch": 0.55,
-      "learning_rate": 6.363097270890452e-05,
-      "loss": 0.4357,
       "step": 250
     },
     {
       "epoch": 0.56,
-      "learning_rate": 6.127234629234303e-05,
-      "loss": 0.5521,
       "step": 255
     },
     {
       "epoch": 0.57,
-      "learning_rate": 5.892245237918387e-05,
-      "loss": 0.484,
       "step": 260
     },
     {
       "epoch": 0.58,
-      "learning_rate": 5.6584091382409376e-05,
-      "loss": 0.5221,
       "step": 265
     },
     {
       "epoch": 0.59,
-      "learning_rate": 5.426004997100939e-05,
-      "loss": 0.4865,
       "step": 270
     },
     {
       "epoch": 0.6,
-      "learning_rate": 5.195309774905142e-05,
-      "loss": 0.4395,
       "step": 275
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 4.966598395510049e-05,
-      "loss": 0.4693,
       "step": 280
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 4.7401434185878876e-05,
-      "loss": 0.5105,
       "step": 285
     },
     {
       "epoch": 0.64,
-      "learning_rate": 4.516214714814733e-05,
-      "loss": 0.406,
       "step": 290
     },
     {
       "epoch": 0.65,
-      "learning_rate": 4.2950791442584565e-05,
-      "loss": 0.4573,
       "step": 295
     },
     {
       "epoch": 0.66,
-      "learning_rate": 4.0770002383574794e-05,
-      "loss": 0.4153,
       "step": 300
     },
     {
       "epoch": 0.67,
-      "learning_rate": 3.862237885865012e-05,
-      "loss": 0.4713,
       "step": 305
     },
     {
       "epoch": 0.68,
-      "learning_rate": 3.651048023135423e-05,
-      "loss": 0.4615,
       "step": 310
     },
     {
       "epoch": 0.69,
-      "learning_rate": 3.4436823291189834e-05,
-      "loss": 0.4731,
       "step": 315
     },
     {
       "epoch": 0.7,
-      "learning_rate": 3.2403879254320225e-05,
-      "loss": 0.4743,
       "step": 320
     },
     {
       "epoch": 0.71,
-      "learning_rate": 3.0414070818570786e-05,
-      "loss": 0.4617,
       "step": 325
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 2.84697692762624e-05,
-      "loss": 0.4779,
       "step": 330
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 2.657329168827975e-05,
-      "loss": 0.4796,
       "step": 335
     },
     {
       "epoch": 0.75,
-      "learning_rate": 2.4726898122808552e-05,
-      "loss": 0.451,
       "step": 340
     },
     {
       "epoch": 0.76,
-      "learning_rate": 2.2932788961952088e-05,
-      "loss": 0.5316,
       "step": 345
     },
     {
       "epoch": 0.77,
-      "learning_rate": 2.1193102279502168e-05,
-      "loss": 0.4846,
       "step": 350
     },
     {
       "epoch": 0.78,
-      "learning_rate": 1.9509911292953254e-05,
-      "loss": 0.4435,
       "step": 355
     },
     {
       "epoch": 0.79,
-      "learning_rate": 1.7885221892815502e-05,
-      "loss": 0.4859,
       "step": 360
     },
     {
       "epoch": 0.8,
-      "learning_rate": 1.6320970252148786e-05,
-      "loss": 0.5439,
       "step": 365
     },
     {
       "epoch": 0.81,
-      "learning_rate": 1.48190205191943e-05,
-      "loss": 0.4491,
       "step": 370
     },
     {
       "epoch": 0.82,
-      "learning_rate": 1.3381162595831284e-05,
-      "loss": 0.4599,
       "step": 375
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 1.2009110004522916e-05,
-      "loss": 0.4688,
       "step": 380
     },
     {
-      "epoch": 0.85,
-      "learning_rate": 1.0704497846266602e-05,
-      "loss": 0.445,
       "step": 385
     },
     {
       "epoch": 0.86,
-      "learning_rate": 9.468880852029007e-06,
-      "loss": 0.4632,
       "step": 390
     },
     {
       "epoch": 0.87,
-      "learning_rate": 8.303731529931584e-06,
-      "loss": 0.4699,
       "step": 395
     },
     {
       "epoch": 0.88,
-      "learning_rate": 7.210438410440295e-06,
-      "loss": 0.4994,
       "step": 400
     },
     {
       "epoch": 0.89,
-      "learning_rate": 6.190304391625742e-06,
-      "loss": 0.4727,
       "step": 405
     },
     {
       "epoch": 0.9,
-      "learning_rate": 5.24454518647817e-06,
-      "loss": 0.4766,
       "step": 410
     },
     {
       "epoch": 0.91,
-      "learning_rate": 4.374287874114302e-06,
-      "loss": 0.5309,
       "step": 415
     },
     {
       "epoch": 0.92,
-      "learning_rate": 3.5805695566192774e-06,
-      "loss": 0.4346,
       "step": 420
     },
     {
       "epoch": 0.93,
-      "learning_rate": 2.8643361231110826e-06,
-      "loss": 0.4458,
       "step": 425
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 2.2264411225093805e-06,
-      "loss": 0.416,
       "step": 430
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 1.6676447463391393e-06,
-      "loss": 0.524,
       "step": 435
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 1.1886129228033631e-06,
-      "loss": 0.4421,
       "step": 440
     },
     {
       "epoch": 0.98,
-      "learning_rate": 7.89916523178351e-07,
-      "loss": 0.4325,
       "step": 445
     },
     {
       "epoch": 0.99,
-      "learning_rate": 4.7203068149803844e-07,
-      "loss": 0.476,
       "step": 450
     },
     {
       "epoch": 1.0,
-      "learning_rate": 2.3533422832716514e-07,
-      "loss": 0.4506,
       "step": 455
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.22213919460773468,
-      "eval_runtime": 29.39,
-      "eval_samples_per_second": 21.946,
-      "eval_steps_per_second": 2.756,
-      "step": 455
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.00010892206830726497,
-      "loss": 0.4359,
-      "step": 460
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 0.17033791542053223,
-      "eval_runtime": 12.2909,
-      "eval_samples_per_second": 48.898,
-      "eval_steps_per_second": 6.183,
-      "step": 460
     }
   ],
-  "max_steps": 920,
   "num_train_epochs": 2,
-  "total_flos": 479470878720000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.200975701212883,
+  "best_model_checkpoint": "output/eminem/checkpoint-456",
   "epoch": 1.0,
+  "global_step": 456,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 0.0001295937875943477,
+      "loss": 0.4175,
       "step": 5
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0001306389012238537,
+      "loss": 0.4452,
       "step": 10
     },
     {
       "epoch": 0.03,
+      "learning_rate": 0.00013161040580202325,
+      "loss": 0.4523,
       "step": 15
     },
     {
       "epoch": 0.04,
+      "learning_rate": 0.00013250714864031736,
+      "loss": 0.4272,
       "step": 20
     },
     {
       "epoch": 0.05,
+      "learning_rate": 0.00013332806575487712,
+      "loss": 0.4701,
       "step": 25
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.00013407218312893365,
+      "loss": 0.4872,
       "step": 30
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.00013473861786848294,
+      "loss": 0.4231,
       "step": 35
     },
     {
       "epoch": 0.09,
+      "learning_rate": 0.00013532657924983333,
+      "loss": 0.4708,
       "step": 40
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.0001358353696578007,
+      "loss": 0.5047,
       "step": 45
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.00013626438541342652,
+      "loss": 0.4957,
       "step": 50
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.00013661311749024328,
+      "loss": 0.4333,
       "step": 55
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.0001368811521182315,
+      "loss": 0.4417,
       "step": 60
     },
     {
       "epoch": 0.14,
+      "learning_rate": 0.00013706817127475857,
+      "loss": 0.4644,
       "step": 65
     },
     {
       "epoch": 0.15,
+      "learning_rate": 0.00013717395306191163,
+      "loss": 0.5235,
       "step": 70
     },
     {
       "epoch": 0.16,
+      "learning_rate": 0.00013719837196977938,
+      "loss": 0.4143,
       "step": 75
     },
     {
       "epoch": 0.18,
+      "learning_rate": 0.00013714139902536895,
+      "loss": 0.4418,
       "step": 80
     },
     {
       "epoch": 0.19,
+      "learning_rate": 0.00013700310182698214,
+      "loss": 0.4862,
       "step": 85
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.0001367836444640114,
+      "loss": 0.5152,
       "step": 90
     },
     {
       "epoch": 0.21,
+      "learning_rate": 0.00013648328732224639,
+      "loss": 0.4401,
       "step": 95
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.00013610238677492728,
+      "loss": 0.4883,
       "step": 100
     },
     {
       "epoch": 0.23,
+      "learning_rate": 0.00013564139475990883,
+      "loss": 0.475,
       "step": 105
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.0001351008582434381,
+      "loss": 0.4708,
       "step": 110
     },
     {
       "epoch": 0.25,
+      "learning_rate": 0.00013448141857117668,
+      "loss": 0.5114,
       "step": 115
     },
     {
       "epoch": 0.26,
+      "learning_rate": 0.000133783810707247,
+      "loss": 0.4598,
       "step": 120
     },
     {
       "epoch": 0.27,
+      "learning_rate": 0.00013300886236219912,
+      "loss": 0.5016,
       "step": 125
     },
     {
       "epoch": 0.29,
+      "learning_rate": 0.00013215749301093531,
+      "loss": 0.5246,
       "step": 130
     },
     {
       "epoch": 0.3,
+      "learning_rate": 0.0001312307128017492,
+      "loss": 0.4599,
       "step": 135
     },
     {
       "epoch": 0.31,
+      "learning_rate": 0.00013022962135779,
+      "loss": 0.5193,
       "step": 140
     },
     {
       "epoch": 0.32,
+      "learning_rate": 0.0001291554064723639,
+      "loss": 0.4855,
       "step": 145
     },
     {
       "epoch": 0.33,
+      "learning_rate": 0.00012800934269961218,
+      "loss": 0.4923,
       "step": 150
     },
     {
       "epoch": 0.34,
+      "learning_rate": 0.00012679278984226595,
+      "loss": 0.5141,
       "step": 155
     },
     {
       "epoch": 0.35,
+      "learning_rate": 0.00012550719133822919,
+      "loss": 0.4847,
       "step": 160
     },
     {
       "epoch": 0.36,
+      "learning_rate": 0.0001241540725479539,
+      "loss": 0.4419,
       "step": 165
     },
     {
       "epoch": 0.37,
+      "learning_rate": 0.00012273503894459195,
+      "loss": 0.5324,
       "step": 170
     },
     {
       "epoch": 0.38,
+      "learning_rate": 0.00012125177420911749,
+      "loss": 0.4099,
       "step": 175
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 0.00011970603823262598,
+      "loss": 0.4894,
       "step": 180
     },
     {
       "epoch": 0.41,
+      "learning_rate": 0.00011809966502824082,
+      "loss": 0.5617,
       "step": 185
     },
     {
       "epoch": 0.42,
+      "learning_rate": 0.00011643456055504982,
+      "loss": 0.5006,
       "step": 190
     },
     {
       "epoch": 0.43,
+      "learning_rate": 0.00011471270045669035,
+      "loss": 0.4947,
       "step": 195
     },
     {
       "epoch": 0.44,
+      "learning_rate": 0.00011293612771726151,
+      "loss": 0.5112,
       "step": 200
     },
     {
       "epoch": 0.45,
+      "learning_rate": 0.00011110695023730843,
+      "loss": 0.4745,
       "step": 205
     },
     {
       "epoch": 0.46,
+      "learning_rate": 0.00010922733833281926,
+      "loss": 0.4961,
       "step": 210
     },
     {
       "epoch": 0.47,
+      "learning_rate": 0.0001072995221601338,
+      "loss": 0.5159,
       "step": 215
     },
     {
       "epoch": 0.48,
+      "learning_rate": 0.00010532578906988555,
+      "loss": 0.4521,
       "step": 220
     },
     {
       "epoch": 0.49,
+      "learning_rate": 0.00010330848089304184,
+      "loss": 0.4683,
       "step": 225
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 0.00010124999116234466,
+      "loss": 0.4694,
       "step": 230
     },
     {
       "epoch": 0.52,
+      "learning_rate": 9.915276227237154e-05,
+      "loss": 0.4838,
       "step": 235
     },
     {
       "epoch": 0.53,
+      "learning_rate": 9.701928258165896e-05,
+      "loss": 0.4934,
       "step": 240
     },
     {
       "epoch": 0.54,
+      "learning_rate": 9.485208346024501e-05,
+      "loss": 0.4964,
       "step": 245
     },
     {
       "epoch": 0.55,
+      "learning_rate": 9.265373628622407e-05,
+      "loss": 0.478,
       "step": 250
     },
     {
       "epoch": 0.56,
+      "learning_rate": 9.04268493947969e-05,
+      "loss": 0.4836,
       "step": 255
     },
     {
       "epoch": 0.57,
+      "learning_rate": 8.817406498348864e-05,
+      "loss": 0.4783,
       "step": 260
     },
     {
       "epoch": 0.58,
+      "learning_rate": 8.589805597719735e-05,
+      "loss": 0.5033,
       "step": 265
     },
     {
       "epoch": 0.59,
+      "learning_rate": 8.360152285675815e-05,
+      "loss": 0.4933,
       "step": 270
     },
     {
       "epoch": 0.6,
+      "learning_rate": 8.128719045483102e-05,
+      "loss": 0.4802,
       "step": 275
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 7.895780472289125e-05,
+      "loss": 0.4608,
       "step": 280
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 7.661612947317637e-05,
+      "loss": 0.451,
       "step": 285
     },
     {
       "epoch": 0.64,
+      "learning_rate": 7.426494309940237e-05,
+      "loss": 0.452,
       "step": 290
     },
     {
       "epoch": 0.65,
+      "learning_rate": 7.190703528022759e-05,
+      "loss": 0.4496,
       "step": 295
     },
     {
       "epoch": 0.66,
+      "learning_rate": 6.95452036692842e-05,
+      "loss": 0.4758,
       "step": 300
     },
     {
       "epoch": 0.67,
+      "learning_rate": 6.718225057579034e-05,
+      "loss": 0.4928,
       "step": 305
     },
     {
       "epoch": 0.68,
+      "learning_rate": 6.48209796395876e-05,
+      "loss": 0.5023,
       "step": 310
     },
     {
       "epoch": 0.69,
+      "learning_rate": 6.246419250465058e-05,
+      "loss": 0.426,
       "step": 315
     },
     {
       "epoch": 0.7,
+      "learning_rate": 6.011468549492541e-05,
+      "loss": 0.4651,
       "step": 320
     },
     {
       "epoch": 0.71,
+      "learning_rate": 5.777524629650007e-05,
+      "loss": 0.5082,
       "step": 325
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 5.544865065003111e-05,
+      "loss": 0.4546,
       "step": 330
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 5.313765905731657e-05,
+      "loss": 0.4512,
       "step": 335
     },
     {
       "epoch": 0.75,
+      "learning_rate": 5.084501350596927e-05,
+      "loss": 0.4794,
       "step": 340
     },
     {
       "epoch": 0.76,
+      "learning_rate": 4.857343421605311e-05,
+      "loss": 0.4781,
       "step": 345
     },
     {
       "epoch": 0.77,
+      "learning_rate": 4.63256164125579e-05,
+      "loss": 0.5233,
       "step": 350
     },
     {
       "epoch": 0.78,
+      "learning_rate": 4.410422712750424e-05,
+      "loss": 0.4695,
       "step": 355
     },
     {
       "epoch": 0.79,
+      "learning_rate": 4.191190203551854e-05,
+      "loss": 0.4788,
       "step": 360
     },
     {
       "epoch": 0.8,
+      "learning_rate": 3.975124232661141e-05,
+      "loss": 0.4318,
       "step": 365
     },
     {
       "epoch": 0.81,
+      "learning_rate": 3.762481161987185e-05,
+      "loss": 0.4609,
       "step": 370
     },
     {
       "epoch": 0.82,
+      "learning_rate": 3.553513292174085e-05,
+      "loss": 0.4854,
       "step": 375
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 3.348468563245461e-05,
+      "loss": 0.4337,
       "step": 380
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 3.1475902604251e-05,
+      "loss": 0.4707,
       "step": 385
     },
     {
       "epoch": 0.86,
+      "learning_rate": 2.951116725479596e-05,
+      "loss": 0.4394,
       "step": 390
     },
     {
       "epoch": 0.87,
+      "learning_rate": 2.7592810739257415e-05,
+      "loss": 0.5088,
       "step": 395
     },
     {
       "epoch": 0.88,
+      "learning_rate": 2.572310918439686e-05,
+      "loss": 0.4753,
       "step": 400
     },
     {
       "epoch": 0.89,
+      "learning_rate": 2.3904280987944108e-05,
+      "loss": 0.4626,
       "step": 405
     },
     {
       "epoch": 0.9,
+      "learning_rate": 2.2138484186474054e-05,
+      "loss": 0.4473,
       "step": 410
     },
     {
       "epoch": 0.91,
+      "learning_rate": 2.0427813894908452e-05,
+      "loss": 0.4662,
       "step": 415
     },
     {
       "epoch": 0.92,
+      "learning_rate": 1.877429982065378e-05,
+      "loss": 0.4383,
       "step": 420
     },
     {
       "epoch": 0.93,
+      "learning_rate": 1.7179903855360063e-05,
+      "loss": 0.4584,
       "step": 425
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 1.564651774714127e-05,
+      "loss": 0.4932,
       "step": 430
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 1.4175960856020567e-05,
+      "loss": 0.4168,
       "step": 435
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 1.2769977995264743e-05,
+      "loss": 0.5093,
       "step": 440
     },
     {
       "epoch": 0.98,
+      "learning_rate": 1.1430237361156786e-05,
+      "loss": 0.486,
       "step": 445
     },
     {
       "epoch": 0.99,
+      "learning_rate": 1.0158328553691274e-05,
+      "loss": 0.4456,
       "step": 450
     },
     {
       "epoch": 1.0,
+      "learning_rate": 8.95576069051646e-06,
+      "loss": 0.4546,
       "step": 455
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.200975701212883,
+      "eval_runtime": 14.7931,
+      "eval_samples_per_second": 42.993,
+      "eval_steps_per_second": 5.408,
+      "step": 456
     }
   ],
+  "max_steps": 912,
   "num_train_epochs": 2,
+  "total_flos": 475682144256000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2478f6ac251ccbd0eb17112df1fdac929c3ed4c313a16aa904d226b8a9b10b5
 size 3247

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b43ec02b3eaa28a980d2e5f3e7ecf8dc4639ef71a3a66137055cf261993e8b5
 size 3247