huggingartists

Browse files

Files changed (10) hide show

README.md +3 -3
config.json +1 -1
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +200 -208
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/3q37f1zd/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/3u62y0tb) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/3u62y0tb/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/3q82f3by/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/21pupjqd) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/21pupjqd/artifacts) is logged and versioned.
 ## How to use

config.json CHANGED Viewed

@@ -35,7 +35,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.10.2",
   "use_cache": true,
   "vocab_size": 50257
 }

     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.10.3",
   "use_cache": true,
   "vocab_size": 50257
 }

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 1.~~000430703163147~~, "eval_runtime": 28.~~8376~~, "eval_samples_per_second": 22.~~644~~, "eval_steps_per_second": 2.~~844~~, "epoch": 2.0}


1	+ {"eval_loss": 1.0850846767425537, "eval_runtime": 31.9854, "eval_samples_per_second": 20.666, "eval_steps_per_second": 2.595, "epoch": 2.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:905d47515ed8012c1522a97cf3c5ec368e9c0b5de761fdd5a1981d8c91e3ebbd
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f5277b428ad69317c468bbc220cef6229159db8e741a69d9a9511b002bcc8bd
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e308675c9f383331794ee7f24a23e7346f1bc4b6db0befd8a253356df5ccc833
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:553799fcd9709b41c5742b8d21b8a6d378c74829ba270197872aa7d424eca183
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e88b6b107844dd300f000a65c9516549403da254ae63d3af928eee0ddd2ed31f
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:f644f9500ffb69c2f5a8973f42e17d2431ae3161f1423c38674ffd177b8ebd89
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59e2e6dfadd1068d6503a67af1b4b3c98a7328859872f6c2dd34af82e8e434ce
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f74cebe65c91ab590f337b232a799c58364fbd9a30704cba6b25c380d7f9e724
 size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcaff93017b04d3e8a9b68caa2cafbfa18e37b27621754efa991e70ea4396de0
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f39f036bb76f470586f077b34f42cae2b8baa0ccc2883838439fd9b58bd619e
 size 623

trainer_state.json CHANGED Viewed

@@ -1,572 +1,564 @@
 {
-  "best_metric": 1.000430703163147,
-  "best_model_checkpoint": "output/eminem/checkpoint-454",
   "epoch": 1.0,
-  "global_step": 454,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 0.0001347061084611844,
-      "loss": 1.5687,
       "step": 5
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.00013403094091447146,
-      "loss": 1.4406,
       "step": 10
     },
     {
       "epoch": 0.03,
-      "learning_rate": 0.00013327710810466772,
-      "loss": 1.4875,
       "step": 15
     },
     {
       "epoch": 0.04,
-      "learning_rate": 0.00013244551633780427,
-      "loss": 1.3898,
       "step": 20
     },
     {
       "epoch": 0.06,
-      "learning_rate": 0.0001315371654067031,
-      "loss": 1.6245,
       "step": 25
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.00013055314738896493,
-      "loss": 1.4266,
       "step": 30
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.00012949464533400422,
-      "loss": 1.5298,
       "step": 35
     },
     {
       "epoch": 0.09,
-      "learning_rate": 0.00012836293184070698,
-      "loss": 1.4604,
       "step": 40
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.0001271593675274372,
-      "loss": 1.4618,
       "step": 45
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.00012588539939621004,
-      "loss": 1.2952,
       "step": 50
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.00012454255909301294,
-      "loss": 1.5173,
       "step": 55
     },
     {
       "epoch": 0.13,
-      "learning_rate": 0.00012313246106636778,
-      "loss": 1.4386,
       "step": 60
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.00012165680062633223,
-      "loss": 1.5353,
       "step": 65
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.00012011735190629218,
-      "loss": 1.5712,
       "step": 70
     },
     {
       "epoch": 0.17,
-      "learning_rate": 0.0001185159657299846,
-      "loss": 1.5336,
       "step": 75
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.0001168545673863188,
-      "loss": 1.4126,
       "step": 80
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.00011513515431467095,
-      "loss": 1.4119,
       "step": 85
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.00011335979370343469,
-      "loss": 1.4324,
       "step": 90
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.00011153062000471494,
-      "loss": 1.4149,
       "step": 95
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.00010964983236815233,
-      "loss": 1.6004,
       "step": 100
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.00010771969199696865,
-      "loss": 1.4738,
       "step": 105
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.0001057425194293951,
-      "loss": 1.5572,
       "step": 110
     },
     {
       "epoch": 0.25,
-      "learning_rate": 0.00010372069174878459,
-      "loss": 1.5809,
       "step": 115
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 0.00010165663972571805,
-      "loss": 1.3915,
       "step": 120
     },
     {
       "epoch": 0.28,
-      "learning_rate": 9.955284489558465e-05,
-      "loss": 1.5034,
       "step": 125
     },
     {
       "epoch": 0.29,
-      "learning_rate": 9.741183657512136e-05,
-      "loss": 1.5812,
       "step": 130
     },
     {
       "epoch": 0.3,
-      "learning_rate": 9.523618882149785e-05,
-      "loss": 1.5666,
       "step": 135
     },
     {
       "epoch": 0.31,
-      "learning_rate": 9.30285173376325e-05,
-      "loss": 1.2922,
       "step": 140
     },
     {
       "epoch": 0.32,
-      "learning_rate": 9.079147632741836e-05,
-      "loss": 1.5392,
       "step": 145
     },
     {
       "epoch": 0.33,
-      "learning_rate": 8.85277553046691e-05,
-      "loss": 1.5071,
       "step": 150
     },
     {
       "epoch": 0.34,
-      "learning_rate": 8.624007585962182e-05,
-      "loss": 1.5317,
       "step": 155
     },
     {
       "epoch": 0.35,
-      "learning_rate": 8.393118838685801e-05,
-      "loss": 1.5537,
       "step": 160
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 8.160386877860775e-05,
-      "loss": 1.5394,
       "step": 165
     },
     {
       "epoch": 0.38,
-      "learning_rate": 7.926091508739358e-05,
-      "loss": 1.4322,
       "step": 170
     },
     {
       "epoch": 0.39,
-      "learning_rate": 7.690514416203279e-05,
-      "loss": 1.2707,
       "step": 175
     },
     {
       "epoch": 0.4,
-      "learning_rate": 7.45393882610415e-05,
-      "loss": 1.6366,
       "step": 180
     },
     {
       "epoch": 0.41,
-      "learning_rate": 7.216649164751235e-05,
-      "loss": 1.2109,
       "step": 185
     },
     {
       "epoch": 0.42,
-      "learning_rate": 6.978930716955943e-05,
-      "loss": 1.5598,
       "step": 190
     },
     {
       "epoch": 0.43,
-      "learning_rate": 6.741069283044077e-05,
-      "loss": 1.6169,
       "step": 195
     },
     {
       "epoch": 0.44,
-      "learning_rate": 6.503350835248882e-05,
-      "loss": 1.4735,
       "step": 200
     },
     {
       "epoch": 0.45,
-      "learning_rate": 6.266061173895871e-05,
-      "loss": 1.5091,
       "step": 205
     },
     {
       "epoch": 0.46,
-      "learning_rate": 6.029485583796741e-05,
-      "loss": 1.3971,
       "step": 210
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 5.793908491260758e-05,
-      "loss": 1.4943,
       "step": 215
     },
     {
       "epoch": 0.49,
-      "learning_rate": 5.559613122139245e-05,
-      "loss": 1.5372,
       "step": 220
     },
     {
       "epoch": 0.5,
-      "learning_rate": 5.326881161314218e-05,
-      "loss": 1.5643,
       "step": 225
     },
     {
       "epoch": 0.51,
-      "learning_rate": 5.0959924140378376e-05,
-      "loss": 1.4382,
       "step": 230
     },
     {
       "epoch": 0.52,
-      "learning_rate": 4.86722446953311e-05,
-      "loss": 1.5737,
       "step": 235
     },
     {
       "epoch": 0.53,
-      "learning_rate": 4.6408523672582755e-05,
-      "loss": 1.6657,
       "step": 240
     },
     {
       "epoch": 0.54,
-      "learning_rate": 4.417148266236768e-05,
-      "loss": 1.2837,
       "step": 245
     },
     {
       "epoch": 0.55,
-      "learning_rate": 4.1963811178502344e-05,
-      "loss": 1.4313,
       "step": 250
     },
     {
       "epoch": 0.56,
-      "learning_rate": 3.978816342487971e-05,
-      "loss": 1.4629,
       "step": 255
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 3.7647155104415525e-05,
-      "loss": 1.3243,
       "step": 260
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 3.554336027428212e-05,
-      "loss": 1.3828,
       "step": 265
     },
     {
       "epoch": 0.6,
-      "learning_rate": 3.347930825121643e-05,
-      "loss": 1.4753,
       "step": 270
     },
     {
       "epoch": 0.61,
-      "learning_rate": 3.145748057060507e-05,
-      "loss": 1.7174,
       "step": 275
     },
     {
       "epoch": 0.62,
-      "learning_rate": 2.9480308003031502e-05,
-      "loss": 1.4543,
       "step": 280
     },
     {
       "epoch": 0.63,
-      "learning_rate": 2.755016763184782e-05,
-      "loss": 1.4277,
       "step": 285
     },
     {
       "epoch": 0.64,
-      "learning_rate": 2.5669379995285212e-05,
-      "loss": 1.4237,
       "step": 290
     },
     {
       "epoch": 0.65,
-      "learning_rate": 2.3840206296566214e-05,
-      "loss": 1.4508,
       "step": 295
     },
     {
       "epoch": 0.66,
-      "learning_rate": 2.2064845685329196e-05,
-      "loss": 1.4977,
       "step": 300
     },
     {
       "epoch": 0.67,
-      "learning_rate": 2.034543261368135e-05,
-      "loss": 1.5943,
       "step": 305
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 1.8684034270016213e-05,
-      "loss": 1.3977,
       "step": 310
     },
     {
       "epoch": 0.7,
-      "learning_rate": 1.7082648093707956e-05,
-      "loss": 1.6013,
       "step": 315
     },
     {
       "epoch": 0.71,
-      "learning_rate": 1.5543199373667898e-05,
-      "loss": 1.6127,
       "step": 320
     },
     {
       "epoch": 0.72,
-      "learning_rate": 1.4067538933632335e-05,
-      "loss": 1.3648,
       "step": 325
     },
     {
       "epoch": 0.73,
-      "learning_rate": 1.2657440906987175e-05,
-      "loss": 1.3725,
       "step": 330
     },
     {
       "epoch": 0.74,
-      "learning_rate": 1.1314600603790608e-05,
-      "loss": 1.5536,
       "step": 335
     },
     {
       "epoch": 0.75,
-      "learning_rate": 1.0040632472562908e-05,
-      "loss": 1.3899,
       "step": 340
     },
     {
       "epoch": 0.76,
-      "learning_rate": 8.83706815929313e-06,
-      "loss": 1.6119,
       "step": 345
     },
     {
       "epoch": 0.77,
-      "learning_rate": 7.705354665996331e-06,
-      "loss": 1.4506,
       "step": 350
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 6.64685261103514e-06,
-      "loss": 1.4292,
       "step": 355
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 5.662834593296984e-06,
-      "loss": 1.3922,
       "step": 360
     },
     {
       "epoch": 0.81,
-      "learning_rate": 4.754483662196166e-06,
-      "loss": 1.6076,
       "step": 365
     },
     {
       "epoch": 0.82,
-      "learning_rate": 3.9228918953323614e-06,
-      "loss": 1.4014,
       "step": 370
     },
     {
       "epoch": 0.83,
-      "learning_rate": 3.1690590855285985e-06,
-      "loss": 1.4242,
       "step": 375
     },
     {
       "epoch": 0.84,
-      "learning_rate": 2.493891538815897e-06,
-      "loss": 1.4092,
       "step": 380
     },
     {
       "epoch": 0.85,
-      "learning_rate": 1.8982009848114428e-06,
-      "loss": 1.4806,
       "step": 385
     },
     {
       "epoch": 0.86,
-      "learning_rate": 1.382703600809147e-06,
-      "loss": 1.4482,
       "step": 390
     },
     {
       "epoch": 0.87,
-      "learning_rate": 9.480191507425794e-07,
-      "loss": 1.6429,
       "step": 395
     },
     {
       "epoch": 0.88,
-      "learning_rate": 5.946702400664045e-07,
-      "loss": 1.5814,
       "step": 400
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 3.2308168744641287e-07,
-      "loss": 1.4479,
       "step": 405
     },
     {
       "epoch": 0.91,
-      "learning_rate": 1.3358001401535102e-07,
-      "loss": 1.3774,
       "step": 410
     },
     {
       "epoch": 0.92,
-      "learning_rate": 2.639305080833756e-08,
-      "loss": 1.6517,
       "step": 415
     },
     {
       "epoch": 0.93,
-      "learning_rate": 1.6496648497778654e-09,
-      "loss": 1.3985,
       "step": 420
     },
     {
       "epoch": 0.94,
-      "learning_rate": 5.93796042212353e-08,
-      "loss": 1.2782,
       "step": 425
     },
     {
       "epoch": 0.95,
-      "learning_rate": 1.9951346229640478e-07,
-      "loss": 1.516,
       "step": 430
     },
     {
       "epoch": 0.96,
-      "learning_rate": 4.218827611858774e-07,
-      "loss": 1.3261,
       "step": 435
     },
     {
       "epoch": 0.97,
-      "learning_rate": 7.262201542927391e-07,
-      "loss": 1.2912,
       "step": 440
     },
     {
       "epoch": 0.98,
-      "learning_rate": 1.112159747733217e-06,
-      "loss": 1.3938,
       "step": 445
     },
-    {
-      "epoch": 0.99,
-      "learning_rate": 1.579237540237193e-06,
-      "loss": 1.4138,
-      "step": 450
-    },
     {
       "epoch": 1.0,
-      "eval_loss": 1.3114155530929565,
-      "eval_runtime": 30.7552,
-      "eval_samples_per_second": 21.46,
-      "eval_steps_per_second": 2.699,
-      "step": 453
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.000430703163147,
-      "eval_runtime": 28.2425,
-      "eval_samples_per_second": 23.121,
-      "eval_steps_per_second": 2.903,
-      "step": 454
     }
   ],
-  "max_steps": 908,
   "num_train_epochs": 2,
-  "total_flos": 472677285888000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.0850846767425537,
+  "best_model_checkpoint": "output/eminem/checkpoint-452",
   "epoch": 1.0,
+  "global_step": 452,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 0.0001303175293643722,
+      "loss": 1.3814,
       "step": 5
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.00012923970346668577,
+      "loss": 1.4469,
       "step": 10
     },
     {
       "epoch": 0.03,
+      "learning_rate": 0.00012808864972555433,
+      "loss": 1.3639,
       "step": 15
     },
     {
       "epoch": 0.04,
+      "learning_rate": 0.00012686575814089952,
+      "loss": 1.4233,
       "step": 20
     },
     {
       "epoch": 0.06,
+      "learning_rate": 0.00012557250546324088,
+      "loss": 1.4142,
       "step": 25
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.00012421045341038384,
+      "loss": 1.5476,
       "step": 30
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.00012278124678150593,
+      "loss": 1.5554,
       "step": 35
     },
     {
       "epoch": 0.09,
+      "learning_rate": 0.00012128661147092046,
+      "loss": 1.3787,
       "step": 40
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.00011972835238390038,
+      "loss": 1.504,
       "step": 45
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.00011810835125709465,
+      "loss": 1.4927,
       "step": 50
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.00011642856438616613,
+      "loss": 1.543,
       "step": 55
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.00011469102026339135,
+      "loss": 1.4018,
       "step": 60
     },
     {
       "epoch": 0.14,
+      "learning_rate": 0.00011289781712806903,
+      "loss": 1.5591,
       "step": 65
     },
     {
       "epoch": 0.15,
+      "learning_rate": 0.0001110511204327154,
+      "loss": 1.2862,
       "step": 70
     },
     {
       "epoch": 0.17,
+      "learning_rate": 0.00010915316022808772,
+      "loss": 1.5977,
       "step": 75
     },
     {
       "epoch": 0.18,
+      "learning_rate": 0.00010720622847019248,
+      "loss": 1.2878,
       "step": 80
     },
     {
       "epoch": 0.19,
+      "learning_rate": 0.00010521267625255193,
+      "loss": 1.2948,
       "step": 85
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.00010317491096704546,
+      "loss": 1.2196,
       "step": 90
     },
     {
       "epoch": 0.21,
+      "learning_rate": 0.00010109539339677022,
+      "loss": 1.4123,
       "step": 95
     },
     {
       "epoch": 0.22,
+      "learning_rate": 9.897663474442627e-05,
+      "loss": 1.3245,
       "step": 100
     },
     {
       "epoch": 0.23,
+      "learning_rate": 9.682119359981574e-05,
+      "loss": 1.3909,
       "step": 105
     },
     {
       "epoch": 0.24,
+      "learning_rate": 9.463167285011763e-05,
+      "loss": 1.458,
       "step": 110
     },
     {
       "epoch": 0.25,
+      "learning_rate": 9.241071653666979e-05,
+      "loss": 1.3268,
       "step": 115
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 9.016100666205339e-05,
+      "loss": 1.3456,
       "step": 120
     },
     {
       "epoch": 0.28,
+      "learning_rate": 8.788525995133601e-05,
+      "loss": 1.2974,
       "step": 125
     },
     {
       "epoch": 0.29,
+      "learning_rate": 8.558622457138398e-05,
+      "loss": 1.3235,
       "step": 130
     },
     {
       "epoch": 0.3,
+      "learning_rate": 8.326667681220627e-05,
+      "loss": 1.416,
       "step": 135
     },
     {
       "epoch": 0.31,
+      "learning_rate": 8.092941773433681e-05,
+      "loss": 1.5582,
       "step": 140
     },
     {
       "epoch": 0.32,
+      "learning_rate": 7.857726978630461e-05,
+      "loss": 1.5253,
       "step": 145
     },
     {
       "epoch": 0.33,
+      "learning_rate": 7.621307339627555e-05,
+      "loss": 1.3431,
       "step": 150
     },
     {
       "epoch": 0.34,
+      "learning_rate": 7.383968354198248e-05,
+      "loss": 1.4096,
       "step": 155
     },
     {
       "epoch": 0.35,
+      "learning_rate": 7.145996630308523e-05,
+      "loss": 1.5607,
       "step": 160
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 6.907679540012421e-05,
+      "loss": 1.3956,
       "step": 165
     },
     {
       "epoch": 0.38,
+      "learning_rate": 6.669304872424775e-05,
+      "loss": 1.4131,
       "step": 170
     },
     {
       "epoch": 0.39,
+      "learning_rate": 6.431160486189736e-05,
+      "loss": 1.5354,
       "step": 175
     },
     {
       "epoch": 0.4,
+      "learning_rate": 6.193533961866798e-05,
+      "loss": 1.4403,
       "step": 180
     },
     {
       "epoch": 0.41,
+      "learning_rate": 5.9567122546507705e-05,
+      "loss": 1.5146,
       "step": 185
     },
     {
       "epoch": 0.42,
+      "learning_rate": 5.7209813478478305e-05,
+      "loss": 1.4112,
       "step": 190
     },
     {
       "epoch": 0.43,
+      "learning_rate": 5.48662590752607e-05,
+      "loss": 1.5145,
       "step": 195
     },
     {
       "epoch": 0.44,
+      "learning_rate": 5.2539289387549954e-05,
+      "loss": 1.4062,
       "step": 200
     },
     {
       "epoch": 0.45,
+      "learning_rate": 5.023171443851796e-05,
+      "loss": 1.2077,
       "step": 205
     },
     {
       "epoch": 0.46,
+      "learning_rate": 4.7946320830464014e-05,
+      "loss": 1.3632,
       "step": 210
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 4.568586837974509e-05,
+      "loss": 1.3578,
       "step": 215
     },
     {
       "epoch": 0.49,
+      "learning_rate": 4.3453086784043506e-05,
+      "loss": 1.2558,
       "step": 220
     },
     {
       "epoch": 0.5,
+      "learning_rate": 4.1250672326022146e-05,
+      "loss": 1.4552,
       "step": 225
     },
     {
       "epoch": 0.51,
+      "learning_rate": 3.908128461732282e-05,
+      "loss": 1.4219,
       "step": 230
     },
     {
       "epoch": 0.52,
+      "learning_rate": 3.694754338684033e-05,
+      "loss": 1.297,
       "step": 235
     },
     {
       "epoch": 0.53,
+      "learning_rate": 3.485202531717449e-05,
+      "loss": 1.4082,
       "step": 240
     },
     {
       "epoch": 0.54,
+      "learning_rate": 3.279726093305622e-05,
+      "loss": 1.3862,
       "step": 245
     },
     {
       "epoch": 0.55,
+      "learning_rate": 3.0785731545505864e-05,
+      "loss": 1.3033,
       "step": 250
     },
     {
       "epoch": 0.56,
+      "learning_rate": 2.8819866255437648e-05,
+      "loss": 1.5164,
       "step": 255
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 2.6902039020298912e-05,
+      "loss": 1.331,
       "step": 260
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 2.503456578730975e-05,
+      "loss": 1.3233,
       "step": 265
     },
     {
       "epoch": 0.6,
+      "learning_rate": 2.3219701696742702e-05,
+      "loss": 1.3359,
       "step": 270
     },
     {
       "epoch": 0.61,
+      "learning_rate": 2.1459638358647056e-05,
+      "loss": 1.3935,
       "step": 275
     },
     {
       "epoch": 0.62,
+      "learning_rate": 1.9756501206284136e-05,
+      "loss": 1.3479,
       "step": 280
     },
     {
       "epoch": 0.63,
+      "learning_rate": 1.8112346929471017e-05,
+      "loss": 1.2397,
       "step": 285
     },
     {
       "epoch": 0.64,
+      "learning_rate": 1.652916099095146e-05,
+      "loss": 1.2953,
       "step": 290
     },
     {
       "epoch": 0.65,
+      "learning_rate": 1.5008855228769237e-05,
+      "loss": 1.2815,
       "step": 295
     },
     {
       "epoch": 0.66,
+      "learning_rate": 1.3553265547554126e-05,
+      "loss": 1.4089,
       "step": 300
     },
     {
       "epoch": 0.67,
+      "learning_rate": 1.2164149701503507e-05,
+      "loss": 1.4801,
       "step": 305
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 1.084318517173762e-05,
+      "loss": 1.3129,
       "step": 310
     },
     {
       "epoch": 0.7,
+      "learning_rate": 9.59196714059168e-06,
+      "loss": 1.4936,
       "step": 315
     },
     {
       "epoch": 0.71,
+      "learning_rate": 8.412006565291113e-06,
+      "loss": 1.5641,
       "step": 320
     },
     {
       "epoch": 0.72,
+      "learning_rate": 7.304728353336137e-06,
+      "loss": 1.5021,
       "step": 325
     },
     {
       "epoch": 0.73,
+      "learning_rate": 6.271469641798991e-06,
+      "loss": 1.486,
       "step": 330
     },
     {
       "epoch": 0.74,
+      "learning_rate": 5.3134781826118575e-06,
+      "loss": 1.4864,
       "step": 335
     },
     {
       "epoch": 0.75,
+      "learning_rate": 4.431910835795231e-06,
+      "loss": 1.3247,
       "step": 340
     },
     {
       "epoch": 0.76,
+      "learning_rate": 3.627832172446406e-06,
+      "loss": 1.3021,
       "step": 345
     },
     {
       "epoch": 0.77,
+      "learning_rate": 2.9022131891750565e-06,
+      "loss": 1.2565,
       "step": 350
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 2.255930135538328e-06,
+      "loss": 1.3403,
       "step": 355
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 1.6897634558914518e-06,
+      "loss": 1.1603,
       "step": 360
     },
     {
       "epoch": 0.81,
+      "learning_rate": 1.2043968469316478e-06,
+      "loss": 1.3477,
       "step": 365
     },
     {
       "epoch": 0.82,
+      "learning_rate": 8.004164320734945e-07,
+      "loss": 1.4542,
       "step": 370
     },
     {
       "epoch": 0.83,
+      "learning_rate": 4.783100536527857e-07,
+      "loss": 1.171,
       "step": 375
     },
     {
       "epoch": 0.84,
+      "learning_rate": 2.384666838129012e-07,
+      "loss": 1.3221,
       "step": 380
     },
     {
       "epoch": 0.85,
+      "learning_rate": 8.117595478741029e-08,
+      "loss": 1.4165,
       "step": 385
     },
     {
       "epoch": 0.86,
+      "learning_rate": 6.627809142273766e-09,
+      "loss": 1.3171,
       "step": 390
     },
     {
       "epoch": 0.87,
+      "learning_rate": 1.4912270403714612e-08,
+      "loss": 1.278,
       "step": 395
     },
     {
       "epoch": 0.88,
+      "learning_rate": 1.0601933434685848e-07,
+      "loss": 1.1844,
       "step": 400
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 2.798389810765e-07,
+      "loss": 1.4166,
       "step": 405
     },
     {
       "epoch": 0.91,
+      "learning_rate": 5.361613078862704e-07,
+      "loss": 1.347,
       "step": 410
     },
     {
       "epoch": 0.92,
+      "learning_rate": 8.746767827346377e-07,
+      "loss": 1.2687,
       "step": 415
     },
     {
       "epoch": 0.93,
+      "learning_rate": 1.294976618031831e-06,
+      "loss": 1.2153,
       "step": 420
     },
     {
       "epoch": 0.94,
+      "learning_rate": 1.7965532642887846e-06,
+      "loss": 1.4466,
       "step": 425
     },
     {
       "epoch": 0.95,
+      "learning_rate": 2.3788010230270847e-06,
+      "loss": 1.4541,
       "step": 430
     },
     {
       "epoch": 0.96,
+      "learning_rate": 3.0410167782133005e-06,
+      "loss": 1.646,
       "step": 435
     },
     {
       "epoch": 0.97,
+      "learning_rate": 3.7824008453366295e-06,
+      "loss": 1.478,
       "step": 440
     },
     {
       "epoch": 0.98,
+      "learning_rate": 4.60205793709664e-06,
+      "loss": 1.523,
       "step": 445
     },
     {
       "epoch": 1.0,
+      "learning_rate": 5.498998244543705e-06,
+      "loss": 1.3657,
+      "step": 450
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.0850846767425537,
+      "eval_runtime": 31.9582,
+      "eval_samples_per_second": 20.683,
+      "eval_steps_per_second": 2.597,
+      "step": 452
     }
   ],
+  "max_steps": 904,
   "num_train_epochs": 2,
+  "total_flos": 472415993856000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ced0124e38eeda92a1a3b5f83f5b32946b5283d3588b341d682a278fd7ad4e94
 size 2671

 version https://git-lfs.github.com/spec/v1
+oid sha256:096f065f6af008348552f5cbc74729e8d3c0d2e89068dcc66974910fef5f24ce
 size 2671