huggingartists

Browse files

Files changed (10) hide show

README.md +4 -4
config.json +1 -1
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +1230 -556
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -14,7 +14,7 @@ widget:
 <div class="inline-flex flex-col" style="line-height: 1.5;">
     <div class="flex">
         <div
-			style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%; background-size: cover; background-image: url(&#39;https://images.genius.com/c7367126e7e6ebc13fcea9d4efca0204.1000x1000x1.jpg&#39;)">
         </div>
     </div>
     <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">🤖 HuggingArtists Model 🤖</div>
@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/2h8vhx6h/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/pgt39elq) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/pgt39elq/artifacts) is logged and versioned.
 ## How to use

 <div class="inline-flex flex-col" style="line-height: 1.5;">
     <div class="flex">
         <div
+			style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%; background-size: cover; background-image: url(&#39;https://images.genius.com/76c536a17ca35f7edd1f78e129609fe0.573x573x1.jpg&#39;)">
         </div>
     </div>
     <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">🤖 HuggingArtists Model 🤖</div>
 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/1cw72fwg/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1s9gn4n3) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1s9gn4n3/artifacts) is logged and versioned.
 ## How to use

config.json CHANGED Viewed

@@ -36,7 +36,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.20.1",
   "use_cache": true,
   "vocab_size": 50257
 }

     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.21.1",
   "use_cache": true,
   "vocab_size": 50257
 }

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~16843362152576447~~, "eval_runtime": 14.~~4995~~, "eval_samples_per_second": 46.~~002~~, "eval_steps_per_second": 5.~~793~~, "epoch": 2.0}


1	+ {"eval_loss": 0.7975038886070251, "eval_runtime": 7.9777, "eval_samples_per_second": 81.352, "eval_steps_per_second": 10.279, "epoch": 3.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cbc2dc6c04035b853abb568761bd8612c26a994ae1b4cb08ca188a90f7258f7
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:195352921c9768b8f7722a7c6dadd24e0bb41f9c5b687a015dad8577e2e19d1e
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0b0ffb22e8927b64da356533cf5641440c81b02790d88dfdd9c9a2662c01425
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d220c780eb71062e07399c346abb83a3d8d5d253a988aae163afad0591fdd04
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dea39169802d87733535e8d73438aea36ade457c6da7d750e53cf28cf547775e
 size 510396521

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1ea0a731add3655e830275a1f48125cb7f3420e6c2aa5a5112f441a84aaadeb
 size 510396521

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b13d0791a1d73977e6a5d1788aa28b8116f3253e4dd3057d9f0de48e5eb2ad9b
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:85a94ba790ee5732238750868c0fa5cd84aca898f6e3c21a553f5290ecb0fd85
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abd9b10a0f69d3f57880116c4b912f46c3554e429f40c6e581557f00b105907d
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b357301156ff71969e9f7ff0267a328310fe92287f1483cfbf7826710ed8a0b
 size 623

trainer_state.json CHANGED Viewed

@@ -1,1112 +1,1786 @@
 {
-  "best_metric": 0.16843362152576447,
-  "best_model_checkpoint": "output/eminem/checkpoint-904",
-  "epoch": 2.0,
-  "global_step": 904,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 8.139815125844835e-05,
-      "loss": 0.3572,
       "step": 5
     },
     {
       "epoch": 0.02,
-      "learning_rate": 7.904875437627615e-05,
-      "loss": 0.332,
       "step": 10
     },
     {
       "epoch": 0.03,
-      "learning_rate": 7.6686739692467e-05,
-      "loss": 0.3325,
       "step": 15
     },
     {
       "epoch": 0.04,
-      "learning_rate": 7.431495955015108e-05,
-      "loss": 0.3373,
       "step": 20
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 7.193627808511377e-05,
-      "loss": 0.3129,
       "step": 25
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 6.955356776710818e-05,
-      "loss": 0.3354,
       "step": 30
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 6.716970593108238e-05,
-      "loss": 0.3096,
       "step": 35
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 6.478757130255084e-05,
-      "loss": 0.3554,
       "step": 40
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 6.24100405212653e-05,
-      "loss": 0.3456,
       "step": 45
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 6.0039984667425774e-05,
-      "loss": 0.3283,
       "step": 50
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 5.768026579458568e-05,
-      "loss": 0.3464,
       "step": 55
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 5.5333733473478955e-05,
-      "loss": 0.3187,
       "step": 60
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 5.3003221350899904e-05,
-      "loss": 0.3377,
       "step": 65
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 5.069154372783178e-05,
-      "loss": 0.3172,
       "step": 70
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 4.8401492160918125e-05,
-      "loss": 0.3366,
       "step": 75
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 4.6135832091409655e-05,
-      "loss": 0.3463,
       "step": 80
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 4.389729950565688e-05,
-      "loss": 0.3223,
       "step": 85
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 4.168859763115363e-05,
-      "loss": 0.3103,
       "step": 90
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 3.9512393672158115e-05,
-      "loss": 0.321,
       "step": 95
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 3.737131558879536e-05,
-      "loss": 0.341,
       "step": 100
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 3.526794892357027e-05,
-      "loss": 0.316,
       "step": 105
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 3.320483367908598e-05,
-      "loss": 0.3275,
       "step": 110
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 3.118446125077491e-05,
-      "loss": 0.3246,
       "step": 115
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 2.9209271418308243e-05,
-      "loss": 0.3166,
       "step": 120
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 2.7281649399352843e-05,
-      "loss": 0.3269,
       "step": 125
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 2.540392296919879e-05,
-      "loss": 0.3522,
       "step": 130
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 2.3578359649771312e-05,
-      "loss": 0.3318,
       "step": 135
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 2.1807163971388526e-05,
-      "loss": 0.3207,
       "step": 140
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 2.009247481060366e-05,
-      "loss": 0.3127,
       "step": 145
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 1.843636280731375e-05,
-      "loss": 0.2845,
       "step": 150
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 1.6840827864284427e-05,
-      "loss": 0.3354,
       "step": 155
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 1.530779673208225e-05,
-      "loss": 0.3237,
       "step": 160
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 1.3839120682352292e-05,
-      "loss": 0.3352,
       "step": 165
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 1.243657327224889e-05,
-      "loss": 0.3299,
       "step": 170
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 1.1101848202702286e-05,
-      "loss": 0.3208,
       "step": 175
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 9.836557273124208e-06,
-      "loss": 0.2988,
       "step": 180
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 8.642228435020553e-06,
-      "loss": 0.3097,
       "step": 185
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 7.520303946848552e-06,
-      "loss": 0.3237,
       "step": 190
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 6.472138632361784e-06,
-      "loss": 0.3487,
       "step": 195
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 5.498998244544231e-06,
-      "loss": 0.3417,
       "step": 200
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 4.602057937097127e-06,
-      "loss": 0.312,
       "step": 205
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 3.7824008453364313e-06,
-      "loss": 0.3209,
       "step": 210
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 3.041016778213118e-06,
-      "loss": 0.3107,
       "step": 215
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 2.378801023027184e-06,
-      "loss": 0.3087,
       "step": 220
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 1.796553264289097e-06,
-      "loss": 0.2947,
       "step": 225
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 1.29497661803209e-06,
-      "loss": 0.3013,
       "step": 230
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 8.746767827346987e-07,
-      "loss": 0.2997,
       "step": 235
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 5.361613078862018e-07,
-      "loss": 0.2932,
       "step": 240
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 2.7983898107679704e-07,
-      "loss": 0.3453,
       "step": 245
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 1.0601933434688134e-07,
-      "loss": 0.3002,
       "step": 250
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 1.4912270403722228e-08,
-      "loss": 0.3528,
       "step": 255
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 6.627809142250918e-09,
-      "loss": 0.3299,
       "step": 260
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 8.117595478739506e-08,
-      "loss": 0.3005,
       "step": 265
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 2.384666838130307e-07,
-      "loss": 0.313,
       "step": 270
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 4.783100536523972e-07,
-      "loss": 0.2978,
       "step": 275
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 8.004164320734335e-07,
-      "loss": 0.3066,
       "step": 280
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 1.2043968469315794e-06,
-      "loss": 0.3224,
       "step": 285
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 1.689763455891368e-06,
-      "loss": 0.3433,
       "step": 290
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 2.255930135538237e-06,
-      "loss": 0.3279,
       "step": 295
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 2.9022131891755135e-06,
-      "loss": 0.3128,
       "step": 300
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 3.6278321724456592e-06,
-      "loss": 0.3398,
       "step": 305
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 4.431910835795094e-06,
-      "loss": 0.346,
       "step": 310
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 5.313478182611713e-06,
-      "loss": 0.3162,
       "step": 315
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 6.271469641798839e-06,
-      "loss": 0.2976,
       "step": 320
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 7.304728353335969e-06,
-      "loss": 0.3161,
       "step": 325
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 8.412006565290002e-06,
-      "loss": 0.3494,
       "step": 330
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 9.591967140590498e-06,
-      "loss": 0.3082,
       "step": 335
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 1.0843185171737421e-05,
-      "loss": 0.3302,
       "step": 340
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 1.2164149701503293e-05,
-      "loss": 0.3535,
       "step": 345
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 1.3553265547553905e-05,
-      "loss": 0.2955,
       "step": 350
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 1.500885522876901e-05,
-      "loss": 0.3486,
       "step": 355
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 1.6529160990949952e-05,
-      "loss": 0.3031,
       "step": 360
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 1.8112346929469448e-05,
-      "loss": 0.3208,
       "step": 365
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 1.975650120628388e-05,
-      "loss": 0.302,
       "step": 370
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 2.1459638358647496e-05,
-      "loss": 0.3412,
       "step": 375
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 2.3219701696742428e-05,
-      "loss": 0.3244,
       "step": 380
     },
     {
-      "epoch": 0.85,
-      "learning_rate": 2.5034565787309464e-05,
-      "loss": 0.3438,
       "step": 385
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 2.6902039020297848e-05,
-      "loss": 0.3173,
       "step": 390
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 2.881986625543576e-05,
-      "loss": 0.3234,
       "step": 395
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 3.078573154550556e-05,
-      "loss": 0.3361,
       "step": 400
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 3.279726093305591e-05,
-      "loss": 0.3391,
       "step": 405
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 3.485202531717502e-05,
-      "loss": 0.3205,
       "step": 410
     },
     {
-      "epoch": 0.92,
-      "learning_rate": 3.6947543386838276e-05,
-      "loss": 0.3197,
       "step": 415
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 3.9081284617320727e-05,
-      "loss": 0.3272,
       "step": 420
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 4.125067232602091e-05,
-      "loss": 0.3092,
       "step": 425
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 4.345308678404316e-05,
-      "loss": 0.3419,
       "step": 430
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 4.568586837974475e-05,
-      "loss": 0.3065,
       "step": 435
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 4.794632083046458e-05,
-      "loss": 0.3082,
       "step": 440
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 5.023171443851573e-05,
-      "loss": 0.3379,
       "step": 445
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 5.2539289387547704e-05,
-      "loss": 0.3392,
       "step": 450
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.182983860373497,
-      "eval_runtime": 15.9367,
-      "eval_samples_per_second": 41.79,
-      "eval_steps_per_second": 5.271,
-      "step": 452
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 5.486625907525938e-05,
-      "loss": 0.3706,
       "step": 455
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 5.7209813478478894e-05,
-      "loss": 0.3441,
       "step": 460
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 5.956712254650734e-05,
-      "loss": 0.336,
       "step": 465
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 6.193533961866664e-05,
-      "loss": 0.3351,
       "step": 470
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 6.431160486189602e-05,
-      "loss": 0.379,
       "step": 475
     },
     {
-      "epoch": 1.06,
-      "learning_rate": 6.669304872424543e-05,
-      "loss": 0.348,
       "step": 480
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 6.907679540012287e-05,
-      "loss": 0.3403,
       "step": 485
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 7.145996630308584e-05,
-      "loss": 0.3578,
       "step": 490
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 7.383968354198309e-05,
-      "loss": 0.313,
       "step": 495
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 7.621307339627422e-05,
-      "loss": 0.3456,
       "step": 500
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 7.857726978630327e-05,
-      "loss": 0.3309,
       "step": 505
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 8.09294177343355e-05,
-      "loss": 0.3781,
       "step": 510
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 8.326667681220494e-05,
-      "loss": 0.3312,
       "step": 515
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 8.558622457138458e-05,
-      "loss": 0.3715,
       "step": 520
     },
     {
-      "epoch": 1.16,
-      "learning_rate": 8.78852599513366e-05,
-      "loss": 0.3699,
       "step": 525
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 9.016100666205213e-05,
-      "loss": 0.3742,
       "step": 530
     },
     {
-      "epoch": 1.18,
-      "learning_rate": 9.241071653666853e-05,
-      "loss": 0.3531,
       "step": 535
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 9.46316728501164e-05,
-      "loss": 0.3666,
       "step": 540
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 9.682119359981451e-05,
-      "loss": 0.3454,
       "step": 545
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 9.897663474442683e-05,
-      "loss": 0.3345,
       "step": 550
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 0.00010109539339676733,
-      "loss": 0.3631,
       "step": 555
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 0.00010317491096704431,
-      "loss": 0.3796,
       "step": 560
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 0.00010521267625255079,
-      "loss": 0.3308,
       "step": 565
     },
     {
-      "epoch": 1.26,
-      "learning_rate": 0.00010720622847019136,
-      "loss": 0.3771,
       "step": 570
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 0.00010915316022808663,
-      "loss": 0.3416,
       "step": 575
     },
     {
-      "epoch": 1.28,
-      "learning_rate": 0.00011105112043271663,
-      "loss": 0.3921,
       "step": 580
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 0.00011289781712806653,
-      "loss": 0.3541,
       "step": 585
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 0.00011469102026339036,
-      "loss": 0.3366,
       "step": 590
     },
     {
-      "epoch": 1.32,
-      "learning_rate": 0.00011642856438616586,
-      "loss": 0.348,
       "step": 595
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 0.00011810835125709373,
-      "loss": 0.3918,
       "step": 600
     },
     {
-      "epoch": 1.34,
-      "learning_rate": 0.00011972835238389949,
-      "loss": 0.3821,
       "step": 605
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 0.00012128661147092148,
-      "loss": 0.3542,
       "step": 610
     },
     {
-      "epoch": 1.36,
-      "learning_rate": 0.0001227812467815045,
-      "loss": 0.3587,
       "step": 615
     },
     {
-      "epoch": 1.37,
-      "learning_rate": 0.00012421045341038303,
-      "loss": 0.4155,
       "step": 620
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 0.00012557250546324066,
-      "loss": 0.4249,
       "step": 625
     },
     {
-      "epoch": 1.39,
-      "learning_rate": 0.00012686575814089933,
-      "loss": 0.4011,
       "step": 630
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 0.00012808864972555366,
-      "loss": 0.4206,
       "step": 635
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 0.00012923970346668468,
-      "loss": 0.3698,
       "step": 640
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 0.00013031752936437118,
-      "loss": 0.3907,
       "step": 645
     },
     {
-      "epoch": 1.44,
-      "learning_rate": 0.0001313208258478337,
-      "loss": 0.3931,
       "step": 650
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 0.00013224838134719776,
-      "loss": 0.3725,
       "step": 655
     },
     {
-      "epoch": 1.46,
-      "learning_rate": 0.00013309907575657624,
-      "loss": 0.4056,
       "step": 660
     },
     {
-      "epoch": 1.47,
-      "learning_rate": 0.00013387188178669445,
-      "loss": 0.3753,
       "step": 665
     },
     {
-      "epoch": 1.48,
-      "learning_rate": 0.0001345658662054306,
-      "loss": 0.4041,
       "step": 670
     },
     {
-      "epoch": 1.49,
-      "learning_rate": 0.0001351801909647851,
-      "loss": 0.421,
       "step": 675
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 0.0001357141142128889,
-      "loss": 0.3516,
       "step": 680
     },
     {
-      "epoch": 1.52,
-      "learning_rate": 0.0001361669911898596,
-      "loss": 0.4309,
       "step": 685
     },
     {
-      "epoch": 1.53,
-      "learning_rate": 0.00013653827500640774,
-      "loss": 0.3797,
       "step": 690
     },
     {
-      "epoch": 1.54,
-      "learning_rate": 0.0001368275173042528,
-      "loss": 0.4128,
       "step": 695
     },
     {
-      "epoch": 1.55,
-      "learning_rate": 0.00013703436879755498,
-      "loss": 0.4107,
       "step": 700
     },
     {
-      "epoch": 1.56,
-      "learning_rate": 0.00013715857969471166,
-      "loss": 0.4123,
       "step": 705
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 0.0001372,
-      "loss": 0.4361,
       "step": 710
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 0.00013715857969471174,
-      "loss": 0.3861,
       "step": 715
     },
     {
-      "epoch": 1.59,
-      "learning_rate": 0.00013703436879755515,
-      "loss": 0.4283,
       "step": 720
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 0.00013682751730425283,
-      "loss": 0.4119,
       "step": 725
     },
     {
-      "epoch": 1.62,
-      "learning_rate": 0.00013653827500640804,
-      "loss": 0.3837,
       "step": 730
     },
     {
-      "epoch": 1.63,
-      "learning_rate": 0.00013616699118985964,
-      "loss": 0.409,
       "step": 735
     },
     {
-      "epoch": 1.64,
-      "learning_rate": 0.00013571411421288895,
-      "loss": 0.4209,
       "step": 740
     },
     {
-      "epoch": 1.65,
-      "learning_rate": 0.00013518019096478564,
-      "loss": 0.4686,
       "step": 745
     },
     {
-      "epoch": 1.66,
-      "learning_rate": 0.00013456586620543123,
-      "loss": 0.4259,
       "step": 750
     },
     {
-      "epoch": 1.67,
-      "learning_rate": 0.00013387188178669453,
-      "loss": 0.4255,
       "step": 755
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 0.000133099075756577,
-      "loss": 0.3998,
       "step": 760
     },
     {
-      "epoch": 1.69,
-      "learning_rate": 0.00013224838134719786,
-      "loss": 0.4879,
       "step": 765
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 0.00013132082584783384,
-      "loss": 0.4157,
       "step": 770
     },
     {
-      "epoch": 1.71,
-      "learning_rate": 0.00013031752936437215,
-      "loss": 0.4395,
       "step": 775
     },
     {
-      "epoch": 1.73,
-      "learning_rate": 0.00012923970346668571,
-      "loss": 0.3997,
       "step": 780
     },
     {
-      "epoch": 1.74,
-      "learning_rate": 0.00012808864972555477,
-      "loss": 0.3993,
       "step": 785
     },
     {
-      "epoch": 1.75,
-      "learning_rate": 0.0001268657581409005,
-      "loss": 0.4962,
       "step": 790
     },
     {
-      "epoch": 1.76,
-      "learning_rate": 0.00012557250546324083,
-      "loss": 0.3908,
       "step": 795
     },
     {
-      "epoch": 1.77,
-      "learning_rate": 0.00012421045341038322,
-      "loss": 0.447,
       "step": 800
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 0.00012278124678150585,
-      "loss": 0.4202,
       "step": 805
     },
     {
-      "epoch": 1.79,
-      "learning_rate": 0.00012128661147092164,
-      "loss": 0.4339,
       "step": 810
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 0.00011972835238390097,
-      "loss": 0.4362,
       "step": 815
     },
     {
-      "epoch": 1.81,
-      "learning_rate": 0.00011810835125709524,
-      "loss": 0.462,
       "step": 820
     },
     {
-      "epoch": 1.83,
-      "learning_rate": 0.00011642856438616606,
-      "loss": 0.3672,
       "step": 825
     },
     {
-      "epoch": 1.84,
-      "learning_rate": 0.00011469102026339056,
-      "loss": 0.4118,
       "step": 830
     },
     {
-      "epoch": 1.85,
-      "learning_rate": 0.00011289781712806821,
-      "loss": 0.3731,
       "step": 835
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 0.00011105112043271685,
-      "loss": 0.4515,
       "step": 840
     },
     {
-      "epoch": 1.87,
-      "learning_rate": 0.00010915316022808842,
-      "loss": 0.4245,
       "step": 845
     },
     {
-      "epoch": 1.88,
-      "learning_rate": 0.00010720622847019321,
-      "loss": 0.4166,
       "step": 850
     },
     {
-      "epoch": 1.89,
-      "learning_rate": 0.00010521267625255102,
-      "loss": 0.3902,
       "step": 855
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 0.00010317491096704455,
-      "loss": 0.442,
       "step": 860
     },
     {
-      "epoch": 1.91,
-      "learning_rate": 0.00010109539339676927,
-      "loss": 0.3854,
       "step": 865
     },
     {
-      "epoch": 1.92,
-      "learning_rate": 9.897663474442706e-05,
-      "loss": 0.4236,
       "step": 870
     },
     {
-      "epoch": 1.94,
-      "learning_rate": 9.682119359981653e-05,
-      "loss": 0.4067,
       "step": 875
     },
     {
-      "epoch": 1.95,
-      "learning_rate": 9.463167285011846e-05,
-      "loss": 0.4098,
       "step": 880
     },
     {
-      "epoch": 1.96,
-      "learning_rate": 9.241071653666879e-05,
-      "loss": 0.4841,
       "step": 885
     },
     {
-      "epoch": 1.97,
-      "learning_rate": 9.016100666205239e-05,
-      "loss": 0.4236,
       "step": 890
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 8.788525995133685e-05,
-      "loss": 0.4312,
       "step": 895
     },
     {
-      "epoch": 1.99,
-      "learning_rate": 8.558622457138483e-05,
-      "loss": 0.4461,
       "step": 900
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.16843362152576447,
-      "eval_runtime": 14.4984,
-      "eval_samples_per_second": 46.005,
-      "eval_steps_per_second": 5.794,
-      "step": 904
     }
   ],
-  "max_steps": 904,
-  "num_train_epochs": 2,
-  "total_flos": 943525527552000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.7975038886070251,
+  "best_model_checkpoint": "output/eminem/checkpoint-1455",
+  "epoch": 3.0,
+  "global_step": 1455,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 7.104344779818036e-05,
+      "loss": 0.7686,
       "step": 5
     },
     {
       "epoch": 0.02,
+      "learning_rate": 7.326215453099495e-05,
+      "loss": 0.6054,
       "step": 10
     },
     {
       "epoch": 0.03,
+      "learning_rate": 7.54759713075063e-05,
+      "loss": 1.0539,
       "step": 15
     },
     {
       "epoch": 0.04,
+      "learning_rate": 7.768257613962603e-05,
+      "loss": 0.7369,
       "step": 20
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 7.987965460359759e-05,
+      "loss": 0.7577,
       "step": 25
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 8.206490226751101e-05,
+      "loss": 0.5693,
       "step": 30
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 8.423602710832802e-05,
+      "loss": 0.5772,
       "step": 35
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 8.63907519158997e-05,
+      "loss": 1.6227,
       "step": 40
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 8.852681668145864e-05,
+      "loss": 0.7695,
       "step": 45
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 9.064198096803333e-05,
+      "loss": 0.6463,
       "step": 50
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 9.27340262603724e-05,
+      "loss": 0.7689,
       "step": 55
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.480075829185323e-05,
+      "loss": 1.0531,
       "step": 60
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 9.684000934597923e-05,
+      "loss": 0.6097,
       "step": 65
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 9.884964052999149e-05,
+      "loss": 0.7093,
       "step": 70
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 0.00010082754401829355,
+      "loss": 0.5035,
       "step": 75
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 0.00010277164526325172,
+      "loss": 1.0989,
       "step": 80
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 0.00010467990517112986,
+      "loss": 1.0782,
       "step": 85
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 0.00010655032224079468,
+      "loss": 0.8885,
       "step": 90
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 0.00010838093466302798,
+      "loss": 0.9381,
       "step": 95
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 0.00011016982237818681,
+      "loss": 1.0053,
       "step": 100
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 0.00011191510909009365,
+      "loss": 0.6927,
       "step": 105
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 0.00011361496423399298,
+      "loss": 0.9509,
       "step": 110
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 0.0001152676048965721,
+      "loss": 0.6696,
       "step": 115
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 0.0001168712976859924,
+      "loss": 0.9941,
       "step": 120
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 0.00011842436054997332,
+      "loss": 0.5395,
       "step": 125
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 0.00011992516454003592,
+      "loss": 0.4659,
       "step": 130
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 0.00012137213552004078,
+      "loss": 0.8814,
       "step": 135
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 0.00012276375581724122,
+      "loss": 0.7903,
       "step": 140
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 0.00012409856581412063,
+      "loss": 0.8096,
       "step": 145
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 0.00012537516547931506,
+      "loss": 0.7711,
       "step": 150
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 0.0001265922158360627,
+      "loss": 0.7044,
       "step": 155
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 0.00012774844036660105,
+      "loss": 0.9893,
       "step": 160
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 0.00012884262635106593,
+      "loss": 0.9534,
       "step": 165
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 0.00012987362613945392,
+      "loss": 0.9657,
       "step": 170
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 0.0001308403583553606,
+      "loss": 0.8557,
       "step": 175
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 0.00013174180903018608,
+      "loss": 0.8623,
       "step": 180
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 0.00013257703266665794,
+      "loss": 0.9682,
       "step": 185
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 0.0001333451532305167,
+      "loss": 0.8295,
       "step": 190
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 0.00013404536506936147,
+      "loss": 0.6588,
       "step": 195
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 0.0001346769337576652,
+      "loss": 0.7481,
       "step": 200
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 0.0001352391968670901,
+      "loss": 0.8978,
       "step": 205
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 0.00013573156466127666,
+      "loss": 1.1897,
       "step": 210
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 0.0001361535207144,
+      "loss": 1.238,
       "step": 215
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 0.00013650462245282926,
+      "loss": 1.1457,
       "step": 220
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 0.00013678450161932478,
+      "loss": 0.8702,
       "step": 225
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 0.00013699286465928987,
+      "loss": 1.071,
       "step": 230
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 0.00013712949302866842,
+      "loss": 0.8298,
       "step": 235
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 0.00013719424342316803,
+      "loss": 0.9333,
       "step": 240
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 0.00013718704792856656,
+      "loss": 0.6711,
       "step": 245
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 0.000137107914091944,
+      "loss": 0.786,
       "step": 250
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 0.00013695692491376736,
+      "loss": 0.7021,
       "step": 255
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 0.00013673423876083446,
+      "loss": 1.0258,
       "step": 260
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 0.0001364400892001687,
+      "loss": 1.2098,
       "step": 265
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 0.00013607478475403945,
+      "loss": 1.0657,
       "step": 270
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 0.00013563870857636603,
+      "loss": 0.664,
       "step": 275
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 0.00013513231805083994,
+      "loss": 0.8538,
       "step": 280
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 0.00013455614431119578,
+      "loss": 0.8278,
       "step": 285
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 0.00013391079168412009,
+      "loss": 0.6271,
       "step": 290
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 0.00013319693705540213,
+      "loss": 0.9119,
       "step": 295
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 0.00013241532915997056,
+      "loss": 0.5942,
       "step": 300
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 0.0001315667877965762,
+      "loss": 0.8013,
       "step": 305
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 0.00013065220296793026,
+      "loss": 0.6856,
       "step": 310
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 0.00012967253394722351,
+      "loss": 0.8229,
       "step": 315
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 0.0001286288082719761,
+      "loss": 0.9531,
       "step": 320
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 0.00012752212066629144,
+      "loss": 1.3199,
       "step": 325
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 0.00012635363189264417,
+      "loss": 1.1022,
       "step": 330
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 0.00012512456753439896,
+      "loss": 0.9544,
       "step": 335
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 0.00012383621671034582,
+      "loss": 0.9981,
       "step": 340
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 0.00012248993072259197,
+      "loss": 0.8137,
       "step": 345
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 0.00012108712163922375,
+      "loss": 0.9984,
       "step": 350
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 0.00011962926081325661,
+      "loss": 1.0316,
       "step": 355
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 0.0001181178773393795,
+      "loss": 0.8207,
       "step": 360
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 0.00011655455645015076,
+      "loss": 0.6663,
       "step": 365
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 0.00011494093785329717,
+      "loss": 0.8862,
       "step": 370
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 0.00011327871401190472,
+      "loss": 0.7749,
       "step": 375
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 0.00011156962836924195,
+      "loss": 1.0212,
       "step": 380
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 0.0001098154735201431,
+      "loss": 0.9901,
       "step": 385
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 0.00010801808933080577,
+      "loss": 0.6503,
       "step": 390
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 0.0001061793610090449,
+      "loss": 0.9526,
       "step": 395
     },
     {
+      "epoch": 0.82,
+      "learning_rate": 0.00010430121712695815,
+      "loss": 0.9911,
       "step": 400
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 0.00010238562759812645,
+      "loss": 0.8466,
       "step": 405
     },
     {
+      "epoch": 0.85,
+      "learning_rate": 0.00010043460161143304,
+      "loss": 0.8538,
       "step": 410
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 9.845018552372211e-05,
+      "loss": 1.0898,
       "step": 415
     },
     {
+      "epoch": 0.87,
+      "learning_rate": 9.643446071344141e-05,
+      "loss": 0.6029,
       "step": 420
     },
     {
+      "epoch": 0.88,
+      "learning_rate": 9.438954139756169e-05,
+      "loss": 0.6565,
       "step": 425
     },
     {
+      "epoch": 0.89,
+      "learning_rate": 9.231757241406026e-05,
+      "loss": 0.9035,
       "step": 430
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 9.022072697227865e-05,
+      "loss": 0.6143,
       "step": 435
     },
     {
+      "epoch": 0.91,
+      "learning_rate": 8.810120437353156e-05,
+      "loss": 0.7718,
       "step": 440
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 8.596122770434176e-05,
+      "loss": 0.9339,
       "step": 445
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 8.380304150471618e-05,
+      "loss": 0.6168,
       "step": 450
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 8.162890941395579e-05,
+      "loss": 0.917,
       "step": 455
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 7.944111179639565e-05,
+      "loss": 0.9396,
       "step": 460
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 7.724194334962525e-05,
+      "loss": 0.8879,
       "step": 465
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 7.50337106976521e-05,
+      "loss": 0.7428,
       "step": 470
     },
     {
+      "epoch": 0.98,
+      "learning_rate": 7.281872997159678e-05,
+      "loss": 0.8685,
       "step": 475
     },
     {
+      "epoch": 0.99,
+      "learning_rate": 7.059932438036807e-05,
+      "loss": 0.6925,
       "step": 480
     },
     {
+      "epoch": 1.0,
+      "learning_rate": 6.837782177395701e-05,
+      "loss": 0.7737,
       "step": 485
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 0.8009498715400696,
+      "eval_runtime": 7.9645,
+      "eval_samples_per_second": 81.487,
+      "eval_steps_per_second": 10.296,
+      "step": 485
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 6.615655220182037e-05,
+      "loss": 0.9648,
       "step": 490
     },
     {
+      "epoch": 1.02,
+      "learning_rate": 6.393784546900578e-05,
+      "loss": 0.7027,
       "step": 495
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 6.172402869249251e-05,
+      "loss": 0.6923,
       "step": 500
     },
     {
+      "epoch": 1.04,
+      "learning_rate": 5.9517423860374716e-05,
+      "loss": 0.6036,
       "step": 505
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 5.7320345396401225e-05,
+      "loss": 0.5738,
       "step": 510
     },
     {
+      "epoch": 1.06,
+      "learning_rate": 5.5135097732487806e-05,
+      "loss": 0.522,
       "step": 515
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 5.2963972891672695e-05,
+      "loss": 0.6331,
       "step": 520
     },
     {
+      "epoch": 1.08,
+      "learning_rate": 5.080924808409912e-05,
+      "loss": 0.8264,
       "step": 525
     },
     {
+      "epoch": 1.09,
+      "learning_rate": 4.867318331854207e-05,
+      "loss": 0.5139,
       "step": 530
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 4.655801903196737e-05,
+      "loss": 0.4191,
       "step": 535
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 4.4465973739628306e-05,
+      "loss": 0.7371,
       "step": 540
     },
     {
+      "epoch": 1.12,
+      "learning_rate": 4.239924170814745e-05,
+      "loss": 0.7683,
       "step": 545
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 4.0359990654021446e-05,
+      "loss": 0.6885,
       "step": 550
     },
     {
+      "epoch": 1.14,
+      "learning_rate": 3.835035947000743e-05,
+      "loss": 0.573,
       "step": 555
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 3.6372455981705394e-05,
+      "loss": 0.5655,
       "step": 560
     },
     {
+      "epoch": 1.16,
+      "learning_rate": 3.442835473674722e-05,
+      "loss": 0.6614,
       "step": 565
     },
     {
+      "epoch": 1.18,
+      "learning_rate": 3.2520094828869116e-05,
+      "loss": 0.553,
       "step": 570
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 3.064967775920593e-05,
+      "loss": 0.9856,
       "step": 575
     },
     {
+      "epoch": 1.2,
+      "learning_rate": 2.881906533697264e-05,
+      "loss": 0.7987,
       "step": 580
     },
     {
+      "epoch": 1.21,
+      "learning_rate": 2.7030177621813776e-05,
+      "loss": 0.4053,
       "step": 585
     },
     {
+      "epoch": 1.22,
+      "learning_rate": 2.5284890909906917e-05,
+      "loss": 0.5987,
       "step": 590
     },
     {
+      "epoch": 1.23,
+      "learning_rate": 2.3585035766007593e-05,
+      "loss": 0.9376,
       "step": 595
     },
     {
+      "epoch": 1.24,
+      "learning_rate": 2.1932395103427002e-05,
+      "loss": 0.6322,
       "step": 600
     },
     {
+      "epoch": 1.25,
+      "learning_rate": 2.032870231400813e-05,
+      "loss": 0.6378,
       "step": 605
     },
     {
+      "epoch": 1.26,
+      "learning_rate": 1.8775639450025844e-05,
+      "loss": 0.5735,
       "step": 610
     },
     {
+      "epoch": 1.27,
+      "learning_rate": 1.7274835459963273e-05,
+      "loss": 1.0382,
       "step": 615
     },
     {
+      "epoch": 1.28,
+      "learning_rate": 1.582786447995969e-05,
+      "loss": 0.6316,
       "step": 620
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 1.4436244182758039e-05,
+      "loss": 0.6119,
       "step": 625
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 1.3101434185879816e-05,
+      "loss": 0.9124,
       "step": 630
     },
     {
+      "epoch": 1.31,
+      "learning_rate": 1.1824834520685365e-05,
+      "loss": 0.5674,
       "step": 635
     },
     {
+      "epoch": 1.32,
+      "learning_rate": 1.060778416393771e-05,
+      "loss": 0.8984,
       "step": 640
     },
     {
+      "epoch": 1.33,
+      "learning_rate": 9.451559633399314e-06,
+      "loss": 0.4093,
       "step": 645
     },
     {
+      "epoch": 1.34,
+      "learning_rate": 8.35737364893442e-06,
+      "loss": 1.0756,
       "step": 650
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 7.326373860545556e-06,
+      "loss": 0.7388,
       "step": 655
     },
     {
+      "epoch": 1.36,
+      "learning_rate": 6.359641644638905e-06,
+      "loss": 0.7588,
       "step": 660
     },
     {
+      "epoch": 1.37,
+      "learning_rate": 5.4581909698134475e-06,
+      "loss": 0.6298,
       "step": 665
     },
     {
+      "epoch": 1.38,
+      "learning_rate": 4.622967333341646e-06,
+      "loss": 0.5269,
       "step": 670
     },
     {
+      "epoch": 1.39,
+      "learning_rate": 3.854846769483559e-06,
+      "loss": 0.8377,
       "step": 675
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 3.1546349306387612e-06,
+      "loss": 0.5796,
       "step": 680
     },
     {
+      "epoch": 1.41,
+      "learning_rate": 2.5230662423349877e-06,
+      "loss": 0.4994,
       "step": 685
     },
     {
+      "epoch": 1.42,
+      "learning_rate": 1.9608031329100813e-06,
+      "loss": 0.659,
       "step": 690
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 1.4684353387235077e-06,
+      "loss": 0.5819,
       "step": 695
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 1.0464792855997834e-06,
+      "loss": 0.5023,
       "step": 700
     },
     {
+      "epoch": 1.45,
+      "learning_rate": 6.953775471708487e-07,
+      "loss": 0.5082,
       "step": 705
     },
     {
+      "epoch": 1.46,
+      "learning_rate": 4.154983806750897e-07,
+      "loss": 0.6839,
       "step": 710
     },
     {
+      "epoch": 1.47,
+      "learning_rate": 2.071353407100288e-07,
+      "loss": 0.7121,
       "step": 715
     },
     {
+      "epoch": 1.48,
+      "learning_rate": 7.050697133161242e-08,
+      "loss": 0.4166,
       "step": 720
     },
     {
+      "epoch": 1.49,
+      "learning_rate": 5.756576831951343e-09,
+      "loss": 0.7094,
       "step": 725
     },
     {
+      "epoch": 1.51,
+      "learning_rate": 1.295207143343513e-08,
+      "loss": 0.6831,
       "step": 730
     },
     {
+      "epoch": 1.52,
+      "learning_rate": 9.208590805595201e-08,
+      "loss": 0.6554,
       "step": 735
     },
     {
+      "epoch": 1.53,
+      "learning_rate": 2.4307508623258407e-07,
+      "loss": 0.3354,
       "step": 740
     },
     {
+      "epoch": 1.54,
+      "learning_rate": 4.657612391656818e-07,
+      "loss": 0.4874,
       "step": 745
     },
     {
+      "epoch": 1.55,
+      "learning_rate": 7.59910799831185e-07,
+      "loss": 0.6073,
       "step": 750
     },
     {
+      "epoch": 1.56,
+      "learning_rate": 1.1252152459604225e-06,
+      "loss": 0.8413,
       "step": 755
     },
     {
+      "epoch": 1.57,
+      "learning_rate": 1.5612914236342025e-06,
+      "loss": 0.3873,
       "step": 760
     },
     {
+      "epoch": 1.58,
+      "learning_rate": 2.0676819491598904e-06,
+      "loss": 0.7879,
       "step": 765
     },
     {
+      "epoch": 1.59,
+      "learning_rate": 2.643855688804542e-06,
+      "loss": 0.6646,
       "step": 770
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 3.2892083158796966e-06,
+      "loss": 0.5732,
       "step": 775
     },
     {
+      "epoch": 1.61,
+      "learning_rate": 4.003062944597618e-06,
+      "loss": 0.5925,
       "step": 780
     },
     {
+      "epoch": 1.62,
+      "learning_rate": 4.784670840029167e-06,
+      "loss": 0.5607,
       "step": 785
     },
     {
+      "epoch": 1.63,
+      "learning_rate": 5.63321220342353e-06,
+      "loss": 0.7195,
       "step": 790
     },
     {
+      "epoch": 1.64,
+      "learning_rate": 6.547797032069429e-06,
+      "loss": 0.4434,
       "step": 795
     },
     {
+      "epoch": 1.65,
+      "learning_rate": 7.527466052776141e-06,
+      "loss": 0.6778,
       "step": 800
     },
     {
+      "epoch": 1.66,
+      "learning_rate": 8.571191728024455e-06,
+      "loss": 0.7627,
       "step": 805
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 9.677879333708184e-06,
+      "loss": 0.7002,
       "step": 810
     },
     {
+      "epoch": 1.68,
+      "learning_rate": 1.0846368107356494e-05,
+      "loss": 0.5221,
       "step": 815
     },
     {
+      "epoch": 1.69,
+      "learning_rate": 1.2075432465600628e-05,
+      "loss": 0.5574,
       "step": 820
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 1.336378328965373e-05,
+      "loss": 0.7088,
       "step": 825
     },
     {
+      "epoch": 1.71,
+      "learning_rate": 1.4710069277408788e-05,
+      "loss": 0.7595,
       "step": 830
     },
     {
+      "epoch": 1.72,
+      "learning_rate": 1.6112878360775777e-05,
+      "loss": 0.3203,
       "step": 835
     },
     {
+      "epoch": 1.73,
+      "learning_rate": 1.7570739186742892e-05,
+      "loss": 0.5597,
       "step": 840
     },
     {
+      "epoch": 1.74,
+      "learning_rate": 1.9082122660619998e-05,
+      "loss": 0.5739,
       "step": 845
     },
     {
+      "epoch": 1.75,
+      "learning_rate": 2.0645443549848698e-05,
+      "loss": 0.531,
       "step": 850
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 2.2259062146702276e-05,
+      "loss": 0.5565,
       "step": 855
     },
     {
+      "epoch": 1.77,
+      "learning_rate": 2.392128598809619e-05,
+      "loss": 0.7898,
       "step": 860
     },
     {
+      "epoch": 1.78,
+      "learning_rate": 2.5630371630759003e-05,
+      "loss": 0.8282,
       "step": 865
     },
     {
+      "epoch": 1.79,
+      "learning_rate": 2.7384526479857852e-05,
+      "loss": 0.6593,
       "step": 870
     },
     {
+      "epoch": 1.8,
+      "learning_rate": 2.9181910669195226e-05,
+      "loss": 0.5809,
       "step": 875
     },
     {
+      "epoch": 1.81,
+      "learning_rate": 3.102063899095449e-05,
+      "loss": 0.5236,
       "step": 880
     },
     {
+      "epoch": 1.82,
+      "learning_rate": 3.289878287304121e-05,
+      "loss": 0.8349,
       "step": 885
     },
     {
+      "epoch": 1.84,
+      "learning_rate": 3.481437240187291e-05,
+      "loss": 0.5913,
       "step": 890
     },
     {
+      "epoch": 1.85,
+      "learning_rate": 3.6765398388566315e-05,
+      "loss": 0.7902,
       "step": 895
     },
     {
+      "epoch": 1.86,
+      "learning_rate": 3.874981447627722e-05,
+      "loss": 0.447,
       "step": 900
     },
+    {
+      "epoch": 1.87,
+      "learning_rate": 4.076553928655969e-05,
+      "loss": 0.5064,
+      "step": 905
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 4.281045860243763e-05,
+      "loss": 0.6135,
+      "step": 910
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 4.4882427585940885e-05,
+      "loss": 0.7355,
+      "step": 915
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 4.69792730277225e-05,
+      "loss": 0.6229,
+      "step": 920
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 4.909879562646775e-05,
+      "loss": 0.5816,
+      "step": 925
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 5.123877229565941e-05,
+      "loss": 0.558,
+      "step": 930
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 5.3396958495283104e-05,
+      "loss": 0.5434,
+      "step": 935
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 5.557109058604349e-05,
+      "loss": 0.7625,
+      "step": 940
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 5.7758888203603614e-05,
+      "loss": 0.6406,
+      "step": 945
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 5.9958056650374005e-05,
+      "loss": 0.6691,
+      "step": 950
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 6.216628930234716e-05,
+      "loss": 0.6314,
+      "step": 955
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 6.438127002840443e-05,
+      "loss": 0.7209,
+      "step": 960
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 6.660067561963313e-05,
+      "loss": 0.5188,
+      "step": 965
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 6.882217822604419e-05,
+      "loss": 0.5676,
+      "step": 970
+    },
     {
       "epoch": 2.0,
+      "eval_loss": 0.8053014278411865,
+      "eval_runtime": 7.9895,
+      "eval_samples_per_second": 81.231,
+      "eval_steps_per_second": 10.263,
+      "step": 970
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 7.104344779818084e-05,
+      "loss": 0.8119,
+      "step": 975
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 7.326215453099347e-05,
+      "loss": 0.8241,
+      "step": 980
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 7.547597130750675e-05,
+      "loss": 0.4897,
+      "step": 985
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 7.768257613962455e-05,
+      "loss": 0.7487,
+      "step": 990
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 7.987965460359805e-05,
+      "loss": 0.7651,
+      "step": 995
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 8.206490226751148e-05,
+      "loss": 0.6692,
+      "step": 1000
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 8.423602710832848e-05,
+      "loss": 0.7985,
+      "step": 1005
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 8.639075191590017e-05,
+      "loss": 0.5855,
+      "step": 1010
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 8.852681668145908e-05,
+      "loss": 0.6353,
+      "step": 1015
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.064198096803377e-05,
+      "loss": 0.552,
+      "step": 1020
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 9.273402626037102e-05,
+      "loss": 0.4755,
+      "step": 1025
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 9.480075829185367e-05,
+      "loss": 0.6665,
+      "step": 1030
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 9.684000934597788e-05,
+      "loss": 0.3769,
+      "step": 1035
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 9.884964052999192e-05,
+      "loss": 0.6127,
+      "step": 1040
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.00010082754401829396,
+      "loss": 0.7927,
+      "step": 1045
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.00010277164526325214,
+      "loss": 0.5635,
+      "step": 1050
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.00010467990517113026,
+      "loss": 0.694,
+      "step": 1055
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.00010655032224079507,
+      "loss": 0.75,
+      "step": 1060
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.00010838093466302835,
+      "loss": 0.4615,
+      "step": 1065
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.00011016982237818718,
+      "loss": 0.4177,
+      "step": 1070
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.00011191510909009402,
+      "loss": 0.7636,
+      "step": 1075
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.00011361496423399185,
+      "loss": 0.5608,
+      "step": 1080
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.00011526760489657245,
+      "loss": 0.4228,
+      "step": 1085
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.00011687129768599134,
+      "loss": 0.6887,
+      "step": 1090
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.00011842436054997366,
+      "loss": 0.4605,
+      "step": 1095
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.00011992516454003623,
+      "loss": 0.5089,
+      "step": 1100
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.00012137213552004109,
+      "loss": 0.7078,
+      "step": 1105
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.00012276375581724152,
+      "loss": 0.5178,
+      "step": 1110
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0001240985658141209,
+      "loss": 0.6848,
+      "step": 1115
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.0001253751654793153,
+      "loss": 0.5177,
+      "step": 1120
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.00012659221583606188,
+      "loss": 0.8266,
+      "step": 1125
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0001277484403666013,
+      "loss": 0.5183,
+      "step": 1130
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.00012884262635106522,
+      "loss": 0.8944,
+      "step": 1135
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.00012987362613945414,
+      "loss": 0.8195,
+      "step": 1140
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.00013084035835536078,
+      "loss": 0.8404,
+      "step": 1145
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.00013174180903018627,
+      "loss": 0.6088,
+      "step": 1150
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.00013257703266665808,
+      "loss": 0.6745,
+      "step": 1155
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.00013334515323051684,
+      "loss": 0.6451,
+      "step": 1160
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.0001340453650693616,
+      "loss": 0.7023,
+      "step": 1165
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.00013467693375766531,
+      "loss": 0.8257,
+      "step": 1170
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.0001352391968670902,
+      "loss": 0.5857,
+      "step": 1175
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.00013573156466127633,
+      "loss": 0.3617,
+      "step": 1180
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.0001361535207144001,
+      "loss": 0.7152,
+      "step": 1185
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.00013650462245282905,
+      "loss": 0.7494,
+      "step": 1190
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0001367845016193248,
+      "loss": 0.5441,
+      "step": 1195
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.00013699286465928992,
+      "loss": 0.916,
+      "step": 1200
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.00013712949302866845,
+      "loss": 0.6266,
+      "step": 1205
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.00013719424342316803,
+      "loss": 0.8704,
+      "step": 1210
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.00013718704792856654,
+      "loss": 0.6092,
+      "step": 1215
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.00013710791409194398,
+      "loss": 0.6756,
+      "step": 1220
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00013695692491376746,
+      "loss": 0.6538,
+      "step": 1225
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.0001367342387608344,
+      "loss": 0.5702,
+      "step": 1230
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.0001364400892001689,
+      "loss": 0.8016,
+      "step": 1235
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.00013607478475403972,
+      "loss": 0.6645,
+      "step": 1240
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.00013563870857636595,
+      "loss": 0.9163,
+      "step": 1245
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.0001351323180508398,
+      "loss": 0.6785,
+      "step": 1250
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.00013455614431119567,
+      "loss": 0.7625,
+      "step": 1255
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.00013391079168411995,
+      "loss": 0.5317,
+      "step": 1260
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.00013319693705540197,
+      "loss": 0.6176,
+      "step": 1265
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.0001324153291599711,
+      "loss": 0.4044,
+      "step": 1270
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.000131566787796576,
+      "loss": 0.6815,
+      "step": 1275
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.0001306522029679309,
+      "loss": 0.7421,
+      "step": 1280
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.0001296725339472242,
+      "loss": 0.9262,
+      "step": 1285
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.00012862880827197592,
+      "loss": 0.5789,
+      "step": 1290
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0001275221206662922,
+      "loss": 0.6176,
+      "step": 1295
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.00012635363189264392,
+      "loss": 0.5932,
+      "step": 1300
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.00012512456753439868,
+      "loss": 0.5771,
+      "step": 1305
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.00012383621671034555,
+      "loss": 0.5197,
+      "step": 1310
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.00012248993072259167,
+      "loss": 0.5347,
+      "step": 1315
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.00012108712163922345,
+      "loss": 0.7577,
+      "step": 1320
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.0001196292608132576,
+      "loss": 0.6237,
+      "step": 1325
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.00011811787733938051,
+      "loss": 0.9522,
+      "step": 1330
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.00011655455645015182,
+      "loss": 0.6511,
+      "step": 1335
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.00011494093785329826,
+      "loss": 0.7683,
+      "step": 1340
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.00011327871401190438,
+      "loss": 0.8408,
+      "step": 1345
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.00011156962836924156,
+      "loss": 0.7132,
+      "step": 1350
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.00010981547352014274,
+      "loss": 0.7741,
+      "step": 1355
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.00010801808933080536,
+      "loss": 0.6007,
+      "step": 1360
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.0001061793610090445,
+      "loss": 0.7367,
+      "step": 1365
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.00010430121712695943,
+      "loss": 0.7996,
+      "step": 1370
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.00010238562759812602,
+      "loss": 0.5623,
+      "step": 1375
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.00010043460161143261,
+      "loss": 0.5343,
+      "step": 1380
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 9.845018552372344e-05,
+      "loss": 1.0444,
+      "step": 1385
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 9.643446071344098e-05,
+      "loss": 0.6887,
+      "step": 1390
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 9.438954139756306e-05,
+      "loss": 0.8487,
+      "step": 1395
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 9.231757241405981e-05,
+      "loss": 0.7323,
+      "step": 1400
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 9.02207269722782e-05,
+      "loss": 0.6256,
+      "step": 1405
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 8.81012043735311e-05,
+      "loss": 0.832,
+      "step": 1410
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 8.59612277043413e-05,
+      "loss": 0.539,
+      "step": 1415
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 8.380304150471572e-05,
+      "loss": 0.6064,
+      "step": 1420
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 8.162890941395533e-05,
+      "loss": 0.6207,
+      "step": 1425
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 7.944111179639712e-05,
+      "loss": 0.5802,
+      "step": 1430
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 7.72419433496248e-05,
+      "loss": 0.6887,
+      "step": 1435
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 7.503371069765357e-05,
+      "loss": 0.8306,
+      "step": 1440
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 7.28187299715963e-05,
+      "loss": 0.4574,
+      "step": 1445
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 7.059932438036761e-05,
+      "loss": 0.6537,
+      "step": 1450
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 6.837782177395655e-05,
+      "loss": 0.8464,
+      "step": 1455
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.7975038886070251,
+      "eval_runtime": 7.9678,
+      "eval_samples_per_second": 81.452,
+      "eval_steps_per_second": 10.291,
+      "step": 1455
     }
   ],
+  "max_steps": 1455,
+  "num_train_epochs": 3,
+  "total_flos": 1519151874048000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e84296bccc90d0b22db3e3194cc96d5bb127c9114f366720d2a31b8eb99c77a
-size 3311

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a191d7ddb4193d5d88e644c72ac19b8cc1f37c551be0aecf17ab07f676a5dc3
+size 3375