Upload 7 files

Browse files

Files changed (7) hide show

config.json +24 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +2424 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.18.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 50000
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78f0588f987f1944536b513378c8a7f3cfadb50f715b3f21fe99cd34a5e742eb
+size 996060569

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76afbf0ad54e517e22fc3e2119a33b33d6ed1c73d131541cb3635ae3c220ee8e
+size 498043179

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ea9684e3fb5f6a59c19b5b4c8328ee6cae6e625f1fd728c7254b05c7f2b0d7e
+size 15523

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95b61338c78fe14431c26ae634649ae774aeeb381ad7b30f6f9118bcb34277c8
+size 623

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2424 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 116.47855530474041,
+  "global_step": 774000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.68,
+      "learning_rate": 4.988713318284425e-05,
+      "loss": 6.9537,
+      "step": 4500
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 6.797055244445801,
+      "eval_runtime": 118.7849,
+      "eval_samples_per_second": 103.456,
+      "eval_steps_per_second": 6.474,
+      "step": 4500
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 4.9774266365688486e-05,
+      "loss": 6.6451,
+      "step": 9000
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 6.689827919006348,
+      "eval_runtime": 118.3538,
+      "eval_samples_per_second": 103.833,
+      "eval_steps_per_second": 6.497,
+      "step": 9000
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 4.966139954853273e-05,
+      "loss": 6.5518,
+      "step": 13500
+    },
+    {
+      "epoch": 2.03,
+      "eval_loss": 6.630918979644775,
+      "eval_runtime": 118.3302,
+      "eval_samples_per_second": 103.853,
+      "eval_steps_per_second": 6.499,
+      "step": 13500
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 4.954853273137698e-05,
+      "loss": 6.4713,
+      "step": 18000
+    },
+    {
+      "epoch": 2.71,
+      "eval_loss": 6.497533798217773,
+      "eval_runtime": 118.3323,
+      "eval_samples_per_second": 103.852,
+      "eval_steps_per_second": 6.499,
+      "step": 18000
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 4.9435665914221216e-05,
+      "loss": 6.0827,
+      "step": 22500
+    },
+    {
+      "epoch": 3.39,
+      "eval_loss": 5.684892654418945,
+      "eval_runtime": 118.3572,
+      "eval_samples_per_second": 103.83,
+      "eval_steps_per_second": 6.497,
+      "step": 22500
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 4.932279909706546e-05,
+      "loss": 5.0663,
+      "step": 27000
+    },
+    {
+      "epoch": 4.06,
+      "eval_loss": 4.617100715637207,
+      "eval_runtime": 118.3432,
+      "eval_samples_per_second": 103.842,
+      "eval_steps_per_second": 6.498,
+      "step": 27000
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 4.920993227990971e-05,
+      "loss": 4.3025,
+      "step": 31500
+    },
+    {
+      "epoch": 4.74,
+      "eval_loss": 4.159748077392578,
+      "eval_runtime": 118.3398,
+      "eval_samples_per_second": 103.845,
+      "eval_steps_per_second": 6.498,
+      "step": 31500
+    },
+    {
+      "epoch": 5.42,
+      "learning_rate": 4.909706546275395e-05,
+      "loss": 3.9214,
+      "step": 36000
+    },
+    {
+      "epoch": 5.42,
+      "eval_loss": 3.8544375896453857,
+      "eval_runtime": 118.3517,
+      "eval_samples_per_second": 103.835,
+      "eval_steps_per_second": 6.498,
+      "step": 36000
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 4.89841986455982e-05,
+      "loss": 3.6779,
+      "step": 40500
+    },
+    {
+      "epoch": 6.09,
+      "eval_loss": 3.664363384246826,
+      "eval_runtime": 118.2895,
+      "eval_samples_per_second": 103.889,
+      "eval_steps_per_second": 6.501,
+      "step": 40500
+    },
+    {
+      "epoch": 6.77,
+      "learning_rate": 4.887133182844244e-05,
+      "loss": 3.502,
+      "step": 45000
+    },
+    {
+      "epoch": 6.77,
+      "eval_loss": 3.5141005516052246,
+      "eval_runtime": 118.2983,
+      "eval_samples_per_second": 103.881,
+      "eval_steps_per_second": 6.501,
+      "step": 45000
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 4.875846501128669e-05,
+      "loss": 3.366,
+      "step": 49500
+    },
+    {
+      "epoch": 7.45,
+      "eval_loss": 3.4036142826080322,
+      "eval_runtime": 118.3098,
+      "eval_samples_per_second": 103.871,
+      "eval_steps_per_second": 6.5,
+      "step": 49500
+    },
+    {
+      "epoch": 8.13,
+      "learning_rate": 4.864559819413093e-05,
+      "loss": 3.2695,
+      "step": 54000
+    },
+    {
+      "epoch": 8.13,
+      "eval_loss": 3.321831226348877,
+      "eval_runtime": 118.3723,
+      "eval_samples_per_second": 103.817,
+      "eval_steps_per_second": 6.496,
+      "step": 54000
+    },
+    {
+      "epoch": 8.8,
+      "learning_rate": 4.853273137697517e-05,
+      "loss": 3.1758,
+      "step": 58500
+    },
+    {
+      "epoch": 8.8,
+      "eval_loss": 3.2432045936584473,
+      "eval_runtime": 118.355,
+      "eval_samples_per_second": 103.832,
+      "eval_steps_per_second": 6.497,
+      "step": 58500
+    },
+    {
+      "epoch": 9.48,
+      "learning_rate": 4.841986455981942e-05,
+      "loss": 3.1008,
+      "step": 63000
+    },
+    {
+      "epoch": 9.48,
+      "eval_loss": 3.186511754989624,
+      "eval_runtime": 118.3602,
+      "eval_samples_per_second": 103.827,
+      "eval_steps_per_second": 6.497,
+      "step": 63000
+    },
+    {
+      "epoch": 10.16,
+      "learning_rate": 4.830699774266366e-05,
+      "loss": 3.0354,
+      "step": 67500
+    },
+    {
+      "epoch": 10.16,
+      "eval_loss": 3.115652561187744,
+      "eval_runtime": 118.3431,
+      "eval_samples_per_second": 103.842,
+      "eval_steps_per_second": 6.498,
+      "step": 67500
+    },
+    {
+      "epoch": 10.84,
+      "learning_rate": 4.81941309255079e-05,
+      "loss": 2.9798,
+      "step": 72000
+    },
+    {
+      "epoch": 10.84,
+      "eval_loss": 3.0752041339874268,
+      "eval_runtime": 118.2033,
+      "eval_samples_per_second": 103.965,
+      "eval_steps_per_second": 6.506,
+      "step": 72000
+    },
+    {
+      "epoch": 11.51,
+      "learning_rate": 4.808126410835215e-05,
+      "loss": 2.9252,
+      "step": 76500
+    },
+    {
+      "epoch": 11.51,
+      "eval_loss": 3.028315305709839,
+      "eval_runtime": 118.2129,
+      "eval_samples_per_second": 103.956,
+      "eval_steps_per_second": 6.505,
+      "step": 76500
+    },
+    {
+      "epoch": 12.19,
+      "learning_rate": 4.796839729119639e-05,
+      "loss": 2.881,
+      "step": 81000
+    },
+    {
+      "epoch": 12.19,
+      "eval_loss": 2.9871439933776855,
+      "eval_runtime": 118.1982,
+      "eval_samples_per_second": 103.969,
+      "eval_steps_per_second": 6.506,
+      "step": 81000
+    },
+    {
+      "epoch": 12.87,
+      "learning_rate": 4.785553047404063e-05,
+      "loss": 2.8366,
+      "step": 85500
+    },
+    {
+      "epoch": 12.87,
+      "eval_loss": 2.9422881603240967,
+      "eval_runtime": 118.1796,
+      "eval_samples_per_second": 103.986,
+      "eval_steps_per_second": 6.507,
+      "step": 85500
+    },
+    {
+      "epoch": 13.54,
+      "learning_rate": 4.774266365688488e-05,
+      "loss": 2.7917,
+      "step": 90000
+    },
+    {
+      "epoch": 13.54,
+      "eval_loss": 2.9027907848358154,
+      "eval_runtime": 118.1933,
+      "eval_samples_per_second": 103.974,
+      "eval_steps_per_second": 6.506,
+      "step": 90000
+    },
+    {
+      "epoch": 14.22,
+      "learning_rate": 4.762979683972912e-05,
+      "loss": 2.7592,
+      "step": 94500
+    },
+    {
+      "epoch": 14.22,
+      "eval_loss": 2.8720462322235107,
+      "eval_runtime": 118.2133,
+      "eval_samples_per_second": 103.956,
+      "eval_steps_per_second": 6.505,
+      "step": 94500
+    },
+    {
+      "epoch": 14.9,
+      "learning_rate": 4.751693002257336e-05,
+      "loss": 2.7278,
+      "step": 99000
+    },
+    {
+      "epoch": 14.9,
+      "eval_loss": 2.8500328063964844,
+      "eval_runtime": 118.2044,
+      "eval_samples_per_second": 103.964,
+      "eval_steps_per_second": 6.506,
+      "step": 99000
+    },
+    {
+      "epoch": 15.58,
+      "learning_rate": 4.740406320541761e-05,
+      "loss": 2.693,
+      "step": 103500
+    },
+    {
+      "epoch": 15.58,
+      "eval_loss": 2.817178249359131,
+      "eval_runtime": 118.1867,
+      "eval_samples_per_second": 103.98,
+      "eval_steps_per_second": 6.507,
+      "step": 103500
+    },
+    {
+      "epoch": 16.25,
+      "learning_rate": 4.729119638826185e-05,
+      "loss": 2.6645,
+      "step": 108000
+    },
+    {
+      "epoch": 16.25,
+      "eval_loss": 2.786304235458374,
+      "eval_runtime": 118.2219,
+      "eval_samples_per_second": 103.949,
+      "eval_steps_per_second": 6.505,
+      "step": 108000
+    },
+    {
+      "epoch": 16.93,
+      "learning_rate": 4.71783295711061e-05,
+      "loss": 2.6361,
+      "step": 112500
+    },
+    {
+      "epoch": 16.93,
+      "eval_loss": 2.770569324493408,
+      "eval_runtime": 118.2234,
+      "eval_samples_per_second": 103.947,
+      "eval_steps_per_second": 6.505,
+      "step": 112500
+    },
+    {
+      "epoch": 17.61,
+      "learning_rate": 4.706546275395034e-05,
+      "loss": 2.6083,
+      "step": 117000
+    },
+    {
+      "epoch": 17.61,
+      "eval_loss": 2.7391059398651123,
+      "eval_runtime": 118.2576,
+      "eval_samples_per_second": 103.917,
+      "eval_steps_per_second": 6.503,
+      "step": 117000
+    },
+    {
+      "epoch": 18.28,
+      "learning_rate": 4.695259593679459e-05,
+      "loss": 2.5847,
+      "step": 121500
+    },
+    {
+      "epoch": 18.28,
+      "eval_loss": 2.718665838241577,
+      "eval_runtime": 118.2124,
+      "eval_samples_per_second": 103.957,
+      "eval_steps_per_second": 6.505,
+      "step": 121500
+    },
+    {
+      "epoch": 18.96,
+      "learning_rate": 4.6839729119638834e-05,
+      "loss": 2.5619,
+      "step": 126000
+    },
+    {
+      "epoch": 18.96,
+      "eval_loss": 2.7032158374786377,
+      "eval_runtime": 118.2283,
+      "eval_samples_per_second": 103.943,
+      "eval_steps_per_second": 6.504,
+      "step": 126000
+    },
+    {
+      "epoch": 19.64,
+      "learning_rate": 4.672686230248307e-05,
+      "loss": 2.5368,
+      "step": 130500
+    },
+    {
+      "epoch": 19.64,
+      "eval_loss": 2.6911468505859375,
+      "eval_runtime": 118.3184,
+      "eval_samples_per_second": 103.864,
+      "eval_steps_per_second": 6.499,
+      "step": 130500
+    },
+    {
+      "epoch": 20.32,
+      "learning_rate": 4.661399548532732e-05,
+      "loss": 2.5203,
+      "step": 135000
+    },
+    {
+      "epoch": 20.32,
+      "eval_loss": 2.666966676712036,
+      "eval_runtime": 118.3095,
+      "eval_samples_per_second": 103.872,
+      "eval_steps_per_second": 6.5,
+      "step": 135000
+    },
+    {
+      "epoch": 20.99,
+      "learning_rate": 4.6501128668171564e-05,
+      "loss": 2.4997,
+      "step": 139500
+    },
+    {
+      "epoch": 20.99,
+      "eval_loss": 2.6472320556640625,
+      "eval_runtime": 118.1415,
+      "eval_samples_per_second": 104.019,
+      "eval_steps_per_second": 6.509,
+      "step": 139500
+    },
+    {
+      "epoch": 21.67,
+      "learning_rate": 4.63882618510158e-05,
+      "loss": 2.4755,
+      "step": 144000
+    },
+    {
+      "epoch": 21.67,
+      "eval_loss": 2.6281678676605225,
+      "eval_runtime": 118.147,
+      "eval_samples_per_second": 104.014,
+      "eval_steps_per_second": 6.509,
+      "step": 144000
+    },
+    {
+      "epoch": 22.35,
+      "learning_rate": 4.627539503386005e-05,
+      "loss": 2.4593,
+      "step": 148500
+    },
+    {
+      "epoch": 22.35,
+      "eval_loss": 2.6077518463134766,
+      "eval_runtime": 118.4066,
+      "eval_samples_per_second": 103.786,
+      "eval_steps_per_second": 6.495,
+      "step": 148500
+    },
+    {
+      "epoch": 23.02,
+      "learning_rate": 4.616252821670429e-05,
+      "loss": 2.4468,
+      "step": 153000
+    },
+    {
+      "epoch": 23.02,
+      "eval_loss": 2.60119366645813,
+      "eval_runtime": 118.2017,
+      "eval_samples_per_second": 103.966,
+      "eval_steps_per_second": 6.506,
+      "step": 153000
+    },
+    {
+      "epoch": 23.7,
+      "learning_rate": 4.604966139954853e-05,
+      "loss": 2.4243,
+      "step": 157500
+    },
+    {
+      "epoch": 23.7,
+      "eval_loss": 2.583709239959717,
+      "eval_runtime": 118.0992,
+      "eval_samples_per_second": 104.057,
+      "eval_steps_per_second": 6.511,
+      "step": 157500
+    },
+    {
+      "epoch": 24.38,
+      "learning_rate": 4.593679458239278e-05,
+      "loss": 2.4093,
+      "step": 162000
+    },
+    {
+      "epoch": 24.38,
+      "eval_loss": 2.5716421604156494,
+      "eval_runtime": 118.1155,
+      "eval_samples_per_second": 104.042,
+      "eval_steps_per_second": 6.511,
+      "step": 162000
+    },
+    {
+      "epoch": 25.06,
+      "learning_rate": 4.582392776523702e-05,
+      "loss": 2.396,
+      "step": 166500
+    },
+    {
+      "epoch": 25.06,
+      "eval_loss": 2.561039686203003,
+      "eval_runtime": 118.1545,
+      "eval_samples_per_second": 104.008,
+      "eval_steps_per_second": 6.508,
+      "step": 166500
+    },
+    {
+      "epoch": 25.73,
+      "learning_rate": 4.571106094808127e-05,
+      "loss": 2.3764,
+      "step": 171000
+    },
+    {
+      "epoch": 25.73,
+      "eval_loss": 2.543470859527588,
+      "eval_runtime": 118.1796,
+      "eval_samples_per_second": 103.986,
+      "eval_steps_per_second": 6.507,
+      "step": 171000
+    },
+    {
+      "epoch": 26.41,
+      "learning_rate": 4.559819413092551e-05,
+      "loss": 2.3623,
+      "step": 175500
+    },
+    {
+      "epoch": 26.41,
+      "eval_loss": 2.5341155529022217,
+      "eval_runtime": 118.1214,
+      "eval_samples_per_second": 104.037,
+      "eval_steps_per_second": 6.51,
+      "step": 175500
+    },
+    {
+      "epoch": 27.09,
+      "learning_rate": 4.548532731376975e-05,
+      "loss": 2.3529,
+      "step": 180000
+    },
+    {
+      "epoch": 27.09,
+      "eval_loss": 2.5200819969177246,
+      "eval_runtime": 118.324,
+      "eval_samples_per_second": 103.859,
+      "eval_steps_per_second": 6.499,
+      "step": 180000
+    },
+    {
+      "epoch": 27.77,
+      "learning_rate": 4.5372460496614e-05,
+      "loss": 2.3393,
+      "step": 184500
+    },
+    {
+      "epoch": 27.77,
+      "eval_loss": 2.5085155963897705,
+      "eval_runtime": 118.3431,
+      "eval_samples_per_second": 103.842,
+      "eval_steps_per_second": 6.498,
+      "step": 184500
+    },
+    {
+      "epoch": 28.44,
+      "learning_rate": 4.525959367945824e-05,
+      "loss": 2.3247,
+      "step": 189000
+    },
+    {
+      "epoch": 28.44,
+      "eval_loss": 2.5002756118774414,
+      "eval_runtime": 118.3427,
+      "eval_samples_per_second": 103.842,
+      "eval_steps_per_second": 6.498,
+      "step": 189000
+    },
+    {
+      "epoch": 29.12,
+      "learning_rate": 4.514672686230249e-05,
+      "loss": 2.3127,
+      "step": 193500
+    },
+    {
+      "epoch": 29.12,
+      "eval_loss": 2.4838666915893555,
+      "eval_runtime": 118.3361,
+      "eval_samples_per_second": 103.848,
+      "eval_steps_per_second": 6.498,
+      "step": 193500
+    },
+    {
+      "epoch": 29.8,
+      "learning_rate": 4.5033860045146734e-05,
+      "loss": 2.3006,
+      "step": 198000
+    },
+    {
+      "epoch": 29.8,
+      "eval_loss": 2.480976104736328,
+      "eval_runtime": 118.3346,
+      "eval_samples_per_second": 103.85,
+      "eval_steps_per_second": 6.499,
+      "step": 198000
+    },
+    {
+      "epoch": 30.47,
+      "learning_rate": 4.492099322799097e-05,
+      "loss": 2.2896,
+      "step": 202500
+    },
+    {
+      "epoch": 30.47,
+      "eval_loss": 2.4641942977905273,
+      "eval_runtime": 118.3398,
+      "eval_samples_per_second": 103.845,
+      "eval_steps_per_second": 6.498,
+      "step": 202500
+    },
+    {
+      "epoch": 31.15,
+      "learning_rate": 4.480812641083522e-05,
+      "loss": 2.2789,
+      "step": 207000
+    },
+    {
+      "epoch": 31.15,
+      "eval_loss": 2.4657058715820312,
+      "eval_runtime": 118.3281,
+      "eval_samples_per_second": 103.855,
+      "eval_steps_per_second": 6.499,
+      "step": 207000
+    },
+    {
+      "epoch": 31.83,
+      "learning_rate": 4.4695259593679463e-05,
+      "loss": 2.2665,
+      "step": 211500
+    },
+    {
+      "epoch": 31.83,
+      "eval_loss": 2.4447216987609863,
+      "eval_runtime": 118.3432,
+      "eval_samples_per_second": 103.842,
+      "eval_steps_per_second": 6.498,
+      "step": 211500
+    },
+    {
+      "epoch": 32.51,
+      "learning_rate": 4.45823927765237e-05,
+      "loss": 2.2545,
+      "step": 216000
+    },
+    {
+      "epoch": 32.51,
+      "eval_loss": 2.4484477043151855,
+      "eval_runtime": 118.3442,
+      "eval_samples_per_second": 103.841,
+      "eval_steps_per_second": 6.498,
+      "step": 216000
+    },
+    {
+      "epoch": 33.18,
+      "learning_rate": 4.446952595936795e-05,
+      "loss": 2.2446,
+      "step": 220500
+    },
+    {
+      "epoch": 33.18,
+      "eval_loss": 2.4324302673339844,
+      "eval_runtime": 118.3492,
+      "eval_samples_per_second": 103.837,
+      "eval_steps_per_second": 6.498,
+      "step": 220500
+    },
+    {
+      "epoch": 33.86,
+      "learning_rate": 4.435665914221219e-05,
+      "loss": 2.2352,
+      "step": 225000
+    },
+    {
+      "epoch": 33.86,
+      "eval_loss": 2.426417827606201,
+      "eval_runtime": 118.3545,
+      "eval_samples_per_second": 103.832,
+      "eval_steps_per_second": 6.497,
+      "step": 225000
+    },
+    {
+      "epoch": 34.54,
+      "learning_rate": 4.424379232505644e-05,
+      "loss": 2.2218,
+      "step": 229500
+    },
+    {
+      "epoch": 34.54,
+      "eval_loss": 2.4175431728363037,
+      "eval_runtime": 121.4712,
+      "eval_samples_per_second": 101.168,
+      "eval_steps_per_second": 6.331,
+      "step": 229500
+    },
+    {
+      "epoch": 35.21,
+      "learning_rate": 4.413092550790068e-05,
+      "loss": 2.2153,
+      "step": 234000
+    },
+    {
+      "epoch": 35.21,
+      "eval_loss": 2.4122180938720703,
+      "eval_runtime": 121.3685,
+      "eval_samples_per_second": 101.254,
+      "eval_steps_per_second": 6.336,
+      "step": 234000
+    },
+    {
+      "epoch": 35.89,
+      "learning_rate": 4.401805869074492e-05,
+      "loss": 2.206,
+      "step": 238500
+    },
+    {
+      "epoch": 35.89,
+      "eval_loss": 2.392340660095215,
+      "eval_runtime": 121.4694,
+      "eval_samples_per_second": 101.169,
+      "eval_steps_per_second": 6.331,
+      "step": 238500
+    },
+    {
+      "epoch": 36.57,
+      "learning_rate": 4.390519187358917e-05,
+      "loss": 2.1931,
+      "step": 243000
+    },
+    {
+      "epoch": 36.57,
+      "eval_loss": 2.386526584625244,
+      "eval_runtime": 121.4241,
+      "eval_samples_per_second": 101.207,
+      "eval_steps_per_second": 6.333,
+      "step": 243000
+    },
+    {
+      "epoch": 37.25,
+      "learning_rate": 4.379232505643341e-05,
+      "loss": 2.1876,
+      "step": 247500
+    },
+    {
+      "epoch": 37.25,
+      "eval_loss": 2.383101224899292,
+      "eval_runtime": 121.3529,
+      "eval_samples_per_second": 101.267,
+      "eval_steps_per_second": 6.337,
+      "step": 247500
+    },
+    {
+      "epoch": 37.92,
+      "learning_rate": 4.367945823927765e-05,
+      "loss": 2.1817,
+      "step": 252000
+    },
+    {
+      "epoch": 37.92,
+      "eval_loss": 2.3782711029052734,
+      "eval_runtime": 121.4029,
+      "eval_samples_per_second": 101.225,
+      "eval_steps_per_second": 6.334,
+      "step": 252000
+    },
+    {
+      "epoch": 38.6,
+      "learning_rate": 4.35665914221219e-05,
+      "loss": 2.1661,
+      "step": 256500
+    },
+    {
+      "epoch": 38.6,
+      "eval_loss": 2.3761754035949707,
+      "eval_runtime": 121.5223,
+      "eval_samples_per_second": 101.126,
+      "eval_steps_per_second": 6.328,
+      "step": 256500
+    },
+    {
+      "epoch": 39.28,
+      "learning_rate": 4.3453724604966136e-05,
+      "loss": 2.1635,
+      "step": 261000
+    },
+    {
+      "epoch": 39.28,
+      "eval_loss": 2.365755319595337,
+      "eval_runtime": 121.4762,
+      "eval_samples_per_second": 101.164,
+      "eval_steps_per_second": 6.33,
+      "step": 261000
+    },
+    {
+      "epoch": 39.95,
+      "learning_rate": 4.334085778781038e-05,
+      "loss": 2.1533,
+      "step": 265500
+    },
+    {
+      "epoch": 39.95,
+      "eval_loss": 2.359434127807617,
+      "eval_runtime": 121.2612,
+      "eval_samples_per_second": 101.343,
+      "eval_steps_per_second": 6.342,
+      "step": 265500
+    },
+    {
+      "epoch": 40.63,
+      "learning_rate": 4.322799097065463e-05,
+      "loss": 2.1444,
+      "step": 270000
+    },
+    {
+      "epoch": 40.63,
+      "eval_loss": 2.3534085750579834,
+      "eval_runtime": 121.4588,
+      "eval_samples_per_second": 101.178,
+      "eval_steps_per_second": 6.331,
+      "step": 270000
+    },
+    {
+      "epoch": 41.31,
+      "learning_rate": 4.311512415349887e-05,
+      "loss": 2.1389,
+      "step": 274500
+    },
+    {
+      "epoch": 41.31,
+      "eval_loss": 2.3499608039855957,
+      "eval_runtime": 121.4347,
+      "eval_samples_per_second": 101.198,
+      "eval_steps_per_second": 6.333,
+      "step": 274500
+    },
+    {
+      "epoch": 41.99,
+      "learning_rate": 4.300225733634312e-05,
+      "loss": 2.1343,
+      "step": 279000
+    },
+    {
+      "epoch": 41.99,
+      "eval_loss": 2.33479642868042,
+      "eval_runtime": 121.4769,
+      "eval_samples_per_second": 101.163,
+      "eval_steps_per_second": 6.33,
+      "step": 279000
+    },
+    {
+      "epoch": 42.66,
+      "learning_rate": 4.2889390519187363e-05,
+      "loss": 2.1204,
+      "step": 283500
+    },
+    {
+      "epoch": 42.66,
+      "eval_loss": 2.338609457015991,
+      "eval_runtime": 119.9199,
+      "eval_samples_per_second": 102.477,
+      "eval_steps_per_second": 6.413,
+      "step": 283500
+    },
+    {
+      "epoch": 43.34,
+      "learning_rate": 4.277652370203161e-05,
+      "loss": 2.1149,
+      "step": 288000
+    },
+    {
+      "epoch": 43.34,
+      "eval_loss": 2.3366451263427734,
+      "eval_runtime": 121.3615,
+      "eval_samples_per_second": 101.259,
+      "eval_steps_per_second": 6.336,
+      "step": 288000
+    },
+    {
+      "epoch": 44.02,
+      "learning_rate": 4.266365688487585e-05,
+      "loss": 2.1124,
+      "step": 292500
+    },
+    {
+      "epoch": 44.02,
+      "eval_loss": 2.3272287845611572,
+      "eval_runtime": 121.4223,
+      "eval_samples_per_second": 101.209,
+      "eval_steps_per_second": 6.333,
+      "step": 292500
+    },
+    {
+      "epoch": 44.7,
+      "learning_rate": 4.255079006772009e-05,
+      "loss": 2.0996,
+      "step": 297000
+    },
+    {
+      "epoch": 44.7,
+      "eval_loss": 2.3160288333892822,
+      "eval_runtime": 121.4331,
+      "eval_samples_per_second": 101.2,
+      "eval_steps_per_second": 6.333,
+      "step": 297000
+    },
+    {
+      "epoch": 45.37,
+      "learning_rate": 4.243792325056434e-05,
+      "loss": 2.0954,
+      "step": 301500
+    },
+    {
+      "epoch": 45.37,
+      "eval_loss": 2.3165717124938965,
+      "eval_runtime": 121.3269,
+      "eval_samples_per_second": 101.288,
+      "eval_steps_per_second": 6.338,
+      "step": 301500
+    },
+    {
+      "epoch": 46.05,
+      "learning_rate": 4.232505643340858e-05,
+      "loss": 2.0901,
+      "step": 306000
+    },
+    {
+      "epoch": 46.05,
+      "eval_loss": 2.303679943084717,
+      "eval_runtime": 121.3845,
+      "eval_samples_per_second": 101.24,
+      "eval_steps_per_second": 6.335,
+      "step": 306000
+    },
+    {
+      "epoch": 46.73,
+      "learning_rate": 4.221218961625282e-05,
+      "loss": 2.0819,
+      "step": 310500
+    },
+    {
+      "epoch": 46.73,
+      "eval_loss": 2.2977073192596436,
+      "eval_runtime": 121.4379,
+      "eval_samples_per_second": 101.196,
+      "eval_steps_per_second": 6.332,
+      "step": 310500
+    },
+    {
+      "epoch": 47.4,
+      "learning_rate": 4.209932279909707e-05,
+      "loss": 2.0725,
+      "step": 315000
+    },
+    {
+      "epoch": 47.4,
+      "eval_loss": 2.3036298751831055,
+      "eval_runtime": 121.4278,
+      "eval_samples_per_second": 101.204,
+      "eval_steps_per_second": 6.333,
+      "step": 315000
+    },
+    {
+      "epoch": 48.08,
+      "learning_rate": 4.198645598194131e-05,
+      "loss": 2.0729,
+      "step": 319500
+    },
+    {
+      "epoch": 48.08,
+      "eval_loss": 2.2955193519592285,
+      "eval_runtime": 121.3513,
+      "eval_samples_per_second": 101.268,
+      "eval_steps_per_second": 6.337,
+      "step": 319500
+    },
+    {
+      "epoch": 48.76,
+      "learning_rate": 4.187358916478555e-05,
+      "loss": 2.0621,
+      "step": 324000
+    },
+    {
+      "epoch": 48.76,
+      "eval_loss": 2.284827947616577,
+      "eval_runtime": 121.3713,
+      "eval_samples_per_second": 101.251,
+      "eval_steps_per_second": 6.336,
+      "step": 324000
+    },
+    {
+      "epoch": 49.44,
+      "learning_rate": 4.17607223476298e-05,
+      "loss": 2.055,
+      "step": 328500
+    },
+    {
+      "epoch": 49.44,
+      "eval_loss": 2.2865021228790283,
+      "eval_runtime": 121.4042,
+      "eval_samples_per_second": 101.224,
+      "eval_steps_per_second": 6.334,
+      "step": 328500
+    },
+    {
+      "epoch": 50.11,
+      "learning_rate": 4.164785553047404e-05,
+      "loss": 2.0514,
+      "step": 333000
+    },
+    {
+      "epoch": 50.11,
+      "eval_loss": 2.2722549438476562,
+      "eval_runtime": 121.3871,
+      "eval_samples_per_second": 101.238,
+      "eval_steps_per_second": 6.335,
+      "step": 333000
+    },
+    {
+      "epoch": 50.79,
+      "learning_rate": 4.153498871331828e-05,
+      "loss": 2.0427,
+      "step": 337500
+    },
+    {
+      "epoch": 50.79,
+      "eval_loss": 2.2747364044189453,
+      "eval_runtime": 121.4348,
+      "eval_samples_per_second": 101.198,
+      "eval_steps_per_second": 6.333,
+      "step": 337500
+    },
+    {
+      "epoch": 51.47,
+      "learning_rate": 4.142212189616253e-05,
+      "loss": 2.0398,
+      "step": 342000
+    },
+    {
+      "epoch": 51.47,
+      "eval_loss": 2.275329113006592,
+      "eval_runtime": 121.4165,
+      "eval_samples_per_second": 101.214,
+      "eval_steps_per_second": 6.334,
+      "step": 342000
+    },
+    {
+      "epoch": 52.14,
+      "learning_rate": 4.130925507900677e-05,
+      "loss": 2.0373,
+      "step": 346500
+    },
+    {
+      "epoch": 52.14,
+      "eval_loss": 2.263934850692749,
+      "eval_runtime": 121.4832,
+      "eval_samples_per_second": 101.158,
+      "eval_steps_per_second": 6.33,
+      "step": 346500
+    },
+    {
+      "epoch": 52.82,
+      "learning_rate": 4.119638826185102e-05,
+      "loss": 2.0293,
+      "step": 351000
+    },
+    {
+      "epoch": 52.82,
+      "eval_loss": 2.2591116428375244,
+      "eval_runtime": 121.453,
+      "eval_samples_per_second": 101.183,
+      "eval_steps_per_second": 6.332,
+      "step": 351000
+    },
+    {
+      "epoch": 53.5,
+      "learning_rate": 4.108352144469526e-05,
+      "loss": 2.0222,
+      "step": 355500
+    },
+    {
+      "epoch": 53.5,
+      "eval_loss": 2.251147508621216,
+      "eval_runtime": 121.2819,
+      "eval_samples_per_second": 101.326,
+      "eval_steps_per_second": 6.341,
+      "step": 355500
+    },
+    {
+      "epoch": 54.18,
+      "learning_rate": 4.097065462753951e-05,
+      "loss": 2.018,
+      "step": 360000
+    },
+    {
+      "epoch": 54.18,
+      "eval_loss": 2.2465593814849854,
+      "eval_runtime": 121.4341,
+      "eval_samples_per_second": 101.199,
+      "eval_steps_per_second": 6.333,
+      "step": 360000
+    },
+    {
+      "epoch": 54.85,
+      "learning_rate": 4.085778781038375e-05,
+      "loss": 2.0129,
+      "step": 364500
+    },
+    {
+      "epoch": 54.85,
+      "eval_loss": 2.244495153427124,
+      "eval_runtime": 121.4224,
+      "eval_samples_per_second": 101.209,
+      "eval_steps_per_second": 6.333,
+      "step": 364500
+    },
+    {
+      "epoch": 55.53,
+      "learning_rate": 4.074492099322799e-05,
+      "loss": 2.0071,
+      "step": 369000
+    },
+    {
+      "epoch": 55.53,
+      "eval_loss": 2.244058609008789,
+      "eval_runtime": 121.4271,
+      "eval_samples_per_second": 101.205,
+      "eval_steps_per_second": 6.333,
+      "step": 369000
+    },
+    {
+      "epoch": 56.21,
+      "learning_rate": 4.063205417607224e-05,
+      "loss": 2.0026,
+      "step": 373500
+    },
+    {
+      "epoch": 56.21,
+      "eval_loss": 2.2374625205993652,
+      "eval_runtime": 121.4591,
+      "eval_samples_per_second": 101.178,
+      "eval_steps_per_second": 6.331,
+      "step": 373500
+    },
+    {
+      "epoch": 56.88,
+      "learning_rate": 4.0519187358916484e-05,
+      "loss": 1.9989,
+      "step": 378000
+    },
+    {
+      "epoch": 56.88,
+      "eval_loss": 2.2266647815704346,
+      "eval_runtime": 121.4333,
+      "eval_samples_per_second": 101.2,
+      "eval_steps_per_second": 6.333,
+      "step": 378000
+    },
+    {
+      "epoch": 57.56,
+      "learning_rate": 4.040632054176072e-05,
+      "loss": 1.9917,
+      "step": 382500
+    },
+    {
+      "epoch": 57.56,
+      "eval_loss": 2.2338218688964844,
+      "eval_runtime": 121.4506,
+      "eval_samples_per_second": 101.185,
+      "eval_steps_per_second": 6.332,
+      "step": 382500
+    },
+    {
+      "epoch": 58.24,
+      "learning_rate": 4.029345372460497e-05,
+      "loss": 1.9869,
+      "step": 387000
+    },
+    {
+      "epoch": 58.24,
+      "eval_loss": 2.226421594619751,
+      "eval_runtime": 121.395,
+      "eval_samples_per_second": 101.232,
+      "eval_steps_per_second": 6.335,
+      "step": 387000
+    },
+    {
+      "epoch": 58.92,
+      "learning_rate": 4.018058690744921e-05,
+      "loss": 1.9855,
+      "step": 391500
+    },
+    {
+      "epoch": 58.92,
+      "eval_loss": 2.22316837310791,
+      "eval_runtime": 121.4361,
+      "eval_samples_per_second": 101.197,
+      "eval_steps_per_second": 6.333,
+      "step": 391500
+    },
+    {
+      "epoch": 59.59,
+      "learning_rate": 4.006772009029345e-05,
+      "loss": 1.975,
+      "step": 396000
+    },
+    {
+      "epoch": 59.59,
+      "eval_loss": 2.221580743789673,
+      "eval_runtime": 121.4217,
+      "eval_samples_per_second": 101.209,
+      "eval_steps_per_second": 6.333,
+      "step": 396000
+    },
+    {
+      "epoch": 60.27,
+      "learning_rate": 3.99548532731377e-05,
+      "loss": 1.9738,
+      "step": 400500
+    },
+    {
+      "epoch": 60.27,
+      "eval_loss": 2.2099127769470215,
+      "eval_runtime": 121.4414,
+      "eval_samples_per_second": 101.193,
+      "eval_steps_per_second": 6.332,
+      "step": 400500
+    },
+    {
+      "epoch": 60.95,
+      "learning_rate": 3.984198645598194e-05,
+      "loss": 1.9724,
+      "step": 405000
+    },
+    {
+      "epoch": 60.95,
+      "eval_loss": 2.217116355895996,
+      "eval_runtime": 121.4225,
+      "eval_samples_per_second": 101.209,
+      "eval_steps_per_second": 6.333,
+      "step": 405000
+    },
+    {
+      "epoch": 61.63,
+      "learning_rate": 3.972911963882618e-05,
+      "loss": 1.9643,
+      "step": 409500
+    },
+    {
+      "epoch": 61.63,
+      "eval_loss": 2.2091891765594482,
+      "eval_runtime": 121.3749,
+      "eval_samples_per_second": 101.248,
+      "eval_steps_per_second": 6.336,
+      "step": 409500
+    },
+    {
+      "epoch": 62.3,
+      "learning_rate": 3.961625282167043e-05,
+      "loss": 1.9582,
+      "step": 414000
+    },
+    {
+      "epoch": 62.3,
+      "eval_loss": 2.2050740718841553,
+      "eval_runtime": 121.3877,
+      "eval_samples_per_second": 101.238,
+      "eval_steps_per_second": 6.335,
+      "step": 414000
+    },
+    {
+      "epoch": 62.98,
+      "learning_rate": 3.950338600451467e-05,
+      "loss": 1.9596,
+      "step": 418500
+    },
+    {
+      "epoch": 62.98,
+      "eval_loss": 2.2095320224761963,
+      "eval_runtime": 121.3734,
+      "eval_samples_per_second": 101.25,
+      "eval_steps_per_second": 6.336,
+      "step": 418500
+    },
+    {
+      "epoch": 63.66,
+      "learning_rate": 3.939051918735892e-05,
+      "loss": 1.9491,
+      "step": 423000
+    },
+    {
+      "epoch": 63.66,
+      "eval_loss": 2.201195478439331,
+      "eval_runtime": 121.4462,
+      "eval_samples_per_second": 101.189,
+      "eval_steps_per_second": 6.332,
+      "step": 423000
+    },
+    {
+      "epoch": 64.33,
+      "learning_rate": 3.927765237020316e-05,
+      "loss": 1.9493,
+      "step": 427500
+    },
+    {
+      "epoch": 64.33,
+      "eval_loss": 2.1953182220458984,
+      "eval_runtime": 121.4109,
+      "eval_samples_per_second": 101.218,
+      "eval_steps_per_second": 6.334,
+      "step": 427500
+    },
+    {
+      "epoch": 65.01,
+      "learning_rate": 3.916478555304741e-05,
+      "loss": 1.946,
+      "step": 432000
+    },
+    {
+      "epoch": 65.01,
+      "eval_loss": 2.1867878437042236,
+      "eval_runtime": 119.4236,
+      "eval_samples_per_second": 102.903,
+      "eval_steps_per_second": 6.439,
+      "step": 432000
+    },
+    {
+      "epoch": 65.69,
+      "learning_rate": 3.9051918735891654e-05,
+      "loss": 1.9359,
+      "step": 436500
+    },
+    {
+      "epoch": 65.69,
+      "eval_loss": 2.1980998516082764,
+      "eval_runtime": 121.4109,
+      "eval_samples_per_second": 101.218,
+      "eval_steps_per_second": 6.334,
+      "step": 436500
+    },
+    {
+      "epoch": 66.37,
+      "learning_rate": 3.893905191873589e-05,
+      "loss": 1.9333,
+      "step": 441000
+    },
+    {
+      "epoch": 66.37,
+      "eval_loss": 2.1945624351501465,
+      "eval_runtime": 121.3328,
+      "eval_samples_per_second": 101.283,
+      "eval_steps_per_second": 6.338,
+      "step": 441000
+    },
+    {
+      "epoch": 67.04,
+      "learning_rate": 3.882618510158014e-05,
+      "loss": 1.9327,
+      "step": 445500
+    },
+    {
+      "epoch": 67.04,
+      "eval_loss": 2.1841721534729004,
+      "eval_runtime": 121.4364,
+      "eval_samples_per_second": 101.197,
+      "eval_steps_per_second": 6.333,
+      "step": 445500
+    },
+    {
+      "epoch": 67.72,
+      "learning_rate": 3.8713318284424384e-05,
+      "loss": 1.9243,
+      "step": 450000
+    },
+    {
+      "epoch": 67.72,
+      "eval_loss": 2.189509391784668,
+      "eval_runtime": 121.4244,
+      "eval_samples_per_second": 101.207,
+      "eval_steps_per_second": 6.333,
+      "step": 450000
+    },
+    {
+      "epoch": 68.4,
+      "learning_rate": 3.860045146726862e-05,
+      "loss": 1.9241,
+      "step": 454500
+    },
+    {
+      "epoch": 68.4,
+      "eval_loss": 2.170930862426758,
+      "eval_runtime": 121.4233,
+      "eval_samples_per_second": 101.208,
+      "eval_steps_per_second": 6.333,
+      "step": 454500
+    },
+    {
+      "epoch": 69.07,
+      "learning_rate": 3.848758465011287e-05,
+      "loss": 1.9183,
+      "step": 459000
+    },
+    {
+      "epoch": 69.07,
+      "eval_loss": 2.18388032913208,
+      "eval_runtime": 121.4294,
+      "eval_samples_per_second": 101.203,
+      "eval_steps_per_second": 6.333,
+      "step": 459000
+    },
+    {
+      "epoch": 69.75,
+      "learning_rate": 3.837471783295711e-05,
+      "loss": 1.916,
+      "step": 463500
+    },
+    {
+      "epoch": 69.75,
+      "eval_loss": 2.179508686065674,
+      "eval_runtime": 121.3882,
+      "eval_samples_per_second": 101.237,
+      "eval_steps_per_second": 6.335,
+      "step": 463500
+    },
+    {
+      "epoch": 70.43,
+      "learning_rate": 3.826185101580136e-05,
+      "loss": 1.9105,
+      "step": 468000
+    },
+    {
+      "epoch": 70.43,
+      "eval_loss": 2.1771745681762695,
+      "eval_runtime": 121.4394,
+      "eval_samples_per_second": 101.194,
+      "eval_steps_per_second": 6.332,
+      "step": 468000
+    },
+    {
+      "epoch": 71.11,
+      "learning_rate": 3.81489841986456e-05,
+      "loss": 1.9117,
+      "step": 472500
+    },
+    {
+      "epoch": 71.11,
+      "eval_loss": 2.181852340698242,
+      "eval_runtime": 121.3465,
+      "eval_samples_per_second": 101.272,
+      "eval_steps_per_second": 6.337,
+      "step": 472500
+    },
+    {
+      "epoch": 71.78,
+      "learning_rate": 3.803611738148984e-05,
+      "loss": 1.9041,
+      "step": 477000
+    },
+    {
+      "epoch": 71.78,
+      "eval_loss": 2.1662580966949463,
+      "eval_runtime": 121.4449,
+      "eval_samples_per_second": 101.19,
+      "eval_steps_per_second": 6.332,
+      "step": 477000
+    },
+    {
+      "epoch": 72.46,
+      "learning_rate": 3.792325056433409e-05,
+      "loss": 1.9021,
+      "step": 481500
+    },
+    {
+      "epoch": 72.46,
+      "eval_loss": 2.165590524673462,
+      "eval_runtime": 121.4569,
+      "eval_samples_per_second": 101.18,
+      "eval_steps_per_second": 6.331,
+      "step": 481500
+    },
+    {
+      "epoch": 73.14,
+      "learning_rate": 3.781038374717833e-05,
+      "loss": 1.8995,
+      "step": 486000
+    },
+    {
+      "epoch": 73.14,
+      "eval_loss": 2.1610703468322754,
+      "eval_runtime": 121.4207,
+      "eval_samples_per_second": 101.21,
+      "eval_steps_per_second": 6.333,
+      "step": 486000
+    },
+    {
+      "epoch": 73.81,
+      "learning_rate": 3.769751693002257e-05,
+      "loss": 1.896,
+      "step": 490500
+    },
+    {
+      "epoch": 73.81,
+      "eval_loss": 2.1603007316589355,
+      "eval_runtime": 121.3989,
+      "eval_samples_per_second": 101.228,
+      "eval_steps_per_second": 6.334,
+      "step": 490500
+    },
+    {
+      "epoch": 74.49,
+      "learning_rate": 3.758465011286682e-05,
+      "loss": 1.8901,
+      "step": 495000
+    },
+    {
+      "epoch": 74.49,
+      "eval_loss": 2.158705711364746,
+      "eval_runtime": 121.4675,
+      "eval_samples_per_second": 101.171,
+      "eval_steps_per_second": 6.331,
+      "step": 495000
+    },
+    {
+      "epoch": 75.17,
+      "learning_rate": 3.747178329571106e-05,
+      "loss": 1.8887,
+      "step": 499500
+    },
+    {
+      "epoch": 75.17,
+      "eval_loss": 2.152022123336792,
+      "eval_runtime": 121.4184,
+      "eval_samples_per_second": 101.212,
+      "eval_steps_per_second": 6.333,
+      "step": 499500
+    },
+    {
+      "epoch": 75.85,
+      "learning_rate": 3.735891647855531e-05,
+      "loss": 1.8855,
+      "step": 504000
+    },
+    {
+      "epoch": 75.85,
+      "eval_loss": 2.1545896530151367,
+      "eval_runtime": 121.4036,
+      "eval_samples_per_second": 101.224,
+      "eval_steps_per_second": 6.334,
+      "step": 504000
+    },
+    {
+      "epoch": 76.52,
+      "learning_rate": 3.7246049661399554e-05,
+      "loss": 1.8802,
+      "step": 508500
+    },
+    {
+      "epoch": 76.52,
+      "eval_loss": 2.1495370864868164,
+      "eval_runtime": 121.4898,
+      "eval_samples_per_second": 101.153,
+      "eval_steps_per_second": 6.33,
+      "step": 508500
+    },
+    {
+      "epoch": 77.2,
+      "learning_rate": 3.71331828442438e-05,
+      "loss": 1.8783,
+      "step": 513000
+    },
+    {
+      "epoch": 77.2,
+      "eval_loss": 2.1447861194610596,
+      "eval_runtime": 121.3997,
+      "eval_samples_per_second": 101.228,
+      "eval_steps_per_second": 6.334,
+      "step": 513000
+    },
+    {
+      "epoch": 77.88,
+      "learning_rate": 3.702031602708804e-05,
+      "loss": 1.8743,
+      "step": 517500
+    },
+    {
+      "epoch": 77.88,
+      "eval_loss": 2.1373064517974854,
+      "eval_runtime": 121.3755,
+      "eval_samples_per_second": 101.248,
+      "eval_steps_per_second": 6.336,
+      "step": 517500
+    },
+    {
+      "epoch": 78.56,
+      "learning_rate": 3.6907449209932284e-05,
+      "loss": 1.8679,
+      "step": 522000
+    },
+    {
+      "epoch": 78.56,
+      "eval_loss": 2.1462478637695312,
+      "eval_runtime": 121.3988,
+      "eval_samples_per_second": 101.228,
+      "eval_steps_per_second": 6.334,
+      "step": 522000
+    },
+    {
+      "epoch": 79.23,
+      "learning_rate": 3.679458239277653e-05,
+      "loss": 1.8681,
+      "step": 526500
+    },
+    {
+      "epoch": 79.23,
+      "eval_loss": 2.14402174949646,
+      "eval_runtime": 121.4163,
+      "eval_samples_per_second": 101.214,
+      "eval_steps_per_second": 6.334,
+      "step": 526500
+    },
+    {
+      "epoch": 79.91,
+      "learning_rate": 3.668171557562077e-05,
+      "loss": 1.8649,
+      "step": 531000
+    },
+    {
+      "epoch": 79.91,
+      "eval_loss": 2.1338822841644287,
+      "eval_runtime": 121.3916,
+      "eval_samples_per_second": 101.234,
+      "eval_steps_per_second": 6.335,
+      "step": 531000
+    },
+    {
+      "epoch": 80.59,
+      "learning_rate": 3.656884875846501e-05,
+      "loss": 1.8593,
+      "step": 535500
+    },
+    {
+      "epoch": 80.59,
+      "eval_loss": 2.139404296875,
+      "eval_runtime": 121.4277,
+      "eval_samples_per_second": 101.204,
+      "eval_steps_per_second": 6.333,
+      "step": 535500
+    },
+    {
+      "epoch": 81.26,
+      "learning_rate": 3.645598194130926e-05,
+      "loss": 1.8592,
+      "step": 540000
+    },
+    {
+      "epoch": 81.26,
+      "eval_loss": 2.1354503631591797,
+      "eval_runtime": 121.402,
+      "eval_samples_per_second": 101.226,
+      "eval_steps_per_second": 6.334,
+      "step": 540000
+    },
+    {
+      "epoch": 81.94,
+      "learning_rate": 3.63431151241535e-05,
+      "loss": 1.8569,
+      "step": 544500
+    },
+    {
+      "epoch": 81.94,
+      "eval_loss": 2.135469436645508,
+      "eval_runtime": 121.3789,
+      "eval_samples_per_second": 101.245,
+      "eval_steps_per_second": 6.336,
+      "step": 544500
+    },
+    {
+      "epoch": 82.62,
+      "learning_rate": 3.623024830699774e-05,
+      "loss": 1.849,
+      "step": 549000
+    },
+    {
+      "epoch": 82.62,
+      "eval_loss": 2.1346044540405273,
+      "eval_runtime": 121.4745,
+      "eval_samples_per_second": 101.165,
+      "eval_steps_per_second": 6.331,
+      "step": 549000
+    },
+    {
+      "epoch": 83.3,
+      "learning_rate": 3.611738148984199e-05,
+      "loss": 1.8481,
+      "step": 553500
+    },
+    {
+      "epoch": 83.3,
+      "eval_loss": 2.1314146518707275,
+      "eval_runtime": 121.3262,
+      "eval_samples_per_second": 101.289,
+      "eval_steps_per_second": 6.338,
+      "step": 553500
+    },
+    {
+      "epoch": 83.97,
+      "learning_rate": 3.600451467268623e-05,
+      "loss": 1.8499,
+      "step": 558000
+    },
+    {
+      "epoch": 83.97,
+      "eval_loss": 2.126936197280884,
+      "eval_runtime": 121.4278,
+      "eval_samples_per_second": 101.204,
+      "eval_steps_per_second": 6.333,
+      "step": 558000
+    },
+    {
+      "epoch": 84.65,
+      "learning_rate": 3.589164785553047e-05,
+      "loss": 1.8394,
+      "step": 562500
+    },
+    {
+      "epoch": 84.65,
+      "eval_loss": 2.118168592453003,
+      "eval_runtime": 121.4516,
+      "eval_samples_per_second": 101.184,
+      "eval_steps_per_second": 6.332,
+      "step": 562500
+    },
+    {
+      "epoch": 85.33,
+      "learning_rate": 3.577878103837472e-05,
+      "loss": 1.8394,
+      "step": 567000
+    },
+    {
+      "epoch": 85.33,
+      "eval_loss": 2.1206483840942383,
+      "eval_runtime": 121.4259,
+      "eval_samples_per_second": 101.206,
+      "eval_steps_per_second": 6.333,
+      "step": 567000
+    },
+    {
+      "epoch": 86.0,
+      "learning_rate": 3.566591422121896e-05,
+      "loss": 1.8408,
+      "step": 571500
+    },
+    {
+      "epoch": 86.0,
+      "eval_loss": 2.1219327449798584,
+      "eval_runtime": 118.4077,
+      "eval_samples_per_second": 103.785,
+      "eval_steps_per_second": 6.495,
+      "step": 571500
+    },
+    {
+      "epoch": 86.68,
+      "learning_rate": 3.555304740406321e-05,
+      "loss": 1.832,
+      "step": 576000
+    },
+    {
+      "epoch": 86.68,
+      "eval_loss": 2.1104817390441895,
+      "eval_runtime": 118.1444,
+      "eval_samples_per_second": 104.017,
+      "eval_steps_per_second": 6.509,
+      "step": 576000
+    },
+    {
+      "epoch": 87.36,
+      "learning_rate": 3.5440180586907454e-05,
+      "loss": 1.8305,
+      "step": 580500
+    },
+    {
+      "epoch": 87.36,
+      "eval_loss": 2.1246631145477295,
+      "eval_runtime": 118.1028,
+      "eval_samples_per_second": 104.053,
+      "eval_steps_per_second": 6.511,
+      "step": 580500
+    },
+    {
+      "epoch": 88.04,
+      "learning_rate": 3.53273137697517e-05,
+      "loss": 1.8333,
+      "step": 585000
+    },
+    {
+      "epoch": 88.04,
+      "eval_loss": 2.1201488971710205,
+      "eval_runtime": 118.0958,
+      "eval_samples_per_second": 104.06,
+      "eval_steps_per_second": 6.512,
+      "step": 585000
+    },
+    {
+      "epoch": 88.71,
+      "learning_rate": 3.521444695259594e-05,
+      "loss": 1.8227,
+      "step": 589500
+    },
+    {
+      "epoch": 88.71,
+      "eval_loss": 2.104985475540161,
+      "eval_runtime": 118.0975,
+      "eval_samples_per_second": 104.058,
+      "eval_steps_per_second": 6.512,
+      "step": 589500
+    },
+    {
+      "epoch": 89.39,
+      "learning_rate": 3.5101580135440183e-05,
+      "loss": 1.8216,
+      "step": 594000
+    },
+    {
+      "epoch": 89.39,
+      "eval_loss": 2.1118545532226562,
+      "eval_runtime": 118.0937,
+      "eval_samples_per_second": 104.061,
+      "eval_steps_per_second": 6.512,
+      "step": 594000
+    },
+    {
+      "epoch": 90.07,
+      "learning_rate": 3.498871331828443e-05,
+      "loss": 1.8234,
+      "step": 598500
+    },
+    {
+      "epoch": 90.07,
+      "eval_loss": 2.109297037124634,
+      "eval_runtime": 118.1025,
+      "eval_samples_per_second": 104.054,
+      "eval_steps_per_second": 6.511,
+      "step": 598500
+    },
+    {
+      "epoch": 90.74,
+      "learning_rate": 3.487584650112867e-05,
+      "loss": 1.8162,
+      "step": 603000
+    },
+    {
+      "epoch": 90.74,
+      "eval_loss": 2.0999834537506104,
+      "eval_runtime": 118.0968,
+      "eval_samples_per_second": 104.059,
+      "eval_steps_per_second": 6.512,
+      "step": 603000
+    },
+    {
+      "epoch": 91.42,
+      "learning_rate": 3.476297968397291e-05,
+      "loss": 1.8153,
+      "step": 607500
+    },
+    {
+      "epoch": 91.42,
+      "eval_loss": 2.110783576965332,
+      "eval_runtime": 118.1749,
+      "eval_samples_per_second": 103.99,
+      "eval_steps_per_second": 6.507,
+      "step": 607500
+    },
+    {
+      "epoch": 92.1,
+      "learning_rate": 3.465011286681716e-05,
+      "loss": 1.8153,
+      "step": 612000
+    },
+    {
+      "epoch": 92.1,
+      "eval_loss": 2.1009647846221924,
+      "eval_runtime": 118.1986,
+      "eval_samples_per_second": 103.969,
+      "eval_steps_per_second": 6.506,
+      "step": 612000
+    },
+    {
+      "epoch": 92.78,
+      "learning_rate": 3.4537246049661404e-05,
+      "loss": 1.8095,
+      "step": 616500
+    },
+    {
+      "epoch": 92.78,
+      "eval_loss": 2.0992209911346436,
+      "eval_runtime": 118.1834,
+      "eval_samples_per_second": 103.982,
+      "eval_steps_per_second": 6.507,
+      "step": 616500
+    },
+    {
+      "epoch": 93.45,
+      "learning_rate": 3.442437923250564e-05,
+      "loss": 1.807,
+      "step": 621000
+    },
+    {
+      "epoch": 93.45,
+      "eval_loss": 2.098292827606201,
+      "eval_runtime": 118.1816,
+      "eval_samples_per_second": 103.984,
+      "eval_steps_per_second": 6.507,
+      "step": 621000
+    },
+    {
+      "epoch": 94.13,
+      "learning_rate": 3.431151241534989e-05,
+      "loss": 1.805,
+      "step": 625500
+    },
+    {
+      "epoch": 94.13,
+      "eval_loss": 2.0988106727600098,
+      "eval_runtime": 118.1659,
+      "eval_samples_per_second": 103.998,
+      "eval_steps_per_second": 6.508,
+      "step": 625500
+    },
+    {
+      "epoch": 94.81,
+      "learning_rate": 3.4198645598194133e-05,
+      "loss": 1.8015,
+      "step": 630000
+    },
+    {
+      "epoch": 94.81,
+      "eval_loss": 2.0965840816497803,
+      "eval_runtime": 118.1678,
+      "eval_samples_per_second": 103.996,
+      "eval_steps_per_second": 6.508,
+      "step": 630000
+    },
+    {
+      "epoch": 95.49,
+      "learning_rate": 3.408577878103837e-05,
+      "loss": 1.7964,
+      "step": 634500
+    },
+    {
+      "epoch": 95.49,
+      "eval_loss": 2.0856127738952637,
+      "eval_runtime": 118.3087,
+      "eval_samples_per_second": 103.872,
+      "eval_steps_per_second": 6.5,
+      "step": 634500
+    },
+    {
+      "epoch": 96.16,
+      "learning_rate": 3.397291196388262e-05,
+      "loss": 1.7988,
+      "step": 639000
+    },
+    {
+      "epoch": 96.16,
+      "eval_loss": 2.0870988368988037,
+      "eval_runtime": 118.2923,
+      "eval_samples_per_second": 103.887,
+      "eval_steps_per_second": 6.501,
+      "step": 639000
+    },
+    {
+      "epoch": 96.84,
+      "learning_rate": 3.386004514672686e-05,
+      "loss": 1.794,
+      "step": 643500
+    },
+    {
+      "epoch": 96.84,
+      "eval_loss": 2.092172861099243,
+      "eval_runtime": 118.3047,
+      "eval_samples_per_second": 103.876,
+      "eval_steps_per_second": 6.5,
+      "step": 643500
+    },
+    {
+      "epoch": 97.52,
+      "learning_rate": 3.374717832957111e-05,
+      "loss": 1.7917,
+      "step": 648000
+    },
+    {
+      "epoch": 97.52,
+      "eval_loss": 2.0861566066741943,
+      "eval_runtime": 118.2327,
+      "eval_samples_per_second": 103.939,
+      "eval_steps_per_second": 6.504,
+      "step": 648000
+    },
+    {
+      "epoch": 98.19,
+      "learning_rate": 3.3634311512415354e-05,
+      "loss": 1.79,
+      "step": 652500
+    },
+    {
+      "epoch": 98.19,
+      "eval_loss": 2.0844566822052,
+      "eval_runtime": 118.1297,
+      "eval_samples_per_second": 104.03,
+      "eval_steps_per_second": 6.51,
+      "step": 652500
+    },
+    {
+      "epoch": 98.87,
+      "learning_rate": 3.35214446952596e-05,
+      "loss": 1.788,
+      "step": 657000
+    },
+    {
+      "epoch": 98.87,
+      "eval_loss": 2.0832607746124268,
+      "eval_runtime": 118.1145,
+      "eval_samples_per_second": 104.043,
+      "eval_steps_per_second": 6.511,
+      "step": 657000
+    },
+    {
+      "epoch": 99.55,
+      "learning_rate": 3.3408577878103845e-05,
+      "loss": 1.7833,
+      "step": 661500
+    },
+    {
+      "epoch": 99.55,
+      "eval_loss": 2.082475185394287,
+      "eval_runtime": 118.0929,
+      "eval_samples_per_second": 104.062,
+      "eval_steps_per_second": 6.512,
+      "step": 661500
+    },
+    {
+      "epoch": 100.23,
+      "learning_rate": 3.3295711060948083e-05,
+      "loss": 1.7821,
+      "step": 666000
+    },
+    {
+      "epoch": 100.23,
+      "eval_loss": 2.0830888748168945,
+      "eval_runtime": 118.1331,
+      "eval_samples_per_second": 104.027,
+      "eval_steps_per_second": 6.51,
+      "step": 666000
+    },
+    {
+      "epoch": 100.9,
+      "learning_rate": 3.318284424379233e-05,
+      "loss": 1.7809,
+      "step": 670500
+    },
+    {
+      "epoch": 100.9,
+      "eval_loss": 2.080984115600586,
+      "eval_runtime": 118.0711,
+      "eval_samples_per_second": 104.081,
+      "eval_steps_per_second": 6.513,
+      "step": 670500
+    },
+    {
+      "epoch": 101.58,
+      "learning_rate": 3.3069977426636574e-05,
+      "loss": 1.7757,
+      "step": 675000
+    },
+    {
+      "epoch": 101.58,
+      "eval_loss": 2.078061819076538,
+      "eval_runtime": 118.0799,
+      "eval_samples_per_second": 104.074,
+      "eval_steps_per_second": 6.513,
+      "step": 675000
+    },
+    {
+      "epoch": 102.26,
+      "learning_rate": 3.295711060948081e-05,
+      "loss": 1.7737,
+      "step": 679500
+    },
+    {
+      "epoch": 102.26,
+      "eval_loss": 2.079832077026367,
+      "eval_runtime": 118.3274,
+      "eval_samples_per_second": 103.856,
+      "eval_steps_per_second": 6.499,
+      "step": 679500
+    },
+    {
+      "epoch": 102.93,
+      "learning_rate": 3.284424379232506e-05,
+      "loss": 1.7738,
+      "step": 684000
+    },
+    {
+      "epoch": 102.93,
+      "eval_loss": 2.0702972412109375,
+      "eval_runtime": 118.0753,
+      "eval_samples_per_second": 104.078,
+      "eval_steps_per_second": 6.513,
+      "step": 684000
+    },
+    {
+      "epoch": 103.61,
+      "learning_rate": 3.2731376975169304e-05,
+      "loss": 1.7701,
+      "step": 688500
+    },
+    {
+      "epoch": 103.61,
+      "eval_loss": 2.0662286281585693,
+      "eval_runtime": 118.9742,
+      "eval_samples_per_second": 103.291,
+      "eval_steps_per_second": 6.464,
+      "step": 688500
+    },
+    {
+      "epoch": 104.29,
+      "learning_rate": 3.261851015801354e-05,
+      "loss": 1.7682,
+      "step": 693000
+    },
+    {
+      "epoch": 104.29,
+      "eval_loss": 2.070204973220825,
+      "eval_runtime": 118.3434,
+      "eval_samples_per_second": 103.842,
+      "eval_steps_per_second": 6.498,
+      "step": 693000
+    },
+    {
+      "epoch": 104.97,
+      "learning_rate": 3.250564334085779e-05,
+      "loss": 1.7669,
+      "step": 697500
+    },
+    {
+      "epoch": 104.97,
+      "eval_loss": 2.063176155090332,
+      "eval_runtime": 118.357,
+      "eval_samples_per_second": 103.83,
+      "eval_steps_per_second": 6.497,
+      "step": 697500
+    },
+    {
+      "epoch": 105.64,
+      "learning_rate": 3.239277652370203e-05,
+      "loss": 1.7616,
+      "step": 702000
+    },
+    {
+      "epoch": 105.64,
+      "eval_loss": 2.067533254623413,
+      "eval_runtime": 118.3349,
+      "eval_samples_per_second": 103.849,
+      "eval_steps_per_second": 6.499,
+      "step": 702000
+    },
+    {
+      "epoch": 106.32,
+      "learning_rate": 3.227990970654628e-05,
+      "loss": 1.7623,
+      "step": 706500
+    },
+    {
+      "epoch": 106.32,
+      "eval_loss": 2.0670344829559326,
+      "eval_runtime": 118.3389,
+      "eval_samples_per_second": 103.846,
+      "eval_steps_per_second": 6.498,
+      "step": 706500
+    },
+    {
+      "epoch": 107.0,
+      "learning_rate": 3.216704288939052e-05,
+      "loss": 1.7623,
+      "step": 711000
+    },
+    {
+      "epoch": 107.0,
+      "eval_loss": 2.0591020584106445,
+      "eval_runtime": 118.3407,
+      "eval_samples_per_second": 103.844,
+      "eval_steps_per_second": 6.498,
+      "step": 711000
+    },
+    {
+      "epoch": 107.67,
+      "learning_rate": 3.205417607223476e-05,
+      "loss": 1.7553,
+      "step": 715500
+    },
+    {
+      "epoch": 107.67,
+      "eval_loss": 2.0580272674560547,
+      "eval_runtime": 118.3269,
+      "eval_samples_per_second": 103.856,
+      "eval_steps_per_second": 6.499,
+      "step": 715500
+    },
+    {
+      "epoch": 108.35,
+      "learning_rate": 3.194130925507901e-05,
+      "loss": 1.753,
+      "step": 720000
+    },
+    {
+      "epoch": 108.35,
+      "eval_loss": 2.0603325366973877,
+      "eval_runtime": 118.3271,
+      "eval_samples_per_second": 103.856,
+      "eval_steps_per_second": 6.499,
+      "step": 720000
+    },
+    {
+      "epoch": 109.03,
+      "learning_rate": 3.1828442437923254e-05,
+      "loss": 1.7549,
+      "step": 724500
+    },
+    {
+      "epoch": 109.03,
+      "eval_loss": 2.0661327838897705,
+      "eval_runtime": 118.3395,
+      "eval_samples_per_second": 103.845,
+      "eval_steps_per_second": 6.498,
+      "step": 724500
+    },
+    {
+      "epoch": 109.71,
+      "learning_rate": 3.17155756207675e-05,
+      "loss": 1.7474,
+      "step": 729000
+    },
+    {
+      "epoch": 109.71,
+      "eval_loss": 2.0576255321502686,
+      "eval_runtime": 118.3567,
+      "eval_samples_per_second": 103.83,
+      "eval_steps_per_second": 6.497,
+      "step": 729000
+    },
+    {
+      "epoch": 110.38,
+      "learning_rate": 3.1602708803611745e-05,
+      "loss": 1.7504,
+      "step": 733500
+    },
+    {
+      "epoch": 110.38,
+      "eval_loss": 2.0617053508758545,
+      "eval_runtime": 118.3259,
+      "eval_samples_per_second": 103.857,
+      "eval_steps_per_second": 6.499,
+      "step": 733500
+    },
+    {
+      "epoch": 111.06,
+      "learning_rate": 3.148984198645598e-05,
+      "loss": 1.7464,
+      "step": 738000
+    },
+    {
+      "epoch": 111.06,
+      "eval_loss": 2.049917459487915,
+      "eval_runtime": 118.3445,
+      "eval_samples_per_second": 103.841,
+      "eval_steps_per_second": 6.498,
+      "step": 738000
+    },
+    {
+      "epoch": 111.74,
+      "learning_rate": 3.137697516930023e-05,
+      "loss": 1.7432,
+      "step": 742500
+    },
+    {
+      "epoch": 111.74,
+      "eval_loss": 2.056652069091797,
+      "eval_runtime": 118.3587,
+      "eval_samples_per_second": 103.828,
+      "eval_steps_per_second": 6.497,
+      "step": 742500
+    },
+    {
+      "epoch": 112.42,
+      "learning_rate": 3.1264108352144474e-05,
+      "loss": 1.7404,
+      "step": 747000
+    },
+    {
+      "epoch": 112.42,
+      "eval_loss": 2.0593619346618652,
+      "eval_runtime": 118.3421,
+      "eval_samples_per_second": 103.843,
+      "eval_steps_per_second": 6.498,
+      "step": 747000
+    },
+    {
+      "epoch": 113.09,
+      "learning_rate": 3.115124153498871e-05,
+      "loss": 1.7438,
+      "step": 751500
+    },
+    {
+      "epoch": 113.09,
+      "eval_loss": 2.045955181121826,
+      "eval_runtime": 118.325,
+      "eval_samples_per_second": 103.858,
+      "eval_steps_per_second": 6.499,
+      "step": 751500
+    },
+    {
+      "epoch": 113.77,
+      "learning_rate": 3.103837471783296e-05,
+      "loss": 1.7375,
+      "step": 756000
+    },
+    {
+      "epoch": 113.77,
+      "eval_loss": 2.055434465408325,
+      "eval_runtime": 118.3498,
+      "eval_samples_per_second": 103.836,
+      "eval_steps_per_second": 6.498,
+      "step": 756000
+    },
+    {
+      "epoch": 114.45,
+      "learning_rate": 3.0925507900677204e-05,
+      "loss": 1.7336,
+      "step": 760500
+    },
+    {
+      "epoch": 114.45,
+      "eval_loss": 2.040349006652832,
+      "eval_runtime": 118.3546,
+      "eval_samples_per_second": 103.832,
+      "eval_steps_per_second": 6.497,
+      "step": 760500
+    },
+    {
+      "epoch": 115.12,
+      "learning_rate": 3.081264108352145e-05,
+      "loss": 1.7344,
+      "step": 765000
+    },
+    {
+      "epoch": 115.12,
+      "eval_loss": 2.054170846939087,
+      "eval_runtime": 118.3514,
+      "eval_samples_per_second": 103.835,
+      "eval_steps_per_second": 6.498,
+      "step": 765000
+    },
+    {
+      "epoch": 115.8,
+      "learning_rate": 3.069977426636569e-05,
+      "loss": 1.7324,
+      "step": 769500
+    },
+    {
+      "epoch": 115.8,
+      "eval_loss": 2.042388439178467,
+      "eval_runtime": 118.3282,
+      "eval_samples_per_second": 103.855,
+      "eval_steps_per_second": 6.499,
+      "step": 769500
+    },
+    {
+      "epoch": 116.48,
+      "learning_rate": 3.058690744920993e-05,
+      "loss": 1.7255,
+      "step": 774000
+    },
+    {
+      "epoch": 116.48,
+      "eval_loss": 2.0501296520233154,
+      "eval_runtime": 118.1548,
+      "eval_samples_per_second": 104.008,
+      "eval_steps_per_second": 6.508,
+      "step": 774000
+    }
+  ],
+  "max_steps": 1993500,
+  "num_train_epochs": 300,
+  "total_flos": 6.520019673893634e+18,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4711a71b9186331cd1e18fac6f3b227f10b844f6ca8c1166fc919684598d857a
+size 3055