Upload 9 files

Browse files

Files changed (9) hide show

config.json +31 -0
generation_config.json +6 -0
model.safetensors +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
trainer_state.json +1773 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_name_or_path": "../MistralModels/models/Mixtral-8x7B-v0.1-small-4096",
+  "architectures": [
+    "MixtralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 768,
+  "max_position_embeddings": 512,
+  "model_type": "mixtral",
+  "num_attention_heads": 8,
+  "num_experts_per_tok": 1,
+  "num_hidden_layers": 8,
+  "num_key_value_heads": 8,
+  "num_local_experts": 8,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.02,
+  "router_jitter_noise": 0.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.43.3",
+  "use_cache": true,
+  "vocab_size": 4096
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.43.3"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81c550de27b0cfb958bd90295e8081ba41021975958f42ab55709ffed1088c28
+size 276979168

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37f947d6b54eeedc56f985f58c76b5403af723450de37052dd484bc469768e1b
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c97752dc999f5f01bcf49874b8735b2a56080af04fd7b12e23eeed58185e97d8
+size 1064

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"tokenizer_class": "PreTrainedTokenizerFast", "unk_token": "[UNK]", "cls_token": "[CLS]", "sep_token": "[SEP]", "pad_token": "[PAD]", "mask_token": "[MASK]"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1773 @@

+{
+  "best_metric": 6.787229061126709,
+  "best_model_checkpoint": "./results/models/checkpoint-106530",
+  "epoch": 30.0,
+  "eval_steps": 500,
+  "global_step": 106530,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.14080540692762603,
+      "grad_norm": 0.2255859375,
+      "learning_rate": 0.00398873556744579,
+      "loss": 6.8932,
+      "step": 500
+    },
+    {
+      "epoch": 0.28161081385525205,
+      "grad_norm": 0.9609375,
+      "learning_rate": 0.0039774711348915795,
+      "loss": 6.8292,
+      "step": 1000
+    },
+    {
+      "epoch": 0.42241622078287805,
+      "grad_norm": 1.6015625,
+      "learning_rate": 0.00396620670233737,
+      "loss": 6.8237,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5632216277105041,
+      "grad_norm": 2.75,
+      "learning_rate": 0.00395494226978316,
+      "loss": 6.8763,
+      "step": 2000
+    },
+    {
+      "epoch": 0.7040270346381301,
+      "grad_norm": 1.375,
+      "learning_rate": 0.00394367783722895,
+      "loss": 6.9046,
+      "step": 2500
+    },
+    {
+      "epoch": 0.8448324415657561,
+      "grad_norm": 1.1171875,
+      "learning_rate": 0.003932413404674739,
+      "loss": 6.8564,
+      "step": 3000
+    },
+    {
+      "epoch": 0.9856378484933821,
+      "grad_norm": 2.25,
+      "learning_rate": 0.003921148972120529,
+      "loss": 6.8481,
+      "step": 3500
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 6.840273380279541,
+      "eval_runtime": 197.295,
+      "eval_samples_per_second": 10.137,
+      "eval_steps_per_second": 1.267,
+      "step": 3551
+    },
+    {
+      "epoch": 1.1264432554210082,
+      "grad_norm": 6.875,
+      "learning_rate": 0.003909884539566319,
+      "loss": 6.8419,
+      "step": 4000
+    },
+    {
+      "epoch": 1.267248662348634,
+      "grad_norm": 0.349609375,
+      "learning_rate": 0.003898620107012109,
+      "loss": 6.9106,
+      "step": 4500
+    },
+    {
+      "epoch": 1.4080540692762602,
+      "grad_norm": 1.96875,
+      "learning_rate": 0.003887355674457899,
+      "loss": 6.8742,
+      "step": 5000
+    },
+    {
+      "epoch": 1.5488594762038863,
+      "grad_norm": 1.734375,
+      "learning_rate": 0.0038760912419036893,
+      "loss": 6.8742,
+      "step": 5500
+    },
+    {
+      "epoch": 1.6896648831315122,
+      "grad_norm": 4.125,
+      "learning_rate": 0.003864826809349479,
+      "loss": 6.8928,
+      "step": 6000
+    },
+    {
+      "epoch": 1.8304702900591383,
+      "grad_norm": 2.125,
+      "learning_rate": 0.003853562376795269,
+      "loss": 6.8663,
+      "step": 6500
+    },
+    {
+      "epoch": 1.9712756969867642,
+      "grad_norm": 3.640625,
+      "learning_rate": 0.003842297944241059,
+      "loss": 6.8515,
+      "step": 7000
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 6.85520601272583,
+      "eval_runtime": 192.2095,
+      "eval_samples_per_second": 10.405,
+      "eval_steps_per_second": 1.301,
+      "step": 7102
+    },
+    {
+      "epoch": 2.1120811039143903,
+      "grad_norm": 55.75,
+      "learning_rate": 0.0038310335116868485,
+      "loss": 6.8759,
+      "step": 7500
+    },
+    {
+      "epoch": 2.2528865108420164,
+      "grad_norm": 15.0,
+      "learning_rate": 0.0038197690791326386,
+      "loss": 6.9025,
+      "step": 8000
+    },
+    {
+      "epoch": 2.3936919177696425,
+      "grad_norm": 0.259765625,
+      "learning_rate": 0.0038085046465784287,
+      "loss": 6.9002,
+      "step": 8500
+    },
+    {
+      "epoch": 2.534497324697268,
+      "grad_norm": 0.42578125,
+      "learning_rate": 0.003797240214024219,
+      "loss": 6.8857,
+      "step": 9000
+    },
+    {
+      "epoch": 2.6753027316248943,
+      "grad_norm": 2.984375,
+      "learning_rate": 0.0037859757814700085,
+      "loss": 6.882,
+      "step": 9500
+    },
+    {
+      "epoch": 2.8161081385525204,
+      "grad_norm": 1.953125,
+      "learning_rate": 0.0037747113489157986,
+      "loss": 6.8677,
+      "step": 10000
+    },
+    {
+      "epoch": 2.9569135454801465,
+      "grad_norm": 1.484375,
+      "learning_rate": 0.0037634469163615883,
+      "loss": 6.8696,
+      "step": 10500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 6.850285530090332,
+      "eval_runtime": 190.0725,
+      "eval_samples_per_second": 10.522,
+      "eval_steps_per_second": 1.315,
+      "step": 10653
+    },
+    {
+      "epoch": 3.0977189524077726,
+      "grad_norm": 0.94140625,
+      "learning_rate": 0.003752182483807378,
+      "loss": 6.8573,
+      "step": 11000
+    },
+    {
+      "epoch": 3.2385243593353983,
+      "grad_norm": 11.1875,
+      "learning_rate": 0.003740918051253168,
+      "loss": 6.8511,
+      "step": 11500
+    },
+    {
+      "epoch": 3.3793297662630244,
+      "grad_norm": 2.3125,
+      "learning_rate": 0.0037296536186989583,
+      "loss": 6.8586,
+      "step": 12000
+    },
+    {
+      "epoch": 3.5201351731906505,
+      "grad_norm": 134.0,
+      "learning_rate": 0.003718389186144748,
+      "loss": 6.8683,
+      "step": 12500
+    },
+    {
+      "epoch": 3.6609405801182766,
+      "grad_norm": 3.65625,
+      "learning_rate": 0.003707124753590538,
+      "loss": 6.8525,
+      "step": 13000
+    },
+    {
+      "epoch": 3.8017459870459027,
+      "grad_norm": 1.78125,
+      "learning_rate": 0.0036958603210363278,
+      "loss": 6.8547,
+      "step": 13500
+    },
+    {
+      "epoch": 3.9425513939735284,
+      "grad_norm": 14.1875,
+      "learning_rate": 0.0036845958884821174,
+      "loss": 6.8456,
+      "step": 14000
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 6.838648319244385,
+      "eval_runtime": 187.9085,
+      "eval_samples_per_second": 10.643,
+      "eval_steps_per_second": 1.33,
+      "step": 14204
+    },
+    {
+      "epoch": 4.0833568009011545,
+      "grad_norm": 1.5078125,
+      "learning_rate": 0.0036733314559279076,
+      "loss": 6.8422,
+      "step": 14500
+    },
+    {
+      "epoch": 4.224162207828781,
+      "grad_norm": 2.484375,
+      "learning_rate": 0.0036620670233736977,
+      "loss": 6.859,
+      "step": 15000
+    },
+    {
+      "epoch": 4.364967614756407,
+      "grad_norm": 6.65625,
+      "learning_rate": 0.003650802590819488,
+      "loss": 6.8541,
+      "step": 15500
+    },
+    {
+      "epoch": 4.505773021684033,
+      "grad_norm": 6.59375,
+      "learning_rate": 0.0036395381582652775,
+      "loss": 6.8385,
+      "step": 16000
+    },
+    {
+      "epoch": 4.646578428611659,
+      "grad_norm": 3.546875,
+      "learning_rate": 0.003628273725711067,
+      "loss": 6.8464,
+      "step": 16500
+    },
+    {
+      "epoch": 4.787383835539285,
+      "grad_norm": 1.625,
+      "learning_rate": 0.0036170092931568573,
+      "loss": 6.8434,
+      "step": 17000
+    },
+    {
+      "epoch": 4.92818924246691,
+      "grad_norm": 16.25,
+      "learning_rate": 0.003605744860602647,
+      "loss": 6.8525,
+      "step": 17500
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 6.835108280181885,
+      "eval_runtime": 207.3832,
+      "eval_samples_per_second": 9.644,
+      "eval_steps_per_second": 1.205,
+      "step": 17755
+    },
+    {
+      "epoch": 5.068994649394536,
+      "grad_norm": 2.5625,
+      "learning_rate": 0.003594480428048437,
+      "loss": 6.8404,
+      "step": 18000
+    },
+    {
+      "epoch": 5.2098000563221625,
+      "grad_norm": 4.8125,
+      "learning_rate": 0.0035832159954942273,
+      "loss": 6.8484,
+      "step": 18500
+    },
+    {
+      "epoch": 5.350605463249789,
+      "grad_norm": 3.8125,
+      "learning_rate": 0.003571951562940017,
+      "loss": 6.8502,
+      "step": 19000
+    },
+    {
+      "epoch": 5.491410870177415,
+      "grad_norm": 2.34375,
+      "learning_rate": 0.0035606871303858066,
+      "loss": 6.8384,
+      "step": 19500
+    },
+    {
+      "epoch": 5.632216277105041,
+      "grad_norm": 1.96875,
+      "learning_rate": 0.0035494226978315968,
+      "loss": 6.8478,
+      "step": 20000
+    },
+    {
+      "epoch": 5.773021684032667,
+      "grad_norm": 3.375,
+      "learning_rate": 0.003538158265277387,
+      "loss": 6.8339,
+      "step": 20500
+    },
+    {
+      "epoch": 5.913827090960293,
+      "grad_norm": 4.65625,
+      "learning_rate": 0.0035268938327231766,
+      "loss": 6.843,
+      "step": 21000
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 6.82509708404541,
+      "eval_runtime": 199.4174,
+      "eval_samples_per_second": 10.029,
+      "eval_steps_per_second": 1.254,
+      "step": 21306
+    },
+    {
+      "epoch": 6.054632497887919,
+      "grad_norm": 3.171875,
+      "learning_rate": 0.0035156294001689667,
+      "loss": 6.8405,
+      "step": 21500
+    },
+    {
+      "epoch": 6.195437904815545,
+      "grad_norm": 10.9375,
+      "learning_rate": 0.003504364967614757,
+      "loss": 6.8416,
+      "step": 22000
+    },
+    {
+      "epoch": 6.336243311743171,
+      "grad_norm": 7.3125,
+      "learning_rate": 0.003493100535060546,
+      "loss": 6.8379,
+      "step": 22500
+    },
+    {
+      "epoch": 6.477048718670797,
+      "grad_norm": 4.65625,
+      "learning_rate": 0.003481836102506336,
+      "loss": 6.8452,
+      "step": 23000
+    },
+    {
+      "epoch": 6.617854125598423,
+      "grad_norm": 1.7734375,
+      "learning_rate": 0.0034705716699521263,
+      "loss": 6.8463,
+      "step": 23500
+    },
+    {
+      "epoch": 6.758659532526049,
+      "grad_norm": 11.25,
+      "learning_rate": 0.003459307237397916,
+      "loss": 6.8358,
+      "step": 24000
+    },
+    {
+      "epoch": 6.899464939453675,
+      "grad_norm": 1.7421875,
+      "learning_rate": 0.003448042804843706,
+      "loss": 6.8361,
+      "step": 24500
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 6.824986457824707,
+      "eval_runtime": 181.2581,
+      "eval_samples_per_second": 11.034,
+      "eval_steps_per_second": 1.379,
+      "step": 24857
+    },
+    {
+      "epoch": 7.040270346381301,
+      "grad_norm": 3.84375,
+      "learning_rate": 0.0034367783722894962,
+      "loss": 6.8328,
+      "step": 25000
+    },
+    {
+      "epoch": 7.181075753308927,
+      "grad_norm": 1.4296875,
+      "learning_rate": 0.0034255139397352855,
+      "loss": 6.8272,
+      "step": 25500
+    },
+    {
+      "epoch": 7.321881160236553,
+      "grad_norm": 3.359375,
+      "learning_rate": 0.0034142495071810756,
+      "loss": 6.8164,
+      "step": 26000
+    },
+    {
+      "epoch": 7.462686567164179,
+      "grad_norm": 8.875,
+      "learning_rate": 0.0034029850746268657,
+      "loss": 6.8276,
+      "step": 26500
+    },
+    {
+      "epoch": 7.603491974091805,
+      "grad_norm": 2.078125,
+      "learning_rate": 0.003391720642072656,
+      "loss": 6.8248,
+      "step": 27000
+    },
+    {
+      "epoch": 7.744297381019431,
+      "grad_norm": 8.8125,
+      "learning_rate": 0.0033804562095184456,
+      "loss": 6.8188,
+      "step": 27500
+    },
+    {
+      "epoch": 7.885102787947057,
+      "grad_norm": 3.921875,
+      "learning_rate": 0.0033691917769642357,
+      "loss": 6.8232,
+      "step": 28000
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 6.8248701095581055,
+      "eval_runtime": 170.7503,
+      "eval_samples_per_second": 11.713,
+      "eval_steps_per_second": 1.464,
+      "step": 28408
+    },
+    {
+      "epoch": 8.025908194874683,
+      "grad_norm": 5.9375,
+      "learning_rate": 0.0033579273444100254,
+      "loss": 6.8241,
+      "step": 28500
+    },
+    {
+      "epoch": 8.166713601802309,
+      "grad_norm": 5.8125,
+      "learning_rate": 0.003346662911855815,
+      "loss": 6.8311,
+      "step": 29000
+    },
+    {
+      "epoch": 8.307519008729935,
+      "grad_norm": 3.328125,
+      "learning_rate": 0.003335398479301605,
+      "loss": 6.8203,
+      "step": 29500
+    },
+    {
+      "epoch": 8.448324415657561,
+      "grad_norm": 7.46875,
+      "learning_rate": 0.0033241340467473953,
+      "loss": 6.8291,
+      "step": 30000
+    },
+    {
+      "epoch": 8.589129822585187,
+      "grad_norm": 4.59375,
+      "learning_rate": 0.003312869614193185,
+      "loss": 6.8261,
+      "step": 30500
+    },
+    {
+      "epoch": 8.729935229512813,
+      "grad_norm": 4.3125,
+      "learning_rate": 0.003301605181638975,
+      "loss": 6.8362,
+      "step": 31000
+    },
+    {
+      "epoch": 8.87074063644044,
+      "grad_norm": 11.25,
+      "learning_rate": 0.003290340749084765,
+      "loss": 6.8353,
+      "step": 31500
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 6.821832656860352,
+      "eval_runtime": 210.9202,
+      "eval_samples_per_second": 9.482,
+      "eval_steps_per_second": 1.185,
+      "step": 31959
+    },
+    {
+      "epoch": 9.011546043368066,
+      "grad_norm": 4.46875,
+      "learning_rate": 0.003279076316530555,
+      "loss": 6.832,
+      "step": 32000
+    },
+    {
+      "epoch": 9.152351450295692,
+      "grad_norm": 4.0625,
+      "learning_rate": 0.0032678118839763446,
+      "loss": 6.8292,
+      "step": 32500
+    },
+    {
+      "epoch": 9.293156857223318,
+      "grad_norm": 1.984375,
+      "learning_rate": 0.0032565474514221347,
+      "loss": 6.8248,
+      "step": 33000
+    },
+    {
+      "epoch": 9.433962264150944,
+      "grad_norm": 43.25,
+      "learning_rate": 0.003245283018867925,
+      "loss": 6.8277,
+      "step": 33500
+    },
+    {
+      "epoch": 9.57476767107857,
+      "grad_norm": 1.7890625,
+      "learning_rate": 0.0032340185863137146,
+      "loss": 6.8229,
+      "step": 34000
+    },
+    {
+      "epoch": 9.715573078006196,
+      "grad_norm": 3.296875,
+      "learning_rate": 0.0032227541537595042,
+      "loss": 6.8194,
+      "step": 34500
+    },
+    {
+      "epoch": 9.85637848493382,
+      "grad_norm": 3.390625,
+      "learning_rate": 0.0032114897212052944,
+      "loss": 6.8225,
+      "step": 35000
+    },
+    {
+      "epoch": 9.997183891861447,
+      "grad_norm": 22.375,
+      "learning_rate": 0.003200225288651084,
+      "loss": 6.8291,
+      "step": 35500
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 6.81277322769165,
+      "eval_runtime": 239.1719,
+      "eval_samples_per_second": 8.362,
+      "eval_steps_per_second": 1.045,
+      "step": 35510
+    },
+    {
+      "epoch": 10.137989298789073,
+      "grad_norm": 5.375,
+      "learning_rate": 0.003188960856096874,
+      "loss": 6.815,
+      "step": 36000
+    },
+    {
+      "epoch": 10.278794705716699,
+      "grad_norm": 5.25,
+      "learning_rate": 0.0031776964235426643,
+      "loss": 6.8173,
+      "step": 36500
+    },
+    {
+      "epoch": 10.419600112644325,
+      "grad_norm": 3.84375,
+      "learning_rate": 0.003166431990988454,
+      "loss": 6.8189,
+      "step": 37000
+    },
+    {
+      "epoch": 10.560405519571951,
+      "grad_norm": 1.1875,
+      "learning_rate": 0.0031551675584342437,
+      "loss": 6.828,
+      "step": 37500
+    },
+    {
+      "epoch": 10.701210926499577,
+      "grad_norm": 5.96875,
+      "learning_rate": 0.003143903125880034,
+      "loss": 6.8141,
+      "step": 38000
+    },
+    {
+      "epoch": 10.842016333427203,
+      "grad_norm": 117.0,
+      "learning_rate": 0.003132638693325824,
+      "loss": 6.8258,
+      "step": 38500
+    },
+    {
+      "epoch": 10.98282174035483,
+      "grad_norm": 3.40625,
+      "learning_rate": 0.0031213742607716136,
+      "loss": 6.8254,
+      "step": 39000
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 6.814772129058838,
+      "eval_runtime": 228.9281,
+      "eval_samples_per_second": 8.736,
+      "eval_steps_per_second": 1.092,
+      "step": 39061
+    },
+    {
+      "epoch": 11.123627147282455,
+      "grad_norm": 1.578125,
+      "learning_rate": 0.0031101098282174037,
+      "loss": 6.8192,
+      "step": 39500
+    },
+    {
+      "epoch": 11.264432554210082,
+      "grad_norm": 2.6875,
+      "learning_rate": 0.003098845395663194,
+      "loss": 6.8217,
+      "step": 40000
+    },
+    {
+      "epoch": 11.405237961137708,
+      "grad_norm": 35.0,
+      "learning_rate": 0.003087580963108983,
+      "loss": 6.8172,
+      "step": 40500
+    },
+    {
+      "epoch": 11.546043368065334,
+      "grad_norm": 9.5625,
+      "learning_rate": 0.0030763165305547732,
+      "loss": 6.8307,
+      "step": 41000
+    },
+    {
+      "epoch": 11.68684877499296,
+      "grad_norm": 9.3125,
+      "learning_rate": 0.0030650520980005634,
+      "loss": 6.8237,
+      "step": 41500
+    },
+    {
+      "epoch": 11.827654181920586,
+      "grad_norm": 5.3125,
+      "learning_rate": 0.003053787665446353,
+      "loss": 6.8306,
+      "step": 42000
+    },
+    {
+      "epoch": 11.968459588848212,
+      "grad_norm": 5.34375,
+      "learning_rate": 0.003042523232892143,
+      "loss": 6.8138,
+      "step": 42500
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 6.806704044342041,
+      "eval_runtime": 228.3922,
+      "eval_samples_per_second": 8.757,
+      "eval_steps_per_second": 1.095,
+      "step": 42612
+    },
+    {
+      "epoch": 12.109264995775838,
+      "grad_norm": 1.9296875,
+      "learning_rate": 0.0030312588003379333,
+      "loss": 6.8157,
+      "step": 43000
+    },
+    {
+      "epoch": 12.250070402703464,
+      "grad_norm": 5.25,
+      "learning_rate": 0.003019994367783723,
+      "loss": 6.8189,
+      "step": 43500
+    },
+    {
+      "epoch": 12.39087580963109,
+      "grad_norm": 3.078125,
+      "learning_rate": 0.0030087299352295127,
+      "loss": 6.8276,
+      "step": 44000
+    },
+    {
+      "epoch": 12.531681216558717,
+      "grad_norm": 3.46875,
+      "learning_rate": 0.002997465502675303,
+      "loss": 6.8092,
+      "step": 44500
+    },
+    {
+      "epoch": 12.672486623486343,
+      "grad_norm": 1.2421875,
+      "learning_rate": 0.002986201070121093,
+      "loss": 6.8152,
+      "step": 45000
+    },
+    {
+      "epoch": 12.813292030413969,
+      "grad_norm": 3.078125,
+      "learning_rate": 0.0029749366375668826,
+      "loss": 6.8141,
+      "step": 45500
+    },
+    {
+      "epoch": 12.954097437341593,
+      "grad_norm": 2.90625,
+      "learning_rate": 0.0029636722050126727,
+      "loss": 6.8209,
+      "step": 46000
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 6.805023670196533,
+      "eval_runtime": 230.3566,
+      "eval_samples_per_second": 8.682,
+      "eval_steps_per_second": 1.085,
+      "step": 46163
+    },
+    {
+      "epoch": 13.09490284426922,
+      "grad_norm": 2.90625,
+      "learning_rate": 0.0029524077724584624,
+      "loss": 6.8179,
+      "step": 46500
+    },
+    {
+      "epoch": 13.235708251196845,
+      "grad_norm": 6.0,
+      "learning_rate": 0.002941143339904252,
+      "loss": 6.8193,
+      "step": 47000
+    },
+    {
+      "epoch": 13.376513658124471,
+      "grad_norm": 4.03125,
+      "learning_rate": 0.0029298789073500422,
+      "loss": 6.8153,
+      "step": 47500
+    },
+    {
+      "epoch": 13.517319065052098,
+      "grad_norm": 3.65625,
+      "learning_rate": 0.0029186144747958324,
+      "loss": 6.8046,
+      "step": 48000
+    },
+    {
+      "epoch": 13.658124471979724,
+      "grad_norm": 52.0,
+      "learning_rate": 0.002907350042241622,
+      "loss": 6.8161,
+      "step": 48500
+    },
+    {
+      "epoch": 13.79892987890735,
+      "grad_norm": 16.625,
+      "learning_rate": 0.002896085609687412,
+      "loss": 6.8094,
+      "step": 49000
+    },
+    {
+      "epoch": 13.939735285834976,
+      "grad_norm": 1.6328125,
+      "learning_rate": 0.002884821177133202,
+      "loss": 6.8181,
+      "step": 49500
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 6.8096513748168945,
+      "eval_runtime": 235.2835,
+      "eval_samples_per_second": 8.5,
+      "eval_steps_per_second": 1.063,
+      "step": 49714
+    },
+    {
+      "epoch": 14.080540692762602,
+      "grad_norm": 1.140625,
+      "learning_rate": 0.002873556744578992,
+      "loss": 6.8197,
+      "step": 50000
+    },
+    {
+      "epoch": 14.221346099690228,
+      "grad_norm": 1.265625,
+      "learning_rate": 0.0028622923120247817,
+      "loss": 6.8097,
+      "step": 50500
+    },
+    {
+      "epoch": 14.362151506617854,
+      "grad_norm": 4.75,
+      "learning_rate": 0.002851027879470572,
+      "loss": 6.82,
+      "step": 51000
+    },
+    {
+      "epoch": 14.50295691354548,
+      "grad_norm": 2.28125,
+      "learning_rate": 0.002839763446916362,
+      "loss": 6.8203,
+      "step": 51500
+    },
+    {
+      "epoch": 14.643762320473106,
+      "grad_norm": 5.125,
+      "learning_rate": 0.0028284990143621516,
+      "loss": 6.807,
+      "step": 52000
+    },
+    {
+      "epoch": 14.784567727400733,
+      "grad_norm": 2.046875,
+      "learning_rate": 0.0028172345818079413,
+      "loss": 6.8153,
+      "step": 52500
+    },
+    {
+      "epoch": 14.925373134328359,
+      "grad_norm": 8.0,
+      "learning_rate": 0.0028059701492537314,
+      "loss": 6.8102,
+      "step": 53000
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 6.802714824676514,
+      "eval_runtime": 235.2095,
+      "eval_samples_per_second": 8.503,
+      "eval_steps_per_second": 1.063,
+      "step": 53265
+    },
+    {
+      "epoch": 15.066178541255985,
+      "grad_norm": 16.5,
+      "learning_rate": 0.002794705716699521,
+      "loss": 6.8108,
+      "step": 53500
+    },
+    {
+      "epoch": 15.20698394818361,
+      "grad_norm": 2.015625,
+      "learning_rate": 0.0027834412841453112,
+      "loss": 6.8123,
+      "step": 54000
+    },
+    {
+      "epoch": 15.347789355111237,
+      "grad_norm": 2.90625,
+      "learning_rate": 0.0027721768515911013,
+      "loss": 6.8105,
+      "step": 54500
+    },
+    {
+      "epoch": 15.488594762038863,
+      "grad_norm": 8.375,
+      "learning_rate": 0.0027609124190368915,
+      "loss": 6.8163,
+      "step": 55000
+    },
+    {
+      "epoch": 15.629400168966487,
+      "grad_norm": 3.34375,
+      "learning_rate": 0.0027496479864826807,
+      "loss": 6.8062,
+      "step": 55500
+    },
+    {
+      "epoch": 15.770205575894114,
+      "grad_norm": 48.25,
+      "learning_rate": 0.002738383553928471,
+      "loss": 6.8065,
+      "step": 56000
+    },
+    {
+      "epoch": 15.91101098282174,
+      "grad_norm": 2.9375,
+      "learning_rate": 0.002727119121374261,
+      "loss": 6.8066,
+      "step": 56500
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 6.799798011779785,
+      "eval_runtime": 204.1083,
+      "eval_samples_per_second": 9.799,
+      "eval_steps_per_second": 1.225,
+      "step": 56816
+    },
+    {
+      "epoch": 16.051816389749366,
+      "grad_norm": 136.0,
+      "learning_rate": 0.0027158546888200507,
+      "loss": 6.8064,
+      "step": 57000
+    },
+    {
+      "epoch": 16.192621796676992,
+      "grad_norm": 2.75,
+      "learning_rate": 0.002704590256265841,
+      "loss": 6.8083,
+      "step": 57500
+    },
+    {
+      "epoch": 16.333427203604618,
+      "grad_norm": 15.625,
+      "learning_rate": 0.002693325823711631,
+      "loss": 6.8038,
+      "step": 58000
+    },
+    {
+      "epoch": 16.474232610532244,
+      "grad_norm": 20.875,
+      "learning_rate": 0.00268206139115742,
+      "loss": 6.802,
+      "step": 58500
+    },
+    {
+      "epoch": 16.61503801745987,
+      "grad_norm": 15.3125,
+      "learning_rate": 0.0026707969586032103,
+      "loss": 6.8112,
+      "step": 59000
+    },
+    {
+      "epoch": 16.755843424387496,
+      "grad_norm": 8.1875,
+      "learning_rate": 0.0026595325260490004,
+      "loss": 6.8144,
+      "step": 59500
+    },
+    {
+      "epoch": 16.896648831315122,
+      "grad_norm": 5.03125,
+      "learning_rate": 0.0026482680934947905,
+      "loss": 6.8158,
+      "step": 60000
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 6.8019022941589355,
+      "eval_runtime": 194.9738,
+      "eval_samples_per_second": 10.258,
+      "eval_steps_per_second": 1.282,
+      "step": 60367
+    },
+    {
+      "epoch": 17.03745423824275,
+      "grad_norm": 5.34375,
+      "learning_rate": 0.0026370036609405802,
+      "loss": 6.8102,
+      "step": 60500
+    },
+    {
+      "epoch": 17.178259645170375,
+      "grad_norm": 26.125,
+      "learning_rate": 0.0026257392283863703,
+      "loss": 6.8135,
+      "step": 61000
+    },
+    {
+      "epoch": 17.319065052098,
+      "grad_norm": 6.71875,
+      "learning_rate": 0.00261447479583216,
+      "loss": 6.8102,
+      "step": 61500
+    },
+    {
+      "epoch": 17.459870459025627,
+      "grad_norm": 30.875,
+      "learning_rate": 0.0026032103632779497,
+      "loss": 6.8099,
+      "step": 62000
+    },
+    {
+      "epoch": 17.600675865953253,
+      "grad_norm": 78.0,
+      "learning_rate": 0.00259194593072374,
+      "loss": 6.8046,
+      "step": 62500
+    },
+    {
+      "epoch": 17.74148127288088,
+      "grad_norm": 14.625,
+      "learning_rate": 0.00258068149816953,
+      "loss": 6.809,
+      "step": 63000
+    },
+    {
+      "epoch": 17.882286679808505,
+      "grad_norm": 170.0,
+      "learning_rate": 0.0025694170656153197,
+      "loss": 6.8035,
+      "step": 63500
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 6.801079273223877,
+      "eval_runtime": 232.8698,
+      "eval_samples_per_second": 8.588,
+      "eval_steps_per_second": 1.074,
+      "step": 63918
+    },
+    {
+      "epoch": 18.02309208673613,
+      "grad_norm": 2.296875,
+      "learning_rate": 0.0025581526330611098,
+      "loss": 6.8134,
+      "step": 64000
+    },
+    {
+      "epoch": 18.163897493663757,
+      "grad_norm": 87.0,
+      "learning_rate": 0.0025468882005068995,
+      "loss": 6.8024,
+      "step": 64500
+    },
+    {
+      "epoch": 18.304702900591383,
+      "grad_norm": 1.3828125,
+      "learning_rate": 0.002535623767952689,
+      "loss": 6.8068,
+      "step": 65000
+    },
+    {
+      "epoch": 18.44550830751901,
+      "grad_norm": 22.5,
+      "learning_rate": 0.0025243593353984793,
+      "loss": 6.8083,
+      "step": 65500
+    },
+    {
+      "epoch": 18.586313714446636,
+      "grad_norm": 3.578125,
+      "learning_rate": 0.0025130949028442694,
+      "loss": 6.8071,
+      "step": 66000
+    },
+    {
+      "epoch": 18.727119121374262,
+      "grad_norm": 22.125,
+      "learning_rate": 0.0025018304702900595,
+      "loss": 6.8059,
+      "step": 66500
+    },
+    {
+      "epoch": 18.867924528301888,
+      "grad_norm": 16.75,
+      "learning_rate": 0.002490566037735849,
+      "loss": 6.8056,
+      "step": 67000
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 6.797260761260986,
+      "eval_runtime": 216.6541,
+      "eval_samples_per_second": 9.231,
+      "eval_steps_per_second": 1.154,
+      "step": 67469
+    },
+    {
+      "epoch": 19.008729935229514,
+      "grad_norm": 4.625,
+      "learning_rate": 0.002479301605181639,
+      "loss": 6.8015,
+      "step": 67500
+    },
+    {
+      "epoch": 19.14953534215714,
+      "grad_norm": 2.734375,
+      "learning_rate": 0.002468037172627429,
+      "loss": 6.8118,
+      "step": 68000
+    },
+    {
+      "epoch": 19.290340749084766,
+      "grad_norm": 45.0,
+      "learning_rate": 0.0024567727400732187,
+      "loss": 6.7995,
+      "step": 68500
+    },
+    {
+      "epoch": 19.431146156012392,
+      "grad_norm": 46.0,
+      "learning_rate": 0.002445508307519009,
+      "loss": 6.8098,
+      "step": 69000
+    },
+    {
+      "epoch": 19.57195156294002,
+      "grad_norm": 7.09375,
+      "learning_rate": 0.002434243874964799,
+      "loss": 6.7972,
+      "step": 69500
+    },
+    {
+      "epoch": 19.712756969867645,
+      "grad_norm": 91.5,
+      "learning_rate": 0.002422979442410588,
+      "loss": 6.8085,
+      "step": 70000
+    },
+    {
+      "epoch": 19.853562376795267,
+      "grad_norm": 1.7890625,
+      "learning_rate": 0.0024117150098563783,
+      "loss": 6.8034,
+      "step": 70500
+    },
+    {
+      "epoch": 19.994367783722893,
+      "grad_norm": 4.21875,
+      "learning_rate": 0.0024004505773021685,
+      "loss": 6.8024,
+      "step": 71000
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 6.794472694396973,
+      "eval_runtime": 212.8014,
+      "eval_samples_per_second": 9.398,
+      "eval_steps_per_second": 1.175,
+      "step": 71020
+    },
+    {
+      "epoch": 20.13517319065052,
+      "grad_norm": 4.21875,
+      "learning_rate": 0.0023891861447479586,
+      "loss": 6.7964,
+      "step": 71500
+    },
+    {
+      "epoch": 20.275978597578145,
+      "grad_norm": 27.5,
+      "learning_rate": 0.0023779217121937483,
+      "loss": 6.8033,
+      "step": 72000
+    },
+    {
+      "epoch": 20.41678400450577,
+      "grad_norm": 4.84375,
+      "learning_rate": 0.0023666572796395384,
+      "loss": 6.8066,
+      "step": 72500
+    },
+    {
+      "epoch": 20.557589411433398,
+      "grad_norm": 10.0625,
+      "learning_rate": 0.0023553928470853285,
+      "loss": 6.8076,
+      "step": 73000
+    },
+    {
+      "epoch": 20.698394818361024,
+      "grad_norm": 60.75,
+      "learning_rate": 0.0023441284145311178,
+      "loss": 6.8114,
+      "step": 73500
+    },
+    {
+      "epoch": 20.83920022528865,
+      "grad_norm": 47.0,
+      "learning_rate": 0.002332863981976908,
+      "loss": 6.8046,
+      "step": 74000
+    },
+    {
+      "epoch": 20.980005632216276,
+      "grad_norm": 4.5,
+      "learning_rate": 0.002321599549422698,
+      "loss": 6.8088,
+      "step": 74500
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 6.799040794372559,
+      "eval_runtime": 211.5781,
+      "eval_samples_per_second": 9.453,
+      "eval_steps_per_second": 1.182,
+      "step": 74571
+    },
+    {
+      "epoch": 21.120811039143902,
+      "grad_norm": 1.7734375,
+      "learning_rate": 0.0023103351168684877,
+      "loss": 6.8154,
+      "step": 75000
+    },
+    {
+      "epoch": 21.26161644607153,
+      "grad_norm": 9.75,
+      "learning_rate": 0.002299070684314278,
+      "loss": 6.8074,
+      "step": 75500
+    },
+    {
+      "epoch": 21.402421852999154,
+      "grad_norm": 12.9375,
+      "learning_rate": 0.0022878062517600675,
+      "loss": 6.8097,
+      "step": 76000
+    },
+    {
+      "epoch": 21.54322725992678,
+      "grad_norm": 2.703125,
+      "learning_rate": 0.002276541819205857,
+      "loss": 6.8016,
+      "step": 76500
+    },
+    {
+      "epoch": 21.684032666854407,
+      "grad_norm": 2.875,
+      "learning_rate": 0.0022652773866516473,
+      "loss": 6.7996,
+      "step": 77000
+    },
+    {
+      "epoch": 21.824838073782033,
+      "grad_norm": 4.84375,
+      "learning_rate": 0.0022540129540974375,
+      "loss": 6.8058,
+      "step": 77500
+    },
+    {
+      "epoch": 21.96564348070966,
+      "grad_norm": 7.15625,
+      "learning_rate": 0.0022427485215432276,
+      "loss": 6.8024,
+      "step": 78000
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 6.7944440841674805,
+      "eval_runtime": 187.9546,
+      "eval_samples_per_second": 10.641,
+      "eval_steps_per_second": 1.33,
+      "step": 78122
+    },
+    {
+      "epoch": 22.106448887637285,
+      "grad_norm": 4.65625,
+      "learning_rate": 0.0022314840889890173,
+      "loss": 6.8025,
+      "step": 78500
+    },
+    {
+      "epoch": 22.24725429456491,
+      "grad_norm": 8.9375,
+      "learning_rate": 0.002220219656434807,
+      "loss": 6.8027,
+      "step": 79000
+    },
+    {
+      "epoch": 22.388059701492537,
+      "grad_norm": 8.75,
+      "learning_rate": 0.002208955223880597,
+      "loss": 6.8032,
+      "step": 79500
+    },
+    {
+      "epoch": 22.528865108420163,
+      "grad_norm": 10.625,
+      "learning_rate": 0.0021976907913263868,
+      "loss": 6.7998,
+      "step": 80000
+    },
+    {
+      "epoch": 22.66967051534779,
+      "grad_norm": 12.375,
+      "learning_rate": 0.002186426358772177,
+      "loss": 6.8102,
+      "step": 80500
+    },
+    {
+      "epoch": 22.810475922275415,
+      "grad_norm": 3.625,
+      "learning_rate": 0.002175161926217967,
+      "loss": 6.7944,
+      "step": 81000
+    },
+    {
+      "epoch": 22.95128132920304,
+      "grad_norm": 3.484375,
+      "learning_rate": 0.0021638974936637567,
+      "loss": 6.8079,
+      "step": 81500
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 6.793390274047852,
+      "eval_runtime": 214.7382,
+      "eval_samples_per_second": 9.314,
+      "eval_steps_per_second": 1.164,
+      "step": 81673
+    },
+    {
+      "epoch": 23.092086736130668,
+      "grad_norm": 5.46875,
+      "learning_rate": 0.0021526330611095464,
+      "loss": 6.8065,
+      "step": 82000
+    },
+    {
+      "epoch": 23.232892143058294,
+      "grad_norm": 3.125,
+      "learning_rate": 0.0021413686285553365,
+      "loss": 6.8017,
+      "step": 82500
+    },
+    {
+      "epoch": 23.37369754998592,
+      "grad_norm": 77.5,
+      "learning_rate": 0.0021301041960011266,
+      "loss": 6.8055,
+      "step": 83000
+    },
+    {
+      "epoch": 23.514502956913546,
+      "grad_norm": 1.5390625,
+      "learning_rate": 0.0021188397634469163,
+      "loss": 6.8064,
+      "step": 83500
+    },
+    {
+      "epoch": 23.655308363841172,
+      "grad_norm": 3.28125,
+      "learning_rate": 0.0021075753308927065,
+      "loss": 6.8029,
+      "step": 84000
+    },
+    {
+      "epoch": 23.796113770768798,
+      "grad_norm": 4.5,
+      "learning_rate": 0.0020963108983384966,
+      "loss": 6.7993,
+      "step": 84500
+    },
+    {
+      "epoch": 23.936919177696424,
+      "grad_norm": 3.078125,
+      "learning_rate": 0.002085046465784286,
+      "loss": 6.7938,
+      "step": 85000
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 6.793313503265381,
+      "eval_runtime": 192.9768,
+      "eval_samples_per_second": 10.364,
+      "eval_steps_per_second": 1.295,
+      "step": 85224
+    },
+    {
+      "epoch": 24.07772458462405,
+      "grad_norm": 16.875,
+      "learning_rate": 0.002073782033230076,
+      "loss": 6.8043,
+      "step": 85500
+    },
+    {
+      "epoch": 24.218529991551677,
+      "grad_norm": 7.0,
+      "learning_rate": 0.002062517600675866,
+      "loss": 6.7964,
+      "step": 86000
+    },
+    {
+      "epoch": 24.359335398479303,
+      "grad_norm": 4.46875,
+      "learning_rate": 0.0020512531681216558,
+      "loss": 6.8079,
+      "step": 86500
+    },
+    {
+      "epoch": 24.50014080540693,
+      "grad_norm": 3.1875,
+      "learning_rate": 0.002039988735567446,
+      "loss": 6.8029,
+      "step": 87000
+    },
+    {
+      "epoch": 24.640946212334555,
+      "grad_norm": 3.203125,
+      "learning_rate": 0.002028724303013236,
+      "loss": 6.7963,
+      "step": 87500
+    },
+    {
+      "epoch": 24.78175161926218,
+      "grad_norm": 8.9375,
+      "learning_rate": 0.0020174598704590253,
+      "loss": 6.8056,
+      "step": 88000
+    },
+    {
+      "epoch": 24.922557026189807,
+      "grad_norm": 2.859375,
+      "learning_rate": 0.0020061954379048154,
+      "loss": 6.8061,
+      "step": 88500
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 6.796795845031738,
+      "eval_runtime": 181.8838,
+      "eval_samples_per_second": 10.996,
+      "eval_steps_per_second": 1.375,
+      "step": 88775
+    },
+    {
+      "epoch": 25.063362433117433,
+      "grad_norm": 6.09375,
+      "learning_rate": 0.0019949310053506055,
+      "loss": 6.7973,
+      "step": 89000
+    },
+    {
+      "epoch": 25.20416784004506,
+      "grad_norm": 1.09375,
+      "learning_rate": 0.001983666572796395,
+      "loss": 6.8059,
+      "step": 89500
+    },
+    {
+      "epoch": 25.344973246972685,
+      "grad_norm": 24.375,
+      "learning_rate": 0.0019724021402421853,
+      "loss": 6.8048,
+      "step": 90000
+    },
+    {
+      "epoch": 25.48577865390031,
+      "grad_norm": 3.171875,
+      "learning_rate": 0.0019611377076879754,
+      "loss": 6.7963,
+      "step": 90500
+    },
+    {
+      "epoch": 25.626584060827938,
+      "grad_norm": 1.546875,
+      "learning_rate": 0.0019498732751337651,
+      "loss": 6.7984,
+      "step": 91000
+    },
+    {
+      "epoch": 25.76738946775556,
+      "grad_norm": 24.375,
+      "learning_rate": 0.0019386088425795553,
+      "loss": 6.7948,
+      "step": 91500
+    },
+    {
+      "epoch": 25.908194874683186,
+      "grad_norm": 29.125,
+      "learning_rate": 0.001927344410025345,
+      "loss": 6.8014,
+      "step": 92000
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 6.788823127746582,
+      "eval_runtime": 205.9541,
+      "eval_samples_per_second": 9.711,
+      "eval_steps_per_second": 1.214,
+      "step": 92326
+    },
+    {
+      "epoch": 26.049000281610812,
+      "grad_norm": 3.046875,
+      "learning_rate": 0.0019160799774711349,
+      "loss": 6.794,
+      "step": 92500
+    },
+    {
+      "epoch": 26.18980568853844,
+      "grad_norm": 2.1875,
+      "learning_rate": 0.001904815544916925,
+      "loss": 6.7969,
+      "step": 93000
+    },
+    {
+      "epoch": 26.330611095466065,
+      "grad_norm": 3.78125,
+      "learning_rate": 0.0018935511123627147,
+      "loss": 6.7898,
+      "step": 93500
+    },
+    {
+      "epoch": 26.47141650239369,
+      "grad_norm": 20.875,
+      "learning_rate": 0.0018822866798085048,
+      "loss": 6.7979,
+      "step": 94000
+    },
+    {
+      "epoch": 26.612221909321317,
+      "grad_norm": 3.21875,
+      "learning_rate": 0.0018710222472542947,
+      "loss": 6.7962,
+      "step": 94500
+    },
+    {
+      "epoch": 26.753027316248943,
+      "grad_norm": 11.375,
+      "learning_rate": 0.0018597578147000844,
+      "loss": 6.7987,
+      "step": 95000
+    },
+    {
+      "epoch": 26.89383272317657,
+      "grad_norm": 8.875,
+      "learning_rate": 0.0018484933821458745,
+      "loss": 6.801,
+      "step": 95500
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 6.789410591125488,
+      "eval_runtime": 227.3793,
+      "eval_samples_per_second": 8.796,
+      "eval_steps_per_second": 1.099,
+      "step": 95877
+    },
+    {
+      "epoch": 27.034638130104195,
+      "grad_norm": 1.46875,
+      "learning_rate": 0.0018372289495916644,
+      "loss": 6.7975,
+      "step": 96000
+    },
+    {
+      "epoch": 27.17544353703182,
+      "grad_norm": 80.5,
+      "learning_rate": 0.0018259645170374543,
+      "loss": 6.7984,
+      "step": 96500
+    },
+    {
+      "epoch": 27.316248943959447,
+      "grad_norm": 2.671875,
+      "learning_rate": 0.0018147000844832442,
+      "loss": 6.7878,
+      "step": 97000
+    },
+    {
+      "epoch": 27.457054350887073,
+      "grad_norm": 9.0,
+      "learning_rate": 0.0018034356519290341,
+      "loss": 6.7973,
+      "step": 97500
+    },
+    {
+      "epoch": 27.5978597578147,
+      "grad_norm": 2.1875,
+      "learning_rate": 0.001792171219374824,
+      "loss": 6.7993,
+      "step": 98000
+    },
+    {
+      "epoch": 27.738665164742326,
+      "grad_norm": 5.65625,
+      "learning_rate": 0.001780906786820614,
+      "loss": 6.7979,
+      "step": 98500
+    },
+    {
+      "epoch": 27.879470571669952,
+      "grad_norm": 6.53125,
+      "learning_rate": 0.001769642354266404,
+      "loss": 6.7953,
+      "step": 99000
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 6.787979602813721,
+      "eval_runtime": 193.1872,
+      "eval_samples_per_second": 10.353,
+      "eval_steps_per_second": 1.294,
+      "step": 99428
+    },
+    {
+      "epoch": 28.020275978597578,
+      "grad_norm": 8.5625,
+      "learning_rate": 0.0017583779217121938,
+      "loss": 6.7974,
+      "step": 99500
+    },
+    {
+      "epoch": 28.161081385525204,
+      "grad_norm": 7.25,
+      "learning_rate": 0.0017471134891579837,
+      "loss": 6.7964,
+      "step": 100000
+    },
+    {
+      "epoch": 28.30188679245283,
+      "grad_norm": 5.5625,
+      "learning_rate": 0.0017358490566037738,
+      "loss": 6.7967,
+      "step": 100500
+    },
+    {
+      "epoch": 28.442692199380456,
+      "grad_norm": 3.34375,
+      "learning_rate": 0.0017245846240495635,
+      "loss": 6.7968,
+      "step": 101000
+    },
+    {
+      "epoch": 28.583497606308082,
+      "grad_norm": 8.3125,
+      "learning_rate": 0.0017133201914953536,
+      "loss": 6.7985,
+      "step": 101500
+    },
+    {
+      "epoch": 28.72430301323571,
+      "grad_norm": 32.25,
+      "learning_rate": 0.0017020557589411435,
+      "loss": 6.7975,
+      "step": 102000
+    },
+    {
+      "epoch": 28.865108420163335,
+      "grad_norm": 5.25,
+      "learning_rate": 0.0016907913263869332,
+      "loss": 6.7887,
+      "step": 102500
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 6.7877984046936035,
+      "eval_runtime": 234.4697,
+      "eval_samples_per_second": 8.53,
+      "eval_steps_per_second": 1.066,
+      "step": 102979
+    },
+    {
+      "epoch": 29.00591382709096,
+      "grad_norm": 16.75,
+      "learning_rate": 0.0016795268938327233,
+      "loss": 6.7878,
+      "step": 103000
+    },
+    {
+      "epoch": 29.146719234018587,
+      "grad_norm": 4.65625,
+      "learning_rate": 0.0016682624612785132,
+      "loss": 6.7852,
+      "step": 103500
+    },
+    {
+      "epoch": 29.287524640946213,
+      "grad_norm": 8.0625,
+      "learning_rate": 0.001656998028724303,
+      "loss": 6.7974,
+      "step": 104000
+    },
+    {
+      "epoch": 29.42833004787384,
+      "grad_norm": 7.3125,
+      "learning_rate": 0.001645733596170093,
+      "loss": 6.8057,
+      "step": 104500
+    },
+    {
+      "epoch": 29.569135454801465,
+      "grad_norm": 1.0546875,
+      "learning_rate": 0.001634469163615883,
+      "loss": 6.7982,
+      "step": 105000
+    },
+    {
+      "epoch": 29.70994086172909,
+      "grad_norm": 11.125,
+      "learning_rate": 0.0016232047310616728,
+      "loss": 6.7948,
+      "step": 105500
+    },
+    {
+      "epoch": 29.850746268656717,
+      "grad_norm": 9.8125,
+      "learning_rate": 0.0016119402985074627,
+      "loss": 6.7843,
+      "step": 106000
+    },
+    {
+      "epoch": 29.991551675584343,
+      "grad_norm": 4.8125,
+      "learning_rate": 0.0016006758659532524,
+      "loss": 6.8003,
+      "step": 106500
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 6.787229061126709,
+      "eval_runtime": 216.4819,
+      "eval_samples_per_second": 9.239,
+      "eval_steps_per_second": 1.155,
+      "step": 106530
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 177550,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.342179461275713e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03f7e64ba741ef0312bb7c236e2c187fd1f39c4a35b12a3a95d748b94a0d3a9c
+size 5112