demo_LID_ntu-spml_distilhubert / trainer_state.json

End of training

47eddce verified 3 months ago

124 kB

	{
	"best_metric": 0.6554008152173914,
	"best_model_checkpoint": "demo_LID_ntu-spml_distilhubert/checkpoint-6930",
	"epoch": 9.99891891891892,
	"eval_steps": 500,
	"global_step": 6930,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.014414414414414415,
	"grad_norm": 2.169387102127075,
	"learning_rate": 4.329004329004329e-06,
	"loss": 15.2197,
	"step": 10
	},
	{
	"epoch": 0.02882882882882883,
	"grad_norm": 2.4440665245056152,
	"learning_rate": 8.658008658008657e-06,
	"loss": 15.2046,
	"step": 20
	},
	{
	"epoch": 0.043243243243243246,
	"grad_norm": 1.9768311977386475,
	"learning_rate": 1.2987012987012986e-05,
	"loss": 15.2027,
	"step": 30
	},
	{
	"epoch": 0.05765765765765766,
	"grad_norm": 2.598134994506836,
	"learning_rate": 1.7316017316017315e-05,
	"loss": 15.1842,
	"step": 40
	},
	{
	"epoch": 0.07207207207207207,
	"grad_norm": 2.2137622833251953,
	"learning_rate": 2.164502164502164e-05,
	"loss": 15.1876,
	"step": 50
	},
	{
	"epoch": 0.08648648648648649,
	"grad_norm": 2.252912759780884,
	"learning_rate": 2.5974025974025972e-05,
	"loss": 15.172,
	"step": 60
	},
	{
	"epoch": 0.1009009009009009,
	"grad_norm": 2.699625015258789,
	"learning_rate": 3.03030303030303e-05,
	"loss": 15.1004,
	"step": 70
	},
	{
	"epoch": 0.11531531531531532,
	"grad_norm": 2.774757146835327,
	"learning_rate": 3.463203463203463e-05,
	"loss": 15.0877,
	"step": 80
	},
	{
	"epoch": 0.12972972972972974,
	"grad_norm": 2.9454381465911865,
	"learning_rate": 3.896103896103895e-05,
	"loss": 15.0704,
	"step": 90
	},
	{
	"epoch": 0.14414414414414414,
	"grad_norm": 3.3984997272491455,
	"learning_rate": 4.329004329004328e-05,
	"loss": 15.0211,
	"step": 100
	},
	{
	"epoch": 0.15855855855855855,
	"grad_norm": 3.1876633167266846,
	"learning_rate": 4.7619047619047614e-05,
	"loss": 14.9973,
	"step": 110
	},
	{
	"epoch": 0.17297297297297298,
	"grad_norm": 3.87903094291687,
	"learning_rate": 5.1948051948051944e-05,
	"loss": 14.9534,
	"step": 120
	},
	{
	"epoch": 0.1873873873873874,
	"grad_norm": 4.1114983558654785,
	"learning_rate": 5.627705627705627e-05,
	"loss": 14.8464,
	"step": 130
	},
	{
	"epoch": 0.2018018018018018,
	"grad_norm": 3.837207078933716,
	"learning_rate": 6.06060606060606e-05,
	"loss": 14.8935,
	"step": 140
	},
	{
	"epoch": 0.21621621621621623,
	"grad_norm": 3.978295087814331,
	"learning_rate": 6.493506493506494e-05,
	"loss": 14.8274,
	"step": 150
	},
	{
	"epoch": 0.23063063063063063,
	"grad_norm": 5.2168145179748535,
	"learning_rate": 6.926406926406926e-05,
	"loss": 14.7065,
	"step": 160
	},
	{
	"epoch": 0.24504504504504504,
	"grad_norm": 5.752880096435547,
	"learning_rate": 7.359307359307358e-05,
	"loss": 14.6178,
	"step": 170
	},
	{
	"epoch": 0.2594594594594595,
	"grad_norm": 6.018016338348389,
	"learning_rate": 7.79220779220779e-05,
	"loss": 14.4008,
	"step": 180
	},
	{
	"epoch": 0.27387387387387385,
	"grad_norm": 5.537229537963867,
	"learning_rate": 8.225108225108224e-05,
	"loss": 14.3105,
	"step": 190
	},
	{
	"epoch": 0.2882882882882883,
	"grad_norm": 6.358255863189697,
	"learning_rate": 8.658008658008657e-05,
	"loss": 14.1688,
	"step": 200
	},
	{
	"epoch": 0.3027027027027027,
	"grad_norm": 6.9536356925964355,
	"learning_rate": 9.09090909090909e-05,
	"loss": 14.1205,
	"step": 210
	},
	{
	"epoch": 0.3171171171171171,
	"grad_norm": 8.093494415283203,
	"learning_rate": 9.523809523809523e-05,
	"loss": 14.1292,
	"step": 220
	},
	{
	"epoch": 0.33153153153153153,
	"grad_norm": 6.803300380706787,
	"learning_rate": 9.956709956709956e-05,
	"loss": 13.9276,
	"step": 230
	},
	{
	"epoch": 0.34594594594594597,
	"grad_norm": 6.665808200836182,
	"learning_rate": 0.00010389610389610389,
	"loss": 13.9136,
	"step": 240
	},
	{
	"epoch": 0.36036036036036034,
	"grad_norm": 10.191052436828613,
	"learning_rate": 0.00010822510822510823,
	"loss": 13.708,
	"step": 250
	},
	{
	"epoch": 0.3747747747747748,
	"grad_norm": 7.783840656280518,
	"learning_rate": 0.00011255411255411254,
	"loss": 13.6658,
	"step": 260
	},
	{
	"epoch": 0.3891891891891892,
	"grad_norm": 11.964157104492188,
	"learning_rate": 0.00011688311688311687,
	"loss": 13.6014,
	"step": 270
	},
	{
	"epoch": 0.4036036036036036,
	"grad_norm": 7.828129291534424,
	"learning_rate": 0.0001212121212121212,
	"loss": 13.3956,
	"step": 280
	},
	{
	"epoch": 0.418018018018018,
	"grad_norm": 8.642557144165039,
	"learning_rate": 0.00012554112554112555,
	"loss": 13.4701,
	"step": 290
	},
	{
	"epoch": 0.43243243243243246,
	"grad_norm": 8.499011993408203,
	"learning_rate": 0.00012987012987012987,
	"loss": 13.2608,
	"step": 300
	},
	{
	"epoch": 0.44684684684684683,
	"grad_norm": 9.103832244873047,
	"learning_rate": 0.0001341991341991342,
	"loss": 12.8141,
	"step": 310
	},
	{
	"epoch": 0.46126126126126127,
	"grad_norm": 8.243462562561035,
	"learning_rate": 0.00013852813852813852,
	"loss": 12.8678,
	"step": 320
	},
	{
	"epoch": 0.4756756756756757,
	"grad_norm": 12.445680618286133,
	"learning_rate": 0.00014285714285714284,
	"loss": 12.9204,
	"step": 330
	},
	{
	"epoch": 0.4900900900900901,
	"grad_norm": 10.037951469421387,
	"learning_rate": 0.00014718614718614716,
	"loss": 12.9456,
	"step": 340
	},
	{
	"epoch": 0.5045045045045045,
	"grad_norm": 14.364166259765625,
	"learning_rate": 0.00015151515151515152,
	"loss": 12.5126,
	"step": 350
	},
	{
	"epoch": 0.518918918918919,
	"grad_norm": 10.338336944580078,
	"learning_rate": 0.0001558441558441558,
	"loss": 13.2546,
	"step": 360
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 9.899740219116211,
	"learning_rate": 0.00016017316017316016,
	"loss": 12.3445,
	"step": 370
	},
	{
	"epoch": 0.5477477477477477,
	"grad_norm": 11.309089660644531,
	"learning_rate": 0.00016450216450216449,
	"loss": 12.2799,
	"step": 380
	},
	{
	"epoch": 0.5621621621621622,
	"grad_norm": 11.268434524536133,
	"learning_rate": 0.00016883116883116884,
	"loss": 12.1578,
	"step": 390
	},
	{
	"epoch": 0.5765765765765766,
	"grad_norm": 9.793964385986328,
	"learning_rate": 0.00017316017316017313,
	"loss": 11.9812,
	"step": 400
	},
	{
	"epoch": 0.590990990990991,
	"grad_norm": 11.267273902893066,
	"learning_rate": 0.00017748917748917746,
	"loss": 12.1401,
	"step": 410
	},
	{
	"epoch": 0.6054054054054054,
	"grad_norm": 10.383160591125488,
	"learning_rate": 0.0001818181818181818,
	"loss": 12.0603,
	"step": 420
	},
	{
	"epoch": 0.6198198198198198,
	"grad_norm": 14.343868255615234,
	"learning_rate": 0.00018614718614718616,
	"loss": 11.2182,
	"step": 430
	},
	{
	"epoch": 0.6342342342342342,
	"grad_norm": 13.931622505187988,
	"learning_rate": 0.00019047619047619045,
	"loss": 11.6929,
	"step": 440
	},
	{
	"epoch": 0.6486486486486487,
	"grad_norm": 12.756230354309082,
	"learning_rate": 0.00019480519480519478,
	"loss": 11.9651,
	"step": 450
	},
	{
	"epoch": 0.6630630630630631,
	"grad_norm": 13.018777847290039,
	"learning_rate": 0.00019913419913419913,
	"loss": 11.6416,
	"step": 460
	},
	{
	"epoch": 0.6774774774774774,
	"grad_norm": 13.232623100280762,
	"learning_rate": 0.00020346320346320345,
	"loss": 11.4997,
	"step": 470
	},
	{
	"epoch": 0.6918918918918919,
	"grad_norm": 12.543861389160156,
	"learning_rate": 0.00020779220779220778,
	"loss": 11.5597,
	"step": 480
	},
	{
	"epoch": 0.7063063063063063,
	"grad_norm": 12.517231941223145,
	"learning_rate": 0.0002121212121212121,
	"loss": 11.1162,
	"step": 490
	},
	{
	"epoch": 0.7207207207207207,
	"grad_norm": 14.61859130859375,
	"learning_rate": 0.00021645021645021645,
	"loss": 11.2086,
	"step": 500
	},
	{
	"epoch": 0.7351351351351352,
	"grad_norm": 14.246715545654297,
	"learning_rate": 0.00022077922077922075,
	"loss": 11.2519,
	"step": 510
	},
	{
	"epoch": 0.7495495495495496,
	"grad_norm": 13.88980484008789,
	"learning_rate": 0.00022510822510822507,
	"loss": 10.9391,
	"step": 520
	},
	{
	"epoch": 0.7639639639639639,
	"grad_norm": 14.310384750366211,
	"learning_rate": 0.00022943722943722942,
	"loss": 10.7129,
	"step": 530
	},
	{
	"epoch": 0.7783783783783784,
	"grad_norm": 13.765666007995605,
	"learning_rate": 0.00023376623376623374,
	"loss": 11.218,
	"step": 540
	},
	{
	"epoch": 0.7927927927927928,
	"grad_norm": 17.789613723754883,
	"learning_rate": 0.00023809523809523807,
	"loss": 10.2992,
	"step": 550
	},
	{
	"epoch": 0.8072072072072072,
	"grad_norm": 17.212533950805664,
	"learning_rate": 0.0002424242424242424,
	"loss": 11.1959,
	"step": 560
	},
	{
	"epoch": 0.8216216216216217,
	"grad_norm": 14.872720718383789,
	"learning_rate": 0.00024675324675324674,
	"loss": 9.933,
	"step": 570
	},
	{
	"epoch": 0.836036036036036,
	"grad_norm": 14.751778602600098,
	"learning_rate": 0.0002510822510822511,
	"loss": 10.2721,
	"step": 580
	},
	{
	"epoch": 0.8504504504504504,
	"grad_norm": 13.110413551330566,
	"learning_rate": 0.0002554112554112554,
	"loss": 10.0697,
	"step": 590
	},
	{
	"epoch": 0.8648648648648649,
	"grad_norm": 14.484004020690918,
	"learning_rate": 0.00025974025974025974,
	"loss": 10.6599,
	"step": 600
	},
	{
	"epoch": 0.8792792792792793,
	"grad_norm": 15.150849342346191,
	"learning_rate": 0.00026406926406926404,
	"loss": 10.3077,
	"step": 610
	},
	{
	"epoch": 0.8936936936936937,
	"grad_norm": 19.270540237426758,
	"learning_rate": 0.0002683982683982684,
	"loss": 10.2954,
	"step": 620
	},
	{
	"epoch": 0.9081081081081082,
	"grad_norm": 17.365564346313477,
	"learning_rate": 0.0002727272727272727,
	"loss": 10.2966,
	"step": 630
	},
	{
	"epoch": 0.9225225225225225,
	"grad_norm": 23.610044479370117,
	"learning_rate": 0.00027705627705627703,
	"loss": 9.4401,
	"step": 640
	},
	{
	"epoch": 0.9369369369369369,
	"grad_norm": 16.38220977783203,
	"learning_rate": 0.0002813852813852814,
	"loss": 9.8423,
	"step": 650
	},
	{
	"epoch": 0.9513513513513514,
	"grad_norm": 18.670101165771484,
	"learning_rate": 0.0002857142857142857,
	"loss": 10.2396,
	"step": 660
	},
	{
	"epoch": 0.9657657657657658,
	"grad_norm": 20.733997344970703,
	"learning_rate": 0.00029004329004329003,
	"loss": 9.3347,
	"step": 670
	},
	{
	"epoch": 0.9801801801801802,
	"grad_norm": 18.066375732421875,
	"learning_rate": 0.00029437229437229433,
	"loss": 10.4626,
	"step": 680
	},
	{
	"epoch": 0.9945945945945946,
	"grad_norm": 18.0963191986084,
	"learning_rate": 0.0002987012987012987,
	"loss": 9.6557,
	"step": 690
	},
	{
	"epoch": 0.9989189189189189,
	"eval_accuracy": 0.26137907608695654,
	"eval_loss": 2.65486216545105,
	"eval_runtime": 541.7254,
	"eval_samples_per_second": 10.869,
	"eval_steps_per_second": 10.869,
	"step": 693
	},
	{
	"epoch": 1.01009009009009,
	"grad_norm": 15.17456340789795,
	"learning_rate": 0.00029966329966329963,
	"loss": 10.1474,
	"step": 700
	},
	{
	"epoch": 1.0245045045045045,
	"grad_norm": 19.106407165527344,
	"learning_rate": 0.00029918229918229916,
	"loss": 8.6672,
	"step": 710
	},
	{
	"epoch": 1.038918918918919,
	"grad_norm": 16.296113967895508,
	"learning_rate": 0.0002987012987012987,
	"loss": 8.7251,
	"step": 720
	},
	{
	"epoch": 1.0533333333333332,
	"grad_norm": 22.187761306762695,
	"learning_rate": 0.00029826839826839827,
	"loss": 9.2252,
	"step": 730
	},
	{
	"epoch": 1.0677477477477477,
	"grad_norm": 17.774612426757812,
	"learning_rate": 0.00029778739778739773,
	"loss": 8.3988,
	"step": 740
	},
	{
	"epoch": 1.0821621621621622,
	"grad_norm": 22.759864807128906,
	"learning_rate": 0.0002973063973063973,
	"loss": 8.4637,
	"step": 750
	},
	{
	"epoch": 1.0965765765765765,
	"grad_norm": 22.068397521972656,
	"learning_rate": 0.0002968253968253968,
	"loss": 9.4532,
	"step": 760
	},
	{
	"epoch": 1.110990990990991,
	"grad_norm": 22.11869239807129,
	"learning_rate": 0.0002963443963443963,
	"loss": 8.5823,
	"step": 770
	},
	{
	"epoch": 1.1254054054054055,
	"grad_norm": 20.577394485473633,
	"learning_rate": 0.0002958633958633958,
	"loss": 8.8257,
	"step": 780
	},
	{
	"epoch": 1.1398198198198197,
	"grad_norm": 19.24051856994629,
	"learning_rate": 0.00029538239538239535,
	"loss": 8.4165,
	"step": 790
	},
	{
	"epoch": 1.1542342342342342,
	"grad_norm": 18.745025634765625,
	"learning_rate": 0.00029490139490139487,
	"loss": 8.4419,
	"step": 800
	},
	{
	"epoch": 1.1686486486486487,
	"grad_norm": 16.836870193481445,
	"learning_rate": 0.0002944203944203944,
	"loss": 8.2076,
	"step": 810
	},
	{
	"epoch": 1.183063063063063,
	"grad_norm": 23.824594497680664,
	"learning_rate": 0.0002939393939393939,
	"loss": 7.8032,
	"step": 820
	},
	{
	"epoch": 1.1974774774774775,
	"grad_norm": 17.577869415283203,
	"learning_rate": 0.00029345839345839344,
	"loss": 8.3441,
	"step": 830
	},
	{
	"epoch": 1.211891891891892,
	"grad_norm": 17.508779525756836,
	"learning_rate": 0.00029297739297739296,
	"loss": 8.1213,
	"step": 840
	},
	{
	"epoch": 1.2263063063063062,
	"grad_norm": 16.90478515625,
	"learning_rate": 0.0002924963924963925,
	"loss": 7.6077,
	"step": 850
	},
	{
	"epoch": 1.2407207207207207,
	"grad_norm": 20.760663986206055,
	"learning_rate": 0.000292015392015392,
	"loss": 7.8654,
	"step": 860
	},
	{
	"epoch": 1.2551351351351352,
	"grad_norm": 20.966073989868164,
	"learning_rate": 0.00029153439153439153,
	"loss": 7.7627,
	"step": 870
	},
	{
	"epoch": 1.2695495495495495,
	"grad_norm": 18.766395568847656,
	"learning_rate": 0.000291053391053391,
	"loss": 7.0404,
	"step": 880
	},
	{
	"epoch": 1.283963963963964,
	"grad_norm": 20.34043312072754,
	"learning_rate": 0.0002905723905723906,
	"loss": 8.2117,
	"step": 890
	},
	{
	"epoch": 1.2983783783783784,
	"grad_norm": 22.05991554260254,
	"learning_rate": 0.00029009139009139004,
	"loss": 7.5249,
	"step": 900
	},
	{
	"epoch": 1.3127927927927927,
	"grad_norm": 18.58563232421875,
	"learning_rate": 0.00028961038961038956,
	"loss": 7.9662,
	"step": 910
	},
	{
	"epoch": 1.3272072072072072,
	"grad_norm": 18.942352294921875,
	"learning_rate": 0.0002891293891293891,
	"loss": 7.7609,
	"step": 920
	},
	{
	"epoch": 1.3416216216216217,
	"grad_norm": 23.675949096679688,
	"learning_rate": 0.0002886483886483886,
	"loss": 7.4968,
	"step": 930
	},
	{
	"epoch": 1.356036036036036,
	"grad_norm": 22.53910255432129,
	"learning_rate": 0.00028816738816738813,
	"loss": 7.9113,
	"step": 940
	},
	{
	"epoch": 1.3704504504504504,
	"grad_norm": 21.479690551757812,
	"learning_rate": 0.00028768638768638766,
	"loss": 6.8956,
	"step": 950
	},
	{
	"epoch": 1.384864864864865,
	"grad_norm": 20.469209671020508,
	"learning_rate": 0.0002872053872053872,
	"loss": 7.2737,
	"step": 960
	},
	{
	"epoch": 1.3992792792792792,
	"grad_norm": 17.538774490356445,
	"learning_rate": 0.0002867243867243867,
	"loss": 7.2458,
	"step": 970
	},
	{
	"epoch": 1.4136936936936937,
	"grad_norm": 22.793577194213867,
	"learning_rate": 0.0002862433862433862,
	"loss": 7.2339,
	"step": 980
	},
	{
	"epoch": 1.4281081081081082,
	"grad_norm": 18.235897064208984,
	"learning_rate": 0.00028576238576238575,
	"loss": 7.6416,
	"step": 990
	},
	{
	"epoch": 1.4425225225225224,
	"grad_norm": 24.108549118041992,
	"learning_rate": 0.00028528138528138527,
	"loss": 7.5449,
	"step": 1000
	},
	{
	"epoch": 1.456936936936937,
	"grad_norm": 23.248693466186523,
	"learning_rate": 0.0002848003848003848,
	"loss": 7.0878,
	"step": 1010
	},
	{
	"epoch": 1.4713513513513514,
	"grad_norm": 20.034454345703125,
	"learning_rate": 0.00028431938431938426,
	"loss": 7.426,
	"step": 1020
	},
	{
	"epoch": 1.4857657657657657,
	"grad_norm": 22.129047393798828,
	"learning_rate": 0.00028383838383838384,
	"loss": 6.9635,
	"step": 1030
	},
	{
	"epoch": 1.5001801801801802,
	"grad_norm": 20.906335830688477,
	"learning_rate": 0.0002833573833573833,
	"loss": 7.1704,
	"step": 1040
	},
	{
	"epoch": 1.5145945945945947,
	"grad_norm": 22.88907814025879,
	"learning_rate": 0.0002828763828763829,
	"loss": 7.1875,
	"step": 1050
	},
	{
	"epoch": 1.529009009009009,
	"grad_norm": 23.162479400634766,
	"learning_rate": 0.00028239538239538235,
	"loss": 7.665,
	"step": 1060
	},
	{
	"epoch": 1.5434234234234234,
	"grad_norm": 22.069990158081055,
	"learning_rate": 0.00028191438191438187,
	"loss": 7.0347,
	"step": 1070
	},
	{
	"epoch": 1.557837837837838,
	"grad_norm": 21.646320343017578,
	"learning_rate": 0.0002814333814333814,
	"loss": 7.4735,
	"step": 1080
	},
	{
	"epoch": 1.5722522522522522,
	"grad_norm": 22.21576499938965,
	"learning_rate": 0.0002809523809523809,
	"loss": 7.3836,
	"step": 1090
	},
	{
	"epoch": 1.5866666666666667,
	"grad_norm": 17.76190757751465,
	"learning_rate": 0.00028047138047138044,
	"loss": 7.2981,
	"step": 1100
	},
	{
	"epoch": 1.6010810810810812,
	"grad_norm": 15.208210945129395,
	"learning_rate": 0.00027999037999037996,
	"loss": 6.1374,
	"step": 1110
	},
	{
	"epoch": 1.6154954954954954,
	"grad_norm": 24.096397399902344,
	"learning_rate": 0.0002795093795093795,
	"loss": 6.3449,
	"step": 1120
	},
	{
	"epoch": 1.62990990990991,
	"grad_norm": 23.264659881591797,
	"learning_rate": 0.000279028379028379,
	"loss": 6.9955,
	"step": 1130
	},
	{
	"epoch": 1.6443243243243244,
	"grad_norm": 23.365312576293945,
	"learning_rate": 0.00027854737854737853,
	"loss": 6.7135,
	"step": 1140
	},
	{
	"epoch": 1.6587387387387387,
	"grad_norm": 18.671892166137695,
	"learning_rate": 0.00027806637806637805,
	"loss": 6.3113,
	"step": 1150
	},
	{
	"epoch": 1.6731531531531532,
	"grad_norm": 22.89389991760254,
	"learning_rate": 0.0002775853775853776,
	"loss": 6.6979,
	"step": 1160
	},
	{
	"epoch": 1.6875675675675677,
	"grad_norm": 22.493839263916016,
	"learning_rate": 0.0002771043771043771,
	"loss": 5.7641,
	"step": 1170
	},
	{
	"epoch": 1.701981981981982,
	"grad_norm": 24.027435302734375,
	"learning_rate": 0.00027662337662337657,
	"loss": 7.2983,
	"step": 1180
	},
	{
	"epoch": 1.7163963963963964,
	"grad_norm": 19.027225494384766,
	"learning_rate": 0.00027614237614237614,
	"loss": 6.2111,
	"step": 1190
	},
	{
	"epoch": 1.730810810810811,
	"grad_norm": 27.56620979309082,
	"learning_rate": 0.0002756613756613756,
	"loss": 6.7366,
	"step": 1200
	},
	{
	"epoch": 1.7452252252252252,
	"grad_norm": 16.027616500854492,
	"learning_rate": 0.00027518037518037513,
	"loss": 6.1943,
	"step": 1210
	},
	{
	"epoch": 1.7596396396396397,
	"grad_norm": 20.16025161743164,
	"learning_rate": 0.0002746993746993747,
	"loss": 6.3816,
	"step": 1220
	},
	{
	"epoch": 1.7740540540540541,
	"grad_norm": 13.574505805969238,
	"learning_rate": 0.0002742183742183742,
	"loss": 5.9191,
	"step": 1230
	},
	{
	"epoch": 1.7884684684684684,
	"grad_norm": 19.855785369873047,
	"learning_rate": 0.0002737373737373737,
	"loss": 6.3663,
	"step": 1240
	},
	{
	"epoch": 1.802882882882883,
	"grad_norm": 20.211448669433594,
	"learning_rate": 0.0002732563732563732,
	"loss": 6.4382,
	"step": 1250
	},
	{
	"epoch": 1.8172972972972974,
	"grad_norm": 21.60570526123047,
	"learning_rate": 0.00027277537277537275,
	"loss": 6.7056,
	"step": 1260
	},
	{
	"epoch": 1.8317117117117117,
	"grad_norm": 20.5418758392334,
	"learning_rate": 0.00027229437229437227,
	"loss": 5.5842,
	"step": 1270
	},
	{
	"epoch": 1.8461261261261261,
	"grad_norm": 27.491355895996094,
	"learning_rate": 0.0002718133718133718,
	"loss": 5.9011,
	"step": 1280
	},
	{
	"epoch": 1.8605405405405406,
	"grad_norm": 23.979827880859375,
	"learning_rate": 0.0002713323713323713,
	"loss": 6.084,
	"step": 1290
	},
	{
	"epoch": 1.874954954954955,
	"grad_norm": 18.55582618713379,
	"learning_rate": 0.00027085137085137084,
	"loss": 6.0097,
	"step": 1300
	},
	{
	"epoch": 1.8893693693693694,
	"grad_norm": 19.917762756347656,
	"learning_rate": 0.00027037037037037036,
	"loss": 5.7525,
	"step": 1310
	},
	{
	"epoch": 1.9037837837837839,
	"grad_norm": 17.546810150146484,
	"learning_rate": 0.00026988936988936983,
	"loss": 6.3093,
	"step": 1320
	},
	{
	"epoch": 1.9181981981981981,
	"grad_norm": 26.043676376342773,
	"learning_rate": 0.0002694083694083694,
	"loss": 5.9062,
	"step": 1330
	},
	{
	"epoch": 1.9326126126126126,
	"grad_norm": 22.03000831604004,
	"learning_rate": 0.00026892736892736893,
	"loss": 6.4594,
	"step": 1340
	},
	{
	"epoch": 1.9470270270270271,
	"grad_norm": 23.965402603149414,
	"learning_rate": 0.0002684463684463684,
	"loss": 6.3053,
	"step": 1350
	},
	{
	"epoch": 1.9614414414414414,
	"grad_norm": 21.040790557861328,
	"learning_rate": 0.000267965367965368,
	"loss": 5.4142,
	"step": 1360
	},
	{
	"epoch": 1.9758558558558559,
	"grad_norm": 22.65288543701172,
	"learning_rate": 0.00026748436748436744,
	"loss": 6.5429,
	"step": 1370
	},
	{
	"epoch": 1.9902702702702704,
	"grad_norm": 19.748960494995117,
	"learning_rate": 0.00026700336700336696,
	"loss": 6.1707,
	"step": 1380
	},
	{
	"epoch": 1.998918918918919,
	"eval_accuracy": 0.468070652173913,
	"eval_loss": 1.8478443622589111,
	"eval_runtime": 536.954,
	"eval_samples_per_second": 10.966,
	"eval_steps_per_second": 10.966,
	"step": 1386
	},
	{
	"epoch": 2.0057657657657657,
	"grad_norm": 20.129833221435547,
	"learning_rate": 0.0002665223665223665,
	"loss": 5.5637,
	"step": 1390
	},
	{
	"epoch": 2.02018018018018,
	"grad_norm": 18.542203903198242,
	"learning_rate": 0.000266041366041366,
	"loss": 4.8547,
	"step": 1400
	},
	{
	"epoch": 2.0345945945945947,
	"grad_norm": 16.80269432067871,
	"learning_rate": 0.00026556036556036553,
	"loss": 4.9395,
	"step": 1410
	},
	{
	"epoch": 2.049009009009009,
	"grad_norm": 24.43153953552246,
	"learning_rate": 0.00026507936507936506,
	"loss": 4.8408,
	"step": 1420
	},
	{
	"epoch": 2.063423423423423,
	"grad_norm": 20.406522750854492,
	"learning_rate": 0.0002645983645983646,
	"loss": 4.3663,
	"step": 1430
	},
	{
	"epoch": 2.077837837837838,
	"grad_norm": 17.540870666503906,
	"learning_rate": 0.0002641173641173641,
	"loss": 3.6172,
	"step": 1440
	},
	{
	"epoch": 2.092252252252252,
	"grad_norm": 22.39369773864746,
	"learning_rate": 0.0002636363636363636,
	"loss": 4.5143,
	"step": 1450
	},
	{
	"epoch": 2.1066666666666665,
	"grad_norm": 24.582853317260742,
	"learning_rate": 0.00026315536315536315,
	"loss": 4.4835,
	"step": 1460
	},
	{
	"epoch": 2.121081081081081,
	"grad_norm": 22.656949996948242,
	"learning_rate": 0.00026267436267436267,
	"loss": 4.4713,
	"step": 1470
	},
	{
	"epoch": 2.1354954954954954,
	"grad_norm": 22.375396728515625,
	"learning_rate": 0.0002621933621933622,
	"loss": 4.4695,
	"step": 1480
	},
	{
	"epoch": 2.1499099099099097,
	"grad_norm": 17.02708625793457,
	"learning_rate": 0.00026171236171236166,
	"loss": 3.8927,
	"step": 1490
	},
	{
	"epoch": 2.1643243243243244,
	"grad_norm": 19.711584091186523,
	"learning_rate": 0.00026123136123136124,
	"loss": 3.9472,
	"step": 1500
	},
	{
	"epoch": 2.1787387387387387,
	"grad_norm": 18.87154197692871,
	"learning_rate": 0.0002607503607503607,
	"loss": 4.8518,
	"step": 1510
	},
	{
	"epoch": 2.193153153153153,
	"grad_norm": 25.693981170654297,
	"learning_rate": 0.0002602693602693603,
	"loss": 4.6599,
	"step": 1520
	},
	{
	"epoch": 2.2075675675675677,
	"grad_norm": 15.880191802978516,
	"learning_rate": 0.00025978835978835975,
	"loss": 4.1435,
	"step": 1530
	},
	{
	"epoch": 2.221981981981982,
	"grad_norm": 20.515146255493164,
	"learning_rate": 0.00025930735930735927,
	"loss": 4.1378,
	"step": 1540
	},
	{
	"epoch": 2.236396396396396,
	"grad_norm": 23.654556274414062,
	"learning_rate": 0.0002588263588263588,
	"loss": 4.4749,
	"step": 1550
	},
	{
	"epoch": 2.250810810810811,
	"grad_norm": 25.85966682434082,
	"learning_rate": 0.0002583453583453583,
	"loss": 4.2029,
	"step": 1560
	},
	{
	"epoch": 2.265225225225225,
	"grad_norm": 21.542530059814453,
	"learning_rate": 0.00025786435786435784,
	"loss": 4.6039,
	"step": 1570
	},
	{
	"epoch": 2.2796396396396394,
	"grad_norm": 19.57372283935547,
	"learning_rate": 0.00025738335738335736,
	"loss": 4.0779,
	"step": 1580
	},
	{
	"epoch": 2.294054054054054,
	"grad_norm": 20.794376373291016,
	"learning_rate": 0.0002569023569023569,
	"loss": 4.7794,
	"step": 1590
	},
	{
	"epoch": 2.3084684684684684,
	"grad_norm": 23.753938674926758,
	"learning_rate": 0.0002564213564213564,
	"loss": 4.8506,
	"step": 1600
	},
	{
	"epoch": 2.3228828828828827,
	"grad_norm": 19.38469123840332,
	"learning_rate": 0.00025594035594035593,
	"loss": 3.4325,
	"step": 1610
	},
	{
	"epoch": 2.3372972972972974,
	"grad_norm": 21.55483627319336,
	"learning_rate": 0.00025545935545935545,
	"loss": 4.151,
	"step": 1620
	},
	{
	"epoch": 2.3517117117117117,
	"grad_norm": 24.347623825073242,
	"learning_rate": 0.000254978354978355,
	"loss": 4.3691,
	"step": 1630
	},
	{
	"epoch": 2.366126126126126,
	"grad_norm": 22.3781795501709,
	"learning_rate": 0.0002544973544973545,
	"loss": 4.5897,
	"step": 1640
	},
	{
	"epoch": 2.3805405405405407,
	"grad_norm": 23.88686180114746,
	"learning_rate": 0.00025401635401635397,
	"loss": 4.1445,
	"step": 1650
	},
	{
	"epoch": 2.394954954954955,
	"grad_norm": 22.73502540588379,
	"learning_rate": 0.00025353535353535354,
	"loss": 4.7023,
	"step": 1660
	},
	{
	"epoch": 2.409369369369369,
	"grad_norm": 28.19312286376953,
	"learning_rate": 0.000253054353054353,
	"loss": 4.1145,
	"step": 1670
	},
	{
	"epoch": 2.423783783783784,
	"grad_norm": 18.269119262695312,
	"learning_rate": 0.00025257335257335253,
	"loss": 4.2782,
	"step": 1680
	},
	{
	"epoch": 2.438198198198198,
	"grad_norm": 23.031797409057617,
	"learning_rate": 0.00025209235209235206,
	"loss": 4.1351,
	"step": 1690
	},
	{
	"epoch": 2.4526126126126124,
	"grad_norm": 29.572736740112305,
	"learning_rate": 0.0002516113516113516,
	"loss": 3.9022,
	"step": 1700
	},
	{
	"epoch": 2.467027027027027,
	"grad_norm": 27.48060417175293,
	"learning_rate": 0.0002511303511303511,
	"loss": 4.2383,
	"step": 1710
	},
	{
	"epoch": 2.4814414414414414,
	"grad_norm": 20.07984733581543,
	"learning_rate": 0.0002506493506493506,
	"loss": 4.8254,
	"step": 1720
	},
	{
	"epoch": 2.4958558558558557,
	"grad_norm": 15.536605834960938,
	"learning_rate": 0.00025016835016835015,
	"loss": 4.4781,
	"step": 1730
	},
	{
	"epoch": 2.5102702702702704,
	"grad_norm": 24.318782806396484,
	"learning_rate": 0.00024968734968734967,
	"loss": 3.9879,
	"step": 1740
	},
	{
	"epoch": 2.5246846846846847,
	"grad_norm": 16.27837562561035,
	"learning_rate": 0.0002492063492063492,
	"loss": 3.9869,
	"step": 1750
	},
	{
	"epoch": 2.539099099099099,
	"grad_norm": 17.794788360595703,
	"learning_rate": 0.0002487253487253487,
	"loss": 3.9309,
	"step": 1760
	},
	{
	"epoch": 2.5535135135135136,
	"grad_norm": 21.39970588684082,
	"learning_rate": 0.00024824434824434824,
	"loss": 4.3936,
	"step": 1770
	},
	{
	"epoch": 2.567927927927928,
	"grad_norm": 22.3472957611084,
	"learning_rate": 0.00024776334776334776,
	"loss": 4.5431,
	"step": 1780
	},
	{
	"epoch": 2.5823423423423426,
	"grad_norm": 22.283802032470703,
	"learning_rate": 0.00024728234728234723,
	"loss": 3.7322,
	"step": 1790
	},
	{
	"epoch": 2.596756756756757,
	"grad_norm": 20.59347152709961,
	"learning_rate": 0.0002468013468013468,
	"loss": 4.7168,
	"step": 1800
	},
	{
	"epoch": 2.611171171171171,
	"grad_norm": 21.301950454711914,
	"learning_rate": 0.0002463203463203463,
	"loss": 4.2457,
	"step": 1810
	},
	{
	"epoch": 2.6255855855855854,
	"grad_norm": 24.100994110107422,
	"learning_rate": 0.0002458393458393458,
	"loss": 4.0849,
	"step": 1820
	},
	{
	"epoch": 2.64,
	"grad_norm": 20.029577255249023,
	"learning_rate": 0.0002453583453583453,
	"loss": 3.956,
	"step": 1830
	},
	{
	"epoch": 2.6544144144144144,
	"grad_norm": 18.682430267333984,
	"learning_rate": 0.00024487734487734484,
	"loss": 4.0165,
	"step": 1840
	},
	{
	"epoch": 2.668828828828829,
	"grad_norm": 24.04487419128418,
	"learning_rate": 0.00024439634439634437,
	"loss": 4.0105,
	"step": 1850
	},
	{
	"epoch": 2.6832432432432434,
	"grad_norm": 21.22220802307129,
	"learning_rate": 0.0002439153439153439,
	"loss": 3.997,
	"step": 1860
	},
	{
	"epoch": 2.6976576576576576,
	"grad_norm": 19.668106079101562,
	"learning_rate": 0.0002434343434343434,
	"loss": 4.0831,
	"step": 1870
	},
	{
	"epoch": 2.712072072072072,
	"grad_norm": 30.692045211791992,
	"learning_rate": 0.00024295334295334293,
	"loss": 4.0591,
	"step": 1880
	},
	{
	"epoch": 2.7264864864864866,
	"grad_norm": 22.906898498535156,
	"learning_rate": 0.00024247234247234246,
	"loss": 4.5457,
	"step": 1890
	},
	{
	"epoch": 2.740900900900901,
	"grad_norm": 22.690523147583008,
	"learning_rate": 0.00024199134199134195,
	"loss": 3.8756,
	"step": 1900
	},
	{
	"epoch": 2.755315315315315,
	"grad_norm": 21.029132843017578,
	"learning_rate": 0.0002415103415103415,
	"loss": 4.011,
	"step": 1910
	},
	{
	"epoch": 2.76972972972973,
	"grad_norm": 21.587825775146484,
	"learning_rate": 0.000241029341029341,
	"loss": 3.7924,
	"step": 1920
	},
	{
	"epoch": 2.784144144144144,
	"grad_norm": 22.353364944458008,
	"learning_rate": 0.00024054834054834052,
	"loss": 4.3143,
	"step": 1930
	},
	{
	"epoch": 2.7985585585585584,
	"grad_norm": 21.176376342773438,
	"learning_rate": 0.00024006734006734004,
	"loss": 4.6675,
	"step": 1940
	},
	{
	"epoch": 2.812972972972973,
	"grad_norm": 18.859739303588867,
	"learning_rate": 0.00023958633958633956,
	"loss": 4.0779,
	"step": 1950
	},
	{
	"epoch": 2.8273873873873874,
	"grad_norm": 18.34664535522461,
	"learning_rate": 0.0002391053391053391,
	"loss": 4.2849,
	"step": 1960
	},
	{
	"epoch": 2.8418018018018016,
	"grad_norm": 22.619640350341797,
	"learning_rate": 0.0002386243386243386,
	"loss": 3.9383,
	"step": 1970
	},
	{
	"epoch": 2.8562162162162164,
	"grad_norm": 22.183664321899414,
	"learning_rate": 0.0002381433381433381,
	"loss": 3.7888,
	"step": 1980
	},
	{
	"epoch": 2.8706306306306306,
	"grad_norm": 26.002941131591797,
	"learning_rate": 0.00023766233766233765,
	"loss": 3.912,
	"step": 1990
	},
	{
	"epoch": 2.885045045045045,
	"grad_norm": 27.130271911621094,
	"learning_rate": 0.00023718133718133715,
	"loss": 3.9044,
	"step": 2000
	},
	{
	"epoch": 2.8994594594594596,
	"grad_norm": 21.608003616333008,
	"learning_rate": 0.00023670033670033667,
	"loss": 4.2128,
	"step": 2010
	},
	{
	"epoch": 2.913873873873874,
	"grad_norm": 19.621829986572266,
	"learning_rate": 0.0002362193362193362,
	"loss": 3.8509,
	"step": 2020
	},
	{
	"epoch": 2.928288288288288,
	"grad_norm": 23.38471031188965,
	"learning_rate": 0.00023573833573833572,
	"loss": 4.067,
	"step": 2030
	},
	{
	"epoch": 2.942702702702703,
	"grad_norm": 13.28516674041748,
	"learning_rate": 0.0002352573352573352,
	"loss": 4.186,
	"step": 2040
	},
	{
	"epoch": 2.957117117117117,
	"grad_norm": 18.91407585144043,
	"learning_rate": 0.00023477633477633476,
	"loss": 3.7117,
	"step": 2050
	},
	{
	"epoch": 2.9715315315315314,
	"grad_norm": 18.93157196044922,
	"learning_rate": 0.00023429533429533426,
	"loss": 3.8855,
	"step": 2060
	},
	{
	"epoch": 2.985945945945946,
	"grad_norm": 20.980789184570312,
	"learning_rate": 0.0002338143338143338,
	"loss": 3.7871,
	"step": 2070
	},
	{
	"epoch": 2.998918918918919,
	"eval_accuracy": 0.5473845108695652,
	"eval_loss": 1.6941322088241577,
	"eval_runtime": 536.9387,
	"eval_samples_per_second": 10.966,
	"eval_steps_per_second": 10.966,
	"step": 2079
	},
	{
	"epoch": 3.0014414414414414,
	"grad_norm": 28.662826538085938,
	"learning_rate": 0.0002333333333333333,
	"loss": 4.0376,
	"step": 2080
	},
	{
	"epoch": 3.0158558558558557,
	"grad_norm": 13.298629760742188,
	"learning_rate": 0.00023285233285233283,
	"loss": 2.4392,
	"step": 2090
	},
	{
	"epoch": 3.0302702702702704,
	"grad_norm": 20.722625732421875,
	"learning_rate": 0.00023237133237133238,
	"loss": 2.5711,
	"step": 2100
	},
	{
	"epoch": 3.0446846846846847,
	"grad_norm": 18.076677322387695,
	"learning_rate": 0.00023189033189033187,
	"loss": 2.4815,
	"step": 2110
	},
	{
	"epoch": 3.059099099099099,
	"grad_norm": 23.47679328918457,
	"learning_rate": 0.00023140933140933137,
	"loss": 2.4175,
	"step": 2120
	},
	{
	"epoch": 3.0735135135135137,
	"grad_norm": 25.233163833618164,
	"learning_rate": 0.00023092833092833092,
	"loss": 2.6018,
	"step": 2130
	},
	{
	"epoch": 3.087927927927928,
	"grad_norm": 23.916234970092773,
	"learning_rate": 0.0002304473304473304,
	"loss": 2.9529,
	"step": 2140
	},
	{
	"epoch": 3.102342342342342,
	"grad_norm": 20.37197494506836,
	"learning_rate": 0.00022996632996632994,
	"loss": 2.2146,
	"step": 2150
	},
	{
	"epoch": 3.116756756756757,
	"grad_norm": 20.04782485961914,
	"learning_rate": 0.00022948532948532948,
	"loss": 2.1764,
	"step": 2160
	},
	{
	"epoch": 3.131171171171171,
	"grad_norm": 24.065858840942383,
	"learning_rate": 0.00022900432900432898,
	"loss": 2.7395,
	"step": 2170
	},
	{
	"epoch": 3.1455855855855854,
	"grad_norm": 20.15619468688965,
	"learning_rate": 0.00022852332852332853,
	"loss": 2.6955,
	"step": 2180
	},
	{
	"epoch": 3.16,
	"grad_norm": 15.333986282348633,
	"learning_rate": 0.00022804232804232803,
	"loss": 2.378,
	"step": 2190
	},
	{
	"epoch": 3.1744144144144144,
	"grad_norm": 17.780742645263672,
	"learning_rate": 0.00022756132756132752,
	"loss": 2.4017,
	"step": 2200
	},
	{
	"epoch": 3.1888288288288287,
	"grad_norm": 22.119949340820312,
	"learning_rate": 0.00022708032708032707,
	"loss": 2.3123,
	"step": 2210
	},
	{
	"epoch": 3.2032432432432434,
	"grad_norm": 22.979034423828125,
	"learning_rate": 0.0002265993265993266,
	"loss": 1.877,
	"step": 2220
	},
	{
	"epoch": 3.2176576576576577,
	"grad_norm": 21.25425910949707,
	"learning_rate": 0.0002261183261183261,
	"loss": 2.3021,
	"step": 2230
	},
	{
	"epoch": 3.232072072072072,
	"grad_norm": 20.077585220336914,
	"learning_rate": 0.00022563732563732564,
	"loss": 2.5026,
	"step": 2240
	},
	{
	"epoch": 3.2464864864864866,
	"grad_norm": 21.955101013183594,
	"learning_rate": 0.00022515632515632513,
	"loss": 2.4518,
	"step": 2250
	},
	{
	"epoch": 3.260900900900901,
	"grad_norm": 23.3514347076416,
	"learning_rate": 0.00022467532467532463,
	"loss": 2.4694,
	"step": 2260
	},
	{
	"epoch": 3.275315315315315,
	"grad_norm": 11.233248710632324,
	"learning_rate": 0.00022419432419432418,
	"loss": 2.2057,
	"step": 2270
	},
	{
	"epoch": 3.28972972972973,
	"grad_norm": 20.17824363708496,
	"learning_rate": 0.0002237133237133237,
	"loss": 2.3982,
	"step": 2280
	},
	{
	"epoch": 3.304144144144144,
	"grad_norm": 20.694353103637695,
	"learning_rate": 0.00022323232323232322,
	"loss": 3.0053,
	"step": 2290
	},
	{
	"epoch": 3.3185585585585584,
	"grad_norm": 24.36587142944336,
	"learning_rate": 0.00022275132275132275,
	"loss": 2.3132,
	"step": 2300
	},
	{
	"epoch": 3.332972972972973,
	"grad_norm": 18.3751277923584,
	"learning_rate": 0.00022227032227032224,
	"loss": 2.2867,
	"step": 2310
	},
	{
	"epoch": 3.3473873873873874,
	"grad_norm": 19.790868759155273,
	"learning_rate": 0.0002217893217893218,
	"loss": 2.7789,
	"step": 2320
	},
	{
	"epoch": 3.3618018018018017,
	"grad_norm": 24.86772346496582,
	"learning_rate": 0.0002213083213083213,
	"loss": 3.0161,
	"step": 2330
	},
	{
	"epoch": 3.3762162162162164,
	"grad_norm": 21.827804565429688,
	"learning_rate": 0.0002208273208273208,
	"loss": 2.546,
	"step": 2340
	},
	{
	"epoch": 3.3906306306306306,
	"grad_norm": 19.654054641723633,
	"learning_rate": 0.00022034632034632033,
	"loss": 2.6371,
	"step": 2350
	},
	{
	"epoch": 3.405045045045045,
	"grad_norm": 21.734804153442383,
	"learning_rate": 0.00021986531986531986,
	"loss": 2.4253,
	"step": 2360
	},
	{
	"epoch": 3.4194594594594596,
	"grad_norm": 27.88010597229004,
	"learning_rate": 0.00021938431938431935,
	"loss": 2.2937,
	"step": 2370
	},
	{
	"epoch": 3.433873873873874,
	"grad_norm": 22.679140090942383,
	"learning_rate": 0.0002189033189033189,
	"loss": 2.6596,
	"step": 2380
	},
	{
	"epoch": 3.448288288288288,
	"grad_norm": 21.52387809753418,
	"learning_rate": 0.0002184223184223184,
	"loss": 2.0818,
	"step": 2390
	},
	{
	"epoch": 3.462702702702703,
	"grad_norm": 20.006406784057617,
	"learning_rate": 0.00021794131794131792,
	"loss": 2.8108,
	"step": 2400
	},
	{
	"epoch": 3.477117117117117,
	"grad_norm": 19.29098892211914,
	"learning_rate": 0.00021746031746031744,
	"loss": 2.3845,
	"step": 2410
	},
	{
	"epoch": 3.4915315315315314,
	"grad_norm": 16.946989059448242,
	"learning_rate": 0.00021697931697931696,
	"loss": 2.5469,
	"step": 2420
	},
	{
	"epoch": 3.505945945945946,
	"grad_norm": 25.288267135620117,
	"learning_rate": 0.0002164983164983165,
	"loss": 2.5397,
	"step": 2430
	},
	{
	"epoch": 3.5203603603603604,
	"grad_norm": 25.8332462310791,
	"learning_rate": 0.000216017316017316,
	"loss": 2.1714,
	"step": 2440
	},
	{
	"epoch": 3.5347747747747746,
	"grad_norm": 19.762386322021484,
	"learning_rate": 0.0002155363155363155,
	"loss": 3.3805,
	"step": 2450
	},
	{
	"epoch": 3.5491891891891894,
	"grad_norm": 20.7349796295166,
	"learning_rate": 0.00021505531505531505,
	"loss": 2.7777,
	"step": 2460
	},
	{
	"epoch": 3.5636036036036036,
	"grad_norm": 22.35674285888672,
	"learning_rate": 0.00021457431457431455,
	"loss": 2.1907,
	"step": 2470
	},
	{
	"epoch": 3.578018018018018,
	"grad_norm": 21.76331901550293,
	"learning_rate": 0.00021409331409331407,
	"loss": 2.7713,
	"step": 2480
	},
	{
	"epoch": 3.5924324324324326,
	"grad_norm": 20.995986938476562,
	"learning_rate": 0.0002136123136123136,
	"loss": 2.6262,
	"step": 2490
	},
	{
	"epoch": 3.606846846846847,
	"grad_norm": 23.074106216430664,
	"learning_rate": 0.00021313131313131312,
	"loss": 2.0651,
	"step": 2500
	},
	{
	"epoch": 3.621261261261261,
	"grad_norm": 23.654848098754883,
	"learning_rate": 0.00021265031265031261,
	"loss": 2.718,
	"step": 2510
	},
	{
	"epoch": 3.6356756756756754,
	"grad_norm": 25.261152267456055,
	"learning_rate": 0.00021216931216931216,
	"loss": 2.6679,
	"step": 2520
	},
	{
	"epoch": 3.65009009009009,
	"grad_norm": 21.01721954345703,
	"learning_rate": 0.00021168831168831166,
	"loss": 2.8435,
	"step": 2530
	},
	{
	"epoch": 3.6645045045045044,
	"grad_norm": 22.361772537231445,
	"learning_rate": 0.0002112073112073112,
	"loss": 2.7907,
	"step": 2540
	},
	{
	"epoch": 3.678918918918919,
	"grad_norm": 25.23889923095703,
	"learning_rate": 0.0002107263107263107,
	"loss": 2.8608,
	"step": 2550
	},
	{
	"epoch": 3.6933333333333334,
	"grad_norm": 21.43499183654785,
	"learning_rate": 0.00021024531024531023,
	"loss": 2.3714,
	"step": 2560
	},
	{
	"epoch": 3.7077477477477476,
	"grad_norm": 20.24538230895996,
	"learning_rate": 0.00020976430976430975,
	"loss": 2.4759,
	"step": 2570
	},
	{
	"epoch": 3.722162162162162,
	"grad_norm": 22.164335250854492,
	"learning_rate": 0.00020928330928330927,
	"loss": 2.8105,
	"step": 2580
	},
	{
	"epoch": 3.7365765765765766,
	"grad_norm": 25.067033767700195,
	"learning_rate": 0.00020880230880230877,
	"loss": 2.3837,
	"step": 2590
	},
	{
	"epoch": 3.750990990990991,
	"grad_norm": 27.547651290893555,
	"learning_rate": 0.00020832130832130832,
	"loss": 2.4441,
	"step": 2600
	},
	{
	"epoch": 3.7654054054054056,
	"grad_norm": 19.971914291381836,
	"learning_rate": 0.0002078403078403078,
	"loss": 2.4194,
	"step": 2610
	},
	{
	"epoch": 3.77981981981982,
	"grad_norm": 17.411178588867188,
	"learning_rate": 0.00020735930735930734,
	"loss": 2.3971,
	"step": 2620
	},
	{
	"epoch": 3.794234234234234,
	"grad_norm": 31.035659790039062,
	"learning_rate": 0.00020687830687830686,
	"loss": 2.6306,
	"step": 2630
	},
	{
	"epoch": 3.8086486486486484,
	"grad_norm": 26.793031692504883,
	"learning_rate": 0.00020639730639730638,
	"loss": 3.0321,
	"step": 2640
	},
	{
	"epoch": 3.823063063063063,
	"grad_norm": 27.277006149291992,
	"learning_rate": 0.0002059163059163059,
	"loss": 2.1434,
	"step": 2650
	},
	{
	"epoch": 3.8374774774774774,
	"grad_norm": 29.178829193115234,
	"learning_rate": 0.00020543530543530543,
	"loss": 2.7848,
	"step": 2660
	},
	{
	"epoch": 3.851891891891892,
	"grad_norm": 17.34369659423828,
	"learning_rate": 0.00020495430495430492,
	"loss": 2.5354,
	"step": 2670
	},
	{
	"epoch": 3.8663063063063063,
	"grad_norm": 24.41458511352539,
	"learning_rate": 0.00020447330447330447,
	"loss": 2.4852,
	"step": 2680
	},
	{
	"epoch": 3.8807207207207206,
	"grad_norm": 27.604721069335938,
	"learning_rate": 0.00020399230399230397,
	"loss": 2.6835,
	"step": 2690
	},
	{
	"epoch": 3.895135135135135,
	"grad_norm": 19.998043060302734,
	"learning_rate": 0.0002035113035113035,
	"loss": 2.2523,
	"step": 2700
	},
	{
	"epoch": 3.9095495495495496,
	"grad_norm": 26.73026466369629,
	"learning_rate": 0.000203030303030303,
	"loss": 3.4174,
	"step": 2710
	},
	{
	"epoch": 3.923963963963964,
	"grad_norm": 27.696605682373047,
	"learning_rate": 0.00020254930254930253,
	"loss": 2.5488,
	"step": 2720
	},
	{
	"epoch": 3.9383783783783786,
	"grad_norm": 25.43397331237793,
	"learning_rate": 0.00020206830206830203,
	"loss": 2.1643,
	"step": 2730
	},
	{
	"epoch": 3.952792792792793,
	"grad_norm": 18.155502319335938,
	"learning_rate": 0.00020158730158730158,
	"loss": 2.2196,
	"step": 2740
	},
	{
	"epoch": 3.967207207207207,
	"grad_norm": 27.430566787719727,
	"learning_rate": 0.00020110630110630108,
	"loss": 2.2681,
	"step": 2750
	},
	{
	"epoch": 3.9816216216216214,
	"grad_norm": 17.62324333190918,
	"learning_rate": 0.00020062530062530062,
	"loss": 2.3872,
	"step": 2760
	},
	{
	"epoch": 3.996036036036036,
	"grad_norm": 22.322702407836914,
	"learning_rate": 0.00020014430014430012,
	"loss": 2.7966,
	"step": 2770
	},
	{
	"epoch": 3.998918918918919,
	"eval_accuracy": 0.5579144021739131,
	"eval_loss": 1.8579920530319214,
	"eval_runtime": 536.9866,
	"eval_samples_per_second": 10.965,
	"eval_steps_per_second": 10.965,
	"step": 2772
	},
	{
	"epoch": 4.011531531531531,
	"grad_norm": 17.038963317871094,
	"learning_rate": 0.00019971139971139968,
	"loss": 1.7853,
	"step": 2780
	},
	{
	"epoch": 4.025945945945946,
	"grad_norm": 21.912731170654297,
	"learning_rate": 0.00019923039923039923,
	"loss": 1.4446,
	"step": 2790
	},
	{
	"epoch": 4.04036036036036,
	"grad_norm": 8.3090238571167,
	"learning_rate": 0.00019874939874939873,
	"loss": 1.1382,
	"step": 2800
	},
	{
	"epoch": 4.054774774774775,
	"grad_norm": 10.985939979553223,
	"learning_rate": 0.00019826839826839825,
	"loss": 1.4296,
	"step": 2810
	},
	{
	"epoch": 4.069189189189189,
	"grad_norm": 14.48794174194336,
	"learning_rate": 0.00019778739778739777,
	"loss": 1.3267,
	"step": 2820
	},
	{
	"epoch": 4.083603603603604,
	"grad_norm": 7.6786789894104,
	"learning_rate": 0.0001973063973063973,
	"loss": 1.3823,
	"step": 2830
	},
	{
	"epoch": 4.098018018018018,
	"grad_norm": 21.3938045501709,
	"learning_rate": 0.0001968253968253968,
	"loss": 1.636,
	"step": 2840
	},
	{
	"epoch": 4.112432432432432,
	"grad_norm": 16.059181213378906,
	"learning_rate": 0.00019634439634439634,
	"loss": 1.4253,
	"step": 2850
	},
	{
	"epoch": 4.126846846846846,
	"grad_norm": 31.663381576538086,
	"learning_rate": 0.00019586339586339583,
	"loss": 1.6679,
	"step": 2860
	},
	{
	"epoch": 4.141261261261262,
	"grad_norm": 28.778202056884766,
	"learning_rate": 0.00019538239538239536,
	"loss": 1.7084,
	"step": 2870
	},
	{
	"epoch": 4.155675675675676,
	"grad_norm": 24.17688751220703,
	"learning_rate": 0.00019490139490139488,
	"loss": 1.503,
	"step": 2880
	},
	{
	"epoch": 4.17009009009009,
	"grad_norm": 18.74388313293457,
	"learning_rate": 0.0001944203944203944,
	"loss": 1.4459,
	"step": 2890
	},
	{
	"epoch": 4.184504504504504,
	"grad_norm": 25.333425521850586,
	"learning_rate": 0.00019393939393939395,
	"loss": 1.5935,
	"step": 2900
	},
	{
	"epoch": 4.198918918918919,
	"grad_norm": 19.402793884277344,
	"learning_rate": 0.00019345839345839345,
	"loss": 1.3032,
	"step": 2910
	},
	{
	"epoch": 4.213333333333333,
	"grad_norm": 11.908445358276367,
	"learning_rate": 0.00019297739297739294,
	"loss": 1.4052,
	"step": 2920
	},
	{
	"epoch": 4.227747747747748,
	"grad_norm": 10.511947631835938,
	"learning_rate": 0.0001924963924963925,
	"loss": 1.3532,
	"step": 2930
	},
	{
	"epoch": 4.242162162162162,
	"grad_norm": 18.962549209594727,
	"learning_rate": 0.000192015392015392,
	"loss": 1.4759,
	"step": 2940
	},
	{
	"epoch": 4.256576576576577,
	"grad_norm": 29.238679885864258,
	"learning_rate": 0.0001915343915343915,
	"loss": 1.6444,
	"step": 2950
	},
	{
	"epoch": 4.270990990990991,
	"grad_norm": 13.944114685058594,
	"learning_rate": 0.00019105339105339106,
	"loss": 1.5509,
	"step": 2960
	},
	{
	"epoch": 4.285405405405405,
	"grad_norm": 17.7829532623291,
	"learning_rate": 0.00019057239057239056,
	"loss": 1.4536,
	"step": 2970
	},
	{
	"epoch": 4.299819819819819,
	"grad_norm": 13.711050033569336,
	"learning_rate": 0.00019009139009139005,
	"loss": 1.299,
	"step": 2980
	},
	{
	"epoch": 4.314234234234235,
	"grad_norm": 24.686168670654297,
	"learning_rate": 0.0001896103896103896,
	"loss": 1.3826,
	"step": 2990
	},
	{
	"epoch": 4.328648648648649,
	"grad_norm": 21.13921546936035,
	"learning_rate": 0.0001891293891293891,
	"loss": 1.7036,
	"step": 3000
	},
	{
	"epoch": 4.343063063063063,
	"grad_norm": 14.596439361572266,
	"learning_rate": 0.00018864838864838862,
	"loss": 1.5839,
	"step": 3010
	},
	{
	"epoch": 4.357477477477477,
	"grad_norm": 22.715736389160156,
	"learning_rate": 0.00018816738816738817,
	"loss": 1.5686,
	"step": 3020
	},
	{
	"epoch": 4.371891891891892,
	"grad_norm": 17.39431381225586,
	"learning_rate": 0.00018768638768638766,
	"loss": 1.5422,
	"step": 3030
	},
	{
	"epoch": 4.386306306306306,
	"grad_norm": 24.868406295776367,
	"learning_rate": 0.0001872053872053872,
	"loss": 1.7397,
	"step": 3040
	},
	{
	"epoch": 4.400720720720721,
	"grad_norm": 26.22691535949707,
	"learning_rate": 0.0001867243867243867,
	"loss": 1.4283,
	"step": 3050
	},
	{
	"epoch": 4.415135135135135,
	"grad_norm": 15.568745613098145,
	"learning_rate": 0.0001862433862433862,
	"loss": 1.2897,
	"step": 3060
	},
	{
	"epoch": 4.42954954954955,
	"grad_norm": 19.749555587768555,
	"learning_rate": 0.00018576238576238575,
	"loss": 1.4769,
	"step": 3070
	},
	{
	"epoch": 4.443963963963964,
	"grad_norm": 29.223718643188477,
	"learning_rate": 0.00018528138528138528,
	"loss": 1.3324,
	"step": 3080
	},
	{
	"epoch": 4.458378378378378,
	"grad_norm": 19.438663482666016,
	"learning_rate": 0.00018480038480038477,
	"loss": 1.568,
	"step": 3090
	},
	{
	"epoch": 4.472792792792792,
	"grad_norm": 10.73144245147705,
	"learning_rate": 0.00018431938431938432,
	"loss": 1.1532,
	"step": 3100
	},
	{
	"epoch": 4.487207207207208,
	"grad_norm": 16.664306640625,
	"learning_rate": 0.00018383838383838382,
	"loss": 1.4775,
	"step": 3110
	},
	{
	"epoch": 4.501621621621622,
	"grad_norm": 25.43704605102539,
	"learning_rate": 0.0001833573833573833,
	"loss": 1.3084,
	"step": 3120
	},
	{
	"epoch": 4.516036036036036,
	"grad_norm": 22.560327529907227,
	"learning_rate": 0.00018287638287638286,
	"loss": 1.4541,
	"step": 3130
	},
	{
	"epoch": 4.53045045045045,
	"grad_norm": 22.581119537353516,
	"learning_rate": 0.00018239538239538239,
	"loss": 1.4581,
	"step": 3140
	},
	{
	"epoch": 4.544864864864865,
	"grad_norm": 19.075603485107422,
	"learning_rate": 0.0001819143819143819,
	"loss": 1.3255,
	"step": 3150
	},
	{
	"epoch": 4.559279279279279,
	"grad_norm": 15.375678062438965,
	"learning_rate": 0.00018143338143338143,
	"loss": 1.035,
	"step": 3160
	},
	{
	"epoch": 4.573693693693694,
	"grad_norm": 30.394746780395508,
	"learning_rate": 0.00018095238095238093,
	"loss": 1.7147,
	"step": 3170
	},
	{
	"epoch": 4.588108108108108,
	"grad_norm": 29.191686630249023,
	"learning_rate": 0.00018047138047138048,
	"loss": 1.3125,
	"step": 3180
	},
	{
	"epoch": 4.602522522522523,
	"grad_norm": 21.012161254882812,
	"learning_rate": 0.00017999037999037997,
	"loss": 1.5039,
	"step": 3190
	},
	{
	"epoch": 4.616936936936937,
	"grad_norm": 17.093364715576172,
	"learning_rate": 0.0001795093795093795,
	"loss": 1.4667,
	"step": 3200
	},
	{
	"epoch": 4.631351351351351,
	"grad_norm": 14.385228157043457,
	"learning_rate": 0.00017902837902837902,
	"loss": 1.2575,
	"step": 3210
	},
	{
	"epoch": 4.645765765765765,
	"grad_norm": 16.330244064331055,
	"learning_rate": 0.00017854737854737854,
	"loss": 1.2436,
	"step": 3220
	},
	{
	"epoch": 4.6601801801801805,
	"grad_norm": 17.112266540527344,
	"learning_rate": 0.00017806637806637803,
	"loss": 1.5148,
	"step": 3230
	},
	{
	"epoch": 4.674594594594595,
	"grad_norm": 25.027666091918945,
	"learning_rate": 0.00017758537758537758,
	"loss": 1.6239,
	"step": 3240
	},
	{
	"epoch": 4.689009009009009,
	"grad_norm": 11.63669490814209,
	"learning_rate": 0.00017710437710437708,
	"loss": 1.4982,
	"step": 3250
	},
	{
	"epoch": 4.703423423423423,
	"grad_norm": 18.43046760559082,
	"learning_rate": 0.00017662337662337663,
	"loss": 1.4225,
	"step": 3260
	},
	{
	"epoch": 4.717837837837838,
	"grad_norm": 17.656518936157227,
	"learning_rate": 0.00017614237614237613,
	"loss": 1.4843,
	"step": 3270
	},
	{
	"epoch": 4.732252252252252,
	"grad_norm": 17.17339324951172,
	"learning_rate": 0.00017566137566137565,
	"loss": 1.5321,
	"step": 3280
	},
	{
	"epoch": 4.746666666666667,
	"grad_norm": 18.681303024291992,
	"learning_rate": 0.00017518037518037517,
	"loss": 1.6286,
	"step": 3290
	},
	{
	"epoch": 4.761081081081081,
	"grad_norm": 22.697771072387695,
	"learning_rate": 0.0001746993746993747,
	"loss": 1.4057,
	"step": 3300
	},
	{
	"epoch": 4.775495495495496,
	"grad_norm": 16.85506248474121,
	"learning_rate": 0.0001742183742183742,
	"loss": 1.6464,
	"step": 3310
	},
	{
	"epoch": 4.78990990990991,
	"grad_norm": 23.760793685913086,
	"learning_rate": 0.00017373737373737374,
	"loss": 1.4451,
	"step": 3320
	},
	{
	"epoch": 4.804324324324324,
	"grad_norm": 19.93245506286621,
	"learning_rate": 0.00017325637325637323,
	"loss": 1.821,
	"step": 3330
	},
	{
	"epoch": 4.818738738738738,
	"grad_norm": 15.235669136047363,
	"learning_rate": 0.00017277537277537276,
	"loss": 1.3603,
	"step": 3340
	},
	{
	"epoch": 4.8331531531531535,
	"grad_norm": 18.125097274780273,
	"learning_rate": 0.00017229437229437228,
	"loss": 1.2805,
	"step": 3350
	},
	{
	"epoch": 4.847567567567568,
	"grad_norm": 19.607587814331055,
	"learning_rate": 0.0001718133718133718,
	"loss": 1.7882,
	"step": 3360
	},
	{
	"epoch": 4.861981981981982,
	"grad_norm": 30.157733917236328,
	"learning_rate": 0.00017133237133237132,
	"loss": 1.5676,
	"step": 3370
	},
	{
	"epoch": 4.876396396396396,
	"grad_norm": 14.961874961853027,
	"learning_rate": 0.00017085137085137085,
	"loss": 1.2282,
	"step": 3380
	},
	{
	"epoch": 4.890810810810811,
	"grad_norm": 29.467988967895508,
	"learning_rate": 0.00017037037037037034,
	"loss": 1.6735,
	"step": 3390
	},
	{
	"epoch": 4.905225225225225,
	"grad_norm": 22.682449340820312,
	"learning_rate": 0.0001698893698893699,
	"loss": 1.4523,
	"step": 3400
	},
	{
	"epoch": 4.91963963963964,
	"grad_norm": 17.40091323852539,
	"learning_rate": 0.0001694083694083694,
	"loss": 1.1466,
	"step": 3410
	},
	{
	"epoch": 4.934054054054054,
	"grad_norm": 24.69778823852539,
	"learning_rate": 0.0001689273689273689,
	"loss": 1.2446,
	"step": 3420
	},
	{
	"epoch": 4.9484684684684686,
	"grad_norm": 14.909017562866211,
	"learning_rate": 0.00016844636844636843,
	"loss": 1.5575,
	"step": 3430
	},
	{
	"epoch": 4.962882882882883,
	"grad_norm": 13.104373931884766,
	"learning_rate": 0.00016796536796536796,
	"loss": 1.5514,
	"step": 3440
	},
	{
	"epoch": 4.977297297297297,
	"grad_norm": 24.999370574951172,
	"learning_rate": 0.00016748436748436745,
	"loss": 1.4959,
	"step": 3450
	},
	{
	"epoch": 4.991711711711711,
	"grad_norm": 29.072294235229492,
	"learning_rate": 0.000167003367003367,
	"loss": 1.5871,
	"step": 3460
	},
	{
	"epoch": 4.998918918918919,
	"eval_accuracy": 0.6139605978260869,
	"eval_loss": 1.6662975549697876,
	"eval_runtime": 540.9629,
	"eval_samples_per_second": 10.884,
	"eval_steps_per_second": 10.884,
	"step": 3465
	},
	{
	"epoch": 5.007207207207207,
	"grad_norm": 12.2052640914917,
	"learning_rate": 0.0001665223665223665,
	"loss": 0.9848,
	"step": 3470
	},
	{
	"epoch": 5.021621621621621,
	"grad_norm": 11.040346145629883,
	"learning_rate": 0.00016604136604136605,
	"loss": 0.7229,
	"step": 3480
	},
	{
	"epoch": 5.036036036036036,
	"grad_norm": 11.913896560668945,
	"learning_rate": 0.00016556036556036554,
	"loss": 0.5134,
	"step": 3490
	},
	{
	"epoch": 5.050450450450451,
	"grad_norm": 16.600475311279297,
	"learning_rate": 0.00016507936507936506,
	"loss": 0.5581,
	"step": 3500
	},
	{
	"epoch": 5.064864864864865,
	"grad_norm": 9.584583282470703,
	"learning_rate": 0.0001645983645983646,
	"loss": 0.7335,
	"step": 3510
	},
	{
	"epoch": 5.079279279279279,
	"grad_norm": 15.97603702545166,
	"learning_rate": 0.0001641173641173641,
	"loss": 0.9761,
	"step": 3520
	},
	{
	"epoch": 5.093693693693694,
	"grad_norm": 21.01009178161621,
	"learning_rate": 0.0001636363636363636,
	"loss": 0.6637,
	"step": 3530
	},
	{
	"epoch": 5.108108108108108,
	"grad_norm": 18.944791793823242,
	"learning_rate": 0.00016315536315536315,
	"loss": 0.8514,
	"step": 3540
	},
	{
	"epoch": 5.122522522522522,
	"grad_norm": 15.107224464416504,
	"learning_rate": 0.00016267436267436265,
	"loss": 0.7069,
	"step": 3550
	},
	{
	"epoch": 5.136936936936937,
	"grad_norm": 20.789289474487305,
	"learning_rate": 0.00016219336219336217,
	"loss": 0.7369,
	"step": 3560
	},
	{
	"epoch": 5.151351351351352,
	"grad_norm": 25.02975845336914,
	"learning_rate": 0.0001617123617123617,
	"loss": 0.85,
	"step": 3570
	},
	{
	"epoch": 5.165765765765766,
	"grad_norm": 14.045705795288086,
	"learning_rate": 0.00016123136123136122,
	"loss": 1.0056,
	"step": 3580
	},
	{
	"epoch": 5.18018018018018,
	"grad_norm": 19.27486801147461,
	"learning_rate": 0.00016075036075036074,
	"loss": 0.8829,
	"step": 3590
	},
	{
	"epoch": 5.194594594594594,
	"grad_norm": 16.740869522094727,
	"learning_rate": 0.00016026936026936026,
	"loss": 0.7436,
	"step": 3600
	},
	{
	"epoch": 5.209009009009009,
	"grad_norm": 22.02817153930664,
	"learning_rate": 0.00015978835978835976,
	"loss": 0.8404,
	"step": 3610
	},
	{
	"epoch": 5.223423423423424,
	"grad_norm": 18.062744140625,
	"learning_rate": 0.0001593073593073593,
	"loss": 0.9403,
	"step": 3620
	},
	{
	"epoch": 5.237837837837838,
	"grad_norm": 11.673712730407715,
	"learning_rate": 0.0001588263588263588,
	"loss": 0.8351,
	"step": 3630
	},
	{
	"epoch": 5.252252252252252,
	"grad_norm": 13.337545394897461,
	"learning_rate": 0.00015834535834535833,
	"loss": 0.6274,
	"step": 3640
	},
	{
	"epoch": 5.266666666666667,
	"grad_norm": 19.310646057128906,
	"learning_rate": 0.00015786435786435785,
	"loss": 0.969,
	"step": 3650
	},
	{
	"epoch": 5.281081081081081,
	"grad_norm": 19.875566482543945,
	"learning_rate": 0.00015738335738335737,
	"loss": 0.6036,
	"step": 3660
	},
	{
	"epoch": 5.295495495495495,
	"grad_norm": 15.952252388000488,
	"learning_rate": 0.00015690235690235687,
	"loss": 0.6879,
	"step": 3670
	},
	{
	"epoch": 5.30990990990991,
	"grad_norm": 17.611326217651367,
	"learning_rate": 0.00015642135642135642,
	"loss": 0.5589,
	"step": 3680
	},
	{
	"epoch": 5.324324324324325,
	"grad_norm": 19.946884155273438,
	"learning_rate": 0.0001559403559403559,
	"loss": 0.7953,
	"step": 3690
	},
	{
	"epoch": 5.338738738738739,
	"grad_norm": 11.897385597229004,
	"learning_rate": 0.00015545935545935546,
	"loss": 0.5896,
	"step": 3700
	},
	{
	"epoch": 5.353153153153153,
	"grad_norm": 15.592938423156738,
	"learning_rate": 0.00015497835497835496,
	"loss": 1.1955,
	"step": 3710
	},
	{
	"epoch": 5.367567567567567,
	"grad_norm": 15.585307121276855,
	"learning_rate": 0.00015449735449735448,
	"loss": 1.0289,
	"step": 3720
	},
	{
	"epoch": 5.381981981981982,
	"grad_norm": 14.25250244140625,
	"learning_rate": 0.000154016354016354,
	"loss": 0.5986,
	"step": 3730
	},
	{
	"epoch": 5.396396396396397,
	"grad_norm": 23.96398162841797,
	"learning_rate": 0.00015353535353535353,
	"loss": 0.7085,
	"step": 3740
	},
	{
	"epoch": 5.410810810810811,
	"grad_norm": 23.628772735595703,
	"learning_rate": 0.00015305435305435302,
	"loss": 0.826,
	"step": 3750
	},
	{
	"epoch": 5.425225225225225,
	"grad_norm": 17.359643936157227,
	"learning_rate": 0.00015257335257335257,
	"loss": 0.7858,
	"step": 3760
	},
	{
	"epoch": 5.43963963963964,
	"grad_norm": 22.010915756225586,
	"learning_rate": 0.00015209235209235207,
	"loss": 0.7688,
	"step": 3770
	},
	{
	"epoch": 5.454054054054054,
	"grad_norm": 28.990123748779297,
	"learning_rate": 0.0001516113516113516,
	"loss": 0.7106,
	"step": 3780
	},
	{
	"epoch": 5.468468468468468,
	"grad_norm": 11.545175552368164,
	"learning_rate": 0.0001511303511303511,
	"loss": 0.9866,
	"step": 3790
	},
	{
	"epoch": 5.482882882882883,
	"grad_norm": 25.446990966796875,
	"learning_rate": 0.00015064935064935063,
	"loss": 0.9894,
	"step": 3800
	},
	{
	"epoch": 5.4972972972972975,
	"grad_norm": 28.915557861328125,
	"learning_rate": 0.00015016835016835018,
	"loss": 0.8584,
	"step": 3810
	},
	{
	"epoch": 5.511711711711712,
	"grad_norm": 19.692970275878906,
	"learning_rate": 0.00014968734968734968,
	"loss": 0.6045,
	"step": 3820
	},
	{
	"epoch": 5.526126126126126,
	"grad_norm": 25.059045791625977,
	"learning_rate": 0.00014920634920634917,
	"loss": 1.1067,
	"step": 3830
	},
	{
	"epoch": 5.54054054054054,
	"grad_norm": 13.645286560058594,
	"learning_rate": 0.0001487253487253487,
	"loss": 0.7451,
	"step": 3840
	},
	{
	"epoch": 5.554954954954955,
	"grad_norm": 22.43482780456543,
	"learning_rate": 0.00014824434824434822,
	"loss": 0.8842,
	"step": 3850
	},
	{
	"epoch": 5.569369369369369,
	"grad_norm": 11.246109008789062,
	"learning_rate": 0.00014776334776334774,
	"loss": 0.629,
	"step": 3860
	},
	{
	"epoch": 5.583783783783784,
	"grad_norm": 21.903657913208008,
	"learning_rate": 0.00014728234728234727,
	"loss": 0.9014,
	"step": 3870
	},
	{
	"epoch": 5.598198198198198,
	"grad_norm": 9.34262752532959,
	"learning_rate": 0.0001468013468013468,
	"loss": 0.8017,
	"step": 3880
	},
	{
	"epoch": 5.612612612612613,
	"grad_norm": 28.314603805541992,
	"learning_rate": 0.0001463203463203463,
	"loss": 0.8316,
	"step": 3890
	},
	{
	"epoch": 5.627027027027027,
	"grad_norm": 23.812631607055664,
	"learning_rate": 0.00014583934583934583,
	"loss": 1.1573,
	"step": 3900
	},
	{
	"epoch": 5.641441441441441,
	"grad_norm": 19.350114822387695,
	"learning_rate": 0.00014535834535834533,
	"loss": 0.6841,
	"step": 3910
	},
	{
	"epoch": 5.655855855855856,
	"grad_norm": 36.78022766113281,
	"learning_rate": 0.00014487734487734485,
	"loss": 0.8235,
	"step": 3920
	},
	{
	"epoch": 5.6702702702702705,
	"grad_norm": 14.95051097869873,
	"learning_rate": 0.0001443963443963444,
	"loss": 0.6835,
	"step": 3930
	},
	{
	"epoch": 5.684684684684685,
	"grad_norm": 11.998274803161621,
	"learning_rate": 0.0001439153439153439,
	"loss": 0.9942,
	"step": 3940
	},
	{
	"epoch": 5.699099099099099,
	"grad_norm": 19.465404510498047,
	"learning_rate": 0.00014343434343434342,
	"loss": 0.9386,
	"step": 3950
	},
	{
	"epoch": 5.713513513513513,
	"grad_norm": 15.735244750976562,
	"learning_rate": 0.00014295334295334294,
	"loss": 0.8174,
	"step": 3960
	},
	{
	"epoch": 5.727927927927928,
	"grad_norm": 24.03779411315918,
	"learning_rate": 0.00014247234247234246,
	"loss": 1.0849,
	"step": 3970
	},
	{
	"epoch": 5.742342342342342,
	"grad_norm": 12.98159408569336,
	"learning_rate": 0.00014199134199134196,
	"loss": 0.6748,
	"step": 3980
	},
	{
	"epoch": 5.756756756756757,
	"grad_norm": 13.99123477935791,
	"learning_rate": 0.0001415103415103415,
	"loss": 0.6744,
	"step": 3990
	},
	{
	"epoch": 5.771171171171171,
	"grad_norm": 24.469266891479492,
	"learning_rate": 0.00014102934102934103,
	"loss": 0.6449,
	"step": 4000
	},
	{
	"epoch": 5.7855855855855856,
	"grad_norm": 28.23906898498535,
	"learning_rate": 0.00014054834054834055,
	"loss": 0.757,
	"step": 4010
	},
	{
	"epoch": 5.8,
	"grad_norm": 18.971261978149414,
	"learning_rate": 0.00014006734006734005,
	"loss": 0.7486,
	"step": 4020
	},
	{
	"epoch": 5.814414414414414,
	"grad_norm": 19.77442169189453,
	"learning_rate": 0.00013958633958633957,
	"loss": 0.8439,
	"step": 4030
	},
	{
	"epoch": 5.828828828828829,
	"grad_norm": 19.546371459960938,
	"learning_rate": 0.0001391053391053391,
	"loss": 0.8859,
	"step": 4040
	},
	{
	"epoch": 5.8432432432432435,
	"grad_norm": 12.447526931762695,
	"learning_rate": 0.0001386243386243386,
	"loss": 0.6841,
	"step": 4050
	},
	{
	"epoch": 5.857657657657658,
	"grad_norm": 18.02086639404297,
	"learning_rate": 0.00013814333814333814,
	"loss": 0.8155,
	"step": 4060
	},
	{
	"epoch": 5.872072072072072,
	"grad_norm": 23.19020652770996,
	"learning_rate": 0.00013766233766233766,
	"loss": 0.8727,
	"step": 4070
	},
	{
	"epoch": 5.886486486486486,
	"grad_norm": 9.812922477722168,
	"learning_rate": 0.00013718133718133719,
	"loss": 0.8107,
	"step": 4080
	},
	{
	"epoch": 5.900900900900901,
	"grad_norm": 18.993051528930664,
	"learning_rate": 0.00013670033670033668,
	"loss": 0.6686,
	"step": 4090
	},
	{
	"epoch": 5.915315315315315,
	"grad_norm": 24.841590881347656,
	"learning_rate": 0.0001362193362193362,
	"loss": 0.8777,
	"step": 4100
	},
	{
	"epoch": 5.92972972972973,
	"grad_norm": 12.165318489074707,
	"learning_rate": 0.00013573833573833573,
	"loss": 0.7149,
	"step": 4110
	},
	{
	"epoch": 5.944144144144144,
	"grad_norm": 25.776872634887695,
	"learning_rate": 0.00013525733525733525,
	"loss": 0.9527,
	"step": 4120
	},
	{
	"epoch": 5.9585585585585585,
	"grad_norm": 15.240096092224121,
	"learning_rate": 0.00013477633477633477,
	"loss": 0.7363,
	"step": 4130
	},
	{
	"epoch": 5.972972972972973,
	"grad_norm": 18.949817657470703,
	"learning_rate": 0.0001342953342953343,
	"loss": 0.8795,
	"step": 4140
	},
	{
	"epoch": 5.987387387387387,
	"grad_norm": 23.45053482055664,
	"learning_rate": 0.00013381433381433382,
	"loss": 0.7355,
	"step": 4150
	},
	{
	"epoch": 5.998918918918919,
	"eval_accuracy": 0.6154891304347826,
	"eval_loss": 1.9490801095962524,
	"eval_runtime": 540.4624,
	"eval_samples_per_second": 10.894,
	"eval_steps_per_second": 10.894,
	"step": 4158
	},
	{
	"epoch": 6.002882882882883,
	"grad_norm": 19.96414566040039,
	"learning_rate": 0.0001333333333333333,
	"loss": 0.7705,
	"step": 4160
	},
	{
	"epoch": 6.017297297297297,
	"grad_norm": 12.935175895690918,
	"learning_rate": 0.00013285233285233284,
	"loss": 0.4507,
	"step": 4170
	},
	{
	"epoch": 6.031711711711711,
	"grad_norm": 18.57610511779785,
	"learning_rate": 0.00013237133237133236,
	"loss": 0.4772,
	"step": 4180
	},
	{
	"epoch": 6.0461261261261265,
	"grad_norm": 18.15093231201172,
	"learning_rate": 0.00013189033189033188,
	"loss": 0.4697,
	"step": 4190
	},
	{
	"epoch": 6.060540540540541,
	"grad_norm": 9.7061128616333,
	"learning_rate": 0.0001314093314093314,
	"loss": 0.3953,
	"step": 4200
	},
	{
	"epoch": 6.074954954954955,
	"grad_norm": 14.228235244750977,
	"learning_rate": 0.00013092833092833093,
	"loss": 0.4857,
	"step": 4210
	},
	{
	"epoch": 6.089369369369369,
	"grad_norm": 12.73335075378418,
	"learning_rate": 0.00013044733044733045,
	"loss": 0.2774,
	"step": 4220
	},
	{
	"epoch": 6.103783783783784,
	"grad_norm": 26.926279067993164,
	"learning_rate": 0.00012996632996632997,
	"loss": 0.4033,
	"step": 4230
	},
	{
	"epoch": 6.118198198198198,
	"grad_norm": 5.05507755279541,
	"learning_rate": 0.00012948532948532947,
	"loss": 0.379,
	"step": 4240
	},
	{
	"epoch": 6.132612612612613,
	"grad_norm": 13.0632905960083,
	"learning_rate": 0.000129004329004329,
	"loss": 0.5064,
	"step": 4250
	},
	{
	"epoch": 6.147027027027027,
	"grad_norm": 9.610346794128418,
	"learning_rate": 0.0001285233285233285,
	"loss": 0.5576,
	"step": 4260
	},
	{
	"epoch": 6.161441441441442,
	"grad_norm": 9.474533081054688,
	"learning_rate": 0.00012804232804232803,
	"loss": 0.4405,
	"step": 4270
	},
	{
	"epoch": 6.175855855855856,
	"grad_norm": 6.424566745758057,
	"learning_rate": 0.00012756132756132756,
	"loss": 0.4283,
	"step": 4280
	},
	{
	"epoch": 6.19027027027027,
	"grad_norm": 22.856693267822266,
	"learning_rate": 0.00012708032708032708,
	"loss": 0.5386,
	"step": 4290
	},
	{
	"epoch": 6.204684684684684,
	"grad_norm": 14.695728302001953,
	"learning_rate": 0.0001265993265993266,
	"loss": 0.4684,
	"step": 4300
	},
	{
	"epoch": 6.2190990990990995,
	"grad_norm": 12.434320449829102,
	"learning_rate": 0.0001261183261183261,
	"loss": 0.3499,
	"step": 4310
	},
	{
	"epoch": 6.233513513513514,
	"grad_norm": 3.9371864795684814,
	"learning_rate": 0.00012563732563732562,
	"loss": 0.4161,
	"step": 4320
	},
	{
	"epoch": 6.247927927927928,
	"grad_norm": 11.733071327209473,
	"learning_rate": 0.00012515632515632514,
	"loss": 0.4829,
	"step": 4330
	},
	{
	"epoch": 6.262342342342342,
	"grad_norm": 5.837855815887451,
	"learning_rate": 0.00012467532467532467,
	"loss": 0.5473,
	"step": 4340
	},
	{
	"epoch": 6.276756756756757,
	"grad_norm": 10.520476341247559,
	"learning_rate": 0.0001241943241943242,
	"loss": 0.432,
	"step": 4350
	},
	{
	"epoch": 6.291171171171171,
	"grad_norm": 14.354527473449707,
	"learning_rate": 0.0001237133237133237,
	"loss": 0.3837,
	"step": 4360
	},
	{
	"epoch": 6.305585585585586,
	"grad_norm": 24.440963745117188,
	"learning_rate": 0.00012323232323232323,
	"loss": 0.6812,
	"step": 4370
	},
	{
	"epoch": 6.32,
	"grad_norm": 21.688756942749023,
	"learning_rate": 0.00012275132275132273,
	"loss": 0.6889,
	"step": 4380
	},
	{
	"epoch": 6.3344144144144146,
	"grad_norm": 4.70493221282959,
	"learning_rate": 0.00012227032227032225,
	"loss": 0.4692,
	"step": 4390
	},
	{
	"epoch": 6.348828828828829,
	"grad_norm": 10.504195213317871,
	"learning_rate": 0.00012178932178932179,
	"loss": 0.3945,
	"step": 4400
	},
	{
	"epoch": 6.363243243243243,
	"grad_norm": 12.554998397827148,
	"learning_rate": 0.00012130832130832131,
	"loss": 0.4145,
	"step": 4410
	},
	{
	"epoch": 6.377657657657657,
	"grad_norm": 5.851123809814453,
	"learning_rate": 0.0001208273208273208,
	"loss": 0.3595,
	"step": 4420
	},
	{
	"epoch": 6.392072072072072,
	"grad_norm": 33.16427993774414,
	"learning_rate": 0.00012034632034632034,
	"loss": 0.5448,
	"step": 4430
	},
	{
	"epoch": 6.406486486486487,
	"grad_norm": 17.474634170532227,
	"learning_rate": 0.00011986531986531986,
	"loss": 0.4775,
	"step": 4440
	},
	{
	"epoch": 6.420900900900901,
	"grad_norm": 21.54201889038086,
	"learning_rate": 0.00011938431938431936,
	"loss": 0.4061,
	"step": 4450
	},
	{
	"epoch": 6.435315315315315,
	"grad_norm": 27.28333854675293,
	"learning_rate": 0.00011890331890331888,
	"loss": 0.41,
	"step": 4460
	},
	{
	"epoch": 6.44972972972973,
	"grad_norm": 31.519390106201172,
	"learning_rate": 0.00011842231842231842,
	"loss": 0.4323,
	"step": 4470
	},
	{
	"epoch": 6.464144144144144,
	"grad_norm": 18.609390258789062,
	"learning_rate": 0.00011794131794131794,
	"loss": 0.323,
	"step": 4480
	},
	{
	"epoch": 6.478558558558559,
	"grad_norm": 16.234210968017578,
	"learning_rate": 0.00011746031746031744,
	"loss": 0.3677,
	"step": 4490
	},
	{
	"epoch": 6.492972972972973,
	"grad_norm": 18.266056060791016,
	"learning_rate": 0.00011697931697931697,
	"loss": 0.4261,
	"step": 4500
	},
	{
	"epoch": 6.5073873873873875,
	"grad_norm": 13.765610694885254,
	"learning_rate": 0.0001164983164983165,
	"loss": 0.2749,
	"step": 4510
	},
	{
	"epoch": 6.521801801801802,
	"grad_norm": 19.466411590576172,
	"learning_rate": 0.00011601731601731602,
	"loss": 0.5191,
	"step": 4520
	},
	{
	"epoch": 6.536216216216216,
	"grad_norm": 5.606191635131836,
	"learning_rate": 0.00011553631553631553,
	"loss": 0.2674,
	"step": 4530
	},
	{
	"epoch": 6.55063063063063,
	"grad_norm": 21.999649047851562,
	"learning_rate": 0.00011505531505531505,
	"loss": 0.3778,
	"step": 4540
	},
	{
	"epoch": 6.565045045045045,
	"grad_norm": 5.735301494598389,
	"learning_rate": 0.00011457431457431457,
	"loss": 0.5567,
	"step": 4550
	},
	{
	"epoch": 6.57945945945946,
	"grad_norm": 10.661727905273438,
	"learning_rate": 0.00011409331409331408,
	"loss": 0.319,
	"step": 4560
	},
	{
	"epoch": 6.593873873873874,
	"grad_norm": 23.01692771911621,
	"learning_rate": 0.0001136123136123136,
	"loss": 0.4116,
	"step": 4570
	},
	{
	"epoch": 6.608288288288288,
	"grad_norm": 11.15292739868164,
	"learning_rate": 0.00011313131313131313,
	"loss": 0.395,
	"step": 4580
	},
	{
	"epoch": 6.622702702702703,
	"grad_norm": 15.197105407714844,
	"learning_rate": 0.00011265031265031265,
	"loss": 0.5435,
	"step": 4590
	},
	{
	"epoch": 6.637117117117117,
	"grad_norm": 23.04345703125,
	"learning_rate": 0.00011216931216931216,
	"loss": 0.4702,
	"step": 4600
	},
	{
	"epoch": 6.651531531531532,
	"grad_norm": 8.85188102722168,
	"learning_rate": 0.00011168831168831168,
	"loss": 0.3533,
	"step": 4610
	},
	{
	"epoch": 6.665945945945946,
	"grad_norm": 9.123584747314453,
	"learning_rate": 0.0001112073112073112,
	"loss": 0.4277,
	"step": 4620
	},
	{
	"epoch": 6.6803603603603605,
	"grad_norm": 8.331842422485352,
	"learning_rate": 0.00011072631072631073,
	"loss": 0.5292,
	"step": 4630
	},
	{
	"epoch": 6.694774774774775,
	"grad_norm": 12.688973426818848,
	"learning_rate": 0.00011024531024531024,
	"loss": 0.3495,
	"step": 4640
	},
	{
	"epoch": 6.709189189189189,
	"grad_norm": 22.717866897583008,
	"learning_rate": 0.00010976430976430976,
	"loss": 0.4317,
	"step": 4650
	},
	{
	"epoch": 6.723603603603603,
	"grad_norm": 22.28693962097168,
	"learning_rate": 0.00010928330928330928,
	"loss": 0.5334,
	"step": 4660
	},
	{
	"epoch": 6.738018018018018,
	"grad_norm": 18.496274948120117,
	"learning_rate": 0.00010880230880230879,
	"loss": 0.4481,
	"step": 4670
	},
	{
	"epoch": 6.752432432432433,
	"grad_norm": 22.91065216064453,
	"learning_rate": 0.00010832130832130831,
	"loss": 0.3546,
	"step": 4680
	},
	{
	"epoch": 6.766846846846847,
	"grad_norm": 24.638437271118164,
	"learning_rate": 0.00010784030784030783,
	"loss": 0.6028,
	"step": 4690
	},
	{
	"epoch": 6.781261261261261,
	"grad_norm": 12.158951759338379,
	"learning_rate": 0.00010735930735930736,
	"loss": 0.3595,
	"step": 4700
	},
	{
	"epoch": 6.7956756756756755,
	"grad_norm": 3.462782144546509,
	"learning_rate": 0.00010687830687830687,
	"loss": 0.3434,
	"step": 4710
	},
	{
	"epoch": 6.81009009009009,
	"grad_norm": 14.709941864013672,
	"learning_rate": 0.00010639730639730639,
	"loss": 0.3708,
	"step": 4720
	},
	{
	"epoch": 6.824504504504505,
	"grad_norm": 2.6258020401000977,
	"learning_rate": 0.00010591630591630591,
	"loss": 0.3561,
	"step": 4730
	},
	{
	"epoch": 6.838918918918919,
	"grad_norm": 4.584090709686279,
	"learning_rate": 0.00010543530543530543,
	"loss": 0.4685,
	"step": 4740
	},
	{
	"epoch": 6.8533333333333335,
	"grad_norm": 27.684444427490234,
	"learning_rate": 0.00010495430495430494,
	"loss": 0.2848,
	"step": 4750
	},
	{
	"epoch": 6.867747747747748,
	"grad_norm": 5.796729564666748,
	"learning_rate": 0.00010447330447330447,
	"loss": 0.3553,
	"step": 4760
	},
	{
	"epoch": 6.882162162162162,
	"grad_norm": 4.9681396484375,
	"learning_rate": 0.00010399230399230399,
	"loss": 0.3048,
	"step": 4770
	},
	{
	"epoch": 6.896576576576576,
	"grad_norm": 22.89188575744629,
	"learning_rate": 0.0001035113035113035,
	"loss": 0.6352,
	"step": 4780
	},
	{
	"epoch": 6.910990990990991,
	"grad_norm": 2.380059003829956,
	"learning_rate": 0.00010303030303030302,
	"loss": 0.4462,
	"step": 4790
	},
	{
	"epoch": 6.925405405405406,
	"grad_norm": 13.61782455444336,
	"learning_rate": 0.00010254930254930254,
	"loss": 0.4329,
	"step": 4800
	},
	{
	"epoch": 6.93981981981982,
	"grad_norm": 6.834221839904785,
	"learning_rate": 0.00010206830206830207,
	"loss": 0.2754,
	"step": 4810
	},
	{
	"epoch": 6.954234234234234,
	"grad_norm": 1.0478729009628296,
	"learning_rate": 0.00010158730158730157,
	"loss": 0.221,
	"step": 4820
	},
	{
	"epoch": 6.9686486486486485,
	"grad_norm": 8.622994422912598,
	"learning_rate": 0.0001011063011063011,
	"loss": 0.2593,
	"step": 4830
	},
	{
	"epoch": 6.983063063063063,
	"grad_norm": 22.14352035522461,
	"learning_rate": 0.00010062530062530062,
	"loss": 0.3164,
	"step": 4840
	},
	{
	"epoch": 6.997477477477478,
	"grad_norm": 8.023240089416504,
	"learning_rate": 0.00010014430014430014,
	"loss": 0.4492,
	"step": 4850
	},
	{
	"epoch": 6.998918918918919,
	"eval_accuracy": 0.6379076086956522,
	"eval_loss": 2.059363842010498,
	"eval_runtime": 537.7178,
	"eval_samples_per_second": 10.95,
	"eval_steps_per_second": 10.95,
	"step": 4851
	},
	{
	"epoch": 7.012972972972973,
	"grad_norm": 14.681108474731445,
	"learning_rate": 9.966329966329965e-05,
	"loss": 0.2425,
	"step": 4860
	},
	{
	"epoch": 7.027387387387387,
	"grad_norm": 25.905927658081055,
	"learning_rate": 9.918229918229917e-05,
	"loss": 0.2949,
	"step": 4870
	},
	{
	"epoch": 7.041801801801801,
	"grad_norm": 2.836951971054077,
	"learning_rate": 9.87012987012987e-05,
	"loss": 0.1989,
	"step": 4880
	},
	{
	"epoch": 7.0562162162162165,
	"grad_norm": 1.04839026927948,
	"learning_rate": 9.82202982202982e-05,
	"loss": 0.1024,
	"step": 4890
	},
	{
	"epoch": 7.070630630630631,
	"grad_norm": 10.27518367767334,
	"learning_rate": 9.773929773929773e-05,
	"loss": 0.1522,
	"step": 4900
	},
	{
	"epoch": 7.085045045045045,
	"grad_norm": 15.933104515075684,
	"learning_rate": 9.725829725829725e-05,
	"loss": 0.145,
	"step": 4910
	},
	{
	"epoch": 7.099459459459459,
	"grad_norm": 18.11174201965332,
	"learning_rate": 9.677729677729677e-05,
	"loss": 0.1838,
	"step": 4920
	},
	{
	"epoch": 7.113873873873874,
	"grad_norm": 1.1443898677825928,
	"learning_rate": 9.629629629629628e-05,
	"loss": 0.1418,
	"step": 4930
	},
	{
	"epoch": 7.128288288288288,
	"grad_norm": 15.602287292480469,
	"learning_rate": 9.58152958152958e-05,
	"loss": 0.3214,
	"step": 4940
	},
	{
	"epoch": 7.142702702702703,
	"grad_norm": 16.450904846191406,
	"learning_rate": 9.533429533429533e-05,
	"loss": 0.1656,
	"step": 4950
	},
	{
	"epoch": 7.157117117117117,
	"grad_norm": 14.295945167541504,
	"learning_rate": 9.485329485329484e-05,
	"loss": 0.3092,
	"step": 4960
	},
	{
	"epoch": 7.1715315315315316,
	"grad_norm": 3.2762200832366943,
	"learning_rate": 9.437229437229436e-05,
	"loss": 0.0993,
	"step": 4970
	},
	{
	"epoch": 7.185945945945946,
	"grad_norm": 1.229925274848938,
	"learning_rate": 9.389129389129388e-05,
	"loss": 0.1636,
	"step": 4980
	},
	{
	"epoch": 7.20036036036036,
	"grad_norm": 8.866992950439453,
	"learning_rate": 9.34102934102934e-05,
	"loss": 0.1434,
	"step": 4990
	},
	{
	"epoch": 7.214774774774774,
	"grad_norm": 6.15886116027832,
	"learning_rate": 9.292929292929291e-05,
	"loss": 0.1759,
	"step": 5000
	},
	{
	"epoch": 7.2291891891891895,
	"grad_norm": 6.583317279815674,
	"learning_rate": 9.244829244829244e-05,
	"loss": 0.1752,
	"step": 5010
	},
	{
	"epoch": 7.243603603603604,
	"grad_norm": 13.805874824523926,
	"learning_rate": 9.196729196729196e-05,
	"loss": 0.1778,
	"step": 5020
	},
	{
	"epoch": 7.258018018018018,
	"grad_norm": 4.149932861328125,
	"learning_rate": 9.148629148629148e-05,
	"loss": 0.3115,
	"step": 5030
	},
	{
	"epoch": 7.272432432432432,
	"grad_norm": 13.87183666229248,
	"learning_rate": 9.100529100529099e-05,
	"loss": 0.1509,
	"step": 5040
	},
	{
	"epoch": 7.286846846846847,
	"grad_norm": 8.47652530670166,
	"learning_rate": 9.052429052429051e-05,
	"loss": 0.3549,
	"step": 5050
	},
	{
	"epoch": 7.301261261261261,
	"grad_norm": 9.171941757202148,
	"learning_rate": 9.004329004329004e-05,
	"loss": 0.1054,
	"step": 5060
	},
	{
	"epoch": 7.315675675675676,
	"grad_norm": 9.501484870910645,
	"learning_rate": 8.956228956228955e-05,
	"loss": 0.1728,
	"step": 5070
	},
	{
	"epoch": 7.33009009009009,
	"grad_norm": 0.5740847587585449,
	"learning_rate": 8.908128908128907e-05,
	"loss": 0.116,
	"step": 5080
	},
	{
	"epoch": 7.3445045045045045,
	"grad_norm": 2.0156924724578857,
	"learning_rate": 8.860028860028859e-05,
	"loss": 0.1889,
	"step": 5090
	},
	{
	"epoch": 7.358918918918919,
	"grad_norm": 4.784016132354736,
	"learning_rate": 8.811928811928811e-05,
	"loss": 0.2124,
	"step": 5100
	},
	{
	"epoch": 7.373333333333333,
	"grad_norm": 2.135333299636841,
	"learning_rate": 8.763828763828762e-05,
	"loss": 0.1885,
	"step": 5110
	},
	{
	"epoch": 7.387747747747747,
	"grad_norm": 13.758618354797363,
	"learning_rate": 8.715728715728714e-05,
	"loss": 0.2869,
	"step": 5120
	},
	{
	"epoch": 7.4021621621621625,
	"grad_norm": 10.508682250976562,
	"learning_rate": 8.667628667628667e-05,
	"loss": 0.09,
	"step": 5130
	},
	{
	"epoch": 7.416576576576577,
	"grad_norm": 8.677715301513672,
	"learning_rate": 8.619528619528619e-05,
	"loss": 0.1022,
	"step": 5140
	},
	{
	"epoch": 7.430990990990991,
	"grad_norm": 7.379012584686279,
	"learning_rate": 8.57142857142857e-05,
	"loss": 0.2095,
	"step": 5150
	},
	{
	"epoch": 7.445405405405405,
	"grad_norm": 16.449451446533203,
	"learning_rate": 8.523328523328522e-05,
	"loss": 0.1052,
	"step": 5160
	},
	{
	"epoch": 7.45981981981982,
	"grad_norm": 14.736000061035156,
	"learning_rate": 8.475228475228474e-05,
	"loss": 0.2009,
	"step": 5170
	},
	{
	"epoch": 7.474234234234234,
	"grad_norm": 3.677145004272461,
	"learning_rate": 8.427128427128425e-05,
	"loss": 0.1472,
	"step": 5180
	},
	{
	"epoch": 7.488648648648649,
	"grad_norm": 0.6532973051071167,
	"learning_rate": 8.379028379028378e-05,
	"loss": 0.1467,
	"step": 5190
	},
	{
	"epoch": 7.503063063063063,
	"grad_norm": 14.072589874267578,
	"learning_rate": 8.33092833092833e-05,
	"loss": 0.1727,
	"step": 5200
	},
	{
	"epoch": 7.5174774774774775,
	"grad_norm": 15.414175033569336,
	"learning_rate": 8.282828282828282e-05,
	"loss": 0.1885,
	"step": 5210
	},
	{
	"epoch": 7.531891891891892,
	"grad_norm": 2.108407735824585,
	"learning_rate": 8.234728234728233e-05,
	"loss": 0.1228,
	"step": 5220
	},
	{
	"epoch": 7.546306306306306,
	"grad_norm": 13.167756080627441,
	"learning_rate": 8.186628186628185e-05,
	"loss": 0.1511,
	"step": 5230
	},
	{
	"epoch": 7.56072072072072,
	"grad_norm": 12.300124168395996,
	"learning_rate": 8.138528138528138e-05,
	"loss": 0.1712,
	"step": 5240
	},
	{
	"epoch": 7.5751351351351355,
	"grad_norm": 4.797776222229004,
	"learning_rate": 8.09042809042809e-05,
	"loss": 0.1385,
	"step": 5250
	},
	{
	"epoch": 7.58954954954955,
	"grad_norm": 9.989211082458496,
	"learning_rate": 8.042328042328041e-05,
	"loss": 0.2256,
	"step": 5260
	},
	{
	"epoch": 7.603963963963964,
	"grad_norm": 21.55989646911621,
	"learning_rate": 7.994227994227993e-05,
	"loss": 0.2175,
	"step": 5270
	},
	{
	"epoch": 7.618378378378378,
	"grad_norm": 12.825868606567383,
	"learning_rate": 7.946127946127945e-05,
	"loss": 0.1561,
	"step": 5280
	},
	{
	"epoch": 7.6327927927927925,
	"grad_norm": 5.119826793670654,
	"learning_rate": 7.902837902837901e-05,
	"loss": 0.1237,
	"step": 5290
	},
	{
	"epoch": 7.647207207207208,
	"grad_norm": 8.325628280639648,
	"learning_rate": 7.854737854737855e-05,
	"loss": 0.3462,
	"step": 5300
	},
	{
	"epoch": 7.661621621621622,
	"grad_norm": 8.451800346374512,
	"learning_rate": 7.806637806637807e-05,
	"loss": 0.2437,
	"step": 5310
	},
	{
	"epoch": 7.676036036036036,
	"grad_norm": 9.6069974899292,
	"learning_rate": 7.758537758537757e-05,
	"loss": 0.1846,
	"step": 5320
	},
	{
	"epoch": 7.6904504504504505,
	"grad_norm": 14.663230895996094,
	"learning_rate": 7.71043771043771e-05,
	"loss": 0.2186,
	"step": 5330
	},
	{
	"epoch": 7.704864864864865,
	"grad_norm": 16.57319450378418,
	"learning_rate": 7.662337662337662e-05,
	"loss": 0.1133,
	"step": 5340
	},
	{
	"epoch": 7.719279279279279,
	"grad_norm": 10.028879165649414,
	"learning_rate": 7.614237614237615e-05,
	"loss": 0.1361,
	"step": 5350
	},
	{
	"epoch": 7.733693693693693,
	"grad_norm": 17.944252014160156,
	"learning_rate": 7.566137566137566e-05,
	"loss": 0.2533,
	"step": 5360
	},
	{
	"epoch": 7.7481081081081085,
	"grad_norm": 4.871366500854492,
	"learning_rate": 7.518037518037518e-05,
	"loss": 0.1396,
	"step": 5370
	},
	{
	"epoch": 7.762522522522523,
	"grad_norm": 5.787502765655518,
	"learning_rate": 7.469937469937469e-05,
	"loss": 0.3421,
	"step": 5380
	},
	{
	"epoch": 7.776936936936937,
	"grad_norm": 20.75065040588379,
	"learning_rate": 7.421837421837421e-05,
	"loss": 0.1679,
	"step": 5390
	},
	{
	"epoch": 7.791351351351351,
	"grad_norm": 16.226171493530273,
	"learning_rate": 7.373737373737373e-05,
	"loss": 0.2005,
	"step": 5400
	},
	{
	"epoch": 7.8057657657657655,
	"grad_norm": 1.3808518648147583,
	"learning_rate": 7.325637325637326e-05,
	"loss": 0.2236,
	"step": 5410
	},
	{
	"epoch": 7.82018018018018,
	"grad_norm": 5.49656343460083,
	"learning_rate": 7.277537277537277e-05,
	"loss": 0.2159,
	"step": 5420
	},
	{
	"epoch": 7.834594594594595,
	"grad_norm": 4.51519250869751,
	"learning_rate": 7.229437229437229e-05,
	"loss": 0.1601,
	"step": 5430
	},
	{
	"epoch": 7.849009009009009,
	"grad_norm": 3.9731264114379883,
	"learning_rate": 7.181337181337181e-05,
	"loss": 0.2402,
	"step": 5440
	},
	{
	"epoch": 7.8634234234234235,
	"grad_norm": 1.414002776145935,
	"learning_rate": 7.133237133237133e-05,
	"loss": 0.1709,
	"step": 5450
	},
	{
	"epoch": 7.877837837837838,
	"grad_norm": 3.847299575805664,
	"learning_rate": 7.085137085137084e-05,
	"loss": 0.2866,
	"step": 5460
	},
	{
	"epoch": 7.892252252252252,
	"grad_norm": 16.216571807861328,
	"learning_rate": 7.037037037037036e-05,
	"loss": 0.1026,
	"step": 5470
	},
	{
	"epoch": 7.906666666666666,
	"grad_norm": 1.87873113155365,
	"learning_rate": 6.988936988936989e-05,
	"loss": 0.1027,
	"step": 5480
	},
	{
	"epoch": 7.921081081081081,
	"grad_norm": 11.856677055358887,
	"learning_rate": 6.94083694083694e-05,
	"loss": 0.0807,
	"step": 5490
	},
	{
	"epoch": 7.935495495495496,
	"grad_norm": 1.2753289937973022,
	"learning_rate": 6.892736892736892e-05,
	"loss": 0.1885,
	"step": 5500
	},
	{
	"epoch": 7.94990990990991,
	"grad_norm": 5.382585048675537,
	"learning_rate": 6.844636844636844e-05,
	"loss": 0.1034,
	"step": 5510
	},
	{
	"epoch": 7.964324324324324,
	"grad_norm": 4.376471996307373,
	"learning_rate": 6.796536796536796e-05,
	"loss": 0.1051,
	"step": 5520
	},
	{
	"epoch": 7.9787387387387385,
	"grad_norm": 6.501208782196045,
	"learning_rate": 6.748436748436747e-05,
	"loss": 0.1589,
	"step": 5530
	},
	{
	"epoch": 7.993153153153153,
	"grad_norm": 7.671748161315918,
	"learning_rate": 6.7003367003367e-05,
	"loss": 0.1528,
	"step": 5540
	},
	{
	"epoch": 7.998918918918919,
	"eval_accuracy": 0.6402853260869565,
	"eval_loss": 2.1739323139190674,
	"eval_runtime": 537.1422,
	"eval_samples_per_second": 10.962,
	"eval_steps_per_second": 10.962,
	"step": 5544
	},
	{
	"epoch": 8.008648648648649,
	"grad_norm": 0.7333820462226868,
	"learning_rate": 6.652236652236652e-05,
	"loss": 0.1737,
	"step": 5550
	},
	{
	"epoch": 8.023063063063063,
	"grad_norm": 1.1993273496627808,
	"learning_rate": 6.604136604136604e-05,
	"loss": 0.0923,
	"step": 5560
	},
	{
	"epoch": 8.037477477477477,
	"grad_norm": 18.680021286010742,
	"learning_rate": 6.556036556036555e-05,
	"loss": 0.1005,
	"step": 5570
	},
	{
	"epoch": 8.051891891891891,
	"grad_norm": 19.182872772216797,
	"learning_rate": 6.507936507936507e-05,
	"loss": 0.1297,
	"step": 5580
	},
	{
	"epoch": 8.066306306306306,
	"grad_norm": 2.575910806655884,
	"learning_rate": 6.45983645983646e-05,
	"loss": 0.049,
	"step": 5590
	},
	{
	"epoch": 8.08072072072072,
	"grad_norm": 1.0843993425369263,
	"learning_rate": 6.41173641173641e-05,
	"loss": 0.0646,
	"step": 5600
	},
	{
	"epoch": 8.095135135135136,
	"grad_norm": 0.35826346278190613,
	"learning_rate": 6.363636363636363e-05,
	"loss": 0.0356,
	"step": 5610
	},
	{
	"epoch": 8.10954954954955,
	"grad_norm": 1.4210469722747803,
	"learning_rate": 6.315536315536315e-05,
	"loss": 0.0329,
	"step": 5620
	},
	{
	"epoch": 8.123963963963964,
	"grad_norm": 8.666502952575684,
	"learning_rate": 6.267436267436267e-05,
	"loss": 0.0496,
	"step": 5630
	},
	{
	"epoch": 8.138378378378379,
	"grad_norm": 0.4810231328010559,
	"learning_rate": 6.219336219336218e-05,
	"loss": 0.0276,
	"step": 5640
	},
	{
	"epoch": 8.152792792792793,
	"grad_norm": 5.4928789138793945,
	"learning_rate": 6.17123617123617e-05,
	"loss": 0.0692,
	"step": 5650
	},
	{
	"epoch": 8.167207207207207,
	"grad_norm": 5.067449569702148,
	"learning_rate": 6.123136123136123e-05,
	"loss": 0.058,
	"step": 5660
	},
	{
	"epoch": 8.181621621621622,
	"grad_norm": 25.670732498168945,
	"learning_rate": 6.075036075036074e-05,
	"loss": 0.1061,
	"step": 5670
	},
	{
	"epoch": 8.196036036036036,
	"grad_norm": 6.106614589691162,
	"learning_rate": 6.0269360269360265e-05,
	"loss": 0.0554,
	"step": 5680
	},
	{
	"epoch": 8.21045045045045,
	"grad_norm": 7.492941379547119,
	"learning_rate": 5.978835978835978e-05,
	"loss": 0.0667,
	"step": 5690
	},
	{
	"epoch": 8.224864864864864,
	"grad_norm": 1.3118231296539307,
	"learning_rate": 5.9307359307359304e-05,
	"loss": 0.0388,
	"step": 5700
	},
	{
	"epoch": 8.239279279279279,
	"grad_norm": 4.273688316345215,
	"learning_rate": 5.882635882635882e-05,
	"loss": 0.047,
	"step": 5710
	},
	{
	"epoch": 8.253693693693693,
	"grad_norm": 2.6258041858673096,
	"learning_rate": 5.834535834535834e-05,
	"loss": 0.0652,
	"step": 5720
	},
	{
	"epoch": 8.268108108108109,
	"grad_norm": 5.456060886383057,
	"learning_rate": 5.786435786435786e-05,
	"loss": 0.1954,
	"step": 5730
	},
	{
	"epoch": 8.282522522522523,
	"grad_norm": 3.158957004547119,
	"learning_rate": 5.738335738335738e-05,
	"loss": 0.0662,
	"step": 5740
	},
	{
	"epoch": 8.296936936936937,
	"grad_norm": 3.201091766357422,
	"learning_rate": 5.6902356902356896e-05,
	"loss": 0.199,
	"step": 5750
	},
	{
	"epoch": 8.311351351351352,
	"grad_norm": 1.514101505279541,
	"learning_rate": 5.642135642135642e-05,
	"loss": 0.1082,
	"step": 5760
	},
	{
	"epoch": 8.325765765765766,
	"grad_norm": 0.24764111638069153,
	"learning_rate": 5.5940355940355935e-05,
	"loss": 0.0607,
	"step": 5770
	},
	{
	"epoch": 8.34018018018018,
	"grad_norm": 1.5579568147659302,
	"learning_rate": 5.545935545935545e-05,
	"loss": 0.0205,
	"step": 5780
	},
	{
	"epoch": 8.354594594594595,
	"grad_norm": 9.406379699707031,
	"learning_rate": 5.497835497835497e-05,
	"loss": 0.0614,
	"step": 5790
	},
	{
	"epoch": 8.369009009009009,
	"grad_norm": 3.4456870555877686,
	"learning_rate": 5.449735449735449e-05,
	"loss": 0.0169,
	"step": 5800
	},
	{
	"epoch": 8.383423423423423,
	"grad_norm": 0.3121024966239929,
	"learning_rate": 5.401635401635401e-05,
	"loss": 0.078,
	"step": 5810
	},
	{
	"epoch": 8.397837837837837,
	"grad_norm": 7.2323832511901855,
	"learning_rate": 5.353535353535353e-05,
	"loss": 0.0794,
	"step": 5820
	},
	{
	"epoch": 8.412252252252252,
	"grad_norm": 0.42312678694725037,
	"learning_rate": 5.305435305435305e-05,
	"loss": 0.0229,
	"step": 5830
	},
	{
	"epoch": 8.426666666666666,
	"grad_norm": 1.5303746461868286,
	"learning_rate": 5.2573352573352566e-05,
	"loss": 0.0555,
	"step": 5840
	},
	{
	"epoch": 8.441081081081082,
	"grad_norm": 0.5218743681907654,
	"learning_rate": 5.209235209235209e-05,
	"loss": 0.097,
	"step": 5850
	},
	{
	"epoch": 8.455495495495496,
	"grad_norm": 3.4224956035614014,
	"learning_rate": 5.1611351611351604e-05,
	"loss": 0.0415,
	"step": 5860
	},
	{
	"epoch": 8.46990990990991,
	"grad_norm": 0.56160569190979,
	"learning_rate": 5.113035113035113e-05,
	"loss": 0.0476,
	"step": 5870
	},
	{
	"epoch": 8.484324324324325,
	"grad_norm": 2.77597975730896,
	"learning_rate": 5.064935064935064e-05,
	"loss": 0.0231,
	"step": 5880
	},
	{
	"epoch": 8.498738738738739,
	"grad_norm": 2.240520477294922,
	"learning_rate": 5.016835016835016e-05,
	"loss": 0.051,
	"step": 5890
	},
	{
	"epoch": 8.513153153153153,
	"grad_norm": 1.585841178894043,
	"learning_rate": 4.968734968734968e-05,
	"loss": 0.0575,
	"step": 5900
	},
	{
	"epoch": 8.527567567567568,
	"grad_norm": 12.269892692565918,
	"learning_rate": 4.92063492063492e-05,
	"loss": 0.0419,
	"step": 5910
	},
	{
	"epoch": 8.541981981981982,
	"grad_norm": 4.764209747314453,
	"learning_rate": 4.872534872534872e-05,
	"loss": 0.1574,
	"step": 5920
	},
	{
	"epoch": 8.556396396396396,
	"grad_norm": 6.484140396118164,
	"learning_rate": 4.8244348244348236e-05,
	"loss": 0.0667,
	"step": 5930
	},
	{
	"epoch": 8.57081081081081,
	"grad_norm": 8.274352073669434,
	"learning_rate": 4.7763347763347765e-05,
	"loss": 0.1035,
	"step": 5940
	},
	{
	"epoch": 8.585225225225225,
	"grad_norm": 18.833515167236328,
	"learning_rate": 4.7282347282347274e-05,
	"loss": 0.0372,
	"step": 5950
	},
	{
	"epoch": 8.599639639639639,
	"grad_norm": 4.068152904510498,
	"learning_rate": 4.68013468013468e-05,
	"loss": 0.0689,
	"step": 5960
	},
	{
	"epoch": 8.614054054054055,
	"grad_norm": 4.497600078582764,
	"learning_rate": 4.632034632034632e-05,
	"loss": 0.0501,
	"step": 5970
	},
	{
	"epoch": 8.62846846846847,
	"grad_norm": 1.556960940361023,
	"learning_rate": 4.583934583934583e-05,
	"loss": 0.0988,
	"step": 5980
	},
	{
	"epoch": 8.642882882882883,
	"grad_norm": 14.646133422851562,
	"learning_rate": 4.535834535834536e-05,
	"loss": 0.055,
	"step": 5990
	},
	{
	"epoch": 8.657297297297298,
	"grad_norm": 0.7149348258972168,
	"learning_rate": 4.4877344877344874e-05,
	"loss": 0.0471,
	"step": 6000
	},
	{
	"epoch": 8.671711711711712,
	"grad_norm": 0.4112788438796997,
	"learning_rate": 4.4396344396344396e-05,
	"loss": 0.0755,
	"step": 6010
	},
	{
	"epoch": 8.686126126126126,
	"grad_norm": 0.7935078740119934,
	"learning_rate": 4.391534391534391e-05,
	"loss": 0.0194,
	"step": 6020
	},
	{
	"epoch": 8.70054054054054,
	"grad_norm": 2.739198684692383,
	"learning_rate": 4.3434343434343435e-05,
	"loss": 0.0313,
	"step": 6030
	},
	{
	"epoch": 8.714954954954955,
	"grad_norm": 1.197202444076538,
	"learning_rate": 4.295334295334295e-05,
	"loss": 0.0473,
	"step": 6040
	},
	{
	"epoch": 8.729369369369369,
	"grad_norm": 2.7497189044952393,
	"learning_rate": 4.247234247234247e-05,
	"loss": 0.0168,
	"step": 6050
	},
	{
	"epoch": 8.743783783783783,
	"grad_norm": 22.05868911743164,
	"learning_rate": 4.199134199134199e-05,
	"loss": 0.0741,
	"step": 6060
	},
	{
	"epoch": 8.758198198198198,
	"grad_norm": 2.2377078533172607,
	"learning_rate": 4.151034151034151e-05,
	"loss": 0.0413,
	"step": 6070
	},
	{
	"epoch": 8.772612612612612,
	"grad_norm": 1.0943878889083862,
	"learning_rate": 4.102934102934103e-05,
	"loss": 0.0475,
	"step": 6080
	},
	{
	"epoch": 8.787027027027026,
	"grad_norm": 1.7506133317947388,
	"learning_rate": 4.054834054834054e-05,
	"loss": 0.0188,
	"step": 6090
	},
	{
	"epoch": 8.801441441441442,
	"grad_norm": 2.1582717895507812,
	"learning_rate": 4.0067340067340066e-05,
	"loss": 0.0407,
	"step": 6100
	},
	{
	"epoch": 8.815855855855856,
	"grad_norm": 13.355046272277832,
	"learning_rate": 3.958633958633958e-05,
	"loss": 0.1049,
	"step": 6110
	},
	{
	"epoch": 8.83027027027027,
	"grad_norm": 3.4152133464813232,
	"learning_rate": 3.9105339105339104e-05,
	"loss": 0.0346,
	"step": 6120
	},
	{
	"epoch": 8.844684684684685,
	"grad_norm": 0.4933088421821594,
	"learning_rate": 3.862433862433862e-05,
	"loss": 0.1112,
	"step": 6130
	},
	{
	"epoch": 8.8590990990991,
	"grad_norm": 12.00542163848877,
	"learning_rate": 3.814333814333814e-05,
	"loss": 0.0318,
	"step": 6140
	},
	{
	"epoch": 8.873513513513513,
	"grad_norm": 9.061931610107422,
	"learning_rate": 3.766233766233766e-05,
	"loss": 0.0962,
	"step": 6150
	},
	{
	"epoch": 8.887927927927928,
	"grad_norm": 0.15183605253696442,
	"learning_rate": 3.7181337181337174e-05,
	"loss": 0.093,
	"step": 6160
	},
	{
	"epoch": 8.902342342342342,
	"grad_norm": 5.919425010681152,
	"learning_rate": 3.67003367003367e-05,
	"loss": 0.0287,
	"step": 6170
	},
	{
	"epoch": 8.916756756756756,
	"grad_norm": 6.494754791259766,
	"learning_rate": 3.621933621933621e-05,
	"loss": 0.0287,
	"step": 6180
	},
	{
	"epoch": 8.93117117117117,
	"grad_norm": 3.5904083251953125,
	"learning_rate": 3.5738335738335735e-05,
	"loss": 0.0247,
	"step": 6190
	},
	{
	"epoch": 8.945585585585585,
	"grad_norm": 5.52282190322876,
	"learning_rate": 3.525733525733526e-05,
	"loss": 0.0644,
	"step": 6200
	},
	{
	"epoch": 8.96,
	"grad_norm": 3.505472183227539,
	"learning_rate": 3.4776334776334774e-05,
	"loss": 0.0133,
	"step": 6210
	},
	{
	"epoch": 8.974414414414415,
	"grad_norm": 0.13238631188869476,
	"learning_rate": 3.4295334295334296e-05,
	"loss": 0.0294,
	"step": 6220
	},
	{
	"epoch": 8.98882882882883,
	"grad_norm": 1.1236836910247803,
	"learning_rate": 3.381433381433381e-05,
	"loss": 0.0468,
	"step": 6230
	},
	{
	"epoch": 8.99891891891892,
	"eval_accuracy": 0.6504755434782609,
	"eval_loss": 2.3125061988830566,
	"eval_runtime": 539.1351,
	"eval_samples_per_second": 10.921,
	"eval_steps_per_second": 10.921,
	"step": 6237
	},
	{
	"epoch": 9.004324324324324,
	"grad_norm": 1.5750885009765625,
	"learning_rate": 3.333333333333333e-05,
	"loss": 0.0234,
	"step": 6240
	},
	{
	"epoch": 9.018738738738739,
	"grad_norm": 0.3882788121700287,
	"learning_rate": 3.285233285233285e-05,
	"loss": 0.0151,
	"step": 6250
	},
	{
	"epoch": 9.033153153153153,
	"grad_norm": 0.2824605107307434,
	"learning_rate": 3.2371332371332367e-05,
	"loss": 0.0045,
	"step": 6260
	},
	{
	"epoch": 9.047567567567567,
	"grad_norm": 0.8951876759529114,
	"learning_rate": 3.189033189033189e-05,
	"loss": 0.0058,
	"step": 6270
	},
	{
	"epoch": 9.061981981981981,
	"grad_norm": 0.6100791096687317,
	"learning_rate": 3.1409331409331405e-05,
	"loss": 0.0148,
	"step": 6280
	},
	{
	"epoch": 9.076396396396396,
	"grad_norm": 8.918787002563477,
	"learning_rate": 3.092833092833093e-05,
	"loss": 0.0175,
	"step": 6290
	},
	{
	"epoch": 9.090810810810812,
	"grad_norm": 0.46548986434936523,
	"learning_rate": 3.0447330447330447e-05,
	"loss": 0.006,
	"step": 6300
	},
	{
	"epoch": 9.105225225225226,
	"grad_norm": 2.6482155323028564,
	"learning_rate": 2.9966329966329966e-05,
	"loss": 0.0089,
	"step": 6310
	},
	{
	"epoch": 9.11963963963964,
	"grad_norm": 0.44524553418159485,
	"learning_rate": 2.9485329485329485e-05,
	"loss": 0.0063,
	"step": 6320
	},
	{
	"epoch": 9.134054054054054,
	"grad_norm": 1.2146574258804321,
	"learning_rate": 2.9004329004329005e-05,
	"loss": 0.0065,
	"step": 6330
	},
	{
	"epoch": 9.148468468468469,
	"grad_norm": 5.5731201171875,
	"learning_rate": 2.852332852332852e-05,
	"loss": 0.017,
	"step": 6340
	},
	{
	"epoch": 9.162882882882883,
	"grad_norm": 1.0001026391983032,
	"learning_rate": 2.804232804232804e-05,
	"loss": 0.0095,
	"step": 6350
	},
	{
	"epoch": 9.177297297297297,
	"grad_norm": 0.22491152584552765,
	"learning_rate": 2.756132756132756e-05,
	"loss": 0.0301,
	"step": 6360
	},
	{
	"epoch": 9.191711711711712,
	"grad_norm": 0.5325976610183716,
	"learning_rate": 2.7080327080327078e-05,
	"loss": 0.0296,
	"step": 6370
	},
	{
	"epoch": 9.206126126126126,
	"grad_norm": 0.44546425342559814,
	"learning_rate": 2.6599326599326597e-05,
	"loss": 0.0056,
	"step": 6380
	},
	{
	"epoch": 9.22054054054054,
	"grad_norm": 3.602013349533081,
	"learning_rate": 2.6118326118326117e-05,
	"loss": 0.014,
	"step": 6390
	},
	{
	"epoch": 9.234954954954954,
	"grad_norm": 0.4638885259628296,
	"learning_rate": 2.5637325637325636e-05,
	"loss": 0.01,
	"step": 6400
	},
	{
	"epoch": 9.249369369369369,
	"grad_norm": 0.21774759888648987,
	"learning_rate": 2.5156325156325155e-05,
	"loss": 0.0543,
	"step": 6410
	},
	{
	"epoch": 9.263783783783785,
	"grad_norm": 0.2262602001428604,
	"learning_rate": 2.4675324675324674e-05,
	"loss": 0.0086,
	"step": 6420
	},
	{
	"epoch": 9.278198198198199,
	"grad_norm": 1.7811743021011353,
	"learning_rate": 2.4194324194324193e-05,
	"loss": 0.0109,
	"step": 6430
	},
	{
	"epoch": 9.292612612612613,
	"grad_norm": 1.6832902431488037,
	"learning_rate": 2.371332371332371e-05,
	"loss": 0.0076,
	"step": 6440
	},
	{
	"epoch": 9.307027027027027,
	"grad_norm": 0.11599577963352203,
	"learning_rate": 2.323232323232323e-05,
	"loss": 0.0065,
	"step": 6450
	},
	{
	"epoch": 9.321441441441442,
	"grad_norm": 0.049297433346509933,
	"learning_rate": 2.2751322751322748e-05,
	"loss": 0.0094,
	"step": 6460
	},
	{
	"epoch": 9.335855855855856,
	"grad_norm": 0.6120862364768982,
	"learning_rate": 2.2270322270322267e-05,
	"loss": 0.0065,
	"step": 6470
	},
	{
	"epoch": 9.35027027027027,
	"grad_norm": 0.24179236590862274,
	"learning_rate": 2.1789321789321786e-05,
	"loss": 0.0156,
	"step": 6480
	},
	{
	"epoch": 9.364684684684685,
	"grad_norm": 1.3065845966339111,
	"learning_rate": 2.1308321308321305e-05,
	"loss": 0.0114,
	"step": 6490
	},
	{
	"epoch": 9.379099099099099,
	"grad_norm": 1.4051166772842407,
	"learning_rate": 2.0827320827320825e-05,
	"loss": 0.005,
	"step": 6500
	},
	{
	"epoch": 9.393513513513513,
	"grad_norm": 1.3191016912460327,
	"learning_rate": 2.0346320346320344e-05,
	"loss": 0.0079,
	"step": 6510
	},
	{
	"epoch": 9.407927927927927,
	"grad_norm": 0.15781471133232117,
	"learning_rate": 1.9865319865319863e-05,
	"loss": 0.0144,
	"step": 6520
	},
	{
	"epoch": 9.422342342342342,
	"grad_norm": 0.2565706968307495,
	"learning_rate": 1.9384319384319386e-05,
	"loss": 0.0338,
	"step": 6530
	},
	{
	"epoch": 9.436756756756758,
	"grad_norm": 0.3341190814971924,
	"learning_rate": 1.8903318903318905e-05,
	"loss": 0.0105,
	"step": 6540
	},
	{
	"epoch": 9.451171171171172,
	"grad_norm": 0.5033118724822998,
	"learning_rate": 1.842231842231842e-05,
	"loss": 0.0568,
	"step": 6550
	},
	{
	"epoch": 9.465585585585586,
	"grad_norm": 1.653732419013977,
	"learning_rate": 1.794131794131794e-05,
	"loss": 0.0084,
	"step": 6560
	},
	{
	"epoch": 9.48,
	"grad_norm": 11.09926700592041,
	"learning_rate": 1.746031746031746e-05,
	"loss": 0.0144,
	"step": 6570
	},
	{
	"epoch": 9.494414414414415,
	"grad_norm": 0.14694152772426605,
	"learning_rate": 1.697931697931698e-05,
	"loss": 0.0047,
	"step": 6580
	},
	{
	"epoch": 9.508828828828829,
	"grad_norm": 0.05755695700645447,
	"learning_rate": 1.6498316498316498e-05,
	"loss": 0.0096,
	"step": 6590
	},
	{
	"epoch": 9.523243243243243,
	"grad_norm": 0.30771782994270325,
	"learning_rate": 1.6017316017316017e-05,
	"loss": 0.0143,
	"step": 6600
	},
	{
	"epoch": 9.537657657657657,
	"grad_norm": 0.2555331885814667,
	"learning_rate": 1.5536315536315536e-05,
	"loss": 0.0152,
	"step": 6610
	},
	{
	"epoch": 9.552072072072072,
	"grad_norm": 0.45528095960617065,
	"learning_rate": 1.5055315055315054e-05,
	"loss": 0.0055,
	"step": 6620
	},
	{
	"epoch": 9.566486486486486,
	"grad_norm": 1.118922472000122,
	"learning_rate": 1.4574314574314573e-05,
	"loss": 0.019,
	"step": 6630
	},
	{
	"epoch": 9.5809009009009,
	"grad_norm": 0.5122382044792175,
	"learning_rate": 1.4093314093314092e-05,
	"loss": 0.0534,
	"step": 6640
	},
	{
	"epoch": 9.595315315315315,
	"grad_norm": 0.18795226514339447,
	"learning_rate": 1.3612313612313611e-05,
	"loss": 0.0247,
	"step": 6650
	},
	{
	"epoch": 9.609729729729729,
	"grad_norm": 1.0938136577606201,
	"learning_rate": 1.313131313131313e-05,
	"loss": 0.0062,
	"step": 6660
	},
	{
	"epoch": 9.624144144144145,
	"grad_norm": 0.13021990656852722,
	"learning_rate": 1.265031265031265e-05,
	"loss": 0.0052,
	"step": 6670
	},
	{
	"epoch": 9.63855855855856,
	"grad_norm": 1.0237598419189453,
	"learning_rate": 1.2169312169312167e-05,
	"loss": 0.0106,
	"step": 6680
	},
	{
	"epoch": 9.652972972972973,
	"grad_norm": 0.8002647161483765,
	"learning_rate": 1.1688311688311687e-05,
	"loss": 0.0051,
	"step": 6690
	},
	{
	"epoch": 9.667387387387388,
	"grad_norm": 0.5976181030273438,
	"learning_rate": 1.1207311207311206e-05,
	"loss": 0.0026,
	"step": 6700
	},
	{
	"epoch": 9.681801801801802,
	"grad_norm": 0.4594089388847351,
	"learning_rate": 1.0726310726310727e-05,
	"loss": 0.0045,
	"step": 6710
	},
	{
	"epoch": 9.696216216216216,
	"grad_norm": 0.6820192933082581,
	"learning_rate": 1.0245310245310246e-05,
	"loss": 0.005,
	"step": 6720
	},
	{
	"epoch": 9.71063063063063,
	"grad_norm": 0.21790215373039246,
	"learning_rate": 9.764309764309763e-06,
	"loss": 0.0093,
	"step": 6730
	},
	{
	"epoch": 9.725045045045045,
	"grad_norm": 3.2225234508514404,
	"learning_rate": 9.283309283309283e-06,
	"loss": 0.008,
	"step": 6740
	},
	{
	"epoch": 9.739459459459459,
	"grad_norm": 2.9584898948669434,
	"learning_rate": 8.802308802308802e-06,
	"loss": 0.032,
	"step": 6750
	},
	{
	"epoch": 9.753873873873873,
	"grad_norm": 0.250264972448349,
	"learning_rate": 8.321308321308321e-06,
	"loss": 0.0075,
	"step": 6760
	},
	{
	"epoch": 9.768288288288288,
	"grad_norm": 14.774813652038574,
	"learning_rate": 7.840307840307839e-06,
	"loss": 0.0137,
	"step": 6770
	},
	{
	"epoch": 9.782702702702704,
	"grad_norm": 16.798877716064453,
	"learning_rate": 7.359307359307359e-06,
	"loss": 0.0144,
	"step": 6780
	},
	{
	"epoch": 9.797117117117118,
	"grad_norm": 0.39727962017059326,
	"learning_rate": 6.878306878306877e-06,
	"loss": 0.0068,
	"step": 6790
	},
	{
	"epoch": 9.811531531531532,
	"grad_norm": 0.6047233939170837,
	"learning_rate": 6.397306397306397e-06,
	"loss": 0.0046,
	"step": 6800
	},
	{
	"epoch": 9.825945945945946,
	"grad_norm": 0.6603574752807617,
	"learning_rate": 5.916305916305916e-06,
	"loss": 0.0058,
	"step": 6810
	},
	{
	"epoch": 9.84036036036036,
	"grad_norm": 0.07351452112197876,
	"learning_rate": 5.435305435305435e-06,
	"loss": 0.007,
	"step": 6820
	},
	{
	"epoch": 9.854774774774775,
	"grad_norm": 0.48447152972221375,
	"learning_rate": 4.954304954304954e-06,
	"loss": 0.0059,
	"step": 6830
	},
	{
	"epoch": 9.86918918918919,
	"grad_norm": 0.12311412394046783,
	"learning_rate": 4.473304473304473e-06,
	"loss": 0.0151,
	"step": 6840
	},
	{
	"epoch": 9.883603603603603,
	"grad_norm": 0.08983255177736282,
	"learning_rate": 3.992303992303992e-06,
	"loss": 0.0072,
	"step": 6850
	},
	{
	"epoch": 9.898018018018018,
	"grad_norm": 0.78732830286026,
	"learning_rate": 3.511303511303511e-06,
	"loss": 0.0613,
	"step": 6860
	},
	{
	"epoch": 9.912432432432432,
	"grad_norm": 0.09099213033914566,
	"learning_rate": 3.0303030303030305e-06,
	"loss": 0.0064,
	"step": 6870
	},
	{
	"epoch": 9.926846846846846,
	"grad_norm": 0.3043908476829529,
	"learning_rate": 2.5493025493025493e-06,
	"loss": 0.0062,
	"step": 6880
	},
	{
	"epoch": 9.94126126126126,
	"grad_norm": 0.16236887872219086,
	"learning_rate": 2.068302068302068e-06,
	"loss": 0.007,
	"step": 6890
	},
	{
	"epoch": 9.955675675675675,
	"grad_norm": 1.6547272205352783,
	"learning_rate": 1.587301587301587e-06,
	"loss": 0.0141,
	"step": 6900
	},
	{
	"epoch": 9.97009009009009,
	"grad_norm": 14.645796775817871,
	"learning_rate": 1.1063011063011063e-06,
	"loss": 0.0272,
	"step": 6910
	},
	{
	"epoch": 9.984504504504505,
	"grad_norm": 0.29277849197387695,
	"learning_rate": 6.253006253006252e-07,
	"loss": 0.0082,
	"step": 6920
	},
	{
	"epoch": 9.99891891891892,
	"grad_norm": 0.7076464891433716,
	"learning_rate": 1.4430014430014428e-07,
	"loss": 0.0045,
	"step": 6930
	},
	{
	"epoch": 9.99891891891892,
	"eval_accuracy": 0.6554008152173914,
	"eval_loss": 2.2544686794281006,
	"eval_runtime": 539.1275,
	"eval_samples_per_second": 10.921,
	"eval_steps_per_second": 10.921,
	"step": 6930
	},
	{
	"epoch": 9.99891891891892,
	"step": 6930,
	"total_flos": 3.884969846408101e+18,
	"train_loss": 2.9567832476562925,
	"train_runtime": 60026.293,
	"train_samples_per_second": 3.697,
	"train_steps_per_second": 0.115
	}
	],
	"logging_steps": 10,
	"max_steps": 6930,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.884969846408101e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}