math-deepseek_LORA_HardArith_Interm / trainer_state.json

Uploaded checkpoint-30000

80edba6 verified 10 months ago

164 kB

	{
	"best_metric": 0.7402730584144592,
	"best_model_checkpoint": "runs/deepseek_lora_20240423-223943/checkpoint-10000",
	"epoch": 0.25,
	"eval_steps": 500,
	"global_step": 10000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 3.086414337158203,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 0.7892,
	"step": 10
	},
	{
	"epoch": 0.0,
	"grad_norm": 8.478134155273438,
	"learning_rate": 8.000000000000001e-07,
	"loss": 0.7746,
	"step": 20
	},
	{
	"epoch": 0.0,
	"grad_norm": 5.574502468109131,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 0.8222,
	"step": 30
	},
	{
	"epoch": 0.0,
	"grad_norm": 2.6497371196746826,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 0.7423,
	"step": 40
	},
	{
	"epoch": 0.0,
	"grad_norm": 3.116753339767456,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.7622,
	"step": 50
	},
	{
	"epoch": 0.0,
	"grad_norm": 3.179832696914673,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 0.8183,
	"step": 60
	},
	{
	"epoch": 0.0,
	"grad_norm": 3.9869463443756104,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 0.822,
	"step": 70
	},
	{
	"epoch": 0.0,
	"grad_norm": 5.093494415283203,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 0.7966,
	"step": 80
	},
	{
	"epoch": 0.0,
	"grad_norm": 5.230633735656738,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 0.8113,
	"step": 90
	},
	{
	"epoch": 0.0,
	"grad_norm": 9.374403953552246,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.7582,
	"step": 100
	},
	{
	"epoch": 0.0,
	"grad_norm": 6.465492248535156,
	"learning_rate": 4.4e-06,
	"loss": 0.7662,
	"step": 110
	},
	{
	"epoch": 0.0,
	"grad_norm": 6.279934883117676,
	"learning_rate": 4.800000000000001e-06,
	"loss": 0.8376,
	"step": 120
	},
	{
	"epoch": 0.0,
	"grad_norm": 5.799221992492676,
	"learning_rate": 5.2e-06,
	"loss": 0.7965,
	"step": 130
	},
	{
	"epoch": 0.0,
	"grad_norm": 3.222240686416626,
	"learning_rate": 5.600000000000001e-06,
	"loss": 0.8855,
	"step": 140
	},
	{
	"epoch": 0.0,
	"grad_norm": 9.009174346923828,
	"learning_rate": 6e-06,
	"loss": 0.8394,
	"step": 150
	},
	{
	"epoch": 0.0,
	"grad_norm": 8.040350914001465,
	"learning_rate": 6.4000000000000006e-06,
	"loss": 0.8426,
	"step": 160
	},
	{
	"epoch": 0.0,
	"grad_norm": 4.131030559539795,
	"learning_rate": 6.800000000000001e-06,
	"loss": 0.7747,
	"step": 170
	},
	{
	"epoch": 0.0,
	"grad_norm": 3.31986927986145,
	"learning_rate": 7.2000000000000005e-06,
	"loss": 0.7125,
	"step": 180
	},
	{
	"epoch": 0.0,
	"grad_norm": 5.7623395919799805,
	"learning_rate": 7.600000000000001e-06,
	"loss": 0.7854,
	"step": 190
	},
	{
	"epoch": 0.01,
	"grad_norm": 10.848206520080566,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.7756,
	"step": 200
	},
	{
	"epoch": 0.01,
	"grad_norm": 13.455166816711426,
	"learning_rate": 8.400000000000001e-06,
	"loss": 0.7894,
	"step": 210
	},
	{
	"epoch": 0.01,
	"grad_norm": 12.759767532348633,
	"learning_rate": 8.8e-06,
	"loss": 0.7454,
	"step": 220
	},
	{
	"epoch": 0.01,
	"grad_norm": 4.262899875640869,
	"learning_rate": 9.200000000000002e-06,
	"loss": 0.8555,
	"step": 230
	},
	{
	"epoch": 0.01,
	"grad_norm": 4.28985071182251,
	"learning_rate": 9.600000000000001e-06,
	"loss": 0.6845,
	"step": 240
	},
	{
	"epoch": 0.01,
	"grad_norm": 4.174241542816162,
	"learning_rate": 1e-05,
	"loss": 0.7983,
	"step": 250
	},
	{
	"epoch": 0.01,
	"grad_norm": 12.931599617004395,
	"learning_rate": 1.04e-05,
	"loss": 0.9041,
	"step": 260
	},
	{
	"epoch": 0.01,
	"grad_norm": 7.004627227783203,
	"learning_rate": 1.0800000000000002e-05,
	"loss": 0.817,
	"step": 270
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.6102757453918457,
	"learning_rate": 1.1200000000000001e-05,
	"loss": 0.7292,
	"step": 280
	},
	{
	"epoch": 0.01,
	"grad_norm": 2.764902353286743,
	"learning_rate": 1.16e-05,
	"loss": 0.9042,
	"step": 290
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.958317995071411,
	"learning_rate": 1.2e-05,
	"loss": 0.7539,
	"step": 300
	},
	{
	"epoch": 0.01,
	"grad_norm": 7.098923683166504,
	"learning_rate": 1.2400000000000002e-05,
	"loss": 0.7955,
	"step": 310
	},
	{
	"epoch": 0.01,
	"grad_norm": 12.129098892211914,
	"learning_rate": 1.2800000000000001e-05,
	"loss": 0.849,
	"step": 320
	},
	{
	"epoch": 0.01,
	"grad_norm": 2.054119825363159,
	"learning_rate": 1.3200000000000002e-05,
	"loss": 0.8645,
	"step": 330
	},
	{
	"epoch": 0.01,
	"grad_norm": 5.205028057098389,
	"learning_rate": 1.3600000000000002e-05,
	"loss": 0.8175,
	"step": 340
	},
	{
	"epoch": 0.01,
	"grad_norm": 2.614790439605713,
	"learning_rate": 1.4e-05,
	"loss": 0.8998,
	"step": 350
	},
	{
	"epoch": 0.01,
	"grad_norm": 2.9891204833984375,
	"learning_rate": 1.4400000000000001e-05,
	"loss": 0.8108,
	"step": 360
	},
	{
	"epoch": 0.01,
	"grad_norm": 4.152099609375,
	"learning_rate": 1.48e-05,
	"loss": 0.7855,
	"step": 370
	},
	{
	"epoch": 0.01,
	"grad_norm": 9.833850860595703,
	"learning_rate": 1.5200000000000002e-05,
	"loss": 0.7736,
	"step": 380
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.849621295928955,
	"learning_rate": 1.5600000000000003e-05,
	"loss": 0.7668,
	"step": 390
	},
	{
	"epoch": 0.01,
	"grad_norm": 5.4542975425720215,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.7781,
	"step": 400
	},
	{
	"epoch": 0.01,
	"grad_norm": 6.197661876678467,
	"learning_rate": 1.64e-05,
	"loss": 0.8654,
	"step": 410
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.2606770992279053,
	"learning_rate": 1.6800000000000002e-05,
	"loss": 0.7565,
	"step": 420
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.9680209159851074,
	"learning_rate": 1.72e-05,
	"loss": 0.7886,
	"step": 430
	},
	{
	"epoch": 0.01,
	"grad_norm": 18.749984741210938,
	"learning_rate": 1.76e-05,
	"loss": 0.7305,
	"step": 440
	},
	{
	"epoch": 0.01,
	"grad_norm": 5.822000503540039,
	"learning_rate": 1.8e-05,
	"loss": 0.7833,
	"step": 450
	},
	{
	"epoch": 0.01,
	"grad_norm": 12.999715805053711,
	"learning_rate": 1.8400000000000003e-05,
	"loss": 0.8483,
	"step": 460
	},
	{
	"epoch": 0.01,
	"grad_norm": 7.193736553192139,
	"learning_rate": 1.88e-05,
	"loss": 0.84,
	"step": 470
	},
	{
	"epoch": 0.01,
	"grad_norm": 12.573124885559082,
	"learning_rate": 1.9200000000000003e-05,
	"loss": 0.8437,
	"step": 480
	},
	{
	"epoch": 0.01,
	"grad_norm": 4.4221601486206055,
	"learning_rate": 1.9600000000000002e-05,
	"loss": 0.6836,
	"step": 490
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.0399410724639893,
	"learning_rate": 2e-05,
	"loss": 0.8264,
	"step": 500
	},
	{
	"epoch": 0.01,
	"eval_loss": 0.8175864219665527,
	"eval_runtime": 67.7802,
	"eval_samples_per_second": 14.754,
	"eval_steps_per_second": 14.754,
	"step": 500
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.971303701400757,
	"learning_rate": 1.9978947368421054e-05,
	"loss": 0.7385,
	"step": 510
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.8043839931488037,
	"learning_rate": 1.9957894736842107e-05,
	"loss": 0.7826,
	"step": 520
	},
	{
	"epoch": 0.01,
	"grad_norm": 11.702253341674805,
	"learning_rate": 1.993684210526316e-05,
	"loss": 0.7971,
	"step": 530
	},
	{
	"epoch": 0.01,
	"grad_norm": 5.176826000213623,
	"learning_rate": 1.9915789473684212e-05,
	"loss": 0.748,
	"step": 540
	},
	{
	"epoch": 0.01,
	"grad_norm": 7.120133876800537,
	"learning_rate": 1.9894736842105265e-05,
	"loss": 0.8461,
	"step": 550
	},
	{
	"epoch": 0.01,
	"grad_norm": 12.286151885986328,
	"learning_rate": 1.9873684210526318e-05,
	"loss": 0.8335,
	"step": 560
	},
	{
	"epoch": 0.01,
	"grad_norm": 7.857172966003418,
	"learning_rate": 1.985263157894737e-05,
	"loss": 0.7231,
	"step": 570
	},
	{
	"epoch": 0.01,
	"grad_norm": 5.327859401702881,
	"learning_rate": 1.9831578947368423e-05,
	"loss": 0.877,
	"step": 580
	},
	{
	"epoch": 0.01,
	"grad_norm": 6.9340362548828125,
	"learning_rate": 1.9810526315789476e-05,
	"loss": 0.8984,
	"step": 590
	},
	{
	"epoch": 0.01,
	"grad_norm": 2.1034326553344727,
	"learning_rate": 1.9789473684210528e-05,
	"loss": 0.7045,
	"step": 600
	},
	{
	"epoch": 0.02,
	"grad_norm": 3.853721857070923,
	"learning_rate": 1.976842105263158e-05,
	"loss": 0.761,
	"step": 610
	},
	{
	"epoch": 0.02,
	"grad_norm": 7.6926398277282715,
	"learning_rate": 1.9747368421052633e-05,
	"loss": 0.9493,
	"step": 620
	},
	{
	"epoch": 0.02,
	"grad_norm": 6.261799335479736,
	"learning_rate": 1.9726315789473686e-05,
	"loss": 0.7719,
	"step": 630
	},
	{
	"epoch": 0.02,
	"grad_norm": 3.864114284515381,
	"learning_rate": 1.970526315789474e-05,
	"loss": 0.9406,
	"step": 640
	},
	{
	"epoch": 0.02,
	"grad_norm": 7.093533515930176,
	"learning_rate": 1.968421052631579e-05,
	"loss": 0.7951,
	"step": 650
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.3724496364593506,
	"learning_rate": 1.9663157894736844e-05,
	"loss": 0.8648,
	"step": 660
	},
	{
	"epoch": 0.02,
	"grad_norm": 10.12341022491455,
	"learning_rate": 1.9642105263157897e-05,
	"loss": 0.7823,
	"step": 670
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.80940842628479,
	"learning_rate": 1.962105263157895e-05,
	"loss": 0.706,
	"step": 680
	},
	{
	"epoch": 0.02,
	"grad_norm": 8.243487358093262,
	"learning_rate": 1.9600000000000002e-05,
	"loss": 0.8244,
	"step": 690
	},
	{
	"epoch": 0.02,
	"grad_norm": 11.420123100280762,
	"learning_rate": 1.9578947368421055e-05,
	"loss": 0.6753,
	"step": 700
	},
	{
	"epoch": 0.02,
	"grad_norm": 63.8618278503418,
	"learning_rate": 1.9557894736842107e-05,
	"loss": 0.8309,
	"step": 710
	},
	{
	"epoch": 0.02,
	"grad_norm": 4.521258354187012,
	"learning_rate": 1.953684210526316e-05,
	"loss": 0.8101,
	"step": 720
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.9532318115234375,
	"learning_rate": 1.9515789473684213e-05,
	"loss": 0.8533,
	"step": 730
	},
	{
	"epoch": 0.02,
	"grad_norm": 3.792180061340332,
	"learning_rate": 1.9494736842105265e-05,
	"loss": 0.7573,
	"step": 740
	},
	{
	"epoch": 0.02,
	"grad_norm": 5.155513286590576,
	"learning_rate": 1.9473684210526318e-05,
	"loss": 0.8961,
	"step": 750
	},
	{
	"epoch": 0.02,
	"grad_norm": 9.195950508117676,
	"learning_rate": 1.945263157894737e-05,
	"loss": 0.8398,
	"step": 760
	},
	{
	"epoch": 0.02,
	"grad_norm": 6.699478626251221,
	"learning_rate": 1.9431578947368423e-05,
	"loss": 0.8018,
	"step": 770
	},
	{
	"epoch": 0.02,
	"grad_norm": 5.254507541656494,
	"learning_rate": 1.9410526315789476e-05,
	"loss": 0.8408,
	"step": 780
	},
	{
	"epoch": 0.02,
	"grad_norm": 4.351966857910156,
	"learning_rate": 1.9389473684210525e-05,
	"loss": 0.7323,
	"step": 790
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.361276626586914,
	"learning_rate": 1.936842105263158e-05,
	"loss": 0.8401,
	"step": 800
	},
	{
	"epoch": 0.02,
	"grad_norm": 5.449990272521973,
	"learning_rate": 1.9347368421052634e-05,
	"loss": 0.726,
	"step": 810
	},
	{
	"epoch": 0.02,
	"grad_norm": 5.375738143920898,
	"learning_rate": 1.9326315789473687e-05,
	"loss": 0.8305,
	"step": 820
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.601025342941284,
	"learning_rate": 1.930526315789474e-05,
	"loss": 0.9152,
	"step": 830
	},
	{
	"epoch": 0.02,
	"grad_norm": 12.153268814086914,
	"learning_rate": 1.9284210526315792e-05,
	"loss": 0.8423,
	"step": 840
	},
	{
	"epoch": 0.02,
	"grad_norm": 3.785663604736328,
	"learning_rate": 1.9263157894736845e-05,
	"loss": 0.7733,
	"step": 850
	},
	{
	"epoch": 0.02,
	"grad_norm": 10.162787437438965,
	"learning_rate": 1.9242105263157894e-05,
	"loss": 0.893,
	"step": 860
	},
	{
	"epoch": 0.02,
	"grad_norm": 3.871621608734131,
	"learning_rate": 1.922105263157895e-05,
	"loss": 0.798,
	"step": 870
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.9919800758361816,
	"learning_rate": 1.9200000000000003e-05,
	"loss": 0.8484,
	"step": 880
	},
	{
	"epoch": 0.02,
	"grad_norm": 5.40109920501709,
	"learning_rate": 1.9178947368421055e-05,
	"loss": 0.9129,
	"step": 890
	},
	{
	"epoch": 0.02,
	"grad_norm": 6.794926643371582,
	"learning_rate": 1.9157894736842108e-05,
	"loss": 0.8687,
	"step": 900
	},
	{
	"epoch": 0.02,
	"grad_norm": 5.942440986633301,
	"learning_rate": 1.913684210526316e-05,
	"loss": 0.8564,
	"step": 910
	},
	{
	"epoch": 0.02,
	"grad_norm": 5.968307018280029,
	"learning_rate": 1.9115789473684213e-05,
	"loss": 0.8495,
	"step": 920
	},
	{
	"epoch": 0.02,
	"grad_norm": 8.425616264343262,
	"learning_rate": 1.9094736842105262e-05,
	"loss": 0.7242,
	"step": 930
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.819301128387451,
	"learning_rate": 1.907368421052632e-05,
	"loss": 0.8381,
	"step": 940
	},
	{
	"epoch": 0.02,
	"grad_norm": 6.81688117980957,
	"learning_rate": 1.9052631578947368e-05,
	"loss": 0.8817,
	"step": 950
	},
	{
	"epoch": 0.02,
	"grad_norm": 5.102423191070557,
	"learning_rate": 1.9031578947368424e-05,
	"loss": 0.8274,
	"step": 960
	},
	{
	"epoch": 0.02,
	"grad_norm": 4.12994909286499,
	"learning_rate": 1.9010526315789476e-05,
	"loss": 0.7052,
	"step": 970
	},
	{
	"epoch": 0.02,
	"grad_norm": 5.15468692779541,
	"learning_rate": 1.898947368421053e-05,
	"loss": 0.772,
	"step": 980
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.62323796749115,
	"learning_rate": 1.8968421052631582e-05,
	"loss": 0.7764,
	"step": 990
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.546677589416504,
	"learning_rate": 1.894736842105263e-05,
	"loss": 0.8365,
	"step": 1000
	},
	{
	"epoch": 0.03,
	"eval_loss": 0.7952949404716492,
	"eval_runtime": 67.7544,
	"eval_samples_per_second": 14.759,
	"eval_steps_per_second": 14.759,
	"step": 1000
	},
	{
	"epoch": 0.03,
	"grad_norm": 9.28386402130127,
	"learning_rate": 1.8926315789473687e-05,
	"loss": 0.8765,
	"step": 1010
	},
	{
	"epoch": 0.03,
	"grad_norm": 7.3430304527282715,
	"learning_rate": 1.8905263157894736e-05,
	"loss": 0.8763,
	"step": 1020
	},
	{
	"epoch": 0.03,
	"grad_norm": 4.0531206130981445,
	"learning_rate": 1.8884210526315792e-05,
	"loss": 0.7943,
	"step": 1030
	},
	{
	"epoch": 0.03,
	"grad_norm": 3.028320074081421,
	"learning_rate": 1.886315789473684e-05,
	"loss": 0.836,
	"step": 1040
	},
	{
	"epoch": 0.03,
	"grad_norm": 3.3861188888549805,
	"learning_rate": 1.8842105263157898e-05,
	"loss": 0.7336,
	"step": 1050
	},
	{
	"epoch": 0.03,
	"grad_norm": 3.7832908630371094,
	"learning_rate": 1.882105263157895e-05,
	"loss": 0.9283,
	"step": 1060
	},
	{
	"epoch": 0.03,
	"grad_norm": 3.8170342445373535,
	"learning_rate": 1.88e-05,
	"loss": 0.7655,
	"step": 1070
	},
	{
	"epoch": 0.03,
	"grad_norm": 6.15322732925415,
	"learning_rate": 1.8778947368421056e-05,
	"loss": 0.9341,
	"step": 1080
	},
	{
	"epoch": 0.03,
	"grad_norm": 7.066686153411865,
	"learning_rate": 1.8757894736842105e-05,
	"loss": 0.85,
	"step": 1090
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.986961603164673,
	"learning_rate": 1.873684210526316e-05,
	"loss": 0.8943,
	"step": 1100
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.8456902503967285,
	"learning_rate": 1.871578947368421e-05,
	"loss": 0.8279,
	"step": 1110
	},
	{
	"epoch": 0.03,
	"grad_norm": 3.6177377700805664,
	"learning_rate": 1.8694736842105266e-05,
	"loss": 0.8192,
	"step": 1120
	},
	{
	"epoch": 0.03,
	"grad_norm": 14.768010139465332,
	"learning_rate": 1.8673684210526316e-05,
	"loss": 0.8005,
	"step": 1130
	},
	{
	"epoch": 0.03,
	"grad_norm": 11.347342491149902,
	"learning_rate": 1.8652631578947368e-05,
	"loss": 0.8081,
	"step": 1140
	},
	{
	"epoch": 0.03,
	"grad_norm": 4.0560150146484375,
	"learning_rate": 1.8631578947368424e-05,
	"loss": 0.9389,
	"step": 1150
	},
	{
	"epoch": 0.03,
	"grad_norm": 3.3164710998535156,
	"learning_rate": 1.8610526315789473e-05,
	"loss": 0.8501,
	"step": 1160
	},
	{
	"epoch": 0.03,
	"grad_norm": 11.112225532531738,
	"learning_rate": 1.858947368421053e-05,
	"loss": 0.7162,
	"step": 1170
	},
	{
	"epoch": 0.03,
	"grad_norm": 6.200588703155518,
	"learning_rate": 1.856842105263158e-05,
	"loss": 0.7448,
	"step": 1180
	},
	{
	"epoch": 0.03,
	"grad_norm": 6.573482513427734,
	"learning_rate": 1.8547368421052635e-05,
	"loss": 0.8071,
	"step": 1190
	},
	{
	"epoch": 0.03,
	"grad_norm": 5.153548717498779,
	"learning_rate": 1.8526315789473684e-05,
	"loss": 0.7957,
	"step": 1200
	},
	{
	"epoch": 0.03,
	"grad_norm": 5.3308305740356445,
	"learning_rate": 1.8505263157894737e-05,
	"loss": 0.7301,
	"step": 1210
	},
	{
	"epoch": 0.03,
	"grad_norm": 5.269808769226074,
	"learning_rate": 1.8484210526315793e-05,
	"loss": 0.8072,
	"step": 1220
	},
	{
	"epoch": 0.03,
	"grad_norm": 5.588324546813965,
	"learning_rate": 1.8463157894736842e-05,
	"loss": 0.8587,
	"step": 1230
	},
	{
	"epoch": 0.03,
	"grad_norm": 4.593557357788086,
	"learning_rate": 1.8442105263157898e-05,
	"loss": 0.856,
	"step": 1240
	},
	{
	"epoch": 0.03,
	"grad_norm": 5.2591094970703125,
	"learning_rate": 1.8421052631578947e-05,
	"loss": 0.7717,
	"step": 1250
	},
	{
	"epoch": 0.03,
	"grad_norm": 4.052567958831787,
	"learning_rate": 1.8400000000000003e-05,
	"loss": 0.7823,
	"step": 1260
	},
	{
	"epoch": 0.03,
	"grad_norm": 4.447838306427002,
	"learning_rate": 1.8378947368421053e-05,
	"loss": 0.83,
	"step": 1270
	},
	{
	"epoch": 0.03,
	"grad_norm": 4.029257774353027,
	"learning_rate": 1.8357894736842105e-05,
	"loss": 0.7504,
	"step": 1280
	},
	{
	"epoch": 0.03,
	"grad_norm": 9.053960800170898,
	"learning_rate": 1.8336842105263158e-05,
	"loss": 0.9074,
	"step": 1290
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.2877705097198486,
	"learning_rate": 1.831578947368421e-05,
	"loss": 0.772,
	"step": 1300
	},
	{
	"epoch": 0.03,
	"grad_norm": 3.4482290744781494,
	"learning_rate": 1.8294736842105267e-05,
	"loss": 0.8658,
	"step": 1310
	},
	{
	"epoch": 0.03,
	"grad_norm": 6.684794902801514,
	"learning_rate": 1.8273684210526316e-05,
	"loss": 0.7848,
	"step": 1320
	},
	{
	"epoch": 0.03,
	"grad_norm": 3.553828716278076,
	"learning_rate": 1.8252631578947372e-05,
	"loss": 0.8219,
	"step": 1330
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.5203397274017334,
	"learning_rate": 1.823157894736842e-05,
	"loss": 0.9071,
	"step": 1340
	},
	{
	"epoch": 0.03,
	"grad_norm": 4.961795806884766,
	"learning_rate": 1.8210526315789477e-05,
	"loss": 0.6542,
	"step": 1350
	},
	{
	"epoch": 0.03,
	"grad_norm": 3.663081645965576,
	"learning_rate": 1.8189473684210527e-05,
	"loss": 0.7402,
	"step": 1360
	},
	{
	"epoch": 0.03,
	"grad_norm": 8.785040855407715,
	"learning_rate": 1.816842105263158e-05,
	"loss": 0.7462,
	"step": 1370
	},
	{
	"epoch": 0.03,
	"grad_norm": 4.659074783325195,
	"learning_rate": 1.8147368421052632e-05,
	"loss": 0.6951,
	"step": 1380
	},
	{
	"epoch": 0.03,
	"grad_norm": 3.5885703563690186,
	"learning_rate": 1.8126315789473685e-05,
	"loss": 0.7008,
	"step": 1390
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.1295347213745117,
	"learning_rate": 1.810526315789474e-05,
	"loss": 0.9103,
	"step": 1400
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.4699888229370117,
	"learning_rate": 1.808421052631579e-05,
	"loss": 0.841,
	"step": 1410
	},
	{
	"epoch": 0.04,
	"grad_norm": 5.3273444175720215,
	"learning_rate": 1.8063157894736846e-05,
	"loss": 0.9041,
	"step": 1420
	},
	{
	"epoch": 0.04,
	"grad_norm": 5.149638652801514,
	"learning_rate": 1.8042105263157895e-05,
	"loss": 0.7784,
	"step": 1430
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.4124910831451416,
	"learning_rate": 1.8021052631578948e-05,
	"loss": 0.8208,
	"step": 1440
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.9231085777282715,
	"learning_rate": 1.8e-05,
	"loss": 0.7173,
	"step": 1450
	},
	{
	"epoch": 0.04,
	"grad_norm": 4.008113384246826,
	"learning_rate": 1.7978947368421053e-05,
	"loss": 0.7383,
	"step": 1460
	},
	{
	"epoch": 0.04,
	"grad_norm": 5.1748046875,
	"learning_rate": 1.795789473684211e-05,
	"loss": 0.8399,
	"step": 1470
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.4990293979644775,
	"learning_rate": 1.793684210526316e-05,
	"loss": 0.6721,
	"step": 1480
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.1186299324035645,
	"learning_rate": 1.7915789473684214e-05,
	"loss": 0.782,
	"step": 1490
	},
	{
	"epoch": 0.04,
	"grad_norm": 5.12732458114624,
	"learning_rate": 1.7894736842105264e-05,
	"loss": 0.7211,
	"step": 1500
	},
	{
	"epoch": 0.04,
	"eval_loss": 0.811568021774292,
	"eval_runtime": 67.7961,
	"eval_samples_per_second": 14.75,
	"eval_steps_per_second": 14.75,
	"step": 1500
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.631096124649048,
	"learning_rate": 1.7873684210526316e-05,
	"loss": 0.7557,
	"step": 1510
	},
	{
	"epoch": 0.04,
	"grad_norm": 8.850045204162598,
	"learning_rate": 1.785263157894737e-05,
	"loss": 0.8757,
	"step": 1520
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.1114978790283203,
	"learning_rate": 1.7831578947368422e-05,
	"loss": 0.7613,
	"step": 1530
	},
	{
	"epoch": 0.04,
	"grad_norm": 4.5038743019104,
	"learning_rate": 1.7810526315789474e-05,
	"loss": 0.8049,
	"step": 1540
	},
	{
	"epoch": 0.04,
	"grad_norm": 4.2331156730651855,
	"learning_rate": 1.7789473684210527e-05,
	"loss": 0.8277,
	"step": 1550
	},
	{
	"epoch": 0.04,
	"grad_norm": 5.05696964263916,
	"learning_rate": 1.7768421052631583e-05,
	"loss": 0.7973,
	"step": 1560
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.1331920623779297,
	"learning_rate": 1.7747368421052632e-05,
	"loss": 0.7688,
	"step": 1570
	},
	{
	"epoch": 0.04,
	"grad_norm": 4.984541416168213,
	"learning_rate": 1.7726315789473685e-05,
	"loss": 0.7865,
	"step": 1580
	},
	{
	"epoch": 0.04,
	"grad_norm": 7.149406433105469,
	"learning_rate": 1.7705263157894738e-05,
	"loss": 0.7728,
	"step": 1590
	},
	{
	"epoch": 0.04,
	"grad_norm": 8.092243194580078,
	"learning_rate": 1.768421052631579e-05,
	"loss": 0.935,
	"step": 1600
	},
	{
	"epoch": 0.04,
	"grad_norm": 13.16551399230957,
	"learning_rate": 1.7663157894736843e-05,
	"loss": 0.8286,
	"step": 1610
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.131350517272949,
	"learning_rate": 1.7642105263157896e-05,
	"loss": 0.7864,
	"step": 1620
	},
	{
	"epoch": 0.04,
	"grad_norm": 7.870023727416992,
	"learning_rate": 1.7621052631578948e-05,
	"loss": 0.8645,
	"step": 1630
	},
	{
	"epoch": 0.04,
	"grad_norm": 10.631692886352539,
	"learning_rate": 1.76e-05,
	"loss": 0.8473,
	"step": 1640
	},
	{
	"epoch": 0.04,
	"grad_norm": 6.421032905578613,
	"learning_rate": 1.7578947368421054e-05,
	"loss": 0.7868,
	"step": 1650
	},
	{
	"epoch": 0.04,
	"grad_norm": 4.57529878616333,
	"learning_rate": 1.7557894736842106e-05,
	"loss": 0.7882,
	"step": 1660
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.8785624504089355,
	"learning_rate": 1.753684210526316e-05,
	"loss": 0.7543,
	"step": 1670
	},
	{
	"epoch": 0.04,
	"grad_norm": 5.722006320953369,
	"learning_rate": 1.751578947368421e-05,
	"loss": 0.9626,
	"step": 1680
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.466771364212036,
	"learning_rate": 1.7494736842105264e-05,
	"loss": 0.783,
	"step": 1690
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.072049856185913,
	"learning_rate": 1.7473684210526317e-05,
	"loss": 0.7503,
	"step": 1700
	},
	{
	"epoch": 0.04,
	"grad_norm": 5.768575668334961,
	"learning_rate": 1.745263157894737e-05,
	"loss": 0.8193,
	"step": 1710
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.585022211074829,
	"learning_rate": 1.7431578947368422e-05,
	"loss": 0.8808,
	"step": 1720
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.0711567401885986,
	"learning_rate": 1.7410526315789475e-05,
	"loss": 0.8098,
	"step": 1730
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.3020272254943848,
	"learning_rate": 1.7389473684210527e-05,
	"loss": 0.7196,
	"step": 1740
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.645238161087036,
	"learning_rate": 1.736842105263158e-05,
	"loss": 0.8904,
	"step": 1750
	},
	{
	"epoch": 0.04,
	"grad_norm": 6.018638610839844,
	"learning_rate": 1.7347368421052633e-05,
	"loss": 0.7937,
	"step": 1760
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.629096746444702,
	"learning_rate": 1.7326315789473685e-05,
	"loss": 0.9171,
	"step": 1770
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.5619189739227295,
	"learning_rate": 1.7305263157894738e-05,
	"loss": 0.9488,
	"step": 1780
	},
	{
	"epoch": 0.04,
	"grad_norm": 9.464752197265625,
	"learning_rate": 1.728421052631579e-05,
	"loss": 0.8459,
	"step": 1790
	},
	{
	"epoch": 0.04,
	"grad_norm": 3.9856364727020264,
	"learning_rate": 1.7263157894736843e-05,
	"loss": 0.8378,
	"step": 1800
	},
	{
	"epoch": 0.05,
	"grad_norm": 3.753553867340088,
	"learning_rate": 1.7242105263157896e-05,
	"loss": 0.8093,
	"step": 1810
	},
	{
	"epoch": 0.05,
	"grad_norm": 3.4593358039855957,
	"learning_rate": 1.722105263157895e-05,
	"loss": 0.7896,
	"step": 1820
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.7163546085357666,
	"learning_rate": 1.72e-05,
	"loss": 0.7188,
	"step": 1830
	},
	{
	"epoch": 0.05,
	"grad_norm": 3.105628728866577,
	"learning_rate": 1.7178947368421054e-05,
	"loss": 0.7643,
	"step": 1840
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.387368679046631,
	"learning_rate": 1.7157894736842107e-05,
	"loss": 0.8465,
	"step": 1850
	},
	{
	"epoch": 0.05,
	"grad_norm": 6.020385265350342,
	"learning_rate": 1.713684210526316e-05,
	"loss": 0.7798,
	"step": 1860
	},
	{
	"epoch": 0.05,
	"grad_norm": 4.560520172119141,
	"learning_rate": 1.7115789473684212e-05,
	"loss": 0.7704,
	"step": 1870
	},
	{
	"epoch": 0.05,
	"grad_norm": 15.739727973937988,
	"learning_rate": 1.7094736842105265e-05,
	"loss": 0.7148,
	"step": 1880
	},
	{
	"epoch": 0.05,
	"grad_norm": 5.79690408706665,
	"learning_rate": 1.7073684210526317e-05,
	"loss": 0.798,
	"step": 1890
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.6939146518707275,
	"learning_rate": 1.705263157894737e-05,
	"loss": 0.7641,
	"step": 1900
	},
	{
	"epoch": 0.05,
	"grad_norm": 5.193384170532227,
	"learning_rate": 1.7031578947368423e-05,
	"loss": 0.7866,
	"step": 1910
	},
	{
	"epoch": 0.05,
	"grad_norm": 4.940731525421143,
	"learning_rate": 1.7010526315789475e-05,
	"loss": 0.8261,
	"step": 1920
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.1812446117401123,
	"learning_rate": 1.6989473684210528e-05,
	"loss": 0.7973,
	"step": 1930
	},
	{
	"epoch": 0.05,
	"grad_norm": 3.7413289546966553,
	"learning_rate": 1.696842105263158e-05,
	"loss": 0.7818,
	"step": 1940
	},
	{
	"epoch": 0.05,
	"grad_norm": 4.024014472961426,
	"learning_rate": 1.6947368421052633e-05,
	"loss": 0.7237,
	"step": 1950
	},
	{
	"epoch": 0.05,
	"grad_norm": 3.0871291160583496,
	"learning_rate": 1.6926315789473686e-05,
	"loss": 0.772,
	"step": 1960
	},
	{
	"epoch": 0.05,
	"grad_norm": 3.28814435005188,
	"learning_rate": 1.690526315789474e-05,
	"loss": 0.7067,
	"step": 1970
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.8241286277770996,
	"learning_rate": 1.688421052631579e-05,
	"loss": 0.8175,
	"step": 1980
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.5942068099975586,
	"learning_rate": 1.6863157894736844e-05,
	"loss": 0.9265,
	"step": 1990
	},
	{
	"epoch": 0.05,
	"grad_norm": 6.6822662353515625,
	"learning_rate": 1.6842105263157896e-05,
	"loss": 0.8593,
	"step": 2000
	},
	{
	"epoch": 0.05,
	"eval_loss": 0.8064771890640259,
	"eval_runtime": 67.7887,
	"eval_samples_per_second": 14.752,
	"eval_steps_per_second": 14.752,
	"step": 2000
	},
	{
	"epoch": 0.05,
	"grad_norm": 7.032164573669434,
	"learning_rate": 1.682105263157895e-05,
	"loss": 0.8819,
	"step": 2010
	},
	{
	"epoch": 0.05,
	"grad_norm": 4.874982833862305,
	"learning_rate": 1.6800000000000002e-05,
	"loss": 0.8021,
	"step": 2020
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.6172547340393066,
	"learning_rate": 1.6778947368421054e-05,
	"loss": 0.8017,
	"step": 2030
	},
	{
	"epoch": 0.05,
	"grad_norm": 10.659741401672363,
	"learning_rate": 1.6757894736842107e-05,
	"loss": 0.8896,
	"step": 2040
	},
	{
	"epoch": 0.05,
	"grad_norm": 6.189141750335693,
	"learning_rate": 1.673684210526316e-05,
	"loss": 0.7997,
	"step": 2050
	},
	{
	"epoch": 0.05,
	"grad_norm": 4.523468971252441,
	"learning_rate": 1.6715789473684212e-05,
	"loss": 0.8498,
	"step": 2060
	},
	{
	"epoch": 0.05,
	"grad_norm": 8.533658981323242,
	"learning_rate": 1.6694736842105265e-05,
	"loss": 0.8857,
	"step": 2070
	},
	{
	"epoch": 0.05,
	"grad_norm": 3.0041606426239014,
	"learning_rate": 1.6673684210526318e-05,
	"loss": 0.8112,
	"step": 2080
	},
	{
	"epoch": 0.05,
	"grad_norm": 5.055651664733887,
	"learning_rate": 1.665263157894737e-05,
	"loss": 0.7872,
	"step": 2090
	},
	{
	"epoch": 0.05,
	"grad_norm": 5.761922836303711,
	"learning_rate": 1.6631578947368423e-05,
	"loss": 0.7727,
	"step": 2100
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.518223524093628,
	"learning_rate": 1.6610526315789476e-05,
	"loss": 0.7997,
	"step": 2110
	},
	{
	"epoch": 0.05,
	"grad_norm": 4.975761890411377,
	"learning_rate": 1.658947368421053e-05,
	"loss": 0.7457,
	"step": 2120
	},
	{
	"epoch": 0.05,
	"grad_norm": 3.2227561473846436,
	"learning_rate": 1.656842105263158e-05,
	"loss": 0.816,
	"step": 2130
	},
	{
	"epoch": 0.05,
	"grad_norm": 4.705923080444336,
	"learning_rate": 1.6547368421052634e-05,
	"loss": 0.8113,
	"step": 2140
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.655057430267334,
	"learning_rate": 1.6526315789473686e-05,
	"loss": 0.7912,
	"step": 2150
	},
	{
	"epoch": 0.05,
	"grad_norm": 3.0186755657196045,
	"learning_rate": 1.650526315789474e-05,
	"loss": 0.8608,
	"step": 2160
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.232386827468872,
	"learning_rate": 1.648421052631579e-05,
	"loss": 0.8549,
	"step": 2170
	},
	{
	"epoch": 0.05,
	"grad_norm": 11.968620300292969,
	"learning_rate": 1.6463157894736844e-05,
	"loss": 0.868,
	"step": 2180
	},
	{
	"epoch": 0.05,
	"grad_norm": 3.5853216648101807,
	"learning_rate": 1.6442105263157897e-05,
	"loss": 0.8388,
	"step": 2190
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.375610589981079,
	"learning_rate": 1.642105263157895e-05,
	"loss": 0.9111,
	"step": 2200
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.9734487533569336,
	"learning_rate": 1.64e-05,
	"loss": 0.7288,
	"step": 2210
	},
	{
	"epoch": 0.06,
	"grad_norm": 10.517192840576172,
	"learning_rate": 1.6378947368421055e-05,
	"loss": 0.698,
	"step": 2220
	},
	{
	"epoch": 0.06,
	"grad_norm": 4.183718204498291,
	"learning_rate": 1.6357894736842108e-05,
	"loss": 0.7759,
	"step": 2230
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.9075675010681152,
	"learning_rate": 1.633684210526316e-05,
	"loss": 0.7829,
	"step": 2240
	},
	{
	"epoch": 0.06,
	"grad_norm": 5.287744998931885,
	"learning_rate": 1.6315789473684213e-05,
	"loss": 0.7057,
	"step": 2250
	},
	{
	"epoch": 0.06,
	"grad_norm": 4.977657318115234,
	"learning_rate": 1.6294736842105265e-05,
	"loss": 0.8346,
	"step": 2260
	},
	{
	"epoch": 0.06,
	"grad_norm": 7.196689128875732,
	"learning_rate": 1.6273684210526318e-05,
	"loss": 0.8508,
	"step": 2270
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.467477798461914,
	"learning_rate": 1.6252631578947367e-05,
	"loss": 0.7179,
	"step": 2280
	},
	{
	"epoch": 0.06,
	"grad_norm": 7.059762954711914,
	"learning_rate": 1.6231578947368423e-05,
	"loss": 0.7549,
	"step": 2290
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.980865955352783,
	"learning_rate": 1.6210526315789473e-05,
	"loss": 0.814,
	"step": 2300
	},
	{
	"epoch": 0.06,
	"grad_norm": 7.675939559936523,
	"learning_rate": 1.618947368421053e-05,
	"loss": 0.8227,
	"step": 2310
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.530073642730713,
	"learning_rate": 1.616842105263158e-05,
	"loss": 0.8517,
	"step": 2320
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.6851344108581543,
	"learning_rate": 1.6147368421052634e-05,
	"loss": 0.7684,
	"step": 2330
	},
	{
	"epoch": 0.06,
	"grad_norm": 5.206923961639404,
	"learning_rate": 1.6126315789473687e-05,
	"loss": 0.8199,
	"step": 2340
	},
	{
	"epoch": 0.06,
	"grad_norm": 5.220828056335449,
	"learning_rate": 1.6105263157894736e-05,
	"loss": 0.8871,
	"step": 2350
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.5062482357025146,
	"learning_rate": 1.6084210526315792e-05,
	"loss": 0.8281,
	"step": 2360
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.9830796718597412,
	"learning_rate": 1.606315789473684e-05,
	"loss": 0.8678,
	"step": 2370
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.3255491256713867,
	"learning_rate": 1.6042105263157897e-05,
	"loss": 0.8337,
	"step": 2380
	},
	{
	"epoch": 0.06,
	"grad_norm": 5.259572505950928,
	"learning_rate": 1.6021052631578947e-05,
	"loss": 0.7954,
	"step": 2390
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.6201376914978027,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.818,
	"step": 2400
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.3598544597625732,
	"learning_rate": 1.5978947368421055e-05,
	"loss": 0.7697,
	"step": 2410
	},
	{
	"epoch": 0.06,
	"grad_norm": 6.34808349609375,
	"learning_rate": 1.5957894736842105e-05,
	"loss": 0.6347,
	"step": 2420
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.967682361602783,
	"learning_rate": 1.593684210526316e-05,
	"loss": 0.7178,
	"step": 2430
	},
	{
	"epoch": 0.06,
	"grad_norm": 10.222978591918945,
	"learning_rate": 1.591578947368421e-05,
	"loss": 0.7642,
	"step": 2440
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.9339826107025146,
	"learning_rate": 1.5894736842105266e-05,
	"loss": 0.8197,
	"step": 2450
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.3337771892547607,
	"learning_rate": 1.5873684210526315e-05,
	"loss": 0.9375,
	"step": 2460
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.8479838371276855,
	"learning_rate": 1.585263157894737e-05,
	"loss": 0.9196,
	"step": 2470
	},
	{
	"epoch": 0.06,
	"grad_norm": 9.294541358947754,
	"learning_rate": 1.5831578947368424e-05,
	"loss": 0.7144,
	"step": 2480
	},
	{
	"epoch": 0.06,
	"grad_norm": 5.325323104858398,
	"learning_rate": 1.5810526315789473e-05,
	"loss": 0.7897,
	"step": 2490
	},
	{
	"epoch": 0.06,
	"grad_norm": 4.377369403839111,
	"learning_rate": 1.578947368421053e-05,
	"loss": 0.9008,
	"step": 2500
	},
	{
	"epoch": 0.06,
	"eval_loss": 0.8163847923278809,
	"eval_runtime": 67.7994,
	"eval_samples_per_second": 14.749,
	"eval_steps_per_second": 14.749,
	"step": 2500
	},
	{
	"epoch": 0.06,
	"grad_norm": 5.1105055809021,
	"learning_rate": 1.576842105263158e-05,
	"loss": 0.7897,
	"step": 2510
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.321247100830078,
	"learning_rate": 1.5747368421052635e-05,
	"loss": 0.7394,
	"step": 2520
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.1728689670562744,
	"learning_rate": 1.5726315789473684e-05,
	"loss": 0.7395,
	"step": 2530
	},
	{
	"epoch": 0.06,
	"grad_norm": 4.246960163116455,
	"learning_rate": 1.570526315789474e-05,
	"loss": 0.7825,
	"step": 2540
	},
	{
	"epoch": 0.06,
	"grad_norm": 4.518326282501221,
	"learning_rate": 1.568421052631579e-05,
	"loss": 0.8168,
	"step": 2550
	},
	{
	"epoch": 0.06,
	"grad_norm": 4.336541652679443,
	"learning_rate": 1.5663157894736842e-05,
	"loss": 0.8887,
	"step": 2560
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.3204426765441895,
	"learning_rate": 1.5642105263157898e-05,
	"loss": 0.8257,
	"step": 2570
	},
	{
	"epoch": 0.06,
	"grad_norm": 9.327149391174316,
	"learning_rate": 1.5621052631578947e-05,
	"loss": 0.7896,
	"step": 2580
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.575266718864441,
	"learning_rate": 1.5600000000000003e-05,
	"loss": 0.9021,
	"step": 2590
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.955282688140869,
	"learning_rate": 1.5578947368421052e-05,
	"loss": 0.8115,
	"step": 2600
	},
	{
	"epoch": 0.07,
	"grad_norm": 6.098946571350098,
	"learning_rate": 1.555789473684211e-05,
	"loss": 0.647,
	"step": 2610
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.354290723800659,
	"learning_rate": 1.5536842105263158e-05,
	"loss": 0.8033,
	"step": 2620
	},
	{
	"epoch": 0.07,
	"grad_norm": 4.7387518882751465,
	"learning_rate": 1.551578947368421e-05,
	"loss": 0.6904,
	"step": 2630
	},
	{
	"epoch": 0.07,
	"grad_norm": 7.594583034515381,
	"learning_rate": 1.5494736842105263e-05,
	"loss": 0.7914,
	"step": 2640
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.994126081466675,
	"learning_rate": 1.5473684210526316e-05,
	"loss": 0.8019,
	"step": 2650
	},
	{
	"epoch": 0.07,
	"grad_norm": 5.478656768798828,
	"learning_rate": 1.545263157894737e-05,
	"loss": 0.7575,
	"step": 2660
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.4734623432159424,
	"learning_rate": 1.543157894736842e-05,
	"loss": 0.7662,
	"step": 2670
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.2532217502593994,
	"learning_rate": 1.5410526315789477e-05,
	"loss": 0.6782,
	"step": 2680
	},
	{
	"epoch": 0.07,
	"grad_norm": 4.5201520919799805,
	"learning_rate": 1.5389473684210526e-05,
	"loss": 0.7102,
	"step": 2690
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.8668696880340576,
	"learning_rate": 1.536842105263158e-05,
	"loss": 0.8358,
	"step": 2700
	},
	{
	"epoch": 0.07,
	"grad_norm": 5.816726207733154,
	"learning_rate": 1.534736842105263e-05,
	"loss": 0.8439,
	"step": 2710
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.014636516571045,
	"learning_rate": 1.5326315789473684e-05,
	"loss": 0.8699,
	"step": 2720
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.465543270111084,
	"learning_rate": 1.530526315789474e-05,
	"loss": 0.7515,
	"step": 2730
	},
	{
	"epoch": 0.07,
	"grad_norm": 6.904135227203369,
	"learning_rate": 1.528421052631579e-05,
	"loss": 0.7578,
	"step": 2740
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.1614532470703125,
	"learning_rate": 1.5263157894736846e-05,
	"loss": 0.6915,
	"step": 2750
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.4877758026123047,
	"learning_rate": 1.5242105263157897e-05,
	"loss": 0.7607,
	"step": 2760
	},
	{
	"epoch": 0.07,
	"grad_norm": 6.346368312835693,
	"learning_rate": 1.5221052631578948e-05,
	"loss": 0.8558,
	"step": 2770
	},
	{
	"epoch": 0.07,
	"grad_norm": 4.319607734680176,
	"learning_rate": 1.5200000000000002e-05,
	"loss": 0.8349,
	"step": 2780
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.130995750427246,
	"learning_rate": 1.5178947368421053e-05,
	"loss": 0.7747,
	"step": 2790
	},
	{
	"epoch": 0.07,
	"grad_norm": 1.8080275058746338,
	"learning_rate": 1.5157894736842107e-05,
	"loss": 0.696,
	"step": 2800
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.184603214263916,
	"learning_rate": 1.5136842105263158e-05,
	"loss": 0.7874,
	"step": 2810
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.7330257892608643,
	"learning_rate": 1.5115789473684212e-05,
	"loss": 0.6844,
	"step": 2820
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.2653279304504395,
	"learning_rate": 1.5094736842105263e-05,
	"loss": 0.6429,
	"step": 2830
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.826791524887085,
	"learning_rate": 1.5073684210526316e-05,
	"loss": 0.7868,
	"step": 2840
	},
	{
	"epoch": 0.07,
	"grad_norm": 5.656713008880615,
	"learning_rate": 1.505263157894737e-05,
	"loss": 0.81,
	"step": 2850
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.6106789112091064,
	"learning_rate": 1.5031578947368421e-05,
	"loss": 0.7693,
	"step": 2860
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.2952094078063965,
	"learning_rate": 1.5010526315789476e-05,
	"loss": 0.7727,
	"step": 2870
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.8655829429626465,
	"learning_rate": 1.4989473684210527e-05,
	"loss": 0.7702,
	"step": 2880
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.170299768447876,
	"learning_rate": 1.4968421052631581e-05,
	"loss": 0.884,
	"step": 2890
	},
	{
	"epoch": 0.07,
	"grad_norm": 10.48736572265625,
	"learning_rate": 1.4947368421052632e-05,
	"loss": 0.8281,
	"step": 2900
	},
	{
	"epoch": 0.07,
	"grad_norm": 6.244320392608643,
	"learning_rate": 1.4926315789473686e-05,
	"loss": 0.8549,
	"step": 2910
	},
	{
	"epoch": 0.07,
	"grad_norm": 9.334859848022461,
	"learning_rate": 1.4905263157894739e-05,
	"loss": 0.7232,
	"step": 2920
	},
	{
	"epoch": 0.07,
	"grad_norm": 6.034826755523682,
	"learning_rate": 1.488421052631579e-05,
	"loss": 0.7666,
	"step": 2930
	},
	{
	"epoch": 0.07,
	"grad_norm": 5.024431228637695,
	"learning_rate": 1.4863157894736844e-05,
	"loss": 0.7803,
	"step": 2940
	},
	{
	"epoch": 0.07,
	"grad_norm": 4.2071685791015625,
	"learning_rate": 1.4842105263157895e-05,
	"loss": 0.8844,
	"step": 2950
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.319312810897827,
	"learning_rate": 1.482105263157895e-05,
	"loss": 0.7345,
	"step": 2960
	},
	{
	"epoch": 0.07,
	"grad_norm": 4.384433746337891,
	"learning_rate": 1.48e-05,
	"loss": 0.6718,
	"step": 2970
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.6182382106781006,
	"learning_rate": 1.4778947368421055e-05,
	"loss": 0.7898,
	"step": 2980
	},
	{
	"epoch": 0.07,
	"grad_norm": 8.145679473876953,
	"learning_rate": 1.4757894736842106e-05,
	"loss": 0.7754,
	"step": 2990
	},
	{
	"epoch": 0.07,
	"grad_norm": 4.761884689331055,
	"learning_rate": 1.4736842105263159e-05,
	"loss": 0.7607,
	"step": 3000
	},
	{
	"epoch": 0.07,
	"eval_loss": 0.8005050420761108,
	"eval_runtime": 67.8219,
	"eval_samples_per_second": 14.744,
	"eval_steps_per_second": 14.744,
	"step": 3000
	},
	{
	"epoch": 0.08,
	"grad_norm": 9.505555152893066,
	"learning_rate": 1.4715789473684213e-05,
	"loss": 0.6883,
	"step": 3010
	},
	{
	"epoch": 0.08,
	"grad_norm": 4.4507155418396,
	"learning_rate": 1.4694736842105264e-05,
	"loss": 0.7203,
	"step": 3020
	},
	{
	"epoch": 0.08,
	"grad_norm": 7.255837440490723,
	"learning_rate": 1.4673684210526318e-05,
	"loss": 0.8193,
	"step": 3030
	},
	{
	"epoch": 0.08,
	"grad_norm": 6.857261657714844,
	"learning_rate": 1.465263157894737e-05,
	"loss": 0.6581,
	"step": 3040
	},
	{
	"epoch": 0.08,
	"grad_norm": 8.000073432922363,
	"learning_rate": 1.4631578947368424e-05,
	"loss": 0.7318,
	"step": 3050
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.8200011253356934,
	"learning_rate": 1.4610526315789474e-05,
	"loss": 0.8176,
	"step": 3060
	},
	{
	"epoch": 0.08,
	"grad_norm": 4.028472423553467,
	"learning_rate": 1.4589473684210527e-05,
	"loss": 0.7712,
	"step": 3070
	},
	{
	"epoch": 0.08,
	"grad_norm": 3.2594337463378906,
	"learning_rate": 1.456842105263158e-05,
	"loss": 0.8032,
	"step": 3080
	},
	{
	"epoch": 0.08,
	"grad_norm": 3.751202344894409,
	"learning_rate": 1.4547368421052632e-05,
	"loss": 0.7905,
	"step": 3090
	},
	{
	"epoch": 0.08,
	"grad_norm": 4.235973834991455,
	"learning_rate": 1.4526315789473687e-05,
	"loss": 0.8402,
	"step": 3100
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.327855348587036,
	"learning_rate": 1.4505263157894738e-05,
	"loss": 0.9027,
	"step": 3110
	},
	{
	"epoch": 0.08,
	"grad_norm": 5.911487102508545,
	"learning_rate": 1.4484210526315792e-05,
	"loss": 0.8241,
	"step": 3120
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.3612990379333496,
	"learning_rate": 1.4463157894736843e-05,
	"loss": 0.7884,
	"step": 3130
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.106682300567627,
	"learning_rate": 1.4442105263157896e-05,
	"loss": 0.7414,
	"step": 3140
	},
	{
	"epoch": 0.08,
	"grad_norm": 4.354177951812744,
	"learning_rate": 1.4421052631578948e-05,
	"loss": 0.7626,
	"step": 3150
	},
	{
	"epoch": 0.08,
	"grad_norm": 3.0019009113311768,
	"learning_rate": 1.4400000000000001e-05,
	"loss": 0.6853,
	"step": 3160
	},
	{
	"epoch": 0.08,
	"grad_norm": 3.787949562072754,
	"learning_rate": 1.4378947368421054e-05,
	"loss": 0.8105,
	"step": 3170
	},
	{
	"epoch": 0.08,
	"grad_norm": 5.0848469734191895,
	"learning_rate": 1.4357894736842106e-05,
	"loss": 0.7787,
	"step": 3180
	},
	{
	"epoch": 0.08,
	"grad_norm": 6.892744541168213,
	"learning_rate": 1.433684210526316e-05,
	"loss": 0.8883,
	"step": 3190
	},
	{
	"epoch": 0.08,
	"grad_norm": 3.717949390411377,
	"learning_rate": 1.4315789473684212e-05,
	"loss": 0.7458,
	"step": 3200
	},
	{
	"epoch": 0.08,
	"grad_norm": 3.4417831897735596,
	"learning_rate": 1.4294736842105263e-05,
	"loss": 0.7868,
	"step": 3210
	},
	{
	"epoch": 0.08,
	"grad_norm": 9.308151245117188,
	"learning_rate": 1.4273684210526317e-05,
	"loss": 0.8725,
	"step": 3220
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.7036919593811035,
	"learning_rate": 1.425263157894737e-05,
	"loss": 0.8706,
	"step": 3230
	},
	{
	"epoch": 0.08,
	"grad_norm": 7.338090419769287,
	"learning_rate": 1.4231578947368422e-05,
	"loss": 0.7695,
	"step": 3240
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.9678733348846436,
	"learning_rate": 1.4210526315789475e-05,
	"loss": 0.7259,
	"step": 3250
	},
	{
	"epoch": 0.08,
	"grad_norm": 3.3436050415039062,
	"learning_rate": 1.418947368421053e-05,
	"loss": 0.7193,
	"step": 3260
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.23856520652771,
	"learning_rate": 1.416842105263158e-05,
	"loss": 0.6766,
	"step": 3270
	},
	{
	"epoch": 0.08,
	"grad_norm": 4.021206855773926,
	"learning_rate": 1.4147368421052631e-05,
	"loss": 0.888,
	"step": 3280
	},
	{
	"epoch": 0.08,
	"grad_norm": 7.063048839569092,
	"learning_rate": 1.4126315789473686e-05,
	"loss": 0.7543,
	"step": 3290
	},
	{
	"epoch": 0.08,
	"grad_norm": 4.777950763702393,
	"learning_rate": 1.4105263157894738e-05,
	"loss": 0.6239,
	"step": 3300
	},
	{
	"epoch": 0.08,
	"grad_norm": 3.2984225749969482,
	"learning_rate": 1.4084210526315791e-05,
	"loss": 0.8349,
	"step": 3310
	},
	{
	"epoch": 0.08,
	"grad_norm": 6.48808479309082,
	"learning_rate": 1.4063157894736844e-05,
	"loss": 0.8765,
	"step": 3320
	},
	{
	"epoch": 0.08,
	"grad_norm": 4.557926177978516,
	"learning_rate": 1.4042105263157896e-05,
	"loss": 0.8508,
	"step": 3330
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.661513090133667,
	"learning_rate": 1.4021052631578949e-05,
	"loss": 0.7547,
	"step": 3340
	},
	{
	"epoch": 0.08,
	"grad_norm": 5.827274799346924,
	"learning_rate": 1.4e-05,
	"loss": 0.8556,
	"step": 3350
	},
	{
	"epoch": 0.08,
	"grad_norm": 3.0803449153900146,
	"learning_rate": 1.3978947368421054e-05,
	"loss": 0.8663,
	"step": 3360
	},
	{
	"epoch": 0.08,
	"grad_norm": 9.996018409729004,
	"learning_rate": 1.3957894736842105e-05,
	"loss": 0.68,
	"step": 3370
	},
	{
	"epoch": 0.08,
	"grad_norm": 5.443753242492676,
	"learning_rate": 1.393684210526316e-05,
	"loss": 0.7227,
	"step": 3380
	},
	{
	"epoch": 0.08,
	"grad_norm": 9.685049057006836,
	"learning_rate": 1.3915789473684212e-05,
	"loss": 0.7336,
	"step": 3390
	},
	{
	"epoch": 0.09,
	"grad_norm": 5.89941930770874,
	"learning_rate": 1.3894736842105265e-05,
	"loss": 0.7016,
	"step": 3400
	},
	{
	"epoch": 0.09,
	"grad_norm": 9.616964340209961,
	"learning_rate": 1.3873684210526317e-05,
	"loss": 0.7678,
	"step": 3410
	},
	{
	"epoch": 0.09,
	"grad_norm": 5.262804985046387,
	"learning_rate": 1.3852631578947368e-05,
	"loss": 0.8227,
	"step": 3420
	},
	{
	"epoch": 0.09,
	"grad_norm": 5.251176357269287,
	"learning_rate": 1.3831578947368423e-05,
	"loss": 0.71,
	"step": 3430
	},
	{
	"epoch": 0.09,
	"grad_norm": 5.626483917236328,
	"learning_rate": 1.3810526315789474e-05,
	"loss": 0.8204,
	"step": 3440
	},
	{
	"epoch": 0.09,
	"grad_norm": 6.990488052368164,
	"learning_rate": 1.3789473684210528e-05,
	"loss": 0.7745,
	"step": 3450
	},
	{
	"epoch": 0.09,
	"grad_norm": 7.510478496551514,
	"learning_rate": 1.3768421052631579e-05,
	"loss": 0.6286,
	"step": 3460
	},
	{
	"epoch": 0.09,
	"grad_norm": 5.006512641906738,
	"learning_rate": 1.3747368421052633e-05,
	"loss": 0.8146,
	"step": 3470
	},
	{
	"epoch": 0.09,
	"grad_norm": 6.388507843017578,
	"learning_rate": 1.3726315789473686e-05,
	"loss": 0.7914,
	"step": 3480
	},
	{
	"epoch": 0.09,
	"grad_norm": 5.217645168304443,
	"learning_rate": 1.3705263157894737e-05,
	"loss": 0.7219,
	"step": 3490
	},
	{
	"epoch": 0.09,
	"grad_norm": 6.257259368896484,
	"learning_rate": 1.3684210526315791e-05,
	"loss": 0.8404,
	"step": 3500
	},
	{
	"epoch": 0.09,
	"eval_loss": 0.8086790442466736,
	"eval_runtime": 67.9356,
	"eval_samples_per_second": 14.72,
	"eval_steps_per_second": 14.72,
	"step": 3500
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.6733217239379883,
	"learning_rate": 1.3663157894736842e-05,
	"loss": 0.7936,
	"step": 3510
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.0083932876586914,
	"learning_rate": 1.3642105263157897e-05,
	"loss": 0.7122,
	"step": 3520
	},
	{
	"epoch": 0.09,
	"grad_norm": 17.048171997070312,
	"learning_rate": 1.3621052631578948e-05,
	"loss": 0.7568,
	"step": 3530
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.1675314903259277,
	"learning_rate": 1.3600000000000002e-05,
	"loss": 0.639,
	"step": 3540
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.6769821643829346,
	"learning_rate": 1.3578947368421055e-05,
	"loss": 0.8691,
	"step": 3550
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.516094207763672,
	"learning_rate": 1.3557894736842106e-05,
	"loss": 0.7681,
	"step": 3560
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.8059396743774414,
	"learning_rate": 1.353684210526316e-05,
	"loss": 0.7387,
	"step": 3570
	},
	{
	"epoch": 0.09,
	"grad_norm": 4.531425952911377,
	"learning_rate": 1.3515789473684211e-05,
	"loss": 0.7559,
	"step": 3580
	},
	{
	"epoch": 0.09,
	"grad_norm": 9.721296310424805,
	"learning_rate": 1.3494736842105265e-05,
	"loss": 0.7816,
	"step": 3590
	},
	{
	"epoch": 0.09,
	"grad_norm": 6.60942268371582,
	"learning_rate": 1.3473684210526316e-05,
	"loss": 0.8203,
	"step": 3600
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.4415578842163086,
	"learning_rate": 1.345263157894737e-05,
	"loss": 0.6731,
	"step": 3610
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.322394847869873,
	"learning_rate": 1.3431578947368421e-05,
	"loss": 0.8578,
	"step": 3620
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.429548978805542,
	"learning_rate": 1.3410526315789474e-05,
	"loss": 0.7576,
	"step": 3630
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.9194421768188477,
	"learning_rate": 1.3389473684210528e-05,
	"loss": 0.8131,
	"step": 3640
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.6766152381896973,
	"learning_rate": 1.336842105263158e-05,
	"loss": 0.9391,
	"step": 3650
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.4084839820861816,
	"learning_rate": 1.3347368421052634e-05,
	"loss": 0.8242,
	"step": 3660
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.2697949409484863,
	"learning_rate": 1.3326315789473685e-05,
	"loss": 0.7534,
	"step": 3670
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.7821884155273438,
	"learning_rate": 1.3305263157894739e-05,
	"loss": 0.7237,
	"step": 3680
	},
	{
	"epoch": 0.09,
	"grad_norm": 4.925840854644775,
	"learning_rate": 1.328421052631579e-05,
	"loss": 0.8194,
	"step": 3690
	},
	{
	"epoch": 0.09,
	"grad_norm": 4.694246768951416,
	"learning_rate": 1.3263157894736843e-05,
	"loss": 0.7628,
	"step": 3700
	},
	{
	"epoch": 0.09,
	"grad_norm": 7.358584403991699,
	"learning_rate": 1.3242105263157895e-05,
	"loss": 0.9161,
	"step": 3710
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.007431983947754,
	"learning_rate": 1.3221052631578948e-05,
	"loss": 0.6624,
	"step": 3720
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.7626278400421143,
	"learning_rate": 1.3200000000000002e-05,
	"loss": 0.7662,
	"step": 3730
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.4226157665252686,
	"learning_rate": 1.3178947368421053e-05,
	"loss": 0.809,
	"step": 3740
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.5735135078430176,
	"learning_rate": 1.3157894736842108e-05,
	"loss": 0.6769,
	"step": 3750
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.4251084327697754,
	"learning_rate": 1.3136842105263159e-05,
	"loss": 0.7785,
	"step": 3760
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.311429977416992,
	"learning_rate": 1.3115789473684211e-05,
	"loss": 0.7536,
	"step": 3770
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.2348074913024902,
	"learning_rate": 1.3094736842105264e-05,
	"loss": 0.8138,
	"step": 3780
	},
	{
	"epoch": 0.09,
	"grad_norm": 7.259544372558594,
	"learning_rate": 1.3073684210526317e-05,
	"loss": 0.8,
	"step": 3790
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.99937105178833,
	"learning_rate": 1.305263157894737e-05,
	"loss": 0.7894,
	"step": 3800
	},
	{
	"epoch": 0.1,
	"grad_norm": 10.336478233337402,
	"learning_rate": 1.3031578947368422e-05,
	"loss": 0.7928,
	"step": 3810
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.500198841094971,
	"learning_rate": 1.3010526315789476e-05,
	"loss": 0.7916,
	"step": 3820
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.115521192550659,
	"learning_rate": 1.2989473684210527e-05,
	"loss": 0.7585,
	"step": 3830
	},
	{
	"epoch": 0.1,
	"grad_norm": 8.954665184020996,
	"learning_rate": 1.2968421052631578e-05,
	"loss": 0.7727,
	"step": 3840
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.874253273010254,
	"learning_rate": 1.2947368421052633e-05,
	"loss": 0.7903,
	"step": 3850
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.151484966278076,
	"learning_rate": 1.2926315789473685e-05,
	"loss": 0.7199,
	"step": 3860
	},
	{
	"epoch": 0.1,
	"grad_norm": 10.117889404296875,
	"learning_rate": 1.2905263157894738e-05,
	"loss": 0.7562,
	"step": 3870
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.595205307006836,
	"learning_rate": 1.288421052631579e-05,
	"loss": 0.8167,
	"step": 3880
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.4744372367858887,
	"learning_rate": 1.2863157894736845e-05,
	"loss": 0.7343,
	"step": 3890
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.1740803718566895,
	"learning_rate": 1.2842105263157896e-05,
	"loss": 0.8754,
	"step": 3900
	},
	{
	"epoch": 0.1,
	"grad_norm": 7.299022197723389,
	"learning_rate": 1.2821052631578947e-05,
	"loss": 0.7379,
	"step": 3910
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.2339208126068115,
	"learning_rate": 1.2800000000000001e-05,
	"loss": 0.771,
	"step": 3920
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.5612077713012695,
	"learning_rate": 1.2778947368421054e-05,
	"loss": 0.7959,
	"step": 3930
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.87350606918335,
	"learning_rate": 1.2757894736842106e-05,
	"loss": 0.7871,
	"step": 3940
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.8318493366241455,
	"learning_rate": 1.2736842105263159e-05,
	"loss": 0.7502,
	"step": 3950
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.797230243682861,
	"learning_rate": 1.2715789473684212e-05,
	"loss": 0.7241,
	"step": 3960
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.037790775299072,
	"learning_rate": 1.2694736842105264e-05,
	"loss": 0.8642,
	"step": 3970
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.736443042755127,
	"learning_rate": 1.2673684210526315e-05,
	"loss": 0.7672,
	"step": 3980
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.449172258377075,
	"learning_rate": 1.265263157894737e-05,
	"loss": 0.7685,
	"step": 3990
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.1893362998962402,
	"learning_rate": 1.263157894736842e-05,
	"loss": 0.6876,
	"step": 4000
	},
	{
	"epoch": 0.1,
	"eval_loss": 0.8031703233718872,
	"eval_runtime": 67.9677,
	"eval_samples_per_second": 14.713,
	"eval_steps_per_second": 14.713,
	"step": 4000
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.5685079097747803,
	"learning_rate": 1.2610526315789475e-05,
	"loss": 0.7317,
	"step": 4010
	},
	{
	"epoch": 0.1,
	"grad_norm": 6.440120220184326,
	"learning_rate": 1.2589473684210528e-05,
	"loss": 0.7919,
	"step": 4020
	},
	{
	"epoch": 0.1,
	"grad_norm": 5.1870341300964355,
	"learning_rate": 1.256842105263158e-05,
	"loss": 0.6921,
	"step": 4030
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.161406517028809,
	"learning_rate": 1.2547368421052633e-05,
	"loss": 0.7822,
	"step": 4040
	},
	{
	"epoch": 0.1,
	"grad_norm": 6.242280006408691,
	"learning_rate": 1.2526315789473684e-05,
	"loss": 0.8151,
	"step": 4050
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.825861692428589,
	"learning_rate": 1.2505263157894738e-05,
	"loss": 0.7709,
	"step": 4060
	},
	{
	"epoch": 0.1,
	"grad_norm": 22.97239112854004,
	"learning_rate": 1.248421052631579e-05,
	"loss": 0.8456,
	"step": 4070
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.718015193939209,
	"learning_rate": 1.2463157894736844e-05,
	"loss": 0.8354,
	"step": 4080
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.266710042953491,
	"learning_rate": 1.2442105263157895e-05,
	"loss": 0.6444,
	"step": 4090
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.711140155792236,
	"learning_rate": 1.2421052631578949e-05,
	"loss": 0.8418,
	"step": 4100
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.8773484230041504,
	"learning_rate": 1.2400000000000002e-05,
	"loss": 0.6673,
	"step": 4110
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.492387771606445,
	"learning_rate": 1.2378947368421053e-05,
	"loss": 0.7801,
	"step": 4120
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.106402397155762,
	"learning_rate": 1.2357894736842107e-05,
	"loss": 0.718,
	"step": 4130
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.770216941833496,
	"learning_rate": 1.2336842105263158e-05,
	"loss": 0.7546,
	"step": 4140
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.7071616649627686,
	"learning_rate": 1.2315789473684212e-05,
	"loss": 0.8232,
	"step": 4150
	},
	{
	"epoch": 0.1,
	"grad_norm": 11.786856651306152,
	"learning_rate": 1.2294736842105263e-05,
	"loss": 0.845,
	"step": 4160
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.190443515777588,
	"learning_rate": 1.2273684210526317e-05,
	"loss": 0.7656,
	"step": 4170
	},
	{
	"epoch": 0.1,
	"grad_norm": 6.3326239585876465,
	"learning_rate": 1.225263157894737e-05,
	"loss": 0.8145,
	"step": 4180
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.735156297683716,
	"learning_rate": 1.2231578947368421e-05,
	"loss": 0.7637,
	"step": 4190
	},
	{
	"epoch": 0.1,
	"grad_norm": 44.92083740234375,
	"learning_rate": 1.2210526315789475e-05,
	"loss": 0.8358,
	"step": 4200
	},
	{
	"epoch": 0.11,
	"grad_norm": 5.335235595703125,
	"learning_rate": 1.2189473684210526e-05,
	"loss": 0.8564,
	"step": 4210
	},
	{
	"epoch": 0.11,
	"grad_norm": 6.2740349769592285,
	"learning_rate": 1.216842105263158e-05,
	"loss": 0.8443,
	"step": 4220
	},
	{
	"epoch": 0.11,
	"grad_norm": 5.290927410125732,
	"learning_rate": 1.2147368421052632e-05,
	"loss": 0.8041,
	"step": 4230
	},
	{
	"epoch": 0.11,
	"grad_norm": 9.460419654846191,
	"learning_rate": 1.2126315789473686e-05,
	"loss": 0.8054,
	"step": 4240
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.963223934173584,
	"learning_rate": 1.2105263157894737e-05,
	"loss": 0.8104,
	"step": 4250
	},
	{
	"epoch": 0.11,
	"grad_norm": 5.091956615447998,
	"learning_rate": 1.208421052631579e-05,
	"loss": 0.7156,
	"step": 4260
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.055617570877075,
	"learning_rate": 1.2063157894736844e-05,
	"loss": 0.835,
	"step": 4270
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.4951014518737793,
	"learning_rate": 1.2042105263157895e-05,
	"loss": 0.8004,
	"step": 4280
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.876716136932373,
	"learning_rate": 1.202105263157895e-05,
	"loss": 0.7324,
	"step": 4290
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.0460751056671143,
	"learning_rate": 1.2e-05,
	"loss": 0.7856,
	"step": 4300
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.417022943496704,
	"learning_rate": 1.1978947368421055e-05,
	"loss": 0.7649,
	"step": 4310
	},
	{
	"epoch": 0.11,
	"grad_norm": 5.435426235198975,
	"learning_rate": 1.1957894736842106e-05,
	"loss": 0.8354,
	"step": 4320
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.5707461833953857,
	"learning_rate": 1.1936842105263158e-05,
	"loss": 0.7264,
	"step": 4330
	},
	{
	"epoch": 0.11,
	"grad_norm": 4.077741622924805,
	"learning_rate": 1.1915789473684211e-05,
	"loss": 0.6934,
	"step": 4340
	},
	{
	"epoch": 0.11,
	"grad_norm": 5.498834133148193,
	"learning_rate": 1.1894736842105264e-05,
	"loss": 0.7687,
	"step": 4350
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.684948205947876,
	"learning_rate": 1.1873684210526318e-05,
	"loss": 0.9371,
	"step": 4360
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.4451920986175537,
	"learning_rate": 1.1852631578947369e-05,
	"loss": 0.7904,
	"step": 4370
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.1316657066345215,
	"learning_rate": 1.1831578947368423e-05,
	"loss": 0.6835,
	"step": 4380
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.741140127182007,
	"learning_rate": 1.1810526315789474e-05,
	"loss": 0.8932,
	"step": 4390
	},
	{
	"epoch": 0.11,
	"grad_norm": 4.40395975112915,
	"learning_rate": 1.1789473684210527e-05,
	"loss": 0.9044,
	"step": 4400
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.406174898147583,
	"learning_rate": 1.176842105263158e-05,
	"loss": 0.7924,
	"step": 4410
	},
	{
	"epoch": 0.11,
	"grad_norm": 6.892871379852295,
	"learning_rate": 1.1747368421052632e-05,
	"loss": 0.7356,
	"step": 4420
	},
	{
	"epoch": 0.11,
	"grad_norm": 5.855538368225098,
	"learning_rate": 1.1726315789473685e-05,
	"loss": 0.7543,
	"step": 4430
	},
	{
	"epoch": 0.11,
	"grad_norm": 4.951474666595459,
	"learning_rate": 1.1705263157894737e-05,
	"loss": 0.7416,
	"step": 4440
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.314338207244873,
	"learning_rate": 1.1684210526315792e-05,
	"loss": 0.7764,
	"step": 4450
	},
	{
	"epoch": 0.11,
	"grad_norm": 5.176599502563477,
	"learning_rate": 1.1663157894736843e-05,
	"loss": 0.7658,
	"step": 4460
	},
	{
	"epoch": 0.11,
	"grad_norm": 5.275913238525391,
	"learning_rate": 1.1642105263157897e-05,
	"loss": 0.6621,
	"step": 4470
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.1267452239990234,
	"learning_rate": 1.1621052631578948e-05,
	"loss": 0.7699,
	"step": 4480
	},
	{
	"epoch": 0.11,
	"grad_norm": 8.313840866088867,
	"learning_rate": 1.16e-05,
	"loss": 0.7262,
	"step": 4490
	},
	{
	"epoch": 0.11,
	"grad_norm": 8.310973167419434,
	"learning_rate": 1.1578947368421053e-05,
	"loss": 0.8871,
	"step": 4500
	},
	{
	"epoch": 0.11,
	"eval_loss": 0.7730265855789185,
	"eval_runtime": 67.9868,
	"eval_samples_per_second": 14.709,
	"eval_steps_per_second": 14.709,
	"step": 4500
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.4506046772003174,
	"learning_rate": 1.1557894736842106e-05,
	"loss": 0.7579,
	"step": 4510
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.864931106567383,
	"learning_rate": 1.153684210526316e-05,
	"loss": 0.899,
	"step": 4520
	},
	{
	"epoch": 0.11,
	"grad_norm": 5.998289108276367,
	"learning_rate": 1.1515789473684211e-05,
	"loss": 0.7924,
	"step": 4530
	},
	{
	"epoch": 0.11,
	"grad_norm": 4.859367370605469,
	"learning_rate": 1.1494736842105266e-05,
	"loss": 0.773,
	"step": 4540
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.9851796627044678,
	"learning_rate": 1.1473684210526317e-05,
	"loss": 0.8665,
	"step": 4550
	},
	{
	"epoch": 0.11,
	"grad_norm": 5.357670783996582,
	"learning_rate": 1.145263157894737e-05,
	"loss": 0.7522,
	"step": 4560
	},
	{
	"epoch": 0.11,
	"grad_norm": 3.778637409210205,
	"learning_rate": 1.1431578947368422e-05,
	"loss": 0.6188,
	"step": 4570
	},
	{
	"epoch": 0.11,
	"grad_norm": 8.546213150024414,
	"learning_rate": 1.1410526315789475e-05,
	"loss": 0.7296,
	"step": 4580
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.5466620922088623,
	"learning_rate": 1.1389473684210527e-05,
	"loss": 0.7774,
	"step": 4590
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.85372257232666,
	"learning_rate": 1.136842105263158e-05,
	"loss": 0.7884,
	"step": 4600
	},
	{
	"epoch": 0.12,
	"grad_norm": 3.1757266521453857,
	"learning_rate": 1.1347368421052634e-05,
	"loss": 0.8008,
	"step": 4610
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.7544124126434326,
	"learning_rate": 1.1326315789473685e-05,
	"loss": 0.7322,
	"step": 4620
	},
	{
	"epoch": 0.12,
	"grad_norm": 7.456575870513916,
	"learning_rate": 1.1305263157894736e-05,
	"loss": 0.7978,
	"step": 4630
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.9789164066314697,
	"learning_rate": 1.128421052631579e-05,
	"loss": 0.617,
	"step": 4640
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.361474514007568,
	"learning_rate": 1.1263157894736843e-05,
	"loss": 0.8214,
	"step": 4650
	},
	{
	"epoch": 0.12,
	"grad_norm": 14.45222282409668,
	"learning_rate": 1.1242105263157896e-05,
	"loss": 0.7183,
	"step": 4660
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.7697906494140625,
	"learning_rate": 1.1221052631578949e-05,
	"loss": 0.729,
	"step": 4670
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.225655555725098,
	"learning_rate": 1.1200000000000001e-05,
	"loss": 0.7627,
	"step": 4680
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.067778587341309,
	"learning_rate": 1.1178947368421054e-05,
	"loss": 0.78,
	"step": 4690
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.5654473304748535,
	"learning_rate": 1.1157894736842105e-05,
	"loss": 0.7178,
	"step": 4700
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.7385423183441162,
	"learning_rate": 1.1136842105263159e-05,
	"loss": 0.9387,
	"step": 4710
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.847338676452637,
	"learning_rate": 1.111578947368421e-05,
	"loss": 0.7951,
	"step": 4720
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.739323377609253,
	"learning_rate": 1.1094736842105264e-05,
	"loss": 0.8198,
	"step": 4730
	},
	{
	"epoch": 0.12,
	"grad_norm": 5.23370885848999,
	"learning_rate": 1.1073684210526317e-05,
	"loss": 0.7462,
	"step": 4740
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.970132350921631,
	"learning_rate": 1.105263157894737e-05,
	"loss": 0.6983,
	"step": 4750
	},
	{
	"epoch": 0.12,
	"grad_norm": 3.8072540760040283,
	"learning_rate": 1.1031578947368422e-05,
	"loss": 0.852,
	"step": 4760
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.734208345413208,
	"learning_rate": 1.1010526315789473e-05,
	"loss": 0.8621,
	"step": 4770
	},
	{
	"epoch": 0.12,
	"grad_norm": 3.022127151489258,
	"learning_rate": 1.0989473684210528e-05,
	"loss": 0.7652,
	"step": 4780
	},
	{
	"epoch": 0.12,
	"grad_norm": 7.284844875335693,
	"learning_rate": 1.0968421052631579e-05,
	"loss": 0.7901,
	"step": 4790
	},
	{
	"epoch": 0.12,
	"grad_norm": 6.52205753326416,
	"learning_rate": 1.0947368421052633e-05,
	"loss": 0.8347,
	"step": 4800
	},
	{
	"epoch": 0.12,
	"grad_norm": 3.1662251949310303,
	"learning_rate": 1.0926315789473686e-05,
	"loss": 0.6105,
	"step": 4810
	},
	{
	"epoch": 0.12,
	"grad_norm": 6.027661323547363,
	"learning_rate": 1.0905263157894738e-05,
	"loss": 0.7447,
	"step": 4820
	},
	{
	"epoch": 0.12,
	"grad_norm": 9.989821434020996,
	"learning_rate": 1.0884210526315791e-05,
	"loss": 0.8144,
	"step": 4830
	},
	{
	"epoch": 0.12,
	"grad_norm": 3.886387825012207,
	"learning_rate": 1.0863157894736842e-05,
	"loss": 0.7702,
	"step": 4840
	},
	{
	"epoch": 0.12,
	"grad_norm": 8.8762845993042,
	"learning_rate": 1.0842105263157896e-05,
	"loss": 0.7305,
	"step": 4850
	},
	{
	"epoch": 0.12,
	"grad_norm": 5.934712886810303,
	"learning_rate": 1.0821052631578947e-05,
	"loss": 0.7849,
	"step": 4860
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.3684771060943604,
	"learning_rate": 1.0800000000000002e-05,
	"loss": 0.8292,
	"step": 4870
	},
	{
	"epoch": 0.12,
	"grad_norm": 10.528717041015625,
	"learning_rate": 1.0778947368421053e-05,
	"loss": 0.8637,
	"step": 4880
	},
	{
	"epoch": 0.12,
	"grad_norm": 10.721526145935059,
	"learning_rate": 1.0757894736842107e-05,
	"loss": 0.7756,
	"step": 4890
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.99760103225708,
	"learning_rate": 1.073684210526316e-05,
	"loss": 0.7928,
	"step": 4900
	},
	{
	"epoch": 0.12,
	"grad_norm": 8.126914978027344,
	"learning_rate": 1.071578947368421e-05,
	"loss": 0.7833,
	"step": 4910
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.2220332622528076,
	"learning_rate": 1.0694736842105265e-05,
	"loss": 0.7819,
	"step": 4920
	},
	{
	"epoch": 0.12,
	"grad_norm": 7.0100321769714355,
	"learning_rate": 1.0673684210526316e-05,
	"loss": 0.8533,
	"step": 4930
	},
	{
	"epoch": 0.12,
	"grad_norm": 3.5343334674835205,
	"learning_rate": 1.065263157894737e-05,
	"loss": 0.7053,
	"step": 4940
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.862158298492432,
	"learning_rate": 1.0631578947368421e-05,
	"loss": 0.7556,
	"step": 4950
	},
	{
	"epoch": 0.12,
	"grad_norm": 10.008291244506836,
	"learning_rate": 1.0610526315789476e-05,
	"loss": 0.8381,
	"step": 4960
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.455188035964966,
	"learning_rate": 1.0589473684210526e-05,
	"loss": 0.749,
	"step": 4970
	},
	{
	"epoch": 0.12,
	"grad_norm": 5.882299423217773,
	"learning_rate": 1.0568421052631579e-05,
	"loss": 0.7797,
	"step": 4980
	},
	{
	"epoch": 0.12,
	"grad_norm": 5.7382001876831055,
	"learning_rate": 1.0547368421052633e-05,
	"loss": 0.8191,
	"step": 4990
	},
	{
	"epoch": 0.12,
	"grad_norm": 3.9528167247772217,
	"learning_rate": 1.0526315789473684e-05,
	"loss": 0.6382,
	"step": 5000
	},
	{
	"epoch": 0.12,
	"eval_loss": 0.7771185040473938,
	"eval_runtime": 67.9924,
	"eval_samples_per_second": 14.708,
	"eval_steps_per_second": 14.708,
	"step": 5000
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.4830055236816406,
	"learning_rate": 1.0505263157894739e-05,
	"loss": 0.9099,
	"step": 5010
	},
	{
	"epoch": 0.13,
	"grad_norm": 5.7392096519470215,
	"learning_rate": 1.048421052631579e-05,
	"loss": 0.6423,
	"step": 5020
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.720612049102783,
	"learning_rate": 1.0463157894736844e-05,
	"loss": 0.7826,
	"step": 5030
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.0437145233154297,
	"learning_rate": 1.0442105263157895e-05,
	"loss": 0.7865,
	"step": 5040
	},
	{
	"epoch": 0.13,
	"grad_norm": 8.835311889648438,
	"learning_rate": 1.0421052631578948e-05,
	"loss": 0.7778,
	"step": 5050
	},
	{
	"epoch": 0.13,
	"grad_norm": 7.596973419189453,
	"learning_rate": 1.04e-05,
	"loss": 0.7381,
	"step": 5060
	},
	{
	"epoch": 0.13,
	"grad_norm": 4.108314037322998,
	"learning_rate": 1.0378947368421053e-05,
	"loss": 0.7689,
	"step": 5070
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.865196704864502,
	"learning_rate": 1.0357894736842107e-05,
	"loss": 0.7785,
	"step": 5080
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.4403493404388428,
	"learning_rate": 1.0336842105263158e-05,
	"loss": 0.8322,
	"step": 5090
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.243029832839966,
	"learning_rate": 1.0315789473684213e-05,
	"loss": 0.6658,
	"step": 5100
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.806818962097168,
	"learning_rate": 1.0294736842105264e-05,
	"loss": 0.781,
	"step": 5110
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.820622205734253,
	"learning_rate": 1.0273684210526316e-05,
	"loss": 0.7499,
	"step": 5120
	},
	{
	"epoch": 0.13,
	"grad_norm": 4.203964710235596,
	"learning_rate": 1.0252631578947369e-05,
	"loss": 0.7702,
	"step": 5130
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.803215503692627,
	"learning_rate": 1.0231578947368422e-05,
	"loss": 0.6291,
	"step": 5140
	},
	{
	"epoch": 0.13,
	"grad_norm": 5.486114978790283,
	"learning_rate": 1.0210526315789476e-05,
	"loss": 0.8124,
	"step": 5150
	},
	{
	"epoch": 0.13,
	"grad_norm": 7.74938440322876,
	"learning_rate": 1.0189473684210527e-05,
	"loss": 0.7735,
	"step": 5160
	},
	{
	"epoch": 0.13,
	"grad_norm": 4.10128116607666,
	"learning_rate": 1.0168421052631581e-05,
	"loss": 0.6809,
	"step": 5170
	},
	{
	"epoch": 0.13,
	"grad_norm": 6.844088554382324,
	"learning_rate": 1.0147368421052632e-05,
	"loss": 0.8294,
	"step": 5180
	},
	{
	"epoch": 0.13,
	"grad_norm": 4.329681873321533,
	"learning_rate": 1.0126315789473685e-05,
	"loss": 0.861,
	"step": 5190
	},
	{
	"epoch": 0.13,
	"grad_norm": 12.482446670532227,
	"learning_rate": 1.0105263157894738e-05,
	"loss": 0.7346,
	"step": 5200
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.8471055030822754,
	"learning_rate": 1.008421052631579e-05,
	"loss": 0.7714,
	"step": 5210
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.1509273052215576,
	"learning_rate": 1.0063157894736843e-05,
	"loss": 0.697,
	"step": 5220
	},
	{
	"epoch": 0.13,
	"grad_norm": 4.524876117706299,
	"learning_rate": 1.0042105263157896e-05,
	"loss": 0.8373,
	"step": 5230
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.7305006980895996,
	"learning_rate": 1.002105263157895e-05,
	"loss": 0.7182,
	"step": 5240
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.5194203853607178,
	"learning_rate": 1e-05,
	"loss": 0.794,
	"step": 5250
	},
	{
	"epoch": 0.13,
	"grad_norm": 14.967845916748047,
	"learning_rate": 9.978947368421053e-06,
	"loss": 0.7564,
	"step": 5260
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.8730751276016235,
	"learning_rate": 9.957894736842106e-06,
	"loss": 0.726,
	"step": 5270
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.1793789863586426,
	"learning_rate": 9.936842105263159e-06,
	"loss": 0.7019,
	"step": 5280
	},
	{
	"epoch": 0.13,
	"grad_norm": 5.0785651206970215,
	"learning_rate": 9.915789473684211e-06,
	"loss": 0.7771,
	"step": 5290
	},
	{
	"epoch": 0.13,
	"grad_norm": 9.810837745666504,
	"learning_rate": 9.894736842105264e-06,
	"loss": 0.7542,
	"step": 5300
	},
	{
	"epoch": 0.13,
	"grad_norm": 24.654855728149414,
	"learning_rate": 9.873684210526317e-06,
	"loss": 0.7928,
	"step": 5310
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.083669424057007,
	"learning_rate": 9.85263157894737e-06,
	"loss": 0.8091,
	"step": 5320
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.9507665634155273,
	"learning_rate": 9.831578947368422e-06,
	"loss": 0.7548,
	"step": 5330
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.55362606048584,
	"learning_rate": 9.810526315789475e-06,
	"loss": 0.7804,
	"step": 5340
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.572410821914673,
	"learning_rate": 9.789473684210527e-06,
	"loss": 0.748,
	"step": 5350
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.70060658454895,
	"learning_rate": 9.76842105263158e-06,
	"loss": 0.7303,
	"step": 5360
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.397512674331665,
	"learning_rate": 9.747368421052633e-06,
	"loss": 0.7209,
	"step": 5370
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.797943592071533,
	"learning_rate": 9.726315789473685e-06,
	"loss": 0.9082,
	"step": 5380
	},
	{
	"epoch": 0.13,
	"grad_norm": 9.164168357849121,
	"learning_rate": 9.705263157894738e-06,
	"loss": 0.7995,
	"step": 5390
	},
	{
	"epoch": 0.14,
	"grad_norm": 6.297326564788818,
	"learning_rate": 9.68421052631579e-06,
	"loss": 0.7484,
	"step": 5400
	},
	{
	"epoch": 0.14,
	"grad_norm": 12.500905990600586,
	"learning_rate": 9.663157894736843e-06,
	"loss": 0.7291,
	"step": 5410
	},
	{
	"epoch": 0.14,
	"grad_norm": 3.1083016395568848,
	"learning_rate": 9.642105263157896e-06,
	"loss": 0.8064,
	"step": 5420
	},
	{
	"epoch": 0.14,
	"grad_norm": 4.058903694152832,
	"learning_rate": 9.621052631578947e-06,
	"loss": 0.7087,
	"step": 5430
	},
	{
	"epoch": 0.14,
	"grad_norm": 5.303778648376465,
	"learning_rate": 9.600000000000001e-06,
	"loss": 0.6257,
	"step": 5440
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.8508620262145996,
	"learning_rate": 9.578947368421054e-06,
	"loss": 0.7423,
	"step": 5450
	},
	{
	"epoch": 0.14,
	"grad_norm": 5.9560956954956055,
	"learning_rate": 9.557894736842107e-06,
	"loss": 0.7304,
	"step": 5460
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.8841540813446045,
	"learning_rate": 9.53684210526316e-06,
	"loss": 0.7768,
	"step": 5470
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.6742358207702637,
	"learning_rate": 9.515789473684212e-06,
	"loss": 0.7618,
	"step": 5480
	},
	{
	"epoch": 0.14,
	"grad_norm": 4.105114936828613,
	"learning_rate": 9.494736842105265e-06,
	"loss": 0.7086,
	"step": 5490
	},
	{
	"epoch": 0.14,
	"grad_norm": 4.728137493133545,
	"learning_rate": 9.473684210526315e-06,
	"loss": 0.8313,
	"step": 5500
	},
	{
	"epoch": 0.14,
	"eval_loss": 0.7711445689201355,
	"eval_runtime": 67.9047,
	"eval_samples_per_second": 14.727,
	"eval_steps_per_second": 14.727,
	"step": 5500
	},
	{
	"epoch": 0.14,
	"grad_norm": 4.539173603057861,
	"learning_rate": 9.452631578947368e-06,
	"loss": 0.7231,
	"step": 5510
	},
	{
	"epoch": 0.14,
	"grad_norm": 4.742118835449219,
	"learning_rate": 9.43157894736842e-06,
	"loss": 0.8199,
	"step": 5520
	},
	{
	"epoch": 0.14,
	"grad_norm": 5.9068603515625,
	"learning_rate": 9.410526315789475e-06,
	"loss": 0.7615,
	"step": 5530
	},
	{
	"epoch": 0.14,
	"grad_norm": 7.106772422790527,
	"learning_rate": 9.389473684210528e-06,
	"loss": 0.7139,
	"step": 5540
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.272012710571289,
	"learning_rate": 9.36842105263158e-06,
	"loss": 0.6264,
	"step": 5550
	},
	{
	"epoch": 0.14,
	"grad_norm": 14.025699615478516,
	"learning_rate": 9.347368421052633e-06,
	"loss": 0.7416,
	"step": 5560
	},
	{
	"epoch": 0.14,
	"grad_norm": 12.747345924377441,
	"learning_rate": 9.326315789473684e-06,
	"loss": 0.781,
	"step": 5570
	},
	{
	"epoch": 0.14,
	"grad_norm": 7.966195106506348,
	"learning_rate": 9.305263157894737e-06,
	"loss": 0.7503,
	"step": 5580
	},
	{
	"epoch": 0.14,
	"grad_norm": 3.3705811500549316,
	"learning_rate": 9.28421052631579e-06,
	"loss": 0.7704,
	"step": 5590
	},
	{
	"epoch": 0.14,
	"grad_norm": 5.239542007446289,
	"learning_rate": 9.263157894736842e-06,
	"loss": 0.6806,
	"step": 5600
	},
	{
	"epoch": 0.14,
	"grad_norm": 6.395047187805176,
	"learning_rate": 9.242105263157896e-06,
	"loss": 0.6961,
	"step": 5610
	},
	{
	"epoch": 0.14,
	"grad_norm": 3.807992458343506,
	"learning_rate": 9.221052631578949e-06,
	"loss": 0.769,
	"step": 5620
	},
	{
	"epoch": 0.14,
	"grad_norm": 3.8179049491882324,
	"learning_rate": 9.200000000000002e-06,
	"loss": 0.7515,
	"step": 5630
	},
	{
	"epoch": 0.14,
	"grad_norm": 4.826687812805176,
	"learning_rate": 9.178947368421053e-06,
	"loss": 0.7337,
	"step": 5640
	},
	{
	"epoch": 0.14,
	"grad_norm": 4.776168346405029,
	"learning_rate": 9.157894736842105e-06,
	"loss": 0.7173,
	"step": 5650
	},
	{
	"epoch": 0.14,
	"grad_norm": 4.10529088973999,
	"learning_rate": 9.136842105263158e-06,
	"loss": 0.7255,
	"step": 5660
	},
	{
	"epoch": 0.14,
	"grad_norm": 5.4715189933776855,
	"learning_rate": 9.11578947368421e-06,
	"loss": 0.8092,
	"step": 5670
	},
	{
	"epoch": 0.14,
	"grad_norm": 3.8921728134155273,
	"learning_rate": 9.094736842105263e-06,
	"loss": 0.6684,
	"step": 5680
	},
	{
	"epoch": 0.14,
	"grad_norm": 5.904684066772461,
	"learning_rate": 9.073684210526316e-06,
	"loss": 0.7804,
	"step": 5690
	},
	{
	"epoch": 0.14,
	"grad_norm": 9.521209716796875,
	"learning_rate": 9.05263157894737e-06,
	"loss": 0.793,
	"step": 5700
	},
	{
	"epoch": 0.14,
	"grad_norm": 11.125286102294922,
	"learning_rate": 9.031578947368423e-06,
	"loss": 0.8254,
	"step": 5710
	},
	{
	"epoch": 0.14,
	"grad_norm": 8.136049270629883,
	"learning_rate": 9.010526315789474e-06,
	"loss": 0.7475,
	"step": 5720
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.4722092151641846,
	"learning_rate": 8.989473684210527e-06,
	"loss": 0.7268,
	"step": 5730
	},
	{
	"epoch": 0.14,
	"grad_norm": 3.330580711364746,
	"learning_rate": 8.96842105263158e-06,
	"loss": 0.7995,
	"step": 5740
	},
	{
	"epoch": 0.14,
	"grad_norm": 25.711868286132812,
	"learning_rate": 8.947368421052632e-06,
	"loss": 0.801,
	"step": 5750
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.3957395553588867,
	"learning_rate": 8.926315789473685e-06,
	"loss": 0.6988,
	"step": 5760
	},
	{
	"epoch": 0.14,
	"grad_norm": 3.033153533935547,
	"learning_rate": 8.905263157894737e-06,
	"loss": 0.7378,
	"step": 5770
	},
	{
	"epoch": 0.14,
	"grad_norm": 4.359398365020752,
	"learning_rate": 8.884210526315792e-06,
	"loss": 0.7214,
	"step": 5780
	},
	{
	"epoch": 0.14,
	"grad_norm": 3.08485746383667,
	"learning_rate": 8.863157894736842e-06,
	"loss": 0.7034,
	"step": 5790
	},
	{
	"epoch": 0.14,
	"grad_norm": 4.156674385070801,
	"learning_rate": 8.842105263157895e-06,
	"loss": 0.7833,
	"step": 5800
	},
	{
	"epoch": 0.15,
	"grad_norm": 4.031563758850098,
	"learning_rate": 8.821052631578948e-06,
	"loss": 0.7385,
	"step": 5810
	},
	{
	"epoch": 0.15,
	"grad_norm": 9.957317352294922,
	"learning_rate": 8.8e-06,
	"loss": 0.8572,
	"step": 5820
	},
	{
	"epoch": 0.15,
	"grad_norm": 3.951910972595215,
	"learning_rate": 8.778947368421053e-06,
	"loss": 0.7374,
	"step": 5830
	},
	{
	"epoch": 0.15,
	"grad_norm": 5.296828746795654,
	"learning_rate": 8.757894736842106e-06,
	"loss": 0.7619,
	"step": 5840
	},
	{
	"epoch": 0.15,
	"grad_norm": 7.079039096832275,
	"learning_rate": 8.736842105263158e-06,
	"loss": 0.7842,
	"step": 5850
	},
	{
	"epoch": 0.15,
	"grad_norm": 4.972481727600098,
	"learning_rate": 8.715789473684211e-06,
	"loss": 0.7039,
	"step": 5860
	},
	{
	"epoch": 0.15,
	"grad_norm": 11.936322212219238,
	"learning_rate": 8.694736842105264e-06,
	"loss": 0.6701,
	"step": 5870
	},
	{
	"epoch": 0.15,
	"grad_norm": 4.164266586303711,
	"learning_rate": 8.673684210526316e-06,
	"loss": 0.7481,
	"step": 5880
	},
	{
	"epoch": 0.15,
	"grad_norm": 4.0412397384643555,
	"learning_rate": 8.652631578947369e-06,
	"loss": 0.8783,
	"step": 5890
	},
	{
	"epoch": 0.15,
	"grad_norm": 13.239718437194824,
	"learning_rate": 8.631578947368422e-06,
	"loss": 0.8639,
	"step": 5900
	},
	{
	"epoch": 0.15,
	"grad_norm": 5.553131103515625,
	"learning_rate": 8.610526315789474e-06,
	"loss": 0.7861,
	"step": 5910
	},
	{
	"epoch": 0.15,
	"grad_norm": 4.507501602172852,
	"learning_rate": 8.589473684210527e-06,
	"loss": 0.7526,
	"step": 5920
	},
	{
	"epoch": 0.15,
	"grad_norm": 3.70124888420105,
	"learning_rate": 8.56842105263158e-06,
	"loss": 0.8391,
	"step": 5930
	},
	{
	"epoch": 0.15,
	"grad_norm": 4.307315349578857,
	"learning_rate": 8.547368421052632e-06,
	"loss": 0.7253,
	"step": 5940
	},
	{
	"epoch": 0.15,
	"grad_norm": 12.232582092285156,
	"learning_rate": 8.526315789473685e-06,
	"loss": 0.8559,
	"step": 5950
	},
	{
	"epoch": 0.15,
	"grad_norm": 3.0924105644226074,
	"learning_rate": 8.505263157894738e-06,
	"loss": 0.6245,
	"step": 5960
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.90191912651062,
	"learning_rate": 8.48421052631579e-06,
	"loss": 0.6643,
	"step": 5970
	},
	{
	"epoch": 0.15,
	"grad_norm": 3.4637041091918945,
	"learning_rate": 8.463157894736843e-06,
	"loss": 0.72,
	"step": 5980
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.8273704051971436,
	"learning_rate": 8.442105263157896e-06,
	"loss": 0.7202,
	"step": 5990
	},
	{
	"epoch": 0.15,
	"grad_norm": 7.119280815124512,
	"learning_rate": 8.421052631578948e-06,
	"loss": 0.7047,
	"step": 6000
	},
	{
	"epoch": 0.15,
	"eval_loss": 0.7685219645500183,
	"eval_runtime": 67.892,
	"eval_samples_per_second": 14.729,
	"eval_steps_per_second": 14.729,
	"step": 6000
	},
	{
	"epoch": 0.15,
	"grad_norm": 4.9551520347595215,
	"learning_rate": 8.400000000000001e-06,
	"loss": 0.6911,
	"step": 6010
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.9231200218200684,
	"learning_rate": 8.378947368421054e-06,
	"loss": 0.7942,
	"step": 6020
	},
	{
	"epoch": 0.15,
	"grad_norm": 7.254823684692383,
	"learning_rate": 8.357894736842106e-06,
	"loss": 0.7811,
	"step": 6030
	},
	{
	"epoch": 0.15,
	"grad_norm": 3.8563404083251953,
	"learning_rate": 8.336842105263159e-06,
	"loss": 0.7523,
	"step": 6040
	},
	{
	"epoch": 0.15,
	"grad_norm": 3.5061299800872803,
	"learning_rate": 8.315789473684212e-06,
	"loss": 0.6222,
	"step": 6050
	},
	{
	"epoch": 0.15,
	"grad_norm": 3.3213858604431152,
	"learning_rate": 8.294736842105264e-06,
	"loss": 0.7617,
	"step": 6060
	},
	{
	"epoch": 0.15,
	"grad_norm": 5.054555416107178,
	"learning_rate": 8.273684210526317e-06,
	"loss": 0.7333,
	"step": 6070
	},
	{
	"epoch": 0.15,
	"grad_norm": 3.5189318656921387,
	"learning_rate": 8.25263157894737e-06,
	"loss": 0.8676,
	"step": 6080
	},
	{
	"epoch": 0.15,
	"grad_norm": 4.989790439605713,
	"learning_rate": 8.231578947368422e-06,
	"loss": 0.6678,
	"step": 6090
	},
	{
	"epoch": 0.15,
	"grad_norm": 7.941010475158691,
	"learning_rate": 8.210526315789475e-06,
	"loss": 0.7317,
	"step": 6100
	},
	{
	"epoch": 0.15,
	"grad_norm": 6.6499247550964355,
	"learning_rate": 8.189473684210527e-06,
	"loss": 0.7484,
	"step": 6110
	},
	{
	"epoch": 0.15,
	"grad_norm": 3.512948513031006,
	"learning_rate": 8.16842105263158e-06,
	"loss": 0.8508,
	"step": 6120
	},
	{
	"epoch": 0.15,
	"grad_norm": 3.844045400619507,
	"learning_rate": 8.147368421052633e-06,
	"loss": 0.7468,
	"step": 6130
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.620250701904297,
	"learning_rate": 8.126315789473684e-06,
	"loss": 0.6449,
	"step": 6140
	},
	{
	"epoch": 0.15,
	"grad_norm": 3.5233919620513916,
	"learning_rate": 8.105263157894736e-06,
	"loss": 0.7928,
	"step": 6150
	},
	{
	"epoch": 0.15,
	"grad_norm": 4.866186618804932,
	"learning_rate": 8.08421052631579e-06,
	"loss": 0.787,
	"step": 6160
	},
	{
	"epoch": 0.15,
	"grad_norm": 4.392407417297363,
	"learning_rate": 8.063157894736843e-06,
	"loss": 0.7746,
	"step": 6170
	},
	{
	"epoch": 0.15,
	"grad_norm": 6.6285176277160645,
	"learning_rate": 8.042105263157896e-06,
	"loss": 0.7304,
	"step": 6180
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.571240186691284,
	"learning_rate": 8.021052631578949e-06,
	"loss": 0.7008,
	"step": 6190
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.8306283950805664,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.834,
	"step": 6200
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.5514955520629883,
	"learning_rate": 7.978947368421052e-06,
	"loss": 0.8136,
	"step": 6210
	},
	{
	"epoch": 0.16,
	"grad_norm": 8.471675872802734,
	"learning_rate": 7.957894736842105e-06,
	"loss": 0.8439,
	"step": 6220
	},
	{
	"epoch": 0.16,
	"grad_norm": 8.785553932189941,
	"learning_rate": 7.936842105263158e-06,
	"loss": 0.7763,
	"step": 6230
	},
	{
	"epoch": 0.16,
	"grad_norm": 5.334304332733154,
	"learning_rate": 7.915789473684212e-06,
	"loss": 0.7832,
	"step": 6240
	},
	{
	"epoch": 0.16,
	"grad_norm": 14.861701011657715,
	"learning_rate": 7.894736842105265e-06,
	"loss": 0.6889,
	"step": 6250
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.040034770965576,
	"learning_rate": 7.873684210526317e-06,
	"loss": 0.7422,
	"step": 6260
	},
	{
	"epoch": 0.16,
	"grad_norm": 9.74354076385498,
	"learning_rate": 7.85263157894737e-06,
	"loss": 0.7765,
	"step": 6270
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.4280757904052734,
	"learning_rate": 7.831578947368421e-06,
	"loss": 0.7465,
	"step": 6280
	},
	{
	"epoch": 0.16,
	"grad_norm": 6.530819416046143,
	"learning_rate": 7.810526315789474e-06,
	"loss": 0.8216,
	"step": 6290
	},
	{
	"epoch": 0.16,
	"grad_norm": 6.786412239074707,
	"learning_rate": 7.789473684210526e-06,
	"loss": 0.7694,
	"step": 6300
	},
	{
	"epoch": 0.16,
	"grad_norm": 4.896278381347656,
	"learning_rate": 7.768421052631579e-06,
	"loss": 0.8282,
	"step": 6310
	},
	{
	"epoch": 0.16,
	"grad_norm": 4.5938825607299805,
	"learning_rate": 7.747368421052631e-06,
	"loss": 0.6628,
	"step": 6320
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.134136915206909,
	"learning_rate": 7.726315789473686e-06,
	"loss": 0.8061,
	"step": 6330
	},
	{
	"epoch": 0.16,
	"grad_norm": 7.497835159301758,
	"learning_rate": 7.705263157894738e-06,
	"loss": 0.8946,
	"step": 6340
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.5185306072235107,
	"learning_rate": 7.68421052631579e-06,
	"loss": 0.6689,
	"step": 6350
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.464015245437622,
	"learning_rate": 7.663157894736842e-06,
	"loss": 0.7758,
	"step": 6360
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.803342580795288,
	"learning_rate": 7.642105263157895e-06,
	"loss": 0.7478,
	"step": 6370
	},
	{
	"epoch": 0.16,
	"grad_norm": 6.2652130126953125,
	"learning_rate": 7.621052631578948e-06,
	"loss": 0.7293,
	"step": 6380
	},
	{
	"epoch": 0.16,
	"grad_norm": 9.655146598815918,
	"learning_rate": 7.600000000000001e-06,
	"loss": 0.7454,
	"step": 6390
	},
	{
	"epoch": 0.16,
	"grad_norm": 5.041891574859619,
	"learning_rate": 7.578947368421054e-06,
	"loss": 0.8579,
	"step": 6400
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.133237838745117,
	"learning_rate": 7.557894736842106e-06,
	"loss": 0.6662,
	"step": 6410
	},
	{
	"epoch": 0.16,
	"grad_norm": 7.207560062408447,
	"learning_rate": 7.536842105263158e-06,
	"loss": 0.8135,
	"step": 6420
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.374864101409912,
	"learning_rate": 7.515789473684211e-06,
	"loss": 0.7514,
	"step": 6430
	},
	{
	"epoch": 0.16,
	"grad_norm": 4.067178249359131,
	"learning_rate": 7.494736842105263e-06,
	"loss": 0.7446,
	"step": 6440
	},
	{
	"epoch": 0.16,
	"grad_norm": 4.283421516418457,
	"learning_rate": 7.473684210526316e-06,
	"loss": 0.7955,
	"step": 6450
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.092348098754883,
	"learning_rate": 7.4526315789473695e-06,
	"loss": 0.5471,
	"step": 6460
	},
	{
	"epoch": 0.16,
	"grad_norm": 9.400391578674316,
	"learning_rate": 7.431578947368422e-06,
	"loss": 0.7098,
	"step": 6470
	},
	{
	"epoch": 0.16,
	"grad_norm": 5.843224048614502,
	"learning_rate": 7.410526315789475e-06,
	"loss": 0.7943,
	"step": 6480
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.5985705852508545,
	"learning_rate": 7.3894736842105275e-06,
	"loss": 0.8059,
	"step": 6490
	},
	{
	"epoch": 0.16,
	"grad_norm": 5.502979278564453,
	"learning_rate": 7.368421052631579e-06,
	"loss": 0.6236,
	"step": 6500
	},
	{
	"epoch": 0.16,
	"eval_loss": 0.7682243585586548,
	"eval_runtime": 67.9039,
	"eval_samples_per_second": 14.727,
	"eval_steps_per_second": 14.727,
	"step": 6500
	},
	{
	"epoch": 0.16,
	"grad_norm": 11.025419235229492,
	"learning_rate": 7.347368421052632e-06,
	"loss": 0.8343,
	"step": 6510
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.4290804862976074,
	"learning_rate": 7.326315789473685e-06,
	"loss": 0.7572,
	"step": 6520
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.0629210472106934,
	"learning_rate": 7.305263157894737e-06,
	"loss": 0.8245,
	"step": 6530
	},
	{
	"epoch": 0.16,
	"grad_norm": 5.065977573394775,
	"learning_rate": 7.28421052631579e-06,
	"loss": 0.6447,
	"step": 6540
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.971541166305542,
	"learning_rate": 7.263157894736843e-06,
	"loss": 0.8688,
	"step": 6550
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.4434573650360107,
	"learning_rate": 7.242105263157896e-06,
	"loss": 0.6749,
	"step": 6560
	},
	{
	"epoch": 0.16,
	"grad_norm": 4.323293685913086,
	"learning_rate": 7.221052631578948e-06,
	"loss": 0.7982,
	"step": 6570
	},
	{
	"epoch": 0.16,
	"grad_norm": 16.821266174316406,
	"learning_rate": 7.2000000000000005e-06,
	"loss": 0.7898,
	"step": 6580
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.008687734603882,
	"learning_rate": 7.178947368421053e-06,
	"loss": 0.7375,
	"step": 6590
	},
	{
	"epoch": 0.17,
	"grad_norm": 3.629837989807129,
	"learning_rate": 7.157894736842106e-06,
	"loss": 0.7909,
	"step": 6600
	},
	{
	"epoch": 0.17,
	"grad_norm": 5.807744026184082,
	"learning_rate": 7.1368421052631585e-06,
	"loss": 0.621,
	"step": 6610
	},
	{
	"epoch": 0.17,
	"grad_norm": 3.9960129261016846,
	"learning_rate": 7.115789473684211e-06,
	"loss": 0.851,
	"step": 6620
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.7165372371673584,
	"learning_rate": 7.094736842105265e-06,
	"loss": 0.7872,
	"step": 6630
	},
	{
	"epoch": 0.17,
	"grad_norm": 5.922586917877197,
	"learning_rate": 7.073684210526316e-06,
	"loss": 0.8822,
	"step": 6640
	},
	{
	"epoch": 0.17,
	"grad_norm": 9.046282768249512,
	"learning_rate": 7.052631578947369e-06,
	"loss": 0.7454,
	"step": 6650
	},
	{
	"epoch": 0.17,
	"grad_norm": 4.76317024230957,
	"learning_rate": 7.031578947368422e-06,
	"loss": 0.7116,
	"step": 6660
	},
	{
	"epoch": 0.17,
	"grad_norm": 4.31531286239624,
	"learning_rate": 7.010526315789474e-06,
	"loss": 0.7892,
	"step": 6670
	},
	{
	"epoch": 0.17,
	"grad_norm": 3.0895297527313232,
	"learning_rate": 6.989473684210527e-06,
	"loss": 0.7095,
	"step": 6680
	},
	{
	"epoch": 0.17,
	"grad_norm": 4.174783706665039,
	"learning_rate": 6.96842105263158e-06,
	"loss": 0.8007,
	"step": 6690
	},
	{
	"epoch": 0.17,
	"grad_norm": 4.1555280685424805,
	"learning_rate": 6.947368421052632e-06,
	"loss": 0.8274,
	"step": 6700
	},
	{
	"epoch": 0.17,
	"grad_norm": 3.173882246017456,
	"learning_rate": 6.926315789473684e-06,
	"loss": 0.6447,
	"step": 6710
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.1489410400390625,
	"learning_rate": 6.905263157894737e-06,
	"loss": 0.7428,
	"step": 6720
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.523904323577881,
	"learning_rate": 6.8842105263157895e-06,
	"loss": 0.8159,
	"step": 6730
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.7494622468948364,
	"learning_rate": 6.863157894736843e-06,
	"loss": 0.863,
	"step": 6740
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.552121639251709,
	"learning_rate": 6.842105263157896e-06,
	"loss": 0.7448,
	"step": 6750
	},
	{
	"epoch": 0.17,
	"grad_norm": 4.1907453536987305,
	"learning_rate": 6.821052631578948e-06,
	"loss": 0.6813,
	"step": 6760
	},
	{
	"epoch": 0.17,
	"grad_norm": 4.284384727478027,
	"learning_rate": 6.800000000000001e-06,
	"loss": 0.699,
	"step": 6770
	},
	{
	"epoch": 0.17,
	"grad_norm": 5.010688781738281,
	"learning_rate": 6.778947368421053e-06,
	"loss": 0.7803,
	"step": 6780
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.5098397731781006,
	"learning_rate": 6.7578947368421054e-06,
	"loss": 0.767,
	"step": 6790
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.8980441093444824,
	"learning_rate": 6.736842105263158e-06,
	"loss": 0.8084,
	"step": 6800
	},
	{
	"epoch": 0.17,
	"grad_norm": 3.8058199882507324,
	"learning_rate": 6.715789473684211e-06,
	"loss": 0.7214,
	"step": 6810
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.3668529987335205,
	"learning_rate": 6.694736842105264e-06,
	"loss": 0.6759,
	"step": 6820
	},
	{
	"epoch": 0.17,
	"grad_norm": 5.715735912322998,
	"learning_rate": 6.673684210526317e-06,
	"loss": 0.7747,
	"step": 6830
	},
	{
	"epoch": 0.17,
	"grad_norm": 8.902985572814941,
	"learning_rate": 6.6526315789473695e-06,
	"loss": 0.8256,
	"step": 6840
	},
	{
	"epoch": 0.17,
	"grad_norm": 5.802920818328857,
	"learning_rate": 6.631578947368421e-06,
	"loss": 0.7682,
	"step": 6850
	},
	{
	"epoch": 0.17,
	"grad_norm": 9.218498229980469,
	"learning_rate": 6.610526315789474e-06,
	"loss": 0.7855,
	"step": 6860
	},
	{
	"epoch": 0.17,
	"grad_norm": 4.406294822692871,
	"learning_rate": 6.589473684210527e-06,
	"loss": 0.736,
	"step": 6870
	},
	{
	"epoch": 0.17,
	"grad_norm": 5.765889644622803,
	"learning_rate": 6.568421052631579e-06,
	"loss": 0.7073,
	"step": 6880
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.910264015197754,
	"learning_rate": 6.547368421052632e-06,
	"loss": 0.7328,
	"step": 6890
	},
	{
	"epoch": 0.17,
	"grad_norm": 9.011739730834961,
	"learning_rate": 6.526315789473685e-06,
	"loss": 0.6798,
	"step": 6900
	},
	{
	"epoch": 0.17,
	"grad_norm": 8.296028137207031,
	"learning_rate": 6.505263157894738e-06,
	"loss": 0.7469,
	"step": 6910
	},
	{
	"epoch": 0.17,
	"grad_norm": 5.347682952880859,
	"learning_rate": 6.484210526315789e-06,
	"loss": 0.7143,
	"step": 6920
	},
	{
	"epoch": 0.17,
	"grad_norm": 5.903685092926025,
	"learning_rate": 6.463157894736843e-06,
	"loss": 0.7413,
	"step": 6930
	},
	{
	"epoch": 0.17,
	"grad_norm": 4.017665386199951,
	"learning_rate": 6.442105263157895e-06,
	"loss": 0.7569,
	"step": 6940
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.3947088718414307,
	"learning_rate": 6.421052631578948e-06,
	"loss": 0.75,
	"step": 6950
	},
	{
	"epoch": 0.17,
	"grad_norm": 4.019251823425293,
	"learning_rate": 6.4000000000000006e-06,
	"loss": 0.7364,
	"step": 6960
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.439628839492798,
	"learning_rate": 6.378947368421053e-06,
	"loss": 0.68,
	"step": 6970
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.413942575454712,
	"learning_rate": 6.357894736842106e-06,
	"loss": 0.79,
	"step": 6980
	},
	{
	"epoch": 0.17,
	"grad_norm": 8.72237491607666,
	"learning_rate": 6.336842105263158e-06,
	"loss": 0.6678,
	"step": 6990
	},
	{
	"epoch": 0.17,
	"grad_norm": 3.9021055698394775,
	"learning_rate": 6.31578947368421e-06,
	"loss": 0.7169,
	"step": 7000
	},
	{
	"epoch": 0.17,
	"eval_loss": 0.7889605164527893,
	"eval_runtime": 67.8704,
	"eval_samples_per_second": 14.734,
	"eval_steps_per_second": 14.734,
	"step": 7000
	},
	{
	"epoch": 0.18,
	"grad_norm": 8.238909721374512,
	"learning_rate": 6.294736842105264e-06,
	"loss": 0.658,
	"step": 7010
	},
	{
	"epoch": 0.18,
	"grad_norm": 3.403461456298828,
	"learning_rate": 6.2736842105263165e-06,
	"loss": 0.8165,
	"step": 7020
	},
	{
	"epoch": 0.18,
	"grad_norm": 5.648688316345215,
	"learning_rate": 6.252631578947369e-06,
	"loss": 0.7506,
	"step": 7030
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.380591630935669,
	"learning_rate": 6.231578947368422e-06,
	"loss": 0.8892,
	"step": 7040
	},
	{
	"epoch": 0.18,
	"grad_norm": 4.201750755310059,
	"learning_rate": 6.2105263157894745e-06,
	"loss": 0.7069,
	"step": 7050
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.9994821548461914,
	"learning_rate": 6.189473684210526e-06,
	"loss": 0.6896,
	"step": 7060
	},
	{
	"epoch": 0.18,
	"grad_norm": 5.100094318389893,
	"learning_rate": 6.168421052631579e-06,
	"loss": 0.6241,
	"step": 7070
	},
	{
	"epoch": 0.18,
	"grad_norm": 3.88962721824646,
	"learning_rate": 6.1473684210526316e-06,
	"loss": 0.741,
	"step": 7080
	},
	{
	"epoch": 0.18,
	"grad_norm": 3.669283151626587,
	"learning_rate": 6.126315789473685e-06,
	"loss": 0.5153,
	"step": 7090
	},
	{
	"epoch": 0.18,
	"grad_norm": 6.010345458984375,
	"learning_rate": 6.105263157894738e-06,
	"loss": 0.7394,
	"step": 7100
	},
	{
	"epoch": 0.18,
	"grad_norm": 5.333982467651367,
	"learning_rate": 6.08421052631579e-06,
	"loss": 0.6423,
	"step": 7110
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.0060064792633057,
	"learning_rate": 6.063157894736843e-06,
	"loss": 0.7073,
	"step": 7120
	},
	{
	"epoch": 0.18,
	"grad_norm": 3.618821144104004,
	"learning_rate": 6.042105263157895e-06,
	"loss": 0.7221,
	"step": 7130
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.6231422424316406,
	"learning_rate": 6.0210526315789475e-06,
	"loss": 0.6748,
	"step": 7140
	},
	{
	"epoch": 0.18,
	"grad_norm": 7.207015514373779,
	"learning_rate": 6e-06,
	"loss": 0.7403,
	"step": 7150
	},
	{
	"epoch": 0.18,
	"grad_norm": 5.1877031326293945,
	"learning_rate": 5.978947368421053e-06,
	"loss": 0.6143,
	"step": 7160
	},
	{
	"epoch": 0.18,
	"grad_norm": 3.433973550796509,
	"learning_rate": 5.9578947368421055e-06,
	"loss": 0.6593,
	"step": 7170
	},
	{
	"epoch": 0.18,
	"grad_norm": 4.261890888214111,
	"learning_rate": 5.936842105263159e-06,
	"loss": 0.7119,
	"step": 7180
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.4731180667877197,
	"learning_rate": 5.915789473684212e-06,
	"loss": 0.7764,
	"step": 7190
	},
	{
	"epoch": 0.18,
	"grad_norm": 3.540252923965454,
	"learning_rate": 5.8947368421052634e-06,
	"loss": 0.788,
	"step": 7200
	},
	{
	"epoch": 0.18,
	"grad_norm": 16.481884002685547,
	"learning_rate": 5.873684210526316e-06,
	"loss": 0.7411,
	"step": 7210
	},
	{
	"epoch": 0.18,
	"grad_norm": 5.3406548500061035,
	"learning_rate": 5.852631578947369e-06,
	"loss": 0.7703,
	"step": 7220
	},
	{
	"epoch": 0.18,
	"grad_norm": 5.786658763885498,
	"learning_rate": 5.831578947368421e-06,
	"loss": 0.7068,
	"step": 7230
	},
	{
	"epoch": 0.18,
	"grad_norm": 6.659720420837402,
	"learning_rate": 5.810526315789474e-06,
	"loss": 0.7287,
	"step": 7240
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.9273788928985596,
	"learning_rate": 5.789473684210527e-06,
	"loss": 0.7059,
	"step": 7250
	},
	{
	"epoch": 0.18,
	"grad_norm": 5.475671768188477,
	"learning_rate": 5.76842105263158e-06,
	"loss": 0.7284,
	"step": 7260
	},
	{
	"epoch": 0.18,
	"grad_norm": 5.699868202209473,
	"learning_rate": 5.747368421052633e-06,
	"loss": 0.8036,
	"step": 7270
	},
	{
	"epoch": 0.18,
	"grad_norm": 3.518573045730591,
	"learning_rate": 5.726315789473685e-06,
	"loss": 0.7209,
	"step": 7280
	},
	{
	"epoch": 0.18,
	"grad_norm": 8.151999473571777,
	"learning_rate": 5.705263157894737e-06,
	"loss": 0.6903,
	"step": 7290
	},
	{
	"epoch": 0.18,
	"grad_norm": 4.088874340057373,
	"learning_rate": 5.68421052631579e-06,
	"loss": 0.7685,
	"step": 7300
	},
	{
	"epoch": 0.18,
	"grad_norm": 9.118200302124023,
	"learning_rate": 5.663157894736843e-06,
	"loss": 0.7256,
	"step": 7310
	},
	{
	"epoch": 0.18,
	"grad_norm": 6.765544414520264,
	"learning_rate": 5.642105263157895e-06,
	"loss": 0.8016,
	"step": 7320
	},
	{
	"epoch": 0.18,
	"grad_norm": 11.424837112426758,
	"learning_rate": 5.621052631578948e-06,
	"loss": 0.7721,
	"step": 7330
	},
	{
	"epoch": 0.18,
	"grad_norm": 5.862210750579834,
	"learning_rate": 5.600000000000001e-06,
	"loss": 0.6898,
	"step": 7340
	},
	{
	"epoch": 0.18,
	"grad_norm": 4.197153568267822,
	"learning_rate": 5.578947368421052e-06,
	"loss": 0.6907,
	"step": 7350
	},
	{
	"epoch": 0.18,
	"grad_norm": 6.712553977966309,
	"learning_rate": 5.557894736842105e-06,
	"loss": 0.773,
	"step": 7360
	},
	{
	"epoch": 0.18,
	"grad_norm": 4.968278408050537,
	"learning_rate": 5.5368421052631586e-06,
	"loss": 0.7892,
	"step": 7370
	},
	{
	"epoch": 0.18,
	"grad_norm": 3.8882153034210205,
	"learning_rate": 5.515789473684211e-06,
	"loss": 0.8365,
	"step": 7380
	},
	{
	"epoch": 0.18,
	"grad_norm": 6.6297197341918945,
	"learning_rate": 5.494736842105264e-06,
	"loss": 0.7374,
	"step": 7390
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.2362327575683594,
	"learning_rate": 5.4736842105263165e-06,
	"loss": 0.8293,
	"step": 7400
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.1008100509643555,
	"learning_rate": 5.452631578947369e-06,
	"loss": 0.7048,
	"step": 7410
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.488921642303467,
	"learning_rate": 5.431578947368421e-06,
	"loss": 0.7902,
	"step": 7420
	},
	{
	"epoch": 0.19,
	"grad_norm": 3.7497622966766357,
	"learning_rate": 5.410526315789474e-06,
	"loss": 0.8359,
	"step": 7430
	},
	{
	"epoch": 0.19,
	"grad_norm": 3.192277193069458,
	"learning_rate": 5.389473684210526e-06,
	"loss": 0.7253,
	"step": 7440
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.586243629455566,
	"learning_rate": 5.36842105263158e-06,
	"loss": 0.7588,
	"step": 7450
	},
	{
	"epoch": 0.19,
	"grad_norm": 3.424870729446411,
	"learning_rate": 5.3473684210526325e-06,
	"loss": 0.7268,
	"step": 7460
	},
	{
	"epoch": 0.19,
	"grad_norm": 28.807186126708984,
	"learning_rate": 5.326315789473685e-06,
	"loss": 0.7979,
	"step": 7470
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.297823905944824,
	"learning_rate": 5.305263157894738e-06,
	"loss": 0.768,
	"step": 7480
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.891976833343506,
	"learning_rate": 5.2842105263157896e-06,
	"loss": 0.7063,
	"step": 7490
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.083632469177246,
	"learning_rate": 5.263157894736842e-06,
	"loss": 0.8102,
	"step": 7500
	},
	{
	"epoch": 0.19,
	"eval_loss": 0.7507393956184387,
	"eval_runtime": 67.8717,
	"eval_samples_per_second": 14.734,
	"eval_steps_per_second": 14.734,
	"step": 7500
	},
	{
	"epoch": 0.19,
	"grad_norm": 10.315424919128418,
	"learning_rate": 5.242105263157895e-06,
	"loss": 0.736,
	"step": 7510
	},
	{
	"epoch": 0.19,
	"grad_norm": 3.440877676010132,
	"learning_rate": 5.2210526315789475e-06,
	"loss": 0.799,
	"step": 7520
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.361064910888672,
	"learning_rate": 5.2e-06,
	"loss": 0.832,
	"step": 7530
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.1224961280822754,
	"learning_rate": 5.178947368421054e-06,
	"loss": 0.7118,
	"step": 7540
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.9322614669799805,
	"learning_rate": 5.157894736842106e-06,
	"loss": 0.6614,
	"step": 7550
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.812900066375732,
	"learning_rate": 5.136842105263158e-06,
	"loss": 0.8002,
	"step": 7560
	},
	{
	"epoch": 0.19,
	"grad_norm": 6.411820411682129,
	"learning_rate": 5.115789473684211e-06,
	"loss": 0.835,
	"step": 7570
	},
	{
	"epoch": 0.19,
	"grad_norm": 5.406981468200684,
	"learning_rate": 5.0947368421052635e-06,
	"loss": 0.8384,
	"step": 7580
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.32007360458374,
	"learning_rate": 5.073684210526316e-06,
	"loss": 0.5798,
	"step": 7590
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.640589714050293,
	"learning_rate": 5.052631578947369e-06,
	"loss": 0.7896,
	"step": 7600
	},
	{
	"epoch": 0.19,
	"grad_norm": 5.4717936515808105,
	"learning_rate": 5.0315789473684214e-06,
	"loss": 0.7829,
	"step": 7610
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.995558261871338,
	"learning_rate": 5.010526315789475e-06,
	"loss": 0.7322,
	"step": 7620
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.5911152362823486,
	"learning_rate": 4.989473684210527e-06,
	"loss": 0.7727,
	"step": 7630
	},
	{
	"epoch": 0.19,
	"grad_norm": 3.3829457759857178,
	"learning_rate": 4.968421052631579e-06,
	"loss": 0.7178,
	"step": 7640
	},
	{
	"epoch": 0.19,
	"grad_norm": 5.157157897949219,
	"learning_rate": 4.947368421052632e-06,
	"loss": 0.7241,
	"step": 7650
	},
	{
	"epoch": 0.19,
	"grad_norm": 6.205902099609375,
	"learning_rate": 4.926315789473685e-06,
	"loss": 0.7831,
	"step": 7660
	},
	{
	"epoch": 0.19,
	"grad_norm": 3.92594051361084,
	"learning_rate": 4.905263157894737e-06,
	"loss": 0.8057,
	"step": 7670
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.578032493591309,
	"learning_rate": 4.88421052631579e-06,
	"loss": 0.8011,
	"step": 7680
	},
	{
	"epoch": 0.19,
	"grad_norm": 6.8539605140686035,
	"learning_rate": 4.863157894736843e-06,
	"loss": 0.7792,
	"step": 7690
	},
	{
	"epoch": 0.19,
	"grad_norm": 7.954685211181641,
	"learning_rate": 4.842105263157895e-06,
	"loss": 0.6691,
	"step": 7700
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.0253312587738037,
	"learning_rate": 4.821052631578948e-06,
	"loss": 0.6483,
	"step": 7710
	},
	{
	"epoch": 0.19,
	"grad_norm": 8.230294227600098,
	"learning_rate": 4.800000000000001e-06,
	"loss": 0.8076,
	"step": 7720
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.5444509983062744,
	"learning_rate": 4.778947368421053e-06,
	"loss": 0.7902,
	"step": 7730
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.8759273290634155,
	"learning_rate": 4.757894736842106e-06,
	"loss": 0.7308,
	"step": 7740
	},
	{
	"epoch": 0.19,
	"grad_norm": 5.69119930267334,
	"learning_rate": 4.736842105263158e-06,
	"loss": 0.6605,
	"step": 7750
	},
	{
	"epoch": 0.19,
	"grad_norm": 7.020988941192627,
	"learning_rate": 4.71578947368421e-06,
	"loss": 0.7678,
	"step": 7760
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.7685866355896,
	"learning_rate": 4.694736842105264e-06,
	"loss": 0.8022,
	"step": 7770
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.516789436340332,
	"learning_rate": 4.6736842105263166e-06,
	"loss": 0.6176,
	"step": 7780
	},
	{
	"epoch": 0.19,
	"grad_norm": 4.267387866973877,
	"learning_rate": 4.652631578947368e-06,
	"loss": 0.6487,
	"step": 7790
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.96762228012085,
	"learning_rate": 4.631578947368421e-06,
	"loss": 0.7066,
	"step": 7800
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.345110893249512,
	"learning_rate": 4.6105263157894745e-06,
	"loss": 0.6072,
	"step": 7810
	},
	{
	"epoch": 0.2,
	"grad_norm": 10.33462142944336,
	"learning_rate": 4.589473684210526e-06,
	"loss": 0.8211,
	"step": 7820
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.632289409637451,
	"learning_rate": 4.568421052631579e-06,
	"loss": 0.8335,
	"step": 7830
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.453967094421387,
	"learning_rate": 4.547368421052632e-06,
	"loss": 0.8331,
	"step": 7840
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.877091407775879,
	"learning_rate": 4.526315789473685e-06,
	"loss": 0.6793,
	"step": 7850
	},
	{
	"epoch": 0.2,
	"grad_norm": 16.41980743408203,
	"learning_rate": 4.505263157894737e-06,
	"loss": 0.819,
	"step": 7860
	},
	{
	"epoch": 0.2,
	"grad_norm": 3.1915693283081055,
	"learning_rate": 4.48421052631579e-06,
	"loss": 0.7217,
	"step": 7870
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.805244445800781,
	"learning_rate": 4.463157894736842e-06,
	"loss": 0.7146,
	"step": 7880
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.697472333908081,
	"learning_rate": 4.442105263157896e-06,
	"loss": 0.6748,
	"step": 7890
	},
	{
	"epoch": 0.2,
	"grad_norm": 3.6001346111297607,
	"learning_rate": 4.4210526315789476e-06,
	"loss": 0.6972,
	"step": 7900
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.912445545196533,
	"learning_rate": 4.4e-06,
	"loss": 0.7157,
	"step": 7910
	},
	{
	"epoch": 0.2,
	"grad_norm": 6.9912309646606445,
	"learning_rate": 4.378947368421053e-06,
	"loss": 0.5927,
	"step": 7920
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.380290985107422,
	"learning_rate": 4.3578947368421055e-06,
	"loss": 0.699,
	"step": 7930
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.024576663970947,
	"learning_rate": 4.336842105263158e-06,
	"loss": 0.8156,
	"step": 7940
	},
	{
	"epoch": 0.2,
	"grad_norm": 3.523719310760498,
	"learning_rate": 4.315789473684211e-06,
	"loss": 0.7827,
	"step": 7950
	},
	{
	"epoch": 0.2,
	"grad_norm": 10.055171966552734,
	"learning_rate": 4.2947368421052635e-06,
	"loss": 0.7142,
	"step": 7960
	},
	{
	"epoch": 0.2,
	"grad_norm": 7.437203407287598,
	"learning_rate": 4.273684210526316e-06,
	"loss": 0.7184,
	"step": 7970
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.6910207271575928,
	"learning_rate": 4.252631578947369e-06,
	"loss": 0.7311,
	"step": 7980
	},
	{
	"epoch": 0.2,
	"grad_norm": 12.729212760925293,
	"learning_rate": 4.2315789473684215e-06,
	"loss": 0.7629,
	"step": 7990
	},
	{
	"epoch": 0.2,
	"grad_norm": 3.817344903945923,
	"learning_rate": 4.210526315789474e-06,
	"loss": 0.8676,
	"step": 8000
	},
	{
	"epoch": 0.2,
	"eval_loss": 0.7396635413169861,
	"eval_runtime": 67.9126,
	"eval_samples_per_second": 14.725,
	"eval_steps_per_second": 14.725,
	"step": 8000
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.193355083465576,
	"learning_rate": 4.189473684210527e-06,
	"loss": 0.7036,
	"step": 8010
	},
	{
	"epoch": 0.2,
	"grad_norm": 3.617652177810669,
	"learning_rate": 4.1684210526315794e-06,
	"loss": 0.6547,
	"step": 8020
	},
	{
	"epoch": 0.2,
	"grad_norm": 3.48286771774292,
	"learning_rate": 4.147368421052632e-06,
	"loss": 0.6756,
	"step": 8030
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.939229965209961,
	"learning_rate": 4.126315789473685e-06,
	"loss": 0.7157,
	"step": 8040
	},
	{
	"epoch": 0.2,
	"grad_norm": 14.387231826782227,
	"learning_rate": 4.105263157894737e-06,
	"loss": 0.8052,
	"step": 8050
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.042211055755615,
	"learning_rate": 4.08421052631579e-06,
	"loss": 0.6733,
	"step": 8060
	},
	{
	"epoch": 0.2,
	"grad_norm": 6.068091869354248,
	"learning_rate": 4.063157894736842e-06,
	"loss": 0.6172,
	"step": 8070
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.004486083984375,
	"learning_rate": 4.042105263157895e-06,
	"loss": 0.7888,
	"step": 8080
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.651116847991943,
	"learning_rate": 4.021052631578948e-06,
	"loss": 0.6979,
	"step": 8090
	},
	{
	"epoch": 0.2,
	"grad_norm": 3.581594944000244,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.7654,
	"step": 8100
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.6030330657958984,
	"learning_rate": 3.9789473684210525e-06,
	"loss": 0.7946,
	"step": 8110
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.385477542877197,
	"learning_rate": 3.957894736842106e-06,
	"loss": 0.7785,
	"step": 8120
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.688074588775635,
	"learning_rate": 3.936842105263159e-06,
	"loss": 0.7762,
	"step": 8130
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.7027924060821533,
	"learning_rate": 3.9157894736842104e-06,
	"loss": 0.6933,
	"step": 8140
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.239694118499756,
	"learning_rate": 3.894736842105263e-06,
	"loss": 0.8061,
	"step": 8150
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.3939032554626465,
	"learning_rate": 3.873684210526316e-06,
	"loss": 0.7537,
	"step": 8160
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.115386962890625,
	"learning_rate": 3.852631578947369e-06,
	"loss": 0.7025,
	"step": 8170
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.546750545501709,
	"learning_rate": 3.831578947368421e-06,
	"loss": 0.7108,
	"step": 8180
	},
	{
	"epoch": 0.2,
	"grad_norm": 3.043384552001953,
	"learning_rate": 3.810526315789474e-06,
	"loss": 0.7506,
	"step": 8190
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.8117778301239014,
	"learning_rate": 3.789473684210527e-06,
	"loss": 0.773,
	"step": 8200
	},
	{
	"epoch": 0.21,
	"grad_norm": 6.000233173370361,
	"learning_rate": 3.768421052631579e-06,
	"loss": 0.6902,
	"step": 8210
	},
	{
	"epoch": 0.21,
	"grad_norm": 6.7739787101745605,
	"learning_rate": 3.7473684210526317e-06,
	"loss": 0.6397,
	"step": 8220
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.948480129241943,
	"learning_rate": 3.7263157894736848e-06,
	"loss": 0.6185,
	"step": 8230
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.269702434539795,
	"learning_rate": 3.7052631578947374e-06,
	"loss": 0.7487,
	"step": 8240
	},
	{
	"epoch": 0.21,
	"grad_norm": 3.8336634635925293,
	"learning_rate": 3.6842105263157896e-06,
	"loss": 0.7805,
	"step": 8250
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.896543979644775,
	"learning_rate": 3.6631578947368423e-06,
	"loss": 0.645,
	"step": 8260
	},
	{
	"epoch": 0.21,
	"grad_norm": 6.051191806793213,
	"learning_rate": 3.642105263157895e-06,
	"loss": 0.7477,
	"step": 8270
	},
	{
	"epoch": 0.21,
	"grad_norm": 24.540451049804688,
	"learning_rate": 3.621052631578948e-06,
	"loss": 0.8168,
	"step": 8280
	},
	{
	"epoch": 0.21,
	"grad_norm": 5.061807155609131,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 0.727,
	"step": 8290
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.3907368183135986,
	"learning_rate": 3.578947368421053e-06,
	"loss": 0.6614,
	"step": 8300
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.554809093475342,
	"learning_rate": 3.5578947368421056e-06,
	"loss": 0.6947,
	"step": 8310
	},
	{
	"epoch": 0.21,
	"grad_norm": 3.7383534908294678,
	"learning_rate": 3.536842105263158e-06,
	"loss": 0.6171,
	"step": 8320
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.406937122344971,
	"learning_rate": 3.515789473684211e-06,
	"loss": 0.6102,
	"step": 8330
	},
	{
	"epoch": 0.21,
	"grad_norm": 5.226219654083252,
	"learning_rate": 3.4947368421052635e-06,
	"loss": 0.7746,
	"step": 8340
	},
	{
	"epoch": 0.21,
	"grad_norm": 6.249040126800537,
	"learning_rate": 3.473684210526316e-06,
	"loss": 0.7158,
	"step": 8350
	},
	{
	"epoch": 0.21,
	"grad_norm": 6.806312084197998,
	"learning_rate": 3.4526315789473684e-06,
	"loss": 0.7249,
	"step": 8360
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.993473529815674,
	"learning_rate": 3.4315789473684215e-06,
	"loss": 0.826,
	"step": 8370
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.120741367340088,
	"learning_rate": 3.410526315789474e-06,
	"loss": 0.6238,
	"step": 8380
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.020960807800293,
	"learning_rate": 3.3894736842105264e-06,
	"loss": 0.6749,
	"step": 8390
	},
	{
	"epoch": 0.21,
	"grad_norm": 6.000002384185791,
	"learning_rate": 3.368421052631579e-06,
	"loss": 0.7652,
	"step": 8400
	},
	{
	"epoch": 0.21,
	"grad_norm": 8.221445083618164,
	"learning_rate": 3.347368421052632e-06,
	"loss": 0.7781,
	"step": 8410
	},
	{
	"epoch": 0.21,
	"grad_norm": 5.850223541259766,
	"learning_rate": 3.3263157894736848e-06,
	"loss": 0.7555,
	"step": 8420
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.249915838241577,
	"learning_rate": 3.305263157894737e-06,
	"loss": 0.7305,
	"step": 8430
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.955141067504883,
	"learning_rate": 3.2842105263157897e-06,
	"loss": 0.6817,
	"step": 8440
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.4711403846740723,
	"learning_rate": 3.2631578947368423e-06,
	"loss": 0.683,
	"step": 8450
	},
	{
	"epoch": 0.21,
	"grad_norm": 5.367486953735352,
	"learning_rate": 3.2421052631578945e-06,
	"loss": 0.6494,
	"step": 8460
	},
	{
	"epoch": 0.21,
	"grad_norm": 3.283465623855591,
	"learning_rate": 3.2210526315789476e-06,
	"loss": 0.6092,
	"step": 8470
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.473137855529785,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 0.676,
	"step": 8480
	},
	{
	"epoch": 0.21,
	"grad_norm": 3.177180528640747,
	"learning_rate": 3.178947368421053e-06,
	"loss": 0.6685,
	"step": 8490
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.735683441162109,
	"learning_rate": 3.157894736842105e-06,
	"loss": 0.7544,
	"step": 8500
	},
	{
	"epoch": 0.21,
	"eval_loss": 0.7582711577415466,
	"eval_runtime": 67.8631,
	"eval_samples_per_second": 14.736,
	"eval_steps_per_second": 14.736,
	"step": 8500
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.465471267700195,
	"learning_rate": 3.1368421052631582e-06,
	"loss": 0.8191,
	"step": 8510
	},
	{
	"epoch": 0.21,
	"grad_norm": 3.8849751949310303,
	"learning_rate": 3.115789473684211e-06,
	"loss": 0.7078,
	"step": 8520
	},
	{
	"epoch": 0.21,
	"grad_norm": 5.555447101593018,
	"learning_rate": 3.094736842105263e-06,
	"loss": 0.7332,
	"step": 8530
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.269344806671143,
	"learning_rate": 3.0736842105263158e-06,
	"loss": 0.7619,
	"step": 8540
	},
	{
	"epoch": 0.21,
	"grad_norm": 5.792567729949951,
	"learning_rate": 3.052631578947369e-06,
	"loss": 0.6858,
	"step": 8550
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.095942974090576,
	"learning_rate": 3.0315789473684215e-06,
	"loss": 0.7793,
	"step": 8560
	},
	{
	"epoch": 0.21,
	"grad_norm": 3.316791296005249,
	"learning_rate": 3.0105263157894737e-06,
	"loss": 0.666,
	"step": 8570
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.55336332321167,
	"learning_rate": 2.9894736842105264e-06,
	"loss": 0.7723,
	"step": 8580
	},
	{
	"epoch": 0.21,
	"grad_norm": 7.5306315422058105,
	"learning_rate": 2.9684210526315795e-06,
	"loss": 0.7283,
	"step": 8590
	},
	{
	"epoch": 0.21,
	"grad_norm": 3.935115337371826,
	"learning_rate": 2.9473684210526317e-06,
	"loss": 0.7843,
	"step": 8600
	},
	{
	"epoch": 0.22,
	"grad_norm": 5.173915863037109,
	"learning_rate": 2.9263157894736844e-06,
	"loss": 0.6662,
	"step": 8610
	},
	{
	"epoch": 0.22,
	"grad_norm": 3.5214264392852783,
	"learning_rate": 2.905263157894737e-06,
	"loss": 0.6887,
	"step": 8620
	},
	{
	"epoch": 0.22,
	"grad_norm": 4.139004707336426,
	"learning_rate": 2.88421052631579e-06,
	"loss": 0.6778,
	"step": 8630
	},
	{
	"epoch": 0.22,
	"grad_norm": 4.185042381286621,
	"learning_rate": 2.8631578947368423e-06,
	"loss": 0.9094,
	"step": 8640
	},
	{
	"epoch": 0.22,
	"grad_norm": 3.3607513904571533,
	"learning_rate": 2.842105263157895e-06,
	"loss": 0.7918,
	"step": 8650
	},
	{
	"epoch": 0.22,
	"grad_norm": 5.062870502471924,
	"learning_rate": 2.8210526315789476e-06,
	"loss": 0.7694,
	"step": 8660
	},
	{
	"epoch": 0.22,
	"grad_norm": 5.099003791809082,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 0.7301,
	"step": 8670
	},
	{
	"epoch": 0.22,
	"grad_norm": 5.512063026428223,
	"learning_rate": 2.7789473684210525e-06,
	"loss": 0.7887,
	"step": 8680
	},
	{
	"epoch": 0.22,
	"grad_norm": 3.625652551651001,
	"learning_rate": 2.7578947368421056e-06,
	"loss": 0.7781,
	"step": 8690
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.8921008110046387,
	"learning_rate": 2.7368421052631583e-06,
	"loss": 0.7582,
	"step": 8700
	},
	{
	"epoch": 0.22,
	"grad_norm": 10.71945571899414,
	"learning_rate": 2.7157894736842105e-06,
	"loss": 0.7234,
	"step": 8710
	},
	{
	"epoch": 0.22,
	"grad_norm": 17.737136840820312,
	"learning_rate": 2.694736842105263e-06,
	"loss": 0.6298,
	"step": 8720
	},
	{
	"epoch": 0.22,
	"grad_norm": 9.8464994430542,
	"learning_rate": 2.6736842105263162e-06,
	"loss": 0.7856,
	"step": 8730
	},
	{
	"epoch": 0.22,
	"grad_norm": 7.925550937652588,
	"learning_rate": 2.652631578947369e-06,
	"loss": 0.8387,
	"step": 8740
	},
	{
	"epoch": 0.22,
	"grad_norm": 3.530381441116333,
	"learning_rate": 2.631578947368421e-06,
	"loss": 0.8223,
	"step": 8750
	},
	{
	"epoch": 0.22,
	"grad_norm": 6.403299808502197,
	"learning_rate": 2.6105263157894738e-06,
	"loss": 0.8079,
	"step": 8760
	},
	{
	"epoch": 0.22,
	"grad_norm": 5.1753740310668945,
	"learning_rate": 2.589473684210527e-06,
	"loss": 0.7888,
	"step": 8770
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.760190725326538,
	"learning_rate": 2.568421052631579e-06,
	"loss": 0.7071,
	"step": 8780
	},
	{
	"epoch": 0.22,
	"grad_norm": 5.183119297027588,
	"learning_rate": 2.5473684210526317e-06,
	"loss": 0.619,
	"step": 8790
	},
	{
	"epoch": 0.22,
	"grad_norm": 5.66708517074585,
	"learning_rate": 2.5263157894736844e-06,
	"loss": 0.7888,
	"step": 8800
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.3660988807678223,
	"learning_rate": 2.5052631578947375e-06,
	"loss": 0.7466,
	"step": 8810
	},
	{
	"epoch": 0.22,
	"grad_norm": 3.8384206295013428,
	"learning_rate": 2.4842105263157897e-06,
	"loss": 0.7371,
	"step": 8820
	},
	{
	"epoch": 0.22,
	"grad_norm": 3.593717336654663,
	"learning_rate": 2.4631578947368424e-06,
	"loss": 0.5967,
	"step": 8830
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.778346538543701,
	"learning_rate": 2.442105263157895e-06,
	"loss": 0.6407,
	"step": 8840
	},
	{
	"epoch": 0.22,
	"grad_norm": 10.841148376464844,
	"learning_rate": 2.4210526315789477e-06,
	"loss": 0.8172,
	"step": 8850
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.635694980621338,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 0.8135,
	"step": 8860
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.5510995388031006,
	"learning_rate": 2.378947368421053e-06,
	"loss": 0.8328,
	"step": 8870
	},
	{
	"epoch": 0.22,
	"grad_norm": 3.770972967147827,
	"learning_rate": 2.357894736842105e-06,
	"loss": 0.6642,
	"step": 8880
	},
	{
	"epoch": 0.22,
	"grad_norm": 5.756451606750488,
	"learning_rate": 2.3368421052631583e-06,
	"loss": 0.7484,
	"step": 8890
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.9202377796173096,
	"learning_rate": 2.3157894736842105e-06,
	"loss": 0.7381,
	"step": 8900
	},
	{
	"epoch": 0.22,
	"grad_norm": 4.43782377243042,
	"learning_rate": 2.294736842105263e-06,
	"loss": 0.7915,
	"step": 8910
	},
	{
	"epoch": 0.22,
	"grad_norm": 20.496152877807617,
	"learning_rate": 2.273684210526316e-06,
	"loss": 0.6872,
	"step": 8920
	},
	{
	"epoch": 0.22,
	"grad_norm": 3.2591583728790283,
	"learning_rate": 2.2526315789473685e-06,
	"loss": 0.668,
	"step": 8930
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.23056960105896,
	"learning_rate": 2.231578947368421e-06,
	"loss": 0.6229,
	"step": 8940
	},
	{
	"epoch": 0.22,
	"grad_norm": 5.419168949127197,
	"learning_rate": 2.2105263157894738e-06,
	"loss": 0.9534,
	"step": 8950
	},
	{
	"epoch": 0.22,
	"grad_norm": 15.681089401245117,
	"learning_rate": 2.1894736842105264e-06,
	"loss": 0.782,
	"step": 8960
	},
	{
	"epoch": 0.22,
	"grad_norm": 3.7693331241607666,
	"learning_rate": 2.168421052631579e-06,
	"loss": 0.8047,
	"step": 8970
	},
	{
	"epoch": 0.22,
	"grad_norm": 3.4705393314361572,
	"learning_rate": 2.1473684210526317e-06,
	"loss": 0.7832,
	"step": 8980
	},
	{
	"epoch": 0.22,
	"grad_norm": 4.295872688293457,
	"learning_rate": 2.1263157894736844e-06,
	"loss": 0.7355,
	"step": 8990
	},
	{
	"epoch": 0.23,
	"grad_norm": 3.0480620861053467,
	"learning_rate": 2.105263157894737e-06,
	"loss": 0.6739,
	"step": 9000
	},
	{
	"epoch": 0.23,
	"eval_loss": 0.7442497611045837,
	"eval_runtime": 67.8767,
	"eval_samples_per_second": 14.733,
	"eval_steps_per_second": 14.733,
	"step": 9000
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.9723927974700928,
	"learning_rate": 2.0842105263157897e-06,
	"loss": 0.7003,
	"step": 9010
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.0932421684265137,
	"learning_rate": 2.0631578947368424e-06,
	"loss": 0.6897,
	"step": 9020
	},
	{
	"epoch": 0.23,
	"grad_norm": 4.70625114440918,
	"learning_rate": 2.042105263157895e-06,
	"loss": 0.8106,
	"step": 9030
	},
	{
	"epoch": 0.23,
	"grad_norm": 3.2763564586639404,
	"learning_rate": 2.0210526315789477e-06,
	"loss": 0.7387,
	"step": 9040
	},
	{
	"epoch": 0.23,
	"grad_norm": 4.553431034088135,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.7435,
	"step": 9050
	},
	{
	"epoch": 0.23,
	"grad_norm": 5.36479377746582,
	"learning_rate": 1.978947368421053e-06,
	"loss": 0.7713,
	"step": 9060
	},
	{
	"epoch": 0.23,
	"grad_norm": 4.923874855041504,
	"learning_rate": 1.9578947368421052e-06,
	"loss": 0.5508,
	"step": 9070
	},
	{
	"epoch": 0.23,
	"grad_norm": 8.63404655456543,
	"learning_rate": 1.936842105263158e-06,
	"loss": 0.7323,
	"step": 9080
	},
	{
	"epoch": 0.23,
	"grad_norm": 5.521135330200195,
	"learning_rate": 1.9157894736842105e-06,
	"loss": 0.699,
	"step": 9090
	},
	{
	"epoch": 0.23,
	"grad_norm": 9.009405136108398,
	"learning_rate": 1.8947368421052634e-06,
	"loss": 0.789,
	"step": 9100
	},
	{
	"epoch": 0.23,
	"grad_norm": 12.834007263183594,
	"learning_rate": 1.8736842105263158e-06,
	"loss": 0.7382,
	"step": 9110
	},
	{
	"epoch": 0.23,
	"grad_norm": 3.753262758255005,
	"learning_rate": 1.8526315789473687e-06,
	"loss": 0.7035,
	"step": 9120
	},
	{
	"epoch": 0.23,
	"grad_norm": 3.300708770751953,
	"learning_rate": 1.8315789473684211e-06,
	"loss": 0.7558,
	"step": 9130
	},
	{
	"epoch": 0.23,
	"grad_norm": 4.416452884674072,
	"learning_rate": 1.810526315789474e-06,
	"loss": 0.6854,
	"step": 9140
	},
	{
	"epoch": 0.23,
	"grad_norm": 7.664788722991943,
	"learning_rate": 1.7894736842105265e-06,
	"loss": 0.6951,
	"step": 9150
	},
	{
	"epoch": 0.23,
	"grad_norm": 3.646073818206787,
	"learning_rate": 1.768421052631579e-06,
	"loss": 0.7472,
	"step": 9160
	},
	{
	"epoch": 0.23,
	"grad_norm": 3.125991106033325,
	"learning_rate": 1.7473684210526318e-06,
	"loss": 0.6711,
	"step": 9170
	},
	{
	"epoch": 0.23,
	"grad_norm": 5.308753967285156,
	"learning_rate": 1.7263157894736842e-06,
	"loss": 0.6393,
	"step": 9180
	},
	{
	"epoch": 0.23,
	"grad_norm": 11.79830265045166,
	"learning_rate": 1.705263157894737e-06,
	"loss": 0.7358,
	"step": 9190
	},
	{
	"epoch": 0.23,
	"grad_norm": 6.862399101257324,
	"learning_rate": 1.6842105263157895e-06,
	"loss": 0.8422,
	"step": 9200
	},
	{
	"epoch": 0.23,
	"grad_norm": 5.3199968338012695,
	"learning_rate": 1.6631578947368424e-06,
	"loss": 0.6999,
	"step": 9210
	},
	{
	"epoch": 0.23,
	"grad_norm": 3.263275146484375,
	"learning_rate": 1.6421052631578948e-06,
	"loss": 0.7122,
	"step": 9220
	},
	{
	"epoch": 0.23,
	"grad_norm": 4.283051490783691,
	"learning_rate": 1.6210526315789473e-06,
	"loss": 0.7793,
	"step": 9230
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.0055785179138184,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 0.732,
	"step": 9240
	},
	{
	"epoch": 0.23,
	"grad_norm": 4.184137344360352,
	"learning_rate": 1.5789473684210526e-06,
	"loss": 0.7339,
	"step": 9250
	},
	{
	"epoch": 0.23,
	"grad_norm": 3.587636709213257,
	"learning_rate": 1.5578947368421054e-06,
	"loss": 0.8473,
	"step": 9260
	},
	{
	"epoch": 0.23,
	"grad_norm": 8.189043045043945,
	"learning_rate": 1.5368421052631579e-06,
	"loss": 0.6498,
	"step": 9270
	},
	{
	"epoch": 0.23,
	"grad_norm": 3.4272284507751465,
	"learning_rate": 1.5157894736842108e-06,
	"loss": 0.7676,
	"step": 9280
	},
	{
	"epoch": 0.23,
	"grad_norm": 3.280287027359009,
	"learning_rate": 1.4947368421052632e-06,
	"loss": 0.6283,
	"step": 9290
	},
	{
	"epoch": 0.23,
	"grad_norm": 8.722474098205566,
	"learning_rate": 1.4736842105263159e-06,
	"loss": 0.7555,
	"step": 9300
	},
	{
	"epoch": 0.23,
	"grad_norm": 4.574818134307861,
	"learning_rate": 1.4526315789473685e-06,
	"loss": 0.7481,
	"step": 9310
	},
	{
	"epoch": 0.23,
	"grad_norm": 3.0097527503967285,
	"learning_rate": 1.4315789473684212e-06,
	"loss": 0.6181,
	"step": 9320
	},
	{
	"epoch": 0.23,
	"grad_norm": 6.725505352020264,
	"learning_rate": 1.4105263157894738e-06,
	"loss": 0.677,
	"step": 9330
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.934959888458252,
	"learning_rate": 1.3894736842105263e-06,
	"loss": 0.6932,
	"step": 9340
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.7491650581359863,
	"learning_rate": 1.3684210526315791e-06,
	"loss": 0.7361,
	"step": 9350
	},
	{
	"epoch": 0.23,
	"grad_norm": 4.734315872192383,
	"learning_rate": 1.3473684210526316e-06,
	"loss": 0.6442,
	"step": 9360
	},
	{
	"epoch": 0.23,
	"grad_norm": 4.301790714263916,
	"learning_rate": 1.3263157894736844e-06,
	"loss": 0.7642,
	"step": 9370
	},
	{
	"epoch": 0.23,
	"grad_norm": 4.042958736419678,
	"learning_rate": 1.3052631578947369e-06,
	"loss": 0.7974,
	"step": 9380
	},
	{
	"epoch": 0.23,
	"grad_norm": 4.941096782684326,
	"learning_rate": 1.2842105263157895e-06,
	"loss": 0.8603,
	"step": 9390
	},
	{
	"epoch": 0.23,
	"grad_norm": 4.379117488861084,
	"learning_rate": 1.2631578947368422e-06,
	"loss": 0.8297,
	"step": 9400
	},
	{
	"epoch": 0.24,
	"grad_norm": 6.3129048347473145,
	"learning_rate": 1.2421052631578948e-06,
	"loss": 0.7783,
	"step": 9410
	},
	{
	"epoch": 0.24,
	"grad_norm": 5.5439133644104,
	"learning_rate": 1.2210526315789475e-06,
	"loss": 0.8122,
	"step": 9420
	},
	{
	"epoch": 0.24,
	"grad_norm": 6.480744361877441,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 0.7779,
	"step": 9430
	},
	{
	"epoch": 0.24,
	"grad_norm": 5.862485408782959,
	"learning_rate": 1.1789473684210526e-06,
	"loss": 0.6917,
	"step": 9440
	},
	{
	"epoch": 0.24,
	"grad_norm": 5.7247443199157715,
	"learning_rate": 1.1578947368421053e-06,
	"loss": 0.7017,
	"step": 9450
	},
	{
	"epoch": 0.24,
	"grad_norm": 8.194451332092285,
	"learning_rate": 1.136842105263158e-06,
	"loss": 0.7031,
	"step": 9460
	},
	{
	"epoch": 0.24,
	"grad_norm": 8.057929992675781,
	"learning_rate": 1.1157894736842106e-06,
	"loss": 0.7116,
	"step": 9470
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.529337406158447,
	"learning_rate": 1.0947368421052632e-06,
	"loss": 0.8314,
	"step": 9480
	},
	{
	"epoch": 0.24,
	"grad_norm": 7.412846565246582,
	"learning_rate": 1.0736842105263159e-06,
	"loss": 0.6448,
	"step": 9490
	},
	{
	"epoch": 0.24,
	"grad_norm": 3.7076497077941895,
	"learning_rate": 1.0526315789473685e-06,
	"loss": 0.6291,
	"step": 9500
	},
	{
	"epoch": 0.24,
	"eval_loss": 0.7395394444465637,
	"eval_runtime": 67.8841,
	"eval_samples_per_second": 14.731,
	"eval_steps_per_second": 14.731,
	"step": 9500
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.488115310668945,
	"learning_rate": 1.0315789473684212e-06,
	"loss": 0.8611,
	"step": 9510
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.6314383745193481,
	"learning_rate": 1.0105263157894738e-06,
	"loss": 0.7694,
	"step": 9520
	},
	{
	"epoch": 0.24,
	"grad_norm": 5.290372848510742,
	"learning_rate": 9.894736842105265e-07,
	"loss": 0.7166,
	"step": 9530
	},
	{
	"epoch": 0.24,
	"grad_norm": 3.1572625637054443,
	"learning_rate": 9.68421052631579e-07,
	"loss": 0.7649,
	"step": 9540
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.951930999755859,
	"learning_rate": 9.473684210526317e-07,
	"loss": 0.7057,
	"step": 9550
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.696636199951172,
	"learning_rate": 9.263157894736844e-07,
	"loss": 0.7853,
	"step": 9560
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.211262226104736,
	"learning_rate": 9.05263157894737e-07,
	"loss": 0.6612,
	"step": 9570
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.584897041320801,
	"learning_rate": 8.842105263157895e-07,
	"loss": 0.6393,
	"step": 9580
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.64282751083374,
	"learning_rate": 8.631578947368421e-07,
	"loss": 0.7915,
	"step": 9590
	},
	{
	"epoch": 0.24,
	"grad_norm": 3.691389799118042,
	"learning_rate": 8.421052631578948e-07,
	"loss": 0.659,
	"step": 9600
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.740243911743164,
	"learning_rate": 8.210526315789474e-07,
	"loss": 0.7134,
	"step": 9610
	},
	{
	"epoch": 0.24,
	"grad_norm": 6.811493873596191,
	"learning_rate": 8.000000000000001e-07,
	"loss": 0.8592,
	"step": 9620
	},
	{
	"epoch": 0.24,
	"grad_norm": 3.2056334018707275,
	"learning_rate": 7.789473684210527e-07,
	"loss": 0.6753,
	"step": 9630
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.347885608673096,
	"learning_rate": 7.578947368421054e-07,
	"loss": 0.7476,
	"step": 9640
	},
	{
	"epoch": 0.24,
	"grad_norm": 5.63771915435791,
	"learning_rate": 7.368421052631579e-07,
	"loss": 0.7649,
	"step": 9650
	},
	{
	"epoch": 0.24,
	"grad_norm": 3.062124013900757,
	"learning_rate": 7.157894736842106e-07,
	"loss": 0.6792,
	"step": 9660
	},
	{
	"epoch": 0.24,
	"grad_norm": 9.334321022033691,
	"learning_rate": 6.947368421052631e-07,
	"loss": 0.7626,
	"step": 9670
	},
	{
	"epoch": 0.24,
	"grad_norm": 7.429685115814209,
	"learning_rate": 6.736842105263158e-07,
	"loss": 0.6943,
	"step": 9680
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.459277629852295,
	"learning_rate": 6.526315789473684e-07,
	"loss": 0.7838,
	"step": 9690
	},
	{
	"epoch": 0.24,
	"grad_norm": 6.821927070617676,
	"learning_rate": 6.315789473684211e-07,
	"loss": 0.7103,
	"step": 9700
	},
	{
	"epoch": 0.24,
	"grad_norm": 10.438909530639648,
	"learning_rate": 6.105263157894738e-07,
	"loss": 0.7509,
	"step": 9710
	},
	{
	"epoch": 0.24,
	"grad_norm": 11.55811882019043,
	"learning_rate": 5.894736842105263e-07,
	"loss": 0.7623,
	"step": 9720
	},
	{
	"epoch": 0.24,
	"grad_norm": 3.1809043884277344,
	"learning_rate": 5.68421052631579e-07,
	"loss": 0.6294,
	"step": 9730
	},
	{
	"epoch": 0.24,
	"grad_norm": 5.337337970733643,
	"learning_rate": 5.473684210526316e-07,
	"loss": 0.763,
	"step": 9740
	},
	{
	"epoch": 0.24,
	"grad_norm": 8.130523681640625,
	"learning_rate": 5.263157894736843e-07,
	"loss": 0.6404,
	"step": 9750
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.213668346405029,
	"learning_rate": 5.052631578947369e-07,
	"loss": 0.7379,
	"step": 9760
	},
	{
	"epoch": 0.24,
	"grad_norm": 3.8605246543884277,
	"learning_rate": 4.842105263157895e-07,
	"loss": 0.7483,
	"step": 9770
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.358519077301025,
	"learning_rate": 4.631578947368422e-07,
	"loss": 0.6823,
	"step": 9780
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.9712955951690674,
	"learning_rate": 4.421052631578947e-07,
	"loss": 0.679,
	"step": 9790
	},
	{
	"epoch": 0.24,
	"grad_norm": 6.285613059997559,
	"learning_rate": 4.210526315789474e-07,
	"loss": 0.7763,
	"step": 9800
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.434277296066284,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 0.8558,
	"step": 9810
	},
	{
	"epoch": 0.25,
	"grad_norm": 7.880703449249268,
	"learning_rate": 3.789473684210527e-07,
	"loss": 0.7494,
	"step": 9820
	},
	{
	"epoch": 0.25,
	"grad_norm": 11.698799133300781,
	"learning_rate": 3.578947368421053e-07,
	"loss": 0.6576,
	"step": 9830
	},
	{
	"epoch": 0.25,
	"grad_norm": 3.2752954959869385,
	"learning_rate": 3.368421052631579e-07,
	"loss": 0.6494,
	"step": 9840
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.878567934036255,
	"learning_rate": 3.1578947368421055e-07,
	"loss": 0.6781,
	"step": 9850
	},
	{
	"epoch": 0.25,
	"grad_norm": 3.6086246967315674,
	"learning_rate": 2.9473684210526315e-07,
	"loss": 0.7339,
	"step": 9860
	},
	{
	"epoch": 0.25,
	"grad_norm": 5.403782844543457,
	"learning_rate": 2.736842105263158e-07,
	"loss": 0.7738,
	"step": 9870
	},
	{
	"epoch": 0.25,
	"grad_norm": 4.487565994262695,
	"learning_rate": 2.5263157894736846e-07,
	"loss": 0.8165,
	"step": 9880
	},
	{
	"epoch": 0.25,
	"grad_norm": 4.29118537902832,
	"learning_rate": 2.315789473684211e-07,
	"loss": 0.6272,
	"step": 9890
	},
	{
	"epoch": 0.25,
	"grad_norm": 3.634309768676758,
	"learning_rate": 2.105263157894737e-07,
	"loss": 0.6641,
	"step": 9900
	},
	{
	"epoch": 0.25,
	"grad_norm": 4.989073276519775,
	"learning_rate": 1.8947368421052634e-07,
	"loss": 0.7111,
	"step": 9910
	},
	{
	"epoch": 0.25,
	"grad_norm": 5.606556415557861,
	"learning_rate": 1.6842105263157895e-07,
	"loss": 0.6112,
	"step": 9920
	},
	{
	"epoch": 0.25,
	"grad_norm": 5.012443542480469,
	"learning_rate": 1.4736842105263158e-07,
	"loss": 0.6684,
	"step": 9930
	},
	{
	"epoch": 0.25,
	"grad_norm": 6.287766933441162,
	"learning_rate": 1.2631578947368423e-07,
	"loss": 0.6687,
	"step": 9940
	},
	{
	"epoch": 0.25,
	"grad_norm": 3.646402597427368,
	"learning_rate": 1.0526315789473685e-07,
	"loss": 0.6452,
	"step": 9950
	},
	{
	"epoch": 0.25,
	"grad_norm": 7.9046950340271,
	"learning_rate": 8.421052631578947e-08,
	"loss": 0.7636,
	"step": 9960
	},
	{
	"epoch": 0.25,
	"grad_norm": 4.733578681945801,
	"learning_rate": 6.315789473684211e-08,
	"loss": 0.6619,
	"step": 9970
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.342442274093628,
	"learning_rate": 4.2105263157894737e-08,
	"loss": 0.74,
	"step": 9980
	},
	{
	"epoch": 0.25,
	"grad_norm": 4.0832839012146,
	"learning_rate": 2.1052631578947368e-08,
	"loss": 0.7314,
	"step": 9990
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.517941951751709,
	"learning_rate": 0.0,
	"loss": 0.755,
	"step": 10000
	},
	{
	"epoch": 0.25,
	"eval_loss": 0.7402730584144592,
	"eval_runtime": 67.899,
	"eval_samples_per_second": 14.728,
	"eval_steps_per_second": 14.728,
	"step": 10000
	}
	],
	"logging_steps": 10,
	"max_steps": 10000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 2500,
	"total_flos": 1.6102125993984e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}