Upload folder using huggingface_hub

6a438b4 verified 3 months ago

164 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.976,
	"eval_steps": 125,
	"global_step": 1000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.002,
	"grad_norm": 0.06923668831586838,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4175,
	"step": 1
	},
	{
	"epoch": 0.002,
	"eval_loss": 0.4618559181690216,
	"eval_runtime": 137.9356,
	"eval_samples_per_second": 4.002,
	"eval_steps_per_second": 0.5,
	"step": 1
	},
	{
	"epoch": 0.004,
	"grad_norm": 0.09036832302808762,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.5159,
	"step": 2
	},
	{
	"epoch": 0.006,
	"grad_norm": 0.06212183088064194,
	"learning_rate": 3e-06,
	"loss": 0.3274,
	"step": 3
	},
	{
	"epoch": 0.008,
	"grad_norm": 0.089068204164505,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.5353,
	"step": 4
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.08060520887374878,
	"learning_rate": 5e-06,
	"loss": 0.5229,
	"step": 5
	},
	{
	"epoch": 0.012,
	"grad_norm": 0.08129512518644333,
	"learning_rate": 6e-06,
	"loss": 0.416,
	"step": 6
	},
	{
	"epoch": 0.014,
	"grad_norm": 0.13881395757198334,
	"learning_rate": 7e-06,
	"loss": 0.4797,
	"step": 7
	},
	{
	"epoch": 0.016,
	"grad_norm": 0.09156442433595657,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.4808,
	"step": 8
	},
	{
	"epoch": 0.018,
	"grad_norm": 0.09145132452249527,
	"learning_rate": 9e-06,
	"loss": 0.4991,
	"step": 9
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.08622220903635025,
	"learning_rate": 1e-05,
	"loss": 0.484,
	"step": 10
	},
	{
	"epoch": 0.022,
	"grad_norm": 0.07630373537540436,
	"learning_rate": 9.999974825027756e-06,
	"loss": 0.3951,
	"step": 11
	},
	{
	"epoch": 0.024,
	"grad_norm": 0.06840338557958603,
	"learning_rate": 9.999899300364534e-06,
	"loss": 0.4058,
	"step": 12
	},
	{
	"epoch": 0.026,
	"grad_norm": 0.09991295635700226,
	"learning_rate": 9.999773426770864e-06,
	"loss": 0.5737,
	"step": 13
	},
	{
	"epoch": 0.028,
	"grad_norm": 0.09987013041973114,
	"learning_rate": 9.999597205514298e-06,
	"loss": 0.4535,
	"step": 14
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.07334341108798981,
	"learning_rate": 9.999370638369377e-06,
	"loss": 0.4047,
	"step": 15
	},
	{
	"epoch": 0.032,
	"grad_norm": 0.10504010319709778,
	"learning_rate": 9.99909372761763e-06,
	"loss": 0.4587,
	"step": 16
	},
	{
	"epoch": 0.034,
	"grad_norm": 0.12481511384248734,
	"learning_rate": 9.998766476047546e-06,
	"loss": 0.5568,
	"step": 17
	},
	{
	"epoch": 0.036,
	"grad_norm": 0.10193619877099991,
	"learning_rate": 9.998388886954546e-06,
	"loss": 0.58,
	"step": 18
	},
	{
	"epoch": 0.038,
	"grad_norm": 0.09747433662414551,
	"learning_rate": 9.997960964140946e-06,
	"loss": 0.4248,
	"step": 19
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.10985693335533142,
	"learning_rate": 9.997482711915926e-06,
	"loss": 0.5813,
	"step": 20
	},
	{
	"epoch": 0.042,
	"grad_norm": 0.08061390370130539,
	"learning_rate": 9.99695413509548e-06,
	"loss": 0.3419,
	"step": 21
	},
	{
	"epoch": 0.044,
	"grad_norm": 0.09820478409528732,
	"learning_rate": 9.99637523900237e-06,
	"loss": 0.336,
	"step": 22
	},
	{
	"epoch": 0.046,
	"grad_norm": 0.11657540500164032,
	"learning_rate": 9.995746029466071e-06,
	"loss": 0.4634,
	"step": 23
	},
	{
	"epoch": 0.048,
	"grad_norm": 0.0904548391699791,
	"learning_rate": 9.99506651282272e-06,
	"loss": 0.4085,
	"step": 24
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.1137523204088211,
	"learning_rate": 9.994336695915041e-06,
	"loss": 0.6002,
	"step": 25
	},
	{
	"epoch": 0.052,
	"grad_norm": 0.08930382132530212,
	"learning_rate": 9.993556586092281e-06,
	"loss": 0.4007,
	"step": 26
	},
	{
	"epoch": 0.054,
	"grad_norm": 0.10268951207399368,
	"learning_rate": 9.992726191210139e-06,
	"loss": 0.5762,
	"step": 27
	},
	{
	"epoch": 0.056,
	"grad_norm": 0.11000809073448181,
	"learning_rate": 9.991845519630679e-06,
	"loss": 0.5878,
	"step": 28
	},
	{
	"epoch": 0.058,
	"grad_norm": 0.08394967019557953,
	"learning_rate": 9.990914580222258e-06,
	"loss": 0.4447,
	"step": 29
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.10849784314632416,
	"learning_rate": 9.989933382359423e-06,
	"loss": 0.6129,
	"step": 30
	},
	{
	"epoch": 0.062,
	"grad_norm": 0.09749893844127655,
	"learning_rate": 9.988901935922826e-06,
	"loss": 0.4993,
	"step": 31
	},
	{
	"epoch": 0.064,
	"grad_norm": 0.09867393970489502,
	"learning_rate": 9.987820251299121e-06,
	"loss": 0.4415,
	"step": 32
	},
	{
	"epoch": 0.066,
	"grad_norm": 0.07566885650157928,
	"learning_rate": 9.986688339380863e-06,
	"loss": 0.3669,
	"step": 33
	},
	{
	"epoch": 0.068,
	"grad_norm": 0.08246949315071106,
	"learning_rate": 9.985506211566388e-06,
	"loss": 0.4102,
	"step": 34
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.10148797929286957,
	"learning_rate": 9.984273879759713e-06,
	"loss": 0.5327,
	"step": 35
	},
	{
	"epoch": 0.072,
	"grad_norm": 0.08779735118150711,
	"learning_rate": 9.982991356370404e-06,
	"loss": 0.4914,
	"step": 36
	},
	{
	"epoch": 0.074,
	"grad_norm": 0.09165964275598526,
	"learning_rate": 9.981658654313458e-06,
	"loss": 0.4136,
	"step": 37
	},
	{
	"epoch": 0.076,
	"grad_norm": 0.10425784438848495,
	"learning_rate": 9.98027578700917e-06,
	"loss": 0.6063,
	"step": 38
	},
	{
	"epoch": 0.078,
	"grad_norm": 0.09124460816383362,
	"learning_rate": 9.978842768382999e-06,
	"loss": 0.5461,
	"step": 39
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.0863451436161995,
	"learning_rate": 9.977359612865424e-06,
	"loss": 0.5108,
	"step": 40
	},
	{
	"epoch": 0.082,
	"grad_norm": 0.11560487747192383,
	"learning_rate": 9.975826335391808e-06,
	"loss": 0.4965,
	"step": 41
	},
	{
	"epoch": 0.084,
	"grad_norm": 0.1319773942232132,
	"learning_rate": 9.974242951402236e-06,
	"loss": 0.4754,
	"step": 42
	},
	{
	"epoch": 0.086,
	"grad_norm": 0.08868485689163208,
	"learning_rate": 9.972609476841368e-06,
	"loss": 0.4958,
	"step": 43
	},
	{
	"epoch": 0.088,
	"grad_norm": 0.12390384823083878,
	"learning_rate": 9.970925928158275e-06,
	"loss": 0.5641,
	"step": 44
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.095445416867733,
	"learning_rate": 9.969192322306271e-06,
	"loss": 0.5145,
	"step": 45
	},
	{
	"epoch": 0.092,
	"grad_norm": 0.09656377136707306,
	"learning_rate": 9.96740867674275e-06,
	"loss": 0.3749,
	"step": 46
	},
	{
	"epoch": 0.094,
	"grad_norm": 0.07841179519891739,
	"learning_rate": 9.965575009429006e-06,
	"loss": 0.4113,
	"step": 47
	},
	{
	"epoch": 0.096,
	"grad_norm": 0.07786890119314194,
	"learning_rate": 9.963691338830045e-06,
	"loss": 0.4374,
	"step": 48
	},
	{
	"epoch": 0.098,
	"grad_norm": 0.09050661325454712,
	"learning_rate": 9.961757683914406e-06,
	"loss": 0.5285,
	"step": 49
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.11070208251476288,
	"learning_rate": 9.959774064153977e-06,
	"loss": 0.5326,
	"step": 50
	},
	{
	"epoch": 0.102,
	"grad_norm": 0.09067952632904053,
	"learning_rate": 9.957740499523787e-06,
	"loss": 0.5613,
	"step": 51
	},
	{
	"epoch": 0.104,
	"grad_norm": 0.08883544057607651,
	"learning_rate": 9.955657010501807e-06,
	"loss": 0.4599,
	"step": 52
	},
	{
	"epoch": 0.106,
	"grad_norm": 0.10251513868570328,
	"learning_rate": 9.95352361806875e-06,
	"loss": 0.5354,
	"step": 53
	},
	{
	"epoch": 0.108,
	"grad_norm": 0.07133735716342926,
	"learning_rate": 9.951340343707852e-06,
	"loss": 0.3696,
	"step": 54
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.061642151325941086,
	"learning_rate": 9.949107209404664e-06,
	"loss": 0.3472,
	"step": 55
	},
	{
	"epoch": 0.112,
	"grad_norm": 0.08950634300708771,
	"learning_rate": 9.946824237646823e-06,
	"loss": 0.4969,
	"step": 56
	},
	{
	"epoch": 0.114,
	"grad_norm": 0.08016358315944672,
	"learning_rate": 9.944491451423829e-06,
	"loss": 0.5239,
	"step": 57
	},
	{
	"epoch": 0.116,
	"grad_norm": 0.12512832880020142,
	"learning_rate": 9.942108874226812e-06,
	"loss": 0.5365,
	"step": 58
	},
	{
	"epoch": 0.118,
	"grad_norm": 0.09220532327890396,
	"learning_rate": 9.9396765300483e-06,
	"loss": 0.4783,
	"step": 59
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.0885612890124321,
	"learning_rate": 9.937194443381972e-06,
	"loss": 0.5459,
	"step": 60
	},
	{
	"epoch": 0.122,
	"grad_norm": 0.08592379838228226,
	"learning_rate": 9.934662639222412e-06,
	"loss": 0.4545,
	"step": 61
	},
	{
	"epoch": 0.124,
	"grad_norm": 0.08418423682451248,
	"learning_rate": 9.93208114306486e-06,
	"loss": 0.5105,
	"step": 62
	},
	{
	"epoch": 0.126,
	"grad_norm": 0.07870952039957047,
	"learning_rate": 9.929449980904952e-06,
	"loss": 0.4593,
	"step": 63
	},
	{
	"epoch": 0.128,
	"grad_norm": 0.08841884881258011,
	"learning_rate": 9.926769179238467e-06,
	"loss": 0.4812,
	"step": 64
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.07493194192647934,
	"learning_rate": 9.924038765061042e-06,
	"loss": 0.5065,
	"step": 65
	},
	{
	"epoch": 0.132,
	"grad_norm": 0.08470446616411209,
	"learning_rate": 9.921258765867919e-06,
	"loss": 0.4676,
	"step": 66
	},
	{
	"epoch": 0.134,
	"grad_norm": 0.0656595379114151,
	"learning_rate": 9.918429209653662e-06,
	"loss": 0.3227,
	"step": 67
	},
	{
	"epoch": 0.136,
	"grad_norm": 0.06501025706529617,
	"learning_rate": 9.915550124911866e-06,
	"loss": 0.2777,
	"step": 68
	},
	{
	"epoch": 0.138,
	"grad_norm": 0.08443128317594528,
	"learning_rate": 9.912621540634889e-06,
	"loss": 0.4357,
	"step": 69
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.07121642678976059,
	"learning_rate": 9.909643486313533e-06,
	"loss": 0.3545,
	"step": 70
	},
	{
	"epoch": 0.142,
	"grad_norm": 0.09408602863550186,
	"learning_rate": 9.906615991936781e-06,
	"loss": 0.3916,
	"step": 71
	},
	{
	"epoch": 0.144,
	"grad_norm": 0.05998094752430916,
	"learning_rate": 9.903539087991462e-06,
	"loss": 0.2739,
	"step": 72
	},
	{
	"epoch": 0.146,
	"grad_norm": 0.08949826657772064,
	"learning_rate": 9.900412805461968e-06,
	"loss": 0.3722,
	"step": 73
	},
	{
	"epoch": 0.148,
	"grad_norm": 0.0731697678565979,
	"learning_rate": 9.897237175829927e-06,
	"loss": 0.2906,
	"step": 74
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.07855986058712006,
	"learning_rate": 9.894012231073895e-06,
	"loss": 0.4149,
	"step": 75
	},
	{
	"epoch": 0.152,
	"grad_norm": 0.0791892409324646,
	"learning_rate": 9.890738003669029e-06,
	"loss": 0.4383,
	"step": 76
	},
	{
	"epoch": 0.154,
	"grad_norm": 0.07980603724718094,
	"learning_rate": 9.887414526586764e-06,
	"loss": 0.4867,
	"step": 77
	},
	{
	"epoch": 0.156,
	"grad_norm": 0.08503536880016327,
	"learning_rate": 9.884041833294477e-06,
	"loss": 0.4644,
	"step": 78
	},
	{
	"epoch": 0.158,
	"grad_norm": 0.09240555018186569,
	"learning_rate": 9.880619957755151e-06,
	"loss": 0.3107,
	"step": 79
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.08195238560438156,
	"learning_rate": 9.877148934427037e-06,
	"loss": 0.3414,
	"step": 80
	},
	{
	"epoch": 0.162,
	"grad_norm": 0.09512759745121002,
	"learning_rate": 9.873628798263297e-06,
	"loss": 0.4745,
	"step": 81
	},
	{
	"epoch": 0.164,
	"grad_norm": 0.07976000756025314,
	"learning_rate": 9.870059584711668e-06,
	"loss": 0.3925,
	"step": 82
	},
	{
	"epoch": 0.166,
	"grad_norm": 0.11229317635297775,
	"learning_rate": 9.86644132971409e-06,
	"loss": 0.4921,
	"step": 83
	},
	{
	"epoch": 0.168,
	"grad_norm": 0.07479218393564224,
	"learning_rate": 9.862774069706346e-06,
	"loss": 0.3607,
	"step": 84
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.08530927449464798,
	"learning_rate": 9.859057841617709e-06,
	"loss": 0.4116,
	"step": 85
	},
	{
	"epoch": 0.172,
	"grad_norm": 0.05544688552618027,
	"learning_rate": 9.855292682870552e-06,
	"loss": 0.2043,
	"step": 86
	},
	{
	"epoch": 0.174,
	"grad_norm": 0.08539939671754837,
	"learning_rate": 9.851478631379982e-06,
	"loss": 0.4437,
	"step": 87
	},
	{
	"epoch": 0.176,
	"grad_norm": 0.08732863515615463,
	"learning_rate": 9.847615725553457e-06,
	"loss": 0.4449,
	"step": 88
	},
	{
	"epoch": 0.178,
	"grad_norm": 0.08848625421524048,
	"learning_rate": 9.843704004290393e-06,
	"loss": 0.5191,
	"step": 89
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.1142885684967041,
	"learning_rate": 9.839743506981783e-06,
	"loss": 0.3788,
	"step": 90
	},
	{
	"epoch": 0.182,
	"grad_norm": 0.0678037703037262,
	"learning_rate": 9.835734273509787e-06,
	"loss": 0.3655,
	"step": 91
	},
	{
	"epoch": 0.184,
	"grad_norm": 0.08179458975791931,
	"learning_rate": 9.831676344247343e-06,
	"loss": 0.4804,
	"step": 92
	},
	{
	"epoch": 0.186,
	"grad_norm": 0.10821828246116638,
	"learning_rate": 9.827569760057755e-06,
	"loss": 0.4946,
	"step": 93
	},
	{
	"epoch": 0.188,
	"grad_norm": 0.06980521976947784,
	"learning_rate": 9.82341456229428e-06,
	"loss": 0.3301,
	"step": 94
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.07966768741607666,
	"learning_rate": 9.819210792799711e-06,
	"loss": 0.4377,
	"step": 95
	},
	{
	"epoch": 0.192,
	"grad_norm": 0.08750802278518677,
	"learning_rate": 9.814958493905962e-06,
	"loss": 0.4137,
	"step": 96
	},
	{
	"epoch": 0.194,
	"grad_norm": 0.08171187341213226,
	"learning_rate": 9.810657708433637e-06,
	"loss": 0.5154,
	"step": 97
	},
	{
	"epoch": 0.196,
	"grad_norm": 0.07627864181995392,
	"learning_rate": 9.806308479691595e-06,
	"loss": 0.3593,
	"step": 98
	},
	{
	"epoch": 0.198,
	"grad_norm": 0.07038850337266922,
	"learning_rate": 9.801910851476524e-06,
	"loss": 0.3882,
	"step": 99
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.09910848736763,
	"learning_rate": 9.797464868072489e-06,
	"loss": 0.5034,
	"step": 100
	},
	{
	"epoch": 0.202,
	"grad_norm": 0.08382704854011536,
	"learning_rate": 9.792970574250493e-06,
	"loss": 0.4769,
	"step": 101
	},
	{
	"epoch": 0.204,
	"grad_norm": 0.07511335611343384,
	"learning_rate": 9.788428015268027e-06,
	"loss": 0.3703,
	"step": 102
	},
	{
	"epoch": 0.206,
	"grad_norm": 0.08155877888202667,
	"learning_rate": 9.78383723686861e-06,
	"loss": 0.4102,
	"step": 103
	},
	{
	"epoch": 0.208,
	"grad_norm": 0.06436574459075928,
	"learning_rate": 9.779198285281326e-06,
	"loss": 0.3253,
	"step": 104
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.06901544332504272,
	"learning_rate": 9.774511207220369e-06,
	"loss": 0.2842,
	"step": 105
	},
	{
	"epoch": 0.212,
	"grad_norm": 0.08444689959287643,
	"learning_rate": 9.769776049884564e-06,
	"loss": 0.4212,
	"step": 106
	},
	{
	"epoch": 0.214,
	"grad_norm": 0.08550014346837997,
	"learning_rate": 9.76499286095689e-06,
	"loss": 0.4404,
	"step": 107
	},
	{
	"epoch": 0.216,
	"grad_norm": 0.09659305214881897,
	"learning_rate": 9.760161688604008e-06,
	"loss": 0.5841,
	"step": 108
	},
	{
	"epoch": 0.218,
	"grad_norm": 0.06201549619436264,
	"learning_rate": 9.755282581475769e-06,
	"loss": 0.2246,
	"step": 109
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.07813581079244614,
	"learning_rate": 9.750355588704728e-06,
	"loss": 0.4415,
	"step": 110
	},
	{
	"epoch": 0.222,
	"grad_norm": 0.10021974891424179,
	"learning_rate": 9.745380759905648e-06,
	"loss": 0.3042,
	"step": 111
	},
	{
	"epoch": 0.224,
	"grad_norm": 0.10321412235498428,
	"learning_rate": 9.740358145174999e-06,
	"loss": 0.4837,
	"step": 112
	},
	{
	"epoch": 0.226,
	"grad_norm": 0.11536537110805511,
	"learning_rate": 9.735287795090455e-06,
	"loss": 0.5586,
	"step": 113
	},
	{
	"epoch": 0.228,
	"grad_norm": 0.07521039247512817,
	"learning_rate": 9.730169760710385e-06,
	"loss": 0.361,
	"step": 114
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.07128458470106125,
	"learning_rate": 9.725004093573343e-06,
	"loss": 0.3511,
	"step": 115
	},
	{
	"epoch": 0.232,
	"grad_norm": 0.08504608273506165,
	"learning_rate": 9.719790845697534e-06,
	"loss": 0.4472,
	"step": 116
	},
	{
	"epoch": 0.234,
	"grad_norm": 0.08541107177734375,
	"learning_rate": 9.71453006958031e-06,
	"loss": 0.3195,
	"step": 117
	},
	{
	"epoch": 0.236,
	"grad_norm": 0.085638627409935,
	"learning_rate": 9.709221818197626e-06,
	"loss": 0.4343,
	"step": 118
	},
	{
	"epoch": 0.238,
	"grad_norm": 0.06405656784772873,
	"learning_rate": 9.703866145003512e-06,
	"loss": 0.2905,
	"step": 119
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.12191811949014664,
	"learning_rate": 9.698463103929542e-06,
	"loss": 0.4092,
	"step": 120
	},
	{
	"epoch": 0.242,
	"grad_norm": 0.08051154762506485,
	"learning_rate": 9.69301274938428e-06,
	"loss": 0.3362,
	"step": 121
	},
	{
	"epoch": 0.244,
	"grad_norm": 0.09473302215337753,
	"learning_rate": 9.687515136252732e-06,
	"loss": 0.3941,
	"step": 122
	},
	{
	"epoch": 0.246,
	"grad_norm": 0.09992998838424683,
	"learning_rate": 9.681970319895804e-06,
	"loss": 0.4603,
	"step": 123
	},
	{
	"epoch": 0.248,
	"grad_norm": 0.08887780457735062,
	"learning_rate": 9.676378356149733e-06,
	"loss": 0.3082,
	"step": 124
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.08823645859956741,
	"learning_rate": 9.670739301325534e-06,
	"loss": 0.4301,
	"step": 125
	},
	{
	"epoch": 0.25,
	"eval_loss": 0.3706146478652954,
	"eval_runtime": 76.5201,
	"eval_samples_per_second": 7.214,
	"eval_steps_per_second": 0.902,
	"step": 125
	},
	{
	"epoch": 0.252,
	"grad_norm": 0.10688935965299606,
	"learning_rate": 9.665053212208426e-06,
	"loss": 0.3065,
	"step": 126
	},
	{
	"epoch": 0.254,
	"grad_norm": 0.09517981857061386,
	"learning_rate": 9.659320146057263e-06,
	"loss": 0.5437,
	"step": 127
	},
	{
	"epoch": 0.256,
	"grad_norm": 0.11310486495494843,
	"learning_rate": 9.653540160603956e-06,
	"loss": 0.6087,
	"step": 128
	},
	{
	"epoch": 0.258,
	"grad_norm": 0.08851969987154007,
	"learning_rate": 9.647713314052896e-06,
	"loss": 0.3598,
	"step": 129
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.09503145515918732,
	"learning_rate": 9.641839665080363e-06,
	"loss": 0.338,
	"step": 130
	},
	{
	"epoch": 0.262,
	"grad_norm": 0.09553948044776917,
	"learning_rate": 9.635919272833938e-06,
	"loss": 0.3801,
	"step": 131
	},
	{
	"epoch": 0.264,
	"grad_norm": 0.09811339527368546,
	"learning_rate": 9.629952196931902e-06,
	"loss": 0.3866,
	"step": 132
	},
	{
	"epoch": 0.266,
	"grad_norm": 0.0865439921617508,
	"learning_rate": 9.623938497462647e-06,
	"loss": 0.4466,
	"step": 133
	},
	{
	"epoch": 0.268,
	"grad_norm": 0.09298735857009888,
	"learning_rate": 9.617878234984056e-06,
	"loss": 0.4413,
	"step": 134
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.10931612551212311,
	"learning_rate": 9.611771470522908e-06,
	"loss": 0.3974,
	"step": 135
	},
	{
	"epoch": 0.272,
	"grad_norm": 0.08798681199550629,
	"learning_rate": 9.60561826557425e-06,
	"loss": 0.4052,
	"step": 136
	},
	{
	"epoch": 0.274,
	"grad_norm": 0.09892652928829193,
	"learning_rate": 9.599418682100793e-06,
	"loss": 0.4645,
	"step": 137
	},
	{
	"epoch": 0.276,
	"grad_norm": 0.10193604230880737,
	"learning_rate": 9.59317278253227e-06,
	"loss": 0.4064,
	"step": 138
	},
	{
	"epoch": 0.278,
	"grad_norm": 0.07900392264127731,
	"learning_rate": 9.586880629764817e-06,
	"loss": 0.3229,
	"step": 139
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.08284664154052734,
	"learning_rate": 9.580542287160348e-06,
	"loss": 0.3703,
	"step": 140
	},
	{
	"epoch": 0.282,
	"grad_norm": 0.08164459466934204,
	"learning_rate": 9.574157818545902e-06,
	"loss": 0.2879,
	"step": 141
	},
	{
	"epoch": 0.284,
	"grad_norm": 0.1115422248840332,
	"learning_rate": 9.567727288213005e-06,
	"loss": 0.4593,
	"step": 142
	},
	{
	"epoch": 0.286,
	"grad_norm": 0.09770838916301727,
	"learning_rate": 9.561250760917026e-06,
	"loss": 0.4133,
	"step": 143
	},
	{
	"epoch": 0.288,
	"grad_norm": 0.12189961224794388,
	"learning_rate": 9.554728301876525e-06,
	"loss": 0.5928,
	"step": 144
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.14093732833862305,
	"learning_rate": 9.548159976772593e-06,
	"loss": 0.415,
	"step": 145
	},
	{
	"epoch": 0.292,
	"grad_norm": 0.11479732394218445,
	"learning_rate": 9.541545851748186e-06,
	"loss": 0.3691,
	"step": 146
	},
	{
	"epoch": 0.294,
	"grad_norm": 0.09249378740787506,
	"learning_rate": 9.534885993407474e-06,
	"loss": 0.3394,
	"step": 147
	},
	{
	"epoch": 0.296,
	"grad_norm": 0.10194878280162811,
	"learning_rate": 9.528180468815155e-06,
	"loss": 0.3745,
	"step": 148
	},
	{
	"epoch": 0.298,
	"grad_norm": 0.09345925599336624,
	"learning_rate": 9.521429345495787e-06,
	"loss": 0.3934,
	"step": 149
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.09919178485870361,
	"learning_rate": 9.514632691433108e-06,
	"loss": 0.4053,
	"step": 150
	},
	{
	"epoch": 0.302,
	"grad_norm": 0.10807909071445465,
	"learning_rate": 9.507790575069347e-06,
	"loss": 0.4631,
	"step": 151
	},
	{
	"epoch": 0.304,
	"grad_norm": 0.10555636882781982,
	"learning_rate": 9.50090306530454e-06,
	"loss": 0.4952,
	"step": 152
	},
	{
	"epoch": 0.306,
	"grad_norm": 0.10507559776306152,
	"learning_rate": 9.493970231495836e-06,
	"loss": 0.294,
	"step": 153
	},
	{
	"epoch": 0.308,
	"grad_norm": 0.08718883246183395,
	"learning_rate": 9.486992143456792e-06,
	"loss": 0.3044,
	"step": 154
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.10039477050304413,
	"learning_rate": 9.47996887145668e-06,
	"loss": 0.3736,
	"step": 155
	},
	{
	"epoch": 0.312,
	"grad_norm": 0.09952064603567123,
	"learning_rate": 9.47290048621977e-06,
	"loss": 0.4359,
	"step": 156
	},
	{
	"epoch": 0.314,
	"grad_norm": 0.10663799196481705,
	"learning_rate": 9.46578705892462e-06,
	"loss": 0.3939,
	"step": 157
	},
	{
	"epoch": 0.316,
	"grad_norm": 0.10759017616510391,
	"learning_rate": 9.458628661203368e-06,
	"loss": 0.4575,
	"step": 158
	},
	{
	"epoch": 0.318,
	"grad_norm": 0.08924371749162674,
	"learning_rate": 9.451425365140997e-06,
	"loss": 0.3525,
	"step": 159
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.13670168817043304,
	"learning_rate": 9.444177243274619e-06,
	"loss": 0.5385,
	"step": 160
	},
	{
	"epoch": 0.322,
	"grad_norm": 0.10520858317613602,
	"learning_rate": 9.43688436859274e-06,
	"loss": 0.2964,
	"step": 161
	},
	{
	"epoch": 0.324,
	"grad_norm": 0.10608810931444168,
	"learning_rate": 9.429546814534528e-06,
	"loss": 0.4369,
	"step": 162
	},
	{
	"epoch": 0.326,
	"grad_norm": 0.08399061113595963,
	"learning_rate": 9.422164654989073e-06,
	"loss": 0.3246,
	"step": 163
	},
	{
	"epoch": 0.328,
	"grad_norm": 0.11295214295387268,
	"learning_rate": 9.414737964294636e-06,
	"loss": 0.4766,
	"step": 164
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.1255977749824524,
	"learning_rate": 9.40726681723791e-06,
	"loss": 0.5263,
	"step": 165
	},
	{
	"epoch": 0.332,
	"grad_norm": 0.0891086682677269,
	"learning_rate": 9.399751289053267e-06,
	"loss": 0.2796,
	"step": 166
	},
	{
	"epoch": 0.334,
	"grad_norm": 0.12856395542621613,
	"learning_rate": 9.392191455421989e-06,
	"loss": 0.4485,
	"step": 167
	},
	{
	"epoch": 0.336,
	"grad_norm": 0.1172974556684494,
	"learning_rate": 9.384587392471516e-06,
	"loss": 0.542,
	"step": 168
	},
	{
	"epoch": 0.338,
	"grad_norm": 0.08675208687782288,
	"learning_rate": 9.376939176774678e-06,
	"loss": 0.2899,
	"step": 169
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.11079028248786926,
	"learning_rate": 9.369246885348926e-06,
	"loss": 0.3732,
	"step": 170
	},
	{
	"epoch": 0.342,
	"grad_norm": 0.12667471170425415,
	"learning_rate": 9.361510595655545e-06,
	"loss": 0.54,
	"step": 171
	},
	{
	"epoch": 0.344,
	"grad_norm": 0.08692082017660141,
	"learning_rate": 9.353730385598887e-06,
	"loss": 0.3873,
	"step": 172
	},
	{
	"epoch": 0.346,
	"grad_norm": 0.1013069748878479,
	"learning_rate": 9.345906333525582e-06,
	"loss": 0.438,
	"step": 173
	},
	{
	"epoch": 0.348,
	"grad_norm": 0.09999188780784607,
	"learning_rate": 9.338038518223746e-06,
	"loss": 0.4467,
	"step": 174
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.11317498981952667,
	"learning_rate": 9.330127018922195e-06,
	"loss": 0.3912,
	"step": 175
	},
	{
	"epoch": 0.352,
	"grad_norm": 0.10574603080749512,
	"learning_rate": 9.322171915289635e-06,
	"loss": 0.3808,
	"step": 176
	},
	{
	"epoch": 0.354,
	"grad_norm": 0.1281527876853943,
	"learning_rate": 9.314173287433874e-06,
	"loss": 0.423,
	"step": 177
	},
	{
	"epoch": 0.356,
	"grad_norm": 0.12899580597877502,
	"learning_rate": 9.306131215901004e-06,
	"loss": 0.4509,
	"step": 178
	},
	{
	"epoch": 0.358,
	"grad_norm": 0.10952267050743103,
	"learning_rate": 9.298045781674595e-06,
	"loss": 0.3512,
	"step": 179
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.1423255354166031,
	"learning_rate": 9.289917066174887e-06,
	"loss": 0.3631,
	"step": 180
	},
	{
	"epoch": 0.362,
	"grad_norm": 0.13039131462574005,
	"learning_rate": 9.281745151257946e-06,
	"loss": 0.3762,
	"step": 181
	},
	{
	"epoch": 0.364,
	"grad_norm": 0.10448655486106873,
	"learning_rate": 9.273530119214868e-06,
	"loss": 0.3694,
	"step": 182
	},
	{
	"epoch": 0.366,
	"grad_norm": 0.0945306122303009,
	"learning_rate": 9.265272052770936e-06,
	"loss": 0.28,
	"step": 183
	},
	{
	"epoch": 0.368,
	"grad_norm": 0.10995735973119736,
	"learning_rate": 9.256971035084786e-06,
	"loss": 0.4849,
	"step": 184
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.11014600843191147,
	"learning_rate": 9.248627149747573e-06,
	"loss": 0.3213,
	"step": 185
	},
	{
	"epoch": 0.372,
	"grad_norm": 0.09283925592899323,
	"learning_rate": 9.24024048078213e-06,
	"loss": 0.4077,
	"step": 186
	},
	{
	"epoch": 0.374,
	"grad_norm": 0.14395715296268463,
	"learning_rate": 9.231811112642121e-06,
	"loss": 0.4869,
	"step": 187
	},
	{
	"epoch": 0.376,
	"grad_norm": 0.10785488784313202,
	"learning_rate": 9.223339130211194e-06,
	"loss": 0.4122,
	"step": 188
	},
	{
	"epoch": 0.378,
	"grad_norm": 0.09983161091804504,
	"learning_rate": 9.214824618802108e-06,
	"loss": 0.3027,
	"step": 189
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.10121427476406097,
	"learning_rate": 9.206267664155906e-06,
	"loss": 0.3055,
	"step": 190
	},
	{
	"epoch": 0.382,
	"grad_norm": 0.11393419653177261,
	"learning_rate": 9.197668352441025e-06,
	"loss": 0.3567,
	"step": 191
	},
	{
	"epoch": 0.384,
	"grad_norm": 0.132842019200325,
	"learning_rate": 9.189026770252437e-06,
	"loss": 0.3556,
	"step": 192
	},
	{
	"epoch": 0.386,
	"grad_norm": 0.1139449030160904,
	"learning_rate": 9.18034300461078e-06,
	"loss": 0.4298,
	"step": 193
	},
	{
	"epoch": 0.388,
	"grad_norm": 0.09980877488851547,
	"learning_rate": 9.171617142961477e-06,
	"loss": 0.3853,
	"step": 194
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.12531818449497223,
	"learning_rate": 9.162849273173857e-06,
	"loss": 0.4845,
	"step": 195
	},
	{
	"epoch": 0.392,
	"grad_norm": 0.11148197203874588,
	"learning_rate": 9.154039483540273e-06,
	"loss": 0.4091,
	"step": 196
	},
	{
	"epoch": 0.394,
	"grad_norm": 0.11962081491947174,
	"learning_rate": 9.145187862775208e-06,
	"loss": 0.371,
	"step": 197
	},
	{
	"epoch": 0.396,
	"grad_norm": 0.10789982974529266,
	"learning_rate": 9.136294500014387e-06,
	"loss": 0.4268,
	"step": 198
	},
	{
	"epoch": 0.398,
	"grad_norm": 0.15846121311187744,
	"learning_rate": 9.12735948481387e-06,
	"loss": 0.6264,
	"step": 199
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.1426246613264084,
	"learning_rate": 9.118382907149164e-06,
	"loss": 0.4769,
	"step": 200
	},
	{
	"epoch": 0.402,
	"grad_norm": 0.1069459393620491,
	"learning_rate": 9.109364857414306e-06,
	"loss": 0.3708,
	"step": 201
	},
	{
	"epoch": 0.404,
	"grad_norm": 0.10732389986515045,
	"learning_rate": 9.100305426420957e-06,
	"loss": 0.3962,
	"step": 202
	},
	{
	"epoch": 0.406,
	"grad_norm": 0.1436106562614441,
	"learning_rate": 9.091204705397485e-06,
	"loss": 0.4549,
	"step": 203
	},
	{
	"epoch": 0.408,
	"grad_norm": 0.10230587422847748,
	"learning_rate": 9.08206278598805e-06,
	"loss": 0.3926,
	"step": 204
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.11367027461528778,
	"learning_rate": 9.07287976025168e-06,
	"loss": 0.3378,
	"step": 205
	},
	{
	"epoch": 0.412,
	"grad_norm": 0.14832234382629395,
	"learning_rate": 9.06365572066134e-06,
	"loss": 0.4202,
	"step": 206
	},
	{
	"epoch": 0.414,
	"grad_norm": 0.10567332804203033,
	"learning_rate": 9.05439076010301e-06,
	"loss": 0.2904,
	"step": 207
	},
	{
	"epoch": 0.416,
	"grad_norm": 0.11918513476848602,
	"learning_rate": 9.045084971874738e-06,
	"loss": 0.2632,
	"step": 208
	},
	{
	"epoch": 0.418,
	"grad_norm": 0.13223537802696228,
	"learning_rate": 9.035738449685707e-06,
	"loss": 0.4208,
	"step": 209
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.12573251128196716,
	"learning_rate": 9.026351287655294e-06,
	"loss": 0.4609,
	"step": 210
	},
	{
	"epoch": 0.422,
	"grad_norm": 0.11943136155605316,
	"learning_rate": 9.016923580312114e-06,
	"loss": 0.3323,
	"step": 211
	},
	{
	"epoch": 0.424,
	"grad_norm": 0.13152974843978882,
	"learning_rate": 9.007455422593077e-06,
	"loss": 0.4258,
	"step": 212
	},
	{
	"epoch": 0.426,
	"grad_norm": 0.13339808583259583,
	"learning_rate": 8.997946909842426e-06,
	"loss": 0.5303,
	"step": 213
	},
	{
	"epoch": 0.428,
	"grad_norm": 0.11746034771203995,
	"learning_rate": 8.988398137810778e-06,
	"loss": 0.4109,
	"step": 214
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.11518029868602753,
	"learning_rate": 8.978809202654161e-06,
	"loss": 0.4154,
	"step": 215
	},
	{
	"epoch": 0.432,
	"grad_norm": 0.15307952463626862,
	"learning_rate": 8.969180200933048e-06,
	"loss": 0.4196,
	"step": 216
	},
	{
	"epoch": 0.434,
	"grad_norm": 0.11385340988636017,
	"learning_rate": 8.959511229611377e-06,
	"loss": 0.3713,
	"step": 217
	},
	{
	"epoch": 0.436,
	"grad_norm": 0.1380355805158615,
	"learning_rate": 8.949802386055582e-06,
	"loss": 0.3891,
	"step": 218
	},
	{
	"epoch": 0.438,
	"grad_norm": 0.09614066779613495,
	"learning_rate": 8.94005376803361e-06,
	"loss": 0.2527,
	"step": 219
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.12352288514375687,
	"learning_rate": 8.930265473713939e-06,
	"loss": 0.3737,
	"step": 220
	},
	{
	"epoch": 0.442,
	"grad_norm": 0.18210633099079132,
	"learning_rate": 8.92043760166458e-06,
	"loss": 0.3839,
	"step": 221
	},
	{
	"epoch": 0.444,
	"grad_norm": 0.1087498739361763,
	"learning_rate": 8.910570250852098e-06,
	"loss": 0.3141,
	"step": 222
	},
	{
	"epoch": 0.446,
	"grad_norm": 0.11985889822244644,
	"learning_rate": 8.900663520640605e-06,
	"loss": 0.4606,
	"step": 223
	},
	{
	"epoch": 0.448,
	"grad_norm": 0.146299347281456,
	"learning_rate": 8.890717510790763e-06,
	"loss": 0.4094,
	"step": 224
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.09788361191749573,
	"learning_rate": 8.880732321458785e-06,
	"loss": 0.2964,
	"step": 225
	},
	{
	"epoch": 0.452,
	"grad_norm": 0.09735774993896484,
	"learning_rate": 8.870708053195414e-06,
	"loss": 0.2646,
	"step": 226
	},
	{
	"epoch": 0.454,
	"grad_norm": 0.1293504238128662,
	"learning_rate": 8.860644806944917e-06,
	"loss": 0.2991,
	"step": 227
	},
	{
	"epoch": 0.456,
	"grad_norm": 0.13126921653747559,
	"learning_rate": 8.850542684044078e-06,
	"loss": 0.4474,
	"step": 228
	},
	{
	"epoch": 0.458,
	"grad_norm": 0.11488878726959229,
	"learning_rate": 8.84040178622116e-06,
	"loss": 0.3628,
	"step": 229
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.13861073553562164,
	"learning_rate": 8.83022221559489e-06,
	"loss": 0.4022,
	"step": 230
	},
	{
	"epoch": 0.462,
	"grad_norm": 0.16164664924144745,
	"learning_rate": 8.820004074673433e-06,
	"loss": 0.4217,
	"step": 231
	},
	{
	"epoch": 0.464,
	"grad_norm": 0.10550030320882797,
	"learning_rate": 8.809747466353356e-06,
	"loss": 0.2927,
	"step": 232
	},
	{
	"epoch": 0.466,
	"grad_norm": 0.1035122275352478,
	"learning_rate": 8.799452493918586e-06,
	"loss": 0.2453,
	"step": 233
	},
	{
	"epoch": 0.468,
	"grad_norm": 0.15530018508434296,
	"learning_rate": 8.789119261039385e-06,
	"loss": 0.3758,
	"step": 234
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.13951483368873596,
	"learning_rate": 8.778747871771293e-06,
	"loss": 0.4502,
	"step": 235
	},
	{
	"epoch": 0.472,
	"grad_norm": 0.13241475820541382,
	"learning_rate": 8.768338430554083e-06,
	"loss": 0.5012,
	"step": 236
	},
	{
	"epoch": 0.474,
	"grad_norm": 0.11370962113142014,
	"learning_rate": 8.757891042210713e-06,
	"loss": 0.2801,
	"step": 237
	},
	{
	"epoch": 0.476,
	"grad_norm": 0.1501305103302002,
	"learning_rate": 8.747405811946272e-06,
	"loss": 0.4888,
	"step": 238
	},
	{
	"epoch": 0.478,
	"grad_norm": 0.1636514514684677,
	"learning_rate": 8.736882845346906e-06,
	"loss": 0.518,
	"step": 239
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.11505798250436783,
	"learning_rate": 8.726322248378775e-06,
	"loss": 0.2627,
	"step": 240
	},
	{
	"epoch": 0.482,
	"grad_norm": 0.15717971324920654,
	"learning_rate": 8.715724127386971e-06,
	"loss": 0.3299,
	"step": 241
	},
	{
	"epoch": 0.484,
	"grad_norm": 0.13042742013931274,
	"learning_rate": 8.705088589094458e-06,
	"loss": 0.351,
	"step": 242
	},
	{
	"epoch": 0.486,
	"grad_norm": 0.1414385885000229,
	"learning_rate": 8.69441574060099e-06,
	"loss": 0.471,
	"step": 243
	},
	{
	"epoch": 0.488,
	"grad_norm": 0.10110446810722351,
	"learning_rate": 8.683705689382025e-06,
	"loss": 0.2369,
	"step": 244
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.1549258530139923,
	"learning_rate": 8.672958543287666e-06,
	"loss": 0.4333,
	"step": 245
	},
	{
	"epoch": 0.492,
	"grad_norm": 0.11834664642810822,
	"learning_rate": 8.662174410541556e-06,
	"loss": 0.3182,
	"step": 246
	},
	{
	"epoch": 0.494,
	"grad_norm": 0.1529727429151535,
	"learning_rate": 8.651353399739787e-06,
	"loss": 0.4963,
	"step": 247
	},
	{
	"epoch": 0.496,
	"grad_norm": 0.14854104816913605,
	"learning_rate": 8.640495619849821e-06,
	"loss": 0.4514,
	"step": 248
	},
	{
	"epoch": 0.498,
	"grad_norm": 0.12271202355623245,
	"learning_rate": 8.629601180209382e-06,
	"loss": 0.3694,
	"step": 249
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.11352905631065369,
	"learning_rate": 8.61867019052535e-06,
	"loss": 0.2978,
	"step": 250
	},
	{
	"epoch": 0.5,
	"eval_loss": 0.32808247208595276,
	"eval_runtime": 76.51,
	"eval_samples_per_second": 7.215,
	"eval_steps_per_second": 0.902,
	"step": 250
	},
	{
	"epoch": 0.502,
	"grad_norm": 0.1511523425579071,
	"learning_rate": 8.607702760872679e-06,
	"loss": 0.4037,
	"step": 251
	},
	{
	"epoch": 0.504,
	"grad_norm": 0.13344620168209076,
	"learning_rate": 8.596699001693257e-06,
	"loss": 0.2303,
	"step": 252
	},
	{
	"epoch": 0.506,
	"grad_norm": 0.12220989167690277,
	"learning_rate": 8.585659023794818e-06,
	"loss": 0.4347,
	"step": 253
	},
	{
	"epoch": 0.508,
	"grad_norm": 0.1094481498003006,
	"learning_rate": 8.574582938349818e-06,
	"loss": 0.3089,
	"step": 254
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.11940666288137436,
	"learning_rate": 8.563470856894316e-06,
	"loss": 0.2699,
	"step": 255
	},
	{
	"epoch": 0.512,
	"grad_norm": 0.139656201004982,
	"learning_rate": 8.552322891326846e-06,
	"loss": 0.2763,
	"step": 256
	},
	{
	"epoch": 0.514,
	"grad_norm": 0.11665194481611252,
	"learning_rate": 8.541139153907296e-06,
	"loss": 0.2695,
	"step": 257
	},
	{
	"epoch": 0.516,
	"grad_norm": 0.12714596092700958,
	"learning_rate": 8.529919757255783e-06,
	"loss": 0.2489,
	"step": 258
	},
	{
	"epoch": 0.518,
	"grad_norm": 0.12326015532016754,
	"learning_rate": 8.518664814351502e-06,
	"loss": 0.3067,
	"step": 259
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.13826797902584076,
	"learning_rate": 8.507374438531606e-06,
	"loss": 0.3119,
	"step": 260
	},
	{
	"epoch": 0.522,
	"grad_norm": 0.15031856298446655,
	"learning_rate": 8.496048743490053e-06,
	"loss": 0.3112,
	"step": 261
	},
	{
	"epoch": 0.524,
	"grad_norm": 0.14100715517997742,
	"learning_rate": 8.48468784327647e-06,
	"loss": 0.3878,
	"step": 262
	},
	{
	"epoch": 0.526,
	"grad_norm": 0.15813864767551422,
	"learning_rate": 8.473291852294986e-06,
	"loss": 0.3382,
	"step": 263
	},
	{
	"epoch": 0.528,
	"grad_norm": 0.15911728143692017,
	"learning_rate": 8.461860885303116e-06,
	"loss": 0.4177,
	"step": 264
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.15685637295246124,
	"learning_rate": 8.450395057410561e-06,
	"loss": 0.3557,
	"step": 265
	},
	{
	"epoch": 0.532,
	"grad_norm": 0.13905856013298035,
	"learning_rate": 8.438894484078086e-06,
	"loss": 0.3323,
	"step": 266
	},
	{
	"epoch": 0.534,
	"grad_norm": 0.13344989717006683,
	"learning_rate": 8.427359281116335e-06,
	"loss": 0.3475,
	"step": 267
	},
	{
	"epoch": 0.536,
	"grad_norm": 0.16016146540641785,
	"learning_rate": 8.415789564684673e-06,
	"loss": 0.3789,
	"step": 268
	},
	{
	"epoch": 0.538,
	"grad_norm": 0.11681054532527924,
	"learning_rate": 8.404185451290017e-06,
	"loss": 0.2061,
	"step": 269
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.14662593603134155,
	"learning_rate": 8.392547057785662e-06,
	"loss": 0.4173,
	"step": 270
	},
	{
	"epoch": 0.542,
	"grad_norm": 0.21970625221729279,
	"learning_rate": 8.380874501370098e-06,
	"loss": 0.5602,
	"step": 271
	},
	{
	"epoch": 0.544,
	"grad_norm": 0.11630596220493317,
	"learning_rate": 8.36916789958584e-06,
	"loss": 0.2674,
	"step": 272
	},
	{
	"epoch": 0.546,
	"grad_norm": 0.14212217926979065,
	"learning_rate": 8.357427370318239e-06,
	"loss": 0.2776,
	"step": 273
	},
	{
	"epoch": 0.548,
	"grad_norm": 0.14911417663097382,
	"learning_rate": 8.345653031794292e-06,
	"loss": 0.4463,
	"step": 274
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.142579585313797,
	"learning_rate": 8.33384500258146e-06,
	"loss": 0.4963,
	"step": 275
	},
	{
	"epoch": 0.552,
	"grad_norm": 0.14713557064533234,
	"learning_rate": 8.322003401586463e-06,
	"loss": 0.2642,
	"step": 276
	},
	{
	"epoch": 0.554,
	"grad_norm": 0.24756528437137604,
	"learning_rate": 8.310128348054093e-06,
	"loss": 0.5423,
	"step": 277
	},
	{
	"epoch": 0.556,
	"grad_norm": 0.13731062412261963,
	"learning_rate": 8.298219961566008e-06,
	"loss": 0.3333,
	"step": 278
	},
	{
	"epoch": 0.558,
	"grad_norm": 0.18075144290924072,
	"learning_rate": 8.286278362039527e-06,
	"loss": 0.3733,
	"step": 279
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.1650344282388687,
	"learning_rate": 8.274303669726427e-06,
	"loss": 0.383,
	"step": 280
	},
	{
	"epoch": 0.562,
	"grad_norm": 0.18053463101387024,
	"learning_rate": 8.262296005211722e-06,
	"loss": 0.4359,
	"step": 281
	},
	{
	"epoch": 0.564,
	"grad_norm": 0.16192179918289185,
	"learning_rate": 8.250255489412464e-06,
	"loss": 0.3839,
	"step": 282
	},
	{
	"epoch": 0.566,
	"grad_norm": 0.16045285761356354,
	"learning_rate": 8.238182243576512e-06,
	"loss": 0.4185,
	"step": 283
	},
	{
	"epoch": 0.568,
	"grad_norm": 0.14847232401371002,
	"learning_rate": 8.226076389281316e-06,
	"loss": 0.43,
	"step": 284
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.1868700236082077,
	"learning_rate": 8.213938048432697e-06,
	"loss": 0.3437,
	"step": 285
	},
	{
	"epoch": 0.572,
	"grad_norm": 0.1744498908519745,
	"learning_rate": 8.201767343263612e-06,
	"loss": 0.4926,
	"step": 286
	},
	{
	"epoch": 0.574,
	"grad_norm": 0.13156633079051971,
	"learning_rate": 8.189564396332927e-06,
	"loss": 0.4245,
	"step": 287
	},
	{
	"epoch": 0.576,
	"grad_norm": 0.17716287076473236,
	"learning_rate": 8.177329330524182e-06,
	"loss": 0.3134,
	"step": 288
	},
	{
	"epoch": 0.578,
	"grad_norm": 0.15387575328350067,
	"learning_rate": 8.165062269044353e-06,
	"loss": 0.3723,
	"step": 289
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.11926203221082687,
	"learning_rate": 8.152763335422612e-06,
	"loss": 0.251,
	"step": 290
	},
	{
	"epoch": 0.582,
	"grad_norm": 0.14692164957523346,
	"learning_rate": 8.140432653509089e-06,
	"loss": 0.3068,
	"step": 291
	},
	{
	"epoch": 0.584,
	"grad_norm": 0.12874449789524078,
	"learning_rate": 8.128070347473609e-06,
	"loss": 0.3449,
	"step": 292
	},
	{
	"epoch": 0.586,
	"grad_norm": 0.1284901350736618,
	"learning_rate": 8.115676541804456e-06,
	"loss": 0.2336,
	"step": 293
	},
	{
	"epoch": 0.588,
	"grad_norm": 0.18448615074157715,
	"learning_rate": 8.10325136130712e-06,
	"loss": 0.4497,
	"step": 294
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.18793466687202454,
	"learning_rate": 8.090794931103026e-06,
	"loss": 0.446,
	"step": 295
	},
	{
	"epoch": 0.592,
	"grad_norm": 0.11833447217941284,
	"learning_rate": 8.078307376628292e-06,
	"loss": 0.286,
	"step": 296
	},
	{
	"epoch": 0.594,
	"grad_norm": 0.14963407814502716,
	"learning_rate": 8.065788823632451e-06,
	"loss": 0.329,
	"step": 297
	},
	{
	"epoch": 0.596,
	"grad_norm": 0.1394645869731903,
	"learning_rate": 8.053239398177191e-06,
	"loss": 0.2671,
	"step": 298
	},
	{
	"epoch": 0.598,
	"grad_norm": 0.17401300370693207,
	"learning_rate": 8.04065922663509e-06,
	"loss": 0.5106,
	"step": 299
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.1559733897447586,
	"learning_rate": 8.028048435688333e-06,
	"loss": 0.259,
	"step": 300
	},
	{
	"epoch": 0.602,
	"grad_norm": 0.14853116869926453,
	"learning_rate": 8.015407152327448e-06,
	"loss": 0.4095,
	"step": 301
	},
	{
	"epoch": 0.604,
	"grad_norm": 0.13665775954723358,
	"learning_rate": 8.002735503850016e-06,
	"loss": 0.379,
	"step": 302
	},
	{
	"epoch": 0.606,
	"grad_norm": 0.15187975764274597,
	"learning_rate": 7.990033617859396e-06,
	"loss": 0.336,
	"step": 303
	},
	{
	"epoch": 0.608,
	"grad_norm": 0.17993216216564178,
	"learning_rate": 7.97730162226344e-06,
	"loss": 0.4718,
	"step": 304
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.14840970933437347,
	"learning_rate": 7.964539645273204e-06,
	"loss": 0.3572,
	"step": 305
	},
	{
	"epoch": 0.612,
	"grad_norm": 0.2386975884437561,
	"learning_rate": 7.951747815401651e-06,
	"loss": 0.3185,
	"step": 306
	},
	{
	"epoch": 0.614,
	"grad_norm": 0.21291233599185944,
	"learning_rate": 7.938926261462366e-06,
	"loss": 0.362,
	"step": 307
	},
	{
	"epoch": 0.616,
	"grad_norm": 0.16196957230567932,
	"learning_rate": 7.92607511256826e-06,
	"loss": 0.3024,
	"step": 308
	},
	{
	"epoch": 0.618,
	"grad_norm": 0.2727487087249756,
	"learning_rate": 7.913194498130252e-06,
	"loss": 0.5212,
	"step": 309
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.1640804558992386,
	"learning_rate": 7.900284547855992e-06,
	"loss": 0.3948,
	"step": 310
	},
	{
	"epoch": 0.622,
	"grad_norm": 0.22003543376922607,
	"learning_rate": 7.887345391748533e-06,
	"loss": 0.3745,
	"step": 311
	},
	{
	"epoch": 0.624,
	"grad_norm": 0.1896262764930725,
	"learning_rate": 7.874377160105037e-06,
	"loss": 0.4448,
	"step": 312
	},
	{
	"epoch": 0.626,
	"grad_norm": 0.18609432876110077,
	"learning_rate": 7.861379983515449e-06,
	"loss": 0.3685,
	"step": 313
	},
	{
	"epoch": 0.628,
	"grad_norm": 0.14590106904506683,
	"learning_rate": 7.848353992861195e-06,
	"loss": 0.3338,
	"step": 314
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.13211271166801453,
	"learning_rate": 7.835299319313854e-06,
	"loss": 0.3297,
	"step": 315
	},
	{
	"epoch": 0.632,
	"grad_norm": 0.16736850142478943,
	"learning_rate": 7.822216094333847e-06,
	"loss": 0.3118,
	"step": 316
	},
	{
	"epoch": 0.634,
	"grad_norm": 0.17553502321243286,
	"learning_rate": 7.8091044496691e-06,
	"loss": 0.3447,
	"step": 317
	},
	{
	"epoch": 0.636,
	"grad_norm": 0.17292480170726776,
	"learning_rate": 7.795964517353734e-06,
	"loss": 0.3152,
	"step": 318
	},
	{
	"epoch": 0.638,
	"grad_norm": 0.13962873816490173,
	"learning_rate": 7.782796429706721e-06,
	"loss": 0.2142,
	"step": 319
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.19501662254333496,
	"learning_rate": 7.769600319330553e-06,
	"loss": 0.3923,
	"step": 320
	},
	{
	"epoch": 0.642,
	"grad_norm": 0.1338018923997879,
	"learning_rate": 7.756376319109917e-06,
	"loss": 0.3381,
	"step": 321
	},
	{
	"epoch": 0.644,
	"grad_norm": 0.1579694300889969,
	"learning_rate": 7.743124562210351e-06,
	"loss": 0.37,
	"step": 322
	},
	{
	"epoch": 0.646,
	"grad_norm": 0.12136895209550858,
	"learning_rate": 7.729845182076896e-06,
	"loss": 0.212,
	"step": 323
	},
	{
	"epoch": 0.648,
	"grad_norm": 0.2188921570777893,
	"learning_rate": 7.716538312432767e-06,
	"loss": 0.3732,
	"step": 324
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.1570715606212616,
	"learning_rate": 7.703204087277989e-06,
	"loss": 0.321,
	"step": 325
	},
	{
	"epoch": 0.652,
	"grad_norm": 0.19729937613010406,
	"learning_rate": 7.689842640888063e-06,
	"loss": 0.3955,
	"step": 326
	},
	{
	"epoch": 0.654,
	"grad_norm": 0.20023679733276367,
	"learning_rate": 7.676454107812608e-06,
	"loss": 0.4399,
	"step": 327
	},
	{
	"epoch": 0.656,
	"grad_norm": 0.14793503284454346,
	"learning_rate": 7.663038622873999e-06,
	"loss": 0.2922,
	"step": 328
	},
	{
	"epoch": 0.658,
	"grad_norm": 0.16386426985263824,
	"learning_rate": 7.649596321166024e-06,
	"loss": 0.3495,
	"step": 329
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.15845847129821777,
	"learning_rate": 7.636127338052513e-06,
	"loss": 0.3607,
	"step": 330
	},
	{
	"epoch": 0.662,
	"grad_norm": 0.17752616107463837,
	"learning_rate": 7.622631809165972e-06,
	"loss": 0.2863,
	"step": 331
	},
	{
	"epoch": 0.664,
	"grad_norm": 0.2213558405637741,
	"learning_rate": 7.60910987040623e-06,
	"loss": 0.4411,
	"step": 332
	},
	{
	"epoch": 0.666,
	"grad_norm": 0.2018650323152542,
	"learning_rate": 7.595561657939061e-06,
	"loss": 0.418,
	"step": 333
	},
	{
	"epoch": 0.668,
	"grad_norm": 0.20029357075691223,
	"learning_rate": 7.5819873081948105e-06,
	"loss": 0.3025,
	"step": 334
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.1478874832391739,
	"learning_rate": 7.568386957867033e-06,
	"loss": 0.2437,
	"step": 335
	},
	{
	"epoch": 0.672,
	"grad_norm": 0.18909971415996552,
	"learning_rate": 7.554760743911104e-06,
	"loss": 0.3974,
	"step": 336
	},
	{
	"epoch": 0.674,
	"grad_norm": 0.16544924676418304,
	"learning_rate": 7.541108803542846e-06,
	"loss": 0.336,
	"step": 337
	},
	{
	"epoch": 0.676,
	"grad_norm": 0.19204874336719513,
	"learning_rate": 7.527431274237149e-06,
	"loss": 0.3617,
	"step": 338
	},
	{
	"epoch": 0.678,
	"grad_norm": 0.1770397573709488,
	"learning_rate": 7.5137282937265796e-06,
	"loss": 0.3617,
	"step": 339
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.15880927443504333,
	"learning_rate": 7.500000000000001e-06,
	"loss": 0.2993,
	"step": 340
	},
	{
	"epoch": 0.682,
	"grad_norm": 0.4031960368156433,
	"learning_rate": 7.486246531301178e-06,
	"loss": 0.3137,
	"step": 341
	},
	{
	"epoch": 0.684,
	"grad_norm": 0.17426829040050507,
	"learning_rate": 7.472468026127385e-06,
	"loss": 0.3712,
	"step": 342
	},
	{
	"epoch": 0.686,
	"grad_norm": 0.16782499849796295,
	"learning_rate": 7.45866462322802e-06,
	"loss": 0.359,
	"step": 343
	},
	{
	"epoch": 0.688,
	"grad_norm": 0.20207028090953827,
	"learning_rate": 7.444836461603195e-06,
	"loss": 0.4301,
	"step": 344
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.18788397312164307,
	"learning_rate": 7.430983680502344e-06,
	"loss": 0.3609,
	"step": 345
	},
	{
	"epoch": 0.692,
	"grad_norm": 0.16447116434574127,
	"learning_rate": 7.4171064194228196e-06,
	"loss": 0.3514,
	"step": 346
	},
	{
	"epoch": 0.694,
	"grad_norm": 0.15939724445343018,
	"learning_rate": 7.403204818108487e-06,
	"loss": 0.2747,
	"step": 347
	},
	{
	"epoch": 0.696,
	"grad_norm": 0.2825759947299957,
	"learning_rate": 7.3892790165483164e-06,
	"loss": 0.5376,
	"step": 348
	},
	{
	"epoch": 0.698,
	"grad_norm": 0.15753747522830963,
	"learning_rate": 7.3753291549749764e-06,
	"loss": 0.2741,
	"step": 349
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.19103243947029114,
	"learning_rate": 7.361355373863415e-06,
	"loss": 0.3088,
	"step": 350
	},
	{
	"epoch": 0.702,
	"grad_norm": 0.18185654282569885,
	"learning_rate": 7.347357813929455e-06,
	"loss": 0.3204,
	"step": 351
	},
	{
	"epoch": 0.704,
	"grad_norm": 0.15075427293777466,
	"learning_rate": 7.333336616128369e-06,
	"loss": 0.2885,
	"step": 352
	},
	{
	"epoch": 0.706,
	"grad_norm": 0.14092062413692474,
	"learning_rate": 7.319291921653464e-06,
	"loss": 0.2423,
	"step": 353
	},
	{
	"epoch": 0.708,
	"grad_norm": 0.11944609135389328,
	"learning_rate": 7.305223871934657e-06,
	"loss": 0.1367,
	"step": 354
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.2248326539993286,
	"learning_rate": 7.291132608637053e-06,
	"loss": 0.4119,
	"step": 355
	},
	{
	"epoch": 0.712,
	"grad_norm": 0.1844269186258316,
	"learning_rate": 7.2770182736595164e-06,
	"loss": 0.2714,
	"step": 356
	},
	{
	"epoch": 0.714,
	"grad_norm": 0.19066232442855835,
	"learning_rate": 7.262881009133242e-06,
	"loss": 0.432,
	"step": 357
	},
	{
	"epoch": 0.716,
	"grad_norm": 0.21767167747020721,
	"learning_rate": 7.24872095742033e-06,
	"loss": 0.3804,
	"step": 358
	},
	{
	"epoch": 0.718,
	"grad_norm": 0.14823076128959656,
	"learning_rate": 7.234538261112342e-06,
	"loss": 0.3182,
	"step": 359
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.1661371886730194,
	"learning_rate": 7.2203330630288714e-06,
	"loss": 0.3078,
	"step": 360
	},
	{
	"epoch": 0.722,
	"grad_norm": 0.18412846326828003,
	"learning_rate": 7.206105506216107e-06,
	"loss": 0.4066,
	"step": 361
	},
	{
	"epoch": 0.724,
	"grad_norm": 0.17892518639564514,
	"learning_rate": 7.191855733945388e-06,
	"loss": 0.4772,
	"step": 362
	},
	{
	"epoch": 0.726,
	"grad_norm": 0.24270282685756683,
	"learning_rate": 7.177583889711763e-06,
	"loss": 0.3902,
	"step": 363
	},
	{
	"epoch": 0.728,
	"grad_norm": 0.187135249376297,
	"learning_rate": 7.163290117232542e-06,
	"loss": 0.3154,
	"step": 364
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.20502962172031403,
	"learning_rate": 7.148974560445859e-06,
	"loss": 0.3599,
	"step": 365
	},
	{
	"epoch": 0.732,
	"grad_norm": 0.1704569160938263,
	"learning_rate": 7.1346373635092095e-06,
	"loss": 0.3705,
	"step": 366
	},
	{
	"epoch": 0.734,
	"grad_norm": 0.20562830567359924,
	"learning_rate": 7.12027867079801e-06,
	"loss": 0.3169,
	"step": 367
	},
	{
	"epoch": 0.736,
	"grad_norm": 0.19051577150821686,
	"learning_rate": 7.105898626904134e-06,
	"loss": 0.4571,
	"step": 368
	},
	{
	"epoch": 0.738,
	"grad_norm": 0.18842366337776184,
	"learning_rate": 7.0914973766344645e-06,
	"loss": 0.2771,
	"step": 369
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.14864154160022736,
	"learning_rate": 7.0770750650094335e-06,
	"loss": 0.2184,
	"step": 370
	},
	{
	"epoch": 0.742,
	"grad_norm": 0.1662212610244751,
	"learning_rate": 7.062631837261556e-06,
	"loss": 0.2706,
	"step": 371
	},
	{
	"epoch": 0.744,
	"grad_norm": 0.15230734646320343,
	"learning_rate": 7.048167838833977e-06,
	"loss": 0.2611,
	"step": 372
	},
	{
	"epoch": 0.746,
	"grad_norm": 0.16176356375217438,
	"learning_rate": 7.033683215379002e-06,
	"loss": 0.3144,
	"step": 373
	},
	{
	"epoch": 0.748,
	"grad_norm": 0.16796669363975525,
	"learning_rate": 7.019178112756625e-06,
	"loss": 0.3742,
	"step": 374
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.16455894708633423,
	"learning_rate": 7.004652677033069e-06,
	"loss": 0.2426,
	"step": 375
	},
	{
	"epoch": 0.75,
	"eval_loss": 0.2979236841201782,
	"eval_runtime": 76.5795,
	"eval_samples_per_second": 7.208,
	"eval_steps_per_second": 0.901,
	"step": 375
	},
	{
	"epoch": 0.752,
	"grad_norm": 0.22792088985443115,
	"learning_rate": 6.990107054479313e-06,
	"loss": 0.319,
	"step": 376
	},
	{
	"epoch": 0.754,
	"grad_norm": 0.24258168041706085,
	"learning_rate": 6.9755413915696105e-06,
	"loss": 0.5036,
	"step": 377
	},
	{
	"epoch": 0.756,
	"grad_norm": 0.17646639049053192,
	"learning_rate": 6.960955834980028e-06,
	"loss": 0.3024,
	"step": 378
	},
	{
	"epoch": 0.758,
	"grad_norm": 0.15006083250045776,
	"learning_rate": 6.946350531586959e-06,
	"loss": 0.2702,
	"step": 379
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.15430916845798492,
	"learning_rate": 6.931725628465643e-06,
	"loss": 0.2492,
	"step": 380
	},
	{
	"epoch": 0.762,
	"grad_norm": 0.13274860382080078,
	"learning_rate": 6.917081272888697e-06,
	"loss": 0.2188,
	"step": 381
	},
	{
	"epoch": 0.764,
	"grad_norm": 0.12552917003631592,
	"learning_rate": 6.902417612324615e-06,
	"loss": 0.2275,
	"step": 382
	},
	{
	"epoch": 0.766,
	"grad_norm": 0.14306232333183289,
	"learning_rate": 6.887734794436301e-06,
	"loss": 0.3204,
	"step": 383
	},
	{
	"epoch": 0.768,
	"grad_norm": 0.18567156791687012,
	"learning_rate": 6.873032967079562e-06,
	"loss": 0.4079,
	"step": 384
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.18761208653450012,
	"learning_rate": 6.858312278301638e-06,
	"loss": 0.2944,
	"step": 385
	},
	{
	"epoch": 0.772,
	"grad_norm": 0.18265055119991302,
	"learning_rate": 6.8435728763397045e-06,
	"loss": 0.4399,
	"step": 386
	},
	{
	"epoch": 0.774,
	"grad_norm": 0.18840709328651428,
	"learning_rate": 6.828814909619374e-06,
	"loss": 0.4057,
	"step": 387
	},
	{
	"epoch": 0.776,
	"grad_norm": 0.19235002994537354,
	"learning_rate": 6.814038526753205e-06,
	"loss": 0.2826,
	"step": 388
	},
	{
	"epoch": 0.778,
	"grad_norm": 0.1880473792552948,
	"learning_rate": 6.799243876539213e-06,
	"loss": 0.3739,
	"step": 389
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.29550889134407043,
	"learning_rate": 6.78443110795936e-06,
	"loss": 0.3594,
	"step": 390
	},
	{
	"epoch": 0.782,
	"grad_norm": 0.19335615634918213,
	"learning_rate": 6.76960037017806e-06,
	"loss": 0.4026,
	"step": 391
	},
	{
	"epoch": 0.784,
	"grad_norm": 0.14000019431114197,
	"learning_rate": 6.75475181254068e-06,
	"loss": 0.2576,
	"step": 392
	},
	{
	"epoch": 0.786,
	"grad_norm": 0.15106743574142456,
	"learning_rate": 6.739885584572026e-06,
	"loss": 0.2538,
	"step": 393
	},
	{
	"epoch": 0.788,
	"grad_norm": 0.19910076260566711,
	"learning_rate": 6.725001835974854e-06,
	"loss": 0.2867,
	"step": 394
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.22941169142723083,
	"learning_rate": 6.710100716628345e-06,
	"loss": 0.3183,
	"step": 395
	},
	{
	"epoch": 0.792,
	"grad_norm": 0.1540730744600296,
	"learning_rate": 6.695182376586603e-06,
	"loss": 0.31,
	"step": 396
	},
	{
	"epoch": 0.794,
	"grad_norm": 0.18420648574829102,
	"learning_rate": 6.680246966077151e-06,
	"loss": 0.388,
	"step": 397
	},
	{
	"epoch": 0.796,
	"grad_norm": 0.14336371421813965,
	"learning_rate": 6.665294635499404e-06,
	"loss": 0.3359,
	"step": 398
	},
	{
	"epoch": 0.798,
	"grad_norm": 0.21092049777507782,
	"learning_rate": 6.650325535423166e-06,
	"loss": 0.2935,
	"step": 399
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.23870034515857697,
	"learning_rate": 6.635339816587109e-06,
	"loss": 0.3413,
	"step": 400
	},
	{
	"epoch": 0.802,
	"grad_norm": 0.21548299491405487,
	"learning_rate": 6.6203376298972535e-06,
	"loss": 0.4255,
	"step": 401
	},
	{
	"epoch": 0.804,
	"grad_norm": 0.21555306017398834,
	"learning_rate": 6.605319126425455e-06,
	"loss": 0.4044,
	"step": 402
	},
	{
	"epoch": 0.806,
	"grad_norm": 0.212354838848114,
	"learning_rate": 6.590284457407876e-06,
	"loss": 0.3225,
	"step": 403
	},
	{
	"epoch": 0.808,
	"grad_norm": 0.17822064459323883,
	"learning_rate": 6.5752337742434644e-06,
	"loss": 0.3449,
	"step": 404
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.15272925794124603,
	"learning_rate": 6.560167228492436e-06,
	"loss": 0.2732,
	"step": 405
	},
	{
	"epoch": 0.812,
	"grad_norm": 0.18225990235805511,
	"learning_rate": 6.545084971874738e-06,
	"loss": 0.3326,
	"step": 406
	},
	{
	"epoch": 0.814,
	"grad_norm": 0.1854051798582077,
	"learning_rate": 6.529987156268527e-06,
	"loss": 0.3603,
	"step": 407
	},
	{
	"epoch": 0.816,
	"grad_norm": 0.17678527534008026,
	"learning_rate": 6.514873933708637e-06,
	"loss": 0.2996,
	"step": 408
	},
	{
	"epoch": 0.818,
	"grad_norm": 0.35500454902648926,
	"learning_rate": 6.499745456385054e-06,
	"loss": 0.4185,
	"step": 409
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.18555931746959686,
	"learning_rate": 6.484601876641375e-06,
	"loss": 0.2208,
	"step": 410
	},
	{
	"epoch": 0.822,
	"grad_norm": 0.16834326088428497,
	"learning_rate": 6.469443346973281e-06,
	"loss": 0.3684,
	"step": 411
	},
	{
	"epoch": 0.824,
	"grad_norm": 0.1469370424747467,
	"learning_rate": 6.454270020026996e-06,
	"loss": 0.2526,
	"step": 412
	},
	{
	"epoch": 0.826,
	"grad_norm": 0.19754226505756378,
	"learning_rate": 6.439082048597755e-06,
	"loss": 0.3341,
	"step": 413
	},
	{
	"epoch": 0.828,
	"grad_norm": 0.15154729783535004,
	"learning_rate": 6.423879585628262e-06,
	"loss": 0.2402,
	"step": 414
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.20265011489391327,
	"learning_rate": 6.408662784207149e-06,
	"loss": 0.374,
	"step": 415
	},
	{
	"epoch": 0.832,
	"grad_norm": 0.2674030065536499,
	"learning_rate": 6.39343179756744e-06,
	"loss": 0.3057,
	"step": 416
	},
	{
	"epoch": 0.834,
	"grad_norm": 0.1473691463470459,
	"learning_rate": 6.378186779084996e-06,
	"loss": 0.3684,
	"step": 417
	},
	{
	"epoch": 0.836,
	"grad_norm": 0.2826951742172241,
	"learning_rate": 6.362927882276991e-06,
	"loss": 0.2585,
	"step": 418
	},
	{
	"epoch": 0.838,
	"grad_norm": 0.20093302428722382,
	"learning_rate": 6.34765526080034e-06,
	"loss": 0.3041,
	"step": 419
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.1346312314271927,
	"learning_rate": 6.332369068450175e-06,
	"loss": 0.2105,
	"step": 420
	},
	{
	"epoch": 0.842,
	"grad_norm": 0.16400040686130524,
	"learning_rate": 6.317069459158284e-06,
	"loss": 0.2832,
	"step": 421
	},
	{
	"epoch": 0.844,
	"grad_norm": 0.19443334639072418,
	"learning_rate": 6.301756586991561e-06,
	"loss": 0.3353,
	"step": 422
	},
	{
	"epoch": 0.846,
	"grad_norm": 0.22223643958568573,
	"learning_rate": 6.286430606150458e-06,
	"loss": 0.384,
	"step": 423
	},
	{
	"epoch": 0.848,
	"grad_norm": 0.16762332618236542,
	"learning_rate": 6.271091670967437e-06,
	"loss": 0.3826,
	"step": 424
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.26455458998680115,
	"learning_rate": 6.255739935905396e-06,
	"loss": 0.4419,
	"step": 425
	},
	{
	"epoch": 0.852,
	"grad_norm": 0.1570374071598053,
	"learning_rate": 6.240375555556145e-06,
	"loss": 0.2199,
	"step": 426
	},
	{
	"epoch": 0.854,
	"grad_norm": 0.16800148785114288,
	"learning_rate": 6.22499868463882e-06,
	"loss": 0.2561,
	"step": 427
	},
	{
	"epoch": 0.856,
	"grad_norm": 0.17082828283309937,
	"learning_rate": 6.209609477998339e-06,
	"loss": 0.3317,
	"step": 428
	},
	{
	"epoch": 0.858,
	"grad_norm": 0.26214951276779175,
	"learning_rate": 6.194208090603845e-06,
	"loss": 0.4105,
	"step": 429
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.17318500578403473,
	"learning_rate": 6.178794677547138e-06,
	"loss": 0.2216,
	"step": 430
	},
	{
	"epoch": 0.862,
	"grad_norm": 0.18394838273525238,
	"learning_rate": 6.163369394041112e-06,
	"loss": 0.3251,
	"step": 431
	},
	{
	"epoch": 0.864,
	"grad_norm": 0.2352125197649002,
	"learning_rate": 6.1479323954182055e-06,
	"loss": 0.349,
	"step": 432
	},
	{
	"epoch": 0.866,
	"grad_norm": 0.18627074360847473,
	"learning_rate": 6.132483837128823e-06,
	"loss": 0.3048,
	"step": 433
	},
	{
	"epoch": 0.868,
	"grad_norm": 0.2253945916891098,
	"learning_rate": 6.1170238747397715e-06,
	"loss": 0.3081,
	"step": 434
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.1479015201330185,
	"learning_rate": 6.101552663932704e-06,
	"loss": 0.192,
	"step": 435
	},
	{
	"epoch": 0.872,
	"grad_norm": 0.1954430192708969,
	"learning_rate": 6.08607036050254e-06,
	"loss": 0.2251,
	"step": 436
	},
	{
	"epoch": 0.874,
	"grad_norm": 0.16169880330562592,
	"learning_rate": 6.070577120355903e-06,
	"loss": 0.2765,
	"step": 437
	},
	{
	"epoch": 0.876,
	"grad_norm": 0.19537843763828278,
	"learning_rate": 6.055073099509549e-06,
	"loss": 0.2724,
	"step": 438
	},
	{
	"epoch": 0.878,
	"grad_norm": 0.1675713211297989,
	"learning_rate": 6.039558454088796e-06,
	"loss": 0.3164,
	"step": 439
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.27977389097213745,
	"learning_rate": 6.024033340325954e-06,
	"loss": 0.4432,
	"step": 440
	},
	{
	"epoch": 0.882,
	"grad_norm": 0.1879289448261261,
	"learning_rate": 6.0084979145587444e-06,
	"loss": 0.3558,
	"step": 441
	},
	{
	"epoch": 0.884,
	"grad_norm": 0.16285355389118195,
	"learning_rate": 5.9929523332287275e-06,
	"loss": 0.3014,
	"step": 442
	},
	{
	"epoch": 0.886,
	"grad_norm": 0.2135494202375412,
	"learning_rate": 5.977396752879742e-06,
	"loss": 0.3124,
	"step": 443
	},
	{
	"epoch": 0.888,
	"grad_norm": 0.21992646157741547,
	"learning_rate": 5.961831330156306e-06,
	"loss": 0.3152,
	"step": 444
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.34824761748313904,
	"learning_rate": 5.946256221802052e-06,
	"loss": 0.4022,
	"step": 445
	},
	{
	"epoch": 0.892,
	"grad_norm": 0.3176579177379608,
	"learning_rate": 5.930671584658151e-06,
	"loss": 0.3373,
	"step": 446
	},
	{
	"epoch": 0.894,
	"grad_norm": 0.13881681859493256,
	"learning_rate": 5.915077575661723e-06,
	"loss": 0.2732,
	"step": 447
	},
	{
	"epoch": 0.896,
	"grad_norm": 0.23585429787635803,
	"learning_rate": 5.89947435184427e-06,
	"loss": 0.383,
	"step": 448
	},
	{
	"epoch": 0.898,
	"grad_norm": 0.20338225364685059,
	"learning_rate": 5.883862070330079e-06,
	"loss": 0.3929,
	"step": 449
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.5738399028778076,
	"learning_rate": 5.8682408883346535e-06,
	"loss": 0.3834,
	"step": 450
	},
	{
	"epoch": 0.902,
	"grad_norm": 0.16114148497581482,
	"learning_rate": 5.85261096316312e-06,
	"loss": 0.2351,
	"step": 451
	},
	{
	"epoch": 0.904,
	"grad_norm": 0.16090261936187744,
	"learning_rate": 5.8369724522086545e-06,
	"loss": 0.2264,
	"step": 452
	},
	{
	"epoch": 0.906,
	"grad_norm": 0.1992426961660385,
	"learning_rate": 5.821325512950886e-06,
	"loss": 0.3239,
	"step": 453
	},
	{
	"epoch": 0.908,
	"grad_norm": 0.1780838966369629,
	"learning_rate": 5.805670302954322e-06,
	"loss": 0.2997,
	"step": 454
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.24148645997047424,
	"learning_rate": 5.79000697986675e-06,
	"loss": 0.3701,
	"step": 455
	},
	{
	"epoch": 0.912,
	"grad_norm": 0.1544380933046341,
	"learning_rate": 5.774335701417662e-06,
	"loss": 0.1843,
	"step": 456
	},
	{
	"epoch": 0.914,
	"grad_norm": 0.20772896707057953,
	"learning_rate": 5.758656625416659e-06,
	"loss": 0.3617,
	"step": 457
	},
	{
	"epoch": 0.916,
	"grad_norm": 0.2054608017206192,
	"learning_rate": 5.7429699097518585e-06,
	"loss": 0.3286,
	"step": 458
	},
	{
	"epoch": 0.918,
	"grad_norm": 0.1513553261756897,
	"learning_rate": 5.727275712388318e-06,
	"loss": 0.2149,
	"step": 459
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.20221109688282013,
	"learning_rate": 5.711574191366427e-06,
	"loss": 0.2895,
	"step": 460
	},
	{
	"epoch": 0.922,
	"grad_norm": 0.26075002551078796,
	"learning_rate": 5.695865504800328e-06,
	"loss": 0.3115,
	"step": 461
	},
	{
	"epoch": 0.924,
	"grad_norm": 0.2223353236913681,
	"learning_rate": 5.680149810876322e-06,
	"loss": 0.3065,
	"step": 462
	},
	{
	"epoch": 0.926,
	"grad_norm": 0.18663600087165833,
	"learning_rate": 5.664427267851271e-06,
	"loss": 0.2444,
	"step": 463
	},
	{
	"epoch": 0.928,
	"grad_norm": 0.19538210332393646,
	"learning_rate": 5.648698034051009e-06,
	"loss": 0.3877,
	"step": 464
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.1691403090953827,
	"learning_rate": 5.632962267868747e-06,
	"loss": 0.2445,
	"step": 465
	},
	{
	"epoch": 0.932,
	"grad_norm": 0.1581772416830063,
	"learning_rate": 5.617220127763474e-06,
	"loss": 0.3217,
	"step": 466
	},
	{
	"epoch": 0.934,
	"grad_norm": 0.20001822710037231,
	"learning_rate": 5.601471772258368e-06,
	"loss": 0.3184,
	"step": 467
	},
	{
	"epoch": 0.936,
	"grad_norm": 0.3052047789096832,
	"learning_rate": 5.585717359939192e-06,
	"loss": 0.3479,
	"step": 468
	},
	{
	"epoch": 0.938,
	"grad_norm": 0.23681974411010742,
	"learning_rate": 5.569957049452703e-06,
	"loss": 0.3403,
	"step": 469
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.12364782392978668,
	"learning_rate": 5.5541909995050554e-06,
	"loss": 0.2085,
	"step": 470
	},
	{
	"epoch": 0.942,
	"grad_norm": 0.1526976227760315,
	"learning_rate": 5.538419368860196e-06,
	"loss": 0.2281,
	"step": 471
	},
	{
	"epoch": 0.944,
	"grad_norm": 0.2230585813522339,
	"learning_rate": 5.522642316338268e-06,
	"loss": 0.3351,
	"step": 472
	},
	{
	"epoch": 0.946,
	"grad_norm": 0.17690080404281616,
	"learning_rate": 5.506860000814017e-06,
	"loss": 0.2985,
	"step": 473
	},
	{
	"epoch": 0.948,
	"grad_norm": 0.1738656908273697,
	"learning_rate": 5.491072581215186e-06,
	"loss": 0.247,
	"step": 474
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.18501204252243042,
	"learning_rate": 5.475280216520913e-06,
	"loss": 0.2646,
	"step": 475
	},
	{
	"epoch": 0.952,
	"grad_norm": 0.19721092283725739,
	"learning_rate": 5.459483065760138e-06,
	"loss": 0.2876,
	"step": 476
	},
	{
	"epoch": 0.954,
	"grad_norm": 0.16680027544498444,
	"learning_rate": 5.443681288009991e-06,
	"loss": 0.2167,
	"step": 477
	},
	{
	"epoch": 0.956,
	"grad_norm": 0.17918136715888977,
	"learning_rate": 5.4278750423942e-06,
	"loss": 0.3997,
	"step": 478
	},
	{
	"epoch": 0.958,
	"grad_norm": 0.15725551545619965,
	"learning_rate": 5.412064488081482e-06,
	"loss": 0.2829,
	"step": 479
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.19459596276283264,
	"learning_rate": 5.396249784283943e-06,
	"loss": 0.3373,
	"step": 480
	},
	{
	"epoch": 0.962,
	"grad_norm": 0.32756415009498596,
	"learning_rate": 5.380431090255475e-06,
	"loss": 0.4206,
	"step": 481
	},
	{
	"epoch": 0.964,
	"grad_norm": 0.19843968749046326,
	"learning_rate": 5.364608565290154e-06,
	"loss": 0.3385,
	"step": 482
	},
	{
	"epoch": 0.966,
	"grad_norm": 0.15863648056983948,
	"learning_rate": 5.348782368720627e-06,
	"loss": 0.2524,
	"step": 483
	},
	{
	"epoch": 0.968,
	"grad_norm": 0.21220897138118744,
	"learning_rate": 5.33295265991652e-06,
	"loss": 0.2326,
	"step": 484
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.24547149240970612,
	"learning_rate": 5.317119598282823e-06,
	"loss": 0.3854,
	"step": 485
	},
	{
	"epoch": 0.972,
	"grad_norm": 0.2009747326374054,
	"learning_rate": 5.301283343258293e-06,
	"loss": 0.3141,
	"step": 486
	},
	{
	"epoch": 0.974,
	"grad_norm": 0.22629286348819733,
	"learning_rate": 5.285444054313841e-06,
	"loss": 0.3044,
	"step": 487
	},
	{
	"epoch": 0.976,
	"grad_norm": 0.18528909981250763,
	"learning_rate": 5.26960189095093e-06,
	"loss": 0.3056,
	"step": 488
	},
	{
	"epoch": 0.978,
	"grad_norm": 0.18446871638298035,
	"learning_rate": 5.253757012699972e-06,
	"loss": 0.3206,
	"step": 489
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.1961178332567215,
	"learning_rate": 5.237909579118713e-06,
	"loss": 0.386,
	"step": 490
	},
	{
	"epoch": 0.982,
	"grad_norm": 0.20445547997951508,
	"learning_rate": 5.2220597497906315e-06,
	"loss": 0.3997,
	"step": 491
	},
	{
	"epoch": 0.984,
	"grad_norm": 0.17709751427173615,
	"learning_rate": 5.206207684323337e-06,
	"loss": 0.3212,
	"step": 492
	},
	{
	"epoch": 0.986,
	"grad_norm": 0.15768595039844513,
	"learning_rate": 5.190353542346951e-06,
	"loss": 0.2752,
	"step": 493
	},
	{
	"epoch": 0.988,
	"grad_norm": 0.14925841987133026,
	"learning_rate": 5.174497483512506e-06,
	"loss": 0.2593,
	"step": 494
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.2051381766796112,
	"learning_rate": 5.15863966749034e-06,
	"loss": 0.3941,
	"step": 495
	},
	{
	"epoch": 0.992,
	"grad_norm": 0.2395932674407959,
	"learning_rate": 5.142780253968481e-06,
	"loss": 0.3136,
	"step": 496
	},
	{
	"epoch": 0.994,
	"grad_norm": 0.2152215540409088,
	"learning_rate": 5.126919402651053e-06,
	"loss": 0.3083,
	"step": 497
	},
	{
	"epoch": 0.996,
	"grad_norm": 0.17021948099136353,
	"learning_rate": 5.111057273256648e-06,
	"loss": 0.3185,
	"step": 498
	},
	{
	"epoch": 0.998,
	"grad_norm": 0.22681966423988342,
	"learning_rate": 5.095194025516733e-06,
	"loss": 0.4107,
	"step": 499
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.22234933078289032,
	"learning_rate": 5.07932981917404e-06,
	"loss": 0.3672,
	"step": 500
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.27911150455474854,
	"eval_runtime": 76.7158,
	"eval_samples_per_second": 7.195,
	"eval_steps_per_second": 0.899,
	"step": 500
	},
	{
	"epoch": 1.002,
	"grad_norm": 0.18890836834907532,
	"learning_rate": 5.063464813980948e-06,
	"loss": 0.2277,
	"step": 501
	},
	{
	"epoch": 1.004,
	"grad_norm": 0.19094686210155487,
	"learning_rate": 5.0475991696978844e-06,
	"loss": 0.3602,
	"step": 502
	},
	{
	"epoch": 1.006,
	"grad_norm": 0.24123992025852203,
	"learning_rate": 5.03173304609171e-06,
	"loss": 0.2796,
	"step": 503
	},
	{
	"epoch": 1.008,
	"grad_norm": 0.2091682106256485,
	"learning_rate": 5.015866602934112e-06,
	"loss": 0.333,
	"step": 504
	},
	{
	"epoch": 1.01,
	"grad_norm": 0.21148917078971863,
	"learning_rate": 5e-06,
	"loss": 0.4005,
	"step": 505
	},
	{
	"epoch": 1.012,
	"grad_norm": 0.14547854661941528,
	"learning_rate": 4.984133397065889e-06,
	"loss": 0.2223,
	"step": 506
	},
	{
	"epoch": 1.014,
	"grad_norm": 0.23349957168102264,
	"learning_rate": 4.9682669539082914e-06,
	"loss": 0.3264,
	"step": 507
	},
	{
	"epoch": 1.016,
	"grad_norm": 0.16822971403598785,
	"learning_rate": 4.952400830302117e-06,
	"loss": 0.3151,
	"step": 508
	},
	{
	"epoch": 1.018,
	"grad_norm": 0.1795063018798828,
	"learning_rate": 4.936535186019053e-06,
	"loss": 0.2896,
	"step": 509
	},
	{
	"epoch": 1.02,
	"grad_norm": 0.19863282144069672,
	"learning_rate": 4.9206701808259605e-06,
	"loss": 0.2481,
	"step": 510
	},
	{
	"epoch": 1.022,
	"grad_norm": 0.18788766860961914,
	"learning_rate": 4.904805974483267e-06,
	"loss": 0.3513,
	"step": 511
	},
	{
	"epoch": 1.024,
	"grad_norm": 0.1949293315410614,
	"learning_rate": 4.888942726743353e-06,
	"loss": 0.2264,
	"step": 512
	},
	{
	"epoch": 1.002,
	"grad_norm": 0.16474653780460358,
	"learning_rate": 4.873080597348948e-06,
	"loss": 0.2793,
	"step": 513
	},
	{
	"epoch": 1.004,
	"grad_norm": 0.20230461657047272,
	"learning_rate": 4.85721974603152e-06,
	"loss": 0.3618,
	"step": 514
	},
	{
	"epoch": 1.006,
	"grad_norm": 0.16907107830047607,
	"learning_rate": 4.841360332509663e-06,
	"loss": 0.2708,
	"step": 515
	},
	{
	"epoch": 1.008,
	"grad_norm": 0.22199520468711853,
	"learning_rate": 4.825502516487497e-06,
	"loss": 0.3405,
	"step": 516
	},
	{
	"epoch": 1.01,
	"grad_norm": 0.17370116710662842,
	"learning_rate": 4.809646457653051e-06,
	"loss": 0.2715,
	"step": 517
	},
	{
	"epoch": 1.012,
	"grad_norm": 0.21842899918556213,
	"learning_rate": 4.793792315676665e-06,
	"loss": 0.1802,
	"step": 518
	},
	{
	"epoch": 1.014,
	"grad_norm": 0.1792248785495758,
	"learning_rate": 4.777940250209369e-06,
	"loss": 0.1912,
	"step": 519
	},
	{
	"epoch": 1.016,
	"grad_norm": 0.24431253969669342,
	"learning_rate": 4.762090420881289e-06,
	"loss": 0.3494,
	"step": 520
	},
	{
	"epoch": 1.018,
	"grad_norm": 0.1893794983625412,
	"learning_rate": 4.74624298730003e-06,
	"loss": 0.246,
	"step": 521
	},
	{
	"epoch": 1.02,
	"grad_norm": 0.29100745916366577,
	"learning_rate": 4.7303981090490715e-06,
	"loss": 0.4553,
	"step": 522
	},
	{
	"epoch": 1.022,
	"grad_norm": 0.21313871443271637,
	"learning_rate": 4.71455594568616e-06,
	"loss": 0.3414,
	"step": 523
	},
	{
	"epoch": 1.024,
	"grad_norm": 0.257988840341568,
	"learning_rate": 4.6987166567417085e-06,
	"loss": 0.3223,
	"step": 524
	},
	{
	"epoch": 1.026,
	"grad_norm": 0.1500207781791687,
	"learning_rate": 4.682880401717178e-06,
	"loss": 0.2883,
	"step": 525
	},
	{
	"epoch": 1.028,
	"grad_norm": 0.2195630818605423,
	"learning_rate": 4.667047340083481e-06,
	"loss": 0.4185,
	"step": 526
	},
	{
	"epoch": 1.03,
	"grad_norm": 0.24663732945919037,
	"learning_rate": 4.651217631279374e-06,
	"loss": 0.312,
	"step": 527
	},
	{
	"epoch": 1.032,
	"grad_norm": 0.23168163001537323,
	"learning_rate": 4.635391434709847e-06,
	"loss": 0.3826,
	"step": 528
	},
	{
	"epoch": 1.034,
	"grad_norm": 0.20334544777870178,
	"learning_rate": 4.619568909744524e-06,
	"loss": 0.302,
	"step": 529
	},
	{
	"epoch": 1.036,
	"grad_norm": 0.2471403032541275,
	"learning_rate": 4.603750215716057e-06,
	"loss": 0.3024,
	"step": 530
	},
	{
	"epoch": 1.038,
	"grad_norm": 0.19385652244091034,
	"learning_rate": 4.587935511918521e-06,
	"loss": 0.2803,
	"step": 531
	},
	{
	"epoch": 1.04,
	"grad_norm": 0.24697639048099518,
	"learning_rate": 4.572124957605803e-06,
	"loss": 0.4114,
	"step": 532
	},
	{
	"epoch": 1.042,
	"grad_norm": 0.24823316931724548,
	"learning_rate": 4.55631871199001e-06,
	"loss": 0.3705,
	"step": 533
	},
	{
	"epoch": 1.044,
	"grad_norm": 0.1970013827085495,
	"learning_rate": 4.5405169342398634e-06,
	"loss": 0.3608,
	"step": 534
	},
	{
	"epoch": 1.046,
	"grad_norm": 0.20955346524715424,
	"learning_rate": 4.524719783479088e-06,
	"loss": 0.347,
	"step": 535
	},
	{
	"epoch": 1.048,
	"grad_norm": 0.1911235898733139,
	"learning_rate": 4.5089274187848144e-06,
	"loss": 0.2342,
	"step": 536
	},
	{
	"epoch": 1.05,
	"grad_norm": 0.22940923273563385,
	"learning_rate": 4.493139999185984e-06,
	"loss": 0.2803,
	"step": 537
	},
	{
	"epoch": 1.052,
	"grad_norm": 0.24347023665905,
	"learning_rate": 4.477357683661734e-06,
	"loss": 0.3833,
	"step": 538
	},
	{
	"epoch": 1.054,
	"grad_norm": 0.24687382578849792,
	"learning_rate": 4.461580631139806e-06,
	"loss": 0.3467,
	"step": 539
	},
	{
	"epoch": 1.056,
	"grad_norm": 0.15779221057891846,
	"learning_rate": 4.445809000494945e-06,
	"loss": 0.2781,
	"step": 540
	},
	{
	"epoch": 1.058,
	"grad_norm": 0.20665578544139862,
	"learning_rate": 4.430042950547298e-06,
	"loss": 0.4656,
	"step": 541
	},
	{
	"epoch": 1.06,
	"grad_norm": 0.24457348883152008,
	"learning_rate": 4.414282640060809e-06,
	"loss": 0.2684,
	"step": 542
	},
	{
	"epoch": 1.062,
	"grad_norm": 0.20804962515830994,
	"learning_rate": 4.398528227741634e-06,
	"loss": 0.3577,
	"step": 543
	},
	{
	"epoch": 1.064,
	"grad_norm": 0.2586953043937683,
	"learning_rate": 4.382779872236527e-06,
	"loss": 0.3492,
	"step": 544
	},
	{
	"epoch": 1.066,
	"grad_norm": 0.26488688588142395,
	"learning_rate": 4.367037732131254e-06,
	"loss": 0.3954,
	"step": 545
	},
	{
	"epoch": 1.068,
	"grad_norm": 0.15630888938903809,
	"learning_rate": 4.3513019659489916e-06,
	"loss": 0.1673,
	"step": 546
	},
	{
	"epoch": 1.07,
	"grad_norm": 0.15465758740901947,
	"learning_rate": 4.33557273214873e-06,
	"loss": 0.2532,
	"step": 547
	},
	{
	"epoch": 1.072,
	"grad_norm": 0.25680503249168396,
	"learning_rate": 4.319850189123681e-06,
	"loss": 0.3065,
	"step": 548
	},
	{
	"epoch": 1.074,
	"grad_norm": 0.24224849045276642,
	"learning_rate": 4.304134495199675e-06,
	"loss": 0.4157,
	"step": 549
	},
	{
	"epoch": 1.076,
	"grad_norm": 0.1849289834499359,
	"learning_rate": 4.2884258086335755e-06,
	"loss": 0.3611,
	"step": 550
	},
	{
	"epoch": 1.078,
	"grad_norm": 0.2488396316766739,
	"learning_rate": 4.272724287611684e-06,
	"loss": 0.313,
	"step": 551
	},
	{
	"epoch": 1.08,
	"grad_norm": 0.23535999655723572,
	"learning_rate": 4.257030090248142e-06,
	"loss": 0.3165,
	"step": 552
	},
	{
	"epoch": 1.082,
	"grad_norm": 0.19105635583400726,
	"learning_rate": 4.241343374583343e-06,
	"loss": 0.2779,
	"step": 553
	},
	{
	"epoch": 1.084,
	"grad_norm": 0.22108493745326996,
	"learning_rate": 4.225664298582339e-06,
	"loss": 0.3312,
	"step": 554
	},
	{
	"epoch": 1.086,
	"grad_norm": 0.18127895891666412,
	"learning_rate": 4.209993020133251e-06,
	"loss": 0.2099,
	"step": 555
	},
	{
	"epoch": 1.088,
	"grad_norm": 0.304030179977417,
	"learning_rate": 4.194329697045681e-06,
	"loss": 0.4397,
	"step": 556
	},
	{
	"epoch": 1.09,
	"grad_norm": 0.16876006126403809,
	"learning_rate": 4.178674487049116e-06,
	"loss": 0.253,
	"step": 557
	},
	{
	"epoch": 1.092,
	"grad_norm": 0.18693579733371735,
	"learning_rate": 4.163027547791347e-06,
	"loss": 0.2696,
	"step": 558
	},
	{
	"epoch": 1.094,
	"grad_norm": 0.2209119349718094,
	"learning_rate": 4.147389036836881e-06,
	"loss": 0.2225,
	"step": 559
	},
	{
	"epoch": 1.096,
	"grad_norm": 0.1712501347064972,
	"learning_rate": 4.131759111665349e-06,
	"loss": 0.2205,
	"step": 560
	},
	{
	"epoch": 1.098,
	"grad_norm": 0.18427731096744537,
	"learning_rate": 4.116137929669921e-06,
	"loss": 0.2527,
	"step": 561
	},
	{
	"epoch": 1.1,
	"grad_norm": 0.16298742592334747,
	"learning_rate": 4.100525648155731e-06,
	"loss": 0.2583,
	"step": 562
	},
	{
	"epoch": 1.102,
	"grad_norm": 0.1921571046113968,
	"learning_rate": 4.084922424338277e-06,
	"loss": 0.2931,
	"step": 563
	},
	{
	"epoch": 1.104,
	"grad_norm": 0.1696956604719162,
	"learning_rate": 4.06932841534185e-06,
	"loss": 0.2686,
	"step": 564
	},
	{
	"epoch": 1.106,
	"grad_norm": 0.2463129460811615,
	"learning_rate": 4.053743778197951e-06,
	"loss": 0.301,
	"step": 565
	},
	{
	"epoch": 1.108,
	"grad_norm": 0.15761299431324005,
	"learning_rate": 4.038168669843698e-06,
	"loss": 0.1756,
	"step": 566
	},
	{
	"epoch": 1.11,
	"grad_norm": 0.1688557118177414,
	"learning_rate": 4.02260324712026e-06,
	"loss": 0.2969,
	"step": 567
	},
	{
	"epoch": 1.112,
	"grad_norm": 0.21805354952812195,
	"learning_rate": 4.007047666771274e-06,
	"loss": 0.2739,
	"step": 568
	},
	{
	"epoch": 1.114,
	"grad_norm": 0.17749401926994324,
	"learning_rate": 3.991502085441259e-06,
	"loss": 0.2698,
	"step": 569
	},
	{
	"epoch": 1.116,
	"grad_norm": 0.2537892758846283,
	"learning_rate": 3.975966659674048e-06,
	"loss": 0.4131,
	"step": 570
	},
	{
	"epoch": 1.1179999999999999,
	"grad_norm": 0.15672741830348969,
	"learning_rate": 3.960441545911205e-06,
	"loss": 0.2118,
	"step": 571
	},
	{
	"epoch": 1.12,
	"grad_norm": 0.23960451781749725,
	"learning_rate": 3.944926900490452e-06,
	"loss": 0.2715,
	"step": 572
	},
	{
	"epoch": 1.1219999999999999,
	"grad_norm": 0.17803031206130981,
	"learning_rate": 3.929422879644099e-06,
	"loss": 0.24,
	"step": 573
	},
	{
	"epoch": 1.124,
	"grad_norm": 0.2676704525947571,
	"learning_rate": 3.913929639497462e-06,
	"loss": 0.3247,
	"step": 574
	},
	{
	"epoch": 1.126,
	"grad_norm": 0.1522570550441742,
	"learning_rate": 3.898447336067297e-06,
	"loss": 0.2298,
	"step": 575
	},
	{
	"epoch": 1.1280000000000001,
	"grad_norm": 0.23372875154018402,
	"learning_rate": 3.882976125260229e-06,
	"loss": 0.4375,
	"step": 576
	},
	{
	"epoch": 1.13,
	"grad_norm": 0.3442481756210327,
	"learning_rate": 3.867516162871177e-06,
	"loss": 0.2883,
	"step": 577
	},
	{
	"epoch": 1.1320000000000001,
	"grad_norm": 0.2335498332977295,
	"learning_rate": 3.8520676045817945e-06,
	"loss": 0.2602,
	"step": 578
	},
	{
	"epoch": 1.134,
	"grad_norm": 0.29386457800865173,
	"learning_rate": 3.8366306059588885e-06,
	"loss": 0.3826,
	"step": 579
	},
	{
	"epoch": 1.1360000000000001,
	"grad_norm": 0.18141314387321472,
	"learning_rate": 3.821205322452863e-06,
	"loss": 0.205,
	"step": 580
	},
	{
	"epoch": 1.138,
	"grad_norm": 0.21235667169094086,
	"learning_rate": 3.8057919093961554e-06,
	"loss": 0.2511,
	"step": 581
	},
	{
	"epoch": 1.1400000000000001,
	"grad_norm": 0.15281343460083008,
	"learning_rate": 3.790390522001662e-06,
	"loss": 0.1908,
	"step": 582
	},
	{
	"epoch": 1.142,
	"grad_norm": 0.1883106231689453,
	"learning_rate": 3.775001315361183e-06,
	"loss": 0.2896,
	"step": 583
	},
	{
	"epoch": 1.144,
	"grad_norm": 0.19878095388412476,
	"learning_rate": 3.7596244444438577e-06,
	"loss": 0.2847,
	"step": 584
	},
	{
	"epoch": 1.146,
	"grad_norm": 0.18822817504405975,
	"learning_rate": 3.7442600640946045e-06,
	"loss": 0.3134,
	"step": 585
	},
	{
	"epoch": 1.148,
	"grad_norm": 0.21552503108978271,
	"learning_rate": 3.7289083290325668e-06,
	"loss": 0.3323,
	"step": 586
	},
	{
	"epoch": 1.15,
	"grad_norm": 0.25933748483657837,
	"learning_rate": 3.7135693938495433e-06,
	"loss": 0.3463,
	"step": 587
	},
	{
	"epoch": 1.152,
	"grad_norm": 0.23867465555667877,
	"learning_rate": 3.69824341300844e-06,
	"loss": 0.3601,
	"step": 588
	},
	{
	"epoch": 1.154,
	"grad_norm": 0.3167083263397217,
	"learning_rate": 3.682930540841717e-06,
	"loss": 0.4182,
	"step": 589
	},
	{
	"epoch": 1.156,
	"grad_norm": 0.31397873163223267,
	"learning_rate": 3.667630931549826e-06,
	"loss": 0.3287,
	"step": 590
	},
	{
	"epoch": 1.158,
	"grad_norm": 0.18764562904834747,
	"learning_rate": 3.6523447391996613e-06,
	"loss": 0.276,
	"step": 591
	},
	{
	"epoch": 1.16,
	"grad_norm": 0.29411885142326355,
	"learning_rate": 3.637072117723012e-06,
	"loss": 0.3956,
	"step": 592
	},
	{
	"epoch": 1.162,
	"grad_norm": 0.19027218222618103,
	"learning_rate": 3.6218132209150047e-06,
	"loss": 0.2753,
	"step": 593
	},
	{
	"epoch": 1.164,
	"grad_norm": 0.20175009965896606,
	"learning_rate": 3.606568202432562e-06,
	"loss": 0.3459,
	"step": 594
	},
	{
	"epoch": 1.166,
	"grad_norm": 0.2005695253610611,
	"learning_rate": 3.5913372157928515e-06,
	"loss": 0.2125,
	"step": 595
	},
	{
	"epoch": 1.168,
	"grad_norm": 0.22972247004508972,
	"learning_rate": 3.5761204143717387e-06,
	"loss": 0.2925,
	"step": 596
	},
	{
	"epoch": 1.17,
	"grad_norm": 0.22252865135669708,
	"learning_rate": 3.560917951402245e-06,
	"loss": 0.3467,
	"step": 597
	},
	{
	"epoch": 1.172,
	"grad_norm": 0.2404780089855194,
	"learning_rate": 3.5457299799730047e-06,
	"loss": 0.3268,
	"step": 598
	},
	{
	"epoch": 1.174,
	"grad_norm": 0.24187296628952026,
	"learning_rate": 3.5305566530267217e-06,
	"loss": 0.3654,
	"step": 599
	},
	{
	"epoch": 1.176,
	"grad_norm": 0.23365625739097595,
	"learning_rate": 3.5153981233586277e-06,
	"loss": 0.3168,
	"step": 600
	},
	{
	"epoch": 1.178,
	"grad_norm": 0.20350268483161926,
	"learning_rate": 3.5002545436149478e-06,
	"loss": 0.2618,
	"step": 601
	},
	{
	"epoch": 1.18,
	"grad_norm": 0.22084195911884308,
	"learning_rate": 3.4851260662913643e-06,
	"loss": 0.381,
	"step": 602
	},
	{
	"epoch": 1.182,
	"grad_norm": 0.5043354630470276,
	"learning_rate": 3.470012843731476e-06,
	"loss": 0.426,
	"step": 603
	},
	{
	"epoch": 1.184,
	"grad_norm": 0.23615571856498718,
	"learning_rate": 3.4549150281252635e-06,
	"loss": 0.3891,
	"step": 604
	},
	{
	"epoch": 1.186,
	"grad_norm": 0.1776285469532013,
	"learning_rate": 3.439832771507565e-06,
	"loss": 0.2032,
	"step": 605
	},
	{
	"epoch": 1.188,
	"grad_norm": 0.23352046310901642,
	"learning_rate": 3.4247662257565372e-06,
	"loss": 0.2098,
	"step": 606
	},
	{
	"epoch": 1.19,
	"grad_norm": 0.19145451486110687,
	"learning_rate": 3.4097155425921256e-06,
	"loss": 0.2612,
	"step": 607
	},
	{
	"epoch": 1.192,
	"grad_norm": 0.19671331346035004,
	"learning_rate": 3.394680873574546e-06,
	"loss": 0.2941,
	"step": 608
	},
	{
	"epoch": 1.194,
	"grad_norm": 0.2002706378698349,
	"learning_rate": 3.3796623701027477e-06,
	"loss": 0.1828,
	"step": 609
	},
	{
	"epoch": 1.196,
	"grad_norm": 0.23058104515075684,
	"learning_rate": 3.3646601834128924e-06,
	"loss": 0.2983,
	"step": 610
	},
	{
	"epoch": 1.198,
	"grad_norm": 0.13006491959095,
	"learning_rate": 3.349674464576834e-06,
	"loss": 0.1306,
	"step": 611
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.29587817192077637,
	"learning_rate": 3.3347053645005965e-06,
	"loss": 0.3542,
	"step": 612
	},
	{
	"epoch": 1.202,
	"grad_norm": 0.23100513219833374,
	"learning_rate": 3.319753033922849e-06,
	"loss": 0.4051,
	"step": 613
	},
	{
	"epoch": 1.204,
	"grad_norm": 0.24775229394435883,
	"learning_rate": 3.3048176234133967e-06,
	"loss": 0.2378,
	"step": 614
	},
	{
	"epoch": 1.206,
	"grad_norm": 0.18648101389408112,
	"learning_rate": 3.289899283371657e-06,
	"loss": 0.2141,
	"step": 615
	},
	{
	"epoch": 1.208,
	"grad_norm": 0.24682392179965973,
	"learning_rate": 3.274998164025148e-06,
	"loss": 0.3123,
	"step": 616
	},
	{
	"epoch": 1.21,
	"grad_norm": 0.25237175822257996,
	"learning_rate": 3.260114415427975e-06,
	"loss": 0.4471,
	"step": 617
	},
	{
	"epoch": 1.212,
	"grad_norm": 0.20262058079242706,
	"learning_rate": 3.2452481874593234e-06,
	"loss": 0.2694,
	"step": 618
	},
	{
	"epoch": 1.214,
	"grad_norm": 0.23342056572437286,
	"learning_rate": 3.230399629821942e-06,
	"loss": 0.3093,
	"step": 619
	},
	{
	"epoch": 1.216,
	"grad_norm": 0.17575059831142426,
	"learning_rate": 3.2155688920406415e-06,
	"loss": 0.2923,
	"step": 620
	},
	{
	"epoch": 1.218,
	"grad_norm": 0.2357223480939865,
	"learning_rate": 3.200756123460788e-06,
	"loss": 0.3569,
	"step": 621
	},
	{
	"epoch": 1.22,
	"grad_norm": 0.3179761469364166,
	"learning_rate": 3.1859614732467957e-06,
	"loss": 0.4442,
	"step": 622
	},
	{
	"epoch": 1.222,
	"grad_norm": 0.28770139813423157,
	"learning_rate": 3.171185090380628e-06,
	"loss": 0.3325,
	"step": 623
	},
	{
	"epoch": 1.224,
	"grad_norm": 0.18547223508358002,
	"learning_rate": 3.156427123660297e-06,
	"loss": 0.2269,
	"step": 624
	},
	{
	"epoch": 1.226,
	"grad_norm": 0.21385949850082397,
	"learning_rate": 3.141687721698363e-06,
	"loss": 0.2615,
	"step": 625
	},
	{
	"epoch": 1.226,
	"eval_loss": 0.2700715959072113,
	"eval_runtime": 76.6157,
	"eval_samples_per_second": 7.205,
	"eval_steps_per_second": 0.901,
	"step": 625
	},
	{
	"epoch": 1.228,
	"grad_norm": 0.3386872708797455,
	"learning_rate": 3.12696703292044e-06,
	"loss": 0.3519,
	"step": 626
	},
	{
	"epoch": 1.23,
	"grad_norm": 0.19794243574142456,
	"learning_rate": 3.1122652055637014e-06,
	"loss": 0.2581,
	"step": 627
	},
	{
	"epoch": 1.232,
	"grad_norm": 0.1912515014410019,
	"learning_rate": 3.097582387675385e-06,
	"loss": 0.3286,
	"step": 628
	},
	{
	"epoch": 1.234,
	"grad_norm": 0.18073877692222595,
	"learning_rate": 3.0829187271113035e-06,
	"loss": 0.2411,
	"step": 629
	},
	{
	"epoch": 1.236,
	"grad_norm": 0.24173890054225922,
	"learning_rate": 3.0682743715343565e-06,
	"loss": 0.3853,
	"step": 630
	},
	{
	"epoch": 1.238,
	"grad_norm": 0.17611730098724365,
	"learning_rate": 3.053649468413043e-06,
	"loss": 0.1971,
	"step": 631
	},
	{
	"epoch": 1.24,
	"grad_norm": 0.22723500430583954,
	"learning_rate": 3.0390441650199727e-06,
	"loss": 0.2852,
	"step": 632
	},
	{
	"epoch": 1.242,
	"grad_norm": 0.2124418169260025,
	"learning_rate": 3.0244586084303908e-06,
	"loss": 0.329,
	"step": 633
	},
	{
	"epoch": 1.244,
	"grad_norm": 0.24569527804851532,
	"learning_rate": 3.0098929455206905e-06,
	"loss": 0.4141,
	"step": 634
	},
	{
	"epoch": 1.246,
	"grad_norm": 0.2651529312133789,
	"learning_rate": 2.995347322966933e-06,
	"loss": 0.2759,
	"step": 635
	},
	{
	"epoch": 1.248,
	"grad_norm": 0.3110187351703644,
	"learning_rate": 2.980821887243377e-06,
	"loss": 0.3405,
	"step": 636
	},
	{
	"epoch": 1.25,
	"grad_norm": 0.23818974196910858,
	"learning_rate": 2.966316784621e-06,
	"loss": 0.2185,
	"step": 637
	},
	{
	"epoch": 1.252,
	"grad_norm": 0.32177677750587463,
	"learning_rate": 2.951832161166024e-06,
	"loss": 0.4972,
	"step": 638
	},
	{
	"epoch": 1.254,
	"grad_norm": 0.21647526323795319,
	"learning_rate": 2.937368162738445e-06,
	"loss": 0.4215,
	"step": 639
	},
	{
	"epoch": 1.256,
	"grad_norm": 0.1766624003648758,
	"learning_rate": 2.9229249349905686e-06,
	"loss": 0.2439,
	"step": 640
	},
	{
	"epoch": 1.258,
	"grad_norm": 0.34441429376602173,
	"learning_rate": 2.9085026233655367e-06,
	"loss": 0.4078,
	"step": 641
	},
	{
	"epoch": 1.26,
	"grad_norm": 0.30576056241989136,
	"learning_rate": 2.8941013730958674e-06,
	"loss": 0.4071,
	"step": 642
	},
	{
	"epoch": 1.262,
	"grad_norm": 0.22246578335762024,
	"learning_rate": 2.8797213292019927e-06,
	"loss": 0.3456,
	"step": 643
	},
	{
	"epoch": 1.264,
	"grad_norm": 0.21253855526447296,
	"learning_rate": 2.8653626364907918e-06,
	"loss": 0.2257,
	"step": 644
	},
	{
	"epoch": 1.266,
	"grad_norm": 0.22427724301815033,
	"learning_rate": 2.851025439554142e-06,
	"loss": 0.298,
	"step": 645
	},
	{
	"epoch": 1.268,
	"grad_norm": 0.19472835958003998,
	"learning_rate": 2.8367098827674575e-06,
	"loss": 0.3093,
	"step": 646
	},
	{
	"epoch": 1.27,
	"grad_norm": 0.19399920105934143,
	"learning_rate": 2.82241611028824e-06,
	"loss": 0.2254,
	"step": 647
	},
	{
	"epoch": 1.272,
	"grad_norm": 0.23820382356643677,
	"learning_rate": 2.8081442660546126e-06,
	"loss": 0.2909,
	"step": 648
	},
	{
	"epoch": 1.274,
	"grad_norm": 0.1856381893157959,
	"learning_rate": 2.7938944937838924e-06,
	"loss": 0.2367,
	"step": 649
	},
	{
	"epoch": 1.276,
	"grad_norm": 0.16763170063495636,
	"learning_rate": 2.7796669369711294e-06,
	"loss": 0.1991,
	"step": 650
	},
	{
	"epoch": 1.278,
	"grad_norm": 0.25936460494995117,
	"learning_rate": 2.7654617388876612e-06,
	"loss": 0.3244,
	"step": 651
	},
	{
	"epoch": 1.28,
	"grad_norm": 0.37680599093437195,
	"learning_rate": 2.751279042579672e-06,
	"loss": 0.409,
	"step": 652
	},
	{
	"epoch": 1.282,
	"grad_norm": 0.2094666063785553,
	"learning_rate": 2.7371189908667604e-06,
	"loss": 0.3523,
	"step": 653
	},
	{
	"epoch": 1.284,
	"grad_norm": 0.25615018606185913,
	"learning_rate": 2.722981726340487e-06,
	"loss": 0.3496,
	"step": 654
	},
	{
	"epoch": 1.286,
	"grad_norm": 0.2155938446521759,
	"learning_rate": 2.708867391362948e-06,
	"loss": 0.2099,
	"step": 655
	},
	{
	"epoch": 1.288,
	"grad_norm": 0.2571382522583008,
	"learning_rate": 2.694776128065345e-06,
	"loss": 0.2505,
	"step": 656
	},
	{
	"epoch": 1.29,
	"grad_norm": 0.25513583421707153,
	"learning_rate": 2.6807080783465376e-06,
	"loss": 0.3528,
	"step": 657
	},
	{
	"epoch": 1.292,
	"grad_norm": 0.21190734207630157,
	"learning_rate": 2.6666633838716317e-06,
	"loss": 0.3892,
	"step": 658
	},
	{
	"epoch": 1.294,
	"grad_norm": 0.2990153133869171,
	"learning_rate": 2.6526421860705474e-06,
	"loss": 0.3916,
	"step": 659
	},
	{
	"epoch": 1.296,
	"grad_norm": 0.22129324078559875,
	"learning_rate": 2.6386446261365874e-06,
	"loss": 0.2596,
	"step": 660
	},
	{
	"epoch": 1.298,
	"grad_norm": 0.2187465876340866,
	"learning_rate": 2.6246708450250256e-06,
	"loss": 0.3962,
	"step": 661
	},
	{
	"epoch": 1.3,
	"grad_norm": 0.17136049270629883,
	"learning_rate": 2.6107209834516857e-06,
	"loss": 0.3483,
	"step": 662
	},
	{
	"epoch": 1.302,
	"grad_norm": 0.25110378861427307,
	"learning_rate": 2.5967951818915137e-06,
	"loss": 0.4098,
	"step": 663
	},
	{
	"epoch": 1.304,
	"grad_norm": 0.3335612118244171,
	"learning_rate": 2.5828935805771804e-06,
	"loss": 0.3407,
	"step": 664
	},
	{
	"epoch": 1.306,
	"grad_norm": 0.23392237722873688,
	"learning_rate": 2.5690163194976576e-06,
	"loss": 0.3893,
	"step": 665
	},
	{
	"epoch": 1.308,
	"grad_norm": 0.21025826036930084,
	"learning_rate": 2.5551635383968063e-06,
	"loss": 0.3047,
	"step": 666
	},
	{
	"epoch": 1.31,
	"grad_norm": 0.20678383111953735,
	"learning_rate": 2.5413353767719805e-06,
	"loss": 0.3068,
	"step": 667
	},
	{
	"epoch": 1.312,
	"grad_norm": 0.255937397480011,
	"learning_rate": 2.527531973872617e-06,
	"loss": 0.2963,
	"step": 668
	},
	{
	"epoch": 1.314,
	"grad_norm": 0.3448125422000885,
	"learning_rate": 2.5137534686988265e-06,
	"loss": 0.3944,
	"step": 669
	},
	{
	"epoch": 1.316,
	"grad_norm": 0.21276655793190002,
	"learning_rate": 2.5000000000000015e-06,
	"loss": 0.2955,
	"step": 670
	},
	{
	"epoch": 1.318,
	"grad_norm": 0.2522459030151367,
	"learning_rate": 2.486271706273421e-06,
	"loss": 0.3536,
	"step": 671
	},
	{
	"epoch": 1.32,
	"grad_norm": 0.2182285189628601,
	"learning_rate": 2.4725687257628533e-06,
	"loss": 0.3541,
	"step": 672
	},
	{
	"epoch": 1.322,
	"grad_norm": 0.30204272270202637,
	"learning_rate": 2.4588911964571557e-06,
	"loss": 0.268,
	"step": 673
	},
	{
	"epoch": 1.324,
	"grad_norm": 0.27727144956588745,
	"learning_rate": 2.445239256088898e-06,
	"loss": 0.3061,
	"step": 674
	},
	{
	"epoch": 1.326,
	"grad_norm": 0.22263972461223602,
	"learning_rate": 2.4316130421329696e-06,
	"loss": 0.3317,
	"step": 675
	},
	{
	"epoch": 1.328,
	"grad_norm": 0.23461495339870453,
	"learning_rate": 2.418012691805191e-06,
	"loss": 0.3153,
	"step": 676
	},
	{
	"epoch": 1.33,
	"grad_norm": 0.1453184336423874,
	"learning_rate": 2.404438342060941e-06,
	"loss": 0.1933,
	"step": 677
	},
	{
	"epoch": 1.332,
	"grad_norm": 0.20232437551021576,
	"learning_rate": 2.3908901295937713e-06,
	"loss": 0.1941,
	"step": 678
	},
	{
	"epoch": 1.334,
	"grad_norm": 0.23894034326076508,
	"learning_rate": 2.3773681908340284e-06,
	"loss": 0.3198,
	"step": 679
	},
	{
	"epoch": 1.336,
	"grad_norm": 0.3079819977283478,
	"learning_rate": 2.363872661947488e-06,
	"loss": 0.3761,
	"step": 680
	},
	{
	"epoch": 1.338,
	"grad_norm": 0.20794443786144257,
	"learning_rate": 2.3504036788339763e-06,
	"loss": 0.3837,
	"step": 681
	},
	{
	"epoch": 1.34,
	"grad_norm": 0.2881450057029724,
	"learning_rate": 2.3369613771260006e-06,
	"loss": 0.2904,
	"step": 682
	},
	{
	"epoch": 1.342,
	"grad_norm": 0.20050355792045593,
	"learning_rate": 2.323545892187393e-06,
	"loss": 0.2323,
	"step": 683
	},
	{
	"epoch": 1.3439999999999999,
	"grad_norm": 0.22167599201202393,
	"learning_rate": 2.310157359111938e-06,
	"loss": 0.2501,
	"step": 684
	},
	{
	"epoch": 1.346,
	"grad_norm": 0.29652273654937744,
	"learning_rate": 2.296795912722014e-06,
	"loss": 0.3702,
	"step": 685
	},
	{
	"epoch": 1.3479999999999999,
	"grad_norm": 0.20178988575935364,
	"learning_rate": 2.2834616875672362e-06,
	"loss": 0.2581,
	"step": 686
	},
	{
	"epoch": 1.35,
	"grad_norm": 0.25368136167526245,
	"learning_rate": 2.2701548179231048e-06,
	"loss": 0.3034,
	"step": 687
	},
	{
	"epoch": 1.3519999999999999,
	"grad_norm": 0.20186640322208405,
	"learning_rate": 2.2568754377896516e-06,
	"loss": 0.2991,
	"step": 688
	},
	{
	"epoch": 1.354,
	"grad_norm": 0.2289544939994812,
	"learning_rate": 2.2436236808900846e-06,
	"loss": 0.3188,
	"step": 689
	},
	{
	"epoch": 1.3559999999999999,
	"grad_norm": 0.2351309210062027,
	"learning_rate": 2.230399680669449e-06,
	"loss": 0.2942,
	"step": 690
	},
	{
	"epoch": 1.358,
	"grad_norm": 0.19411875307559967,
	"learning_rate": 2.2172035702932828e-06,
	"loss": 0.3415,
	"step": 691
	},
	{
	"epoch": 1.3599999999999999,
	"grad_norm": 0.23344936966896057,
	"learning_rate": 2.204035482646267e-06,
	"loss": 0.2904,
	"step": 692
	},
	{
	"epoch": 1.362,
	"grad_norm": 0.17623913288116455,
	"learning_rate": 2.190895550330899e-06,
	"loss": 0.1493,
	"step": 693
	},
	{
	"epoch": 1.3639999999999999,
	"grad_norm": 0.22438128292560577,
	"learning_rate": 2.1777839056661555e-06,
	"loss": 0.3669,
	"step": 694
	},
	{
	"epoch": 1.366,
	"grad_norm": 0.25720444321632385,
	"learning_rate": 2.1647006806861472e-06,
	"loss": 0.4394,
	"step": 695
	},
	{
	"epoch": 1.3679999999999999,
	"grad_norm": 0.17176856100559235,
	"learning_rate": 2.1516460071388062e-06,
	"loss": 0.2309,
	"step": 696
	},
	{
	"epoch": 1.37,
	"grad_norm": 0.26110807061195374,
	"learning_rate": 2.1386200164845527e-06,
	"loss": 0.4329,
	"step": 697
	},
	{
	"epoch": 1.3719999999999999,
	"grad_norm": 0.24240969121456146,
	"learning_rate": 2.125622839894964e-06,
	"loss": 0.2596,
	"step": 698
	},
	{
	"epoch": 1.374,
	"grad_norm": 0.202704519033432,
	"learning_rate": 2.1126546082514665e-06,
	"loss": 0.2737,
	"step": 699
	},
	{
	"epoch": 1.376,
	"grad_norm": 0.20342108607292175,
	"learning_rate": 2.09971545214401e-06,
	"loss": 0.2692,
	"step": 700
	},
	{
	"epoch": 1.3780000000000001,
	"grad_norm": 0.3197811543941498,
	"learning_rate": 2.086805501869749e-06,
	"loss": 0.3117,
	"step": 701
	},
	{
	"epoch": 1.38,
	"grad_norm": 0.29925206303596497,
	"learning_rate": 2.073924887431744e-06,
	"loss": 0.2391,
	"step": 702
	},
	{
	"epoch": 1.3820000000000001,
	"grad_norm": 0.2412380427122116,
	"learning_rate": 2.061073738537635e-06,
	"loss": 0.2434,
	"step": 703
	},
	{
	"epoch": 1.384,
	"grad_norm": 0.25253570079803467,
	"learning_rate": 2.0482521845983522e-06,
	"loss": 0.3284,
	"step": 704
	},
	{
	"epoch": 1.3860000000000001,
	"grad_norm": 0.18548652529716492,
	"learning_rate": 2.0354603547267985e-06,
	"loss": 0.2562,
	"step": 705
	},
	{
	"epoch": 1.388,
	"grad_norm": 0.2307010442018509,
	"learning_rate": 2.0226983777365604e-06,
	"loss": 0.2445,
	"step": 706
	},
	{
	"epoch": 1.3900000000000001,
	"grad_norm": 0.1840142160654068,
	"learning_rate": 2.009966382140606e-06,
	"loss": 0.3521,
	"step": 707
	},
	{
	"epoch": 1.392,
	"grad_norm": 0.2078990340232849,
	"learning_rate": 1.9972644961499853e-06,
	"loss": 0.2887,
	"step": 708
	},
	{
	"epoch": 1.3940000000000001,
	"grad_norm": 0.20442235469818115,
	"learning_rate": 1.9845928476725522e-06,
	"loss": 0.3453,
	"step": 709
	},
	{
	"epoch": 1.396,
	"grad_norm": 0.1933489441871643,
	"learning_rate": 1.971951564311668e-06,
	"loss": 0.3581,
	"step": 710
	},
	{
	"epoch": 1.3980000000000001,
	"grad_norm": 0.19691258668899536,
	"learning_rate": 1.959340773364911e-06,
	"loss": 0.2933,
	"step": 711
	},
	{
	"epoch": 1.4,
	"grad_norm": 0.1842382252216339,
	"learning_rate": 1.946760601822809e-06,
	"loss": 0.2894,
	"step": 712
	},
	{
	"epoch": 1.4020000000000001,
	"grad_norm": 0.35139110684394836,
	"learning_rate": 1.9342111763675512e-06,
	"loss": 0.3405,
	"step": 713
	},
	{
	"epoch": 1.404,
	"grad_norm": 0.19070106744766235,
	"learning_rate": 1.9216926233717087e-06,
	"loss": 0.213,
	"step": 714
	},
	{
	"epoch": 1.4060000000000001,
	"grad_norm": 0.20061296224594116,
	"learning_rate": 1.9092050688969736e-06,
	"loss": 0.2858,
	"step": 715
	},
	{
	"epoch": 1.408,
	"grad_norm": 0.30167287588119507,
	"learning_rate": 1.8967486386928819e-06,
	"loss": 0.4004,
	"step": 716
	},
	{
	"epoch": 1.41,
	"grad_norm": 0.21128444373607635,
	"learning_rate": 1.8843234581955444e-06,
	"loss": 0.2326,
	"step": 717
	},
	{
	"epoch": 1.412,
	"grad_norm": 0.23791776597499847,
	"learning_rate": 1.8719296525263925e-06,
	"loss": 0.2337,
	"step": 718
	},
	{
	"epoch": 1.414,
	"grad_norm": 0.27308812737464905,
	"learning_rate": 1.859567346490913e-06,
	"loss": 0.2667,
	"step": 719
	},
	{
	"epoch": 1.416,
	"grad_norm": 0.19012384116649628,
	"learning_rate": 1.8472366645773892e-06,
	"loss": 0.2042,
	"step": 720
	},
	{
	"epoch": 1.418,
	"grad_norm": 0.2819920480251312,
	"learning_rate": 1.8349377309556487e-06,
	"loss": 0.3546,
	"step": 721
	},
	{
	"epoch": 1.42,
	"grad_norm": 0.16963627934455872,
	"learning_rate": 1.8226706694758194e-06,
	"loss": 0.2087,
	"step": 722
	},
	{
	"epoch": 1.422,
	"grad_norm": 0.222882941365242,
	"learning_rate": 1.810435603667075e-06,
	"loss": 0.3519,
	"step": 723
	},
	{
	"epoch": 1.424,
	"grad_norm": 0.200264573097229,
	"learning_rate": 1.798232656736389e-06,
	"loss": 0.2172,
	"step": 724
	},
	{
	"epoch": 1.426,
	"grad_norm": 0.25277942419052124,
	"learning_rate": 1.7860619515673034e-06,
	"loss": 0.3984,
	"step": 725
	},
	{
	"epoch": 1.428,
	"grad_norm": 0.24608227610588074,
	"learning_rate": 1.7739236107186858e-06,
	"loss": 0.2575,
	"step": 726
	},
	{
	"epoch": 1.43,
	"grad_norm": 0.30379989743232727,
	"learning_rate": 1.7618177564234907e-06,
	"loss": 0.2949,
	"step": 727
	},
	{
	"epoch": 1.432,
	"grad_norm": 0.15659303963184357,
	"learning_rate": 1.7497445105875377e-06,
	"loss": 0.1913,
	"step": 728
	},
	{
	"epoch": 1.434,
	"grad_norm": 0.2043537199497223,
	"learning_rate": 1.7377039947882802e-06,
	"loss": 0.2716,
	"step": 729
	},
	{
	"epoch": 1.436,
	"grad_norm": 0.20367324352264404,
	"learning_rate": 1.7256963302735752e-06,
	"loss": 0.2358,
	"step": 730
	},
	{
	"epoch": 1.438,
	"grad_norm": 0.28134340047836304,
	"learning_rate": 1.7137216379604727e-06,
	"loss": 0.2814,
	"step": 731
	},
	{
	"epoch": 1.44,
	"grad_norm": 0.2837545871734619,
	"learning_rate": 1.7017800384339928e-06,
	"loss": 0.3792,
	"step": 732
	},
	{
	"epoch": 1.442,
	"grad_norm": 0.22841040790081024,
	"learning_rate": 1.6898716519459074e-06,
	"loss": 0.2819,
	"step": 733
	},
	{
	"epoch": 1.444,
	"grad_norm": 0.21164868772029877,
	"learning_rate": 1.6779965984135376e-06,
	"loss": 0.2676,
	"step": 734
	},
	{
	"epoch": 1.446,
	"grad_norm": 0.2656158208847046,
	"learning_rate": 1.6661549974185426e-06,
	"loss": 0.284,
	"step": 735
	},
	{
	"epoch": 1.448,
	"grad_norm": 0.2675846815109253,
	"learning_rate": 1.6543469682057105e-06,
	"loss": 0.3098,
	"step": 736
	},
	{
	"epoch": 1.45,
	"grad_norm": 0.2900715172290802,
	"learning_rate": 1.6425726296817634e-06,
	"loss": 0.3378,
	"step": 737
	},
	{
	"epoch": 1.452,
	"grad_norm": 0.27534744143486023,
	"learning_rate": 1.6308321004141609e-06,
	"loss": 0.3497,
	"step": 738
	},
	{
	"epoch": 1.454,
	"grad_norm": 0.30499523878097534,
	"learning_rate": 1.6191254986299044e-06,
	"loss": 0.3271,
	"step": 739
	},
	{
	"epoch": 1.456,
	"grad_norm": 0.1775362193584442,
	"learning_rate": 1.6074529422143398e-06,
	"loss": 0.1754,
	"step": 740
	},
	{
	"epoch": 1.458,
	"grad_norm": 0.25734683871269226,
	"learning_rate": 1.5958145487099829e-06,
	"loss": 0.3568,
	"step": 741
	},
	{
	"epoch": 1.46,
	"grad_norm": 0.22716552019119263,
	"learning_rate": 1.5842104353153286e-06,
	"loss": 0.2856,
	"step": 742
	},
	{
	"epoch": 1.462,
	"grad_norm": 0.2042451947927475,
	"learning_rate": 1.5726407188836672e-06,
	"loss": 0.2623,
	"step": 743
	},
	{
	"epoch": 1.464,
	"grad_norm": 0.26923978328704834,
	"learning_rate": 1.561105515921915e-06,
	"loss": 0.4326,
	"step": 744
	},
	{
	"epoch": 1.466,
	"grad_norm": 0.22442659735679626,
	"learning_rate": 1.549604942589441e-06,
	"loss": 0.2867,
	"step": 745
	},
	{
	"epoch": 1.468,
	"grad_norm": 0.16880613565444946,
	"learning_rate": 1.5381391146968866e-06,
	"loss": 0.1821,
	"step": 746
	},
	{
	"epoch": 1.47,
	"grad_norm": 0.24349483847618103,
	"learning_rate": 1.5267081477050132e-06,
	"loss": 0.2753,
	"step": 747
	},
	{
	"epoch": 1.472,
	"grad_norm": 0.27072674036026,
	"learning_rate": 1.5153121567235334e-06,
	"loss": 0.2222,
	"step": 748
	},
	{
	"epoch": 1.474,
	"grad_norm": 0.291255921125412,
	"learning_rate": 1.5039512565099468e-06,
	"loss": 0.3485,
	"step": 749
	},
	{
	"epoch": 1.476,
	"grad_norm": 0.20078301429748535,
	"learning_rate": 1.4926255614683931e-06,
	"loss": 0.2959,
	"step": 750
	},
	{
	"epoch": 1.476,
	"eval_loss": 0.2654268741607666,
	"eval_runtime": 76.2376,
	"eval_samples_per_second": 7.241,
	"eval_steps_per_second": 0.905,
	"step": 750
	},
	{
	"epoch": 1.478,
	"grad_norm": 0.2795911431312561,
	"learning_rate": 1.4813351856484981e-06,
	"loss": 0.1859,
	"step": 751
	},
	{
	"epoch": 1.48,
	"grad_norm": 0.35663336515426636,
	"learning_rate": 1.470080242744218e-06,
	"loss": 0.3358,
	"step": 752
	},
	{
	"epoch": 1.482,
	"grad_norm": 0.23237483203411102,
	"learning_rate": 1.458860846092705e-06,
	"loss": 0.2874,
	"step": 753
	},
	{
	"epoch": 1.484,
	"grad_norm": 0.19958510994911194,
	"learning_rate": 1.4476771086731567e-06,
	"loss": 0.3507,
	"step": 754
	},
	{
	"epoch": 1.486,
	"grad_norm": 0.22077733278274536,
	"learning_rate": 1.4365291431056871e-06,
	"loss": 0.3085,
	"step": 755
	},
	{
	"epoch": 1.488,
	"grad_norm": 0.31041693687438965,
	"learning_rate": 1.4254170616501828e-06,
	"loss": 0.3724,
	"step": 756
	},
	{
	"epoch": 1.49,
	"grad_norm": 0.18345925211906433,
	"learning_rate": 1.4143409762051829e-06,
	"loss": 0.1957,
	"step": 757
	},
	{
	"epoch": 1.492,
	"grad_norm": 0.1973162293434143,
	"learning_rate": 1.4033009983067454e-06,
	"loss": 0.2304,
	"step": 758
	},
	{
	"epoch": 1.494,
	"grad_norm": 0.2636561095714569,
	"learning_rate": 1.3922972391273226e-06,
	"loss": 0.3215,
	"step": 759
	},
	{
	"epoch": 1.496,
	"grad_norm": 0.22231453657150269,
	"learning_rate": 1.3813298094746491e-06,
	"loss": 0.2346,
	"step": 760
	},
	{
	"epoch": 1.498,
	"grad_norm": 0.21096548438072205,
	"learning_rate": 1.3703988197906209e-06,
	"loss": 0.297,
	"step": 761
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.29171353578567505,
	"learning_rate": 1.3595043801501794e-06,
	"loss": 0.362,
	"step": 762
	},
	{
	"epoch": 1.502,
	"grad_norm": 0.2302405834197998,
	"learning_rate": 1.3486466002602133e-06,
	"loss": 0.3468,
	"step": 763
	},
	{
	"epoch": 1.504,
	"grad_norm": 0.1669236272573471,
	"learning_rate": 1.3378255894584463e-06,
	"loss": 0.2525,
	"step": 764
	},
	{
	"epoch": 1.506,
	"grad_norm": 0.22917306423187256,
	"learning_rate": 1.3270414567123342e-06,
	"loss": 0.34,
	"step": 765
	},
	{
	"epoch": 1.508,
	"grad_norm": 0.22837324440479279,
	"learning_rate": 1.3162943106179748e-06,
	"loss": 0.516,
	"step": 766
	},
	{
	"epoch": 1.51,
	"grad_norm": 0.1973070204257965,
	"learning_rate": 1.305584259399013e-06,
	"loss": 0.2083,
	"step": 767
	},
	{
	"epoch": 1.512,
	"grad_norm": 0.25936761498451233,
	"learning_rate": 1.2949114109055417e-06,
	"loss": 0.4483,
	"step": 768
	},
	{
	"epoch": 1.514,
	"grad_norm": 0.23405812680721283,
	"learning_rate": 1.2842758726130283e-06,
	"loss": 0.3334,
	"step": 769
	},
	{
	"epoch": 1.516,
	"grad_norm": 0.2227783501148224,
	"learning_rate": 1.2736777516212267e-06,
	"loss": 0.3724,
	"step": 770
	},
	{
	"epoch": 1.518,
	"grad_norm": 0.23398268222808838,
	"learning_rate": 1.263117154653097e-06,
	"loss": 0.2008,
	"step": 771
	},
	{
	"epoch": 1.52,
	"grad_norm": 0.16665144264698029,
	"learning_rate": 1.2525941880537307e-06,
	"loss": 0.2177,
	"step": 772
	},
	{
	"epoch": 1.522,
	"grad_norm": 0.21703177690505981,
	"learning_rate": 1.242108957789287e-06,
	"loss": 0.2668,
	"step": 773
	},
	{
	"epoch": 1.524,
	"grad_norm": 0.3440599739551544,
	"learning_rate": 1.2316615694459188e-06,
	"loss": 0.3352,
	"step": 774
	},
	{
	"epoch": 1.526,
	"grad_norm": 0.2005206048488617,
	"learning_rate": 1.2212521282287093e-06,
	"loss": 0.2719,
	"step": 775
	},
	{
	"epoch": 1.528,
	"grad_norm": 0.2054724395275116,
	"learning_rate": 1.210880738960616e-06,
	"loss": 0.3181,
	"step": 776
	},
	{
	"epoch": 1.53,
	"grad_norm": 0.2903349995613098,
	"learning_rate": 1.200547506081416e-06,
	"loss": 0.3382,
	"step": 777
	},
	{
	"epoch": 1.532,
	"grad_norm": 0.22862407565116882,
	"learning_rate": 1.1902525336466465e-06,
	"loss": 0.2544,
	"step": 778
	},
	{
	"epoch": 1.534,
	"grad_norm": 0.20812873542308807,
	"learning_rate": 1.1799959253265668e-06,
	"loss": 0.3118,
	"step": 779
	},
	{
	"epoch": 1.536,
	"grad_norm": 0.2820591330528259,
	"learning_rate": 1.1697777844051105e-06,
	"loss": 0.3646,
	"step": 780
	},
	{
	"epoch": 1.538,
	"grad_norm": 0.21943072974681854,
	"learning_rate": 1.1595982137788403e-06,
	"loss": 0.1957,
	"step": 781
	},
	{
	"epoch": 1.54,
	"grad_norm": 0.1949055939912796,
	"learning_rate": 1.1494573159559214e-06,
	"loss": 0.253,
	"step": 782
	},
	{
	"epoch": 1.542,
	"grad_norm": 0.20829080045223236,
	"learning_rate": 1.1393551930550828e-06,
	"loss": 0.2558,
	"step": 783
	},
	{
	"epoch": 1.544,
	"grad_norm": 0.20741114020347595,
	"learning_rate": 1.1292919468045876e-06,
	"loss": 0.2221,
	"step": 784
	},
	{
	"epoch": 1.546,
	"grad_norm": 0.24327073991298676,
	"learning_rate": 1.1192676785412154e-06,
	"loss": 0.2616,
	"step": 785
	},
	{
	"epoch": 1.548,
	"grad_norm": 0.2541949152946472,
	"learning_rate": 1.1092824892092375e-06,
	"loss": 0.2435,
	"step": 786
	},
	{
	"epoch": 1.55,
	"grad_norm": 0.2096426635980606,
	"learning_rate": 1.099336479359398e-06,
	"loss": 0.2448,
	"step": 787
	},
	{
	"epoch": 1.552,
	"grad_norm": 0.24535740911960602,
	"learning_rate": 1.0894297491479044e-06,
	"loss": 0.2892,
	"step": 788
	},
	{
	"epoch": 1.554,
	"grad_norm": 0.2067105919122696,
	"learning_rate": 1.0795623983354214e-06,
	"loss": 0.2584,
	"step": 789
	},
	{
	"epoch": 1.556,
	"grad_norm": 0.2478252500295639,
	"learning_rate": 1.0697345262860638e-06,
	"loss": 0.3474,
	"step": 790
	},
	{
	"epoch": 1.558,
	"grad_norm": 0.17269453406333923,
	"learning_rate": 1.0599462319663906e-06,
	"loss": 0.2793,
	"step": 791
	},
	{
	"epoch": 1.56,
	"grad_norm": 0.2102997750043869,
	"learning_rate": 1.0501976139444191e-06,
	"loss": 0.3124,
	"step": 792
	},
	{
	"epoch": 1.562,
	"grad_norm": 0.29494714736938477,
	"learning_rate": 1.0404887703886252e-06,
	"loss": 0.2693,
	"step": 793
	},
	{
	"epoch": 1.564,
	"grad_norm": 0.19094854593276978,
	"learning_rate": 1.0308197990669538e-06,
	"loss": 0.3593,
	"step": 794
	},
	{
	"epoch": 1.5659999999999998,
	"grad_norm": 0.20082080364227295,
	"learning_rate": 1.0211907973458391e-06,
	"loss": 0.2296,
	"step": 795
	},
	{
	"epoch": 1.568,
	"grad_norm": 0.24483440816402435,
	"learning_rate": 1.0116018621892237e-06,
	"loss": 0.344,
	"step": 796
	},
	{
	"epoch": 1.5699999999999998,
	"grad_norm": 0.21700353920459747,
	"learning_rate": 1.0020530901575754e-06,
	"loss": 0.2562,
	"step": 797
	},
	{
	"epoch": 1.572,
	"grad_norm": 0.18885864317417145,
	"learning_rate": 9.925445774069232e-07,
	"loss": 0.2155,
	"step": 798
	},
	{
	"epoch": 1.5739999999999998,
	"grad_norm": 0.2546456754207611,
	"learning_rate": 9.830764196878872e-07,
	"loss": 0.3539,
	"step": 799
	},
	{
	"epoch": 1.576,
	"grad_norm": 0.20347674190998077,
	"learning_rate": 9.73648712344707e-07,
	"loss": 0.2864,
	"step": 800
	},
	{
	"epoch": 1.5779999999999998,
	"grad_norm": 0.3315930962562561,
	"learning_rate": 9.642615503142927e-07,
	"loss": 0.3753,
	"step": 801
	},
	{
	"epoch": 1.58,
	"grad_norm": 0.18244577944278717,
	"learning_rate": 9.549150281252633e-07,
	"loss": 0.2116,
	"step": 802
	},
	{
	"epoch": 1.5819999999999999,
	"grad_norm": 0.24047374725341797,
	"learning_rate": 9.456092398969902e-07,
	"loss": 0.3352,
	"step": 803
	},
	{
	"epoch": 1.584,
	"grad_norm": 0.2712211012840271,
	"learning_rate": 9.363442793386606e-07,
	"loss": 0.4647,
	"step": 804
	},
	{
	"epoch": 1.5859999999999999,
	"grad_norm": 0.15284787118434906,
	"learning_rate": 9.271202397483214e-07,
	"loss": 0.2296,
	"step": 805
	},
	{
	"epoch": 1.588,
	"grad_norm": 0.2665194571018219,
	"learning_rate": 9.179372140119524e-07,
	"loss": 0.353,
	"step": 806
	},
	{
	"epoch": 1.5899999999999999,
	"grad_norm": 0.2965538799762726,
	"learning_rate": 9.087952946025175e-07,
	"loss": 0.2863,
	"step": 807
	},
	{
	"epoch": 1.592,
	"grad_norm": 0.19379866123199463,
	"learning_rate": 8.996945735790447e-07,
	"loss": 0.3056,
	"step": 808
	},
	{
	"epoch": 1.5939999999999999,
	"grad_norm": 0.2339809238910675,
	"learning_rate": 8.906351425856952e-07,
	"loss": 0.3741,
	"step": 809
	},
	{
	"epoch": 1.596,
	"grad_norm": 0.2753208577632904,
	"learning_rate": 8.816170928508367e-07,
	"loss": 0.2715,
	"step": 810
	},
	{
	"epoch": 1.5979999999999999,
	"grad_norm": 0.2367635816335678,
	"learning_rate": 8.7264051518613e-07,
	"loss": 0.3268,
	"step": 811
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.2004977911710739,
	"learning_rate": 8.637054999856148e-07,
	"loss": 0.2217,
	"step": 812
	},
	{
	"epoch": 1.6019999999999999,
	"grad_norm": 0.3549105226993561,
	"learning_rate": 8.54812137224792e-07,
	"loss": 0.3371,
	"step": 813
	},
	{
	"epoch": 1.604,
	"grad_norm": 0.27921661734580994,
	"learning_rate": 8.459605164597268e-07,
	"loss": 0.3983,
	"step": 814
	},
	{
	"epoch": 1.6059999999999999,
	"grad_norm": 0.2014499306678772,
	"learning_rate": 8.371507268261436e-07,
	"loss": 0.2413,
	"step": 815
	},
	{
	"epoch": 1.608,
	"grad_norm": 0.20690080523490906,
	"learning_rate": 8.283828570385239e-07,
	"loss": 0.2012,
	"step": 816
	},
	{
	"epoch": 1.6099999999999999,
	"grad_norm": 0.21998871862888336,
	"learning_rate": 8.196569953892202e-07,
	"loss": 0.3298,
	"step": 817
	},
	{
	"epoch": 1.612,
	"grad_norm": 0.3980468511581421,
	"learning_rate": 8.109732297475637e-07,
	"loss": 0.3194,
	"step": 818
	},
	{
	"epoch": 1.6139999999999999,
	"grad_norm": 0.20355728268623352,
	"learning_rate": 8.023316475589754e-07,
	"loss": 0.1823,
	"step": 819
	},
	{
	"epoch": 1.616,
	"grad_norm": 0.17916588485240936,
	"learning_rate": 7.937323358440935e-07,
	"loss": 0.2189,
	"step": 820
	},
	{
	"epoch": 1.6179999999999999,
	"grad_norm": 0.3024926781654358,
	"learning_rate": 7.851753811978924e-07,
	"loss": 0.3149,
	"step": 821
	},
	{
	"epoch": 1.62,
	"grad_norm": 0.20770519971847534,
	"learning_rate": 7.766608697888095e-07,
	"loss": 0.2967,
	"step": 822
	},
	{
	"epoch": 1.6219999999999999,
	"grad_norm": 0.2985385060310364,
	"learning_rate": 7.681888873578786e-07,
	"loss": 0.3245,
	"step": 823
	},
	{
	"epoch": 1.624,
	"grad_norm": 0.238825723528862,
	"learning_rate": 7.597595192178702e-07,
	"loss": 0.2024,
	"step": 824
	},
	{
	"epoch": 1.626,
	"grad_norm": 0.24210689961910248,
	"learning_rate": 7.513728502524286e-07,
	"loss": 0.3364,
	"step": 825
	},
	{
	"epoch": 1.6280000000000001,
	"grad_norm": 0.2465432733297348,
	"learning_rate": 7.430289649152156e-07,
	"loss": 0.3643,
	"step": 826
	},
	{
	"epoch": 1.63,
	"grad_norm": 0.37851664423942566,
	"learning_rate": 7.347279472290647e-07,
	"loss": 0.4549,
	"step": 827
	},
	{
	"epoch": 1.6320000000000001,
	"grad_norm": 0.29046836495399475,
	"learning_rate": 7.264698807851328e-07,
	"loss": 0.3777,
	"step": 828
	},
	{
	"epoch": 1.634,
	"grad_norm": 0.17954066395759583,
	"learning_rate": 7.182548487420555e-07,
	"loss": 0.1817,
	"step": 829
	},
	{
	"epoch": 1.6360000000000001,
	"grad_norm": 0.21587719023227692,
	"learning_rate": 7.100829338251147e-07,
	"loss": 0.3208,
	"step": 830
	},
	{
	"epoch": 1.638,
	"grad_norm": 0.24211935698986053,
	"learning_rate": 7.019542183254047e-07,
	"loss": 0.302,
	"step": 831
	},
	{
	"epoch": 1.6400000000000001,
	"grad_norm": 0.3430536389350891,
	"learning_rate": 6.938687840989972e-07,
	"loss": 0.3358,
	"step": 832
	},
	{
	"epoch": 1.642,
	"grad_norm": 0.26358646154403687,
	"learning_rate": 6.858267125661272e-07,
	"loss": 0.3329,
	"step": 833
	},
	{
	"epoch": 1.6440000000000001,
	"grad_norm": 0.21013550460338593,
	"learning_rate": 6.778280847103668e-07,
	"loss": 0.247,
	"step": 834
	},
	{
	"epoch": 1.646,
	"grad_norm": 0.17694292962551117,
	"learning_rate": 6.698729810778065e-07,
	"loss": 0.2205,
	"step": 835
	},
	{
	"epoch": 1.6480000000000001,
	"grad_norm": 0.15793128311634064,
	"learning_rate": 6.619614817762537e-07,
	"loss": 0.1541,
	"step": 836
	},
	{
	"epoch": 1.65,
	"grad_norm": 0.18143923580646515,
	"learning_rate": 6.540936664744197e-07,
	"loss": 0.2367,
	"step": 837
	},
	{
	"epoch": 1.6520000000000001,
	"grad_norm": 0.21212640404701233,
	"learning_rate": 6.462696144011149e-07,
	"loss": 0.3049,
	"step": 838
	},
	{
	"epoch": 1.654,
	"grad_norm": 0.21567395329475403,
	"learning_rate": 6.384894043444568e-07,
	"loss": 0.2519,
	"step": 839
	},
	{
	"epoch": 1.6560000000000001,
	"grad_norm": 0.17464697360992432,
	"learning_rate": 6.307531146510754e-07,
	"loss": 0.1692,
	"step": 840
	},
	{
	"epoch": 1.658,
	"grad_norm": 0.23152326047420502,
	"learning_rate": 6.230608232253227e-07,
	"loss": 0.2823,
	"step": 841
	},
	{
	"epoch": 1.6600000000000001,
	"grad_norm": 0.3341864049434662,
	"learning_rate": 6.154126075284855e-07,
	"loss": 0.2823,
	"step": 842
	},
	{
	"epoch": 1.662,
	"grad_norm": 0.24136964976787567,
	"learning_rate": 6.07808544578013e-07,
	"loss": 0.3713,
	"step": 843
	},
	{
	"epoch": 1.6640000000000001,
	"grad_norm": 0.21439406275749207,
	"learning_rate": 6.002487109467347e-07,
	"loss": 0.2631,
	"step": 844
	},
	{
	"epoch": 1.666,
	"grad_norm": 0.3102458715438843,
	"learning_rate": 5.927331827620902e-07,
	"loss": 0.3513,
	"step": 845
	},
	{
	"epoch": 1.6680000000000001,
	"grad_norm": 0.20326466858386993,
	"learning_rate": 5.852620357053651e-07,
	"loss": 0.2738,
	"step": 846
	},
	{
	"epoch": 1.67,
	"grad_norm": 0.185090109705925,
	"learning_rate": 5.778353450109286e-07,
	"loss": 0.2665,
	"step": 847
	},
	{
	"epoch": 1.6720000000000002,
	"grad_norm": 0.17061105370521545,
	"learning_rate": 5.704531854654721e-07,
	"loss": 0.2018,
	"step": 848
	},
	{
	"epoch": 1.674,
	"grad_norm": 0.18026676774024963,
	"learning_rate": 5.631156314072605e-07,
	"loss": 0.2182,
	"step": 849
	},
	{
	"epoch": 1.6760000000000002,
	"grad_norm": 0.24431855976581573,
	"learning_rate": 5.558227567253832e-07,
	"loss": 0.3036,
	"step": 850
	},
	{
	"epoch": 1.678,
	"grad_norm": 0.1817561835050583,
	"learning_rate": 5.485746348590048e-07,
	"loss": 0.2786,
	"step": 851
	},
	{
	"epoch": 1.6800000000000002,
	"grad_norm": 0.20034758746623993,
	"learning_rate": 5.413713387966329e-07,
	"loss": 0.2073,
	"step": 852
	},
	{
	"epoch": 1.682,
	"grad_norm": 0.23046346008777618,
	"learning_rate": 5.34212941075381e-07,
	"loss": 0.2456,
	"step": 853
	},
	{
	"epoch": 1.6840000000000002,
	"grad_norm": 0.28231683373451233,
	"learning_rate": 5.270995137802315e-07,
	"loss": 0.2962,
	"step": 854
	},
	{
	"epoch": 1.686,
	"grad_norm": 0.20535282790660858,
	"learning_rate": 5.200311285433213e-07,
	"loss": 0.2003,
	"step": 855
	},
	{
	"epoch": 1.688,
	"grad_norm": 0.27334460616111755,
	"learning_rate": 5.130078565432089e-07,
	"loss": 0.2784,
	"step": 856
	},
	{
	"epoch": 1.69,
	"grad_norm": 0.2541443109512329,
	"learning_rate": 5.06029768504166e-07,
	"loss": 0.3575,
	"step": 857
	},
	{
	"epoch": 1.692,
	"grad_norm": 0.20568181574344635,
	"learning_rate": 4.990969346954611e-07,
	"loss": 0.3116,
	"step": 858
	},
	{
	"epoch": 1.694,
	"grad_norm": 0.2725497782230377,
	"learning_rate": 4.922094249306559e-07,
	"loss": 0.2698,
	"step": 859
	},
	{
	"epoch": 1.696,
	"grad_norm": 0.2767050862312317,
	"learning_rate": 4.853673085668947e-07,
	"loss": 0.3246,
	"step": 860
	},
	{
	"epoch": 1.698,
	"grad_norm": 0.27081194519996643,
	"learning_rate": 4.785706545042141e-07,
	"loss": 0.3067,
	"step": 861
	},
	{
	"epoch": 1.7,
	"grad_norm": 0.2148142009973526,
	"learning_rate": 4.7181953118484556e-07,
	"loss": 0.335,
	"step": 862
	},
	{
	"epoch": 1.702,
	"grad_norm": 0.20924992859363556,
	"learning_rate": 4.651140065925269e-07,
	"loss": 0.2473,
	"step": 863
	},
	{
	"epoch": 1.704,
	"grad_norm": 0.1969323456287384,
	"learning_rate": 4.58454148251814e-07,
	"loss": 0.2384,
	"step": 864
	},
	{
	"epoch": 1.706,
	"grad_norm": 0.21272586286067963,
	"learning_rate": 4.5184002322740784e-07,
	"loss": 0.1894,
	"step": 865
	},
	{
	"epoch": 1.708,
	"grad_norm": 0.22230306267738342,
	"learning_rate": 4.4527169812347446e-07,
	"loss": 0.2878,
	"step": 866
	},
	{
	"epoch": 1.71,
	"grad_norm": 0.23957069218158722,
	"learning_rate": 4.387492390829734e-07,
	"loss": 0.2608,
	"step": 867
	},
	{
	"epoch": 1.712,
	"grad_norm": 0.19603803753852844,
	"learning_rate": 4.322727117869951e-07,
	"loss": 0.2291,
	"step": 868
	},
	{
	"epoch": 1.714,
	"grad_norm": 0.19814668595790863,
	"learning_rate": 4.2584218145409916e-07,
	"loss": 0.2933,
	"step": 869
	},
	{
	"epoch": 1.716,
	"grad_norm": 0.2840145230293274,
	"learning_rate": 4.194577128396521e-07,
	"loss": 0.2678,
	"step": 870
	},
	{
	"epoch": 1.718,
	"grad_norm": 0.3841419816017151,
	"learning_rate": 4.131193702351827e-07,
	"loss": 0.4492,
	"step": 871
	},
	{
	"epoch": 1.72,
	"grad_norm": 0.1749158352613449,
	"learning_rate": 4.0682721746773346e-07,
	"loss": 0.2205,
	"step": 872
	},
	{
	"epoch": 1.722,
	"grad_norm": 0.22776730358600616,
	"learning_rate": 4.005813178992091e-07,
	"loss": 0.2634,
	"step": 873
	},
	{
	"epoch": 1.724,
	"grad_norm": 0.20322760939598083,
	"learning_rate": 3.9438173442575e-07,
	"loss": 0.3125,
	"step": 874
	},
	{
	"epoch": 1.726,
	"grad_norm": 0.24371430277824402,
	"learning_rate": 3.882285294770938e-07,
	"loss": 0.3223,
	"step": 875
	},
	{
	"epoch": 1.726,
	"eval_loss": 0.26352861523628235,
	"eval_runtime": 76.577,
	"eval_samples_per_second": 7.208,
	"eval_steps_per_second": 0.901,
	"step": 875
	},
	{
	"epoch": 1.728,
	"grad_norm": 0.2777194678783417,
	"learning_rate": 3.821217650159453e-07,
	"loss": 0.3117,
	"step": 876
	},
	{
	"epoch": 1.73,
	"grad_norm": 0.21060119569301605,
	"learning_rate": 3.760615025373543e-07,
	"loss": 0.2444,
	"step": 877
	},
	{
	"epoch": 1.732,
	"grad_norm": 0.19364982843399048,
	"learning_rate": 3.7004780306809873e-07,
	"loss": 0.2534,
	"step": 878
	},
	{
	"epoch": 1.734,
	"grad_norm": 0.2388126105070114,
	"learning_rate": 3.6408072716606346e-07,
	"loss": 0.5307,
	"step": 879
	},
	{
	"epoch": 1.736,
	"grad_norm": 0.21501779556274414,
	"learning_rate": 3.581603349196372e-07,
	"loss": 0.299,
	"step": 880
	},
	{
	"epoch": 1.738,
	"grad_norm": 0.2748852074146271,
	"learning_rate": 3.522866859471047e-07,
	"loss": 0.4626,
	"step": 881
	},
	{
	"epoch": 1.74,
	"grad_norm": 0.2657471299171448,
	"learning_rate": 3.46459839396045e-07,
	"loss": 0.2947,
	"step": 882
	},
	{
	"epoch": 1.742,
	"grad_norm": 0.1825701743364334,
	"learning_rate": 3.406798539427386e-07,
	"loss": 0.2525,
	"step": 883
	},
	{
	"epoch": 1.744,
	"grad_norm": 0.18898171186447144,
	"learning_rate": 3.3494678779157464e-07,
	"loss": 0.2188,
	"step": 884
	},
	{
	"epoch": 1.746,
	"grad_norm": 0.2019154280424118,
	"learning_rate": 3.2926069867446673e-07,
	"loss": 0.2575,
	"step": 885
	},
	{
	"epoch": 1.748,
	"grad_norm": 0.26931118965148926,
	"learning_rate": 3.2362164385026704e-07,
	"loss": 0.2867,
	"step": 886
	},
	{
	"epoch": 1.75,
	"grad_norm": 0.25869134068489075,
	"learning_rate": 3.180296801041971e-07,
	"loss": 0.4233,
	"step": 887
	},
	{
	"epoch": 1.752,
	"grad_norm": 0.24689964950084686,
	"learning_rate": 3.1248486374726884e-07,
	"loss": 0.3778,
	"step": 888
	},
	{
	"epoch": 1.754,
	"grad_norm": 0.2961515486240387,
	"learning_rate": 3.069872506157212e-07,
	"loss": 0.3767,
	"step": 889
	},
	{
	"epoch": 1.756,
	"grad_norm": 0.2758214473724365,
	"learning_rate": 3.015368960704584e-07,
	"loss": 0.4107,
	"step": 890
	},
	{
	"epoch": 1.758,
	"grad_norm": 0.19258597493171692,
	"learning_rate": 2.9613385499648926e-07,
	"loss": 0.2285,
	"step": 891
	},
	{
	"epoch": 1.76,
	"grad_norm": 0.21885156631469727,
	"learning_rate": 2.9077818180237693e-07,
	"loss": 0.2726,
	"step": 892
	},
	{
	"epoch": 1.762,
	"grad_norm": 0.20850767195224762,
	"learning_rate": 2.8546993041969173e-07,
	"loss": 0.3443,
	"step": 893
	},
	{
	"epoch": 1.764,
	"grad_norm": 0.22747254371643066,
	"learning_rate": 2.802091543024671e-07,
	"loss": 0.2785,
	"step": 894
	},
	{
	"epoch": 1.766,
	"grad_norm": 0.18733809888362885,
	"learning_rate": 2.7499590642665773e-07,
	"loss": 0.2047,
	"step": 895
	},
	{
	"epoch": 1.768,
	"grad_norm": 0.230934277176857,
	"learning_rate": 2.6983023928961406e-07,
	"loss": 0.2994,
	"step": 896
	},
	{
	"epoch": 1.77,
	"grad_norm": 0.1833610087633133,
	"learning_rate": 2.647122049095463e-07,
	"loss": 0.2064,
	"step": 897
	},
	{
	"epoch": 1.772,
	"grad_norm": 0.2077609896659851,
	"learning_rate": 2.596418548250029e-07,
	"loss": 0.2537,
	"step": 898
	},
	{
	"epoch": 1.774,
	"grad_norm": 0.163072407245636,
	"learning_rate": 2.546192400943537e-07,
	"loss": 0.194,
	"step": 899
	},
	{
	"epoch": 1.776,
	"grad_norm": 0.1943567395210266,
	"learning_rate": 2.4964441129527337e-07,
	"loss": 0.2519,
	"step": 900
	},
	{
	"epoch": 1.778,
	"grad_norm": 0.18382684886455536,
	"learning_rate": 2.447174185242324e-07,
	"loss": 0.1944,
	"step": 901
	},
	{
	"epoch": 1.78,
	"grad_norm": 0.20981475710868835,
	"learning_rate": 2.398383113959929e-07,
	"loss": 0.173,
	"step": 902
	},
	{
	"epoch": 1.782,
	"grad_norm": 0.1996649205684662,
	"learning_rate": 2.3500713904311023e-07,
	"loss": 0.2536,
	"step": 903
	},
	{
	"epoch": 1.784,
	"grad_norm": 0.2560986578464508,
	"learning_rate": 2.3022395011543687e-07,
	"loss": 0.374,
	"step": 904
	},
	{
	"epoch": 1.786,
	"grad_norm": 0.20811672508716583,
	"learning_rate": 2.2548879277963065e-07,
	"loss": 0.3225,
	"step": 905
	},
	{
	"epoch": 1.788,
	"grad_norm": 0.1996699571609497,
	"learning_rate": 2.2080171471867362e-07,
	"loss": 0.2632,
	"step": 906
	},
	{
	"epoch": 1.79,
	"grad_norm": 0.20678700506687164,
	"learning_rate": 2.161627631313923e-07,
	"loss": 0.3513,
	"step": 907
	},
	{
	"epoch": 1.792,
	"grad_norm": 0.20172181725502014,
	"learning_rate": 2.1157198473197417e-07,
	"loss": 0.2117,
	"step": 908
	},
	{
	"epoch": 1.794,
	"grad_norm": 0.16854679584503174,
	"learning_rate": 2.0702942574950812e-07,
	"loss": 0.3006,
	"step": 909
	},
	{
	"epoch": 1.796,
	"grad_norm": 0.1959567815065384,
	"learning_rate": 2.0253513192751374e-07,
	"loss": 0.2695,
	"step": 910
	},
	{
	"epoch": 1.798,
	"grad_norm": 0.1726803481578827,
	"learning_rate": 1.9808914852347817e-07,
	"loss": 0.2635,
	"step": 911
	},
	{
	"epoch": 1.8,
	"grad_norm": 0.22450147569179535,
	"learning_rate": 1.9369152030840553e-07,
	"loss": 0.2598,
	"step": 912
	},
	{
	"epoch": 1.802,
	"grad_norm": 0.26783040165901184,
	"learning_rate": 1.8934229156636453e-07,
	"loss": 0.2029,
	"step": 913
	},
	{
	"epoch": 1.804,
	"grad_norm": 0.2690034508705139,
	"learning_rate": 1.8504150609403858e-07,
	"loss": 0.2446,
	"step": 914
	},
	{
	"epoch": 1.806,
	"grad_norm": 0.23306065797805786,
	"learning_rate": 1.807892072002898e-07,
	"loss": 0.3264,
	"step": 915
	},
	{
	"epoch": 1.808,
	"grad_norm": 0.2681446075439453,
	"learning_rate": 1.765854377057219e-07,
	"loss": 0.302,
	"step": 916
	},
	{
	"epoch": 1.81,
	"grad_norm": 0.19500699639320374,
	"learning_rate": 1.724302399422456e-07,
	"loss": 0.2066,
	"step": 917
	},
	{
	"epoch": 1.812,
	"grad_norm": 0.2524206340312958,
	"learning_rate": 1.6832365575265742e-07,
	"loss": 0.3334,
	"step": 918
	},
	{
	"epoch": 1.814,
	"grad_norm": 0.2076834887266159,
	"learning_rate": 1.6426572649021477e-07,
	"loss": 0.2737,
	"step": 919
	},
	{
	"epoch": 1.8159999999999998,
	"grad_norm": 0.28093916177749634,
	"learning_rate": 1.6025649301821877e-07,
	"loss": 0.3558,
	"step": 920
	},
	{
	"epoch": 1.818,
	"grad_norm": 0.24566200375556946,
	"learning_rate": 1.562959957096072e-07,
	"loss": 0.3636,
	"step": 921
	},
	{
	"epoch": 1.8199999999999998,
	"grad_norm": 0.2996765077114105,
	"learning_rate": 1.5238427444654368e-07,
	"loss": 0.3945,
	"step": 922
	},
	{
	"epoch": 1.822,
	"grad_norm": 0.24855782091617584,
	"learning_rate": 1.4852136862001766e-07,
	"loss": 0.1894,
	"step": 923
	},
	{
	"epoch": 1.8239999999999998,
	"grad_norm": 0.2089153230190277,
	"learning_rate": 1.4470731712944885e-07,
	"loss": 0.3297,
	"step": 924
	},
	{
	"epoch": 1.826,
	"grad_norm": 0.3130733072757721,
	"learning_rate": 1.4094215838229176e-07,
	"loss": 0.4001,
	"step": 925
	},
	{
	"epoch": 1.8279999999999998,
	"grad_norm": 0.2722707688808441,
	"learning_rate": 1.372259302936546e-07,
	"loss": 0.356,
	"step": 926
	},
	{
	"epoch": 1.83,
	"grad_norm": 0.15767575800418854,
	"learning_rate": 1.3355867028591209e-07,
	"loss": 0.2161,
	"step": 927
	},
	{
	"epoch": 1.8319999999999999,
	"grad_norm": 0.18771317601203918,
	"learning_rate": 1.2994041528833267e-07,
	"loss": 0.1912,
	"step": 928
	},
	{
	"epoch": 1.834,
	"grad_norm": 0.15640737116336823,
	"learning_rate": 1.263712017367036e-07,
	"loss": 0.2173,
	"step": 929
	},
	{
	"epoch": 1.8359999999999999,
	"grad_norm": 0.2588789463043213,
	"learning_rate": 1.2285106557296479e-07,
	"loss": 0.3506,
	"step": 930
	},
	{
	"epoch": 1.838,
	"grad_norm": 0.21290963888168335,
	"learning_rate": 1.193800422448499e-07,
	"loss": 0.2377,
	"step": 931
	},
	{
	"epoch": 1.8399999999999999,
	"grad_norm": 0.198676198720932,
	"learning_rate": 1.1595816670552429e-07,
	"loss": 0.1823,
	"step": 932
	},
	{
	"epoch": 1.842,
	"grad_norm": 0.23629765212535858,
	"learning_rate": 1.12585473413237e-07,
	"loss": 0.2565,
	"step": 933
	},
	{
	"epoch": 1.8439999999999999,
	"grad_norm": 0.23395268619060516,
	"learning_rate": 1.0926199633097156e-07,
	"loss": 0.2184,
	"step": 934
	},
	{
	"epoch": 1.846,
	"grad_norm": 0.2589554190635681,
	"learning_rate": 1.0598776892610685e-07,
	"loss": 0.369,
	"step": 935
	},
	{
	"epoch": 1.8479999999999999,
	"grad_norm": 0.22093115746974945,
	"learning_rate": 1.0276282417007399e-07,
	"loss": 0.3437,
	"step": 936
	},
	{
	"epoch": 1.85,
	"grad_norm": 0.23697194457054138,
	"learning_rate": 9.958719453803278e-08,
	"loss": 0.3288,
	"step": 937
	},
	{
	"epoch": 1.8519999999999999,
	"grad_norm": 0.22383596003055573,
	"learning_rate": 9.646091200853802e-08,
	"loss": 0.4897,
	"step": 938
	},
	{
	"epoch": 1.854,
	"grad_norm": 0.20475724339485168,
	"learning_rate": 9.338400806321979e-08,
	"loss": 0.257,
	"step": 939
	},
	{
	"epoch": 1.8559999999999999,
	"grad_norm": 0.263615220785141,
	"learning_rate": 9.035651368646647e-08,
	"loss": 0.4592,
	"step": 940
	},
	{
	"epoch": 1.858,
	"grad_norm": 0.24478185176849365,
	"learning_rate": 8.737845936511335e-08,
	"loss": 0.4337,
	"step": 941
	},
	{
	"epoch": 1.8599999999999999,
	"grad_norm": 0.2436402142047882,
	"learning_rate": 8.444987508813451e-08,
	"loss": 0.3344,
	"step": 942
	},
	{
	"epoch": 1.862,
	"grad_norm": 0.23337677121162415,
	"learning_rate": 8.157079034633974e-08,
	"loss": 0.2967,
	"step": 943
	},
	{
	"epoch": 1.8639999999999999,
	"grad_norm": 0.20073962211608887,
	"learning_rate": 7.874123413208145e-08,
	"loss": 0.1952,
	"step": 944
	},
	{
	"epoch": 1.866,
	"grad_norm": 0.2582467496395111,
	"learning_rate": 7.59612349389599e-08,
	"loss": 0.372,
	"step": 945
	},
	{
	"epoch": 1.8679999999999999,
	"grad_norm": 0.2121819704771042,
	"learning_rate": 7.32308207615351e-08,
	"loss": 0.2619,
	"step": 946
	},
	{
	"epoch": 1.87,
	"grad_norm": 0.16836410760879517,
	"learning_rate": 7.055001909504755e-08,
	"loss": 0.293,
	"step": 947
	},
	{
	"epoch": 1.8719999999999999,
	"grad_norm": 0.18819768726825714,
	"learning_rate": 6.791885693514134e-08,
	"loss": 0.2476,
	"step": 948
	},
	{
	"epoch": 1.874,
	"grad_norm": 0.2157561331987381,
	"learning_rate": 6.533736077758868e-08,
	"loss": 0.2615,
	"step": 949
	},
	{
	"epoch": 1.876,
	"grad_norm": 0.24670301377773285,
	"learning_rate": 6.280555661802857e-08,
	"loss": 0.371,
	"step": 950
	},
	{
	"epoch": 1.8780000000000001,
	"grad_norm": 0.21483668684959412,
	"learning_rate": 6.032346995169968e-08,
	"loss": 0.2231,
	"step": 951
	},
	{
	"epoch": 1.88,
	"grad_norm": 0.1763847917318344,
	"learning_rate": 5.7891125773187896e-08,
	"loss": 0.2074,
	"step": 952
	},
	{
	"epoch": 1.8820000000000001,
	"grad_norm": 0.20190970599651337,
	"learning_rate": 5.550854857617194e-08,
	"loss": 0.3226,
	"step": 953
	},
	{
	"epoch": 1.884,
	"grad_norm": 0.23266001045703888,
	"learning_rate": 5.3175762353177563e-08,
	"loss": 0.3055,
	"step": 954
	},
	{
	"epoch": 1.8860000000000001,
	"grad_norm": 0.26426488161087036,
	"learning_rate": 5.089279059533658e-08,
	"loss": 0.3319,
	"step": 955
	},
	{
	"epoch": 1.888,
	"grad_norm": 0.24322916567325592,
	"learning_rate": 4.865965629214819e-08,
	"loss": 0.2372,
	"step": 956
	},
	{
	"epoch": 1.8900000000000001,
	"grad_norm": 0.23628686368465424,
	"learning_rate": 4.6476381931251366e-08,
	"loss": 0.3808,
	"step": 957
	},
	{
	"epoch": 1.892,
	"grad_norm": 0.16934725642204285,
	"learning_rate": 4.434298949819449e-08,
	"loss": 0.1737,
	"step": 958
	},
	{
	"epoch": 1.8940000000000001,
	"grad_norm": 0.30660754442214966,
	"learning_rate": 4.225950047621441e-08,
	"loss": 0.3483,
	"step": 959
	},
	{
	"epoch": 1.896,
	"grad_norm": 0.27640894055366516,
	"learning_rate": 4.02259358460233e-08,
	"loss": 0.3264,
	"step": 960
	},
	{
	"epoch": 1.8980000000000001,
	"grad_norm": 0.2123912125825882,
	"learning_rate": 3.8242316085594923e-08,
	"loss": 0.3876,
	"step": 961
	},
	{
	"epoch": 1.9,
	"grad_norm": 0.2987152636051178,
	"learning_rate": 3.630866116995757e-08,
	"loss": 0.4525,
	"step": 962
	},
	{
	"epoch": 1.9020000000000001,
	"grad_norm": 0.22001074254512787,
	"learning_rate": 3.44249905709948e-08,
	"loss": 0.1842,
	"step": 963
	},
	{
	"epoch": 1.904,
	"grad_norm": 0.20775096118450165,
	"learning_rate": 3.25913232572489e-08,
	"loss": 0.3012,
	"step": 964
	},
	{
	"epoch": 1.9060000000000001,
	"grad_norm": 0.19180834293365479,
	"learning_rate": 3.080767769372939e-08,
	"loss": 0.2681,
	"step": 965
	},
	{
	"epoch": 1.908,
	"grad_norm": 0.22222468256950378,
	"learning_rate": 2.907407184172706e-08,
	"loss": 0.1809,
	"step": 966
	},
	{
	"epoch": 1.9100000000000001,
	"grad_norm": 0.20555076003074646,
	"learning_rate": 2.7390523158633552e-08,
	"loss": 0.1482,
	"step": 967
	},
	{
	"epoch": 1.912,
	"grad_norm": 0.29668375849723816,
	"learning_rate": 2.57570485977654e-08,
	"loss": 0.2179,
	"step": 968
	},
	{
	"epoch": 1.9140000000000001,
	"grad_norm": 0.19830183684825897,
	"learning_rate": 2.4173664608193592e-08,
	"loss": 0.2677,
	"step": 969
	},
	{
	"epoch": 1.916,
	"grad_norm": 0.23050029575824738,
	"learning_rate": 2.264038713457706e-08,
	"loss": 0.3348,
	"step": 970
	},
	{
	"epoch": 1.9180000000000001,
	"grad_norm": 0.36921679973602295,
	"learning_rate": 2.1157231617002783e-08,
	"loss": 0.4821,
	"step": 971
	},
	{
	"epoch": 1.92,
	"grad_norm": 0.16172367334365845,
	"learning_rate": 1.9724212990830938e-08,
	"loss": 0.2348,
	"step": 972
	},
	{
	"epoch": 1.9220000000000002,
	"grad_norm": 0.18016183376312256,
	"learning_rate": 1.834134568654333e-08,
	"loss": 0.2486,
	"step": 973
	},
	{
	"epoch": 1.924,
	"grad_norm": 0.32527899742126465,
	"learning_rate": 1.7008643629596866e-08,
	"loss": 0.3623,
	"step": 974
	},
	{
	"epoch": 1.9260000000000002,
	"grad_norm": 0.21802493929862976,
	"learning_rate": 1.5726120240288632e-08,
	"loss": 0.2155,
	"step": 975
	},
	{
	"epoch": 1.928,
	"grad_norm": 0.23393763601779938,
	"learning_rate": 1.449378843361271e-08,
	"loss": 0.284,
	"step": 976
	},
	{
	"epoch": 1.9300000000000002,
	"grad_norm": 0.2498655915260315,
	"learning_rate": 1.3311660619138578e-08,
	"loss": 0.2816,
	"step": 977
	},
	{
	"epoch": 1.932,
	"grad_norm": 0.20273719727993011,
	"learning_rate": 1.2179748700879013e-08,
	"loss": 0.2945,
	"step": 978
	},
	{
	"epoch": 1.9340000000000002,
	"grad_norm": 0.16979333758354187,
	"learning_rate": 1.109806407717462e-08,
	"loss": 0.1949,
	"step": 979
	},
	{
	"epoch": 1.936,
	"grad_norm": 0.18881943821907043,
	"learning_rate": 1.006661764057837e-08,
	"loss": 0.2681,
	"step": 980
	},
	{
	"epoch": 1.938,
	"grad_norm": 0.23016507923603058,
	"learning_rate": 9.085419777743465e-09,
	"loss": 0.4162,
	"step": 981
	},
	{
	"epoch": 1.94,
	"grad_norm": 0.21829769015312195,
	"learning_rate": 8.15448036932176e-09,
	"loss": 0.3911,
	"step": 982
	},
	{
	"epoch": 1.942,
	"grad_norm": 0.192356139421463,
	"learning_rate": 7.273808789862724e-09,
	"loss": 0.3076,
	"step": 983
	},
	{
	"epoch": 1.944,
	"grad_norm": 0.20806097984313965,
	"learning_rate": 6.4434139077201865e-09,
	"loss": 0.2808,
	"step": 984
	},
	{
	"epoch": 1.946,
	"grad_norm": 0.2533554434776306,
	"learning_rate": 5.6633040849601865e-09,
	"loss": 0.264,
	"step": 985
	},
	{
	"epoch": 1.948,
	"grad_norm": 0.25440603494644165,
	"learning_rate": 4.933487177280483e-09,
	"loss": 0.386,
	"step": 986
	},
	{
	"epoch": 1.95,
	"grad_norm": 0.2403300553560257,
	"learning_rate": 4.253970533929508e-09,
	"loss": 0.2665,
	"step": 987
	},
	{
	"epoch": 1.952,
	"grad_norm": 0.18095187842845917,
	"learning_rate": 3.6247609976319818e-09,
	"loss": 0.2414,
	"step": 988
	},
	{
	"epoch": 1.954,
	"grad_norm": 0.43698740005493164,
	"learning_rate": 3.0458649045211897e-09,
	"loss": 0.4131,
	"step": 989
	},
	{
	"epoch": 1.956,
	"grad_norm": 0.2908496856689453,
	"learning_rate": 2.5172880840745873e-09,
	"loss": 0.2955,
	"step": 990
	},
	{
	"epoch": 1.958,
	"grad_norm": 0.19435322284698486,
	"learning_rate": 2.0390358590538507e-09,
	"loss": 0.1839,
	"step": 991
	},
	{
	"epoch": 1.96,
	"grad_norm": 0.20639224350452423,
	"learning_rate": 1.61111304545436e-09,
	"loss": 0.336,
	"step": 992
	},
	{
	"epoch": 1.962,
	"grad_norm": 0.18591168522834778,
	"learning_rate": 1.2335239524541298e-09,
	"loss": 0.2653,
	"step": 993
	},
	{
	"epoch": 1.964,
	"grad_norm": 0.2295517921447754,
	"learning_rate": 9.062723823710651e-10,
	"loss": 0.3478,
	"step": 994
	},
	{
	"epoch": 1.966,
	"grad_norm": 0.2810915410518646,
	"learning_rate": 6.293616306246586e-10,
	"loss": 0.3266,
	"step": 995
	},
	{
	"epoch": 1.968,
	"grad_norm": 0.19316555559635162,
	"learning_rate": 4.027944857032395e-10,
	"loss": 0.2753,
	"step": 996
	},
	{
	"epoch": 1.97,
	"grad_norm": 0.24243375658988953,
	"learning_rate": 2.265732291356626e-10,
	"loss": 0.2786,
	"step": 997
	},
	{
	"epoch": 1.972,
	"grad_norm": 0.27688726782798767,
	"learning_rate": 1.0069963546743833e-10,
	"loss": 0.2615,
	"step": 998
	},
	{
	"epoch": 1.974,
	"grad_norm": 0.18696589767932892,
	"learning_rate": 2.5174972244634834e-11,
	"loss": 0.2866,
	"step": 999
	},
	{
	"epoch": 1.976,
	"grad_norm": 0.21791526675224304,
	"learning_rate": 0.0,
	"loss": 0.2074,
	"step": 1000
	},
	{
	"epoch": 1.976,
	"eval_loss": 0.26330506801605225,
	"eval_runtime": 76.7272,
	"eval_samples_per_second": 7.194,
	"eval_steps_per_second": 0.899,
	"step": 1000
	}
	],
	"logging_steps": 1,
	"max_steps": 1000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 250,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5.531674674724864e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}