qwen2-7b-magpie300k_filtered_epoch2 / trainer_state.json

Upload folder using huggingface_hub

c1edf8c verified 6 months ago

143 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.981177899210686,
	"eval_steps": 26,
	"global_step": 822,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0024286581663630845,
	"grad_norm": 3.421875,
	"learning_rate": 1.25e-06,
	"loss": 0.9095,
	"step": 1
	},
	{
	"epoch": 0.0024286581663630845,
	"eval_loss": 0.8089314699172974,
	"eval_runtime": 98.8099,
	"eval_samples_per_second": 30.361,
	"eval_steps_per_second": 3.795,
	"step": 1
	},
	{
	"epoch": 0.004857316332726169,
	"grad_norm": 3.40625,
	"learning_rate": 2.5e-06,
	"loss": 0.8146,
	"step": 2
	},
	{
	"epoch": 0.007285974499089253,
	"grad_norm": 3.265625,
	"learning_rate": 3.7500000000000005e-06,
	"loss": 0.806,
	"step": 3
	},
	{
	"epoch": 0.009714632665452338,
	"grad_norm": 2.453125,
	"learning_rate": 5e-06,
	"loss": 0.781,
	"step": 4
	},
	{
	"epoch": 0.012143290831815421,
	"grad_norm": 2.015625,
	"learning_rate": 6.25e-06,
	"loss": 0.7774,
	"step": 5
	},
	{
	"epoch": 0.014571948998178506,
	"grad_norm": 1.953125,
	"learning_rate": 7.500000000000001e-06,
	"loss": 0.776,
	"step": 6
	},
	{
	"epoch": 0.01700060716454159,
	"grad_norm": 2.03125,
	"learning_rate": 8.750000000000001e-06,
	"loss": 0.7554,
	"step": 7
	},
	{
	"epoch": 0.019429265330904676,
	"grad_norm": 1.1640625,
	"learning_rate": 1e-05,
	"loss": 0.7362,
	"step": 8
	},
	{
	"epoch": 0.02185792349726776,
	"grad_norm": 0.97265625,
	"learning_rate": 1.125e-05,
	"loss": 0.7365,
	"step": 9
	},
	{
	"epoch": 0.024286581663630843,
	"grad_norm": 1.1640625,
	"learning_rate": 1.25e-05,
	"loss": 0.7183,
	"step": 10
	},
	{
	"epoch": 0.02671523982999393,
	"grad_norm": 1.1953125,
	"learning_rate": 1.375e-05,
	"loss": 0.7153,
	"step": 11
	},
	{
	"epoch": 0.029143897996357013,
	"grad_norm": 1.2109375,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 0.8111,
	"step": 12
	},
	{
	"epoch": 0.031572556162720096,
	"grad_norm": 0.78125,
	"learning_rate": 1.6250000000000002e-05,
	"loss": 0.6966,
	"step": 13
	},
	{
	"epoch": 0.03400121432908318,
	"grad_norm": 0.640625,
	"learning_rate": 1.7500000000000002e-05,
	"loss": 0.7068,
	"step": 14
	},
	{
	"epoch": 0.03642987249544627,
	"grad_norm": 0.6484375,
	"learning_rate": 1.8750000000000002e-05,
	"loss": 0.6915,
	"step": 15
	},
	{
	"epoch": 0.03885853066180935,
	"grad_norm": 0.6796875,
	"learning_rate": 2e-05,
	"loss": 0.6878,
	"step": 16
	},
	{
	"epoch": 0.041287188828172436,
	"grad_norm": 0.61328125,
	"learning_rate": 1.999992403752328e-05,
	"loss": 0.6902,
	"step": 17
	},
	{
	"epoch": 0.04371584699453552,
	"grad_norm": 0.55859375,
	"learning_rate": 1.999969615124717e-05,
	"loss": 0.6818,
	"step": 18
	},
	{
	"epoch": 0.0461445051608986,
	"grad_norm": 0.52734375,
	"learning_rate": 1.999931634463383e-05,
	"loss": 0.6732,
	"step": 19
	},
	{
	"epoch": 0.048573163327261686,
	"grad_norm": 0.47265625,
	"learning_rate": 1.9998784623453477e-05,
	"loss": 0.6693,
	"step": 20
	},
	{
	"epoch": 0.051001821493624776,
	"grad_norm": 0.47265625,
	"learning_rate": 1.999810099578428e-05,
	"loss": 0.6663,
	"step": 21
	},
	{
	"epoch": 0.05343047965998786,
	"grad_norm": 0.72265625,
	"learning_rate": 1.9997265472012247e-05,
	"loss": 0.7473,
	"step": 22
	},
	{
	"epoch": 0.05585913782635094,
	"grad_norm": 0.462890625,
	"learning_rate": 1.999627806483107e-05,
	"loss": 0.6457,
	"step": 23
	},
	{
	"epoch": 0.058287795992714025,
	"grad_norm": 0.70703125,
	"learning_rate": 1.999513878924193e-05,
	"loss": 0.7388,
	"step": 24
	},
	{
	"epoch": 0.06071645415907711,
	"grad_norm": 0.447265625,
	"learning_rate": 1.9993847662553264e-05,
	"loss": 0.6505,
	"step": 25
	},
	{
	"epoch": 0.06314511232544019,
	"grad_norm": 0.4453125,
	"learning_rate": 1.9992404704380513e-05,
	"loss": 0.6388,
	"step": 26
	},
	{
	"epoch": 0.06314511232544019,
	"eval_loss": 0.649046003818512,
	"eval_runtime": 97.2348,
	"eval_samples_per_second": 30.853,
	"eval_steps_per_second": 3.857,
	"step": 26
	},
	{
	"epoch": 0.06557377049180328,
	"grad_norm": 0.416015625,
	"learning_rate": 1.9990809936645804e-05,
	"loss": 0.6507,
	"step": 27
	},
	{
	"epoch": 0.06800242865816636,
	"grad_norm": 0.42578125,
	"learning_rate": 1.9989063383577644e-05,
	"loss": 0.6536,
	"step": 28
	},
	{
	"epoch": 0.07043108682452945,
	"grad_norm": 0.42578125,
	"learning_rate": 1.998716507171053e-05,
	"loss": 0.6508,
	"step": 29
	},
	{
	"epoch": 0.07285974499089254,
	"grad_norm": 0.412109375,
	"learning_rate": 1.9985115029884556e-05,
	"loss": 0.6465,
	"step": 30
	},
	{
	"epoch": 0.07528840315725562,
	"grad_norm": 0.5546875,
	"learning_rate": 1.9982913289244977e-05,
	"loss": 0.7309,
	"step": 31
	},
	{
	"epoch": 0.0777170613236187,
	"grad_norm": 0.396484375,
	"learning_rate": 1.9980559883241723e-05,
	"loss": 0.6319,
	"step": 32
	},
	{
	"epoch": 0.08014571948998178,
	"grad_norm": 0.392578125,
	"learning_rate": 1.9978054847628908e-05,
	"loss": 0.6309,
	"step": 33
	},
	{
	"epoch": 0.08257437765634487,
	"grad_norm": 0.392578125,
	"learning_rate": 1.9975398220464268e-05,
	"loss": 0.6301,
	"step": 34
	},
	{
	"epoch": 0.08500303582270795,
	"grad_norm": 0.392578125,
	"learning_rate": 1.9972590042108605e-05,
	"loss": 0.6364,
	"step": 35
	},
	{
	"epoch": 0.08743169398907104,
	"grad_norm": 0.400390625,
	"learning_rate": 1.996963035522515e-05,
	"loss": 0.6303,
	"step": 36
	},
	{
	"epoch": 0.08986035215543413,
	"grad_norm": 0.384765625,
	"learning_rate": 1.9966519204778937e-05,
	"loss": 0.6374,
	"step": 37
	},
	{
	"epoch": 0.0922890103217972,
	"grad_norm": 0.390625,
	"learning_rate": 1.99632566380361e-05,
	"loss": 0.6177,
	"step": 38
	},
	{
	"epoch": 0.0947176684881603,
	"grad_norm": 0.38671875,
	"learning_rate": 1.995984270456317e-05,
	"loss": 0.6259,
	"step": 39
	},
	{
	"epoch": 0.09714632665452337,
	"grad_norm": 0.380859375,
	"learning_rate": 1.995627745622632e-05,
	"loss": 0.6311,
	"step": 40
	},
	{
	"epoch": 0.09957498482088646,
	"grad_norm": 0.39453125,
	"learning_rate": 1.9952560947190568e-05,
	"loss": 0.6254,
	"step": 41
	},
	{
	"epoch": 0.10200364298724955,
	"grad_norm": 0.376953125,
	"learning_rate": 1.994869323391895e-05,
	"loss": 0.6197,
	"step": 42
	},
	{
	"epoch": 0.10443230115361263,
	"grad_norm": 0.373046875,
	"learning_rate": 1.9944674375171697e-05,
	"loss": 0.6147,
	"step": 43
	},
	{
	"epoch": 0.10686095931997572,
	"grad_norm": 0.380859375,
	"learning_rate": 1.9940504432005293e-05,
	"loss": 0.6281,
	"step": 44
	},
	{
	"epoch": 0.1092896174863388,
	"grad_norm": 0.36328125,
	"learning_rate": 1.993618346777158e-05,
	"loss": 0.6142,
	"step": 45
	},
	{
	"epoch": 0.11171827565270188,
	"grad_norm": 0.373046875,
	"learning_rate": 1.993171154811679e-05,
	"loss": 0.6182,
	"step": 46
	},
	{
	"epoch": 0.11414693381906496,
	"grad_norm": 0.376953125,
	"learning_rate": 1.992708874098054e-05,
	"loss": 0.6181,
	"step": 47
	},
	{
	"epoch": 0.11657559198542805,
	"grad_norm": 0.375,
	"learning_rate": 1.992231511659481e-05,
	"loss": 0.6136,
	"step": 48
	},
	{
	"epoch": 0.11900425015179114,
	"grad_norm": 0.376953125,
	"learning_rate": 1.9917390747482855e-05,
	"loss": 0.6052,
	"step": 49
	},
	{
	"epoch": 0.12143290831815422,
	"grad_norm": 0.369140625,
	"learning_rate": 1.9912315708458144e-05,
	"loss": 0.6087,
	"step": 50
	},
	{
	"epoch": 0.12386156648451731,
	"grad_norm": 0.359375,
	"learning_rate": 1.9907090076623174e-05,
	"loss": 0.6031,
	"step": 51
	},
	{
	"epoch": 0.12629022465088038,
	"grad_norm": 0.384765625,
	"learning_rate": 1.9901713931368333e-05,
	"loss": 0.6131,
	"step": 52
	},
	{
	"epoch": 0.12629022465088038,
	"eval_loss": 0.612246572971344,
	"eval_runtime": 97.1281,
	"eval_samples_per_second": 30.887,
	"eval_steps_per_second": 3.861,
	"step": 52
	},
	{
	"epoch": 0.12871888281724347,
	"grad_norm": 0.455078125,
	"learning_rate": 1.989618735437069e-05,
	"loss": 0.702,
	"step": 53
	},
	{
	"epoch": 0.13114754098360656,
	"grad_norm": 0.380859375,
	"learning_rate": 1.989051042959273e-05,
	"loss": 0.6192,
	"step": 54
	},
	{
	"epoch": 0.13357619914996965,
	"grad_norm": 0.388671875,
	"learning_rate": 1.9884683243281117e-05,
	"loss": 0.612,
	"step": 55
	},
	{
	"epoch": 0.13600485731633272,
	"grad_norm": 0.376953125,
	"learning_rate": 1.9878705883965342e-05,
	"loss": 0.6026,
	"step": 56
	},
	{
	"epoch": 0.1384335154826958,
	"grad_norm": 0.380859375,
	"learning_rate": 1.9872578442456415e-05,
	"loss": 0.6044,
	"step": 57
	},
	{
	"epoch": 0.1408621736490589,
	"grad_norm": 0.404296875,
	"learning_rate": 1.986630101184546e-05,
	"loss": 0.6061,
	"step": 58
	},
	{
	"epoch": 0.143290831815422,
	"grad_norm": 0.390625,
	"learning_rate": 1.9859873687502317e-05,
	"loss": 0.6113,
	"step": 59
	},
	{
	"epoch": 0.14571948998178508,
	"grad_norm": 0.384765625,
	"learning_rate": 1.9853296567074075e-05,
	"loss": 0.5933,
	"step": 60
	},
	{
	"epoch": 0.14814814814814814,
	"grad_norm": 0.38671875,
	"learning_rate": 1.9846569750483605e-05,
	"loss": 0.6046,
	"step": 61
	},
	{
	"epoch": 0.15057680631451123,
	"grad_norm": 0.3984375,
	"learning_rate": 1.983969333992804e-05,
	"loss": 0.6079,
	"step": 62
	},
	{
	"epoch": 0.15300546448087432,
	"grad_norm": 0.392578125,
	"learning_rate": 1.9832667439877217e-05,
	"loss": 0.6098,
	"step": 63
	},
	{
	"epoch": 0.1554341226472374,
	"grad_norm": 0.373046875,
	"learning_rate": 1.982549215707209e-05,
	"loss": 0.5942,
	"step": 64
	},
	{
	"epoch": 0.15786278081360047,
	"grad_norm": 0.376953125,
	"learning_rate": 1.98181676005231e-05,
	"loss": 0.6082,
	"step": 65
	},
	{
	"epoch": 0.16029143897996356,
	"grad_norm": 0.478515625,
	"learning_rate": 1.9810693881508548e-05,
	"loss": 0.6838,
	"step": 66
	},
	{
	"epoch": 0.16272009714632665,
	"grad_norm": 0.390625,
	"learning_rate": 1.980307111357288e-05,
	"loss": 0.5919,
	"step": 67
	},
	{
	"epoch": 0.16514875531268974,
	"grad_norm": 0.369140625,
	"learning_rate": 1.9795299412524948e-05,
	"loss": 0.5769,
	"step": 68
	},
	{
	"epoch": 0.16757741347905283,
	"grad_norm": 0.3828125,
	"learning_rate": 1.9787378896436292e-05,
	"loss": 0.6,
	"step": 69
	},
	{
	"epoch": 0.1700060716454159,
	"grad_norm": 0.369140625,
	"learning_rate": 1.9779309685639317e-05,
	"loss": 0.5963,
	"step": 70
	},
	{
	"epoch": 0.172434729811779,
	"grad_norm": 0.373046875,
	"learning_rate": 1.9771091902725465e-05,
	"loss": 0.5954,
	"step": 71
	},
	{
	"epoch": 0.17486338797814208,
	"grad_norm": 0.384765625,
	"learning_rate": 1.9762725672543372e-05,
	"loss": 0.5892,
	"step": 72
	},
	{
	"epoch": 0.17729204614450517,
	"grad_norm": 0.376953125,
	"learning_rate": 1.9754211122196945e-05,
	"loss": 0.5883,
	"step": 73
	},
	{
	"epoch": 0.17972070431086826,
	"grad_norm": 0.373046875,
	"learning_rate": 1.9745548381043454e-05,
	"loss": 0.5925,
	"step": 74
	},
	{
	"epoch": 0.18214936247723132,
	"grad_norm": 0.39453125,
	"learning_rate": 1.9736737580691553e-05,
	"loss": 0.5867,
	"step": 75
	},
	{
	"epoch": 0.1845780206435944,
	"grad_norm": 0.373046875,
	"learning_rate": 1.9727778854999283e-05,
	"loss": 0.5931,
	"step": 76
	},
	{
	"epoch": 0.1870066788099575,
	"grad_norm": 0.384765625,
	"learning_rate": 1.9718672340072044e-05,
	"loss": 0.5858,
	"step": 77
	},
	{
	"epoch": 0.1894353369763206,
	"grad_norm": 0.380859375,
	"learning_rate": 1.9709418174260523e-05,
	"loss": 0.5933,
	"step": 78
	},
	{
	"epoch": 0.1894353369763206,
	"eval_loss": 0.5919594168663025,
	"eval_runtime": 97.3358,
	"eval_samples_per_second": 30.821,
	"eval_steps_per_second": 3.853,
	"step": 78
	},
	{
	"epoch": 0.19186399514268368,
	"grad_norm": 0.3671875,
	"learning_rate": 1.970001649815859e-05,
	"loss": 0.5753,
	"step": 79
	},
	{
	"epoch": 0.19429265330904674,
	"grad_norm": 0.380859375,
	"learning_rate": 1.969046745460116e-05,
	"loss": 0.5892,
	"step": 80
	},
	{
	"epoch": 0.19672131147540983,
	"grad_norm": 0.3828125,
	"learning_rate": 1.9680771188662044e-05,
	"loss": 0.5917,
	"step": 81
	},
	{
	"epoch": 0.19914996964177292,
	"grad_norm": 0.38671875,
	"learning_rate": 1.9670927847651707e-05,
	"loss": 0.5913,
	"step": 82
	},
	{
	"epoch": 0.201578627808136,
	"grad_norm": 0.37890625,
	"learning_rate": 1.9660937581115073e-05,
	"loss": 0.5787,
	"step": 83
	},
	{
	"epoch": 0.2040072859744991,
	"grad_norm": 0.37109375,
	"learning_rate": 1.9650800540829204e-05,
	"loss": 0.5779,
	"step": 84
	},
	{
	"epoch": 0.20643594414086217,
	"grad_norm": 0.376953125,
	"learning_rate": 1.964051688080105e-05,
	"loss": 0.5912,
	"step": 85
	},
	{
	"epoch": 0.20886460230722526,
	"grad_norm": 0.380859375,
	"learning_rate": 1.963008675726506e-05,
	"loss": 0.5879,
	"step": 86
	},
	{
	"epoch": 0.21129326047358835,
	"grad_norm": 0.3671875,
	"learning_rate": 1.9619510328680847e-05,
	"loss": 0.5905,
	"step": 87
	},
	{
	"epoch": 0.21372191863995144,
	"grad_norm": 0.375,
	"learning_rate": 1.9608787755730746e-05,
	"loss": 0.5789,
	"step": 88
	},
	{
	"epoch": 0.2161505768063145,
	"grad_norm": 0.37890625,
	"learning_rate": 1.9597919201317393e-05,
	"loss": 0.5824,
	"step": 89
	},
	{
	"epoch": 0.2185792349726776,
	"grad_norm": 0.37109375,
	"learning_rate": 1.958690483056126e-05,
	"loss": 0.5841,
	"step": 90
	},
	{
	"epoch": 0.22100789313904068,
	"grad_norm": 0.37109375,
	"learning_rate": 1.9575744810798118e-05,
	"loss": 0.5709,
	"step": 91
	},
	{
	"epoch": 0.22343655130540377,
	"grad_norm": 0.369140625,
	"learning_rate": 1.9564439311576515e-05,
	"loss": 0.5799,
	"step": 92
	},
	{
	"epoch": 0.22586520947176686,
	"grad_norm": 0.369140625,
	"learning_rate": 1.9552988504655194e-05,
	"loss": 0.5757,
	"step": 93
	},
	{
	"epoch": 0.22829386763812992,
	"grad_norm": 0.365234375,
	"learning_rate": 1.954139256400049e-05,
	"loss": 0.5768,
	"step": 94
	},
	{
	"epoch": 0.230722525804493,
	"grad_norm": 0.470703125,
	"learning_rate": 1.9529651665783675e-05,
	"loss": 0.6447,
	"step": 95
	},
	{
	"epoch": 0.2331511839708561,
	"grad_norm": 0.375,
	"learning_rate": 1.951776598837829e-05,
	"loss": 0.5888,
	"step": 96
	},
	{
	"epoch": 0.2355798421372192,
	"grad_norm": 0.4453125,
	"learning_rate": 1.9505735712357437e-05,
	"loss": 0.6567,
	"step": 97
	},
	{
	"epoch": 0.23800850030358228,
	"grad_norm": 0.376953125,
	"learning_rate": 1.9493561020491024e-05,
	"loss": 0.5866,
	"step": 98
	},
	{
	"epoch": 0.24043715846994534,
	"grad_norm": 0.376953125,
	"learning_rate": 1.9481242097743002e-05,
	"loss": 0.5775,
	"step": 99
	},
	{
	"epoch": 0.24286581663630843,
	"grad_norm": 0.369140625,
	"learning_rate": 1.9468779131268553e-05,
	"loss": 0.5796,
	"step": 100
	},
	{
	"epoch": 0.24529447480267152,
	"grad_norm": 0.375,
	"learning_rate": 1.9456172310411228e-05,
	"loss": 0.5763,
	"step": 101
	},
	{
	"epoch": 0.24772313296903462,
	"grad_norm": 0.3828125,
	"learning_rate": 1.9443421826700096e-05,
	"loss": 0.5766,
	"step": 102
	},
	{
	"epoch": 0.2501517911353977,
	"grad_norm": 0.373046875,
	"learning_rate": 1.9430527873846826e-05,
	"loss": 0.5766,
	"step": 103
	},
	{
	"epoch": 0.25258044930176077,
	"grad_norm": 0.3671875,
	"learning_rate": 1.9417490647742738e-05,
	"loss": 0.5796,
	"step": 104
	},
	{
	"epoch": 0.25258044930176077,
	"eval_loss": 0.5772241950035095,
	"eval_runtime": 97.0571,
	"eval_samples_per_second": 30.91,
	"eval_steps_per_second": 3.864,
	"step": 104
	},
	{
	"epoch": 0.2550091074681239,
	"grad_norm": 0.376953125,
	"learning_rate": 1.9404310346455822e-05,
	"loss": 0.5762,
	"step": 105
	},
	{
	"epoch": 0.25743776563448695,
	"grad_norm": 0.3828125,
	"learning_rate": 1.9390987170227746e-05,
	"loss": 0.5833,
	"step": 106
	},
	{
	"epoch": 0.25986642380085,
	"grad_norm": 0.37890625,
	"learning_rate": 1.9377521321470806e-05,
	"loss": 0.5739,
	"step": 107
	},
	{
	"epoch": 0.26229508196721313,
	"grad_norm": 0.380859375,
	"learning_rate": 1.9363913004764847e-05,
	"loss": 0.5771,
	"step": 108
	},
	{
	"epoch": 0.2647237401335762,
	"grad_norm": 0.361328125,
	"learning_rate": 1.9350162426854152e-05,
	"loss": 0.5674,
	"step": 109
	},
	{
	"epoch": 0.2671523982999393,
	"grad_norm": 0.36328125,
	"learning_rate": 1.9336269796644314e-05,
	"loss": 0.5698,
	"step": 110
	},
	{
	"epoch": 0.26958105646630237,
	"grad_norm": 0.376953125,
	"learning_rate": 1.9322235325199054e-05,
	"loss": 0.5681,
	"step": 111
	},
	{
	"epoch": 0.27200971463266543,
	"grad_norm": 0.37109375,
	"learning_rate": 1.9308059225737015e-05,
	"loss": 0.5615,
	"step": 112
	},
	{
	"epoch": 0.27443837279902855,
	"grad_norm": 0.373046875,
	"learning_rate": 1.9293741713628518e-05,
	"loss": 0.5765,
	"step": 113
	},
	{
	"epoch": 0.2768670309653916,
	"grad_norm": 0.375,
	"learning_rate": 1.9279283006392304e-05,
	"loss": 0.5633,
	"step": 114
	},
	{
	"epoch": 0.27929568913175473,
	"grad_norm": 0.37890625,
	"learning_rate": 1.9264683323692213e-05,
	"loss": 0.5629,
	"step": 115
	},
	{
	"epoch": 0.2817243472981178,
	"grad_norm": 0.376953125,
	"learning_rate": 1.924994288733386e-05,
	"loss": 0.5707,
	"step": 116
	},
	{
	"epoch": 0.28415300546448086,
	"grad_norm": 0.3828125,
	"learning_rate": 1.9235061921261248e-05,
	"loss": 0.5658,
	"step": 117
	},
	{
	"epoch": 0.286581663630844,
	"grad_norm": 0.376953125,
	"learning_rate": 1.9220040651553388e-05,
	"loss": 0.5672,
	"step": 118
	},
	{
	"epoch": 0.28901032179720704,
	"grad_norm": 0.427734375,
	"learning_rate": 1.9204879306420852e-05,
	"loss": 0.5644,
	"step": 119
	},
	{
	"epoch": 0.29143897996357016,
	"grad_norm": 0.515625,
	"learning_rate": 1.918957811620231e-05,
	"loss": 0.658,
	"step": 120
	},
	{
	"epoch": 0.2938676381299332,
	"grad_norm": 0.384765625,
	"learning_rate": 1.9174137313361012e-05,
	"loss": 0.5673,
	"step": 121
	},
	{
	"epoch": 0.2962962962962963,
	"grad_norm": 0.419921875,
	"learning_rate": 1.915855713248129e-05,
	"loss": 0.5713,
	"step": 122
	},
	{
	"epoch": 0.2987249544626594,
	"grad_norm": 0.376953125,
	"learning_rate": 1.9142837810264972e-05,
	"loss": 0.5605,
	"step": 123
	},
	{
	"epoch": 0.30115361262902246,
	"grad_norm": 0.451171875,
	"learning_rate": 1.912697958552778e-05,
	"loss": 0.634,
	"step": 124
	},
	{
	"epoch": 0.3035822707953855,
	"grad_norm": 0.39453125,
	"learning_rate": 1.9110982699195724e-05,
	"loss": 0.5743,
	"step": 125
	},
	{
	"epoch": 0.30601092896174864,
	"grad_norm": 0.41015625,
	"learning_rate": 1.9094847394301427e-05,
	"loss": 0.5743,
	"step": 126
	},
	{
	"epoch": 0.3084395871281117,
	"grad_norm": 0.388671875,
	"learning_rate": 1.907857391598043e-05,
	"loss": 0.5685,
	"step": 127
	},
	{
	"epoch": 0.3108682452944748,
	"grad_norm": 0.37890625,
	"learning_rate": 1.906216251146748e-05,
	"loss": 0.5718,
	"step": 128
	},
	{
	"epoch": 0.3132969034608379,
	"grad_norm": 0.392578125,
	"learning_rate": 1.904561343009276e-05,
	"loss": 0.5666,
	"step": 129
	},
	{
	"epoch": 0.31572556162720095,
	"grad_norm": 0.380859375,
	"learning_rate": 1.902892692327811e-05,
	"loss": 0.5487,
	"step": 130
	},
	{
	"epoch": 0.31572556162720095,
	"eval_loss": 0.565579354763031,
	"eval_runtime": 96.8785,
	"eval_samples_per_second": 30.967,
	"eval_steps_per_second": 3.871,
	"step": 130
	},
	{
	"epoch": 0.31815421979356406,
	"grad_norm": 0.400390625,
	"learning_rate": 1.9012103244533217e-05,
	"loss": 0.5662,
	"step": 131
	},
	{
	"epoch": 0.3205828779599271,
	"grad_norm": 0.376953125,
	"learning_rate": 1.899514264945173e-05,
	"loss": 0.5692,
	"step": 132
	},
	{
	"epoch": 0.32301153612629024,
	"grad_norm": 0.37109375,
	"learning_rate": 1.897804539570742e-05,
	"loss": 0.5571,
	"step": 133
	},
	{
	"epoch": 0.3254401942926533,
	"grad_norm": 0.384765625,
	"learning_rate": 1.8960811743050227e-05,
	"loss": 0.553,
	"step": 134
	},
	{
	"epoch": 0.32786885245901637,
	"grad_norm": 0.3828125,
	"learning_rate": 1.8943441953302346e-05,
	"loss": 0.5598,
	"step": 135
	},
	{
	"epoch": 0.3302975106253795,
	"grad_norm": 0.388671875,
	"learning_rate": 1.8925936290354224e-05,
	"loss": 0.5624,
	"step": 136
	},
	{
	"epoch": 0.33272616879174255,
	"grad_norm": 0.37109375,
	"learning_rate": 1.890829502016056e-05,
	"loss": 0.5597,
	"step": 137
	},
	{
	"epoch": 0.33515482695810567,
	"grad_norm": 0.380859375,
	"learning_rate": 1.8890518410736275e-05,
	"loss": 0.5575,
	"step": 138
	},
	{
	"epoch": 0.33758348512446873,
	"grad_norm": 0.37109375,
	"learning_rate": 1.8872606732152426e-05,
	"loss": 0.5575,
	"step": 139
	},
	{
	"epoch": 0.3400121432908318,
	"grad_norm": 0.373046875,
	"learning_rate": 1.8854560256532098e-05,
	"loss": 0.5549,
	"step": 140
	},
	{
	"epoch": 0.3424408014571949,
	"grad_norm": 0.388671875,
	"learning_rate": 1.8836379258046298e-05,
	"loss": 0.5671,
	"step": 141
	},
	{
	"epoch": 0.344869459623558,
	"grad_norm": 0.546875,
	"learning_rate": 1.8818064012909755e-05,
	"loss": 0.639,
	"step": 142
	},
	{
	"epoch": 0.3472981177899211,
	"grad_norm": 0.5078125,
	"learning_rate": 1.8799614799376743e-05,
	"loss": 0.6433,
	"step": 143
	},
	{
	"epoch": 0.34972677595628415,
	"grad_norm": 0.380859375,
	"learning_rate": 1.878103189773686e-05,
	"loss": 0.5656,
	"step": 144
	},
	{
	"epoch": 0.3521554341226472,
	"grad_norm": 0.404296875,
	"learning_rate": 1.876231559031075e-05,
	"loss": 0.5631,
	"step": 145
	},
	{
	"epoch": 0.35458409228901033,
	"grad_norm": 0.3828125,
	"learning_rate": 1.8743466161445823e-05,
	"loss": 0.5563,
	"step": 146
	},
	{
	"epoch": 0.3570127504553734,
	"grad_norm": 0.388671875,
	"learning_rate": 1.872448389751194e-05,
	"loss": 0.5569,
	"step": 147
	},
	{
	"epoch": 0.3594414086217365,
	"grad_norm": 0.3671875,
	"learning_rate": 1.8705369086897063e-05,
	"loss": 0.5548,
	"step": 148
	},
	{
	"epoch": 0.3618700667880996,
	"grad_norm": 0.39453125,
	"learning_rate": 1.8686122020002857e-05,
	"loss": 0.5587,
	"step": 149
	},
	{
	"epoch": 0.36429872495446264,
	"grad_norm": 0.390625,
	"learning_rate": 1.86667429892403e-05,
	"loss": 0.5508,
	"step": 150
	},
	{
	"epoch": 0.36672738312082576,
	"grad_norm": 0.373046875,
	"learning_rate": 1.8647232289025223e-05,
	"loss": 0.5594,
	"step": 151
	},
	{
	"epoch": 0.3691560412871888,
	"grad_norm": 0.37890625,
	"learning_rate": 1.862759021577385e-05,
	"loss": 0.5579,
	"step": 152
	},
	{
	"epoch": 0.37158469945355194,
	"grad_norm": 0.373046875,
	"learning_rate": 1.860781706789829e-05,
	"loss": 0.5503,
	"step": 153
	},
	{
	"epoch": 0.374013357619915,
	"grad_norm": 0.373046875,
	"learning_rate": 1.8587913145801998e-05,
	"loss": 0.5601,
	"step": 154
	},
	{
	"epoch": 0.37644201578627806,
	"grad_norm": 0.380859375,
	"learning_rate": 1.8567878751875218e-05,
	"loss": 0.5516,
	"step": 155
	},
	{
	"epoch": 0.3788706739526412,
	"grad_norm": 0.365234375,
	"learning_rate": 1.8547714190490385e-05,
	"loss": 0.552,
	"step": 156
	},
	{
	"epoch": 0.3788706739526412,
	"eval_loss": 0.5556911826133728,
	"eval_runtime": 96.9623,
	"eval_samples_per_second": 30.94,
	"eval_steps_per_second": 3.867,
	"step": 156
	},
	{
	"epoch": 0.38129933211900424,
	"grad_norm": 0.3828125,
	"learning_rate": 1.8527419767997506e-05,
	"loss": 0.5618,
	"step": 157
	},
	{
	"epoch": 0.38372799028536736,
	"grad_norm": 0.390625,
	"learning_rate": 1.8506995792719498e-05,
	"loss": 0.5561,
	"step": 158
	},
	{
	"epoch": 0.3861566484517304,
	"grad_norm": 0.3671875,
	"learning_rate": 1.848644257494751e-05,
	"loss": 0.5486,
	"step": 159
	},
	{
	"epoch": 0.3885853066180935,
	"grad_norm": 0.369140625,
	"learning_rate": 1.8465760426936212e-05,
	"loss": 0.5521,
	"step": 160
	},
	{
	"epoch": 0.3910139647844566,
	"grad_norm": 0.373046875,
	"learning_rate": 1.8444949662899038e-05,
	"loss": 0.5474,
	"step": 161
	},
	{
	"epoch": 0.39344262295081966,
	"grad_norm": 0.37109375,
	"learning_rate": 1.8424010599003424e-05,
	"loss": 0.5508,
	"step": 162
	},
	{
	"epoch": 0.3958712811171828,
	"grad_norm": 0.388671875,
	"learning_rate": 1.8402943553365998e-05,
	"loss": 0.5483,
	"step": 163
	},
	{
	"epoch": 0.39829993928354585,
	"grad_norm": 0.369140625,
	"learning_rate": 1.838174884604776e-05,
	"loss": 0.5525,
	"step": 164
	},
	{
	"epoch": 0.4007285974499089,
	"grad_norm": 0.376953125,
	"learning_rate": 1.8360426799049197e-05,
	"loss": 0.5512,
	"step": 165
	},
	{
	"epoch": 0.403157255616272,
	"grad_norm": 0.369140625,
	"learning_rate": 1.8338977736305408e-05,
	"loss": 0.5509,
	"step": 166
	},
	{
	"epoch": 0.4055859137826351,
	"grad_norm": 0.37890625,
	"learning_rate": 1.831740198368118e-05,
	"loss": 0.5403,
	"step": 167
	},
	{
	"epoch": 0.4080145719489982,
	"grad_norm": 0.3671875,
	"learning_rate": 1.8295699868966038e-05,
	"loss": 0.5507,
	"step": 168
	},
	{
	"epoch": 0.41044323011536127,
	"grad_norm": 0.376953125,
	"learning_rate": 1.8273871721869256e-05,
	"loss": 0.5354,
	"step": 169
	},
	{
	"epoch": 0.41287188828172433,
	"grad_norm": 0.361328125,
	"learning_rate": 1.8251917874014854e-05,
	"loss": 0.5483,
	"step": 170
	},
	{
	"epoch": 0.41530054644808745,
	"grad_norm": 0.373046875,
	"learning_rate": 1.8229838658936566e-05,
	"loss": 0.5416,
	"step": 171
	},
	{
	"epoch": 0.4177292046144505,
	"grad_norm": 0.38671875,
	"learning_rate": 1.8207634412072765e-05,
	"loss": 0.5547,
	"step": 172
	},
	{
	"epoch": 0.4201578627808136,
	"grad_norm": 0.384765625,
	"learning_rate": 1.8185305470761366e-05,
	"loss": 0.548,
	"step": 173
	},
	{
	"epoch": 0.4225865209471767,
	"grad_norm": 0.59375,
	"learning_rate": 1.8162852174234712e-05,
	"loss": 0.6328,
	"step": 174
	},
	{
	"epoch": 0.42501517911353975,
	"grad_norm": 0.37109375,
	"learning_rate": 1.81402748636144e-05,
	"loss": 0.5406,
	"step": 175
	},
	{
	"epoch": 0.42744383727990287,
	"grad_norm": 0.37890625,
	"learning_rate": 1.8117573881906114e-05,
	"loss": 0.5446,
	"step": 176
	},
	{
	"epoch": 0.42987249544626593,
	"grad_norm": 0.3828125,
	"learning_rate": 1.809474957399442e-05,
	"loss": 0.5591,
	"step": 177
	},
	{
	"epoch": 0.432301153612629,
	"grad_norm": 0.376953125,
	"learning_rate": 1.8071802286637505e-05,
	"loss": 0.5415,
	"step": 178
	},
	{
	"epoch": 0.4347298117789921,
	"grad_norm": 0.384765625,
	"learning_rate": 1.8048732368461927e-05,
	"loss": 0.5362,
	"step": 179
	},
	{
	"epoch": 0.4371584699453552,
	"grad_norm": 0.37890625,
	"learning_rate": 1.8025540169957315e-05,
	"loss": 0.5464,
	"step": 180
	},
	{
	"epoch": 0.4395871281117183,
	"grad_norm": 0.384765625,
	"learning_rate": 1.8002226043471025e-05,
	"loss": 0.544,
	"step": 181
	},
	{
	"epoch": 0.44201578627808136,
	"grad_norm": 0.388671875,
	"learning_rate": 1.7978790343202826e-05,
	"loss": 0.5567,
	"step": 182
	},
	{
	"epoch": 0.44201578627808136,
	"eval_loss": 0.5476920008659363,
	"eval_runtime": 97.0095,
	"eval_samples_per_second": 30.925,
	"eval_steps_per_second": 3.866,
	"step": 182
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 0.369140625,
	"learning_rate": 1.795523342519948e-05,
	"loss": 0.5349,
	"step": 183
	},
	{
	"epoch": 0.44687310261080754,
	"grad_norm": 0.38671875,
	"learning_rate": 1.7931555647349358e-05,
	"loss": 0.5494,
	"step": 184
	},
	{
	"epoch": 0.4493017607771706,
	"grad_norm": 0.37890625,
	"learning_rate": 1.7907757369376984e-05,
	"loss": 0.5431,
	"step": 185
	},
	{
	"epoch": 0.4517304189435337,
	"grad_norm": 0.380859375,
	"learning_rate": 1.7883838952837595e-05,
	"loss": 0.5455,
	"step": 186
	},
	{
	"epoch": 0.4541590771098968,
	"grad_norm": 0.40625,
	"learning_rate": 1.785980076111161e-05,
	"loss": 0.5475,
	"step": 187
	},
	{
	"epoch": 0.45658773527625984,
	"grad_norm": 0.384765625,
	"learning_rate": 1.7835643159399156e-05,
	"loss": 0.5426,
	"step": 188
	},
	{
	"epoch": 0.45901639344262296,
	"grad_norm": 0.384765625,
	"learning_rate": 1.7811366514714475e-05,
	"loss": 0.549,
	"step": 189
	},
	{
	"epoch": 0.461445051608986,
	"grad_norm": 0.3671875,
	"learning_rate": 1.778697119588039e-05,
	"loss": 0.5409,
	"step": 190
	},
	{
	"epoch": 0.46387370977534914,
	"grad_norm": 0.55078125,
	"learning_rate": 1.7762457573522658e-05,
	"loss": 0.6053,
	"step": 191
	},
	{
	"epoch": 0.4663023679417122,
	"grad_norm": 0.375,
	"learning_rate": 1.7737826020064377e-05,
	"loss": 0.5487,
	"step": 192
	},
	{
	"epoch": 0.46873102610807527,
	"grad_norm": 0.4140625,
	"learning_rate": 1.771307690972031e-05,
	"loss": 0.5347,
	"step": 193
	},
	{
	"epoch": 0.4711596842744384,
	"grad_norm": 0.37109375,
	"learning_rate": 1.76882106184912e-05,
	"loss": 0.5525,
	"step": 194
	},
	{
	"epoch": 0.47358834244080145,
	"grad_norm": 0.37890625,
	"learning_rate": 1.7663227524158053e-05,
	"loss": 0.5423,
	"step": 195
	},
	{
	"epoch": 0.47601700060716456,
	"grad_norm": 0.38671875,
	"learning_rate": 1.7638128006276422e-05,
	"loss": 0.5526,
	"step": 196
	},
	{
	"epoch": 0.4784456587735276,
	"grad_norm": 0.369140625,
	"learning_rate": 1.7612912446170615e-05,
	"loss": 0.5464,
	"step": 197
	},
	{
	"epoch": 0.4808743169398907,
	"grad_norm": 0.69921875,
	"learning_rate": 1.758758122692791e-05,
	"loss": 0.6096,
	"step": 198
	},
	{
	"epoch": 0.4833029751062538,
	"grad_norm": 0.384765625,
	"learning_rate": 1.7562134733392736e-05,
	"loss": 0.5399,
	"step": 199
	},
	{
	"epoch": 0.48573163327261687,
	"grad_norm": 0.39453125,
	"learning_rate": 1.753657335216083e-05,
	"loss": 0.5503,
	"step": 200
	},
	{
	"epoch": 0.48816029143898,
	"grad_norm": 0.373046875,
	"learning_rate": 1.751089747157336e-05,
	"loss": 0.5389,
	"step": 201
	},
	{
	"epoch": 0.49058894960534305,
	"grad_norm": 0.3828125,
	"learning_rate": 1.7485107481711014e-05,
	"loss": 0.548,
	"step": 202
	},
	{
	"epoch": 0.4930176077717061,
	"grad_norm": 0.412109375,
	"learning_rate": 1.7459203774388097e-05,
	"loss": 0.5404,
	"step": 203
	},
	{
	"epoch": 0.49544626593806923,
	"grad_norm": 0.37890625,
	"learning_rate": 1.743318674314656e-05,
	"loss": 0.5497,
	"step": 204
	},
	{
	"epoch": 0.4978749241044323,
	"grad_norm": 0.373046875,
	"learning_rate": 1.740705678325004e-05,
	"loss": 0.5313,
	"step": 205
	},
	{
	"epoch": 0.5003035822707954,
	"grad_norm": 0.375,
	"learning_rate": 1.7380814291677818e-05,
	"loss": 0.5446,
	"step": 206
	},
	{
	"epoch": 0.5027322404371585,
	"grad_norm": 0.50390625,
	"learning_rate": 1.7354459667118825e-05,
	"loss": 0.6115,
	"step": 207
	},
	{
	"epoch": 0.5051608986035215,
	"grad_norm": 0.37109375,
	"learning_rate": 1.7327993309965583e-05,
	"loss": 0.5263,
	"step": 208
	},
	{
	"epoch": 0.5051608986035215,
	"eval_loss": 0.5407972931861877,
	"eval_runtime": 97.5769,
	"eval_samples_per_second": 30.745,
	"eval_steps_per_second": 3.843,
	"step": 208
	},
	{
	"epoch": 0.5075895567698846,
	"grad_norm": 0.3671875,
	"learning_rate": 1.730141562230809e-05,
	"loss": 0.5454,
	"step": 209
	},
	{
	"epoch": 0.5100182149362478,
	"grad_norm": 0.373046875,
	"learning_rate": 1.7274727007927747e-05,
	"loss": 0.5417,
	"step": 210
	},
	{
	"epoch": 0.5124468731026108,
	"grad_norm": 0.365234375,
	"learning_rate": 1.72479278722912e-05,
	"loss": 0.5337,
	"step": 211
	},
	{
	"epoch": 0.5148755312689739,
	"grad_norm": 0.373046875,
	"learning_rate": 1.7221018622544197e-05,
	"loss": 0.5477,
	"step": 212
	},
	{
	"epoch": 0.517304189435337,
	"grad_norm": 0.373046875,
	"learning_rate": 1.7193999667505387e-05,
	"loss": 0.533,
	"step": 213
	},
	{
	"epoch": 0.5197328476017,
	"grad_norm": 0.369140625,
	"learning_rate": 1.7166871417660116e-05,
	"loss": 0.5203,
	"step": 214
	},
	{
	"epoch": 0.5221615057680632,
	"grad_norm": 0.373046875,
	"learning_rate": 1.7139634285154198e-05,
	"loss": 0.5326,
	"step": 215
	},
	{
	"epoch": 0.5245901639344263,
	"grad_norm": 0.57421875,
	"learning_rate": 1.7112288683787637e-05,
	"loss": 0.6092,
	"step": 216
	},
	{
	"epoch": 0.5270188221007893,
	"grad_norm": 0.3671875,
	"learning_rate": 1.708483502900836e-05,
	"loss": 0.5417,
	"step": 217
	},
	{
	"epoch": 0.5294474802671524,
	"grad_norm": 0.373046875,
	"learning_rate": 1.7057273737905887e-05,
	"loss": 0.5347,
	"step": 218
	},
	{
	"epoch": 0.5318761384335154,
	"grad_norm": 0.37890625,
	"learning_rate": 1.7029605229205005e-05,
	"loss": 0.523,
	"step": 219
	},
	{
	"epoch": 0.5343047965998786,
	"grad_norm": 0.37890625,
	"learning_rate": 1.70018299232594e-05,
	"loss": 0.5363,
	"step": 220
	},
	{
	"epoch": 0.5367334547662417,
	"grad_norm": 0.361328125,
	"learning_rate": 1.6973948242045284e-05,
	"loss": 0.5287,
	"step": 221
	},
	{
	"epoch": 0.5391621129326047,
	"grad_norm": 0.37109375,
	"learning_rate": 1.6945960609154966e-05,
	"loss": 0.5396,
	"step": 222
	},
	{
	"epoch": 0.5415907710989678,
	"grad_norm": 0.3828125,
	"learning_rate": 1.6917867449790432e-05,
	"loss": 0.5198,
	"step": 223
	},
	{
	"epoch": 0.5440194292653309,
	"grad_norm": 0.44921875,
	"learning_rate": 1.688966919075687e-05,
	"loss": 0.6069,
	"step": 224
	},
	{
	"epoch": 0.546448087431694,
	"grad_norm": 0.380859375,
	"learning_rate": 1.68613662604562e-05,
	"loss": 0.5376,
	"step": 225
	},
	{
	"epoch": 0.5488767455980571,
	"grad_norm": 0.375,
	"learning_rate": 1.6832959088880557e-05,
	"loss": 0.5264,
	"step": 226
	},
	{
	"epoch": 0.5513054037644202,
	"grad_norm": 0.369140625,
	"learning_rate": 1.6804448107605767e-05,
	"loss": 0.5369,
	"step": 227
	},
	{
	"epoch": 0.5537340619307832,
	"grad_norm": 0.375,
	"learning_rate": 1.677583374978478e-05,
	"loss": 0.537,
	"step": 228
	},
	{
	"epoch": 0.5561627200971463,
	"grad_norm": 0.380859375,
	"learning_rate": 1.6747116450141092e-05,
	"loss": 0.5257,
	"step": 229
	},
	{
	"epoch": 0.5585913782635095,
	"grad_norm": 0.369140625,
	"learning_rate": 1.6718296644962146e-05,
	"loss": 0.532,
	"step": 230
	},
	{
	"epoch": 0.5610200364298725,
	"grad_norm": 0.3671875,
	"learning_rate": 1.6689374772092695e-05,
	"loss": 0.5382,
	"step": 231
	},
	{
	"epoch": 0.5634486945962356,
	"grad_norm": 0.373046875,
	"learning_rate": 1.6660351270928164e-05,
	"loss": 0.5313,
	"step": 232
	},
	{
	"epoch": 0.5658773527625987,
	"grad_norm": 0.37109375,
	"learning_rate": 1.6631226582407954e-05,
	"loss": 0.5283,
	"step": 233
	},
	{
	"epoch": 0.5683060109289617,
	"grad_norm": 0.361328125,
	"learning_rate": 1.660200114900876e-05,
	"loss": 0.5466,
	"step": 234
	},
	{
	"epoch": 0.5683060109289617,
	"eval_loss": 0.5350908637046814,
	"eval_runtime": 97.0805,
	"eval_samples_per_second": 30.902,
	"eval_steps_per_second": 3.863,
	"step": 234
	},
	{
	"epoch": 0.5707346690953249,
	"grad_norm": 0.3671875,
	"learning_rate": 1.6572675414737844e-05,
	"loss": 0.5343,
	"step": 235
	},
	{
	"epoch": 0.573163327261688,
	"grad_norm": 0.375,
	"learning_rate": 1.6543249825126285e-05,
	"loss": 0.5405,
	"step": 236
	},
	{
	"epoch": 0.575591985428051,
	"grad_norm": 0.37109375,
	"learning_rate": 1.6513724827222225e-05,
	"loss": 0.5252,
	"step": 237
	},
	{
	"epoch": 0.5780206435944141,
	"grad_norm": 0.365234375,
	"learning_rate": 1.6484100869584044e-05,
	"loss": 0.5295,
	"step": 238
	},
	{
	"epoch": 0.5804493017607771,
	"grad_norm": 0.361328125,
	"learning_rate": 1.645437840227359e-05,
	"loss": 0.5331,
	"step": 239
	},
	{
	"epoch": 0.5828779599271403,
	"grad_norm": 0.36328125,
	"learning_rate": 1.6424557876849308e-05,
	"loss": 0.5274,
	"step": 240
	},
	{
	"epoch": 0.5853066180935034,
	"grad_norm": 0.373046875,
	"learning_rate": 1.639463974635939e-05,
	"loss": 0.5303,
	"step": 241
	},
	{
	"epoch": 0.5877352762598664,
	"grad_norm": 0.369140625,
	"learning_rate": 1.636462446533489e-05,
	"loss": 0.5319,
	"step": 242
	},
	{
	"epoch": 0.5901639344262295,
	"grad_norm": 0.369140625,
	"learning_rate": 1.6334512489782833e-05,
	"loss": 0.5316,
	"step": 243
	},
	{
	"epoch": 0.5925925925925926,
	"grad_norm": 0.388671875,
	"learning_rate": 1.6304304277179267e-05,
	"loss": 0.5291,
	"step": 244
	},
	{
	"epoch": 0.5950212507589556,
	"grad_norm": 0.373046875,
	"learning_rate": 1.627400028646231e-05,
	"loss": 0.5341,
	"step": 245
	},
	{
	"epoch": 0.5974499089253188,
	"grad_norm": 0.37109375,
	"learning_rate": 1.6243600978025215e-05,
	"loss": 0.5233,
	"step": 246
	},
	{
	"epoch": 0.5998785670916819,
	"grad_norm": 0.37109375,
	"learning_rate": 1.6213106813709328e-05,
	"loss": 0.5251,
	"step": 247
	},
	{
	"epoch": 0.6023072252580449,
	"grad_norm": 0.376953125,
	"learning_rate": 1.6182518256797095e-05,
	"loss": 0.534,
	"step": 248
	},
	{
	"epoch": 0.604735883424408,
	"grad_norm": 0.365234375,
	"learning_rate": 1.6151835772005028e-05,
	"loss": 0.5215,
	"step": 249
	},
	{
	"epoch": 0.607164541590771,
	"grad_norm": 0.375,
	"learning_rate": 1.612105982547663e-05,
	"loss": 0.5391,
	"step": 250
	},
	{
	"epoch": 0.6095931997571342,
	"grad_norm": 0.37109375,
	"learning_rate": 1.6090190884775333e-05,
	"loss": 0.5316,
	"step": 251
	},
	{
	"epoch": 0.6120218579234973,
	"grad_norm": 0.3671875,
	"learning_rate": 1.605922941887737e-05,
	"loss": 0.5251,
	"step": 252
	},
	{
	"epoch": 0.6144505160898603,
	"grad_norm": 0.359375,
	"learning_rate": 1.6028175898164665e-05,
	"loss": 0.5239,
	"step": 253
	},
	{
	"epoch": 0.6168791742562234,
	"grad_norm": 0.3671875,
	"learning_rate": 1.599703079441769e-05,
	"loss": 0.5229,
	"step": 254
	},
	{
	"epoch": 0.6193078324225865,
	"grad_norm": 0.3828125,
	"learning_rate": 1.5965794580808292e-05,
	"loss": 0.5311,
	"step": 255
	},
	{
	"epoch": 0.6217364905889496,
	"grad_norm": 0.36328125,
	"learning_rate": 1.5934467731892497e-05,
	"loss": 0.5217,
	"step": 256
	},
	{
	"epoch": 0.6241651487553127,
	"grad_norm": 0.365234375,
	"learning_rate": 1.590305072360331e-05,
	"loss": 0.5299,
	"step": 257
	},
	{
	"epoch": 0.6265938069216758,
	"grad_norm": 0.375,
	"learning_rate": 1.5871544033243488e-05,
	"loss": 0.52,
	"step": 258
	},
	{
	"epoch": 0.6290224650880388,
	"grad_norm": 0.369140625,
	"learning_rate": 1.583994813947827e-05,
	"loss": 0.5168,
	"step": 259
	},
	{
	"epoch": 0.6314511232544019,
	"grad_norm": 0.494140625,
	"learning_rate": 1.5808263522328137e-05,
	"loss": 0.6037,
	"step": 260
	},
	{
	"epoch": 0.6314511232544019,
	"eval_loss": 0.5299703478813171,
	"eval_runtime": 96.9378,
	"eval_samples_per_second": 30.948,
	"eval_steps_per_second": 3.868,
	"step": 260
	},
	{
	"epoch": 0.6338797814207651,
	"grad_norm": 0.365234375,
	"learning_rate": 1.5776490663161474e-05,
	"loss": 0.517,
	"step": 261
	},
	{
	"epoch": 0.6363084395871281,
	"grad_norm": 0.357421875,
	"learning_rate": 1.5744630044687307e-05,
	"loss": 0.5182,
	"step": 262
	},
	{
	"epoch": 0.6387370977534912,
	"grad_norm": 0.369140625,
	"learning_rate": 1.5712682150947926e-05,
	"loss": 0.5219,
	"step": 263
	},
	{
	"epoch": 0.6411657559198543,
	"grad_norm": 0.373046875,
	"learning_rate": 1.568064746731156e-05,
	"loss": 0.5323,
	"step": 264
	},
	{
	"epoch": 0.6435944140862173,
	"grad_norm": 0.447265625,
	"learning_rate": 1.5648526480464995e-05,
	"loss": 0.5902,
	"step": 265
	},
	{
	"epoch": 0.6460230722525805,
	"grad_norm": 0.37109375,
	"learning_rate": 1.561631967840617e-05,
	"loss": 0.5374,
	"step": 266
	},
	{
	"epoch": 0.6484517304189436,
	"grad_norm": 0.36328125,
	"learning_rate": 1.558402755043677e-05,
	"loss": 0.5145,
	"step": 267
	},
	{
	"epoch": 0.6508803885853066,
	"grad_norm": 0.37109375,
	"learning_rate": 1.5551650587154815e-05,
	"loss": 0.5213,
	"step": 268
	},
	{
	"epoch": 0.6533090467516697,
	"grad_norm": 0.361328125,
	"learning_rate": 1.5519189280447153e-05,
	"loss": 0.5192,
	"step": 269
	},
	{
	"epoch": 0.6557377049180327,
	"grad_norm": 0.369140625,
	"learning_rate": 1.5486644123482047e-05,
	"loss": 0.5325,
	"step": 270
	},
	{
	"epoch": 0.6581663630843959,
	"grad_norm": 0.375,
	"learning_rate": 1.545401561070163e-05,
	"loss": 0.5286,
	"step": 271
	},
	{
	"epoch": 0.660595021250759,
	"grad_norm": 0.37890625,
	"learning_rate": 1.542130423781444e-05,
	"loss": 0.526,
	"step": 272
	},
	{
	"epoch": 0.663023679417122,
	"grad_norm": 0.37109375,
	"learning_rate": 1.5388510501787855e-05,
	"loss": 0.5317,
	"step": 273
	},
	{
	"epoch": 0.6654523375834851,
	"grad_norm": 0.361328125,
	"learning_rate": 1.5355634900840558e-05,
	"loss": 0.5204,
	"step": 274
	},
	{
	"epoch": 0.6678809957498482,
	"grad_norm": 0.369140625,
	"learning_rate": 1.5322677934434965e-05,
	"loss": 0.5215,
	"step": 275
	},
	{
	"epoch": 0.6703096539162113,
	"grad_norm": 0.36328125,
	"learning_rate": 1.5289640103269626e-05,
	"loss": 0.5247,
	"step": 276
	},
	{
	"epoch": 0.6727383120825744,
	"grad_norm": 0.369140625,
	"learning_rate": 1.5256521909271644e-05,
	"loss": 0.5163,
	"step": 277
	},
	{
	"epoch": 0.6751669702489375,
	"grad_norm": 0.36328125,
	"learning_rate": 1.5223323855589027e-05,
	"loss": 0.5335,
	"step": 278
	},
	{
	"epoch": 0.6775956284153005,
	"grad_norm": 0.36328125,
	"learning_rate": 1.519004644658305e-05,
	"loss": 0.5199,
	"step": 279
	},
	{
	"epoch": 0.6800242865816636,
	"grad_norm": 0.3671875,
	"learning_rate": 1.5156690187820596e-05,
	"loss": 0.5294,
	"step": 280
	},
	{
	"epoch": 0.6824529447480268,
	"grad_norm": 0.3671875,
	"learning_rate": 1.5123255586066467e-05,
	"loss": 0.5248,
	"step": 281
	},
	{
	"epoch": 0.6848816029143898,
	"grad_norm": 0.369140625,
	"learning_rate": 1.50897431492757e-05,
	"loss": 0.5261,
	"step": 282
	},
	{
	"epoch": 0.6873102610807529,
	"grad_norm": 0.36328125,
	"learning_rate": 1.5056153386585828e-05,
	"loss": 0.5246,
	"step": 283
	},
	{
	"epoch": 0.689738919247116,
	"grad_norm": 0.3671875,
	"learning_rate": 1.5022486808309171e-05,
	"loss": 0.518,
	"step": 284
	},
	{
	"epoch": 0.692167577413479,
	"grad_norm": 0.373046875,
	"learning_rate": 1.498874392592506e-05,
	"loss": 0.5222,
	"step": 285
	},
	{
	"epoch": 0.6945962355798422,
	"grad_norm": 0.36328125,
	"learning_rate": 1.4954925252072077e-05,
	"loss": 0.5333,
	"step": 286
	},
	{
	"epoch": 0.6945962355798422,
	"eval_loss": 0.5256316661834717,
	"eval_runtime": 97.1941,
	"eval_samples_per_second": 30.866,
	"eval_steps_per_second": 3.858,
	"step": 286
	},
	{
	"epoch": 0.6970248937462052,
	"grad_norm": 0.37109375,
	"learning_rate": 1.4921031300540268e-05,
	"loss": 0.5385,
	"step": 287
	},
	{
	"epoch": 0.6994535519125683,
	"grad_norm": 0.36328125,
	"learning_rate": 1.4887062586263334e-05,
	"loss": 0.5203,
	"step": 288
	},
	{
	"epoch": 0.7018822100789314,
	"grad_norm": 0.3671875,
	"learning_rate": 1.4853019625310813e-05,
	"loss": 0.5163,
	"step": 289
	},
	{
	"epoch": 0.7043108682452944,
	"grad_norm": 0.359375,
	"learning_rate": 1.4818902934880222e-05,
	"loss": 0.5211,
	"step": 290
	},
	{
	"epoch": 0.7067395264116576,
	"grad_norm": 0.36328125,
	"learning_rate": 1.4784713033289228e-05,
	"loss": 0.5251,
	"step": 291
	},
	{
	"epoch": 0.7091681845780207,
	"grad_norm": 0.4765625,
	"learning_rate": 1.4750450439967751e-05,
	"loss": 0.5817,
	"step": 292
	},
	{
	"epoch": 0.7115968427443837,
	"grad_norm": 0.373046875,
	"learning_rate": 1.4716115675450078e-05,
	"loss": 0.5178,
	"step": 293
	},
	{
	"epoch": 0.7140255009107468,
	"grad_norm": 0.3828125,
	"learning_rate": 1.4681709261366963e-05,
	"loss": 0.5317,
	"step": 294
	},
	{
	"epoch": 0.7164541590771099,
	"grad_norm": 0.3671875,
	"learning_rate": 1.4647231720437687e-05,
	"loss": 0.535,
	"step": 295
	},
	{
	"epoch": 0.718882817243473,
	"grad_norm": 0.376953125,
	"learning_rate": 1.4612683576462135e-05,
	"loss": 0.5263,
	"step": 296
	},
	{
	"epoch": 0.7213114754098361,
	"grad_norm": 0.376953125,
	"learning_rate": 1.4578065354312816e-05,
	"loss": 0.5162,
	"step": 297
	},
	{
	"epoch": 0.7237401335761992,
	"grad_norm": 0.369140625,
	"learning_rate": 1.4543377579926915e-05,
	"loss": 0.5262,
	"step": 298
	},
	{
	"epoch": 0.7261687917425622,
	"grad_norm": 0.390625,
	"learning_rate": 1.4508620780298288e-05,
	"loss": 0.5242,
	"step": 299
	},
	{
	"epoch": 0.7285974499089253,
	"grad_norm": 0.384765625,
	"learning_rate": 1.4473795483469442e-05,
	"loss": 0.5258,
	"step": 300
	},
	{
	"epoch": 0.7310261080752884,
	"grad_norm": 0.515625,
	"learning_rate": 1.4438902218523537e-05,
	"loss": 0.5909,
	"step": 301
	},
	{
	"epoch": 0.7334547662416515,
	"grad_norm": 0.375,
	"learning_rate": 1.4403941515576344e-05,
	"loss": 0.5213,
	"step": 302
	},
	{
	"epoch": 0.7358834244080146,
	"grad_norm": 0.3828125,
	"learning_rate": 1.4368913905768178e-05,
	"loss": 0.5192,
	"step": 303
	},
	{
	"epoch": 0.7383120825743776,
	"grad_norm": 0.55078125,
	"learning_rate": 1.4333819921255836e-05,
	"loss": 0.5678,
	"step": 304
	},
	{
	"epoch": 0.7407407407407407,
	"grad_norm": 0.3671875,
	"learning_rate": 1.4298660095204516e-05,
	"loss": 0.5247,
	"step": 305
	},
	{
	"epoch": 0.7431693989071039,
	"grad_norm": 0.380859375,
	"learning_rate": 1.4263434961779709e-05,
	"loss": 0.5291,
	"step": 306
	},
	{
	"epoch": 0.7455980570734669,
	"grad_norm": 0.392578125,
	"learning_rate": 1.4228145056139097e-05,
	"loss": 0.5241,
	"step": 307
	},
	{
	"epoch": 0.74802671523983,
	"grad_norm": 0.37109375,
	"learning_rate": 1.41927909144244e-05,
	"loss": 0.5199,
	"step": 308
	},
	{
	"epoch": 0.7504553734061931,
	"grad_norm": 0.361328125,
	"learning_rate": 1.4157373073753255e-05,
	"loss": 0.5341,
	"step": 309
	},
	{
	"epoch": 0.7528840315725561,
	"grad_norm": 0.375,
	"learning_rate": 1.412189207221104e-05,
	"loss": 0.5282,
	"step": 310
	},
	{
	"epoch": 0.7553126897389193,
	"grad_norm": 0.376953125,
	"learning_rate": 1.4086348448842707e-05,
	"loss": 0.5194,
	"step": 311
	},
	{
	"epoch": 0.7577413479052824,
	"grad_norm": 0.36328125,
	"learning_rate": 1.4050742743644588e-05,
	"loss": 0.5139,
	"step": 312
	},
	{
	"epoch": 0.7577413479052824,
	"eval_loss": 0.5217667818069458,
	"eval_runtime": 96.9922,
	"eval_samples_per_second": 30.93,
	"eval_steps_per_second": 3.866,
	"step": 312
	},
	{
	"epoch": 0.7601700060716454,
	"grad_norm": 0.37109375,
	"learning_rate": 1.4015075497556193e-05,
	"loss": 0.5176,
	"step": 313
	},
	{
	"epoch": 0.7625986642380085,
	"grad_norm": 0.38671875,
	"learning_rate": 1.3979347252451994e-05,
	"loss": 0.5178,
	"step": 314
	},
	{
	"epoch": 0.7650273224043715,
	"grad_norm": 0.3828125,
	"learning_rate": 1.3943558551133186e-05,
	"loss": 0.5258,
	"step": 315
	},
	{
	"epoch": 0.7674559805707347,
	"grad_norm": 0.3671875,
	"learning_rate": 1.3907709937319451e-05,
	"loss": 0.5176,
	"step": 316
	},
	{
	"epoch": 0.7698846387370978,
	"grad_norm": 0.625,
	"learning_rate": 1.3871801955640682e-05,
	"loss": 0.5865,
	"step": 317
	},
	{
	"epoch": 0.7723132969034608,
	"grad_norm": 0.380859375,
	"learning_rate": 1.3835835151628728e-05,
	"loss": 0.5194,
	"step": 318
	},
	{
	"epoch": 0.7747419550698239,
	"grad_norm": 0.396484375,
	"learning_rate": 1.3799810071709088e-05,
	"loss": 0.5213,
	"step": 319
	},
	{
	"epoch": 0.777170613236187,
	"grad_norm": 0.37890625,
	"learning_rate": 1.3763727263192626e-05,
	"loss": 0.5276,
	"step": 320
	},
	{
	"epoch": 0.7795992714025501,
	"grad_norm": 0.37890625,
	"learning_rate": 1.3727587274267235e-05,
	"loss": 0.5214,
	"step": 321
	},
	{
	"epoch": 0.7820279295689132,
	"grad_norm": 0.384765625,
	"learning_rate": 1.3691390653989536e-05,
	"loss": 0.5307,
	"step": 322
	},
	{
	"epoch": 0.7844565877352763,
	"grad_norm": 0.37890625,
	"learning_rate": 1.365513795227651e-05,
	"loss": 0.5252,
	"step": 323
	},
	{
	"epoch": 0.7868852459016393,
	"grad_norm": 0.359375,
	"learning_rate": 1.3618829719897158e-05,
	"loss": 0.5186,
	"step": 324
	},
	{
	"epoch": 0.7893139040680024,
	"grad_norm": 0.384765625,
	"learning_rate": 1.3582466508464132e-05,
	"loss": 0.5191,
	"step": 325
	},
	{
	"epoch": 0.7917425622343656,
	"grad_norm": 0.3671875,
	"learning_rate": 1.3546048870425356e-05,
	"loss": 0.5268,
	"step": 326
	},
	{
	"epoch": 0.7941712204007286,
	"grad_norm": 0.376953125,
	"learning_rate": 1.3509577359055627e-05,
	"loss": 0.53,
	"step": 327
	},
	{
	"epoch": 0.7965998785670917,
	"grad_norm": 0.3671875,
	"learning_rate": 1.3473052528448203e-05,
	"loss": 0.5142,
	"step": 328
	},
	{
	"epoch": 0.7990285367334548,
	"grad_norm": 0.384765625,
	"learning_rate": 1.3436474933506412e-05,
	"loss": 0.5148,
	"step": 329
	},
	{
	"epoch": 0.8014571948998178,
	"grad_norm": 0.37109375,
	"learning_rate": 1.3399845129935191e-05,
	"loss": 0.5223,
	"step": 330
	},
	{
	"epoch": 0.803885853066181,
	"grad_norm": 0.361328125,
	"learning_rate": 1.3363163674232663e-05,
	"loss": 0.5247,
	"step": 331
	},
	{
	"epoch": 0.806314511232544,
	"grad_norm": 0.365234375,
	"learning_rate": 1.3326431123681667e-05,
	"loss": 0.52,
	"step": 332
	},
	{
	"epoch": 0.8087431693989071,
	"grad_norm": 0.373046875,
	"learning_rate": 1.328964803634131e-05,
	"loss": 0.5172,
	"step": 333
	},
	{
	"epoch": 0.8111718275652702,
	"grad_norm": 0.37890625,
	"learning_rate": 1.3252814971038477e-05,
	"loss": 0.5226,
	"step": 334
	},
	{
	"epoch": 0.8136004857316332,
	"grad_norm": 0.369140625,
	"learning_rate": 1.3215932487359338e-05,
	"loss": 0.5214,
	"step": 335
	},
	{
	"epoch": 0.8160291438979964,
	"grad_norm": 0.375,
	"learning_rate": 1.3179001145640856e-05,
	"loss": 0.5234,
	"step": 336
	},
	{
	"epoch": 0.8184578020643595,
	"grad_norm": 0.39453125,
	"learning_rate": 1.314202150696227e-05,
	"loss": 0.5195,
	"step": 337
	},
	{
	"epoch": 0.8208864602307225,
	"grad_norm": 0.359375,
	"learning_rate": 1.3104994133136563e-05,
	"loss": 0.5212,
	"step": 338
	},
	{
	"epoch": 0.8208864602307225,
	"eval_loss": 0.5185486674308777,
	"eval_runtime": 97.0358,
	"eval_samples_per_second": 30.916,
	"eval_steps_per_second": 3.865,
	"step": 338
	},
	{
	"epoch": 0.8233151183970856,
	"grad_norm": 0.369140625,
	"learning_rate": 1.3067919586701948e-05,
	"loss": 0.5108,
	"step": 339
	},
	{
	"epoch": 0.8257437765634487,
	"grad_norm": 0.37890625,
	"learning_rate": 1.3030798430913289e-05,
	"loss": 0.5175,
	"step": 340
	},
	{
	"epoch": 0.8281724347298117,
	"grad_norm": 0.373046875,
	"learning_rate": 1.2993631229733584e-05,
	"loss": 0.5165,
	"step": 341
	},
	{
	"epoch": 0.8306010928961749,
	"grad_norm": 0.369140625,
	"learning_rate": 1.295641854782535e-05,
	"loss": 0.5096,
	"step": 342
	},
	{
	"epoch": 0.833029751062538,
	"grad_norm": 0.37109375,
	"learning_rate": 1.2919160950542095e-05,
	"loss": 0.5231,
	"step": 343
	},
	{
	"epoch": 0.835458409228901,
	"grad_norm": 0.373046875,
	"learning_rate": 1.2881859003919688e-05,
	"loss": 0.512,
	"step": 344
	},
	{
	"epoch": 0.8378870673952641,
	"grad_norm": 0.36328125,
	"learning_rate": 1.284451327466778e-05,
	"loss": 0.5081,
	"step": 345
	},
	{
	"epoch": 0.8403157255616271,
	"grad_norm": 0.369140625,
	"learning_rate": 1.2807124330161188e-05,
	"loss": 0.5181,
	"step": 346
	},
	{
	"epoch": 0.8427443837279903,
	"grad_norm": 0.36328125,
	"learning_rate": 1.2769692738431279e-05,
	"loss": 0.5191,
	"step": 347
	},
	{
	"epoch": 0.8451730418943534,
	"grad_norm": 0.357421875,
	"learning_rate": 1.2732219068157335e-05,
	"loss": 0.499,
	"step": 348
	},
	{
	"epoch": 0.8476017000607164,
	"grad_norm": 0.3828125,
	"learning_rate": 1.2694703888657915e-05,
	"loss": 0.5205,
	"step": 349
	},
	{
	"epoch": 0.8500303582270795,
	"grad_norm": 0.5390625,
	"learning_rate": 1.2657147769882215e-05,
	"loss": 0.5799,
	"step": 350
	},
	{
	"epoch": 0.8524590163934426,
	"grad_norm": 0.361328125,
	"learning_rate": 1.261955128240139e-05,
	"loss": 0.5102,
	"step": 351
	},
	{
	"epoch": 0.8548876745598057,
	"grad_norm": 0.36328125,
	"learning_rate": 1.2581914997399899e-05,
	"loss": 0.514,
	"step": 352
	},
	{
	"epoch": 0.8573163327261688,
	"grad_norm": 0.369140625,
	"learning_rate": 1.2544239486666831e-05,
	"loss": 0.5168,
	"step": 353
	},
	{
	"epoch": 0.8597449908925319,
	"grad_norm": 0.392578125,
	"learning_rate": 1.2506525322587207e-05,
	"loss": 0.5138,
	"step": 354
	},
	{
	"epoch": 0.8621736490588949,
	"grad_norm": 0.53125,
	"learning_rate": 1.2468773078133286e-05,
	"loss": 0.563,
	"step": 355
	},
	{
	"epoch": 0.864602307225258,
	"grad_norm": 0.365234375,
	"learning_rate": 1.2430983326855873e-05,
	"loss": 0.5064,
	"step": 356
	},
	{
	"epoch": 0.8670309653916212,
	"grad_norm": 0.369140625,
	"learning_rate": 1.2393156642875579e-05,
	"loss": 0.5148,
	"step": 357
	},
	{
	"epoch": 0.8694596235579842,
	"grad_norm": 0.380859375,
	"learning_rate": 1.2355293600874132e-05,
	"loss": 0.5147,
	"step": 358
	},
	{
	"epoch": 0.8718882817243473,
	"grad_norm": 0.376953125,
	"learning_rate": 1.2317394776085614e-05,
	"loss": 0.5164,
	"step": 359
	},
	{
	"epoch": 0.8743169398907104,
	"grad_norm": 0.37109375,
	"learning_rate": 1.2279460744287755e-05,
	"loss": 0.5109,
	"step": 360
	},
	{
	"epoch": 0.8767455980570734,
	"grad_norm": 0.375,
	"learning_rate": 1.2241492081793145e-05,
	"loss": 0.5184,
	"step": 361
	},
	{
	"epoch": 0.8791742562234366,
	"grad_norm": 0.56640625,
	"learning_rate": 1.220348936544052e-05,
	"loss": 0.5627,
	"step": 362
	},
	{
	"epoch": 0.8816029143897997,
	"grad_norm": 0.361328125,
	"learning_rate": 1.2165453172585964e-05,
	"loss": 0.5149,
	"step": 363
	},
	{
	"epoch": 0.8840315725561627,
	"grad_norm": 0.388671875,
	"learning_rate": 1.2127384081094167e-05,
	"loss": 0.5109,
	"step": 364
	},
	{
	"epoch": 0.8840315725561627,
	"eval_loss": 0.5158221125602722,
	"eval_runtime": 97.2582,
	"eval_samples_per_second": 30.846,
	"eval_steps_per_second": 3.856,
	"step": 364
	},
	{
	"epoch": 0.8864602307225258,
	"grad_norm": 0.37890625,
	"learning_rate": 1.2089282669329625e-05,
	"loss": 0.4993,
	"step": 365
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 0.373046875,
	"learning_rate": 1.205114951614785e-05,
	"loss": 0.5187,
	"step": 366
	},
	{
	"epoch": 0.891317547055252,
	"grad_norm": 0.357421875,
	"learning_rate": 1.2012985200886602e-05,
	"loss": 0.5088,
	"step": 367
	},
	{
	"epoch": 0.8937462052216151,
	"grad_norm": 0.380859375,
	"learning_rate": 1.197479030335706e-05,
	"loss": 0.5167,
	"step": 368
	},
	{
	"epoch": 0.8961748633879781,
	"grad_norm": 0.384765625,
	"learning_rate": 1.1936565403835027e-05,
	"loss": 0.5138,
	"step": 369
	},
	{
	"epoch": 0.8986035215543412,
	"grad_norm": 0.369140625,
	"learning_rate": 1.1898311083052113e-05,
	"loss": 0.5062,
	"step": 370
	},
	{
	"epoch": 0.9010321797207043,
	"grad_norm": 0.361328125,
	"learning_rate": 1.1860027922186908e-05,
	"loss": 0.5122,
	"step": 371
	},
	{
	"epoch": 0.9034608378870674,
	"grad_norm": 0.361328125,
	"learning_rate": 1.1821716502856154e-05,
	"loss": 0.5108,
	"step": 372
	},
	{
	"epoch": 0.9058894960534305,
	"grad_norm": 0.373046875,
	"learning_rate": 1.1783377407105907e-05,
	"loss": 0.5212,
	"step": 373
	},
	{
	"epoch": 0.9083181542197936,
	"grad_norm": 0.3828125,
	"learning_rate": 1.1745011217402709e-05,
	"loss": 0.5079,
	"step": 374
	},
	{
	"epoch": 0.9107468123861566,
	"grad_norm": 0.380859375,
	"learning_rate": 1.1706618516624712e-05,
	"loss": 0.5105,
	"step": 375
	},
	{
	"epoch": 0.9131754705525197,
	"grad_norm": 0.36328125,
	"learning_rate": 1.1668199888052844e-05,
	"loss": 0.5123,
	"step": 376
	},
	{
	"epoch": 0.9156041287188829,
	"grad_norm": 0.365234375,
	"learning_rate": 1.1629755915361947e-05,
	"loss": 0.5125,
	"step": 377
	},
	{
	"epoch": 0.9180327868852459,
	"grad_norm": 0.373046875,
	"learning_rate": 1.159128718261189e-05,
	"loss": 0.5021,
	"step": 378
	},
	{
	"epoch": 0.920461445051609,
	"grad_norm": 0.359375,
	"learning_rate": 1.1552794274238723e-05,
	"loss": 0.5158,
	"step": 379
	},
	{
	"epoch": 0.922890103217972,
	"grad_norm": 0.361328125,
	"learning_rate": 1.1514277775045768e-05,
	"loss": 0.5064,
	"step": 380
	},
	{
	"epoch": 0.9253187613843351,
	"grad_norm": 0.369140625,
	"learning_rate": 1.1475738270194767e-05,
	"loss": 0.512,
	"step": 381
	},
	{
	"epoch": 0.9277474195506983,
	"grad_norm": 0.365234375,
	"learning_rate": 1.1437176345196967e-05,
	"loss": 0.5236,
	"step": 382
	},
	{
	"epoch": 0.9301760777170613,
	"grad_norm": 0.361328125,
	"learning_rate": 1.1398592585904234e-05,
	"loss": 0.5152,
	"step": 383
	},
	{
	"epoch": 0.9326047358834244,
	"grad_norm": 0.35546875,
	"learning_rate": 1.135998757850015e-05,
	"loss": 0.522,
	"step": 384
	},
	{
	"epoch": 0.9350333940497875,
	"grad_norm": 0.392578125,
	"learning_rate": 1.1321361909491108e-05,
	"loss": 0.5159,
	"step": 385
	},
	{
	"epoch": 0.9374620522161505,
	"grad_norm": 0.369140625,
	"learning_rate": 1.128271616569741e-05,
	"loss": 0.5042,
	"step": 386
	},
	{
	"epoch": 0.9398907103825137,
	"grad_norm": 0.361328125,
	"learning_rate": 1.1244050934244333e-05,
	"loss": 0.5161,
	"step": 387
	},
	{
	"epoch": 0.9423193685488768,
	"grad_norm": 0.357421875,
	"learning_rate": 1.1205366802553231e-05,
	"loss": 0.5094,
	"step": 388
	},
	{
	"epoch": 0.9447480267152398,
	"grad_norm": 0.365234375,
	"learning_rate": 1.1166664358332595e-05,
	"loss": 0.5165,
	"step": 389
	},
	{
	"epoch": 0.9471766848816029,
	"grad_norm": 0.36328125,
	"learning_rate": 1.1127944189569122e-05,
	"loss": 0.5148,
	"step": 390
	},
	{
	"epoch": 0.9471766848816029,
	"eval_loss": 0.5134184956550598,
	"eval_runtime": 97.3787,
	"eval_samples_per_second": 30.808,
	"eval_steps_per_second": 3.851,
	"step": 390
	},
	{
	"epoch": 0.949605343047966,
	"grad_norm": 0.375,
	"learning_rate": 1.1089206884518802e-05,
	"loss": 0.52,
	"step": 391
	},
	{
	"epoch": 0.9520340012143291,
	"grad_norm": 0.361328125,
	"learning_rate": 1.1050453031697958e-05,
	"loss": 0.5141,
	"step": 392
	},
	{
	"epoch": 0.9544626593806922,
	"grad_norm": 0.36328125,
	"learning_rate": 1.1011683219874324e-05,
	"loss": 0.5114,
	"step": 393
	},
	{
	"epoch": 0.9568913175470553,
	"grad_norm": 0.35546875,
	"learning_rate": 1.0972898038058077e-05,
	"loss": 0.5128,
	"step": 394
	},
	{
	"epoch": 0.9593199757134183,
	"grad_norm": 0.36328125,
	"learning_rate": 1.093409807549292e-05,
	"loss": 0.5107,
	"step": 395
	},
	{
	"epoch": 0.9617486338797814,
	"grad_norm": 0.74609375,
	"learning_rate": 1.0895283921647098e-05,
	"loss": 0.5607,
	"step": 396
	},
	{
	"epoch": 0.9641772920461446,
	"grad_norm": 0.36328125,
	"learning_rate": 1.085645616620446e-05,
	"loss": 0.5203,
	"step": 397
	},
	{
	"epoch": 0.9666059502125076,
	"grad_norm": 0.359375,
	"learning_rate": 1.0817615399055513e-05,
	"loss": 0.511,
	"step": 398
	},
	{
	"epoch": 0.9690346083788707,
	"grad_norm": 0.365234375,
	"learning_rate": 1.0778762210288416e-05,
	"loss": 0.5017,
	"step": 399
	},
	{
	"epoch": 0.9714632665452337,
	"grad_norm": 0.359375,
	"learning_rate": 1.0739897190180066e-05,
	"loss": 0.5149,
	"step": 400
	},
	{
	"epoch": 0.9738919247115968,
	"grad_norm": 0.57421875,
	"learning_rate": 1.0701020929187096e-05,
	"loss": 0.5721,
	"step": 401
	},
	{
	"epoch": 0.97632058287796,
	"grad_norm": 0.36328125,
	"learning_rate": 1.0662134017936924e-05,
	"loss": 0.5081,
	"step": 402
	},
	{
	"epoch": 0.978749241044323,
	"grad_norm": 0.54296875,
	"learning_rate": 1.0623237047218771e-05,
	"loss": 0.5709,
	"step": 403
	},
	{
	"epoch": 0.9811778992106861,
	"grad_norm": 0.357421875,
	"learning_rate": 1.0584330607974673e-05,
	"loss": 0.5015,
	"step": 404
	},
	{
	"epoch": 0.9836065573770492,
	"grad_norm": 0.359375,
	"learning_rate": 1.054541529129054e-05,
	"loss": 0.5167,
	"step": 405
	},
	{
	"epoch": 0.9860352155434122,
	"grad_norm": 0.53515625,
	"learning_rate": 1.0506491688387128e-05,
	"loss": 0.5619,
	"step": 406
	},
	{
	"epoch": 0.9884638737097754,
	"grad_norm": 0.365234375,
	"learning_rate": 1.04675603906111e-05,
	"loss": 0.5261,
	"step": 407
	},
	{
	"epoch": 0.9908925318761385,
	"grad_norm": 0.359375,
	"learning_rate": 1.0428621989426016e-05,
	"loss": 0.4998,
	"step": 408
	},
	{
	"epoch": 0.9933211900425015,
	"grad_norm": 0.37109375,
	"learning_rate": 1.0389677076403351e-05,
	"loss": 0.5051,
	"step": 409
	},
	{
	"epoch": 0.9957498482088646,
	"grad_norm": 0.5390625,
	"learning_rate": 1.0350726243213519e-05,
	"loss": 0.569,
	"step": 410
	},
	{
	"epoch": 0.9981785063752276,
	"grad_norm": 0.361328125,
	"learning_rate": 1.0311770081616864e-05,
	"loss": 0.514,
	"step": 411
	},
	{
	"epoch": 1.0006071645415908,
	"grad_norm": 0.359375,
	"learning_rate": 1.0272809183454701e-05,
	"loss": 0.5084,
	"step": 412
	},
	{
	"epoch": 1.0030358227079539,
	"grad_norm": 0.51171875,
	"learning_rate": 1.0233844140640287e-05,
	"loss": 0.5605,
	"step": 413
	},
	{
	"epoch": 1.005464480874317,
	"grad_norm": 0.361328125,
	"learning_rate": 1.0194875545149854e-05,
	"loss": 0.507,
	"step": 414
	},
	{
	"epoch": 1.00789313904068,
	"grad_norm": 0.36328125,
	"learning_rate": 1.015590398901361e-05,
	"loss": 0.5133,
	"step": 415
	},
	{
	"epoch": 1.010321797207043,
	"grad_norm": 0.37109375,
	"learning_rate": 1.0116930064306736e-05,
	"loss": 0.5121,
	"step": 416
	},
	{
	"epoch": 1.010321797207043,
	"eval_loss": 0.5115101933479309,
	"eval_runtime": 96.8252,
	"eval_samples_per_second": 30.984,
	"eval_steps_per_second": 3.873,
	"step": 416
	},
	{
	"epoch": 1.0127504553734061,
	"grad_norm": 0.357421875,
	"learning_rate": 1.0077954363140407e-05,
	"loss": 0.5109,
	"step": 417
	},
	{
	"epoch": 1.0151791135397692,
	"grad_norm": 0.353515625,
	"learning_rate": 1.0038977477652779e-05,
	"loss": 0.4991,
	"step": 418
	},
	{
	"epoch": 1.002428658166363,
	"grad_norm": 0.3984375,
	"learning_rate": 1e-05,
	"loss": 0.4774,
	"step": 419
	},
	{
	"epoch": 1.0048573163327261,
	"grad_norm": 0.384765625,
	"learning_rate": 9.961022522347226e-06,
	"loss": 0.475,
	"step": 420
	},
	{
	"epoch": 1.0072859744990892,
	"grad_norm": 0.365234375,
	"learning_rate": 9.922045636859596e-06,
	"loss": 0.4863,
	"step": 421
	},
	{
	"epoch": 1.0097146326654522,
	"grad_norm": 0.373046875,
	"learning_rate": 9.883069935693267e-06,
	"loss": 0.4837,
	"step": 422
	},
	{
	"epoch": 1.0121432908318153,
	"grad_norm": 0.38671875,
	"learning_rate": 9.844096010986392e-06,
	"loss": 0.479,
	"step": 423
	},
	{
	"epoch": 1.0145719489981786,
	"grad_norm": 0.380859375,
	"learning_rate": 9.80512445485015e-06,
	"loss": 0.4849,
	"step": 424
	},
	{
	"epoch": 1.0170006071645417,
	"grad_norm": 0.3828125,
	"learning_rate": 9.766155859359718e-06,
	"loss": 0.4765,
	"step": 425
	},
	{
	"epoch": 1.0194292653309047,
	"grad_norm": 0.361328125,
	"learning_rate": 9.7271908165453e-06,
	"loss": 0.4773,
	"step": 426
	},
	{
	"epoch": 1.0218579234972678,
	"grad_norm": 0.64453125,
	"learning_rate": 9.688229918383138e-06,
	"loss": 0.5238,
	"step": 427
	},
	{
	"epoch": 1.0242865816636308,
	"grad_norm": 0.359375,
	"learning_rate": 9.649273756786486e-06,
	"loss": 0.483,
	"step": 428
	},
	{
	"epoch": 1.026715239829994,
	"grad_norm": 0.361328125,
	"learning_rate": 9.610322923596652e-06,
	"loss": 0.4718,
	"step": 429
	},
	{
	"epoch": 1.029143897996357,
	"grad_norm": 0.546875,
	"learning_rate": 9.57137801057399e-06,
	"loss": 0.5207,
	"step": 430
	},
	{
	"epoch": 1.03157255616272,
	"grad_norm": 0.35546875,
	"learning_rate": 9.532439609388901e-06,
	"loss": 0.4787,
	"step": 431
	},
	{
	"epoch": 1.034001214329083,
	"grad_norm": 0.3515625,
	"learning_rate": 9.493508311612874e-06,
	"loss": 0.4768,
	"step": 432
	},
	{
	"epoch": 1.0364298724954462,
	"grad_norm": 0.359375,
	"learning_rate": 9.454584708709462e-06,
	"loss": 0.484,
	"step": 433
	},
	{
	"epoch": 1.0388585306618094,
	"grad_norm": 0.361328125,
	"learning_rate": 9.415669392025329e-06,
	"loss": 0.4812,
	"step": 434
	},
	{
	"epoch": 1.0412871888281725,
	"grad_norm": 0.353515625,
	"learning_rate": 9.376762952781234e-06,
	"loss": 0.475,
	"step": 435
	},
	{
	"epoch": 1.0437158469945356,
	"grad_norm": 0.35546875,
	"learning_rate": 9.337865982063076e-06,
	"loss": 0.4726,
	"step": 436
	},
	{
	"epoch": 1.0461445051608986,
	"grad_norm": 0.361328125,
	"learning_rate": 9.298979070812908e-06,
	"loss": 0.473,
	"step": 437
	},
	{
	"epoch": 1.0485731633272617,
	"grad_norm": 0.353515625,
	"learning_rate": 9.260102809819939e-06,
	"loss": 0.4739,
	"step": 438
	},
	{
	"epoch": 1.0510018214936248,
	"grad_norm": 0.361328125,
	"learning_rate": 9.221237789711587e-06,
	"loss": 0.4916,
	"step": 439
	},
	{
	"epoch": 1.0534304796599878,
	"grad_norm": 0.35546875,
	"learning_rate": 9.182384600944494e-06,
	"loss": 0.4823,
	"step": 440
	},
	{
	"epoch": 1.0558591378263509,
	"grad_norm": 0.349609375,
	"learning_rate": 9.143543833795539e-06,
	"loss": 0.4737,
	"step": 441
	},
	{
	"epoch": 1.058287795992714,
	"grad_norm": 0.361328125,
	"learning_rate": 9.104716078352906e-06,
	"loss": 0.4788,
	"step": 442
	},
	{
	"epoch": 1.058287795992714,
	"eval_loss": 0.5110214352607727,
	"eval_runtime": 96.9242,
	"eval_samples_per_second": 30.952,
	"eval_steps_per_second": 3.869,
	"step": 442
	},
	{
	"epoch": 1.060716454159077,
	"grad_norm": 0.365234375,
	"learning_rate": 9.065901924507085e-06,
	"loss": 0.4775,
	"step": 443
	},
	{
	"epoch": 1.0631451123254403,
	"grad_norm": 0.35546875,
	"learning_rate": 9.027101961941925e-06,
	"loss": 0.4735,
	"step": 444
	},
	{
	"epoch": 1.0655737704918034,
	"grad_norm": 0.353515625,
	"learning_rate": 8.98831678012568e-06,
	"loss": 0.4803,
	"step": 445
	},
	{
	"epoch": 1.0680024286581664,
	"grad_norm": 0.353515625,
	"learning_rate": 8.949546968302042e-06,
	"loss": 0.4767,
	"step": 446
	},
	{
	"epoch": 1.0704310868245295,
	"grad_norm": 0.36328125,
	"learning_rate": 8.910793115481201e-06,
	"loss": 0.4765,
	"step": 447
	},
	{
	"epoch": 1.0728597449908925,
	"grad_norm": 0.357421875,
	"learning_rate": 8.872055810430881e-06,
	"loss": 0.4789,
	"step": 448
	},
	{
	"epoch": 1.0752884031572556,
	"grad_norm": 0.671875,
	"learning_rate": 8.833335641667408e-06,
	"loss": 0.5243,
	"step": 449
	},
	{
	"epoch": 1.0777170613236187,
	"grad_norm": 0.3515625,
	"learning_rate": 8.79463319744677e-06,
	"loss": 0.4769,
	"step": 450
	},
	{
	"epoch": 1.0801457194899817,
	"grad_norm": 0.359375,
	"learning_rate": 8.755949065755668e-06,
	"loss": 0.4774,
	"step": 451
	},
	{
	"epoch": 1.0825743776563448,
	"grad_norm": 0.373046875,
	"learning_rate": 8.717283834302593e-06,
	"loss": 0.4792,
	"step": 452
	},
	{
	"epoch": 1.0850030358227079,
	"grad_norm": 0.353515625,
	"learning_rate": 8.678638090508897e-06,
	"loss": 0.4768,
	"step": 453
	},
	{
	"epoch": 1.0874316939890711,
	"grad_norm": 0.35546875,
	"learning_rate": 8.640012421499856e-06,
	"loss": 0.4738,
	"step": 454
	},
	{
	"epoch": 1.0898603521554342,
	"grad_norm": 0.5625,
	"learning_rate": 8.601407414095771e-06,
	"loss": 0.5251,
	"step": 455
	},
	{
	"epoch": 1.0922890103217973,
	"grad_norm": 0.35546875,
	"learning_rate": 8.562823654803035e-06,
	"loss": 0.4847,
	"step": 456
	},
	{
	"epoch": 1.0947176684881603,
	"grad_norm": 0.359375,
	"learning_rate": 8.524261729805235e-06,
	"loss": 0.4815,
	"step": 457
	},
	{
	"epoch": 1.0971463266545234,
	"grad_norm": 0.7421875,
	"learning_rate": 8.485722224954237e-06,
	"loss": 0.5586,
	"step": 458
	},
	{
	"epoch": 1.0995749848208864,
	"grad_norm": 0.353515625,
	"learning_rate": 8.44720572576128e-06,
	"loss": 0.4716,
	"step": 459
	},
	{
	"epoch": 1.1020036429872495,
	"grad_norm": 0.35546875,
	"learning_rate": 8.408712817388113e-06,
	"loss": 0.4782,
	"step": 460
	},
	{
	"epoch": 1.1044323011536126,
	"grad_norm": 0.50390625,
	"learning_rate": 8.370244084638055e-06,
	"loss": 0.5251,
	"step": 461
	},
	{
	"epoch": 1.1068609593199756,
	"grad_norm": 0.53515625,
	"learning_rate": 8.331800111947158e-06,
	"loss": 0.5125,
	"step": 462
	},
	{
	"epoch": 1.1092896174863387,
	"grad_norm": 0.5234375,
	"learning_rate": 8.293381483375293e-06,
	"loss": 0.5175,
	"step": 463
	},
	{
	"epoch": 1.111718275652702,
	"grad_norm": 0.5234375,
	"learning_rate": 8.254988782597295e-06,
	"loss": 0.514,
	"step": 464
	},
	{
	"epoch": 1.114146933819065,
	"grad_norm": 0.35546875,
	"learning_rate": 8.216622592894097e-06,
	"loss": 0.477,
	"step": 465
	},
	{
	"epoch": 1.116575591985428,
	"grad_norm": 0.375,
	"learning_rate": 8.178283497143851e-06,
	"loss": 0.4873,
	"step": 466
	},
	{
	"epoch": 1.1190042501517912,
	"grad_norm": 0.361328125,
	"learning_rate": 8.139972077813093e-06,
	"loss": 0.4805,
	"step": 467
	},
	{
	"epoch": 1.1214329083181542,
	"grad_norm": 0.359375,
	"learning_rate": 8.10168891694789e-06,
	"loss": 0.4738,
	"step": 468
	},
	{
	"epoch": 1.1214329083181542,
	"eval_loss": 0.5099829435348511,
	"eval_runtime": 99.9835,
	"eval_samples_per_second": 30.005,
	"eval_steps_per_second": 3.751,
	"step": 468
	},
	{
	"epoch": 1.1238615664845173,
	"grad_norm": 0.35546875,
	"learning_rate": 8.063434596164974e-06,
	"loss": 0.471,
	"step": 469
	},
	{
	"epoch": 1.1262902246508804,
	"grad_norm": 0.357421875,
	"learning_rate": 8.025209696642942e-06,
	"loss": 0.4781,
	"step": 470
	},
	{
	"epoch": 1.1287188828172434,
	"grad_norm": 0.353515625,
	"learning_rate": 7.987014799113398e-06,
	"loss": 0.4806,
	"step": 471
	},
	{
	"epoch": 1.1311475409836065,
	"grad_norm": 0.35546875,
	"learning_rate": 7.948850483852153e-06,
	"loss": 0.4737,
	"step": 472
	},
	{
	"epoch": 1.1335761991499695,
	"grad_norm": 0.6640625,
	"learning_rate": 7.91071733067038e-06,
	"loss": 0.5262,
	"step": 473
	},
	{
	"epoch": 1.1360048573163328,
	"grad_norm": 0.365234375,
	"learning_rate": 7.872615918905833e-06,
	"loss": 0.4892,
	"step": 474
	},
	{
	"epoch": 1.138433515482696,
	"grad_norm": 0.353515625,
	"learning_rate": 7.83454682741404e-06,
	"loss": 0.4825,
	"step": 475
	},
	{
	"epoch": 1.140862173649059,
	"grad_norm": 0.353515625,
	"learning_rate": 7.796510634559487e-06,
	"loss": 0.4708,
	"step": 476
	},
	{
	"epoch": 1.143290831815422,
	"grad_norm": 0.359375,
	"learning_rate": 7.758507918206859e-06,
	"loss": 0.474,
	"step": 477
	},
	{
	"epoch": 1.145719489981785,
	"grad_norm": 0.357421875,
	"learning_rate": 7.720539255712252e-06,
	"loss": 0.4705,
	"step": 478
	},
	{
	"epoch": 1.1481481481481481,
	"grad_norm": 0.3515625,
	"learning_rate": 7.682605223914386e-06,
	"loss": 0.4735,
	"step": 479
	},
	{
	"epoch": 1.1505768063145112,
	"grad_norm": 0.3515625,
	"learning_rate": 7.644706399125871e-06,
	"loss": 0.4696,
	"step": 480
	},
	{
	"epoch": 1.1530054644808743,
	"grad_norm": 0.365234375,
	"learning_rate": 7.606843357124426e-06,
	"loss": 0.4953,
	"step": 481
	},
	{
	"epoch": 1.1554341226472373,
	"grad_norm": 0.3515625,
	"learning_rate": 7.569016673144132e-06,
	"loss": 0.4749,
	"step": 482
	},
	{
	"epoch": 1.1578627808136004,
	"grad_norm": 0.353515625,
	"learning_rate": 7.531226921866715e-06,
	"loss": 0.4755,
	"step": 483
	},
	{
	"epoch": 1.1602914389799635,
	"grad_norm": 0.353515625,
	"learning_rate": 7.493474677412795e-06,
	"loss": 0.4661,
	"step": 484
	},
	{
	"epoch": 1.1627200971463267,
	"grad_norm": 0.63671875,
	"learning_rate": 7.455760513333172e-06,
	"loss": 0.5152,
	"step": 485
	},
	{
	"epoch": 1.1651487553126898,
	"grad_norm": 0.35546875,
	"learning_rate": 7.418085002600104e-06,
	"loss": 0.4787,
	"step": 486
	},
	{
	"epoch": 1.1675774134790529,
	"grad_norm": 0.353515625,
	"learning_rate": 7.3804487175986135e-06,
	"loss": 0.4718,
	"step": 487
	},
	{
	"epoch": 1.170006071645416,
	"grad_norm": 0.3515625,
	"learning_rate": 7.3428522301177894e-06,
	"loss": 0.4728,
	"step": 488
	},
	{
	"epoch": 1.172434729811779,
	"grad_norm": 0.353515625,
	"learning_rate": 7.305296111342086e-06,
	"loss": 0.4771,
	"step": 489
	},
	{
	"epoch": 1.174863387978142,
	"grad_norm": 0.353515625,
	"learning_rate": 7.267780931842667e-06,
	"loss": 0.479,
	"step": 490
	},
	{
	"epoch": 1.177292046144505,
	"grad_norm": 0.34765625,
	"learning_rate": 7.230307261568725e-06,
	"loss": 0.468,
	"step": 491
	},
	{
	"epoch": 1.1797207043108682,
	"grad_norm": 0.353515625,
	"learning_rate": 7.192875669838815e-06,
	"loss": 0.475,
	"step": 492
	},
	{
	"epoch": 1.1821493624772312,
	"grad_norm": 0.353515625,
	"learning_rate": 7.155486725332224e-06,
	"loss": 0.4683,
	"step": 493
	},
	{
	"epoch": 1.1845780206435945,
	"grad_norm": 0.353515625,
	"learning_rate": 7.118140996080313e-06,
	"loss": 0.4818,
	"step": 494
	},
	{
	"epoch": 1.1845780206435945,
	"eval_loss": 0.5090214610099792,
	"eval_runtime": 100.5205,
	"eval_samples_per_second": 29.845,
	"eval_steps_per_second": 3.731,
	"step": 494
	},
	{
	"epoch": 1.1870066788099576,
	"grad_norm": 0.48828125,
	"learning_rate": 7.080839049457908e-06,
	"loss": 0.513,
	"step": 495
	},
	{
	"epoch": 1.1894353369763206,
	"grad_norm": 0.359375,
	"learning_rate": 7.043581452174653e-06,
	"loss": 0.4799,
	"step": 496
	},
	{
	"epoch": 1.1918639951426837,
	"grad_norm": 0.5859375,
	"learning_rate": 7.006368770266421e-06,
	"loss": 0.5165,
	"step": 497
	},
	{
	"epoch": 1.1942926533090468,
	"grad_norm": 0.349609375,
	"learning_rate": 6.9692015690867135e-06,
	"loss": 0.4774,
	"step": 498
	},
	{
	"epoch": 1.1967213114754098,
	"grad_norm": 0.3515625,
	"learning_rate": 6.932080413298055e-06,
	"loss": 0.4723,
	"step": 499
	},
	{
	"epoch": 1.199149969641773,
	"grad_norm": 0.357421875,
	"learning_rate": 6.895005866863439e-06,
	"loss": 0.4679,
	"step": 500
	},
	{
	"epoch": 1.201578627808136,
	"grad_norm": 0.353515625,
	"learning_rate": 6.857978493037734e-06,
	"loss": 0.4769,
	"step": 501
	},
	{
	"epoch": 1.204007285974499,
	"grad_norm": 0.357421875,
	"learning_rate": 6.820998854359144e-06,
	"loss": 0.4752,
	"step": 502
	},
	{
	"epoch": 1.206435944140862,
	"grad_norm": 0.35546875,
	"learning_rate": 6.784067512640666e-06,
	"loss": 0.4781,
	"step": 503
	},
	{
	"epoch": 1.2088646023072251,
	"grad_norm": 0.35546875,
	"learning_rate": 6.7471850289615246e-06,
	"loss": 0.4705,
	"step": 504
	},
	{
	"epoch": 1.2112932604735884,
	"grad_norm": 0.7109375,
	"learning_rate": 6.710351963658692e-06,
	"loss": 0.5441,
	"step": 505
	},
	{
	"epoch": 1.2137219186399515,
	"grad_norm": 0.35546875,
	"learning_rate": 6.67356887631834e-06,
	"loss": 0.4712,
	"step": 506
	},
	{
	"epoch": 1.2161505768063146,
	"grad_norm": 0.357421875,
	"learning_rate": 6.636836325767342e-06,
	"loss": 0.4824,
	"step": 507
	},
	{
	"epoch": 1.2185792349726776,
	"grad_norm": 0.357421875,
	"learning_rate": 6.600154870064812e-06,
	"loss": 0.4772,
	"step": 508
	},
	{
	"epoch": 1.2210078931390407,
	"grad_norm": 0.349609375,
	"learning_rate": 6.563525066493588e-06,
	"loss": 0.4641,
	"step": 509
	},
	{
	"epoch": 1.2234365513054037,
	"grad_norm": 0.35546875,
	"learning_rate": 6.526947471551799e-06,
	"loss": 0.4711,
	"step": 510
	},
	{
	"epoch": 1.2258652094717668,
	"grad_norm": 0.34765625,
	"learning_rate": 6.490422640944378e-06,
	"loss": 0.4702,
	"step": 511
	},
	{
	"epoch": 1.2282938676381299,
	"grad_norm": 0.353515625,
	"learning_rate": 6.453951129574644e-06,
	"loss": 0.4849,
	"step": 512
	},
	{
	"epoch": 1.230722525804493,
	"grad_norm": 0.515625,
	"learning_rate": 6.41753349153587e-06,
	"loss": 0.5051,
	"step": 513
	},
	{
	"epoch": 1.2331511839708562,
	"grad_norm": 0.3515625,
	"learning_rate": 6.3811702801028465e-06,
	"loss": 0.4701,
	"step": 514
	},
	{
	"epoch": 1.2355798421372193,
	"grad_norm": 0.3515625,
	"learning_rate": 6.344862047723495e-06,
	"loss": 0.4765,
	"step": 515
	},
	{
	"epoch": 1.2380085003035823,
	"grad_norm": 0.3515625,
	"learning_rate": 6.30860934601047e-06,
	"loss": 0.4827,
	"step": 516
	},
	{
	"epoch": 1.2404371584699454,
	"grad_norm": 0.35546875,
	"learning_rate": 6.272412725732767e-06,
	"loss": 0.4787,
	"step": 517
	},
	{
	"epoch": 1.2428658166363085,
	"grad_norm": 0.353515625,
	"learning_rate": 6.236272736807378e-06,
	"loss": 0.4825,
	"step": 518
	},
	{
	"epoch": 1.2452944748026715,
	"grad_norm": 0.357421875,
	"learning_rate": 6.200189928290916e-06,
	"loss": 0.4799,
	"step": 519
	},
	{
	"epoch": 1.2477231329690346,
	"grad_norm": 0.349609375,
	"learning_rate": 6.1641648483712755e-06,
	"loss": 0.4719,
	"step": 520
	},
	{
	"epoch": 1.2477231329690346,
	"eval_loss": 0.5082234740257263,
	"eval_runtime": 98.6416,
	"eval_samples_per_second": 30.413,
	"eval_steps_per_second": 3.802,
	"step": 520
	},
	{
	"epoch": 1.2501517911353976,
	"grad_norm": 0.357421875,
	"learning_rate": 6.128198044359322e-06,
	"loss": 0.4689,
	"step": 521
	},
	{
	"epoch": 1.2525804493017607,
	"grad_norm": 0.353515625,
	"learning_rate": 6.09229006268055e-06,
	"loss": 0.4821,
	"step": 522
	},
	{
	"epoch": 1.255009107468124,
	"grad_norm": 0.359375,
	"learning_rate": 6.056441448866817e-06,
	"loss": 0.4793,
	"step": 523
	},
	{
	"epoch": 1.2574377656344868,
	"grad_norm": 0.3515625,
	"learning_rate": 6.020652747548008e-06,
	"loss": 0.4761,
	"step": 524
	},
	{
	"epoch": 1.2598664238008501,
	"grad_norm": 0.357421875,
	"learning_rate": 5.984924502443807e-06,
	"loss": 0.482,
	"step": 525
	},
	{
	"epoch": 1.2622950819672132,
	"grad_norm": 0.345703125,
	"learning_rate": 5.949257256355415e-06,
	"loss": 0.4674,
	"step": 526
	},
	{
	"epoch": 1.2647237401335762,
	"grad_norm": 0.34765625,
	"learning_rate": 5.913651551157295e-06,
	"loss": 0.4733,
	"step": 527
	},
	{
	"epoch": 1.2671523982999393,
	"grad_norm": 0.349609375,
	"learning_rate": 5.878107927788962e-06,
	"loss": 0.4742,
	"step": 528
	},
	{
	"epoch": 1.2695810564663024,
	"grad_norm": 0.349609375,
	"learning_rate": 5.84262692624675e-06,
	"loss": 0.476,
	"step": 529
	},
	{
	"epoch": 1.2720097146326654,
	"grad_norm": 0.3515625,
	"learning_rate": 5.8072090855756e-06,
	"loss": 0.4698,
	"step": 530
	},
	{
	"epoch": 1.2744383727990285,
	"grad_norm": 0.349609375,
	"learning_rate": 5.7718549438609085e-06,
	"loss": 0.4737,
	"step": 531
	},
	{
	"epoch": 1.2768670309653916,
	"grad_norm": 0.3515625,
	"learning_rate": 5.736565038220289e-06,
	"loss": 0.4787,
	"step": 532
	},
	{
	"epoch": 1.2792956891317546,
	"grad_norm": 0.3515625,
	"learning_rate": 5.701339904795486e-06,
	"loss": 0.4673,
	"step": 533
	},
	{
	"epoch": 1.281724347298118,
	"grad_norm": 0.353515625,
	"learning_rate": 5.666180078744169e-06,
	"loss": 0.4786,
	"step": 534
	},
	{
	"epoch": 1.2841530054644807,
	"grad_norm": 0.3515625,
	"learning_rate": 5.6310860942318235e-06,
	"loss": 0.4766,
	"step": 535
	},
	{
	"epoch": 1.286581663630844,
	"grad_norm": 0.35546875,
	"learning_rate": 5.5960584844236565e-06,
	"loss": 0.4744,
	"step": 536
	},
	{
	"epoch": 1.289010321797207,
	"grad_norm": 0.349609375,
	"learning_rate": 5.561097781476463e-06,
	"loss": 0.4706,
	"step": 537
	},
	{
	"epoch": 1.2914389799635702,
	"grad_norm": 0.35546875,
	"learning_rate": 5.5262045165305615e-06,
	"loss": 0.474,
	"step": 538
	},
	{
	"epoch": 1.2938676381299332,
	"grad_norm": 0.353515625,
	"learning_rate": 5.491379219701718e-06,
	"loss": 0.4737,
	"step": 539
	},
	{
	"epoch": 1.2962962962962963,
	"grad_norm": 0.349609375,
	"learning_rate": 5.456622420073084e-06,
	"loss": 0.4797,
	"step": 540
	},
	{
	"epoch": 1.2987249544626593,
	"grad_norm": 0.345703125,
	"learning_rate": 5.421934645687185e-06,
	"loss": 0.4779,
	"step": 541
	},
	{
	"epoch": 1.3011536126290224,
	"grad_norm": 0.349609375,
	"learning_rate": 5.387316423537869e-06,
	"loss": 0.476,
	"step": 542
	},
	{
	"epoch": 1.3035822707953855,
	"grad_norm": 0.353515625,
	"learning_rate": 5.352768279562315e-06,
	"loss": 0.4792,
	"step": 543
	},
	{
	"epoch": 1.3060109289617485,
	"grad_norm": 0.51171875,
	"learning_rate": 5.318290738633041e-06,
	"loss": 0.5148,
	"step": 544
	},
	{
	"epoch": 1.3084395871281118,
	"grad_norm": 0.3515625,
	"learning_rate": 5.283884324549924e-06,
	"loss": 0.4741,
	"step": 545
	},
	{
	"epoch": 1.3108682452944749,
	"grad_norm": 0.3515625,
	"learning_rate": 5.249549560032252e-06,
	"loss": 0.4643,
	"step": 546
	},
	{
	"epoch": 1.3108682452944749,
	"eval_loss": 0.5077295899391174,
	"eval_runtime": 96.7746,
	"eval_samples_per_second": 31.0,
	"eval_steps_per_second": 3.875,
	"step": 546
	},
	{
	"epoch": 1.313296903460838,
	"grad_norm": 0.353515625,
	"learning_rate": 5.215286966710774e-06,
	"loss": 0.4723,
	"step": 547
	},
	{
	"epoch": 1.315725561627201,
	"grad_norm": 0.353515625,
	"learning_rate": 5.18109706511978e-06,
	"loss": 0.4812,
	"step": 548
	},
	{
	"epoch": 1.318154219793564,
	"grad_norm": 0.359375,
	"learning_rate": 5.146980374689192e-06,
	"loss": 0.4683,
	"step": 549
	},
	{
	"epoch": 1.3205828779599271,
	"grad_norm": 0.34765625,
	"learning_rate": 5.112937413736667e-06,
	"loss": 0.4731,
	"step": 550
	},
	{
	"epoch": 1.3230115361262902,
	"grad_norm": 0.34765625,
	"learning_rate": 5.078968699459736e-06,
	"loss": 0.4687,
	"step": 551
	},
	{
	"epoch": 1.3254401942926533,
	"grad_norm": 0.3515625,
	"learning_rate": 5.045074747927927e-06,
	"loss": 0.4781,
	"step": 552
	},
	{
	"epoch": 1.3278688524590163,
	"grad_norm": 0.353515625,
	"learning_rate": 5.011256074074945e-06,
	"loss": 0.4764,
	"step": 553
	},
	{
	"epoch": 1.3302975106253796,
	"grad_norm": 0.345703125,
	"learning_rate": 4.977513191690834e-06,
	"loss": 0.4628,
	"step": 554
	},
	{
	"epoch": 1.3327261687917424,
	"grad_norm": 0.349609375,
	"learning_rate": 4.943846613414172e-06,
	"loss": 0.4751,
	"step": 555
	},
	{
	"epoch": 1.3351548269581057,
	"grad_norm": 0.34765625,
	"learning_rate": 4.910256850724306e-06,
	"loss": 0.4742,
	"step": 556
	},
	{
	"epoch": 1.3375834851244688,
	"grad_norm": 0.345703125,
	"learning_rate": 4.8767444139335365e-06,
	"loss": 0.4653,
	"step": 557
	},
	{
	"epoch": 1.3400121432908318,
	"grad_norm": 0.3515625,
	"learning_rate": 4.843309812179405e-06,
	"loss": 0.4779,
	"step": 558
	},
	{
	"epoch": 1.342440801457195,
	"grad_norm": 0.35546875,
	"learning_rate": 4.809953553416954e-06,
	"loss": 0.4845,
	"step": 559
	},
	{
	"epoch": 1.344869459623558,
	"grad_norm": 0.35546875,
	"learning_rate": 4.776676144410973e-06,
	"loss": 0.4687,
	"step": 560
	},
	{
	"epoch": 1.347298117789921,
	"grad_norm": 0.349609375,
	"learning_rate": 4.743478090728356e-06,
	"loss": 0.4819,
	"step": 561
	},
	{
	"epoch": 1.349726775956284,
	"grad_norm": 0.349609375,
	"learning_rate": 4.710359896730379e-06,
	"loss": 0.4757,
	"step": 562
	},
	{
	"epoch": 1.3521554341226472,
	"grad_norm": 0.3515625,
	"learning_rate": 4.677322065565039e-06,
	"loss": 0.4692,
	"step": 563
	},
	{
	"epoch": 1.3545840922890102,
	"grad_norm": 0.349609375,
	"learning_rate": 4.644365099159443e-06,
	"loss": 0.4787,
	"step": 564
	},
	{
	"epoch": 1.3570127504553735,
	"grad_norm": 0.50390625,
	"learning_rate": 4.611489498212145e-06,
	"loss": 0.5029,
	"step": 565
	},
	{
	"epoch": 1.3594414086217366,
	"grad_norm": 0.34765625,
	"learning_rate": 4.57869576218556e-06,
	"loss": 0.473,
	"step": 566
	},
	{
	"epoch": 1.3618700667880996,
	"grad_norm": 0.35546875,
	"learning_rate": 4.545984389298371e-06,
	"loss": 0.4751,
	"step": 567
	},
	{
	"epoch": 1.3642987249544627,
	"grad_norm": 0.35546875,
	"learning_rate": 4.5133558765179576e-06,
	"loss": 0.4757,
	"step": 568
	},
	{
	"epoch": 1.3667273831208258,
	"grad_norm": 0.34765625,
	"learning_rate": 4.480810719552848e-06,
	"loss": 0.4691,
	"step": 569
	},
	{
	"epoch": 1.3691560412871888,
	"grad_norm": 0.35546875,
	"learning_rate": 4.4483494128451885e-06,
	"loss": 0.477,
	"step": 570
	},
	{
	"epoch": 1.3715846994535519,
	"grad_norm": 0.3515625,
	"learning_rate": 4.4159724495632295e-06,
	"loss": 0.4775,
	"step": 571
	},
	{
	"epoch": 1.374013357619915,
	"grad_norm": 0.349609375,
	"learning_rate": 4.383680321593836e-06,
	"loss": 0.4783,
	"step": 572
	},
	{
	"epoch": 1.374013357619915,
	"eval_loss": 0.5073318481445312,
	"eval_runtime": 103.2698,
	"eval_samples_per_second": 29.05,
	"eval_steps_per_second": 3.631,
	"step": 572
	},
	{
	"epoch": 1.376442015786278,
	"grad_norm": 0.3515625,
	"learning_rate": 4.35147351953501e-06,
	"loss": 0.4735,
	"step": 573
	},
	{
	"epoch": 1.3788706739526413,
	"grad_norm": 0.357421875,
	"learning_rate": 4.319352532688444e-06,
	"loss": 0.4667,
	"step": 574
	},
	{
	"epoch": 1.3812993321190041,
	"grad_norm": 0.357421875,
	"learning_rate": 4.287317849052075e-06,
	"loss": 0.4788,
	"step": 575
	},
	{
	"epoch": 1.3837279902853674,
	"grad_norm": 0.349609375,
	"learning_rate": 4.255369955312698e-06,
	"loss": 0.474,
	"step": 576
	},
	{
	"epoch": 1.3861566484517305,
	"grad_norm": 0.349609375,
	"learning_rate": 4.223509336838528e-06,
	"loss": 0.4688,
	"step": 577
	},
	{
	"epoch": 1.3885853066180935,
	"grad_norm": 0.353515625,
	"learning_rate": 4.191736477671864e-06,
	"loss": 0.4688,
	"step": 578
	},
	{
	"epoch": 1.3910139647844566,
	"grad_norm": 0.3515625,
	"learning_rate": 4.160051860521731e-06,
	"loss": 0.4659,
	"step": 579
	},
	{
	"epoch": 1.3934426229508197,
	"grad_norm": 0.35546875,
	"learning_rate": 4.128455966756512e-06,
	"loss": 0.4759,
	"step": 580
	},
	{
	"epoch": 1.3958712811171827,
	"grad_norm": 0.35546875,
	"learning_rate": 4.096949276396694e-06,
	"loss": 0.4779,
	"step": 581
	},
	{
	"epoch": 1.3982999392835458,
	"grad_norm": 0.3515625,
	"learning_rate": 4.065532268107507e-06,
	"loss": 0.4776,
	"step": 582
	},
	{
	"epoch": 1.4007285974499089,
	"grad_norm": 0.3515625,
	"learning_rate": 4.034205419191709e-06,
	"loss": 0.4749,
	"step": 583
	},
	{
	"epoch": 1.403157255616272,
	"grad_norm": 0.353515625,
	"learning_rate": 4.002969205582314e-06,
	"loss": 0.4791,
	"step": 584
	},
	{
	"epoch": 1.4055859137826352,
	"grad_norm": 0.35546875,
	"learning_rate": 3.971824101835341e-06,
	"loss": 0.4723,
	"step": 585
	},
	{
	"epoch": 1.4080145719489983,
	"grad_norm": 0.349609375,
	"learning_rate": 3.940770581122634e-06,
	"loss": 0.4803,
	"step": 586
	},
	{
	"epoch": 1.4104432301153613,
	"grad_norm": 0.349609375,
	"learning_rate": 3.909809115224674e-06,
	"loss": 0.4667,
	"step": 587
	},
	{
	"epoch": 1.4128718882817244,
	"grad_norm": 0.357421875,
	"learning_rate": 3.878940174523371e-06,
	"loss": 0.4795,
	"step": 588
	},
	{
	"epoch": 1.4153005464480874,
	"grad_norm": 0.341796875,
	"learning_rate": 3.848164227994976e-06,
	"loss": 0.4631,
	"step": 589
	},
	{
	"epoch": 1.4177292046144505,
	"grad_norm": 0.361328125,
	"learning_rate": 3.8174817432029125e-06,
	"loss": 0.4728,
	"step": 590
	},
	{
	"epoch": 1.4201578627808136,
	"grad_norm": 0.345703125,
	"learning_rate": 3.7868931862906756e-06,
	"loss": 0.4658,
	"step": 591
	},
	{
	"epoch": 1.4225865209471766,
	"grad_norm": 0.353515625,
	"learning_rate": 3.7563990219747857e-06,
	"loss": 0.4841,
	"step": 592
	},
	{
	"epoch": 1.4250151791135397,
	"grad_norm": 0.3515625,
	"learning_rate": 3.725999713537689e-06,
	"loss": 0.4763,
	"step": 593
	},
	{
	"epoch": 1.427443837279903,
	"grad_norm": 0.3515625,
	"learning_rate": 3.695695722820737e-06,
	"loss": 0.4804,
	"step": 594
	},
	{
	"epoch": 1.4298724954462658,
	"grad_norm": 0.345703125,
	"learning_rate": 3.6654875102171683e-06,
	"loss": 0.4687,
	"step": 595
	},
	{
	"epoch": 1.432301153612629,
	"grad_norm": 0.34765625,
	"learning_rate": 3.635375534665111e-06,
	"loss": 0.464,
	"step": 596
	},
	{
	"epoch": 1.4347298117789922,
	"grad_norm": 0.34765625,
	"learning_rate": 3.605360253640614e-06,
	"loss": 0.4735,
	"step": 597
	},
	{
	"epoch": 1.4371584699453552,
	"grad_norm": 0.34765625,
	"learning_rate": 3.5754421231506953e-06,
	"loss": 0.4782,
	"step": 598
	},
	{
	"epoch": 1.4371584699453552,
	"eval_loss": 0.5070293545722961,
	"eval_runtime": 107.3386,
	"eval_samples_per_second": 27.949,
	"eval_steps_per_second": 3.494,
	"step": 598
	},
	{
	"epoch": 1.4395871281117183,
	"grad_norm": 0.353515625,
	"learning_rate": 3.545621597726412e-06,
	"loss": 0.4721,
	"step": 599
	},
	{
	"epoch": 1.4420157862780814,
	"grad_norm": 0.357421875,
	"learning_rate": 3.5158991304159572e-06,
	"loss": 0.4755,
	"step": 600
	},
	{
	"epoch": 1.4444444444444444,
	"grad_norm": 0.353515625,
	"learning_rate": 3.48627517277778e-06,
	"loss": 0.4827,
	"step": 601
	},
	{
	"epoch": 1.4468731026108075,
	"grad_norm": 0.34765625,
	"learning_rate": 3.4567501748737153e-06,
	"loss": 0.4693,
	"step": 602
	},
	{
	"epoch": 1.4493017607771705,
	"grad_norm": 0.349609375,
	"learning_rate": 3.427324585262156e-06,
	"loss": 0.468,
	"step": 603
	},
	{
	"epoch": 1.4517304189435336,
	"grad_norm": 0.34375,
	"learning_rate": 3.3979988509912443e-06,
	"loss": 0.4715,
	"step": 604
	},
	{
	"epoch": 1.454159077109897,
	"grad_norm": 0.353515625,
	"learning_rate": 3.3687734175920505e-06,
	"loss": 0.4844,
	"step": 605
	},
	{
	"epoch": 1.4565877352762597,
	"grad_norm": 0.353515625,
	"learning_rate": 3.339648729071836e-06,
	"loss": 0.4731,
	"step": 606
	},
	{
	"epoch": 1.459016393442623,
	"grad_norm": 0.34765625,
	"learning_rate": 3.310625227907307e-06,
	"loss": 0.4744,
	"step": 607
	},
	{
	"epoch": 1.461445051608986,
	"grad_norm": 0.353515625,
	"learning_rate": 3.281703355037854e-06,
	"loss": 0.4771,
	"step": 608
	},
	{
	"epoch": 1.4638737097753491,
	"grad_norm": 0.34765625,
	"learning_rate": 3.2528835498589085e-06,
	"loss": 0.471,
	"step": 609
	},
	{
	"epoch": 1.4663023679417122,
	"grad_norm": 0.35546875,
	"learning_rate": 3.2241662502152236e-06,
	"loss": 0.4773,
	"step": 610
	},
	{
	"epoch": 1.4687310261080753,
	"grad_norm": 0.349609375,
	"learning_rate": 3.195551892394234e-06,
	"loss": 0.4772,
	"step": 611
	},
	{
	"epoch": 1.4711596842744383,
	"grad_norm": 0.35546875,
	"learning_rate": 3.1670409111194454e-06,
	"loss": 0.4707,
	"step": 612
	},
	{
	"epoch": 1.4735883424408014,
	"grad_norm": 0.349609375,
	"learning_rate": 3.138633739543805e-06,
	"loss": 0.4759,
	"step": 613
	},
	{
	"epoch": 1.4760170006071647,
	"grad_norm": 0.345703125,
	"learning_rate": 3.110330809243134e-06,
	"loss": 0.4693,
	"step": 614
	},
	{
	"epoch": 1.4784456587735275,
	"grad_norm": 0.34375,
	"learning_rate": 3.082132550209571e-06,
	"loss": 0.4666,
	"step": 615
	},
	{
	"epoch": 1.4808743169398908,
	"grad_norm": 0.349609375,
	"learning_rate": 3.054039390845035e-06,
	"loss": 0.4731,
	"step": 616
	},
	{
	"epoch": 1.4833029751062539,
	"grad_norm": 0.34765625,
	"learning_rate": 3.0260517579547166e-06,
	"loss": 0.4782,
	"step": 617
	},
	{
	"epoch": 1.485731633272617,
	"grad_norm": 0.5390625,
	"learning_rate": 2.998170076740601e-06,
	"loss": 0.5016,
	"step": 618
	},
	{
	"epoch": 1.48816029143898,
	"grad_norm": 0.5078125,
	"learning_rate": 2.9703947707949974e-06,
	"loss": 0.5092,
	"step": 619
	},
	{
	"epoch": 1.490588949605343,
	"grad_norm": 0.353515625,
	"learning_rate": 2.9427262620941142e-06,
	"loss": 0.4768,
	"step": 620
	},
	{
	"epoch": 1.4930176077717061,
	"grad_norm": 0.349609375,
	"learning_rate": 2.915164970991642e-06,
	"loss": 0.4699,
	"step": 621
	},
	{
	"epoch": 1.4954462659380692,
	"grad_norm": 0.34765625,
	"learning_rate": 2.8877113162123637e-06,
	"loss": 0.4729,
	"step": 622
	},
	{
	"epoch": 1.4978749241044322,
	"grad_norm": 0.34765625,
	"learning_rate": 2.8603657148458053e-06,
	"loss": 0.4698,
	"step": 623
	},
	{
	"epoch": 1.5003035822707953,
	"grad_norm": 0.34765625,
	"learning_rate": 2.833128582339887e-06,
	"loss": 0.4812,
	"step": 624
	},
	{
	"epoch": 1.5003035822707953,
	"eval_loss": 0.5068376660346985,
	"eval_runtime": 97.0195,
	"eval_samples_per_second": 30.922,
	"eval_steps_per_second": 3.865,
	"step": 624
	},
	{
	"epoch": 1.5027322404371586,
	"grad_norm": 0.34765625,
	"learning_rate": 2.806000332494617e-06,
	"loss": 0.4651,
	"step": 625
	},
	{
	"epoch": 1.5051608986035214,
	"grad_norm": 0.345703125,
	"learning_rate": 2.778981377455806e-06,
	"loss": 0.4681,
	"step": 626
	},
	{
	"epoch": 1.5075895567698847,
	"grad_norm": 0.34765625,
	"learning_rate": 2.7520721277088023e-06,
	"loss": 0.4747,
	"step": 627
	},
	{
	"epoch": 1.5100182149362478,
	"grad_norm": 0.353515625,
	"learning_rate": 2.7252729920722564e-06,
	"loss": 0.4736,
	"step": 628
	},
	{
	"epoch": 1.5124468731026108,
	"grad_norm": 0.53125,
	"learning_rate": 2.698584377691913e-06,
	"loss": 0.5096,
	"step": 629
	},
	{
	"epoch": 1.514875531268974,
	"grad_norm": 0.349609375,
	"learning_rate": 2.6720066900344212e-06,
	"loss": 0.4703,
	"step": 630
	},
	{
	"epoch": 1.517304189435337,
	"grad_norm": 0.3515625,
	"learning_rate": 2.6455403328811736e-06,
	"loss": 0.4765,
	"step": 631
	},
	{
	"epoch": 1.5197328476017,
	"grad_norm": 0.349609375,
	"learning_rate": 2.6191857083221873e-06,
	"loss": 0.4819,
	"step": 632
	},
	{
	"epoch": 1.522161505768063,
	"grad_norm": 0.34765625,
	"learning_rate": 2.5929432167499658e-06,
	"loss": 0.4673,
	"step": 633
	},
	{
	"epoch": 1.5245901639344264,
	"grad_norm": 0.34765625,
	"learning_rate": 2.5668132568534377e-06,
	"loss": 0.4748,
	"step": 634
	},
	{
	"epoch": 1.5270188221007892,
	"grad_norm": 0.345703125,
	"learning_rate": 2.540796225611907e-06,
	"loss": 0.4674,
	"step": 635
	},
	{
	"epoch": 1.5294474802671525,
	"grad_norm": 0.546875,
	"learning_rate": 2.514892518288988e-06,
	"loss": 0.5083,
	"step": 636
	},
	{
	"epoch": 1.5318761384335153,
	"grad_norm": 0.51953125,
	"learning_rate": 2.4891025284266436e-06,
	"loss": 0.5049,
	"step": 637
	},
	{
	"epoch": 1.5343047965998786,
	"grad_norm": 0.345703125,
	"learning_rate": 2.463426647839173e-06,
	"loss": 0.4701,
	"step": 638
	},
	{
	"epoch": 1.5367334547662417,
	"grad_norm": 0.349609375,
	"learning_rate": 2.4378652666072646e-06,
	"loss": 0.4715,
	"step": 639
	},
	{
	"epoch": 1.5391621129326047,
	"grad_norm": 0.498046875,
	"learning_rate": 2.4124187730720916e-06,
	"loss": 0.5031,
	"step": 640
	},
	{
	"epoch": 1.5415907710989678,
	"grad_norm": 0.345703125,
	"learning_rate": 2.387087553829386e-06,
	"loss": 0.4734,
	"step": 641
	},
	{
	"epoch": 1.5440194292653309,
	"grad_norm": 0.349609375,
	"learning_rate": 2.361871993723579e-06,
	"loss": 0.4649,
	"step": 642
	},
	{
	"epoch": 1.5464480874316942,
	"grad_norm": 0.5,
	"learning_rate": 2.3367724758419495e-06,
	"loss": 0.5191,
	"step": 643
	},
	{
	"epoch": 1.548876745598057,
	"grad_norm": 0.349609375,
	"learning_rate": 2.3117893815088067e-06,
	"loss": 0.4755,
	"step": 644
	},
	{
	"epoch": 1.5513054037644203,
	"grad_norm": 0.353515625,
	"learning_rate": 2.2869230902796934e-06,
	"loss": 0.4805,
	"step": 645
	},
	{
	"epoch": 1.5537340619307831,
	"grad_norm": 0.3515625,
	"learning_rate": 2.2621739799356244e-06,
	"loss": 0.4807,
	"step": 646
	},
	{
	"epoch": 1.5561627200971464,
	"grad_norm": 0.349609375,
	"learning_rate": 2.2375424264773447e-06,
	"loss": 0.4818,
	"step": 647
	},
	{
	"epoch": 1.5585913782635095,
	"grad_norm": 0.353515625,
	"learning_rate": 2.2130288041196135e-06,
	"loss": 0.4773,
	"step": 648
	},
	{
	"epoch": 1.5610200364298725,
	"grad_norm": 0.34375,
	"learning_rate": 2.188633485285525e-06,
	"loss": 0.4696,
	"step": 649
	},
	{
	"epoch": 1.5634486945962356,
	"grad_norm": 0.34765625,
	"learning_rate": 2.1643568406008476e-06,
	"loss": 0.4679,
	"step": 650
	},
	{
	"epoch": 1.5634486945962356,
	"eval_loss": 0.5066995620727539,
	"eval_runtime": 98.2878,
	"eval_samples_per_second": 30.523,
	"eval_steps_per_second": 3.815,
	"step": 650
	},
	{
	"epoch": 1.5658773527625987,
	"grad_norm": 0.34765625,
	"learning_rate": 2.1401992388883888e-06,
	"loss": 0.4672,
	"step": 651
	},
	{
	"epoch": 1.5683060109289617,
	"grad_norm": 0.33984375,
	"learning_rate": 2.1161610471624084e-06,
	"loss": 0.4629,
	"step": 652
	},
	{
	"epoch": 1.5707346690953248,
	"grad_norm": 0.345703125,
	"learning_rate": 2.092242630623016e-06,
	"loss": 0.4701,
	"step": 653
	},
	{
	"epoch": 1.573163327261688,
	"grad_norm": 0.349609375,
	"learning_rate": 2.0684443526506415e-06,
	"loss": 0.4767,
	"step": 654
	},
	{
	"epoch": 1.575591985428051,
	"grad_norm": 0.349609375,
	"learning_rate": 2.0447665748005206e-06,
	"loss": 0.4677,
	"step": 655
	},
	{
	"epoch": 1.5780206435944142,
	"grad_norm": 0.48046875,
	"learning_rate": 2.021209656797174e-06,
	"loss": 0.5038,
	"step": 656
	},
	{
	"epoch": 1.580449301760777,
	"grad_norm": 0.349609375,
	"learning_rate": 1.9977739565289743e-06,
	"loss": 0.4732,
	"step": 657
	},
	{
	"epoch": 1.5828779599271403,
	"grad_norm": 0.345703125,
	"learning_rate": 1.974459830042691e-06,
	"loss": 0.4743,
	"step": 658
	},
	{
	"epoch": 1.5853066180935034,
	"grad_norm": 0.34375,
	"learning_rate": 1.951267631538072e-06,
	"loss": 0.4686,
	"step": 659
	},
	{
	"epoch": 1.5877352762598664,
	"grad_norm": 0.59375,
	"learning_rate": 1.928197713362495e-06,
	"loss": 0.5074,
	"step": 660
	},
	{
	"epoch": 1.5901639344262295,
	"grad_norm": 0.34765625,
	"learning_rate": 1.9052504260055838e-06,
	"loss": 0.4701,
	"step": 661
	},
	{
	"epoch": 1.5925925925925926,
	"grad_norm": 0.34765625,
	"learning_rate": 1.8824261180938875e-06,
	"loss": 0.4757,
	"step": 662
	},
	{
	"epoch": 1.5950212507589556,
	"grad_norm": 0.345703125,
	"learning_rate": 1.8597251363856061e-06,
	"loss": 0.4754,
	"step": 663
	},
	{
	"epoch": 1.5974499089253187,
	"grad_norm": 0.345703125,
	"learning_rate": 1.8371478257652908e-06,
	"loss": 0.4718,
	"step": 664
	},
	{
	"epoch": 1.599878567091682,
	"grad_norm": 0.349609375,
	"learning_rate": 1.8146945292386343e-06,
	"loss": 0.4765,
	"step": 665
	},
	{
	"epoch": 1.6023072252580448,
	"grad_norm": 0.349609375,
	"learning_rate": 1.7923655879272395e-06,
	"loss": 0.4822,
	"step": 666
	},
	{
	"epoch": 1.604735883424408,
	"grad_norm": 0.35546875,
	"learning_rate": 1.7701613410634367e-06,
	"loss": 0.4802,
	"step": 667
	},
	{
	"epoch": 1.607164541590771,
	"grad_norm": 0.349609375,
	"learning_rate": 1.7480821259851488e-06,
	"loss": 0.4741,
	"step": 668
	},
	{
	"epoch": 1.6095931997571342,
	"grad_norm": 0.349609375,
	"learning_rate": 1.7261282781307486e-06,
	"loss": 0.4686,
	"step": 669
	},
	{
	"epoch": 1.6120218579234973,
	"grad_norm": 0.349609375,
	"learning_rate": 1.7043001310339646e-06,
	"loss": 0.4672,
	"step": 670
	},
	{
	"epoch": 1.6144505160898603,
	"grad_norm": 0.34765625,
	"learning_rate": 1.6825980163188204e-06,
	"loss": 0.4727,
	"step": 671
	},
	{
	"epoch": 1.6168791742562234,
	"grad_norm": 0.34765625,
	"learning_rate": 1.661022263694594e-06,
	"loss": 0.4805,
	"step": 672
	},
	{
	"epoch": 1.6193078324225865,
	"grad_norm": 0.34765625,
	"learning_rate": 1.6395732009508058e-06,
	"loss": 0.469,
	"step": 673
	},
	{
	"epoch": 1.6217364905889498,
	"grad_norm": 0.349609375,
	"learning_rate": 1.6182511539522427e-06,
	"loss": 0.4747,
	"step": 674
	},
	{
	"epoch": 1.6241651487553126,
	"grad_norm": 0.34375,
	"learning_rate": 1.5970564466340022e-06,
	"loss": 0.4635,
	"step": 675
	},
	{
	"epoch": 1.6265938069216759,
	"grad_norm": 0.349609375,
	"learning_rate": 1.5759894009965793e-06,
	"loss": 0.4725,
	"step": 676
	},
	{
	"epoch": 1.6265938069216759,
	"eval_loss": 0.5065969824790955,
	"eval_runtime": 97.0109,
	"eval_samples_per_second": 30.924,
	"eval_steps_per_second": 3.866,
	"step": 676
	},
	{
	"epoch": 1.6290224650880387,
	"grad_norm": 0.349609375,
	"learning_rate": 1.5550503371009652e-06,
	"loss": 0.4762,
	"step": 677
	},
	{
	"epoch": 1.631451123254402,
	"grad_norm": 0.34375,
	"learning_rate": 1.5342395730637904e-06,
	"loss": 0.4738,
	"step": 678
	},
	{
	"epoch": 1.633879781420765,
	"grad_norm": 0.349609375,
	"learning_rate": 1.5135574250524898e-06,
	"loss": 0.4787,
	"step": 679
	},
	{
	"epoch": 1.6363084395871281,
	"grad_norm": 0.345703125,
	"learning_rate": 1.4930042072805062e-06,
	"loss": 0.4681,
	"step": 680
	},
	{
	"epoch": 1.6387370977534912,
	"grad_norm": 0.34765625,
	"learning_rate": 1.4725802320024985e-06,
	"loss": 0.4772,
	"step": 681
	},
	{
	"epoch": 1.6411657559198543,
	"grad_norm": 0.349609375,
	"learning_rate": 1.452285809509617e-06,
	"loss": 0.4753,
	"step": 682
	},
	{
	"epoch": 1.6435944140862173,
	"grad_norm": 0.3515625,
	"learning_rate": 1.432121248124786e-06,
	"loss": 0.4793,
	"step": 683
	},
	{
	"epoch": 1.6460230722525804,
	"grad_norm": 0.3515625,
	"learning_rate": 1.4120868541980026e-06,
	"loss": 0.4766,
	"step": 684
	},
	{
	"epoch": 1.6484517304189437,
	"grad_norm": 0.3515625,
	"learning_rate": 1.39218293210171e-06,
	"loss": 0.4742,
	"step": 685
	},
	{
	"epoch": 1.6508803885853065,
	"grad_norm": 0.349609375,
	"learning_rate": 1.372409784226152e-06,
	"loss": 0.485,
	"step": 686
	},
	{
	"epoch": 1.6533090467516698,
	"grad_norm": 0.3515625,
	"learning_rate": 1.3527677109747784e-06,
	"loss": 0.476,
	"step": 687
	},
	{
	"epoch": 1.6557377049180326,
	"grad_norm": 0.349609375,
	"learning_rate": 1.333257010759702e-06,
	"loss": 0.4773,
	"step": 688
	},
	{
	"epoch": 1.658166363084396,
	"grad_norm": 0.349609375,
	"learning_rate": 1.3138779799971446e-06,
	"loss": 0.4772,
	"step": 689
	},
	{
	"epoch": 1.660595021250759,
	"grad_norm": 0.349609375,
	"learning_rate": 1.294630913102939e-06,
	"loss": 0.478,
	"step": 690
	},
	{
	"epoch": 1.663023679417122,
	"grad_norm": 0.345703125,
	"learning_rate": 1.2755161024880602e-06,
	"loss": 0.472,
	"step": 691
	},
	{
	"epoch": 1.665452337583485,
	"grad_norm": 0.34765625,
	"learning_rate": 1.2565338385541792e-06,
	"loss": 0.4716,
	"step": 692
	},
	{
	"epoch": 1.6678809957498482,
	"grad_norm": 0.34375,
	"learning_rate": 1.2376844096892526e-06,
	"loss": 0.4646,
	"step": 693
	},
	{
	"epoch": 1.6703096539162114,
	"grad_norm": 0.34765625,
	"learning_rate": 1.2189681022631405e-06,
	"loss": 0.4743,
	"step": 694
	},
	{
	"epoch": 1.6727383120825743,
	"grad_norm": 0.34375,
	"learning_rate": 1.2003852006232564e-06,
	"loss": 0.4727,
	"step": 695
	},
	{
	"epoch": 1.6751669702489376,
	"grad_norm": 0.34375,
	"learning_rate": 1.181935987090247e-06,
	"loss": 0.463,
	"step": 696
	},
	{
	"epoch": 1.6775956284153004,
	"grad_norm": 0.349609375,
	"learning_rate": 1.1636207419537038e-06,
	"loss": 0.4799,
	"step": 697
	},
	{
	"epoch": 1.6800242865816637,
	"grad_norm": 0.3515625,
	"learning_rate": 1.1454397434679022e-06,
	"loss": 0.4795,
	"step": 698
	},
	{
	"epoch": 1.6824529447480268,
	"grad_norm": 0.3515625,
	"learning_rate": 1.1273932678475764e-06,
	"loss": 0.4748,
	"step": 699
	},
	{
	"epoch": 1.6848816029143898,
	"grad_norm": 0.6171875,
	"learning_rate": 1.1094815892637256e-06,
	"loss": 0.5055,
	"step": 700
	},
	{
	"epoch": 1.6873102610807529,
	"grad_norm": 0.34765625,
	"learning_rate": 1.0917049798394408e-06,
	"loss": 0.4721,
	"step": 701
	},
	{
	"epoch": 1.689738919247116,
	"grad_norm": 0.345703125,
	"learning_rate": 1.0740637096457773e-06,
	"loss": 0.4645,
	"step": 702
	},
	{
	"epoch": 1.689738919247116,
	"eval_loss": 0.5065945386886597,
	"eval_runtime": 97.1015,
	"eval_samples_per_second": 30.896,
	"eval_steps_per_second": 3.862,
	"step": 702
	},
	{
	"epoch": 1.692167577413479,
	"grad_norm": 0.353515625,
	"learning_rate": 1.0565580466976566e-06,
	"loss": 0.4757,
	"step": 703
	},
	{
	"epoch": 1.694596235579842,
	"grad_norm": 0.3515625,
	"learning_rate": 1.0391882569497758e-06,
	"loss": 0.475,
	"step": 704
	},
	{
	"epoch": 1.6970248937462054,
	"grad_norm": 0.345703125,
	"learning_rate": 1.0219546042925842e-06,
	"loss": 0.4777,
	"step": 705
	},
	{
	"epoch": 1.6994535519125682,
	"grad_norm": 0.34765625,
	"learning_rate": 1.0048573505482728e-06,
	"loss": 0.4712,
	"step": 706
	},
	{
	"epoch": 1.7018822100789315,
	"grad_norm": 0.54296875,
	"learning_rate": 9.878967554667862e-07,
	"loss": 0.5034,
	"step": 707
	},
	{
	"epoch": 1.7043108682452943,
	"grad_norm": 0.34765625,
	"learning_rate": 9.710730767218913e-07,
	"loss": 0.469,
	"step": 708
	},
	{
	"epoch": 1.7067395264116576,
	"grad_norm": 0.34375,
	"learning_rate": 9.54386569907244e-07,
	"loss": 0.4712,
	"step": 709
	},
	{
	"epoch": 1.7091681845780207,
	"grad_norm": 0.34765625,
	"learning_rate": 9.378374885325225e-07,
	"loss": 0.4754,
	"step": 710
	},
	{
	"epoch": 1.7115968427443837,
	"grad_norm": 0.345703125,
	"learning_rate": 9.214260840195732e-07,
	"loss": 0.4796,
	"step": 711
	},
	{
	"epoch": 1.7140255009107468,
	"grad_norm": 0.345703125,
	"learning_rate": 9.051526056985737e-07,
	"loss": 0.467,
	"step": 712
	},
	{
	"epoch": 1.7164541590771099,
	"grad_norm": 0.349609375,
	"learning_rate": 8.890173008042768e-07,
	"loss": 0.4749,
	"step": 713
	},
	{
	"epoch": 1.7188828172434731,
	"grad_norm": 0.482421875,
	"learning_rate": 8.730204144722232e-07,
	"loss": 0.5046,
	"step": 714
	},
	{
	"epoch": 1.721311475409836,
	"grad_norm": 0.34765625,
	"learning_rate": 8.571621897350312e-07,
	"loss": 0.4781,
	"step": 715
	},
	{
	"epoch": 1.7237401335761993,
	"grad_norm": 0.34765625,
	"learning_rate": 8.414428675187114e-07,
	"loss": 0.4611,
	"step": 716
	},
	{
	"epoch": 1.726168791742562,
	"grad_norm": 0.34375,
	"learning_rate": 8.258626866389897e-07,
	"loss": 0.4659,
	"step": 717
	},
	{
	"epoch": 1.7285974499089254,
	"grad_norm": 0.34765625,
	"learning_rate": 8.10421883797694e-07,
	"loss": 0.467,
	"step": 718
	},
	{
	"epoch": 1.7310261080752884,
	"grad_norm": 0.34375,
	"learning_rate": 7.951206935791478e-07,
	"loss": 0.4678,
	"step": 719
	},
	{
	"epoch": 1.7334547662416515,
	"grad_norm": 0.345703125,
	"learning_rate": 7.799593484466139e-07,
	"loss": 0.4771,
	"step": 720
	},
	{
	"epoch": 1.7358834244080146,
	"grad_norm": 0.34765625,
	"learning_rate": 7.649380787387561e-07,
	"loss": 0.4725,
	"step": 721
	},
	{
	"epoch": 1.7383120825743776,
	"grad_norm": 0.34765625,
	"learning_rate": 7.500571126661449e-07,
	"loss": 0.4732,
	"step": 722
	},
	{
	"epoch": 1.7407407407407407,
	"grad_norm": 0.34375,
	"learning_rate": 7.35316676307789e-07,
	"loss": 0.4716,
	"step": 723
	},
	{
	"epoch": 1.7431693989071038,
	"grad_norm": 0.3515625,
	"learning_rate": 7.207169936076974e-07,
	"loss": 0.4721,
	"step": 724
	},
	{
	"epoch": 1.745598057073467,
	"grad_norm": 0.34375,
	"learning_rate": 7.06258286371484e-07,
	"loss": 0.4726,
	"step": 725
	},
	{
	"epoch": 1.7480267152398299,
	"grad_norm": 0.61328125,
	"learning_rate": 6.919407742629891e-07,
	"loss": 0.5167,
	"step": 726
	},
	{
	"epoch": 1.7504553734061932,
	"grad_norm": 0.3515625,
	"learning_rate": 6.77764674800947e-07,
	"loss": 0.4826,
	"step": 727
	},
	{
	"epoch": 1.752884031572556,
	"grad_norm": 0.349609375,
	"learning_rate": 6.637302033556891e-07,
	"loss": 0.4792,
	"step": 728
	},
	{
	"epoch": 1.752884031572556,
	"eval_loss": 0.5065528750419617,
	"eval_runtime": 97.2896,
	"eval_samples_per_second": 30.836,
	"eval_steps_per_second": 3.854,
	"step": 728
	},
	{
	"epoch": 1.7553126897389193,
	"grad_norm": 0.34765625,
	"learning_rate": 6.498375731458529e-07,
	"loss": 0.4687,
	"step": 729
	},
	{
	"epoch": 1.7577413479052824,
	"grad_norm": 0.349609375,
	"learning_rate": 6.360869952351568e-07,
	"loss": 0.4841,
	"step": 730
	},
	{
	"epoch": 1.7601700060716454,
	"grad_norm": 0.34765625,
	"learning_rate": 6.22478678529197e-07,
	"loss": 0.4773,
	"step": 731
	},
	{
	"epoch": 1.7625986642380085,
	"grad_norm": 0.3515625,
	"learning_rate": 6.090128297722564e-07,
	"loss": 0.476,
	"step": 732
	},
	{
	"epoch": 1.7650273224043715,
	"grad_norm": 0.349609375,
	"learning_rate": 5.956896535441803e-07,
	"loss": 0.4749,
	"step": 733
	},
	{
	"epoch": 1.7674559805707348,
	"grad_norm": 0.34765625,
	"learning_rate": 5.825093522572666e-07,
	"loss": 0.4828,
	"step": 734
	},
	{
	"epoch": 1.7698846387370977,
	"grad_norm": 0.34375,
	"learning_rate": 5.694721261531732e-07,
	"loss": 0.4682,
	"step": 735
	},
	{
	"epoch": 1.772313296903461,
	"grad_norm": 0.345703125,
	"learning_rate": 5.565781732999043e-07,
	"loss": 0.4733,
	"step": 736
	},
	{
	"epoch": 1.7747419550698238,
	"grad_norm": 0.3515625,
	"learning_rate": 5.438276895887761e-07,
	"loss": 0.4767,
	"step": 737
	},
	{
	"epoch": 1.777170613236187,
	"grad_norm": 0.35546875,
	"learning_rate": 5.312208687314502e-07,
	"loss": 0.4758,
	"step": 738
	},
	{
	"epoch": 1.7795992714025501,
	"grad_norm": 0.3515625,
	"learning_rate": 5.187579022569977e-07,
	"loss": 0.4839,
	"step": 739
	},
	{
	"epoch": 1.7820279295689132,
	"grad_norm": 0.470703125,
	"learning_rate": 5.064389795089764e-07,
	"loss": 0.5067,
	"step": 740
	},
	{
	"epoch": 1.7844565877352763,
	"grad_norm": 0.5078125,
	"learning_rate": 4.942642876425641e-07,
	"loss": 0.5085,
	"step": 741
	},
	{
	"epoch": 1.7868852459016393,
	"grad_norm": 0.34765625,
	"learning_rate": 4.822340116217116e-07,
	"loss": 0.4757,
	"step": 742
	},
	{
	"epoch": 1.7893139040680024,
	"grad_norm": 0.349609375,
	"learning_rate": 4.703483342163262e-07,
	"loss": 0.4792,
	"step": 743
	},
	{
	"epoch": 1.7917425622343655,
	"grad_norm": 0.349609375,
	"learning_rate": 4.5860743599951186e-07,
	"loss": 0.4667,
	"step": 744
	},
	{
	"epoch": 1.7941712204007287,
	"grad_norm": 0.34765625,
	"learning_rate": 4.470114953448079e-07,
	"loss": 0.4772,
	"step": 745
	},
	{
	"epoch": 1.7965998785670916,
	"grad_norm": 0.349609375,
	"learning_rate": 4.3556068842348865e-07,
	"loss": 0.4801,
	"step": 746
	},
	{
	"epoch": 1.7990285367334549,
	"grad_norm": 0.34375,
	"learning_rate": 4.2425518920188536e-07,
	"loss": 0.4718,
	"step": 747
	},
	{
	"epoch": 1.8014571948998177,
	"grad_norm": 0.349609375,
	"learning_rate": 4.1309516943874196e-07,
	"loss": 0.4731,
	"step": 748
	},
	{
	"epoch": 1.803885853066181,
	"grad_norm": 0.349609375,
	"learning_rate": 4.0208079868260696e-07,
	"loss": 0.4812,
	"step": 749
	},
	{
	"epoch": 1.806314511232544,
	"grad_norm": 0.345703125,
	"learning_rate": 3.9121224426925675e-07,
	"loss": 0.4739,
	"step": 750
	},
	{
	"epoch": 1.8087431693989071,
	"grad_norm": 0.349609375,
	"learning_rate": 3.8048967131915414e-07,
	"loss": 0.4755,
	"step": 751
	},
	{
	"epoch": 1.8111718275652702,
	"grad_norm": 0.349609375,
	"learning_rate": 3.699132427349383e-07,
	"loss": 0.4749,
	"step": 752
	},
	{
	"epoch": 1.8136004857316332,
	"grad_norm": 0.345703125,
	"learning_rate": 3.594831191989523e-07,
	"loss": 0.4737,
	"step": 753
	},
	{
	"epoch": 1.8160291438979965,
	"grad_norm": 0.34765625,
	"learning_rate": 3.49199459170797e-07,
	"loss": 0.4689,
	"step": 754
	},
	{
	"epoch": 1.8160291438979965,
	"eval_loss": 0.506585955619812,
	"eval_runtime": 101.0452,
	"eval_samples_per_second": 29.69,
	"eval_steps_per_second": 3.711,
	"step": 754
	},
	{
	"epoch": 1.8184578020643594,
	"grad_norm": 0.34765625,
	"learning_rate": 3.3906241888493005e-07,
	"loss": 0.4732,
	"step": 755
	},
	{
	"epoch": 1.8208864602307226,
	"grad_norm": 0.357421875,
	"learning_rate": 3.2907215234829205e-07,
	"loss": 0.4814,
	"step": 756
	},
	{
	"epoch": 1.8233151183970855,
	"grad_norm": 0.34765625,
	"learning_rate": 3.1922881133795827e-07,
	"loss": 0.4705,
	"step": 757
	},
	{
	"epoch": 1.8257437765634488,
	"grad_norm": 0.34765625,
	"learning_rate": 3.095325453988385e-07,
	"loss": 0.4727,
	"step": 758
	},
	{
	"epoch": 1.8281724347298116,
	"grad_norm": 0.34375,
	"learning_rate": 2.999835018414143e-07,
	"loss": 0.4698,
	"step": 759
	},
	{
	"epoch": 1.830601092896175,
	"grad_norm": 0.34765625,
	"learning_rate": 2.905818257394799e-07,
	"loss": 0.478,
	"step": 760
	},
	{
	"epoch": 1.833029751062538,
	"grad_norm": 0.345703125,
	"learning_rate": 2.8132765992795797e-07,
	"loss": 0.4695,
	"step": 761
	},
	{
	"epoch": 1.835458409228901,
	"grad_norm": 0.345703125,
	"learning_rate": 2.722211450007206e-07,
	"loss": 0.4722,
	"step": 762
	},
	{
	"epoch": 1.837887067395264,
	"grad_norm": 0.345703125,
	"learning_rate": 2.632624193084499e-07,
	"loss": 0.4632,
	"step": 763
	},
	{
	"epoch": 1.8403157255616271,
	"grad_norm": 0.34765625,
	"learning_rate": 2.544516189565482e-07,
	"loss": 0.4781,
	"step": 764
	},
	{
	"epoch": 1.8427443837279904,
	"grad_norm": 0.345703125,
	"learning_rate": 2.4578887780305704e-07,
	"loss": 0.4755,
	"step": 765
	},
	{
	"epoch": 1.8451730418943533,
	"grad_norm": 0.34765625,
	"learning_rate": 2.3727432745663025e-07,
	"loss": 0.4761,
	"step": 766
	},
	{
	"epoch": 1.8476017000607166,
	"grad_norm": 0.349609375,
	"learning_rate": 2.2890809727453612e-07,
	"loss": 0.4747,
	"step": 767
	},
	{
	"epoch": 1.8500303582270794,
	"grad_norm": 0.34765625,
	"learning_rate": 2.2069031436068643e-07,
	"loss": 0.4728,
	"step": 768
	},
	{
	"epoch": 1.8524590163934427,
	"grad_norm": 0.349609375,
	"learning_rate": 2.1262110356371047e-07,
	"loss": 0.4824,
	"step": 769
	},
	{
	"epoch": 1.8548876745598057,
	"grad_norm": 0.345703125,
	"learning_rate": 2.0470058747505516e-07,
	"loss": 0.4683,
	"step": 770
	},
	{
	"epoch": 1.8573163327261688,
	"grad_norm": 0.3515625,
	"learning_rate": 1.969288864271246e-07,
	"loss": 0.4866,
	"step": 771
	},
	{
	"epoch": 1.8597449908925319,
	"grad_norm": 0.3515625,
	"learning_rate": 1.8930611849145131e-07,
	"loss": 0.4797,
	"step": 772
	},
	{
	"epoch": 1.862173649058895,
	"grad_norm": 0.345703125,
	"learning_rate": 1.8183239947690112e-07,
	"loss": 0.4676,
	"step": 773
	},
	{
	"epoch": 1.864602307225258,
	"grad_norm": 0.34765625,
	"learning_rate": 1.7450784292791456e-07,
	"loss": 0.4668,
	"step": 774
	},
	{
	"epoch": 1.867030965391621,
	"grad_norm": 0.34375,
	"learning_rate": 1.6733256012278486e-07,
	"loss": 0.4742,
	"step": 775
	},
	{
	"epoch": 1.8694596235579843,
	"grad_norm": 0.34765625,
	"learning_rate": 1.603066600719605e-07,
	"loss": 0.4728,
	"step": 776
	},
	{
	"epoch": 1.8718882817243472,
	"grad_norm": 0.34765625,
	"learning_rate": 1.5343024951639752e-07,
	"loss": 0.47,
	"step": 777
	},
	{
	"epoch": 1.8743169398907105,
	"grad_norm": 0.34765625,
	"learning_rate": 1.467034329259287e-07,
	"loss": 0.4656,
	"step": 778
	},
	{
	"epoch": 1.8767455980570733,
	"grad_norm": 0.3515625,
	"learning_rate": 1.4012631249768592e-07,
	"loss": 0.4858,
	"step": 779
	},
	{
	"epoch": 1.8791742562234366,
	"grad_norm": 0.34765625,
	"learning_rate": 1.336989881545403e-07,
	"loss": 0.4646,
	"step": 780
	},
	{
	"epoch": 1.8791742562234366,
	"eval_loss": 0.5065886974334717,
	"eval_runtime": 100.9737,
	"eval_samples_per_second": 29.711,
	"eval_steps_per_second": 3.714,
	"step": 780
	},
	{
	"epoch": 1.8816029143897997,
	"grad_norm": 0.349609375,
	"learning_rate": 1.2742155754358553e-07,
	"loss": 0.4823,
	"step": 781
	},
	{
	"epoch": 1.8840315725561627,
	"grad_norm": 0.357421875,
	"learning_rate": 1.2129411603465924e-07,
	"loss": 0.4806,
	"step": 782
	},
	{
	"epoch": 1.8864602307225258,
	"grad_norm": 0.3515625,
	"learning_rate": 1.1531675671888621e-07,
	"loss": 0.4909,
	"step": 783
	},
	{
	"epoch": 1.8888888888888888,
	"grad_norm": 0.345703125,
	"learning_rate": 1.0948957040727071e-07,
	"loss": 0.4798,
	"step": 784
	},
	{
	"epoch": 1.8913175470552521,
	"grad_norm": 0.34375,
	"learning_rate": 1.0381264562931426e-07,
	"loss": 0.4667,
	"step": 785
	},
	{
	"epoch": 1.893746205221615,
	"grad_norm": 0.345703125,
	"learning_rate": 9.828606863166779e-08,
	"loss": 0.4703,
	"step": 786
	},
	{
	"epoch": 1.8961748633879782,
	"grad_norm": 0.349609375,
	"learning_rate": 9.290992337682936e-08,
	"loss": 0.4799,
	"step": 787
	},
	{
	"epoch": 1.898603521554341,
	"grad_norm": 0.35546875,
	"learning_rate": 8.768429154185853e-08,
	"loss": 0.478,
	"step": 788
	},
	{
	"epoch": 1.9010321797207044,
	"grad_norm": 0.349609375,
	"learning_rate": 8.260925251714514e-08,
	"loss": 0.4779,
	"step": 789
	},
	{
	"epoch": 1.9034608378870674,
	"grad_norm": 0.3515625,
	"learning_rate": 7.768488340519464e-08,
	"loss": 0.4801,
	"step": 790
	},
	{
	"epoch": 1.9058894960534305,
	"grad_norm": 0.345703125,
	"learning_rate": 7.291125901946027e-08,
	"loss": 0.4716,
	"step": 791
	},
	{
	"epoch": 1.9083181542197936,
	"grad_norm": 0.349609375,
	"learning_rate": 6.828845188321054e-08,
	"loss": 0.4739,
	"step": 792
	},
	{
	"epoch": 1.9107468123861566,
	"grad_norm": 0.345703125,
	"learning_rate": 6.381653222842011e-08,
	"loss": 0.4673,
	"step": 793
	},
	{
	"epoch": 1.9131754705525197,
	"grad_norm": 0.353515625,
	"learning_rate": 5.949556799470846e-08,
	"loss": 0.4853,
	"step": 794
	},
	{
	"epoch": 1.9156041287188827,
	"grad_norm": 0.515625,
	"learning_rate": 5.532562482830406e-08,
	"loss": 0.5203,
	"step": 795
	},
	{
	"epoch": 1.918032786885246,
	"grad_norm": 0.345703125,
	"learning_rate": 5.1306766081048456e-08,
	"loss": 0.4728,
	"step": 796
	},
	{
	"epoch": 1.9204614450516089,
	"grad_norm": 0.64453125,
	"learning_rate": 4.743905280943595e-08,
	"loss": 0.5187,
	"step": 797
	},
	{
	"epoch": 1.9228901032179722,
	"grad_norm": 0.349609375,
	"learning_rate": 4.3722543773681016e-08,
	"loss": 0.4797,
	"step": 798
	},
	{
	"epoch": 1.925318761384335,
	"grad_norm": 0.345703125,
	"learning_rate": 4.0157295436830116e-08,
	"loss": 0.4678,
	"step": 799
	},
	{
	"epoch": 1.9277474195506983,
	"grad_norm": 0.52734375,
	"learning_rate": 3.674336196390238e-08,
	"loss": 0.5106,
	"step": 800
	},
	{
	"epoch": 1.9301760777170613,
	"grad_norm": 0.349609375,
	"learning_rate": 3.3480795221066955e-08,
	"loss": 0.4749,
	"step": 801
	},
	{
	"epoch": 1.9326047358834244,
	"grad_norm": 0.34765625,
	"learning_rate": 3.036964477485249e-08,
	"loss": 0.4735,
	"step": 802
	},
	{
	"epoch": 1.9350333940497875,
	"grad_norm": 0.353515625,
	"learning_rate": 2.7409957891397775e-08,
	"loss": 0.476,
	"step": 803
	},
	{
	"epoch": 1.9374620522161505,
	"grad_norm": 0.345703125,
	"learning_rate": 2.4601779535733394e-08,
	"loss": 0.4695,
	"step": 804
	},
	{
	"epoch": 1.9398907103825138,
	"grad_norm": 0.34765625,
	"learning_rate": 2.1945152371094512e-08,
	"loss": 0.4808,
	"step": 805
	},
	{
	"epoch": 1.9423193685488767,
	"grad_norm": 0.349609375,
	"learning_rate": 1.944011675827695e-08,
	"loss": 0.4719,
	"step": 806
	},
	{
	"epoch": 1.9423193685488767,
	"eval_loss": 0.5065895318984985,
	"eval_runtime": 96.8435,
	"eval_samples_per_second": 30.978,
	"eval_steps_per_second": 3.872,
	"step": 806
	},
	{
	"epoch": 1.94474802671524,
	"grad_norm": 0.349609375,
	"learning_rate": 1.7086710755024327e-08,
	"loss": 0.4724,
	"step": 807
	},
	{
	"epoch": 1.9471766848816028,
	"grad_norm": 0.34765625,
	"learning_rate": 1.4884970115444097e-08,
	"loss": 0.4684,
	"step": 808
	},
	{
	"epoch": 1.949605343047966,
	"grad_norm": 0.3515625,
	"learning_rate": 1.2834928289472415e-08,
	"loss": 0.4773,
	"step": 809
	},
	{
	"epoch": 1.9520340012143291,
	"grad_norm": 0.349609375,
	"learning_rate": 1.0936616422358992e-08,
	"loss": 0.4767,
	"step": 810
	},
	{
	"epoch": 1.9544626593806922,
	"grad_norm": 0.34765625,
	"learning_rate": 9.190063354198586e-09,
	"loss": 0.4771,
	"step": 811
	},
	{
	"epoch": 1.9568913175470553,
	"grad_norm": 0.34375,
	"learning_rate": 7.595295619490239e-09,
	"loss": 0.4729,
	"step": 812
	},
	{
	"epoch": 1.9593199757134183,
	"grad_norm": 0.3515625,
	"learning_rate": 6.152337446736489e-09,
	"loss": 0.4754,
	"step": 813
	},
	{
	"epoch": 1.9617486338797814,
	"grad_norm": 0.353515625,
	"learning_rate": 4.861210758071444e-09,
	"loss": 0.4906,
	"step": 814
	},
	{
	"epoch": 1.9641772920461444,
	"grad_norm": 0.345703125,
	"learning_rate": 3.7219351689310455e-09,
	"loss": 0.4767,
	"step": 815
	},
	{
	"epoch": 1.9666059502125077,
	"grad_norm": 0.349609375,
	"learning_rate": 2.734527987755531e-09,
	"loss": 0.4862,
	"step": 816
	},
	{
	"epoch": 1.9690346083788706,
	"grad_norm": 0.345703125,
	"learning_rate": 1.899004215722977e-09,
	"loss": 0.4682,
	"step": 817
	},
	{
	"epoch": 1.9714632665452339,
	"grad_norm": 0.3515625,
	"learning_rate": 1.2153765465250378e-09,
	"loss": 0.4798,
	"step": 818
	},
	{
	"epoch": 1.9738919247115967,
	"grad_norm": 0.34765625,
	"learning_rate": 6.836553661715429e-10,
	"loss": 0.4743,
	"step": 819
	},
	{
	"epoch": 1.97632058287796,
	"grad_norm": 0.353515625,
	"learning_rate": 3.038487528350675e-10,
	"loss": 0.4736,
	"step": 820
	},
	{
	"epoch": 1.978749241044323,
	"grad_norm": 0.341796875,
	"learning_rate": 7.596247672325696e-11,
	"loss": 0.4709,
	"step": 821
	},
	{
	"epoch": 1.981177899210686,
	"grad_norm": 0.345703125,
	"learning_rate": 0.0,
	"loss": 0.4669,
	"step": 822
	}
	],
	"logging_steps": 1,
	"max_steps": 822,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 411,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.8283124614508839e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}