PEGASUS_liputan6 / trainer_state.json

initial commit

ad0d2af 4 months ago

42.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 24236,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00412609341475491,
	"grad_norm": 14.695940971374512,
	"learning_rate": 1e-05,
	"loss": 8.626,
	"step": 100
	},
	{
	"epoch": 0.00825218682950982,
	"grad_norm": 19.695737838745117,
	"learning_rate": 2e-05,
	"loss": 7.5714,
	"step": 200
	},
	{
	"epoch": 0.01237828024426473,
	"grad_norm": 7.499746799468994,
	"learning_rate": 3e-05,
	"loss": 6.9595,
	"step": 300
	},
	{
	"epoch": 0.01650437365901964,
	"grad_norm": 22.69700813293457,
	"learning_rate": 4e-05,
	"loss": 5.6622,
	"step": 400
	},
	{
	"epoch": 0.02063046707377455,
	"grad_norm": 16.763093948364258,
	"learning_rate": 5e-05,
	"loss": 1.9119,
	"step": 500
	},
	{
	"epoch": 0.02475656048852946,
	"grad_norm": 3.74697208404541,
	"learning_rate": 4.978934951129087e-05,
	"loss": 1.6244,
	"step": 600
	},
	{
	"epoch": 0.02888265390328437,
	"grad_norm": 6.804798126220703,
	"learning_rate": 4.957869902258174e-05,
	"loss": 1.4867,
	"step": 700
	},
	{
	"epoch": 0.03300874731803928,
	"grad_norm": 4.382748603820801,
	"learning_rate": 4.93680485338726e-05,
	"loss": 1.4434,
	"step": 800
	},
	{
	"epoch": 0.03713484073279419,
	"grad_norm": 2.020482063293457,
	"learning_rate": 4.9157398045163464e-05,
	"loss": 1.3701,
	"step": 900
	},
	{
	"epoch": 0.0412609341475491,
	"grad_norm": 1.9225651025772095,
	"learning_rate": 4.894674755645433e-05,
	"loss": 1.383,
	"step": 1000
	},
	{
	"epoch": 0.04538702756230401,
	"grad_norm": 1.8698792457580566,
	"learning_rate": 4.87360970677452e-05,
	"loss": 1.3512,
	"step": 1100
	},
	{
	"epoch": 0.04951312097705892,
	"grad_norm": 4.490991592407227,
	"learning_rate": 4.852544657903607e-05,
	"loss": 1.3039,
	"step": 1200
	},
	{
	"epoch": 0.05363921439181383,
	"grad_norm": 2.697434186935425,
	"learning_rate": 4.831479609032693e-05,
	"loss": 1.3085,
	"step": 1300
	},
	{
	"epoch": 0.05776530780656874,
	"grad_norm": 3.3568286895751953,
	"learning_rate": 4.81041456016178e-05,
	"loss": 1.2915,
	"step": 1400
	},
	{
	"epoch": 0.06189140122132365,
	"grad_norm": 2.012889862060547,
	"learning_rate": 4.789349511290866e-05,
	"loss": 1.2778,
	"step": 1500
	},
	{
	"epoch": 0.06601749463607856,
	"grad_norm": 4.024045467376709,
	"learning_rate": 4.768284462419953e-05,
	"loss": 1.2688,
	"step": 1600
	},
	{
	"epoch": 0.07014358805083347,
	"grad_norm": 2.241870880126953,
	"learning_rate": 4.7472194135490394e-05,
	"loss": 1.2592,
	"step": 1700
	},
	{
	"epoch": 0.07426968146558838,
	"grad_norm": 3.7178213596343994,
	"learning_rate": 4.7261543646781266e-05,
	"loss": 1.2112,
	"step": 1800
	},
	{
	"epoch": 0.07839577488034329,
	"grad_norm": 2.036505937576294,
	"learning_rate": 4.705089315807213e-05,
	"loss": 1.2126,
	"step": 1900
	},
	{
	"epoch": 0.0825218682950982,
	"grad_norm": 1.7717580795288086,
	"learning_rate": 4.6840242669362997e-05,
	"loss": 1.191,
	"step": 2000
	},
	{
	"epoch": 0.08664796170985312,
	"grad_norm": 1.8078298568725586,
	"learning_rate": 4.662959218065386e-05,
	"loss": 1.199,
	"step": 2100
	},
	{
	"epoch": 0.09077405512460802,
	"grad_norm": 4.067634582519531,
	"learning_rate": 4.641894169194473e-05,
	"loss": 1.1415,
	"step": 2200
	},
	{
	"epoch": 0.09490014853936293,
	"grad_norm": 1.9144686460494995,
	"learning_rate": 4.620829120323559e-05,
	"loss": 1.1486,
	"step": 2300
	},
	{
	"epoch": 0.09902624195411784,
	"grad_norm": 1.4644508361816406,
	"learning_rate": 4.599764071452646e-05,
	"loss": 1.1665,
	"step": 2400
	},
	{
	"epoch": 0.10315233536887275,
	"grad_norm": 1.6876461505889893,
	"learning_rate": 4.578699022581733e-05,
	"loss": 1.1197,
	"step": 2500
	},
	{
	"epoch": 0.10727842878362766,
	"grad_norm": 1.6274546384811401,
	"learning_rate": 4.5576339737108196e-05,
	"loss": 1.1505,
	"step": 2600
	},
	{
	"epoch": 0.11140452219838257,
	"grad_norm": 2.2767255306243896,
	"learning_rate": 4.5365689248399054e-05,
	"loss": 1.1376,
	"step": 2700
	},
	{
	"epoch": 0.11553061561313747,
	"grad_norm": 2.0346932411193848,
	"learning_rate": 4.5155038759689926e-05,
	"loss": 1.0817,
	"step": 2800
	},
	{
	"epoch": 0.1196567090278924,
	"grad_norm": 1.5901857614517212,
	"learning_rate": 4.494438827098079e-05,
	"loss": 1.0919,
	"step": 2900
	},
	{
	"epoch": 0.1237828024426473,
	"grad_norm": 2.1194183826446533,
	"learning_rate": 4.473373778227166e-05,
	"loss": 1.0813,
	"step": 3000
	},
	{
	"epoch": 0.1279088958574022,
	"grad_norm": 4.601478576660156,
	"learning_rate": 4.452308729356252e-05,
	"loss": 1.1204,
	"step": 3100
	},
	{
	"epoch": 0.13203498927215712,
	"grad_norm": 2.3545944690704346,
	"learning_rate": 4.431243680485339e-05,
	"loss": 1.0488,
	"step": 3200
	},
	{
	"epoch": 0.13616108268691204,
	"grad_norm": 1.468526005744934,
	"learning_rate": 4.410178631614425e-05,
	"loss": 1.1108,
	"step": 3300
	},
	{
	"epoch": 0.14028717610166694,
	"grad_norm": 1.5844910144805908,
	"learning_rate": 4.389113582743512e-05,
	"loss": 1.1114,
	"step": 3400
	},
	{
	"epoch": 0.14441326951642186,
	"grad_norm": 4.228846073150635,
	"learning_rate": 4.368048533872599e-05,
	"loss": 1.0961,
	"step": 3500
	},
	{
	"epoch": 0.14853936293117675,
	"grad_norm": 1.4088937044143677,
	"learning_rate": 4.3469834850016856e-05,
	"loss": 1.0758,
	"step": 3600
	},
	{
	"epoch": 0.15266545634593168,
	"grad_norm": 1.6613353490829468,
	"learning_rate": 4.325918436130772e-05,
	"loss": 1.0916,
	"step": 3700
	},
	{
	"epoch": 0.15679154976068657,
	"grad_norm": 1.6648322343826294,
	"learning_rate": 4.304853387259859e-05,
	"loss": 1.0784,
	"step": 3800
	},
	{
	"epoch": 0.1609176431754415,
	"grad_norm": 1.387666940689087,
	"learning_rate": 4.283788338388945e-05,
	"loss": 1.0894,
	"step": 3900
	},
	{
	"epoch": 0.1650437365901964,
	"grad_norm": 1.416618824005127,
	"learning_rate": 4.262723289518032e-05,
	"loss": 1.0283,
	"step": 4000
	},
	{
	"epoch": 0.1691698300049513,
	"grad_norm": 1.569306492805481,
	"learning_rate": 4.241658240647118e-05,
	"loss": 1.0513,
	"step": 4100
	},
	{
	"epoch": 0.17329592341970623,
	"grad_norm": 1.4747782945632935,
	"learning_rate": 4.2205931917762055e-05,
	"loss": 1.0531,
	"step": 4200
	},
	{
	"epoch": 0.17742201683446113,
	"grad_norm": 2.1925017833709717,
	"learning_rate": 4.199528142905292e-05,
	"loss": 1.058,
	"step": 4300
	},
	{
	"epoch": 0.18154811024921605,
	"grad_norm": 1.9729565382003784,
	"learning_rate": 4.1784630940343786e-05,
	"loss": 1.0806,
	"step": 4400
	},
	{
	"epoch": 0.18567420366397094,
	"grad_norm": 1.5546541213989258,
	"learning_rate": 4.1573980451634644e-05,
	"loss": 1.0746,
	"step": 4500
	},
	{
	"epoch": 0.18980029707872587,
	"grad_norm": 1.8433148860931396,
	"learning_rate": 4.1363329962925517e-05,
	"loss": 1.0527,
	"step": 4600
	},
	{
	"epoch": 0.19392639049348076,
	"grad_norm": 1.3673489093780518,
	"learning_rate": 4.115267947421638e-05,
	"loss": 1.0772,
	"step": 4700
	},
	{
	"epoch": 0.19805248390823568,
	"grad_norm": 1.8290094137191772,
	"learning_rate": 4.094202898550725e-05,
	"loss": 1.0424,
	"step": 4800
	},
	{
	"epoch": 0.2021785773229906,
	"grad_norm": 2.0811445713043213,
	"learning_rate": 4.073137849679812e-05,
	"loss": 1.0498,
	"step": 4900
	},
	{
	"epoch": 0.2063046707377455,
	"grad_norm": 1.2849047183990479,
	"learning_rate": 4.0520728008088985e-05,
	"loss": 1.0341,
	"step": 5000
	},
	{
	"epoch": 0.21043076415250042,
	"grad_norm": 3.288480281829834,
	"learning_rate": 4.0310077519379843e-05,
	"loss": 1.0273,
	"step": 5100
	},
	{
	"epoch": 0.21455685756725532,
	"grad_norm": 1.2297766208648682,
	"learning_rate": 4.009942703067071e-05,
	"loss": 1.0768,
	"step": 5200
	},
	{
	"epoch": 0.21868295098201024,
	"grad_norm": 1.4169477224349976,
	"learning_rate": 3.988877654196158e-05,
	"loss": 1.0334,
	"step": 5300
	},
	{
	"epoch": 0.22280904439676513,
	"grad_norm": 1.314010739326477,
	"learning_rate": 3.9678126053252446e-05,
	"loss": 1.0208,
	"step": 5400
	},
	{
	"epoch": 0.22693513781152005,
	"grad_norm": 1.5176063776016235,
	"learning_rate": 3.946747556454331e-05,
	"loss": 1.0561,
	"step": 5500
	},
	{
	"epoch": 0.23106123122627495,
	"grad_norm": 1.418303370475769,
	"learning_rate": 3.9256825075834184e-05,
	"loss": 1.0223,
	"step": 5600
	},
	{
	"epoch": 0.23518732464102987,
	"grad_norm": 1.8820278644561768,
	"learning_rate": 3.904617458712504e-05,
	"loss": 1.0333,
	"step": 5700
	},
	{
	"epoch": 0.2393134180557848,
	"grad_norm": 1.7610660791397095,
	"learning_rate": 3.883552409841591e-05,
	"loss": 1.007,
	"step": 5800
	},
	{
	"epoch": 0.2434395114705397,
	"grad_norm": 7.877830982208252,
	"learning_rate": 3.862487360970677e-05,
	"loss": 1.0138,
	"step": 5900
	},
	{
	"epoch": 0.2475656048852946,
	"grad_norm": 1.4319870471954346,
	"learning_rate": 3.8414223120997645e-05,
	"loss": 1.0103,
	"step": 6000
	},
	{
	"epoch": 0.2516916983000495,
	"grad_norm": 1.4879227876663208,
	"learning_rate": 3.820357263228851e-05,
	"loss": 1.0219,
	"step": 6100
	},
	{
	"epoch": 0.2558177917148044,
	"grad_norm": 1.3280787467956543,
	"learning_rate": 3.7992922143579376e-05,
	"loss": 1.0157,
	"step": 6200
	},
	{
	"epoch": 0.25994388512955935,
	"grad_norm": 2.4915549755096436,
	"learning_rate": 3.778227165487024e-05,
	"loss": 1.0422,
	"step": 6300
	},
	{
	"epoch": 0.26406997854431424,
	"grad_norm": 1.3016897439956665,
	"learning_rate": 3.757162116616111e-05,
	"loss": 1.004,
	"step": 6400
	},
	{
	"epoch": 0.26819607195906914,
	"grad_norm": 1.722939372062683,
	"learning_rate": 3.736097067745197e-05,
	"loss": 1.0196,
	"step": 6500
	},
	{
	"epoch": 0.2723221653738241,
	"grad_norm": 1.4764331579208374,
	"learning_rate": 3.715032018874284e-05,
	"loss": 0.9871,
	"step": 6600
	},
	{
	"epoch": 0.276448258788579,
	"grad_norm": 1.344777226448059,
	"learning_rate": 3.693966970003371e-05,
	"loss": 1.0249,
	"step": 6700
	},
	{
	"epoch": 0.2805743522033339,
	"grad_norm": 1.1756465435028076,
	"learning_rate": 3.6729019211324575e-05,
	"loss": 1.0506,
	"step": 6800
	},
	{
	"epoch": 0.28470044561808877,
	"grad_norm": 1.3845124244689941,
	"learning_rate": 3.6518368722615434e-05,
	"loss": 1.0041,
	"step": 6900
	},
	{
	"epoch": 0.2888265390328437,
	"grad_norm": 1.074078917503357,
	"learning_rate": 3.6307718233906306e-05,
	"loss": 0.9849,
	"step": 7000
	},
	{
	"epoch": 0.2929526324475986,
	"grad_norm": 2.0719516277313232,
	"learning_rate": 3.609706774519717e-05,
	"loss": 1.0022,
	"step": 7100
	},
	{
	"epoch": 0.2970787258623535,
	"grad_norm": 1.1381429433822632,
	"learning_rate": 3.5886417256488037e-05,
	"loss": 0.9409,
	"step": 7200
	},
	{
	"epoch": 0.30120481927710846,
	"grad_norm": 1.2426626682281494,
	"learning_rate": 3.56757667677789e-05,
	"loss": 1.0225,
	"step": 7300
	},
	{
	"epoch": 0.30533091269186335,
	"grad_norm": 2.445568561553955,
	"learning_rate": 3.5465116279069774e-05,
	"loss": 0.9725,
	"step": 7400
	},
	{
	"epoch": 0.30945700610661825,
	"grad_norm": 1.2126537561416626,
	"learning_rate": 3.525446579036063e-05,
	"loss": 1.0005,
	"step": 7500
	},
	{
	"epoch": 0.31358309952137314,
	"grad_norm": 2.634969472885132,
	"learning_rate": 3.50438153016515e-05,
	"loss": 1.0079,
	"step": 7600
	},
	{
	"epoch": 0.3177091929361281,
	"grad_norm": 1.4859946966171265,
	"learning_rate": 3.483316481294237e-05,
	"loss": 1.0192,
	"step": 7700
	},
	{
	"epoch": 0.321835286350883,
	"grad_norm": 1.3265373706817627,
	"learning_rate": 3.4622514324233236e-05,
	"loss": 0.9836,
	"step": 7800
	},
	{
	"epoch": 0.3259613797656379,
	"grad_norm": 1.569514513015747,
	"learning_rate": 3.44118638355241e-05,
	"loss": 1.002,
	"step": 7900
	},
	{
	"epoch": 0.3300874731803928,
	"grad_norm": 1.718145728111267,
	"learning_rate": 3.4201213346814966e-05,
	"loss": 0.9599,
	"step": 8000
	},
	{
	"epoch": 0.3342135665951477,
	"grad_norm": 1.2960829734802246,
	"learning_rate": 3.399056285810583e-05,
	"loss": 1.0286,
	"step": 8100
	},
	{
	"epoch": 0.3383396600099026,
	"grad_norm": 1.3030658960342407,
	"learning_rate": 3.37799123693967e-05,
	"loss": 0.9592,
	"step": 8200
	},
	{
	"epoch": 0.3424657534246575,
	"grad_norm": 1.6679294109344482,
	"learning_rate": 3.356926188068756e-05,
	"loss": 0.9823,
	"step": 8300
	},
	{
	"epoch": 0.34659184683941247,
	"grad_norm": 1.079559326171875,
	"learning_rate": 3.335861139197843e-05,
	"loss": 0.9749,
	"step": 8400
	},
	{
	"epoch": 0.35071794025416736,
	"grad_norm": 1.27901029586792,
	"learning_rate": 3.31479609032693e-05,
	"loss": 0.9801,
	"step": 8500
	},
	{
	"epoch": 0.35484403366892225,
	"grad_norm": 1.292656421661377,
	"learning_rate": 3.2937310414560165e-05,
	"loss": 0.9824,
	"step": 8600
	},
	{
	"epoch": 0.35897012708367715,
	"grad_norm": 1.2524762153625488,
	"learning_rate": 3.272665992585103e-05,
	"loss": 0.943,
	"step": 8700
	},
	{
	"epoch": 0.3630962204984321,
	"grad_norm": 2.4386353492736816,
	"learning_rate": 3.2516009437141896e-05,
	"loss": 0.9738,
	"step": 8800
	},
	{
	"epoch": 0.367222313913187,
	"grad_norm": 1.2332638502120972,
	"learning_rate": 3.230535894843276e-05,
	"loss": 0.9599,
	"step": 8900
	},
	{
	"epoch": 0.3713484073279419,
	"grad_norm": 1.3955186605453491,
	"learning_rate": 3.209470845972363e-05,
	"loss": 1.0027,
	"step": 9000
	},
	{
	"epoch": 0.37547450074269684,
	"grad_norm": 1.7736716270446777,
	"learning_rate": 3.188405797101449e-05,
	"loss": 0.9568,
	"step": 9100
	},
	{
	"epoch": 0.37960059415745173,
	"grad_norm": 1.1282614469528198,
	"learning_rate": 3.1673407482305364e-05,
	"loss": 0.9892,
	"step": 9200
	},
	{
	"epoch": 0.3837266875722066,
	"grad_norm": 4.226625442504883,
	"learning_rate": 3.146275699359622e-05,
	"loss": 0.957,
	"step": 9300
	},
	{
	"epoch": 0.3878527809869615,
	"grad_norm": 1.3062007427215576,
	"learning_rate": 3.125210650488709e-05,
	"loss": 0.9702,
	"step": 9400
	},
	{
	"epoch": 0.39197887440171647,
	"grad_norm": 1.5109843015670776,
	"learning_rate": 3.104145601617796e-05,
	"loss": 0.9406,
	"step": 9500
	},
	{
	"epoch": 0.39610496781647136,
	"grad_norm": 1.2154899835586548,
	"learning_rate": 3.0830805527468826e-05,
	"loss": 0.9532,
	"step": 9600
	},
	{
	"epoch": 0.40023106123122626,
	"grad_norm": 1.239396095275879,
	"learning_rate": 3.062015503875969e-05,
	"loss": 0.9484,
	"step": 9700
	},
	{
	"epoch": 0.4043571546459812,
	"grad_norm": 1.3215525150299072,
	"learning_rate": 3.0409504550050553e-05,
	"loss": 0.978,
	"step": 9800
	},
	{
	"epoch": 0.4084832480607361,
	"grad_norm": 1.149057149887085,
	"learning_rate": 3.0198854061341425e-05,
	"loss": 0.968,
	"step": 9900
	},
	{
	"epoch": 0.412609341475491,
	"grad_norm": 1.271074652671814,
	"learning_rate": 2.998820357263229e-05,
	"loss": 0.9794,
	"step": 10000
	},
	{
	"epoch": 0.4167354348902459,
	"grad_norm": 1.0992262363433838,
	"learning_rate": 2.9777553083923153e-05,
	"loss": 0.9594,
	"step": 10100
	},
	{
	"epoch": 0.42086152830500084,
	"grad_norm": 1.1205365657806396,
	"learning_rate": 2.9566902595214025e-05,
	"loss": 0.9439,
	"step": 10200
	},
	{
	"epoch": 0.42498762171975574,
	"grad_norm": 1.144080638885498,
	"learning_rate": 2.935625210650489e-05,
	"loss": 0.9745,
	"step": 10300
	},
	{
	"epoch": 0.42911371513451063,
	"grad_norm": 3.2051868438720703,
	"learning_rate": 2.9145601617795752e-05,
	"loss": 0.9594,
	"step": 10400
	},
	{
	"epoch": 0.4332398085492656,
	"grad_norm": 1.2232369184494019,
	"learning_rate": 2.8934951129086618e-05,
	"loss": 0.9644,
	"step": 10500
	},
	{
	"epoch": 0.4373659019640205,
	"grad_norm": 1.3971831798553467,
	"learning_rate": 2.872430064037749e-05,
	"loss": 0.987,
	"step": 10600
	},
	{
	"epoch": 0.44149199537877537,
	"grad_norm": 1.1187039613723755,
	"learning_rate": 2.8513650151668352e-05,
	"loss": 0.9657,
	"step": 10700
	},
	{
	"epoch": 0.44561808879353026,
	"grad_norm": 1.1717453002929688,
	"learning_rate": 2.8302999662959217e-05,
	"loss": 0.9363,
	"step": 10800
	},
	{
	"epoch": 0.4497441822082852,
	"grad_norm": 1.4479399919509888,
	"learning_rate": 2.809234917425009e-05,
	"loss": 0.9428,
	"step": 10900
	},
	{
	"epoch": 0.4538702756230401,
	"grad_norm": 1.1537368297576904,
	"learning_rate": 2.788169868554095e-05,
	"loss": 0.9654,
	"step": 11000
	},
	{
	"epoch": 0.457996369037795,
	"grad_norm": 1.9704123735427856,
	"learning_rate": 2.7671048196831817e-05,
	"loss": 0.944,
	"step": 11100
	},
	{
	"epoch": 0.4621224624525499,
	"grad_norm": 1.3609466552734375,
	"learning_rate": 2.7460397708122682e-05,
	"loss": 0.9353,
	"step": 11200
	},
	{
	"epoch": 0.46624855586730485,
	"grad_norm": 1.3835324048995972,
	"learning_rate": 2.724974721941355e-05,
	"loss": 0.9238,
	"step": 11300
	},
	{
	"epoch": 0.47037464928205974,
	"grad_norm": 2.1749815940856934,
	"learning_rate": 2.7039096730704416e-05,
	"loss": 0.9215,
	"step": 11400
	},
	{
	"epoch": 0.47450074269681464,
	"grad_norm": 1.941735863685608,
	"learning_rate": 2.682844624199528e-05,
	"loss": 0.9607,
	"step": 11500
	},
	{
	"epoch": 0.4786268361115696,
	"grad_norm": 1.9667292833328247,
	"learning_rate": 2.661779575328615e-05,
	"loss": 0.9493,
	"step": 11600
	},
	{
	"epoch": 0.4827529295263245,
	"grad_norm": 1.1912260055541992,
	"learning_rate": 2.6407145264577016e-05,
	"loss": 0.9364,
	"step": 11700
	},
	{
	"epoch": 0.4868790229410794,
	"grad_norm": 1.2728015184402466,
	"learning_rate": 2.619649477586788e-05,
	"loss": 0.9135,
	"step": 11800
	},
	{
	"epoch": 0.49100511635583427,
	"grad_norm": 1.326409935951233,
	"learning_rate": 2.5985844287158746e-05,
	"loss": 0.9665,
	"step": 11900
	},
	{
	"epoch": 0.4951312097705892,
	"grad_norm": 1.4567406177520752,
	"learning_rate": 2.5775193798449615e-05,
	"loss": 0.9733,
	"step": 12000
	},
	{
	"epoch": 0.4992573031853441,
	"grad_norm": 1.3147661685943604,
	"learning_rate": 2.556454330974048e-05,
	"loss": 0.9204,
	"step": 12100
	},
	{
	"epoch": 0.503383396600099,
	"grad_norm": 1.6704838275909424,
	"learning_rate": 2.5353892821031346e-05,
	"loss": 0.9418,
	"step": 12200
	},
	{
	"epoch": 0.5075094900148539,
	"grad_norm": 1.2493371963500977,
	"learning_rate": 2.5143242332322215e-05,
	"loss": 0.9441,
	"step": 12300
	},
	{
	"epoch": 0.5116355834296088,
	"grad_norm": 1.2380743026733398,
	"learning_rate": 2.493259184361308e-05,
	"loss": 0.9642,
	"step": 12400
	},
	{
	"epoch": 0.5157616768443638,
	"grad_norm": 1.487196922302246,
	"learning_rate": 2.4721941354903942e-05,
	"loss": 0.986,
	"step": 12500
	},
	{
	"epoch": 0.5198877702591187,
	"grad_norm": 1.2720383405685425,
	"learning_rate": 2.451129086619481e-05,
	"loss": 0.9614,
	"step": 12600
	},
	{
	"epoch": 0.5240138636738736,
	"grad_norm": 1.3985182046890259,
	"learning_rate": 2.4300640377485676e-05,
	"loss": 0.9327,
	"step": 12700
	},
	{
	"epoch": 0.5281399570886285,
	"grad_norm": 1.2555489540100098,
	"learning_rate": 2.408998988877654e-05,
	"loss": 0.9331,
	"step": 12800
	},
	{
	"epoch": 0.5322660505033834,
	"grad_norm": 1.083095908164978,
	"learning_rate": 2.387933940006741e-05,
	"loss": 0.9706,
	"step": 12900
	},
	{
	"epoch": 0.5363921439181383,
	"grad_norm": 3.2246696949005127,
	"learning_rate": 2.3668688911358276e-05,
	"loss": 0.9267,
	"step": 13000
	},
	{
	"epoch": 0.5405182373328932,
	"grad_norm": 1.2211159467697144,
	"learning_rate": 2.345803842264914e-05,
	"loss": 0.9315,
	"step": 13100
	},
	{
	"epoch": 0.5446443307476482,
	"grad_norm": 1.3726495504379272,
	"learning_rate": 2.3247387933940006e-05,
	"loss": 0.9432,
	"step": 13200
	},
	{
	"epoch": 0.5487704241624031,
	"grad_norm": 1.0996991395950317,
	"learning_rate": 2.3036737445230875e-05,
	"loss": 0.9213,
	"step": 13300
	},
	{
	"epoch": 0.552896517577158,
	"grad_norm": 1.016136884689331,
	"learning_rate": 2.282608695652174e-05,
	"loss": 0.9625,
	"step": 13400
	},
	{
	"epoch": 0.5570226109919129,
	"grad_norm": 1.1178189516067505,
	"learning_rate": 2.2615436467812606e-05,
	"loss": 0.9419,
	"step": 13500
	},
	{
	"epoch": 0.5611487044066678,
	"grad_norm": 1.1706444025039673,
	"learning_rate": 2.2404785979103475e-05,
	"loss": 0.885,
	"step": 13600
	},
	{
	"epoch": 0.5652747978214226,
	"grad_norm": 1.4330129623413086,
	"learning_rate": 2.2194135490394337e-05,
	"loss": 0.9024,
	"step": 13700
	},
	{
	"epoch": 0.5694008912361775,
	"grad_norm": 2.2776172161102295,
	"learning_rate": 2.1983485001685205e-05,
	"loss": 0.933,
	"step": 13800
	},
	{
	"epoch": 0.5735269846509325,
	"grad_norm": 1.3359657526016235,
	"learning_rate": 2.177283451297607e-05,
	"loss": 0.8791,
	"step": 13900
	},
	{
	"epoch": 0.5776530780656874,
	"grad_norm": 1.1592367887496948,
	"learning_rate": 2.1562184024266936e-05,
	"loss": 0.9336,
	"step": 14000
	},
	{
	"epoch": 0.5817791714804423,
	"grad_norm": 1.052618145942688,
	"learning_rate": 2.13515335355578e-05,
	"loss": 0.9303,
	"step": 14100
	},
	{
	"epoch": 0.5859052648951972,
	"grad_norm": 1.2330833673477173,
	"learning_rate": 2.114088304684867e-05,
	"loss": 0.9247,
	"step": 14200
	},
	{
	"epoch": 0.5900313583099521,
	"grad_norm": 1.7336995601654053,
	"learning_rate": 2.0930232558139536e-05,
	"loss": 0.9078,
	"step": 14300
	},
	{
	"epoch": 0.594157451724707,
	"grad_norm": 1.1562308073043823,
	"learning_rate": 2.07195820694304e-05,
	"loss": 0.905,
	"step": 14400
	},
	{
	"epoch": 0.5982835451394619,
	"grad_norm": 1.3212171792984009,
	"learning_rate": 2.050893158072127e-05,
	"loss": 0.9457,
	"step": 14500
	},
	{
	"epoch": 0.6024096385542169,
	"grad_norm": 1.5021255016326904,
	"learning_rate": 2.0298281092012135e-05,
	"loss": 0.9213,
	"step": 14600
	},
	{
	"epoch": 0.6065357319689718,
	"grad_norm": 1.1142035722732544,
	"learning_rate": 2.0087630603303e-05,
	"loss": 0.8988,
	"step": 14700
	},
	{
	"epoch": 0.6106618253837267,
	"grad_norm": 1.0887188911437988,
	"learning_rate": 1.9876980114593866e-05,
	"loss": 0.9579,
	"step": 14800
	},
	{
	"epoch": 0.6147879187984816,
	"grad_norm": 1.5622923374176025,
	"learning_rate": 1.966632962588473e-05,
	"loss": 0.9206,
	"step": 14900
	},
	{
	"epoch": 0.6189140122132365,
	"grad_norm": 1.4978774785995483,
	"learning_rate": 1.94556791371756e-05,
	"loss": 0.9292,
	"step": 15000
	},
	{
	"epoch": 0.6230401056279914,
	"grad_norm": 1.1494709253311157,
	"learning_rate": 1.9245028648466465e-05,
	"loss": 0.929,
	"step": 15100
	},
	{
	"epoch": 0.6271661990427463,
	"grad_norm": 3.5858824253082275,
	"learning_rate": 1.903437815975733e-05,
	"loss": 0.9181,
	"step": 15200
	},
	{
	"epoch": 0.6312922924575013,
	"grad_norm": 0.927173376083374,
	"learning_rate": 1.8823727671048196e-05,
	"loss": 0.9365,
	"step": 15300
	},
	{
	"epoch": 0.6354183858722562,
	"grad_norm": 0.9943380355834961,
	"learning_rate": 1.8613077182339065e-05,
	"loss": 0.8974,
	"step": 15400
	},
	{
	"epoch": 0.6395444792870111,
	"grad_norm": 1.4820857048034668,
	"learning_rate": 1.840242669362993e-05,
	"loss": 0.9066,
	"step": 15500
	},
	{
	"epoch": 0.643670572701766,
	"grad_norm": 1.3542896509170532,
	"learning_rate": 1.8191776204920796e-05,
	"loss": 0.9048,
	"step": 15600
	},
	{
	"epoch": 0.6477966661165209,
	"grad_norm": 2.233414888381958,
	"learning_rate": 1.7981125716211664e-05,
	"loss": 0.899,
	"step": 15700
	},
	{
	"epoch": 0.6519227595312758,
	"grad_norm": 1.0770349502563477,
	"learning_rate": 1.777047522750253e-05,
	"loss": 0.9135,
	"step": 15800
	},
	{
	"epoch": 0.6560488529460307,
	"grad_norm": 1.1688830852508545,
	"learning_rate": 1.7559824738793395e-05,
	"loss": 0.8838,
	"step": 15900
	},
	{
	"epoch": 0.6601749463607856,
	"grad_norm": 1.096822738647461,
	"learning_rate": 1.734917425008426e-05,
	"loss": 0.9325,
	"step": 16000
	},
	{
	"epoch": 0.6643010397755406,
	"grad_norm": 1.4621776342391968,
	"learning_rate": 1.713852376137513e-05,
	"loss": 0.9299,
	"step": 16100
	},
	{
	"epoch": 0.6684271331902955,
	"grad_norm": 1.2400994300842285,
	"learning_rate": 1.692787327266599e-05,
	"loss": 0.8986,
	"step": 16200
	},
	{
	"epoch": 0.6725532266050503,
	"grad_norm": 1.3540397882461548,
	"learning_rate": 1.671722278395686e-05,
	"loss": 0.9084,
	"step": 16300
	},
	{
	"epoch": 0.6766793200198052,
	"grad_norm": 1.2045152187347412,
	"learning_rate": 1.6506572295247725e-05,
	"loss": 0.8943,
	"step": 16400
	},
	{
	"epoch": 0.6808054134345601,
	"grad_norm": 1.1521943807601929,
	"learning_rate": 1.629592180653859e-05,
	"loss": 0.9089,
	"step": 16500
	},
	{
	"epoch": 0.684931506849315,
	"grad_norm": 4.699136257171631,
	"learning_rate": 1.608527131782946e-05,
	"loss": 0.9169,
	"step": 16600
	},
	{
	"epoch": 0.6890576002640699,
	"grad_norm": 1.3759478330612183,
	"learning_rate": 1.5874620829120325e-05,
	"loss": 0.9154,
	"step": 16700
	},
	{
	"epoch": 0.6931836936788249,
	"grad_norm": 1.2098520994186401,
	"learning_rate": 1.566397034041119e-05,
	"loss": 0.9264,
	"step": 16800
	},
	{
	"epoch": 0.6973097870935798,
	"grad_norm": 1.6775233745574951,
	"learning_rate": 1.5453319851702056e-05,
	"loss": 0.9309,
	"step": 16900
	},
	{
	"epoch": 0.7014358805083347,
	"grad_norm": 1.0574172735214233,
	"learning_rate": 1.5242669362992923e-05,
	"loss": 0.8893,
	"step": 17000
	},
	{
	"epoch": 0.7055619739230896,
	"grad_norm": 1.035610318183899,
	"learning_rate": 1.503201887428379e-05,
	"loss": 0.9243,
	"step": 17100
	},
	{
	"epoch": 0.7096880673378445,
	"grad_norm": 1.6291944980621338,
	"learning_rate": 1.4821368385574655e-05,
	"loss": 0.9158,
	"step": 17200
	},
	{
	"epoch": 0.7138141607525994,
	"grad_norm": 1.2090740203857422,
	"learning_rate": 1.4610717896865522e-05,
	"loss": 0.9026,
	"step": 17300
	},
	{
	"epoch": 0.7179402541673543,
	"grad_norm": 1.2179425954818726,
	"learning_rate": 1.4400067408156388e-05,
	"loss": 0.8943,
	"step": 17400
	},
	{
	"epoch": 0.7220663475821093,
	"grad_norm": 1.2382631301879883,
	"learning_rate": 1.4189416919447255e-05,
	"loss": 0.9021,
	"step": 17500
	},
	{
	"epoch": 0.7261924409968642,
	"grad_norm": 2.4923956394195557,
	"learning_rate": 1.3978766430738118e-05,
	"loss": 0.9348,
	"step": 17600
	},
	{
	"epoch": 0.7303185344116191,
	"grad_norm": 2.419496774673462,
	"learning_rate": 1.3768115942028985e-05,
	"loss": 0.9039,
	"step": 17700
	},
	{
	"epoch": 0.734444627826374,
	"grad_norm": 1.2352160215377808,
	"learning_rate": 1.3557465453319854e-05,
	"loss": 0.9266,
	"step": 17800
	},
	{
	"epoch": 0.7385707212411289,
	"grad_norm": 1.0967360734939575,
	"learning_rate": 1.3346814964610718e-05,
	"loss": 0.9046,
	"step": 17900
	},
	{
	"epoch": 0.7426968146558838,
	"grad_norm": 1.0056049823760986,
	"learning_rate": 1.3136164475901585e-05,
	"loss": 0.9321,
	"step": 18000
	},
	{
	"epoch": 0.7468229080706387,
	"grad_norm": 1.9823698997497559,
	"learning_rate": 1.292551398719245e-05,
	"loss": 0.9151,
	"step": 18100
	},
	{
	"epoch": 0.7509490014853937,
	"grad_norm": 1.651145577430725,
	"learning_rate": 1.2714863498483317e-05,
	"loss": 0.904,
	"step": 18200
	},
	{
	"epoch": 0.7550750949001486,
	"grad_norm": 0.9505665302276611,
	"learning_rate": 1.2504213009774183e-05,
	"loss": 0.878,
	"step": 18300
	},
	{
	"epoch": 0.7592011883149035,
	"grad_norm": 1.558278203010559,
	"learning_rate": 1.229356252106505e-05,
	"loss": 0.942,
	"step": 18400
	},
	{
	"epoch": 0.7633272817296584,
	"grad_norm": 1.2101174592971802,
	"learning_rate": 1.2082912032355915e-05,
	"loss": 0.9034,
	"step": 18500
	},
	{
	"epoch": 0.7674533751444133,
	"grad_norm": 1.2382097244262695,
	"learning_rate": 1.1872261543646782e-05,
	"loss": 0.9119,
	"step": 18600
	},
	{
	"epoch": 0.7715794685591681,
	"grad_norm": 1.1424338817596436,
	"learning_rate": 1.1661611054937648e-05,
	"loss": 0.9282,
	"step": 18700
	},
	{
	"epoch": 0.775705561973923,
	"grad_norm": 1.0747746229171753,
	"learning_rate": 1.1450960566228513e-05,
	"loss": 0.9144,
	"step": 18800
	},
	{
	"epoch": 0.779831655388678,
	"grad_norm": 1.4378238916397095,
	"learning_rate": 1.1240310077519382e-05,
	"loss": 0.9292,
	"step": 18900
	},
	{
	"epoch": 0.7839577488034329,
	"grad_norm": 1.5118451118469238,
	"learning_rate": 1.1029659588810247e-05,
	"loss": 0.8532,
	"step": 19000
	},
	{
	"epoch": 0.7880838422181878,
	"grad_norm": 1.135190725326538,
	"learning_rate": 1.0819009100101113e-05,
	"loss": 0.9132,
	"step": 19100
	},
	{
	"epoch": 0.7922099356329427,
	"grad_norm": 1.3497545719146729,
	"learning_rate": 1.060835861139198e-05,
	"loss": 0.9214,
	"step": 19200
	},
	{
	"epoch": 0.7963360290476976,
	"grad_norm": 1.3251924514770508,
	"learning_rate": 1.0397708122682845e-05,
	"loss": 0.8942,
	"step": 19300
	},
	{
	"epoch": 0.8004621224624525,
	"grad_norm": 2.453803539276123,
	"learning_rate": 1.018705763397371e-05,
	"loss": 0.8858,
	"step": 19400
	},
	{
	"epoch": 0.8045882158772074,
	"grad_norm": 1.1651134490966797,
	"learning_rate": 9.976407145264577e-06,
	"loss": 0.9012,
	"step": 19500
	},
	{
	"epoch": 0.8087143092919624,
	"grad_norm": 2.257159471511841,
	"learning_rate": 9.765756656555444e-06,
	"loss": 0.9167,
	"step": 19600
	},
	{
	"epoch": 0.8128404027067173,
	"grad_norm": 0.9240596294403076,
	"learning_rate": 9.55510616784631e-06,
	"loss": 0.8764,
	"step": 19700
	},
	{
	"epoch": 0.8169664961214722,
	"grad_norm": 1.2550618648529053,
	"learning_rate": 9.344455679137177e-06,
	"loss": 0.8998,
	"step": 19800
	},
	{
	"epoch": 0.8210925895362271,
	"grad_norm": 1.2276984453201294,
	"learning_rate": 9.133805190428042e-06,
	"loss": 0.909,
	"step": 19900
	},
	{
	"epoch": 0.825218682950982,
	"grad_norm": 1.0953816175460815,
	"learning_rate": 8.923154701718908e-06,
	"loss": 0.8931,
	"step": 20000
	},
	{
	"epoch": 0.8293447763657369,
	"grad_norm": 1.469269037246704,
	"learning_rate": 8.712504213009775e-06,
	"loss": 0.8789,
	"step": 20100
	},
	{
	"epoch": 0.8334708697804918,
	"grad_norm": 1.242390751838684,
	"learning_rate": 8.50185372430064e-06,
	"loss": 0.9126,
	"step": 20200
	},
	{
	"epoch": 0.8375969631952468,
	"grad_norm": 1.0811703205108643,
	"learning_rate": 8.291203235591507e-06,
	"loss": 0.913,
	"step": 20300
	},
	{
	"epoch": 0.8417230566100017,
	"grad_norm": 1.0523350238800049,
	"learning_rate": 8.080552746882374e-06,
	"loss": 0.9118,
	"step": 20400
	},
	{
	"epoch": 0.8458491500247566,
	"grad_norm": 1.4592727422714233,
	"learning_rate": 7.86990225817324e-06,
	"loss": 0.9099,
	"step": 20500
	},
	{
	"epoch": 0.8499752434395115,
	"grad_norm": 1.0648339986801147,
	"learning_rate": 7.659251769464105e-06,
	"loss": 0.9198,
	"step": 20600
	},
	{
	"epoch": 0.8541013368542664,
	"grad_norm": 1.3053339719772339,
	"learning_rate": 7.448601280754971e-06,
	"loss": 0.9156,
	"step": 20700
	},
	{
	"epoch": 0.8582274302690213,
	"grad_norm": 1.0929012298583984,
	"learning_rate": 7.237950792045837e-06,
	"loss": 0.9103,
	"step": 20800
	},
	{
	"epoch": 0.8623535236837762,
	"grad_norm": 1.234263300895691,
	"learning_rate": 7.027300303336704e-06,
	"loss": 0.9016,
	"step": 20900
	},
	{
	"epoch": 0.8664796170985312,
	"grad_norm": 1.3241745233535767,
	"learning_rate": 6.816649814627571e-06,
	"loss": 0.9075,
	"step": 21000
	},
	{
	"epoch": 0.8706057105132861,
	"grad_norm": 1.2847357988357544,
	"learning_rate": 6.605999325918437e-06,
	"loss": 0.9462,
	"step": 21100
	},
	{
	"epoch": 0.874731803928041,
	"grad_norm": 1.1206868886947632,
	"learning_rate": 6.395348837209303e-06,
	"loss": 0.9236,
	"step": 21200
	},
	{
	"epoch": 0.8788578973427958,
	"grad_norm": 1.1748895645141602,
	"learning_rate": 6.1846983485001685e-06,
	"loss": 0.8521,
	"step": 21300
	},
	{
	"epoch": 0.8829839907575507,
	"grad_norm": 1.571519136428833,
	"learning_rate": 5.974047859791035e-06,
	"loss": 0.8811,
	"step": 21400
	},
	{
	"epoch": 0.8871100841723056,
	"grad_norm": 1.051316738128662,
	"learning_rate": 5.763397371081901e-06,
	"loss": 0.9167,
	"step": 21500
	},
	{
	"epoch": 0.8912361775870605,
	"grad_norm": 2.111393690109253,
	"learning_rate": 5.552746882372767e-06,
	"loss": 0.9333,
	"step": 21600
	},
	{
	"epoch": 0.8953622710018155,
	"grad_norm": 1.3969411849975586,
	"learning_rate": 5.342096393663633e-06,
	"loss": 0.9434,
	"step": 21700
	},
	{
	"epoch": 0.8994883644165704,
	"grad_norm": 1.7783890962600708,
	"learning_rate": 5.1314459049545e-06,
	"loss": 0.8947,
	"step": 21800
	},
	{
	"epoch": 0.9036144578313253,
	"grad_norm": 1.359174132347107,
	"learning_rate": 4.920795416245366e-06,
	"loss": 0.8815,
	"step": 21900
	},
	{
	"epoch": 0.9077405512460802,
	"grad_norm": 1.257117748260498,
	"learning_rate": 4.710144927536232e-06,
	"loss": 0.8986,
	"step": 22000
	},
	{
	"epoch": 0.9118666446608351,
	"grad_norm": 0.9748762845993042,
	"learning_rate": 4.499494438827098e-06,
	"loss": 0.887,
	"step": 22100
	},
	{
	"epoch": 0.91599273807559,
	"grad_norm": 1.5360727310180664,
	"learning_rate": 4.2888439501179645e-06,
	"loss": 0.9051,
	"step": 22200
	},
	{
	"epoch": 0.9201188314903449,
	"grad_norm": 1.0747774839401245,
	"learning_rate": 4.078193461408831e-06,
	"loss": 0.9498,
	"step": 22300
	},
	{
	"epoch": 0.9242449249050998,
	"grad_norm": 1.197403073310852,
	"learning_rate": 3.867542972699697e-06,
	"loss": 0.925,
	"step": 22400
	},
	{
	"epoch": 0.9283710183198548,
	"grad_norm": 1.580825924873352,
	"learning_rate": 3.6568924839905627e-06,
	"loss": 0.9019,
	"step": 22500
	},
	{
	"epoch": 0.9324971117346097,
	"grad_norm": 1.2338446378707886,
	"learning_rate": 3.4462419952814294e-06,
	"loss": 0.892,
	"step": 22600
	},
	{
	"epoch": 0.9366232051493646,
	"grad_norm": 2.6846702098846436,
	"learning_rate": 3.2355915065722956e-06,
	"loss": 0.9121,
	"step": 22700
	},
	{
	"epoch": 0.9407492985641195,
	"grad_norm": 1.0765039920806885,
	"learning_rate": 3.0249410178631614e-06,
	"loss": 0.9101,
	"step": 22800
	},
	{
	"epoch": 0.9448753919788744,
	"grad_norm": 1.2273006439208984,
	"learning_rate": 2.814290529154028e-06,
	"loss": 0.8916,
	"step": 22900
	},
	{
	"epoch": 0.9490014853936293,
	"grad_norm": 1.295823574066162,
	"learning_rate": 2.603640040444894e-06,
	"loss": 0.8958,
	"step": 23000
	},
	{
	"epoch": 0.9531275788083842,
	"grad_norm": 1.5502872467041016,
	"learning_rate": 2.39298955173576e-06,
	"loss": 0.9069,
	"step": 23100
	},
	{
	"epoch": 0.9572536722231392,
	"grad_norm": 2.524392604827881,
	"learning_rate": 2.1823390630266263e-06,
	"loss": 0.9301,
	"step": 23200
	},
	{
	"epoch": 0.9613797656378941,
	"grad_norm": 1.5065919160842896,
	"learning_rate": 1.9716885743174925e-06,
	"loss": 0.8903,
	"step": 23300
	},
	{
	"epoch": 0.965505859052649,
	"grad_norm": 1.1356451511383057,
	"learning_rate": 1.761038085608359e-06,
	"loss": 0.881,
	"step": 23400
	},
	{
	"epoch": 0.9696319524674039,
	"grad_norm": 6.048961162567139,
	"learning_rate": 1.550387596899225e-06,
	"loss": 0.9164,
	"step": 23500
	},
	{
	"epoch": 0.9737580458821588,
	"grad_norm": 1.1151750087738037,
	"learning_rate": 1.339737108190091e-06,
	"loss": 0.8703,
	"step": 23600
	},
	{
	"epoch": 0.9778841392969136,
	"grad_norm": 1.0021706819534302,
	"learning_rate": 1.1290866194809571e-06,
	"loss": 0.8978,
	"step": 23700
	},
	{
	"epoch": 0.9820102327116685,
	"grad_norm": 1.1401609182357788,
	"learning_rate": 9.184361307718234e-07,
	"loss": 0.9159,
	"step": 23800
	},
	{
	"epoch": 0.9861363261264235,
	"grad_norm": 1.0629512071609497,
	"learning_rate": 7.077856420626896e-07,
	"loss": 0.9073,
	"step": 23900
	},
	{
	"epoch": 0.9902624195411784,
	"grad_norm": 1.0977869033813477,
	"learning_rate": 4.971351533535558e-07,
	"loss": 0.9178,
	"step": 24000
	},
	{
	"epoch": 0.9943885129559333,
	"grad_norm": 1.281014323234558,
	"learning_rate": 2.8648466464442196e-07,
	"loss": 0.8876,
	"step": 24100
	},
	{
	"epoch": 0.9985146063706882,
	"grad_norm": 1.2343029975891113,
	"learning_rate": 7.583417593528817e-08,
	"loss": 0.8733,
	"step": 24200
	}
	],
	"logging_steps": 100,
	"max_steps": 24236,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 10000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.002725362748621e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}