gemma-sum / trainer_state.json

Upload folder using huggingface_hub

e38f3d0 verified 9 months ago

17.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.8924033522573669,
	"eval_steps": 500,
	"global_step": 10500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02,
	"grad_norm": 0.87135249376297,
	"learning_rate": 0.00019819808452978876,
	"loss": 2.1425,
	"step": 100
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.8564028739929199,
	"learning_rate": 0.0001963956283227154,
	"loss": 1.8647,
	"step": 200
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.8958914875984192,
	"learning_rate": 0.000194593172115642,
	"loss": 1.8182,
	"step": 300
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.8007214069366455,
	"learning_rate": 0.00019279071590856862,
	"loss": 1.711,
	"step": 400
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.8793672919273376,
	"learning_rate": 0.00019098825970149526,
	"loss": 1.686,
	"step": 500
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.9486576318740845,
	"learning_rate": 0.00018918580349442187,
	"loss": 1.7068,
	"step": 600
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.8130625486373901,
	"learning_rate": 0.0001873833472873485,
	"loss": 1.6457,
	"step": 700
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.8903294801712036,
	"learning_rate": 0.00018558089108027513,
	"loss": 1.6285,
	"step": 800
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.9597026109695435,
	"learning_rate": 0.0001837784348732017,
	"loss": 1.6305,
	"step": 900
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.7700974941253662,
	"learning_rate": 0.00018197597866612835,
	"loss": 1.6443,
	"step": 1000
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.8106345534324646,
	"learning_rate": 0.00018017352245905497,
	"loss": 1.5963,
	"step": 1100
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.026309847831726,
	"learning_rate": 0.00017837106625198158,
	"loss": 1.5615,
	"step": 1200
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.8697523474693298,
	"learning_rate": 0.00017656861004490822,
	"loss": 1.5295,
	"step": 1300
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.2120341062545776,
	"learning_rate": 0.00017476615383783483,
	"loss": 1.4984,
	"step": 1400
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.7356016039848328,
	"learning_rate": 0.00017296369763076145,
	"loss": 1.5311,
	"step": 1500
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.8384151458740234,
	"learning_rate": 0.00017116124142368809,
	"loss": 1.5632,
	"step": 1600
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.8941056132316589,
	"learning_rate": 0.0001693587852166147,
	"loss": 1.492,
	"step": 1700
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.7094323039054871,
	"learning_rate": 0.0001675563290095413,
	"loss": 1.4425,
	"step": 1800
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.7246663570404053,
	"learning_rate": 0.00016575387280246795,
	"loss": 1.4277,
	"step": 1900
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.8121210932731628,
	"learning_rate": 0.00016395141659539456,
	"loss": 1.464,
	"step": 2000
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.712011456489563,
	"learning_rate": 0.0001621489603883212,
	"loss": 1.4779,
	"step": 2100
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.7419346570968628,
	"learning_rate": 0.00016034650418124782,
	"loss": 1.4669,
	"step": 2200
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.0694609880447388,
	"learning_rate": 0.0001585440479741744,
	"loss": 1.4499,
	"step": 2300
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.0339300632476807,
	"learning_rate": 0.00015674159176710104,
	"loss": 1.4115,
	"step": 2400
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.1224662065505981,
	"learning_rate": 0.00015493913556002766,
	"loss": 1.4353,
	"step": 2500
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.8455696702003479,
	"learning_rate": 0.0001531366793529543,
	"loss": 1.3991,
	"step": 2600
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.8783261179924011,
	"learning_rate": 0.0001513342231458809,
	"loss": 1.4174,
	"step": 2700
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.8644577264785767,
	"learning_rate": 0.00014953176693880752,
	"loss": 1.4272,
	"step": 2800
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.804175853729248,
	"learning_rate": 0.00014772931073173416,
	"loss": 1.3904,
	"step": 2900
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.8686081767082214,
	"learning_rate": 0.00014592685452466077,
	"loss": 1.3577,
	"step": 3000
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.8131946325302124,
	"learning_rate": 0.0001441243983175874,
	"loss": 1.3798,
	"step": 3100
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.9579694271087646,
	"learning_rate": 0.00014232194211051403,
	"loss": 1.3705,
	"step": 3200
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.7878475785255432,
	"learning_rate": 0.00014051948590344064,
	"loss": 1.3216,
	"step": 3300
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.9384462833404541,
	"learning_rate": 0.00013871702969636725,
	"loss": 1.3681,
	"step": 3400
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.899638295173645,
	"learning_rate": 0.0001369145734892939,
	"loss": 1.3752,
	"step": 3500
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.8509306907653809,
	"learning_rate": 0.0001351121172822205,
	"loss": 1.3253,
	"step": 3600
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.712924063205719,
	"learning_rate": 0.00013330966107514712,
	"loss": 1.3318,
	"step": 3700
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.8807259798049927,
	"learning_rate": 0.00013150720486807373,
	"loss": 1.3163,
	"step": 3800
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.9081091284751892,
	"learning_rate": 0.00012970474866100034,
	"loss": 1.3839,
	"step": 3900
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.0412542819976807,
	"learning_rate": 0.00012790229245392698,
	"loss": 1.3057,
	"step": 4000
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.8416357636451721,
	"learning_rate": 0.0001260998362468536,
	"loss": 1.2548,
	"step": 4100
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.8973735570907593,
	"learning_rate": 0.0001242973800397802,
	"loss": 1.3154,
	"step": 4200
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.7394294738769531,
	"learning_rate": 0.00012249492383270685,
	"loss": 1.3079,
	"step": 4300
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.1180624961853027,
	"learning_rate": 0.00012069246762563346,
	"loss": 1.2789,
	"step": 4400
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.8885756134986877,
	"learning_rate": 0.00011889001141856009,
	"loss": 1.2959,
	"step": 4500
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.1742843389511108,
	"learning_rate": 0.00011708755521148672,
	"loss": 1.2486,
	"step": 4600
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.9566686153411865,
	"learning_rate": 0.00011528509900441333,
	"loss": 1.303,
	"step": 4700
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.2613877058029175,
	"learning_rate": 0.00011348264279733996,
	"loss": 1.301,
	"step": 4800
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.9030331969261169,
	"learning_rate": 0.00011168018659026658,
	"loss": 1.3338,
	"step": 4900
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.0433690547943115,
	"learning_rate": 0.00010987773038319318,
	"loss": 1.3068,
	"step": 5000
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.8587890267372131,
	"learning_rate": 0.00010807527417611981,
	"loss": 1.2632,
	"step": 5100
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.0812350511550903,
	"learning_rate": 0.00010627281796904642,
	"loss": 1.278,
	"step": 5200
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.8623504042625427,
	"learning_rate": 0.00010447036176197305,
	"loss": 1.2392,
	"step": 5300
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.8327571749687195,
	"learning_rate": 0.00010266790555489967,
	"loss": 1.2652,
	"step": 5400
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.958329975605011,
	"learning_rate": 0.00010086544934782629,
	"loss": 1.286,
	"step": 5500
	},
	{
	"epoch": 1.01,
	"grad_norm": 0.9664350748062134,
	"learning_rate": 9.906299314075291e-05,
	"loss": 1.1171,
	"step": 5600
	},
	{
	"epoch": 1.03,
	"grad_norm": 0.8452981114387512,
	"learning_rate": 9.726053693367954e-05,
	"loss": 1.0828,
	"step": 5700
	},
	{
	"epoch": 1.05,
	"grad_norm": 1.0611803531646729,
	"learning_rate": 9.545808072660615e-05,
	"loss": 1.1142,
	"step": 5800
	},
	{
	"epoch": 1.06,
	"grad_norm": 1.0450036525726318,
	"learning_rate": 9.365562451953278e-05,
	"loss": 1.1217,
	"step": 5900
	},
	{
	"epoch": 1.08,
	"grad_norm": 0.9196897745132446,
	"learning_rate": 9.18531683124594e-05,
	"loss": 1.1435,
	"step": 6000
	},
	{
	"epoch": 1.1,
	"grad_norm": 1.241141676902771,
	"learning_rate": 9.005071210538602e-05,
	"loss": 1.1174,
	"step": 6100
	},
	{
	"epoch": 1.12,
	"grad_norm": 0.8073747754096985,
	"learning_rate": 8.826628046038338e-05,
	"loss": 1.0501,
	"step": 6200
	},
	{
	"epoch": 1.14,
	"grad_norm": 0.8413310647010803,
	"learning_rate": 8.646382425331e-05,
	"loss": 1.1023,
	"step": 6300
	},
	{
	"epoch": 1.15,
	"grad_norm": 0.8178868889808655,
	"learning_rate": 8.466136804623662e-05,
	"loss": 1.0948,
	"step": 6400
	},
	{
	"epoch": 1.17,
	"grad_norm": 0.9561821222305298,
	"learning_rate": 8.285891183916323e-05,
	"loss": 1.0936,
	"step": 6500
	},
	{
	"epoch": 1.19,
	"grad_norm": 0.9246460199356079,
	"learning_rate": 8.105645563208986e-05,
	"loss": 1.0679,
	"step": 6600
	},
	{
	"epoch": 1.21,
	"grad_norm": 0.9705007076263428,
	"learning_rate": 7.925399942501648e-05,
	"loss": 1.026,
	"step": 6700
	},
	{
	"epoch": 1.23,
	"grad_norm": 0.9710861444473267,
	"learning_rate": 7.74515432179431e-05,
	"loss": 1.0543,
	"step": 6800
	},
	{
	"epoch": 1.24,
	"grad_norm": 1.0675069093704224,
	"learning_rate": 7.564908701086972e-05,
	"loss": 1.0987,
	"step": 6900
	},
	{
	"epoch": 1.26,
	"grad_norm": 0.8517453670501709,
	"learning_rate": 7.384663080379635e-05,
	"loss": 1.0693,
	"step": 7000
	},
	{
	"epoch": 1.28,
	"grad_norm": 0.901584267616272,
	"learning_rate": 7.204417459672296e-05,
	"loss": 1.0685,
	"step": 7100
	},
	{
	"epoch": 1.3,
	"grad_norm": 1.0663121938705444,
	"learning_rate": 7.024171838964957e-05,
	"loss": 1.0802,
	"step": 7200
	},
	{
	"epoch": 1.32,
	"grad_norm": 1.0489306449890137,
	"learning_rate": 6.84392621825762e-05,
	"loss": 1.1116,
	"step": 7300
	},
	{
	"epoch": 1.33,
	"grad_norm": 0.8096909523010254,
	"learning_rate": 6.663680597550283e-05,
	"loss": 1.0675,
	"step": 7400
	},
	{
	"epoch": 1.35,
	"grad_norm": 1.0951379537582397,
	"learning_rate": 6.483434976842945e-05,
	"loss": 1.0631,
	"step": 7500
	},
	{
	"epoch": 1.37,
	"grad_norm": 1.08359956741333,
	"learning_rate": 6.303189356135607e-05,
	"loss": 1.0522,
	"step": 7600
	},
	{
	"epoch": 1.39,
	"grad_norm": 1.22184419631958,
	"learning_rate": 6.122943735428269e-05,
	"loss": 1.0878,
	"step": 7700
	},
	{
	"epoch": 1.41,
	"grad_norm": 1.087251901626587,
	"learning_rate": 5.9426981147209305e-05,
	"loss": 1.0659,
	"step": 7800
	},
	{
	"epoch": 1.42,
	"grad_norm": 1.020251750946045,
	"learning_rate": 5.7624524940135925e-05,
	"loss": 1.0668,
	"step": 7900
	},
	{
	"epoch": 1.44,
	"grad_norm": 0.9591791033744812,
	"learning_rate": 5.582206873306255e-05,
	"loss": 1.0702,
	"step": 8000
	},
	{
	"epoch": 1.46,
	"grad_norm": 1.0169813632965088,
	"learning_rate": 5.401961252598917e-05,
	"loss": 1.0375,
	"step": 8100
	},
	{
	"epoch": 1.48,
	"grad_norm": 1.044224739074707,
	"learning_rate": 5.22171563189158e-05,
	"loss": 1.0777,
	"step": 8200
	},
	{
	"epoch": 1.5,
	"grad_norm": 1.0525567531585693,
	"learning_rate": 5.041470011184242e-05,
	"loss": 0.9967,
	"step": 8300
	},
	{
	"epoch": 1.51,
	"grad_norm": 0.9581038951873779,
	"learning_rate": 4.861224390476904e-05,
	"loss": 1.0595,
	"step": 8400
	},
	{
	"epoch": 1.53,
	"grad_norm": 1.0464085340499878,
	"learning_rate": 4.6809787697695656e-05,
	"loss": 1.0423,
	"step": 8500
	},
	{
	"epoch": 1.55,
	"grad_norm": 0.982803225517273,
	"learning_rate": 4.5007331490622276e-05,
	"loss": 1.0683,
	"step": 8600
	},
	{
	"epoch": 1.57,
	"grad_norm": 1.1214386224746704,
	"learning_rate": 4.3204875283548896e-05,
	"loss": 1.0984,
	"step": 8700
	},
	{
	"epoch": 1.59,
	"grad_norm": 1.0456256866455078,
	"learning_rate": 4.1402419076475515e-05,
	"loss": 1.0549,
	"step": 8800
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.0025187730789185,
	"learning_rate": 3.959996286940214e-05,
	"loss": 1.024,
	"step": 8900
	},
	{
	"epoch": 1.62,
	"grad_norm": 1.2760844230651855,
	"learning_rate": 3.7797506662328755e-05,
	"loss": 1.0313,
	"step": 9000
	},
	{
	"epoch": 1.64,
	"grad_norm": 0.9632763862609863,
	"learning_rate": 3.599505045525538e-05,
	"loss": 1.0263,
	"step": 9100
	},
	{
	"epoch": 1.66,
	"grad_norm": 1.01961088180542,
	"learning_rate": 3.4192594248182e-05,
	"loss": 1.0503,
	"step": 9200
	},
	{
	"epoch": 1.68,
	"grad_norm": 0.9579876065254211,
	"learning_rate": 3.239013804110862e-05,
	"loss": 1.03,
	"step": 9300
	},
	{
	"epoch": 1.69,
	"grad_norm": 1.400282859802246,
	"learning_rate": 3.058768183403524e-05,
	"loss": 1.0481,
	"step": 9400
	},
	{
	"epoch": 1.71,
	"grad_norm": 1.1665406227111816,
	"learning_rate": 2.8785225626961863e-05,
	"loss": 1.0585,
	"step": 9500
	},
	{
	"epoch": 1.73,
	"grad_norm": 1.1331160068511963,
	"learning_rate": 2.6982769419888486e-05,
	"loss": 0.9992,
	"step": 9600
	},
	{
	"epoch": 1.75,
	"grad_norm": 1.0598838329315186,
	"learning_rate": 2.5180313212815106e-05,
	"loss": 1.0663,
	"step": 9700
	},
	{
	"epoch": 1.77,
	"grad_norm": 1.0826873779296875,
	"learning_rate": 2.3377857005741726e-05,
	"loss": 0.9844,
	"step": 9800
	},
	{
	"epoch": 1.78,
	"grad_norm": 0.9529953002929688,
	"learning_rate": 2.1575400798668345e-05,
	"loss": 1.0349,
	"step": 9900
	},
	{
	"epoch": 1.8,
	"grad_norm": 1.0949389934539795,
	"learning_rate": 1.977294459159497e-05,
	"loss": 1.0473,
	"step": 10000
	},
	{
	"epoch": 1.82,
	"grad_norm": 1.0248372554779053,
	"learning_rate": 1.7970488384521588e-05,
	"loss": 1.0382,
	"step": 10100
	},
	{
	"epoch": 1.84,
	"grad_norm": 0.9931679368019104,
	"learning_rate": 1.616803217744821e-05,
	"loss": 1.017,
	"step": 10200
	},
	{
	"epoch": 1.86,
	"grad_norm": 0.9561355710029602,
	"learning_rate": 1.436557597037483e-05,
	"loss": 1.0577,
	"step": 10300
	},
	{
	"epoch": 1.87,
	"grad_norm": 1.2075040340423584,
	"learning_rate": 1.2563119763301454e-05,
	"loss": 1.0493,
	"step": 10400
	},
	{
	"epoch": 1.89,
	"grad_norm": 1.1561285257339478,
	"learning_rate": 1.0760663556228073e-05,
	"loss": 0.9947,
	"step": 10500
	}
	],
	"logging_steps": 100,
	"max_steps": 11096,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"total_flos": 3.714097560675041e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}