LORA_Phi-3-HornyVision-128k-instruct / trainer_state.json

Upload trainer_state.json (#1)

181301a verified 5 months ago

54.3 kB

	{
	"best_metric": 1.52509904,
	"best_model_checkpoint": "D:\\_____NEW_NN\\LLM\\MiniCPM-V\\finetune\\output\\phi3-vision-128k-instruct\\v0-20240629-080216\\checkpoint-300",
	"epoch": 3.5225048923679063,
	"eval_steps": 50,
	"global_step": 900,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"acc": 0.49833804,
	"epoch": 0.003913894324853229,
	"grad_norm": 0.77734375,
	"learning_rate": 2.745098039215686e-06,
	"loss": 2.37747383,
	"memory(GiB)": 17.35,
	"step": 1,
	"train_speed(iter/s)": 0.076826
	},
	{
	"acc": 0.50652587,
	"epoch": 0.019569471624266144,
	"grad_norm": 1.140625,
	"learning_rate": 1.372549019607843e-05,
	"loss": 2.29183841,
	"memory(GiB)": 19.33,
	"step": 5,
	"train_speed(iter/s)": 0.082188
	},
	{
	"acc": 0.52587533,
	"epoch": 0.03913894324853229,
	"grad_norm": 0.68359375,
	"learning_rate": 2.745098039215686e-05,
	"loss": 2.22724895,
	"memory(GiB)": 19.89,
	"step": 10,
	"train_speed(iter/s)": 0.082805
	},
	{
	"acc": 0.52128973,
	"epoch": 0.05870841487279843,
	"grad_norm": 0.8359375,
	"learning_rate": 4.117647058823529e-05,
	"loss": 2.27491264,
	"memory(GiB)": 19.24,
	"step": 15,
	"train_speed(iter/s)": 0.082482
	},
	{
	"acc": 0.51135335,
	"epoch": 0.07827788649706457,
	"grad_norm": 0.66015625,
	"learning_rate": 5.490196078431372e-05,
	"loss": 2.32762127,
	"memory(GiB)": 19.86,
	"step": 20,
	"train_speed(iter/s)": 0.082557
	},
	{
	"acc": 0.54442377,
	"epoch": 0.09784735812133072,
	"grad_norm": 0.65625,
	"learning_rate": 6.862745098039214e-05,
	"loss": 2.09772224,
	"memory(GiB)": 19.05,
	"step": 25,
	"train_speed(iter/s)": 0.082348
	},
	{
	"acc": 0.5545311,
	"epoch": 0.11741682974559686,
	"grad_norm": 0.62109375,
	"learning_rate": 8.235294117647058e-05,
	"loss": 2.00072975,
	"memory(GiB)": 19.89,
	"step": 30,
	"train_speed(iter/s)": 0.082166
	},
	{
	"acc": 0.57092514,
	"epoch": 0.136986301369863,
	"grad_norm": 0.9296875,
	"learning_rate": 9.6078431372549e-05,
	"loss": 1.94450474,
	"memory(GiB)": 19.16,
	"step": 35,
	"train_speed(iter/s)": 0.081966
	},
	{
	"acc": 0.56716595,
	"epoch": 0.15655577299412915,
	"grad_norm": 0.7734375,
	"learning_rate": 0.00010980392156862745,
	"loss": 1.90242462,
	"memory(GiB)": 19.62,
	"step": 40,
	"train_speed(iter/s)": 0.081987
	},
	{
	"acc": 0.57822714,
	"epoch": 0.1761252446183953,
	"grad_norm": 0.74609375,
	"learning_rate": 0.00012352941176470587,
	"loss": 1.83147659,
	"memory(GiB)": 19.99,
	"step": 45,
	"train_speed(iter/s)": 0.081878
	},
	{
	"acc": 0.57696896,
	"epoch": 0.19569471624266144,
	"grad_norm": 0.85546875,
	"learning_rate": 0.00013725490196078428,
	"loss": 1.82299595,
	"memory(GiB)": 19.11,
	"step": 50,
	"train_speed(iter/s)": 0.081843
	},
	{
	"epoch": 0.19569471624266144,
	"eval_acc": 0.583503534956795,
	"eval_loss": 1.8029242753982544,
	"eval_runtime": 85.1254,
	"eval_samples_per_second": 0.893,
	"eval_steps_per_second": 0.446,
	"step": 50
	},
	{
	"acc": 0.59343066,
	"epoch": 0.21526418786692758,
	"grad_norm": 1.0,
	"learning_rate": 0.0001399941138119636,
	"loss": 1.82339039,
	"memory(GiB)": 22.92,
	"step": 55,
	"train_speed(iter/s)": 0.072544
	},
	{
	"acc": 0.58571839,
	"epoch": 0.23483365949119372,
	"grad_norm": 0.7734375,
	"learning_rate": 0.00013997020286964757,
	"loss": 1.80549526,
	"memory(GiB)": 19.43,
	"step": 60,
	"train_speed(iter/s)": 0.073269
	},
	{
	"acc": 0.60369935,
	"epoch": 0.25440313111545987,
	"grad_norm": 0.99609375,
	"learning_rate": 0.0001399279055646442,
	"loss": 1.6768074,
	"memory(GiB)": 19.57,
	"step": 65,
	"train_speed(iter/s)": 0.073897
	},
	{
	"acc": 0.58763909,
	"epoch": 0.273972602739726,
	"grad_norm": 1.1640625,
	"learning_rate": 0.00013986723301159307,
	"loss": 1.79169483,
	"memory(GiB)": 19.48,
	"step": 70,
	"train_speed(iter/s)": 0.074533
	},
	{
	"acc": 0.58979025,
	"epoch": 0.29354207436399216,
	"grad_norm": 0.69140625,
	"learning_rate": 0.00013978820115367462,
	"loss": 1.72388344,
	"memory(GiB)": 19.35,
	"step": 75,
	"train_speed(iter/s)": 0.075045
	},
	{
	"acc": 0.59725327,
	"epoch": 0.3131115459882583,
	"grad_norm": 0.75,
	"learning_rate": 0.00013969083075842048,
	"loss": 1.70864868,
	"memory(GiB)": 19.49,
	"step": 80,
	"train_speed(iter/s)": 0.075523
	},
	{
	"acc": 0.60098982,
	"epoch": 0.33268101761252444,
	"grad_norm": 4.59375,
	"learning_rate": 0.00013957514741225646,
	"loss": 1.67311764,
	"memory(GiB)": 20.01,
	"step": 85,
	"train_speed(iter/s)": 0.075928
	},
	{
	"acc": 0.58315139,
	"epoch": 0.3522504892367906,
	"grad_norm": 0.8359375,
	"learning_rate": 0.00013944118151377894,
	"loss": 1.74437752,
	"memory(GiB)": 20.14,
	"step": 90,
	"train_speed(iter/s)": 0.076154
	},
	{
	"acc": 0.6138227,
	"epoch": 0.37181996086105673,
	"grad_norm": 0.75,
	"learning_rate": 0.0001392889682657671,
	"loss": 1.63750076,
	"memory(GiB)": 19.59,
	"step": 95,
	"train_speed(iter/s)": 0.076253
	},
	{
	"acc": 0.63383026,
	"epoch": 0.3913894324853229,
	"grad_norm": 0.8515625,
	"learning_rate": 0.00013911854766593233,
	"loss": 1.56653557,
	"memory(GiB)": 19.5,
	"step": 100,
	"train_speed(iter/s)": 0.076386
	},
	{
	"epoch": 0.3913894324853229,
	"eval_acc": 0.604241948153967,
	"eval_loss": 1.6681365966796875,
	"eval_runtime": 72.2811,
	"eval_samples_per_second": 1.051,
	"eval_steps_per_second": 0.526,
	"step": 100
	},
	{
	"acc": 0.61646304,
	"epoch": 0.410958904109589,
	"grad_norm": 0.73046875,
	"learning_rate": 0.00013892996449640807,
	"loss": 1.59651537,
	"memory(GiB)": 22.5,
	"step": 105,
	"train_speed(iter/s)": 0.072857
	},
	{
	"acc": 0.60897431,
	"epoch": 0.43052837573385516,
	"grad_norm": 0.83984375,
	"learning_rate": 0.00013872326831198205,
	"loss": 1.70257473,
	"memory(GiB)": 19.42,
	"step": 110,
	"train_speed(iter/s)": 0.073309
	},
	{
	"acc": 0.58328586,
	"epoch": 0.4500978473581213,
	"grad_norm": 0.9453125,
	"learning_rate": 0.00013849851342707462,
	"loss": 1.71216717,
	"memory(GiB)": 19.47,
	"step": 115,
	"train_speed(iter/s)": 0.073753
	},
	{
	"acc": 0.62397904,
	"epoch": 0.46966731898238745,
	"grad_norm": 0.80078125,
	"learning_rate": 0.0001382557589014664,
	"loss": 1.54239073,
	"memory(GiB)": 19.33,
	"step": 120,
	"train_speed(iter/s)": 0.074078
	},
	{
	"acc": 0.60271235,
	"epoch": 0.4892367906066536,
	"grad_norm": 1.171875,
	"learning_rate": 0.0001379950685247788,
	"loss": 1.72333088,
	"memory(GiB)": 19.37,
	"step": 125,
	"train_speed(iter/s)": 0.074428
	},
	{
	"acc": 0.5755064,
	"epoch": 0.5088062622309197,
	"grad_norm": 0.94921875,
	"learning_rate": 0.00013771651079971182,
	"loss": 1.81728477,
	"memory(GiB)": 19.52,
	"step": 130,
	"train_speed(iter/s)": 0.074768
	},
	{
	"acc": 0.5844254,
	"epoch": 0.5283757338551859,
	"grad_norm": 0.8515625,
	"learning_rate": 0.00013742015892404325,
	"loss": 1.77252998,
	"memory(GiB)": 19.51,
	"step": 135,
	"train_speed(iter/s)": 0.075066
	},
	{
	"acc": 0.5998323,
	"epoch": 0.547945205479452,
	"grad_norm": 0.8671875,
	"learning_rate": 0.0001371060907713942,
	"loss": 1.69012871,
	"memory(GiB)": 19.54,
	"step": 140,
	"train_speed(iter/s)": 0.07528
	},
	{
	"acc": 0.62686119,
	"epoch": 0.5675146771037182,
	"grad_norm": 0.68359375,
	"learning_rate": 0.00013677438887076603,
	"loss": 1.66314449,
	"memory(GiB)": 19.54,
	"step": 145,
	"train_speed(iter/s)": 0.075467
	},
	{
	"acc": 0.59954901,
	"epoch": 0.5870841487279843,
	"grad_norm": 0.6328125,
	"learning_rate": 0.00013642514038485367,
	"loss": 1.67525444,
	"memory(GiB)": 19.55,
	"step": 150,
	"train_speed(iter/s)": 0.075722
	},
	{
	"epoch": 0.5870841487279843,
	"eval_acc": 0.6184603299293009,
	"eval_loss": 1.5965631008148193,
	"eval_runtime": 72.3005,
	"eval_samples_per_second": 1.051,
	"eval_steps_per_second": 0.526,
	"step": 150
	},
	{
	"acc": 0.585955,
	"epoch": 0.6066536203522505,
	"grad_norm": 0.9375,
	"learning_rate": 0.00013605843708714162,
	"loss": 1.7486639,
	"memory(GiB)": 23.22,
	"step": 155,
	"train_speed(iter/s)": 0.073368
	},
	{
	"acc": 0.62769904,
	"epoch": 0.6262230919765166,
	"grad_norm": 0.7265625,
	"learning_rate": 0.00013567437533778826,
	"loss": 1.55238762,
	"memory(GiB)": 19.62,
	"step": 160,
	"train_speed(iter/s)": 0.073628
	},
	{
	"acc": 0.63651643,
	"epoch": 0.6457925636007827,
	"grad_norm": 0.80078125,
	"learning_rate": 0.00013527305605830488,
	"loss": 1.54306393,
	"memory(GiB)": 19.88,
	"step": 165,
	"train_speed(iter/s)": 0.073903
	},
	{
	"acc": 0.59288979,
	"epoch": 0.6653620352250489,
	"grad_norm": 0.703125,
	"learning_rate": 0.0001348545847050361,
	"loss": 1.69727612,
	"memory(GiB)": 19.58,
	"step": 170,
	"train_speed(iter/s)": 0.074077
	},
	{
	"acc": 0.61248484,
	"epoch": 0.684931506849315,
	"grad_norm": 0.9140625,
	"learning_rate": 0.00013441907124144866,
	"loss": 1.65900764,
	"memory(GiB)": 19.49,
	"step": 175,
	"train_speed(iter/s)": 0.074329
	},
	{
	"acc": 0.61740661,
	"epoch": 0.7045009784735812,
	"grad_norm": 0.90625,
	"learning_rate": 0.0001339666301092358,
	"loss": 1.6518961,
	"memory(GiB)": 19.68,
	"step": 180,
	"train_speed(iter/s)": 0.074558
	},
	{
	"acc": 0.62250223,
	"epoch": 0.7240704500978473,
	"grad_norm": 0.84765625,
	"learning_rate": 0.00013349738019824512,
	"loss": 1.55100412,
	"memory(GiB)": 19.34,
	"step": 185,
	"train_speed(iter/s)": 0.07477
	},
	{
	"acc": 0.61055808,
	"epoch": 0.7436399217221135,
	"grad_norm": 0.90625,
	"learning_rate": 0.00013301144481523718,
	"loss": 1.67241592,
	"memory(GiB)": 19.56,
	"step": 190,
	"train_speed(iter/s)": 0.075006
	},
	{
	"acc": 0.6389596,
	"epoch": 0.7632093933463796,
	"grad_norm": 0.83203125,
	"learning_rate": 0.00013250895165148384,
	"loss": 1.54227753,
	"memory(GiB)": 19.29,
	"step": 195,
	"train_speed(iter/s)": 0.075192
	},
	{
	"acc": 0.59149747,
	"epoch": 0.7827788649706457,
	"grad_norm": 0.68359375,
	"learning_rate": 0.00013199003274921416,
	"loss": 1.71190453,
	"memory(GiB)": 19.35,
	"step": 200,
	"train_speed(iter/s)": 0.075393
	},
	{
	"epoch": 0.7827788649706457,
	"eval_acc": 0.6241162608012569,
	"eval_loss": 1.5573129653930664,
	"eval_runtime": 69.5471,
	"eval_samples_per_second": 1.093,
	"eval_steps_per_second": 0.546,
	"step": 200
	},
	{
	"acc": 0.62623324,
	"epoch": 0.8023483365949119,
	"grad_norm": 0.81640625,
	"learning_rate": 0.00013145482446691724,
	"loss": 1.55779324,
	"memory(GiB)": 20.56,
	"step": 205,
	"train_speed(iter/s)": 0.073671
	},
	{
	"acc": 0.61495056,
	"epoch": 0.821917808219178,
	"grad_norm": 1.03125,
	"learning_rate": 0.00013090346744351058,
	"loss": 1.56424398,
	"memory(GiB)": 19.48,
	"step": 210,
	"train_speed(iter/s)": 0.073902
	},
	{
	"acc": 0.59643593,
	"epoch": 0.8414872798434442,
	"grad_norm": 1.0703125,
	"learning_rate": 0.00013033610656138395,
	"loss": 1.62190418,
	"memory(GiB)": 19.5,
	"step": 215,
	"train_speed(iter/s)": 0.074133
	},
	{
	"acc": 0.63052382,
	"epoch": 0.8610567514677103,
	"grad_norm": 0.59765625,
	"learning_rate": 0.00012975289090832792,
	"loss": 1.53521852,
	"memory(GiB)": 19.53,
	"step": 220,
	"train_speed(iter/s)": 0.074334
	},
	{
	"acc": 0.61408448,
	"epoch": 0.8806262230919765,
	"grad_norm": 0.7734375,
	"learning_rate": 0.00012915397373835754,
	"loss": 1.59712257,
	"memory(GiB)": 19.52,
	"step": 225,
	"train_speed(iter/s)": 0.074533
	},
	{
	"acc": 0.62307076,
	"epoch": 0.9001956947162426,
	"grad_norm": 0.66796875,
	"learning_rate": 0.00012853951243144105,
	"loss": 1.57903328,
	"memory(GiB)": 19.49,
	"step": 230,
	"train_speed(iter/s)": 0.074719
	},
	{
	"acc": 0.61717134,
	"epoch": 0.9197651663405088,
	"grad_norm": 0.84375,
	"learning_rate": 0.00012790966845214457,
	"loss": 1.61422024,
	"memory(GiB)": 19.25,
	"step": 235,
	"train_speed(iter/s)": 0.074916
	},
	{
	"acc": 0.62549253,
	"epoch": 0.9393346379647749,
	"grad_norm": 0.8125,
	"learning_rate": 0.0001272646073072033,
	"loss": 1.62806015,
	"memory(GiB)": 19.36,
	"step": 240,
	"train_speed(iter/s)": 0.0751
	},
	{
	"acc": 0.61903515,
	"epoch": 0.958904109589041,
	"grad_norm": 0.74609375,
	"learning_rate": 0.0001266044985020307,
	"loss": 1.55927486,
	"memory(GiB)": 19.36,
	"step": 245,
	"train_speed(iter/s)": 0.075266
	},
	{
	"acc": 0.61238952,
	"epoch": 0.9784735812133072,
	"grad_norm": 0.87890625,
	"learning_rate": 0.00012592951549617683,
	"loss": 1.52888412,
	"memory(GiB)": 19.33,
	"step": 250,
	"train_speed(iter/s)": 0.075438
	},
	{
	"epoch": 0.9784735812133072,
	"eval_acc": 0.6267085624509033,
	"eval_loss": 1.5281730890274048,
	"eval_runtime": 69.069,
	"eval_samples_per_second": 1.1,
	"eval_steps_per_second": 0.55,
	"step": 250
	},
	{
	"acc": 0.63230977,
	"epoch": 0.9980430528375733,
	"grad_norm": 0.84765625,
	"learning_rate": 0.00012523983565774753,
	"loss": 1.53058205,
	"memory(GiB)": 19.46,
	"step": 255,
	"train_speed(iter/s)": 0.074081
	},
	{
	"acc": 0.66042156,
	"epoch": 1.0176125244618395,
	"grad_norm": 0.76171875,
	"learning_rate": 0.00012453564021679692,
	"loss": 1.37123928,
	"memory(GiB)": 20.18,
	"step": 260,
	"train_speed(iter/s)": 0.074295
	},
	{
	"acc": 0.67253222,
	"epoch": 1.0371819960861057,
	"grad_norm": 0.76953125,
	"learning_rate": 0.00012381711421770455,
	"loss": 1.28407507,
	"memory(GiB)": 19.7,
	"step": 265,
	"train_speed(iter/s)": 0.074448
	},
	{
	"acc": 0.66850777,
	"epoch": 1.0567514677103718,
	"grad_norm": 0.98046875,
	"learning_rate": 0.0001230844464705507,
	"loss": 1.27961807,
	"memory(GiB)": 19.58,
	"step": 270,
	"train_speed(iter/s)": 0.07459
	},
	{
	"acc": 0.67196817,
	"epoch": 1.076320939334638,
	"grad_norm": 0.9140625,
	"learning_rate": 0.00012233782950150186,
	"loss": 1.28494987,
	"memory(GiB)": 19.61,
	"step": 275,
	"train_speed(iter/s)": 0.074728
	},
	{
	"acc": 0.67708378,
	"epoch": 1.095890410958904,
	"grad_norm": 0.87109375,
	"learning_rate": 0.00012157745950221989,
	"loss": 1.29551096,
	"memory(GiB)": 19.63,
	"step": 280,
	"train_speed(iter/s)": 0.074881
	},
	{
	"acc": 0.66973438,
	"epoch": 1.1154598825831703,
	"grad_norm": 1.0859375,
	"learning_rate": 0.0001208035362783079,
	"loss": 1.27705774,
	"memory(GiB)": 19.49,
	"step": 285,
	"train_speed(iter/s)": 0.075029
	},
	{
	"acc": 0.6750237,
	"epoch": 1.1350293542074363,
	"grad_norm": 1.0859375,
	"learning_rate": 0.00012001626319680648,
	"loss": 1.25660419,
	"memory(GiB)": 19.55,
	"step": 290,
	"train_speed(iter/s)": 0.07515
	},
	{
	"acc": 0.624368,
	"epoch": 1.1545988258317026,
	"grad_norm": 1.1953125,
	"learning_rate": 0.00011921584713275411,
	"loss": 1.5070508,
	"memory(GiB)": 19.52,
	"step": 295,
	"train_speed(iter/s)": 0.075278
	},
	{
	"acc": 0.66252189,
	"epoch": 1.1741682974559686,
	"grad_norm": 0.828125,
	"learning_rate": 0.0001184024984148257,
	"loss": 1.32014723,
	"memory(GiB)": 19.92,
	"step": 300,
	"train_speed(iter/s)": 0.075433
	},
	{
	"epoch": 1.1741682974559686,
	"eval_acc": 0.6282796543597801,
	"eval_loss": 1.5250990390777588,
	"eval_runtime": 70.3986,
	"eval_samples_per_second": 1.08,
	"eval_steps_per_second": 0.54,
	"step": 300
	},
	{
	"acc": 0.67028356,
	"epoch": 1.1937377690802349,
	"grad_norm": 1.7109375,
	"learning_rate": 0.00011757643077006372,
	"loss": 1.28037386,
	"memory(GiB)": 22.6,
	"step": 305,
	"train_speed(iter/s)": 0.074243
	},
	{
	"acc": 0.655305,
	"epoch": 1.213307240704501,
	"grad_norm": 1.1015625,
	"learning_rate": 0.00011673786126771617,
	"loss": 1.31057158,
	"memory(GiB)": 19.72,
	"step": 310,
	"train_speed(iter/s)": 0.074392
	},
	{
	"acc": 0.66528535,
	"epoch": 1.2328767123287672,
	"grad_norm": 1.6171875,
	"learning_rate": 0.0001158870102621965,
	"loss": 1.29698696,
	"memory(GiB)": 19.08,
	"step": 315,
	"train_speed(iter/s)": 0.074534
	},
	{
	"acc": 0.66950455,
	"epoch": 1.2524461839530332,
	"grad_norm": 1.2421875,
	"learning_rate": 0.00011502410133517998,
	"loss": 1.27706356,
	"memory(GiB)": 19.87,
	"step": 320,
	"train_speed(iter/s)": 0.074667
	},
	{
	"acc": 0.65843534,
	"epoch": 1.2720156555772995,
	"grad_norm": 1.2265625,
	"learning_rate": 0.0001141493612368524,
	"loss": 1.30308371,
	"memory(GiB)": 19.87,
	"step": 325,
	"train_speed(iter/s)": 0.0748
	},
	{
	"acc": 0.66441913,
	"epoch": 1.2915851272015655,
	"grad_norm": 1.2578125,
	"learning_rate": 0.00011326301982632583,
	"loss": 1.26109972,
	"memory(GiB)": 19.09,
	"step": 330,
	"train_speed(iter/s)": 0.074935
	},
	{
	"acc": 0.68711085,
	"epoch": 1.3111545988258317,
	"grad_norm": 0.95703125,
	"learning_rate": 0.00011236531001123771,
	"loss": 1.19278584,
	"memory(GiB)": 19.73,
	"step": 335,
	"train_speed(iter/s)": 0.075053
	},
	{
	"acc": 0.66676803,
	"epoch": 1.3307240704500978,
	"grad_norm": 1.96875,
	"learning_rate": 0.0001114564676865486,
	"loss": 1.3068346,
	"memory(GiB)": 19.84,
	"step": 340,
	"train_speed(iter/s)": 0.075151
	},
	{
	"acc": 0.66865935,
	"epoch": 1.350293542074364,
	"grad_norm": 1.2421875,
	"learning_rate": 0.00011053673167255516,
	"loss": 1.30573978,
	"memory(GiB)": 19.66,
	"step": 345,
	"train_speed(iter/s)": 0.075271
	},
	{
	"acc": 0.66606102,
	"epoch": 1.36986301369863,
	"grad_norm": 0.76171875,
	"learning_rate": 0.00010960634365213437,
	"loss": 1.26872787,
	"memory(GiB)": 19.73,
	"step": 350,
	"train_speed(iter/s)": 0.075377
	},
	{
	"epoch": 1.36986301369863,
	"eval_acc": 0.6315003927729772,
	"eval_loss": 1.5066882371902466,
	"eval_runtime": 72.5685,
	"eval_samples_per_second": 1.047,
	"eval_steps_per_second": 0.524,
	"step": 350
	},
	{
	"acc": 0.67307239,
	"epoch": 1.3894324853228963,
	"grad_norm": 1.1796875,
	"learning_rate": 0.0001086655481072354,
	"loss": 1.27917318,
	"memory(GiB)": 22.92,
	"step": 355,
	"train_speed(iter/s)": 0.074318
	},
	{
	"acc": 0.65870218,
	"epoch": 1.4090019569471623,
	"grad_norm": 3.609375,
	"learning_rate": 0.00010771459225463617,
	"loss": 1.33731461,
	"memory(GiB)": 19.67,
	"step": 360,
	"train_speed(iter/s)": 0.074416
	},
	{
	"acc": 0.68150563,
	"epoch": 1.4285714285714286,
	"grad_norm": 0.9296875,
	"learning_rate": 0.00010675372598098113,
	"loss": 1.20515957,
	"memory(GiB)": 19.99,
	"step": 365,
	"train_speed(iter/s)": 0.07451
	},
	{
	"acc": 0.66793504,
	"epoch": 1.4481409001956946,
	"grad_norm": 1.03125,
	"learning_rate": 0.00010578320177711743,
	"loss": 1.31133595,
	"memory(GiB)": 19.9,
	"step": 370,
	"train_speed(iter/s)": 0.074613
	},
	{
	"acc": 0.66840873,
	"epoch": 1.467710371819961,
	"grad_norm": 0.9453125,
	"learning_rate": 0.00010480327467174705,
	"loss": 1.27730675,
	"memory(GiB)": 19.91,
	"step": 375,
	"train_speed(iter/s)": 0.074709
	},
	{
	"acc": 0.6621439,
	"epoch": 1.487279843444227,
	"grad_norm": 0.7890625,
	"learning_rate": 0.00010381420216441152,
	"loss": 1.29670372,
	"memory(GiB)": 19.65,
	"step": 380,
	"train_speed(iter/s)": 0.074824
	},
	{
	"acc": 0.66805882,
	"epoch": 1.5068493150684932,
	"grad_norm": 0.8203125,
	"learning_rate": 0.00010281624415782804,
	"loss": 1.23922901,
	"memory(GiB)": 19.77,
	"step": 385,
	"train_speed(iter/s)": 0.074927
	},
	{
	"acc": 0.66435666,
	"epoch": 1.5264187866927594,
	"grad_norm": 0.82421875,
	"learning_rate": 0.0001018096628895935,
	"loss": 1.27945633,
	"memory(GiB)": 19.79,
	"step": 390,
	"train_speed(iter/s)": 0.075033
	},
	{
	"acc": 0.68444743,
	"epoch": 1.5459882583170255,
	"grad_norm": 0.98046875,
	"learning_rate": 0.00010079472286327533,
	"loss": 1.2325819,
	"memory(GiB)": 19.55,
	"step": 395,
	"train_speed(iter/s)": 0.075133
	},
	{
	"acc": 0.68633671,
	"epoch": 1.5655577299412915,
	"grad_norm": 1.171875,
	"learning_rate": 9.977169077890672e-05,
	"loss": 1.26248102,
	"memory(GiB)": 19.79,
	"step": 400,
	"train_speed(iter/s)": 0.075233
	},
	{
	"epoch": 1.5655577299412915,
	"eval_acc": 0.6297721916732129,
	"eval_loss": 1.5114485025405884,
	"eval_runtime": 70.7985,
	"eval_samples_per_second": 1.073,
	"eval_steps_per_second": 0.537,
	"step": 400
	},
	{
	"acc": 0.67859097,
	"epoch": 1.5851272015655578,
	"grad_norm": 1.046875,
	"learning_rate": 9.874083546290482e-05,
	"loss": 1.2065486,
	"memory(GiB)": 22.72,
	"step": 405,
	"train_speed(iter/s)": 0.074347
	},
	{
	"acc": 0.66178751,
	"epoch": 1.604696673189824,
	"grad_norm": 0.96484375,
	"learning_rate": 9.770242779743008e-05,
	"loss": 1.30969448,
	"memory(GiB)": 20.13,
	"step": 410,
	"train_speed(iter/s)": 0.074453
	},
	{
	"acc": 0.65872512,
	"epoch": 1.62426614481409,
	"grad_norm": 0.74609375,
	"learning_rate": 9.665674064920533e-05,
	"loss": 1.27483397,
	"memory(GiB)": 20.17,
	"step": 415,
	"train_speed(iter/s)": 0.074534
	},
	{
	"acc": 0.66567349,
	"epoch": 1.643835616438356,
	"grad_norm": 0.87109375,
	"learning_rate": 9.560404879781353e-05,
	"loss": 1.31585007,
	"memory(GiB)": 20.07,
	"step": 420,
	"train_speed(iter/s)": 0.074639
	},
	{
	"acc": 0.66216898,
	"epoch": 1.6634050880626223,
	"grad_norm": 0.85546875,
	"learning_rate": 9.454462886349281e-05,
	"loss": 1.32738457,
	"memory(GiB)": 19.43,
	"step": 425,
	"train_speed(iter/s)": 0.074732
	},
	{
	"acc": 0.6608973,
	"epoch": 1.6829745596868886,
	"grad_norm": 1.1328125,
	"learning_rate": 9.347875923444772e-05,
	"loss": 1.2792593,
	"memory(GiB)": 20.05,
	"step": 430,
	"train_speed(iter/s)": 0.074827
	},
	{
	"acc": 0.65830297,
	"epoch": 1.7025440313111546,
	"grad_norm": 0.94921875,
	"learning_rate": 9.240671999369607e-05,
	"loss": 1.34132614,
	"memory(GiB)": 19.82,
	"step": 435,
	"train_speed(iter/s)": 0.074914
	},
	{
	"acc": 0.68926673,
	"epoch": 1.7221135029354206,
	"grad_norm": 0.76953125,
	"learning_rate": 9.132879284547038e-05,
	"loss": 1.15266266,
	"memory(GiB)": 19.28,
	"step": 440,
	"train_speed(iter/s)": 0.074997
	},
	{
	"acc": 0.65699558,
	"epoch": 1.741682974559687,
	"grad_norm": 0.96484375,
	"learning_rate": 9.024526104119312e-05,
	"loss": 1.32417459,
	"memory(GiB)": 19.29,
	"step": 445,
	"train_speed(iter/s)": 0.075079
	},
	{
	"acc": 0.68860197,
	"epoch": 1.7612524461839532,
	"grad_norm": 0.8203125,
	"learning_rate": 8.91564093050458e-05,
	"loss": 1.20134068,
	"memory(GiB)": 19.33,
	"step": 450,
	"train_speed(iter/s)": 0.07515
	},
	{
	"epoch": 1.7612524461839532,
	"eval_acc": 0.6351924587588373,
	"eval_loss": 1.4908838272094727,
	"eval_runtime": 71.5161,
	"eval_samples_per_second": 1.063,
	"eval_steps_per_second": 0.531,
	"step": 450
	},
	{
	"acc": 0.65404687,
	"epoch": 1.7808219178082192,
	"grad_norm": 1.0078125,
	"learning_rate": 8.806252375915052e-05,
	"loss": 1.31502724,
	"memory(GiB)": 19.13,
	"step": 455,
	"train_speed(iter/s)": 0.074358
	},
	{
	"acc": 0.69379678,
	"epoch": 1.8003913894324852,
	"grad_norm": 1.1015625,
	"learning_rate": 8.696389184838471e-05,
	"loss": 1.1870966,
	"memory(GiB)": 20.18,
	"step": 460,
	"train_speed(iter/s)": 0.074437
	},
	{
	"acc": 0.67447538,
	"epoch": 1.8199608610567515,
	"grad_norm": 1.2890625,
	"learning_rate": 8.586080226484789e-05,
	"loss": 1.19511604,
	"memory(GiB)": 20.09,
	"step": 465,
	"train_speed(iter/s)": 0.074531
	},
	{
	"acc": 0.67230067,
	"epoch": 1.8395303326810177,
	"grad_norm": 1.0390625,
	"learning_rate": 8.475354487200092e-05,
	"loss": 1.30591021,
	"memory(GiB)": 19.29,
	"step": 470,
	"train_speed(iter/s)": 0.074608
	},
	{
	"acc": 0.65006552,
	"epoch": 1.8590998043052838,
	"grad_norm": 3.21875,
	"learning_rate": 8.364241062849732e-05,
	"loss": 1.35613279,
	"memory(GiB)": 19.51,
	"step": 475,
	"train_speed(iter/s)": 0.07469
	},
	{
	"acc": 0.66248426,
	"epoch": 1.8786692759295498,
	"grad_norm": 1.0703125,
	"learning_rate": 8.252769151172682e-05,
	"loss": 1.34706697,
	"memory(GiB)": 19.16,
	"step": 480,
	"train_speed(iter/s)": 0.074779
	},
	{
	"acc": 0.66462736,
	"epoch": 1.898238747553816,
	"grad_norm": 0.8515625,
	"learning_rate": 8.140968044109134e-05,
	"loss": 1.31343336,
	"memory(GiB)": 19.17,
	"step": 485,
	"train_speed(iter/s)": 0.07486
	},
	{
	"acc": 0.65373287,
	"epoch": 1.9178082191780823,
	"grad_norm": 1.078125,
	"learning_rate": 8.028867120103326e-05,
	"loss": 1.31145601,
	"memory(GiB)": 19.46,
	"step": 490,
	"train_speed(iter/s)": 0.074941
	},
	{
	"acc": 0.6731041,
	"epoch": 1.9373776908023483,
	"grad_norm": 0.89453125,
	"learning_rate": 7.916495836383648e-05,
	"loss": 1.24272699,
	"memory(GiB)": 19.45,
	"step": 495,
	"train_speed(iter/s)": 0.075011
	},
	{
	"acc": 0.66485052,
	"epoch": 1.9569471624266144,
	"grad_norm": 1.03125,
	"learning_rate": 7.80388372122204e-05,
	"loss": 1.28164721,
	"memory(GiB)": 19.24,
	"step": 500,
	"train_speed(iter/s)": 0.07509
	},
	{
	"epoch": 1.9569471624266144,
	"eval_acc": 0.6349567949725059,
	"eval_loss": 1.483258843421936,
	"eval_runtime": 72.4797,
	"eval_samples_per_second": 1.049,
	"eval_steps_per_second": 0.524,
	"step": 500
	},
	{
	"acc": 0.68325486,
	"epoch": 1.9765166340508806,
	"grad_norm": 1.2890625,
	"learning_rate": 7.691060366174728e-05,
	"loss": 1.2257865,
	"memory(GiB)": 22.98,
	"step": 505,
	"train_speed(iter/s)": 0.074371
	},
	{
	"acc": 0.68977013,
	"epoch": 1.9960861056751469,
	"grad_norm": 1.0234375,
	"learning_rate": 7.578055418306327e-05,
	"loss": 1.25723343,
	"memory(GiB)": 19.56,
	"step": 510,
	"train_speed(iter/s)": 0.074471
	},
	{
	"acc": 0.72185702,
	"epoch": 2.015655577299413,
	"grad_norm": 0.7890625,
	"learning_rate": 7.464898572399353e-05,
	"loss": 1.01715631,
	"memory(GiB)": 20.07,
	"step": 515,
	"train_speed(iter/s)": 0.074591
	},
	{
	"acc": 0.71889682,
	"epoch": 2.035225048923679,
	"grad_norm": 1.0625,
	"learning_rate": 7.351619563151208e-05,
	"loss": 1.03077154,
	"memory(GiB)": 19.92,
	"step": 520,
	"train_speed(iter/s)": 0.074683
	},
	{
	"acc": 0.7505311,
	"epoch": 2.0547945205479454,
	"grad_norm": 1.9609375,
	"learning_rate": 7.238248157360663e-05,
	"loss": 0.93218956,
	"memory(GiB)": 19.85,
	"step": 525,
	"train_speed(iter/s)": 0.07477
	},
	{
	"acc": 0.7315311,
	"epoch": 2.0743639921722115,
	"grad_norm": 1.1875,
	"learning_rate": 7.124814146105921e-05,
	"loss": 0.96330833,
	"memory(GiB)": 19.87,
	"step": 530,
	"train_speed(iter/s)": 0.074853
	},
	{
	"acc": 0.75555606,
	"epoch": 2.0939334637964775,
	"grad_norm": 1.3515625,
	"learning_rate": 7.011347336916277e-05,
	"loss": 0.86877937,
	"memory(GiB)": 18.46,
	"step": 535,
	"train_speed(iter/s)": 0.074938
	},
	{
	"acc": 0.74034052,
	"epoch": 2.1135029354207435,
	"grad_norm": 1.546875,
	"learning_rate": 6.897877545939475e-05,
	"loss": 0.90922012,
	"memory(GiB)": 19.89,
	"step": 540,
	"train_speed(iter/s)": 0.075027
	},
	{
	"acc": 0.72400937,
	"epoch": 2.1330724070450096,
	"grad_norm": 1.90625,
	"learning_rate": 6.784434590106808e-05,
	"loss": 0.98424711,
	"memory(GiB)": 19.11,
	"step": 545,
	"train_speed(iter/s)": 0.075114
	},
	{
	"acc": 0.77706275,
	"epoch": 2.152641878669276,
	"grad_norm": 1.359375,
	"learning_rate": 6.671048279297972e-05,
	"loss": 0.80820856,
	"memory(GiB)": 19.86,
	"step": 550,
	"train_speed(iter/s)": 0.075193
	},
	{
	"epoch": 2.152641878669276,
	"eval_acc": 0.6260015710919089,
	"eval_loss": 1.6081812381744385,
	"eval_runtime": 68.6973,
	"eval_samples_per_second": 1.106,
	"eval_steps_per_second": 0.553,
	"step": 550
	},
	{
	"acc": 0.75351696,
	"epoch": 2.172211350293542,
	"grad_norm": 2.015625,
	"learning_rate": 6.55774840850782e-05,
	"loss": 0.86192131,
	"memory(GiB)": 22.21,
	"step": 555,
	"train_speed(iter/s)": 0.074578
	},
	{
	"acc": 0.74249997,
	"epoch": 2.191780821917808,
	"grad_norm": 1.4609375,
	"learning_rate": 6.444564750017003e-05,
	"loss": 0.91982813,
	"memory(GiB)": 19.87,
	"step": 560,
	"train_speed(iter/s)": 0.074665
	},
	{
	"acc": 0.73636398,
	"epoch": 2.2113502935420746,
	"grad_norm": 1.9375,
	"learning_rate": 6.331527045568573e-05,
	"loss": 0.93448582,
	"memory(GiB)": 19.33,
	"step": 565,
	"train_speed(iter/s)": 0.074752
	},
	{
	"acc": 0.74081583,
	"epoch": 2.2309197651663406,
	"grad_norm": 2.21875,
	"learning_rate": 6.218664998552634e-05,
	"loss": 0.94956303,
	"memory(GiB)": 19.8,
	"step": 570,
	"train_speed(iter/s)": 0.074842
	},
	{
	"acc": 0.74573116,
	"epoch": 2.2504892367906066,
	"grad_norm": 2.546875,
	"learning_rate": 6.106008266201046e-05,
	"loss": 0.88486786,
	"memory(GiB)": 19.92,
	"step": 575,
	"train_speed(iter/s)": 0.074925
	},
	{
	"acc": 0.75495067,
	"epoch": 2.2700587084148727,
	"grad_norm": 2.09375,
	"learning_rate": 5.9935864517942844e-05,
	"loss": 0.84776802,
	"memory(GiB)": 19.89,
	"step": 580,
	"train_speed(iter/s)": 0.075
	},
	{
	"acc": 0.74743519,
	"epoch": 2.2896281800391387,
	"grad_norm": 1.5859375,
	"learning_rate": 5.881429096882449e-05,
	"loss": 0.92330503,
	"memory(GiB)": 19.03,
	"step": 585,
	"train_speed(iter/s)": 0.075076
	},
	{
	"acc": 0.74913769,
	"epoch": 2.309197651663405,
	"grad_norm": 1.6640625,
	"learning_rate": 5.769565673522515e-05,
	"loss": 0.92942295,
	"memory(GiB)": 20.04,
	"step": 590,
	"train_speed(iter/s)": 0.075149
	},
	{
	"acc": 0.74875064,
	"epoch": 2.328767123287671,
	"grad_norm": 1.25,
	"learning_rate": 5.658025576533832e-05,
	"loss": 0.90142069,
	"memory(GiB)": 19.96,
	"step": 595,
	"train_speed(iter/s)": 0.075215
	},
	{
	"acc": 0.74648356,
	"epoch": 2.3483365949119372,
	"grad_norm": 1.65625,
	"learning_rate": 5.546838115773929e-05,
	"loss": 0.91528139,
	"memory(GiB)": 19.84,
	"step": 600,
	"train_speed(iter/s)": 0.075292
	},
	{
	"epoch": 2.3483365949119372,
	"eval_acc": 0.6284367635506677,
	"eval_loss": 1.593437910079956,
	"eval_runtime": 68.9856,
	"eval_samples_per_second": 1.102,
	"eval_steps_per_second": 0.551,
	"step": 600
	},
	{
	"acc": 0.75246172,
	"epoch": 2.3679060665362037,
	"grad_norm": 1.2109375,
	"learning_rate": 5.4360325084366416e-05,
	"loss": 0.87402363,
	"memory(GiB)": 22.69,
	"step": 605,
	"train_speed(iter/s)": 0.074706
	},
	{
	"acc": 0.74078665,
	"epoch": 2.3874755381604698,
	"grad_norm": 1.0390625,
	"learning_rate": 5.3256378713745815e-05,
	"loss": 0.91142588,
	"memory(GiB)": 20.15,
	"step": 610,
	"train_speed(iter/s)": 0.074788
	},
	{
	"acc": 0.75772052,
	"epoch": 2.407045009784736,
	"grad_norm": 2.03125,
	"learning_rate": 5.21568321344799e-05,
	"loss": 0.85517597,
	"memory(GiB)": 19.37,
	"step": 615,
	"train_speed(iter/s)": 0.074857
	},
	{
	"acc": 0.75341692,
	"epoch": 2.426614481409002,
	"grad_norm": 1.40625,
	"learning_rate": 5.10619742790194e-05,
	"loss": 0.87981377,
	"memory(GiB)": 18.91,
	"step": 620,
	"train_speed(iter/s)": 0.074925
	},
	{
	"acc": 0.76221485,
	"epoch": 2.446183953033268,
	"grad_norm": 5.5625,
	"learning_rate": 4.9972092847739603e-05,
	"loss": 0.89623175,
	"memory(GiB)": 20.27,
	"step": 625,
	"train_speed(iter/s)": 0.074994
	},
	{
	"acc": 0.74322577,
	"epoch": 2.4657534246575343,
	"grad_norm": 1.6796875,
	"learning_rate": 4.8887474233339963e-05,
	"loss": 0.89493027,
	"memory(GiB)": 19.38,
	"step": 630,
	"train_speed(iter/s)": 0.075068
	},
	{
	"acc": 0.74455509,
	"epoch": 2.4853228962818004,
	"grad_norm": 1.3046875,
	"learning_rate": 4.780840344558753e-05,
	"loss": 0.92399101,
	"memory(GiB)": 19.32,
	"step": 635,
	"train_speed(iter/s)": 0.075143
	},
	{
	"acc": 0.75597148,
	"epoch": 2.5048923679060664,
	"grad_norm": 1.65625,
	"learning_rate": 4.673516403642383e-05,
	"loss": 0.86396818,
	"memory(GiB)": 19.52,
	"step": 640,
	"train_speed(iter/s)": 0.075214
	},
	{
	"acc": 0.75100412,
	"epoch": 2.524461839530333,
	"grad_norm": 1.5390625,
	"learning_rate": 4.5668038025454554e-05,
	"loss": 0.89630232,
	"memory(GiB)": 19.54,
	"step": 645,
	"train_speed(iter/s)": 0.07528
	},
	{
	"acc": 0.74814,
	"epoch": 2.544031311154599,
	"grad_norm": 1.7265625,
	"learning_rate": 4.460730582584228e-05,
	"loss": 0.90660105,
	"memory(GiB)": 19.46,
	"step": 650,
	"train_speed(iter/s)": 0.075343
	},
	{
	"epoch": 2.544031311154599,
	"eval_acc": 0.6304006284367636,
	"eval_loss": 1.6207610368728638,
	"eval_runtime": 68.9365,
	"eval_samples_per_second": 1.102,
	"eval_steps_per_second": 0.551,
	"step": 650
	},
	{
	"acc": 0.74153934,
	"epoch": 2.563600782778865,
	"grad_norm": 2.328125,
	"learning_rate": 4.3553246170621e-05,
	"loss": 0.90404129,
	"memory(GiB)": 19.38,
	"step": 655,
	"train_speed(iter/s)": 0.074813
	},
	{
	"acc": 0.76082869,
	"epoch": 2.583170254403131,
	"grad_norm": 1.5390625,
	"learning_rate": 4.2506136039452357e-05,
	"loss": 0.90251627,
	"memory(GiB)": 20.24,
	"step": 660,
	"train_speed(iter/s)": 0.074877
	},
	{
	"acc": 0.76424356,
	"epoch": 2.602739726027397,
	"grad_norm": 1.109375,
	"learning_rate": 4.146625058584251e-05,
	"loss": 0.85076065,
	"memory(GiB)": 19.4,
	"step": 665,
	"train_speed(iter/s)": 0.07494
	},
	{
	"acc": 0.75788155,
	"epoch": 2.6223091976516635,
	"grad_norm": 1.828125,
	"learning_rate": 4.043386306483886e-05,
	"loss": 0.8638917,
	"memory(GiB)": 18.71,
	"step": 670,
	"train_speed(iter/s)": 0.075
	},
	{
	"acc": 0.74567804,
	"epoch": 2.6418786692759295,
	"grad_norm": 1.5078125,
	"learning_rate": 3.940924476122573e-05,
	"loss": 0.91406345,
	"memory(GiB)": 19.53,
	"step": 675,
	"train_speed(iter/s)": 0.075062
	},
	{
	"acc": 0.77229648,
	"epoch": 2.6614481409001955,
	"grad_norm": 1.3984375,
	"learning_rate": 3.839266491823776e-05,
	"loss": 0.79556112,
	"memory(GiB)": 19.59,
	"step": 680,
	"train_speed(iter/s)": 0.075125
	},
	{
	"acc": 0.7331708,
	"epoch": 2.681017612524462,
	"grad_norm": 1.6015625,
	"learning_rate": 3.73843906668096e-05,
	"loss": 0.95133247,
	"memory(GiB)": 19.69,
	"step": 685,
	"train_speed(iter/s)": 0.075185
	},
	{
	"acc": 0.76955137,
	"epoch": 2.700587084148728,
	"grad_norm": 1.4140625,
	"learning_rate": 3.6384686955380996e-05,
	"loss": 0.82770052,
	"memory(GiB)": 19.53,
	"step": 690,
	"train_speed(iter/s)": 0.075245
	},
	{
	"acc": 0.73245583,
	"epoch": 2.720156555772994,
	"grad_norm": 1.59375,
	"learning_rate": 3.539381648027495e-05,
	"loss": 0.93347349,
	"memory(GiB)": 19.38,
	"step": 695,
	"train_speed(iter/s)": 0.075313
	},
	{
	"acc": 0.7664053,
	"epoch": 2.73972602739726,
	"grad_norm": 1.4296875,
	"learning_rate": 3.441203961666818e-05,
	"loss": 0.84118309,
	"memory(GiB)": 19.55,
	"step": 700,
	"train_speed(iter/s)": 0.075373
	},
	{
	"epoch": 2.73972602739726,
	"eval_acc": 0.628750981932443,
	"eval_loss": 1.5982366800308228,
	"eval_runtime": 69.1268,
	"eval_samples_per_second": 1.099,
	"eval_steps_per_second": 0.55,
	"step": 700
	},
	{
	"acc": 0.74386759,
	"epoch": 2.759295499021526,
	"grad_norm": 2.21875,
	"learning_rate": 3.343961435017094e-05,
	"loss": 0.92712116,
	"memory(GiB)": 23.1,
	"step": 705,
	"train_speed(iter/s)": 0.074881
	},
	{
	"acc": 0.75352135,
	"epoch": 2.7788649706457926,
	"grad_norm": 1.5625,
	"learning_rate": 3.247679620903533e-05,
	"loss": 0.90610752,
	"memory(GiB)": 19.56,
	"step": 710,
	"train_speed(iter/s)": 0.074934
	},
	{
	"acc": 0.75765467,
	"epoch": 2.7984344422700587,
	"grad_norm": 4.4375,
	"learning_rate": 3.1523838197008956e-05,
	"loss": 0.88628139,
	"memory(GiB)": 19.44,
	"step": 715,
	"train_speed(iter/s)": 0.074999
	},
	{
	"acc": 0.763375,
	"epoch": 2.8180039138943247,
	"grad_norm": 1.1640625,
	"learning_rate": 3.058099072685204e-05,
	"loss": 0.86159172,
	"memory(GiB)": 19.5,
	"step": 720,
	"train_speed(iter/s)": 0.075059
	},
	{
	"acc": 0.75694184,
	"epoch": 2.837573385518591,
	"grad_norm": 1.6171875,
	"learning_rate": 2.964850155453543e-05,
	"loss": 0.85433092,
	"memory(GiB)": 19.38,
	"step": 725,
	"train_speed(iter/s)": 0.075121
	},
	{
	"acc": 0.76086893,
	"epoch": 2.857142857142857,
	"grad_norm": 1.5859375,
	"learning_rate": 2.8726615714136827e-05,
	"loss": 0.8608798,
	"memory(GiB)": 19.58,
	"step": 730,
	"train_speed(iter/s)": 0.075181
	},
	{
	"acc": 0.74008894,
	"epoch": 2.8767123287671232,
	"grad_norm": 1.4375,
	"learning_rate": 2.7815575453452058e-05,
	"loss": 0.98413734,
	"memory(GiB)": 19.59,
	"step": 735,
	"train_speed(iter/s)": 0.075242
	},
	{
	"acc": 0.75941825,
	"epoch": 2.8962818003913893,
	"grad_norm": 1.7734375,
	"learning_rate": 2.6915620170338612e-05,
	"loss": 0.85438929,
	"memory(GiB)": 19.39,
	"step": 740,
	"train_speed(iter/s)": 0.075307
	},
	{
	"acc": 0.77891464,
	"epoch": 2.9158512720156553,
	"grad_norm": 1.7265625,
	"learning_rate": 2.6026986349808058e-05,
	"loss": 0.79716868,
	"memory(GiB)": 19.61,
	"step": 745,
	"train_speed(iter/s)": 0.075361
	},
	{
	"acc": 0.75023217,
	"epoch": 2.935420743639922,
	"grad_norm": 1.28125,
	"learning_rate": 2.514990750188399e-05,
	"loss": 0.85774508,
	"memory(GiB)": 18.86,
	"step": 750,
	"train_speed(iter/s)": 0.075417
	},
	{
	"epoch": 2.935420743639922,
	"eval_acc": 0.6324430479183032,
	"eval_loss": 1.5986852645874023,
	"eval_runtime": 69.3348,
	"eval_samples_per_second": 1.096,
	"eval_steps_per_second": 0.548,
	"step": 750
	},
	{
	"acc": 0.74531512,
	"epoch": 2.954990215264188,
	"grad_norm": 1.5625,
	"learning_rate": 2.4284614100241538e-05,
	"loss": 0.93483381,
	"memory(GiB)": 23.14,
	"step": 755,
	"train_speed(iter/s)": 0.074953
	},
	{
	"acc": 0.76761031,
	"epoch": 2.974559686888454,
	"grad_norm": 1.6171875,
	"learning_rate": 2.343133352164477e-05,
	"loss": 0.84630623,
	"memory(GiB)": 19.36,
	"step": 760,
	"train_speed(iter/s)": 0.075015
	},
	{
	"acc": 0.75018072,
	"epoch": 2.9941291585127203,
	"grad_norm": 1.5703125,
	"learning_rate": 2.2590289986198136e-05,
	"loss": 0.89352074,
	"memory(GiB)": 19.6,
	"step": 765,
	"train_speed(iter/s)": 0.075072
	},
	{
	"acc": 0.80383377,
	"epoch": 3.0136986301369864,
	"grad_norm": 1.453125,
	"learning_rate": 2.1761704498427003e-05,
	"loss": 0.68276234,
	"memory(GiB)": 19.62,
	"step": 770,
	"train_speed(iter/s)": 0.075153
	},
	{
	"acc": 0.82252359,
	"epoch": 3.0332681017612524,
	"grad_norm": 1.328125,
	"learning_rate": 2.094579478920358e-05,
	"loss": 0.64008789,
	"memory(GiB)": 19.76,
	"step": 775,
	"train_speed(iter/s)": 0.075213
	},
	{
	"acc": 0.83448801,
	"epoch": 3.0528375733855184,
	"grad_norm": 1.8828125,
	"learning_rate": 2.0142775258532654e-05,
	"loss": 0.61610913,
	"memory(GiB)": 19.59,
	"step": 780,
	"train_speed(iter/s)": 0.075271
	},
	{
	"acc": 0.83116817,
	"epoch": 3.072407045009785,
	"grad_norm": 1.5546875,
	"learning_rate": 1.9352856919212994e-05,
	"loss": 0.58688097,
	"memory(GiB)": 19.53,
	"step": 785,
	"train_speed(iter/s)": 0.075323
	},
	{
	"acc": 0.82525949,
	"epoch": 3.091976516634051,
	"grad_norm": 1.4375,
	"learning_rate": 1.8576247341388544e-05,
	"loss": 0.62312498,
	"memory(GiB)": 19.85,
	"step": 790,
	"train_speed(iter/s)": 0.07537
	},
	{
	"acc": 0.81645441,
	"epoch": 3.111545988258317,
	"grad_norm": 1.65625,
	"learning_rate": 1.7813150598004313e-05,
	"loss": 0.62203112,
	"memory(GiB)": 19.79,
	"step": 795,
	"train_speed(iter/s)": 0.075423
	},
	{
	"acc": 0.83432789,
	"epoch": 3.131115459882583,
	"grad_norm": 1.5859375,
	"learning_rate": 1.7063767211181333e-05,
	"loss": 0.60077624,
	"memory(GiB)": 19.52,
	"step": 800,
	"train_speed(iter/s)": 0.07548
	},
	{
	"epoch": 3.131115459882583,
	"eval_acc": 0.6209740769835035,
	"eval_loss": 1.7955598831176758,
	"eval_runtime": 69.0109,
	"eval_samples_per_second": 1.101,
	"eval_steps_per_second": 0.551,
	"step": 800
	},
	{
	"acc": 0.82124023,
	"epoch": 3.1506849315068495,
	"grad_norm": 1.7578125,
	"learning_rate": 1.6328294099524644e-05,
	"loss": 0.60847788,
	"memory(GiB)": 22.65,
	"step": 805,
	"train_speed(iter/s)": 0.075043
	},
	{
	"acc": 0.83265171,
	"epoch": 3.1702544031311155,
	"grad_norm": 4.09375,
	"learning_rate": 1.5606924526378136e-05,
	"loss": 0.57863126,
	"memory(GiB)": 18.89,
	"step": 810,
	"train_speed(iter/s)": 0.07509
	},
	{
	"acc": 0.8407362,
	"epoch": 3.1898238747553815,
	"grad_norm": 1.1796875,
	"learning_rate": 1.4899848049039881e-05,
	"loss": 0.53706379,
	"memory(GiB)": 19.37,
	"step": 815,
	"train_speed(iter/s)": 0.075142
	},
	{
	"acc": 0.82116756,
	"epoch": 3.2093933463796476,
	"grad_norm": 1.859375,
	"learning_rate": 1.4207250468951426e-05,
	"loss": 0.64039102,
	"memory(GiB)": 19.52,
	"step": 820,
	"train_speed(iter/s)": 0.075197
	},
	{
	"acc": 0.85004549,
	"epoch": 3.228962818003914,
	"grad_norm": 1.0390625,
	"learning_rate": 1.3529313782874023e-05,
	"loss": 0.53315983,
	"memory(GiB)": 19.52,
	"step": 825,
	"train_speed(iter/s)": 0.07525
	},
	{
	"acc": 0.83273296,
	"epoch": 3.24853228962818,
	"grad_norm": 1.578125,
	"learning_rate": 1.2866216135064487e-05,
	"loss": 0.58545351,
	"memory(GiB)": 19.36,
	"step": 830,
	"train_speed(iter/s)": 0.075303
	},
	{
	"acc": 0.80788403,
	"epoch": 3.268101761252446,
	"grad_norm": 2.296875,
	"learning_rate": 1.2218131770463487e-05,
	"loss": 0.67468171,
	"memory(GiB)": 19.28,
	"step": 835,
	"train_speed(iter/s)": 0.075356
	},
	{
	"acc": 0.8440134,
	"epoch": 3.287671232876712,
	"grad_norm": 1.21875,
	"learning_rate": 1.1585230988908576e-05,
	"loss": 0.55293651,
	"memory(GiB)": 19.37,
	"step": 840,
	"train_speed(iter/s)": 0.07541
	},
	{
	"acc": 0.81569691,
	"epoch": 3.3072407045009786,
	"grad_norm": 1.671875,
	"learning_rate": 1.0967680100383645e-05,
	"loss": 0.61190109,
	"memory(GiB)": 18.09,
	"step": 845,
	"train_speed(iter/s)": 0.075466
	},
	{
	"acc": 0.84766483,
	"epoch": 3.3268101761252447,
	"grad_norm": 1.8046875,
	"learning_rate": 1.0365641381317113e-05,
	"loss": 0.52525816,
	"memory(GiB)": 19.31,
	"step": 850,
	"train_speed(iter/s)": 0.075523
	},
	{
	"epoch": 3.3268101761252447,
	"eval_acc": 0.6203456402199529,
	"eval_loss": 1.7881730794906616,
	"eval_runtime": 69.1552,
	"eval_samples_per_second": 1.099,
	"eval_steps_per_second": 0.549,
	"step": 850
	},
	{
	"acc": 0.84491625,
	"epoch": 3.3463796477495107,
	"grad_norm": 1.8046875,
	"learning_rate": 9.779273031939692e-06,
	"loss": 0.56272998,
	"memory(GiB)": 23.04,
	"step": 855,
	"train_speed(iter/s)": 0.07511
	},
	{
	"acc": 0.84104662,
	"epoch": 3.3659491193737767,
	"grad_norm": 1.796875,
	"learning_rate": 9.20872913471363e-06,
	"loss": 0.57019663,
	"memory(GiB)": 19.42,
	"step": 860,
	"train_speed(iter/s)": 0.075157
	},
	{
	"acc": 0.84433002,
	"epoch": 3.385518590998043,
	"grad_norm": 1.6484375,
	"learning_rate": 8.654159613843715e-06,
	"loss": 0.55449514,
	"memory(GiB)": 19.59,
	"step": 865,
	"train_speed(iter/s)": 0.07521
	},
	{
	"acc": 0.80005312,
	"epoch": 3.4050880626223092,
	"grad_norm": 1.46875,
	"learning_rate": 8.115710195881068e-06,
	"loss": 0.73595409,
	"memory(GiB)": 19.36,
	"step": 870,
	"train_speed(iter/s)": 0.075258
	},
	{
	"acc": 0.83217945,
	"epoch": 3.4246575342465753,
	"grad_norm": 3.328125,
	"learning_rate": 7.593522371429972e-06,
	"loss": 0.58270836,
	"memory(GiB)": 19.58,
	"step": 875,
	"train_speed(iter/s)": 0.075306
	},
	{
	"acc": 0.82742786,
	"epoch": 3.4442270058708413,
	"grad_norm": 1.234375,
	"learning_rate": 7.0877333579678585e-06,
	"loss": 0.59052157,
	"memory(GiB)": 19.6,
	"step": 880,
	"train_speed(iter/s)": 0.075358
	},
	{
	"acc": 0.81994705,
	"epoch": 3.4637964774951078,
	"grad_norm": 1.7578125,
	"learning_rate": 6.598476063788036e-06,
	"loss": 0.62256751,
	"memory(GiB)": 19.56,
	"step": 885,
	"train_speed(iter/s)": 0.075405
	},
	{
	"acc": 0.8157341,
	"epoch": 3.483365949119374,
	"grad_norm": 1.8203125,
	"learning_rate": 6.12587905307477e-06,
	"loss": 0.66806622,
	"memory(GiB)": 19.49,
	"step": 890,
	"train_speed(iter/s)": 0.075454
	},
	{
	"acc": 0.82838688,
	"epoch": 3.50293542074364,
	"grad_norm": 1.515625,
	"learning_rate": 5.67006651212008e-06,
	"loss": 0.63044977,
	"memory(GiB)": 19.54,
	"step": 895,
	"train_speed(iter/s)": 0.075497
	},
	{
	"acc": 0.79130597,
	"epoch": 3.5225048923679063,
	"grad_norm": 1.640625,
	"learning_rate": 5.2311582166906605e-06,
	"loss": 0.7558567,
	"memory(GiB)": 19.28,
	"step": 900,
	"train_speed(iter/s)": 0.07555
	},
	{
	"epoch": 3.5225048923679063,
	"eval_acc": 0.6211311861743912,
	"eval_loss": 1.7854998111724854,
	"eval_runtime": 69.2434,
	"eval_samples_per_second": 1.098,
	"eval_steps_per_second": 0.549,
	"step": 900
	}
	],
	"logging_steps": 5,
	"max_steps": 1020,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 300,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.605539502350213e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}