GPT2-From-Scratch / trainer_state.json

Upload 7 files

336a0d7 over 1 year ago

24.2 kB

	{
	"best_metric": 0.28431499004364014,
	"best_model_checkpoint": "./new_models/gpt2/checkpoint-25000",
	"epoch": 168.83116883116884,
	"global_step": 39000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 3.46,
	"learning_rate": 4.000000000000001e-06,
	"loss": 9.4041,
	"step": 100
	},
	{
	"epoch": 6.93,
	"learning_rate": 8.000000000000001e-06,
	"loss": 7.6702,
	"step": 200
	},
	{
	"epoch": 10.39,
	"learning_rate": 1.2e-05,
	"loss": 6.7042,
	"step": 300
	},
	{
	"epoch": 13.85,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 5.8391,
	"step": 400
	},
	{
	"epoch": 17.32,
	"learning_rate": 2e-05,
	"loss": 5.1775,
	"step": 500
	},
	{
	"epoch": 20.78,
	"learning_rate": 1.9963963963963965e-05,
	"loss": 4.7103,
	"step": 600
	},
	{
	"epoch": 24.24,
	"learning_rate": 1.992792792792793e-05,
	"loss": 4.353,
	"step": 700
	},
	{
	"epoch": 27.71,
	"learning_rate": 1.9891891891891894e-05,
	"loss": 4.04,
	"step": 800
	},
	{
	"epoch": 31.17,
	"learning_rate": 1.9855855855855857e-05,
	"loss": 3.7865,
	"step": 900
	},
	{
	"epoch": 34.63,
	"learning_rate": 1.981981981981982e-05,
	"loss": 3.5376,
	"step": 1000
	},
	{
	"epoch": 34.63,
	"eval_loss": 3.2091352939605713,
	"eval_runtime": 3.6439,
	"eval_samples_per_second": 14.27,
	"eval_steps_per_second": 1.921,
	"step": 1000
	},
	{
	"epoch": 38.1,
	"learning_rate": 1.9783783783783786e-05,
	"loss": 3.3258,
	"step": 1100
	},
	{
	"epoch": 41.56,
	"learning_rate": 1.974774774774775e-05,
	"loss": 3.1155,
	"step": 1200
	},
	{
	"epoch": 45.02,
	"learning_rate": 1.9711711711711716e-05,
	"loss": 2.9341,
	"step": 1300
	},
	{
	"epoch": 48.48,
	"learning_rate": 1.967567567567568e-05,
	"loss": 2.7419,
	"step": 1400
	},
	{
	"epoch": 51.95,
	"learning_rate": 1.963963963963964e-05,
	"loss": 2.5793,
	"step": 1500
	},
	{
	"epoch": 55.41,
	"learning_rate": 1.9603603603603604e-05,
	"loss": 2.4091,
	"step": 1600
	},
	{
	"epoch": 58.87,
	"learning_rate": 1.956756756756757e-05,
	"loss": 2.2517,
	"step": 1700
	},
	{
	"epoch": 62.34,
	"learning_rate": 1.9531531531531534e-05,
	"loss": 2.0899,
	"step": 1800
	},
	{
	"epoch": 65.8,
	"learning_rate": 1.9495495495495497e-05,
	"loss": 1.9464,
	"step": 1900
	},
	{
	"epoch": 69.26,
	"learning_rate": 1.9459459459459463e-05,
	"loss": 1.803,
	"step": 2000
	},
	{
	"epoch": 69.26,
	"eval_loss": 1.7681734561920166,
	"eval_runtime": 3.5208,
	"eval_samples_per_second": 14.769,
	"eval_steps_per_second": 1.988,
	"step": 2000
	},
	{
	"epoch": 72.73,
	"learning_rate": 1.9423423423423423e-05,
	"loss": 1.6706,
	"step": 2100
	},
	{
	"epoch": 76.19,
	"learning_rate": 1.938738738738739e-05,
	"loss": 1.5401,
	"step": 2200
	},
	{
	"epoch": 79.65,
	"learning_rate": 1.9351351351351352e-05,
	"loss": 1.4045,
	"step": 2300
	},
	{
	"epoch": 83.12,
	"learning_rate": 1.931531531531532e-05,
	"loss": 1.2934,
	"step": 2400
	},
	{
	"epoch": 86.58,
	"learning_rate": 1.927927927927928e-05,
	"loss": 1.1735,
	"step": 2500
	},
	{
	"epoch": 90.04,
	"learning_rate": 1.9243243243243244e-05,
	"loss": 1.0624,
	"step": 2600
	},
	{
	"epoch": 93.51,
	"learning_rate": 1.9207207207207207e-05,
	"loss": 0.9525,
	"step": 2700
	},
	{
	"epoch": 96.97,
	"learning_rate": 1.9171171171171174e-05,
	"loss": 0.8541,
	"step": 2800
	},
	{
	"epoch": 100.43,
	"learning_rate": 1.9135135135135137e-05,
	"loss": 0.7571,
	"step": 2900
	},
	{
	"epoch": 103.9,
	"learning_rate": 1.90990990990991e-05,
	"loss": 0.6733,
	"step": 3000
	},
	{
	"epoch": 103.9,
	"eval_loss": 0.9859427213668823,
	"eval_runtime": 3.5218,
	"eval_samples_per_second": 14.765,
	"eval_steps_per_second": 1.988,
	"step": 3000
	},
	{
	"epoch": 107.36,
	"learning_rate": 1.9063063063063066e-05,
	"loss": 0.5883,
	"step": 3100
	},
	{
	"epoch": 110.82,
	"learning_rate": 1.902702702702703e-05,
	"loss": 0.5167,
	"step": 3200
	},
	{
	"epoch": 114.29,
	"learning_rate": 1.8990990990990992e-05,
	"loss": 0.4459,
	"step": 3300
	},
	{
	"epoch": 117.75,
	"learning_rate": 1.8954954954954955e-05,
	"loss": 0.385,
	"step": 3400
	},
	{
	"epoch": 121.21,
	"learning_rate": 1.891891891891892e-05,
	"loss": 0.3311,
	"step": 3500
	},
	{
	"epoch": 124.68,
	"learning_rate": 1.8882882882882884e-05,
	"loss": 0.2853,
	"step": 3600
	},
	{
	"epoch": 128.14,
	"learning_rate": 1.884684684684685e-05,
	"loss": 0.2442,
	"step": 3700
	},
	{
	"epoch": 131.6,
	"learning_rate": 1.8810810810810813e-05,
	"loss": 0.2097,
	"step": 3800
	},
	{
	"epoch": 135.06,
	"learning_rate": 1.8774774774774776e-05,
	"loss": 0.1802,
	"step": 3900
	},
	{
	"epoch": 138.53,
	"learning_rate": 1.873873873873874e-05,
	"loss": 0.1561,
	"step": 4000
	},
	{
	"epoch": 138.53,
	"eval_loss": 0.8047342300415039,
	"eval_runtime": 3.5244,
	"eval_samples_per_second": 14.754,
	"eval_steps_per_second": 1.986,
	"step": 4000
	},
	{
	"epoch": 141.99,
	"learning_rate": 1.8702702702702706e-05,
	"loss": 0.1359,
	"step": 4100
	},
	{
	"epoch": 145.45,
	"learning_rate": 1.866666666666667e-05,
	"loss": 0.12,
	"step": 4200
	},
	{
	"epoch": 148.92,
	"learning_rate": 1.863063063063063e-05,
	"loss": 0.1066,
	"step": 4300
	},
	{
	"epoch": 152.38,
	"learning_rate": 1.8594594594594598e-05,
	"loss": 0.0952,
	"step": 4400
	},
	{
	"epoch": 155.84,
	"learning_rate": 1.855855855855856e-05,
	"loss": 0.0866,
	"step": 4500
	},
	{
	"epoch": 159.31,
	"learning_rate": 1.8522522522522524e-05,
	"loss": 0.0791,
	"step": 4600
	},
	{
	"epoch": 162.77,
	"learning_rate": 1.8486486486486487e-05,
	"loss": 0.072,
	"step": 4700
	},
	{
	"epoch": 166.23,
	"learning_rate": 1.8450450450450453e-05,
	"loss": 0.0658,
	"step": 4800
	},
	{
	"epoch": 169.7,
	"learning_rate": 1.8414414414414416e-05,
	"loss": 0.0622,
	"step": 4900
	},
	{
	"epoch": 173.16,
	"learning_rate": 1.8378378378378383e-05,
	"loss": 0.058,
	"step": 5000
	},
	{
	"epoch": 173.16,
	"eval_loss": 0.8171238303184509,
	"eval_runtime": 3.5228,
	"eval_samples_per_second": 14.761,
	"eval_steps_per_second": 1.987,
	"step": 5000
	},
	{
	"epoch": 176.62,
	"learning_rate": 1.8342342342342342e-05,
	"loss": 0.0531,
	"step": 5100
	},
	{
	"epoch": 180.09,
	"learning_rate": 1.830630630630631e-05,
	"loss": 0.0504,
	"step": 5200
	},
	{
	"epoch": 183.55,
	"learning_rate": 1.827027027027027e-05,
	"loss": 0.046,
	"step": 5300
	},
	{
	"epoch": 187.01,
	"learning_rate": 1.8234234234234234e-05,
	"loss": 0.0447,
	"step": 5400
	},
	{
	"epoch": 190.48,
	"learning_rate": 1.81981981981982e-05,
	"loss": 0.0543,
	"step": 5500
	},
	{
	"epoch": 193.94,
	"learning_rate": 1.8162162162162164e-05,
	"loss": 0.0492,
	"step": 5600
	},
	{
	"epoch": 197.4,
	"learning_rate": 1.8126126126126127e-05,
	"loss": 0.0438,
	"step": 5700
	},
	{
	"epoch": 200.87,
	"learning_rate": 1.809009009009009e-05,
	"loss": 0.0547,
	"step": 5800
	},
	{
	"epoch": 204.33,
	"learning_rate": 1.8054054054054056e-05,
	"loss": 0.0615,
	"step": 5900
	},
	{
	"epoch": 207.79,
	"learning_rate": 1.801801801801802e-05,
	"loss": 0.072,
	"step": 6000
	},
	{
	"epoch": 207.79,
	"eval_loss": 0.8289902210235596,
	"eval_runtime": 3.5216,
	"eval_samples_per_second": 14.766,
	"eval_steps_per_second": 1.988,
	"step": 6000
	},
	{
	"epoch": 211.26,
	"learning_rate": 1.7981981981981985e-05,
	"loss": 0.1157,
	"step": 6100
	},
	{
	"epoch": 214.72,
	"learning_rate": 1.7945945945945948e-05,
	"loss": 0.0869,
	"step": 6200
	},
	{
	"epoch": 218.18,
	"learning_rate": 1.790990990990991e-05,
	"loss": 1.0166,
	"step": 6300
	},
	{
	"epoch": 221.65,
	"learning_rate": 1.7873873873873874e-05,
	"loss": 0.0771,
	"step": 6400
	},
	{
	"epoch": 225.11,
	"learning_rate": 1.783783783783784e-05,
	"loss": 0.0953,
	"step": 6500
	},
	{
	"epoch": 228.57,
	"learning_rate": 1.7801801801801804e-05,
	"loss": 0.6189,
	"step": 6600
	},
	{
	"epoch": 232.03,
	"learning_rate": 1.7765765765765767e-05,
	"loss": 0.5593,
	"step": 6700
	},
	{
	"epoch": 235.5,
	"learning_rate": 1.7729729729729733e-05,
	"loss": 0.376,
	"step": 6800
	},
	{
	"epoch": 238.96,
	"learning_rate": 1.7693693693693696e-05,
	"loss": 0.4129,
	"step": 6900
	},
	{
	"epoch": 242.42,
	"learning_rate": 1.765765765765766e-05,
	"loss": 2.2984,
	"step": 7000
	},
	{
	"epoch": 242.42,
	"eval_loss": 4.4349541664123535,
	"eval_runtime": 3.5205,
	"eval_samples_per_second": 14.77,
	"eval_steps_per_second": 1.988,
	"step": 7000
	},
	{
	"epoch": 245.89,
	"learning_rate": 1.7621621621621622e-05,
	"loss": 3.4028,
	"step": 7100
	},
	{
	"epoch": 249.35,
	"learning_rate": 1.7585585585585588e-05,
	"loss": 0.7196,
	"step": 7200
	},
	{
	"epoch": 252.81,
	"learning_rate": 1.754954954954955e-05,
	"loss": 1.162,
	"step": 7300
	},
	{
	"epoch": 256.28,
	"learning_rate": 1.7513513513513517e-05,
	"loss": 0.7413,
	"step": 7400
	},
	{
	"epoch": 259.74,
	"learning_rate": 1.7477477477477477e-05,
	"loss": 1.1918,
	"step": 7500
	},
	{
	"epoch": 263.2,
	"learning_rate": 1.7441441441441443e-05,
	"loss": 0.8564,
	"step": 7600
	},
	{
	"epoch": 266.67,
	"learning_rate": 1.7405405405405406e-05,
	"loss": 0.2815,
	"step": 7700
	},
	{
	"epoch": 270.13,
	"learning_rate": 1.7369369369369373e-05,
	"loss": 0.5848,
	"step": 7800
	},
	{
	"epoch": 273.59,
	"learning_rate": 1.7333333333333336e-05,
	"loss": 0.6489,
	"step": 7900
	},
	{
	"epoch": 277.06,
	"learning_rate": 1.72972972972973e-05,
	"loss": 1.0025,
	"step": 8000
	},
	{
	"epoch": 277.06,
	"eval_loss": 1.2763237953186035,
	"eval_runtime": 3.5102,
	"eval_samples_per_second": 14.814,
	"eval_steps_per_second": 1.994,
	"step": 8000
	},
	{
	"epoch": 280.52,
	"learning_rate": 1.726126126126126e-05,
	"loss": 0.7947,
	"step": 8100
	},
	{
	"epoch": 283.98,
	"learning_rate": 1.7225225225225225e-05,
	"loss": 0.558,
	"step": 8200
	},
	{
	"epoch": 287.45,
	"learning_rate": 1.718918918918919e-05,
	"loss": 0.6356,
	"step": 8300
	},
	{
	"epoch": 290.91,
	"learning_rate": 1.7153153153153154e-05,
	"loss": 0.5268,
	"step": 8400
	},
	{
	"epoch": 294.37,
	"learning_rate": 1.711711711711712e-05,
	"loss": 0.2633,
	"step": 8500
	},
	{
	"epoch": 297.84,
	"learning_rate": 1.7081081081081083e-05,
	"loss": 0.2457,
	"step": 8600
	},
	{
	"epoch": 301.3,
	"learning_rate": 1.7045045045045046e-05,
	"loss": 0.5308,
	"step": 8700
	},
	{
	"epoch": 304.76,
	"learning_rate": 1.700900900900901e-05,
	"loss": 0.369,
	"step": 8800
	},
	{
	"epoch": 308.23,
	"learning_rate": 1.6972972972972975e-05,
	"loss": 0.3203,
	"step": 8900
	},
	{
	"epoch": 311.69,
	"learning_rate": 1.693693693693694e-05,
	"loss": 2.5307,
	"step": 9000
	},
	{
	"epoch": 311.69,
	"eval_loss": 1.3849806785583496,
	"eval_runtime": 3.5124,
	"eval_samples_per_second": 14.805,
	"eval_steps_per_second": 1.993,
	"step": 9000
	},
	{
	"epoch": 39.39,
	"learning_rate": 1.96273022751896e-05,
	"loss": 3.0696,
	"step": 9100
	},
	{
	"epoch": 39.83,
	"learning_rate": 1.962296858071506e-05,
	"loss": 3.0068,
	"step": 9200
	},
	{
	"epoch": 40.26,
	"learning_rate": 1.9618634886240522e-05,
	"loss": 2.7896,
	"step": 9300
	},
	{
	"epoch": 40.69,
	"learning_rate": 1.9614301191765985e-05,
	"loss": 2.5042,
	"step": 9400
	},
	{
	"epoch": 41.13,
	"learning_rate": 1.960996749729144e-05,
	"loss": 2.8704,
	"step": 9500
	},
	{
	"epoch": 41.56,
	"learning_rate": 1.9605633802816904e-05,
	"loss": 3.4878,
	"step": 9600
	},
	{
	"epoch": 41.99,
	"learning_rate": 1.9601300108342363e-05,
	"loss": 3.0682,
	"step": 9700
	},
	{
	"epoch": 42.42,
	"learning_rate": 1.9596966413867822e-05,
	"loss": 2.9751,
	"step": 9800
	},
	{
	"epoch": 42.86,
	"learning_rate": 1.9592632719393285e-05,
	"loss": 3.3576,
	"step": 9900
	},
	{
	"epoch": 43.29,
	"learning_rate": 1.9588299024918744e-05,
	"loss": 2.9478,
	"step": 10000
	},
	{
	"epoch": 43.29,
	"eval_loss": 1.7224024534225464,
	"eval_runtime": 3.6186,
	"eval_samples_per_second": 14.37,
	"eval_steps_per_second": 1.934,
	"step": 10000
	},
	{
	"epoch": 47.62,
	"learning_rate": 1.954496208017335e-05,
	"loss": 2.4401,
	"step": 11000
	},
	{
	"epoch": 47.62,
	"eval_loss": 1.6094621419906616,
	"eval_runtime": 3.6227,
	"eval_samples_per_second": 14.354,
	"eval_steps_per_second": 1.932,
	"step": 11000
	},
	{
	"epoch": 51.95,
	"learning_rate": 1.9501625135427952e-05,
	"loss": 2.3021,
	"step": 12000
	},
	{
	"epoch": 51.95,
	"eval_loss": 1.9848077297210693,
	"eval_runtime": 3.511,
	"eval_samples_per_second": 14.81,
	"eval_steps_per_second": 1.994,
	"step": 12000
	},
	{
	"epoch": 56.28,
	"learning_rate": 1.945828819068256e-05,
	"loss": 1.8831,
	"step": 13000
	},
	{
	"epoch": 56.28,
	"eval_loss": 0.5190821290016174,
	"eval_runtime": 3.5109,
	"eval_samples_per_second": 14.811,
	"eval_steps_per_second": 1.994,
	"step": 13000
	},
	{
	"epoch": 60.61,
	"learning_rate": 1.9414951245937164e-05,
	"loss": 1.1329,
	"step": 14000
	},
	{
	"epoch": 60.61,
	"eval_loss": 0.9506992101669312,
	"eval_runtime": 3.511,
	"eval_samples_per_second": 14.81,
	"eval_steps_per_second": 1.994,
	"step": 14000
	},
	{
	"epoch": 64.94,
	"learning_rate": 1.9371614301191768e-05,
	"loss": 1.8788,
	"step": 15000
	},
	{
	"epoch": 64.94,
	"eval_loss": 1.937408685684204,
	"eval_runtime": 3.5081,
	"eval_samples_per_second": 14.823,
	"eval_steps_per_second": 1.995,
	"step": 15000
	},
	{
	"epoch": 69.26,
	"learning_rate": 1.932827735644637e-05,
	"loss": 1.6736,
	"step": 16000
	},
	{
	"epoch": 69.26,
	"eval_loss": 0.5699201226234436,
	"eval_runtime": 3.5113,
	"eval_samples_per_second": 14.809,
	"eval_steps_per_second": 1.994,
	"step": 16000
	},
	{
	"epoch": 73.59,
	"learning_rate": 1.9284940411700976e-05,
	"loss": 0.5165,
	"step": 17000
	},
	{
	"epoch": 73.59,
	"eval_loss": 0.4182128310203552,
	"eval_runtime": 3.5129,
	"eval_samples_per_second": 14.803,
	"eval_steps_per_second": 1.993,
	"step": 17000
	},
	{
	"epoch": 77.92,
	"learning_rate": 1.924160346695558e-05,
	"loss": 0.4656,
	"step": 18000
	},
	{
	"epoch": 77.92,
	"eval_loss": 0.4120073914527893,
	"eval_runtime": 3.5127,
	"eval_samples_per_second": 14.803,
	"eval_steps_per_second": 1.993,
	"step": 18000
	},
	{
	"epoch": 82.25,
	"learning_rate": 1.9198266522210184e-05,
	"loss": 0.6133,
	"step": 19000
	},
	{
	"epoch": 82.25,
	"eval_loss": 0.4980267286300659,
	"eval_runtime": 3.5108,
	"eval_samples_per_second": 14.811,
	"eval_steps_per_second": 1.994,
	"step": 19000
	},
	{
	"epoch": 86.58,
	"learning_rate": 1.9154929577464788e-05,
	"loss": 0.8087,
	"step": 20000
	},
	{
	"epoch": 86.58,
	"eval_loss": 0.5801683068275452,
	"eval_runtime": 3.5099,
	"eval_samples_per_second": 14.815,
	"eval_steps_per_second": 1.994,
	"step": 20000
	},
	{
	"epoch": 90.91,
	"learning_rate": 1.9111592632719395e-05,
	"loss": 2.2068,
	"step": 21000
	},
	{
	"epoch": 90.91,
	"eval_loss": 0.7701263427734375,
	"eval_runtime": 3.5112,
	"eval_samples_per_second": 14.81,
	"eval_steps_per_second": 1.994,
	"step": 21000
	},
	{
	"epoch": 95.24,
	"learning_rate": 1.9068255687974e-05,
	"loss": 1.0182,
	"step": 22000
	},
	{
	"epoch": 95.24,
	"eval_loss": 0.42168232798576355,
	"eval_runtime": 3.5098,
	"eval_samples_per_second": 14.816,
	"eval_steps_per_second": 1.994,
	"step": 22000
	},
	{
	"epoch": 99.57,
	"learning_rate": 1.9024918743228603e-05,
	"loss": 0.3515,
	"step": 23000
	},
	{
	"epoch": 99.57,
	"eval_loss": 0.2897047996520996,
	"eval_runtime": 3.5082,
	"eval_samples_per_second": 14.822,
	"eval_steps_per_second": 1.995,
	"step": 23000
	},
	{
	"epoch": 103.9,
	"learning_rate": 1.8981581798483207e-05,
	"loss": 1.007,
	"step": 24000
	},
	{
	"epoch": 103.9,
	"eval_loss": 0.28924015164375305,
	"eval_runtime": 3.5076,
	"eval_samples_per_second": 14.825,
	"eval_steps_per_second": 1.996,
	"step": 24000
	},
	{
	"epoch": 108.23,
	"learning_rate": 1.8938244853737814e-05,
	"loss": 0.1892,
	"step": 25000
	},
	{
	"epoch": 108.23,
	"eval_loss": 0.28431499004364014,
	"eval_runtime": 3.5124,
	"eval_samples_per_second": 14.805,
	"eval_steps_per_second": 1.993,
	"step": 25000
	},
	{
	"epoch": 112.55,
	"learning_rate": 1.8894907908992418e-05,
	"loss": 0.2349,
	"step": 26000
	},
	{
	"epoch": 112.55,
	"eval_loss": 0.2943420112133026,
	"eval_runtime": 3.5082,
	"eval_samples_per_second": 14.822,
	"eval_steps_per_second": 1.995,
	"step": 26000
	},
	{
	"epoch": 116.88,
	"learning_rate": 1.8851570964247022e-05,
	"loss": 0.1959,
	"step": 27000
	},
	{
	"epoch": 116.88,
	"eval_loss": 0.2937524616718292,
	"eval_runtime": 3.5084,
	"eval_samples_per_second": 14.822,
	"eval_steps_per_second": 1.995,
	"step": 27000
	},
	{
	"epoch": 121.21,
	"learning_rate": 1.8808234019501626e-05,
	"loss": 0.5489,
	"step": 28000
	},
	{
	"epoch": 121.21,
	"eval_loss": 0.3693106770515442,
	"eval_runtime": 3.5038,
	"eval_samples_per_second": 14.841,
	"eval_steps_per_second": 1.998,
	"step": 28000
	},
	{
	"epoch": 125.54,
	"learning_rate": 1.8764897074756233e-05,
	"loss": 0.1798,
	"step": 29000
	},
	{
	"epoch": 125.54,
	"eval_loss": 0.2986227571964264,
	"eval_runtime": 3.5089,
	"eval_samples_per_second": 14.819,
	"eval_steps_per_second": 1.995,
	"step": 29000
	},
	{
	"epoch": 129.87,
	"learning_rate": 1.8721560130010837e-05,
	"loss": 0.1638,
	"step": 30000
	},
	{
	"epoch": 129.87,
	"eval_loss": 0.3518519103527069,
	"eval_runtime": 3.5068,
	"eval_samples_per_second": 14.828,
	"eval_steps_per_second": 1.996,
	"step": 30000
	},
	{
	"epoch": 134.2,
	"learning_rate": 1.867822318526544e-05,
	"loss": 0.3161,
	"step": 31000
	},
	{
	"epoch": 134.2,
	"eval_loss": 0.37139639258384705,
	"eval_runtime": 3.5102,
	"eval_samples_per_second": 14.814,
	"eval_steps_per_second": 1.994,
	"step": 31000
	},
	{
	"epoch": 138.53,
	"learning_rate": 1.8634886240520045e-05,
	"loss": 0.4443,
	"step": 32000
	},
	{
	"epoch": 138.53,
	"eval_loss": 0.4150441288948059,
	"eval_runtime": 3.5081,
	"eval_samples_per_second": 14.823,
	"eval_steps_per_second": 1.995,
	"step": 32000
	},
	{
	"epoch": 142.86,
	"learning_rate": 1.859154929577465e-05,
	"loss": 0.6043,
	"step": 33000
	},
	{
	"epoch": 142.86,
	"eval_loss": 0.6062866449356079,
	"eval_runtime": 3.5067,
	"eval_samples_per_second": 14.829,
	"eval_steps_per_second": 1.996,
	"step": 33000
	},
	{
	"epoch": 147.19,
	"learning_rate": 1.8548212351029253e-05,
	"loss": 1.0402,
	"step": 34000
	},
	{
	"epoch": 147.19,
	"eval_loss": 0.5321042537689209,
	"eval_runtime": 3.6131,
	"eval_samples_per_second": 14.392,
	"eval_steps_per_second": 1.937,
	"step": 34000
	},
	{
	"epoch": 151.52,
	"learning_rate": 1.8504875406283857e-05,
	"loss": 0.8064,
	"step": 35000
	},
	{
	"epoch": 151.52,
	"eval_loss": 0.5623323917388916,
	"eval_runtime": 3.5113,
	"eval_samples_per_second": 14.809,
	"eval_steps_per_second": 1.994,
	"step": 35000
	},
	{
	"epoch": 155.84,
	"learning_rate": 1.8461538461538465e-05,
	"loss": 1.0081,
	"step": 36000
	},
	{
	"epoch": 155.84,
	"eval_loss": 0.8560149669647217,
	"eval_runtime": 3.5137,
	"eval_samples_per_second": 14.799,
	"eval_steps_per_second": 1.992,
	"step": 36000
	},
	{
	"epoch": 160.17,
	"learning_rate": 1.841820151679307e-05,
	"loss": 1.4319,
	"step": 37000
	},
	{
	"epoch": 160.17,
	"eval_loss": 0.7755089998245239,
	"eval_runtime": 3.5088,
	"eval_samples_per_second": 14.82,
	"eval_steps_per_second": 1.995,
	"step": 37000
	},
	{
	"epoch": 164.5,
	"learning_rate": 1.8374864572047673e-05,
	"loss": 1.5845,
	"step": 38000
	},
	{
	"epoch": 164.5,
	"eval_loss": 0.8413295745849609,
	"eval_runtime": 3.5072,
	"eval_samples_per_second": 14.827,
	"eval_steps_per_second": 1.996,
	"step": 38000
	},
	{
	"epoch": 168.83,
	"learning_rate": 1.8331527627302277e-05,
	"loss": 1.1751,
	"step": 39000
	},
	{
	"epoch": 168.83,
	"eval_loss": 1.2155665159225464,
	"eval_runtime": 3.5106,
	"eval_samples_per_second": 14.812,
	"eval_steps_per_second": 1.994,
	"step": 39000
	}
	],
	"max_steps": 462000,
	"num_train_epochs": 2000,
	"total_flos": 1.06376689483776e+17,
	"trial_name": null,
	"trial_params": null
	}