{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.1, "eval_steps": 500, "global_step": 2000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0, "grad_norm": 83.5, "learning_rate": 2.2000000000000002e-08, "loss": 7.8377, "step": 10 }, { "epoch": 0.0, "grad_norm": 82.0, "learning_rate": 4.4000000000000004e-08, "loss": 7.8316, "step": 20 }, { "epoch": 0.0, "grad_norm": 84.5, "learning_rate": 6.6e-08, "loss": 7.8539, "step": 30 }, { "epoch": 0.0, "grad_norm": 84.0, "learning_rate": 8.800000000000001e-08, "loss": 7.8355, "step": 40 }, { "epoch": 0.0, "grad_norm": 81.5, "learning_rate": 1.1e-07, "loss": 7.8181, "step": 50 }, { "epoch": 0.0, "grad_norm": 83.0, "learning_rate": 1.32e-07, "loss": 7.8506, "step": 60 }, { "epoch": 0.0, "grad_norm": 81.0, "learning_rate": 1.5400000000000003e-07, "loss": 7.8358, "step": 70 }, { "epoch": 0.0, "grad_norm": 82.5, "learning_rate": 1.7600000000000001e-07, "loss": 7.8175, "step": 80 }, { "epoch": 0.0, "grad_norm": 82.0, "learning_rate": 1.98e-07, "loss": 7.8249, "step": 90 }, { "epoch": 0.01, "grad_norm": 82.0, "learning_rate": 2.2e-07, "loss": 7.8159, "step": 100 }, { "epoch": 0.01, "grad_norm": 82.5, "learning_rate": 2.42e-07, "loss": 7.8062, "step": 110 }, { "epoch": 0.01, "grad_norm": 81.5, "learning_rate": 2.64e-07, "loss": 7.8364, "step": 120 }, { "epoch": 0.01, "grad_norm": 82.0, "learning_rate": 2.8600000000000005e-07, "loss": 7.7865, "step": 130 }, { "epoch": 0.01, "grad_norm": 82.0, "learning_rate": 3.0800000000000006e-07, "loss": 7.8126, "step": 140 }, { "epoch": 0.01, "grad_norm": 82.0, "learning_rate": 3.3e-07, "loss": 7.7728, "step": 150 }, { "epoch": 0.01, "grad_norm": 80.5, "learning_rate": 3.5200000000000003e-07, "loss": 7.7671, "step": 160 }, { "epoch": 0.01, "grad_norm": 81.5, "learning_rate": 3.7400000000000004e-07, "loss": 7.7892, "step": 170 }, { "epoch": 0.01, "grad_norm": 81.0, "learning_rate": 3.96e-07, "loss": 7.7527, "step": 180 }, { "epoch": 0.01, "grad_norm": 81.0, "learning_rate": 4.18e-07, "loss": 7.7056, "step": 190 }, { "epoch": 0.01, "grad_norm": 81.5, "learning_rate": 4.4e-07, "loss": 7.6997, "step": 200 }, { "epoch": 0.01, "grad_norm": 80.5, "learning_rate": 4.62e-07, "loss": 7.7058, "step": 210 }, { "epoch": 0.01, "grad_norm": 82.5, "learning_rate": 4.84e-07, "loss": 7.7096, "step": 220 }, { "epoch": 0.01, "grad_norm": 80.5, "learning_rate": 5.06e-07, "loss": 7.6711, "step": 230 }, { "epoch": 0.01, "grad_norm": 81.0, "learning_rate": 5.28e-07, "loss": 7.6393, "step": 240 }, { "epoch": 0.01, "grad_norm": 80.0, "learning_rate": 5.5e-07, "loss": 7.6306, "step": 250 }, { "epoch": 0.01, "grad_norm": 80.0, "learning_rate": 5.720000000000001e-07, "loss": 7.6173, "step": 260 }, { "epoch": 0.01, "grad_norm": 79.5, "learning_rate": 5.94e-07, "loss": 7.5625, "step": 270 }, { "epoch": 0.01, "grad_norm": 79.5, "learning_rate": 6.160000000000001e-07, "loss": 7.4816, "step": 280 }, { "epoch": 0.01, "grad_norm": 78.5, "learning_rate": 6.38e-07, "loss": 7.4518, "step": 290 }, { "epoch": 0.01, "grad_norm": 78.5, "learning_rate": 6.6e-07, "loss": 7.4093, "step": 300 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 6.82e-07, "loss": 7.3733, "step": 310 }, { "epoch": 0.02, "grad_norm": 78.0, "learning_rate": 7.040000000000001e-07, "loss": 7.322, "step": 320 }, { "epoch": 0.02, "grad_norm": 77.0, "learning_rate": 7.260000000000001e-07, "loss": 7.276, "step": 330 }, { "epoch": 0.02, "grad_norm": 78.5, "learning_rate": 7.480000000000001e-07, "loss": 7.2595, "step": 340 }, { "epoch": 0.02, "grad_norm": 77.0, "learning_rate": 7.7e-07, "loss": 7.1728, "step": 350 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 7.92e-07, "loss": 7.1616, "step": 360 }, { "epoch": 0.02, "grad_norm": 78.0, "learning_rate": 8.140000000000001e-07, "loss": 7.1472, "step": 370 }, { "epoch": 0.02, "grad_norm": 77.0, "learning_rate": 8.36e-07, "loss": 7.0884, "step": 380 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 8.580000000000001e-07, "loss": 7.0459, "step": 390 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 8.8e-07, "loss": 7.0098, "step": 400 }, { "epoch": 0.02, "grad_norm": 78.0, "learning_rate": 9.02e-07, "loss": 6.9943, "step": 410 }, { "epoch": 0.02, "grad_norm": 78.0, "learning_rate": 9.24e-07, "loss": 6.9331, "step": 420 }, { "epoch": 0.02, "grad_norm": 77.0, "learning_rate": 9.46e-07, "loss": 6.8576, "step": 430 }, { "epoch": 0.02, "grad_norm": 77.0, "learning_rate": 9.68e-07, "loss": 6.7943, "step": 440 }, { "epoch": 0.02, "grad_norm": 77.0, "learning_rate": 9.9e-07, "loss": 6.7133, "step": 450 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 1.012e-06, "loss": 6.6149, "step": 460 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 1.034e-06, "loss": 6.5204, "step": 470 }, { "epoch": 0.02, "grad_norm": 77.0, "learning_rate": 1.056e-06, "loss": 6.3806, "step": 480 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 1.078e-06, "loss": 6.2492, "step": 490 }, { "epoch": 0.03, "grad_norm": 78.0, "learning_rate": 1.1e-06, "loss": 6.0768, "step": 500 }, { "epoch": 0.03, "eval_loss": 6.031269550323486, "eval_runtime": 65.0659, "eval_samples_per_second": 15.369, "eval_steps_per_second": 15.369, "step": 500 }, { "epoch": 0.03, "grad_norm": 79.5, "learning_rate": 1.0926666666666667e-06, "loss": 5.9387, "step": 510 }, { "epoch": 0.03, "grad_norm": 79.5, "learning_rate": 1.0853333333333334e-06, "loss": 5.7853, "step": 520 }, { "epoch": 0.03, "grad_norm": 80.5, "learning_rate": 1.078e-06, "loss": 5.6257, "step": 530 }, { "epoch": 0.03, "grad_norm": 82.0, "learning_rate": 1.0706666666666668e-06, "loss": 5.4324, "step": 540 }, { "epoch": 0.03, "grad_norm": 82.5, "learning_rate": 1.0633333333333335e-06, "loss": 5.298, "step": 550 }, { "epoch": 0.03, "grad_norm": 83.5, "learning_rate": 1.056e-06, "loss": 5.091, "step": 560 }, { "epoch": 0.03, "grad_norm": 84.5, "learning_rate": 1.0486666666666668e-06, "loss": 4.9098, "step": 570 }, { "epoch": 0.03, "grad_norm": 85.0, "learning_rate": 1.0413333333333333e-06, "loss": 4.728, "step": 580 }, { "epoch": 0.03, "grad_norm": 86.5, "learning_rate": 1.034e-06, "loss": 4.5719, "step": 590 }, { "epoch": 0.03, "grad_norm": 85.5, "learning_rate": 1.0266666666666666e-06, "loss": 4.4393, "step": 600 }, { "epoch": 0.03, "grad_norm": 87.5, "learning_rate": 1.0193333333333333e-06, "loss": 4.2395, "step": 610 }, { "epoch": 0.03, "grad_norm": 86.5, "learning_rate": 1.012e-06, "loss": 4.08, "step": 620 }, { "epoch": 0.03, "grad_norm": 87.0, "learning_rate": 1.0046666666666667e-06, "loss": 3.9541, "step": 630 }, { "epoch": 0.03, "grad_norm": 87.5, "learning_rate": 9.973333333333334e-07, "loss": 3.7964, "step": 640 }, { "epoch": 0.03, "grad_norm": 87.5, "learning_rate": 9.9e-07, "loss": 3.6848, "step": 650 }, { "epoch": 0.03, "grad_norm": 87.0, "learning_rate": 9.826666666666667e-07, "loss": 3.522, "step": 660 }, { "epoch": 0.03, "grad_norm": 86.5, "learning_rate": 9.753333333333334e-07, "loss": 3.4177, "step": 670 }, { "epoch": 0.03, "grad_norm": 85.5, "learning_rate": 9.68e-07, "loss": 3.3256, "step": 680 }, { "epoch": 0.03, "grad_norm": 85.0, "learning_rate": 9.606666666666668e-07, "loss": 3.2074, "step": 690 }, { "epoch": 0.04, "grad_norm": 84.5, "learning_rate": 9.533333333333335e-07, "loss": 3.077, "step": 700 }, { "epoch": 0.04, "grad_norm": 84.0, "learning_rate": 9.46e-07, "loss": 3.0159, "step": 710 }, { "epoch": 0.04, "grad_norm": 83.5, "learning_rate": 9.386666666666668e-07, "loss": 2.8732, "step": 720 }, { "epoch": 0.04, "grad_norm": 83.5, "learning_rate": 9.313333333333334e-07, "loss": 2.8273, "step": 730 }, { "epoch": 0.04, "grad_norm": 81.5, "learning_rate": 9.24e-07, "loss": 2.6836, "step": 740 }, { "epoch": 0.04, "grad_norm": 81.0, "learning_rate": 9.166666666666667e-07, "loss": 2.623, "step": 750 }, { "epoch": 0.04, "grad_norm": 80.0, "learning_rate": 9.093333333333333e-07, "loss": 2.5291, "step": 760 }, { "epoch": 0.04, "grad_norm": 80.0, "learning_rate": 9.02e-07, "loss": 2.4323, "step": 770 }, { "epoch": 0.04, "grad_norm": 78.5, "learning_rate": 8.946666666666667e-07, "loss": 2.347, "step": 780 }, { "epoch": 0.04, "grad_norm": 78.0, "learning_rate": 8.873333333333334e-07, "loss": 2.3225, "step": 790 }, { "epoch": 0.04, "grad_norm": 77.5, "learning_rate": 8.8e-07, "loss": 2.2284, "step": 800 }, { "epoch": 0.04, "grad_norm": 77.0, "learning_rate": 8.726666666666667e-07, "loss": 2.1348, "step": 810 }, { "epoch": 0.04, "grad_norm": 76.0, "learning_rate": 8.653333333333333e-07, "loss": 2.0742, "step": 820 }, { "epoch": 0.04, "grad_norm": 75.5, "learning_rate": 8.580000000000001e-07, "loss": 2.014, "step": 830 }, { "epoch": 0.04, "grad_norm": 76.0, "learning_rate": 8.506666666666667e-07, "loss": 1.9751, "step": 840 }, { "epoch": 0.04, "grad_norm": 75.0, "learning_rate": 8.433333333333334e-07, "loss": 1.8888, "step": 850 }, { "epoch": 0.04, "grad_norm": 74.0, "learning_rate": 8.36e-07, "loss": 1.8768, "step": 860 }, { "epoch": 0.04, "grad_norm": 73.0, "learning_rate": 8.286666666666667e-07, "loss": 1.807, "step": 870 }, { "epoch": 0.04, "grad_norm": 71.5, "learning_rate": 8.213333333333334e-07, "loss": 1.7518, "step": 880 }, { "epoch": 0.04, "grad_norm": 71.0, "learning_rate": 8.140000000000001e-07, "loss": 1.7072, "step": 890 }, { "epoch": 0.04, "grad_norm": 72.0, "learning_rate": 8.066666666666666e-07, "loss": 1.6759, "step": 900 }, { "epoch": 0.05, "grad_norm": 70.0, "learning_rate": 7.993333333333334e-07, "loss": 1.6377, "step": 910 }, { "epoch": 0.05, "grad_norm": 72.0, "learning_rate": 7.92e-07, "loss": 1.5894, "step": 920 }, { "epoch": 0.05, "grad_norm": 68.5, "learning_rate": 7.846666666666668e-07, "loss": 1.5379, "step": 930 }, { "epoch": 0.05, "grad_norm": 68.0, "learning_rate": 7.773333333333334e-07, "loss": 1.5146, "step": 940 }, { "epoch": 0.05, "grad_norm": 66.5, "learning_rate": 7.7e-07, "loss": 1.4519, "step": 950 }, { "epoch": 0.05, "grad_norm": 66.5, "learning_rate": 7.626666666666667e-07, "loss": 1.441, "step": 960 }, { "epoch": 0.05, "grad_norm": 67.0, "learning_rate": 7.553333333333334e-07, "loss": 1.4175, "step": 970 }, { "epoch": 0.05, "grad_norm": 63.5, "learning_rate": 7.480000000000001e-07, "loss": 1.3603, "step": 980 }, { "epoch": 0.05, "grad_norm": 66.0, "learning_rate": 7.406666666666668e-07, "loss": 1.3479, "step": 990 }, { "epoch": 0.05, "grad_norm": 65.5, "learning_rate": 7.333333333333333e-07, "loss": 1.2865, "step": 1000 }, { "epoch": 0.05, "eval_loss": 1.3002561330795288, "eval_runtime": 64.955, "eval_samples_per_second": 15.395, "eval_steps_per_second": 15.395, "step": 1000 }, { "epoch": 0.05, "grad_norm": 65.0, "learning_rate": 7.260000000000001e-07, "loss": 1.2767, "step": 1010 }, { "epoch": 0.05, "grad_norm": 63.25, "learning_rate": 7.186666666666667e-07, "loss": 1.2266, "step": 1020 }, { "epoch": 0.05, "grad_norm": 63.75, "learning_rate": 7.113333333333333e-07, "loss": 1.2458, "step": 1030 }, { "epoch": 0.05, "grad_norm": 63.0, "learning_rate": 7.040000000000001e-07, "loss": 1.1768, "step": 1040 }, { "epoch": 0.05, "grad_norm": 62.75, "learning_rate": 6.966666666666666e-07, "loss": 1.1844, "step": 1050 }, { "epoch": 0.05, "grad_norm": 62.25, "learning_rate": 6.893333333333334e-07, "loss": 1.186, "step": 1060 }, { "epoch": 0.05, "grad_norm": 62.75, "learning_rate": 6.82e-07, "loss": 1.1551, "step": 1070 }, { "epoch": 0.05, "grad_norm": 60.25, "learning_rate": 6.746666666666667e-07, "loss": 1.1218, "step": 1080 }, { "epoch": 0.05, "grad_norm": 61.25, "learning_rate": 6.673333333333334e-07, "loss": 1.0962, "step": 1090 }, { "epoch": 0.06, "grad_norm": 60.5, "learning_rate": 6.6e-07, "loss": 1.1204, "step": 1100 }, { "epoch": 0.06, "grad_norm": 58.25, "learning_rate": 6.526666666666667e-07, "loss": 1.0833, "step": 1110 }, { "epoch": 0.06, "grad_norm": 57.25, "learning_rate": 6.453333333333334e-07, "loss": 1.0743, "step": 1120 }, { "epoch": 0.06, "grad_norm": 60.25, "learning_rate": 6.38e-07, "loss": 1.0764, "step": 1130 }, { "epoch": 0.06, "grad_norm": 56.0, "learning_rate": 6.306666666666668e-07, "loss": 1.0315, "step": 1140 }, { "epoch": 0.06, "grad_norm": 59.25, "learning_rate": 6.233333333333333e-07, "loss": 1.0791, "step": 1150 }, { "epoch": 0.06, "grad_norm": 60.0, "learning_rate": 6.160000000000001e-07, "loss": 1.0443, "step": 1160 }, { "epoch": 0.06, "grad_norm": 60.75, "learning_rate": 6.086666666666667e-07, "loss": 1.0472, "step": 1170 }, { "epoch": 0.06, "grad_norm": 59.75, "learning_rate": 6.013333333333334e-07, "loss": 1.0422, "step": 1180 }, { "epoch": 0.06, "grad_norm": 58.5, "learning_rate": 5.94e-07, "loss": 1.051, "step": 1190 }, { "epoch": 0.06, "grad_norm": 57.25, "learning_rate": 5.866666666666667e-07, "loss": 1.0104, "step": 1200 }, { "epoch": 0.06, "grad_norm": 58.5, "learning_rate": 5.793333333333333e-07, "loss": 1.0429, "step": 1210 }, { "epoch": 0.06, "grad_norm": 60.25, "learning_rate": 5.720000000000001e-07, "loss": 1.0135, "step": 1220 }, { "epoch": 0.06, "grad_norm": 58.0, "learning_rate": 5.646666666666667e-07, "loss": 1.0441, "step": 1230 }, { "epoch": 0.06, "grad_norm": 57.25, "learning_rate": 5.573333333333335e-07, "loss": 1.0202, "step": 1240 }, { "epoch": 0.06, "grad_norm": 54.5, "learning_rate": 5.5e-07, "loss": 0.9915, "step": 1250 }, { "epoch": 0.06, "grad_norm": 56.75, "learning_rate": 5.426666666666667e-07, "loss": 1.0085, "step": 1260 }, { "epoch": 0.06, "grad_norm": 58.75, "learning_rate": 5.353333333333334e-07, "loss": 1.0114, "step": 1270 }, { "epoch": 0.06, "grad_norm": 56.0, "learning_rate": 5.28e-07, "loss": 1.0092, "step": 1280 }, { "epoch": 0.06, "grad_norm": 54.25, "learning_rate": 5.206666666666666e-07, "loss": 0.9634, "step": 1290 }, { "epoch": 0.07, "grad_norm": 54.0, "learning_rate": 5.133333333333333e-07, "loss": 0.9588, "step": 1300 }, { "epoch": 0.07, "grad_norm": 56.5, "learning_rate": 5.06e-07, "loss": 0.9885, "step": 1310 }, { "epoch": 0.07, "grad_norm": 55.75, "learning_rate": 4.986666666666667e-07, "loss": 1.024, "step": 1320 }, { "epoch": 0.07, "grad_norm": 54.5, "learning_rate": 4.913333333333334e-07, "loss": 0.9812, "step": 1330 }, { "epoch": 0.07, "grad_norm": 55.5, "learning_rate": 4.84e-07, "loss": 0.9859, "step": 1340 }, { "epoch": 0.07, "grad_norm": 57.5, "learning_rate": 4.766666666666667e-07, "loss": 0.9629, "step": 1350 }, { "epoch": 0.07, "grad_norm": 54.25, "learning_rate": 4.693333333333334e-07, "loss": 0.9386, "step": 1360 }, { "epoch": 0.07, "grad_norm": 54.75, "learning_rate": 4.62e-07, "loss": 1.0033, "step": 1370 }, { "epoch": 0.07, "grad_norm": 56.5, "learning_rate": 4.5466666666666666e-07, "loss": 0.9642, "step": 1380 }, { "epoch": 0.07, "grad_norm": 53.5, "learning_rate": 4.4733333333333334e-07, "loss": 0.9745, "step": 1390 }, { "epoch": 0.07, "grad_norm": 54.75, "learning_rate": 4.4e-07, "loss": 0.9625, "step": 1400 }, { "epoch": 0.07, "grad_norm": 56.25, "learning_rate": 4.3266666666666665e-07, "loss": 0.9617, "step": 1410 }, { "epoch": 0.07, "grad_norm": 56.5, "learning_rate": 4.2533333333333333e-07, "loss": 0.9724, "step": 1420 }, { "epoch": 0.07, "grad_norm": 54.5, "learning_rate": 4.18e-07, "loss": 0.9962, "step": 1430 }, { "epoch": 0.07, "grad_norm": 53.0, "learning_rate": 4.106666666666667e-07, "loss": 0.9469, "step": 1440 }, { "epoch": 0.07, "grad_norm": 54.75, "learning_rate": 4.033333333333333e-07, "loss": 0.9777, "step": 1450 }, { "epoch": 0.07, "grad_norm": 57.0, "learning_rate": 3.96e-07, "loss": 0.9498, "step": 1460 }, { "epoch": 0.07, "grad_norm": 57.0, "learning_rate": 3.886666666666667e-07, "loss": 0.9229, "step": 1470 }, { "epoch": 0.07, "grad_norm": 57.5, "learning_rate": 3.8133333333333336e-07, "loss": 0.9686, "step": 1480 }, { "epoch": 0.07, "grad_norm": 59.0, "learning_rate": 3.7400000000000004e-07, "loss": 0.9718, "step": 1490 }, { "epoch": 0.07, "grad_norm": 55.0, "learning_rate": 3.6666666666666667e-07, "loss": 0.9614, "step": 1500 }, { "epoch": 0.07, "eval_loss": 0.9728732705116272, "eval_runtime": 65.1341, "eval_samples_per_second": 15.353, "eval_steps_per_second": 15.353, "step": 1500 }, { "epoch": 0.08, "grad_norm": 56.25, "learning_rate": 3.5933333333333335e-07, "loss": 0.9445, "step": 1510 }, { "epoch": 0.08, "grad_norm": 57.0, "learning_rate": 3.5200000000000003e-07, "loss": 0.9411, "step": 1520 }, { "epoch": 0.08, "grad_norm": 55.25, "learning_rate": 3.446666666666667e-07, "loss": 0.9502, "step": 1530 }, { "epoch": 0.08, "grad_norm": 55.5, "learning_rate": 3.3733333333333334e-07, "loss": 0.9696, "step": 1540 }, { "epoch": 0.08, "grad_norm": 53.25, "learning_rate": 3.3e-07, "loss": 0.9587, "step": 1550 }, { "epoch": 0.08, "grad_norm": 55.5, "learning_rate": 3.226666666666667e-07, "loss": 1.0107, "step": 1560 }, { "epoch": 0.08, "grad_norm": 56.75, "learning_rate": 3.153333333333334e-07, "loss": 0.9738, "step": 1570 }, { "epoch": 0.08, "grad_norm": 54.0, "learning_rate": 3.0800000000000006e-07, "loss": 0.9859, "step": 1580 }, { "epoch": 0.08, "grad_norm": 57.25, "learning_rate": 3.006666666666667e-07, "loss": 0.9419, "step": 1590 }, { "epoch": 0.08, "grad_norm": 54.75, "learning_rate": 2.9333333333333337e-07, "loss": 0.9493, "step": 1600 }, { "epoch": 0.08, "grad_norm": 54.75, "learning_rate": 2.8600000000000005e-07, "loss": 0.9896, "step": 1610 }, { "epoch": 0.08, "grad_norm": 56.0, "learning_rate": 2.7866666666666673e-07, "loss": 0.9342, "step": 1620 }, { "epoch": 0.08, "grad_norm": 56.5, "learning_rate": 2.7133333333333335e-07, "loss": 0.9641, "step": 1630 }, { "epoch": 0.08, "grad_norm": 56.25, "learning_rate": 2.64e-07, "loss": 0.9459, "step": 1640 }, { "epoch": 0.08, "grad_norm": 55.5, "learning_rate": 2.5666666666666666e-07, "loss": 0.9835, "step": 1650 }, { "epoch": 0.08, "grad_norm": 54.0, "learning_rate": 2.4933333333333334e-07, "loss": 0.9505, "step": 1660 }, { "epoch": 0.08, "grad_norm": 57.5, "learning_rate": 2.42e-07, "loss": 0.9574, "step": 1670 }, { "epoch": 0.08, "grad_norm": 52.5, "learning_rate": 2.346666666666667e-07, "loss": 0.9476, "step": 1680 }, { "epoch": 0.08, "grad_norm": 56.0, "learning_rate": 2.2733333333333333e-07, "loss": 0.9757, "step": 1690 }, { "epoch": 0.09, "grad_norm": 57.75, "learning_rate": 2.2e-07, "loss": 1.0152, "step": 1700 }, { "epoch": 0.09, "grad_norm": 55.5, "learning_rate": 2.1266666666666667e-07, "loss": 0.9584, "step": 1710 }, { "epoch": 0.09, "grad_norm": 56.25, "learning_rate": 2.0533333333333335e-07, "loss": 0.9793, "step": 1720 }, { "epoch": 0.09, "grad_norm": 57.0, "learning_rate": 1.98e-07, "loss": 0.9512, "step": 1730 }, { "epoch": 0.09, "grad_norm": 54.75, "learning_rate": 1.9066666666666668e-07, "loss": 0.9505, "step": 1740 }, { "epoch": 0.09, "grad_norm": 56.5, "learning_rate": 1.8333333333333333e-07, "loss": 0.9632, "step": 1750 }, { "epoch": 0.09, "grad_norm": 53.5, "learning_rate": 1.7600000000000001e-07, "loss": 0.9366, "step": 1760 }, { "epoch": 0.09, "grad_norm": 57.5, "learning_rate": 1.6866666666666667e-07, "loss": 0.9409, "step": 1770 }, { "epoch": 0.09, "grad_norm": 59.5, "learning_rate": 1.6133333333333335e-07, "loss": 1.0027, "step": 1780 }, { "epoch": 0.09, "grad_norm": 56.25, "learning_rate": 1.5400000000000003e-07, "loss": 0.9519, "step": 1790 }, { "epoch": 0.09, "grad_norm": 57.25, "learning_rate": 1.4666666666666668e-07, "loss": 0.9499, "step": 1800 }, { "epoch": 0.09, "grad_norm": 55.5, "learning_rate": 1.3933333333333336e-07, "loss": 0.9739, "step": 1810 }, { "epoch": 0.09, "grad_norm": 56.0, "learning_rate": 1.32e-07, "loss": 0.9899, "step": 1820 }, { "epoch": 0.09, "grad_norm": 61.25, "learning_rate": 1.2466666666666667e-07, "loss": 0.9731, "step": 1830 }, { "epoch": 0.09, "grad_norm": 56.0, "learning_rate": 1.1733333333333335e-07, "loss": 0.9449, "step": 1840 }, { "epoch": 0.09, "grad_norm": 57.25, "learning_rate": 1.1e-07, "loss": 1.0051, "step": 1850 }, { "epoch": 0.09, "grad_norm": 54.75, "learning_rate": 1.0266666666666667e-07, "loss": 0.9907, "step": 1860 }, { "epoch": 0.09, "grad_norm": 56.0, "learning_rate": 9.533333333333334e-08, "loss": 0.9608, "step": 1870 }, { "epoch": 0.09, "grad_norm": 57.5, "learning_rate": 8.800000000000001e-08, "loss": 0.9558, "step": 1880 }, { "epoch": 0.09, "grad_norm": 59.0, "learning_rate": 8.066666666666667e-08, "loss": 0.9928, "step": 1890 }, { "epoch": 0.1, "grad_norm": 57.25, "learning_rate": 7.333333333333334e-08, "loss": 0.9629, "step": 1900 }, { "epoch": 0.1, "grad_norm": 56.75, "learning_rate": 6.6e-08, "loss": 0.9358, "step": 1910 }, { "epoch": 0.1, "grad_norm": 57.25, "learning_rate": 5.8666666666666676e-08, "loss": 0.9602, "step": 1920 }, { "epoch": 0.1, "grad_norm": 59.25, "learning_rate": 5.1333333333333336e-08, "loss": 0.9639, "step": 1930 }, { "epoch": 0.1, "grad_norm": 58.5, "learning_rate": 4.4000000000000004e-08, "loss": 0.9643, "step": 1940 }, { "epoch": 0.1, "grad_norm": 59.25, "learning_rate": 3.666666666666667e-08, "loss": 0.9413, "step": 1950 }, { "epoch": 0.1, "grad_norm": 55.25, "learning_rate": 2.9333333333333338e-08, "loss": 0.9927, "step": 1960 }, { "epoch": 0.1, "grad_norm": 56.75, "learning_rate": 2.2000000000000002e-08, "loss": 0.987, "step": 1970 }, { "epoch": 0.1, "grad_norm": 53.75, "learning_rate": 1.4666666666666669e-08, "loss": 0.9517, "step": 1980 }, { "epoch": 0.1, "grad_norm": 56.25, "learning_rate": 7.3333333333333345e-09, "loss": 0.9575, "step": 1990 }, { "epoch": 0.1, "grad_norm": 55.75, "learning_rate": 0.0, "loss": 0.9746, "step": 2000 }, { "epoch": 0.1, "eval_loss": 0.9655321836471558, "eval_runtime": 64.9317, "eval_samples_per_second": 15.401, "eval_steps_per_second": 15.401, "step": 2000 } ], "logging_steps": 10, "max_steps": 2000, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 500, "total_flos": 3.227844083712e+16, "train_batch_size": 1, "trial_name": null, "trial_params": null }