{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.1, "eval_steps": 500, "global_step": 2000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0, "grad_norm": 83.0, "learning_rate": 2e-08, "loss": 7.8413, "step": 10 }, { "epoch": 0.0, "grad_norm": 82.0, "learning_rate": 4e-08, "loss": 7.8305, "step": 20 }, { "epoch": 0.0, "grad_norm": 84.0, "learning_rate": 6e-08, "loss": 7.8515, "step": 30 }, { "epoch": 0.0, "grad_norm": 83.5, "learning_rate": 8e-08, "loss": 7.8284, "step": 40 }, { "epoch": 0.0, "grad_norm": 82.0, "learning_rate": 1e-07, "loss": 7.8162, "step": 50 }, { "epoch": 0.0, "grad_norm": 83.5, "learning_rate": 1.2e-07, "loss": 7.8523, "step": 60 }, { "epoch": 0.0, "grad_norm": 81.0, "learning_rate": 1.4e-07, "loss": 7.8326, "step": 70 }, { "epoch": 0.0, "grad_norm": 83.0, "learning_rate": 1.6e-07, "loss": 7.8242, "step": 80 }, { "epoch": 0.0, "grad_norm": 81.5, "learning_rate": 1.8e-07, "loss": 7.8319, "step": 90 }, { "epoch": 0.01, "grad_norm": 81.5, "learning_rate": 2e-07, "loss": 7.8175, "step": 100 }, { "epoch": 0.01, "grad_norm": 83.0, "learning_rate": 2.1999999999999998e-07, "loss": 7.8136, "step": 110 }, { "epoch": 0.01, "grad_norm": 81.5, "learning_rate": 2.4e-07, "loss": 7.846, "step": 120 }, { "epoch": 0.01, "grad_norm": 82.5, "learning_rate": 2.6e-07, "loss": 7.8039, "step": 130 }, { "epoch": 0.01, "grad_norm": 82.5, "learning_rate": 2.8e-07, "loss": 7.8113, "step": 140 }, { "epoch": 0.01, "grad_norm": 82.5, "learning_rate": 3e-07, "loss": 7.7837, "step": 150 }, { "epoch": 0.01, "grad_norm": 80.5, "learning_rate": 3.2e-07, "loss": 7.7796, "step": 160 }, { "epoch": 0.01, "grad_norm": 82.0, "learning_rate": 3.4000000000000003e-07, "loss": 7.8044, "step": 170 }, { "epoch": 0.01, "grad_norm": 81.5, "learning_rate": 3.6e-07, "loss": 7.7643, "step": 180 }, { "epoch": 0.01, "grad_norm": 82.0, "learning_rate": 3.7999999999999996e-07, "loss": 7.7304, "step": 190 }, { "epoch": 0.01, "grad_norm": 82.0, "learning_rate": 4e-07, "loss": 7.7071, "step": 200 }, { "epoch": 0.01, "grad_norm": 80.5, "learning_rate": 4.1999999999999995e-07, "loss": 7.7164, "step": 210 }, { "epoch": 0.01, "grad_norm": 82.5, "learning_rate": 4.3999999999999997e-07, "loss": 7.7243, "step": 220 }, { "epoch": 0.01, "grad_norm": 80.5, "learning_rate": 4.6e-07, "loss": 7.6916, "step": 230 }, { "epoch": 0.01, "grad_norm": 81.0, "learning_rate": 4.8e-07, "loss": 7.6749, "step": 240 }, { "epoch": 0.01, "grad_norm": 80.5, "learning_rate": 5e-07, "loss": 7.6817, "step": 250 }, { "epoch": 0.01, "grad_norm": 81.0, "learning_rate": 5.2e-07, "loss": 7.6871, "step": 260 }, { "epoch": 0.01, "grad_norm": 80.5, "learning_rate": 5.4e-07, "loss": 7.6558, "step": 270 }, { "epoch": 0.01, "grad_norm": 80.5, "learning_rate": 5.6e-07, "loss": 7.5715, "step": 280 }, { "epoch": 0.01, "grad_norm": 79.0, "learning_rate": 5.8e-07, "loss": 7.5422, "step": 290 }, { "epoch": 0.01, "grad_norm": 80.0, "learning_rate": 6e-07, "loss": 7.4936, "step": 300 }, { "epoch": 0.02, "grad_norm": 78.5, "learning_rate": 6.2e-07, "loss": 7.4695, "step": 310 }, { "epoch": 0.02, "grad_norm": 79.0, "learning_rate": 6.4e-07, "loss": 7.4154, "step": 320 }, { "epoch": 0.02, "grad_norm": 78.0, "learning_rate": 6.6e-07, "loss": 7.3668, "step": 330 }, { "epoch": 0.02, "grad_norm": 79.0, "learning_rate": 6.800000000000001e-07, "loss": 7.3532, "step": 340 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 7e-07, "loss": 7.2727, "step": 350 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 7.2e-07, "loss": 7.2473, "step": 360 }, { "epoch": 0.02, "grad_norm": 78.0, "learning_rate": 7.4e-07, "loss": 7.236, "step": 370 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 7.599999999999999e-07, "loss": 7.1711, "step": 380 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 7.799999999999999e-07, "loss": 7.1217, "step": 390 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 8e-07, "loss": 7.1038, "step": 400 }, { "epoch": 0.02, "grad_norm": 78.0, "learning_rate": 8.199999999999999e-07, "loss": 7.0849, "step": 410 }, { "epoch": 0.02, "grad_norm": 78.0, "learning_rate": 8.399999999999999e-07, "loss": 7.0331, "step": 420 }, { "epoch": 0.02, "grad_norm": 77.0, "learning_rate": 8.599999999999999e-07, "loss": 6.9839, "step": 430 }, { "epoch": 0.02, "grad_norm": 77.0, "learning_rate": 8.799999999999999e-07, "loss": 6.962, "step": 440 }, { "epoch": 0.02, "grad_norm": 77.0, "learning_rate": 9e-07, "loss": 6.9108, "step": 450 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 9.2e-07, "loss": 6.8641, "step": 460 }, { "epoch": 0.02, "grad_norm": 77.5, "learning_rate": 9.399999999999999e-07, "loss": 6.7994, "step": 470 }, { "epoch": 0.02, "grad_norm": 77.0, "learning_rate": 9.6e-07, "loss": 6.7141, "step": 480 }, { "epoch": 0.02, "grad_norm": 77.0, "learning_rate": 9.8e-07, "loss": 6.6188, "step": 490 }, { "epoch": 0.03, "grad_norm": 77.5, "learning_rate": 1e-06, "loss": 6.4929, "step": 500 }, { "epoch": 0.03, "eval_loss": 6.463568210601807, "eval_runtime": 65.3176, "eval_samples_per_second": 15.31, "eval_steps_per_second": 15.31, "step": 500 }, { "epoch": 0.03, "grad_norm": 77.5, "learning_rate": 9.933333333333333e-07, "loss": 6.4003, "step": 510 }, { "epoch": 0.03, "grad_norm": 77.5, "learning_rate": 9.866666666666666e-07, "loss": 6.2969, "step": 520 }, { "epoch": 0.03, "grad_norm": 78.5, "learning_rate": 9.8e-07, "loss": 6.19, "step": 530 }, { "epoch": 0.03, "grad_norm": 78.0, "learning_rate": 9.733333333333333e-07, "loss": 6.0401, "step": 540 }, { "epoch": 0.03, "grad_norm": 79.0, "learning_rate": 9.666666666666666e-07, "loss": 5.9727, "step": 550 }, { "epoch": 0.03, "grad_norm": 80.0, "learning_rate": 9.6e-07, "loss": 5.821, "step": 560 }, { "epoch": 0.03, "grad_norm": 80.5, "learning_rate": 9.533333333333333e-07, "loss": 5.6864, "step": 570 }, { "epoch": 0.03, "grad_norm": 80.5, "learning_rate": 9.466666666666666e-07, "loss": 5.5677, "step": 580 }, { "epoch": 0.03, "grad_norm": 81.5, "learning_rate": 9.399999999999999e-07, "loss": 5.4587, "step": 590 }, { "epoch": 0.03, "grad_norm": 82.0, "learning_rate": 9.333333333333333e-07, "loss": 5.3674, "step": 600 }, { "epoch": 0.03, "grad_norm": 83.5, "learning_rate": 9.266666666666665e-07, "loss": 5.2343, "step": 610 }, { "epoch": 0.03, "grad_norm": 83.5, "learning_rate": 9.2e-07, "loss": 5.1118, "step": 620 }, { "epoch": 0.03, "grad_norm": 83.5, "learning_rate": 9.133333333333333e-07, "loss": 5.0416, "step": 630 }, { "epoch": 0.03, "grad_norm": 85.5, "learning_rate": 9.066666666666665e-07, "loss": 4.9311, "step": 640 }, { "epoch": 0.03, "grad_norm": 86.0, "learning_rate": 9e-07, "loss": 4.8409, "step": 650 }, { "epoch": 0.03, "grad_norm": 86.5, "learning_rate": 8.933333333333333e-07, "loss": 4.7077, "step": 660 }, { "epoch": 0.03, "grad_norm": 87.5, "learning_rate": 8.866666666666667e-07, "loss": 4.6436, "step": 670 }, { "epoch": 0.03, "grad_norm": 86.0, "learning_rate": 8.799999999999999e-07, "loss": 4.5543, "step": 680 }, { "epoch": 0.03, "grad_norm": 87.0, "learning_rate": 8.733333333333333e-07, "loss": 4.473, "step": 690 }, { "epoch": 0.04, "grad_norm": 87.0, "learning_rate": 8.666666666666667e-07, "loss": 4.373, "step": 700 }, { "epoch": 0.04, "grad_norm": 88.5, "learning_rate": 8.599999999999999e-07, "loss": 4.3226, "step": 710 }, { "epoch": 0.04, "grad_norm": 87.5, "learning_rate": 8.533333333333334e-07, "loss": 4.2063, "step": 720 }, { "epoch": 0.04, "grad_norm": 87.5, "learning_rate": 8.466666666666667e-07, "loss": 4.1628, "step": 730 }, { "epoch": 0.04, "grad_norm": 86.5, "learning_rate": 8.399999999999999e-07, "loss": 4.0588, "step": 740 }, { "epoch": 0.04, "grad_norm": 88.0, "learning_rate": 8.333333333333333e-07, "loss": 4.0117, "step": 750 }, { "epoch": 0.04, "grad_norm": 88.0, "learning_rate": 8.266666666666667e-07, "loss": 3.9443, "step": 760 }, { "epoch": 0.04, "grad_norm": 88.5, "learning_rate": 8.199999999999999e-07, "loss": 3.8509, "step": 770 }, { "epoch": 0.04, "grad_norm": 88.0, "learning_rate": 8.133333333333333e-07, "loss": 3.7851, "step": 780 }, { "epoch": 0.04, "grad_norm": 87.5, "learning_rate": 8.066666666666666e-07, "loss": 3.7559, "step": 790 }, { "epoch": 0.04, "grad_norm": 87.0, "learning_rate": 8e-07, "loss": 3.6867, "step": 800 }, { "epoch": 0.04, "grad_norm": 88.0, "learning_rate": 7.933333333333333e-07, "loss": 3.6217, "step": 810 }, { "epoch": 0.04, "grad_norm": 86.5, "learning_rate": 7.866666666666666e-07, "loss": 3.5678, "step": 820 }, { "epoch": 0.04, "grad_norm": 86.5, "learning_rate": 7.799999999999999e-07, "loss": 3.5387, "step": 830 }, { "epoch": 0.04, "grad_norm": 86.5, "learning_rate": 7.733333333333333e-07, "loss": 3.4999, "step": 840 }, { "epoch": 0.04, "grad_norm": 87.0, "learning_rate": 7.666666666666667e-07, "loss": 3.4263, "step": 850 }, { "epoch": 0.04, "grad_norm": 87.0, "learning_rate": 7.599999999999999e-07, "loss": 3.4185, "step": 860 }, { "epoch": 0.04, "grad_norm": 86.0, "learning_rate": 7.533333333333332e-07, "loss": 3.3753, "step": 870 }, { "epoch": 0.04, "grad_norm": 86.0, "learning_rate": 7.466666666666667e-07, "loss": 3.318, "step": 880 }, { "epoch": 0.04, "grad_norm": 85.5, "learning_rate": 7.4e-07, "loss": 3.2846, "step": 890 }, { "epoch": 0.04, "grad_norm": 86.5, "learning_rate": 7.333333333333332e-07, "loss": 3.2757, "step": 900 }, { "epoch": 0.05, "grad_norm": 85.0, "learning_rate": 7.266666666666667e-07, "loss": 3.2204, "step": 910 }, { "epoch": 0.05, "grad_norm": 87.0, "learning_rate": 7.2e-07, "loss": 3.1933, "step": 920 }, { "epoch": 0.05, "grad_norm": 85.0, "learning_rate": 7.133333333333333e-07, "loss": 3.1404, "step": 930 }, { "epoch": 0.05, "grad_norm": 84.5, "learning_rate": 7.066666666666666e-07, "loss": 3.1084, "step": 940 }, { "epoch": 0.05, "grad_norm": 83.5, "learning_rate": 7e-07, "loss": 3.0518, "step": 950 }, { "epoch": 0.05, "grad_norm": 84.5, "learning_rate": 6.933333333333333e-07, "loss": 3.0331, "step": 960 }, { "epoch": 0.05, "grad_norm": 84.0, "learning_rate": 6.866666666666666e-07, "loss": 3.0252, "step": 970 }, { "epoch": 0.05, "grad_norm": 83.0, "learning_rate": 6.800000000000001e-07, "loss": 2.9718, "step": 980 }, { "epoch": 0.05, "grad_norm": 84.0, "learning_rate": 6.733333333333333e-07, "loss": 2.9666, "step": 990 }, { "epoch": 0.05, "grad_norm": 82.0, "learning_rate": 6.666666666666666e-07, "loss": 2.9071, "step": 1000 }, { "epoch": 0.05, "eval_loss": 2.927218437194824, "eval_runtime": 65.2971, "eval_samples_per_second": 15.315, "eval_steps_per_second": 15.315, "step": 1000 }, { "epoch": 0.05, "grad_norm": 83.5, "learning_rate": 6.6e-07, "loss": 2.9056, "step": 1010 }, { "epoch": 0.05, "grad_norm": 83.0, "learning_rate": 6.533333333333333e-07, "loss": 2.8741, "step": 1020 }, { "epoch": 0.05, "grad_norm": 83.5, "learning_rate": 6.466666666666666e-07, "loss": 2.8856, "step": 1030 }, { "epoch": 0.05, "grad_norm": 83.5, "learning_rate": 6.4e-07, "loss": 2.8256, "step": 1040 }, { "epoch": 0.05, "grad_norm": 82.5, "learning_rate": 6.333333333333332e-07, "loss": 2.8308, "step": 1050 }, { "epoch": 0.05, "grad_norm": 84.0, "learning_rate": 6.266666666666667e-07, "loss": 2.8299, "step": 1060 }, { "epoch": 0.05, "grad_norm": 83.0, "learning_rate": 6.2e-07, "loss": 2.7982, "step": 1070 }, { "epoch": 0.05, "grad_norm": 82.5, "learning_rate": 6.133333333333332e-07, "loss": 2.7887, "step": 1080 }, { "epoch": 0.05, "grad_norm": 83.0, "learning_rate": 6.066666666666666e-07, "loss": 2.7436, "step": 1090 }, { "epoch": 0.06, "grad_norm": 83.0, "learning_rate": 6e-07, "loss": 2.7838, "step": 1100 }, { "epoch": 0.06, "grad_norm": 82.0, "learning_rate": 5.933333333333334e-07, "loss": 2.7444, "step": 1110 }, { "epoch": 0.06, "grad_norm": 83.0, "learning_rate": 5.866666666666666e-07, "loss": 2.7411, "step": 1120 }, { "epoch": 0.06, "grad_norm": 82.5, "learning_rate": 5.8e-07, "loss": 2.7418, "step": 1130 }, { "epoch": 0.06, "grad_norm": 81.5, "learning_rate": 5.733333333333334e-07, "loss": 2.7021, "step": 1140 }, { "epoch": 0.06, "grad_norm": 82.0, "learning_rate": 5.666666666666666e-07, "loss": 2.7303, "step": 1150 }, { "epoch": 0.06, "grad_norm": 83.0, "learning_rate": 5.6e-07, "loss": 2.7109, "step": 1160 }, { "epoch": 0.06, "grad_norm": 83.5, "learning_rate": 5.533333333333334e-07, "loss": 2.7083, "step": 1170 }, { "epoch": 0.06, "grad_norm": 83.0, "learning_rate": 5.466666666666666e-07, "loss": 2.7078, "step": 1180 }, { "epoch": 0.06, "grad_norm": 82.5, "learning_rate": 5.4e-07, "loss": 2.727, "step": 1190 }, { "epoch": 0.06, "grad_norm": 81.5, "learning_rate": 5.333333333333333e-07, "loss": 2.6749, "step": 1200 }, { "epoch": 0.06, "grad_norm": 83.5, "learning_rate": 5.266666666666666e-07, "loss": 2.7182, "step": 1210 }, { "epoch": 0.06, "grad_norm": 83.5, "learning_rate": 5.2e-07, "loss": 2.6814, "step": 1220 }, { "epoch": 0.06, "grad_norm": 82.0, "learning_rate": 5.133333333333333e-07, "loss": 2.7148, "step": 1230 }, { "epoch": 0.06, "grad_norm": 82.5, "learning_rate": 5.066666666666667e-07, "loss": 2.6929, "step": 1240 }, { "epoch": 0.06, "grad_norm": 82.0, "learning_rate": 5e-07, "loss": 2.664, "step": 1250 }, { "epoch": 0.06, "grad_norm": 82.0, "learning_rate": 4.933333333333333e-07, "loss": 2.6901, "step": 1260 }, { "epoch": 0.06, "grad_norm": 82.0, "learning_rate": 4.866666666666666e-07, "loss": 2.6883, "step": 1270 }, { "epoch": 0.06, "grad_norm": 81.5, "learning_rate": 4.8e-07, "loss": 2.6782, "step": 1280 }, { "epoch": 0.06, "grad_norm": 81.0, "learning_rate": 4.733333333333333e-07, "loss": 2.6456, "step": 1290 }, { "epoch": 0.07, "grad_norm": 81.0, "learning_rate": 4.6666666666666666e-07, "loss": 2.648, "step": 1300 }, { "epoch": 0.07, "grad_norm": 81.5, "learning_rate": 4.6e-07, "loss": 2.6704, "step": 1310 }, { "epoch": 0.07, "grad_norm": 81.5, "learning_rate": 4.5333333333333326e-07, "loss": 2.7021, "step": 1320 }, { "epoch": 0.07, "grad_norm": 81.0, "learning_rate": 4.4666666666666664e-07, "loss": 2.6636, "step": 1330 }, { "epoch": 0.07, "grad_norm": 81.5, "learning_rate": 4.3999999999999997e-07, "loss": 2.6572, "step": 1340 }, { "epoch": 0.07, "grad_norm": 82.5, "learning_rate": 4.3333333333333335e-07, "loss": 2.6371, "step": 1350 }, { "epoch": 0.07, "grad_norm": 81.5, "learning_rate": 4.266666666666667e-07, "loss": 2.5982, "step": 1360 }, { "epoch": 0.07, "grad_norm": 82.5, "learning_rate": 4.1999999999999995e-07, "loss": 2.6661, "step": 1370 }, { "epoch": 0.07, "grad_norm": 82.5, "learning_rate": 4.1333333333333333e-07, "loss": 2.6486, "step": 1380 }, { "epoch": 0.07, "grad_norm": 81.0, "learning_rate": 4.0666666666666666e-07, "loss": 2.6539, "step": 1390 }, { "epoch": 0.07, "grad_norm": 82.0, "learning_rate": 4e-07, "loss": 2.6366, "step": 1400 }, { "epoch": 0.07, "grad_norm": 82.0, "learning_rate": 3.933333333333333e-07, "loss": 2.6239, "step": 1410 }, { "epoch": 0.07, "grad_norm": 82.5, "learning_rate": 3.8666666666666664e-07, "loss": 2.6454, "step": 1420 }, { "epoch": 0.07, "grad_norm": 82.0, "learning_rate": 3.7999999999999996e-07, "loss": 2.6683, "step": 1430 }, { "epoch": 0.07, "grad_norm": 81.5, "learning_rate": 3.7333333333333334e-07, "loss": 2.6349, "step": 1440 }, { "epoch": 0.07, "grad_norm": 82.0, "learning_rate": 3.666666666666666e-07, "loss": 2.6492, "step": 1450 }, { "epoch": 0.07, "grad_norm": 83.0, "learning_rate": 3.6e-07, "loss": 2.6264, "step": 1460 }, { "epoch": 0.07, "grad_norm": 82.0, "learning_rate": 3.533333333333333e-07, "loss": 2.6021, "step": 1470 }, { "epoch": 0.07, "grad_norm": 81.5, "learning_rate": 3.4666666666666665e-07, "loss": 2.6382, "step": 1480 }, { "epoch": 0.07, "grad_norm": 82.0, "learning_rate": 3.4000000000000003e-07, "loss": 2.6441, "step": 1490 }, { "epoch": 0.07, "grad_norm": 83.0, "learning_rate": 3.333333333333333e-07, "loss": 2.6279, "step": 1500 }, { "epoch": 0.07, "eval_loss": 2.6444902420043945, "eval_runtime": 65.2696, "eval_samples_per_second": 15.321, "eval_steps_per_second": 15.321, "step": 1500 }, { "epoch": 0.08, "grad_norm": 82.5, "learning_rate": 3.2666666666666663e-07, "loss": 2.625, "step": 1510 }, { "epoch": 0.08, "grad_norm": 82.0, "learning_rate": 3.2e-07, "loss": 2.6214, "step": 1520 }, { "epoch": 0.08, "grad_norm": 82.0, "learning_rate": 3.1333333333333333e-07, "loss": 2.6139, "step": 1530 }, { "epoch": 0.08, "grad_norm": 81.5, "learning_rate": 3.066666666666666e-07, "loss": 2.6246, "step": 1540 }, { "epoch": 0.08, "grad_norm": 81.0, "learning_rate": 3e-07, "loss": 2.6358, "step": 1550 }, { "epoch": 0.08, "grad_norm": 81.5, "learning_rate": 2.933333333333333e-07, "loss": 2.6655, "step": 1560 }, { "epoch": 0.08, "grad_norm": 81.5, "learning_rate": 2.866666666666667e-07, "loss": 2.6385, "step": 1570 }, { "epoch": 0.08, "grad_norm": 81.0, "learning_rate": 2.8e-07, "loss": 2.6439, "step": 1580 }, { "epoch": 0.08, "grad_norm": 84.0, "learning_rate": 2.733333333333333e-07, "loss": 2.6176, "step": 1590 }, { "epoch": 0.08, "grad_norm": 82.5, "learning_rate": 2.6666666666666667e-07, "loss": 2.622, "step": 1600 }, { "epoch": 0.08, "grad_norm": 81.0, "learning_rate": 2.6e-07, "loss": 2.6515, "step": 1610 }, { "epoch": 0.08, "grad_norm": 82.0, "learning_rate": 2.533333333333333e-07, "loss": 2.6008, "step": 1620 }, { "epoch": 0.08, "grad_norm": 82.5, "learning_rate": 2.4666666666666665e-07, "loss": 2.6303, "step": 1630 }, { "epoch": 0.08, "grad_norm": 82.0, "learning_rate": 2.4e-07, "loss": 2.6118, "step": 1640 }, { "epoch": 0.08, "grad_norm": 82.5, "learning_rate": 2.3333333333333333e-07, "loss": 2.6484, "step": 1650 }, { "epoch": 0.08, "grad_norm": 82.0, "learning_rate": 2.2666666666666663e-07, "loss": 2.6255, "step": 1660 }, { "epoch": 0.08, "grad_norm": 83.5, "learning_rate": 2.1999999999999998e-07, "loss": 2.6415, "step": 1670 }, { "epoch": 0.08, "grad_norm": 81.0, "learning_rate": 2.1333333333333334e-07, "loss": 2.6121, "step": 1680 }, { "epoch": 0.08, "grad_norm": 83.0, "learning_rate": 2.0666666666666666e-07, "loss": 2.6606, "step": 1690 }, { "epoch": 0.09, "grad_norm": 82.5, "learning_rate": 2e-07, "loss": 2.6721, "step": 1700 }, { "epoch": 0.09, "grad_norm": 82.0, "learning_rate": 1.9333333333333332e-07, "loss": 2.6079, "step": 1710 }, { "epoch": 0.09, "grad_norm": 82.0, "learning_rate": 1.8666666666666667e-07, "loss": 2.6576, "step": 1720 }, { "epoch": 0.09, "grad_norm": 83.5, "learning_rate": 1.8e-07, "loss": 2.6275, "step": 1730 }, { "epoch": 0.09, "grad_norm": 82.0, "learning_rate": 1.7333333333333332e-07, "loss": 2.6288, "step": 1740 }, { "epoch": 0.09, "grad_norm": 83.0, "learning_rate": 1.6666666666666665e-07, "loss": 2.6439, "step": 1750 }, { "epoch": 0.09, "grad_norm": 82.5, "learning_rate": 1.6e-07, "loss": 2.609, "step": 1760 }, { "epoch": 0.09, "grad_norm": 83.5, "learning_rate": 1.533333333333333e-07, "loss": 2.6129, "step": 1770 }, { "epoch": 0.09, "grad_norm": 83.5, "learning_rate": 1.4666666666666666e-07, "loss": 2.6692, "step": 1780 }, { "epoch": 0.09, "grad_norm": 82.0, "learning_rate": 1.4e-07, "loss": 2.6199, "step": 1790 }, { "epoch": 0.09, "grad_norm": 82.5, "learning_rate": 1.3333333333333334e-07, "loss": 2.6233, "step": 1800 }, { "epoch": 0.09, "grad_norm": 82.0, "learning_rate": 1.2666666666666666e-07, "loss": 2.6557, "step": 1810 }, { "epoch": 0.09, "grad_norm": 82.0, "learning_rate": 1.2e-07, "loss": 2.6568, "step": 1820 }, { "epoch": 0.09, "grad_norm": 83.0, "learning_rate": 1.1333333333333332e-07, "loss": 2.6395, "step": 1830 }, { "epoch": 0.09, "grad_norm": 82.0, "learning_rate": 1.0666666666666667e-07, "loss": 2.6145, "step": 1840 }, { "epoch": 0.09, "grad_norm": 83.0, "learning_rate": 1e-07, "loss": 2.6939, "step": 1850 }, { "epoch": 0.09, "grad_norm": 81.5, "learning_rate": 9.333333333333334e-08, "loss": 2.6583, "step": 1860 }, { "epoch": 0.09, "grad_norm": 81.5, "learning_rate": 8.666666666666666e-08, "loss": 2.6327, "step": 1870 }, { "epoch": 0.09, "grad_norm": 82.5, "learning_rate": 8e-08, "loss": 2.6108, "step": 1880 }, { "epoch": 0.09, "grad_norm": 83.5, "learning_rate": 7.333333333333333e-08, "loss": 2.6593, "step": 1890 }, { "epoch": 0.1, "grad_norm": 82.5, "learning_rate": 6.666666666666667e-08, "loss": 2.6176, "step": 1900 }, { "epoch": 0.1, "grad_norm": 82.0, "learning_rate": 6e-08, "loss": 2.6241, "step": 1910 }, { "epoch": 0.1, "grad_norm": 82.0, "learning_rate": 5.3333333333333334e-08, "loss": 2.6238, "step": 1920 }, { "epoch": 0.1, "grad_norm": 83.0, "learning_rate": 4.666666666666667e-08, "loss": 2.614, "step": 1930 }, { "epoch": 0.1, "grad_norm": 82.5, "learning_rate": 4e-08, "loss": 2.6216, "step": 1940 }, { "epoch": 0.1, "grad_norm": 82.0, "learning_rate": 3.3333333333333334e-08, "loss": 2.6061, "step": 1950 }, { "epoch": 0.1, "grad_norm": 81.5, "learning_rate": 2.6666666666666667e-08, "loss": 2.6504, "step": 1960 }, { "epoch": 0.1, "grad_norm": 82.0, "learning_rate": 2e-08, "loss": 2.6582, "step": 1970 }, { "epoch": 0.1, "grad_norm": 81.0, "learning_rate": 1.3333333333333334e-08, "loss": 2.6229, "step": 1980 }, { "epoch": 0.1, "grad_norm": 81.5, "learning_rate": 6.666666666666667e-09, "loss": 2.6172, "step": 1990 }, { "epoch": 0.1, "grad_norm": 81.0, "learning_rate": 0.0, "loss": 2.6289, "step": 2000 }, { "epoch": 0.1, "eval_loss": 2.629669427871704, "eval_runtime": 65.1949, "eval_samples_per_second": 15.339, "eval_steps_per_second": 15.339, "step": 2000 } ], "logging_steps": 10, "max_steps": 2000, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 500, "total_flos": 3.227844083712e+16, "train_batch_size": 1, "trial_name": null, "trial_params": null }