|
{ |
|
"best_metric": 249.32330322265625, |
|
"best_model_checkpoint": "./ckpts/hf-llama3-8b-instruct/int2-g128/checkpoint-1200", |
|
"epoch": 4.0, |
|
"eval_steps": 400, |
|
"global_step": 1200, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.0033333333333333335, |
|
"grad_norm": 299081.625, |
|
"learning_rate": 8e-06, |
|
"loss": 4897.9277, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.006666666666666667, |
|
"grad_norm": 149638.265625, |
|
"learning_rate": 8e-06, |
|
"loss": 2450.8735, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 58717.53515625, |
|
"learning_rate": 8e-06, |
|
"loss": 948.5937, |
|
"step": 3 |
|
}, |
|
{ |
|
"epoch": 0.013333333333333334, |
|
"grad_norm": 12207.1767578125, |
|
"learning_rate": 8e-06, |
|
"loss": 575.4004, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 0.016666666666666666, |
|
"grad_norm": 27176.1953125, |
|
"learning_rate": 8e-06, |
|
"loss": 693.1818, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 29369.60546875, |
|
"learning_rate": 8e-06, |
|
"loss": 615.2617, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 0.023333333333333334, |
|
"grad_norm": 26989.28515625, |
|
"learning_rate": 8e-06, |
|
"loss": 642.2118, |
|
"step": 7 |
|
}, |
|
{ |
|
"epoch": 0.02666666666666667, |
|
"grad_norm": 8187.20458984375, |
|
"learning_rate": 8e-06, |
|
"loss": 472.2585, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 16044.2080078125, |
|
"learning_rate": 8e-06, |
|
"loss": 541.3935, |
|
"step": 9 |
|
}, |
|
{ |
|
"epoch": 0.03333333333333333, |
|
"grad_norm": 45178.66015625, |
|
"learning_rate": 8e-06, |
|
"loss": 626.2382, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.03666666666666667, |
|
"grad_norm": 17810.783203125, |
|
"learning_rate": 8e-06, |
|
"loss": 632.3056, |
|
"step": 11 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 25976.498046875, |
|
"learning_rate": 8e-06, |
|
"loss": 625.1094, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 0.043333333333333335, |
|
"grad_norm": 8909.4658203125, |
|
"learning_rate": 8e-06, |
|
"loss": 415.1552, |
|
"step": 13 |
|
}, |
|
{ |
|
"epoch": 0.04666666666666667, |
|
"grad_norm": 8924.72265625, |
|
"learning_rate": 8e-06, |
|
"loss": 504.1435, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 7251.72802734375, |
|
"learning_rate": 8e-06, |
|
"loss": 524.2874, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 0.05333333333333334, |
|
"grad_norm": 8383.466796875, |
|
"learning_rate": 8e-06, |
|
"loss": 426.1407, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 0.056666666666666664, |
|
"grad_norm": 5297.39208984375, |
|
"learning_rate": 8e-06, |
|
"loss": 399.9639, |
|
"step": 17 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 25405.353515625, |
|
"learning_rate": 8e-06, |
|
"loss": 421.432, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 0.06333333333333334, |
|
"grad_norm": 6101.39501953125, |
|
"learning_rate": 8e-06, |
|
"loss": 384.2199, |
|
"step": 19 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"grad_norm": 5212.65478515625, |
|
"learning_rate": 8e-06, |
|
"loss": 369.6908, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 15722.62890625, |
|
"learning_rate": 8e-06, |
|
"loss": 397.5793, |
|
"step": 21 |
|
}, |
|
{ |
|
"epoch": 0.07333333333333333, |
|
"grad_norm": 15691.951171875, |
|
"learning_rate": 8e-06, |
|
"loss": 531.838, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 0.07666666666666666, |
|
"grad_norm": 7032.90478515625, |
|
"learning_rate": 8e-06, |
|
"loss": 482.211, |
|
"step": 23 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 6694.416015625, |
|
"learning_rate": 8e-06, |
|
"loss": 436.7674, |
|
"step": 24 |
|
}, |
|
{ |
|
"epoch": 0.08333333333333333, |
|
"grad_norm": 6177.0830078125, |
|
"learning_rate": 8e-06, |
|
"loss": 376.6952, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.08666666666666667, |
|
"grad_norm": 5572.80810546875, |
|
"learning_rate": 8e-06, |
|
"loss": 438.5435, |
|
"step": 26 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 146623.140625, |
|
"learning_rate": 8e-06, |
|
"loss": 419.0643, |
|
"step": 27 |
|
}, |
|
{ |
|
"epoch": 0.09333333333333334, |
|
"grad_norm": 4768.9677734375, |
|
"learning_rate": 8e-06, |
|
"loss": 332.2076, |
|
"step": 28 |
|
}, |
|
{ |
|
"epoch": 0.09666666666666666, |
|
"grad_norm": 6839.39306640625, |
|
"learning_rate": 8e-06, |
|
"loss": 517.8188, |
|
"step": 29 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 4564.12158203125, |
|
"learning_rate": 8e-06, |
|
"loss": 368.3604, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.10333333333333333, |
|
"grad_norm": 4523.7734375, |
|
"learning_rate": 8e-06, |
|
"loss": 398.2078, |
|
"step": 31 |
|
}, |
|
{ |
|
"epoch": 0.10666666666666667, |
|
"grad_norm": 4826.28759765625, |
|
"learning_rate": 8e-06, |
|
"loss": 364.3542, |
|
"step": 32 |
|
}, |
|
{ |
|
"epoch": 0.11, |
|
"grad_norm": 5213.2578125, |
|
"learning_rate": 8e-06, |
|
"loss": 370.139, |
|
"step": 33 |
|
}, |
|
{ |
|
"epoch": 0.11333333333333333, |
|
"grad_norm": 3500.7197265625, |
|
"learning_rate": 8e-06, |
|
"loss": 327.6242, |
|
"step": 34 |
|
}, |
|
{ |
|
"epoch": 0.11666666666666667, |
|
"grad_norm": 5468.50146484375, |
|
"learning_rate": 8e-06, |
|
"loss": 427.5528, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 0.12, |
|
"grad_norm": 12776.15625, |
|
"learning_rate": 8e-06, |
|
"loss": 482.9988, |
|
"step": 36 |
|
}, |
|
{ |
|
"epoch": 0.12333333333333334, |
|
"grad_norm": 5042.4169921875, |
|
"learning_rate": 8e-06, |
|
"loss": 449.5488, |
|
"step": 37 |
|
}, |
|
{ |
|
"epoch": 0.12666666666666668, |
|
"grad_norm": 4656.3017578125, |
|
"learning_rate": 8e-06, |
|
"loss": 422.8404, |
|
"step": 38 |
|
}, |
|
{ |
|
"epoch": 0.13, |
|
"grad_norm": 4322.228515625, |
|
"learning_rate": 8e-06, |
|
"loss": 261.3572, |
|
"step": 39 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 7618.5537109375, |
|
"learning_rate": 8e-06, |
|
"loss": 409.1255, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.13666666666666666, |
|
"grad_norm": 6758.10986328125, |
|
"learning_rate": 8e-06, |
|
"loss": 414.5503, |
|
"step": 41 |
|
}, |
|
{ |
|
"epoch": 0.14, |
|
"grad_norm": 18122.6171875, |
|
"learning_rate": 8e-06, |
|
"loss": 364.9304, |
|
"step": 42 |
|
}, |
|
{ |
|
"epoch": 0.14333333333333334, |
|
"grad_norm": 4081.0185546875, |
|
"learning_rate": 8e-06, |
|
"loss": 327.7346, |
|
"step": 43 |
|
}, |
|
{ |
|
"epoch": 0.14666666666666667, |
|
"grad_norm": 6978.04296875, |
|
"learning_rate": 8e-06, |
|
"loss": 373.8395, |
|
"step": 44 |
|
}, |
|
{ |
|
"epoch": 0.15, |
|
"grad_norm": 17885.078125, |
|
"learning_rate": 8e-06, |
|
"loss": 450.2648, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 0.15333333333333332, |
|
"grad_norm": 3991.118408203125, |
|
"learning_rate": 8e-06, |
|
"loss": 423.3859, |
|
"step": 46 |
|
}, |
|
{ |
|
"epoch": 0.15666666666666668, |
|
"grad_norm": 4963.15283203125, |
|
"learning_rate": 8e-06, |
|
"loss": 347.0266, |
|
"step": 47 |
|
}, |
|
{ |
|
"epoch": 0.16, |
|
"grad_norm": 4146.677734375, |
|
"learning_rate": 8e-06, |
|
"loss": 293.8803, |
|
"step": 48 |
|
}, |
|
{ |
|
"epoch": 0.16333333333333333, |
|
"grad_norm": 8551.7822265625, |
|
"learning_rate": 8e-06, |
|
"loss": 384.1107, |
|
"step": 49 |
|
}, |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"grad_norm": 6196.830078125, |
|
"learning_rate": 8e-06, |
|
"loss": 350.1491, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.17, |
|
"grad_norm": 10965.498046875, |
|
"learning_rate": 8e-06, |
|
"loss": 360.0603, |
|
"step": 51 |
|
}, |
|
{ |
|
"epoch": 0.17333333333333334, |
|
"grad_norm": 3580.333984375, |
|
"learning_rate": 8e-06, |
|
"loss": 363.9769, |
|
"step": 52 |
|
}, |
|
{ |
|
"epoch": 0.17666666666666667, |
|
"grad_norm": 3962.866455078125, |
|
"learning_rate": 8e-06, |
|
"loss": 361.198, |
|
"step": 53 |
|
}, |
|
{ |
|
"epoch": 0.18, |
|
"grad_norm": 5888.021484375, |
|
"learning_rate": 8e-06, |
|
"loss": 246.51, |
|
"step": 54 |
|
}, |
|
{ |
|
"epoch": 0.18333333333333332, |
|
"grad_norm": 11651.341796875, |
|
"learning_rate": 8e-06, |
|
"loss": 374.5479, |
|
"step": 55 |
|
}, |
|
{ |
|
"epoch": 0.18666666666666668, |
|
"grad_norm": 12411.435546875, |
|
"learning_rate": 8e-06, |
|
"loss": 405.4997, |
|
"step": 56 |
|
}, |
|
{ |
|
"epoch": 0.19, |
|
"grad_norm": 5103.48779296875, |
|
"learning_rate": 8e-06, |
|
"loss": 390.2045, |
|
"step": 57 |
|
}, |
|
{ |
|
"epoch": 0.19333333333333333, |
|
"grad_norm": 5316.8056640625, |
|
"learning_rate": 8e-06, |
|
"loss": 313.0942, |
|
"step": 58 |
|
}, |
|
{ |
|
"epoch": 0.19666666666666666, |
|
"grad_norm": 3669.82177734375, |
|
"learning_rate": 8e-06, |
|
"loss": 297.0284, |
|
"step": 59 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 5196.92578125, |
|
"learning_rate": 8e-06, |
|
"loss": 275.6656, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.20333333333333334, |
|
"grad_norm": 3770.981201171875, |
|
"learning_rate": 8e-06, |
|
"loss": 327.3121, |
|
"step": 61 |
|
}, |
|
{ |
|
"epoch": 0.20666666666666667, |
|
"grad_norm": 5351.9208984375, |
|
"learning_rate": 8e-06, |
|
"loss": 295.3929, |
|
"step": 62 |
|
}, |
|
{ |
|
"epoch": 0.21, |
|
"grad_norm": 3593.324462890625, |
|
"learning_rate": 8e-06, |
|
"loss": 292.4643, |
|
"step": 63 |
|
}, |
|
{ |
|
"epoch": 0.21333333333333335, |
|
"grad_norm": 7170.197265625, |
|
"learning_rate": 8e-06, |
|
"loss": 333.2579, |
|
"step": 64 |
|
}, |
|
{ |
|
"epoch": 0.21666666666666667, |
|
"grad_norm": 5766.62744140625, |
|
"learning_rate": 8e-06, |
|
"loss": 294.0817, |
|
"step": 65 |
|
}, |
|
{ |
|
"epoch": 0.22, |
|
"grad_norm": 7292.2900390625, |
|
"learning_rate": 8e-06, |
|
"loss": 277.0906, |
|
"step": 66 |
|
}, |
|
{ |
|
"epoch": 0.22333333333333333, |
|
"grad_norm": 46524.85546875, |
|
"learning_rate": 8e-06, |
|
"loss": 451.188, |
|
"step": 67 |
|
}, |
|
{ |
|
"epoch": 0.22666666666666666, |
|
"grad_norm": 10629.0888671875, |
|
"learning_rate": 8e-06, |
|
"loss": 258.6876, |
|
"step": 68 |
|
}, |
|
{ |
|
"epoch": 0.23, |
|
"grad_norm": 3722.06884765625, |
|
"learning_rate": 8e-06, |
|
"loss": 285.6375, |
|
"step": 69 |
|
}, |
|
{ |
|
"epoch": 0.23333333333333334, |
|
"grad_norm": 3225.382080078125, |
|
"learning_rate": 8e-06, |
|
"loss": 298.4425, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 0.23666666666666666, |
|
"grad_norm": 3747.288818359375, |
|
"learning_rate": 8e-06, |
|
"loss": 375.9342, |
|
"step": 71 |
|
}, |
|
{ |
|
"epoch": 0.24, |
|
"grad_norm": 4182.5576171875, |
|
"learning_rate": 8e-06, |
|
"loss": 341.6081, |
|
"step": 72 |
|
}, |
|
{ |
|
"epoch": 0.24333333333333335, |
|
"grad_norm": 4203.4833984375, |
|
"learning_rate": 8e-06, |
|
"loss": 281.234, |
|
"step": 73 |
|
}, |
|
{ |
|
"epoch": 0.24666666666666667, |
|
"grad_norm": 3273.578369140625, |
|
"learning_rate": 8e-06, |
|
"loss": 237.2037, |
|
"step": 74 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"grad_norm": 4801.87548828125, |
|
"learning_rate": 8e-06, |
|
"loss": 294.8515, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 0.25333333333333335, |
|
"grad_norm": 3788.703369140625, |
|
"learning_rate": 8e-06, |
|
"loss": 272.4215, |
|
"step": 76 |
|
}, |
|
{ |
|
"epoch": 0.25666666666666665, |
|
"grad_norm": 2901.314208984375, |
|
"learning_rate": 8e-06, |
|
"loss": 244.3135, |
|
"step": 77 |
|
}, |
|
{ |
|
"epoch": 0.26, |
|
"grad_norm": 3690.60693359375, |
|
"learning_rate": 8e-06, |
|
"loss": 288.901, |
|
"step": 78 |
|
}, |
|
{ |
|
"epoch": 0.2633333333333333, |
|
"grad_norm": 12020.3642578125, |
|
"learning_rate": 8e-06, |
|
"loss": 380.1544, |
|
"step": 79 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 2987.83251953125, |
|
"learning_rate": 8e-06, |
|
"loss": 294.5196, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 0.27, |
|
"grad_norm": 3128.651123046875, |
|
"learning_rate": 8e-06, |
|
"loss": 244.4444, |
|
"step": 81 |
|
}, |
|
{ |
|
"epoch": 0.2733333333333333, |
|
"grad_norm": 4437.48486328125, |
|
"learning_rate": 8e-06, |
|
"loss": 339.8995, |
|
"step": 82 |
|
}, |
|
{ |
|
"epoch": 0.27666666666666667, |
|
"grad_norm": 3836.4892578125, |
|
"learning_rate": 8e-06, |
|
"loss": 320.7166, |
|
"step": 83 |
|
}, |
|
{ |
|
"epoch": 0.28, |
|
"grad_norm": 42555.37890625, |
|
"learning_rate": 8e-06, |
|
"loss": 365.6827, |
|
"step": 84 |
|
}, |
|
{ |
|
"epoch": 0.2833333333333333, |
|
"grad_norm": 3743.496826171875, |
|
"learning_rate": 8e-06, |
|
"loss": 329.7776, |
|
"step": 85 |
|
}, |
|
{ |
|
"epoch": 0.2866666666666667, |
|
"grad_norm": 3429.26025390625, |
|
"learning_rate": 8e-06, |
|
"loss": 258.9485, |
|
"step": 86 |
|
}, |
|
{ |
|
"epoch": 0.29, |
|
"grad_norm": 4343.1484375, |
|
"learning_rate": 8e-06, |
|
"loss": 253.2939, |
|
"step": 87 |
|
}, |
|
{ |
|
"epoch": 0.29333333333333333, |
|
"grad_norm": 7510.67138671875, |
|
"learning_rate": 8e-06, |
|
"loss": 305.6551, |
|
"step": 88 |
|
}, |
|
{ |
|
"epoch": 0.2966666666666667, |
|
"grad_norm": 3559.4248046875, |
|
"learning_rate": 8e-06, |
|
"loss": 303.0639, |
|
"step": 89 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"grad_norm": 3087.24951171875, |
|
"learning_rate": 8e-06, |
|
"loss": 307.8586, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 0.30333333333333334, |
|
"grad_norm": 3745.066162109375, |
|
"learning_rate": 8e-06, |
|
"loss": 275.6919, |
|
"step": 91 |
|
}, |
|
{ |
|
"epoch": 0.30666666666666664, |
|
"grad_norm": 3881.8662109375, |
|
"learning_rate": 8e-06, |
|
"loss": 323.7448, |
|
"step": 92 |
|
}, |
|
{ |
|
"epoch": 0.31, |
|
"grad_norm": 9983.0576171875, |
|
"learning_rate": 8e-06, |
|
"loss": 341.0989, |
|
"step": 93 |
|
}, |
|
{ |
|
"epoch": 0.31333333333333335, |
|
"grad_norm": 5191.8583984375, |
|
"learning_rate": 8e-06, |
|
"loss": 356.1661, |
|
"step": 94 |
|
}, |
|
{ |
|
"epoch": 0.31666666666666665, |
|
"grad_norm": 4711.75244140625, |
|
"learning_rate": 8e-06, |
|
"loss": 252.5984, |
|
"step": 95 |
|
}, |
|
{ |
|
"epoch": 0.32, |
|
"grad_norm": 11132.2822265625, |
|
"learning_rate": 8e-06, |
|
"loss": 306.9489, |
|
"step": 96 |
|
}, |
|
{ |
|
"epoch": 0.3233333333333333, |
|
"grad_norm": 7833.5048828125, |
|
"learning_rate": 8e-06, |
|
"loss": 353.0605, |
|
"step": 97 |
|
}, |
|
{ |
|
"epoch": 0.32666666666666666, |
|
"grad_norm": 4053.969482421875, |
|
"learning_rate": 8e-06, |
|
"loss": 352.1935, |
|
"step": 98 |
|
}, |
|
{ |
|
"epoch": 0.33, |
|
"grad_norm": 3196.588623046875, |
|
"learning_rate": 8e-06, |
|
"loss": 254.189, |
|
"step": 99 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"grad_norm": 3550.42919921875, |
|
"learning_rate": 8e-06, |
|
"loss": 331.9965, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.33666666666666667, |
|
"grad_norm": 3798.58642578125, |
|
"learning_rate": 8e-06, |
|
"loss": 342.9701, |
|
"step": 101 |
|
}, |
|
{ |
|
"epoch": 0.34, |
|
"grad_norm": 9407.2685546875, |
|
"learning_rate": 8e-06, |
|
"loss": 313.3018, |
|
"step": 102 |
|
}, |
|
{ |
|
"epoch": 0.3433333333333333, |
|
"grad_norm": 2966.33056640625, |
|
"learning_rate": 8e-06, |
|
"loss": 276.61, |
|
"step": 103 |
|
}, |
|
{ |
|
"epoch": 0.3466666666666667, |
|
"grad_norm": 69461.546875, |
|
"learning_rate": 8e-06, |
|
"loss": 383.5469, |
|
"step": 104 |
|
}, |
|
{ |
|
"epoch": 0.35, |
|
"grad_norm": 5283.6376953125, |
|
"learning_rate": 8e-06, |
|
"loss": 407.8528, |
|
"step": 105 |
|
}, |
|
{ |
|
"epoch": 0.35333333333333333, |
|
"grad_norm": 3203.443603515625, |
|
"learning_rate": 8e-06, |
|
"loss": 311.2915, |
|
"step": 106 |
|
}, |
|
{ |
|
"epoch": 0.3566666666666667, |
|
"grad_norm": 3730.074951171875, |
|
"learning_rate": 8e-06, |
|
"loss": 275.8661, |
|
"step": 107 |
|
}, |
|
{ |
|
"epoch": 0.36, |
|
"grad_norm": 3541.144287109375, |
|
"learning_rate": 8e-06, |
|
"loss": 278.4428, |
|
"step": 108 |
|
}, |
|
{ |
|
"epoch": 0.36333333333333334, |
|
"grad_norm": 3837.410888671875, |
|
"learning_rate": 8e-06, |
|
"loss": 368.3663, |
|
"step": 109 |
|
}, |
|
{ |
|
"epoch": 0.36666666666666664, |
|
"grad_norm": 3959.927978515625, |
|
"learning_rate": 8e-06, |
|
"loss": 391.5013, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 0.37, |
|
"grad_norm": 3099.64404296875, |
|
"learning_rate": 8e-06, |
|
"loss": 264.178, |
|
"step": 111 |
|
}, |
|
{ |
|
"epoch": 0.37333333333333335, |
|
"grad_norm": 3085.619384765625, |
|
"learning_rate": 8e-06, |
|
"loss": 295.9514, |
|
"step": 112 |
|
}, |
|
{ |
|
"epoch": 0.37666666666666665, |
|
"grad_norm": 3134.65283203125, |
|
"learning_rate": 8e-06, |
|
"loss": 300.3761, |
|
"step": 113 |
|
}, |
|
{ |
|
"epoch": 0.38, |
|
"grad_norm": 3622.12255859375, |
|
"learning_rate": 8e-06, |
|
"loss": 290.0009, |
|
"step": 114 |
|
}, |
|
{ |
|
"epoch": 0.38333333333333336, |
|
"grad_norm": 3647.3486328125, |
|
"learning_rate": 8e-06, |
|
"loss": 270.3719, |
|
"step": 115 |
|
}, |
|
{ |
|
"epoch": 0.38666666666666666, |
|
"grad_norm": 5578.8330078125, |
|
"learning_rate": 8e-06, |
|
"loss": 351.2977, |
|
"step": 116 |
|
}, |
|
{ |
|
"epoch": 0.39, |
|
"grad_norm": 10896.5537109375, |
|
"learning_rate": 8e-06, |
|
"loss": 283.6028, |
|
"step": 117 |
|
}, |
|
{ |
|
"epoch": 0.3933333333333333, |
|
"grad_norm": 3432.72900390625, |
|
"learning_rate": 8e-06, |
|
"loss": 250.7074, |
|
"step": 118 |
|
}, |
|
{ |
|
"epoch": 0.39666666666666667, |
|
"grad_norm": 4871.3447265625, |
|
"learning_rate": 8e-06, |
|
"loss": 266.2117, |
|
"step": 119 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 3179.614990234375, |
|
"learning_rate": 8e-06, |
|
"loss": 292.8347, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 0.4033333333333333, |
|
"grad_norm": 4301.76123046875, |
|
"learning_rate": 8e-06, |
|
"loss": 353.7879, |
|
"step": 121 |
|
}, |
|
{ |
|
"epoch": 0.4066666666666667, |
|
"grad_norm": 7787.93115234375, |
|
"learning_rate": 8e-06, |
|
"loss": 278.7324, |
|
"step": 122 |
|
}, |
|
{ |
|
"epoch": 0.41, |
|
"grad_norm": 4184.16015625, |
|
"learning_rate": 8e-06, |
|
"loss": 354.6778, |
|
"step": 123 |
|
}, |
|
{ |
|
"epoch": 0.41333333333333333, |
|
"grad_norm": 3175.350341796875, |
|
"learning_rate": 8e-06, |
|
"loss": 277.6086, |
|
"step": 124 |
|
}, |
|
{ |
|
"epoch": 0.4166666666666667, |
|
"grad_norm": 28396.060546875, |
|
"learning_rate": 8e-06, |
|
"loss": 474.991, |
|
"step": 125 |
|
}, |
|
{ |
|
"epoch": 0.42, |
|
"grad_norm": 3156.357421875, |
|
"learning_rate": 8e-06, |
|
"loss": 295.0091, |
|
"step": 126 |
|
}, |
|
{ |
|
"epoch": 0.42333333333333334, |
|
"grad_norm": 5404.86328125, |
|
"learning_rate": 8e-06, |
|
"loss": 387.941, |
|
"step": 127 |
|
}, |
|
{ |
|
"epoch": 0.4266666666666667, |
|
"grad_norm": 2757.193603515625, |
|
"learning_rate": 8e-06, |
|
"loss": 266.1871, |
|
"step": 128 |
|
}, |
|
{ |
|
"epoch": 0.43, |
|
"grad_norm": 11914.0537109375, |
|
"learning_rate": 8e-06, |
|
"loss": 444.1031, |
|
"step": 129 |
|
}, |
|
{ |
|
"epoch": 0.43333333333333335, |
|
"grad_norm": 3417.672607421875, |
|
"learning_rate": 8e-06, |
|
"loss": 302.7297, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 0.43666666666666665, |
|
"grad_norm": 3607.97998046875, |
|
"learning_rate": 8e-06, |
|
"loss": 204.9096, |
|
"step": 131 |
|
}, |
|
{ |
|
"epoch": 0.44, |
|
"grad_norm": 3770.42626953125, |
|
"learning_rate": 8e-06, |
|
"loss": 329.2759, |
|
"step": 132 |
|
}, |
|
{ |
|
"epoch": 0.44333333333333336, |
|
"grad_norm": 3686.265380859375, |
|
"learning_rate": 8e-06, |
|
"loss": 316.2871, |
|
"step": 133 |
|
}, |
|
{ |
|
"epoch": 0.44666666666666666, |
|
"grad_norm": 4291.43359375, |
|
"learning_rate": 8e-06, |
|
"loss": 286.6203, |
|
"step": 134 |
|
}, |
|
{ |
|
"epoch": 0.45, |
|
"grad_norm": 3550.517333984375, |
|
"learning_rate": 8e-06, |
|
"loss": 322.8923, |
|
"step": 135 |
|
}, |
|
{ |
|
"epoch": 0.4533333333333333, |
|
"grad_norm": 3850.011962890625, |
|
"learning_rate": 8e-06, |
|
"loss": 274.8848, |
|
"step": 136 |
|
}, |
|
{ |
|
"epoch": 0.45666666666666667, |
|
"grad_norm": 5747.69140625, |
|
"learning_rate": 8e-06, |
|
"loss": 340.2192, |
|
"step": 137 |
|
}, |
|
{ |
|
"epoch": 0.46, |
|
"grad_norm": 2855.41943359375, |
|
"learning_rate": 8e-06, |
|
"loss": 290.4051, |
|
"step": 138 |
|
}, |
|
{ |
|
"epoch": 0.4633333333333333, |
|
"grad_norm": 3524.505859375, |
|
"learning_rate": 8e-06, |
|
"loss": 257.5426, |
|
"step": 139 |
|
}, |
|
{ |
|
"epoch": 0.4666666666666667, |
|
"grad_norm": 4739.56298828125, |
|
"learning_rate": 8e-06, |
|
"loss": 255.8588, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 0.47, |
|
"grad_norm": 3110.748046875, |
|
"learning_rate": 8e-06, |
|
"loss": 268.7426, |
|
"step": 141 |
|
}, |
|
{ |
|
"epoch": 0.47333333333333333, |
|
"grad_norm": 3332.57958984375, |
|
"learning_rate": 8e-06, |
|
"loss": 297.3264, |
|
"step": 142 |
|
}, |
|
{ |
|
"epoch": 0.4766666666666667, |
|
"grad_norm": 3208.52685546875, |
|
"learning_rate": 8e-06, |
|
"loss": 249.0137, |
|
"step": 143 |
|
}, |
|
{ |
|
"epoch": 0.48, |
|
"grad_norm": 15584.43359375, |
|
"learning_rate": 8e-06, |
|
"loss": 269.6663, |
|
"step": 144 |
|
}, |
|
{ |
|
"epoch": 0.48333333333333334, |
|
"grad_norm": 27723.552734375, |
|
"learning_rate": 8e-06, |
|
"loss": 286.3863, |
|
"step": 145 |
|
}, |
|
{ |
|
"epoch": 0.4866666666666667, |
|
"grad_norm": 4074.123291015625, |
|
"learning_rate": 8e-06, |
|
"loss": 392.1979, |
|
"step": 146 |
|
}, |
|
{ |
|
"epoch": 0.49, |
|
"grad_norm": 3560.1455078125, |
|
"learning_rate": 8e-06, |
|
"loss": 269.0158, |
|
"step": 147 |
|
}, |
|
{ |
|
"epoch": 0.49333333333333335, |
|
"grad_norm": 3564.868408203125, |
|
"learning_rate": 8e-06, |
|
"loss": 316.9247, |
|
"step": 148 |
|
}, |
|
{ |
|
"epoch": 0.49666666666666665, |
|
"grad_norm": 3976.566162109375, |
|
"learning_rate": 8e-06, |
|
"loss": 291.2782, |
|
"step": 149 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 4100.13720703125, |
|
"learning_rate": 8e-06, |
|
"loss": 276.4059, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.5033333333333333, |
|
"grad_norm": 2941.823974609375, |
|
"learning_rate": 8e-06, |
|
"loss": 261.7668, |
|
"step": 151 |
|
}, |
|
{ |
|
"epoch": 0.5066666666666667, |
|
"grad_norm": 3383.001708984375, |
|
"learning_rate": 8e-06, |
|
"loss": 302.0899, |
|
"step": 152 |
|
}, |
|
{ |
|
"epoch": 0.51, |
|
"grad_norm": 5256.3232421875, |
|
"learning_rate": 8e-06, |
|
"loss": 287.4728, |
|
"step": 153 |
|
}, |
|
{ |
|
"epoch": 0.5133333333333333, |
|
"grad_norm": 3733.6240234375, |
|
"learning_rate": 8e-06, |
|
"loss": 251.2614, |
|
"step": 154 |
|
}, |
|
{ |
|
"epoch": 0.5166666666666667, |
|
"grad_norm": 3867.15234375, |
|
"learning_rate": 8e-06, |
|
"loss": 352.7506, |
|
"step": 155 |
|
}, |
|
{ |
|
"epoch": 0.52, |
|
"grad_norm": 3016.2265625, |
|
"learning_rate": 8e-06, |
|
"loss": 241.3634, |
|
"step": 156 |
|
}, |
|
{ |
|
"epoch": 0.5233333333333333, |
|
"grad_norm": 3690.19189453125, |
|
"learning_rate": 8e-06, |
|
"loss": 322.1484, |
|
"step": 157 |
|
}, |
|
{ |
|
"epoch": 0.5266666666666666, |
|
"grad_norm": 2867.7392578125, |
|
"learning_rate": 8e-06, |
|
"loss": 256.9736, |
|
"step": 158 |
|
}, |
|
{ |
|
"epoch": 0.53, |
|
"grad_norm": 40280.43359375, |
|
"learning_rate": 8e-06, |
|
"loss": 329.875, |
|
"step": 159 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 3301.6806640625, |
|
"learning_rate": 8e-06, |
|
"loss": 304.6819, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 0.5366666666666666, |
|
"grad_norm": 5835.25732421875, |
|
"learning_rate": 8e-06, |
|
"loss": 279.393, |
|
"step": 161 |
|
}, |
|
{ |
|
"epoch": 0.54, |
|
"grad_norm": 3798.682861328125, |
|
"learning_rate": 8e-06, |
|
"loss": 313.3201, |
|
"step": 162 |
|
}, |
|
{ |
|
"epoch": 0.5433333333333333, |
|
"grad_norm": 4291.4501953125, |
|
"learning_rate": 8e-06, |
|
"loss": 300.9011, |
|
"step": 163 |
|
}, |
|
{ |
|
"epoch": 0.5466666666666666, |
|
"grad_norm": 3922.12451171875, |
|
"learning_rate": 8e-06, |
|
"loss": 351.2925, |
|
"step": 164 |
|
}, |
|
{ |
|
"epoch": 0.55, |
|
"grad_norm": 3791.50341796875, |
|
"learning_rate": 8e-06, |
|
"loss": 325.6664, |
|
"step": 165 |
|
}, |
|
{ |
|
"epoch": 0.5533333333333333, |
|
"grad_norm": 4051.289306640625, |
|
"learning_rate": 8e-06, |
|
"loss": 263.1725, |
|
"step": 166 |
|
}, |
|
{ |
|
"epoch": 0.5566666666666666, |
|
"grad_norm": 3581.71142578125, |
|
"learning_rate": 8e-06, |
|
"loss": 250.4543, |
|
"step": 167 |
|
}, |
|
{ |
|
"epoch": 0.56, |
|
"grad_norm": 3169.486083984375, |
|
"learning_rate": 8e-06, |
|
"loss": 294.2786, |
|
"step": 168 |
|
}, |
|
{ |
|
"epoch": 0.5633333333333334, |
|
"grad_norm": 2631.362548828125, |
|
"learning_rate": 8e-06, |
|
"loss": 217.1984, |
|
"step": 169 |
|
}, |
|
{ |
|
"epoch": 0.5666666666666667, |
|
"grad_norm": 2557.88134765625, |
|
"learning_rate": 8e-06, |
|
"loss": 239.9385, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 0.57, |
|
"grad_norm": 10312.841796875, |
|
"learning_rate": 8e-06, |
|
"loss": 249.3919, |
|
"step": 171 |
|
}, |
|
{ |
|
"epoch": 0.5733333333333334, |
|
"grad_norm": 3068.349853515625, |
|
"learning_rate": 8e-06, |
|
"loss": 234.3448, |
|
"step": 172 |
|
}, |
|
{ |
|
"epoch": 0.5766666666666667, |
|
"grad_norm": 3917.5107421875, |
|
"learning_rate": 8e-06, |
|
"loss": 311.7297, |
|
"step": 173 |
|
}, |
|
{ |
|
"epoch": 0.58, |
|
"grad_norm": 2701.498046875, |
|
"learning_rate": 8e-06, |
|
"loss": 210.6637, |
|
"step": 174 |
|
}, |
|
{ |
|
"epoch": 0.5833333333333334, |
|
"grad_norm": 2945.10009765625, |
|
"learning_rate": 8e-06, |
|
"loss": 224.8564, |
|
"step": 175 |
|
}, |
|
{ |
|
"epoch": 0.5866666666666667, |
|
"grad_norm": 5220.5654296875, |
|
"learning_rate": 8e-06, |
|
"loss": 247.0606, |
|
"step": 176 |
|
}, |
|
{ |
|
"epoch": 0.59, |
|
"grad_norm": 5427.705078125, |
|
"learning_rate": 8e-06, |
|
"loss": 307.3244, |
|
"step": 177 |
|
}, |
|
{ |
|
"epoch": 0.5933333333333334, |
|
"grad_norm": 3268.90087890625, |
|
"learning_rate": 8e-06, |
|
"loss": 267.0103, |
|
"step": 178 |
|
}, |
|
{ |
|
"epoch": 0.5966666666666667, |
|
"grad_norm": 10908.9677734375, |
|
"learning_rate": 8e-06, |
|
"loss": 285.3419, |
|
"step": 179 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 3789.08154296875, |
|
"learning_rate": 8e-06, |
|
"loss": 331.1101, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 0.6033333333333334, |
|
"grad_norm": 3043.91552734375, |
|
"learning_rate": 8e-06, |
|
"loss": 308.622, |
|
"step": 181 |
|
}, |
|
{ |
|
"epoch": 0.6066666666666667, |
|
"grad_norm": 4932.53564453125, |
|
"learning_rate": 8e-06, |
|
"loss": 322.7148, |
|
"step": 182 |
|
}, |
|
{ |
|
"epoch": 0.61, |
|
"grad_norm": 3490.79833984375, |
|
"learning_rate": 8e-06, |
|
"loss": 309.721, |
|
"step": 183 |
|
}, |
|
{ |
|
"epoch": 0.6133333333333333, |
|
"grad_norm": 11744.5546875, |
|
"learning_rate": 8e-06, |
|
"loss": 353.9744, |
|
"step": 184 |
|
}, |
|
{ |
|
"epoch": 0.6166666666666667, |
|
"grad_norm": 5138.8125, |
|
"learning_rate": 8e-06, |
|
"loss": 381.9202, |
|
"step": 185 |
|
}, |
|
{ |
|
"epoch": 0.62, |
|
"grad_norm": 3228.42236328125, |
|
"learning_rate": 8e-06, |
|
"loss": 259.5366, |
|
"step": 186 |
|
}, |
|
{ |
|
"epoch": 0.6233333333333333, |
|
"grad_norm": 3402.6796875, |
|
"learning_rate": 8e-06, |
|
"loss": 321.2389, |
|
"step": 187 |
|
}, |
|
{ |
|
"epoch": 0.6266666666666667, |
|
"grad_norm": 2996.648193359375, |
|
"learning_rate": 8e-06, |
|
"loss": 288.2106, |
|
"step": 188 |
|
}, |
|
{ |
|
"epoch": 0.63, |
|
"grad_norm": 2826.81982421875, |
|
"learning_rate": 8e-06, |
|
"loss": 225.985, |
|
"step": 189 |
|
}, |
|
{ |
|
"epoch": 0.6333333333333333, |
|
"grad_norm": 3551.96337890625, |
|
"learning_rate": 8e-06, |
|
"loss": 330.4437, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 0.6366666666666667, |
|
"grad_norm": 3478.882568359375, |
|
"learning_rate": 8e-06, |
|
"loss": 336.5376, |
|
"step": 191 |
|
}, |
|
{ |
|
"epoch": 0.64, |
|
"grad_norm": 4110.38134765625, |
|
"learning_rate": 8e-06, |
|
"loss": 261.2546, |
|
"step": 192 |
|
}, |
|
{ |
|
"epoch": 0.6433333333333333, |
|
"grad_norm": 3620.785400390625, |
|
"learning_rate": 8e-06, |
|
"loss": 317.138, |
|
"step": 193 |
|
}, |
|
{ |
|
"epoch": 0.6466666666666666, |
|
"grad_norm": 3330.638427734375, |
|
"learning_rate": 8e-06, |
|
"loss": 249.6132, |
|
"step": 194 |
|
}, |
|
{ |
|
"epoch": 0.65, |
|
"grad_norm": 5665.078125, |
|
"learning_rate": 8e-06, |
|
"loss": 296.731, |
|
"step": 195 |
|
}, |
|
{ |
|
"epoch": 0.6533333333333333, |
|
"grad_norm": 3430.8359375, |
|
"learning_rate": 8e-06, |
|
"loss": 292.0752, |
|
"step": 196 |
|
}, |
|
{ |
|
"epoch": 0.6566666666666666, |
|
"grad_norm": 6075.54248046875, |
|
"learning_rate": 8e-06, |
|
"loss": 333.7978, |
|
"step": 197 |
|
}, |
|
{ |
|
"epoch": 0.66, |
|
"grad_norm": 7324.5205078125, |
|
"learning_rate": 8e-06, |
|
"loss": 329.4111, |
|
"step": 198 |
|
}, |
|
{ |
|
"epoch": 0.6633333333333333, |
|
"grad_norm": 2889.927490234375, |
|
"learning_rate": 8e-06, |
|
"loss": 241.07, |
|
"step": 199 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 4839.7412109375, |
|
"learning_rate": 8e-06, |
|
"loss": 291.9418, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.67, |
|
"grad_norm": 3711.042236328125, |
|
"learning_rate": 8e-06, |
|
"loss": 312.4595, |
|
"step": 201 |
|
}, |
|
{ |
|
"epoch": 0.6733333333333333, |
|
"grad_norm": 3562.346435546875, |
|
"learning_rate": 8e-06, |
|
"loss": 246.6008, |
|
"step": 202 |
|
}, |
|
{ |
|
"epoch": 0.6766666666666666, |
|
"grad_norm": 2907.572021484375, |
|
"learning_rate": 8e-06, |
|
"loss": 255.3827, |
|
"step": 203 |
|
}, |
|
{ |
|
"epoch": 0.68, |
|
"grad_norm": 8729.5048828125, |
|
"learning_rate": 8e-06, |
|
"loss": 297.4739, |
|
"step": 204 |
|
}, |
|
{ |
|
"epoch": 0.6833333333333333, |
|
"grad_norm": 2872.552001953125, |
|
"learning_rate": 8e-06, |
|
"loss": 239.869, |
|
"step": 205 |
|
}, |
|
{ |
|
"epoch": 0.6866666666666666, |
|
"grad_norm": 2916.447021484375, |
|
"learning_rate": 8e-06, |
|
"loss": 236.7443, |
|
"step": 206 |
|
}, |
|
{ |
|
"epoch": 0.69, |
|
"grad_norm": 3551.052978515625, |
|
"learning_rate": 8e-06, |
|
"loss": 307.2638, |
|
"step": 207 |
|
}, |
|
{ |
|
"epoch": 0.6933333333333334, |
|
"grad_norm": 3032.5380859375, |
|
"learning_rate": 8e-06, |
|
"loss": 277.9977, |
|
"step": 208 |
|
}, |
|
{ |
|
"epoch": 0.6966666666666667, |
|
"grad_norm": 4455.4912109375, |
|
"learning_rate": 8e-06, |
|
"loss": 311.0144, |
|
"step": 209 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"grad_norm": 3393.73681640625, |
|
"learning_rate": 8e-06, |
|
"loss": 263.7961, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 0.7033333333333334, |
|
"grad_norm": 2522.445556640625, |
|
"learning_rate": 8e-06, |
|
"loss": 226.4581, |
|
"step": 211 |
|
}, |
|
{ |
|
"epoch": 0.7066666666666667, |
|
"grad_norm": 3028.45703125, |
|
"learning_rate": 8e-06, |
|
"loss": 281.5686, |
|
"step": 212 |
|
}, |
|
{ |
|
"epoch": 0.71, |
|
"grad_norm": 2838.064697265625, |
|
"learning_rate": 8e-06, |
|
"loss": 269.2559, |
|
"step": 213 |
|
}, |
|
{ |
|
"epoch": 0.7133333333333334, |
|
"grad_norm": 3279.972900390625, |
|
"learning_rate": 8e-06, |
|
"loss": 326.9465, |
|
"step": 214 |
|
}, |
|
{ |
|
"epoch": 0.7166666666666667, |
|
"grad_norm": 2944.669189453125, |
|
"learning_rate": 8e-06, |
|
"loss": 242.4968, |
|
"step": 215 |
|
}, |
|
{ |
|
"epoch": 0.72, |
|
"grad_norm": 3292.0029296875, |
|
"learning_rate": 8e-06, |
|
"loss": 291.0416, |
|
"step": 216 |
|
}, |
|
{ |
|
"epoch": 0.7233333333333334, |
|
"grad_norm": 2995.833251953125, |
|
"learning_rate": 8e-06, |
|
"loss": 273.9235, |
|
"step": 217 |
|
}, |
|
{ |
|
"epoch": 0.7266666666666667, |
|
"grad_norm": 3278.17822265625, |
|
"learning_rate": 8e-06, |
|
"loss": 248.1496, |
|
"step": 218 |
|
}, |
|
{ |
|
"epoch": 0.73, |
|
"grad_norm": 3317.37451171875, |
|
"learning_rate": 8e-06, |
|
"loss": 342.4843, |
|
"step": 219 |
|
}, |
|
{ |
|
"epoch": 0.7333333333333333, |
|
"grad_norm": 3103.078125, |
|
"learning_rate": 8e-06, |
|
"loss": 288.849, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 0.7366666666666667, |
|
"grad_norm": 3102.86083984375, |
|
"learning_rate": 8e-06, |
|
"loss": 267.763, |
|
"step": 221 |
|
}, |
|
{ |
|
"epoch": 0.74, |
|
"grad_norm": 3314.853271484375, |
|
"learning_rate": 8e-06, |
|
"loss": 292.4836, |
|
"step": 222 |
|
}, |
|
{ |
|
"epoch": 0.7433333333333333, |
|
"grad_norm": 2515.840087890625, |
|
"learning_rate": 8e-06, |
|
"loss": 200.3891, |
|
"step": 223 |
|
}, |
|
{ |
|
"epoch": 0.7466666666666667, |
|
"grad_norm": 2199.884765625, |
|
"learning_rate": 8e-06, |
|
"loss": 216.3481, |
|
"step": 224 |
|
}, |
|
{ |
|
"epoch": 0.75, |
|
"grad_norm": 3209.211669921875, |
|
"learning_rate": 8e-06, |
|
"loss": 226.9698, |
|
"step": 225 |
|
}, |
|
{ |
|
"epoch": 0.7533333333333333, |
|
"grad_norm": 2985.835693359375, |
|
"learning_rate": 8e-06, |
|
"loss": 274.5299, |
|
"step": 226 |
|
}, |
|
{ |
|
"epoch": 0.7566666666666667, |
|
"grad_norm": 4339.10888671875, |
|
"learning_rate": 8e-06, |
|
"loss": 249.6611, |
|
"step": 227 |
|
}, |
|
{ |
|
"epoch": 0.76, |
|
"grad_norm": 5717.1806640625, |
|
"learning_rate": 8e-06, |
|
"loss": 279.2451, |
|
"step": 228 |
|
}, |
|
{ |
|
"epoch": 0.7633333333333333, |
|
"grad_norm": 1922.8037109375, |
|
"learning_rate": 8e-06, |
|
"loss": 163.3981, |
|
"step": 229 |
|
}, |
|
{ |
|
"epoch": 0.7666666666666667, |
|
"grad_norm": 2883.223876953125, |
|
"learning_rate": 8e-06, |
|
"loss": 289.6681, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 0.77, |
|
"grad_norm": 3146.4814453125, |
|
"learning_rate": 8e-06, |
|
"loss": 266.2442, |
|
"step": 231 |
|
}, |
|
{ |
|
"epoch": 0.7733333333333333, |
|
"grad_norm": 2848.17724609375, |
|
"learning_rate": 8e-06, |
|
"loss": 241.1193, |
|
"step": 232 |
|
}, |
|
{ |
|
"epoch": 0.7766666666666666, |
|
"grad_norm": 5164.63525390625, |
|
"learning_rate": 8e-06, |
|
"loss": 238.3128, |
|
"step": 233 |
|
}, |
|
{ |
|
"epoch": 0.78, |
|
"grad_norm": 30185.416015625, |
|
"learning_rate": 8e-06, |
|
"loss": 338.5593, |
|
"step": 234 |
|
}, |
|
{ |
|
"epoch": 0.7833333333333333, |
|
"grad_norm": 2669.078857421875, |
|
"learning_rate": 8e-06, |
|
"loss": 254.7147, |
|
"step": 235 |
|
}, |
|
{ |
|
"epoch": 0.7866666666666666, |
|
"grad_norm": 3444.97607421875, |
|
"learning_rate": 8e-06, |
|
"loss": 283.7398, |
|
"step": 236 |
|
}, |
|
{ |
|
"epoch": 0.79, |
|
"grad_norm": 3440.032958984375, |
|
"learning_rate": 8e-06, |
|
"loss": 319.4095, |
|
"step": 237 |
|
}, |
|
{ |
|
"epoch": 0.7933333333333333, |
|
"grad_norm": 3022.367431640625, |
|
"learning_rate": 8e-06, |
|
"loss": 250.9974, |
|
"step": 238 |
|
}, |
|
{ |
|
"epoch": 0.7966666666666666, |
|
"grad_norm": 3010.485595703125, |
|
"learning_rate": 8e-06, |
|
"loss": 274.7934, |
|
"step": 239 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 2450.54052734375, |
|
"learning_rate": 8e-06, |
|
"loss": 211.3371, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 0.8033333333333333, |
|
"grad_norm": 10314.9560546875, |
|
"learning_rate": 8e-06, |
|
"loss": 669.7935, |
|
"step": 241 |
|
}, |
|
{ |
|
"epoch": 0.8066666666666666, |
|
"grad_norm": 3431.2255859375, |
|
"learning_rate": 8e-06, |
|
"loss": 226.4799, |
|
"step": 242 |
|
}, |
|
{ |
|
"epoch": 0.81, |
|
"grad_norm": 3359.284912109375, |
|
"learning_rate": 8e-06, |
|
"loss": 356.0662, |
|
"step": 243 |
|
}, |
|
{ |
|
"epoch": 0.8133333333333334, |
|
"grad_norm": 3586.3583984375, |
|
"learning_rate": 8e-06, |
|
"loss": 332.8689, |
|
"step": 244 |
|
}, |
|
{ |
|
"epoch": 0.8166666666666667, |
|
"grad_norm": 8722.8349609375, |
|
"learning_rate": 8e-06, |
|
"loss": 255.4095, |
|
"step": 245 |
|
}, |
|
{ |
|
"epoch": 0.82, |
|
"grad_norm": 2567.072509765625, |
|
"learning_rate": 8e-06, |
|
"loss": 240.3655, |
|
"step": 246 |
|
}, |
|
{ |
|
"epoch": 0.8233333333333334, |
|
"grad_norm": 3487.963623046875, |
|
"learning_rate": 8e-06, |
|
"loss": 310.909, |
|
"step": 247 |
|
}, |
|
{ |
|
"epoch": 0.8266666666666667, |
|
"grad_norm": 3218.185302734375, |
|
"learning_rate": 8e-06, |
|
"loss": 224.5296, |
|
"step": 248 |
|
}, |
|
{ |
|
"epoch": 0.83, |
|
"grad_norm": 3100.22998046875, |
|
"learning_rate": 8e-06, |
|
"loss": 275.8154, |
|
"step": 249 |
|
}, |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"grad_norm": 2711.873779296875, |
|
"learning_rate": 8e-06, |
|
"loss": 245.1363, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.8366666666666667, |
|
"grad_norm": 6701.63525390625, |
|
"learning_rate": 8e-06, |
|
"loss": 318.0585, |
|
"step": 251 |
|
}, |
|
{ |
|
"epoch": 0.84, |
|
"grad_norm": 2469.4111328125, |
|
"learning_rate": 8e-06, |
|
"loss": 206.172, |
|
"step": 252 |
|
}, |
|
{ |
|
"epoch": 0.8433333333333334, |
|
"grad_norm": 2929.555419921875, |
|
"learning_rate": 8e-06, |
|
"loss": 255.2601, |
|
"step": 253 |
|
}, |
|
{ |
|
"epoch": 0.8466666666666667, |
|
"grad_norm": 3089.22900390625, |
|
"learning_rate": 8e-06, |
|
"loss": 275.1524, |
|
"step": 254 |
|
}, |
|
{ |
|
"epoch": 0.85, |
|
"grad_norm": 3216.767578125, |
|
"learning_rate": 8e-06, |
|
"loss": 250.7503, |
|
"step": 255 |
|
}, |
|
{ |
|
"epoch": 0.8533333333333334, |
|
"grad_norm": 2914.973876953125, |
|
"learning_rate": 8e-06, |
|
"loss": 258.4535, |
|
"step": 256 |
|
}, |
|
{ |
|
"epoch": 0.8566666666666667, |
|
"grad_norm": 50174.5078125, |
|
"learning_rate": 8e-06, |
|
"loss": 609.7941, |
|
"step": 257 |
|
}, |
|
{ |
|
"epoch": 0.86, |
|
"grad_norm": 3105.322998046875, |
|
"learning_rate": 8e-06, |
|
"loss": 335.5597, |
|
"step": 258 |
|
}, |
|
{ |
|
"epoch": 0.8633333333333333, |
|
"grad_norm": 4548.2548828125, |
|
"learning_rate": 8e-06, |
|
"loss": 275.8671, |
|
"step": 259 |
|
}, |
|
{ |
|
"epoch": 0.8666666666666667, |
|
"grad_norm": 2810.388916015625, |
|
"learning_rate": 8e-06, |
|
"loss": 263.3778, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 0.87, |
|
"grad_norm": 4014.811767578125, |
|
"learning_rate": 8e-06, |
|
"loss": 281.3542, |
|
"step": 261 |
|
}, |
|
{ |
|
"epoch": 0.8733333333333333, |
|
"grad_norm": 3318.468994140625, |
|
"learning_rate": 8e-06, |
|
"loss": 326.7267, |
|
"step": 262 |
|
}, |
|
{ |
|
"epoch": 0.8766666666666667, |
|
"grad_norm": 21219.521484375, |
|
"learning_rate": 8e-06, |
|
"loss": 366.0864, |
|
"step": 263 |
|
}, |
|
{ |
|
"epoch": 0.88, |
|
"grad_norm": 3987.22998046875, |
|
"learning_rate": 8e-06, |
|
"loss": 373.7441, |
|
"step": 264 |
|
}, |
|
{ |
|
"epoch": 0.8833333333333333, |
|
"grad_norm": 3076.98876953125, |
|
"learning_rate": 8e-06, |
|
"loss": 315.7464, |
|
"step": 265 |
|
}, |
|
{ |
|
"epoch": 0.8866666666666667, |
|
"grad_norm": 3121.901123046875, |
|
"learning_rate": 8e-06, |
|
"loss": 251.5838, |
|
"step": 266 |
|
}, |
|
{ |
|
"epoch": 0.89, |
|
"grad_norm": 3203.251953125, |
|
"learning_rate": 8e-06, |
|
"loss": 342.4987, |
|
"step": 267 |
|
}, |
|
{ |
|
"epoch": 0.8933333333333333, |
|
"grad_norm": 2980.89794921875, |
|
"learning_rate": 8e-06, |
|
"loss": 256.1788, |
|
"step": 268 |
|
}, |
|
{ |
|
"epoch": 0.8966666666666666, |
|
"grad_norm": 2591.302490234375, |
|
"learning_rate": 8e-06, |
|
"loss": 219.8607, |
|
"step": 269 |
|
}, |
|
{ |
|
"epoch": 0.9, |
|
"grad_norm": 2314.455078125, |
|
"learning_rate": 8e-06, |
|
"loss": 204.4726, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 0.9033333333333333, |
|
"grad_norm": 2942.879150390625, |
|
"learning_rate": 8e-06, |
|
"loss": 254.1741, |
|
"step": 271 |
|
}, |
|
{ |
|
"epoch": 0.9066666666666666, |
|
"grad_norm": 8133.71875, |
|
"learning_rate": 8e-06, |
|
"loss": 365.5086, |
|
"step": 272 |
|
}, |
|
{ |
|
"epoch": 0.91, |
|
"grad_norm": 2597.53125, |
|
"learning_rate": 8e-06, |
|
"loss": 231.1918, |
|
"step": 273 |
|
}, |
|
{ |
|
"epoch": 0.9133333333333333, |
|
"grad_norm": 7106.68994140625, |
|
"learning_rate": 8e-06, |
|
"loss": 267.6558, |
|
"step": 274 |
|
}, |
|
{ |
|
"epoch": 0.9166666666666666, |
|
"grad_norm": 9943.7099609375, |
|
"learning_rate": 8e-06, |
|
"loss": 356.9215, |
|
"step": 275 |
|
}, |
|
{ |
|
"epoch": 0.92, |
|
"grad_norm": 2935.984375, |
|
"learning_rate": 8e-06, |
|
"loss": 244.6402, |
|
"step": 276 |
|
}, |
|
{ |
|
"epoch": 0.9233333333333333, |
|
"grad_norm": 2658.87744140625, |
|
"learning_rate": 8e-06, |
|
"loss": 255.5557, |
|
"step": 277 |
|
}, |
|
{ |
|
"epoch": 0.9266666666666666, |
|
"grad_norm": 3075.70068359375, |
|
"learning_rate": 8e-06, |
|
"loss": 275.4171, |
|
"step": 278 |
|
}, |
|
{ |
|
"epoch": 0.93, |
|
"grad_norm": 2404.6337890625, |
|
"learning_rate": 8e-06, |
|
"loss": 211.1503, |
|
"step": 279 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"grad_norm": 2839.173583984375, |
|
"learning_rate": 8e-06, |
|
"loss": 260.4447, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 0.9366666666666666, |
|
"grad_norm": 2812.916748046875, |
|
"learning_rate": 8e-06, |
|
"loss": 268.6677, |
|
"step": 281 |
|
}, |
|
{ |
|
"epoch": 0.94, |
|
"grad_norm": 3363.776611328125, |
|
"learning_rate": 8e-06, |
|
"loss": 312.5987, |
|
"step": 282 |
|
}, |
|
{ |
|
"epoch": 0.9433333333333334, |
|
"grad_norm": 2543.073974609375, |
|
"learning_rate": 8e-06, |
|
"loss": 205.9395, |
|
"step": 283 |
|
}, |
|
{ |
|
"epoch": 0.9466666666666667, |
|
"grad_norm": 4796.2236328125, |
|
"learning_rate": 8e-06, |
|
"loss": 195.7359, |
|
"step": 284 |
|
}, |
|
{ |
|
"epoch": 0.95, |
|
"grad_norm": 2741.69140625, |
|
"learning_rate": 8e-06, |
|
"loss": 233.1778, |
|
"step": 285 |
|
}, |
|
{ |
|
"epoch": 0.9533333333333334, |
|
"grad_norm": 2493.708984375, |
|
"learning_rate": 8e-06, |
|
"loss": 207.12, |
|
"step": 286 |
|
}, |
|
{ |
|
"epoch": 0.9566666666666667, |
|
"grad_norm": 26911.68359375, |
|
"learning_rate": 8e-06, |
|
"loss": 235.8838, |
|
"step": 287 |
|
}, |
|
{ |
|
"epoch": 0.96, |
|
"grad_norm": 2865.230224609375, |
|
"learning_rate": 8e-06, |
|
"loss": 234.9224, |
|
"step": 288 |
|
}, |
|
{ |
|
"epoch": 0.9633333333333334, |
|
"grad_norm": 3929.42431640625, |
|
"learning_rate": 8e-06, |
|
"loss": 301.713, |
|
"step": 289 |
|
}, |
|
{ |
|
"epoch": 0.9666666666666667, |
|
"grad_norm": 3091.3818359375, |
|
"learning_rate": 8e-06, |
|
"loss": 266.6574, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 0.97, |
|
"grad_norm": 2879.42822265625, |
|
"learning_rate": 8e-06, |
|
"loss": 226.4114, |
|
"step": 291 |
|
}, |
|
{ |
|
"epoch": 0.9733333333333334, |
|
"grad_norm": 4383.98876953125, |
|
"learning_rate": 8e-06, |
|
"loss": 283.6816, |
|
"step": 292 |
|
}, |
|
{ |
|
"epoch": 0.9766666666666667, |
|
"grad_norm": 6967.61376953125, |
|
"learning_rate": 8e-06, |
|
"loss": 292.857, |
|
"step": 293 |
|
}, |
|
{ |
|
"epoch": 0.98, |
|
"grad_norm": 2490.9794921875, |
|
"learning_rate": 8e-06, |
|
"loss": 221.0435, |
|
"step": 294 |
|
}, |
|
{ |
|
"epoch": 0.9833333333333333, |
|
"grad_norm": 4937.3935546875, |
|
"learning_rate": 8e-06, |
|
"loss": 488.6658, |
|
"step": 295 |
|
}, |
|
{ |
|
"epoch": 0.9866666666666667, |
|
"grad_norm": 11989.2177734375, |
|
"learning_rate": 8e-06, |
|
"loss": 250.2168, |
|
"step": 296 |
|
}, |
|
{ |
|
"epoch": 0.99, |
|
"grad_norm": 3021.28076171875, |
|
"learning_rate": 8e-06, |
|
"loss": 238.7066, |
|
"step": 297 |
|
}, |
|
{ |
|
"epoch": 0.9933333333333333, |
|
"grad_norm": 2585.99072265625, |
|
"learning_rate": 8e-06, |
|
"loss": 231.4611, |
|
"step": 298 |
|
}, |
|
{ |
|
"epoch": 0.9966666666666667, |
|
"grad_norm": 3125.06298828125, |
|
"learning_rate": 8e-06, |
|
"loss": 276.1064, |
|
"step": 299 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 2861.87255859375, |
|
"learning_rate": 8e-06, |
|
"loss": 291.5585, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 1.0033333333333334, |
|
"grad_norm": 1895.1048583984375, |
|
"learning_rate": 8e-06, |
|
"loss": 175.189, |
|
"step": 301 |
|
}, |
|
{ |
|
"epoch": 1.0066666666666666, |
|
"grad_norm": 2189.89501953125, |
|
"learning_rate": 8e-06, |
|
"loss": 183.5457, |
|
"step": 302 |
|
}, |
|
{ |
|
"epoch": 1.01, |
|
"grad_norm": 3206.24609375, |
|
"learning_rate": 8e-06, |
|
"loss": 138.4382, |
|
"step": 303 |
|
}, |
|
{ |
|
"epoch": 1.0133333333333334, |
|
"grad_norm": 2248.70947265625, |
|
"learning_rate": 8e-06, |
|
"loss": 193.5868, |
|
"step": 304 |
|
}, |
|
{ |
|
"epoch": 1.0166666666666666, |
|
"grad_norm": 2114.16064453125, |
|
"learning_rate": 8e-06, |
|
"loss": 182.4887, |
|
"step": 305 |
|
}, |
|
{ |
|
"epoch": 1.02, |
|
"grad_norm": 2053.282958984375, |
|
"learning_rate": 8e-06, |
|
"loss": 161.4878, |
|
"step": 306 |
|
}, |
|
{ |
|
"epoch": 1.0233333333333334, |
|
"grad_norm": 3352.9658203125, |
|
"learning_rate": 8e-06, |
|
"loss": 198.5755, |
|
"step": 307 |
|
}, |
|
{ |
|
"epoch": 1.0266666666666666, |
|
"grad_norm": 2226.722900390625, |
|
"learning_rate": 8e-06, |
|
"loss": 190.7063, |
|
"step": 308 |
|
}, |
|
{ |
|
"epoch": 1.03, |
|
"grad_norm": 1648.5791015625, |
|
"learning_rate": 8e-06, |
|
"loss": 123.5357, |
|
"step": 309 |
|
}, |
|
{ |
|
"epoch": 1.0333333333333334, |
|
"grad_norm": 4348.27880859375, |
|
"learning_rate": 8e-06, |
|
"loss": 148.0692, |
|
"step": 310 |
|
}, |
|
{ |
|
"epoch": 1.0366666666666666, |
|
"grad_norm": 2404.052734375, |
|
"learning_rate": 8e-06, |
|
"loss": 199.4967, |
|
"step": 311 |
|
}, |
|
{ |
|
"epoch": 1.04, |
|
"grad_norm": 2040.4388427734375, |
|
"learning_rate": 8e-06, |
|
"loss": 155.1767, |
|
"step": 312 |
|
}, |
|
{ |
|
"epoch": 1.0433333333333334, |
|
"grad_norm": 2209.615966796875, |
|
"learning_rate": 8e-06, |
|
"loss": 157.1001, |
|
"step": 313 |
|
}, |
|
{ |
|
"epoch": 1.0466666666666666, |
|
"grad_norm": 2587.216552734375, |
|
"learning_rate": 8e-06, |
|
"loss": 187.8506, |
|
"step": 314 |
|
}, |
|
{ |
|
"epoch": 1.05, |
|
"grad_norm": 2105.357421875, |
|
"learning_rate": 8e-06, |
|
"loss": 171.9885, |
|
"step": 315 |
|
}, |
|
{ |
|
"epoch": 1.0533333333333332, |
|
"grad_norm": 2170.13134765625, |
|
"learning_rate": 8e-06, |
|
"loss": 179.4087, |
|
"step": 316 |
|
}, |
|
{ |
|
"epoch": 1.0566666666666666, |
|
"grad_norm": 2668.26416015625, |
|
"learning_rate": 8e-06, |
|
"loss": 154.123, |
|
"step": 317 |
|
}, |
|
{ |
|
"epoch": 1.06, |
|
"grad_norm": 1891.8875732421875, |
|
"learning_rate": 8e-06, |
|
"loss": 145.8987, |
|
"step": 318 |
|
}, |
|
{ |
|
"epoch": 1.0633333333333332, |
|
"grad_norm": 2365.20947265625, |
|
"learning_rate": 8e-06, |
|
"loss": 181.9857, |
|
"step": 319 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"grad_norm": 1698.6849365234375, |
|
"learning_rate": 8e-06, |
|
"loss": 153.0071, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 1.07, |
|
"grad_norm": 2976.96630859375, |
|
"learning_rate": 8e-06, |
|
"loss": 248.4191, |
|
"step": 321 |
|
}, |
|
{ |
|
"epoch": 1.0733333333333333, |
|
"grad_norm": 3645.52001953125, |
|
"learning_rate": 8e-06, |
|
"loss": 192.0311, |
|
"step": 322 |
|
}, |
|
{ |
|
"epoch": 1.0766666666666667, |
|
"grad_norm": 3383.41845703125, |
|
"learning_rate": 8e-06, |
|
"loss": 205.9243, |
|
"step": 323 |
|
}, |
|
{ |
|
"epoch": 1.08, |
|
"grad_norm": 3263.815673828125, |
|
"learning_rate": 8e-06, |
|
"loss": 182.2533, |
|
"step": 324 |
|
}, |
|
{ |
|
"epoch": 1.0833333333333333, |
|
"grad_norm": 2388.34619140625, |
|
"learning_rate": 8e-06, |
|
"loss": 207.0549, |
|
"step": 325 |
|
}, |
|
{ |
|
"epoch": 1.0866666666666667, |
|
"grad_norm": 2643.72607421875, |
|
"learning_rate": 8e-06, |
|
"loss": 142.6037, |
|
"step": 326 |
|
}, |
|
{ |
|
"epoch": 1.09, |
|
"grad_norm": 1558.873046875, |
|
"learning_rate": 8e-06, |
|
"loss": 144.7025, |
|
"step": 327 |
|
}, |
|
{ |
|
"epoch": 1.0933333333333333, |
|
"grad_norm": 1525.6187744140625, |
|
"learning_rate": 8e-06, |
|
"loss": 147.5978, |
|
"step": 328 |
|
}, |
|
{ |
|
"epoch": 1.0966666666666667, |
|
"grad_norm": 3101.341796875, |
|
"learning_rate": 8e-06, |
|
"loss": 208.2214, |
|
"step": 329 |
|
}, |
|
{ |
|
"epoch": 1.1, |
|
"grad_norm": 3434.76318359375, |
|
"learning_rate": 8e-06, |
|
"loss": 171.8323, |
|
"step": 330 |
|
}, |
|
{ |
|
"epoch": 1.1033333333333333, |
|
"grad_norm": 2345.912109375, |
|
"learning_rate": 8e-06, |
|
"loss": 173.9656, |
|
"step": 331 |
|
}, |
|
{ |
|
"epoch": 1.1066666666666667, |
|
"grad_norm": 2904.48486328125, |
|
"learning_rate": 8e-06, |
|
"loss": 209.2182, |
|
"step": 332 |
|
}, |
|
{ |
|
"epoch": 1.11, |
|
"grad_norm": 44378.8125, |
|
"learning_rate": 8e-06, |
|
"loss": 230.725, |
|
"step": 333 |
|
}, |
|
{ |
|
"epoch": 1.1133333333333333, |
|
"grad_norm": 2872.51953125, |
|
"learning_rate": 8e-06, |
|
"loss": 196.8287, |
|
"step": 334 |
|
}, |
|
{ |
|
"epoch": 1.1166666666666667, |
|
"grad_norm": 1854.2708740234375, |
|
"learning_rate": 8e-06, |
|
"loss": 147.5028, |
|
"step": 335 |
|
}, |
|
{ |
|
"epoch": 1.12, |
|
"grad_norm": 2004.066650390625, |
|
"learning_rate": 8e-06, |
|
"loss": 158.9952, |
|
"step": 336 |
|
}, |
|
{ |
|
"epoch": 1.1233333333333333, |
|
"grad_norm": 1941.7972412109375, |
|
"learning_rate": 8e-06, |
|
"loss": 162.1854, |
|
"step": 337 |
|
}, |
|
{ |
|
"epoch": 1.1266666666666667, |
|
"grad_norm": 3790.82421875, |
|
"learning_rate": 8e-06, |
|
"loss": 173.7075, |
|
"step": 338 |
|
}, |
|
{ |
|
"epoch": 1.13, |
|
"grad_norm": 1688.8963623046875, |
|
"learning_rate": 8e-06, |
|
"loss": 161.2739, |
|
"step": 339 |
|
}, |
|
{ |
|
"epoch": 1.1333333333333333, |
|
"grad_norm": 7499.4072265625, |
|
"learning_rate": 8e-06, |
|
"loss": 273.9813, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 1.1366666666666667, |
|
"grad_norm": 2189.1640625, |
|
"learning_rate": 8e-06, |
|
"loss": 163.4938, |
|
"step": 341 |
|
}, |
|
{ |
|
"epoch": 1.1400000000000001, |
|
"grad_norm": 5174.5224609375, |
|
"learning_rate": 8e-06, |
|
"loss": 400.8041, |
|
"step": 342 |
|
}, |
|
{ |
|
"epoch": 1.1433333333333333, |
|
"grad_norm": 1861.2803955078125, |
|
"learning_rate": 8e-06, |
|
"loss": 158.2274, |
|
"step": 343 |
|
}, |
|
{ |
|
"epoch": 1.1466666666666667, |
|
"grad_norm": 2114.91357421875, |
|
"learning_rate": 8e-06, |
|
"loss": 177.6065, |
|
"step": 344 |
|
}, |
|
{ |
|
"epoch": 1.15, |
|
"grad_norm": 1970.2086181640625, |
|
"learning_rate": 8e-06, |
|
"loss": 153.7169, |
|
"step": 345 |
|
}, |
|
{ |
|
"epoch": 1.1533333333333333, |
|
"grad_norm": 2626.900146484375, |
|
"learning_rate": 8e-06, |
|
"loss": 180.7556, |
|
"step": 346 |
|
}, |
|
{ |
|
"epoch": 1.1566666666666667, |
|
"grad_norm": 3540.03515625, |
|
"learning_rate": 8e-06, |
|
"loss": 171.7078, |
|
"step": 347 |
|
}, |
|
{ |
|
"epoch": 1.16, |
|
"grad_norm": 1578.1788330078125, |
|
"learning_rate": 8e-06, |
|
"loss": 144.226, |
|
"step": 348 |
|
}, |
|
{ |
|
"epoch": 1.1633333333333333, |
|
"grad_norm": 7222.56787109375, |
|
"learning_rate": 8e-06, |
|
"loss": 238.0032, |
|
"step": 349 |
|
}, |
|
{ |
|
"epoch": 1.1666666666666667, |
|
"grad_norm": 2714.17626953125, |
|
"learning_rate": 8e-06, |
|
"loss": 167.6138, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 1.17, |
|
"grad_norm": 1841.9884033203125, |
|
"learning_rate": 8e-06, |
|
"loss": 156.3762, |
|
"step": 351 |
|
}, |
|
{ |
|
"epoch": 1.1733333333333333, |
|
"grad_norm": 7967.734375, |
|
"learning_rate": 8e-06, |
|
"loss": 227.3331, |
|
"step": 352 |
|
}, |
|
{ |
|
"epoch": 1.1766666666666667, |
|
"grad_norm": 11436.859375, |
|
"learning_rate": 8e-06, |
|
"loss": 169.6624, |
|
"step": 353 |
|
}, |
|
{ |
|
"epoch": 1.18, |
|
"grad_norm": 2799.8349609375, |
|
"learning_rate": 8e-06, |
|
"loss": 183.4581, |
|
"step": 354 |
|
}, |
|
{ |
|
"epoch": 1.1833333333333333, |
|
"grad_norm": 2907.432373046875, |
|
"learning_rate": 8e-06, |
|
"loss": 169.9039, |
|
"step": 355 |
|
}, |
|
{ |
|
"epoch": 1.1866666666666668, |
|
"grad_norm": 11866.5888671875, |
|
"learning_rate": 8e-06, |
|
"loss": 161.033, |
|
"step": 356 |
|
}, |
|
{ |
|
"epoch": 1.19, |
|
"grad_norm": 2143.69921875, |
|
"learning_rate": 8e-06, |
|
"loss": 190.2374, |
|
"step": 357 |
|
}, |
|
{ |
|
"epoch": 1.1933333333333334, |
|
"grad_norm": 1848.9957275390625, |
|
"learning_rate": 8e-06, |
|
"loss": 176.4111, |
|
"step": 358 |
|
}, |
|
{ |
|
"epoch": 1.1966666666666668, |
|
"grad_norm": 8630.7529296875, |
|
"learning_rate": 8e-06, |
|
"loss": 206.7687, |
|
"step": 359 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 1870.1104736328125, |
|
"learning_rate": 8e-06, |
|
"loss": 150.893, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 1.2033333333333334, |
|
"grad_norm": 2022.3304443359375, |
|
"learning_rate": 8e-06, |
|
"loss": 132.6389, |
|
"step": 361 |
|
}, |
|
{ |
|
"epoch": 1.2066666666666666, |
|
"grad_norm": 2723.172607421875, |
|
"learning_rate": 8e-06, |
|
"loss": 197.7227, |
|
"step": 362 |
|
}, |
|
{ |
|
"epoch": 1.21, |
|
"grad_norm": 2092.636474609375, |
|
"learning_rate": 8e-06, |
|
"loss": 166.2974, |
|
"step": 363 |
|
}, |
|
{ |
|
"epoch": 1.2133333333333334, |
|
"grad_norm": 1803.07470703125, |
|
"learning_rate": 8e-06, |
|
"loss": 151.6591, |
|
"step": 364 |
|
}, |
|
{ |
|
"epoch": 1.2166666666666668, |
|
"grad_norm": 17976.8359375, |
|
"learning_rate": 8e-06, |
|
"loss": 222.8886, |
|
"step": 365 |
|
}, |
|
{ |
|
"epoch": 1.22, |
|
"grad_norm": 1973.697021484375, |
|
"learning_rate": 8e-06, |
|
"loss": 167.9204, |
|
"step": 366 |
|
}, |
|
{ |
|
"epoch": 1.2233333333333334, |
|
"grad_norm": 1902.6009521484375, |
|
"learning_rate": 8e-06, |
|
"loss": 151.387, |
|
"step": 367 |
|
}, |
|
{ |
|
"epoch": 1.2266666666666666, |
|
"grad_norm": 2344.799072265625, |
|
"learning_rate": 8e-06, |
|
"loss": 181.4625, |
|
"step": 368 |
|
}, |
|
{ |
|
"epoch": 1.23, |
|
"grad_norm": 2430.619384765625, |
|
"learning_rate": 8e-06, |
|
"loss": 146.4991, |
|
"step": 369 |
|
}, |
|
{ |
|
"epoch": 1.2333333333333334, |
|
"grad_norm": 2040.2552490234375, |
|
"learning_rate": 8e-06, |
|
"loss": 191.2448, |
|
"step": 370 |
|
}, |
|
{ |
|
"epoch": 1.2366666666666666, |
|
"grad_norm": 2257.688232421875, |
|
"learning_rate": 8e-06, |
|
"loss": 182.9387, |
|
"step": 371 |
|
}, |
|
{ |
|
"epoch": 1.24, |
|
"grad_norm": 2836.457275390625, |
|
"learning_rate": 8e-06, |
|
"loss": 186.8855, |
|
"step": 372 |
|
}, |
|
{ |
|
"epoch": 1.2433333333333334, |
|
"grad_norm": 2124.9765625, |
|
"learning_rate": 8e-06, |
|
"loss": 158.6163, |
|
"step": 373 |
|
}, |
|
{ |
|
"epoch": 1.2466666666666666, |
|
"grad_norm": 22002.81640625, |
|
"learning_rate": 8e-06, |
|
"loss": 182.2663, |
|
"step": 374 |
|
}, |
|
{ |
|
"epoch": 1.25, |
|
"grad_norm": 2080.9013671875, |
|
"learning_rate": 8e-06, |
|
"loss": 179.1773, |
|
"step": 375 |
|
}, |
|
{ |
|
"epoch": 1.2533333333333334, |
|
"grad_norm": 4354.05322265625, |
|
"learning_rate": 8e-06, |
|
"loss": 225.1475, |
|
"step": 376 |
|
}, |
|
{ |
|
"epoch": 1.2566666666666666, |
|
"grad_norm": 2766.34765625, |
|
"learning_rate": 8e-06, |
|
"loss": 210.0997, |
|
"step": 377 |
|
}, |
|
{ |
|
"epoch": 1.26, |
|
"grad_norm": 1744.378662109375, |
|
"learning_rate": 8e-06, |
|
"loss": 170.8285, |
|
"step": 378 |
|
}, |
|
{ |
|
"epoch": 1.2633333333333332, |
|
"grad_norm": 2115.197265625, |
|
"learning_rate": 8e-06, |
|
"loss": 193.0526, |
|
"step": 379 |
|
}, |
|
{ |
|
"epoch": 1.2666666666666666, |
|
"grad_norm": 2450.997314453125, |
|
"learning_rate": 8e-06, |
|
"loss": 172.2764, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 1.27, |
|
"grad_norm": 2132.5625, |
|
"learning_rate": 8e-06, |
|
"loss": 202.299, |
|
"step": 381 |
|
}, |
|
{ |
|
"epoch": 1.2733333333333334, |
|
"grad_norm": 2344.452880859375, |
|
"learning_rate": 8e-06, |
|
"loss": 201.1546, |
|
"step": 382 |
|
}, |
|
{ |
|
"epoch": 1.2766666666666666, |
|
"grad_norm": 2655.98486328125, |
|
"learning_rate": 8e-06, |
|
"loss": 162.0153, |
|
"step": 383 |
|
}, |
|
{ |
|
"epoch": 1.28, |
|
"grad_norm": 3715.317138671875, |
|
"learning_rate": 8e-06, |
|
"loss": 217.4261, |
|
"step": 384 |
|
}, |
|
{ |
|
"epoch": 1.2833333333333332, |
|
"grad_norm": 2676.864501953125, |
|
"learning_rate": 8e-06, |
|
"loss": 149.2692, |
|
"step": 385 |
|
}, |
|
{ |
|
"epoch": 1.2866666666666666, |
|
"grad_norm": 9804.2158203125, |
|
"learning_rate": 8e-06, |
|
"loss": 239.9565, |
|
"step": 386 |
|
}, |
|
{ |
|
"epoch": 1.29, |
|
"grad_norm": 2503.278076171875, |
|
"learning_rate": 8e-06, |
|
"loss": 202.9038, |
|
"step": 387 |
|
}, |
|
{ |
|
"epoch": 1.2933333333333334, |
|
"grad_norm": 1728.56201171875, |
|
"learning_rate": 8e-06, |
|
"loss": 150.0894, |
|
"step": 388 |
|
}, |
|
{ |
|
"epoch": 1.2966666666666666, |
|
"grad_norm": 1782.750732421875, |
|
"learning_rate": 8e-06, |
|
"loss": 153.3394, |
|
"step": 389 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"grad_norm": 2454.009765625, |
|
"learning_rate": 8e-06, |
|
"loss": 201.5603, |
|
"step": 390 |
|
}, |
|
{ |
|
"epoch": 1.3033333333333332, |
|
"grad_norm": 2001.5255126953125, |
|
"learning_rate": 8e-06, |
|
"loss": 166.6791, |
|
"step": 391 |
|
}, |
|
{ |
|
"epoch": 1.3066666666666666, |
|
"grad_norm": 2414.639404296875, |
|
"learning_rate": 8e-06, |
|
"loss": 215.8665, |
|
"step": 392 |
|
}, |
|
{ |
|
"epoch": 1.31, |
|
"grad_norm": 4586.7958984375, |
|
"learning_rate": 8e-06, |
|
"loss": 181.3715, |
|
"step": 393 |
|
}, |
|
{ |
|
"epoch": 1.3133333333333335, |
|
"grad_norm": 1631.7193603515625, |
|
"learning_rate": 8e-06, |
|
"loss": 140.6186, |
|
"step": 394 |
|
}, |
|
{ |
|
"epoch": 1.3166666666666667, |
|
"grad_norm": 2084.684814453125, |
|
"learning_rate": 8e-06, |
|
"loss": 188.1181, |
|
"step": 395 |
|
}, |
|
{ |
|
"epoch": 1.32, |
|
"grad_norm": 2033.9609375, |
|
"learning_rate": 8e-06, |
|
"loss": 149.5855, |
|
"step": 396 |
|
}, |
|
{ |
|
"epoch": 1.3233333333333333, |
|
"grad_norm": 2032.2508544921875, |
|
"learning_rate": 8e-06, |
|
"loss": 174.703, |
|
"step": 397 |
|
}, |
|
{ |
|
"epoch": 1.3266666666666667, |
|
"grad_norm": 1617.00146484375, |
|
"learning_rate": 8e-06, |
|
"loss": 133.2466, |
|
"step": 398 |
|
}, |
|
{ |
|
"epoch": 1.33, |
|
"grad_norm": 27432.53125, |
|
"learning_rate": 8e-06, |
|
"loss": 593.2298, |
|
"step": 399 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"grad_norm": 10125.828125, |
|
"learning_rate": 8e-06, |
|
"loss": 229.5127, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"eval_loss": 282.9708557128906, |
|
"eval_runtime": 856.6328, |
|
"eval_samples_per_second": 2.101, |
|
"eval_steps_per_second": 1.051, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 1.3366666666666667, |
|
"grad_norm": 3012.62255859375, |
|
"learning_rate": 8e-06, |
|
"loss": 159.2788, |
|
"step": 401 |
|
}, |
|
{ |
|
"epoch": 1.34, |
|
"grad_norm": 1775.7852783203125, |
|
"learning_rate": 8e-06, |
|
"loss": 151.6165, |
|
"step": 402 |
|
}, |
|
{ |
|
"epoch": 1.3433333333333333, |
|
"grad_norm": 2409.974365234375, |
|
"learning_rate": 8e-06, |
|
"loss": 190.6473, |
|
"step": 403 |
|
}, |
|
{ |
|
"epoch": 1.3466666666666667, |
|
"grad_norm": 2992.13818359375, |
|
"learning_rate": 8e-06, |
|
"loss": 165.084, |
|
"step": 404 |
|
}, |
|
{ |
|
"epoch": 1.35, |
|
"grad_norm": 3485.1181640625, |
|
"learning_rate": 8e-06, |
|
"loss": 160.9989, |
|
"step": 405 |
|
}, |
|
{ |
|
"epoch": 1.3533333333333333, |
|
"grad_norm": 2118.489990234375, |
|
"learning_rate": 8e-06, |
|
"loss": 183.7959, |
|
"step": 406 |
|
}, |
|
{ |
|
"epoch": 1.3566666666666667, |
|
"grad_norm": 10115.9580078125, |
|
"learning_rate": 8e-06, |
|
"loss": 224.9091, |
|
"step": 407 |
|
}, |
|
{ |
|
"epoch": 1.3599999999999999, |
|
"grad_norm": 3513.64306640625, |
|
"learning_rate": 8e-06, |
|
"loss": 177.9569, |
|
"step": 408 |
|
}, |
|
{ |
|
"epoch": 1.3633333333333333, |
|
"grad_norm": 2064.371826171875, |
|
"learning_rate": 8e-06, |
|
"loss": 161.2645, |
|
"step": 409 |
|
}, |
|
{ |
|
"epoch": 1.3666666666666667, |
|
"grad_norm": 1680.4442138671875, |
|
"learning_rate": 8e-06, |
|
"loss": 148.034, |
|
"step": 410 |
|
}, |
|
{ |
|
"epoch": 1.37, |
|
"grad_norm": 2255.190673828125, |
|
"learning_rate": 8e-06, |
|
"loss": 202.835, |
|
"step": 411 |
|
}, |
|
{ |
|
"epoch": 1.3733333333333333, |
|
"grad_norm": 11578.634765625, |
|
"learning_rate": 8e-06, |
|
"loss": 147.8881, |
|
"step": 412 |
|
}, |
|
{ |
|
"epoch": 1.3766666666666667, |
|
"grad_norm": 2191.87548828125, |
|
"learning_rate": 8e-06, |
|
"loss": 203.6141, |
|
"step": 413 |
|
}, |
|
{ |
|
"epoch": 1.38, |
|
"grad_norm": 1836.796630859375, |
|
"learning_rate": 8e-06, |
|
"loss": 165.2415, |
|
"step": 414 |
|
}, |
|
{ |
|
"epoch": 1.3833333333333333, |
|
"grad_norm": 2470.1103515625, |
|
"learning_rate": 8e-06, |
|
"loss": 174.4177, |
|
"step": 415 |
|
}, |
|
{ |
|
"epoch": 1.3866666666666667, |
|
"grad_norm": 4922.85693359375, |
|
"learning_rate": 8e-06, |
|
"loss": 198.8384, |
|
"step": 416 |
|
}, |
|
{ |
|
"epoch": 1.3900000000000001, |
|
"grad_norm": 2375.222412109375, |
|
"learning_rate": 8e-06, |
|
"loss": 212.8037, |
|
"step": 417 |
|
}, |
|
{ |
|
"epoch": 1.3933333333333333, |
|
"grad_norm": 5317.0908203125, |
|
"learning_rate": 8e-06, |
|
"loss": 180.0162, |
|
"step": 418 |
|
}, |
|
{ |
|
"epoch": 1.3966666666666667, |
|
"grad_norm": 1953.235107421875, |
|
"learning_rate": 8e-06, |
|
"loss": 176.0956, |
|
"step": 419 |
|
}, |
|
{ |
|
"epoch": 1.4, |
|
"grad_norm": 2860.262451171875, |
|
"learning_rate": 8e-06, |
|
"loss": 202.9857, |
|
"step": 420 |
|
}, |
|
{ |
|
"epoch": 1.4033333333333333, |
|
"grad_norm": 2885.9921875, |
|
"learning_rate": 8e-06, |
|
"loss": 182.2745, |
|
"step": 421 |
|
}, |
|
{ |
|
"epoch": 1.4066666666666667, |
|
"grad_norm": 2907.427978515625, |
|
"learning_rate": 8e-06, |
|
"loss": 219.0796, |
|
"step": 422 |
|
}, |
|
{ |
|
"epoch": 1.41, |
|
"grad_norm": 1964.21533203125, |
|
"learning_rate": 8e-06, |
|
"loss": 167.3661, |
|
"step": 423 |
|
}, |
|
{ |
|
"epoch": 1.4133333333333333, |
|
"grad_norm": 1727.44873046875, |
|
"learning_rate": 8e-06, |
|
"loss": 144.6872, |
|
"step": 424 |
|
}, |
|
{ |
|
"epoch": 1.4166666666666667, |
|
"grad_norm": 2090.8955078125, |
|
"learning_rate": 8e-06, |
|
"loss": 147.7673, |
|
"step": 425 |
|
}, |
|
{ |
|
"epoch": 1.42, |
|
"grad_norm": 1892.08056640625, |
|
"learning_rate": 8e-06, |
|
"loss": 172.1414, |
|
"step": 426 |
|
}, |
|
{ |
|
"epoch": 1.4233333333333333, |
|
"grad_norm": 2421.4716796875, |
|
"learning_rate": 8e-06, |
|
"loss": 137.9185, |
|
"step": 427 |
|
}, |
|
{ |
|
"epoch": 1.4266666666666667, |
|
"grad_norm": 4119.71630859375, |
|
"learning_rate": 8e-06, |
|
"loss": 208.5695, |
|
"step": 428 |
|
}, |
|
{ |
|
"epoch": 1.43, |
|
"grad_norm": 101917.8671875, |
|
"learning_rate": 8e-06, |
|
"loss": 285.0583, |
|
"step": 429 |
|
}, |
|
{ |
|
"epoch": 1.4333333333333333, |
|
"grad_norm": 1792.384033203125, |
|
"learning_rate": 8e-06, |
|
"loss": 164.6562, |
|
"step": 430 |
|
}, |
|
{ |
|
"epoch": 1.4366666666666665, |
|
"grad_norm": 2680.8701171875, |
|
"learning_rate": 8e-06, |
|
"loss": 161.7598, |
|
"step": 431 |
|
}, |
|
{ |
|
"epoch": 1.44, |
|
"grad_norm": 2844.314208984375, |
|
"learning_rate": 8e-06, |
|
"loss": 183.6607, |
|
"step": 432 |
|
}, |
|
{ |
|
"epoch": 1.4433333333333334, |
|
"grad_norm": 2875.23193359375, |
|
"learning_rate": 8e-06, |
|
"loss": 203.2717, |
|
"step": 433 |
|
}, |
|
{ |
|
"epoch": 1.4466666666666668, |
|
"grad_norm": 2254.956787109375, |
|
"learning_rate": 8e-06, |
|
"loss": 232.2297, |
|
"step": 434 |
|
}, |
|
{ |
|
"epoch": 1.45, |
|
"grad_norm": 2095.884033203125, |
|
"learning_rate": 8e-06, |
|
"loss": 155.5794, |
|
"step": 435 |
|
}, |
|
{ |
|
"epoch": 1.4533333333333334, |
|
"grad_norm": 2171.238037109375, |
|
"learning_rate": 8e-06, |
|
"loss": 181.0814, |
|
"step": 436 |
|
}, |
|
{ |
|
"epoch": 1.4566666666666666, |
|
"grad_norm": 4359.90234375, |
|
"learning_rate": 8e-06, |
|
"loss": 213.6469, |
|
"step": 437 |
|
}, |
|
{ |
|
"epoch": 1.46, |
|
"grad_norm": 2418.025146484375, |
|
"learning_rate": 8e-06, |
|
"loss": 169.5107, |
|
"step": 438 |
|
}, |
|
{ |
|
"epoch": 1.4633333333333334, |
|
"grad_norm": 2879.6689453125, |
|
"learning_rate": 8e-06, |
|
"loss": 223.5063, |
|
"step": 439 |
|
}, |
|
{ |
|
"epoch": 1.4666666666666668, |
|
"grad_norm": 2349.777099609375, |
|
"learning_rate": 8e-06, |
|
"loss": 181.2596, |
|
"step": 440 |
|
}, |
|
{ |
|
"epoch": 1.47, |
|
"grad_norm": 2260.34423828125, |
|
"learning_rate": 8e-06, |
|
"loss": 181.6681, |
|
"step": 441 |
|
}, |
|
{ |
|
"epoch": 1.4733333333333334, |
|
"grad_norm": 2301.9609375, |
|
"learning_rate": 8e-06, |
|
"loss": 169.7167, |
|
"step": 442 |
|
}, |
|
{ |
|
"epoch": 1.4766666666666666, |
|
"grad_norm": 2042.8990478515625, |
|
"learning_rate": 8e-06, |
|
"loss": 161.6211, |
|
"step": 443 |
|
}, |
|
{ |
|
"epoch": 1.48, |
|
"grad_norm": 1656.9332275390625, |
|
"learning_rate": 8e-06, |
|
"loss": 144.9184, |
|
"step": 444 |
|
}, |
|
{ |
|
"epoch": 1.4833333333333334, |
|
"grad_norm": 3178.647705078125, |
|
"learning_rate": 8e-06, |
|
"loss": 173.4807, |
|
"step": 445 |
|
}, |
|
{ |
|
"epoch": 1.4866666666666668, |
|
"grad_norm": 1940.889892578125, |
|
"learning_rate": 8e-06, |
|
"loss": 153.0618, |
|
"step": 446 |
|
}, |
|
{ |
|
"epoch": 1.49, |
|
"grad_norm": 2604.650390625, |
|
"learning_rate": 8e-06, |
|
"loss": 202.1064, |
|
"step": 447 |
|
}, |
|
{ |
|
"epoch": 1.4933333333333334, |
|
"grad_norm": 2094.173583984375, |
|
"learning_rate": 8e-06, |
|
"loss": 170.3328, |
|
"step": 448 |
|
}, |
|
{ |
|
"epoch": 1.4966666666666666, |
|
"grad_norm": 2210.40771484375, |
|
"learning_rate": 8e-06, |
|
"loss": 197.5099, |
|
"step": 449 |
|
}, |
|
{ |
|
"epoch": 1.5, |
|
"grad_norm": 7563.06591796875, |
|
"learning_rate": 8e-06, |
|
"loss": 170.226, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 1.5033333333333334, |
|
"grad_norm": 1776.3701171875, |
|
"learning_rate": 8e-06, |
|
"loss": 185.4063, |
|
"step": 451 |
|
}, |
|
{ |
|
"epoch": 1.5066666666666668, |
|
"grad_norm": 1850.83056640625, |
|
"learning_rate": 8e-06, |
|
"loss": 191.5097, |
|
"step": 452 |
|
}, |
|
{ |
|
"epoch": 1.51, |
|
"grad_norm": 2090.9013671875, |
|
"learning_rate": 8e-06, |
|
"loss": 175.2754, |
|
"step": 453 |
|
}, |
|
{ |
|
"epoch": 1.5133333333333332, |
|
"grad_norm": 2191.100830078125, |
|
"learning_rate": 8e-06, |
|
"loss": 181.2789, |
|
"step": 454 |
|
}, |
|
{ |
|
"epoch": 1.5166666666666666, |
|
"grad_norm": 1596.8277587890625, |
|
"learning_rate": 8e-06, |
|
"loss": 144.9332, |
|
"step": 455 |
|
}, |
|
{ |
|
"epoch": 1.52, |
|
"grad_norm": 2124.211181640625, |
|
"learning_rate": 8e-06, |
|
"loss": 166.4356, |
|
"step": 456 |
|
}, |
|
{ |
|
"epoch": 1.5233333333333334, |
|
"grad_norm": 2037.772216796875, |
|
"learning_rate": 8e-06, |
|
"loss": 150.603, |
|
"step": 457 |
|
}, |
|
{ |
|
"epoch": 1.5266666666666666, |
|
"grad_norm": 3271.727783203125, |
|
"learning_rate": 8e-06, |
|
"loss": 176.4925, |
|
"step": 458 |
|
}, |
|
{ |
|
"epoch": 1.53, |
|
"grad_norm": 48445.62890625, |
|
"learning_rate": 8e-06, |
|
"loss": 383.918, |
|
"step": 459 |
|
}, |
|
{ |
|
"epoch": 1.5333333333333332, |
|
"grad_norm": 2072.277099609375, |
|
"learning_rate": 8e-06, |
|
"loss": 158.4182, |
|
"step": 460 |
|
}, |
|
{ |
|
"epoch": 1.5366666666666666, |
|
"grad_norm": 1764.2037353515625, |
|
"learning_rate": 8e-06, |
|
"loss": 156.9812, |
|
"step": 461 |
|
}, |
|
{ |
|
"epoch": 1.54, |
|
"grad_norm": 2082.84375, |
|
"learning_rate": 8e-06, |
|
"loss": 147.9546, |
|
"step": 462 |
|
}, |
|
{ |
|
"epoch": 1.5433333333333334, |
|
"grad_norm": 1895.2977294921875, |
|
"learning_rate": 8e-06, |
|
"loss": 195.1376, |
|
"step": 463 |
|
}, |
|
{ |
|
"epoch": 1.5466666666666666, |
|
"grad_norm": 3616.126953125, |
|
"learning_rate": 8e-06, |
|
"loss": 164.8048, |
|
"step": 464 |
|
}, |
|
{ |
|
"epoch": 1.55, |
|
"grad_norm": 2584.40283203125, |
|
"learning_rate": 8e-06, |
|
"loss": 172.4984, |
|
"step": 465 |
|
}, |
|
{ |
|
"epoch": 1.5533333333333332, |
|
"grad_norm": 2501.74169921875, |
|
"learning_rate": 8e-06, |
|
"loss": 167.9393, |
|
"step": 466 |
|
}, |
|
{ |
|
"epoch": 1.5566666666666666, |
|
"grad_norm": 1743.8760986328125, |
|
"learning_rate": 8e-06, |
|
"loss": 133.5256, |
|
"step": 467 |
|
}, |
|
{ |
|
"epoch": 1.56, |
|
"grad_norm": 2896.204345703125, |
|
"learning_rate": 8e-06, |
|
"loss": 201.8696, |
|
"step": 468 |
|
}, |
|
{ |
|
"epoch": 1.5633333333333335, |
|
"grad_norm": 2155.779296875, |
|
"learning_rate": 8e-06, |
|
"loss": 157.6537, |
|
"step": 469 |
|
}, |
|
{ |
|
"epoch": 1.5666666666666667, |
|
"grad_norm": 2158.2490234375, |
|
"learning_rate": 8e-06, |
|
"loss": 172.2711, |
|
"step": 470 |
|
}, |
|
{ |
|
"epoch": 1.5699999999999998, |
|
"grad_norm": 2482.66357421875, |
|
"learning_rate": 8e-06, |
|
"loss": 166.426, |
|
"step": 471 |
|
}, |
|
{ |
|
"epoch": 1.5733333333333333, |
|
"grad_norm": 2437.72509765625, |
|
"learning_rate": 8e-06, |
|
"loss": 204.3992, |
|
"step": 472 |
|
}, |
|
{ |
|
"epoch": 1.5766666666666667, |
|
"grad_norm": 2023.183837890625, |
|
"learning_rate": 8e-06, |
|
"loss": 139.7697, |
|
"step": 473 |
|
}, |
|
{ |
|
"epoch": 1.58, |
|
"grad_norm": 1853.008544921875, |
|
"learning_rate": 8e-06, |
|
"loss": 155.7142, |
|
"step": 474 |
|
}, |
|
{ |
|
"epoch": 1.5833333333333335, |
|
"grad_norm": 2049.85546875, |
|
"learning_rate": 8e-06, |
|
"loss": 125.7788, |
|
"step": 475 |
|
}, |
|
{ |
|
"epoch": 1.5866666666666667, |
|
"grad_norm": 2151.17529296875, |
|
"learning_rate": 8e-06, |
|
"loss": 174.0001, |
|
"step": 476 |
|
}, |
|
{ |
|
"epoch": 1.5899999999999999, |
|
"grad_norm": 1931.64453125, |
|
"learning_rate": 8e-06, |
|
"loss": 152.9574, |
|
"step": 477 |
|
}, |
|
{ |
|
"epoch": 1.5933333333333333, |
|
"grad_norm": 2370.313720703125, |
|
"learning_rate": 8e-06, |
|
"loss": 127.5246, |
|
"step": 478 |
|
}, |
|
{ |
|
"epoch": 1.5966666666666667, |
|
"grad_norm": 2164.80810546875, |
|
"learning_rate": 8e-06, |
|
"loss": 165.4399, |
|
"step": 479 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 1820.36083984375, |
|
"learning_rate": 8e-06, |
|
"loss": 175.4782, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 1.6033333333333335, |
|
"grad_norm": 16873.576171875, |
|
"learning_rate": 8e-06, |
|
"loss": 230.0637, |
|
"step": 481 |
|
}, |
|
{ |
|
"epoch": 1.6066666666666667, |
|
"grad_norm": 1746.5850830078125, |
|
"learning_rate": 8e-06, |
|
"loss": 140.269, |
|
"step": 482 |
|
}, |
|
{ |
|
"epoch": 1.6099999999999999, |
|
"grad_norm": 2072.251953125, |
|
"learning_rate": 8e-06, |
|
"loss": 171.9086, |
|
"step": 483 |
|
}, |
|
{ |
|
"epoch": 1.6133333333333333, |
|
"grad_norm": 176337.734375, |
|
"learning_rate": 8e-06, |
|
"loss": 444.9861, |
|
"step": 484 |
|
}, |
|
{ |
|
"epoch": 1.6166666666666667, |
|
"grad_norm": 2377.791259765625, |
|
"learning_rate": 8e-06, |
|
"loss": 158.927, |
|
"step": 485 |
|
}, |
|
{ |
|
"epoch": 1.62, |
|
"grad_norm": 2648.470458984375, |
|
"learning_rate": 8e-06, |
|
"loss": 184.6893, |
|
"step": 486 |
|
}, |
|
{ |
|
"epoch": 1.6233333333333333, |
|
"grad_norm": 7976.63427734375, |
|
"learning_rate": 8e-06, |
|
"loss": 187.7707, |
|
"step": 487 |
|
}, |
|
{ |
|
"epoch": 1.6266666666666667, |
|
"grad_norm": 2438.31103515625, |
|
"learning_rate": 8e-06, |
|
"loss": 173.1316, |
|
"step": 488 |
|
}, |
|
{ |
|
"epoch": 1.63, |
|
"grad_norm": 1666.070556640625, |
|
"learning_rate": 8e-06, |
|
"loss": 160.3404, |
|
"step": 489 |
|
}, |
|
{ |
|
"epoch": 1.6333333333333333, |
|
"grad_norm": 3138.111572265625, |
|
"learning_rate": 8e-06, |
|
"loss": 184.9305, |
|
"step": 490 |
|
}, |
|
{ |
|
"epoch": 1.6366666666666667, |
|
"grad_norm": 2130.50146484375, |
|
"learning_rate": 8e-06, |
|
"loss": 171.1389, |
|
"step": 491 |
|
}, |
|
{ |
|
"epoch": 1.6400000000000001, |
|
"grad_norm": 1836.3660888671875, |
|
"learning_rate": 8e-06, |
|
"loss": 130.7209, |
|
"step": 492 |
|
}, |
|
{ |
|
"epoch": 1.6433333333333333, |
|
"grad_norm": 1365.61376953125, |
|
"learning_rate": 8e-06, |
|
"loss": 124.9125, |
|
"step": 493 |
|
}, |
|
{ |
|
"epoch": 1.6466666666666665, |
|
"grad_norm": 3320.72998046875, |
|
"learning_rate": 8e-06, |
|
"loss": 182.0857, |
|
"step": 494 |
|
}, |
|
{ |
|
"epoch": 1.65, |
|
"grad_norm": 1599.5006103515625, |
|
"learning_rate": 8e-06, |
|
"loss": 139.4691, |
|
"step": 495 |
|
}, |
|
{ |
|
"epoch": 1.6533333333333333, |
|
"grad_norm": 2964.45947265625, |
|
"learning_rate": 8e-06, |
|
"loss": 192.7783, |
|
"step": 496 |
|
}, |
|
{ |
|
"epoch": 1.6566666666666667, |
|
"grad_norm": 2563.791259765625, |
|
"learning_rate": 8e-06, |
|
"loss": 195.6123, |
|
"step": 497 |
|
}, |
|
{ |
|
"epoch": 1.6600000000000001, |
|
"grad_norm": 2092.328125, |
|
"learning_rate": 8e-06, |
|
"loss": 169.5192, |
|
"step": 498 |
|
}, |
|
{ |
|
"epoch": 1.6633333333333333, |
|
"grad_norm": 1922.743896484375, |
|
"learning_rate": 8e-06, |
|
"loss": 165.4237, |
|
"step": 499 |
|
}, |
|
{ |
|
"epoch": 1.6666666666666665, |
|
"grad_norm": 2732.639892578125, |
|
"learning_rate": 8e-06, |
|
"loss": 221.3114, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 1.67, |
|
"grad_norm": 2133.735107421875, |
|
"learning_rate": 8e-06, |
|
"loss": 174.369, |
|
"step": 501 |
|
}, |
|
{ |
|
"epoch": 1.6733333333333333, |
|
"grad_norm": 1700.1793212890625, |
|
"learning_rate": 8e-06, |
|
"loss": 149.7767, |
|
"step": 502 |
|
}, |
|
{ |
|
"epoch": 1.6766666666666667, |
|
"grad_norm": 1650.5919189453125, |
|
"learning_rate": 8e-06, |
|
"loss": 172.0403, |
|
"step": 503 |
|
}, |
|
{ |
|
"epoch": 1.6800000000000002, |
|
"grad_norm": 1783.216064453125, |
|
"learning_rate": 8e-06, |
|
"loss": 166.5345, |
|
"step": 504 |
|
}, |
|
{ |
|
"epoch": 1.6833333333333333, |
|
"grad_norm": 2281.06982421875, |
|
"learning_rate": 8e-06, |
|
"loss": 183.2507, |
|
"step": 505 |
|
}, |
|
{ |
|
"epoch": 1.6866666666666665, |
|
"grad_norm": 2589.958740234375, |
|
"learning_rate": 8e-06, |
|
"loss": 192.0384, |
|
"step": 506 |
|
}, |
|
{ |
|
"epoch": 1.69, |
|
"grad_norm": 5324.01416015625, |
|
"learning_rate": 8e-06, |
|
"loss": 228.5024, |
|
"step": 507 |
|
}, |
|
{ |
|
"epoch": 1.6933333333333334, |
|
"grad_norm": 2082.757568359375, |
|
"learning_rate": 8e-06, |
|
"loss": 168.0666, |
|
"step": 508 |
|
}, |
|
{ |
|
"epoch": 1.6966666666666668, |
|
"grad_norm": 3569.548095703125, |
|
"learning_rate": 8e-06, |
|
"loss": 202.1297, |
|
"step": 509 |
|
}, |
|
{ |
|
"epoch": 1.7, |
|
"grad_norm": 2333.125244140625, |
|
"learning_rate": 8e-06, |
|
"loss": 157.0771, |
|
"step": 510 |
|
}, |
|
{ |
|
"epoch": 1.7033333333333334, |
|
"grad_norm": 2063.491943359375, |
|
"learning_rate": 8e-06, |
|
"loss": 164.1692, |
|
"step": 511 |
|
}, |
|
{ |
|
"epoch": 1.7066666666666666, |
|
"grad_norm": 1988.2403564453125, |
|
"learning_rate": 8e-06, |
|
"loss": 152.9757, |
|
"step": 512 |
|
}, |
|
{ |
|
"epoch": 1.71, |
|
"grad_norm": 3374.164794921875, |
|
"learning_rate": 8e-06, |
|
"loss": 187.9239, |
|
"step": 513 |
|
}, |
|
{ |
|
"epoch": 1.7133333333333334, |
|
"grad_norm": 1725.946533203125, |
|
"learning_rate": 8e-06, |
|
"loss": 148.2257, |
|
"step": 514 |
|
}, |
|
{ |
|
"epoch": 1.7166666666666668, |
|
"grad_norm": 1991.826904296875, |
|
"learning_rate": 8e-06, |
|
"loss": 157.7233, |
|
"step": 515 |
|
}, |
|
{ |
|
"epoch": 1.72, |
|
"grad_norm": 2110.306884765625, |
|
"learning_rate": 8e-06, |
|
"loss": 145.0476, |
|
"step": 516 |
|
}, |
|
{ |
|
"epoch": 1.7233333333333334, |
|
"grad_norm": 3402.83056640625, |
|
"learning_rate": 8e-06, |
|
"loss": 189.1095, |
|
"step": 517 |
|
}, |
|
{ |
|
"epoch": 1.7266666666666666, |
|
"grad_norm": 1921.84423828125, |
|
"learning_rate": 8e-06, |
|
"loss": 183.6954, |
|
"step": 518 |
|
}, |
|
{ |
|
"epoch": 1.73, |
|
"grad_norm": 1666.6932373046875, |
|
"learning_rate": 8e-06, |
|
"loss": 162.8129, |
|
"step": 519 |
|
}, |
|
{ |
|
"epoch": 1.7333333333333334, |
|
"grad_norm": 1836.007568359375, |
|
"learning_rate": 8e-06, |
|
"loss": 181.8143, |
|
"step": 520 |
|
}, |
|
{ |
|
"epoch": 1.7366666666666668, |
|
"grad_norm": 3976.889892578125, |
|
"learning_rate": 8e-06, |
|
"loss": 171.8505, |
|
"step": 521 |
|
}, |
|
{ |
|
"epoch": 1.74, |
|
"grad_norm": 1986.572998046875, |
|
"learning_rate": 8e-06, |
|
"loss": 167.6448, |
|
"step": 522 |
|
}, |
|
{ |
|
"epoch": 1.7433333333333332, |
|
"grad_norm": 1995.6435546875, |
|
"learning_rate": 8e-06, |
|
"loss": 191.2361, |
|
"step": 523 |
|
}, |
|
{ |
|
"epoch": 1.7466666666666666, |
|
"grad_norm": 2225.221923828125, |
|
"learning_rate": 8e-06, |
|
"loss": 208.3215, |
|
"step": 524 |
|
}, |
|
{ |
|
"epoch": 1.75, |
|
"grad_norm": 2081.197998046875, |
|
"learning_rate": 8e-06, |
|
"loss": 163.0927, |
|
"step": 525 |
|
}, |
|
{ |
|
"epoch": 1.7533333333333334, |
|
"grad_norm": 1844.3660888671875, |
|
"learning_rate": 8e-06, |
|
"loss": 166.7268, |
|
"step": 526 |
|
}, |
|
{ |
|
"epoch": 1.7566666666666668, |
|
"grad_norm": 1607.2025146484375, |
|
"learning_rate": 8e-06, |
|
"loss": 158.2042, |
|
"step": 527 |
|
}, |
|
{ |
|
"epoch": 1.76, |
|
"grad_norm": 2093.40673828125, |
|
"learning_rate": 8e-06, |
|
"loss": 207.5303, |
|
"step": 528 |
|
}, |
|
{ |
|
"epoch": 1.7633333333333332, |
|
"grad_norm": 1926.264892578125, |
|
"learning_rate": 8e-06, |
|
"loss": 158.3108, |
|
"step": 529 |
|
}, |
|
{ |
|
"epoch": 1.7666666666666666, |
|
"grad_norm": 3158.77734375, |
|
"learning_rate": 8e-06, |
|
"loss": 205.1217, |
|
"step": 530 |
|
}, |
|
{ |
|
"epoch": 1.77, |
|
"grad_norm": 3237.943359375, |
|
"learning_rate": 8e-06, |
|
"loss": 227.7727, |
|
"step": 531 |
|
}, |
|
{ |
|
"epoch": 1.7733333333333334, |
|
"grad_norm": 2330.94775390625, |
|
"learning_rate": 8e-06, |
|
"loss": 166.952, |
|
"step": 532 |
|
}, |
|
{ |
|
"epoch": 1.7766666666666666, |
|
"grad_norm": 2124.118408203125, |
|
"learning_rate": 8e-06, |
|
"loss": 184.2727, |
|
"step": 533 |
|
}, |
|
{ |
|
"epoch": 1.78, |
|
"grad_norm": 2608.2041015625, |
|
"learning_rate": 8e-06, |
|
"loss": 184.2567, |
|
"step": 534 |
|
}, |
|
{ |
|
"epoch": 1.7833333333333332, |
|
"grad_norm": 82545.234375, |
|
"learning_rate": 8e-06, |
|
"loss": 263.6479, |
|
"step": 535 |
|
}, |
|
{ |
|
"epoch": 1.7866666666666666, |
|
"grad_norm": 2418.788818359375, |
|
"learning_rate": 8e-06, |
|
"loss": 180.5526, |
|
"step": 536 |
|
}, |
|
{ |
|
"epoch": 1.79, |
|
"grad_norm": 1933.655517578125, |
|
"learning_rate": 8e-06, |
|
"loss": 156.1871, |
|
"step": 537 |
|
}, |
|
{ |
|
"epoch": 1.7933333333333334, |
|
"grad_norm": 2151.745361328125, |
|
"learning_rate": 8e-06, |
|
"loss": 130.2346, |
|
"step": 538 |
|
}, |
|
{ |
|
"epoch": 1.7966666666666666, |
|
"grad_norm": 2990.4052734375, |
|
"learning_rate": 8e-06, |
|
"loss": 187.0549, |
|
"step": 539 |
|
}, |
|
{ |
|
"epoch": 1.8, |
|
"grad_norm": 3288.891357421875, |
|
"learning_rate": 8e-06, |
|
"loss": 157.9175, |
|
"step": 540 |
|
}, |
|
{ |
|
"epoch": 1.8033333333333332, |
|
"grad_norm": 1840.6514892578125, |
|
"learning_rate": 8e-06, |
|
"loss": 145.2132, |
|
"step": 541 |
|
}, |
|
{ |
|
"epoch": 1.8066666666666666, |
|
"grad_norm": 3679.103515625, |
|
"learning_rate": 8e-06, |
|
"loss": 188.3875, |
|
"step": 542 |
|
}, |
|
{ |
|
"epoch": 1.81, |
|
"grad_norm": 16968.365234375, |
|
"learning_rate": 8e-06, |
|
"loss": 205.7764, |
|
"step": 543 |
|
}, |
|
{ |
|
"epoch": 1.8133333333333335, |
|
"grad_norm": 3148.380615234375, |
|
"learning_rate": 8e-06, |
|
"loss": 189.5049, |
|
"step": 544 |
|
}, |
|
{ |
|
"epoch": 1.8166666666666667, |
|
"grad_norm": 1827.2548828125, |
|
"learning_rate": 8e-06, |
|
"loss": 154.2148, |
|
"step": 545 |
|
}, |
|
{ |
|
"epoch": 1.8199999999999998, |
|
"grad_norm": 1814.88232421875, |
|
"learning_rate": 8e-06, |
|
"loss": 133.9529, |
|
"step": 546 |
|
}, |
|
{ |
|
"epoch": 1.8233333333333333, |
|
"grad_norm": 2587.741455078125, |
|
"learning_rate": 8e-06, |
|
"loss": 145.4079, |
|
"step": 547 |
|
}, |
|
{ |
|
"epoch": 1.8266666666666667, |
|
"grad_norm": 1647.722900390625, |
|
"learning_rate": 8e-06, |
|
"loss": 167.6373, |
|
"step": 548 |
|
}, |
|
{ |
|
"epoch": 1.83, |
|
"grad_norm": 1892.9091796875, |
|
"learning_rate": 8e-06, |
|
"loss": 182.79, |
|
"step": 549 |
|
}, |
|
{ |
|
"epoch": 1.8333333333333335, |
|
"grad_norm": 1783.653564453125, |
|
"learning_rate": 8e-06, |
|
"loss": 143.4793, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 1.8366666666666667, |
|
"grad_norm": 5507.533203125, |
|
"learning_rate": 8e-06, |
|
"loss": 194.087, |
|
"step": 551 |
|
}, |
|
{ |
|
"epoch": 1.8399999999999999, |
|
"grad_norm": 9519.95703125, |
|
"learning_rate": 8e-06, |
|
"loss": 183.6715, |
|
"step": 552 |
|
}, |
|
{ |
|
"epoch": 1.8433333333333333, |
|
"grad_norm": 2050.432373046875, |
|
"learning_rate": 8e-06, |
|
"loss": 183.5788, |
|
"step": 553 |
|
}, |
|
{ |
|
"epoch": 1.8466666666666667, |
|
"grad_norm": 33634.6953125, |
|
"learning_rate": 8e-06, |
|
"loss": 589.509, |
|
"step": 554 |
|
}, |
|
{ |
|
"epoch": 1.85, |
|
"grad_norm": 2702.313720703125, |
|
"learning_rate": 8e-06, |
|
"loss": 206.9411, |
|
"step": 555 |
|
}, |
|
{ |
|
"epoch": 1.8533333333333335, |
|
"grad_norm": 1955.1455078125, |
|
"learning_rate": 8e-06, |
|
"loss": 184.4851, |
|
"step": 556 |
|
}, |
|
{ |
|
"epoch": 1.8566666666666667, |
|
"grad_norm": 2086.965576171875, |
|
"learning_rate": 8e-06, |
|
"loss": 163.7623, |
|
"step": 557 |
|
}, |
|
{ |
|
"epoch": 1.8599999999999999, |
|
"grad_norm": 2290.885009765625, |
|
"learning_rate": 8e-06, |
|
"loss": 180.0004, |
|
"step": 558 |
|
}, |
|
{ |
|
"epoch": 1.8633333333333333, |
|
"grad_norm": 2561.19873046875, |
|
"learning_rate": 8e-06, |
|
"loss": 178.2596, |
|
"step": 559 |
|
}, |
|
{ |
|
"epoch": 1.8666666666666667, |
|
"grad_norm": 1969.3897705078125, |
|
"learning_rate": 8e-06, |
|
"loss": 168.5457, |
|
"step": 560 |
|
}, |
|
{ |
|
"epoch": 1.87, |
|
"grad_norm": 2148.949462890625, |
|
"learning_rate": 8e-06, |
|
"loss": 192.3326, |
|
"step": 561 |
|
}, |
|
{ |
|
"epoch": 1.8733333333333333, |
|
"grad_norm": 2056.060791015625, |
|
"learning_rate": 8e-06, |
|
"loss": 138.5616, |
|
"step": 562 |
|
}, |
|
{ |
|
"epoch": 1.8766666666666667, |
|
"grad_norm": 1542.1502685546875, |
|
"learning_rate": 8e-06, |
|
"loss": 134.0084, |
|
"step": 563 |
|
}, |
|
{ |
|
"epoch": 1.88, |
|
"grad_norm": 2459.717041015625, |
|
"learning_rate": 8e-06, |
|
"loss": 147.9213, |
|
"step": 564 |
|
}, |
|
{ |
|
"epoch": 1.8833333333333333, |
|
"grad_norm": 2720.8681640625, |
|
"learning_rate": 8e-06, |
|
"loss": 165.7043, |
|
"step": 565 |
|
}, |
|
{ |
|
"epoch": 1.8866666666666667, |
|
"grad_norm": 2913.6435546875, |
|
"learning_rate": 8e-06, |
|
"loss": 235.3023, |
|
"step": 566 |
|
}, |
|
{ |
|
"epoch": 1.8900000000000001, |
|
"grad_norm": 4042.34228515625, |
|
"learning_rate": 8e-06, |
|
"loss": 144.223, |
|
"step": 567 |
|
}, |
|
{ |
|
"epoch": 1.8933333333333333, |
|
"grad_norm": 2377.74072265625, |
|
"learning_rate": 8e-06, |
|
"loss": 199.585, |
|
"step": 568 |
|
}, |
|
{ |
|
"epoch": 1.8966666666666665, |
|
"grad_norm": 2974.247802734375, |
|
"learning_rate": 8e-06, |
|
"loss": 180.4202, |
|
"step": 569 |
|
}, |
|
{ |
|
"epoch": 1.9, |
|
"grad_norm": 2473.316650390625, |
|
"learning_rate": 8e-06, |
|
"loss": 192.3658, |
|
"step": 570 |
|
}, |
|
{ |
|
"epoch": 1.9033333333333333, |
|
"grad_norm": 3129.60595703125, |
|
"learning_rate": 8e-06, |
|
"loss": 156.669, |
|
"step": 571 |
|
}, |
|
{ |
|
"epoch": 1.9066666666666667, |
|
"grad_norm": 3374.810546875, |
|
"learning_rate": 8e-06, |
|
"loss": 168.7177, |
|
"step": 572 |
|
}, |
|
{ |
|
"epoch": 1.9100000000000001, |
|
"grad_norm": 2261.082275390625, |
|
"learning_rate": 8e-06, |
|
"loss": 191.2776, |
|
"step": 573 |
|
}, |
|
{ |
|
"epoch": 1.9133333333333333, |
|
"grad_norm": 2176.280517578125, |
|
"learning_rate": 8e-06, |
|
"loss": 215.0109, |
|
"step": 574 |
|
}, |
|
{ |
|
"epoch": 1.9166666666666665, |
|
"grad_norm": 1649.1036376953125, |
|
"learning_rate": 8e-06, |
|
"loss": 151.2731, |
|
"step": 575 |
|
}, |
|
{ |
|
"epoch": 1.92, |
|
"grad_norm": 3465.714111328125, |
|
"learning_rate": 8e-06, |
|
"loss": 313.962, |
|
"step": 576 |
|
}, |
|
{ |
|
"epoch": 1.9233333333333333, |
|
"grad_norm": 1735.416259765625, |
|
"learning_rate": 8e-06, |
|
"loss": 134.0693, |
|
"step": 577 |
|
}, |
|
{ |
|
"epoch": 1.9266666666666667, |
|
"grad_norm": 1879.34130859375, |
|
"learning_rate": 8e-06, |
|
"loss": 170.3584, |
|
"step": 578 |
|
}, |
|
{ |
|
"epoch": 1.9300000000000002, |
|
"grad_norm": 2120.559326171875, |
|
"learning_rate": 8e-06, |
|
"loss": 151.4335, |
|
"step": 579 |
|
}, |
|
{ |
|
"epoch": 1.9333333333333333, |
|
"grad_norm": 1694.056640625, |
|
"learning_rate": 8e-06, |
|
"loss": 151.1551, |
|
"step": 580 |
|
}, |
|
{ |
|
"epoch": 1.9366666666666665, |
|
"grad_norm": 1927.02734375, |
|
"learning_rate": 8e-06, |
|
"loss": 191.0919, |
|
"step": 581 |
|
}, |
|
{ |
|
"epoch": 1.94, |
|
"grad_norm": 2036.642578125, |
|
"learning_rate": 8e-06, |
|
"loss": 181.714, |
|
"step": 582 |
|
}, |
|
{ |
|
"epoch": 1.9433333333333334, |
|
"grad_norm": 1685.2396240234375, |
|
"learning_rate": 8e-06, |
|
"loss": 138.7952, |
|
"step": 583 |
|
}, |
|
{ |
|
"epoch": 1.9466666666666668, |
|
"grad_norm": 1855.4345703125, |
|
"learning_rate": 8e-06, |
|
"loss": 154.0075, |
|
"step": 584 |
|
}, |
|
{ |
|
"epoch": 1.95, |
|
"grad_norm": 2088.48388671875, |
|
"learning_rate": 8e-06, |
|
"loss": 146.8001, |
|
"step": 585 |
|
}, |
|
{ |
|
"epoch": 1.9533333333333334, |
|
"grad_norm": 6678.10791015625, |
|
"learning_rate": 8e-06, |
|
"loss": 203.3128, |
|
"step": 586 |
|
}, |
|
{ |
|
"epoch": 1.9566666666666666, |
|
"grad_norm": 2472.193359375, |
|
"learning_rate": 8e-06, |
|
"loss": 143.7792, |
|
"step": 587 |
|
}, |
|
{ |
|
"epoch": 1.96, |
|
"grad_norm": 2192.246826171875, |
|
"learning_rate": 8e-06, |
|
"loss": 200.7935, |
|
"step": 588 |
|
}, |
|
{ |
|
"epoch": 1.9633333333333334, |
|
"grad_norm": 2112.46044921875, |
|
"learning_rate": 8e-06, |
|
"loss": 167.1109, |
|
"step": 589 |
|
}, |
|
{ |
|
"epoch": 1.9666666666666668, |
|
"grad_norm": 2718.529296875, |
|
"learning_rate": 8e-06, |
|
"loss": 158.1499, |
|
"step": 590 |
|
}, |
|
{ |
|
"epoch": 1.97, |
|
"grad_norm": 2105.776611328125, |
|
"learning_rate": 8e-06, |
|
"loss": 204.0821, |
|
"step": 591 |
|
}, |
|
{ |
|
"epoch": 1.9733333333333334, |
|
"grad_norm": 6692.474609375, |
|
"learning_rate": 8e-06, |
|
"loss": 208.9566, |
|
"step": 592 |
|
}, |
|
{ |
|
"epoch": 1.9766666666666666, |
|
"grad_norm": 2157.894775390625, |
|
"learning_rate": 8e-06, |
|
"loss": 187.6069, |
|
"step": 593 |
|
}, |
|
{ |
|
"epoch": 1.98, |
|
"grad_norm": 1727.661376953125, |
|
"learning_rate": 8e-06, |
|
"loss": 152.1291, |
|
"step": 594 |
|
}, |
|
{ |
|
"epoch": 1.9833333333333334, |
|
"grad_norm": 3749.360595703125, |
|
"learning_rate": 8e-06, |
|
"loss": 227.8881, |
|
"step": 595 |
|
}, |
|
{ |
|
"epoch": 1.9866666666666668, |
|
"grad_norm": 1814.2344970703125, |
|
"learning_rate": 8e-06, |
|
"loss": 146.5783, |
|
"step": 596 |
|
}, |
|
{ |
|
"epoch": 1.99, |
|
"grad_norm": 3674.33642578125, |
|
"learning_rate": 8e-06, |
|
"loss": 226.204, |
|
"step": 597 |
|
}, |
|
{ |
|
"epoch": 1.9933333333333332, |
|
"grad_norm": 1787.3858642578125, |
|
"learning_rate": 8e-06, |
|
"loss": 160.9511, |
|
"step": 598 |
|
}, |
|
{ |
|
"epoch": 1.9966666666666666, |
|
"grad_norm": 2074.641845703125, |
|
"learning_rate": 8e-06, |
|
"loss": 158.478, |
|
"step": 599 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 3868.880859375, |
|
"learning_rate": 8e-06, |
|
"loss": 286.6745, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 2.0033333333333334, |
|
"grad_norm": 1556.2646484375, |
|
"learning_rate": 8e-06, |
|
"loss": 136.8504, |
|
"step": 601 |
|
}, |
|
{ |
|
"epoch": 2.006666666666667, |
|
"grad_norm": 1204.3673095703125, |
|
"learning_rate": 8e-06, |
|
"loss": 100.6773, |
|
"step": 602 |
|
}, |
|
{ |
|
"epoch": 2.01, |
|
"grad_norm": 1558.851806640625, |
|
"learning_rate": 8e-06, |
|
"loss": 136.7052, |
|
"step": 603 |
|
}, |
|
{ |
|
"epoch": 2.013333333333333, |
|
"grad_norm": 1879.329345703125, |
|
"learning_rate": 8e-06, |
|
"loss": 129.5214, |
|
"step": 604 |
|
}, |
|
{ |
|
"epoch": 2.0166666666666666, |
|
"grad_norm": 1791.66064453125, |
|
"learning_rate": 8e-06, |
|
"loss": 107.3147, |
|
"step": 605 |
|
}, |
|
{ |
|
"epoch": 2.02, |
|
"grad_norm": 1631.0894775390625, |
|
"learning_rate": 8e-06, |
|
"loss": 130.3522, |
|
"step": 606 |
|
}, |
|
{ |
|
"epoch": 2.0233333333333334, |
|
"grad_norm": 1531.7685546875, |
|
"learning_rate": 8e-06, |
|
"loss": 122.5682, |
|
"step": 607 |
|
}, |
|
{ |
|
"epoch": 2.026666666666667, |
|
"grad_norm": 1472.6488037109375, |
|
"learning_rate": 8e-06, |
|
"loss": 129.8733, |
|
"step": 608 |
|
}, |
|
{ |
|
"epoch": 2.03, |
|
"grad_norm": 2434.40087890625, |
|
"learning_rate": 8e-06, |
|
"loss": 129.6405, |
|
"step": 609 |
|
}, |
|
{ |
|
"epoch": 2.033333333333333, |
|
"grad_norm": 1989.21875, |
|
"learning_rate": 8e-06, |
|
"loss": 133.372, |
|
"step": 610 |
|
}, |
|
{ |
|
"epoch": 2.0366666666666666, |
|
"grad_norm": 2003.641845703125, |
|
"learning_rate": 8e-06, |
|
"loss": 118.8046, |
|
"step": 611 |
|
}, |
|
{ |
|
"epoch": 2.04, |
|
"grad_norm": 1416.8846435546875, |
|
"learning_rate": 8e-06, |
|
"loss": 127.314, |
|
"step": 612 |
|
}, |
|
{ |
|
"epoch": 2.0433333333333334, |
|
"grad_norm": 2230.67822265625, |
|
"learning_rate": 8e-06, |
|
"loss": 145.6762, |
|
"step": 613 |
|
}, |
|
{ |
|
"epoch": 2.046666666666667, |
|
"grad_norm": 1904.8175048828125, |
|
"learning_rate": 8e-06, |
|
"loss": 125.6758, |
|
"step": 614 |
|
}, |
|
{ |
|
"epoch": 2.05, |
|
"grad_norm": 1482.5469970703125, |
|
"learning_rate": 8e-06, |
|
"loss": 120.2969, |
|
"step": 615 |
|
}, |
|
{ |
|
"epoch": 2.0533333333333332, |
|
"grad_norm": 1504.982421875, |
|
"learning_rate": 8e-06, |
|
"loss": 135.3738, |
|
"step": 616 |
|
}, |
|
{ |
|
"epoch": 2.0566666666666666, |
|
"grad_norm": 2493.294189453125, |
|
"learning_rate": 8e-06, |
|
"loss": 158.0207, |
|
"step": 617 |
|
}, |
|
{ |
|
"epoch": 2.06, |
|
"grad_norm": 2075.63330078125, |
|
"learning_rate": 8e-06, |
|
"loss": 139.6178, |
|
"step": 618 |
|
}, |
|
{ |
|
"epoch": 2.0633333333333335, |
|
"grad_norm": 1750.9154052734375, |
|
"learning_rate": 8e-06, |
|
"loss": 113.3567, |
|
"step": 619 |
|
}, |
|
{ |
|
"epoch": 2.066666666666667, |
|
"grad_norm": 3303.998291015625, |
|
"learning_rate": 8e-06, |
|
"loss": 138.6855, |
|
"step": 620 |
|
}, |
|
{ |
|
"epoch": 2.07, |
|
"grad_norm": 1713.556640625, |
|
"learning_rate": 8e-06, |
|
"loss": 123.509, |
|
"step": 621 |
|
}, |
|
{ |
|
"epoch": 2.0733333333333333, |
|
"grad_norm": 1440.22900390625, |
|
"learning_rate": 8e-06, |
|
"loss": 133.6415, |
|
"step": 622 |
|
}, |
|
{ |
|
"epoch": 2.0766666666666667, |
|
"grad_norm": 1712.7186279296875, |
|
"learning_rate": 8e-06, |
|
"loss": 112.414, |
|
"step": 623 |
|
}, |
|
{ |
|
"epoch": 2.08, |
|
"grad_norm": 1547.916015625, |
|
"learning_rate": 8e-06, |
|
"loss": 99.3051, |
|
"step": 624 |
|
}, |
|
{ |
|
"epoch": 2.0833333333333335, |
|
"grad_norm": 1357.4639892578125, |
|
"learning_rate": 8e-06, |
|
"loss": 102.1604, |
|
"step": 625 |
|
}, |
|
{ |
|
"epoch": 2.086666666666667, |
|
"grad_norm": 2283.520751953125, |
|
"learning_rate": 8e-06, |
|
"loss": 135.3398, |
|
"step": 626 |
|
}, |
|
{ |
|
"epoch": 2.09, |
|
"grad_norm": 3901.62841796875, |
|
"learning_rate": 8e-06, |
|
"loss": 113.6724, |
|
"step": 627 |
|
}, |
|
{ |
|
"epoch": 2.0933333333333333, |
|
"grad_norm": 11078.9599609375, |
|
"learning_rate": 8e-06, |
|
"loss": 237.9257, |
|
"step": 628 |
|
}, |
|
{ |
|
"epoch": 2.0966666666666667, |
|
"grad_norm": 1299.328369140625, |
|
"learning_rate": 8e-06, |
|
"loss": 103.6248, |
|
"step": 629 |
|
}, |
|
{ |
|
"epoch": 2.1, |
|
"grad_norm": 1578.59716796875, |
|
"learning_rate": 8e-06, |
|
"loss": 122.5945, |
|
"step": 630 |
|
}, |
|
{ |
|
"epoch": 2.1033333333333335, |
|
"grad_norm": 2289.77685546875, |
|
"learning_rate": 8e-06, |
|
"loss": 137.9359, |
|
"step": 631 |
|
}, |
|
{ |
|
"epoch": 2.1066666666666665, |
|
"grad_norm": 1983.411865234375, |
|
"learning_rate": 8e-06, |
|
"loss": 110.5755, |
|
"step": 632 |
|
}, |
|
{ |
|
"epoch": 2.11, |
|
"grad_norm": 2308.76708984375, |
|
"learning_rate": 8e-06, |
|
"loss": 190.6613, |
|
"step": 633 |
|
}, |
|
{ |
|
"epoch": 2.1133333333333333, |
|
"grad_norm": 1503.8245849609375, |
|
"learning_rate": 8e-06, |
|
"loss": 135.3405, |
|
"step": 634 |
|
}, |
|
{ |
|
"epoch": 2.1166666666666667, |
|
"grad_norm": 1573.3255615234375, |
|
"learning_rate": 8e-06, |
|
"loss": 106.384, |
|
"step": 635 |
|
}, |
|
{ |
|
"epoch": 2.12, |
|
"grad_norm": 1972.5081787109375, |
|
"learning_rate": 8e-06, |
|
"loss": 130.452, |
|
"step": 636 |
|
}, |
|
{ |
|
"epoch": 2.1233333333333335, |
|
"grad_norm": 1524.6993408203125, |
|
"learning_rate": 8e-06, |
|
"loss": 140.8059, |
|
"step": 637 |
|
}, |
|
{ |
|
"epoch": 2.1266666666666665, |
|
"grad_norm": 1921.386474609375, |
|
"learning_rate": 8e-06, |
|
"loss": 145.1599, |
|
"step": 638 |
|
}, |
|
{ |
|
"epoch": 2.13, |
|
"grad_norm": 1535.875244140625, |
|
"learning_rate": 8e-06, |
|
"loss": 116.4942, |
|
"step": 639 |
|
}, |
|
{ |
|
"epoch": 2.1333333333333333, |
|
"grad_norm": 1928.425537109375, |
|
"learning_rate": 8e-06, |
|
"loss": 129.5353, |
|
"step": 640 |
|
}, |
|
{ |
|
"epoch": 2.1366666666666667, |
|
"grad_norm": 1415.85546875, |
|
"learning_rate": 8e-06, |
|
"loss": 125.7305, |
|
"step": 641 |
|
}, |
|
{ |
|
"epoch": 2.14, |
|
"grad_norm": 2280.470458984375, |
|
"learning_rate": 8e-06, |
|
"loss": 144.4786, |
|
"step": 642 |
|
}, |
|
{ |
|
"epoch": 2.1433333333333335, |
|
"grad_norm": 2156.9013671875, |
|
"learning_rate": 8e-06, |
|
"loss": 148.5764, |
|
"step": 643 |
|
}, |
|
{ |
|
"epoch": 2.1466666666666665, |
|
"grad_norm": 1581.927734375, |
|
"learning_rate": 8e-06, |
|
"loss": 130.3042, |
|
"step": 644 |
|
}, |
|
{ |
|
"epoch": 2.15, |
|
"grad_norm": 1953.165283203125, |
|
"learning_rate": 8e-06, |
|
"loss": 120.4, |
|
"step": 645 |
|
}, |
|
{ |
|
"epoch": 2.1533333333333333, |
|
"grad_norm": 1893.3292236328125, |
|
"learning_rate": 8e-06, |
|
"loss": 119.8747, |
|
"step": 646 |
|
}, |
|
{ |
|
"epoch": 2.1566666666666667, |
|
"grad_norm": 1703.091064453125, |
|
"learning_rate": 8e-06, |
|
"loss": 120.6234, |
|
"step": 647 |
|
}, |
|
{ |
|
"epoch": 2.16, |
|
"grad_norm": 1269.4962158203125, |
|
"learning_rate": 8e-06, |
|
"loss": 101.0687, |
|
"step": 648 |
|
}, |
|
{ |
|
"epoch": 2.163333333333333, |
|
"grad_norm": 3250.052978515625, |
|
"learning_rate": 8e-06, |
|
"loss": 129.6145, |
|
"step": 649 |
|
}, |
|
{ |
|
"epoch": 2.1666666666666665, |
|
"grad_norm": 1386.7431640625, |
|
"learning_rate": 8e-06, |
|
"loss": 114.622, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 2.17, |
|
"grad_norm": 28121.013671875, |
|
"learning_rate": 8e-06, |
|
"loss": 423.4986, |
|
"step": 651 |
|
}, |
|
{ |
|
"epoch": 2.1733333333333333, |
|
"grad_norm": 4357.61181640625, |
|
"learning_rate": 8e-06, |
|
"loss": 153.7993, |
|
"step": 652 |
|
}, |
|
{ |
|
"epoch": 2.1766666666666667, |
|
"grad_norm": 2452.100341796875, |
|
"learning_rate": 8e-06, |
|
"loss": 124.2542, |
|
"step": 653 |
|
}, |
|
{ |
|
"epoch": 2.18, |
|
"grad_norm": 1478.061279296875, |
|
"learning_rate": 8e-06, |
|
"loss": 119.1345, |
|
"step": 654 |
|
}, |
|
{ |
|
"epoch": 2.183333333333333, |
|
"grad_norm": 1180.8251953125, |
|
"learning_rate": 8e-06, |
|
"loss": 103.0584, |
|
"step": 655 |
|
}, |
|
{ |
|
"epoch": 2.1866666666666665, |
|
"grad_norm": 1370.6693115234375, |
|
"learning_rate": 8e-06, |
|
"loss": 129.9872, |
|
"step": 656 |
|
}, |
|
{ |
|
"epoch": 2.19, |
|
"grad_norm": 2820.5439453125, |
|
"learning_rate": 8e-06, |
|
"loss": 95.2142, |
|
"step": 657 |
|
}, |
|
{ |
|
"epoch": 2.1933333333333334, |
|
"grad_norm": 1722.82275390625, |
|
"learning_rate": 8e-06, |
|
"loss": 131.7362, |
|
"step": 658 |
|
}, |
|
{ |
|
"epoch": 2.1966666666666668, |
|
"grad_norm": 1720.507568359375, |
|
"learning_rate": 8e-06, |
|
"loss": 125.437, |
|
"step": 659 |
|
}, |
|
{ |
|
"epoch": 2.2, |
|
"grad_norm": 2826.442626953125, |
|
"learning_rate": 8e-06, |
|
"loss": 125.1029, |
|
"step": 660 |
|
}, |
|
{ |
|
"epoch": 2.203333333333333, |
|
"grad_norm": 5743.2529296875, |
|
"learning_rate": 8e-06, |
|
"loss": 607.4863, |
|
"step": 661 |
|
}, |
|
{ |
|
"epoch": 2.2066666666666666, |
|
"grad_norm": 2595.774658203125, |
|
"learning_rate": 8e-06, |
|
"loss": 129.4419, |
|
"step": 662 |
|
}, |
|
{ |
|
"epoch": 2.21, |
|
"grad_norm": 1331.5777587890625, |
|
"learning_rate": 8e-06, |
|
"loss": 105.7767, |
|
"step": 663 |
|
}, |
|
{ |
|
"epoch": 2.2133333333333334, |
|
"grad_norm": 20789.24609375, |
|
"learning_rate": 8e-06, |
|
"loss": 153.9794, |
|
"step": 664 |
|
}, |
|
{ |
|
"epoch": 2.216666666666667, |
|
"grad_norm": 1877.037109375, |
|
"learning_rate": 8e-06, |
|
"loss": 138.423, |
|
"step": 665 |
|
}, |
|
{ |
|
"epoch": 2.22, |
|
"grad_norm": 1901.5697021484375, |
|
"learning_rate": 8e-06, |
|
"loss": 206.4459, |
|
"step": 666 |
|
}, |
|
{ |
|
"epoch": 2.223333333333333, |
|
"grad_norm": 1588.9552001953125, |
|
"learning_rate": 8e-06, |
|
"loss": 117.6874, |
|
"step": 667 |
|
}, |
|
{ |
|
"epoch": 2.2266666666666666, |
|
"grad_norm": 1554.6837158203125, |
|
"learning_rate": 8e-06, |
|
"loss": 149.7417, |
|
"step": 668 |
|
}, |
|
{ |
|
"epoch": 2.23, |
|
"grad_norm": 2007.1231689453125, |
|
"learning_rate": 8e-06, |
|
"loss": 130.9421, |
|
"step": 669 |
|
}, |
|
{ |
|
"epoch": 2.2333333333333334, |
|
"grad_norm": 1852.6959228515625, |
|
"learning_rate": 8e-06, |
|
"loss": 143.383, |
|
"step": 670 |
|
}, |
|
{ |
|
"epoch": 2.236666666666667, |
|
"grad_norm": 1841.0206298828125, |
|
"learning_rate": 8e-06, |
|
"loss": 129.1616, |
|
"step": 671 |
|
}, |
|
{ |
|
"epoch": 2.24, |
|
"grad_norm": 1295.876953125, |
|
"learning_rate": 8e-06, |
|
"loss": 112.3037, |
|
"step": 672 |
|
}, |
|
{ |
|
"epoch": 2.243333333333333, |
|
"grad_norm": 1568.910888671875, |
|
"learning_rate": 8e-06, |
|
"loss": 140.6588, |
|
"step": 673 |
|
}, |
|
{ |
|
"epoch": 2.2466666666666666, |
|
"grad_norm": 1314.6630859375, |
|
"learning_rate": 8e-06, |
|
"loss": 130.3549, |
|
"step": 674 |
|
}, |
|
{ |
|
"epoch": 2.25, |
|
"grad_norm": 36551.6953125, |
|
"learning_rate": 8e-06, |
|
"loss": 156.1712, |
|
"step": 675 |
|
}, |
|
{ |
|
"epoch": 2.2533333333333334, |
|
"grad_norm": 1307.7371826171875, |
|
"learning_rate": 8e-06, |
|
"loss": 122.8967, |
|
"step": 676 |
|
}, |
|
{ |
|
"epoch": 2.256666666666667, |
|
"grad_norm": 4752.58544921875, |
|
"learning_rate": 8e-06, |
|
"loss": 139.9254, |
|
"step": 677 |
|
}, |
|
{ |
|
"epoch": 2.26, |
|
"grad_norm": 1438.94140625, |
|
"learning_rate": 8e-06, |
|
"loss": 106.0688, |
|
"step": 678 |
|
}, |
|
{ |
|
"epoch": 2.263333333333333, |
|
"grad_norm": 1285.2674560546875, |
|
"learning_rate": 8e-06, |
|
"loss": 105.6991, |
|
"step": 679 |
|
}, |
|
{ |
|
"epoch": 2.2666666666666666, |
|
"grad_norm": 1289.8099365234375, |
|
"learning_rate": 8e-06, |
|
"loss": 133.0195, |
|
"step": 680 |
|
}, |
|
{ |
|
"epoch": 2.27, |
|
"grad_norm": 1434.508544921875, |
|
"learning_rate": 8e-06, |
|
"loss": 102.0162, |
|
"step": 681 |
|
}, |
|
{ |
|
"epoch": 2.2733333333333334, |
|
"grad_norm": 1650.91796875, |
|
"learning_rate": 8e-06, |
|
"loss": 126.2975, |
|
"step": 682 |
|
}, |
|
{ |
|
"epoch": 2.276666666666667, |
|
"grad_norm": 2619.72119140625, |
|
"learning_rate": 8e-06, |
|
"loss": 158.7676, |
|
"step": 683 |
|
}, |
|
{ |
|
"epoch": 2.2800000000000002, |
|
"grad_norm": 28865.435546875, |
|
"learning_rate": 8e-06, |
|
"loss": 218.1773, |
|
"step": 684 |
|
}, |
|
{ |
|
"epoch": 2.283333333333333, |
|
"grad_norm": 6903.01220703125, |
|
"learning_rate": 8e-06, |
|
"loss": 136.2646, |
|
"step": 685 |
|
}, |
|
{ |
|
"epoch": 2.2866666666666666, |
|
"grad_norm": 2979.0244140625, |
|
"learning_rate": 8e-06, |
|
"loss": 166.6657, |
|
"step": 686 |
|
}, |
|
{ |
|
"epoch": 2.29, |
|
"grad_norm": 1701.4605712890625, |
|
"learning_rate": 8e-06, |
|
"loss": 131.0002, |
|
"step": 687 |
|
}, |
|
{ |
|
"epoch": 2.2933333333333334, |
|
"grad_norm": 2914.819091796875, |
|
"learning_rate": 8e-06, |
|
"loss": 237.3755, |
|
"step": 688 |
|
}, |
|
{ |
|
"epoch": 2.296666666666667, |
|
"grad_norm": 1863.2547607421875, |
|
"learning_rate": 8e-06, |
|
"loss": 145.9498, |
|
"step": 689 |
|
}, |
|
{ |
|
"epoch": 2.3, |
|
"grad_norm": 1627.00048828125, |
|
"learning_rate": 8e-06, |
|
"loss": 117.881, |
|
"step": 690 |
|
}, |
|
{ |
|
"epoch": 2.3033333333333332, |
|
"grad_norm": 1970.314453125, |
|
"learning_rate": 8e-06, |
|
"loss": 137.72, |
|
"step": 691 |
|
}, |
|
{ |
|
"epoch": 2.3066666666666666, |
|
"grad_norm": 11100.8623046875, |
|
"learning_rate": 8e-06, |
|
"loss": 293.6888, |
|
"step": 692 |
|
}, |
|
{ |
|
"epoch": 2.31, |
|
"grad_norm": 1479.2615966796875, |
|
"learning_rate": 8e-06, |
|
"loss": 123.5312, |
|
"step": 693 |
|
}, |
|
{ |
|
"epoch": 2.3133333333333335, |
|
"grad_norm": 1615.1658935546875, |
|
"learning_rate": 8e-06, |
|
"loss": 144.8124, |
|
"step": 694 |
|
}, |
|
{ |
|
"epoch": 2.3166666666666664, |
|
"grad_norm": 1756.41357421875, |
|
"learning_rate": 8e-06, |
|
"loss": 135.5969, |
|
"step": 695 |
|
}, |
|
{ |
|
"epoch": 2.32, |
|
"grad_norm": 2183.849365234375, |
|
"learning_rate": 8e-06, |
|
"loss": 109.752, |
|
"step": 696 |
|
}, |
|
{ |
|
"epoch": 2.3233333333333333, |
|
"grad_norm": 1970.754638671875, |
|
"learning_rate": 8e-06, |
|
"loss": 131.9297, |
|
"step": 697 |
|
}, |
|
{ |
|
"epoch": 2.3266666666666667, |
|
"grad_norm": 2116.089111328125, |
|
"learning_rate": 8e-06, |
|
"loss": 99.696, |
|
"step": 698 |
|
}, |
|
{ |
|
"epoch": 2.33, |
|
"grad_norm": 1829.75439453125, |
|
"learning_rate": 8e-06, |
|
"loss": 113.0716, |
|
"step": 699 |
|
}, |
|
{ |
|
"epoch": 2.3333333333333335, |
|
"grad_norm": 1476.1793212890625, |
|
"learning_rate": 8e-06, |
|
"loss": 104.9451, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 2.336666666666667, |
|
"grad_norm": 2222.96435546875, |
|
"learning_rate": 8e-06, |
|
"loss": 120.953, |
|
"step": 701 |
|
}, |
|
{ |
|
"epoch": 2.34, |
|
"grad_norm": 9380.060546875, |
|
"learning_rate": 8e-06, |
|
"loss": 138.7993, |
|
"step": 702 |
|
}, |
|
{ |
|
"epoch": 2.3433333333333333, |
|
"grad_norm": 1679.3817138671875, |
|
"learning_rate": 8e-06, |
|
"loss": 134.3208, |
|
"step": 703 |
|
}, |
|
{ |
|
"epoch": 2.3466666666666667, |
|
"grad_norm": 1442.17236328125, |
|
"learning_rate": 8e-06, |
|
"loss": 92.7587, |
|
"step": 704 |
|
}, |
|
{ |
|
"epoch": 2.35, |
|
"grad_norm": 1367.2061767578125, |
|
"learning_rate": 8e-06, |
|
"loss": 121.2768, |
|
"step": 705 |
|
}, |
|
{ |
|
"epoch": 2.3533333333333335, |
|
"grad_norm": 1248.1695556640625, |
|
"learning_rate": 8e-06, |
|
"loss": 116.9666, |
|
"step": 706 |
|
}, |
|
{ |
|
"epoch": 2.3566666666666665, |
|
"grad_norm": 20453.5234375, |
|
"learning_rate": 8e-06, |
|
"loss": 376.956, |
|
"step": 707 |
|
}, |
|
{ |
|
"epoch": 2.36, |
|
"grad_norm": 1495.2889404296875, |
|
"learning_rate": 8e-06, |
|
"loss": 101.0957, |
|
"step": 708 |
|
}, |
|
{ |
|
"epoch": 2.3633333333333333, |
|
"grad_norm": 1726.5560302734375, |
|
"learning_rate": 8e-06, |
|
"loss": 148.6609, |
|
"step": 709 |
|
}, |
|
{ |
|
"epoch": 2.3666666666666667, |
|
"grad_norm": 2641.858154296875, |
|
"learning_rate": 8e-06, |
|
"loss": 163.1479, |
|
"step": 710 |
|
}, |
|
{ |
|
"epoch": 2.37, |
|
"grad_norm": 1801.218505859375, |
|
"learning_rate": 8e-06, |
|
"loss": 119.2229, |
|
"step": 711 |
|
}, |
|
{ |
|
"epoch": 2.3733333333333335, |
|
"grad_norm": 1693.7442626953125, |
|
"learning_rate": 8e-06, |
|
"loss": 132.5043, |
|
"step": 712 |
|
}, |
|
{ |
|
"epoch": 2.3766666666666665, |
|
"grad_norm": 2091.88330078125, |
|
"learning_rate": 8e-06, |
|
"loss": 147.464, |
|
"step": 713 |
|
}, |
|
{ |
|
"epoch": 2.38, |
|
"grad_norm": 1578.102783203125, |
|
"learning_rate": 8e-06, |
|
"loss": 114.0627, |
|
"step": 714 |
|
}, |
|
{ |
|
"epoch": 2.3833333333333333, |
|
"grad_norm": 2351.2607421875, |
|
"learning_rate": 8e-06, |
|
"loss": 123.1597, |
|
"step": 715 |
|
}, |
|
{ |
|
"epoch": 2.3866666666666667, |
|
"grad_norm": 1315.5687255859375, |
|
"learning_rate": 8e-06, |
|
"loss": 115.1075, |
|
"step": 716 |
|
}, |
|
{ |
|
"epoch": 2.39, |
|
"grad_norm": 1510.3790283203125, |
|
"learning_rate": 8e-06, |
|
"loss": 109.5176, |
|
"step": 717 |
|
}, |
|
{ |
|
"epoch": 2.3933333333333335, |
|
"grad_norm": 1532.697998046875, |
|
"learning_rate": 8e-06, |
|
"loss": 99.2867, |
|
"step": 718 |
|
}, |
|
{ |
|
"epoch": 2.3966666666666665, |
|
"grad_norm": 1300.1014404296875, |
|
"learning_rate": 8e-06, |
|
"loss": 120.9424, |
|
"step": 719 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"grad_norm": 2729.224365234375, |
|
"learning_rate": 8e-06, |
|
"loss": 114.9256, |
|
"step": 720 |
|
}, |
|
{ |
|
"epoch": 2.4033333333333333, |
|
"grad_norm": 1317.2303466796875, |
|
"learning_rate": 8e-06, |
|
"loss": 102.3711, |
|
"step": 721 |
|
}, |
|
{ |
|
"epoch": 2.4066666666666667, |
|
"grad_norm": 1498.4573974609375, |
|
"learning_rate": 8e-06, |
|
"loss": 135.2365, |
|
"step": 722 |
|
}, |
|
{ |
|
"epoch": 2.41, |
|
"grad_norm": 1865.0723876953125, |
|
"learning_rate": 8e-06, |
|
"loss": 130.9664, |
|
"step": 723 |
|
}, |
|
{ |
|
"epoch": 2.413333333333333, |
|
"grad_norm": 3120.843017578125, |
|
"learning_rate": 8e-06, |
|
"loss": 125.216, |
|
"step": 724 |
|
}, |
|
{ |
|
"epoch": 2.4166666666666665, |
|
"grad_norm": 1531.434326171875, |
|
"learning_rate": 8e-06, |
|
"loss": 120.9744, |
|
"step": 725 |
|
}, |
|
{ |
|
"epoch": 2.42, |
|
"grad_norm": 1755.6026611328125, |
|
"learning_rate": 8e-06, |
|
"loss": 111.1381, |
|
"step": 726 |
|
}, |
|
{ |
|
"epoch": 2.4233333333333333, |
|
"grad_norm": 1478.3941650390625, |
|
"learning_rate": 8e-06, |
|
"loss": 124.5824, |
|
"step": 727 |
|
}, |
|
{ |
|
"epoch": 2.4266666666666667, |
|
"grad_norm": 17907.654296875, |
|
"learning_rate": 8e-06, |
|
"loss": 125.6474, |
|
"step": 728 |
|
}, |
|
{ |
|
"epoch": 2.43, |
|
"grad_norm": 1446.43359375, |
|
"learning_rate": 8e-06, |
|
"loss": 132.7871, |
|
"step": 729 |
|
}, |
|
{ |
|
"epoch": 2.4333333333333336, |
|
"grad_norm": 2421.5341796875, |
|
"learning_rate": 8e-06, |
|
"loss": 179.9294, |
|
"step": 730 |
|
}, |
|
{ |
|
"epoch": 2.4366666666666665, |
|
"grad_norm": 1725.28857421875, |
|
"learning_rate": 8e-06, |
|
"loss": 136.7637, |
|
"step": 731 |
|
}, |
|
{ |
|
"epoch": 2.44, |
|
"grad_norm": 2015.51025390625, |
|
"learning_rate": 8e-06, |
|
"loss": 121.2952, |
|
"step": 732 |
|
}, |
|
{ |
|
"epoch": 2.4433333333333334, |
|
"grad_norm": 1705.6173095703125, |
|
"learning_rate": 8e-06, |
|
"loss": 110.4791, |
|
"step": 733 |
|
}, |
|
{ |
|
"epoch": 2.4466666666666668, |
|
"grad_norm": 1421.70849609375, |
|
"learning_rate": 8e-06, |
|
"loss": 103.1995, |
|
"step": 734 |
|
}, |
|
{ |
|
"epoch": 2.45, |
|
"grad_norm": 1865.3294677734375, |
|
"learning_rate": 8e-06, |
|
"loss": 132.5225, |
|
"step": 735 |
|
}, |
|
{ |
|
"epoch": 2.453333333333333, |
|
"grad_norm": 1825.8245849609375, |
|
"learning_rate": 8e-06, |
|
"loss": 133.7585, |
|
"step": 736 |
|
}, |
|
{ |
|
"epoch": 2.4566666666666666, |
|
"grad_norm": 2180.423583984375, |
|
"learning_rate": 8e-06, |
|
"loss": 140.9315, |
|
"step": 737 |
|
}, |
|
{ |
|
"epoch": 2.46, |
|
"grad_norm": 6084.18017578125, |
|
"learning_rate": 8e-06, |
|
"loss": 146.2271, |
|
"step": 738 |
|
}, |
|
{ |
|
"epoch": 2.4633333333333334, |
|
"grad_norm": 2014.62744140625, |
|
"learning_rate": 8e-06, |
|
"loss": 126.1484, |
|
"step": 739 |
|
}, |
|
{ |
|
"epoch": 2.466666666666667, |
|
"grad_norm": 1243.1656494140625, |
|
"learning_rate": 8e-06, |
|
"loss": 103.6744, |
|
"step": 740 |
|
}, |
|
{ |
|
"epoch": 2.4699999999999998, |
|
"grad_norm": 1581.9586181640625, |
|
"learning_rate": 8e-06, |
|
"loss": 95.0835, |
|
"step": 741 |
|
}, |
|
{ |
|
"epoch": 2.473333333333333, |
|
"grad_norm": 1325.827880859375, |
|
"learning_rate": 8e-06, |
|
"loss": 112.0473, |
|
"step": 742 |
|
}, |
|
{ |
|
"epoch": 2.4766666666666666, |
|
"grad_norm": 1464.9918212890625, |
|
"learning_rate": 8e-06, |
|
"loss": 128.1577, |
|
"step": 743 |
|
}, |
|
{ |
|
"epoch": 2.48, |
|
"grad_norm": 2208.0927734375, |
|
"learning_rate": 8e-06, |
|
"loss": 152.0096, |
|
"step": 744 |
|
}, |
|
{ |
|
"epoch": 2.4833333333333334, |
|
"grad_norm": 2100.02490234375, |
|
"learning_rate": 8e-06, |
|
"loss": 147.5463, |
|
"step": 745 |
|
}, |
|
{ |
|
"epoch": 2.486666666666667, |
|
"grad_norm": 1421.8133544921875, |
|
"learning_rate": 8e-06, |
|
"loss": 106.8184, |
|
"step": 746 |
|
}, |
|
{ |
|
"epoch": 2.49, |
|
"grad_norm": 1479.231689453125, |
|
"learning_rate": 8e-06, |
|
"loss": 94.067, |
|
"step": 747 |
|
}, |
|
{ |
|
"epoch": 2.493333333333333, |
|
"grad_norm": 2578.95361328125, |
|
"learning_rate": 8e-06, |
|
"loss": 162.0832, |
|
"step": 748 |
|
}, |
|
{ |
|
"epoch": 2.4966666666666666, |
|
"grad_norm": 1351.6405029296875, |
|
"learning_rate": 8e-06, |
|
"loss": 125.9322, |
|
"step": 749 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"grad_norm": 1589.424560546875, |
|
"learning_rate": 8e-06, |
|
"loss": 116.5617, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 2.5033333333333334, |
|
"grad_norm": 2823.43408203125, |
|
"learning_rate": 8e-06, |
|
"loss": 144.2864, |
|
"step": 751 |
|
}, |
|
{ |
|
"epoch": 2.506666666666667, |
|
"grad_norm": 1887.8447265625, |
|
"learning_rate": 8e-06, |
|
"loss": 138.0956, |
|
"step": 752 |
|
}, |
|
{ |
|
"epoch": 2.51, |
|
"grad_norm": 2067.181396484375, |
|
"learning_rate": 8e-06, |
|
"loss": 144.1646, |
|
"step": 753 |
|
}, |
|
{ |
|
"epoch": 2.513333333333333, |
|
"grad_norm": 2330.794189453125, |
|
"learning_rate": 8e-06, |
|
"loss": 141.2042, |
|
"step": 754 |
|
}, |
|
{ |
|
"epoch": 2.5166666666666666, |
|
"grad_norm": 1427.31640625, |
|
"learning_rate": 8e-06, |
|
"loss": 135.7423, |
|
"step": 755 |
|
}, |
|
{ |
|
"epoch": 2.52, |
|
"grad_norm": 1161.4061279296875, |
|
"learning_rate": 8e-06, |
|
"loss": 99.3035, |
|
"step": 756 |
|
}, |
|
{ |
|
"epoch": 2.5233333333333334, |
|
"grad_norm": 1712.1439208984375, |
|
"learning_rate": 8e-06, |
|
"loss": 114.2467, |
|
"step": 757 |
|
}, |
|
{ |
|
"epoch": 2.5266666666666664, |
|
"grad_norm": 1197.593017578125, |
|
"learning_rate": 8e-06, |
|
"loss": 107.4427, |
|
"step": 758 |
|
}, |
|
{ |
|
"epoch": 2.5300000000000002, |
|
"grad_norm": 1731.598876953125, |
|
"learning_rate": 8e-06, |
|
"loss": 126.1534, |
|
"step": 759 |
|
}, |
|
{ |
|
"epoch": 2.533333333333333, |
|
"grad_norm": 1432.5394287109375, |
|
"learning_rate": 8e-06, |
|
"loss": 115.6338, |
|
"step": 760 |
|
}, |
|
{ |
|
"epoch": 2.5366666666666666, |
|
"grad_norm": 3142.1005859375, |
|
"learning_rate": 8e-06, |
|
"loss": 189.7106, |
|
"step": 761 |
|
}, |
|
{ |
|
"epoch": 2.54, |
|
"grad_norm": 1320.365478515625, |
|
"learning_rate": 8e-06, |
|
"loss": 115.4958, |
|
"step": 762 |
|
}, |
|
{ |
|
"epoch": 2.5433333333333334, |
|
"grad_norm": 1628.338623046875, |
|
"learning_rate": 8e-06, |
|
"loss": 122.4915, |
|
"step": 763 |
|
}, |
|
{ |
|
"epoch": 2.546666666666667, |
|
"grad_norm": 1467.8492431640625, |
|
"learning_rate": 8e-06, |
|
"loss": 125.6665, |
|
"step": 764 |
|
}, |
|
{ |
|
"epoch": 2.55, |
|
"grad_norm": 2865.892578125, |
|
"learning_rate": 8e-06, |
|
"loss": 128.4004, |
|
"step": 765 |
|
}, |
|
{ |
|
"epoch": 2.5533333333333332, |
|
"grad_norm": 1418.7894287109375, |
|
"learning_rate": 8e-06, |
|
"loss": 108.1406, |
|
"step": 766 |
|
}, |
|
{ |
|
"epoch": 2.5566666666666666, |
|
"grad_norm": 1850.069091796875, |
|
"learning_rate": 8e-06, |
|
"loss": 175.9062, |
|
"step": 767 |
|
}, |
|
{ |
|
"epoch": 2.56, |
|
"grad_norm": 1794.0701904296875, |
|
"learning_rate": 8e-06, |
|
"loss": 130.9639, |
|
"step": 768 |
|
}, |
|
{ |
|
"epoch": 2.5633333333333335, |
|
"grad_norm": 1451.385498046875, |
|
"learning_rate": 8e-06, |
|
"loss": 125.577, |
|
"step": 769 |
|
}, |
|
{ |
|
"epoch": 2.5666666666666664, |
|
"grad_norm": 1426.46240234375, |
|
"learning_rate": 8e-06, |
|
"loss": 114.7984, |
|
"step": 770 |
|
}, |
|
{ |
|
"epoch": 2.57, |
|
"grad_norm": 1218.86669921875, |
|
"learning_rate": 8e-06, |
|
"loss": 110.1531, |
|
"step": 771 |
|
}, |
|
{ |
|
"epoch": 2.5733333333333333, |
|
"grad_norm": 1524.708740234375, |
|
"learning_rate": 8e-06, |
|
"loss": 113.6179, |
|
"step": 772 |
|
}, |
|
{ |
|
"epoch": 2.5766666666666667, |
|
"grad_norm": 1464.95849609375, |
|
"learning_rate": 8e-06, |
|
"loss": 124.511, |
|
"step": 773 |
|
}, |
|
{ |
|
"epoch": 2.58, |
|
"grad_norm": 1637.928466796875, |
|
"learning_rate": 8e-06, |
|
"loss": 93.99, |
|
"step": 774 |
|
}, |
|
{ |
|
"epoch": 2.5833333333333335, |
|
"grad_norm": 3661.8359375, |
|
"learning_rate": 8e-06, |
|
"loss": 145.4815, |
|
"step": 775 |
|
}, |
|
{ |
|
"epoch": 2.586666666666667, |
|
"grad_norm": 1699.713623046875, |
|
"learning_rate": 8e-06, |
|
"loss": 136.5588, |
|
"step": 776 |
|
}, |
|
{ |
|
"epoch": 2.59, |
|
"grad_norm": 1160.001708984375, |
|
"learning_rate": 8e-06, |
|
"loss": 110.3232, |
|
"step": 777 |
|
}, |
|
{ |
|
"epoch": 2.5933333333333333, |
|
"grad_norm": 2293.4052734375, |
|
"learning_rate": 8e-06, |
|
"loss": 120.6876, |
|
"step": 778 |
|
}, |
|
{ |
|
"epoch": 2.5966666666666667, |
|
"grad_norm": 1315.2447509765625, |
|
"learning_rate": 8e-06, |
|
"loss": 117.5079, |
|
"step": 779 |
|
}, |
|
{ |
|
"epoch": 2.6, |
|
"grad_norm": 1174.728759765625, |
|
"learning_rate": 8e-06, |
|
"loss": 101.8514, |
|
"step": 780 |
|
}, |
|
{ |
|
"epoch": 2.6033333333333335, |
|
"grad_norm": 1330.5498046875, |
|
"learning_rate": 8e-06, |
|
"loss": 103.6102, |
|
"step": 781 |
|
}, |
|
{ |
|
"epoch": 2.6066666666666665, |
|
"grad_norm": 2042.9381103515625, |
|
"learning_rate": 8e-06, |
|
"loss": 140.7256, |
|
"step": 782 |
|
}, |
|
{ |
|
"epoch": 2.61, |
|
"grad_norm": 2028.093017578125, |
|
"learning_rate": 8e-06, |
|
"loss": 136.8938, |
|
"step": 783 |
|
}, |
|
{ |
|
"epoch": 2.6133333333333333, |
|
"grad_norm": 14681.4189453125, |
|
"learning_rate": 8e-06, |
|
"loss": 285.7935, |
|
"step": 784 |
|
}, |
|
{ |
|
"epoch": 2.6166666666666667, |
|
"grad_norm": 2435.10009765625, |
|
"learning_rate": 8e-06, |
|
"loss": 116.6105, |
|
"step": 785 |
|
}, |
|
{ |
|
"epoch": 2.62, |
|
"grad_norm": 1599.9298095703125, |
|
"learning_rate": 8e-06, |
|
"loss": 158.0862, |
|
"step": 786 |
|
}, |
|
{ |
|
"epoch": 2.623333333333333, |
|
"grad_norm": 1441.6348876953125, |
|
"learning_rate": 8e-06, |
|
"loss": 107.3423, |
|
"step": 787 |
|
}, |
|
{ |
|
"epoch": 2.626666666666667, |
|
"grad_norm": 1360.754150390625, |
|
"learning_rate": 8e-06, |
|
"loss": 116.9525, |
|
"step": 788 |
|
}, |
|
{ |
|
"epoch": 2.63, |
|
"grad_norm": 1660.15576171875, |
|
"learning_rate": 8e-06, |
|
"loss": 101.1028, |
|
"step": 789 |
|
}, |
|
{ |
|
"epoch": 2.6333333333333333, |
|
"grad_norm": 1712.9136962890625, |
|
"learning_rate": 8e-06, |
|
"loss": 120.6488, |
|
"step": 790 |
|
}, |
|
{ |
|
"epoch": 2.6366666666666667, |
|
"grad_norm": 1436.0123291015625, |
|
"learning_rate": 8e-06, |
|
"loss": 137.5496, |
|
"step": 791 |
|
}, |
|
{ |
|
"epoch": 2.64, |
|
"grad_norm": 4147.0537109375, |
|
"learning_rate": 8e-06, |
|
"loss": 104.2722, |
|
"step": 792 |
|
}, |
|
{ |
|
"epoch": 2.6433333333333335, |
|
"grad_norm": 1559.4739990234375, |
|
"learning_rate": 8e-06, |
|
"loss": 141.1813, |
|
"step": 793 |
|
}, |
|
{ |
|
"epoch": 2.6466666666666665, |
|
"grad_norm": 1479.011962890625, |
|
"learning_rate": 8e-06, |
|
"loss": 150.0217, |
|
"step": 794 |
|
}, |
|
{ |
|
"epoch": 2.65, |
|
"grad_norm": 2171.935302734375, |
|
"learning_rate": 8e-06, |
|
"loss": 165.3374, |
|
"step": 795 |
|
}, |
|
{ |
|
"epoch": 2.6533333333333333, |
|
"grad_norm": 1640.123779296875, |
|
"learning_rate": 8e-06, |
|
"loss": 122.8269, |
|
"step": 796 |
|
}, |
|
{ |
|
"epoch": 2.6566666666666667, |
|
"grad_norm": 1345.9244384765625, |
|
"learning_rate": 8e-06, |
|
"loss": 115.7013, |
|
"step": 797 |
|
}, |
|
{ |
|
"epoch": 2.66, |
|
"grad_norm": 4976.23193359375, |
|
"learning_rate": 8e-06, |
|
"loss": 133.1451, |
|
"step": 798 |
|
}, |
|
{ |
|
"epoch": 2.663333333333333, |
|
"grad_norm": 1573.3651123046875, |
|
"learning_rate": 8e-06, |
|
"loss": 130.7121, |
|
"step": 799 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"grad_norm": 2591.026123046875, |
|
"learning_rate": 8e-06, |
|
"loss": 164.4879, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"eval_loss": 253.93336486816406, |
|
"eval_runtime": 856.5563, |
|
"eval_samples_per_second": 2.101, |
|
"eval_steps_per_second": 1.051, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 2.67, |
|
"grad_norm": 1346.125244140625, |
|
"learning_rate": 8e-06, |
|
"loss": 126.6996, |
|
"step": 801 |
|
}, |
|
{ |
|
"epoch": 2.6733333333333333, |
|
"grad_norm": 1393.3607177734375, |
|
"learning_rate": 8e-06, |
|
"loss": 115.9554, |
|
"step": 802 |
|
}, |
|
{ |
|
"epoch": 2.6766666666666667, |
|
"grad_norm": 1946.3060302734375, |
|
"learning_rate": 8e-06, |
|
"loss": 125.6584, |
|
"step": 803 |
|
}, |
|
{ |
|
"epoch": 2.68, |
|
"grad_norm": 1483.58251953125, |
|
"learning_rate": 8e-06, |
|
"loss": 100.8621, |
|
"step": 804 |
|
}, |
|
{ |
|
"epoch": 2.6833333333333336, |
|
"grad_norm": 1651.197998046875, |
|
"learning_rate": 8e-06, |
|
"loss": 139.0113, |
|
"step": 805 |
|
}, |
|
{ |
|
"epoch": 2.6866666666666665, |
|
"grad_norm": 1329.492919921875, |
|
"learning_rate": 8e-06, |
|
"loss": 117.3851, |
|
"step": 806 |
|
}, |
|
{ |
|
"epoch": 2.69, |
|
"grad_norm": 1464.396240234375, |
|
"learning_rate": 8e-06, |
|
"loss": 93.6395, |
|
"step": 807 |
|
}, |
|
{ |
|
"epoch": 2.6933333333333334, |
|
"grad_norm": 1691.2379150390625, |
|
"learning_rate": 8e-06, |
|
"loss": 140.1688, |
|
"step": 808 |
|
}, |
|
{ |
|
"epoch": 2.6966666666666668, |
|
"grad_norm": 1795.8988037109375, |
|
"learning_rate": 8e-06, |
|
"loss": 138.0487, |
|
"step": 809 |
|
}, |
|
{ |
|
"epoch": 2.7, |
|
"grad_norm": 1581.2906494140625, |
|
"learning_rate": 8e-06, |
|
"loss": 116.7431, |
|
"step": 810 |
|
}, |
|
{ |
|
"epoch": 2.703333333333333, |
|
"grad_norm": 3235.380859375, |
|
"learning_rate": 8e-06, |
|
"loss": 126.381, |
|
"step": 811 |
|
}, |
|
{ |
|
"epoch": 2.7066666666666666, |
|
"grad_norm": 2436.695556640625, |
|
"learning_rate": 8e-06, |
|
"loss": 123.1087, |
|
"step": 812 |
|
}, |
|
{ |
|
"epoch": 2.71, |
|
"grad_norm": 1701.041259765625, |
|
"learning_rate": 8e-06, |
|
"loss": 137.3659, |
|
"step": 813 |
|
}, |
|
{ |
|
"epoch": 2.7133333333333334, |
|
"grad_norm": 1276.497314453125, |
|
"learning_rate": 8e-06, |
|
"loss": 113.9922, |
|
"step": 814 |
|
}, |
|
{ |
|
"epoch": 2.716666666666667, |
|
"grad_norm": 1860.7666015625, |
|
"learning_rate": 8e-06, |
|
"loss": 116.6647, |
|
"step": 815 |
|
}, |
|
{ |
|
"epoch": 2.7199999999999998, |
|
"grad_norm": 1605.3519287109375, |
|
"learning_rate": 8e-06, |
|
"loss": 150.8002, |
|
"step": 816 |
|
}, |
|
{ |
|
"epoch": 2.7233333333333336, |
|
"grad_norm": 1359.60009765625, |
|
"learning_rate": 8e-06, |
|
"loss": 121.1264, |
|
"step": 817 |
|
}, |
|
{ |
|
"epoch": 2.7266666666666666, |
|
"grad_norm": 1621.8148193359375, |
|
"learning_rate": 8e-06, |
|
"loss": 129.6622, |
|
"step": 818 |
|
}, |
|
{ |
|
"epoch": 2.73, |
|
"grad_norm": 1477.146240234375, |
|
"learning_rate": 8e-06, |
|
"loss": 119.8018, |
|
"step": 819 |
|
}, |
|
{ |
|
"epoch": 2.7333333333333334, |
|
"grad_norm": 2180.00537109375, |
|
"learning_rate": 8e-06, |
|
"loss": 151.51, |
|
"step": 820 |
|
}, |
|
{ |
|
"epoch": 2.736666666666667, |
|
"grad_norm": 2292.234130859375, |
|
"learning_rate": 8e-06, |
|
"loss": 142.1312, |
|
"step": 821 |
|
}, |
|
{ |
|
"epoch": 2.74, |
|
"grad_norm": 2067.784912109375, |
|
"learning_rate": 8e-06, |
|
"loss": 128.4793, |
|
"step": 822 |
|
}, |
|
{ |
|
"epoch": 2.743333333333333, |
|
"grad_norm": 1650.3232421875, |
|
"learning_rate": 8e-06, |
|
"loss": 109.4251, |
|
"step": 823 |
|
}, |
|
{ |
|
"epoch": 2.7466666666666666, |
|
"grad_norm": 1728.8126220703125, |
|
"learning_rate": 8e-06, |
|
"loss": 132.2084, |
|
"step": 824 |
|
}, |
|
{ |
|
"epoch": 2.75, |
|
"grad_norm": 1828.502197265625, |
|
"learning_rate": 8e-06, |
|
"loss": 121.4602, |
|
"step": 825 |
|
}, |
|
{ |
|
"epoch": 2.7533333333333334, |
|
"grad_norm": 1360.934814453125, |
|
"learning_rate": 8e-06, |
|
"loss": 119.0866, |
|
"step": 826 |
|
}, |
|
{ |
|
"epoch": 2.756666666666667, |
|
"grad_norm": 1886.692626953125, |
|
"learning_rate": 8e-06, |
|
"loss": 109.1527, |
|
"step": 827 |
|
}, |
|
{ |
|
"epoch": 2.76, |
|
"grad_norm": 1158.99609375, |
|
"learning_rate": 8e-06, |
|
"loss": 101.1601, |
|
"step": 828 |
|
}, |
|
{ |
|
"epoch": 2.763333333333333, |
|
"grad_norm": 2107.421142578125, |
|
"learning_rate": 8e-06, |
|
"loss": 154.901, |
|
"step": 829 |
|
}, |
|
{ |
|
"epoch": 2.7666666666666666, |
|
"grad_norm": 1346.6021728515625, |
|
"learning_rate": 8e-06, |
|
"loss": 110.2574, |
|
"step": 830 |
|
}, |
|
{ |
|
"epoch": 2.77, |
|
"grad_norm": 2046.423828125, |
|
"learning_rate": 8e-06, |
|
"loss": 152.7993, |
|
"step": 831 |
|
}, |
|
{ |
|
"epoch": 2.7733333333333334, |
|
"grad_norm": 2123.324462890625, |
|
"learning_rate": 8e-06, |
|
"loss": 141.4529, |
|
"step": 832 |
|
}, |
|
{ |
|
"epoch": 2.7766666666666664, |
|
"grad_norm": 1597.5897216796875, |
|
"learning_rate": 8e-06, |
|
"loss": 108.298, |
|
"step": 833 |
|
}, |
|
{ |
|
"epoch": 2.7800000000000002, |
|
"grad_norm": 1649.84765625, |
|
"learning_rate": 8e-06, |
|
"loss": 104.5699, |
|
"step": 834 |
|
}, |
|
{ |
|
"epoch": 2.783333333333333, |
|
"grad_norm": 1555.3839111328125, |
|
"learning_rate": 8e-06, |
|
"loss": 110.989, |
|
"step": 835 |
|
}, |
|
{ |
|
"epoch": 2.7866666666666666, |
|
"grad_norm": 2826.848388671875, |
|
"learning_rate": 8e-06, |
|
"loss": 168.2019, |
|
"step": 836 |
|
}, |
|
{ |
|
"epoch": 2.79, |
|
"grad_norm": 1649.079345703125, |
|
"learning_rate": 8e-06, |
|
"loss": 129.5021, |
|
"step": 837 |
|
}, |
|
{ |
|
"epoch": 2.7933333333333334, |
|
"grad_norm": 1513.61865234375, |
|
"learning_rate": 8e-06, |
|
"loss": 120.7805, |
|
"step": 838 |
|
}, |
|
{ |
|
"epoch": 2.796666666666667, |
|
"grad_norm": 11877.251953125, |
|
"learning_rate": 8e-06, |
|
"loss": 196.4533, |
|
"step": 839 |
|
}, |
|
{ |
|
"epoch": 2.8, |
|
"grad_norm": 1512.845947265625, |
|
"learning_rate": 8e-06, |
|
"loss": 116.478, |
|
"step": 840 |
|
}, |
|
{ |
|
"epoch": 2.8033333333333332, |
|
"grad_norm": 8531.359375, |
|
"learning_rate": 8e-06, |
|
"loss": 201.9097, |
|
"step": 841 |
|
}, |
|
{ |
|
"epoch": 2.8066666666666666, |
|
"grad_norm": 11348.8896484375, |
|
"learning_rate": 8e-06, |
|
"loss": 199.2899, |
|
"step": 842 |
|
}, |
|
{ |
|
"epoch": 2.81, |
|
"grad_norm": 1671.9217529296875, |
|
"learning_rate": 8e-06, |
|
"loss": 136.4999, |
|
"step": 843 |
|
}, |
|
{ |
|
"epoch": 2.8133333333333335, |
|
"grad_norm": 1789.046630859375, |
|
"learning_rate": 8e-06, |
|
"loss": 120.9409, |
|
"step": 844 |
|
}, |
|
{ |
|
"epoch": 2.8166666666666664, |
|
"grad_norm": 1395.83349609375, |
|
"learning_rate": 8e-06, |
|
"loss": 133.436, |
|
"step": 845 |
|
}, |
|
{ |
|
"epoch": 2.82, |
|
"grad_norm": 1755.172607421875, |
|
"learning_rate": 8e-06, |
|
"loss": 160.6759, |
|
"step": 846 |
|
}, |
|
{ |
|
"epoch": 2.8233333333333333, |
|
"grad_norm": 2140.5712890625, |
|
"learning_rate": 8e-06, |
|
"loss": 197.1828, |
|
"step": 847 |
|
}, |
|
{ |
|
"epoch": 2.8266666666666667, |
|
"grad_norm": 1562.9735107421875, |
|
"learning_rate": 8e-06, |
|
"loss": 146.6434, |
|
"step": 848 |
|
}, |
|
{ |
|
"epoch": 2.83, |
|
"grad_norm": 1706.0521240234375, |
|
"learning_rate": 8e-06, |
|
"loss": 125.0628, |
|
"step": 849 |
|
}, |
|
{ |
|
"epoch": 2.8333333333333335, |
|
"grad_norm": 2627.5810546875, |
|
"learning_rate": 8e-06, |
|
"loss": 174.2681, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 2.836666666666667, |
|
"grad_norm": 1677.6097412109375, |
|
"learning_rate": 8e-06, |
|
"loss": 126.5001, |
|
"step": 851 |
|
}, |
|
{ |
|
"epoch": 2.84, |
|
"grad_norm": 1122.907470703125, |
|
"learning_rate": 8e-06, |
|
"loss": 87.2312, |
|
"step": 852 |
|
}, |
|
{ |
|
"epoch": 2.8433333333333333, |
|
"grad_norm": 16826.1796875, |
|
"learning_rate": 8e-06, |
|
"loss": 171.4326, |
|
"step": 853 |
|
}, |
|
{ |
|
"epoch": 2.8466666666666667, |
|
"grad_norm": 1605.15966796875, |
|
"learning_rate": 8e-06, |
|
"loss": 115.2828, |
|
"step": 854 |
|
}, |
|
{ |
|
"epoch": 2.85, |
|
"grad_norm": 1574.7774658203125, |
|
"learning_rate": 8e-06, |
|
"loss": 109.5397, |
|
"step": 855 |
|
}, |
|
{ |
|
"epoch": 2.8533333333333335, |
|
"grad_norm": 1433.800048828125, |
|
"learning_rate": 8e-06, |
|
"loss": 131.8328, |
|
"step": 856 |
|
}, |
|
{ |
|
"epoch": 2.8566666666666665, |
|
"grad_norm": 1186.85205078125, |
|
"learning_rate": 8e-06, |
|
"loss": 109.0231, |
|
"step": 857 |
|
}, |
|
{ |
|
"epoch": 2.86, |
|
"grad_norm": 1395.7698974609375, |
|
"learning_rate": 8e-06, |
|
"loss": 127.747, |
|
"step": 858 |
|
}, |
|
{ |
|
"epoch": 2.8633333333333333, |
|
"grad_norm": 1544.681884765625, |
|
"learning_rate": 8e-06, |
|
"loss": 124.6063, |
|
"step": 859 |
|
}, |
|
{ |
|
"epoch": 2.8666666666666667, |
|
"grad_norm": 1576.1446533203125, |
|
"learning_rate": 8e-06, |
|
"loss": 128.7931, |
|
"step": 860 |
|
}, |
|
{ |
|
"epoch": 2.87, |
|
"grad_norm": 1472.5439453125, |
|
"learning_rate": 8e-06, |
|
"loss": 107.333, |
|
"step": 861 |
|
}, |
|
{ |
|
"epoch": 2.873333333333333, |
|
"grad_norm": 2009.869140625, |
|
"learning_rate": 8e-06, |
|
"loss": 185.5132, |
|
"step": 862 |
|
}, |
|
{ |
|
"epoch": 2.876666666666667, |
|
"grad_norm": 1762.5379638671875, |
|
"learning_rate": 8e-06, |
|
"loss": 154.4742, |
|
"step": 863 |
|
}, |
|
{ |
|
"epoch": 2.88, |
|
"grad_norm": 1735.4830322265625, |
|
"learning_rate": 8e-06, |
|
"loss": 151.1092, |
|
"step": 864 |
|
}, |
|
{ |
|
"epoch": 2.8833333333333333, |
|
"grad_norm": 2073.78564453125, |
|
"learning_rate": 8e-06, |
|
"loss": 138.165, |
|
"step": 865 |
|
}, |
|
{ |
|
"epoch": 2.8866666666666667, |
|
"grad_norm": 65369.6640625, |
|
"learning_rate": 8e-06, |
|
"loss": 126.3652, |
|
"step": 866 |
|
}, |
|
{ |
|
"epoch": 2.89, |
|
"grad_norm": 2205.854736328125, |
|
"learning_rate": 8e-06, |
|
"loss": 123.5169, |
|
"step": 867 |
|
}, |
|
{ |
|
"epoch": 2.8933333333333335, |
|
"grad_norm": 1481.4891357421875, |
|
"learning_rate": 8e-06, |
|
"loss": 109.891, |
|
"step": 868 |
|
}, |
|
{ |
|
"epoch": 2.8966666666666665, |
|
"grad_norm": 2527.139404296875, |
|
"learning_rate": 8e-06, |
|
"loss": 151.9944, |
|
"step": 869 |
|
}, |
|
{ |
|
"epoch": 2.9, |
|
"grad_norm": 1253.7718505859375, |
|
"learning_rate": 8e-06, |
|
"loss": 90.7531, |
|
"step": 870 |
|
}, |
|
{ |
|
"epoch": 2.9033333333333333, |
|
"grad_norm": 1385.5650634765625, |
|
"learning_rate": 8e-06, |
|
"loss": 116.331, |
|
"step": 871 |
|
}, |
|
{ |
|
"epoch": 2.9066666666666667, |
|
"grad_norm": 2393.984375, |
|
"learning_rate": 8e-06, |
|
"loss": 158.5081, |
|
"step": 872 |
|
}, |
|
{ |
|
"epoch": 2.91, |
|
"grad_norm": 1486.62939453125, |
|
"learning_rate": 8e-06, |
|
"loss": 100.8314, |
|
"step": 873 |
|
}, |
|
{ |
|
"epoch": 2.913333333333333, |
|
"grad_norm": 1337.0845947265625, |
|
"learning_rate": 8e-06, |
|
"loss": 123.3309, |
|
"step": 874 |
|
}, |
|
{ |
|
"epoch": 2.9166666666666665, |
|
"grad_norm": 1931.1649169921875, |
|
"learning_rate": 8e-06, |
|
"loss": 136.7862, |
|
"step": 875 |
|
}, |
|
{ |
|
"epoch": 2.92, |
|
"grad_norm": 2080.406494140625, |
|
"learning_rate": 8e-06, |
|
"loss": 138.9914, |
|
"step": 876 |
|
}, |
|
{ |
|
"epoch": 2.9233333333333333, |
|
"grad_norm": 1388.366455078125, |
|
"learning_rate": 8e-06, |
|
"loss": 132.2199, |
|
"step": 877 |
|
}, |
|
{ |
|
"epoch": 2.9266666666666667, |
|
"grad_norm": 1234.0062255859375, |
|
"learning_rate": 8e-06, |
|
"loss": 124.7154, |
|
"step": 878 |
|
}, |
|
{ |
|
"epoch": 2.93, |
|
"grad_norm": 1221.112548828125, |
|
"learning_rate": 8e-06, |
|
"loss": 118.9437, |
|
"step": 879 |
|
}, |
|
{ |
|
"epoch": 2.9333333333333336, |
|
"grad_norm": 3296.05029296875, |
|
"learning_rate": 8e-06, |
|
"loss": 123.6962, |
|
"step": 880 |
|
}, |
|
{ |
|
"epoch": 2.9366666666666665, |
|
"grad_norm": 1570.7691650390625, |
|
"learning_rate": 8e-06, |
|
"loss": 130.3079, |
|
"step": 881 |
|
}, |
|
{ |
|
"epoch": 2.94, |
|
"grad_norm": 2041.43505859375, |
|
"learning_rate": 8e-06, |
|
"loss": 147.4692, |
|
"step": 882 |
|
}, |
|
{ |
|
"epoch": 2.9433333333333334, |
|
"grad_norm": 1359.5753173828125, |
|
"learning_rate": 8e-06, |
|
"loss": 118.2364, |
|
"step": 883 |
|
}, |
|
{ |
|
"epoch": 2.9466666666666668, |
|
"grad_norm": 1334.557373046875, |
|
"learning_rate": 8e-06, |
|
"loss": 114.6468, |
|
"step": 884 |
|
}, |
|
{ |
|
"epoch": 2.95, |
|
"grad_norm": 1628.8009033203125, |
|
"learning_rate": 8e-06, |
|
"loss": 107.4027, |
|
"step": 885 |
|
}, |
|
{ |
|
"epoch": 2.953333333333333, |
|
"grad_norm": 1484.663330078125, |
|
"learning_rate": 8e-06, |
|
"loss": 112.1182, |
|
"step": 886 |
|
}, |
|
{ |
|
"epoch": 2.9566666666666666, |
|
"grad_norm": 1260.080078125, |
|
"learning_rate": 8e-06, |
|
"loss": 105.0868, |
|
"step": 887 |
|
}, |
|
{ |
|
"epoch": 2.96, |
|
"grad_norm": 1193.4752197265625, |
|
"learning_rate": 8e-06, |
|
"loss": 101.7556, |
|
"step": 888 |
|
}, |
|
{ |
|
"epoch": 2.9633333333333334, |
|
"grad_norm": 5000.62255859375, |
|
"learning_rate": 8e-06, |
|
"loss": 126.682, |
|
"step": 889 |
|
}, |
|
{ |
|
"epoch": 2.966666666666667, |
|
"grad_norm": 1277.2457275390625, |
|
"learning_rate": 8e-06, |
|
"loss": 124.1078, |
|
"step": 890 |
|
}, |
|
{ |
|
"epoch": 2.9699999999999998, |
|
"grad_norm": 1439.92529296875, |
|
"learning_rate": 8e-06, |
|
"loss": 117.5673, |
|
"step": 891 |
|
}, |
|
{ |
|
"epoch": 2.9733333333333336, |
|
"grad_norm": 1180.908203125, |
|
"learning_rate": 8e-06, |
|
"loss": 96.392, |
|
"step": 892 |
|
}, |
|
{ |
|
"epoch": 2.9766666666666666, |
|
"grad_norm": 1227.9453125, |
|
"learning_rate": 8e-06, |
|
"loss": 103.7586, |
|
"step": 893 |
|
}, |
|
{ |
|
"epoch": 2.98, |
|
"grad_norm": 1718.8194580078125, |
|
"learning_rate": 8e-06, |
|
"loss": 118.2294, |
|
"step": 894 |
|
}, |
|
{ |
|
"epoch": 2.9833333333333334, |
|
"grad_norm": 3727.582763671875, |
|
"learning_rate": 8e-06, |
|
"loss": 174.479, |
|
"step": 895 |
|
}, |
|
{ |
|
"epoch": 2.986666666666667, |
|
"grad_norm": 7991.6494140625, |
|
"learning_rate": 8e-06, |
|
"loss": 173.3744, |
|
"step": 896 |
|
}, |
|
{ |
|
"epoch": 2.99, |
|
"grad_norm": 1895.7752685546875, |
|
"learning_rate": 8e-06, |
|
"loss": 129.3557, |
|
"step": 897 |
|
}, |
|
{ |
|
"epoch": 2.993333333333333, |
|
"grad_norm": 1599.3128662109375, |
|
"learning_rate": 8e-06, |
|
"loss": 146.8098, |
|
"step": 898 |
|
}, |
|
{ |
|
"epoch": 2.9966666666666666, |
|
"grad_norm": 1358.5841064453125, |
|
"learning_rate": 8e-06, |
|
"loss": 125.8957, |
|
"step": 899 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"grad_norm": 1869.621337890625, |
|
"learning_rate": 8e-06, |
|
"loss": 108.7622, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 3.0033333333333334, |
|
"grad_norm": 1262.7513427734375, |
|
"learning_rate": 8e-06, |
|
"loss": 99.1532, |
|
"step": 901 |
|
}, |
|
{ |
|
"epoch": 3.006666666666667, |
|
"grad_norm": 1321.475830078125, |
|
"learning_rate": 8e-06, |
|
"loss": 103.4653, |
|
"step": 902 |
|
}, |
|
{ |
|
"epoch": 3.01, |
|
"grad_norm": 1498.091552734375, |
|
"learning_rate": 8e-06, |
|
"loss": 90.9615, |
|
"step": 903 |
|
}, |
|
{ |
|
"epoch": 3.013333333333333, |
|
"grad_norm": 1004.3009643554688, |
|
"learning_rate": 8e-06, |
|
"loss": 82.4096, |
|
"step": 904 |
|
}, |
|
{ |
|
"epoch": 3.0166666666666666, |
|
"grad_norm": 1226.6676025390625, |
|
"learning_rate": 8e-06, |
|
"loss": 98.0483, |
|
"step": 905 |
|
}, |
|
{ |
|
"epoch": 3.02, |
|
"grad_norm": 12529.296875, |
|
"learning_rate": 8e-06, |
|
"loss": 168.1034, |
|
"step": 906 |
|
}, |
|
{ |
|
"epoch": 3.0233333333333334, |
|
"grad_norm": 1219.318115234375, |
|
"learning_rate": 8e-06, |
|
"loss": 97.0369, |
|
"step": 907 |
|
}, |
|
{ |
|
"epoch": 3.026666666666667, |
|
"grad_norm": 1335.098876953125, |
|
"learning_rate": 8e-06, |
|
"loss": 96.7979, |
|
"step": 908 |
|
}, |
|
{ |
|
"epoch": 3.03, |
|
"grad_norm": 1256.594970703125, |
|
"learning_rate": 8e-06, |
|
"loss": 92.1351, |
|
"step": 909 |
|
}, |
|
{ |
|
"epoch": 3.033333333333333, |
|
"grad_norm": 1075.2801513671875, |
|
"learning_rate": 8e-06, |
|
"loss": 94.878, |
|
"step": 910 |
|
}, |
|
{ |
|
"epoch": 3.0366666666666666, |
|
"grad_norm": 1312.4832763671875, |
|
"learning_rate": 8e-06, |
|
"loss": 105.1931, |
|
"step": 911 |
|
}, |
|
{ |
|
"epoch": 3.04, |
|
"grad_norm": 1327.4451904296875, |
|
"learning_rate": 8e-06, |
|
"loss": 106.8739, |
|
"step": 912 |
|
}, |
|
{ |
|
"epoch": 3.0433333333333334, |
|
"grad_norm": 1165.400146484375, |
|
"learning_rate": 8e-06, |
|
"loss": 92.7762, |
|
"step": 913 |
|
}, |
|
{ |
|
"epoch": 3.046666666666667, |
|
"grad_norm": 1600.0269775390625, |
|
"learning_rate": 8e-06, |
|
"loss": 119.0007, |
|
"step": 914 |
|
}, |
|
{ |
|
"epoch": 3.05, |
|
"grad_norm": 1038.8360595703125, |
|
"learning_rate": 8e-06, |
|
"loss": 91.5958, |
|
"step": 915 |
|
}, |
|
{ |
|
"epoch": 3.0533333333333332, |
|
"grad_norm": 1410.8739013671875, |
|
"learning_rate": 8e-06, |
|
"loss": 96.8286, |
|
"step": 916 |
|
}, |
|
{ |
|
"epoch": 3.0566666666666666, |
|
"grad_norm": 1826.8096923828125, |
|
"learning_rate": 8e-06, |
|
"loss": 103.9593, |
|
"step": 917 |
|
}, |
|
{ |
|
"epoch": 3.06, |
|
"grad_norm": 4852.3154296875, |
|
"learning_rate": 8e-06, |
|
"loss": 97.6483, |
|
"step": 918 |
|
}, |
|
{ |
|
"epoch": 3.0633333333333335, |
|
"grad_norm": 1166.8743896484375, |
|
"learning_rate": 8e-06, |
|
"loss": 92.0162, |
|
"step": 919 |
|
}, |
|
{ |
|
"epoch": 3.066666666666667, |
|
"grad_norm": 1478.2503662109375, |
|
"learning_rate": 8e-06, |
|
"loss": 121.591, |
|
"step": 920 |
|
}, |
|
{ |
|
"epoch": 3.07, |
|
"grad_norm": 2064.3203125, |
|
"learning_rate": 8e-06, |
|
"loss": 126.6654, |
|
"step": 921 |
|
}, |
|
{ |
|
"epoch": 3.0733333333333333, |
|
"grad_norm": 1435.8455810546875, |
|
"learning_rate": 8e-06, |
|
"loss": 88.1973, |
|
"step": 922 |
|
}, |
|
{ |
|
"epoch": 3.0766666666666667, |
|
"grad_norm": 1942.680908203125, |
|
"learning_rate": 8e-06, |
|
"loss": 123.716, |
|
"step": 923 |
|
}, |
|
{ |
|
"epoch": 3.08, |
|
"grad_norm": 28748.62890625, |
|
"learning_rate": 8e-06, |
|
"loss": 162.4702, |
|
"step": 924 |
|
}, |
|
{ |
|
"epoch": 3.0833333333333335, |
|
"grad_norm": 1499.2147216796875, |
|
"learning_rate": 8e-06, |
|
"loss": 112.0224, |
|
"step": 925 |
|
}, |
|
{ |
|
"epoch": 3.086666666666667, |
|
"grad_norm": 1556.641357421875, |
|
"learning_rate": 8e-06, |
|
"loss": 88.2299, |
|
"step": 926 |
|
}, |
|
{ |
|
"epoch": 3.09, |
|
"grad_norm": 1299.166015625, |
|
"learning_rate": 8e-06, |
|
"loss": 103.7875, |
|
"step": 927 |
|
}, |
|
{ |
|
"epoch": 3.0933333333333333, |
|
"grad_norm": 1944.1239013671875, |
|
"learning_rate": 8e-06, |
|
"loss": 108.5586, |
|
"step": 928 |
|
}, |
|
{ |
|
"epoch": 3.0966666666666667, |
|
"grad_norm": 1073.6209716796875, |
|
"learning_rate": 8e-06, |
|
"loss": 94.7179, |
|
"step": 929 |
|
}, |
|
{ |
|
"epoch": 3.1, |
|
"grad_norm": 1089.99169921875, |
|
"learning_rate": 8e-06, |
|
"loss": 77.1986, |
|
"step": 930 |
|
}, |
|
{ |
|
"epoch": 3.1033333333333335, |
|
"grad_norm": 1837.2335205078125, |
|
"learning_rate": 8e-06, |
|
"loss": 107.1631, |
|
"step": 931 |
|
}, |
|
{ |
|
"epoch": 3.1066666666666665, |
|
"grad_norm": 875.464599609375, |
|
"learning_rate": 8e-06, |
|
"loss": 77.9481, |
|
"step": 932 |
|
}, |
|
{ |
|
"epoch": 3.11, |
|
"grad_norm": 1689.199462890625, |
|
"learning_rate": 8e-06, |
|
"loss": 95.6178, |
|
"step": 933 |
|
}, |
|
{ |
|
"epoch": 3.1133333333333333, |
|
"grad_norm": 1132.5665283203125, |
|
"learning_rate": 8e-06, |
|
"loss": 90.5679, |
|
"step": 934 |
|
}, |
|
{ |
|
"epoch": 3.1166666666666667, |
|
"grad_norm": 10556.5361328125, |
|
"learning_rate": 8e-06, |
|
"loss": 142.7617, |
|
"step": 935 |
|
}, |
|
{ |
|
"epoch": 3.12, |
|
"grad_norm": 3006.5654296875, |
|
"learning_rate": 8e-06, |
|
"loss": 152.3454, |
|
"step": 936 |
|
}, |
|
{ |
|
"epoch": 3.1233333333333335, |
|
"grad_norm": 1338.9169921875, |
|
"learning_rate": 8e-06, |
|
"loss": 95.0885, |
|
"step": 937 |
|
}, |
|
{ |
|
"epoch": 3.1266666666666665, |
|
"grad_norm": 1181.060546875, |
|
"learning_rate": 8e-06, |
|
"loss": 101.9101, |
|
"step": 938 |
|
}, |
|
{ |
|
"epoch": 3.13, |
|
"grad_norm": 1245.28759765625, |
|
"learning_rate": 8e-06, |
|
"loss": 90.3373, |
|
"step": 939 |
|
}, |
|
{ |
|
"epoch": 3.1333333333333333, |
|
"grad_norm": 1051.4898681640625, |
|
"learning_rate": 8e-06, |
|
"loss": 93.1638, |
|
"step": 940 |
|
}, |
|
{ |
|
"epoch": 3.1366666666666667, |
|
"grad_norm": 8261.3447265625, |
|
"learning_rate": 8e-06, |
|
"loss": 98.6297, |
|
"step": 941 |
|
}, |
|
{ |
|
"epoch": 3.14, |
|
"grad_norm": 1626.823486328125, |
|
"learning_rate": 8e-06, |
|
"loss": 133.2003, |
|
"step": 942 |
|
}, |
|
{ |
|
"epoch": 3.1433333333333335, |
|
"grad_norm": 1202.6107177734375, |
|
"learning_rate": 8e-06, |
|
"loss": 93.3832, |
|
"step": 943 |
|
}, |
|
{ |
|
"epoch": 3.1466666666666665, |
|
"grad_norm": 1268.8509521484375, |
|
"learning_rate": 8e-06, |
|
"loss": 100.0029, |
|
"step": 944 |
|
}, |
|
{ |
|
"epoch": 3.15, |
|
"grad_norm": 2731.94140625, |
|
"learning_rate": 8e-06, |
|
"loss": 130.7733, |
|
"step": 945 |
|
}, |
|
{ |
|
"epoch": 3.1533333333333333, |
|
"grad_norm": 1163.638671875, |
|
"learning_rate": 8e-06, |
|
"loss": 99.1531, |
|
"step": 946 |
|
}, |
|
{ |
|
"epoch": 3.1566666666666667, |
|
"grad_norm": 2256.369873046875, |
|
"learning_rate": 8e-06, |
|
"loss": 113.4864, |
|
"step": 947 |
|
}, |
|
{ |
|
"epoch": 3.16, |
|
"grad_norm": 1189.3375244140625, |
|
"learning_rate": 8e-06, |
|
"loss": 97.2566, |
|
"step": 948 |
|
}, |
|
{ |
|
"epoch": 3.163333333333333, |
|
"grad_norm": 1057.408447265625, |
|
"learning_rate": 8e-06, |
|
"loss": 102.7371, |
|
"step": 949 |
|
}, |
|
{ |
|
"epoch": 3.1666666666666665, |
|
"grad_norm": 1580.7080078125, |
|
"learning_rate": 8e-06, |
|
"loss": 117.3059, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 3.17, |
|
"grad_norm": 1658.1783447265625, |
|
"learning_rate": 8e-06, |
|
"loss": 157.542, |
|
"step": 951 |
|
}, |
|
{ |
|
"epoch": 3.1733333333333333, |
|
"grad_norm": 1415.591552734375, |
|
"learning_rate": 8e-06, |
|
"loss": 87.911, |
|
"step": 952 |
|
}, |
|
{ |
|
"epoch": 3.1766666666666667, |
|
"grad_norm": 1630.5460205078125, |
|
"learning_rate": 8e-06, |
|
"loss": 110.0969, |
|
"step": 953 |
|
}, |
|
{ |
|
"epoch": 3.18, |
|
"grad_norm": 2119.048095703125, |
|
"learning_rate": 8e-06, |
|
"loss": 94.7941, |
|
"step": 954 |
|
}, |
|
{ |
|
"epoch": 3.183333333333333, |
|
"grad_norm": 1087.211181640625, |
|
"learning_rate": 8e-06, |
|
"loss": 83.2646, |
|
"step": 955 |
|
}, |
|
{ |
|
"epoch": 3.1866666666666665, |
|
"grad_norm": 1539.645263671875, |
|
"learning_rate": 8e-06, |
|
"loss": 117.4885, |
|
"step": 956 |
|
}, |
|
{ |
|
"epoch": 3.19, |
|
"grad_norm": 1199.56005859375, |
|
"learning_rate": 8e-06, |
|
"loss": 105.2662, |
|
"step": 957 |
|
}, |
|
{ |
|
"epoch": 3.1933333333333334, |
|
"grad_norm": 1386.4102783203125, |
|
"learning_rate": 8e-06, |
|
"loss": 88.4007, |
|
"step": 958 |
|
}, |
|
{ |
|
"epoch": 3.1966666666666668, |
|
"grad_norm": 1402.4371337890625, |
|
"learning_rate": 8e-06, |
|
"loss": 78.0059, |
|
"step": 959 |
|
}, |
|
{ |
|
"epoch": 3.2, |
|
"grad_norm": 1591.2662353515625, |
|
"learning_rate": 8e-06, |
|
"loss": 77.4269, |
|
"step": 960 |
|
}, |
|
{ |
|
"epoch": 3.203333333333333, |
|
"grad_norm": 1094.13623046875, |
|
"learning_rate": 8e-06, |
|
"loss": 86.3273, |
|
"step": 961 |
|
}, |
|
{ |
|
"epoch": 3.2066666666666666, |
|
"grad_norm": 1403.09375, |
|
"learning_rate": 8e-06, |
|
"loss": 83.7896, |
|
"step": 962 |
|
}, |
|
{ |
|
"epoch": 3.21, |
|
"grad_norm": 2142.72265625, |
|
"learning_rate": 8e-06, |
|
"loss": 131.6924, |
|
"step": 963 |
|
}, |
|
{ |
|
"epoch": 3.2133333333333334, |
|
"grad_norm": 1260.436279296875, |
|
"learning_rate": 8e-06, |
|
"loss": 108.5527, |
|
"step": 964 |
|
}, |
|
{ |
|
"epoch": 3.216666666666667, |
|
"grad_norm": 1149.84375, |
|
"learning_rate": 8e-06, |
|
"loss": 109.7251, |
|
"step": 965 |
|
}, |
|
{ |
|
"epoch": 3.22, |
|
"grad_norm": 1782.0703125, |
|
"learning_rate": 8e-06, |
|
"loss": 86.3341, |
|
"step": 966 |
|
}, |
|
{ |
|
"epoch": 3.223333333333333, |
|
"grad_norm": 1510.5732421875, |
|
"learning_rate": 8e-06, |
|
"loss": 107.6742, |
|
"step": 967 |
|
}, |
|
{ |
|
"epoch": 3.2266666666666666, |
|
"grad_norm": 2081.285400390625, |
|
"learning_rate": 8e-06, |
|
"loss": 155.5452, |
|
"step": 968 |
|
}, |
|
{ |
|
"epoch": 3.23, |
|
"grad_norm": 1017.6116333007812, |
|
"learning_rate": 8e-06, |
|
"loss": 80.941, |
|
"step": 969 |
|
}, |
|
{ |
|
"epoch": 3.2333333333333334, |
|
"grad_norm": 1088.0570068359375, |
|
"learning_rate": 8e-06, |
|
"loss": 103.5597, |
|
"step": 970 |
|
}, |
|
{ |
|
"epoch": 3.236666666666667, |
|
"grad_norm": 2368.023193359375, |
|
"learning_rate": 8e-06, |
|
"loss": 146.6311, |
|
"step": 971 |
|
}, |
|
{ |
|
"epoch": 3.24, |
|
"grad_norm": 1531.8577880859375, |
|
"learning_rate": 8e-06, |
|
"loss": 100.6271, |
|
"step": 972 |
|
}, |
|
{ |
|
"epoch": 3.243333333333333, |
|
"grad_norm": 6621.287109375, |
|
"learning_rate": 8e-06, |
|
"loss": 116.6581, |
|
"step": 973 |
|
}, |
|
{ |
|
"epoch": 3.2466666666666666, |
|
"grad_norm": 1714.970458984375, |
|
"learning_rate": 8e-06, |
|
"loss": 106.1187, |
|
"step": 974 |
|
}, |
|
{ |
|
"epoch": 3.25, |
|
"grad_norm": 1542.84521484375, |
|
"learning_rate": 8e-06, |
|
"loss": 107.4749, |
|
"step": 975 |
|
}, |
|
{ |
|
"epoch": 3.2533333333333334, |
|
"grad_norm": 1303.92431640625, |
|
"learning_rate": 8e-06, |
|
"loss": 100.8845, |
|
"step": 976 |
|
}, |
|
{ |
|
"epoch": 3.256666666666667, |
|
"grad_norm": 1075.9840087890625, |
|
"learning_rate": 8e-06, |
|
"loss": 85.6477, |
|
"step": 977 |
|
}, |
|
{ |
|
"epoch": 3.26, |
|
"grad_norm": 982.2786254882812, |
|
"learning_rate": 8e-06, |
|
"loss": 91.8521, |
|
"step": 978 |
|
}, |
|
{ |
|
"epoch": 3.263333333333333, |
|
"grad_norm": 2913.77978515625, |
|
"learning_rate": 8e-06, |
|
"loss": 113.1902, |
|
"step": 979 |
|
}, |
|
{ |
|
"epoch": 3.2666666666666666, |
|
"grad_norm": 1728.9910888671875, |
|
"learning_rate": 8e-06, |
|
"loss": 108.4564, |
|
"step": 980 |
|
}, |
|
{ |
|
"epoch": 3.27, |
|
"grad_norm": 1070.4744873046875, |
|
"learning_rate": 8e-06, |
|
"loss": 105.2907, |
|
"step": 981 |
|
}, |
|
{ |
|
"epoch": 3.2733333333333334, |
|
"grad_norm": 1446.7811279296875, |
|
"learning_rate": 8e-06, |
|
"loss": 106.6868, |
|
"step": 982 |
|
}, |
|
{ |
|
"epoch": 3.276666666666667, |
|
"grad_norm": 1480.2811279296875, |
|
"learning_rate": 8e-06, |
|
"loss": 81.2437, |
|
"step": 983 |
|
}, |
|
{ |
|
"epoch": 3.2800000000000002, |
|
"grad_norm": 1167.655517578125, |
|
"learning_rate": 8e-06, |
|
"loss": 78.4928, |
|
"step": 984 |
|
}, |
|
{ |
|
"epoch": 3.283333333333333, |
|
"grad_norm": 1756.5379638671875, |
|
"learning_rate": 8e-06, |
|
"loss": 119.3782, |
|
"step": 985 |
|
}, |
|
{ |
|
"epoch": 3.2866666666666666, |
|
"grad_norm": 841.9312744140625, |
|
"learning_rate": 8e-06, |
|
"loss": 76.9443, |
|
"step": 986 |
|
}, |
|
{ |
|
"epoch": 3.29, |
|
"grad_norm": 1480.3017578125, |
|
"learning_rate": 8e-06, |
|
"loss": 131.2546, |
|
"step": 987 |
|
}, |
|
{ |
|
"epoch": 3.2933333333333334, |
|
"grad_norm": 4178.57080078125, |
|
"learning_rate": 8e-06, |
|
"loss": 129.6531, |
|
"step": 988 |
|
}, |
|
{ |
|
"epoch": 3.296666666666667, |
|
"grad_norm": 1865.8370361328125, |
|
"learning_rate": 8e-06, |
|
"loss": 75.2041, |
|
"step": 989 |
|
}, |
|
{ |
|
"epoch": 3.3, |
|
"grad_norm": 1763.667724609375, |
|
"learning_rate": 8e-06, |
|
"loss": 116.9005, |
|
"step": 990 |
|
}, |
|
{ |
|
"epoch": 3.3033333333333332, |
|
"grad_norm": 1108.38037109375, |
|
"learning_rate": 8e-06, |
|
"loss": 78.9717, |
|
"step": 991 |
|
}, |
|
{ |
|
"epoch": 3.3066666666666666, |
|
"grad_norm": 1515.422607421875, |
|
"learning_rate": 8e-06, |
|
"loss": 108.791, |
|
"step": 992 |
|
}, |
|
{ |
|
"epoch": 3.31, |
|
"grad_norm": 990.1348266601562, |
|
"learning_rate": 8e-06, |
|
"loss": 91.9363, |
|
"step": 993 |
|
}, |
|
{ |
|
"epoch": 3.3133333333333335, |
|
"grad_norm": 1046.6795654296875, |
|
"learning_rate": 8e-06, |
|
"loss": 79.6511, |
|
"step": 994 |
|
}, |
|
{ |
|
"epoch": 3.3166666666666664, |
|
"grad_norm": 1681.680908203125, |
|
"learning_rate": 8e-06, |
|
"loss": 128.2324, |
|
"step": 995 |
|
}, |
|
{ |
|
"epoch": 3.32, |
|
"grad_norm": 1519.6373291015625, |
|
"learning_rate": 8e-06, |
|
"loss": 91.8029, |
|
"step": 996 |
|
}, |
|
{ |
|
"epoch": 3.3233333333333333, |
|
"grad_norm": 1112.5341796875, |
|
"learning_rate": 8e-06, |
|
"loss": 83.8015, |
|
"step": 997 |
|
}, |
|
{ |
|
"epoch": 3.3266666666666667, |
|
"grad_norm": 2544.40966796875, |
|
"learning_rate": 8e-06, |
|
"loss": 96.9486, |
|
"step": 998 |
|
}, |
|
{ |
|
"epoch": 3.33, |
|
"grad_norm": 1285.3277587890625, |
|
"learning_rate": 8e-06, |
|
"loss": 95.5518, |
|
"step": 999 |
|
}, |
|
{ |
|
"epoch": 3.3333333333333335, |
|
"grad_norm": 1346.85986328125, |
|
"learning_rate": 8e-06, |
|
"loss": 114.2571, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 3.336666666666667, |
|
"grad_norm": 1472.1822509765625, |
|
"learning_rate": 8e-06, |
|
"loss": 100.3992, |
|
"step": 1001 |
|
}, |
|
{ |
|
"epoch": 3.34, |
|
"grad_norm": 1339.799560546875, |
|
"learning_rate": 8e-06, |
|
"loss": 119.5787, |
|
"step": 1002 |
|
}, |
|
{ |
|
"epoch": 3.3433333333333333, |
|
"grad_norm": 1881.1258544921875, |
|
"learning_rate": 8e-06, |
|
"loss": 121.5525, |
|
"step": 1003 |
|
}, |
|
{ |
|
"epoch": 3.3466666666666667, |
|
"grad_norm": 1049.4923095703125, |
|
"learning_rate": 8e-06, |
|
"loss": 91.3793, |
|
"step": 1004 |
|
}, |
|
{ |
|
"epoch": 3.35, |
|
"grad_norm": 1232.52880859375, |
|
"learning_rate": 8e-06, |
|
"loss": 98.4554, |
|
"step": 1005 |
|
}, |
|
{ |
|
"epoch": 3.3533333333333335, |
|
"grad_norm": 1111.83447265625, |
|
"learning_rate": 8e-06, |
|
"loss": 97.8704, |
|
"step": 1006 |
|
}, |
|
{ |
|
"epoch": 3.3566666666666665, |
|
"grad_norm": 1484.6248779296875, |
|
"learning_rate": 8e-06, |
|
"loss": 100.7085, |
|
"step": 1007 |
|
}, |
|
{ |
|
"epoch": 3.36, |
|
"grad_norm": 1566.390625, |
|
"learning_rate": 8e-06, |
|
"loss": 99.9637, |
|
"step": 1008 |
|
}, |
|
{ |
|
"epoch": 3.3633333333333333, |
|
"grad_norm": 1677.29638671875, |
|
"learning_rate": 8e-06, |
|
"loss": 98.9516, |
|
"step": 1009 |
|
}, |
|
{ |
|
"epoch": 3.3666666666666667, |
|
"grad_norm": 1129.9610595703125, |
|
"learning_rate": 8e-06, |
|
"loss": 89.5633, |
|
"step": 1010 |
|
}, |
|
{ |
|
"epoch": 3.37, |
|
"grad_norm": 3159.544677734375, |
|
"learning_rate": 8e-06, |
|
"loss": 160.3649, |
|
"step": 1011 |
|
}, |
|
{ |
|
"epoch": 3.3733333333333335, |
|
"grad_norm": 4449.5849609375, |
|
"learning_rate": 8e-06, |
|
"loss": 141.0703, |
|
"step": 1012 |
|
}, |
|
{ |
|
"epoch": 3.3766666666666665, |
|
"grad_norm": 2477.33251953125, |
|
"learning_rate": 8e-06, |
|
"loss": 109.721, |
|
"step": 1013 |
|
}, |
|
{ |
|
"epoch": 3.38, |
|
"grad_norm": 1162.41064453125, |
|
"learning_rate": 8e-06, |
|
"loss": 101.1131, |
|
"step": 1014 |
|
}, |
|
{ |
|
"epoch": 3.3833333333333333, |
|
"grad_norm": 1281.06396484375, |
|
"learning_rate": 8e-06, |
|
"loss": 93.4934, |
|
"step": 1015 |
|
}, |
|
{ |
|
"epoch": 3.3866666666666667, |
|
"grad_norm": 2298.62451171875, |
|
"learning_rate": 8e-06, |
|
"loss": 103.6231, |
|
"step": 1016 |
|
}, |
|
{ |
|
"epoch": 3.39, |
|
"grad_norm": 1952.998291015625, |
|
"learning_rate": 8e-06, |
|
"loss": 121.2991, |
|
"step": 1017 |
|
}, |
|
{ |
|
"epoch": 3.3933333333333335, |
|
"grad_norm": 1192.8304443359375, |
|
"learning_rate": 8e-06, |
|
"loss": 96.3522, |
|
"step": 1018 |
|
}, |
|
{ |
|
"epoch": 3.3966666666666665, |
|
"grad_norm": 1659.65283203125, |
|
"learning_rate": 8e-06, |
|
"loss": 109.9598, |
|
"step": 1019 |
|
}, |
|
{ |
|
"epoch": 3.4, |
|
"grad_norm": 1338.1715087890625, |
|
"learning_rate": 8e-06, |
|
"loss": 89.1919, |
|
"step": 1020 |
|
}, |
|
{ |
|
"epoch": 3.4033333333333333, |
|
"grad_norm": 1662.503173828125, |
|
"learning_rate": 8e-06, |
|
"loss": 118.1108, |
|
"step": 1021 |
|
}, |
|
{ |
|
"epoch": 3.4066666666666667, |
|
"grad_norm": 1500.498046875, |
|
"learning_rate": 8e-06, |
|
"loss": 122.4905, |
|
"step": 1022 |
|
}, |
|
{ |
|
"epoch": 3.41, |
|
"grad_norm": 1837.53759765625, |
|
"learning_rate": 8e-06, |
|
"loss": 110.1797, |
|
"step": 1023 |
|
}, |
|
{ |
|
"epoch": 3.413333333333333, |
|
"grad_norm": 1570.8609619140625, |
|
"learning_rate": 8e-06, |
|
"loss": 86.9768, |
|
"step": 1024 |
|
}, |
|
{ |
|
"epoch": 3.4166666666666665, |
|
"grad_norm": 1139.4315185546875, |
|
"learning_rate": 8e-06, |
|
"loss": 104.2498, |
|
"step": 1025 |
|
}, |
|
{ |
|
"epoch": 3.42, |
|
"grad_norm": 1250.85400390625, |
|
"learning_rate": 8e-06, |
|
"loss": 106.292, |
|
"step": 1026 |
|
}, |
|
{ |
|
"epoch": 3.4233333333333333, |
|
"grad_norm": 1645.544189453125, |
|
"learning_rate": 8e-06, |
|
"loss": 96.3781, |
|
"step": 1027 |
|
}, |
|
{ |
|
"epoch": 3.4266666666666667, |
|
"grad_norm": 1413.2198486328125, |
|
"learning_rate": 8e-06, |
|
"loss": 98.8219, |
|
"step": 1028 |
|
}, |
|
{ |
|
"epoch": 3.43, |
|
"grad_norm": 1309.17578125, |
|
"learning_rate": 8e-06, |
|
"loss": 93.8141, |
|
"step": 1029 |
|
}, |
|
{ |
|
"epoch": 3.4333333333333336, |
|
"grad_norm": 1311.4599609375, |
|
"learning_rate": 8e-06, |
|
"loss": 89.7627, |
|
"step": 1030 |
|
}, |
|
{ |
|
"epoch": 3.4366666666666665, |
|
"grad_norm": 1206.6412353515625, |
|
"learning_rate": 8e-06, |
|
"loss": 101.3723, |
|
"step": 1031 |
|
}, |
|
{ |
|
"epoch": 3.44, |
|
"grad_norm": 1012.2117919921875, |
|
"learning_rate": 8e-06, |
|
"loss": 68.5795, |
|
"step": 1032 |
|
}, |
|
{ |
|
"epoch": 3.4433333333333334, |
|
"grad_norm": 1698.3997802734375, |
|
"learning_rate": 8e-06, |
|
"loss": 105.8956, |
|
"step": 1033 |
|
}, |
|
{ |
|
"epoch": 3.4466666666666668, |
|
"grad_norm": 1690.8609619140625, |
|
"learning_rate": 8e-06, |
|
"loss": 103.3692, |
|
"step": 1034 |
|
}, |
|
{ |
|
"epoch": 3.45, |
|
"grad_norm": 2105.405029296875, |
|
"learning_rate": 8e-06, |
|
"loss": 119.3123, |
|
"step": 1035 |
|
}, |
|
{ |
|
"epoch": 3.453333333333333, |
|
"grad_norm": 1008.283447265625, |
|
"learning_rate": 8e-06, |
|
"loss": 90.5128, |
|
"step": 1036 |
|
}, |
|
{ |
|
"epoch": 3.4566666666666666, |
|
"grad_norm": 1693.2672119140625, |
|
"learning_rate": 8e-06, |
|
"loss": 115.4596, |
|
"step": 1037 |
|
}, |
|
{ |
|
"epoch": 3.46, |
|
"grad_norm": 1196.2149658203125, |
|
"learning_rate": 8e-06, |
|
"loss": 101.2129, |
|
"step": 1038 |
|
}, |
|
{ |
|
"epoch": 3.4633333333333334, |
|
"grad_norm": 1419.3143310546875, |
|
"learning_rate": 8e-06, |
|
"loss": 115.6889, |
|
"step": 1039 |
|
}, |
|
{ |
|
"epoch": 3.466666666666667, |
|
"grad_norm": 1857.6715087890625, |
|
"learning_rate": 8e-06, |
|
"loss": 99.4209, |
|
"step": 1040 |
|
}, |
|
{ |
|
"epoch": 3.4699999999999998, |
|
"grad_norm": 2315.8466796875, |
|
"learning_rate": 8e-06, |
|
"loss": 99.2002, |
|
"step": 1041 |
|
}, |
|
{ |
|
"epoch": 3.473333333333333, |
|
"grad_norm": 1256.9241943359375, |
|
"learning_rate": 8e-06, |
|
"loss": 90.5748, |
|
"step": 1042 |
|
}, |
|
{ |
|
"epoch": 3.4766666666666666, |
|
"grad_norm": 1620.748046875, |
|
"learning_rate": 8e-06, |
|
"loss": 103.6786, |
|
"step": 1043 |
|
}, |
|
{ |
|
"epoch": 3.48, |
|
"grad_norm": 1332.335693359375, |
|
"learning_rate": 8e-06, |
|
"loss": 107.1477, |
|
"step": 1044 |
|
}, |
|
{ |
|
"epoch": 3.4833333333333334, |
|
"grad_norm": 1540.1741943359375, |
|
"learning_rate": 8e-06, |
|
"loss": 118.4717, |
|
"step": 1045 |
|
}, |
|
{ |
|
"epoch": 3.486666666666667, |
|
"grad_norm": 1100.0787353515625, |
|
"learning_rate": 8e-06, |
|
"loss": 105.4547, |
|
"step": 1046 |
|
}, |
|
{ |
|
"epoch": 3.49, |
|
"grad_norm": 1000.0263671875, |
|
"learning_rate": 8e-06, |
|
"loss": 80.8778, |
|
"step": 1047 |
|
}, |
|
{ |
|
"epoch": 3.493333333333333, |
|
"grad_norm": 1745.34375, |
|
"learning_rate": 8e-06, |
|
"loss": 98.5197, |
|
"step": 1048 |
|
}, |
|
{ |
|
"epoch": 3.4966666666666666, |
|
"grad_norm": 2048.67333984375, |
|
"learning_rate": 8e-06, |
|
"loss": 107.1022, |
|
"step": 1049 |
|
}, |
|
{ |
|
"epoch": 3.5, |
|
"grad_norm": 2059.141845703125, |
|
"learning_rate": 8e-06, |
|
"loss": 123.0717, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 3.5033333333333334, |
|
"grad_norm": 5549.779296875, |
|
"learning_rate": 8e-06, |
|
"loss": 129.8801, |
|
"step": 1051 |
|
}, |
|
{ |
|
"epoch": 3.506666666666667, |
|
"grad_norm": 1742.79931640625, |
|
"learning_rate": 8e-06, |
|
"loss": 95.3436, |
|
"step": 1052 |
|
}, |
|
{ |
|
"epoch": 3.51, |
|
"grad_norm": 1429.6099853515625, |
|
"learning_rate": 8e-06, |
|
"loss": 109.2349, |
|
"step": 1053 |
|
}, |
|
{ |
|
"epoch": 3.513333333333333, |
|
"grad_norm": 1553.3477783203125, |
|
"learning_rate": 8e-06, |
|
"loss": 98.418, |
|
"step": 1054 |
|
}, |
|
{ |
|
"epoch": 3.5166666666666666, |
|
"grad_norm": 2562.79052734375, |
|
"learning_rate": 8e-06, |
|
"loss": 119.0194, |
|
"step": 1055 |
|
}, |
|
{ |
|
"epoch": 3.52, |
|
"grad_norm": 2988.712890625, |
|
"learning_rate": 8e-06, |
|
"loss": 124.5422, |
|
"step": 1056 |
|
}, |
|
{ |
|
"epoch": 3.5233333333333334, |
|
"grad_norm": 1765.5494384765625, |
|
"learning_rate": 8e-06, |
|
"loss": 103.2756, |
|
"step": 1057 |
|
}, |
|
{ |
|
"epoch": 3.5266666666666664, |
|
"grad_norm": 1640.2490234375, |
|
"learning_rate": 8e-06, |
|
"loss": 111.3964, |
|
"step": 1058 |
|
}, |
|
{ |
|
"epoch": 3.5300000000000002, |
|
"grad_norm": 58123.6640625, |
|
"learning_rate": 8e-06, |
|
"loss": 178.0924, |
|
"step": 1059 |
|
}, |
|
{ |
|
"epoch": 3.533333333333333, |
|
"grad_norm": 1372.79541015625, |
|
"learning_rate": 8e-06, |
|
"loss": 124.4003, |
|
"step": 1060 |
|
}, |
|
{ |
|
"epoch": 3.5366666666666666, |
|
"grad_norm": 1267.953125, |
|
"learning_rate": 8e-06, |
|
"loss": 90.042, |
|
"step": 1061 |
|
}, |
|
{ |
|
"epoch": 3.54, |
|
"grad_norm": 1850.373046875, |
|
"learning_rate": 8e-06, |
|
"loss": 128.5253, |
|
"step": 1062 |
|
}, |
|
{ |
|
"epoch": 3.5433333333333334, |
|
"grad_norm": 1413.1473388671875, |
|
"learning_rate": 8e-06, |
|
"loss": 125.4861, |
|
"step": 1063 |
|
}, |
|
{ |
|
"epoch": 3.546666666666667, |
|
"grad_norm": 1020.3916625976562, |
|
"learning_rate": 8e-06, |
|
"loss": 71.3096, |
|
"step": 1064 |
|
}, |
|
{ |
|
"epoch": 3.55, |
|
"grad_norm": 1546.8359375, |
|
"learning_rate": 8e-06, |
|
"loss": 111.37, |
|
"step": 1065 |
|
}, |
|
{ |
|
"epoch": 3.5533333333333332, |
|
"grad_norm": 1461.0078125, |
|
"learning_rate": 8e-06, |
|
"loss": 94.5669, |
|
"step": 1066 |
|
}, |
|
{ |
|
"epoch": 3.5566666666666666, |
|
"grad_norm": 1004.5853881835938, |
|
"learning_rate": 8e-06, |
|
"loss": 89.7205, |
|
"step": 1067 |
|
}, |
|
{ |
|
"epoch": 3.56, |
|
"grad_norm": 1219.38916015625, |
|
"learning_rate": 8e-06, |
|
"loss": 86.174, |
|
"step": 1068 |
|
}, |
|
{ |
|
"epoch": 3.5633333333333335, |
|
"grad_norm": 1333.85693359375, |
|
"learning_rate": 8e-06, |
|
"loss": 107.8823, |
|
"step": 1069 |
|
}, |
|
{ |
|
"epoch": 3.5666666666666664, |
|
"grad_norm": 9046.4990234375, |
|
"learning_rate": 8e-06, |
|
"loss": 121.3283, |
|
"step": 1070 |
|
}, |
|
{ |
|
"epoch": 3.57, |
|
"grad_norm": 2590.66650390625, |
|
"learning_rate": 8e-06, |
|
"loss": 96.7871, |
|
"step": 1071 |
|
}, |
|
{ |
|
"epoch": 3.5733333333333333, |
|
"grad_norm": 1612.9219970703125, |
|
"learning_rate": 8e-06, |
|
"loss": 116.6796, |
|
"step": 1072 |
|
}, |
|
{ |
|
"epoch": 3.5766666666666667, |
|
"grad_norm": 1245.856689453125, |
|
"learning_rate": 8e-06, |
|
"loss": 83.4438, |
|
"step": 1073 |
|
}, |
|
{ |
|
"epoch": 3.58, |
|
"grad_norm": 1368.11474609375, |
|
"learning_rate": 8e-06, |
|
"loss": 105.5171, |
|
"step": 1074 |
|
}, |
|
{ |
|
"epoch": 3.5833333333333335, |
|
"grad_norm": 1181.2598876953125, |
|
"learning_rate": 8e-06, |
|
"loss": 93.1511, |
|
"step": 1075 |
|
}, |
|
{ |
|
"epoch": 3.586666666666667, |
|
"grad_norm": 1255.1689453125, |
|
"learning_rate": 8e-06, |
|
"loss": 102.4427, |
|
"step": 1076 |
|
}, |
|
{ |
|
"epoch": 3.59, |
|
"grad_norm": 933.6524047851562, |
|
"learning_rate": 8e-06, |
|
"loss": 98.656, |
|
"step": 1077 |
|
}, |
|
{ |
|
"epoch": 3.5933333333333333, |
|
"grad_norm": 1519.060302734375, |
|
"learning_rate": 8e-06, |
|
"loss": 103.6229, |
|
"step": 1078 |
|
}, |
|
{ |
|
"epoch": 3.5966666666666667, |
|
"grad_norm": 1135.09130859375, |
|
"learning_rate": 8e-06, |
|
"loss": 92.0949, |
|
"step": 1079 |
|
}, |
|
{ |
|
"epoch": 3.6, |
|
"grad_norm": 1145.5345458984375, |
|
"learning_rate": 8e-06, |
|
"loss": 98.793, |
|
"step": 1080 |
|
}, |
|
{ |
|
"epoch": 3.6033333333333335, |
|
"grad_norm": 1713.8614501953125, |
|
"learning_rate": 8e-06, |
|
"loss": 126.0349, |
|
"step": 1081 |
|
}, |
|
{ |
|
"epoch": 3.6066666666666665, |
|
"grad_norm": 1237.0721435546875, |
|
"learning_rate": 8e-06, |
|
"loss": 112.0758, |
|
"step": 1082 |
|
}, |
|
{ |
|
"epoch": 3.61, |
|
"grad_norm": 1265.5643310546875, |
|
"learning_rate": 8e-06, |
|
"loss": 98.4531, |
|
"step": 1083 |
|
}, |
|
{ |
|
"epoch": 3.6133333333333333, |
|
"grad_norm": 1172.4429931640625, |
|
"learning_rate": 8e-06, |
|
"loss": 89.3182, |
|
"step": 1084 |
|
}, |
|
{ |
|
"epoch": 3.6166666666666667, |
|
"grad_norm": 1169.0030517578125, |
|
"learning_rate": 8e-06, |
|
"loss": 108.5065, |
|
"step": 1085 |
|
}, |
|
{ |
|
"epoch": 3.62, |
|
"grad_norm": 1332.7613525390625, |
|
"learning_rate": 8e-06, |
|
"loss": 111.5358, |
|
"step": 1086 |
|
}, |
|
{ |
|
"epoch": 3.623333333333333, |
|
"grad_norm": 1504.4539794921875, |
|
"learning_rate": 8e-06, |
|
"loss": 93.6187, |
|
"step": 1087 |
|
}, |
|
{ |
|
"epoch": 3.626666666666667, |
|
"grad_norm": 1538.526123046875, |
|
"learning_rate": 8e-06, |
|
"loss": 94.4933, |
|
"step": 1088 |
|
}, |
|
{ |
|
"epoch": 3.63, |
|
"grad_norm": 1093.1561279296875, |
|
"learning_rate": 8e-06, |
|
"loss": 94.4474, |
|
"step": 1089 |
|
}, |
|
{ |
|
"epoch": 3.6333333333333333, |
|
"grad_norm": 1106.5731201171875, |
|
"learning_rate": 8e-06, |
|
"loss": 78.291, |
|
"step": 1090 |
|
}, |
|
{ |
|
"epoch": 3.6366666666666667, |
|
"grad_norm": 1287.757568359375, |
|
"learning_rate": 8e-06, |
|
"loss": 105.9506, |
|
"step": 1091 |
|
}, |
|
{ |
|
"epoch": 3.64, |
|
"grad_norm": 1629.7943115234375, |
|
"learning_rate": 8e-06, |
|
"loss": 85.2943, |
|
"step": 1092 |
|
}, |
|
{ |
|
"epoch": 3.6433333333333335, |
|
"grad_norm": 1731.007568359375, |
|
"learning_rate": 8e-06, |
|
"loss": 99.824, |
|
"step": 1093 |
|
}, |
|
{ |
|
"epoch": 3.6466666666666665, |
|
"grad_norm": 1222.0220947265625, |
|
"learning_rate": 8e-06, |
|
"loss": 89.81, |
|
"step": 1094 |
|
}, |
|
{ |
|
"epoch": 3.65, |
|
"grad_norm": 1286.586669921875, |
|
"learning_rate": 8e-06, |
|
"loss": 106.8691, |
|
"step": 1095 |
|
}, |
|
{ |
|
"epoch": 3.6533333333333333, |
|
"grad_norm": 1232.73681640625, |
|
"learning_rate": 8e-06, |
|
"loss": 93.6507, |
|
"step": 1096 |
|
}, |
|
{ |
|
"epoch": 3.6566666666666667, |
|
"grad_norm": 4019.5341796875, |
|
"learning_rate": 8e-06, |
|
"loss": 163.3437, |
|
"step": 1097 |
|
}, |
|
{ |
|
"epoch": 3.66, |
|
"grad_norm": 7609.376953125, |
|
"learning_rate": 8e-06, |
|
"loss": 164.4489, |
|
"step": 1098 |
|
}, |
|
{ |
|
"epoch": 3.663333333333333, |
|
"grad_norm": 1162.5357666015625, |
|
"learning_rate": 8e-06, |
|
"loss": 88.1954, |
|
"step": 1099 |
|
}, |
|
{ |
|
"epoch": 3.6666666666666665, |
|
"grad_norm": 1630.39306640625, |
|
"learning_rate": 8e-06, |
|
"loss": 120.0612, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 3.67, |
|
"grad_norm": 3266.170166015625, |
|
"learning_rate": 8e-06, |
|
"loss": 120.2182, |
|
"step": 1101 |
|
}, |
|
{ |
|
"epoch": 3.6733333333333333, |
|
"grad_norm": 1302.93115234375, |
|
"learning_rate": 8e-06, |
|
"loss": 85.0205, |
|
"step": 1102 |
|
}, |
|
{ |
|
"epoch": 3.6766666666666667, |
|
"grad_norm": 3661.461181640625, |
|
"learning_rate": 8e-06, |
|
"loss": 75.0205, |
|
"step": 1103 |
|
}, |
|
{ |
|
"epoch": 3.68, |
|
"grad_norm": 1691.5009765625, |
|
"learning_rate": 8e-06, |
|
"loss": 96.133, |
|
"step": 1104 |
|
}, |
|
{ |
|
"epoch": 3.6833333333333336, |
|
"grad_norm": 1218.2723388671875, |
|
"learning_rate": 8e-06, |
|
"loss": 99.2882, |
|
"step": 1105 |
|
}, |
|
{ |
|
"epoch": 3.6866666666666665, |
|
"grad_norm": 1294.4605712890625, |
|
"learning_rate": 8e-06, |
|
"loss": 117.9985, |
|
"step": 1106 |
|
}, |
|
{ |
|
"epoch": 3.69, |
|
"grad_norm": 960.9136352539062, |
|
"learning_rate": 8e-06, |
|
"loss": 96.7495, |
|
"step": 1107 |
|
}, |
|
{ |
|
"epoch": 3.6933333333333334, |
|
"grad_norm": 964.8324584960938, |
|
"learning_rate": 8e-06, |
|
"loss": 86.2032, |
|
"step": 1108 |
|
}, |
|
{ |
|
"epoch": 3.6966666666666668, |
|
"grad_norm": 1633.069091796875, |
|
"learning_rate": 8e-06, |
|
"loss": 98.5851, |
|
"step": 1109 |
|
}, |
|
{ |
|
"epoch": 3.7, |
|
"grad_norm": 1021.7009887695312, |
|
"learning_rate": 8e-06, |
|
"loss": 72.7226, |
|
"step": 1110 |
|
}, |
|
{ |
|
"epoch": 3.703333333333333, |
|
"grad_norm": 2428.23974609375, |
|
"learning_rate": 8e-06, |
|
"loss": 101.7108, |
|
"step": 1111 |
|
}, |
|
{ |
|
"epoch": 3.7066666666666666, |
|
"grad_norm": 1543.0806884765625, |
|
"learning_rate": 8e-06, |
|
"loss": 103.8124, |
|
"step": 1112 |
|
}, |
|
{ |
|
"epoch": 3.71, |
|
"grad_norm": 3607.26416015625, |
|
"learning_rate": 8e-06, |
|
"loss": 122.9033, |
|
"step": 1113 |
|
}, |
|
{ |
|
"epoch": 3.7133333333333334, |
|
"grad_norm": 1206.9984130859375, |
|
"learning_rate": 8e-06, |
|
"loss": 97.7421, |
|
"step": 1114 |
|
}, |
|
{ |
|
"epoch": 3.716666666666667, |
|
"grad_norm": 1262.3092041015625, |
|
"learning_rate": 8e-06, |
|
"loss": 99.0013, |
|
"step": 1115 |
|
}, |
|
{ |
|
"epoch": 3.7199999999999998, |
|
"grad_norm": 1239.2381591796875, |
|
"learning_rate": 8e-06, |
|
"loss": 96.4628, |
|
"step": 1116 |
|
}, |
|
{ |
|
"epoch": 3.7233333333333336, |
|
"grad_norm": 1586.4107666015625, |
|
"learning_rate": 8e-06, |
|
"loss": 111.3539, |
|
"step": 1117 |
|
}, |
|
{ |
|
"epoch": 3.7266666666666666, |
|
"grad_norm": 1391.3529052734375, |
|
"learning_rate": 8e-06, |
|
"loss": 87.5459, |
|
"step": 1118 |
|
}, |
|
{ |
|
"epoch": 3.73, |
|
"grad_norm": 1637.781005859375, |
|
"learning_rate": 8e-06, |
|
"loss": 139.9659, |
|
"step": 1119 |
|
}, |
|
{ |
|
"epoch": 3.7333333333333334, |
|
"grad_norm": 1259.135498046875, |
|
"learning_rate": 8e-06, |
|
"loss": 105.8619, |
|
"step": 1120 |
|
}, |
|
{ |
|
"epoch": 3.736666666666667, |
|
"grad_norm": 1447.7239990234375, |
|
"learning_rate": 8e-06, |
|
"loss": 92.4983, |
|
"step": 1121 |
|
}, |
|
{ |
|
"epoch": 3.74, |
|
"grad_norm": 1470.084228515625, |
|
"learning_rate": 8e-06, |
|
"loss": 94.736, |
|
"step": 1122 |
|
}, |
|
{ |
|
"epoch": 3.743333333333333, |
|
"grad_norm": 1227.9195556640625, |
|
"learning_rate": 8e-06, |
|
"loss": 115.2907, |
|
"step": 1123 |
|
}, |
|
{ |
|
"epoch": 3.7466666666666666, |
|
"grad_norm": 1189.396484375, |
|
"learning_rate": 8e-06, |
|
"loss": 107.8086, |
|
"step": 1124 |
|
}, |
|
{ |
|
"epoch": 3.75, |
|
"grad_norm": 1645.446044921875, |
|
"learning_rate": 8e-06, |
|
"loss": 108.1662, |
|
"step": 1125 |
|
}, |
|
{ |
|
"epoch": 3.7533333333333334, |
|
"grad_norm": 987.1251220703125, |
|
"learning_rate": 8e-06, |
|
"loss": 78.1466, |
|
"step": 1126 |
|
}, |
|
{ |
|
"epoch": 3.756666666666667, |
|
"grad_norm": 1228.653076171875, |
|
"learning_rate": 8e-06, |
|
"loss": 85.6449, |
|
"step": 1127 |
|
}, |
|
{ |
|
"epoch": 3.76, |
|
"grad_norm": 1180.8492431640625, |
|
"learning_rate": 8e-06, |
|
"loss": 105.9941, |
|
"step": 1128 |
|
}, |
|
{ |
|
"epoch": 3.763333333333333, |
|
"grad_norm": 1421.6231689453125, |
|
"learning_rate": 8e-06, |
|
"loss": 93.4972, |
|
"step": 1129 |
|
}, |
|
{ |
|
"epoch": 3.7666666666666666, |
|
"grad_norm": 1598.895263671875, |
|
"learning_rate": 8e-06, |
|
"loss": 101.2348, |
|
"step": 1130 |
|
}, |
|
{ |
|
"epoch": 3.77, |
|
"grad_norm": 1405.4217529296875, |
|
"learning_rate": 8e-06, |
|
"loss": 109.5432, |
|
"step": 1131 |
|
}, |
|
{ |
|
"epoch": 3.7733333333333334, |
|
"grad_norm": 1204.7901611328125, |
|
"learning_rate": 8e-06, |
|
"loss": 106.6145, |
|
"step": 1132 |
|
}, |
|
{ |
|
"epoch": 3.7766666666666664, |
|
"grad_norm": 996.3070068359375, |
|
"learning_rate": 8e-06, |
|
"loss": 87.5242, |
|
"step": 1133 |
|
}, |
|
{ |
|
"epoch": 3.7800000000000002, |
|
"grad_norm": 3217.37109375, |
|
"learning_rate": 8e-06, |
|
"loss": 104.356, |
|
"step": 1134 |
|
}, |
|
{ |
|
"epoch": 3.783333333333333, |
|
"grad_norm": 1397.2333984375, |
|
"learning_rate": 8e-06, |
|
"loss": 91.9944, |
|
"step": 1135 |
|
}, |
|
{ |
|
"epoch": 3.7866666666666666, |
|
"grad_norm": 1460.9483642578125, |
|
"learning_rate": 8e-06, |
|
"loss": 96.8384, |
|
"step": 1136 |
|
}, |
|
{ |
|
"epoch": 3.79, |
|
"grad_norm": 1621.3123779296875, |
|
"learning_rate": 8e-06, |
|
"loss": 116.4024, |
|
"step": 1137 |
|
}, |
|
{ |
|
"epoch": 3.7933333333333334, |
|
"grad_norm": 1173.6678466796875, |
|
"learning_rate": 8e-06, |
|
"loss": 84.0385, |
|
"step": 1138 |
|
}, |
|
{ |
|
"epoch": 3.796666666666667, |
|
"grad_norm": 1748.694091796875, |
|
"learning_rate": 8e-06, |
|
"loss": 108.236, |
|
"step": 1139 |
|
}, |
|
{ |
|
"epoch": 3.8, |
|
"grad_norm": 1290.759765625, |
|
"learning_rate": 8e-06, |
|
"loss": 117.6849, |
|
"step": 1140 |
|
}, |
|
{ |
|
"epoch": 3.8033333333333332, |
|
"grad_norm": 1205.4642333984375, |
|
"learning_rate": 8e-06, |
|
"loss": 85.8433, |
|
"step": 1141 |
|
}, |
|
{ |
|
"epoch": 3.8066666666666666, |
|
"grad_norm": 1094.4393310546875, |
|
"learning_rate": 8e-06, |
|
"loss": 91.2855, |
|
"step": 1142 |
|
}, |
|
{ |
|
"epoch": 3.81, |
|
"grad_norm": 1143.126220703125, |
|
"learning_rate": 8e-06, |
|
"loss": 102.9539, |
|
"step": 1143 |
|
}, |
|
{ |
|
"epoch": 3.8133333333333335, |
|
"grad_norm": 1192.037109375, |
|
"learning_rate": 8e-06, |
|
"loss": 86.3304, |
|
"step": 1144 |
|
}, |
|
{ |
|
"epoch": 3.8166666666666664, |
|
"grad_norm": 2080.63232421875, |
|
"learning_rate": 8e-06, |
|
"loss": 106.6091, |
|
"step": 1145 |
|
}, |
|
{ |
|
"epoch": 3.82, |
|
"grad_norm": 1981.8778076171875, |
|
"learning_rate": 8e-06, |
|
"loss": 105.9725, |
|
"step": 1146 |
|
}, |
|
{ |
|
"epoch": 3.8233333333333333, |
|
"grad_norm": 1039.827880859375, |
|
"learning_rate": 8e-06, |
|
"loss": 92.1161, |
|
"step": 1147 |
|
}, |
|
{ |
|
"epoch": 3.8266666666666667, |
|
"grad_norm": 1247.5198974609375, |
|
"learning_rate": 8e-06, |
|
"loss": 105.5764, |
|
"step": 1148 |
|
}, |
|
{ |
|
"epoch": 3.83, |
|
"grad_norm": 2359.34912109375, |
|
"learning_rate": 8e-06, |
|
"loss": 131.653, |
|
"step": 1149 |
|
}, |
|
{ |
|
"epoch": 3.8333333333333335, |
|
"grad_norm": 1629.3062744140625, |
|
"learning_rate": 8e-06, |
|
"loss": 120.2511, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 3.836666666666667, |
|
"grad_norm": 1235.25927734375, |
|
"learning_rate": 8e-06, |
|
"loss": 104.3257, |
|
"step": 1151 |
|
}, |
|
{ |
|
"epoch": 3.84, |
|
"grad_norm": 2616.281494140625, |
|
"learning_rate": 8e-06, |
|
"loss": 109.3858, |
|
"step": 1152 |
|
}, |
|
{ |
|
"epoch": 3.8433333333333333, |
|
"grad_norm": 2025.326171875, |
|
"learning_rate": 8e-06, |
|
"loss": 118.4407, |
|
"step": 1153 |
|
}, |
|
{ |
|
"epoch": 3.8466666666666667, |
|
"grad_norm": 1315.9407958984375, |
|
"learning_rate": 8e-06, |
|
"loss": 110.1536, |
|
"step": 1154 |
|
}, |
|
{ |
|
"epoch": 3.85, |
|
"grad_norm": 1185.6700439453125, |
|
"learning_rate": 8e-06, |
|
"loss": 95.2059, |
|
"step": 1155 |
|
}, |
|
{ |
|
"epoch": 3.8533333333333335, |
|
"grad_norm": 1301.6844482421875, |
|
"learning_rate": 8e-06, |
|
"loss": 102.4743, |
|
"step": 1156 |
|
}, |
|
{ |
|
"epoch": 3.8566666666666665, |
|
"grad_norm": 1240.643798828125, |
|
"learning_rate": 8e-06, |
|
"loss": 96.866, |
|
"step": 1157 |
|
}, |
|
{ |
|
"epoch": 3.86, |
|
"grad_norm": 1363.72509765625, |
|
"learning_rate": 8e-06, |
|
"loss": 112.0611, |
|
"step": 1158 |
|
}, |
|
{ |
|
"epoch": 3.8633333333333333, |
|
"grad_norm": 1599.5068359375, |
|
"learning_rate": 8e-06, |
|
"loss": 94.0664, |
|
"step": 1159 |
|
}, |
|
{ |
|
"epoch": 3.8666666666666667, |
|
"grad_norm": 1220.3763427734375, |
|
"learning_rate": 8e-06, |
|
"loss": 98.0257, |
|
"step": 1160 |
|
}, |
|
{ |
|
"epoch": 3.87, |
|
"grad_norm": 1135.7181396484375, |
|
"learning_rate": 8e-06, |
|
"loss": 94.3363, |
|
"step": 1161 |
|
}, |
|
{ |
|
"epoch": 3.873333333333333, |
|
"grad_norm": 1140.160400390625, |
|
"learning_rate": 8e-06, |
|
"loss": 110.418, |
|
"step": 1162 |
|
}, |
|
{ |
|
"epoch": 3.876666666666667, |
|
"grad_norm": 1568.91357421875, |
|
"learning_rate": 8e-06, |
|
"loss": 120.6119, |
|
"step": 1163 |
|
}, |
|
{ |
|
"epoch": 3.88, |
|
"grad_norm": 1983.083984375, |
|
"learning_rate": 8e-06, |
|
"loss": 109.6378, |
|
"step": 1164 |
|
}, |
|
{ |
|
"epoch": 3.8833333333333333, |
|
"grad_norm": 1314.113525390625, |
|
"learning_rate": 8e-06, |
|
"loss": 99.3481, |
|
"step": 1165 |
|
}, |
|
{ |
|
"epoch": 3.8866666666666667, |
|
"grad_norm": 1645.87548828125, |
|
"learning_rate": 8e-06, |
|
"loss": 101.9699, |
|
"step": 1166 |
|
}, |
|
{ |
|
"epoch": 3.89, |
|
"grad_norm": 1396.23583984375, |
|
"learning_rate": 8e-06, |
|
"loss": 121.3454, |
|
"step": 1167 |
|
}, |
|
{ |
|
"epoch": 3.8933333333333335, |
|
"grad_norm": 1517.88232421875, |
|
"learning_rate": 8e-06, |
|
"loss": 74.4765, |
|
"step": 1168 |
|
}, |
|
{ |
|
"epoch": 3.8966666666666665, |
|
"grad_norm": 1110.167724609375, |
|
"learning_rate": 8e-06, |
|
"loss": 98.9139, |
|
"step": 1169 |
|
}, |
|
{ |
|
"epoch": 3.9, |
|
"grad_norm": 1544.4853515625, |
|
"learning_rate": 8e-06, |
|
"loss": 123.5604, |
|
"step": 1170 |
|
}, |
|
{ |
|
"epoch": 3.9033333333333333, |
|
"grad_norm": 1809.413330078125, |
|
"learning_rate": 8e-06, |
|
"loss": 100.1321, |
|
"step": 1171 |
|
}, |
|
{ |
|
"epoch": 3.9066666666666667, |
|
"grad_norm": 1213.014892578125, |
|
"learning_rate": 8e-06, |
|
"loss": 97.2027, |
|
"step": 1172 |
|
}, |
|
{ |
|
"epoch": 3.91, |
|
"grad_norm": 1125.602783203125, |
|
"learning_rate": 8e-06, |
|
"loss": 83.4753, |
|
"step": 1173 |
|
}, |
|
{ |
|
"epoch": 3.913333333333333, |
|
"grad_norm": 1498.9251708984375, |
|
"learning_rate": 8e-06, |
|
"loss": 121.4995, |
|
"step": 1174 |
|
}, |
|
{ |
|
"epoch": 3.9166666666666665, |
|
"grad_norm": 1829.532470703125, |
|
"learning_rate": 8e-06, |
|
"loss": 112.8876, |
|
"step": 1175 |
|
}, |
|
{ |
|
"epoch": 3.92, |
|
"grad_norm": 1008.3826293945312, |
|
"learning_rate": 8e-06, |
|
"loss": 94.1952, |
|
"step": 1176 |
|
}, |
|
{ |
|
"epoch": 3.9233333333333333, |
|
"grad_norm": 1689.2933349609375, |
|
"learning_rate": 8e-06, |
|
"loss": 91.7001, |
|
"step": 1177 |
|
}, |
|
{ |
|
"epoch": 3.9266666666666667, |
|
"grad_norm": 905.2721557617188, |
|
"learning_rate": 8e-06, |
|
"loss": 77.6426, |
|
"step": 1178 |
|
}, |
|
{ |
|
"epoch": 3.93, |
|
"grad_norm": 1524.002197265625, |
|
"learning_rate": 8e-06, |
|
"loss": 120.6405, |
|
"step": 1179 |
|
}, |
|
{ |
|
"epoch": 3.9333333333333336, |
|
"grad_norm": 1663.9874267578125, |
|
"learning_rate": 8e-06, |
|
"loss": 112.903, |
|
"step": 1180 |
|
}, |
|
{ |
|
"epoch": 3.9366666666666665, |
|
"grad_norm": 1653.5052490234375, |
|
"learning_rate": 8e-06, |
|
"loss": 118.7463, |
|
"step": 1181 |
|
}, |
|
{ |
|
"epoch": 3.94, |
|
"grad_norm": 1066.969482421875, |
|
"learning_rate": 8e-06, |
|
"loss": 92.5098, |
|
"step": 1182 |
|
}, |
|
{ |
|
"epoch": 3.9433333333333334, |
|
"grad_norm": 1379.9056396484375, |
|
"learning_rate": 8e-06, |
|
"loss": 106.0095, |
|
"step": 1183 |
|
}, |
|
{ |
|
"epoch": 3.9466666666666668, |
|
"grad_norm": 3959.04296875, |
|
"learning_rate": 8e-06, |
|
"loss": 104.2069, |
|
"step": 1184 |
|
}, |
|
{ |
|
"epoch": 3.95, |
|
"grad_norm": 1216.3792724609375, |
|
"learning_rate": 8e-06, |
|
"loss": 85.2712, |
|
"step": 1185 |
|
}, |
|
{ |
|
"epoch": 3.953333333333333, |
|
"grad_norm": 1450.44482421875, |
|
"learning_rate": 8e-06, |
|
"loss": 104.3864, |
|
"step": 1186 |
|
}, |
|
{ |
|
"epoch": 3.9566666666666666, |
|
"grad_norm": 4799.47705078125, |
|
"learning_rate": 8e-06, |
|
"loss": 151.4352, |
|
"step": 1187 |
|
}, |
|
{ |
|
"epoch": 3.96, |
|
"grad_norm": 1530.94580078125, |
|
"learning_rate": 8e-06, |
|
"loss": 102.7601, |
|
"step": 1188 |
|
}, |
|
{ |
|
"epoch": 3.9633333333333334, |
|
"grad_norm": 1225.0638427734375, |
|
"learning_rate": 8e-06, |
|
"loss": 111.2649, |
|
"step": 1189 |
|
}, |
|
{ |
|
"epoch": 3.966666666666667, |
|
"grad_norm": 1063.117919921875, |
|
"learning_rate": 8e-06, |
|
"loss": 97.7322, |
|
"step": 1190 |
|
}, |
|
{ |
|
"epoch": 3.9699999999999998, |
|
"grad_norm": 1219.420654296875, |
|
"learning_rate": 8e-06, |
|
"loss": 98.817, |
|
"step": 1191 |
|
}, |
|
{ |
|
"epoch": 3.9733333333333336, |
|
"grad_norm": 2458.62646484375, |
|
"learning_rate": 8e-06, |
|
"loss": 105.0183, |
|
"step": 1192 |
|
}, |
|
{ |
|
"epoch": 3.9766666666666666, |
|
"grad_norm": 1175.68359375, |
|
"learning_rate": 8e-06, |
|
"loss": 94.4347, |
|
"step": 1193 |
|
}, |
|
{ |
|
"epoch": 3.98, |
|
"grad_norm": 1164.2926025390625, |
|
"learning_rate": 8e-06, |
|
"loss": 85.7069, |
|
"step": 1194 |
|
}, |
|
{ |
|
"epoch": 3.9833333333333334, |
|
"grad_norm": 1042.6993408203125, |
|
"learning_rate": 8e-06, |
|
"loss": 98.1143, |
|
"step": 1195 |
|
}, |
|
{ |
|
"epoch": 3.986666666666667, |
|
"grad_norm": 2035.12939453125, |
|
"learning_rate": 8e-06, |
|
"loss": 83.1174, |
|
"step": 1196 |
|
}, |
|
{ |
|
"epoch": 3.99, |
|
"grad_norm": 1740.3966064453125, |
|
"learning_rate": 8e-06, |
|
"loss": 122.5139, |
|
"step": 1197 |
|
}, |
|
{ |
|
"epoch": 3.993333333333333, |
|
"grad_norm": 1286.7196044921875, |
|
"learning_rate": 8e-06, |
|
"loss": 114.5274, |
|
"step": 1198 |
|
}, |
|
{ |
|
"epoch": 3.9966666666666666, |
|
"grad_norm": 2211.156494140625, |
|
"learning_rate": 8e-06, |
|
"loss": 123.2792, |
|
"step": 1199 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"grad_norm": 1335.3843994140625, |
|
"learning_rate": 8e-06, |
|
"loss": 89.2689, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"eval_loss": 249.32330322265625, |
|
"eval_runtime": 855.9453, |
|
"eval_samples_per_second": 2.103, |
|
"eval_steps_per_second": 1.051, |
|
"step": 1200 |
|
} |
|
], |
|
"logging_steps": 1.0, |
|
"max_steps": 1200, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 4, |
|
"save_steps": 400, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 1.2491565487987098e+18, |
|
"train_batch_size": 2, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|