|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 1.0, |
|
"eval_steps": 60, |
|
"global_step": 300, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.0033333333333333335, |
|
"grad_norm": NaN, |
|
"learning_rate": 0.0, |
|
"loss": 3.678, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.006666666666666667, |
|
"grad_norm": 0.4762135446071625, |
|
"learning_rate": 2.2222222222222223e-05, |
|
"loss": 3.0439, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 0.6002700328826904, |
|
"learning_rate": 4.4444444444444447e-05, |
|
"loss": 3.4106, |
|
"step": 3 |
|
}, |
|
{ |
|
"epoch": 0.013333333333333334, |
|
"grad_norm": 0.6476659178733826, |
|
"learning_rate": 6.666666666666667e-05, |
|
"loss": 3.554, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 0.016666666666666666, |
|
"grad_norm": 0.5185155272483826, |
|
"learning_rate": 8.888888888888889e-05, |
|
"loss": 3.0154, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": NaN, |
|
"learning_rate": 8.888888888888889e-05, |
|
"loss": 2.8894, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 0.023333333333333334, |
|
"grad_norm": 0.8041224479675293, |
|
"learning_rate": 0.00011111111111111112, |
|
"loss": 3.0546, |
|
"step": 7 |
|
}, |
|
{ |
|
"epoch": 0.02666666666666667, |
|
"grad_norm": 0.3952060639858246, |
|
"learning_rate": 0.00013333333333333334, |
|
"loss": 2.9562, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": NaN, |
|
"learning_rate": 0.00013333333333333334, |
|
"loss": 2.6144, |
|
"step": 9 |
|
}, |
|
{ |
|
"epoch": 0.03333333333333333, |
|
"grad_norm": 0.8140532374382019, |
|
"learning_rate": 0.00015555555555555556, |
|
"loss": 2.5651, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.03666666666666667, |
|
"grad_norm": 0.7712438106536865, |
|
"learning_rate": 0.00017777777777777779, |
|
"loss": 2.4462, |
|
"step": 11 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 0.9129194617271423, |
|
"learning_rate": 0.0002, |
|
"loss": 2.2021, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 0.043333333333333335, |
|
"grad_norm": 1.4973784685134888, |
|
"learning_rate": 0.00019999417253661235, |
|
"loss": 1.7726, |
|
"step": 13 |
|
}, |
|
{ |
|
"epoch": 0.04666666666666667, |
|
"grad_norm": 1.3915261030197144, |
|
"learning_rate": 0.00019997669082563597, |
|
"loss": 2.0128, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 2.2161591053009033, |
|
"learning_rate": 0.00019994755690455152, |
|
"loss": 1.7553, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 0.05333333333333334, |
|
"grad_norm": 1.6553738117218018, |
|
"learning_rate": 0.00019990677416889608, |
|
"loss": 2.0475, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 0.056666666666666664, |
|
"grad_norm": 0.6157505512237549, |
|
"learning_rate": 0.0001998543473718677, |
|
"loss": 1.685, |
|
"step": 17 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 0.24669784307479858, |
|
"learning_rate": 0.00019979028262377118, |
|
"loss": 1.6533, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 0.06333333333333334, |
|
"grad_norm": 0.22707951068878174, |
|
"learning_rate": 0.00019971458739130598, |
|
"loss": 2.0047, |
|
"step": 19 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"grad_norm": 1.4569851160049438, |
|
"learning_rate": 0.000199627270496696, |
|
"loss": 2.0384, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 0.413117915391922, |
|
"learning_rate": 0.0001995283421166614, |
|
"loss": 1.8686, |
|
"step": 21 |
|
}, |
|
{ |
|
"epoch": 0.07333333333333333, |
|
"grad_norm": 0.3769432604312897, |
|
"learning_rate": 0.00019941781378123244, |
|
"loss": 2.3281, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 0.07666666666666666, |
|
"grad_norm": 0.22103984653949738, |
|
"learning_rate": 0.00019929569837240564, |
|
"loss": 1.4126, |
|
"step": 23 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 0.24588149785995483, |
|
"learning_rate": 0.00019916201012264254, |
|
"loss": 1.8129, |
|
"step": 24 |
|
}, |
|
{ |
|
"epoch": 0.08333333333333333, |
|
"grad_norm": 0.16510339081287384, |
|
"learning_rate": 0.00019901676461321068, |
|
"loss": 1.3982, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.08666666666666667, |
|
"grad_norm": 0.1440768837928772, |
|
"learning_rate": 0.00019885997877236788, |
|
"loss": 2.1907, |
|
"step": 26 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 0.17060863971710205, |
|
"learning_rate": 0.00019869167087338907, |
|
"loss": 1.3803, |
|
"step": 27 |
|
}, |
|
{ |
|
"epoch": 0.09333333333333334, |
|
"grad_norm": 0.2069515585899353, |
|
"learning_rate": 0.00019851186053243666, |
|
"loss": 1.887, |
|
"step": 28 |
|
}, |
|
{ |
|
"epoch": 0.09666666666666666, |
|
"grad_norm": 0.21821996569633484, |
|
"learning_rate": 0.00019832056870627417, |
|
"loss": 1.6054, |
|
"step": 29 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 0.17882876098155975, |
|
"learning_rate": 0.0001981178176898239, |
|
"loss": 1.6342, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.10333333333333333, |
|
"grad_norm": 0.17038118839263916, |
|
"learning_rate": 0.00019790363111356837, |
|
"loss": 1.8819, |
|
"step": 31 |
|
}, |
|
{ |
|
"epoch": 0.10666666666666667, |
|
"grad_norm": 0.1974552720785141, |
|
"learning_rate": 0.00019767803394079615, |
|
"loss": 1.9041, |
|
"step": 32 |
|
}, |
|
{ |
|
"epoch": 0.11, |
|
"grad_norm": 0.2757965922355652, |
|
"learning_rate": 0.00019744105246469263, |
|
"loss": 1.9125, |
|
"step": 33 |
|
}, |
|
{ |
|
"epoch": 0.11333333333333333, |
|
"grad_norm": 0.19870969653129578, |
|
"learning_rate": 0.0001971927143052752, |
|
"loss": 1.8851, |
|
"step": 34 |
|
}, |
|
{ |
|
"epoch": 0.11666666666666667, |
|
"grad_norm": 0.1826757788658142, |
|
"learning_rate": 0.00019693304840617457, |
|
"loss": 1.7898, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 0.12, |
|
"grad_norm": 0.2616521716117859, |
|
"learning_rate": 0.00019666208503126112, |
|
"loss": 1.9304, |
|
"step": 36 |
|
}, |
|
{ |
|
"epoch": 0.12333333333333334, |
|
"grad_norm": 0.21208493411540985, |
|
"learning_rate": 0.00019637985576111778, |
|
"loss": 1.6942, |
|
"step": 37 |
|
}, |
|
{ |
|
"epoch": 0.12666666666666668, |
|
"grad_norm": 0.2790180444717407, |
|
"learning_rate": 0.0001960863934893594, |
|
"loss": 1.8333, |
|
"step": 38 |
|
}, |
|
{ |
|
"epoch": 0.13, |
|
"grad_norm": 0.18341009318828583, |
|
"learning_rate": 0.00019578173241879872, |
|
"loss": 1.8026, |
|
"step": 39 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 0.41886040568351746, |
|
"learning_rate": 0.00019546590805746052, |
|
"loss": 1.7716, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.13666666666666666, |
|
"grad_norm": 0.13291174173355103, |
|
"learning_rate": 0.00019513895721444286, |
|
"loss": 1.9675, |
|
"step": 41 |
|
}, |
|
{ |
|
"epoch": 0.14, |
|
"grad_norm": 0.1474720984697342, |
|
"learning_rate": 0.00019480091799562704, |
|
"loss": 1.6786, |
|
"step": 42 |
|
}, |
|
{ |
|
"epoch": 0.14333333333333334, |
|
"grad_norm": 0.17442239820957184, |
|
"learning_rate": 0.00019445182979923654, |
|
"loss": 1.7849, |
|
"step": 43 |
|
}, |
|
{ |
|
"epoch": 0.14666666666666667, |
|
"grad_norm": 0.15233103930950165, |
|
"learning_rate": 0.000194091733311245, |
|
"loss": 1.5371, |
|
"step": 44 |
|
}, |
|
{ |
|
"epoch": 0.15, |
|
"grad_norm": 0.13791708648204803, |
|
"learning_rate": 0.00019372067050063438, |
|
"loss": 2.0132, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 0.15333333333333332, |
|
"grad_norm": 0.15251068770885468, |
|
"learning_rate": 0.0001933386846145036, |
|
"loss": 1.7359, |
|
"step": 46 |
|
}, |
|
{ |
|
"epoch": 0.15666666666666668, |
|
"grad_norm": 0.24324262142181396, |
|
"learning_rate": 0.00019294582017302797, |
|
"loss": 1.7972, |
|
"step": 47 |
|
}, |
|
{ |
|
"epoch": 0.16, |
|
"grad_norm": 0.20748841762542725, |
|
"learning_rate": 0.00019254212296427044, |
|
"loss": 1.5059, |
|
"step": 48 |
|
}, |
|
{ |
|
"epoch": 0.16333333333333333, |
|
"grad_norm": 0.3106396496295929, |
|
"learning_rate": 0.0001921276400388451, |
|
"loss": 2.0664, |
|
"step": 49 |
|
}, |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"grad_norm": 0.31523287296295166, |
|
"learning_rate": 0.00019170241970443343, |
|
"loss": 1.8873, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.17, |
|
"grad_norm": 1.2277356386184692, |
|
"learning_rate": 0.00019126651152015403, |
|
"loss": 1.6405, |
|
"step": 51 |
|
}, |
|
{ |
|
"epoch": 0.17333333333333334, |
|
"grad_norm": 0.19061756134033203, |
|
"learning_rate": 0.00019081996629078657, |
|
"loss": 1.8921, |
|
"step": 52 |
|
}, |
|
{ |
|
"epoch": 0.17666666666666667, |
|
"grad_norm": 0.27055197954177856, |
|
"learning_rate": 0.00019036283606085053, |
|
"loss": 1.8499, |
|
"step": 53 |
|
}, |
|
{ |
|
"epoch": 0.18, |
|
"grad_norm": 0.4002118706703186, |
|
"learning_rate": 0.00018989517410853955, |
|
"loss": 1.4783, |
|
"step": 54 |
|
}, |
|
{ |
|
"epoch": 0.18333333333333332, |
|
"grad_norm": 0.27212274074554443, |
|
"learning_rate": 0.00018941703493951164, |
|
"loss": 1.2299, |
|
"step": 55 |
|
}, |
|
{ |
|
"epoch": 0.18666666666666668, |
|
"grad_norm": 0.6585210561752319, |
|
"learning_rate": 0.00018892847428053693, |
|
"loss": 1.6397, |
|
"step": 56 |
|
}, |
|
{ |
|
"epoch": 0.19, |
|
"grad_norm": 0.2484641969203949, |
|
"learning_rate": 0.00018842954907300236, |
|
"loss": 1.9502, |
|
"step": 57 |
|
}, |
|
{ |
|
"epoch": 0.19333333333333333, |
|
"grad_norm": 0.1978948712348938, |
|
"learning_rate": 0.00018792031746627563, |
|
"loss": 2.0229, |
|
"step": 58 |
|
}, |
|
{ |
|
"epoch": 0.19666666666666666, |
|
"grad_norm": 0.17801423370838165, |
|
"learning_rate": 0.0001874008388109276, |
|
"loss": 2.0025, |
|
"step": 59 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 0.26752933859825134, |
|
"learning_rate": 0.00018687117365181512, |
|
"loss": 1.522, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"eval_loss": 1.9986859560012817, |
|
"eval_runtime": 106.2759, |
|
"eval_samples_per_second": 2.823, |
|
"eval_steps_per_second": 0.358, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.20333333333333334, |
|
"grad_norm": 0.24524369835853577, |
|
"learning_rate": 0.00018633138372102468, |
|
"loss": 2.0717, |
|
"step": 61 |
|
}, |
|
{ |
|
"epoch": 0.20666666666666667, |
|
"grad_norm": 0.1529204249382019, |
|
"learning_rate": 0.00018578153193067745, |
|
"loss": 1.7074, |
|
"step": 62 |
|
}, |
|
{ |
|
"epoch": 0.21, |
|
"grad_norm": 0.2284618765115738, |
|
"learning_rate": 0.00018522168236559695, |
|
"loss": 1.5471, |
|
"step": 63 |
|
}, |
|
{ |
|
"epoch": 0.21333333333333335, |
|
"grad_norm": 0.21615256369113922, |
|
"learning_rate": 0.00018465190027584005, |
|
"loss": 1.5937, |
|
"step": 64 |
|
}, |
|
{ |
|
"epoch": 0.21666666666666667, |
|
"grad_norm": 0.24150824546813965, |
|
"learning_rate": 0.00018407225206909208, |
|
"loss": 1.5986, |
|
"step": 65 |
|
}, |
|
{ |
|
"epoch": 0.22, |
|
"grad_norm": 0.15798711776733398, |
|
"learning_rate": 0.00018348280530292713, |
|
"loss": 1.8715, |
|
"step": 66 |
|
}, |
|
{ |
|
"epoch": 0.22333333333333333, |
|
"grad_norm": 0.2319696843624115, |
|
"learning_rate": 0.00018288362867693414, |
|
"loss": 1.3617, |
|
"step": 67 |
|
}, |
|
{ |
|
"epoch": 0.22666666666666666, |
|
"grad_norm": 0.2020319700241089, |
|
"learning_rate": 0.00018227479202471015, |
|
"loss": 1.7928, |
|
"step": 68 |
|
}, |
|
{ |
|
"epoch": 0.23, |
|
"grad_norm": 0.2809887230396271, |
|
"learning_rate": 0.0001816563663057211, |
|
"loss": 2.0081, |
|
"step": 69 |
|
}, |
|
{ |
|
"epoch": 0.23333333333333334, |
|
"grad_norm": 0.2510971426963806, |
|
"learning_rate": 0.00018102842359703176, |
|
"loss": 1.5938, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 0.23666666666666666, |
|
"grad_norm": 0.1601170003414154, |
|
"learning_rate": 0.000180391037084905, |
|
"loss": 1.8598, |
|
"step": 71 |
|
}, |
|
{ |
|
"epoch": 0.24, |
|
"grad_norm": 0.2945798337459564, |
|
"learning_rate": 0.00017974428105627208, |
|
"loss": 1.6412, |
|
"step": 72 |
|
}, |
|
{ |
|
"epoch": 0.24333333333333335, |
|
"grad_norm": 0.31662991642951965, |
|
"learning_rate": 0.00017908823089007457, |
|
"loss": 1.6946, |
|
"step": 73 |
|
}, |
|
{ |
|
"epoch": 0.24666666666666667, |
|
"grad_norm": 0.3063909709453583, |
|
"learning_rate": 0.00017842296304847893, |
|
"loss": 1.9946, |
|
"step": 74 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"grad_norm": 0.13805601000785828, |
|
"learning_rate": 0.00017774855506796496, |
|
"loss": 1.6024, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 0.25333333333333335, |
|
"grad_norm": 0.17819726467132568, |
|
"learning_rate": 0.00017706508555028893, |
|
"loss": 1.7703, |
|
"step": 76 |
|
}, |
|
{ |
|
"epoch": 0.25666666666666665, |
|
"grad_norm": 0.11969258636236191, |
|
"learning_rate": 0.0001763726341533227, |
|
"loss": 1.9729, |
|
"step": 77 |
|
}, |
|
{ |
|
"epoch": 0.26, |
|
"grad_norm": 0.20544451475143433, |
|
"learning_rate": 0.00017567128158176953, |
|
"loss": 1.714, |
|
"step": 78 |
|
}, |
|
{ |
|
"epoch": 0.2633333333333333, |
|
"grad_norm": 0.16914527118206024, |
|
"learning_rate": 0.0001749611095777581, |
|
"loss": 1.936, |
|
"step": 79 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 0.1939394325017929, |
|
"learning_rate": 0.00017424220091131535, |
|
"loss": 1.4724, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 0.27, |
|
"grad_norm": 0.19433513283729553, |
|
"learning_rate": 0.00017351463937072004, |
|
"loss": 1.8444, |
|
"step": 81 |
|
}, |
|
{ |
|
"epoch": 0.2733333333333333, |
|
"grad_norm": 0.18188251554965973, |
|
"learning_rate": 0.00017277850975273696, |
|
"loss": 1.6896, |
|
"step": 82 |
|
}, |
|
{ |
|
"epoch": 0.27666666666666667, |
|
"grad_norm": 0.17649756371974945, |
|
"learning_rate": 0.000172033897852734, |
|
"loss": 1.6855, |
|
"step": 83 |
|
}, |
|
{ |
|
"epoch": 0.28, |
|
"grad_norm": 0.1801021695137024, |
|
"learning_rate": 0.00017128089045468294, |
|
"loss": 1.4462, |
|
"step": 84 |
|
}, |
|
{ |
|
"epoch": 0.2833333333333333, |
|
"grad_norm": 0.16927750408649445, |
|
"learning_rate": 0.0001705195753210446, |
|
"loss": 1.5268, |
|
"step": 85 |
|
}, |
|
{ |
|
"epoch": 0.2866666666666667, |
|
"grad_norm": 0.18690228462219238, |
|
"learning_rate": 0.0001697500411825403, |
|
"loss": 1.8519, |
|
"step": 86 |
|
}, |
|
{ |
|
"epoch": 0.29, |
|
"grad_norm": 0.20217467844486237, |
|
"learning_rate": 0.00016897237772781044, |
|
"loss": 1.92, |
|
"step": 87 |
|
}, |
|
{ |
|
"epoch": 0.29333333333333333, |
|
"grad_norm": 0.27469587326049805, |
|
"learning_rate": 0.0001681866755929612, |
|
"loss": 2.0257, |
|
"step": 88 |
|
}, |
|
{ |
|
"epoch": 0.2966666666666667, |
|
"grad_norm": 0.13343855738639832, |
|
"learning_rate": 0.00016739302635100108, |
|
"loss": 1.6739, |
|
"step": 89 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"grad_norm": 0.18704169988632202, |
|
"learning_rate": 0.00016659152250116812, |
|
"loss": 1.7542, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 0.30333333333333334, |
|
"grad_norm": 0.2323143184185028, |
|
"learning_rate": 0.00016578225745814907, |
|
"loss": 1.6746, |
|
"step": 91 |
|
}, |
|
{ |
|
"epoch": 0.30666666666666664, |
|
"grad_norm": 0.17189523577690125, |
|
"learning_rate": 0.00016496532554119214, |
|
"loss": 1.6818, |
|
"step": 92 |
|
}, |
|
{ |
|
"epoch": 0.31, |
|
"grad_norm": 0.19542841613292694, |
|
"learning_rate": 0.000164140821963114, |
|
"loss": 1.7951, |
|
"step": 93 |
|
}, |
|
{ |
|
"epoch": 0.31333333333333335, |
|
"grad_norm": 0.2227221131324768, |
|
"learning_rate": 0.000163308842819203, |
|
"loss": 2.0738, |
|
"step": 94 |
|
}, |
|
{ |
|
"epoch": 0.31666666666666665, |
|
"grad_norm": 0.25109028816223145, |
|
"learning_rate": 0.00016246948507601914, |
|
"loss": 1.7133, |
|
"step": 95 |
|
}, |
|
{ |
|
"epoch": 0.32, |
|
"grad_norm": 0.12997524440288544, |
|
"learning_rate": 0.00016162284656009274, |
|
"loss": 1.9752, |
|
"step": 96 |
|
}, |
|
{ |
|
"epoch": 0.3233333333333333, |
|
"grad_norm": 0.23506972193717957, |
|
"learning_rate": 0.0001607690259465229, |
|
"loss": 1.905, |
|
"step": 97 |
|
}, |
|
{ |
|
"epoch": 0.32666666666666666, |
|
"grad_norm": 0.15737849473953247, |
|
"learning_rate": 0.00015990812274747692, |
|
"loss": 1.5445, |
|
"step": 98 |
|
}, |
|
{ |
|
"epoch": 0.33, |
|
"grad_norm": 0.16445747017860413, |
|
"learning_rate": 0.00015904023730059228, |
|
"loss": 1.7706, |
|
"step": 99 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"grad_norm": 0.16149075329303741, |
|
"learning_rate": 0.00015816547075728226, |
|
"loss": 1.8575, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.33666666666666667, |
|
"grad_norm": 0.17258767783641815, |
|
"learning_rate": 0.000157283925070947, |
|
"loss": 1.6852, |
|
"step": 101 |
|
}, |
|
{ |
|
"epoch": 0.34, |
|
"grad_norm": 0.21116161346435547, |
|
"learning_rate": 0.00015639570298509064, |
|
"loss": 1.6215, |
|
"step": 102 |
|
}, |
|
{ |
|
"epoch": 0.3433333333333333, |
|
"grad_norm": 0.21945820748806, |
|
"learning_rate": 0.000155500908021347, |
|
"loss": 1.8009, |
|
"step": 103 |
|
}, |
|
{ |
|
"epoch": 0.3466666666666667, |
|
"grad_norm": 0.15959838032722473, |
|
"learning_rate": 0.00015459964446741382, |
|
"loss": 1.5615, |
|
"step": 104 |
|
}, |
|
{ |
|
"epoch": 0.35, |
|
"grad_norm": 0.1735246777534485, |
|
"learning_rate": 0.0001536920173648984, |
|
"loss": 1.7633, |
|
"step": 105 |
|
}, |
|
{ |
|
"epoch": 0.35333333333333333, |
|
"grad_norm": 0.13111194968223572, |
|
"learning_rate": 0.00015277813249707487, |
|
"loss": 1.927, |
|
"step": 106 |
|
}, |
|
{ |
|
"epoch": 0.3566666666666667, |
|
"grad_norm": 0.2176179140806198, |
|
"learning_rate": 0.0001518580963765555, |
|
"loss": 2.0393, |
|
"step": 107 |
|
}, |
|
{ |
|
"epoch": 0.36, |
|
"grad_norm": 0.16239792108535767, |
|
"learning_rate": 0.00015093201623287631, |
|
"loss": 1.5587, |
|
"step": 108 |
|
}, |
|
{ |
|
"epoch": 0.36333333333333334, |
|
"grad_norm": 0.25669199228286743, |
|
"learning_rate": 0.00015000000000000001, |
|
"loss": 1.4917, |
|
"step": 109 |
|
}, |
|
{ |
|
"epoch": 0.36666666666666664, |
|
"grad_norm": 0.14471955597400665, |
|
"learning_rate": 0.00014906215630373606, |
|
"loss": 1.6249, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 0.37, |
|
"grad_norm": 0.22089527547359467, |
|
"learning_rate": 0.00014811859444908052, |
|
"loss": 2.0068, |
|
"step": 111 |
|
}, |
|
{ |
|
"epoch": 0.37333333333333335, |
|
"grad_norm": 0.1651736944913864, |
|
"learning_rate": 0.00014716942440747664, |
|
"loss": 1.6535, |
|
"step": 112 |
|
}, |
|
{ |
|
"epoch": 0.37666666666666665, |
|
"grad_norm": 0.16808518767356873, |
|
"learning_rate": 0.0001462147568039977, |
|
"loss": 2.1169, |
|
"step": 113 |
|
}, |
|
{ |
|
"epoch": 0.38, |
|
"grad_norm": 0.1802249252796173, |
|
"learning_rate": 0.00014525470290445392, |
|
"loss": 1.7287, |
|
"step": 114 |
|
}, |
|
{ |
|
"epoch": 0.38333333333333336, |
|
"grad_norm": 0.13918867707252502, |
|
"learning_rate": 0.00014428937460242417, |
|
"loss": 1.6429, |
|
"step": 115 |
|
}, |
|
{ |
|
"epoch": 0.38666666666666666, |
|
"grad_norm": 0.16866669058799744, |
|
"learning_rate": 0.00014331888440621533, |
|
"loss": 1.6221, |
|
"step": 116 |
|
}, |
|
{ |
|
"epoch": 0.39, |
|
"grad_norm": 0.2179497629404068, |
|
"learning_rate": 0.00014234334542574906, |
|
"loss": 1.9434, |
|
"step": 117 |
|
}, |
|
{ |
|
"epoch": 0.3933333333333333, |
|
"grad_norm": 0.20598508417606354, |
|
"learning_rate": 0.00014136287135937915, |
|
"loss": 1.8447, |
|
"step": 118 |
|
}, |
|
{ |
|
"epoch": 0.39666666666666667, |
|
"grad_norm": 0.2654450535774231, |
|
"learning_rate": 0.00014037757648064018, |
|
"loss": 2.0047, |
|
"step": 119 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 0.1578744649887085, |
|
"learning_rate": 0.00013938757562492873, |
|
"loss": 1.5683, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"eval_loss": 1.9689319133758545, |
|
"eval_runtime": 105.5842, |
|
"eval_samples_per_second": 2.841, |
|
"eval_steps_per_second": 0.36, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 0.4033333333333333, |
|
"grad_norm": 0.17445330321788788, |
|
"learning_rate": 0.00013839298417611963, |
|
"loss": 1.8099, |
|
"step": 121 |
|
}, |
|
{ |
|
"epoch": 0.4066666666666667, |
|
"grad_norm": 0.17443552613258362, |
|
"learning_rate": 0.00013739391805311793, |
|
"loss": 1.6858, |
|
"step": 122 |
|
}, |
|
{ |
|
"epoch": 0.41, |
|
"grad_norm": 0.2298484444618225, |
|
"learning_rate": 0.00013639049369634876, |
|
"loss": 1.6995, |
|
"step": 123 |
|
}, |
|
{ |
|
"epoch": 0.41333333333333333, |
|
"grad_norm": 0.12730997800827026, |
|
"learning_rate": 0.0001353828280541861, |
|
"loss": 2.2712, |
|
"step": 124 |
|
}, |
|
{ |
|
"epoch": 0.4166666666666667, |
|
"grad_norm": 0.18344169855117798, |
|
"learning_rate": 0.00013437103856932264, |
|
"loss": 1.78, |
|
"step": 125 |
|
}, |
|
{ |
|
"epoch": 0.42, |
|
"grad_norm": 0.16407208144664764, |
|
"learning_rate": 0.00013335524316508208, |
|
"loss": 1.7153, |
|
"step": 126 |
|
}, |
|
{ |
|
"epoch": 0.42333333333333334, |
|
"grad_norm": 0.2899414896965027, |
|
"learning_rate": 0.00013233556023167485, |
|
"loss": 1.6807, |
|
"step": 127 |
|
}, |
|
{ |
|
"epoch": 0.4266666666666667, |
|
"grad_norm": 0.20936259627342224, |
|
"learning_rate": 0.00013131210861240026, |
|
"loss": 1.8354, |
|
"step": 128 |
|
}, |
|
{ |
|
"epoch": 0.43, |
|
"grad_norm": 0.24104556441307068, |
|
"learning_rate": 0.00013028500758979506, |
|
"loss": 1.7304, |
|
"step": 129 |
|
}, |
|
{ |
|
"epoch": 0.43333333333333335, |
|
"grad_norm": 0.13295267522335052, |
|
"learning_rate": 0.00012925437687173142, |
|
"loss": 1.5726, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 0.43666666666666665, |
|
"grad_norm": 0.18221959471702576, |
|
"learning_rate": 0.00012822033657746478, |
|
"loss": 1.8909, |
|
"step": 131 |
|
}, |
|
{ |
|
"epoch": 0.44, |
|
"grad_norm": 0.15093231201171875, |
|
"learning_rate": 0.0001271830072236343, |
|
"loss": 1.4898, |
|
"step": 132 |
|
}, |
|
{ |
|
"epoch": 0.44333333333333336, |
|
"grad_norm": 0.24701373279094696, |
|
"learning_rate": 0.00012614250971021657, |
|
"loss": 1.5876, |
|
"step": 133 |
|
}, |
|
{ |
|
"epoch": 0.44666666666666666, |
|
"grad_norm": 0.15908396244049072, |
|
"learning_rate": 0.00012509896530643488, |
|
"loss": 1.8188, |
|
"step": 134 |
|
}, |
|
{ |
|
"epoch": 0.45, |
|
"grad_norm": 0.17179876565933228, |
|
"learning_rate": 0.00012405249563662537, |
|
"loss": 1.6909, |
|
"step": 135 |
|
}, |
|
{ |
|
"epoch": 0.4533333333333333, |
|
"grad_norm": 0.2213679701089859, |
|
"learning_rate": 0.00012300322266606178, |
|
"loss": 1.8504, |
|
"step": 136 |
|
}, |
|
{ |
|
"epoch": 0.45666666666666667, |
|
"grad_norm": 0.1909617930650711, |
|
"learning_rate": 0.00012195126868674051, |
|
"loss": 1.7861, |
|
"step": 137 |
|
}, |
|
{ |
|
"epoch": 0.46, |
|
"grad_norm": 0.22522148489952087, |
|
"learning_rate": 0.00012089675630312754, |
|
"loss": 1.4303, |
|
"step": 138 |
|
}, |
|
{ |
|
"epoch": 0.4633333333333333, |
|
"grad_norm": 0.18442374467849731, |
|
"learning_rate": 0.000119839808417869, |
|
"loss": 1.7304, |
|
"step": 139 |
|
}, |
|
{ |
|
"epoch": 0.4666666666666667, |
|
"grad_norm": 0.19756169617176056, |
|
"learning_rate": 0.00011878054821746703, |
|
"loss": 1.7696, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 0.47, |
|
"grad_norm": 0.21999084949493408, |
|
"learning_rate": 0.0001177190991579223, |
|
"loss": 1.3715, |
|
"step": 141 |
|
}, |
|
{ |
|
"epoch": 0.47333333333333333, |
|
"grad_norm": 0.15807120501995087, |
|
"learning_rate": 0.00011665558495034546, |
|
"loss": 1.6985, |
|
"step": 142 |
|
}, |
|
{ |
|
"epoch": 0.4766666666666667, |
|
"grad_norm": 0.21601736545562744, |
|
"learning_rate": 0.00011559012954653865, |
|
"loss": 1.3233, |
|
"step": 143 |
|
}, |
|
{ |
|
"epoch": 0.48, |
|
"grad_norm": 0.14652834832668304, |
|
"learning_rate": 0.00011452285712454904, |
|
"loss": 1.6432, |
|
"step": 144 |
|
}, |
|
{ |
|
"epoch": 0.48333333333333334, |
|
"grad_norm": 0.11754251271486282, |
|
"learning_rate": 0.00011345389207419588, |
|
"loss": 1.9452, |
|
"step": 145 |
|
}, |
|
{ |
|
"epoch": 0.4866666666666667, |
|
"grad_norm": 0.15474091470241547, |
|
"learning_rate": 0.00011238335898257304, |
|
"loss": 1.8238, |
|
"step": 146 |
|
}, |
|
{ |
|
"epoch": 0.49, |
|
"grad_norm": 0.19140326976776123, |
|
"learning_rate": 0.00011131138261952845, |
|
"loss": 1.6152, |
|
"step": 147 |
|
}, |
|
{ |
|
"epoch": 0.49333333333333335, |
|
"grad_norm": 0.17788617312908173, |
|
"learning_rate": 0.00011023808792312227, |
|
"loss": 1.7443, |
|
"step": 148 |
|
}, |
|
{ |
|
"epoch": 0.49666666666666665, |
|
"grad_norm": 0.18357710540294647, |
|
"learning_rate": 0.0001091635999850655, |
|
"loss": 1.7117, |
|
"step": 149 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 0.18637436628341675, |
|
"learning_rate": 0.00010808804403614043, |
|
"loss": 1.6151, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.5033333333333333, |
|
"grad_norm": 0.18485836684703827, |
|
"learning_rate": 0.00010701154543160541, |
|
"loss": 1.2937, |
|
"step": 151 |
|
}, |
|
{ |
|
"epoch": 0.5066666666666667, |
|
"grad_norm": 0.16544543206691742, |
|
"learning_rate": 0.00010593422963658452, |
|
"loss": 2.0701, |
|
"step": 152 |
|
}, |
|
{ |
|
"epoch": 0.51, |
|
"grad_norm": 0.22352543473243713, |
|
"learning_rate": 0.00010485622221144484, |
|
"loss": 1.917, |
|
"step": 153 |
|
}, |
|
{ |
|
"epoch": 0.5133333333333333, |
|
"grad_norm": 0.18895843625068665, |
|
"learning_rate": 0.00010377764879716234, |
|
"loss": 1.5448, |
|
"step": 154 |
|
}, |
|
{ |
|
"epoch": 0.5166666666666667, |
|
"grad_norm": 0.15331783890724182, |
|
"learning_rate": 0.00010269863510067872, |
|
"loss": 1.7176, |
|
"step": 155 |
|
}, |
|
{ |
|
"epoch": 0.52, |
|
"grad_norm": 0.23109984397888184, |
|
"learning_rate": 0.00010161930688025017, |
|
"loss": 1.533, |
|
"step": 156 |
|
}, |
|
{ |
|
"epoch": 0.5233333333333333, |
|
"grad_norm": 0.14737705886363983, |
|
"learning_rate": 0.00010053978993079045, |
|
"loss": 1.738, |
|
"step": 157 |
|
}, |
|
{ |
|
"epoch": 0.5266666666666666, |
|
"grad_norm": 0.17144230008125305, |
|
"learning_rate": 9.946021006920959e-05, |
|
"loss": 1.9154, |
|
"step": 158 |
|
}, |
|
{ |
|
"epoch": 0.53, |
|
"grad_norm": 0.1662004441022873, |
|
"learning_rate": 9.838069311974986e-05, |
|
"loss": 1.8317, |
|
"step": 159 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 0.184712752699852, |
|
"learning_rate": 9.730136489932133e-05, |
|
"loss": 1.3791, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 0.5366666666666666, |
|
"grad_norm": 0.2711019515991211, |
|
"learning_rate": 9.622235120283769e-05, |
|
"loss": 1.7356, |
|
"step": 161 |
|
}, |
|
{ |
|
"epoch": 0.54, |
|
"grad_norm": 0.22583667933940887, |
|
"learning_rate": 9.514377778855521e-05, |
|
"loss": 1.839, |
|
"step": 162 |
|
}, |
|
{ |
|
"epoch": 0.5433333333333333, |
|
"grad_norm": 0.19490784406661987, |
|
"learning_rate": 9.406577036341548e-05, |
|
"loss": 1.4991, |
|
"step": 163 |
|
}, |
|
{ |
|
"epoch": 0.5466666666666666, |
|
"grad_norm": 0.15581147372722626, |
|
"learning_rate": 9.298845456839459e-05, |
|
"loss": 1.8299, |
|
"step": 164 |
|
}, |
|
{ |
|
"epoch": 0.55, |
|
"grad_norm": 0.1860620230436325, |
|
"learning_rate": 9.19119559638596e-05, |
|
"loss": 2.1671, |
|
"step": 165 |
|
}, |
|
{ |
|
"epoch": 0.5533333333333333, |
|
"grad_norm": 0.23739062249660492, |
|
"learning_rate": 9.083640001493454e-05, |
|
"loss": 2.3618, |
|
"step": 166 |
|
}, |
|
{ |
|
"epoch": 0.5566666666666666, |
|
"grad_norm": 0.2087864726781845, |
|
"learning_rate": 8.976191207687775e-05, |
|
"loss": 1.7497, |
|
"step": 167 |
|
}, |
|
{ |
|
"epoch": 0.56, |
|
"grad_norm": 0.14848671853542328, |
|
"learning_rate": 8.868861738047158e-05, |
|
"loss": 1.552, |
|
"step": 168 |
|
}, |
|
{ |
|
"epoch": 0.5633333333333334, |
|
"grad_norm": 0.1923326849937439, |
|
"learning_rate": 8.7616641017427e-05, |
|
"loss": 1.9334, |
|
"step": 169 |
|
}, |
|
{ |
|
"epoch": 0.5666666666666667, |
|
"grad_norm": 0.18040664494037628, |
|
"learning_rate": 8.654610792580415e-05, |
|
"loss": 1.8009, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 0.57, |
|
"grad_norm": 0.19821511209011078, |
|
"learning_rate": 8.5477142875451e-05, |
|
"loss": 1.5184, |
|
"step": 171 |
|
}, |
|
{ |
|
"epoch": 0.5733333333333334, |
|
"grad_norm": 0.24785931408405304, |
|
"learning_rate": 8.440987045346134e-05, |
|
"loss": 1.8505, |
|
"step": 172 |
|
}, |
|
{ |
|
"epoch": 0.5766666666666667, |
|
"grad_norm": 0.17160287499427795, |
|
"learning_rate": 8.334441504965455e-05, |
|
"loss": 1.4808, |
|
"step": 173 |
|
}, |
|
{ |
|
"epoch": 0.58, |
|
"grad_norm": 0.13557881116867065, |
|
"learning_rate": 8.228090084207774e-05, |
|
"loss": 1.6194, |
|
"step": 174 |
|
}, |
|
{ |
|
"epoch": 0.5833333333333334, |
|
"grad_norm": 0.1418817937374115, |
|
"learning_rate": 8.1219451782533e-05, |
|
"loss": 1.4039, |
|
"step": 175 |
|
}, |
|
{ |
|
"epoch": 0.5866666666666667, |
|
"grad_norm": 0.18646883964538574, |
|
"learning_rate": 8.016019158213101e-05, |
|
"loss": 1.5624, |
|
"step": 176 |
|
}, |
|
{ |
|
"epoch": 0.59, |
|
"grad_norm": 0.1777251660823822, |
|
"learning_rate": 7.91032436968725e-05, |
|
"loss": 1.7192, |
|
"step": 177 |
|
}, |
|
{ |
|
"epoch": 0.5933333333333334, |
|
"grad_norm": 0.14895232021808624, |
|
"learning_rate": 7.804873131325954e-05, |
|
"loss": 1.5677, |
|
"step": 178 |
|
}, |
|
{ |
|
"epoch": 0.5966666666666667, |
|
"grad_norm": 0.19403791427612305, |
|
"learning_rate": 7.699677733393826e-05, |
|
"loss": 1.6584, |
|
"step": 179 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 0.13547170162200928, |
|
"learning_rate": 7.594750436337467e-05, |
|
"loss": 1.29, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"eval_loss": 1.9572664499282837, |
|
"eval_runtime": 105.5497, |
|
"eval_samples_per_second": 2.842, |
|
"eval_steps_per_second": 0.36, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 0.6033333333333334, |
|
"grad_norm": 0.16800864040851593, |
|
"learning_rate": 7.490103469356513e-05, |
|
"loss": 1.2715, |
|
"step": 181 |
|
}, |
|
{ |
|
"epoch": 0.6066666666666667, |
|
"grad_norm": 0.29579752683639526, |
|
"learning_rate": 7.385749028978346e-05, |
|
"loss": 1.8179, |
|
"step": 182 |
|
}, |
|
{ |
|
"epoch": 0.61, |
|
"grad_norm": 0.21788251399993896, |
|
"learning_rate": 7.281699277636572e-05, |
|
"loss": 1.4703, |
|
"step": 183 |
|
}, |
|
{ |
|
"epoch": 0.6133333333333333, |
|
"grad_norm": 0.22312134504318237, |
|
"learning_rate": 7.177966342253524e-05, |
|
"loss": 1.8905, |
|
"step": 184 |
|
}, |
|
{ |
|
"epoch": 0.6166666666666667, |
|
"grad_norm": 0.13738024234771729, |
|
"learning_rate": 7.07456231282686e-05, |
|
"loss": 1.7124, |
|
"step": 185 |
|
}, |
|
{ |
|
"epoch": 0.62, |
|
"grad_norm": 0.23278340697288513, |
|
"learning_rate": 6.971499241020495e-05, |
|
"loss": 1.7325, |
|
"step": 186 |
|
}, |
|
{ |
|
"epoch": 0.6233333333333333, |
|
"grad_norm": 0.21700285375118256, |
|
"learning_rate": 6.868789138759976e-05, |
|
"loss": 1.3786, |
|
"step": 187 |
|
}, |
|
{ |
|
"epoch": 0.6266666666666667, |
|
"grad_norm": 0.2645608186721802, |
|
"learning_rate": 6.766443976832517e-05, |
|
"loss": 1.8447, |
|
"step": 188 |
|
}, |
|
{ |
|
"epoch": 0.63, |
|
"grad_norm": 0.23962748050689697, |
|
"learning_rate": 6.664475683491796e-05, |
|
"loss": 1.6991, |
|
"step": 189 |
|
}, |
|
{ |
|
"epoch": 0.6333333333333333, |
|
"grad_norm": 0.1541968584060669, |
|
"learning_rate": 6.562896143067734e-05, |
|
"loss": 1.6777, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 0.6366666666666667, |
|
"grad_norm": 0.18910759687423706, |
|
"learning_rate": 6.461717194581393e-05, |
|
"loss": 1.6926, |
|
"step": 191 |
|
}, |
|
{ |
|
"epoch": 0.64, |
|
"grad_norm": 0.12460765987634659, |
|
"learning_rate": 6.360950630365126e-05, |
|
"loss": 1.2618, |
|
"step": 192 |
|
}, |
|
{ |
|
"epoch": 0.6433333333333333, |
|
"grad_norm": 0.1890854835510254, |
|
"learning_rate": 6.260608194688206e-05, |
|
"loss": 1.6225, |
|
"step": 193 |
|
}, |
|
{ |
|
"epoch": 0.6466666666666666, |
|
"grad_norm": 0.14857855439186096, |
|
"learning_rate": 6.160701582388038e-05, |
|
"loss": 1.7004, |
|
"step": 194 |
|
}, |
|
{ |
|
"epoch": 0.65, |
|
"grad_norm": 0.17963790893554688, |
|
"learning_rate": 6.061242437507131e-05, |
|
"loss": 1.2582, |
|
"step": 195 |
|
}, |
|
{ |
|
"epoch": 0.6533333333333333, |
|
"grad_norm": 0.22860835492610931, |
|
"learning_rate": 5.962242351935985e-05, |
|
"loss": 1.7153, |
|
"step": 196 |
|
}, |
|
{ |
|
"epoch": 0.6566666666666666, |
|
"grad_norm": 0.11601811647415161, |
|
"learning_rate": 5.863712864062089e-05, |
|
"loss": 1.3152, |
|
"step": 197 |
|
}, |
|
{ |
|
"epoch": 0.66, |
|
"grad_norm": 0.2678441107273102, |
|
"learning_rate": 5.765665457425102e-05, |
|
"loss": 1.7089, |
|
"step": 198 |
|
}, |
|
{ |
|
"epoch": 0.6633333333333333, |
|
"grad_norm": 0.14132283627986908, |
|
"learning_rate": 5.668111559378471e-05, |
|
"loss": 1.5296, |
|
"step": 199 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 0.1803818643093109, |
|
"learning_rate": 5.571062539757581e-05, |
|
"loss": 1.7109, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.67, |
|
"grad_norm": 0.18806160986423492, |
|
"learning_rate": 5.474529709554612e-05, |
|
"loss": 1.564, |
|
"step": 201 |
|
}, |
|
{ |
|
"epoch": 0.6733333333333333, |
|
"grad_norm": 0.1855868101119995, |
|
"learning_rate": 5.378524319600231e-05, |
|
"loss": 1.6849, |
|
"step": 202 |
|
}, |
|
{ |
|
"epoch": 0.6766666666666666, |
|
"grad_norm": 0.14401951432228088, |
|
"learning_rate": 5.283057559252341e-05, |
|
"loss": 1.6278, |
|
"step": 203 |
|
}, |
|
{ |
|
"epoch": 0.68, |
|
"grad_norm": 0.13861948251724243, |
|
"learning_rate": 5.1881405550919493e-05, |
|
"loss": 1.7262, |
|
"step": 204 |
|
}, |
|
{ |
|
"epoch": 0.6833333333333333, |
|
"grad_norm": 0.3547126054763794, |
|
"learning_rate": 5.0937843696263966e-05, |
|
"loss": 2.1987, |
|
"step": 205 |
|
}, |
|
{ |
|
"epoch": 0.6866666666666666, |
|
"grad_norm": 0.2394469678401947, |
|
"learning_rate": 5.000000000000002e-05, |
|
"loss": 1.7782, |
|
"step": 206 |
|
}, |
|
{ |
|
"epoch": 0.69, |
|
"grad_norm": 0.17434202134609222, |
|
"learning_rate": 4.9067983767123736e-05, |
|
"loss": 1.6292, |
|
"step": 207 |
|
}, |
|
{ |
|
"epoch": 0.6933333333333334, |
|
"grad_norm": 0.22222231328487396, |
|
"learning_rate": 4.814190362344454e-05, |
|
"loss": 1.8205, |
|
"step": 208 |
|
}, |
|
{ |
|
"epoch": 0.6966666666666667, |
|
"grad_norm": 0.14674372971057892, |
|
"learning_rate": 4.722186750292511e-05, |
|
"loss": 1.3575, |
|
"step": 209 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"grad_norm": 0.23563924431800842, |
|
"learning_rate": 4.630798263510162e-05, |
|
"loss": 2.0979, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 0.7033333333333334, |
|
"grad_norm": 0.19721245765686035, |
|
"learning_rate": 4.540035553258619e-05, |
|
"loss": 1.6031, |
|
"step": 211 |
|
}, |
|
{ |
|
"epoch": 0.7066666666666667, |
|
"grad_norm": 0.1618299037218094, |
|
"learning_rate": 4.449909197865303e-05, |
|
"loss": 1.7319, |
|
"step": 212 |
|
}, |
|
{ |
|
"epoch": 0.71, |
|
"grad_norm": 0.2110472023487091, |
|
"learning_rate": 4.360429701490934e-05, |
|
"loss": 1.8205, |
|
"step": 213 |
|
}, |
|
{ |
|
"epoch": 0.7133333333333334, |
|
"grad_norm": 0.16100046038627625, |
|
"learning_rate": 4.271607492905303e-05, |
|
"loss": 1.7695, |
|
"step": 214 |
|
}, |
|
{ |
|
"epoch": 0.7166666666666667, |
|
"grad_norm": 0.16993089020252228, |
|
"learning_rate": 4.183452924271776e-05, |
|
"loss": 1.6692, |
|
"step": 215 |
|
}, |
|
{ |
|
"epoch": 0.72, |
|
"grad_norm": 0.19697882235050201, |
|
"learning_rate": 4.0959762699407766e-05, |
|
"loss": 1.6532, |
|
"step": 216 |
|
}, |
|
{ |
|
"epoch": 0.7233333333333334, |
|
"grad_norm": 0.17745055258274078, |
|
"learning_rate": 4.009187725252309e-05, |
|
"loss": 1.7848, |
|
"step": 217 |
|
}, |
|
{ |
|
"epoch": 0.7266666666666667, |
|
"grad_norm": 0.187378391623497, |
|
"learning_rate": 3.9230974053477086e-05, |
|
"loss": 1.656, |
|
"step": 218 |
|
}, |
|
{ |
|
"epoch": 0.73, |
|
"grad_norm": 0.15109644830226898, |
|
"learning_rate": 3.8377153439907266e-05, |
|
"loss": 1.5773, |
|
"step": 219 |
|
}, |
|
{ |
|
"epoch": 0.7333333333333333, |
|
"grad_norm": 0.1965898722410202, |
|
"learning_rate": 3.7530514923980884e-05, |
|
"loss": 1.7998, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 0.7366666666666667, |
|
"grad_norm": 0.13748736679553986, |
|
"learning_rate": 3.669115718079702e-05, |
|
"loss": 1.7072, |
|
"step": 221 |
|
}, |
|
{ |
|
"epoch": 0.74, |
|
"grad_norm": 0.16212758421897888, |
|
"learning_rate": 3.585917803688603e-05, |
|
"loss": 1.5043, |
|
"step": 222 |
|
}, |
|
{ |
|
"epoch": 0.7433333333333333, |
|
"grad_norm": 0.19969479739665985, |
|
"learning_rate": 3.503467445880789e-05, |
|
"loss": 1.1802, |
|
"step": 223 |
|
}, |
|
{ |
|
"epoch": 0.7466666666666667, |
|
"grad_norm": 0.19470465183258057, |
|
"learning_rate": 3.421774254185096e-05, |
|
"loss": 1.7774, |
|
"step": 224 |
|
}, |
|
{ |
|
"epoch": 0.75, |
|
"grad_norm": 0.17509035766124725, |
|
"learning_rate": 3.340847749883191e-05, |
|
"loss": 1.7423, |
|
"step": 225 |
|
}, |
|
{ |
|
"epoch": 0.7533333333333333, |
|
"grad_norm": 0.16134221851825714, |
|
"learning_rate": 3.2606973648998915e-05, |
|
"loss": 1.7789, |
|
"step": 226 |
|
}, |
|
{ |
|
"epoch": 0.7566666666666667, |
|
"grad_norm": 0.13019809126853943, |
|
"learning_rate": 3.1813324407038825e-05, |
|
"loss": 1.6566, |
|
"step": 227 |
|
}, |
|
{ |
|
"epoch": 0.76, |
|
"grad_norm": 0.17759770154953003, |
|
"learning_rate": 3.102762227218957e-05, |
|
"loss": 1.7183, |
|
"step": 228 |
|
}, |
|
{ |
|
"epoch": 0.7633333333333333, |
|
"grad_norm": 0.22855810821056366, |
|
"learning_rate": 3.0249958817459722e-05, |
|
"loss": 1.4156, |
|
"step": 229 |
|
}, |
|
{ |
|
"epoch": 0.7666666666666667, |
|
"grad_norm": 0.18700584769248962, |
|
"learning_rate": 2.9480424678955443e-05, |
|
"loss": 1.36, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 0.77, |
|
"grad_norm": 0.23632779717445374, |
|
"learning_rate": 2.8719109545317103e-05, |
|
"loss": 2.4022, |
|
"step": 231 |
|
}, |
|
{ |
|
"epoch": 0.7733333333333333, |
|
"grad_norm": 0.225185826420784, |
|
"learning_rate": 2.7966102147265994e-05, |
|
"loss": 1.5102, |
|
"step": 232 |
|
}, |
|
{ |
|
"epoch": 0.7766666666666666, |
|
"grad_norm": 0.153280109167099, |
|
"learning_rate": 2.722149024726307e-05, |
|
"loss": 1.6525, |
|
"step": 233 |
|
}, |
|
{ |
|
"epoch": 0.78, |
|
"grad_norm": 0.2028931975364685, |
|
"learning_rate": 2.6485360629279987e-05, |
|
"loss": 1.6028, |
|
"step": 234 |
|
}, |
|
{ |
|
"epoch": 0.7833333333333333, |
|
"grad_norm": 0.11865737289190292, |
|
"learning_rate": 2.5757799088684654e-05, |
|
"loss": 1.9712, |
|
"step": 235 |
|
}, |
|
{ |
|
"epoch": 0.7866666666666666, |
|
"grad_norm": 0.16811503469944, |
|
"learning_rate": 2.5038890422241958e-05, |
|
"loss": 1.8192, |
|
"step": 236 |
|
}, |
|
{ |
|
"epoch": 0.79, |
|
"grad_norm": 0.2171882688999176, |
|
"learning_rate": 2.432871841823047e-05, |
|
"loss": 1.8958, |
|
"step": 237 |
|
}, |
|
{ |
|
"epoch": 0.7933333333333333, |
|
"grad_norm": 0.1831800788640976, |
|
"learning_rate": 2.3627365846677306e-05, |
|
"loss": 1.8858, |
|
"step": 238 |
|
}, |
|
{ |
|
"epoch": 0.7966666666666666, |
|
"grad_norm": 0.1818980723619461, |
|
"learning_rate": 2.2934914449711087e-05, |
|
"loss": 1.8898, |
|
"step": 239 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 0.16912035644054413, |
|
"learning_rate": 2.2251444932035094e-05, |
|
"loss": 1.6317, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"eval_loss": 1.9515124559402466, |
|
"eval_runtime": 105.7502, |
|
"eval_samples_per_second": 2.837, |
|
"eval_steps_per_second": 0.359, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 0.8033333333333333, |
|
"grad_norm": 0.26389726996421814, |
|
"learning_rate": 2.157703695152109e-05, |
|
"loss": 1.5613, |
|
"step": 241 |
|
}, |
|
{ |
|
"epoch": 0.8066666666666666, |
|
"grad_norm": 0.17984025180339813, |
|
"learning_rate": 2.091176910992545e-05, |
|
"loss": 1.6669, |
|
"step": 242 |
|
}, |
|
{ |
|
"epoch": 0.81, |
|
"grad_norm": 0.2281753122806549, |
|
"learning_rate": 2.025571894372794e-05, |
|
"loss": 1.7596, |
|
"step": 243 |
|
}, |
|
{ |
|
"epoch": 0.8133333333333334, |
|
"grad_norm": 0.28229451179504395, |
|
"learning_rate": 1.9608962915094996e-05, |
|
"loss": 1.9176, |
|
"step": 244 |
|
}, |
|
{ |
|
"epoch": 0.8166666666666667, |
|
"grad_norm": 0.21417230367660522, |
|
"learning_rate": 1.897157640296825e-05, |
|
"loss": 1.7502, |
|
"step": 245 |
|
}, |
|
{ |
|
"epoch": 0.82, |
|
"grad_norm": 0.18738320469856262, |
|
"learning_rate": 1.8343633694278895e-05, |
|
"loss": 2.11, |
|
"step": 246 |
|
}, |
|
{ |
|
"epoch": 0.8233333333333334, |
|
"grad_norm": 0.14456549286842346, |
|
"learning_rate": 1.772520797528988e-05, |
|
"loss": 1.868, |
|
"step": 247 |
|
}, |
|
{ |
|
"epoch": 0.8266666666666667, |
|
"grad_norm": 0.2031559944152832, |
|
"learning_rate": 1.7116371323065883e-05, |
|
"loss": 1.3048, |
|
"step": 248 |
|
}, |
|
{ |
|
"epoch": 0.83, |
|
"grad_norm": 0.49127626419067383, |
|
"learning_rate": 1.65171946970729e-05, |
|
"loss": 1.6597, |
|
"step": 249 |
|
}, |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"grad_norm": 0.12952959537506104, |
|
"learning_rate": 1.592774793090792e-05, |
|
"loss": 1.6928, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.8366666666666667, |
|
"grad_norm": 0.16764536499977112, |
|
"learning_rate": 1.534809972415998e-05, |
|
"loss": 1.2168, |
|
"step": 251 |
|
}, |
|
{ |
|
"epoch": 0.84, |
|
"grad_norm": 0.17101448774337769, |
|
"learning_rate": 1.4778317634403083e-05, |
|
"loss": 1.5374, |
|
"step": 252 |
|
}, |
|
{ |
|
"epoch": 0.8433333333333334, |
|
"grad_norm": 0.19581882655620575, |
|
"learning_rate": 1.4218468069322578e-05, |
|
"loss": 1.7137, |
|
"step": 253 |
|
}, |
|
{ |
|
"epoch": 0.8466666666666667, |
|
"grad_norm": 0.1691337525844574, |
|
"learning_rate": 1.3668616278975343e-05, |
|
"loss": 1.7247, |
|
"step": 254 |
|
}, |
|
{ |
|
"epoch": 0.85, |
|
"grad_norm": 0.10976916551589966, |
|
"learning_rate": 1.3128826348184887e-05, |
|
"loss": 1.7101, |
|
"step": 255 |
|
}, |
|
{ |
|
"epoch": 0.8533333333333334, |
|
"grad_norm": 0.14474567770957947, |
|
"learning_rate": 1.2599161189072427e-05, |
|
"loss": 1.6163, |
|
"step": 256 |
|
}, |
|
{ |
|
"epoch": 0.8566666666666667, |
|
"grad_norm": 0.1492033302783966, |
|
"learning_rate": 1.2079682533724379e-05, |
|
"loss": 1.5831, |
|
"step": 257 |
|
}, |
|
{ |
|
"epoch": 0.86, |
|
"grad_norm": 0.500358521938324, |
|
"learning_rate": 1.1570450926997655e-05, |
|
"loss": 1.9243, |
|
"step": 258 |
|
}, |
|
{ |
|
"epoch": 0.8633333333333333, |
|
"grad_norm": 0.1507658064365387, |
|
"learning_rate": 1.1071525719463095e-05, |
|
"loss": 1.6014, |
|
"step": 259 |
|
}, |
|
{ |
|
"epoch": 0.8666666666666667, |
|
"grad_norm": 0.13210022449493408, |
|
"learning_rate": 1.0582965060488359e-05, |
|
"loss": 1.8596, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 0.87, |
|
"grad_norm": 0.18185356259346008, |
|
"learning_rate": 1.010482589146048e-05, |
|
"loss": 1.3959, |
|
"step": 261 |
|
}, |
|
{ |
|
"epoch": 0.8733333333333333, |
|
"grad_norm": 0.1475716084241867, |
|
"learning_rate": 9.637163939149485e-06, |
|
"loss": 2.0064, |
|
"step": 262 |
|
}, |
|
{ |
|
"epoch": 0.8766666666666667, |
|
"grad_norm": 0.20647890865802765, |
|
"learning_rate": 9.180033709213454e-06, |
|
"loss": 1.9017, |
|
"step": 263 |
|
}, |
|
{ |
|
"epoch": 0.88, |
|
"grad_norm": 0.16821038722991943, |
|
"learning_rate": 8.733488479845997e-06, |
|
"loss": 1.4959, |
|
"step": 264 |
|
}, |
|
{ |
|
"epoch": 0.8833333333333333, |
|
"grad_norm": 0.2551242709159851, |
|
"learning_rate": 8.297580295566575e-06, |
|
"loss": 1.7765, |
|
"step": 265 |
|
}, |
|
{ |
|
"epoch": 0.8866666666666667, |
|
"grad_norm": 0.1547422707080841, |
|
"learning_rate": 7.872359961154906e-06, |
|
"loss": 1.9658, |
|
"step": 266 |
|
}, |
|
{ |
|
"epoch": 0.89, |
|
"grad_norm": 0.19091367721557617, |
|
"learning_rate": 7.457877035729588e-06, |
|
"loss": 1.4526, |
|
"step": 267 |
|
}, |
|
{ |
|
"epoch": 0.8933333333333333, |
|
"grad_norm": 0.18940412998199463, |
|
"learning_rate": 7.054179826972074e-06, |
|
"loss": 1.9816, |
|
"step": 268 |
|
}, |
|
{ |
|
"epoch": 0.8966666666666666, |
|
"grad_norm": 0.20087075233459473, |
|
"learning_rate": 6.661315385496425e-06, |
|
"loss": 1.9941, |
|
"step": 269 |
|
}, |
|
{ |
|
"epoch": 0.9, |
|
"grad_norm": 0.13561421632766724, |
|
"learning_rate": 6.2793294993656494e-06, |
|
"loss": 1.9879, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 0.9033333333333333, |
|
"grad_norm": 0.13483434915542603, |
|
"learning_rate": 5.908266688755049e-06, |
|
"loss": 1.6953, |
|
"step": 271 |
|
}, |
|
{ |
|
"epoch": 0.9066666666666666, |
|
"grad_norm": 0.19798149168491364, |
|
"learning_rate": 5.54817020076347e-06, |
|
"loss": 1.6216, |
|
"step": 272 |
|
}, |
|
{ |
|
"epoch": 0.91, |
|
"grad_norm": 0.15632538497447968, |
|
"learning_rate": 5.199082004372957e-06, |
|
"loss": 1.7665, |
|
"step": 273 |
|
}, |
|
{ |
|
"epoch": 0.9133333333333333, |
|
"grad_norm": 0.18586932122707367, |
|
"learning_rate": 4.861042785557146e-06, |
|
"loss": 2.0123, |
|
"step": 274 |
|
}, |
|
{ |
|
"epoch": 0.9166666666666666, |
|
"grad_norm": 0.16410577297210693, |
|
"learning_rate": 4.534091942539475e-06, |
|
"loss": 1.7443, |
|
"step": 275 |
|
}, |
|
{ |
|
"epoch": 0.92, |
|
"grad_norm": 0.1842477172613144, |
|
"learning_rate": 4.2182675812012965e-06, |
|
"loss": 1.528, |
|
"step": 276 |
|
}, |
|
{ |
|
"epoch": 0.9233333333333333, |
|
"grad_norm": 0.1795828491449356, |
|
"learning_rate": 3.913606510640644e-06, |
|
"loss": 1.6607, |
|
"step": 277 |
|
}, |
|
{ |
|
"epoch": 0.9266666666666666, |
|
"grad_norm": 0.24803687632083893, |
|
"learning_rate": 3.620144238882206e-06, |
|
"loss": 1.5034, |
|
"step": 278 |
|
}, |
|
{ |
|
"epoch": 0.93, |
|
"grad_norm": 0.23375527560710907, |
|
"learning_rate": 3.3379149687388867e-06, |
|
"loss": 1.7486, |
|
"step": 279 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"grad_norm": 0.1961246132850647, |
|
"learning_rate": 3.06695159382544e-06, |
|
"loss": 1.4684, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 0.9366666666666666, |
|
"grad_norm": 0.17305491864681244, |
|
"learning_rate": 2.8072856947248037e-06, |
|
"loss": 1.8544, |
|
"step": 281 |
|
}, |
|
{ |
|
"epoch": 0.94, |
|
"grad_norm": 0.1923137605190277, |
|
"learning_rate": 2.5589475353073988e-06, |
|
"loss": 1.8947, |
|
"step": 282 |
|
}, |
|
{ |
|
"epoch": 0.9433333333333334, |
|
"grad_norm": 0.14171859622001648, |
|
"learning_rate": 2.3219660592038285e-06, |
|
"loss": 2.1618, |
|
"step": 283 |
|
}, |
|
{ |
|
"epoch": 0.9466666666666667, |
|
"grad_norm": 0.13578371703624725, |
|
"learning_rate": 2.0963688864316323e-06, |
|
"loss": 1.9193, |
|
"step": 284 |
|
}, |
|
{ |
|
"epoch": 0.95, |
|
"grad_norm": 0.20825190842151642, |
|
"learning_rate": 1.882182310176095e-06, |
|
"loss": 1.7954, |
|
"step": 285 |
|
}, |
|
{ |
|
"epoch": 0.9533333333333334, |
|
"grad_norm": 0.16706398129463196, |
|
"learning_rate": 1.6794312937258417e-06, |
|
"loss": 2.1252, |
|
"step": 286 |
|
}, |
|
{ |
|
"epoch": 0.9566666666666667, |
|
"grad_norm": 0.11100097745656967, |
|
"learning_rate": 1.488139467563354e-06, |
|
"loss": 1.4543, |
|
"step": 287 |
|
}, |
|
{ |
|
"epoch": 0.96, |
|
"grad_norm": 0.16676479578018188, |
|
"learning_rate": 1.30832912661093e-06, |
|
"loss": 1.7001, |
|
"step": 288 |
|
}, |
|
{ |
|
"epoch": 0.9633333333333334, |
|
"grad_norm": 0.14126090705394745, |
|
"learning_rate": 1.1400212276321376e-06, |
|
"loss": 1.4247, |
|
"step": 289 |
|
}, |
|
{ |
|
"epoch": 0.9666666666666667, |
|
"grad_norm": 0.15663489699363708, |
|
"learning_rate": 9.832353867893386e-07, |
|
"loss": 0.9358, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 0.97, |
|
"grad_norm": 0.2205333262681961, |
|
"learning_rate": 8.379898773574924e-07, |
|
"loss": 1.6609, |
|
"step": 291 |
|
}, |
|
{ |
|
"epoch": 0.9733333333333334, |
|
"grad_norm": 0.1646774411201477, |
|
"learning_rate": 7.043016275943615e-07, |
|
"loss": 1.8591, |
|
"step": 292 |
|
}, |
|
{ |
|
"epoch": 0.9766666666666667, |
|
"grad_norm": 0.20356421172618866, |
|
"learning_rate": 5.821862187675775e-07, |
|
"loss": 1.9469, |
|
"step": 293 |
|
}, |
|
{ |
|
"epoch": 0.98, |
|
"grad_norm": 0.17772065103054047, |
|
"learning_rate": 4.7165788333860536e-07, |
|
"loss": 1.0896, |
|
"step": 294 |
|
}, |
|
{ |
|
"epoch": 0.9833333333333333, |
|
"grad_norm": 0.1542958915233612, |
|
"learning_rate": 3.727295033040035e-07, |
|
"loss": 1.5185, |
|
"step": 295 |
|
}, |
|
{ |
|
"epoch": 0.9866666666666667, |
|
"grad_norm": 0.1795244961977005, |
|
"learning_rate": 2.854126086940356e-07, |
|
"loss": 1.7396, |
|
"step": 296 |
|
}, |
|
{ |
|
"epoch": 0.99, |
|
"grad_norm": 0.16536656022071838, |
|
"learning_rate": 2.0971737622883515e-07, |
|
"loss": 1.7716, |
|
"step": 297 |
|
}, |
|
{ |
|
"epoch": 0.9933333333333333, |
|
"grad_norm": 0.20850741863250732, |
|
"learning_rate": 1.4565262813230894e-07, |
|
"loss": 1.2772, |
|
"step": 298 |
|
}, |
|
{ |
|
"epoch": 0.9966666666666667, |
|
"grad_norm": 0.16341620683670044, |
|
"learning_rate": 9.32258311039269e-08, |
|
"loss": 1.5941, |
|
"step": 299 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 0.19970038533210754, |
|
"learning_rate": 5.2443095448506674e-08, |
|
"loss": 1.7513, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"eval_loss": 1.9492239952087402, |
|
"eval_runtime": 107.0008, |
|
"eval_samples_per_second": 2.804, |
|
"eval_steps_per_second": 0.355, |
|
"step": 300 |
|
} |
|
], |
|
"logging_steps": 1, |
|
"max_steps": 300, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 1, |
|
"save_steps": 500, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 1.3809234445438157e+17, |
|
"train_batch_size": 1, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|