{ "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0, "eval_steps": 60, "global_step": 300, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0033333333333333335, "grad_norm": NaN, "learning_rate": 0.0, "loss": 3.678, "step": 1 }, { "epoch": 0.006666666666666667, "grad_norm": 0.4762135446071625, "learning_rate": 2.2222222222222223e-05, "loss": 3.0439, "step": 2 }, { "epoch": 0.01, "grad_norm": 0.6002700328826904, "learning_rate": 4.4444444444444447e-05, "loss": 3.4106, "step": 3 }, { "epoch": 0.013333333333333334, "grad_norm": 0.6476659178733826, "learning_rate": 6.666666666666667e-05, "loss": 3.554, "step": 4 }, { "epoch": 0.016666666666666666, "grad_norm": 0.5185155272483826, "learning_rate": 8.888888888888889e-05, "loss": 3.0154, "step": 5 }, { "epoch": 0.02, "grad_norm": NaN, "learning_rate": 8.888888888888889e-05, "loss": 2.8894, "step": 6 }, { "epoch": 0.023333333333333334, "grad_norm": 0.8041224479675293, "learning_rate": 0.00011111111111111112, "loss": 3.0546, "step": 7 }, { "epoch": 0.02666666666666667, "grad_norm": 0.3952060639858246, "learning_rate": 0.00013333333333333334, "loss": 2.9562, "step": 8 }, { "epoch": 0.03, "grad_norm": NaN, "learning_rate": 0.00013333333333333334, "loss": 2.6144, "step": 9 }, { "epoch": 0.03333333333333333, "grad_norm": 0.8140532374382019, "learning_rate": 0.00015555555555555556, "loss": 2.5651, "step": 10 }, { "epoch": 0.03666666666666667, "grad_norm": 0.7712438106536865, "learning_rate": 0.00017777777777777779, "loss": 2.4462, "step": 11 }, { "epoch": 0.04, "grad_norm": 0.9129194617271423, "learning_rate": 0.0002, "loss": 2.2021, "step": 12 }, { "epoch": 0.043333333333333335, "grad_norm": 1.4973784685134888, "learning_rate": 0.00019999417253661235, "loss": 1.7726, "step": 13 }, { "epoch": 0.04666666666666667, "grad_norm": 1.3915261030197144, "learning_rate": 0.00019997669082563597, "loss": 2.0128, "step": 14 }, { "epoch": 0.05, "grad_norm": 2.2161591053009033, "learning_rate": 0.00019994755690455152, "loss": 1.7553, "step": 15 }, { "epoch": 0.05333333333333334, "grad_norm": 1.6553738117218018, "learning_rate": 0.00019990677416889608, "loss": 2.0475, "step": 16 }, { "epoch": 0.056666666666666664, "grad_norm": 0.6157505512237549, "learning_rate": 0.0001998543473718677, "loss": 1.685, "step": 17 }, { "epoch": 0.06, "grad_norm": 0.24669784307479858, "learning_rate": 0.00019979028262377118, "loss": 1.6533, "step": 18 }, { "epoch": 0.06333333333333334, "grad_norm": 0.22707951068878174, "learning_rate": 0.00019971458739130598, "loss": 2.0047, "step": 19 }, { "epoch": 0.06666666666666667, "grad_norm": 1.4569851160049438, "learning_rate": 0.000199627270496696, "loss": 2.0384, "step": 20 }, { "epoch": 0.07, "grad_norm": 0.413117915391922, "learning_rate": 0.0001995283421166614, "loss": 1.8686, "step": 21 }, { "epoch": 0.07333333333333333, "grad_norm": 0.3769432604312897, "learning_rate": 0.00019941781378123244, "loss": 2.3281, "step": 22 }, { "epoch": 0.07666666666666666, "grad_norm": 0.22103984653949738, "learning_rate": 0.00019929569837240564, "loss": 1.4126, "step": 23 }, { "epoch": 0.08, "grad_norm": 0.24588149785995483, "learning_rate": 0.00019916201012264254, "loss": 1.8129, "step": 24 }, { "epoch": 0.08333333333333333, "grad_norm": 0.16510339081287384, "learning_rate": 0.00019901676461321068, "loss": 1.3982, "step": 25 }, { "epoch": 0.08666666666666667, "grad_norm": 0.1440768837928772, "learning_rate": 0.00019885997877236788, "loss": 2.1907, "step": 26 }, { "epoch": 0.09, "grad_norm": 0.17060863971710205, "learning_rate": 0.00019869167087338907, "loss": 1.3803, "step": 27 }, { "epoch": 0.09333333333333334, "grad_norm": 0.2069515585899353, "learning_rate": 0.00019851186053243666, "loss": 1.887, "step": 28 }, { "epoch": 0.09666666666666666, "grad_norm": 0.21821996569633484, "learning_rate": 0.00019832056870627417, "loss": 1.6054, "step": 29 }, { "epoch": 0.1, "grad_norm": 0.17882876098155975, "learning_rate": 0.0001981178176898239, "loss": 1.6342, "step": 30 }, { "epoch": 0.10333333333333333, "grad_norm": 0.17038118839263916, "learning_rate": 0.00019790363111356837, "loss": 1.8819, "step": 31 }, { "epoch": 0.10666666666666667, "grad_norm": 0.1974552720785141, "learning_rate": 0.00019767803394079615, "loss": 1.9041, "step": 32 }, { "epoch": 0.11, "grad_norm": 0.2757965922355652, "learning_rate": 0.00019744105246469263, "loss": 1.9125, "step": 33 }, { "epoch": 0.11333333333333333, "grad_norm": 0.19870969653129578, "learning_rate": 0.0001971927143052752, "loss": 1.8851, "step": 34 }, { "epoch": 0.11666666666666667, "grad_norm": 0.1826757788658142, "learning_rate": 0.00019693304840617457, "loss": 1.7898, "step": 35 }, { "epoch": 0.12, "grad_norm": 0.2616521716117859, "learning_rate": 0.00019666208503126112, "loss": 1.9304, "step": 36 }, { "epoch": 0.12333333333333334, "grad_norm": 0.21208493411540985, "learning_rate": 0.00019637985576111778, "loss": 1.6942, "step": 37 }, { "epoch": 0.12666666666666668, "grad_norm": 0.2790180444717407, "learning_rate": 0.0001960863934893594, "loss": 1.8333, "step": 38 }, { "epoch": 0.13, "grad_norm": 0.18341009318828583, "learning_rate": 0.00019578173241879872, "loss": 1.8026, "step": 39 }, { "epoch": 0.13333333333333333, "grad_norm": 0.41886040568351746, "learning_rate": 0.00019546590805746052, "loss": 1.7716, "step": 40 }, { "epoch": 0.13666666666666666, "grad_norm": 0.13291174173355103, "learning_rate": 0.00019513895721444286, "loss": 1.9675, "step": 41 }, { "epoch": 0.14, "grad_norm": 0.1474720984697342, "learning_rate": 0.00019480091799562704, "loss": 1.6786, "step": 42 }, { "epoch": 0.14333333333333334, "grad_norm": 0.17442239820957184, "learning_rate": 0.00019445182979923654, "loss": 1.7849, "step": 43 }, { "epoch": 0.14666666666666667, "grad_norm": 0.15233103930950165, "learning_rate": 0.000194091733311245, "loss": 1.5371, "step": 44 }, { "epoch": 0.15, "grad_norm": 0.13791708648204803, "learning_rate": 0.00019372067050063438, "loss": 2.0132, "step": 45 }, { "epoch": 0.15333333333333332, "grad_norm": 0.15251068770885468, "learning_rate": 0.0001933386846145036, "loss": 1.7359, "step": 46 }, { "epoch": 0.15666666666666668, "grad_norm": 0.24324262142181396, "learning_rate": 0.00019294582017302797, "loss": 1.7972, "step": 47 }, { "epoch": 0.16, "grad_norm": 0.20748841762542725, "learning_rate": 0.00019254212296427044, "loss": 1.5059, "step": 48 }, { "epoch": 0.16333333333333333, "grad_norm": 0.3106396496295929, "learning_rate": 0.0001921276400388451, "loss": 2.0664, "step": 49 }, { "epoch": 0.16666666666666666, "grad_norm": 0.31523287296295166, "learning_rate": 0.00019170241970443343, "loss": 1.8873, "step": 50 }, { "epoch": 0.17, "grad_norm": 1.2277356386184692, "learning_rate": 0.00019126651152015403, "loss": 1.6405, "step": 51 }, { "epoch": 0.17333333333333334, "grad_norm": 0.19061756134033203, "learning_rate": 0.00019081996629078657, "loss": 1.8921, "step": 52 }, { "epoch": 0.17666666666666667, "grad_norm": 0.27055197954177856, "learning_rate": 0.00019036283606085053, "loss": 1.8499, "step": 53 }, { "epoch": 0.18, "grad_norm": 0.4002118706703186, "learning_rate": 0.00018989517410853955, "loss": 1.4783, "step": 54 }, { "epoch": 0.18333333333333332, "grad_norm": 0.27212274074554443, "learning_rate": 0.00018941703493951164, "loss": 1.2299, "step": 55 }, { "epoch": 0.18666666666666668, "grad_norm": 0.6585210561752319, "learning_rate": 0.00018892847428053693, "loss": 1.6397, "step": 56 }, { "epoch": 0.19, "grad_norm": 0.2484641969203949, "learning_rate": 0.00018842954907300236, "loss": 1.9502, "step": 57 }, { "epoch": 0.19333333333333333, "grad_norm": 0.1978948712348938, "learning_rate": 0.00018792031746627563, "loss": 2.0229, "step": 58 }, { "epoch": 0.19666666666666666, "grad_norm": 0.17801423370838165, "learning_rate": 0.0001874008388109276, "loss": 2.0025, "step": 59 }, { "epoch": 0.2, "grad_norm": 0.26752933859825134, "learning_rate": 0.00018687117365181512, "loss": 1.522, "step": 60 }, { "epoch": 0.2, "eval_loss": 1.9986859560012817, "eval_runtime": 106.2759, "eval_samples_per_second": 2.823, "eval_steps_per_second": 0.358, "step": 60 }, { "epoch": 0.20333333333333334, "grad_norm": 0.24524369835853577, "learning_rate": 0.00018633138372102468, "loss": 2.0717, "step": 61 }, { "epoch": 0.20666666666666667, "grad_norm": 0.1529204249382019, "learning_rate": 0.00018578153193067745, "loss": 1.7074, "step": 62 }, { "epoch": 0.21, "grad_norm": 0.2284618765115738, "learning_rate": 0.00018522168236559695, "loss": 1.5471, "step": 63 }, { "epoch": 0.21333333333333335, "grad_norm": 0.21615256369113922, "learning_rate": 0.00018465190027584005, "loss": 1.5937, "step": 64 }, { "epoch": 0.21666666666666667, "grad_norm": 0.24150824546813965, "learning_rate": 0.00018407225206909208, "loss": 1.5986, "step": 65 }, { "epoch": 0.22, "grad_norm": 0.15798711776733398, "learning_rate": 0.00018348280530292713, "loss": 1.8715, "step": 66 }, { "epoch": 0.22333333333333333, "grad_norm": 0.2319696843624115, "learning_rate": 0.00018288362867693414, "loss": 1.3617, "step": 67 }, { "epoch": 0.22666666666666666, "grad_norm": 0.2020319700241089, "learning_rate": 0.00018227479202471015, "loss": 1.7928, "step": 68 }, { "epoch": 0.23, "grad_norm": 0.2809887230396271, "learning_rate": 0.0001816563663057211, "loss": 2.0081, "step": 69 }, { "epoch": 0.23333333333333334, "grad_norm": 0.2510971426963806, "learning_rate": 0.00018102842359703176, "loss": 1.5938, "step": 70 }, { "epoch": 0.23666666666666666, "grad_norm": 0.1601170003414154, "learning_rate": 0.000180391037084905, "loss": 1.8598, "step": 71 }, { "epoch": 0.24, "grad_norm": 0.2945798337459564, "learning_rate": 0.00017974428105627208, "loss": 1.6412, "step": 72 }, { "epoch": 0.24333333333333335, "grad_norm": 0.31662991642951965, "learning_rate": 0.00017908823089007457, "loss": 1.6946, "step": 73 }, { "epoch": 0.24666666666666667, "grad_norm": 0.3063909709453583, "learning_rate": 0.00017842296304847893, "loss": 1.9946, "step": 74 }, { "epoch": 0.25, "grad_norm": 0.13805601000785828, "learning_rate": 0.00017774855506796496, "loss": 1.6024, "step": 75 }, { "epoch": 0.25333333333333335, "grad_norm": 0.17819726467132568, "learning_rate": 0.00017706508555028893, "loss": 1.7703, "step": 76 }, { "epoch": 0.25666666666666665, "grad_norm": 0.11969258636236191, "learning_rate": 0.0001763726341533227, "loss": 1.9729, "step": 77 }, { "epoch": 0.26, "grad_norm": 0.20544451475143433, "learning_rate": 0.00017567128158176953, "loss": 1.714, "step": 78 }, { "epoch": 0.2633333333333333, "grad_norm": 0.16914527118206024, "learning_rate": 0.0001749611095777581, "loss": 1.936, "step": 79 }, { "epoch": 0.26666666666666666, "grad_norm": 0.1939394325017929, "learning_rate": 0.00017424220091131535, "loss": 1.4724, "step": 80 }, { "epoch": 0.27, "grad_norm": 0.19433513283729553, "learning_rate": 0.00017351463937072004, "loss": 1.8444, "step": 81 }, { "epoch": 0.2733333333333333, "grad_norm": 0.18188251554965973, "learning_rate": 0.00017277850975273696, "loss": 1.6896, "step": 82 }, { "epoch": 0.27666666666666667, "grad_norm": 0.17649756371974945, "learning_rate": 0.000172033897852734, "loss": 1.6855, "step": 83 }, { "epoch": 0.28, "grad_norm": 0.1801021695137024, "learning_rate": 0.00017128089045468294, "loss": 1.4462, "step": 84 }, { "epoch": 0.2833333333333333, "grad_norm": 0.16927750408649445, "learning_rate": 0.0001705195753210446, "loss": 1.5268, "step": 85 }, { "epoch": 0.2866666666666667, "grad_norm": 0.18690228462219238, "learning_rate": 0.0001697500411825403, "loss": 1.8519, "step": 86 }, { "epoch": 0.29, "grad_norm": 0.20217467844486237, "learning_rate": 0.00016897237772781044, "loss": 1.92, "step": 87 }, { "epoch": 0.29333333333333333, "grad_norm": 0.27469587326049805, "learning_rate": 0.0001681866755929612, "loss": 2.0257, "step": 88 }, { "epoch": 0.2966666666666667, "grad_norm": 0.13343855738639832, "learning_rate": 0.00016739302635100108, "loss": 1.6739, "step": 89 }, { "epoch": 0.3, "grad_norm": 0.18704169988632202, "learning_rate": 0.00016659152250116812, "loss": 1.7542, "step": 90 }, { "epoch": 0.30333333333333334, "grad_norm": 0.2323143184185028, "learning_rate": 0.00016578225745814907, "loss": 1.6746, "step": 91 }, { "epoch": 0.30666666666666664, "grad_norm": 0.17189523577690125, "learning_rate": 0.00016496532554119214, "loss": 1.6818, "step": 92 }, { "epoch": 0.31, "grad_norm": 0.19542841613292694, "learning_rate": 0.000164140821963114, "loss": 1.7951, "step": 93 }, { "epoch": 0.31333333333333335, "grad_norm": 0.2227221131324768, "learning_rate": 0.000163308842819203, "loss": 2.0738, "step": 94 }, { "epoch": 0.31666666666666665, "grad_norm": 0.25109028816223145, "learning_rate": 0.00016246948507601914, "loss": 1.7133, "step": 95 }, { "epoch": 0.32, "grad_norm": 0.12997524440288544, "learning_rate": 0.00016162284656009274, "loss": 1.9752, "step": 96 }, { "epoch": 0.3233333333333333, "grad_norm": 0.23506972193717957, "learning_rate": 0.0001607690259465229, "loss": 1.905, "step": 97 }, { "epoch": 0.32666666666666666, "grad_norm": 0.15737849473953247, "learning_rate": 0.00015990812274747692, "loss": 1.5445, "step": 98 }, { "epoch": 0.33, "grad_norm": 0.16445747017860413, "learning_rate": 0.00015904023730059228, "loss": 1.7706, "step": 99 }, { "epoch": 0.3333333333333333, "grad_norm": 0.16149075329303741, "learning_rate": 0.00015816547075728226, "loss": 1.8575, "step": 100 }, { "epoch": 0.33666666666666667, "grad_norm": 0.17258767783641815, "learning_rate": 0.000157283925070947, "loss": 1.6852, "step": 101 }, { "epoch": 0.34, "grad_norm": 0.21116161346435547, "learning_rate": 0.00015639570298509064, "loss": 1.6215, "step": 102 }, { "epoch": 0.3433333333333333, "grad_norm": 0.21945820748806, "learning_rate": 0.000155500908021347, "loss": 1.8009, "step": 103 }, { "epoch": 0.3466666666666667, "grad_norm": 0.15959838032722473, "learning_rate": 0.00015459964446741382, "loss": 1.5615, "step": 104 }, { "epoch": 0.35, "grad_norm": 0.1735246777534485, "learning_rate": 0.0001536920173648984, "loss": 1.7633, "step": 105 }, { "epoch": 0.35333333333333333, "grad_norm": 0.13111194968223572, "learning_rate": 0.00015277813249707487, "loss": 1.927, "step": 106 }, { "epoch": 0.3566666666666667, "grad_norm": 0.2176179140806198, "learning_rate": 0.0001518580963765555, "loss": 2.0393, "step": 107 }, { "epoch": 0.36, "grad_norm": 0.16239792108535767, "learning_rate": 0.00015093201623287631, "loss": 1.5587, "step": 108 }, { "epoch": 0.36333333333333334, "grad_norm": 0.25669199228286743, "learning_rate": 0.00015000000000000001, "loss": 1.4917, "step": 109 }, { "epoch": 0.36666666666666664, "grad_norm": 0.14471955597400665, "learning_rate": 0.00014906215630373606, "loss": 1.6249, "step": 110 }, { "epoch": 0.37, "grad_norm": 0.22089527547359467, "learning_rate": 0.00014811859444908052, "loss": 2.0068, "step": 111 }, { "epoch": 0.37333333333333335, "grad_norm": 0.1651736944913864, "learning_rate": 0.00014716942440747664, "loss": 1.6535, "step": 112 }, { "epoch": 0.37666666666666665, "grad_norm": 0.16808518767356873, "learning_rate": 0.0001462147568039977, "loss": 2.1169, "step": 113 }, { "epoch": 0.38, "grad_norm": 0.1802249252796173, "learning_rate": 0.00014525470290445392, "loss": 1.7287, "step": 114 }, { "epoch": 0.38333333333333336, "grad_norm": 0.13918867707252502, "learning_rate": 0.00014428937460242417, "loss": 1.6429, "step": 115 }, { "epoch": 0.38666666666666666, "grad_norm": 0.16866669058799744, "learning_rate": 0.00014331888440621533, "loss": 1.6221, "step": 116 }, { "epoch": 0.39, "grad_norm": 0.2179497629404068, "learning_rate": 0.00014234334542574906, "loss": 1.9434, "step": 117 }, { "epoch": 0.3933333333333333, "grad_norm": 0.20598508417606354, "learning_rate": 0.00014136287135937915, "loss": 1.8447, "step": 118 }, { "epoch": 0.39666666666666667, "grad_norm": 0.2654450535774231, "learning_rate": 0.00014037757648064018, "loss": 2.0047, "step": 119 }, { "epoch": 0.4, "grad_norm": 0.1578744649887085, "learning_rate": 0.00013938757562492873, "loss": 1.5683, "step": 120 }, { "epoch": 0.4, "eval_loss": 1.9689319133758545, "eval_runtime": 105.5842, "eval_samples_per_second": 2.841, "eval_steps_per_second": 0.36, "step": 120 }, { "epoch": 0.4033333333333333, "grad_norm": 0.17445330321788788, "learning_rate": 0.00013839298417611963, "loss": 1.8099, "step": 121 }, { "epoch": 0.4066666666666667, "grad_norm": 0.17443552613258362, "learning_rate": 0.00013739391805311793, "loss": 1.6858, "step": 122 }, { "epoch": 0.41, "grad_norm": 0.2298484444618225, "learning_rate": 0.00013639049369634876, "loss": 1.6995, "step": 123 }, { "epoch": 0.41333333333333333, "grad_norm": 0.12730997800827026, "learning_rate": 0.0001353828280541861, "loss": 2.2712, "step": 124 }, { "epoch": 0.4166666666666667, "grad_norm": 0.18344169855117798, "learning_rate": 0.00013437103856932264, "loss": 1.78, "step": 125 }, { "epoch": 0.42, "grad_norm": 0.16407208144664764, "learning_rate": 0.00013335524316508208, "loss": 1.7153, "step": 126 }, { "epoch": 0.42333333333333334, "grad_norm": 0.2899414896965027, "learning_rate": 0.00013233556023167485, "loss": 1.6807, "step": 127 }, { "epoch": 0.4266666666666667, "grad_norm": 0.20936259627342224, "learning_rate": 0.00013131210861240026, "loss": 1.8354, "step": 128 }, { "epoch": 0.43, "grad_norm": 0.24104556441307068, "learning_rate": 0.00013028500758979506, "loss": 1.7304, "step": 129 }, { "epoch": 0.43333333333333335, "grad_norm": 0.13295267522335052, "learning_rate": 0.00012925437687173142, "loss": 1.5726, "step": 130 }, { "epoch": 0.43666666666666665, "grad_norm": 0.18221959471702576, "learning_rate": 0.00012822033657746478, "loss": 1.8909, "step": 131 }, { "epoch": 0.44, "grad_norm": 0.15093231201171875, "learning_rate": 0.0001271830072236343, "loss": 1.4898, "step": 132 }, { "epoch": 0.44333333333333336, "grad_norm": 0.24701373279094696, "learning_rate": 0.00012614250971021657, "loss": 1.5876, "step": 133 }, { "epoch": 0.44666666666666666, "grad_norm": 0.15908396244049072, "learning_rate": 0.00012509896530643488, "loss": 1.8188, "step": 134 }, { "epoch": 0.45, "grad_norm": 0.17179876565933228, "learning_rate": 0.00012405249563662537, "loss": 1.6909, "step": 135 }, { "epoch": 0.4533333333333333, "grad_norm": 0.2213679701089859, "learning_rate": 0.00012300322266606178, "loss": 1.8504, "step": 136 }, { "epoch": 0.45666666666666667, "grad_norm": 0.1909617930650711, "learning_rate": 0.00012195126868674051, "loss": 1.7861, "step": 137 }, { "epoch": 0.46, "grad_norm": 0.22522148489952087, "learning_rate": 0.00012089675630312754, "loss": 1.4303, "step": 138 }, { "epoch": 0.4633333333333333, "grad_norm": 0.18442374467849731, "learning_rate": 0.000119839808417869, "loss": 1.7304, "step": 139 }, { "epoch": 0.4666666666666667, "grad_norm": 0.19756169617176056, "learning_rate": 0.00011878054821746703, "loss": 1.7696, "step": 140 }, { "epoch": 0.47, "grad_norm": 0.21999084949493408, "learning_rate": 0.0001177190991579223, "loss": 1.3715, "step": 141 }, { "epoch": 0.47333333333333333, "grad_norm": 0.15807120501995087, "learning_rate": 0.00011665558495034546, "loss": 1.6985, "step": 142 }, { "epoch": 0.4766666666666667, "grad_norm": 0.21601736545562744, "learning_rate": 0.00011559012954653865, "loss": 1.3233, "step": 143 }, { "epoch": 0.48, "grad_norm": 0.14652834832668304, "learning_rate": 0.00011452285712454904, "loss": 1.6432, "step": 144 }, { "epoch": 0.48333333333333334, "grad_norm": 0.11754251271486282, "learning_rate": 0.00011345389207419588, "loss": 1.9452, "step": 145 }, { "epoch": 0.4866666666666667, "grad_norm": 0.15474091470241547, "learning_rate": 0.00011238335898257304, "loss": 1.8238, "step": 146 }, { "epoch": 0.49, "grad_norm": 0.19140326976776123, "learning_rate": 0.00011131138261952845, "loss": 1.6152, "step": 147 }, { "epoch": 0.49333333333333335, "grad_norm": 0.17788617312908173, "learning_rate": 0.00011023808792312227, "loss": 1.7443, "step": 148 }, { "epoch": 0.49666666666666665, "grad_norm": 0.18357710540294647, "learning_rate": 0.0001091635999850655, "loss": 1.7117, "step": 149 }, { "epoch": 0.5, "grad_norm": 0.18637436628341675, "learning_rate": 0.00010808804403614043, "loss": 1.6151, "step": 150 }, { "epoch": 0.5033333333333333, "grad_norm": 0.18485836684703827, "learning_rate": 0.00010701154543160541, "loss": 1.2937, "step": 151 }, { "epoch": 0.5066666666666667, "grad_norm": 0.16544543206691742, "learning_rate": 0.00010593422963658452, "loss": 2.0701, "step": 152 }, { "epoch": 0.51, "grad_norm": 0.22352543473243713, "learning_rate": 0.00010485622221144484, "loss": 1.917, "step": 153 }, { "epoch": 0.5133333333333333, "grad_norm": 0.18895843625068665, "learning_rate": 0.00010377764879716234, "loss": 1.5448, "step": 154 }, { "epoch": 0.5166666666666667, "grad_norm": 0.15331783890724182, "learning_rate": 0.00010269863510067872, "loss": 1.7176, "step": 155 }, { "epoch": 0.52, "grad_norm": 0.23109984397888184, "learning_rate": 0.00010161930688025017, "loss": 1.533, "step": 156 }, { "epoch": 0.5233333333333333, "grad_norm": 0.14737705886363983, "learning_rate": 0.00010053978993079045, "loss": 1.738, "step": 157 }, { "epoch": 0.5266666666666666, "grad_norm": 0.17144230008125305, "learning_rate": 9.946021006920959e-05, "loss": 1.9154, "step": 158 }, { "epoch": 0.53, "grad_norm": 0.1662004441022873, "learning_rate": 9.838069311974986e-05, "loss": 1.8317, "step": 159 }, { "epoch": 0.5333333333333333, "grad_norm": 0.184712752699852, "learning_rate": 9.730136489932133e-05, "loss": 1.3791, "step": 160 }, { "epoch": 0.5366666666666666, "grad_norm": 0.2711019515991211, "learning_rate": 9.622235120283769e-05, "loss": 1.7356, "step": 161 }, { "epoch": 0.54, "grad_norm": 0.22583667933940887, "learning_rate": 9.514377778855521e-05, "loss": 1.839, "step": 162 }, { "epoch": 0.5433333333333333, "grad_norm": 0.19490784406661987, "learning_rate": 9.406577036341548e-05, "loss": 1.4991, "step": 163 }, { "epoch": 0.5466666666666666, "grad_norm": 0.15581147372722626, "learning_rate": 9.298845456839459e-05, "loss": 1.8299, "step": 164 }, { "epoch": 0.55, "grad_norm": 0.1860620230436325, "learning_rate": 9.19119559638596e-05, "loss": 2.1671, "step": 165 }, { "epoch": 0.5533333333333333, "grad_norm": 0.23739062249660492, "learning_rate": 9.083640001493454e-05, "loss": 2.3618, "step": 166 }, { "epoch": 0.5566666666666666, "grad_norm": 0.2087864726781845, "learning_rate": 8.976191207687775e-05, "loss": 1.7497, "step": 167 }, { "epoch": 0.56, "grad_norm": 0.14848671853542328, "learning_rate": 8.868861738047158e-05, "loss": 1.552, "step": 168 }, { "epoch": 0.5633333333333334, "grad_norm": 0.1923326849937439, "learning_rate": 8.7616641017427e-05, "loss": 1.9334, "step": 169 }, { "epoch": 0.5666666666666667, "grad_norm": 0.18040664494037628, "learning_rate": 8.654610792580415e-05, "loss": 1.8009, "step": 170 }, { "epoch": 0.57, "grad_norm": 0.19821511209011078, "learning_rate": 8.5477142875451e-05, "loss": 1.5184, "step": 171 }, { "epoch": 0.5733333333333334, "grad_norm": 0.24785931408405304, "learning_rate": 8.440987045346134e-05, "loss": 1.8505, "step": 172 }, { "epoch": 0.5766666666666667, "grad_norm": 0.17160287499427795, "learning_rate": 8.334441504965455e-05, "loss": 1.4808, "step": 173 }, { "epoch": 0.58, "grad_norm": 0.13557881116867065, "learning_rate": 8.228090084207774e-05, "loss": 1.6194, "step": 174 }, { "epoch": 0.5833333333333334, "grad_norm": 0.1418817937374115, "learning_rate": 8.1219451782533e-05, "loss": 1.4039, "step": 175 }, { "epoch": 0.5866666666666667, "grad_norm": 0.18646883964538574, "learning_rate": 8.016019158213101e-05, "loss": 1.5624, "step": 176 }, { "epoch": 0.59, "grad_norm": 0.1777251660823822, "learning_rate": 7.91032436968725e-05, "loss": 1.7192, "step": 177 }, { "epoch": 0.5933333333333334, "grad_norm": 0.14895232021808624, "learning_rate": 7.804873131325954e-05, "loss": 1.5677, "step": 178 }, { "epoch": 0.5966666666666667, "grad_norm": 0.19403791427612305, "learning_rate": 7.699677733393826e-05, "loss": 1.6584, "step": 179 }, { "epoch": 0.6, "grad_norm": 0.13547170162200928, "learning_rate": 7.594750436337467e-05, "loss": 1.29, "step": 180 }, { "epoch": 0.6, "eval_loss": 1.9572664499282837, "eval_runtime": 105.5497, "eval_samples_per_second": 2.842, "eval_steps_per_second": 0.36, "step": 180 }, { "epoch": 0.6033333333333334, "grad_norm": 0.16800864040851593, "learning_rate": 7.490103469356513e-05, "loss": 1.2715, "step": 181 }, { "epoch": 0.6066666666666667, "grad_norm": 0.29579752683639526, "learning_rate": 7.385749028978346e-05, "loss": 1.8179, "step": 182 }, { "epoch": 0.61, "grad_norm": 0.21788251399993896, "learning_rate": 7.281699277636572e-05, "loss": 1.4703, "step": 183 }, { "epoch": 0.6133333333333333, "grad_norm": 0.22312134504318237, "learning_rate": 7.177966342253524e-05, "loss": 1.8905, "step": 184 }, { "epoch": 0.6166666666666667, "grad_norm": 0.13738024234771729, "learning_rate": 7.07456231282686e-05, "loss": 1.7124, "step": 185 }, { "epoch": 0.62, "grad_norm": 0.23278340697288513, "learning_rate": 6.971499241020495e-05, "loss": 1.7325, "step": 186 }, { "epoch": 0.6233333333333333, "grad_norm": 0.21700285375118256, "learning_rate": 6.868789138759976e-05, "loss": 1.3786, "step": 187 }, { "epoch": 0.6266666666666667, "grad_norm": 0.2645608186721802, "learning_rate": 6.766443976832517e-05, "loss": 1.8447, "step": 188 }, { "epoch": 0.63, "grad_norm": 0.23962748050689697, "learning_rate": 6.664475683491796e-05, "loss": 1.6991, "step": 189 }, { "epoch": 0.6333333333333333, "grad_norm": 0.1541968584060669, "learning_rate": 6.562896143067734e-05, "loss": 1.6777, "step": 190 }, { "epoch": 0.6366666666666667, "grad_norm": 0.18910759687423706, "learning_rate": 6.461717194581393e-05, "loss": 1.6926, "step": 191 }, { "epoch": 0.64, "grad_norm": 0.12460765987634659, "learning_rate": 6.360950630365126e-05, "loss": 1.2618, "step": 192 }, { "epoch": 0.6433333333333333, "grad_norm": 0.1890854835510254, "learning_rate": 6.260608194688206e-05, "loss": 1.6225, "step": 193 }, { "epoch": 0.6466666666666666, "grad_norm": 0.14857855439186096, "learning_rate": 6.160701582388038e-05, "loss": 1.7004, "step": 194 }, { "epoch": 0.65, "grad_norm": 0.17963790893554688, "learning_rate": 6.061242437507131e-05, "loss": 1.2582, "step": 195 }, { "epoch": 0.6533333333333333, "grad_norm": 0.22860835492610931, "learning_rate": 5.962242351935985e-05, "loss": 1.7153, "step": 196 }, { "epoch": 0.6566666666666666, "grad_norm": 0.11601811647415161, "learning_rate": 5.863712864062089e-05, "loss": 1.3152, "step": 197 }, { "epoch": 0.66, "grad_norm": 0.2678441107273102, "learning_rate": 5.765665457425102e-05, "loss": 1.7089, "step": 198 }, { "epoch": 0.6633333333333333, "grad_norm": 0.14132283627986908, "learning_rate": 5.668111559378471e-05, "loss": 1.5296, "step": 199 }, { "epoch": 0.6666666666666666, "grad_norm": 0.1803818643093109, "learning_rate": 5.571062539757581e-05, "loss": 1.7109, "step": 200 }, { "epoch": 0.67, "grad_norm": 0.18806160986423492, "learning_rate": 5.474529709554612e-05, "loss": 1.564, "step": 201 }, { "epoch": 0.6733333333333333, "grad_norm": 0.1855868101119995, "learning_rate": 5.378524319600231e-05, "loss": 1.6849, "step": 202 }, { "epoch": 0.6766666666666666, "grad_norm": 0.14401951432228088, "learning_rate": 5.283057559252341e-05, "loss": 1.6278, "step": 203 }, { "epoch": 0.68, "grad_norm": 0.13861948251724243, "learning_rate": 5.1881405550919493e-05, "loss": 1.7262, "step": 204 }, { "epoch": 0.6833333333333333, "grad_norm": 0.3547126054763794, "learning_rate": 5.0937843696263966e-05, "loss": 2.1987, "step": 205 }, { "epoch": 0.6866666666666666, "grad_norm": 0.2394469678401947, "learning_rate": 5.000000000000002e-05, "loss": 1.7782, "step": 206 }, { "epoch": 0.69, "grad_norm": 0.17434202134609222, "learning_rate": 4.9067983767123736e-05, "loss": 1.6292, "step": 207 }, { "epoch": 0.6933333333333334, "grad_norm": 0.22222231328487396, "learning_rate": 4.814190362344454e-05, "loss": 1.8205, "step": 208 }, { "epoch": 0.6966666666666667, "grad_norm": 0.14674372971057892, "learning_rate": 4.722186750292511e-05, "loss": 1.3575, "step": 209 }, { "epoch": 0.7, "grad_norm": 0.23563924431800842, "learning_rate": 4.630798263510162e-05, "loss": 2.0979, "step": 210 }, { "epoch": 0.7033333333333334, "grad_norm": 0.19721245765686035, "learning_rate": 4.540035553258619e-05, "loss": 1.6031, "step": 211 }, { "epoch": 0.7066666666666667, "grad_norm": 0.1618299037218094, "learning_rate": 4.449909197865303e-05, "loss": 1.7319, "step": 212 }, { "epoch": 0.71, "grad_norm": 0.2110472023487091, "learning_rate": 4.360429701490934e-05, "loss": 1.8205, "step": 213 }, { "epoch": 0.7133333333333334, "grad_norm": 0.16100046038627625, "learning_rate": 4.271607492905303e-05, "loss": 1.7695, "step": 214 }, { "epoch": 0.7166666666666667, "grad_norm": 0.16993089020252228, "learning_rate": 4.183452924271776e-05, "loss": 1.6692, "step": 215 }, { "epoch": 0.72, "grad_norm": 0.19697882235050201, "learning_rate": 4.0959762699407766e-05, "loss": 1.6532, "step": 216 }, { "epoch": 0.7233333333333334, "grad_norm": 0.17745055258274078, "learning_rate": 4.009187725252309e-05, "loss": 1.7848, "step": 217 }, { "epoch": 0.7266666666666667, "grad_norm": 0.187378391623497, "learning_rate": 3.9230974053477086e-05, "loss": 1.656, "step": 218 }, { "epoch": 0.73, "grad_norm": 0.15109644830226898, "learning_rate": 3.8377153439907266e-05, "loss": 1.5773, "step": 219 }, { "epoch": 0.7333333333333333, "grad_norm": 0.1965898722410202, "learning_rate": 3.7530514923980884e-05, "loss": 1.7998, "step": 220 }, { "epoch": 0.7366666666666667, "grad_norm": 0.13748736679553986, "learning_rate": 3.669115718079702e-05, "loss": 1.7072, "step": 221 }, { "epoch": 0.74, "grad_norm": 0.16212758421897888, "learning_rate": 3.585917803688603e-05, "loss": 1.5043, "step": 222 }, { "epoch": 0.7433333333333333, "grad_norm": 0.19969479739665985, "learning_rate": 3.503467445880789e-05, "loss": 1.1802, "step": 223 }, { "epoch": 0.7466666666666667, "grad_norm": 0.19470465183258057, "learning_rate": 3.421774254185096e-05, "loss": 1.7774, "step": 224 }, { "epoch": 0.75, "grad_norm": 0.17509035766124725, "learning_rate": 3.340847749883191e-05, "loss": 1.7423, "step": 225 }, { "epoch": 0.7533333333333333, "grad_norm": 0.16134221851825714, "learning_rate": 3.2606973648998915e-05, "loss": 1.7789, "step": 226 }, { "epoch": 0.7566666666666667, "grad_norm": 0.13019809126853943, "learning_rate": 3.1813324407038825e-05, "loss": 1.6566, "step": 227 }, { "epoch": 0.76, "grad_norm": 0.17759770154953003, "learning_rate": 3.102762227218957e-05, "loss": 1.7183, "step": 228 }, { "epoch": 0.7633333333333333, "grad_norm": 0.22855810821056366, "learning_rate": 3.0249958817459722e-05, "loss": 1.4156, "step": 229 }, { "epoch": 0.7666666666666667, "grad_norm": 0.18700584769248962, "learning_rate": 2.9480424678955443e-05, "loss": 1.36, "step": 230 }, { "epoch": 0.77, "grad_norm": 0.23632779717445374, "learning_rate": 2.8719109545317103e-05, "loss": 2.4022, "step": 231 }, { "epoch": 0.7733333333333333, "grad_norm": 0.225185826420784, "learning_rate": 2.7966102147265994e-05, "loss": 1.5102, "step": 232 }, { "epoch": 0.7766666666666666, "grad_norm": 0.153280109167099, "learning_rate": 2.722149024726307e-05, "loss": 1.6525, "step": 233 }, { "epoch": 0.78, "grad_norm": 0.2028931975364685, "learning_rate": 2.6485360629279987e-05, "loss": 1.6028, "step": 234 }, { "epoch": 0.7833333333333333, "grad_norm": 0.11865737289190292, "learning_rate": 2.5757799088684654e-05, "loss": 1.9712, "step": 235 }, { "epoch": 0.7866666666666666, "grad_norm": 0.16811503469944, "learning_rate": 2.5038890422241958e-05, "loss": 1.8192, "step": 236 }, { "epoch": 0.79, "grad_norm": 0.2171882688999176, "learning_rate": 2.432871841823047e-05, "loss": 1.8958, "step": 237 }, { "epoch": 0.7933333333333333, "grad_norm": 0.1831800788640976, "learning_rate": 2.3627365846677306e-05, "loss": 1.8858, "step": 238 }, { "epoch": 0.7966666666666666, "grad_norm": 0.1818980723619461, "learning_rate": 2.2934914449711087e-05, "loss": 1.8898, "step": 239 }, { "epoch": 0.8, "grad_norm": 0.16912035644054413, "learning_rate": 2.2251444932035094e-05, "loss": 1.6317, "step": 240 }, { "epoch": 0.8, "eval_loss": 1.9515124559402466, "eval_runtime": 105.7502, "eval_samples_per_second": 2.837, "eval_steps_per_second": 0.359, "step": 240 }, { "epoch": 0.8033333333333333, "grad_norm": 0.26389726996421814, "learning_rate": 2.157703695152109e-05, "loss": 1.5613, "step": 241 }, { "epoch": 0.8066666666666666, "grad_norm": 0.17984025180339813, "learning_rate": 2.091176910992545e-05, "loss": 1.6669, "step": 242 }, { "epoch": 0.81, "grad_norm": 0.2281753122806549, "learning_rate": 2.025571894372794e-05, "loss": 1.7596, "step": 243 }, { "epoch": 0.8133333333333334, "grad_norm": 0.28229451179504395, "learning_rate": 1.9608962915094996e-05, "loss": 1.9176, "step": 244 }, { "epoch": 0.8166666666666667, "grad_norm": 0.21417230367660522, "learning_rate": 1.897157640296825e-05, "loss": 1.7502, "step": 245 }, { "epoch": 0.82, "grad_norm": 0.18738320469856262, "learning_rate": 1.8343633694278895e-05, "loss": 2.11, "step": 246 }, { "epoch": 0.8233333333333334, "grad_norm": 0.14456549286842346, "learning_rate": 1.772520797528988e-05, "loss": 1.868, "step": 247 }, { "epoch": 0.8266666666666667, "grad_norm": 0.2031559944152832, "learning_rate": 1.7116371323065883e-05, "loss": 1.3048, "step": 248 }, { "epoch": 0.83, "grad_norm": 0.49127626419067383, "learning_rate": 1.65171946970729e-05, "loss": 1.6597, "step": 249 }, { "epoch": 0.8333333333333334, "grad_norm": 0.12952959537506104, "learning_rate": 1.592774793090792e-05, "loss": 1.6928, "step": 250 }, { "epoch": 0.8366666666666667, "grad_norm": 0.16764536499977112, "learning_rate": 1.534809972415998e-05, "loss": 1.2168, "step": 251 }, { "epoch": 0.84, "grad_norm": 0.17101448774337769, "learning_rate": 1.4778317634403083e-05, "loss": 1.5374, "step": 252 }, { "epoch": 0.8433333333333334, "grad_norm": 0.19581882655620575, "learning_rate": 1.4218468069322578e-05, "loss": 1.7137, "step": 253 }, { "epoch": 0.8466666666666667, "grad_norm": 0.1691337525844574, "learning_rate": 1.3668616278975343e-05, "loss": 1.7247, "step": 254 }, { "epoch": 0.85, "grad_norm": 0.10976916551589966, "learning_rate": 1.3128826348184887e-05, "loss": 1.7101, "step": 255 }, { "epoch": 0.8533333333333334, "grad_norm": 0.14474567770957947, "learning_rate": 1.2599161189072427e-05, "loss": 1.6163, "step": 256 }, { "epoch": 0.8566666666666667, "grad_norm": 0.1492033302783966, "learning_rate": 1.2079682533724379e-05, "loss": 1.5831, "step": 257 }, { "epoch": 0.86, "grad_norm": 0.500358521938324, "learning_rate": 1.1570450926997655e-05, "loss": 1.9243, "step": 258 }, { "epoch": 0.8633333333333333, "grad_norm": 0.1507658064365387, "learning_rate": 1.1071525719463095e-05, "loss": 1.6014, "step": 259 }, { "epoch": 0.8666666666666667, "grad_norm": 0.13210022449493408, "learning_rate": 1.0582965060488359e-05, "loss": 1.8596, "step": 260 }, { "epoch": 0.87, "grad_norm": 0.18185356259346008, "learning_rate": 1.010482589146048e-05, "loss": 1.3959, "step": 261 }, { "epoch": 0.8733333333333333, "grad_norm": 0.1475716084241867, "learning_rate": 9.637163939149485e-06, "loss": 2.0064, "step": 262 }, { "epoch": 0.8766666666666667, "grad_norm": 0.20647890865802765, "learning_rate": 9.180033709213454e-06, "loss": 1.9017, "step": 263 }, { "epoch": 0.88, "grad_norm": 0.16821038722991943, "learning_rate": 8.733488479845997e-06, "loss": 1.4959, "step": 264 }, { "epoch": 0.8833333333333333, "grad_norm": 0.2551242709159851, "learning_rate": 8.297580295566575e-06, "loss": 1.7765, "step": 265 }, { "epoch": 0.8866666666666667, "grad_norm": 0.1547422707080841, "learning_rate": 7.872359961154906e-06, "loss": 1.9658, "step": 266 }, { "epoch": 0.89, "grad_norm": 0.19091367721557617, "learning_rate": 7.457877035729588e-06, "loss": 1.4526, "step": 267 }, { "epoch": 0.8933333333333333, "grad_norm": 0.18940412998199463, "learning_rate": 7.054179826972074e-06, "loss": 1.9816, "step": 268 }, { "epoch": 0.8966666666666666, "grad_norm": 0.20087075233459473, "learning_rate": 6.661315385496425e-06, "loss": 1.9941, "step": 269 }, { "epoch": 0.9, "grad_norm": 0.13561421632766724, "learning_rate": 6.2793294993656494e-06, "loss": 1.9879, "step": 270 }, { "epoch": 0.9033333333333333, "grad_norm": 0.13483434915542603, "learning_rate": 5.908266688755049e-06, "loss": 1.6953, "step": 271 }, { "epoch": 0.9066666666666666, "grad_norm": 0.19798149168491364, "learning_rate": 5.54817020076347e-06, "loss": 1.6216, "step": 272 }, { "epoch": 0.91, "grad_norm": 0.15632538497447968, "learning_rate": 5.199082004372957e-06, "loss": 1.7665, "step": 273 }, { "epoch": 0.9133333333333333, "grad_norm": 0.18586932122707367, "learning_rate": 4.861042785557146e-06, "loss": 2.0123, "step": 274 }, { "epoch": 0.9166666666666666, "grad_norm": 0.16410577297210693, "learning_rate": 4.534091942539475e-06, "loss": 1.7443, "step": 275 }, { "epoch": 0.92, "grad_norm": 0.1842477172613144, "learning_rate": 4.2182675812012965e-06, "loss": 1.528, "step": 276 }, { "epoch": 0.9233333333333333, "grad_norm": 0.1795828491449356, "learning_rate": 3.913606510640644e-06, "loss": 1.6607, "step": 277 }, { "epoch": 0.9266666666666666, "grad_norm": 0.24803687632083893, "learning_rate": 3.620144238882206e-06, "loss": 1.5034, "step": 278 }, { "epoch": 0.93, "grad_norm": 0.23375527560710907, "learning_rate": 3.3379149687388867e-06, "loss": 1.7486, "step": 279 }, { "epoch": 0.9333333333333333, "grad_norm": 0.1961246132850647, "learning_rate": 3.06695159382544e-06, "loss": 1.4684, "step": 280 }, { "epoch": 0.9366666666666666, "grad_norm": 0.17305491864681244, "learning_rate": 2.8072856947248037e-06, "loss": 1.8544, "step": 281 }, { "epoch": 0.94, "grad_norm": 0.1923137605190277, "learning_rate": 2.5589475353073988e-06, "loss": 1.8947, "step": 282 }, { "epoch": 0.9433333333333334, "grad_norm": 0.14171859622001648, "learning_rate": 2.3219660592038285e-06, "loss": 2.1618, "step": 283 }, { "epoch": 0.9466666666666667, "grad_norm": 0.13578371703624725, "learning_rate": 2.0963688864316323e-06, "loss": 1.9193, "step": 284 }, { "epoch": 0.95, "grad_norm": 0.20825190842151642, "learning_rate": 1.882182310176095e-06, "loss": 1.7954, "step": 285 }, { "epoch": 0.9533333333333334, "grad_norm": 0.16706398129463196, "learning_rate": 1.6794312937258417e-06, "loss": 2.1252, "step": 286 }, { "epoch": 0.9566666666666667, "grad_norm": 0.11100097745656967, "learning_rate": 1.488139467563354e-06, "loss": 1.4543, "step": 287 }, { "epoch": 0.96, "grad_norm": 0.16676479578018188, "learning_rate": 1.30832912661093e-06, "loss": 1.7001, "step": 288 }, { "epoch": 0.9633333333333334, "grad_norm": 0.14126090705394745, "learning_rate": 1.1400212276321376e-06, "loss": 1.4247, "step": 289 }, { "epoch": 0.9666666666666667, "grad_norm": 0.15663489699363708, "learning_rate": 9.832353867893386e-07, "loss": 0.9358, "step": 290 }, { "epoch": 0.97, "grad_norm": 0.2205333262681961, "learning_rate": 8.379898773574924e-07, "loss": 1.6609, "step": 291 }, { "epoch": 0.9733333333333334, "grad_norm": 0.1646774411201477, "learning_rate": 7.043016275943615e-07, "loss": 1.8591, "step": 292 }, { "epoch": 0.9766666666666667, "grad_norm": 0.20356421172618866, "learning_rate": 5.821862187675775e-07, "loss": 1.9469, "step": 293 }, { "epoch": 0.98, "grad_norm": 0.17772065103054047, "learning_rate": 4.7165788333860536e-07, "loss": 1.0896, "step": 294 }, { "epoch": 0.9833333333333333, "grad_norm": 0.1542958915233612, "learning_rate": 3.727295033040035e-07, "loss": 1.5185, "step": 295 }, { "epoch": 0.9866666666666667, "grad_norm": 0.1795244961977005, "learning_rate": 2.854126086940356e-07, "loss": 1.7396, "step": 296 }, { "epoch": 0.99, "grad_norm": 0.16536656022071838, "learning_rate": 2.0971737622883515e-07, "loss": 1.7716, "step": 297 }, { "epoch": 0.9933333333333333, "grad_norm": 0.20850741863250732, "learning_rate": 1.4565262813230894e-07, "loss": 1.2772, "step": 298 }, { "epoch": 0.9966666666666667, "grad_norm": 0.16341620683670044, "learning_rate": 9.32258311039269e-08, "loss": 1.5941, "step": 299 }, { "epoch": 1.0, "grad_norm": 0.19970038533210754, "learning_rate": 5.2443095448506674e-08, "loss": 1.7513, "step": 300 }, { "epoch": 1.0, "eval_loss": 1.9492239952087402, "eval_runtime": 107.0008, "eval_samples_per_second": 2.804, "eval_steps_per_second": 0.355, "step": 300 } ], "logging_steps": 1, "max_steps": 300, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.3809234445438157e+17, "train_batch_size": 1, "trial_name": null, "trial_params": null }