File size: 36,489 Bytes
eebf9af |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 |
Step: 4 {'loss': 1.8393, 'grad_norm': 0.9135997295379639, 'learning_rate': 1.9988154761904764e-05, 'epoch': 0.0035714285714285713} Step: 9 {'loss': 1.6701, 'grad_norm': 0.7541273832321167, 'learning_rate': 1.9976309523809527e-05, 'epoch': 0.007142857142857143} Step: 14 {'loss': 1.2554, 'grad_norm': 0.6005926132202148, 'learning_rate': 1.9964464285714286e-05, 'epoch': 0.010714285714285714} Step: 19 {'loss': 1.4734, 'grad_norm': 0.6956166625022888, 'learning_rate': 1.995261904761905e-05, 'epoch': 0.014285714285714285} Step: 24 {'loss': 1.2668, 'grad_norm': 0.3963625133037567, 'learning_rate': 1.994077380952381e-05, 'epoch': 0.017857142857142856} Step: 29 {'loss': 1.2668, 'grad_norm': 0.41620415449142456, 'learning_rate': 1.9928928571428574e-05, 'epoch': 0.02142857142857143} Step: 34 {'loss': 1.4369, 'grad_norm': 0.7620450854301453, 'learning_rate': 1.9917083333333336e-05, 'epoch': 0.025} Step: 39 {'loss': 1.3254, 'grad_norm': 0.6728664636611938, 'learning_rate': 1.99052380952381e-05, 'epoch': 0.02857142857142857} Step: 44 {'loss': 1.0877, 'grad_norm': 0.5350437760353088, 'learning_rate': 1.9893392857142858e-05, 'epoch': 0.03214285714285714} Step: 49 {'loss': 1.0392, 'grad_norm': 0.6517331600189209, 'learning_rate': 1.988154761904762e-05, 'epoch': 0.03571428571428571} Step: 54 {'loss': 1.0966, 'grad_norm': 0.4985944628715515, 'learning_rate': 1.9869702380952383e-05, 'epoch': 0.039285714285714285} Step: 59 {'loss': 1.0616, 'grad_norm': 0.6425554752349854, 'learning_rate': 1.9857857142857145e-05, 'epoch': 0.04285714285714286} Step: 64 {'loss': 1.3173, 'grad_norm': 0.9711938500404358, 'learning_rate': 1.9846011904761908e-05, 'epoch': 0.04642857142857143} Step: 69 {'loss': 0.965, 'grad_norm': 0.5132351517677307, 'learning_rate': 1.9834166666666667e-05, 'epoch': 0.05} Step: 74 {'loss': 0.8959, 'grad_norm': 0.5035068988800049, 'learning_rate': 1.982232142857143e-05, 'epoch': 0.05357142857142857} Step: 79 {'loss': 0.8977, 'grad_norm': 0.6544917821884155, 'learning_rate': 1.9810476190476192e-05, 'epoch': 0.05714285714285714} Step: 84 {'loss': 0.8336, 'grad_norm': 0.7621152997016907, 'learning_rate': 1.9798630952380955e-05, 'epoch': 0.060714285714285714} Step: 89 {'loss': 0.8617, 'grad_norm': 0.5246341228485107, 'learning_rate': 1.9786785714285717e-05, 'epoch': 0.06428571428571428} Step: 94 {'loss': 0.7953, 'grad_norm': 0.5174001455307007, 'learning_rate': 1.977494047619048e-05, 'epoch': 0.06785714285714285} Step: 99 {'loss': 1.0036, 'grad_norm': 0.8036244511604309, 'learning_rate': 1.976309523809524e-05, 'epoch': 0.07142857142857142} Step: 104 {'loss': 0.9666, 'grad_norm': 0.8807173371315002, 'learning_rate': 1.975125e-05, 'epoch': 0.075} Step: 109 {'loss': 0.7682, 'grad_norm': 0.6022303700447083, 'learning_rate': 1.9739404761904764e-05, 'epoch': 0.07857142857142857} Step: 114 {'loss': 0.8332, 'grad_norm': 0.5524723529815674, 'learning_rate': 1.9727559523809527e-05, 'epoch': 0.08214285714285714} Step: 119 {'loss': 0.6926, 'grad_norm': 0.6818602085113525, 'learning_rate': 1.971571428571429e-05, 'epoch': 0.08571428571428572} Step: 124 {'loss': 0.7233, 'grad_norm': 0.5903816819190979, 'learning_rate': 1.9703869047619052e-05, 'epoch': 0.08928571428571429} Step: 129 {'loss': 0.6642, 'grad_norm': 0.7943810820579529, 'learning_rate': 1.969202380952381e-05, 'epoch': 0.09285714285714286} Step: 134 {'loss': 0.6425, 'grad_norm': 0.5778236985206604, 'learning_rate': 1.9680178571428574e-05, 'epoch': 0.09642857142857143} Step: 139 {'loss': 0.6691, 'grad_norm': 0.5044384002685547, 'learning_rate': 1.9668333333333333e-05, 'epoch': 0.1} Step: 144 {'loss': 0.6386, 'grad_norm': 0.6634503602981567, 'learning_rate': 1.9656488095238095e-05, 'epoch': 0.10357142857142858} Step: 149 {'loss': 0.748, 'grad_norm': 0.653299868106842, 'learning_rate': 1.9644642857142858e-05, 'epoch': 0.10714285714285714} Step: 154 {'loss': 0.6776, 'grad_norm': 0.6532788276672363, 'learning_rate': 1.963279761904762e-05, 'epoch': 0.11071428571428571} Step: 159 {'loss': 0.4942, 'grad_norm': 0.6517465114593506, 'learning_rate': 1.9620952380952383e-05, 'epoch': 0.11428571428571428} Step: 164 {'loss': 0.5849, 'grad_norm': 0.7105296850204468, 'learning_rate': 1.9609107142857142e-05, 'epoch': 0.11785714285714285} Step: 169 {'loss': 0.5823, 'grad_norm': 0.8051909804344177, 'learning_rate': 1.9597261904761905e-05, 'epoch': 0.12142857142857143} Step: 174 {'loss': 0.6124, 'grad_norm': 0.901710569858551, 'learning_rate': 1.9585416666666667e-05, 'epoch': 0.125} Step: 179 {'loss': 0.7032, 'grad_norm': 0.8329763412475586, 'learning_rate': 1.957357142857143e-05, 'epoch': 0.12857142857142856} Step: 184 {'loss': 0.5445, 'grad_norm': 0.41105031967163086, 'learning_rate': 1.9561726190476192e-05, 'epoch': 0.13214285714285715} Step: 189 {'loss': 0.6622, 'grad_norm': 0.9969037175178528, 'learning_rate': 1.9549880952380955e-05, 'epoch': 0.1357142857142857} Step: 194 {'loss': 0.6171, 'grad_norm': 0.6689130067825317, 'learning_rate': 1.9538035714285714e-05, 'epoch': 0.1392857142857143} Step: 199 {'loss': 0.5791, 'grad_norm': 0.9522849917411804, 'learning_rate': 1.9526190476190477e-05, 'epoch': 0.14285714285714285} Step: 204 {'loss': 0.7005, 'grad_norm': 0.6476870179176331, 'learning_rate': 1.951434523809524e-05, 'epoch': 0.14642857142857144} Step: 209 {'loss': 0.548, 'grad_norm': 0.6938184499740601, 'learning_rate': 1.9502500000000002e-05, 'epoch': 0.15} Step: 214 {'loss': 0.5984, 'grad_norm': 0.7758791446685791, 'learning_rate': 1.9490654761904764e-05, 'epoch': 0.15357142857142858} Step: 219 {'loss': 0.5668, 'grad_norm': 0.6298092007637024, 'learning_rate': 1.9478809523809523e-05, 'epoch': 0.15714285714285714} Step: 224 {'loss': 0.4565, 'grad_norm': 0.8767203688621521, 'learning_rate': 1.9466964285714286e-05, 'epoch': 0.16071428571428573} Step: 229 {'loss': 0.4918, 'grad_norm': 0.8556920886039734, 'learning_rate': 1.945511904761905e-05, 'epoch': 0.16428571428571428} Step: 234 {'loss': 0.6559, 'grad_norm': 0.9740686416625977, 'learning_rate': 1.944327380952381e-05, 'epoch': 0.16785714285714284} Step: 239 {'loss': 0.5291, 'grad_norm': 1.2440892457962036, 'learning_rate': 1.9431428571428574e-05, 'epoch': 0.17142857142857143} Step: 244 {'loss': 0.4741, 'grad_norm': 0.8751192092895508, 'learning_rate': 1.9419583333333336e-05, 'epoch': 0.175} Step: 249 {'loss': 0.4616, 'grad_norm': 0.6261155009269714, 'learning_rate': 1.9407738095238095e-05, 'epoch': 0.17857142857142858} Step: 254 {'loss': 0.6365, 'grad_norm': 0.7985801696777344, 'learning_rate': 1.9395892857142858e-05, 'epoch': 0.18214285714285713} Step: 259 {'loss': 0.4893, 'grad_norm': 0.8446434140205383, 'learning_rate': 1.938404761904762e-05, 'epoch': 0.18571428571428572} Step: 264 {'loss': 0.4726, 'grad_norm': 0.998410701751709, 'learning_rate': 1.9372202380952383e-05, 'epoch': 0.18928571428571428} Step: 269 {'loss': 0.4389, 'grad_norm': 0.7421302199363708, 'learning_rate': 1.9360357142857146e-05, 'epoch': 0.19285714285714287} Step: 274 {'loss': 0.3953, 'grad_norm': 0.7805348038673401, 'learning_rate': 1.9348511904761905e-05, 'epoch': 0.19642857142857142} Step: 279 {'loss': 0.5141, 'grad_norm': 1.2035925388336182, 'learning_rate': 1.9336666666666667e-05, 'epoch': 0.2} Step: 284 {'loss': 0.5336, 'grad_norm': 0.8996376395225525, 'learning_rate': 1.932482142857143e-05, 'epoch': 0.20357142857142857} Step: 289 {'loss': 0.5258, 'grad_norm': 0.6805949211120605, 'learning_rate': 1.9312976190476192e-05, 'epoch': 0.20714285714285716} Step: 294 {'loss': 0.4903, 'grad_norm': 0.7106399536132812, 'learning_rate': 1.9301130952380955e-05, 'epoch': 0.21071428571428572} Step: 299 {'loss': 0.3474, 'grad_norm': 0.5261926054954529, 'learning_rate': 1.9289285714285718e-05, 'epoch': 0.21428571428571427} Step: 304 {'loss': 0.5147, 'grad_norm': 0.8087174892425537, 'learning_rate': 1.9277440476190477e-05, 'epoch': 0.21785714285714286} Step: 309 {'loss': 0.387, 'grad_norm': 0.6345266699790955, 'learning_rate': 1.926559523809524e-05, 'epoch': 0.22142857142857142} Step: 314 {'loss': 0.5001, 'grad_norm': 0.6739416122436523, 'learning_rate': 1.9253750000000002e-05, 'epoch': 0.225} Step: 319 {'loss': 0.4823, 'grad_norm': 0.9729430079460144, 'learning_rate': 1.9241904761904764e-05, 'epoch': 0.22857142857142856} Step: 324 {'loss': 0.4074, 'grad_norm': 0.8870615363121033, 'learning_rate': 1.9230059523809527e-05, 'epoch': 0.23214285714285715} Step: 329 {'loss': 0.404, 'grad_norm': 0.6122156381607056, 'learning_rate': 1.921821428571429e-05, 'epoch': 0.2357142857142857} Step: 334 {'loss': 0.399, 'grad_norm': 0.7009484767913818, 'learning_rate': 1.920636904761905e-05, 'epoch': 0.2392857142857143} Step: 339 {'loss': 0.4015, 'grad_norm': 0.9186666011810303, 'learning_rate': 1.919452380952381e-05, 'epoch': 0.24285714285714285} Step: 344 {'loss': 0.3585, 'grad_norm': 0.7455053925514221, 'learning_rate': 1.9182678571428574e-05, 'epoch': 0.24642857142857144} Step: 349 {'loss': 0.3825, 'grad_norm': 0.6361353993415833, 'learning_rate': 1.9170833333333336e-05, 'epoch': 0.25} Step: 354 {'loss': 0.4294, 'grad_norm': 0.8647685050964355, 'learning_rate': 1.91589880952381e-05, 'epoch': 0.25357142857142856} Step: 359 {'loss': 0.3671, 'grad_norm': 0.5729554295539856, 'learning_rate': 1.9147142857142858e-05, 'epoch': 0.2571428571428571} Step: 364 {'loss': 0.3255, 'grad_norm': 0.5804448127746582, 'learning_rate': 1.913529761904762e-05, 'epoch': 0.26071428571428573} Step: 369 {'loss': 0.513, 'grad_norm': 0.8690835237503052, 'learning_rate': 1.9123452380952383e-05, 'epoch': 0.2642857142857143} Step: 374 {'loss': 0.3854, 'grad_norm': 1.04226553440094, 'learning_rate': 1.9111607142857146e-05, 'epoch': 0.26785714285714285} Step: 379 {'loss': 0.3508, 'grad_norm': 0.9402156472206116, 'learning_rate': 1.9099761904761908e-05, 'epoch': 0.2714285714285714} Step: 384 {'loss': 0.4982, 'grad_norm': 0.6728529930114746, 'learning_rate': 1.908791666666667e-05, 'epoch': 0.275} Step: 389 {'loss': 0.3801, 'grad_norm': 0.6414267420768738, 'learning_rate': 1.907607142857143e-05, 'epoch': 0.2785714285714286} Step: 394 {'loss': 0.4152, 'grad_norm': 1.0602443218231201, 'learning_rate': 1.9064226190476192e-05, 'epoch': 0.28214285714285714} Step: 399 {'loss': 0.4706, 'grad_norm': 0.5564787983894348, 'learning_rate': 1.905238095238095e-05, 'epoch': 0.2857142857142857} Step: 404 {'loss': 0.3742, 'grad_norm': 0.8708383440971375, 'learning_rate': 1.9040535714285714e-05, 'epoch': 0.2892857142857143} Step: 409 {'loss': 0.4291, 'grad_norm': 1.4418401718139648, 'learning_rate': 1.9028690476190477e-05, 'epoch': 0.29285714285714287} Step: 414 {'loss': 0.4047, 'grad_norm': 0.877226710319519, 'learning_rate': 1.901684523809524e-05, 'epoch': 0.29642857142857143} Step: 419 {'loss': 0.5602, 'grad_norm': 0.9882636666297913, 'learning_rate': 1.9005000000000002e-05, 'epoch': 0.3} Step: 424 {'loss': 0.4152, 'grad_norm': 0.6507172584533691, 'learning_rate': 1.899315476190476e-05, 'epoch': 0.30357142857142855} Step: 429 {'loss': 0.385, 'grad_norm': 0.8154886960983276, 'learning_rate': 1.8981309523809524e-05, 'epoch': 0.30714285714285716} Step: 434 {'loss': 0.4448, 'grad_norm': 1.0586435794830322, 'learning_rate': 1.8969464285714286e-05, 'epoch': 0.3107142857142857} Step: 439 {'loss': 0.4122, 'grad_norm': 0.9430441856384277, 'learning_rate': 1.895761904761905e-05, 'epoch': 0.3142857142857143} Step: 444 {'loss': 0.3908, 'grad_norm': 0.5545459985733032, 'learning_rate': 1.894577380952381e-05, 'epoch': 0.31785714285714284} Step: 449 {'loss': 0.4621, 'grad_norm': 0.9478644132614136, 'learning_rate': 1.8933928571428574e-05, 'epoch': 0.32142857142857145} Step: 454 {'loss': 0.3571, 'grad_norm': 0.5178350210189819, 'learning_rate': 1.8922083333333333e-05, 'epoch': 0.325} Step: 459 {'loss': 0.283, 'grad_norm': 0.544847846031189, 'learning_rate': 1.8910238095238095e-05, 'epoch': 0.32857142857142857} Step: 464 {'loss': 0.3541, 'grad_norm': 0.736697256565094, 'learning_rate': 1.8898392857142858e-05, 'epoch': 0.33214285714285713} Step: 469 {'loss': 0.4792, 'grad_norm': 1.094739556312561, 'learning_rate': 1.888654761904762e-05, 'epoch': 0.3357142857142857} Step: 474 {'loss': 0.4067, 'grad_norm': 0.8329822421073914, 'learning_rate': 1.8874702380952383e-05, 'epoch': 0.3392857142857143} Step: 479 {'loss': 0.4462, 'grad_norm': 0.7292098999023438, 'learning_rate': 1.8862857142857142e-05, 'epoch': 0.34285714285714286} Step: 484 {'loss': 0.4539, 'grad_norm': 0.8009581565856934, 'learning_rate': 1.8851011904761905e-05, 'epoch': 0.3464285714285714} Step: 489 {'loss': 0.4553, 'grad_norm': 1.1885050535202026, 'learning_rate': 1.8839166666666667e-05, 'epoch': 0.35} Step: 494 {'loss': 0.2783, 'grad_norm': 0.5375037789344788, 'learning_rate': 1.882732142857143e-05, 'epoch': 0.3535714285714286} Step: 499 {'loss': 0.3999, 'grad_norm': 0.8919097185134888, 'learning_rate': 1.8815476190476193e-05, 'epoch': 0.35714285714285715} Step: 504 {'loss': 0.3989, 'grad_norm': 0.8732523918151855, 'learning_rate': 1.8803630952380955e-05, 'epoch': 0.3607142857142857} Step: 509 {'loss': 0.4154, 'grad_norm': 0.5995797514915466, 'learning_rate': 1.8791785714285714e-05, 'epoch': 0.36428571428571427} Step: 514 {'loss': 0.3292, 'grad_norm': 0.6189977526664734, 'learning_rate': 1.8779940476190477e-05, 'epoch': 0.3678571428571429} Step: 519 {'loss': 0.405, 'grad_norm': 0.8150209188461304, 'learning_rate': 1.876809523809524e-05, 'epoch': 0.37142857142857144} Step: 524 {'loss': 0.3163, 'grad_norm': 0.9416306018829346, 'learning_rate': 1.8756250000000002e-05, 'epoch': 0.375} Step: 529 {'loss': 0.4091, 'grad_norm': 1.3431493043899536, 'learning_rate': 1.8744404761904764e-05, 'epoch': 0.37857142857142856} Step: 534 {'loss': 0.3866, 'grad_norm': 0.6864269375801086, 'learning_rate': 1.8732559523809527e-05, 'epoch': 0.3821428571428571} Step: 539 {'loss': 0.4974, 'grad_norm': 1.5816361904144287, 'learning_rate': 1.8720714285714286e-05, 'epoch': 0.38571428571428573} Step: 544 {'loss': 0.3429, 'grad_norm': 0.9576981663703918, 'learning_rate': 1.870886904761905e-05, 'epoch': 0.3892857142857143} Step: 549 {'loss': 0.5506, 'grad_norm': 0.8996490836143494, 'learning_rate': 1.869702380952381e-05, 'epoch': 0.39285714285714285} Step: 554 {'loss': 0.4465, 'grad_norm': 0.6192946434020996, 'learning_rate': 1.8685178571428574e-05, 'epoch': 0.3964285714285714} Step: 559 {'loss': 0.5349, 'grad_norm': 0.8320725560188293, 'learning_rate': 1.8673333333333336e-05, 'epoch': 0.4} Step: 564 {'loss': 0.4332, 'grad_norm': 0.984227180480957, 'learning_rate': 1.8661488095238096e-05, 'epoch': 0.4035714285714286} Step: 569 {'loss': 0.3875, 'grad_norm': 0.9194024205207825, 'learning_rate': 1.8649642857142858e-05, 'epoch': 0.40714285714285714} Step: 574 {'loss': 0.3601, 'grad_norm': 0.7953531742095947, 'learning_rate': 1.863779761904762e-05, 'epoch': 0.4107142857142857} Step: 579 {'loss': 0.3632, 'grad_norm': 0.7107942700386047, 'learning_rate': 1.8625952380952383e-05, 'epoch': 0.4142857142857143} Step: 584 {'loss': 0.3376, 'grad_norm': 1.1161280870437622, 'learning_rate': 1.8614107142857146e-05, 'epoch': 0.41785714285714287} Step: 589 {'loss': 0.3145, 'grad_norm': 0.7818060517311096, 'learning_rate': 1.8602261904761908e-05, 'epoch': 0.42142857142857143} Step: 594 {'loss': 0.3659, 'grad_norm': 0.9914860129356384, 'learning_rate': 1.8590416666666667e-05, 'epoch': 0.425} Step: 599 {'loss': 0.4318, 'grad_norm': 1.2383373975753784, 'learning_rate': 1.857857142857143e-05, 'epoch': 0.42857142857142855} Step: 604 {'loss': 0.3811, 'grad_norm': 1.2427709102630615, 'learning_rate': 1.8566726190476193e-05, 'epoch': 0.43214285714285716} Step: 609 {'loss': 0.4007, 'grad_norm': 0.795452356338501, 'learning_rate': 1.8554880952380955e-05, 'epoch': 0.4357142857142857} Step: 614 {'loss': 0.4641, 'grad_norm': 0.7359730005264282, 'learning_rate': 1.8543035714285718e-05, 'epoch': 0.4392857142857143} Step: 619 {'loss': 0.3813, 'grad_norm': 1.0183659791946411, 'learning_rate': 1.8531190476190477e-05, 'epoch': 0.44285714285714284} Step: 624 {'loss': 0.3183, 'grad_norm': 0.6068124175071716, 'learning_rate': 1.851934523809524e-05, 'epoch': 0.44642857142857145} Step: 629 {'loss': 0.3476, 'grad_norm': 0.8716106414794922, 'learning_rate': 1.8507500000000002e-05, 'epoch': 0.45} Step: 634 {'loss': 0.3398, 'grad_norm': 0.8179718852043152, 'learning_rate': 1.8495654761904765e-05, 'epoch': 0.45357142857142857} Step: 639 {'loss': 0.3957, 'grad_norm': 0.8983686566352844, 'learning_rate': 1.8483809523809527e-05, 'epoch': 0.45714285714285713} Step: 644 {'loss': 0.4374, 'grad_norm': 1.2546746730804443, 'learning_rate': 1.847196428571429e-05, 'epoch': 0.4607142857142857} Step: 649 {'loss': 0.4142, 'grad_norm': 0.9628292322158813, 'learning_rate': 1.846011904761905e-05, 'epoch': 0.4642857142857143} Step: 654 {'loss': 0.371, 'grad_norm': 1.2992581129074097, 'learning_rate': 1.844827380952381e-05, 'epoch': 0.46785714285714286} Step: 659 {'loss': 0.3134, 'grad_norm': 0.9638750553131104, 'learning_rate': 1.8436428571428574e-05, 'epoch': 0.4714285714285714} Step: 664 {'loss': 0.2918, 'grad_norm': 0.7682401537895203, 'learning_rate': 1.8424583333333336e-05, 'epoch': 0.475} Step: 669 {'loss': 0.3406, 'grad_norm': 0.7767547965049744, 'learning_rate': 1.84127380952381e-05, 'epoch': 0.4785714285714286} Step: 674 {'loss': 0.4479, 'grad_norm': 1.2478020191192627, 'learning_rate': 1.8400892857142858e-05, 'epoch': 0.48214285714285715} Step: 679 {'loss': 0.2975, 'grad_norm': 1.1172363758087158, 'learning_rate': 1.838904761904762e-05, 'epoch': 0.4857142857142857} Step: 684 {'loss': 0.3755, 'grad_norm': 0.6458436846733093, 'learning_rate': 1.837720238095238e-05, 'epoch': 0.48928571428571427} Step: 689 {'loss': 0.4156, 'grad_norm': 0.7070118188858032, 'learning_rate': 1.8365357142857142e-05, 'epoch': 0.4928571428571429} Step: 694 {'loss': 0.3455, 'grad_norm': 0.8581281900405884, 'learning_rate': 1.8353511904761905e-05, 'epoch': 0.49642857142857144} Step: 699 {'loss': 0.3322, 'grad_norm': 0.7677241563796997, 'learning_rate': 1.8341666666666668e-05, 'epoch': 0.5} Step: 704 {'loss': 0.3077, 'grad_norm': 0.6088917851448059, 'learning_rate': 1.832982142857143e-05, 'epoch': 0.5035714285714286} Step: 709 {'loss': 0.332, 'grad_norm': 0.7178571224212646, 'learning_rate': 1.8317976190476193e-05, 'epoch': 0.5071428571428571} Step: 714 {'loss': 0.3245, 'grad_norm': 0.7131450772285461, 'learning_rate': 1.8306130952380952e-05, 'epoch': 0.5107142857142857} Step: 719 {'loss': 0.3513, 'grad_norm': 1.0770076513290405, 'learning_rate': 1.8294285714285714e-05, 'epoch': 0.5142857142857142} Step: 724 {'loss': 0.2694, 'grad_norm': 0.798261821269989, 'learning_rate': 1.8282440476190477e-05, 'epoch': 0.5178571428571429} Step: 729 {'loss': 0.2473, 'grad_norm': 0.7949568033218384, 'learning_rate': 1.827059523809524e-05, 'epoch': 0.5214285714285715} Step: 734 {'loss': 0.4606, 'grad_norm': 1.0194681882858276, 'learning_rate': 1.8258750000000002e-05, 'epoch': 0.525} Step: 739 {'loss': 0.3139, 'grad_norm': 0.6697856187820435, 'learning_rate': 1.8246904761904765e-05, 'epoch': 0.5285714285714286} Step: 744 {'loss': 0.3363, 'grad_norm': 1.0922176837921143, 'learning_rate': 1.8235059523809524e-05, 'epoch': 0.5321428571428571} Step: 749 {'loss': 0.3805, 'grad_norm': 0.5025736689567566, 'learning_rate': 1.8223214285714286e-05, 'epoch': 0.5357142857142857} Step: 754 {'loss': 0.4875, 'grad_norm': 0.9163244366645813, 'learning_rate': 1.821136904761905e-05, 'epoch': 0.5392857142857143} Step: 759 {'loss': 0.4214, 'grad_norm': 1.0958220958709717, 'learning_rate': 1.819952380952381e-05, 'epoch': 0.5428571428571428} Step: 764 {'loss': 0.291, 'grad_norm': 0.7918387651443481, 'learning_rate': 1.8187678571428574e-05, 'epoch': 0.5464285714285714} Step: 769 {'loss': 0.3236, 'grad_norm': 1.247233271598816, 'learning_rate': 1.8175833333333333e-05, 'epoch': 0.55} Step: 774 {'loss': 0.2934, 'grad_norm': 0.5760002732276917, 'learning_rate': 1.8163988095238096e-05, 'epoch': 0.5535714285714286} Step: 779 {'loss': 0.3677, 'grad_norm': 0.63747239112854, 'learning_rate': 1.8152142857142858e-05, 'epoch': 0.5571428571428572} Step: 784 {'loss': 0.4133, 'grad_norm': 0.7723174691200256, 'learning_rate': 1.814029761904762e-05, 'epoch': 0.5607142857142857} Step: 789 {'loss': 0.3961, 'grad_norm': 0.7719770669937134, 'learning_rate': 1.8128452380952383e-05, 'epoch': 0.5642857142857143} Step: 794 {'loss': 0.3038, 'grad_norm': 0.5547974705696106, 'learning_rate': 1.8116607142857146e-05, 'epoch': 0.5678571428571428} Step: 799 {'loss': 0.3156, 'grad_norm': 0.7582687735557556, 'learning_rate': 1.8104761904761905e-05, 'epoch': 0.5714285714285714} Step: 804 {'loss': 0.2789, 'grad_norm': 0.7563489675521851, 'learning_rate': 1.8092916666666668e-05, 'epoch': 0.575} Step: 809 {'loss': 0.4258, 'grad_norm': 0.6750617027282715, 'learning_rate': 1.808107142857143e-05, 'epoch': 0.5785714285714286} Step: 814 {'loss': 0.3774, 'grad_norm': 0.9238749146461487, 'learning_rate': 1.8069226190476193e-05, 'epoch': 0.5821428571428572} Step: 819 {'loss': 0.3267, 'grad_norm': 0.9808230400085449, 'learning_rate': 1.8057380952380955e-05, 'epoch': 0.5857142857142857} Step: 824 {'loss': 0.3943, 'grad_norm': 0.673556923866272, 'learning_rate': 1.8045535714285714e-05, 'epoch': 0.5892857142857143} Step: 829 {'loss': 0.4032, 'grad_norm': 0.9122436046600342, 'learning_rate': 1.8033690476190477e-05, 'epoch': 0.5928571428571429} Step: 834 {'loss': 0.4152, 'grad_norm': 1.0862387418746948, 'learning_rate': 1.802184523809524e-05, 'epoch': 0.5964285714285714} Step: 839 {'loss': 0.3155, 'grad_norm': 0.4949910640716553, 'learning_rate': 1.8010000000000002e-05, 'epoch': 0.6} Step: 844 {'loss': 0.3416, 'grad_norm': 1.0176829099655151, 'learning_rate': 1.7998154761904765e-05, 'epoch': 0.6035714285714285} Step: 849 {'loss': 0.421, 'grad_norm': 0.964309811592102, 'learning_rate': 1.7986309523809527e-05, 'epoch': 0.6071428571428571} Step: 854 {'loss': 0.3827, 'grad_norm': 0.7528172731399536, 'learning_rate': 1.7974464285714286e-05, 'epoch': 0.6107142857142858} Step: 859 {'loss': 0.434, 'grad_norm': 0.6447746753692627, 'learning_rate': 1.796261904761905e-05, 'epoch': 0.6142857142857143} Step: 864 {'loss': 0.294, 'grad_norm': 0.7310487627983093, 'learning_rate': 1.795077380952381e-05, 'epoch': 0.6178571428571429} Step: 869 {'loss': 0.4067, 'grad_norm': 0.8082703948020935, 'learning_rate': 1.7938928571428574e-05, 'epoch': 0.6214285714285714} Step: 874 {'loss': 0.4972, 'grad_norm': 1.139521837234497, 'learning_rate': 1.7927083333333337e-05, 'epoch': 0.625} Step: 879 {'loss': 0.4101, 'grad_norm': 0.8615649938583374, 'learning_rate': 1.7915238095238096e-05, 'epoch': 0.6285714285714286} Step: 884 {'loss': 0.3884, 'grad_norm': 1.295130968093872, 'learning_rate': 1.7903392857142858e-05, 'epoch': 0.6321428571428571} Step: 889 {'loss': 0.3556, 'grad_norm': 0.6960245370864868, 'learning_rate': 1.789154761904762e-05, 'epoch': 0.6357142857142857} Step: 894 {'loss': 0.3243, 'grad_norm': 0.7199245691299438, 'learning_rate': 1.7879702380952383e-05, 'epoch': 0.6392857142857142} Step: 899 {'loss': 0.5436, 'grad_norm': 0.8263904452323914, 'learning_rate': 1.7867857142857146e-05, 'epoch': 0.6428571428571429} Step: 904 {'loss': 0.3568, 'grad_norm': 0.7996845245361328, 'learning_rate': 1.7856011904761905e-05, 'epoch': 0.6464285714285715} Step: 909 {'loss': 0.2545, 'grad_norm': 0.8239178657531738, 'learning_rate': 1.7844166666666668e-05, 'epoch': 0.65} Step: 914 {'loss': 0.3934, 'grad_norm': 0.8466132283210754, 'learning_rate': 1.783232142857143e-05, 'epoch': 0.6535714285714286} Step: 919 {'loss': 0.2826, 'grad_norm': 0.6736989617347717, 'learning_rate': 1.782047619047619e-05, 'epoch': 0.6571428571428571} Step: 924 {'loss': 0.476, 'grad_norm': 1.1140491962432861, 'learning_rate': 1.7808630952380952e-05, 'epoch': 0.6607142857142857} Step: 929 {'loss': 0.3631, 'grad_norm': 0.7517083883285522, 'learning_rate': 1.7796785714285714e-05, 'epoch': 0.6642857142857143} Step: 934 {'loss': 0.3114, 'grad_norm': 0.8430672287940979, 'learning_rate': 1.7784940476190477e-05, 'epoch': 0.6678571428571428} Step: 939 {'loss': 0.3025, 'grad_norm': 0.5135239362716675, 'learning_rate': 1.777309523809524e-05, 'epoch': 0.6714285714285714} Step: 944 {'loss': 0.3271, 'grad_norm': 0.918813169002533, 'learning_rate': 1.7761250000000002e-05, 'epoch': 0.675} Step: 949 {'loss': 0.388, 'grad_norm': 0.9189344644546509, 'learning_rate': 1.774940476190476e-05, 'epoch': 0.6785714285714286} Step: 954 {'loss': 0.4937, 'grad_norm': 1.078315258026123, 'learning_rate': 1.7737559523809524e-05, 'epoch': 0.6821428571428572} Step: 959 {'loss': 0.3456, 'grad_norm': 1.0054786205291748, 'learning_rate': 1.7725714285714286e-05, 'epoch': 0.6857142857142857} Step: 964 {'loss': 0.3445, 'grad_norm': 0.8630911707878113, 'learning_rate': 1.771386904761905e-05, 'epoch': 0.6892857142857143} Step: 969 {'loss': 0.3572, 'grad_norm': 0.8356649279594421, 'learning_rate': 1.770202380952381e-05, 'epoch': 0.6928571428571428} Step: 974 {'loss': 0.5159, 'grad_norm': 0.9866499900817871, 'learning_rate': 1.769017857142857e-05, 'epoch': 0.6964285714285714} Step: 979 {'loss': 0.3134, 'grad_norm': 1.7429964542388916, 'learning_rate': 1.7678333333333333e-05, 'epoch': 0.7} Step: 984 {'loss': 0.39, 'grad_norm': 1.1718984842300415, 'learning_rate': 1.7666488095238096e-05, 'epoch': 0.7035714285714286} Step: 989 {'loss': 0.3215, 'grad_norm': 0.6568397283554077, 'learning_rate': 1.7654642857142858e-05, 'epoch': 0.7071428571428572} Step: 994 {'loss': 0.329, 'grad_norm': 0.9722153544425964, 'learning_rate': 1.764279761904762e-05, 'epoch': 0.7107142857142857} Step: 999 {'loss': 0.363, 'grad_norm': 0.7853933572769165, 'learning_rate': 1.7630952380952383e-05, 'epoch': 0.7142857142857143} Step: 1004 {'loss': 0.2597, 'grad_norm': 0.7332313060760498, 'learning_rate': 1.7619107142857143e-05, 'epoch': 0.7178571428571429} Step: 1009 {'loss': 0.2838, 'grad_norm': 0.690869927406311, 'learning_rate': 1.7607261904761905e-05, 'epoch': 0.7214285714285714} Step: 1014 {'loss': 0.2714, 'grad_norm': 0.7609320282936096, 'learning_rate': 1.7595416666666668e-05, 'epoch': 0.725} Step: 1019 {'loss': 0.2741, 'grad_norm': 0.7796645760536194, 'learning_rate': 1.758357142857143e-05, 'epoch': 0.7285714285714285} Step: 1024 {'loss': 0.2725, 'grad_norm': 0.7715787887573242, 'learning_rate': 1.7571726190476193e-05, 'epoch': 0.7321428571428571} Step: 1029 {'loss': 0.2917, 'grad_norm': 0.9862931370735168, 'learning_rate': 1.7559880952380952e-05, 'epoch': 0.7357142857142858} Step: 1034 {'loss': 0.3189, 'grad_norm': 0.998388409614563, 'learning_rate': 1.7548035714285715e-05, 'epoch': 0.7392857142857143} Step: 1039 {'loss': 0.3415, 'grad_norm': 1.0296244621276855, 'learning_rate': 1.7536190476190477e-05, 'epoch': 0.7428571428571429} Step: 1044 {'loss': 0.3719, 'grad_norm': 0.6839652061462402, 'learning_rate': 1.752434523809524e-05, 'epoch': 0.7464285714285714} Step: 1049 {'loss': 0.3024, 'grad_norm': 1.1470963954925537, 'learning_rate': 1.7512500000000002e-05, 'epoch': 0.75} Step: 1054 {'loss': 0.408, 'grad_norm': 1.2644574642181396, 'learning_rate': 1.7500654761904765e-05, 'epoch': 0.7535714285714286} Step: 1059 {'loss': 0.4078, 'grad_norm': 0.8794793486595154, 'learning_rate': 1.7488809523809524e-05, 'epoch': 0.7571428571428571} Step: 1064 {'loss': 0.3511, 'grad_norm': 0.9097239971160889, 'learning_rate': 1.7476964285714286e-05, 'epoch': 0.7607142857142857} Step: 1069 {'loss': 0.3949, 'grad_norm': 0.6323068737983704, 'learning_rate': 1.746511904761905e-05, 'epoch': 0.7642857142857142} Step: 1074 {'loss': 0.3794, 'grad_norm': 0.6272197365760803, 'learning_rate': 1.745327380952381e-05, 'epoch': 0.7678571428571429} Step: 1079 {'loss': 0.3388, 'grad_norm': 0.8878163695335388, 'learning_rate': 1.7441428571428574e-05, 'epoch': 0.7714285714285715} Step: 1084 {'loss': 0.4305, 'grad_norm': 1.036283016204834, 'learning_rate': 1.7429583333333333e-05, 'epoch': 0.775} Step: 1089 {'loss': 0.3446, 'grad_norm': 1.0395066738128662, 'learning_rate': 1.7417738095238096e-05, 'epoch': 0.7785714285714286} Step: 1094 {'loss': 0.3496, 'grad_norm': 0.6800899505615234, 'learning_rate': 1.740589285714286e-05, 'epoch': 0.7821428571428571} Step: 1099 {'loss': 0.3291, 'grad_norm': 1.1891331672668457, 'learning_rate': 1.739404761904762e-05, 'epoch': 0.7857142857142857} Step: 1104 {'loss': 0.3476, 'grad_norm': 0.8779275417327881, 'learning_rate': 1.7382202380952383e-05, 'epoch': 0.7892857142857143} Step: 1109 {'loss': 0.3047, 'grad_norm': 0.853313684463501, 'learning_rate': 1.7370357142857146e-05, 'epoch': 0.7928571428571428} Step: 1114 {'loss': 0.3375, 'grad_norm': 0.96327143907547, 'learning_rate': 1.7358511904761905e-05, 'epoch': 0.7964285714285714} Step: 1119 {'loss': 0.3974, 'grad_norm': 1.0462590456008911, 'learning_rate': 1.7346666666666668e-05, 'epoch': 0.8} Step: 1124 {'loss': 0.332, 'grad_norm': 0.6860864758491516, 'learning_rate': 1.733482142857143e-05, 'epoch': 0.8035714285714286} Step: 1129 {'loss': 0.5425, 'grad_norm': 1.0949068069458008, 'learning_rate': 1.7322976190476193e-05, 'epoch': 0.8071428571428572} Step: 1134 {'loss': 0.6373, 'grad_norm': 0.7758826613426208, 'learning_rate': 1.7311130952380955e-05, 'epoch': 0.8107142857142857} Step: 1139 {'loss': 0.2984, 'grad_norm': 0.8225033283233643, 'learning_rate': 1.7299285714285718e-05, 'epoch': 0.8142857142857143} Step: 1144 {'loss': 0.3331, 'grad_norm': 0.4973011910915375, 'learning_rate': 1.7287440476190477e-05, 'epoch': 0.8178571428571428} Step: 1149 {'loss': 0.2866, 'grad_norm': 1.2448415756225586, 'learning_rate': 1.727559523809524e-05, 'epoch': 0.8214285714285714} Step: 1154 {'loss': 0.3561, 'grad_norm': 0.8659022450447083, 'learning_rate': 1.7263750000000002e-05, 'epoch': 0.825} Step: 1159 {'loss': 0.3392, 'grad_norm': 1.0248117446899414, 'learning_rate': 1.7251904761904765e-05, 'epoch': 0.8285714285714286} Step: 1164 {'loss': 0.364, 'grad_norm': 0.7102665305137634, 'learning_rate': 1.7240059523809527e-05, 'epoch': 0.8321428571428572} Step: 1169 {'loss': 0.3458, 'grad_norm': 0.7900285124778748, 'learning_rate': 1.7228214285714286e-05, 'epoch': 0.8357142857142857} Step: 1174 {'loss': 0.3239, 'grad_norm': 1.0749526023864746, 'learning_rate': 1.721636904761905e-05, 'epoch': 0.8392857142857143} Step: 1179 {'loss': 0.4444, 'grad_norm': 0.6646351218223572, 'learning_rate': 1.720452380952381e-05, 'epoch': 0.8428571428571429} Step: 1184 {'loss': 0.3368, 'grad_norm': 0.6927091479301453, 'learning_rate': 1.7192678571428574e-05, 'epoch': 0.8464285714285714} Step: 1189 {'loss': 0.2657, 'grad_norm': 0.7363135814666748, 'learning_rate': 1.7180833333333337e-05, 'epoch': 0.85} Step: 1194 {'loss': 0.4087, 'grad_norm': 1.0950276851654053, 'learning_rate': 1.71689880952381e-05, 'epoch': 0.8535714285714285} Step: 1199 {'loss': 0.3012, 'grad_norm': 0.8317290544509888, 'learning_rate': 1.715714285714286e-05, 'epoch': 0.8571428571428571} Step: 1204 {'loss': 0.3327, 'grad_norm': 0.8805026412010193, 'learning_rate': 1.714529761904762e-05, 'epoch': 0.8607142857142858} Step: 1209 {'loss': 0.2755, 'grad_norm': 0.5442625880241394, 'learning_rate': 1.7133452380952384e-05, 'epoch': 0.8642857142857143} Step: 1214 {'loss': 0.3451, 'grad_norm': 0.8105046153068542, 'learning_rate': 1.7121607142857143e-05, 'epoch': 0.8678571428571429} Step: 1219 {'loss': 0.2655, 'grad_norm': 0.8646172881126404, 'learning_rate': 1.7109761904761905e-05, 'epoch': 0.8714285714285714} Step: 1224 {'loss': 0.3989, 'grad_norm': 0.6593888401985168, 'learning_rate': 1.7097916666666668e-05, 'epoch': 0.875} Step: 1229 {'loss': 0.269, 'grad_norm': 0.6822863221168518, 'learning_rate': 1.708607142857143e-05, 'epoch': 0.8785714285714286} Step: 1234 {'loss': 0.3261, 'grad_norm': 0.8558134436607361, 'learning_rate': 1.707422619047619e-05, 'epoch': 0.8821428571428571} Step: 1239 {'loss': 0.317, 'grad_norm': 0.9368207454681396, 'learning_rate': 1.7062380952380952e-05, 'epoch': 0.8857142857142857} Step: 1244 {'loss': 0.3394, 'grad_norm': 1.1915005445480347, 'learning_rate': 1.7050535714285715e-05, 'epoch': 0.8892857142857142} Step: 1249 {'loss': 0.3968, 'grad_norm': 1.3165326118469238, 'learning_rate': 1.7038690476190477e-05, 'epoch': 0.8928571428571429} Step: 1254 {'loss': 0.3263, 'grad_norm': 1.0021530389785767, 'learning_rate': 1.702684523809524e-05, 'epoch': 0.8964285714285715} Step: 1259 {'loss': 0.3063, 'grad_norm': 0.679772138595581, 'learning_rate': 1.7015000000000002e-05, 'epoch': 0.9} Step: 1264 {'loss': 0.3759, 'grad_norm': 1.0995697975158691, 'learning_rate': 1.700315476190476e-05, 'epoch': 0.9035714285714286} Step: 1269 {'loss': 0.377, 'grad_norm': 0.7673999071121216, 'learning_rate': 1.6991309523809524e-05, 'epoch': 0.9071428571428571} Step: 1274 {'loss': 0.2665, 'grad_norm': 0.9506070613861084, 'learning_rate': 1.6979464285714287e-05, 'epoch': 0.9107142857142857} Step: 1279 {'loss': 0.337, 'grad_norm': 0.766395092010498, 'learning_rate': 1.696761904761905e-05, 'epoch': 0.9142857142857143} Step: 1284 {'loss': 0.4346, 'grad_norm': 0.9738909602165222, 'learning_rate': 1.695577380952381e-05, 'epoch': 0.9178571428571428} Step: 1289 {'loss': 0.3746, 'grad_norm': 0.7770394086837769, 'learning_rate': 1.694392857142857e-05, 'epoch': 0.9214285714285714} Step: 1294 {'loss': 0.3313, 'grad_norm': 0.7297780513763428, 'learning_rate': 1.6932083333333333e-05, 'epoch': 0.925} Step: 1299 {'loss': 0.2412, 'grad_norm': 1.143165111541748, 'learning_rate': 1.6920238095238096e-05, 'epoch': 0.9285714285714286} Step: 1304 {'loss': 0.4314, 'grad_norm': 1.1894090175628662, 'learning_rate': 1.690839285714286e-05, 'epoch': 0.9321428571428572} Step: 1309 {'loss': 0.2754, 'grad_norm': 0.7497856020927429, 'learning_rate': 1.689654761904762e-05, 'epoch': 0.9357142857142857} Step: 1314 {'loss': 0.3167, 'grad_norm': 0.7976461052894592, 'learning_rate': 1.6884702380952384e-05, 'epoch': 0.9392857142857143} Step: 1319 {'loss': 0.309, 'grad_norm': 0.8367032408714294, 'learning_rate': 1.6872857142857143e-05, 'epoch': 0.9428571428571428} Step: 1324 {'loss': 0.2803, 'grad_norm': 0.7481916546821594, 'learning_rate': 1.6861011904761905e-05, 'epoch': 0.9464285714285714} Step: 1329 {'loss': 0.3361, 'grad_norm': 1.4836623668670654, 'learning_rate': 1.6849166666666668e-05, 'epoch': 0.95} Step: 1334 {'loss': 0.236, 'grad_norm': 0.7607225775718689, 'learning_rate': 1.683732142857143e-05, 'epoch': 0.9535714285714286} Step: 1339 {'loss': 0.3701, 'grad_norm': 0.9192880988121033, 'learning_rate': 1.6825476190476193e-05, 'epoch': 0.9571428571428572} Step: 1344 {'loss': 0.3533, 'grad_norm': 0.8493601083755493, 'learning_rate': 1.6813630952380955e-05, 'epoch': 0.9607142857142857} Step: 1349 {'loss': 0.3261, 'grad_norm': 0.7196798324584961, 'learning_rate': 1.6801785714285715e-05, 'epoch': 0.9642857142857143} Step: 1354 {'loss': 0.3694, 'grad_norm': 1.0612856149673462, 'learning_rate': 1.6789940476190477e-05, 'epoch': 0.9678571428571429} Step: 1359 {'loss': 0.3639, 'grad_norm': 0.9527296423912048, 'learning_rate': 1.677809523809524e-05, 'epoch': 0.9714285714285714} Step: 1364 {'loss': 0.3435, 'grad_norm': 0.7819812893867493, 'learning_rate': 1.6766250000000002e-05, 'epoch': 0.975} Step: 1369 {'loss': 0.3111, 'grad_norm': 0.7119016647338867, 'learning_rate': 1.6754404761904765e-05, 'epoch': 0.9785714285714285} Step: 1374 {'loss': 0.3079, 'grad_norm': 0.6907299757003784, 'learning_rate': 1.6742559523809524e-05, 'epoch': 0.9821428571428571} Step: 1379 {'loss': 0.3241, 'grad_norm': 0.8788382411003113, 'learning_rate': 1.6730714285714287e-05, 'epoch': 0.9857142857142858} Step: 1384 {'loss': 0.2445, 'grad_norm': 0.9006222486495972, 'learning_rate': 1.671886904761905e-05, 'epoch': 0.9892857142857143} Step: 1389 {'loss': 0.2705, 'grad_norm': 0.8007070422172546, 'learning_rate': 1.670702380952381e-05, 'epoch': 0.9928571428571429} Step: 1394 {'loss': 0.3579, 'grad_norm': 1.085525393486023, 'learning_rate': 1.6695178571428574e-05, 'epoch': 0.9964285714285714} Step: 1399 {'loss': 0.278, 'grad_norm': 0.8911979794502258, 'learning_rate': 1.6683333333333337e-05, 'epoch': 1.0} Interrupted by user Step: 1401 {'train_runtime': 18039.657, 'train_samples_per_second': 1.863, 'train_steps_per_second': 0.466, 'train_loss': 0.4571322862499961, 'epoch': 1.0014285714285713} 17:57:53-413132 INFO LoRA training run is completed and saved. 17:57:53-510668 INFO Training complete, saving 17:57:53-597183 INFO Training interrupted. |