nguyenkhoa commited on
Commit
61f430b
·
verified ·
1 Parent(s): c7a2ada

End of training

Browse files
Files changed (3) hide show
  1. all_results.json +8 -0
  2. train_results.json +8 -0
  3. trainer_state.json +1029 -0
all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 3.0,
3
+ "total_flos": 1.24283947843584e+18,
4
+ "train_loss": 0.03442937224805355,
5
+ "train_runtime": 6631.726,
6
+ "train_samples_per_second": 36.19,
7
+ "train_steps_per_second": 0.283
8
+ }
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 3.0,
3
+ "total_flos": 1.24283947843584e+18,
4
+ "train_loss": 0.03442937224805355,
5
+ "train_runtime": 6631.726,
6
+ "train_samples_per_second": 36.19,
7
+ "train_steps_per_second": 0.283
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,1029 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.0046388679184019566,
3
+ "best_model_checkpoint": "./mobilevitv2_Liveness_detection_v1.0/checkpoint-1792",
4
+ "epoch": 3.0,
5
+ "eval_steps": 128,
6
+ "global_step": 1875,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.0256,
13
+ "grad_norm": 0.686086893081665,
14
+ "learning_rate": 4.9573333333333335e-05,
15
+ "loss": 0.6647,
16
+ "step": 16
17
+ },
18
+ {
19
+ "epoch": 0.0512,
20
+ "grad_norm": 0.7888203859329224,
21
+ "learning_rate": 4.914666666666667e-05,
22
+ "loss": 0.6063,
23
+ "step": 32
24
+ },
25
+ {
26
+ "epoch": 0.0768,
27
+ "grad_norm": 0.9471352100372314,
28
+ "learning_rate": 4.872000000000001e-05,
29
+ "loss": 0.5254,
30
+ "step": 48
31
+ },
32
+ {
33
+ "epoch": 0.1024,
34
+ "grad_norm": 0.9644356966018677,
35
+ "learning_rate": 4.8293333333333334e-05,
36
+ "loss": 0.437,
37
+ "step": 64
38
+ },
39
+ {
40
+ "epoch": 0.128,
41
+ "grad_norm": 1.174842119216919,
42
+ "learning_rate": 4.7866666666666674e-05,
43
+ "loss": 0.3153,
44
+ "step": 80
45
+ },
46
+ {
47
+ "epoch": 0.1536,
48
+ "grad_norm": 1.0370259284973145,
49
+ "learning_rate": 4.744e-05,
50
+ "loss": 0.2325,
51
+ "step": 96
52
+ },
53
+ {
54
+ "epoch": 0.1792,
55
+ "grad_norm": 0.7825124859809875,
56
+ "learning_rate": 4.701333333333334e-05,
57
+ "loss": 0.1471,
58
+ "step": 112
59
+ },
60
+ {
61
+ "epoch": 0.2048,
62
+ "grad_norm": 0.6782599687576294,
63
+ "learning_rate": 4.6586666666666666e-05,
64
+ "loss": 0.1093,
65
+ "step": 128
66
+ },
67
+ {
68
+ "epoch": 0.2048,
69
+ "eval_accuracy": 0.9929,
70
+ "eval_f1": 0.992897770729339,
71
+ "eval_loss": 0.06788957864046097,
72
+ "eval_precision": 0.9929058981404609,
73
+ "eval_recall": 0.9929,
74
+ "eval_runtime": 247.0578,
75
+ "eval_samples_per_second": 80.953,
76
+ "eval_steps_per_second": 10.119,
77
+ "step": 128
78
+ },
79
+ {
80
+ "epoch": 0.2304,
81
+ "grad_norm": 0.5946743488311768,
82
+ "learning_rate": 4.6160000000000005e-05,
83
+ "loss": 0.0675,
84
+ "step": 144
85
+ },
86
+ {
87
+ "epoch": 0.256,
88
+ "grad_norm": 0.6635921597480774,
89
+ "learning_rate": 4.573333333333333e-05,
90
+ "loss": 0.0477,
91
+ "step": 160
92
+ },
93
+ {
94
+ "epoch": 0.2816,
95
+ "grad_norm": 0.22356025874614716,
96
+ "learning_rate": 4.530666666666667e-05,
97
+ "loss": 0.0434,
98
+ "step": 176
99
+ },
100
+ {
101
+ "epoch": 0.3072,
102
+ "grad_norm": 0.7422251105308533,
103
+ "learning_rate": 4.488e-05,
104
+ "loss": 0.0332,
105
+ "step": 192
106
+ },
107
+ {
108
+ "epoch": 0.3328,
109
+ "grad_norm": 0.3897477090358734,
110
+ "learning_rate": 4.445333333333334e-05,
111
+ "loss": 0.0294,
112
+ "step": 208
113
+ },
114
+ {
115
+ "epoch": 0.3584,
116
+ "grad_norm": 0.7231374979019165,
117
+ "learning_rate": 4.402666666666666e-05,
118
+ "loss": 0.0251,
119
+ "step": 224
120
+ },
121
+ {
122
+ "epoch": 0.384,
123
+ "grad_norm": 0.6253751516342163,
124
+ "learning_rate": 4.36e-05,
125
+ "loss": 0.0218,
126
+ "step": 240
127
+ },
128
+ {
129
+ "epoch": 0.4096,
130
+ "grad_norm": 0.14728830754756927,
131
+ "learning_rate": 4.3173333333333336e-05,
132
+ "loss": 0.0234,
133
+ "step": 256
134
+ },
135
+ {
136
+ "epoch": 0.4096,
137
+ "eval_accuracy": 0.9962,
138
+ "eval_f1": 0.99619730556991,
139
+ "eval_loss": 0.016960417851805687,
140
+ "eval_precision": 0.9962127076373954,
141
+ "eval_recall": 0.9962,
142
+ "eval_runtime": 219.599,
143
+ "eval_samples_per_second": 91.075,
144
+ "eval_steps_per_second": 11.384,
145
+ "step": 256
146
+ },
147
+ {
148
+ "epoch": 0.4352,
149
+ "grad_norm": 0.45428574085235596,
150
+ "learning_rate": 4.274666666666667e-05,
151
+ "loss": 0.0174,
152
+ "step": 272
153
+ },
154
+ {
155
+ "epoch": 0.4608,
156
+ "grad_norm": 0.11591943353414536,
157
+ "learning_rate": 4.232e-05,
158
+ "loss": 0.0195,
159
+ "step": 288
160
+ },
161
+ {
162
+ "epoch": 0.4864,
163
+ "grad_norm": 0.34196004271507263,
164
+ "learning_rate": 4.1893333333333334e-05,
165
+ "loss": 0.0239,
166
+ "step": 304
167
+ },
168
+ {
169
+ "epoch": 0.512,
170
+ "grad_norm": 0.18962785601615906,
171
+ "learning_rate": 4.146666666666667e-05,
172
+ "loss": 0.0203,
173
+ "step": 320
174
+ },
175
+ {
176
+ "epoch": 0.5376,
177
+ "grad_norm": 0.05710538849234581,
178
+ "learning_rate": 4.104e-05,
179
+ "loss": 0.0247,
180
+ "step": 336
181
+ },
182
+ {
183
+ "epoch": 0.5632,
184
+ "grad_norm": 1.2746449708938599,
185
+ "learning_rate": 4.061333333333334e-05,
186
+ "loss": 0.017,
187
+ "step": 352
188
+ },
189
+ {
190
+ "epoch": 0.5888,
191
+ "grad_norm": 0.46703022718429565,
192
+ "learning_rate": 4.0186666666666666e-05,
193
+ "loss": 0.0112,
194
+ "step": 368
195
+ },
196
+ {
197
+ "epoch": 0.6144,
198
+ "grad_norm": 2.4929864406585693,
199
+ "learning_rate": 3.9760000000000006e-05,
200
+ "loss": 0.0186,
201
+ "step": 384
202
+ },
203
+ {
204
+ "epoch": 0.6144,
205
+ "eval_accuracy": 0.9973,
206
+ "eval_f1": 0.9973011575273466,
207
+ "eval_loss": 0.013053582981228828,
208
+ "eval_precision": 0.9973004220662013,
209
+ "eval_recall": 0.9973,
210
+ "eval_runtime": 215.8374,
211
+ "eval_samples_per_second": 92.662,
212
+ "eval_steps_per_second": 11.583,
213
+ "step": 384
214
+ },
215
+ {
216
+ "epoch": 0.64,
217
+ "grad_norm": 0.2726776897907257,
218
+ "learning_rate": 3.933333333333333e-05,
219
+ "loss": 0.009,
220
+ "step": 400
221
+ },
222
+ {
223
+ "epoch": 0.6656,
224
+ "grad_norm": 0.04591584578156471,
225
+ "learning_rate": 3.890666666666667e-05,
226
+ "loss": 0.0137,
227
+ "step": 416
228
+ },
229
+ {
230
+ "epoch": 0.6912,
231
+ "grad_norm": 0.2672736644744873,
232
+ "learning_rate": 3.848e-05,
233
+ "loss": 0.0156,
234
+ "step": 432
235
+ },
236
+ {
237
+ "epoch": 0.7168,
238
+ "grad_norm": 0.07182446122169495,
239
+ "learning_rate": 3.805333333333334e-05,
240
+ "loss": 0.0168,
241
+ "step": 448
242
+ },
243
+ {
244
+ "epoch": 0.7424,
245
+ "grad_norm": 0.029036881402134895,
246
+ "learning_rate": 3.762666666666667e-05,
247
+ "loss": 0.0104,
248
+ "step": 464
249
+ },
250
+ {
251
+ "epoch": 0.768,
252
+ "grad_norm": 1.6431952714920044,
253
+ "learning_rate": 3.72e-05,
254
+ "loss": 0.0145,
255
+ "step": 480
256
+ },
257
+ {
258
+ "epoch": 0.7936,
259
+ "grad_norm": 0.5779602527618408,
260
+ "learning_rate": 3.6773333333333336e-05,
261
+ "loss": 0.0099,
262
+ "step": 496
263
+ },
264
+ {
265
+ "epoch": 0.8192,
266
+ "grad_norm": 0.07454531639814377,
267
+ "learning_rate": 3.634666666666667e-05,
268
+ "loss": 0.0068,
269
+ "step": 512
270
+ },
271
+ {
272
+ "epoch": 0.8192,
273
+ "eval_accuracy": 0.99805,
274
+ "eval_f1": 0.9980503428173515,
275
+ "eval_loss": 0.008904083631932735,
276
+ "eval_precision": 0.9980497728736165,
277
+ "eval_recall": 0.99805,
278
+ "eval_runtime": 216.611,
279
+ "eval_samples_per_second": 92.331,
280
+ "eval_steps_per_second": 11.541,
281
+ "step": 512
282
+ },
283
+ {
284
+ "epoch": 0.8448,
285
+ "grad_norm": 0.0550871342420578,
286
+ "learning_rate": 3.592e-05,
287
+ "loss": 0.0095,
288
+ "step": 528
289
+ },
290
+ {
291
+ "epoch": 0.8704,
292
+ "grad_norm": 0.13159841299057007,
293
+ "learning_rate": 3.5493333333333335e-05,
294
+ "loss": 0.0089,
295
+ "step": 544
296
+ },
297
+ {
298
+ "epoch": 0.896,
299
+ "grad_norm": 0.6349660754203796,
300
+ "learning_rate": 3.506666666666667e-05,
301
+ "loss": 0.0096,
302
+ "step": 560
303
+ },
304
+ {
305
+ "epoch": 0.9216,
306
+ "grad_norm": 0.7711471915245056,
307
+ "learning_rate": 3.464e-05,
308
+ "loss": 0.015,
309
+ "step": 576
310
+ },
311
+ {
312
+ "epoch": 0.9472,
313
+ "grad_norm": 0.05490660294890404,
314
+ "learning_rate": 3.424e-05,
315
+ "loss": 0.0113,
316
+ "step": 592
317
+ },
318
+ {
319
+ "epoch": 0.9728,
320
+ "grad_norm": 1.9179311990737915,
321
+ "learning_rate": 3.381333333333334e-05,
322
+ "loss": 0.0084,
323
+ "step": 608
324
+ },
325
+ {
326
+ "epoch": 0.9984,
327
+ "grad_norm": 0.04221022129058838,
328
+ "learning_rate": 3.338666666666666e-05,
329
+ "loss": 0.0166,
330
+ "step": 624
331
+ },
332
+ {
333
+ "epoch": 1.024,
334
+ "grad_norm": 0.21213921904563904,
335
+ "learning_rate": 3.296e-05,
336
+ "loss": 0.0049,
337
+ "step": 640
338
+ },
339
+ {
340
+ "epoch": 1.024,
341
+ "eval_accuracy": 0.9985,
342
+ "eval_f1": 0.9984999412798902,
343
+ "eval_loss": 0.006704141851514578,
344
+ "eval_precision": 0.9985001400955447,
345
+ "eval_recall": 0.9985,
346
+ "eval_runtime": 215.2961,
347
+ "eval_samples_per_second": 92.895,
348
+ "eval_steps_per_second": 11.612,
349
+ "step": 640
350
+ },
351
+ {
352
+ "epoch": 1.0496,
353
+ "grad_norm": 0.24302862584590912,
354
+ "learning_rate": 3.253333333333333e-05,
355
+ "loss": 0.0055,
356
+ "step": 656
357
+ },
358
+ {
359
+ "epoch": 1.0752,
360
+ "grad_norm": 0.17449580132961273,
361
+ "learning_rate": 3.210666666666667e-05,
362
+ "loss": 0.0078,
363
+ "step": 672
364
+ },
365
+ {
366
+ "epoch": 1.1008,
367
+ "grad_norm": 1.3184378147125244,
368
+ "learning_rate": 3.168e-05,
369
+ "loss": 0.0073,
370
+ "step": 688
371
+ },
372
+ {
373
+ "epoch": 1.1264,
374
+ "grad_norm": 0.8744115829467773,
375
+ "learning_rate": 3.1253333333333335e-05,
376
+ "loss": 0.0074,
377
+ "step": 704
378
+ },
379
+ {
380
+ "epoch": 1.152,
381
+ "grad_norm": 0.07388653606176376,
382
+ "learning_rate": 3.082666666666667e-05,
383
+ "loss": 0.0039,
384
+ "step": 720
385
+ },
386
+ {
387
+ "epoch": 1.1776,
388
+ "grad_norm": 0.035437047481536865,
389
+ "learning_rate": 3.04e-05,
390
+ "loss": 0.008,
391
+ "step": 736
392
+ },
393
+ {
394
+ "epoch": 1.2032,
395
+ "grad_norm": 0.06002597510814667,
396
+ "learning_rate": 2.9973333333333337e-05,
397
+ "loss": 0.0033,
398
+ "step": 752
399
+ },
400
+ {
401
+ "epoch": 1.2288000000000001,
402
+ "grad_norm": 0.01166555192321539,
403
+ "learning_rate": 2.9546666666666666e-05,
404
+ "loss": 0.0113,
405
+ "step": 768
406
+ },
407
+ {
408
+ "epoch": 1.2288000000000001,
409
+ "eval_accuracy": 0.99835,
410
+ "eval_f1": 0.9983500322782247,
411
+ "eval_loss": 0.006390445865690708,
412
+ "eval_precision": 0.9983499411063025,
413
+ "eval_recall": 0.99835,
414
+ "eval_runtime": 215.8826,
415
+ "eval_samples_per_second": 92.643,
416
+ "eval_steps_per_second": 11.58,
417
+ "step": 768
418
+ },
419
+ {
420
+ "epoch": 1.2544,
421
+ "grad_norm": 2.266014575958252,
422
+ "learning_rate": 2.9120000000000002e-05,
423
+ "loss": 0.0089,
424
+ "step": 784
425
+ },
426
+ {
427
+ "epoch": 1.28,
428
+ "grad_norm": 1.0778322219848633,
429
+ "learning_rate": 2.8693333333333332e-05,
430
+ "loss": 0.0041,
431
+ "step": 800
432
+ },
433
+ {
434
+ "epoch": 1.3056,
435
+ "grad_norm": 0.18685859441757202,
436
+ "learning_rate": 2.8266666666666668e-05,
437
+ "loss": 0.0041,
438
+ "step": 816
439
+ },
440
+ {
441
+ "epoch": 1.3312,
442
+ "grad_norm": 0.09057345986366272,
443
+ "learning_rate": 2.7839999999999998e-05,
444
+ "loss": 0.0071,
445
+ "step": 832
446
+ },
447
+ {
448
+ "epoch": 1.3568,
449
+ "grad_norm": 0.28758856654167175,
450
+ "learning_rate": 2.7413333333333334e-05,
451
+ "loss": 0.0045,
452
+ "step": 848
453
+ },
454
+ {
455
+ "epoch": 1.3824,
456
+ "grad_norm": 0.9198317527770996,
457
+ "learning_rate": 2.6986666666666667e-05,
458
+ "loss": 0.0107,
459
+ "step": 864
460
+ },
461
+ {
462
+ "epoch": 1.408,
463
+ "grad_norm": 0.14636975526809692,
464
+ "learning_rate": 2.6560000000000003e-05,
465
+ "loss": 0.004,
466
+ "step": 880
467
+ },
468
+ {
469
+ "epoch": 1.4336,
470
+ "grad_norm": 0.038640450686216354,
471
+ "learning_rate": 2.6133333333333333e-05,
472
+ "loss": 0.0061,
473
+ "step": 896
474
+ },
475
+ {
476
+ "epoch": 1.4336,
477
+ "eval_accuracy": 0.99835,
478
+ "eval_f1": 0.9983498384304894,
479
+ "eval_loss": 0.0060436660423874855,
480
+ "eval_precision": 0.9983504647077259,
481
+ "eval_recall": 0.99835,
482
+ "eval_runtime": 219.3162,
483
+ "eval_samples_per_second": 91.193,
484
+ "eval_steps_per_second": 11.399,
485
+ "step": 896
486
+ },
487
+ {
488
+ "epoch": 1.4592,
489
+ "grad_norm": 2.163743257522583,
490
+ "learning_rate": 2.570666666666667e-05,
491
+ "loss": 0.0071,
492
+ "step": 912
493
+ },
494
+ {
495
+ "epoch": 1.4848,
496
+ "grad_norm": 1.2653355598449707,
497
+ "learning_rate": 2.5280000000000005e-05,
498
+ "loss": 0.0046,
499
+ "step": 928
500
+ },
501
+ {
502
+ "epoch": 1.5104,
503
+ "grad_norm": 0.025220897048711777,
504
+ "learning_rate": 2.4853333333333335e-05,
505
+ "loss": 0.0039,
506
+ "step": 944
507
+ },
508
+ {
509
+ "epoch": 1.536,
510
+ "grad_norm": 0.015397891402244568,
511
+ "learning_rate": 2.4426666666666668e-05,
512
+ "loss": 0.0065,
513
+ "step": 960
514
+ },
515
+ {
516
+ "epoch": 1.5615999999999999,
517
+ "grad_norm": 0.06891310960054398,
518
+ "learning_rate": 2.4e-05,
519
+ "loss": 0.0049,
520
+ "step": 976
521
+ },
522
+ {
523
+ "epoch": 1.5872000000000002,
524
+ "grad_norm": 0.23304007947444916,
525
+ "learning_rate": 2.3573333333333334e-05,
526
+ "loss": 0.0125,
527
+ "step": 992
528
+ },
529
+ {
530
+ "epoch": 1.6128,
531
+ "grad_norm": 0.010659678839147091,
532
+ "learning_rate": 2.3146666666666666e-05,
533
+ "loss": 0.0044,
534
+ "step": 1008
535
+ },
536
+ {
537
+ "epoch": 1.6383999999999999,
538
+ "grad_norm": 0.0605621375143528,
539
+ "learning_rate": 2.2720000000000003e-05,
540
+ "loss": 0.0025,
541
+ "step": 1024
542
+ },
543
+ {
544
+ "epoch": 1.6383999999999999,
545
+ "eval_accuracy": 0.99835,
546
+ "eval_f1": 0.9983497737194017,
547
+ "eval_loss": 0.005817316006869078,
548
+ "eval_precision": 0.9983507300357946,
549
+ "eval_recall": 0.99835,
550
+ "eval_runtime": 214.0685,
551
+ "eval_samples_per_second": 93.428,
552
+ "eval_steps_per_second": 11.679,
553
+ "step": 1024
554
+ },
555
+ {
556
+ "epoch": 1.6640000000000001,
557
+ "grad_norm": 0.9562625288963318,
558
+ "learning_rate": 2.2293333333333336e-05,
559
+ "loss": 0.0081,
560
+ "step": 1040
561
+ },
562
+ {
563
+ "epoch": 1.6896,
564
+ "grad_norm": 1.08597731590271,
565
+ "learning_rate": 2.186666666666667e-05,
566
+ "loss": 0.0035,
567
+ "step": 1056
568
+ },
569
+ {
570
+ "epoch": 1.7151999999999998,
571
+ "grad_norm": 0.08577126264572144,
572
+ "learning_rate": 2.144e-05,
573
+ "loss": 0.004,
574
+ "step": 1072
575
+ },
576
+ {
577
+ "epoch": 1.7408000000000001,
578
+ "grad_norm": 0.007748621515929699,
579
+ "learning_rate": 2.1013333333333334e-05,
580
+ "loss": 0.0055,
581
+ "step": 1088
582
+ },
583
+ {
584
+ "epoch": 1.7664,
585
+ "grad_norm": 0.5899467468261719,
586
+ "learning_rate": 2.0586666666666667e-05,
587
+ "loss": 0.0059,
588
+ "step": 1104
589
+ },
590
+ {
591
+ "epoch": 1.792,
592
+ "grad_norm": 1.230574369430542,
593
+ "learning_rate": 2.016e-05,
594
+ "loss": 0.0052,
595
+ "step": 1120
596
+ },
597
+ {
598
+ "epoch": 1.8176,
599
+ "grad_norm": 0.4939228296279907,
600
+ "learning_rate": 1.9733333333333333e-05,
601
+ "loss": 0.0083,
602
+ "step": 1136
603
+ },
604
+ {
605
+ "epoch": 1.8432,
606
+ "grad_norm": 0.02068273536860943,
607
+ "learning_rate": 1.9306666666666666e-05,
608
+ "loss": 0.0019,
609
+ "step": 1152
610
+ },
611
+ {
612
+ "epoch": 1.8432,
613
+ "eval_accuracy": 0.99865,
614
+ "eval_f1": 0.9986499735808153,
615
+ "eval_loss": 0.0053438348695635796,
616
+ "eval_precision": 0.998650058503282,
617
+ "eval_recall": 0.99865,
618
+ "eval_runtime": 222.9408,
619
+ "eval_samples_per_second": 89.71,
620
+ "eval_steps_per_second": 11.214,
621
+ "step": 1152
622
+ },
623
+ {
624
+ "epoch": 1.8688,
625
+ "grad_norm": 1.5578925609588623,
626
+ "learning_rate": 1.888e-05,
627
+ "loss": 0.0063,
628
+ "step": 1168
629
+ },
630
+ {
631
+ "epoch": 1.8944,
632
+ "grad_norm": 0.00804234016686678,
633
+ "learning_rate": 1.8453333333333335e-05,
634
+ "loss": 0.0046,
635
+ "step": 1184
636
+ },
637
+ {
638
+ "epoch": 1.92,
639
+ "grad_norm": 2.660892963409424,
640
+ "learning_rate": 1.8026666666666668e-05,
641
+ "loss": 0.0046,
642
+ "step": 1200
643
+ },
644
+ {
645
+ "epoch": 1.9456,
646
+ "grad_norm": 0.008745341561734676,
647
+ "learning_rate": 1.76e-05,
648
+ "loss": 0.0029,
649
+ "step": 1216
650
+ },
651
+ {
652
+ "epoch": 1.9712,
653
+ "grad_norm": 0.015926124528050423,
654
+ "learning_rate": 1.7173333333333334e-05,
655
+ "loss": 0.0037,
656
+ "step": 1232
657
+ },
658
+ {
659
+ "epoch": 1.9968,
660
+ "grad_norm": 0.009791089221835136,
661
+ "learning_rate": 1.674666666666667e-05,
662
+ "loss": 0.0067,
663
+ "step": 1248
664
+ },
665
+ {
666
+ "epoch": 2.0224,
667
+ "grad_norm": 0.009614923968911171,
668
+ "learning_rate": 1.6320000000000003e-05,
669
+ "loss": 0.0022,
670
+ "step": 1264
671
+ },
672
+ {
673
+ "epoch": 2.048,
674
+ "grad_norm": 0.007969129830598831,
675
+ "learning_rate": 1.5893333333333336e-05,
676
+ "loss": 0.0056,
677
+ "step": 1280
678
+ },
679
+ {
680
+ "epoch": 2.048,
681
+ "eval_accuracy": 0.9987,
682
+ "eval_f1": 0.9986997451712335,
683
+ "eval_loss": 0.005075570661574602,
684
+ "eval_precision": 0.9987010761843749,
685
+ "eval_recall": 0.9987,
686
+ "eval_runtime": 220.6361,
687
+ "eval_samples_per_second": 90.647,
688
+ "eval_steps_per_second": 11.331,
689
+ "step": 1280
690
+ },
691
+ {
692
+ "epoch": 2.0736,
693
+ "grad_norm": 0.01278685312718153,
694
+ "learning_rate": 1.546666666666667e-05,
695
+ "loss": 0.0029,
696
+ "step": 1296
697
+ },
698
+ {
699
+ "epoch": 2.0992,
700
+ "grad_norm": 0.013344179838895798,
701
+ "learning_rate": 1.5040000000000002e-05,
702
+ "loss": 0.0029,
703
+ "step": 1312
704
+ },
705
+ {
706
+ "epoch": 2.1248,
707
+ "grad_norm": 0.021782569587230682,
708
+ "learning_rate": 1.4613333333333335e-05,
709
+ "loss": 0.0021,
710
+ "step": 1328
711
+ },
712
+ {
713
+ "epoch": 2.1504,
714
+ "grad_norm": 0.036290887743234634,
715
+ "learning_rate": 1.4186666666666667e-05,
716
+ "loss": 0.0031,
717
+ "step": 1344
718
+ },
719
+ {
720
+ "epoch": 2.176,
721
+ "grad_norm": 0.7045446634292603,
722
+ "learning_rate": 1.376e-05,
723
+ "loss": 0.003,
724
+ "step": 1360
725
+ },
726
+ {
727
+ "epoch": 2.2016,
728
+ "grad_norm": 0.012572742067277431,
729
+ "learning_rate": 1.3333333333333333e-05,
730
+ "loss": 0.0089,
731
+ "step": 1376
732
+ },
733
+ {
734
+ "epoch": 2.2272,
735
+ "grad_norm": 0.05552055686712265,
736
+ "learning_rate": 1.2906666666666666e-05,
737
+ "loss": 0.0011,
738
+ "step": 1392
739
+ },
740
+ {
741
+ "epoch": 2.2528,
742
+ "grad_norm": 0.047569043934345245,
743
+ "learning_rate": 1.248e-05,
744
+ "loss": 0.0015,
745
+ "step": 1408
746
+ },
747
+ {
748
+ "epoch": 2.2528,
749
+ "eval_accuracy": 0.9987,
750
+ "eval_f1": 0.9987,
751
+ "eval_loss": 0.004999413620680571,
752
+ "eval_precision": 0.9987,
753
+ "eval_recall": 0.9987,
754
+ "eval_runtime": 216.7321,
755
+ "eval_samples_per_second": 92.28,
756
+ "eval_steps_per_second": 11.535,
757
+ "step": 1408
758
+ },
759
+ {
760
+ "epoch": 2.2784,
761
+ "grad_norm": 0.391156405210495,
762
+ "learning_rate": 1.2053333333333334e-05,
763
+ "loss": 0.0038,
764
+ "step": 1424
765
+ },
766
+ {
767
+ "epoch": 2.304,
768
+ "grad_norm": 0.01173941045999527,
769
+ "learning_rate": 1.1626666666666668e-05,
770
+ "loss": 0.0075,
771
+ "step": 1440
772
+ },
773
+ {
774
+ "epoch": 2.3296,
775
+ "grad_norm": 2.2623393535614014,
776
+ "learning_rate": 1.1200000000000001e-05,
777
+ "loss": 0.0093,
778
+ "step": 1456
779
+ },
780
+ {
781
+ "epoch": 2.3552,
782
+ "grad_norm": 0.01715581864118576,
783
+ "learning_rate": 1.0773333333333334e-05,
784
+ "loss": 0.0057,
785
+ "step": 1472
786
+ },
787
+ {
788
+ "epoch": 2.3808,
789
+ "grad_norm": 1.0069034099578857,
790
+ "learning_rate": 1.0346666666666667e-05,
791
+ "loss": 0.0011,
792
+ "step": 1488
793
+ },
794
+ {
795
+ "epoch": 2.4064,
796
+ "grad_norm": 0.20940986275672913,
797
+ "learning_rate": 9.92e-06,
798
+ "loss": 0.0022,
799
+ "step": 1504
800
+ },
801
+ {
802
+ "epoch": 2.432,
803
+ "grad_norm": 0.011296062730252743,
804
+ "learning_rate": 9.493333333333333e-06,
805
+ "loss": 0.0013,
806
+ "step": 1520
807
+ },
808
+ {
809
+ "epoch": 2.4576000000000002,
810
+ "grad_norm": 1.7626785039901733,
811
+ "learning_rate": 9.066666666666667e-06,
812
+ "loss": 0.0055,
813
+ "step": 1536
814
+ },
815
+ {
816
+ "epoch": 2.4576000000000002,
817
+ "eval_accuracy": 0.99875,
818
+ "eval_f1": 0.9987499265863476,
819
+ "eval_loss": 0.004937997553497553,
820
+ "eval_precision": 0.998750197817996,
821
+ "eval_recall": 0.99875,
822
+ "eval_runtime": 216.9352,
823
+ "eval_samples_per_second": 92.193,
824
+ "eval_steps_per_second": 11.524,
825
+ "step": 1536
826
+ },
827
+ {
828
+ "epoch": 2.4832,
829
+ "grad_norm": 0.029261792078614235,
830
+ "learning_rate": 8.64e-06,
831
+ "loss": 0.0038,
832
+ "step": 1552
833
+ },
834
+ {
835
+ "epoch": 2.5088,
836
+ "grad_norm": 0.04974502697587013,
837
+ "learning_rate": 8.213333333333333e-06,
838
+ "loss": 0.0051,
839
+ "step": 1568
840
+ },
841
+ {
842
+ "epoch": 2.5343999999999998,
843
+ "grad_norm": 0.03413296118378639,
844
+ "learning_rate": 7.786666666666668e-06,
845
+ "loss": 0.0013,
846
+ "step": 1584
847
+ },
848
+ {
849
+ "epoch": 2.56,
850
+ "grad_norm": 0.02191867306828499,
851
+ "learning_rate": 7.36e-06,
852
+ "loss": 0.0011,
853
+ "step": 1600
854
+ },
855
+ {
856
+ "epoch": 2.5856,
857
+ "grad_norm": 0.00806102529168129,
858
+ "learning_rate": 6.933333333333334e-06,
859
+ "loss": 0.0032,
860
+ "step": 1616
861
+ },
862
+ {
863
+ "epoch": 2.6112,
864
+ "grad_norm": 0.0360230915248394,
865
+ "learning_rate": 6.5066666666666665e-06,
866
+ "loss": 0.007,
867
+ "step": 1632
868
+ },
869
+ {
870
+ "epoch": 2.6368,
871
+ "grad_norm": 0.024547284469008446,
872
+ "learning_rate": 6.08e-06,
873
+ "loss": 0.007,
874
+ "step": 1648
875
+ },
876
+ {
877
+ "epoch": 2.6624,
878
+ "grad_norm": 0.18587003648281097,
879
+ "learning_rate": 5.653333333333333e-06,
880
+ "loss": 0.0023,
881
+ "step": 1664
882
+ },
883
+ {
884
+ "epoch": 2.6624,
885
+ "eval_accuracy": 0.99885,
886
+ "eval_f1": 0.9988497971544271,
887
+ "eval_loss": 0.004876961465924978,
888
+ "eval_precision": 0.998850864665525,
889
+ "eval_recall": 0.99885,
890
+ "eval_runtime": 216.0532,
891
+ "eval_samples_per_second": 92.57,
892
+ "eval_steps_per_second": 11.571,
893
+ "step": 1664
894
+ },
895
+ {
896
+ "epoch": 2.6879999999999997,
897
+ "grad_norm": 0.8803591728210449,
898
+ "learning_rate": 5.226666666666667e-06,
899
+ "loss": 0.0034,
900
+ "step": 1680
901
+ },
902
+ {
903
+ "epoch": 2.7136,
904
+ "grad_norm": 0.033573221415281296,
905
+ "learning_rate": 4.800000000000001e-06,
906
+ "loss": 0.0057,
907
+ "step": 1696
908
+ },
909
+ {
910
+ "epoch": 2.7392,
911
+ "grad_norm": 0.1415340006351471,
912
+ "learning_rate": 4.3733333333333335e-06,
913
+ "loss": 0.0017,
914
+ "step": 1712
915
+ },
916
+ {
917
+ "epoch": 2.7648,
918
+ "grad_norm": 0.5475676655769348,
919
+ "learning_rate": 3.9466666666666664e-06,
920
+ "loss": 0.0067,
921
+ "step": 1728
922
+ },
923
+ {
924
+ "epoch": 2.7904,
925
+ "grad_norm": 0.062486432492733,
926
+ "learning_rate": 3.52e-06,
927
+ "loss": 0.0033,
928
+ "step": 1744
929
+ },
930
+ {
931
+ "epoch": 2.816,
932
+ "grad_norm": 0.009262731298804283,
933
+ "learning_rate": 3.0933333333333335e-06,
934
+ "loss": 0.0014,
935
+ "step": 1760
936
+ },
937
+ {
938
+ "epoch": 2.8416,
939
+ "grad_norm": 0.07086601853370667,
940
+ "learning_rate": 2.666666666666667e-06,
941
+ "loss": 0.003,
942
+ "step": 1776
943
+ },
944
+ {
945
+ "epoch": 2.8672,
946
+ "grad_norm": 0.04299961403012276,
947
+ "learning_rate": 2.24e-06,
948
+ "loss": 0.0027,
949
+ "step": 1792
950
+ },
951
+ {
952
+ "epoch": 2.8672,
953
+ "eval_accuracy": 0.9988,
954
+ "eval_f1": 0.9987998118880025,
955
+ "eval_loss": 0.0046388679184019566,
956
+ "eval_precision": 0.9988007388473777,
957
+ "eval_recall": 0.9988,
958
+ "eval_runtime": 214.8729,
959
+ "eval_samples_per_second": 93.078,
960
+ "eval_steps_per_second": 11.635,
961
+ "step": 1792
962
+ },
963
+ {
964
+ "epoch": 2.8928000000000003,
965
+ "grad_norm": 0.012935050763189793,
966
+ "learning_rate": 1.8133333333333335e-06,
967
+ "loss": 0.0023,
968
+ "step": 1808
969
+ },
970
+ {
971
+ "epoch": 2.9184,
972
+ "grad_norm": 1.5018342733383179,
973
+ "learning_rate": 1.3866666666666666e-06,
974
+ "loss": 0.0099,
975
+ "step": 1824
976
+ },
977
+ {
978
+ "epoch": 2.944,
979
+ "grad_norm": 0.10675271600484848,
980
+ "learning_rate": 9.6e-07,
981
+ "loss": 0.0013,
982
+ "step": 1840
983
+ },
984
+ {
985
+ "epoch": 2.9696,
986
+ "grad_norm": 0.010167909786105156,
987
+ "learning_rate": 5.333333333333333e-07,
988
+ "loss": 0.003,
989
+ "step": 1856
990
+ },
991
+ {
992
+ "epoch": 2.9952,
993
+ "grad_norm": 0.014523031190037727,
994
+ "learning_rate": 1.0666666666666668e-07,
995
+ "loss": 0.0058,
996
+ "step": 1872
997
+ },
998
+ {
999
+ "epoch": 3.0,
1000
+ "step": 1875,
1001
+ "total_flos": 1.24283947843584e+18,
1002
+ "train_loss": 0.03442937224805355,
1003
+ "train_runtime": 6631.726,
1004
+ "train_samples_per_second": 36.19,
1005
+ "train_steps_per_second": 0.283
1006
+ }
1007
+ ],
1008
+ "logging_steps": 16,
1009
+ "max_steps": 1875,
1010
+ "num_input_tokens_seen": 0,
1011
+ "num_train_epochs": 3,
1012
+ "save_steps": 128,
1013
+ "stateful_callbacks": {
1014
+ "TrainerControl": {
1015
+ "args": {
1016
+ "should_epoch_stop": false,
1017
+ "should_evaluate": false,
1018
+ "should_log": false,
1019
+ "should_save": true,
1020
+ "should_training_stop": true
1021
+ },
1022
+ "attributes": {}
1023
+ }
1024
+ },
1025
+ "total_flos": 1.24283947843584e+18,
1026
+ "train_batch_size": 128,
1027
+ "trial_name": null,
1028
+ "trial_params": null
1029
+ }