davanstrien HF staff commited on
Commit
1fb7dff
1 Parent(s): 6e77e59

End of training

Browse files
README.md CHANGED
@@ -3,6 +3,8 @@ library_name: transformers
3
  license: apache-2.0
4
  base_model: timm/resnet18.a1_in1k
5
  tags:
 
 
6
  - generated_from_trainer
7
  metrics:
8
  - accuracy
@@ -16,9 +18,9 @@ should probably proofread and complete it, then remove this comment. -->
16
 
17
  # test-timm
18
 
19
- This model is a fine-tuned version of [timm/resnet18.a1_in1k](https://huggingface.co/timm/resnet18.a1_in1k) on an unknown dataset.
20
  It achieves the following results on the evaluation set:
21
- - Loss: 0.5302
22
  - Accuracy: 0.6811
23
 
24
  ## Model description
 
3
  license: apache-2.0
4
  base_model: timm/resnet18.a1_in1k
5
  tags:
6
+ - image-classification
7
+ - vision
8
  - generated_from_trainer
9
  metrics:
10
  - accuracy
 
18
 
19
  # test-timm
20
 
21
+ This model is a fine-tuned version of [timm/resnet18.a1_in1k](https://huggingface.co/timm/resnet18.a1_in1k) on the davanstrien/zenodo-presentations-open-labels dataset.
22
  It achieves the following results on the evaluation set:
23
+ - Loss: 0.5247
24
  - Accuracy: 0.6811
25
 
26
  ## Model description
all_results.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 5.0,
3
+ "eval_accuracy": 0.6811023622047244,
4
+ "eval_loss": 0.5247489213943481,
5
+ "eval_runtime": 5.1879,
6
+ "eval_samples_per_second": 48.96,
7
+ "eval_steps_per_second": 6.168,
8
+ "total_flos": 7.24330215447552e+16,
9
+ "train_loss": 0.5726550849278768,
10
+ "train_runtime": 239.6067,
11
+ "train_samples_per_second": 29.945,
12
+ "train_steps_per_second": 3.756
13
+ }
eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 5.0,
3
+ "eval_accuracy": 0.6811023622047244,
4
+ "eval_loss": 0.5247489213943481,
5
+ "eval_runtime": 5.1879,
6
+ "eval_samples_per_second": 48.96,
7
+ "eval_steps_per_second": 6.168
8
+ }
runs/Oct11_08-53-50_ed9849b3ed7e/events.out.tfevents.1728637083.ed9849b3ed7e.2902.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fdbcd2d160c0477145debee67124f71445cd93528a81d34781e6e288bb1c306a
3
+ size 411
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 5.0,
3
+ "total_flos": 7.24330215447552e+16,
4
+ "train_loss": 0.5726550849278768,
5
+ "train_runtime": 239.6067,
6
+ "train_samples_per_second": 29.945,
7
+ "train_steps_per_second": 3.756
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,717 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.5247489213943481,
3
+ "best_model_checkpoint": "./beans_outputs/checkpoint-720",
4
+ "epoch": 5.0,
5
+ "eval_steps": 500,
6
+ "global_step": 900,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.05555555555555555,
13
+ "grad_norm": 3.8575210571289062,
14
+ "learning_rate": 1.977777777777778e-05,
15
+ "loss": 0.6949,
16
+ "step": 10
17
+ },
18
+ {
19
+ "epoch": 0.1111111111111111,
20
+ "grad_norm": 3.2087113857269287,
21
+ "learning_rate": 1.9555555555555557e-05,
22
+ "loss": 0.6848,
23
+ "step": 20
24
+ },
25
+ {
26
+ "epoch": 0.16666666666666666,
27
+ "grad_norm": 2.9537899494171143,
28
+ "learning_rate": 1.9333333333333333e-05,
29
+ "loss": 0.6871,
30
+ "step": 30
31
+ },
32
+ {
33
+ "epoch": 0.2222222222222222,
34
+ "grad_norm": 2.586965560913086,
35
+ "learning_rate": 1.9111111111111113e-05,
36
+ "loss": 0.6731,
37
+ "step": 40
38
+ },
39
+ {
40
+ "epoch": 0.2777777777777778,
41
+ "grad_norm": 3.3346517086029053,
42
+ "learning_rate": 1.888888888888889e-05,
43
+ "loss": 0.6728,
44
+ "step": 50
45
+ },
46
+ {
47
+ "epoch": 0.3333333333333333,
48
+ "grad_norm": 2.4391684532165527,
49
+ "learning_rate": 1.866666666666667e-05,
50
+ "loss": 0.6617,
51
+ "step": 60
52
+ },
53
+ {
54
+ "epoch": 0.3888888888888889,
55
+ "grad_norm": 1.6900883913040161,
56
+ "learning_rate": 1.8444444444444448e-05,
57
+ "loss": 0.6671,
58
+ "step": 70
59
+ },
60
+ {
61
+ "epoch": 0.4444444444444444,
62
+ "grad_norm": 2.3360586166381836,
63
+ "learning_rate": 1.8222222222222224e-05,
64
+ "loss": 0.6341,
65
+ "step": 80
66
+ },
67
+ {
68
+ "epoch": 0.5,
69
+ "grad_norm": 2.310093641281128,
70
+ "learning_rate": 1.8e-05,
71
+ "loss": 0.6446,
72
+ "step": 90
73
+ },
74
+ {
75
+ "epoch": 0.5555555555555556,
76
+ "grad_norm": 2.071892499923706,
77
+ "learning_rate": 1.7777777777777777e-05,
78
+ "loss": 0.6478,
79
+ "step": 100
80
+ },
81
+ {
82
+ "epoch": 0.6111111111111112,
83
+ "grad_norm": 1.9108268022537231,
84
+ "learning_rate": 1.7555555555555556e-05,
85
+ "loss": 0.6333,
86
+ "step": 110
87
+ },
88
+ {
89
+ "epoch": 0.6666666666666666,
90
+ "grad_norm": 1.8000233173370361,
91
+ "learning_rate": 1.7333333333333336e-05,
92
+ "loss": 0.6368,
93
+ "step": 120
94
+ },
95
+ {
96
+ "epoch": 0.7222222222222222,
97
+ "grad_norm": 2.010941982269287,
98
+ "learning_rate": 1.7111111111111112e-05,
99
+ "loss": 0.6417,
100
+ "step": 130
101
+ },
102
+ {
103
+ "epoch": 0.7777777777777778,
104
+ "grad_norm": 2.502824068069458,
105
+ "learning_rate": 1.688888888888889e-05,
106
+ "loss": 0.6175,
107
+ "step": 140
108
+ },
109
+ {
110
+ "epoch": 0.8333333333333334,
111
+ "grad_norm": 2.920900821685791,
112
+ "learning_rate": 1.6666666666666667e-05,
113
+ "loss": 0.5894,
114
+ "step": 150
115
+ },
116
+ {
117
+ "epoch": 0.8888888888888888,
118
+ "grad_norm": 2.418879985809326,
119
+ "learning_rate": 1.6444444444444444e-05,
120
+ "loss": 0.6012,
121
+ "step": 160
122
+ },
123
+ {
124
+ "epoch": 0.9444444444444444,
125
+ "grad_norm": 2.625758171081543,
126
+ "learning_rate": 1.6222222222222223e-05,
127
+ "loss": 0.5761,
128
+ "step": 170
129
+ },
130
+ {
131
+ "epoch": 1.0,
132
+ "grad_norm": 3.7166590690612793,
133
+ "learning_rate": 1.6000000000000003e-05,
134
+ "loss": 0.6138,
135
+ "step": 180
136
+ },
137
+ {
138
+ "epoch": 1.0,
139
+ "eval_accuracy": 0.6811023622047244,
140
+ "eval_loss": 0.6001904010772705,
141
+ "eval_runtime": 5.9005,
142
+ "eval_samples_per_second": 43.047,
143
+ "eval_steps_per_second": 5.423,
144
+ "step": 180
145
+ },
146
+ {
147
+ "epoch": 1.0555555555555556,
148
+ "grad_norm": 3.4292004108428955,
149
+ "learning_rate": 1.577777777777778e-05,
150
+ "loss": 0.6237,
151
+ "step": 190
152
+ },
153
+ {
154
+ "epoch": 1.1111111111111112,
155
+ "grad_norm": 2.9556570053100586,
156
+ "learning_rate": 1.555555555555556e-05,
157
+ "loss": 0.6242,
158
+ "step": 200
159
+ },
160
+ {
161
+ "epoch": 1.1666666666666667,
162
+ "grad_norm": 2.3123323917388916,
163
+ "learning_rate": 1.5333333333333334e-05,
164
+ "loss": 0.6179,
165
+ "step": 210
166
+ },
167
+ {
168
+ "epoch": 1.2222222222222223,
169
+ "grad_norm": 1.728090763092041,
170
+ "learning_rate": 1.5111111111111112e-05,
171
+ "loss": 0.6208,
172
+ "step": 220
173
+ },
174
+ {
175
+ "epoch": 1.2777777777777777,
176
+ "grad_norm": 2.110353946685791,
177
+ "learning_rate": 1.488888888888889e-05,
178
+ "loss": 0.5744,
179
+ "step": 230
180
+ },
181
+ {
182
+ "epoch": 1.3333333333333333,
183
+ "grad_norm": 2.0783276557922363,
184
+ "learning_rate": 1.4666666666666666e-05,
185
+ "loss": 0.5388,
186
+ "step": 240
187
+ },
188
+ {
189
+ "epoch": 1.3888888888888888,
190
+ "grad_norm": 2.3175930976867676,
191
+ "learning_rate": 1.4444444444444446e-05,
192
+ "loss": 0.5846,
193
+ "step": 250
194
+ },
195
+ {
196
+ "epoch": 1.4444444444444444,
197
+ "grad_norm": 3.0923080444335938,
198
+ "learning_rate": 1.4222222222222224e-05,
199
+ "loss": 0.5831,
200
+ "step": 260
201
+ },
202
+ {
203
+ "epoch": 1.5,
204
+ "grad_norm": 1.994885802268982,
205
+ "learning_rate": 1.4e-05,
206
+ "loss": 0.5929,
207
+ "step": 270
208
+ },
209
+ {
210
+ "epoch": 1.5555555555555556,
211
+ "grad_norm": 3.28375244140625,
212
+ "learning_rate": 1.377777777777778e-05,
213
+ "loss": 0.5965,
214
+ "step": 280
215
+ },
216
+ {
217
+ "epoch": 1.6111111111111112,
218
+ "grad_norm": 2.8813462257385254,
219
+ "learning_rate": 1.3555555555555557e-05,
220
+ "loss": 0.5358,
221
+ "step": 290
222
+ },
223
+ {
224
+ "epoch": 1.6666666666666665,
225
+ "grad_norm": 3.112164258956909,
226
+ "learning_rate": 1.3333333333333333e-05,
227
+ "loss": 0.5877,
228
+ "step": 300
229
+ },
230
+ {
231
+ "epoch": 1.7222222222222223,
232
+ "grad_norm": 1.542144775390625,
233
+ "learning_rate": 1.3111111111111113e-05,
234
+ "loss": 0.5485,
235
+ "step": 310
236
+ },
237
+ {
238
+ "epoch": 1.7777777777777777,
239
+ "grad_norm": 2.144716262817383,
240
+ "learning_rate": 1.288888888888889e-05,
241
+ "loss": 0.6028,
242
+ "step": 320
243
+ },
244
+ {
245
+ "epoch": 1.8333333333333335,
246
+ "grad_norm": 2.632028102874756,
247
+ "learning_rate": 1.2666666666666667e-05,
248
+ "loss": 0.5295,
249
+ "step": 330
250
+ },
251
+ {
252
+ "epoch": 1.8888888888888888,
253
+ "grad_norm": 2.2505481243133545,
254
+ "learning_rate": 1.2444444444444446e-05,
255
+ "loss": 0.6173,
256
+ "step": 340
257
+ },
258
+ {
259
+ "epoch": 1.9444444444444444,
260
+ "grad_norm": 2.7676846981048584,
261
+ "learning_rate": 1.2222222222222224e-05,
262
+ "loss": 0.5421,
263
+ "step": 350
264
+ },
265
+ {
266
+ "epoch": 2.0,
267
+ "grad_norm": 2.5781171321868896,
268
+ "learning_rate": 1.2e-05,
269
+ "loss": 0.5028,
270
+ "step": 360
271
+ },
272
+ {
273
+ "epoch": 2.0,
274
+ "eval_accuracy": 0.6811023622047244,
275
+ "eval_loss": 0.5528703927993774,
276
+ "eval_runtime": 4.4862,
277
+ "eval_samples_per_second": 56.618,
278
+ "eval_steps_per_second": 7.133,
279
+ "step": 360
280
+ },
281
+ {
282
+ "epoch": 2.0555555555555554,
283
+ "grad_norm": 2.5306832790374756,
284
+ "learning_rate": 1.177777777777778e-05,
285
+ "loss": 0.5849,
286
+ "step": 370
287
+ },
288
+ {
289
+ "epoch": 2.111111111111111,
290
+ "grad_norm": 2.1644484996795654,
291
+ "learning_rate": 1.1555555555555556e-05,
292
+ "loss": 0.5268,
293
+ "step": 380
294
+ },
295
+ {
296
+ "epoch": 2.1666666666666665,
297
+ "grad_norm": 1.9074407815933228,
298
+ "learning_rate": 1.1333333333333334e-05,
299
+ "loss": 0.55,
300
+ "step": 390
301
+ },
302
+ {
303
+ "epoch": 2.2222222222222223,
304
+ "grad_norm": 3.7348294258117676,
305
+ "learning_rate": 1.1111111111111113e-05,
306
+ "loss": 0.6125,
307
+ "step": 400
308
+ },
309
+ {
310
+ "epoch": 2.2777777777777777,
311
+ "grad_norm": 2.921757221221924,
312
+ "learning_rate": 1.088888888888889e-05,
313
+ "loss": 0.642,
314
+ "step": 410
315
+ },
316
+ {
317
+ "epoch": 2.3333333333333335,
318
+ "grad_norm": 2.2528910636901855,
319
+ "learning_rate": 1.0666666666666667e-05,
320
+ "loss": 0.5009,
321
+ "step": 420
322
+ },
323
+ {
324
+ "epoch": 2.388888888888889,
325
+ "grad_norm": 1.6619905233383179,
326
+ "learning_rate": 1.0444444444444445e-05,
327
+ "loss": 0.5158,
328
+ "step": 430
329
+ },
330
+ {
331
+ "epoch": 2.4444444444444446,
332
+ "grad_norm": 3.4696500301361084,
333
+ "learning_rate": 1.0222222222222223e-05,
334
+ "loss": 0.6036,
335
+ "step": 440
336
+ },
337
+ {
338
+ "epoch": 2.5,
339
+ "grad_norm": 2.936615467071533,
340
+ "learning_rate": 1e-05,
341
+ "loss": 0.5424,
342
+ "step": 450
343
+ },
344
+ {
345
+ "epoch": 2.5555555555555554,
346
+ "grad_norm": 4.1920952796936035,
347
+ "learning_rate": 9.777777777777779e-06,
348
+ "loss": 0.5532,
349
+ "step": 460
350
+ },
351
+ {
352
+ "epoch": 2.611111111111111,
353
+ "grad_norm": 2.4296085834503174,
354
+ "learning_rate": 9.555555555555556e-06,
355
+ "loss": 0.5436,
356
+ "step": 470
357
+ },
358
+ {
359
+ "epoch": 2.6666666666666665,
360
+ "grad_norm": 2.5725982189178467,
361
+ "learning_rate": 9.333333333333334e-06,
362
+ "loss": 0.5015,
363
+ "step": 480
364
+ },
365
+ {
366
+ "epoch": 2.7222222222222223,
367
+ "grad_norm": 4.97006368637085,
368
+ "learning_rate": 9.111111111111112e-06,
369
+ "loss": 0.5775,
370
+ "step": 490
371
+ },
372
+ {
373
+ "epoch": 2.7777777777777777,
374
+ "grad_norm": 3.6014504432678223,
375
+ "learning_rate": 8.888888888888888e-06,
376
+ "loss": 0.5689,
377
+ "step": 500
378
+ },
379
+ {
380
+ "epoch": 2.8333333333333335,
381
+ "grad_norm": 1.8251533508300781,
382
+ "learning_rate": 8.666666666666668e-06,
383
+ "loss": 0.5137,
384
+ "step": 510
385
+ },
386
+ {
387
+ "epoch": 2.888888888888889,
388
+ "grad_norm": 3.503689765930176,
389
+ "learning_rate": 8.444444444444446e-06,
390
+ "loss": 0.5827,
391
+ "step": 520
392
+ },
393
+ {
394
+ "epoch": 2.9444444444444446,
395
+ "grad_norm": 2.4786183834075928,
396
+ "learning_rate": 8.222222222222222e-06,
397
+ "loss": 0.5202,
398
+ "step": 530
399
+ },
400
+ {
401
+ "epoch": 3.0,
402
+ "grad_norm": 2.0592217445373535,
403
+ "learning_rate": 8.000000000000001e-06,
404
+ "loss": 0.5103,
405
+ "step": 540
406
+ },
407
+ {
408
+ "epoch": 3.0,
409
+ "eval_accuracy": 0.6811023622047244,
410
+ "eval_loss": 0.5325487852096558,
411
+ "eval_runtime": 5.1901,
412
+ "eval_samples_per_second": 48.94,
413
+ "eval_steps_per_second": 6.166,
414
+ "step": 540
415
+ },
416
+ {
417
+ "epoch": 3.0555555555555554,
418
+ "grad_norm": 1.9031552076339722,
419
+ "learning_rate": 7.77777777777778e-06,
420
+ "loss": 0.5273,
421
+ "step": 550
422
+ },
423
+ {
424
+ "epoch": 3.111111111111111,
425
+ "grad_norm": 2.656759262084961,
426
+ "learning_rate": 7.555555555555556e-06,
427
+ "loss": 0.5824,
428
+ "step": 560
429
+ },
430
+ {
431
+ "epoch": 3.1666666666666665,
432
+ "grad_norm": 1.8883424997329712,
433
+ "learning_rate": 7.333333333333333e-06,
434
+ "loss": 0.5653,
435
+ "step": 570
436
+ },
437
+ {
438
+ "epoch": 3.2222222222222223,
439
+ "grad_norm": 2.118739128112793,
440
+ "learning_rate": 7.111111111111112e-06,
441
+ "loss": 0.5057,
442
+ "step": 580
443
+ },
444
+ {
445
+ "epoch": 3.2777777777777777,
446
+ "grad_norm": 1.90389883518219,
447
+ "learning_rate": 6.88888888888889e-06,
448
+ "loss": 0.6118,
449
+ "step": 590
450
+ },
451
+ {
452
+ "epoch": 3.3333333333333335,
453
+ "grad_norm": 1.8850902318954468,
454
+ "learning_rate": 6.666666666666667e-06,
455
+ "loss": 0.5682,
456
+ "step": 600
457
+ },
458
+ {
459
+ "epoch": 3.388888888888889,
460
+ "grad_norm": 5.424034118652344,
461
+ "learning_rate": 6.444444444444445e-06,
462
+ "loss": 0.5501,
463
+ "step": 610
464
+ },
465
+ {
466
+ "epoch": 3.4444444444444446,
467
+ "grad_norm": 6.140316963195801,
468
+ "learning_rate": 6.222222222222223e-06,
469
+ "loss": 0.6259,
470
+ "step": 620
471
+ },
472
+ {
473
+ "epoch": 3.5,
474
+ "grad_norm": 2.766357183456421,
475
+ "learning_rate": 6e-06,
476
+ "loss": 0.5077,
477
+ "step": 630
478
+ },
479
+ {
480
+ "epoch": 3.5555555555555554,
481
+ "grad_norm": 2.0831124782562256,
482
+ "learning_rate": 5.777777777777778e-06,
483
+ "loss": 0.5609,
484
+ "step": 640
485
+ },
486
+ {
487
+ "epoch": 3.611111111111111,
488
+ "grad_norm": 1.9845359325408936,
489
+ "learning_rate": 5.555555555555557e-06,
490
+ "loss": 0.4875,
491
+ "step": 650
492
+ },
493
+ {
494
+ "epoch": 3.6666666666666665,
495
+ "grad_norm": 1.5764096975326538,
496
+ "learning_rate": 5.333333333333334e-06,
497
+ "loss": 0.4979,
498
+ "step": 660
499
+ },
500
+ {
501
+ "epoch": 3.7222222222222223,
502
+ "grad_norm": 3.984339952468872,
503
+ "learning_rate": 5.1111111111111115e-06,
504
+ "loss": 0.5522,
505
+ "step": 670
506
+ },
507
+ {
508
+ "epoch": 3.7777777777777777,
509
+ "grad_norm": 2.4655332565307617,
510
+ "learning_rate": 4.888888888888889e-06,
511
+ "loss": 0.5476,
512
+ "step": 680
513
+ },
514
+ {
515
+ "epoch": 3.8333333333333335,
516
+ "grad_norm": 2.9143753051757812,
517
+ "learning_rate": 4.666666666666667e-06,
518
+ "loss": 0.5901,
519
+ "step": 690
520
+ },
521
+ {
522
+ "epoch": 3.888888888888889,
523
+ "grad_norm": 2.023881435394287,
524
+ "learning_rate": 4.444444444444444e-06,
525
+ "loss": 0.5842,
526
+ "step": 700
527
+ },
528
+ {
529
+ "epoch": 3.9444444444444446,
530
+ "grad_norm": 2.730069398880005,
531
+ "learning_rate": 4.222222222222223e-06,
532
+ "loss": 0.5443,
533
+ "step": 710
534
+ },
535
+ {
536
+ "epoch": 4.0,
537
+ "grad_norm": 2.496239185333252,
538
+ "learning_rate": 4.000000000000001e-06,
539
+ "loss": 0.4892,
540
+ "step": 720
541
+ },
542
+ {
543
+ "epoch": 4.0,
544
+ "eval_accuracy": 0.6811023622047244,
545
+ "eval_loss": 0.5247489213943481,
546
+ "eval_runtime": 4.9059,
547
+ "eval_samples_per_second": 51.774,
548
+ "eval_steps_per_second": 6.523,
549
+ "step": 720
550
+ },
551
+ {
552
+ "epoch": 4.055555555555555,
553
+ "grad_norm": 1.9344916343688965,
554
+ "learning_rate": 3.777777777777778e-06,
555
+ "loss": 0.5017,
556
+ "step": 730
557
+ },
558
+ {
559
+ "epoch": 4.111111111111111,
560
+ "grad_norm": 3.2695019245147705,
561
+ "learning_rate": 3.555555555555556e-06,
562
+ "loss": 0.5974,
563
+ "step": 740
564
+ },
565
+ {
566
+ "epoch": 4.166666666666667,
567
+ "grad_norm": 4.992809772491455,
568
+ "learning_rate": 3.3333333333333333e-06,
569
+ "loss": 0.5307,
570
+ "step": 750
571
+ },
572
+ {
573
+ "epoch": 4.222222222222222,
574
+ "grad_norm": 3.5359721183776855,
575
+ "learning_rate": 3.1111111111111116e-06,
576
+ "loss": 0.5372,
577
+ "step": 760
578
+ },
579
+ {
580
+ "epoch": 4.277777777777778,
581
+ "grad_norm": 2.123009204864502,
582
+ "learning_rate": 2.888888888888889e-06,
583
+ "loss": 0.49,
584
+ "step": 770
585
+ },
586
+ {
587
+ "epoch": 4.333333333333333,
588
+ "grad_norm": 2.8134477138519287,
589
+ "learning_rate": 2.666666666666667e-06,
590
+ "loss": 0.4749,
591
+ "step": 780
592
+ },
593
+ {
594
+ "epoch": 4.388888888888889,
595
+ "grad_norm": 2.195077896118164,
596
+ "learning_rate": 2.4444444444444447e-06,
597
+ "loss": 0.5876,
598
+ "step": 790
599
+ },
600
+ {
601
+ "epoch": 4.444444444444445,
602
+ "grad_norm": 4.078568935394287,
603
+ "learning_rate": 2.222222222222222e-06,
604
+ "loss": 0.5609,
605
+ "step": 800
606
+ },
607
+ {
608
+ "epoch": 4.5,
609
+ "grad_norm": 2.6274867057800293,
610
+ "learning_rate": 2.0000000000000003e-06,
611
+ "loss": 0.5392,
612
+ "step": 810
613
+ },
614
+ {
615
+ "epoch": 4.555555555555555,
616
+ "grad_norm": 1.7526293992996216,
617
+ "learning_rate": 1.777777777777778e-06,
618
+ "loss": 0.4965,
619
+ "step": 820
620
+ },
621
+ {
622
+ "epoch": 4.611111111111111,
623
+ "grad_norm": 2.3001506328582764,
624
+ "learning_rate": 1.5555555555555558e-06,
625
+ "loss": 0.5345,
626
+ "step": 830
627
+ },
628
+ {
629
+ "epoch": 4.666666666666667,
630
+ "grad_norm": 2.5624406337738037,
631
+ "learning_rate": 1.3333333333333334e-06,
632
+ "loss": 0.5765,
633
+ "step": 840
634
+ },
635
+ {
636
+ "epoch": 4.722222222222222,
637
+ "grad_norm": 2.199018716812134,
638
+ "learning_rate": 1.111111111111111e-06,
639
+ "loss": 0.5547,
640
+ "step": 850
641
+ },
642
+ {
643
+ "epoch": 4.777777777777778,
644
+ "grad_norm": 3.756605625152588,
645
+ "learning_rate": 8.88888888888889e-07,
646
+ "loss": 0.5021,
647
+ "step": 860
648
+ },
649
+ {
650
+ "epoch": 4.833333333333333,
651
+ "grad_norm": 1.6385400295257568,
652
+ "learning_rate": 6.666666666666667e-07,
653
+ "loss": 0.5858,
654
+ "step": 870
655
+ },
656
+ {
657
+ "epoch": 4.888888888888889,
658
+ "grad_norm": 5.481604099273682,
659
+ "learning_rate": 4.444444444444445e-07,
660
+ "loss": 0.5062,
661
+ "step": 880
662
+ },
663
+ {
664
+ "epoch": 4.944444444444445,
665
+ "grad_norm": 2.554666042327881,
666
+ "learning_rate": 2.2222222222222224e-07,
667
+ "loss": 0.5355,
668
+ "step": 890
669
+ },
670
+ {
671
+ "epoch": 5.0,
672
+ "grad_norm": 5.525686264038086,
673
+ "learning_rate": 0.0,
674
+ "loss": 0.5779,
675
+ "step": 900
676
+ },
677
+ {
678
+ "epoch": 5.0,
679
+ "eval_accuracy": 0.6811023622047244,
680
+ "eval_loss": 0.530208170413971,
681
+ "eval_runtime": 5.531,
682
+ "eval_samples_per_second": 45.923,
683
+ "eval_steps_per_second": 5.786,
684
+ "step": 900
685
+ },
686
+ {
687
+ "epoch": 5.0,
688
+ "step": 900,
689
+ "total_flos": 7.24330215447552e+16,
690
+ "train_loss": 0.5726550849278768,
691
+ "train_runtime": 239.6067,
692
+ "train_samples_per_second": 29.945,
693
+ "train_steps_per_second": 3.756
694
+ }
695
+ ],
696
+ "logging_steps": 10,
697
+ "max_steps": 900,
698
+ "num_input_tokens_seen": 0,
699
+ "num_train_epochs": 5,
700
+ "save_steps": 500,
701
+ "stateful_callbacks": {
702
+ "TrainerControl": {
703
+ "args": {
704
+ "should_epoch_stop": false,
705
+ "should_evaluate": false,
706
+ "should_log": false,
707
+ "should_save": true,
708
+ "should_training_stop": true
709
+ },
710
+ "attributes": {}
711
+ }
712
+ },
713
+ "total_flos": 7.24330215447552e+16,
714
+ "train_batch_size": 8,
715
+ "trial_name": null,
716
+ "trial_params": null
717
+ }