AhmedSSoliman commited on
Commit
81fdd8f
1 Parent(s): 7a3a2e4

Upload trainer_state.json

Browse files
Files changed (1) hide show
  1. trainer_state.json +2173 -0
trainer_state.json ADDED
@@ -0,0 +1,2173 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 1.0,
5
+ "eval_steps": 60,
6
+ "global_step": 300,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.0033333333333333335,
13
+ "grad_norm": NaN,
14
+ "learning_rate": 0.0,
15
+ "loss": 3.678,
16
+ "step": 1
17
+ },
18
+ {
19
+ "epoch": 0.006666666666666667,
20
+ "grad_norm": 0.4762135446071625,
21
+ "learning_rate": 2.2222222222222223e-05,
22
+ "loss": 3.0439,
23
+ "step": 2
24
+ },
25
+ {
26
+ "epoch": 0.01,
27
+ "grad_norm": 0.6002700328826904,
28
+ "learning_rate": 4.4444444444444447e-05,
29
+ "loss": 3.4106,
30
+ "step": 3
31
+ },
32
+ {
33
+ "epoch": 0.013333333333333334,
34
+ "grad_norm": 0.6476659178733826,
35
+ "learning_rate": 6.666666666666667e-05,
36
+ "loss": 3.554,
37
+ "step": 4
38
+ },
39
+ {
40
+ "epoch": 0.016666666666666666,
41
+ "grad_norm": 0.5185155272483826,
42
+ "learning_rate": 8.888888888888889e-05,
43
+ "loss": 3.0154,
44
+ "step": 5
45
+ },
46
+ {
47
+ "epoch": 0.02,
48
+ "grad_norm": NaN,
49
+ "learning_rate": 8.888888888888889e-05,
50
+ "loss": 2.8894,
51
+ "step": 6
52
+ },
53
+ {
54
+ "epoch": 0.023333333333333334,
55
+ "grad_norm": 0.8041224479675293,
56
+ "learning_rate": 0.00011111111111111112,
57
+ "loss": 3.0546,
58
+ "step": 7
59
+ },
60
+ {
61
+ "epoch": 0.02666666666666667,
62
+ "grad_norm": 0.3952060639858246,
63
+ "learning_rate": 0.00013333333333333334,
64
+ "loss": 2.9562,
65
+ "step": 8
66
+ },
67
+ {
68
+ "epoch": 0.03,
69
+ "grad_norm": NaN,
70
+ "learning_rate": 0.00013333333333333334,
71
+ "loss": 2.6144,
72
+ "step": 9
73
+ },
74
+ {
75
+ "epoch": 0.03333333333333333,
76
+ "grad_norm": 0.8140532374382019,
77
+ "learning_rate": 0.00015555555555555556,
78
+ "loss": 2.5651,
79
+ "step": 10
80
+ },
81
+ {
82
+ "epoch": 0.03666666666666667,
83
+ "grad_norm": 0.7712438106536865,
84
+ "learning_rate": 0.00017777777777777779,
85
+ "loss": 2.4462,
86
+ "step": 11
87
+ },
88
+ {
89
+ "epoch": 0.04,
90
+ "grad_norm": 0.9129194617271423,
91
+ "learning_rate": 0.0002,
92
+ "loss": 2.2021,
93
+ "step": 12
94
+ },
95
+ {
96
+ "epoch": 0.043333333333333335,
97
+ "grad_norm": 1.4973784685134888,
98
+ "learning_rate": 0.00019999417253661235,
99
+ "loss": 1.7726,
100
+ "step": 13
101
+ },
102
+ {
103
+ "epoch": 0.04666666666666667,
104
+ "grad_norm": 1.3915261030197144,
105
+ "learning_rate": 0.00019997669082563597,
106
+ "loss": 2.0128,
107
+ "step": 14
108
+ },
109
+ {
110
+ "epoch": 0.05,
111
+ "grad_norm": 2.2161591053009033,
112
+ "learning_rate": 0.00019994755690455152,
113
+ "loss": 1.7553,
114
+ "step": 15
115
+ },
116
+ {
117
+ "epoch": 0.05333333333333334,
118
+ "grad_norm": 1.6553738117218018,
119
+ "learning_rate": 0.00019990677416889608,
120
+ "loss": 2.0475,
121
+ "step": 16
122
+ },
123
+ {
124
+ "epoch": 0.056666666666666664,
125
+ "grad_norm": 0.6157505512237549,
126
+ "learning_rate": 0.0001998543473718677,
127
+ "loss": 1.685,
128
+ "step": 17
129
+ },
130
+ {
131
+ "epoch": 0.06,
132
+ "grad_norm": 0.24669784307479858,
133
+ "learning_rate": 0.00019979028262377118,
134
+ "loss": 1.6533,
135
+ "step": 18
136
+ },
137
+ {
138
+ "epoch": 0.06333333333333334,
139
+ "grad_norm": 0.22707951068878174,
140
+ "learning_rate": 0.00019971458739130598,
141
+ "loss": 2.0047,
142
+ "step": 19
143
+ },
144
+ {
145
+ "epoch": 0.06666666666666667,
146
+ "grad_norm": 1.4569851160049438,
147
+ "learning_rate": 0.000199627270496696,
148
+ "loss": 2.0384,
149
+ "step": 20
150
+ },
151
+ {
152
+ "epoch": 0.07,
153
+ "grad_norm": 0.413117915391922,
154
+ "learning_rate": 0.0001995283421166614,
155
+ "loss": 1.8686,
156
+ "step": 21
157
+ },
158
+ {
159
+ "epoch": 0.07333333333333333,
160
+ "grad_norm": 0.3769432604312897,
161
+ "learning_rate": 0.00019941781378123244,
162
+ "loss": 2.3281,
163
+ "step": 22
164
+ },
165
+ {
166
+ "epoch": 0.07666666666666666,
167
+ "grad_norm": 0.22103984653949738,
168
+ "learning_rate": 0.00019929569837240564,
169
+ "loss": 1.4126,
170
+ "step": 23
171
+ },
172
+ {
173
+ "epoch": 0.08,
174
+ "grad_norm": 0.24588149785995483,
175
+ "learning_rate": 0.00019916201012264254,
176
+ "loss": 1.8129,
177
+ "step": 24
178
+ },
179
+ {
180
+ "epoch": 0.08333333333333333,
181
+ "grad_norm": 0.16510339081287384,
182
+ "learning_rate": 0.00019901676461321068,
183
+ "loss": 1.3982,
184
+ "step": 25
185
+ },
186
+ {
187
+ "epoch": 0.08666666666666667,
188
+ "grad_norm": 0.1440768837928772,
189
+ "learning_rate": 0.00019885997877236788,
190
+ "loss": 2.1907,
191
+ "step": 26
192
+ },
193
+ {
194
+ "epoch": 0.09,
195
+ "grad_norm": 0.17060863971710205,
196
+ "learning_rate": 0.00019869167087338907,
197
+ "loss": 1.3803,
198
+ "step": 27
199
+ },
200
+ {
201
+ "epoch": 0.09333333333333334,
202
+ "grad_norm": 0.2069515585899353,
203
+ "learning_rate": 0.00019851186053243666,
204
+ "loss": 1.887,
205
+ "step": 28
206
+ },
207
+ {
208
+ "epoch": 0.09666666666666666,
209
+ "grad_norm": 0.21821996569633484,
210
+ "learning_rate": 0.00019832056870627417,
211
+ "loss": 1.6054,
212
+ "step": 29
213
+ },
214
+ {
215
+ "epoch": 0.1,
216
+ "grad_norm": 0.17882876098155975,
217
+ "learning_rate": 0.0001981178176898239,
218
+ "loss": 1.6342,
219
+ "step": 30
220
+ },
221
+ {
222
+ "epoch": 0.10333333333333333,
223
+ "grad_norm": 0.17038118839263916,
224
+ "learning_rate": 0.00019790363111356837,
225
+ "loss": 1.8819,
226
+ "step": 31
227
+ },
228
+ {
229
+ "epoch": 0.10666666666666667,
230
+ "grad_norm": 0.1974552720785141,
231
+ "learning_rate": 0.00019767803394079615,
232
+ "loss": 1.9041,
233
+ "step": 32
234
+ },
235
+ {
236
+ "epoch": 0.11,
237
+ "grad_norm": 0.2757965922355652,
238
+ "learning_rate": 0.00019744105246469263,
239
+ "loss": 1.9125,
240
+ "step": 33
241
+ },
242
+ {
243
+ "epoch": 0.11333333333333333,
244
+ "grad_norm": 0.19870969653129578,
245
+ "learning_rate": 0.0001971927143052752,
246
+ "loss": 1.8851,
247
+ "step": 34
248
+ },
249
+ {
250
+ "epoch": 0.11666666666666667,
251
+ "grad_norm": 0.1826757788658142,
252
+ "learning_rate": 0.00019693304840617457,
253
+ "loss": 1.7898,
254
+ "step": 35
255
+ },
256
+ {
257
+ "epoch": 0.12,
258
+ "grad_norm": 0.2616521716117859,
259
+ "learning_rate": 0.00019666208503126112,
260
+ "loss": 1.9304,
261
+ "step": 36
262
+ },
263
+ {
264
+ "epoch": 0.12333333333333334,
265
+ "grad_norm": 0.21208493411540985,
266
+ "learning_rate": 0.00019637985576111778,
267
+ "loss": 1.6942,
268
+ "step": 37
269
+ },
270
+ {
271
+ "epoch": 0.12666666666666668,
272
+ "grad_norm": 0.2790180444717407,
273
+ "learning_rate": 0.0001960863934893594,
274
+ "loss": 1.8333,
275
+ "step": 38
276
+ },
277
+ {
278
+ "epoch": 0.13,
279
+ "grad_norm": 0.18341009318828583,
280
+ "learning_rate": 0.00019578173241879872,
281
+ "loss": 1.8026,
282
+ "step": 39
283
+ },
284
+ {
285
+ "epoch": 0.13333333333333333,
286
+ "grad_norm": 0.41886040568351746,
287
+ "learning_rate": 0.00019546590805746052,
288
+ "loss": 1.7716,
289
+ "step": 40
290
+ },
291
+ {
292
+ "epoch": 0.13666666666666666,
293
+ "grad_norm": 0.13291174173355103,
294
+ "learning_rate": 0.00019513895721444286,
295
+ "loss": 1.9675,
296
+ "step": 41
297
+ },
298
+ {
299
+ "epoch": 0.14,
300
+ "grad_norm": 0.1474720984697342,
301
+ "learning_rate": 0.00019480091799562704,
302
+ "loss": 1.6786,
303
+ "step": 42
304
+ },
305
+ {
306
+ "epoch": 0.14333333333333334,
307
+ "grad_norm": 0.17442239820957184,
308
+ "learning_rate": 0.00019445182979923654,
309
+ "loss": 1.7849,
310
+ "step": 43
311
+ },
312
+ {
313
+ "epoch": 0.14666666666666667,
314
+ "grad_norm": 0.15233103930950165,
315
+ "learning_rate": 0.000194091733311245,
316
+ "loss": 1.5371,
317
+ "step": 44
318
+ },
319
+ {
320
+ "epoch": 0.15,
321
+ "grad_norm": 0.13791708648204803,
322
+ "learning_rate": 0.00019372067050063438,
323
+ "loss": 2.0132,
324
+ "step": 45
325
+ },
326
+ {
327
+ "epoch": 0.15333333333333332,
328
+ "grad_norm": 0.15251068770885468,
329
+ "learning_rate": 0.0001933386846145036,
330
+ "loss": 1.7359,
331
+ "step": 46
332
+ },
333
+ {
334
+ "epoch": 0.15666666666666668,
335
+ "grad_norm": 0.24324262142181396,
336
+ "learning_rate": 0.00019294582017302797,
337
+ "loss": 1.7972,
338
+ "step": 47
339
+ },
340
+ {
341
+ "epoch": 0.16,
342
+ "grad_norm": 0.20748841762542725,
343
+ "learning_rate": 0.00019254212296427044,
344
+ "loss": 1.5059,
345
+ "step": 48
346
+ },
347
+ {
348
+ "epoch": 0.16333333333333333,
349
+ "grad_norm": 0.3106396496295929,
350
+ "learning_rate": 0.0001921276400388451,
351
+ "loss": 2.0664,
352
+ "step": 49
353
+ },
354
+ {
355
+ "epoch": 0.16666666666666666,
356
+ "grad_norm": 0.31523287296295166,
357
+ "learning_rate": 0.00019170241970443343,
358
+ "loss": 1.8873,
359
+ "step": 50
360
+ },
361
+ {
362
+ "epoch": 0.17,
363
+ "grad_norm": 1.2277356386184692,
364
+ "learning_rate": 0.00019126651152015403,
365
+ "loss": 1.6405,
366
+ "step": 51
367
+ },
368
+ {
369
+ "epoch": 0.17333333333333334,
370
+ "grad_norm": 0.19061756134033203,
371
+ "learning_rate": 0.00019081996629078657,
372
+ "loss": 1.8921,
373
+ "step": 52
374
+ },
375
+ {
376
+ "epoch": 0.17666666666666667,
377
+ "grad_norm": 0.27055197954177856,
378
+ "learning_rate": 0.00019036283606085053,
379
+ "loss": 1.8499,
380
+ "step": 53
381
+ },
382
+ {
383
+ "epoch": 0.18,
384
+ "grad_norm": 0.4002118706703186,
385
+ "learning_rate": 0.00018989517410853955,
386
+ "loss": 1.4783,
387
+ "step": 54
388
+ },
389
+ {
390
+ "epoch": 0.18333333333333332,
391
+ "grad_norm": 0.27212274074554443,
392
+ "learning_rate": 0.00018941703493951164,
393
+ "loss": 1.2299,
394
+ "step": 55
395
+ },
396
+ {
397
+ "epoch": 0.18666666666666668,
398
+ "grad_norm": 0.6585210561752319,
399
+ "learning_rate": 0.00018892847428053693,
400
+ "loss": 1.6397,
401
+ "step": 56
402
+ },
403
+ {
404
+ "epoch": 0.19,
405
+ "grad_norm": 0.2484641969203949,
406
+ "learning_rate": 0.00018842954907300236,
407
+ "loss": 1.9502,
408
+ "step": 57
409
+ },
410
+ {
411
+ "epoch": 0.19333333333333333,
412
+ "grad_norm": 0.1978948712348938,
413
+ "learning_rate": 0.00018792031746627563,
414
+ "loss": 2.0229,
415
+ "step": 58
416
+ },
417
+ {
418
+ "epoch": 0.19666666666666666,
419
+ "grad_norm": 0.17801423370838165,
420
+ "learning_rate": 0.0001874008388109276,
421
+ "loss": 2.0025,
422
+ "step": 59
423
+ },
424
+ {
425
+ "epoch": 0.2,
426
+ "grad_norm": 0.26752933859825134,
427
+ "learning_rate": 0.00018687117365181512,
428
+ "loss": 1.522,
429
+ "step": 60
430
+ },
431
+ {
432
+ "epoch": 0.2,
433
+ "eval_loss": 1.9986859560012817,
434
+ "eval_runtime": 106.2759,
435
+ "eval_samples_per_second": 2.823,
436
+ "eval_steps_per_second": 0.358,
437
+ "step": 60
438
+ },
439
+ {
440
+ "epoch": 0.20333333333333334,
441
+ "grad_norm": 0.24524369835853577,
442
+ "learning_rate": 0.00018633138372102468,
443
+ "loss": 2.0717,
444
+ "step": 61
445
+ },
446
+ {
447
+ "epoch": 0.20666666666666667,
448
+ "grad_norm": 0.1529204249382019,
449
+ "learning_rate": 0.00018578153193067745,
450
+ "loss": 1.7074,
451
+ "step": 62
452
+ },
453
+ {
454
+ "epoch": 0.21,
455
+ "grad_norm": 0.2284618765115738,
456
+ "learning_rate": 0.00018522168236559695,
457
+ "loss": 1.5471,
458
+ "step": 63
459
+ },
460
+ {
461
+ "epoch": 0.21333333333333335,
462
+ "grad_norm": 0.21615256369113922,
463
+ "learning_rate": 0.00018465190027584005,
464
+ "loss": 1.5937,
465
+ "step": 64
466
+ },
467
+ {
468
+ "epoch": 0.21666666666666667,
469
+ "grad_norm": 0.24150824546813965,
470
+ "learning_rate": 0.00018407225206909208,
471
+ "loss": 1.5986,
472
+ "step": 65
473
+ },
474
+ {
475
+ "epoch": 0.22,
476
+ "grad_norm": 0.15798711776733398,
477
+ "learning_rate": 0.00018348280530292713,
478
+ "loss": 1.8715,
479
+ "step": 66
480
+ },
481
+ {
482
+ "epoch": 0.22333333333333333,
483
+ "grad_norm": 0.2319696843624115,
484
+ "learning_rate": 0.00018288362867693414,
485
+ "loss": 1.3617,
486
+ "step": 67
487
+ },
488
+ {
489
+ "epoch": 0.22666666666666666,
490
+ "grad_norm": 0.2020319700241089,
491
+ "learning_rate": 0.00018227479202471015,
492
+ "loss": 1.7928,
493
+ "step": 68
494
+ },
495
+ {
496
+ "epoch": 0.23,
497
+ "grad_norm": 0.2809887230396271,
498
+ "learning_rate": 0.0001816563663057211,
499
+ "loss": 2.0081,
500
+ "step": 69
501
+ },
502
+ {
503
+ "epoch": 0.23333333333333334,
504
+ "grad_norm": 0.2510971426963806,
505
+ "learning_rate": 0.00018102842359703176,
506
+ "loss": 1.5938,
507
+ "step": 70
508
+ },
509
+ {
510
+ "epoch": 0.23666666666666666,
511
+ "grad_norm": 0.1601170003414154,
512
+ "learning_rate": 0.000180391037084905,
513
+ "loss": 1.8598,
514
+ "step": 71
515
+ },
516
+ {
517
+ "epoch": 0.24,
518
+ "grad_norm": 0.2945798337459564,
519
+ "learning_rate": 0.00017974428105627208,
520
+ "loss": 1.6412,
521
+ "step": 72
522
+ },
523
+ {
524
+ "epoch": 0.24333333333333335,
525
+ "grad_norm": 0.31662991642951965,
526
+ "learning_rate": 0.00017908823089007457,
527
+ "loss": 1.6946,
528
+ "step": 73
529
+ },
530
+ {
531
+ "epoch": 0.24666666666666667,
532
+ "grad_norm": 0.3063909709453583,
533
+ "learning_rate": 0.00017842296304847893,
534
+ "loss": 1.9946,
535
+ "step": 74
536
+ },
537
+ {
538
+ "epoch": 0.25,
539
+ "grad_norm": 0.13805601000785828,
540
+ "learning_rate": 0.00017774855506796496,
541
+ "loss": 1.6024,
542
+ "step": 75
543
+ },
544
+ {
545
+ "epoch": 0.25333333333333335,
546
+ "grad_norm": 0.17819726467132568,
547
+ "learning_rate": 0.00017706508555028893,
548
+ "loss": 1.7703,
549
+ "step": 76
550
+ },
551
+ {
552
+ "epoch": 0.25666666666666665,
553
+ "grad_norm": 0.11969258636236191,
554
+ "learning_rate": 0.0001763726341533227,
555
+ "loss": 1.9729,
556
+ "step": 77
557
+ },
558
+ {
559
+ "epoch": 0.26,
560
+ "grad_norm": 0.20544451475143433,
561
+ "learning_rate": 0.00017567128158176953,
562
+ "loss": 1.714,
563
+ "step": 78
564
+ },
565
+ {
566
+ "epoch": 0.2633333333333333,
567
+ "grad_norm": 0.16914527118206024,
568
+ "learning_rate": 0.0001749611095777581,
569
+ "loss": 1.936,
570
+ "step": 79
571
+ },
572
+ {
573
+ "epoch": 0.26666666666666666,
574
+ "grad_norm": 0.1939394325017929,
575
+ "learning_rate": 0.00017424220091131535,
576
+ "loss": 1.4724,
577
+ "step": 80
578
+ },
579
+ {
580
+ "epoch": 0.27,
581
+ "grad_norm": 0.19433513283729553,
582
+ "learning_rate": 0.00017351463937072004,
583
+ "loss": 1.8444,
584
+ "step": 81
585
+ },
586
+ {
587
+ "epoch": 0.2733333333333333,
588
+ "grad_norm": 0.18188251554965973,
589
+ "learning_rate": 0.00017277850975273696,
590
+ "loss": 1.6896,
591
+ "step": 82
592
+ },
593
+ {
594
+ "epoch": 0.27666666666666667,
595
+ "grad_norm": 0.17649756371974945,
596
+ "learning_rate": 0.000172033897852734,
597
+ "loss": 1.6855,
598
+ "step": 83
599
+ },
600
+ {
601
+ "epoch": 0.28,
602
+ "grad_norm": 0.1801021695137024,
603
+ "learning_rate": 0.00017128089045468294,
604
+ "loss": 1.4462,
605
+ "step": 84
606
+ },
607
+ {
608
+ "epoch": 0.2833333333333333,
609
+ "grad_norm": 0.16927750408649445,
610
+ "learning_rate": 0.0001705195753210446,
611
+ "loss": 1.5268,
612
+ "step": 85
613
+ },
614
+ {
615
+ "epoch": 0.2866666666666667,
616
+ "grad_norm": 0.18690228462219238,
617
+ "learning_rate": 0.0001697500411825403,
618
+ "loss": 1.8519,
619
+ "step": 86
620
+ },
621
+ {
622
+ "epoch": 0.29,
623
+ "grad_norm": 0.20217467844486237,
624
+ "learning_rate": 0.00016897237772781044,
625
+ "loss": 1.92,
626
+ "step": 87
627
+ },
628
+ {
629
+ "epoch": 0.29333333333333333,
630
+ "grad_norm": 0.27469587326049805,
631
+ "learning_rate": 0.0001681866755929612,
632
+ "loss": 2.0257,
633
+ "step": 88
634
+ },
635
+ {
636
+ "epoch": 0.2966666666666667,
637
+ "grad_norm": 0.13343855738639832,
638
+ "learning_rate": 0.00016739302635100108,
639
+ "loss": 1.6739,
640
+ "step": 89
641
+ },
642
+ {
643
+ "epoch": 0.3,
644
+ "grad_norm": 0.18704169988632202,
645
+ "learning_rate": 0.00016659152250116812,
646
+ "loss": 1.7542,
647
+ "step": 90
648
+ },
649
+ {
650
+ "epoch": 0.30333333333333334,
651
+ "grad_norm": 0.2323143184185028,
652
+ "learning_rate": 0.00016578225745814907,
653
+ "loss": 1.6746,
654
+ "step": 91
655
+ },
656
+ {
657
+ "epoch": 0.30666666666666664,
658
+ "grad_norm": 0.17189523577690125,
659
+ "learning_rate": 0.00016496532554119214,
660
+ "loss": 1.6818,
661
+ "step": 92
662
+ },
663
+ {
664
+ "epoch": 0.31,
665
+ "grad_norm": 0.19542841613292694,
666
+ "learning_rate": 0.000164140821963114,
667
+ "loss": 1.7951,
668
+ "step": 93
669
+ },
670
+ {
671
+ "epoch": 0.31333333333333335,
672
+ "grad_norm": 0.2227221131324768,
673
+ "learning_rate": 0.000163308842819203,
674
+ "loss": 2.0738,
675
+ "step": 94
676
+ },
677
+ {
678
+ "epoch": 0.31666666666666665,
679
+ "grad_norm": 0.25109028816223145,
680
+ "learning_rate": 0.00016246948507601914,
681
+ "loss": 1.7133,
682
+ "step": 95
683
+ },
684
+ {
685
+ "epoch": 0.32,
686
+ "grad_norm": 0.12997524440288544,
687
+ "learning_rate": 0.00016162284656009274,
688
+ "loss": 1.9752,
689
+ "step": 96
690
+ },
691
+ {
692
+ "epoch": 0.3233333333333333,
693
+ "grad_norm": 0.23506972193717957,
694
+ "learning_rate": 0.0001607690259465229,
695
+ "loss": 1.905,
696
+ "step": 97
697
+ },
698
+ {
699
+ "epoch": 0.32666666666666666,
700
+ "grad_norm": 0.15737849473953247,
701
+ "learning_rate": 0.00015990812274747692,
702
+ "loss": 1.5445,
703
+ "step": 98
704
+ },
705
+ {
706
+ "epoch": 0.33,
707
+ "grad_norm": 0.16445747017860413,
708
+ "learning_rate": 0.00015904023730059228,
709
+ "loss": 1.7706,
710
+ "step": 99
711
+ },
712
+ {
713
+ "epoch": 0.3333333333333333,
714
+ "grad_norm": 0.16149075329303741,
715
+ "learning_rate": 0.00015816547075728226,
716
+ "loss": 1.8575,
717
+ "step": 100
718
+ },
719
+ {
720
+ "epoch": 0.33666666666666667,
721
+ "grad_norm": 0.17258767783641815,
722
+ "learning_rate": 0.000157283925070947,
723
+ "loss": 1.6852,
724
+ "step": 101
725
+ },
726
+ {
727
+ "epoch": 0.34,
728
+ "grad_norm": 0.21116161346435547,
729
+ "learning_rate": 0.00015639570298509064,
730
+ "loss": 1.6215,
731
+ "step": 102
732
+ },
733
+ {
734
+ "epoch": 0.3433333333333333,
735
+ "grad_norm": 0.21945820748806,
736
+ "learning_rate": 0.000155500908021347,
737
+ "loss": 1.8009,
738
+ "step": 103
739
+ },
740
+ {
741
+ "epoch": 0.3466666666666667,
742
+ "grad_norm": 0.15959838032722473,
743
+ "learning_rate": 0.00015459964446741382,
744
+ "loss": 1.5615,
745
+ "step": 104
746
+ },
747
+ {
748
+ "epoch": 0.35,
749
+ "grad_norm": 0.1735246777534485,
750
+ "learning_rate": 0.0001536920173648984,
751
+ "loss": 1.7633,
752
+ "step": 105
753
+ },
754
+ {
755
+ "epoch": 0.35333333333333333,
756
+ "grad_norm": 0.13111194968223572,
757
+ "learning_rate": 0.00015277813249707487,
758
+ "loss": 1.927,
759
+ "step": 106
760
+ },
761
+ {
762
+ "epoch": 0.3566666666666667,
763
+ "grad_norm": 0.2176179140806198,
764
+ "learning_rate": 0.0001518580963765555,
765
+ "loss": 2.0393,
766
+ "step": 107
767
+ },
768
+ {
769
+ "epoch": 0.36,
770
+ "grad_norm": 0.16239792108535767,
771
+ "learning_rate": 0.00015093201623287631,
772
+ "loss": 1.5587,
773
+ "step": 108
774
+ },
775
+ {
776
+ "epoch": 0.36333333333333334,
777
+ "grad_norm": 0.25669199228286743,
778
+ "learning_rate": 0.00015000000000000001,
779
+ "loss": 1.4917,
780
+ "step": 109
781
+ },
782
+ {
783
+ "epoch": 0.36666666666666664,
784
+ "grad_norm": 0.14471955597400665,
785
+ "learning_rate": 0.00014906215630373606,
786
+ "loss": 1.6249,
787
+ "step": 110
788
+ },
789
+ {
790
+ "epoch": 0.37,
791
+ "grad_norm": 0.22089527547359467,
792
+ "learning_rate": 0.00014811859444908052,
793
+ "loss": 2.0068,
794
+ "step": 111
795
+ },
796
+ {
797
+ "epoch": 0.37333333333333335,
798
+ "grad_norm": 0.1651736944913864,
799
+ "learning_rate": 0.00014716942440747664,
800
+ "loss": 1.6535,
801
+ "step": 112
802
+ },
803
+ {
804
+ "epoch": 0.37666666666666665,
805
+ "grad_norm": 0.16808518767356873,
806
+ "learning_rate": 0.0001462147568039977,
807
+ "loss": 2.1169,
808
+ "step": 113
809
+ },
810
+ {
811
+ "epoch": 0.38,
812
+ "grad_norm": 0.1802249252796173,
813
+ "learning_rate": 0.00014525470290445392,
814
+ "loss": 1.7287,
815
+ "step": 114
816
+ },
817
+ {
818
+ "epoch": 0.38333333333333336,
819
+ "grad_norm": 0.13918867707252502,
820
+ "learning_rate": 0.00014428937460242417,
821
+ "loss": 1.6429,
822
+ "step": 115
823
+ },
824
+ {
825
+ "epoch": 0.38666666666666666,
826
+ "grad_norm": 0.16866669058799744,
827
+ "learning_rate": 0.00014331888440621533,
828
+ "loss": 1.6221,
829
+ "step": 116
830
+ },
831
+ {
832
+ "epoch": 0.39,
833
+ "grad_norm": 0.2179497629404068,
834
+ "learning_rate": 0.00014234334542574906,
835
+ "loss": 1.9434,
836
+ "step": 117
837
+ },
838
+ {
839
+ "epoch": 0.3933333333333333,
840
+ "grad_norm": 0.20598508417606354,
841
+ "learning_rate": 0.00014136287135937915,
842
+ "loss": 1.8447,
843
+ "step": 118
844
+ },
845
+ {
846
+ "epoch": 0.39666666666666667,
847
+ "grad_norm": 0.2654450535774231,
848
+ "learning_rate": 0.00014037757648064018,
849
+ "loss": 2.0047,
850
+ "step": 119
851
+ },
852
+ {
853
+ "epoch": 0.4,
854
+ "grad_norm": 0.1578744649887085,
855
+ "learning_rate": 0.00013938757562492873,
856
+ "loss": 1.5683,
857
+ "step": 120
858
+ },
859
+ {
860
+ "epoch": 0.4,
861
+ "eval_loss": 1.9689319133758545,
862
+ "eval_runtime": 105.5842,
863
+ "eval_samples_per_second": 2.841,
864
+ "eval_steps_per_second": 0.36,
865
+ "step": 120
866
+ },
867
+ {
868
+ "epoch": 0.4033333333333333,
869
+ "grad_norm": 0.17445330321788788,
870
+ "learning_rate": 0.00013839298417611963,
871
+ "loss": 1.8099,
872
+ "step": 121
873
+ },
874
+ {
875
+ "epoch": 0.4066666666666667,
876
+ "grad_norm": 0.17443552613258362,
877
+ "learning_rate": 0.00013739391805311793,
878
+ "loss": 1.6858,
879
+ "step": 122
880
+ },
881
+ {
882
+ "epoch": 0.41,
883
+ "grad_norm": 0.2298484444618225,
884
+ "learning_rate": 0.00013639049369634876,
885
+ "loss": 1.6995,
886
+ "step": 123
887
+ },
888
+ {
889
+ "epoch": 0.41333333333333333,
890
+ "grad_norm": 0.12730997800827026,
891
+ "learning_rate": 0.0001353828280541861,
892
+ "loss": 2.2712,
893
+ "step": 124
894
+ },
895
+ {
896
+ "epoch": 0.4166666666666667,
897
+ "grad_norm": 0.18344169855117798,
898
+ "learning_rate": 0.00013437103856932264,
899
+ "loss": 1.78,
900
+ "step": 125
901
+ },
902
+ {
903
+ "epoch": 0.42,
904
+ "grad_norm": 0.16407208144664764,
905
+ "learning_rate": 0.00013335524316508208,
906
+ "loss": 1.7153,
907
+ "step": 126
908
+ },
909
+ {
910
+ "epoch": 0.42333333333333334,
911
+ "grad_norm": 0.2899414896965027,
912
+ "learning_rate": 0.00013233556023167485,
913
+ "loss": 1.6807,
914
+ "step": 127
915
+ },
916
+ {
917
+ "epoch": 0.4266666666666667,
918
+ "grad_norm": 0.20936259627342224,
919
+ "learning_rate": 0.00013131210861240026,
920
+ "loss": 1.8354,
921
+ "step": 128
922
+ },
923
+ {
924
+ "epoch": 0.43,
925
+ "grad_norm": 0.24104556441307068,
926
+ "learning_rate": 0.00013028500758979506,
927
+ "loss": 1.7304,
928
+ "step": 129
929
+ },
930
+ {
931
+ "epoch": 0.43333333333333335,
932
+ "grad_norm": 0.13295267522335052,
933
+ "learning_rate": 0.00012925437687173142,
934
+ "loss": 1.5726,
935
+ "step": 130
936
+ },
937
+ {
938
+ "epoch": 0.43666666666666665,
939
+ "grad_norm": 0.18221959471702576,
940
+ "learning_rate": 0.00012822033657746478,
941
+ "loss": 1.8909,
942
+ "step": 131
943
+ },
944
+ {
945
+ "epoch": 0.44,
946
+ "grad_norm": 0.15093231201171875,
947
+ "learning_rate": 0.0001271830072236343,
948
+ "loss": 1.4898,
949
+ "step": 132
950
+ },
951
+ {
952
+ "epoch": 0.44333333333333336,
953
+ "grad_norm": 0.24701373279094696,
954
+ "learning_rate": 0.00012614250971021657,
955
+ "loss": 1.5876,
956
+ "step": 133
957
+ },
958
+ {
959
+ "epoch": 0.44666666666666666,
960
+ "grad_norm": 0.15908396244049072,
961
+ "learning_rate": 0.00012509896530643488,
962
+ "loss": 1.8188,
963
+ "step": 134
964
+ },
965
+ {
966
+ "epoch": 0.45,
967
+ "grad_norm": 0.17179876565933228,
968
+ "learning_rate": 0.00012405249563662537,
969
+ "loss": 1.6909,
970
+ "step": 135
971
+ },
972
+ {
973
+ "epoch": 0.4533333333333333,
974
+ "grad_norm": 0.2213679701089859,
975
+ "learning_rate": 0.00012300322266606178,
976
+ "loss": 1.8504,
977
+ "step": 136
978
+ },
979
+ {
980
+ "epoch": 0.45666666666666667,
981
+ "grad_norm": 0.1909617930650711,
982
+ "learning_rate": 0.00012195126868674051,
983
+ "loss": 1.7861,
984
+ "step": 137
985
+ },
986
+ {
987
+ "epoch": 0.46,
988
+ "grad_norm": 0.22522148489952087,
989
+ "learning_rate": 0.00012089675630312754,
990
+ "loss": 1.4303,
991
+ "step": 138
992
+ },
993
+ {
994
+ "epoch": 0.4633333333333333,
995
+ "grad_norm": 0.18442374467849731,
996
+ "learning_rate": 0.000119839808417869,
997
+ "loss": 1.7304,
998
+ "step": 139
999
+ },
1000
+ {
1001
+ "epoch": 0.4666666666666667,
1002
+ "grad_norm": 0.19756169617176056,
1003
+ "learning_rate": 0.00011878054821746703,
1004
+ "loss": 1.7696,
1005
+ "step": 140
1006
+ },
1007
+ {
1008
+ "epoch": 0.47,
1009
+ "grad_norm": 0.21999084949493408,
1010
+ "learning_rate": 0.0001177190991579223,
1011
+ "loss": 1.3715,
1012
+ "step": 141
1013
+ },
1014
+ {
1015
+ "epoch": 0.47333333333333333,
1016
+ "grad_norm": 0.15807120501995087,
1017
+ "learning_rate": 0.00011665558495034546,
1018
+ "loss": 1.6985,
1019
+ "step": 142
1020
+ },
1021
+ {
1022
+ "epoch": 0.4766666666666667,
1023
+ "grad_norm": 0.21601736545562744,
1024
+ "learning_rate": 0.00011559012954653865,
1025
+ "loss": 1.3233,
1026
+ "step": 143
1027
+ },
1028
+ {
1029
+ "epoch": 0.48,
1030
+ "grad_norm": 0.14652834832668304,
1031
+ "learning_rate": 0.00011452285712454904,
1032
+ "loss": 1.6432,
1033
+ "step": 144
1034
+ },
1035
+ {
1036
+ "epoch": 0.48333333333333334,
1037
+ "grad_norm": 0.11754251271486282,
1038
+ "learning_rate": 0.00011345389207419588,
1039
+ "loss": 1.9452,
1040
+ "step": 145
1041
+ },
1042
+ {
1043
+ "epoch": 0.4866666666666667,
1044
+ "grad_norm": 0.15474091470241547,
1045
+ "learning_rate": 0.00011238335898257304,
1046
+ "loss": 1.8238,
1047
+ "step": 146
1048
+ },
1049
+ {
1050
+ "epoch": 0.49,
1051
+ "grad_norm": 0.19140326976776123,
1052
+ "learning_rate": 0.00011131138261952845,
1053
+ "loss": 1.6152,
1054
+ "step": 147
1055
+ },
1056
+ {
1057
+ "epoch": 0.49333333333333335,
1058
+ "grad_norm": 0.17788617312908173,
1059
+ "learning_rate": 0.00011023808792312227,
1060
+ "loss": 1.7443,
1061
+ "step": 148
1062
+ },
1063
+ {
1064
+ "epoch": 0.49666666666666665,
1065
+ "grad_norm": 0.18357710540294647,
1066
+ "learning_rate": 0.0001091635999850655,
1067
+ "loss": 1.7117,
1068
+ "step": 149
1069
+ },
1070
+ {
1071
+ "epoch": 0.5,
1072
+ "grad_norm": 0.18637436628341675,
1073
+ "learning_rate": 0.00010808804403614043,
1074
+ "loss": 1.6151,
1075
+ "step": 150
1076
+ },
1077
+ {
1078
+ "epoch": 0.5033333333333333,
1079
+ "grad_norm": 0.18485836684703827,
1080
+ "learning_rate": 0.00010701154543160541,
1081
+ "loss": 1.2937,
1082
+ "step": 151
1083
+ },
1084
+ {
1085
+ "epoch": 0.5066666666666667,
1086
+ "grad_norm": 0.16544543206691742,
1087
+ "learning_rate": 0.00010593422963658452,
1088
+ "loss": 2.0701,
1089
+ "step": 152
1090
+ },
1091
+ {
1092
+ "epoch": 0.51,
1093
+ "grad_norm": 0.22352543473243713,
1094
+ "learning_rate": 0.00010485622221144484,
1095
+ "loss": 1.917,
1096
+ "step": 153
1097
+ },
1098
+ {
1099
+ "epoch": 0.5133333333333333,
1100
+ "grad_norm": 0.18895843625068665,
1101
+ "learning_rate": 0.00010377764879716234,
1102
+ "loss": 1.5448,
1103
+ "step": 154
1104
+ },
1105
+ {
1106
+ "epoch": 0.5166666666666667,
1107
+ "grad_norm": 0.15331783890724182,
1108
+ "learning_rate": 0.00010269863510067872,
1109
+ "loss": 1.7176,
1110
+ "step": 155
1111
+ },
1112
+ {
1113
+ "epoch": 0.52,
1114
+ "grad_norm": 0.23109984397888184,
1115
+ "learning_rate": 0.00010161930688025017,
1116
+ "loss": 1.533,
1117
+ "step": 156
1118
+ },
1119
+ {
1120
+ "epoch": 0.5233333333333333,
1121
+ "grad_norm": 0.14737705886363983,
1122
+ "learning_rate": 0.00010053978993079045,
1123
+ "loss": 1.738,
1124
+ "step": 157
1125
+ },
1126
+ {
1127
+ "epoch": 0.5266666666666666,
1128
+ "grad_norm": 0.17144230008125305,
1129
+ "learning_rate": 9.946021006920959e-05,
1130
+ "loss": 1.9154,
1131
+ "step": 158
1132
+ },
1133
+ {
1134
+ "epoch": 0.53,
1135
+ "grad_norm": 0.1662004441022873,
1136
+ "learning_rate": 9.838069311974986e-05,
1137
+ "loss": 1.8317,
1138
+ "step": 159
1139
+ },
1140
+ {
1141
+ "epoch": 0.5333333333333333,
1142
+ "grad_norm": 0.184712752699852,
1143
+ "learning_rate": 9.730136489932133e-05,
1144
+ "loss": 1.3791,
1145
+ "step": 160
1146
+ },
1147
+ {
1148
+ "epoch": 0.5366666666666666,
1149
+ "grad_norm": 0.2711019515991211,
1150
+ "learning_rate": 9.622235120283769e-05,
1151
+ "loss": 1.7356,
1152
+ "step": 161
1153
+ },
1154
+ {
1155
+ "epoch": 0.54,
1156
+ "grad_norm": 0.22583667933940887,
1157
+ "learning_rate": 9.514377778855521e-05,
1158
+ "loss": 1.839,
1159
+ "step": 162
1160
+ },
1161
+ {
1162
+ "epoch": 0.5433333333333333,
1163
+ "grad_norm": 0.19490784406661987,
1164
+ "learning_rate": 9.406577036341548e-05,
1165
+ "loss": 1.4991,
1166
+ "step": 163
1167
+ },
1168
+ {
1169
+ "epoch": 0.5466666666666666,
1170
+ "grad_norm": 0.15581147372722626,
1171
+ "learning_rate": 9.298845456839459e-05,
1172
+ "loss": 1.8299,
1173
+ "step": 164
1174
+ },
1175
+ {
1176
+ "epoch": 0.55,
1177
+ "grad_norm": 0.1860620230436325,
1178
+ "learning_rate": 9.19119559638596e-05,
1179
+ "loss": 2.1671,
1180
+ "step": 165
1181
+ },
1182
+ {
1183
+ "epoch": 0.5533333333333333,
1184
+ "grad_norm": 0.23739062249660492,
1185
+ "learning_rate": 9.083640001493454e-05,
1186
+ "loss": 2.3618,
1187
+ "step": 166
1188
+ },
1189
+ {
1190
+ "epoch": 0.5566666666666666,
1191
+ "grad_norm": 0.2087864726781845,
1192
+ "learning_rate": 8.976191207687775e-05,
1193
+ "loss": 1.7497,
1194
+ "step": 167
1195
+ },
1196
+ {
1197
+ "epoch": 0.56,
1198
+ "grad_norm": 0.14848671853542328,
1199
+ "learning_rate": 8.868861738047158e-05,
1200
+ "loss": 1.552,
1201
+ "step": 168
1202
+ },
1203
+ {
1204
+ "epoch": 0.5633333333333334,
1205
+ "grad_norm": 0.1923326849937439,
1206
+ "learning_rate": 8.7616641017427e-05,
1207
+ "loss": 1.9334,
1208
+ "step": 169
1209
+ },
1210
+ {
1211
+ "epoch": 0.5666666666666667,
1212
+ "grad_norm": 0.18040664494037628,
1213
+ "learning_rate": 8.654610792580415e-05,
1214
+ "loss": 1.8009,
1215
+ "step": 170
1216
+ },
1217
+ {
1218
+ "epoch": 0.57,
1219
+ "grad_norm": 0.19821511209011078,
1220
+ "learning_rate": 8.5477142875451e-05,
1221
+ "loss": 1.5184,
1222
+ "step": 171
1223
+ },
1224
+ {
1225
+ "epoch": 0.5733333333333334,
1226
+ "grad_norm": 0.24785931408405304,
1227
+ "learning_rate": 8.440987045346134e-05,
1228
+ "loss": 1.8505,
1229
+ "step": 172
1230
+ },
1231
+ {
1232
+ "epoch": 0.5766666666666667,
1233
+ "grad_norm": 0.17160287499427795,
1234
+ "learning_rate": 8.334441504965455e-05,
1235
+ "loss": 1.4808,
1236
+ "step": 173
1237
+ },
1238
+ {
1239
+ "epoch": 0.58,
1240
+ "grad_norm": 0.13557881116867065,
1241
+ "learning_rate": 8.228090084207774e-05,
1242
+ "loss": 1.6194,
1243
+ "step": 174
1244
+ },
1245
+ {
1246
+ "epoch": 0.5833333333333334,
1247
+ "grad_norm": 0.1418817937374115,
1248
+ "learning_rate": 8.1219451782533e-05,
1249
+ "loss": 1.4039,
1250
+ "step": 175
1251
+ },
1252
+ {
1253
+ "epoch": 0.5866666666666667,
1254
+ "grad_norm": 0.18646883964538574,
1255
+ "learning_rate": 8.016019158213101e-05,
1256
+ "loss": 1.5624,
1257
+ "step": 176
1258
+ },
1259
+ {
1260
+ "epoch": 0.59,
1261
+ "grad_norm": 0.1777251660823822,
1262
+ "learning_rate": 7.91032436968725e-05,
1263
+ "loss": 1.7192,
1264
+ "step": 177
1265
+ },
1266
+ {
1267
+ "epoch": 0.5933333333333334,
1268
+ "grad_norm": 0.14895232021808624,
1269
+ "learning_rate": 7.804873131325954e-05,
1270
+ "loss": 1.5677,
1271
+ "step": 178
1272
+ },
1273
+ {
1274
+ "epoch": 0.5966666666666667,
1275
+ "grad_norm": 0.19403791427612305,
1276
+ "learning_rate": 7.699677733393826e-05,
1277
+ "loss": 1.6584,
1278
+ "step": 179
1279
+ },
1280
+ {
1281
+ "epoch": 0.6,
1282
+ "grad_norm": 0.13547170162200928,
1283
+ "learning_rate": 7.594750436337467e-05,
1284
+ "loss": 1.29,
1285
+ "step": 180
1286
+ },
1287
+ {
1288
+ "epoch": 0.6,
1289
+ "eval_loss": 1.9572664499282837,
1290
+ "eval_runtime": 105.5497,
1291
+ "eval_samples_per_second": 2.842,
1292
+ "eval_steps_per_second": 0.36,
1293
+ "step": 180
1294
+ },
1295
+ {
1296
+ "epoch": 0.6033333333333334,
1297
+ "grad_norm": 0.16800864040851593,
1298
+ "learning_rate": 7.490103469356513e-05,
1299
+ "loss": 1.2715,
1300
+ "step": 181
1301
+ },
1302
+ {
1303
+ "epoch": 0.6066666666666667,
1304
+ "grad_norm": 0.29579752683639526,
1305
+ "learning_rate": 7.385749028978346e-05,
1306
+ "loss": 1.8179,
1307
+ "step": 182
1308
+ },
1309
+ {
1310
+ "epoch": 0.61,
1311
+ "grad_norm": 0.21788251399993896,
1312
+ "learning_rate": 7.281699277636572e-05,
1313
+ "loss": 1.4703,
1314
+ "step": 183
1315
+ },
1316
+ {
1317
+ "epoch": 0.6133333333333333,
1318
+ "grad_norm": 0.22312134504318237,
1319
+ "learning_rate": 7.177966342253524e-05,
1320
+ "loss": 1.8905,
1321
+ "step": 184
1322
+ },
1323
+ {
1324
+ "epoch": 0.6166666666666667,
1325
+ "grad_norm": 0.13738024234771729,
1326
+ "learning_rate": 7.07456231282686e-05,
1327
+ "loss": 1.7124,
1328
+ "step": 185
1329
+ },
1330
+ {
1331
+ "epoch": 0.62,
1332
+ "grad_norm": 0.23278340697288513,
1333
+ "learning_rate": 6.971499241020495e-05,
1334
+ "loss": 1.7325,
1335
+ "step": 186
1336
+ },
1337
+ {
1338
+ "epoch": 0.6233333333333333,
1339
+ "grad_norm": 0.21700285375118256,
1340
+ "learning_rate": 6.868789138759976e-05,
1341
+ "loss": 1.3786,
1342
+ "step": 187
1343
+ },
1344
+ {
1345
+ "epoch": 0.6266666666666667,
1346
+ "grad_norm": 0.2645608186721802,
1347
+ "learning_rate": 6.766443976832517e-05,
1348
+ "loss": 1.8447,
1349
+ "step": 188
1350
+ },
1351
+ {
1352
+ "epoch": 0.63,
1353
+ "grad_norm": 0.23962748050689697,
1354
+ "learning_rate": 6.664475683491796e-05,
1355
+ "loss": 1.6991,
1356
+ "step": 189
1357
+ },
1358
+ {
1359
+ "epoch": 0.6333333333333333,
1360
+ "grad_norm": 0.1541968584060669,
1361
+ "learning_rate": 6.562896143067734e-05,
1362
+ "loss": 1.6777,
1363
+ "step": 190
1364
+ },
1365
+ {
1366
+ "epoch": 0.6366666666666667,
1367
+ "grad_norm": 0.18910759687423706,
1368
+ "learning_rate": 6.461717194581393e-05,
1369
+ "loss": 1.6926,
1370
+ "step": 191
1371
+ },
1372
+ {
1373
+ "epoch": 0.64,
1374
+ "grad_norm": 0.12460765987634659,
1375
+ "learning_rate": 6.360950630365126e-05,
1376
+ "loss": 1.2618,
1377
+ "step": 192
1378
+ },
1379
+ {
1380
+ "epoch": 0.6433333333333333,
1381
+ "grad_norm": 0.1890854835510254,
1382
+ "learning_rate": 6.260608194688206e-05,
1383
+ "loss": 1.6225,
1384
+ "step": 193
1385
+ },
1386
+ {
1387
+ "epoch": 0.6466666666666666,
1388
+ "grad_norm": 0.14857855439186096,
1389
+ "learning_rate": 6.160701582388038e-05,
1390
+ "loss": 1.7004,
1391
+ "step": 194
1392
+ },
1393
+ {
1394
+ "epoch": 0.65,
1395
+ "grad_norm": 0.17963790893554688,
1396
+ "learning_rate": 6.061242437507131e-05,
1397
+ "loss": 1.2582,
1398
+ "step": 195
1399
+ },
1400
+ {
1401
+ "epoch": 0.6533333333333333,
1402
+ "grad_norm": 0.22860835492610931,
1403
+ "learning_rate": 5.962242351935985e-05,
1404
+ "loss": 1.7153,
1405
+ "step": 196
1406
+ },
1407
+ {
1408
+ "epoch": 0.6566666666666666,
1409
+ "grad_norm": 0.11601811647415161,
1410
+ "learning_rate": 5.863712864062089e-05,
1411
+ "loss": 1.3152,
1412
+ "step": 197
1413
+ },
1414
+ {
1415
+ "epoch": 0.66,
1416
+ "grad_norm": 0.2678441107273102,
1417
+ "learning_rate": 5.765665457425102e-05,
1418
+ "loss": 1.7089,
1419
+ "step": 198
1420
+ },
1421
+ {
1422
+ "epoch": 0.6633333333333333,
1423
+ "grad_norm": 0.14132283627986908,
1424
+ "learning_rate": 5.668111559378471e-05,
1425
+ "loss": 1.5296,
1426
+ "step": 199
1427
+ },
1428
+ {
1429
+ "epoch": 0.6666666666666666,
1430
+ "grad_norm": 0.1803818643093109,
1431
+ "learning_rate": 5.571062539757581e-05,
1432
+ "loss": 1.7109,
1433
+ "step": 200
1434
+ },
1435
+ {
1436
+ "epoch": 0.67,
1437
+ "grad_norm": 0.18806160986423492,
1438
+ "learning_rate": 5.474529709554612e-05,
1439
+ "loss": 1.564,
1440
+ "step": 201
1441
+ },
1442
+ {
1443
+ "epoch": 0.6733333333333333,
1444
+ "grad_norm": 0.1855868101119995,
1445
+ "learning_rate": 5.378524319600231e-05,
1446
+ "loss": 1.6849,
1447
+ "step": 202
1448
+ },
1449
+ {
1450
+ "epoch": 0.6766666666666666,
1451
+ "grad_norm": 0.14401951432228088,
1452
+ "learning_rate": 5.283057559252341e-05,
1453
+ "loss": 1.6278,
1454
+ "step": 203
1455
+ },
1456
+ {
1457
+ "epoch": 0.68,
1458
+ "grad_norm": 0.13861948251724243,
1459
+ "learning_rate": 5.1881405550919493e-05,
1460
+ "loss": 1.7262,
1461
+ "step": 204
1462
+ },
1463
+ {
1464
+ "epoch": 0.6833333333333333,
1465
+ "grad_norm": 0.3547126054763794,
1466
+ "learning_rate": 5.0937843696263966e-05,
1467
+ "loss": 2.1987,
1468
+ "step": 205
1469
+ },
1470
+ {
1471
+ "epoch": 0.6866666666666666,
1472
+ "grad_norm": 0.2394469678401947,
1473
+ "learning_rate": 5.000000000000002e-05,
1474
+ "loss": 1.7782,
1475
+ "step": 206
1476
+ },
1477
+ {
1478
+ "epoch": 0.69,
1479
+ "grad_norm": 0.17434202134609222,
1480
+ "learning_rate": 4.9067983767123736e-05,
1481
+ "loss": 1.6292,
1482
+ "step": 207
1483
+ },
1484
+ {
1485
+ "epoch": 0.6933333333333334,
1486
+ "grad_norm": 0.22222231328487396,
1487
+ "learning_rate": 4.814190362344454e-05,
1488
+ "loss": 1.8205,
1489
+ "step": 208
1490
+ },
1491
+ {
1492
+ "epoch": 0.6966666666666667,
1493
+ "grad_norm": 0.14674372971057892,
1494
+ "learning_rate": 4.722186750292511e-05,
1495
+ "loss": 1.3575,
1496
+ "step": 209
1497
+ },
1498
+ {
1499
+ "epoch": 0.7,
1500
+ "grad_norm": 0.23563924431800842,
1501
+ "learning_rate": 4.630798263510162e-05,
1502
+ "loss": 2.0979,
1503
+ "step": 210
1504
+ },
1505
+ {
1506
+ "epoch": 0.7033333333333334,
1507
+ "grad_norm": 0.19721245765686035,
1508
+ "learning_rate": 4.540035553258619e-05,
1509
+ "loss": 1.6031,
1510
+ "step": 211
1511
+ },
1512
+ {
1513
+ "epoch": 0.7066666666666667,
1514
+ "grad_norm": 0.1618299037218094,
1515
+ "learning_rate": 4.449909197865303e-05,
1516
+ "loss": 1.7319,
1517
+ "step": 212
1518
+ },
1519
+ {
1520
+ "epoch": 0.71,
1521
+ "grad_norm": 0.2110472023487091,
1522
+ "learning_rate": 4.360429701490934e-05,
1523
+ "loss": 1.8205,
1524
+ "step": 213
1525
+ },
1526
+ {
1527
+ "epoch": 0.7133333333333334,
1528
+ "grad_norm": 0.16100046038627625,
1529
+ "learning_rate": 4.271607492905303e-05,
1530
+ "loss": 1.7695,
1531
+ "step": 214
1532
+ },
1533
+ {
1534
+ "epoch": 0.7166666666666667,
1535
+ "grad_norm": 0.16993089020252228,
1536
+ "learning_rate": 4.183452924271776e-05,
1537
+ "loss": 1.6692,
1538
+ "step": 215
1539
+ },
1540
+ {
1541
+ "epoch": 0.72,
1542
+ "grad_norm": 0.19697882235050201,
1543
+ "learning_rate": 4.0959762699407766e-05,
1544
+ "loss": 1.6532,
1545
+ "step": 216
1546
+ },
1547
+ {
1548
+ "epoch": 0.7233333333333334,
1549
+ "grad_norm": 0.17745055258274078,
1550
+ "learning_rate": 4.009187725252309e-05,
1551
+ "loss": 1.7848,
1552
+ "step": 217
1553
+ },
1554
+ {
1555
+ "epoch": 0.7266666666666667,
1556
+ "grad_norm": 0.187378391623497,
1557
+ "learning_rate": 3.9230974053477086e-05,
1558
+ "loss": 1.656,
1559
+ "step": 218
1560
+ },
1561
+ {
1562
+ "epoch": 0.73,
1563
+ "grad_norm": 0.15109644830226898,
1564
+ "learning_rate": 3.8377153439907266e-05,
1565
+ "loss": 1.5773,
1566
+ "step": 219
1567
+ },
1568
+ {
1569
+ "epoch": 0.7333333333333333,
1570
+ "grad_norm": 0.1965898722410202,
1571
+ "learning_rate": 3.7530514923980884e-05,
1572
+ "loss": 1.7998,
1573
+ "step": 220
1574
+ },
1575
+ {
1576
+ "epoch": 0.7366666666666667,
1577
+ "grad_norm": 0.13748736679553986,
1578
+ "learning_rate": 3.669115718079702e-05,
1579
+ "loss": 1.7072,
1580
+ "step": 221
1581
+ },
1582
+ {
1583
+ "epoch": 0.74,
1584
+ "grad_norm": 0.16212758421897888,
1585
+ "learning_rate": 3.585917803688603e-05,
1586
+ "loss": 1.5043,
1587
+ "step": 222
1588
+ },
1589
+ {
1590
+ "epoch": 0.7433333333333333,
1591
+ "grad_norm": 0.19969479739665985,
1592
+ "learning_rate": 3.503467445880789e-05,
1593
+ "loss": 1.1802,
1594
+ "step": 223
1595
+ },
1596
+ {
1597
+ "epoch": 0.7466666666666667,
1598
+ "grad_norm": 0.19470465183258057,
1599
+ "learning_rate": 3.421774254185096e-05,
1600
+ "loss": 1.7774,
1601
+ "step": 224
1602
+ },
1603
+ {
1604
+ "epoch": 0.75,
1605
+ "grad_norm": 0.17509035766124725,
1606
+ "learning_rate": 3.340847749883191e-05,
1607
+ "loss": 1.7423,
1608
+ "step": 225
1609
+ },
1610
+ {
1611
+ "epoch": 0.7533333333333333,
1612
+ "grad_norm": 0.16134221851825714,
1613
+ "learning_rate": 3.2606973648998915e-05,
1614
+ "loss": 1.7789,
1615
+ "step": 226
1616
+ },
1617
+ {
1618
+ "epoch": 0.7566666666666667,
1619
+ "grad_norm": 0.13019809126853943,
1620
+ "learning_rate": 3.1813324407038825e-05,
1621
+ "loss": 1.6566,
1622
+ "step": 227
1623
+ },
1624
+ {
1625
+ "epoch": 0.76,
1626
+ "grad_norm": 0.17759770154953003,
1627
+ "learning_rate": 3.102762227218957e-05,
1628
+ "loss": 1.7183,
1629
+ "step": 228
1630
+ },
1631
+ {
1632
+ "epoch": 0.7633333333333333,
1633
+ "grad_norm": 0.22855810821056366,
1634
+ "learning_rate": 3.0249958817459722e-05,
1635
+ "loss": 1.4156,
1636
+ "step": 229
1637
+ },
1638
+ {
1639
+ "epoch": 0.7666666666666667,
1640
+ "grad_norm": 0.18700584769248962,
1641
+ "learning_rate": 2.9480424678955443e-05,
1642
+ "loss": 1.36,
1643
+ "step": 230
1644
+ },
1645
+ {
1646
+ "epoch": 0.77,
1647
+ "grad_norm": 0.23632779717445374,
1648
+ "learning_rate": 2.8719109545317103e-05,
1649
+ "loss": 2.4022,
1650
+ "step": 231
1651
+ },
1652
+ {
1653
+ "epoch": 0.7733333333333333,
1654
+ "grad_norm": 0.225185826420784,
1655
+ "learning_rate": 2.7966102147265994e-05,
1656
+ "loss": 1.5102,
1657
+ "step": 232
1658
+ },
1659
+ {
1660
+ "epoch": 0.7766666666666666,
1661
+ "grad_norm": 0.153280109167099,
1662
+ "learning_rate": 2.722149024726307e-05,
1663
+ "loss": 1.6525,
1664
+ "step": 233
1665
+ },
1666
+ {
1667
+ "epoch": 0.78,
1668
+ "grad_norm": 0.2028931975364685,
1669
+ "learning_rate": 2.6485360629279987e-05,
1670
+ "loss": 1.6028,
1671
+ "step": 234
1672
+ },
1673
+ {
1674
+ "epoch": 0.7833333333333333,
1675
+ "grad_norm": 0.11865737289190292,
1676
+ "learning_rate": 2.5757799088684654e-05,
1677
+ "loss": 1.9712,
1678
+ "step": 235
1679
+ },
1680
+ {
1681
+ "epoch": 0.7866666666666666,
1682
+ "grad_norm": 0.16811503469944,
1683
+ "learning_rate": 2.5038890422241958e-05,
1684
+ "loss": 1.8192,
1685
+ "step": 236
1686
+ },
1687
+ {
1688
+ "epoch": 0.79,
1689
+ "grad_norm": 0.2171882688999176,
1690
+ "learning_rate": 2.432871841823047e-05,
1691
+ "loss": 1.8958,
1692
+ "step": 237
1693
+ },
1694
+ {
1695
+ "epoch": 0.7933333333333333,
1696
+ "grad_norm": 0.1831800788640976,
1697
+ "learning_rate": 2.3627365846677306e-05,
1698
+ "loss": 1.8858,
1699
+ "step": 238
1700
+ },
1701
+ {
1702
+ "epoch": 0.7966666666666666,
1703
+ "grad_norm": 0.1818980723619461,
1704
+ "learning_rate": 2.2934914449711087e-05,
1705
+ "loss": 1.8898,
1706
+ "step": 239
1707
+ },
1708
+ {
1709
+ "epoch": 0.8,
1710
+ "grad_norm": 0.16912035644054413,
1711
+ "learning_rate": 2.2251444932035094e-05,
1712
+ "loss": 1.6317,
1713
+ "step": 240
1714
+ },
1715
+ {
1716
+ "epoch": 0.8,
1717
+ "eval_loss": 1.9515124559402466,
1718
+ "eval_runtime": 105.7502,
1719
+ "eval_samples_per_second": 2.837,
1720
+ "eval_steps_per_second": 0.359,
1721
+ "step": 240
1722
+ },
1723
+ {
1724
+ "epoch": 0.8033333333333333,
1725
+ "grad_norm": 0.26389726996421814,
1726
+ "learning_rate": 2.157703695152109e-05,
1727
+ "loss": 1.5613,
1728
+ "step": 241
1729
+ },
1730
+ {
1731
+ "epoch": 0.8066666666666666,
1732
+ "grad_norm": 0.17984025180339813,
1733
+ "learning_rate": 2.091176910992545e-05,
1734
+ "loss": 1.6669,
1735
+ "step": 242
1736
+ },
1737
+ {
1738
+ "epoch": 0.81,
1739
+ "grad_norm": 0.2281753122806549,
1740
+ "learning_rate": 2.025571894372794e-05,
1741
+ "loss": 1.7596,
1742
+ "step": 243
1743
+ },
1744
+ {
1745
+ "epoch": 0.8133333333333334,
1746
+ "grad_norm": 0.28229451179504395,
1747
+ "learning_rate": 1.9608962915094996e-05,
1748
+ "loss": 1.9176,
1749
+ "step": 244
1750
+ },
1751
+ {
1752
+ "epoch": 0.8166666666666667,
1753
+ "grad_norm": 0.21417230367660522,
1754
+ "learning_rate": 1.897157640296825e-05,
1755
+ "loss": 1.7502,
1756
+ "step": 245
1757
+ },
1758
+ {
1759
+ "epoch": 0.82,
1760
+ "grad_norm": 0.18738320469856262,
1761
+ "learning_rate": 1.8343633694278895e-05,
1762
+ "loss": 2.11,
1763
+ "step": 246
1764
+ },
1765
+ {
1766
+ "epoch": 0.8233333333333334,
1767
+ "grad_norm": 0.14456549286842346,
1768
+ "learning_rate": 1.772520797528988e-05,
1769
+ "loss": 1.868,
1770
+ "step": 247
1771
+ },
1772
+ {
1773
+ "epoch": 0.8266666666666667,
1774
+ "grad_norm": 0.2031559944152832,
1775
+ "learning_rate": 1.7116371323065883e-05,
1776
+ "loss": 1.3048,
1777
+ "step": 248
1778
+ },
1779
+ {
1780
+ "epoch": 0.83,
1781
+ "grad_norm": 0.49127626419067383,
1782
+ "learning_rate": 1.65171946970729e-05,
1783
+ "loss": 1.6597,
1784
+ "step": 249
1785
+ },
1786
+ {
1787
+ "epoch": 0.8333333333333334,
1788
+ "grad_norm": 0.12952959537506104,
1789
+ "learning_rate": 1.592774793090792e-05,
1790
+ "loss": 1.6928,
1791
+ "step": 250
1792
+ },
1793
+ {
1794
+ "epoch": 0.8366666666666667,
1795
+ "grad_norm": 0.16764536499977112,
1796
+ "learning_rate": 1.534809972415998e-05,
1797
+ "loss": 1.2168,
1798
+ "step": 251
1799
+ },
1800
+ {
1801
+ "epoch": 0.84,
1802
+ "grad_norm": 0.17101448774337769,
1803
+ "learning_rate": 1.4778317634403083e-05,
1804
+ "loss": 1.5374,
1805
+ "step": 252
1806
+ },
1807
+ {
1808
+ "epoch": 0.8433333333333334,
1809
+ "grad_norm": 0.19581882655620575,
1810
+ "learning_rate": 1.4218468069322578e-05,
1811
+ "loss": 1.7137,
1812
+ "step": 253
1813
+ },
1814
+ {
1815
+ "epoch": 0.8466666666666667,
1816
+ "grad_norm": 0.1691337525844574,
1817
+ "learning_rate": 1.3668616278975343e-05,
1818
+ "loss": 1.7247,
1819
+ "step": 254
1820
+ },
1821
+ {
1822
+ "epoch": 0.85,
1823
+ "grad_norm": 0.10976916551589966,
1824
+ "learning_rate": 1.3128826348184887e-05,
1825
+ "loss": 1.7101,
1826
+ "step": 255
1827
+ },
1828
+ {
1829
+ "epoch": 0.8533333333333334,
1830
+ "grad_norm": 0.14474567770957947,
1831
+ "learning_rate": 1.2599161189072427e-05,
1832
+ "loss": 1.6163,
1833
+ "step": 256
1834
+ },
1835
+ {
1836
+ "epoch": 0.8566666666666667,
1837
+ "grad_norm": 0.1492033302783966,
1838
+ "learning_rate": 1.2079682533724379e-05,
1839
+ "loss": 1.5831,
1840
+ "step": 257
1841
+ },
1842
+ {
1843
+ "epoch": 0.86,
1844
+ "grad_norm": 0.500358521938324,
1845
+ "learning_rate": 1.1570450926997655e-05,
1846
+ "loss": 1.9243,
1847
+ "step": 258
1848
+ },
1849
+ {
1850
+ "epoch": 0.8633333333333333,
1851
+ "grad_norm": 0.1507658064365387,
1852
+ "learning_rate": 1.1071525719463095e-05,
1853
+ "loss": 1.6014,
1854
+ "step": 259
1855
+ },
1856
+ {
1857
+ "epoch": 0.8666666666666667,
1858
+ "grad_norm": 0.13210022449493408,
1859
+ "learning_rate": 1.0582965060488359e-05,
1860
+ "loss": 1.8596,
1861
+ "step": 260
1862
+ },
1863
+ {
1864
+ "epoch": 0.87,
1865
+ "grad_norm": 0.18185356259346008,
1866
+ "learning_rate": 1.010482589146048e-05,
1867
+ "loss": 1.3959,
1868
+ "step": 261
1869
+ },
1870
+ {
1871
+ "epoch": 0.8733333333333333,
1872
+ "grad_norm": 0.1475716084241867,
1873
+ "learning_rate": 9.637163939149485e-06,
1874
+ "loss": 2.0064,
1875
+ "step": 262
1876
+ },
1877
+ {
1878
+ "epoch": 0.8766666666666667,
1879
+ "grad_norm": 0.20647890865802765,
1880
+ "learning_rate": 9.180033709213454e-06,
1881
+ "loss": 1.9017,
1882
+ "step": 263
1883
+ },
1884
+ {
1885
+ "epoch": 0.88,
1886
+ "grad_norm": 0.16821038722991943,
1887
+ "learning_rate": 8.733488479845997e-06,
1888
+ "loss": 1.4959,
1889
+ "step": 264
1890
+ },
1891
+ {
1892
+ "epoch": 0.8833333333333333,
1893
+ "grad_norm": 0.2551242709159851,
1894
+ "learning_rate": 8.297580295566575e-06,
1895
+ "loss": 1.7765,
1896
+ "step": 265
1897
+ },
1898
+ {
1899
+ "epoch": 0.8866666666666667,
1900
+ "grad_norm": 0.1547422707080841,
1901
+ "learning_rate": 7.872359961154906e-06,
1902
+ "loss": 1.9658,
1903
+ "step": 266
1904
+ },
1905
+ {
1906
+ "epoch": 0.89,
1907
+ "grad_norm": 0.19091367721557617,
1908
+ "learning_rate": 7.457877035729588e-06,
1909
+ "loss": 1.4526,
1910
+ "step": 267
1911
+ },
1912
+ {
1913
+ "epoch": 0.8933333333333333,
1914
+ "grad_norm": 0.18940412998199463,
1915
+ "learning_rate": 7.054179826972074e-06,
1916
+ "loss": 1.9816,
1917
+ "step": 268
1918
+ },
1919
+ {
1920
+ "epoch": 0.8966666666666666,
1921
+ "grad_norm": 0.20087075233459473,
1922
+ "learning_rate": 6.661315385496425e-06,
1923
+ "loss": 1.9941,
1924
+ "step": 269
1925
+ },
1926
+ {
1927
+ "epoch": 0.9,
1928
+ "grad_norm": 0.13561421632766724,
1929
+ "learning_rate": 6.2793294993656494e-06,
1930
+ "loss": 1.9879,
1931
+ "step": 270
1932
+ },
1933
+ {
1934
+ "epoch": 0.9033333333333333,
1935
+ "grad_norm": 0.13483434915542603,
1936
+ "learning_rate": 5.908266688755049e-06,
1937
+ "loss": 1.6953,
1938
+ "step": 271
1939
+ },
1940
+ {
1941
+ "epoch": 0.9066666666666666,
1942
+ "grad_norm": 0.19798149168491364,
1943
+ "learning_rate": 5.54817020076347e-06,
1944
+ "loss": 1.6216,
1945
+ "step": 272
1946
+ },
1947
+ {
1948
+ "epoch": 0.91,
1949
+ "grad_norm": 0.15632538497447968,
1950
+ "learning_rate": 5.199082004372957e-06,
1951
+ "loss": 1.7665,
1952
+ "step": 273
1953
+ },
1954
+ {
1955
+ "epoch": 0.9133333333333333,
1956
+ "grad_norm": 0.18586932122707367,
1957
+ "learning_rate": 4.861042785557146e-06,
1958
+ "loss": 2.0123,
1959
+ "step": 274
1960
+ },
1961
+ {
1962
+ "epoch": 0.9166666666666666,
1963
+ "grad_norm": 0.16410577297210693,
1964
+ "learning_rate": 4.534091942539475e-06,
1965
+ "loss": 1.7443,
1966
+ "step": 275
1967
+ },
1968
+ {
1969
+ "epoch": 0.92,
1970
+ "grad_norm": 0.1842477172613144,
1971
+ "learning_rate": 4.2182675812012965e-06,
1972
+ "loss": 1.528,
1973
+ "step": 276
1974
+ },
1975
+ {
1976
+ "epoch": 0.9233333333333333,
1977
+ "grad_norm": 0.1795828491449356,
1978
+ "learning_rate": 3.913606510640644e-06,
1979
+ "loss": 1.6607,
1980
+ "step": 277
1981
+ },
1982
+ {
1983
+ "epoch": 0.9266666666666666,
1984
+ "grad_norm": 0.24803687632083893,
1985
+ "learning_rate": 3.620144238882206e-06,
1986
+ "loss": 1.5034,
1987
+ "step": 278
1988
+ },
1989
+ {
1990
+ "epoch": 0.93,
1991
+ "grad_norm": 0.23375527560710907,
1992
+ "learning_rate": 3.3379149687388867e-06,
1993
+ "loss": 1.7486,
1994
+ "step": 279
1995
+ },
1996
+ {
1997
+ "epoch": 0.9333333333333333,
1998
+ "grad_norm": 0.1961246132850647,
1999
+ "learning_rate": 3.06695159382544e-06,
2000
+ "loss": 1.4684,
2001
+ "step": 280
2002
+ },
2003
+ {
2004
+ "epoch": 0.9366666666666666,
2005
+ "grad_norm": 0.17305491864681244,
2006
+ "learning_rate": 2.8072856947248037e-06,
2007
+ "loss": 1.8544,
2008
+ "step": 281
2009
+ },
2010
+ {
2011
+ "epoch": 0.94,
2012
+ "grad_norm": 0.1923137605190277,
2013
+ "learning_rate": 2.5589475353073988e-06,
2014
+ "loss": 1.8947,
2015
+ "step": 282
2016
+ },
2017
+ {
2018
+ "epoch": 0.9433333333333334,
2019
+ "grad_norm": 0.14171859622001648,
2020
+ "learning_rate": 2.3219660592038285e-06,
2021
+ "loss": 2.1618,
2022
+ "step": 283
2023
+ },
2024
+ {
2025
+ "epoch": 0.9466666666666667,
2026
+ "grad_norm": 0.13578371703624725,
2027
+ "learning_rate": 2.0963688864316323e-06,
2028
+ "loss": 1.9193,
2029
+ "step": 284
2030
+ },
2031
+ {
2032
+ "epoch": 0.95,
2033
+ "grad_norm": 0.20825190842151642,
2034
+ "learning_rate": 1.882182310176095e-06,
2035
+ "loss": 1.7954,
2036
+ "step": 285
2037
+ },
2038
+ {
2039
+ "epoch": 0.9533333333333334,
2040
+ "grad_norm": 0.16706398129463196,
2041
+ "learning_rate": 1.6794312937258417e-06,
2042
+ "loss": 2.1252,
2043
+ "step": 286
2044
+ },
2045
+ {
2046
+ "epoch": 0.9566666666666667,
2047
+ "grad_norm": 0.11100097745656967,
2048
+ "learning_rate": 1.488139467563354e-06,
2049
+ "loss": 1.4543,
2050
+ "step": 287
2051
+ },
2052
+ {
2053
+ "epoch": 0.96,
2054
+ "grad_norm": 0.16676479578018188,
2055
+ "learning_rate": 1.30832912661093e-06,
2056
+ "loss": 1.7001,
2057
+ "step": 288
2058
+ },
2059
+ {
2060
+ "epoch": 0.9633333333333334,
2061
+ "grad_norm": 0.14126090705394745,
2062
+ "learning_rate": 1.1400212276321376e-06,
2063
+ "loss": 1.4247,
2064
+ "step": 289
2065
+ },
2066
+ {
2067
+ "epoch": 0.9666666666666667,
2068
+ "grad_norm": 0.15663489699363708,
2069
+ "learning_rate": 9.832353867893386e-07,
2070
+ "loss": 0.9358,
2071
+ "step": 290
2072
+ },
2073
+ {
2074
+ "epoch": 0.97,
2075
+ "grad_norm": 0.2205333262681961,
2076
+ "learning_rate": 8.379898773574924e-07,
2077
+ "loss": 1.6609,
2078
+ "step": 291
2079
+ },
2080
+ {
2081
+ "epoch": 0.9733333333333334,
2082
+ "grad_norm": 0.1646774411201477,
2083
+ "learning_rate": 7.043016275943615e-07,
2084
+ "loss": 1.8591,
2085
+ "step": 292
2086
+ },
2087
+ {
2088
+ "epoch": 0.9766666666666667,
2089
+ "grad_norm": 0.20356421172618866,
2090
+ "learning_rate": 5.821862187675775e-07,
2091
+ "loss": 1.9469,
2092
+ "step": 293
2093
+ },
2094
+ {
2095
+ "epoch": 0.98,
2096
+ "grad_norm": 0.17772065103054047,
2097
+ "learning_rate": 4.7165788333860536e-07,
2098
+ "loss": 1.0896,
2099
+ "step": 294
2100
+ },
2101
+ {
2102
+ "epoch": 0.9833333333333333,
2103
+ "grad_norm": 0.1542958915233612,
2104
+ "learning_rate": 3.727295033040035e-07,
2105
+ "loss": 1.5185,
2106
+ "step": 295
2107
+ },
2108
+ {
2109
+ "epoch": 0.9866666666666667,
2110
+ "grad_norm": 0.1795244961977005,
2111
+ "learning_rate": 2.854126086940356e-07,
2112
+ "loss": 1.7396,
2113
+ "step": 296
2114
+ },
2115
+ {
2116
+ "epoch": 0.99,
2117
+ "grad_norm": 0.16536656022071838,
2118
+ "learning_rate": 2.0971737622883515e-07,
2119
+ "loss": 1.7716,
2120
+ "step": 297
2121
+ },
2122
+ {
2123
+ "epoch": 0.9933333333333333,
2124
+ "grad_norm": 0.20850741863250732,
2125
+ "learning_rate": 1.4565262813230894e-07,
2126
+ "loss": 1.2772,
2127
+ "step": 298
2128
+ },
2129
+ {
2130
+ "epoch": 0.9966666666666667,
2131
+ "grad_norm": 0.16341620683670044,
2132
+ "learning_rate": 9.32258311039269e-08,
2133
+ "loss": 1.5941,
2134
+ "step": 299
2135
+ },
2136
+ {
2137
+ "epoch": 1.0,
2138
+ "grad_norm": 0.19970038533210754,
2139
+ "learning_rate": 5.2443095448506674e-08,
2140
+ "loss": 1.7513,
2141
+ "step": 300
2142
+ },
2143
+ {
2144
+ "epoch": 1.0,
2145
+ "eval_loss": 1.9492239952087402,
2146
+ "eval_runtime": 107.0008,
2147
+ "eval_samples_per_second": 2.804,
2148
+ "eval_steps_per_second": 0.355,
2149
+ "step": 300
2150
+ }
2151
+ ],
2152
+ "logging_steps": 1,
2153
+ "max_steps": 300,
2154
+ "num_input_tokens_seen": 0,
2155
+ "num_train_epochs": 1,
2156
+ "save_steps": 500,
2157
+ "stateful_callbacks": {
2158
+ "TrainerControl": {
2159
+ "args": {
2160
+ "should_epoch_stop": false,
2161
+ "should_evaluate": false,
2162
+ "should_log": false,
2163
+ "should_save": true,
2164
+ "should_training_stop": true
2165
+ },
2166
+ "attributes": {}
2167
+ }
2168
+ },
2169
+ "total_flos": 1.3809234445438157e+17,
2170
+ "train_batch_size": 1,
2171
+ "trial_name": null,
2172
+ "trial_params": null
2173
+ }