fsommers commited on
Commit
e2ddbf4
·
verified ·
1 Parent(s): f626ece

Initial commit with LoRA

Browse files
adapter_config.json ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "alpha_pattern": {},
3
+ "auto_mapping": null,
4
+ "base_model_name_or_path": "HuggingFaceM4/Idefics3-8B-Llama3",
5
+ "bias": "none",
6
+ "fan_in_fan_out": false,
7
+ "inference_mode": false,
8
+ "init_lora_weights": "gaussian",
9
+ "layer_replication": null,
10
+ "layers_pattern": null,
11
+ "layers_to_transform": null,
12
+ "loftq_config": {},
13
+ "lora_alpha": 8,
14
+ "lora_dropout": 0.1,
15
+ "megatron_config": null,
16
+ "megatron_core": "megatron.core",
17
+ "modules_to_save": null,
18
+ "peft_type": "LORA",
19
+ "r": 8,
20
+ "rank_pattern": {},
21
+ "revision": null,
22
+ "target_modules": ".*(text_model|connector).*(down_proj|gate_proj|up_proj|k_proj|q_proj|v_proj|o_proj).*$",
23
+ "task_type": null,
24
+ "use_dora": false,
25
+ "use_rslora": false
26
+ }
adapter_model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c3cd0b773b95893136e29473a57dad00ab4d9cea5ce1636d500aabf22def7bff
3
+ size 83950224
generation_config.json ADDED
@@ -0,0 +1,12 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "bos_token_id": 128000,
4
+ "eos_token_id": [
5
+ 128001,
6
+ 128008,
7
+ 128009
8
+ ],
9
+ "pad_token_id": 128002,
10
+ "transformers_version": "4.45.0.dev0",
11
+ "use_cache": false
12
+ }
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5661cc038018142132cb5f7dcf941a2ff396fdff16decdf361a0c946ca872f44
3
+ size 42546196
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fbcbb0c40771333f08d627ee7a2b3454868c252ac0f43546dc445586a56c2a87
3
+ size 14244
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:097ce7a83bd4f3af5436d8b17f963920c1d8c472a5e334590645c58bb31b38dd
3
+ size 1064
trainer_state.json ADDED
@@ -0,0 +1,1230 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 1.0,
5
+ "eval_steps": 500,
6
+ "global_step": 4287,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.005831583858175881,
13
+ "grad_norm": 1.3819491863250732,
14
+ "learning_rate": 5e-05,
15
+ "loss": 8.7045,
16
+ "step": 25
17
+ },
18
+ {
19
+ "epoch": 0.011663167716351761,
20
+ "grad_norm": 0.21646396815776825,
21
+ "learning_rate": 0.0001,
22
+ "loss": 0.0321,
23
+ "step": 50
24
+ },
25
+ {
26
+ "epoch": 0.01749475157452764,
27
+ "grad_norm": 0.11650694161653519,
28
+ "learning_rate": 9.940995987727166e-05,
29
+ "loss": 0.014,
30
+ "step": 75
31
+ },
32
+ {
33
+ "epoch": 0.023326335432703522,
34
+ "grad_norm": 0.12974420189857483,
35
+ "learning_rate": 9.881991975454331e-05,
36
+ "loss": 0.0099,
37
+ "step": 100
38
+ },
39
+ {
40
+ "epoch": 0.0291579192908794,
41
+ "grad_norm": 0.16743576526641846,
42
+ "learning_rate": 9.822987963181498e-05,
43
+ "loss": 0.0101,
44
+ "step": 125
45
+ },
46
+ {
47
+ "epoch": 0.03498950314905528,
48
+ "grad_norm": 0.2192072570323944,
49
+ "learning_rate": 9.763983950908663e-05,
50
+ "loss": 0.0095,
51
+ "step": 150
52
+ },
53
+ {
54
+ "epoch": 0.040821087007231166,
55
+ "grad_norm": 0.1741335690021515,
56
+ "learning_rate": 9.704979938635828e-05,
57
+ "loss": 0.0096,
58
+ "step": 175
59
+ },
60
+ {
61
+ "epoch": 0.046652670865407045,
62
+ "grad_norm": 0.11039887368679047,
63
+ "learning_rate": 9.645975926362993e-05,
64
+ "loss": 0.0072,
65
+ "step": 200
66
+ },
67
+ {
68
+ "epoch": 0.052484254723582924,
69
+ "grad_norm": 0.16088618338108063,
70
+ "learning_rate": 9.586971914090159e-05,
71
+ "loss": 0.009,
72
+ "step": 225
73
+ },
74
+ {
75
+ "epoch": 0.0583158385817588,
76
+ "grad_norm": 0.07560613751411438,
77
+ "learning_rate": 9.527967901817324e-05,
78
+ "loss": 0.0074,
79
+ "step": 250
80
+ },
81
+ {
82
+ "epoch": 0.06414742243993468,
83
+ "grad_norm": 0.0758112445473671,
84
+ "learning_rate": 9.46896388954449e-05,
85
+ "loss": 0.0092,
86
+ "step": 275
87
+ },
88
+ {
89
+ "epoch": 0.06997900629811056,
90
+ "grad_norm": 0.10088574141263962,
91
+ "learning_rate": 9.409959877271654e-05,
92
+ "loss": 0.008,
93
+ "step": 300
94
+ },
95
+ {
96
+ "epoch": 0.07581059015628645,
97
+ "grad_norm": 0.09721095860004425,
98
+ "learning_rate": 9.350955864998821e-05,
99
+ "loss": 0.0072,
100
+ "step": 325
101
+ },
102
+ {
103
+ "epoch": 0.08164217401446233,
104
+ "grad_norm": 0.11294808238744736,
105
+ "learning_rate": 9.291951852725986e-05,
106
+ "loss": 0.0069,
107
+ "step": 350
108
+ },
109
+ {
110
+ "epoch": 0.08747375787263821,
111
+ "grad_norm": 0.1476767361164093,
112
+ "learning_rate": 9.232947840453151e-05,
113
+ "loss": 0.009,
114
+ "step": 375
115
+ },
116
+ {
117
+ "epoch": 0.09330534173081409,
118
+ "grad_norm": 0.11318453401327133,
119
+ "learning_rate": 9.173943828180317e-05,
120
+ "loss": 0.0081,
121
+ "step": 400
122
+ },
123
+ {
124
+ "epoch": 0.09913692558898997,
125
+ "grad_norm": 0.10059420764446259,
126
+ "learning_rate": 9.114939815907482e-05,
127
+ "loss": 0.0073,
128
+ "step": 425
129
+ },
130
+ {
131
+ "epoch": 0.10496850944716585,
132
+ "grad_norm": 0.0688878670334816,
133
+ "learning_rate": 9.055935803634647e-05,
134
+ "loss": 0.0071,
135
+ "step": 450
136
+ },
137
+ {
138
+ "epoch": 0.11080009330534173,
139
+ "grad_norm": 0.2254699021577835,
140
+ "learning_rate": 8.996931791361814e-05,
141
+ "loss": 0.0084,
142
+ "step": 475
143
+ },
144
+ {
145
+ "epoch": 0.1166316771635176,
146
+ "grad_norm": 0.09738397598266602,
147
+ "learning_rate": 8.937927779088978e-05,
148
+ "loss": 0.0074,
149
+ "step": 500
150
+ },
151
+ {
152
+ "epoch": 0.1224632610216935,
153
+ "grad_norm": 0.10569097846746445,
154
+ "learning_rate": 8.878923766816144e-05,
155
+ "loss": 0.0076,
156
+ "step": 525
157
+ },
158
+ {
159
+ "epoch": 0.12829484487986936,
160
+ "grad_norm": 0.09912018477916718,
161
+ "learning_rate": 8.81991975454331e-05,
162
+ "loss": 0.0082,
163
+ "step": 550
164
+ },
165
+ {
166
+ "epoch": 0.13412642873804526,
167
+ "grad_norm": 0.06858157366514206,
168
+ "learning_rate": 8.760915742270475e-05,
169
+ "loss": 0.008,
170
+ "step": 575
171
+ },
172
+ {
173
+ "epoch": 0.13995801259622112,
174
+ "grad_norm": 0.09230218082666397,
175
+ "learning_rate": 8.70191172999764e-05,
176
+ "loss": 0.008,
177
+ "step": 600
178
+ },
179
+ {
180
+ "epoch": 0.145789596454397,
181
+ "grad_norm": 0.09949750453233719,
182
+ "learning_rate": 8.642907717724805e-05,
183
+ "loss": 0.008,
184
+ "step": 625
185
+ },
186
+ {
187
+ "epoch": 0.1516211803125729,
188
+ "grad_norm": 0.1029815599322319,
189
+ "learning_rate": 8.58390370545197e-05,
190
+ "loss": 0.008,
191
+ "step": 650
192
+ },
193
+ {
194
+ "epoch": 0.15745276417074877,
195
+ "grad_norm": 0.05565624684095383,
196
+ "learning_rate": 8.524899693179137e-05,
197
+ "loss": 0.0076,
198
+ "step": 675
199
+ },
200
+ {
201
+ "epoch": 0.16328434802892466,
202
+ "grad_norm": 0.07810457050800323,
203
+ "learning_rate": 8.465895680906301e-05,
204
+ "loss": 0.0082,
205
+ "step": 700
206
+ },
207
+ {
208
+ "epoch": 0.16911593188710053,
209
+ "grad_norm": 0.16746339201927185,
210
+ "learning_rate": 8.406891668633468e-05,
211
+ "loss": 0.0076,
212
+ "step": 725
213
+ },
214
+ {
215
+ "epoch": 0.17494751574527642,
216
+ "grad_norm": 0.2016323357820511,
217
+ "learning_rate": 8.347887656360633e-05,
218
+ "loss": 0.007,
219
+ "step": 750
220
+ },
221
+ {
222
+ "epoch": 0.1807790996034523,
223
+ "grad_norm": 0.11883407831192017,
224
+ "learning_rate": 8.288883644087798e-05,
225
+ "loss": 0.0074,
226
+ "step": 775
227
+ },
228
+ {
229
+ "epoch": 0.18661068346162818,
230
+ "grad_norm": 0.08053091168403625,
231
+ "learning_rate": 8.229879631814964e-05,
232
+ "loss": 0.0079,
233
+ "step": 800
234
+ },
235
+ {
236
+ "epoch": 0.19244226731980407,
237
+ "grad_norm": 0.05473201349377632,
238
+ "learning_rate": 8.170875619542129e-05,
239
+ "loss": 0.0072,
240
+ "step": 825
241
+ },
242
+ {
243
+ "epoch": 0.19827385117797994,
244
+ "grad_norm": 0.06678241491317749,
245
+ "learning_rate": 8.111871607269294e-05,
246
+ "loss": 0.0068,
247
+ "step": 850
248
+ },
249
+ {
250
+ "epoch": 0.20410543503615583,
251
+ "grad_norm": 0.04147233068943024,
252
+ "learning_rate": 8.05286759499646e-05,
253
+ "loss": 0.0071,
254
+ "step": 875
255
+ },
256
+ {
257
+ "epoch": 0.2099370188943317,
258
+ "grad_norm": 0.14302900433540344,
259
+ "learning_rate": 7.993863582723626e-05,
260
+ "loss": 0.0069,
261
+ "step": 900
262
+ },
263
+ {
264
+ "epoch": 0.2157686027525076,
265
+ "grad_norm": 0.07474330812692642,
266
+ "learning_rate": 7.934859570450791e-05,
267
+ "loss": 0.0081,
268
+ "step": 925
269
+ },
270
+ {
271
+ "epoch": 0.22160018661068345,
272
+ "grad_norm": 0.053421154618263245,
273
+ "learning_rate": 7.875855558177956e-05,
274
+ "loss": 0.0074,
275
+ "step": 950
276
+ },
277
+ {
278
+ "epoch": 0.22743177046885935,
279
+ "grad_norm": 0.10754521191120148,
280
+ "learning_rate": 7.816851545905122e-05,
281
+ "loss": 0.0068,
282
+ "step": 975
283
+ },
284
+ {
285
+ "epoch": 0.2332633543270352,
286
+ "grad_norm": 0.028845086693763733,
287
+ "learning_rate": 7.757847533632287e-05,
288
+ "loss": 0.0064,
289
+ "step": 1000
290
+ },
291
+ {
292
+ "epoch": 0.2390949381852111,
293
+ "grad_norm": 0.08012504875659943,
294
+ "learning_rate": 7.698843521359452e-05,
295
+ "loss": 0.007,
296
+ "step": 1025
297
+ },
298
+ {
299
+ "epoch": 0.244926522043387,
300
+ "grad_norm": 0.12295565754175186,
301
+ "learning_rate": 7.639839509086619e-05,
302
+ "loss": 0.0064,
303
+ "step": 1050
304
+ },
305
+ {
306
+ "epoch": 0.2507581059015629,
307
+ "grad_norm": 0.07045774906873703,
308
+ "learning_rate": 7.580835496813784e-05,
309
+ "loss": 0.0077,
310
+ "step": 1075
311
+ },
312
+ {
313
+ "epoch": 0.2565896897597387,
314
+ "grad_norm": 0.07725486904382706,
315
+ "learning_rate": 7.521831484540949e-05,
316
+ "loss": 0.0058,
317
+ "step": 1100
318
+ },
319
+ {
320
+ "epoch": 0.2624212736179146,
321
+ "grad_norm": 0.062186215072870255,
322
+ "learning_rate": 7.462827472268115e-05,
323
+ "loss": 0.0082,
324
+ "step": 1125
325
+ },
326
+ {
327
+ "epoch": 0.2682528574760905,
328
+ "grad_norm": 0.04699672758579254,
329
+ "learning_rate": 7.403823459995281e-05,
330
+ "loss": 0.0064,
331
+ "step": 1150
332
+ },
333
+ {
334
+ "epoch": 0.2740844413342664,
335
+ "grad_norm": 0.0840052142739296,
336
+ "learning_rate": 7.344819447722445e-05,
337
+ "loss": 0.0083,
338
+ "step": 1175
339
+ },
340
+ {
341
+ "epoch": 0.27991602519244224,
342
+ "grad_norm": 0.08768948912620544,
343
+ "learning_rate": 7.285815435449612e-05,
344
+ "loss": 0.0067,
345
+ "step": 1200
346
+ },
347
+ {
348
+ "epoch": 0.28574760905061813,
349
+ "grad_norm": 0.11442771553993225,
350
+ "learning_rate": 7.226811423176776e-05,
351
+ "loss": 0.0068,
352
+ "step": 1225
353
+ },
354
+ {
355
+ "epoch": 0.291579192908794,
356
+ "grad_norm": 0.04983456805348396,
357
+ "learning_rate": 7.167807410903942e-05,
358
+ "loss": 0.0079,
359
+ "step": 1250
360
+ },
361
+ {
362
+ "epoch": 0.2974107767669699,
363
+ "grad_norm": 0.0609428770840168,
364
+ "learning_rate": 7.108803398631107e-05,
365
+ "loss": 0.0074,
366
+ "step": 1275
367
+ },
368
+ {
369
+ "epoch": 0.3032423606251458,
370
+ "grad_norm": 0.04944339394569397,
371
+ "learning_rate": 7.049799386358273e-05,
372
+ "loss": 0.008,
373
+ "step": 1300
374
+ },
375
+ {
376
+ "epoch": 0.30907394448332165,
377
+ "grad_norm": 0.07327156513929367,
378
+ "learning_rate": 6.990795374085438e-05,
379
+ "loss": 0.0079,
380
+ "step": 1325
381
+ },
382
+ {
383
+ "epoch": 0.31490552834149754,
384
+ "grad_norm": 0.04584205895662308,
385
+ "learning_rate": 6.931791361812605e-05,
386
+ "loss": 0.0084,
387
+ "step": 1350
388
+ },
389
+ {
390
+ "epoch": 0.32073711219967344,
391
+ "grad_norm": 0.02472819946706295,
392
+ "learning_rate": 6.872787349539768e-05,
393
+ "loss": 0.0068,
394
+ "step": 1375
395
+ },
396
+ {
397
+ "epoch": 0.32656869605784933,
398
+ "grad_norm": 0.04464813694357872,
399
+ "learning_rate": 6.813783337266935e-05,
400
+ "loss": 0.0068,
401
+ "step": 1400
402
+ },
403
+ {
404
+ "epoch": 0.33240027991602517,
405
+ "grad_norm": 0.1550447791814804,
406
+ "learning_rate": 6.754779324994099e-05,
407
+ "loss": 0.0085,
408
+ "step": 1425
409
+ },
410
+ {
411
+ "epoch": 0.33823186377420106,
412
+ "grad_norm": 0.07317336648702621,
413
+ "learning_rate": 6.695775312721266e-05,
414
+ "loss": 0.0078,
415
+ "step": 1450
416
+ },
417
+ {
418
+ "epoch": 0.34406344763237695,
419
+ "grad_norm": 0.08646785467863083,
420
+ "learning_rate": 6.636771300448431e-05,
421
+ "loss": 0.0089,
422
+ "step": 1475
423
+ },
424
+ {
425
+ "epoch": 0.34989503149055284,
426
+ "grad_norm": 0.05935555696487427,
427
+ "learning_rate": 6.577767288175596e-05,
428
+ "loss": 0.0079,
429
+ "step": 1500
430
+ },
431
+ {
432
+ "epoch": 0.35572661534872874,
433
+ "grad_norm": 0.045770954340696335,
434
+ "learning_rate": 6.518763275902761e-05,
435
+ "loss": 0.0075,
436
+ "step": 1525
437
+ },
438
+ {
439
+ "epoch": 0.3615581992069046,
440
+ "grad_norm": 0.060902174562215805,
441
+ "learning_rate": 6.459759263629928e-05,
442
+ "loss": 0.0063,
443
+ "step": 1550
444
+ },
445
+ {
446
+ "epoch": 0.36738978306508047,
447
+ "grad_norm": 0.11909040063619614,
448
+ "learning_rate": 6.400755251357092e-05,
449
+ "loss": 0.0068,
450
+ "step": 1575
451
+ },
452
+ {
453
+ "epoch": 0.37322136692325636,
454
+ "grad_norm": 0.10495050251483917,
455
+ "learning_rate": 6.341751239084258e-05,
456
+ "loss": 0.0074,
457
+ "step": 1600
458
+ },
459
+ {
460
+ "epoch": 0.37905295078143225,
461
+ "grad_norm": 0.08483859896659851,
462
+ "learning_rate": 6.282747226811424e-05,
463
+ "loss": 0.0066,
464
+ "step": 1625
465
+ },
466
+ {
467
+ "epoch": 0.38488453463960814,
468
+ "grad_norm": 0.05936511233448982,
469
+ "learning_rate": 6.223743214538589e-05,
470
+ "loss": 0.0068,
471
+ "step": 1650
472
+ },
473
+ {
474
+ "epoch": 0.390716118497784,
475
+ "grad_norm": 0.03783701732754707,
476
+ "learning_rate": 6.164739202265754e-05,
477
+ "loss": 0.0067,
478
+ "step": 1675
479
+ },
480
+ {
481
+ "epoch": 0.3965477023559599,
482
+ "grad_norm": 0.03322950750589371,
483
+ "learning_rate": 6.10573518999292e-05,
484
+ "loss": 0.0067,
485
+ "step": 1700
486
+ },
487
+ {
488
+ "epoch": 0.40237928621413577,
489
+ "grad_norm": 0.06542570888996124,
490
+ "learning_rate": 6.0467311777200854e-05,
491
+ "loss": 0.007,
492
+ "step": 1725
493
+ },
494
+ {
495
+ "epoch": 0.40821087007231166,
496
+ "grad_norm": 0.05515117570757866,
497
+ "learning_rate": 5.987727165447251e-05,
498
+ "loss": 0.0069,
499
+ "step": 1750
500
+ },
501
+ {
502
+ "epoch": 0.4140424539304875,
503
+ "grad_norm": 0.06597180664539337,
504
+ "learning_rate": 5.928723153174416e-05,
505
+ "loss": 0.0066,
506
+ "step": 1775
507
+ },
508
+ {
509
+ "epoch": 0.4198740377886634,
510
+ "grad_norm": 0.14175090193748474,
511
+ "learning_rate": 5.869719140901582e-05,
512
+ "loss": 0.0072,
513
+ "step": 1800
514
+ },
515
+ {
516
+ "epoch": 0.4257056216468393,
517
+ "grad_norm": 0.08393794298171997,
518
+ "learning_rate": 5.810715128628748e-05,
519
+ "loss": 0.007,
520
+ "step": 1825
521
+ },
522
+ {
523
+ "epoch": 0.4315372055050152,
524
+ "grad_norm": 0.05573498085141182,
525
+ "learning_rate": 5.751711116355912e-05,
526
+ "loss": 0.0079,
527
+ "step": 1850
528
+ },
529
+ {
530
+ "epoch": 0.43736878936319107,
531
+ "grad_norm": 0.08545993268489838,
532
+ "learning_rate": 5.692707104083078e-05,
533
+ "loss": 0.0073,
534
+ "step": 1875
535
+ },
536
+ {
537
+ "epoch": 0.4432003732213669,
538
+ "grad_norm": 0.05015942454338074,
539
+ "learning_rate": 5.633703091810243e-05,
540
+ "loss": 0.0078,
541
+ "step": 1900
542
+ },
543
+ {
544
+ "epoch": 0.4490319570795428,
545
+ "grad_norm": 0.08075055480003357,
546
+ "learning_rate": 5.574699079537409e-05,
547
+ "loss": 0.0078,
548
+ "step": 1925
549
+ },
550
+ {
551
+ "epoch": 0.4548635409377187,
552
+ "grad_norm": 0.027930203825235367,
553
+ "learning_rate": 5.515695067264575e-05,
554
+ "loss": 0.0068,
555
+ "step": 1950
556
+ },
557
+ {
558
+ "epoch": 0.4606951247958946,
559
+ "grad_norm": 0.12208261340856552,
560
+ "learning_rate": 5.456691054991739e-05,
561
+ "loss": 0.0076,
562
+ "step": 1975
563
+ },
564
+ {
565
+ "epoch": 0.4665267086540704,
566
+ "grad_norm": 0.07081254571676254,
567
+ "learning_rate": 5.397687042718905e-05,
568
+ "loss": 0.0073,
569
+ "step": 2000
570
+ },
571
+ {
572
+ "epoch": 0.4723582925122463,
573
+ "grad_norm": 0.06605388969182968,
574
+ "learning_rate": 5.338683030446071e-05,
575
+ "loss": 0.0067,
576
+ "step": 2025
577
+ },
578
+ {
579
+ "epoch": 0.4781898763704222,
580
+ "grad_norm": 0.07699355483055115,
581
+ "learning_rate": 5.279679018173236e-05,
582
+ "loss": 0.0074,
583
+ "step": 2050
584
+ },
585
+ {
586
+ "epoch": 0.4840214602285981,
587
+ "grad_norm": 0.07484355568885803,
588
+ "learning_rate": 5.2206750059004016e-05,
589
+ "loss": 0.008,
590
+ "step": 2075
591
+ },
592
+ {
593
+ "epoch": 0.489853044086774,
594
+ "grad_norm": 0.05196300894021988,
595
+ "learning_rate": 5.161670993627566e-05,
596
+ "loss": 0.0086,
597
+ "step": 2100
598
+ },
599
+ {
600
+ "epoch": 0.49568462794494983,
601
+ "grad_norm": 0.07191181927919388,
602
+ "learning_rate": 5.102666981354732e-05,
603
+ "loss": 0.0063,
604
+ "step": 2125
605
+ },
606
+ {
607
+ "epoch": 0.5015162118031258,
608
+ "grad_norm": 0.12823079526424408,
609
+ "learning_rate": 5.043662969081898e-05,
610
+ "loss": 0.0065,
611
+ "step": 2150
612
+ },
613
+ {
614
+ "epoch": 0.5073477956613016,
615
+ "grad_norm": 0.05935099348425865,
616
+ "learning_rate": 4.9846589568090633e-05,
617
+ "loss": 0.0072,
618
+ "step": 2175
619
+ },
620
+ {
621
+ "epoch": 0.5131793795194775,
622
+ "grad_norm": 0.07369107007980347,
623
+ "learning_rate": 4.9256549445362286e-05,
624
+ "loss": 0.0071,
625
+ "step": 2200
626
+ },
627
+ {
628
+ "epoch": 0.5190109633776534,
629
+ "grad_norm": 0.05355490744113922,
630
+ "learning_rate": 4.866650932263394e-05,
631
+ "loss": 0.007,
632
+ "step": 2225
633
+ },
634
+ {
635
+ "epoch": 0.5248425472358292,
636
+ "grad_norm": 0.0854572206735611,
637
+ "learning_rate": 4.807646919990559e-05,
638
+ "loss": 0.0069,
639
+ "step": 2250
640
+ },
641
+ {
642
+ "epoch": 0.5306741310940052,
643
+ "grad_norm": 0.058111775666475296,
644
+ "learning_rate": 4.748642907717725e-05,
645
+ "loss": 0.0074,
646
+ "step": 2275
647
+ },
648
+ {
649
+ "epoch": 0.536505714952181,
650
+ "grad_norm": 0.06656444817781448,
651
+ "learning_rate": 4.68963889544489e-05,
652
+ "loss": 0.0064,
653
+ "step": 2300
654
+ },
655
+ {
656
+ "epoch": 0.5423372988103569,
657
+ "grad_norm": 0.08224783837795258,
658
+ "learning_rate": 4.6306348831720555e-05,
659
+ "loss": 0.0082,
660
+ "step": 2325
661
+ },
662
+ {
663
+ "epoch": 0.5481688826685328,
664
+ "grad_norm": 0.06290777772665024,
665
+ "learning_rate": 4.5716308708992215e-05,
666
+ "loss": 0.0066,
667
+ "step": 2350
668
+ },
669
+ {
670
+ "epoch": 0.5540004665267086,
671
+ "grad_norm": 0.046868737787008286,
672
+ "learning_rate": 4.512626858626387e-05,
673
+ "loss": 0.0064,
674
+ "step": 2375
675
+ },
676
+ {
677
+ "epoch": 0.5598320503848845,
678
+ "grad_norm": 0.08161591738462448,
679
+ "learning_rate": 4.453622846353552e-05,
680
+ "loss": 0.0086,
681
+ "step": 2400
682
+ },
683
+ {
684
+ "epoch": 0.5656636342430604,
685
+ "grad_norm": 0.06194046139717102,
686
+ "learning_rate": 4.394618834080718e-05,
687
+ "loss": 0.0071,
688
+ "step": 2425
689
+ },
690
+ {
691
+ "epoch": 0.5714952181012363,
692
+ "grad_norm": 0.06799814105033875,
693
+ "learning_rate": 4.335614821807883e-05,
694
+ "loss": 0.0065,
695
+ "step": 2450
696
+ },
697
+ {
698
+ "epoch": 0.5773268019594122,
699
+ "grad_norm": 0.06985451281070709,
700
+ "learning_rate": 4.276610809535049e-05,
701
+ "loss": 0.0096,
702
+ "step": 2475
703
+ },
704
+ {
705
+ "epoch": 0.583158385817588,
706
+ "grad_norm": 0.045887541025877,
707
+ "learning_rate": 4.2176067972622144e-05,
708
+ "loss": 0.0066,
709
+ "step": 2500
710
+ },
711
+ {
712
+ "epoch": 0.5889899696757639,
713
+ "grad_norm": 0.10378813743591309,
714
+ "learning_rate": 4.1586027849893796e-05,
715
+ "loss": 0.0066,
716
+ "step": 2525
717
+ },
718
+ {
719
+ "epoch": 0.5948215535339398,
720
+ "grad_norm": 0.037475138902664185,
721
+ "learning_rate": 4.099598772716545e-05,
722
+ "loss": 0.0077,
723
+ "step": 2550
724
+ },
725
+ {
726
+ "epoch": 0.6006531373921157,
727
+ "grad_norm": 0.13552173972129822,
728
+ "learning_rate": 4.040594760443711e-05,
729
+ "loss": 0.0082,
730
+ "step": 2575
731
+ },
732
+ {
733
+ "epoch": 0.6064847212502916,
734
+ "grad_norm": 0.049305260181427,
735
+ "learning_rate": 3.981590748170876e-05,
736
+ "loss": 0.0063,
737
+ "step": 2600
738
+ },
739
+ {
740
+ "epoch": 0.6123163051084675,
741
+ "grad_norm": 0.0553220734000206,
742
+ "learning_rate": 3.922586735898041e-05,
743
+ "loss": 0.0079,
744
+ "step": 2625
745
+ },
746
+ {
747
+ "epoch": 0.6181478889666433,
748
+ "grad_norm": 0.043462011963129044,
749
+ "learning_rate": 3.8635827236252066e-05,
750
+ "loss": 0.0067,
751
+ "step": 2650
752
+ },
753
+ {
754
+ "epoch": 0.6239794728248192,
755
+ "grad_norm": 0.331167995929718,
756
+ "learning_rate": 3.8045787113523725e-05,
757
+ "loss": 0.008,
758
+ "step": 2675
759
+ },
760
+ {
761
+ "epoch": 0.6298110566829951,
762
+ "grad_norm": 0.06077446788549423,
763
+ "learning_rate": 3.745574699079538e-05,
764
+ "loss": 0.0067,
765
+ "step": 2700
766
+ },
767
+ {
768
+ "epoch": 0.635642640541171,
769
+ "grad_norm": 0.06422346830368042,
770
+ "learning_rate": 3.686570686806703e-05,
771
+ "loss": 0.0072,
772
+ "step": 2725
773
+ },
774
+ {
775
+ "epoch": 0.6414742243993469,
776
+ "grad_norm": 0.053520068526268005,
777
+ "learning_rate": 3.627566674533868e-05,
778
+ "loss": 0.0057,
779
+ "step": 2750
780
+ },
781
+ {
782
+ "epoch": 0.6473058082575227,
783
+ "grad_norm": 0.08369456231594086,
784
+ "learning_rate": 3.568562662261034e-05,
785
+ "loss": 0.0071,
786
+ "step": 2775
787
+ },
788
+ {
789
+ "epoch": 0.6531373921156987,
790
+ "grad_norm": 0.07306842505931854,
791
+ "learning_rate": 3.5095586499881994e-05,
792
+ "loss": 0.0065,
793
+ "step": 2800
794
+ },
795
+ {
796
+ "epoch": 0.6589689759738745,
797
+ "grad_norm": 0.04199352487921715,
798
+ "learning_rate": 3.450554637715365e-05,
799
+ "loss": 0.007,
800
+ "step": 2825
801
+ },
802
+ {
803
+ "epoch": 0.6648005598320503,
804
+ "grad_norm": 0.04420465603470802,
805
+ "learning_rate": 3.39155062544253e-05,
806
+ "loss": 0.0064,
807
+ "step": 2850
808
+ },
809
+ {
810
+ "epoch": 0.6706321436902263,
811
+ "grad_norm": 0.09053666144609451,
812
+ "learning_rate": 3.332546613169696e-05,
813
+ "loss": 0.0057,
814
+ "step": 2875
815
+ },
816
+ {
817
+ "epoch": 0.6764637275484021,
818
+ "grad_norm": 0.04140497371554375,
819
+ "learning_rate": 3.273542600896861e-05,
820
+ "loss": 0.0067,
821
+ "step": 2900
822
+ },
823
+ {
824
+ "epoch": 0.6822953114065781,
825
+ "grad_norm": 0.038969893008470535,
826
+ "learning_rate": 3.2145385886240264e-05,
827
+ "loss": 0.0059,
828
+ "step": 2925
829
+ },
830
+ {
831
+ "epoch": 0.6881268952647539,
832
+ "grad_norm": 0.05273483693599701,
833
+ "learning_rate": 3.1555345763511916e-05,
834
+ "loss": 0.0065,
835
+ "step": 2950
836
+ },
837
+ {
838
+ "epoch": 0.6939584791229297,
839
+ "grad_norm": 0.0726546123623848,
840
+ "learning_rate": 3.0965305640783576e-05,
841
+ "loss": 0.0061,
842
+ "step": 2975
843
+ },
844
+ {
845
+ "epoch": 0.6997900629811057,
846
+ "grad_norm": 0.07580599933862686,
847
+ "learning_rate": 3.0375265518055228e-05,
848
+ "loss": 0.0068,
849
+ "step": 3000
850
+ },
851
+ {
852
+ "epoch": 0.7056216468392815,
853
+ "grad_norm": 0.036154165863990784,
854
+ "learning_rate": 2.978522539532688e-05,
855
+ "loss": 0.0078,
856
+ "step": 3025
857
+ },
858
+ {
859
+ "epoch": 0.7114532306974575,
860
+ "grad_norm": 0.07397032529115677,
861
+ "learning_rate": 2.919518527259854e-05,
862
+ "loss": 0.006,
863
+ "step": 3050
864
+ },
865
+ {
866
+ "epoch": 0.7172848145556333,
867
+ "grad_norm": 0.11983916163444519,
868
+ "learning_rate": 2.8605145149870193e-05,
869
+ "loss": 0.0067,
870
+ "step": 3075
871
+ },
872
+ {
873
+ "epoch": 0.7231163984138091,
874
+ "grad_norm": 0.0615057498216629,
875
+ "learning_rate": 2.801510502714185e-05,
876
+ "loss": 0.0079,
877
+ "step": 3100
878
+ },
879
+ {
880
+ "epoch": 0.7289479822719851,
881
+ "grad_norm": 0.03690054267644882,
882
+ "learning_rate": 2.74250649044135e-05,
883
+ "loss": 0.0067,
884
+ "step": 3125
885
+ },
886
+ {
887
+ "epoch": 0.7347795661301609,
888
+ "grad_norm": 0.07274270802736282,
889
+ "learning_rate": 2.6835024781685157e-05,
890
+ "loss": 0.0073,
891
+ "step": 3150
892
+ },
893
+ {
894
+ "epoch": 0.7406111499883369,
895
+ "grad_norm": 0.0663859024643898,
896
+ "learning_rate": 2.6244984658956813e-05,
897
+ "loss": 0.0071,
898
+ "step": 3175
899
+ },
900
+ {
901
+ "epoch": 0.7464427338465127,
902
+ "grad_norm": 0.05553248152136803,
903
+ "learning_rate": 2.5654944536228466e-05,
904
+ "loss": 0.0075,
905
+ "step": 3200
906
+ },
907
+ {
908
+ "epoch": 0.7522743177046886,
909
+ "grad_norm": 0.04285744950175285,
910
+ "learning_rate": 2.5064904413500118e-05,
911
+ "loss": 0.0066,
912
+ "step": 3225
913
+ },
914
+ {
915
+ "epoch": 0.7581059015628645,
916
+ "grad_norm": 0.09008394181728363,
917
+ "learning_rate": 2.4474864290771774e-05,
918
+ "loss": 0.0076,
919
+ "step": 3250
920
+ },
921
+ {
922
+ "epoch": 0.7639374854210403,
923
+ "grad_norm": 0.058279018849134445,
924
+ "learning_rate": 2.388482416804343e-05,
925
+ "loss": 0.0075,
926
+ "step": 3275
927
+ },
928
+ {
929
+ "epoch": 0.7697690692792163,
930
+ "grad_norm": 0.05219094827771187,
931
+ "learning_rate": 2.3294784045315082e-05,
932
+ "loss": 0.0071,
933
+ "step": 3300
934
+ },
935
+ {
936
+ "epoch": 0.7756006531373921,
937
+ "grad_norm": 0.05435522645711899,
938
+ "learning_rate": 2.270474392258674e-05,
939
+ "loss": 0.006,
940
+ "step": 3325
941
+ },
942
+ {
943
+ "epoch": 0.781432236995568,
944
+ "grad_norm": 0.05999380722641945,
945
+ "learning_rate": 2.211470379985839e-05,
946
+ "loss": 0.0084,
947
+ "step": 3350
948
+ },
949
+ {
950
+ "epoch": 0.7872638208537439,
951
+ "grad_norm": 0.029552578926086426,
952
+ "learning_rate": 2.1524663677130047e-05,
953
+ "loss": 0.0061,
954
+ "step": 3375
955
+ },
956
+ {
957
+ "epoch": 0.7930954047119197,
958
+ "grad_norm": 0.039268866181373596,
959
+ "learning_rate": 2.09346235544017e-05,
960
+ "loss": 0.0069,
961
+ "step": 3400
962
+ },
963
+ {
964
+ "epoch": 0.7989269885700956,
965
+ "grad_norm": 0.05782666802406311,
966
+ "learning_rate": 2.0344583431673355e-05,
967
+ "loss": 0.0067,
968
+ "step": 3425
969
+ },
970
+ {
971
+ "epoch": 0.8047585724282715,
972
+ "grad_norm": 0.03869437053799629,
973
+ "learning_rate": 1.9754543308945008e-05,
974
+ "loss": 0.0066,
975
+ "step": 3450
976
+ },
977
+ {
978
+ "epoch": 0.8105901562864474,
979
+ "grad_norm": 0.05132381245493889,
980
+ "learning_rate": 1.9164503186216664e-05,
981
+ "loss": 0.0064,
982
+ "step": 3475
983
+ },
984
+ {
985
+ "epoch": 0.8164217401446233,
986
+ "grad_norm": 0.08721393346786499,
987
+ "learning_rate": 1.8574463063488316e-05,
988
+ "loss": 0.0084,
989
+ "step": 3500
990
+ },
991
+ {
992
+ "epoch": 0.8222533240027992,
993
+ "grad_norm": 0.08003130555152893,
994
+ "learning_rate": 1.7984422940759972e-05,
995
+ "loss": 0.0058,
996
+ "step": 3525
997
+ },
998
+ {
999
+ "epoch": 0.828084907860975,
1000
+ "grad_norm": 0.05190620571374893,
1001
+ "learning_rate": 1.7394382818031625e-05,
1002
+ "loss": 0.0066,
1003
+ "step": 3550
1004
+ },
1005
+ {
1006
+ "epoch": 0.8339164917191509,
1007
+ "grad_norm": 0.06803402304649353,
1008
+ "learning_rate": 1.680434269530328e-05,
1009
+ "loss": 0.0069,
1010
+ "step": 3575
1011
+ },
1012
+ {
1013
+ "epoch": 0.8397480755773268,
1014
+ "grad_norm": 0.05517745763063431,
1015
+ "learning_rate": 1.6214302572574937e-05,
1016
+ "loss": 0.0086,
1017
+ "step": 3600
1018
+ },
1019
+ {
1020
+ "epoch": 0.8455796594355027,
1021
+ "grad_norm": 0.05708625167608261,
1022
+ "learning_rate": 1.5624262449846593e-05,
1023
+ "loss": 0.0063,
1024
+ "step": 3625
1025
+ },
1026
+ {
1027
+ "epoch": 0.8514112432936786,
1028
+ "grad_norm": 0.05021214112639427,
1029
+ "learning_rate": 1.5034222327118243e-05,
1030
+ "loss": 0.0056,
1031
+ "step": 3650
1032
+ },
1033
+ {
1034
+ "epoch": 0.8572428271518544,
1035
+ "grad_norm": 0.06552550941705704,
1036
+ "learning_rate": 1.44441822043899e-05,
1037
+ "loss": 0.0065,
1038
+ "step": 3675
1039
+ },
1040
+ {
1041
+ "epoch": 0.8630744110100304,
1042
+ "grad_norm": 0.05650312826037407,
1043
+ "learning_rate": 1.3854142081661554e-05,
1044
+ "loss": 0.0071,
1045
+ "step": 3700
1046
+ },
1047
+ {
1048
+ "epoch": 0.8689059948682062,
1049
+ "grad_norm": 0.021646451205015182,
1050
+ "learning_rate": 1.326410195893321e-05,
1051
+ "loss": 0.0056,
1052
+ "step": 3725
1053
+ },
1054
+ {
1055
+ "epoch": 0.8747375787263821,
1056
+ "grad_norm": 0.04382350668311119,
1057
+ "learning_rate": 1.2674061836204862e-05,
1058
+ "loss": 0.0068,
1059
+ "step": 3750
1060
+ },
1061
+ {
1062
+ "epoch": 0.880569162584558,
1063
+ "grad_norm": 0.06425108760595322,
1064
+ "learning_rate": 1.2084021713476516e-05,
1065
+ "loss": 0.008,
1066
+ "step": 3775
1067
+ },
1068
+ {
1069
+ "epoch": 0.8864007464427338,
1070
+ "grad_norm": 0.07273637503385544,
1071
+ "learning_rate": 1.1493981590748172e-05,
1072
+ "loss": 0.0065,
1073
+ "step": 3800
1074
+ },
1075
+ {
1076
+ "epoch": 0.8922323303009098,
1077
+ "grad_norm": 0.0765676200389862,
1078
+ "learning_rate": 1.0903941468019826e-05,
1079
+ "loss": 0.006,
1080
+ "step": 3825
1081
+ },
1082
+ {
1083
+ "epoch": 0.8980639141590856,
1084
+ "grad_norm": 0.05742628127336502,
1085
+ "learning_rate": 1.031390134529148e-05,
1086
+ "loss": 0.007,
1087
+ "step": 3850
1088
+ },
1089
+ {
1090
+ "epoch": 0.9038954980172614,
1091
+ "grad_norm": 0.059533748775720596,
1092
+ "learning_rate": 9.723861222563135e-06,
1093
+ "loss": 0.0064,
1094
+ "step": 3875
1095
+ },
1096
+ {
1097
+ "epoch": 0.9097270818754374,
1098
+ "grad_norm": 0.02601277269423008,
1099
+ "learning_rate": 9.13382109983479e-06,
1100
+ "loss": 0.0061,
1101
+ "step": 3900
1102
+ },
1103
+ {
1104
+ "epoch": 0.9155586657336132,
1105
+ "grad_norm": 0.04568032547831535,
1106
+ "learning_rate": 8.543780977106443e-06,
1107
+ "loss": 0.0064,
1108
+ "step": 3925
1109
+ },
1110
+ {
1111
+ "epoch": 0.9213902495917892,
1112
+ "grad_norm": 0.04665420576930046,
1113
+ "learning_rate": 7.9537408543781e-06,
1114
+ "loss": 0.0072,
1115
+ "step": 3950
1116
+ },
1117
+ {
1118
+ "epoch": 0.927221833449965,
1119
+ "grad_norm": 0.04735620319843292,
1120
+ "learning_rate": 7.363700731649753e-06,
1121
+ "loss": 0.0072,
1122
+ "step": 3975
1123
+ },
1124
+ {
1125
+ "epoch": 0.9330534173081408,
1126
+ "grad_norm": 0.09656576067209244,
1127
+ "learning_rate": 6.773660608921408e-06,
1128
+ "loss": 0.0068,
1129
+ "step": 4000
1130
+ },
1131
+ {
1132
+ "epoch": 0.9388850011663168,
1133
+ "grad_norm": 0.05522262305021286,
1134
+ "learning_rate": 6.183620486193061e-06,
1135
+ "loss": 0.0056,
1136
+ "step": 4025
1137
+ },
1138
+ {
1139
+ "epoch": 0.9447165850244926,
1140
+ "grad_norm": 0.05257203057408333,
1141
+ "learning_rate": 5.5935803634647154e-06,
1142
+ "loss": 0.0056,
1143
+ "step": 4050
1144
+ },
1145
+ {
1146
+ "epoch": 0.9505481688826686,
1147
+ "grad_norm": 0.04314320161938667,
1148
+ "learning_rate": 5.00354024073637e-06,
1149
+ "loss": 0.0063,
1150
+ "step": 4075
1151
+ },
1152
+ {
1153
+ "epoch": 0.9563797527408444,
1154
+ "grad_norm": 0.04623764008283615,
1155
+ "learning_rate": 4.413500118008025e-06,
1156
+ "loss": 0.0067,
1157
+ "step": 4100
1158
+ },
1159
+ {
1160
+ "epoch": 0.9622113365990203,
1161
+ "grad_norm": 0.05779367685317993,
1162
+ "learning_rate": 3.823459995279679e-06,
1163
+ "loss": 0.007,
1164
+ "step": 4125
1165
+ },
1166
+ {
1167
+ "epoch": 0.9680429204571962,
1168
+ "grad_norm": 0.07973254472017288,
1169
+ "learning_rate": 3.2334198725513332e-06,
1170
+ "loss": 0.0068,
1171
+ "step": 4150
1172
+ },
1173
+ {
1174
+ "epoch": 0.973874504315372,
1175
+ "grad_norm": 0.056475065648555756,
1176
+ "learning_rate": 2.643379749822988e-06,
1177
+ "loss": 0.0056,
1178
+ "step": 4175
1179
+ },
1180
+ {
1181
+ "epoch": 0.979706088173548,
1182
+ "grad_norm": 0.05260898917913437,
1183
+ "learning_rate": 2.0533396270946426e-06,
1184
+ "loss": 0.0061,
1185
+ "step": 4200
1186
+ },
1187
+ {
1188
+ "epoch": 0.9855376720317238,
1189
+ "grad_norm": 0.07043284177780151,
1190
+ "learning_rate": 1.463299504366297e-06,
1191
+ "loss": 0.0061,
1192
+ "step": 4225
1193
+ },
1194
+ {
1195
+ "epoch": 0.9913692558898997,
1196
+ "grad_norm": 0.09899988770484924,
1197
+ "learning_rate": 8.732593816379515e-07,
1198
+ "loss": 0.0076,
1199
+ "step": 4250
1200
+ },
1201
+ {
1202
+ "epoch": 0.9972008397480756,
1203
+ "grad_norm": 0.03969600424170494,
1204
+ "learning_rate": 2.832192589096059e-07,
1205
+ "loss": 0.0067,
1206
+ "step": 4275
1207
+ }
1208
+ ],
1209
+ "logging_steps": 25,
1210
+ "max_steps": 4287,
1211
+ "num_input_tokens_seen": 0,
1212
+ "num_train_epochs": 1,
1213
+ "save_steps": 250,
1214
+ "stateful_callbacks": {
1215
+ "TrainerControl": {
1216
+ "args": {
1217
+ "should_epoch_stop": false,
1218
+ "should_evaluate": false,
1219
+ "should_log": false,
1220
+ "should_save": true,
1221
+ "should_training_stop": true
1222
+ },
1223
+ "attributes": {}
1224
+ }
1225
+ },
1226
+ "total_flos": 4.927104921604435e+17,
1227
+ "train_batch_size": 1,
1228
+ "trial_name": null,
1229
+ "trial_params": null
1230
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d0137c40ddb51c5ff6609f5ff00cc1bec6ff64ad21c910b4f29d13f8f2d48feb
3
+ size 5176