Dorjzodovsuren commited on
Commit
204b65f
1 Parent(s): 6018af8

Upload 10 files

Browse files

upload new checkpoint

adapter_config.json CHANGED
@@ -20,13 +20,13 @@
20
  "rank_pattern": {},
21
  "revision": "unsloth",
22
  "target_modules": [
23
- "v_proj",
24
- "q_proj",
25
  "o_proj",
26
- "down_proj",
27
- "gate_proj",
28
  "up_proj",
29
- "k_proj"
 
 
30
  ],
31
  "task_type": "CAUSAL_LM",
32
  "use_dora": false,
 
20
  "rank_pattern": {},
21
  "revision": "unsloth",
22
  "target_modules": [
23
+ "k_proj",
 
24
  "o_proj",
25
+ "v_proj",
 
26
  "up_proj",
27
+ "gate_proj",
28
+ "q_proj",
29
+ "down_proj"
30
  ],
31
  "task_type": "CAUSAL_LM",
32
  "use_dora": false,
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d7b8d237e18af66848ed665fcc60d60d4157820dfba54511959e9b7b9d09b656
3
  size 167832240
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6931e308d6061f03d2e2e7100637d59626c76118a903132beaa3ae6edbeacaae
3
  size 167832240
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c1c52c29038d4ebc4fc287e24c626f39c35eabb63d1046c578a77ec5f5fedad6
3
  size 85736914
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5eb205e9a3d8cd1af73c6e0c3e12eb5b93ffb579b4f097e0a6f1109c78e360b9
3
  size 85736914
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:203e9bfabd925cb4ec7129d24877156fcee87215187c35a867e358e56a9425a4
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ae282cbf9290d2263341594687ec3f780027ee4e703cfdf970362e3bc87775ec
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8e18ef51b48faa010cb4eefd3ecfa4e35b808f537bf1fdde1f3ca603dd2e6120
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:08de451528ec8f4b0e224d4376c47d818e1cf4afb1e94fd23999f7fa09c11203
3
  size 1064
tokenizer.json CHANGED
@@ -2329,10 +2329,69 @@
2329
  ]
2330
  },
2331
  "post_processor": {
2332
- "type": "ByteLevel",
2333
- "add_prefix_space": true,
2334
- "trim_offsets": false,
2335
- "use_regex": true
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2336
  },
2337
  "decoder": {
2338
  "type": "ByteLevel",
@@ -2348,7 +2407,7 @@
2348
  "end_of_word_suffix": null,
2349
  "fuse_unk": false,
2350
  "byte_fallback": false,
2351
- "ignore_merges": false,
2352
  "vocab": {
2353
  "!": 0,
2354
  "\"": 1,
 
2329
  ]
2330
  },
2331
  "post_processor": {
2332
+ "type": "Sequence",
2333
+ "processors": [
2334
+ {
2335
+ "type": "ByteLevel",
2336
+ "add_prefix_space": true,
2337
+ "trim_offsets": false,
2338
+ "use_regex": true
2339
+ },
2340
+ {
2341
+ "type": "TemplateProcessing",
2342
+ "single": [
2343
+ {
2344
+ "SpecialToken": {
2345
+ "id": "<|begin_of_text|>",
2346
+ "type_id": 0
2347
+ }
2348
+ },
2349
+ {
2350
+ "Sequence": {
2351
+ "id": "A",
2352
+ "type_id": 0
2353
+ }
2354
+ }
2355
+ ],
2356
+ "pair": [
2357
+ {
2358
+ "SpecialToken": {
2359
+ "id": "<|begin_of_text|>",
2360
+ "type_id": 0
2361
+ }
2362
+ },
2363
+ {
2364
+ "Sequence": {
2365
+ "id": "A",
2366
+ "type_id": 0
2367
+ }
2368
+ },
2369
+ {
2370
+ "SpecialToken": {
2371
+ "id": "<|begin_of_text|>",
2372
+ "type_id": 1
2373
+ }
2374
+ },
2375
+ {
2376
+ "Sequence": {
2377
+ "id": "B",
2378
+ "type_id": 1
2379
+ }
2380
+ }
2381
+ ],
2382
+ "special_tokens": {
2383
+ "<|begin_of_text|>": {
2384
+ "id": "<|begin_of_text|>",
2385
+ "ids": [
2386
+ 128000
2387
+ ],
2388
+ "tokens": [
2389
+ "<|begin_of_text|>"
2390
+ ]
2391
+ }
2392
+ }
2393
+ }
2394
+ ]
2395
  },
2396
  "decoder": {
2397
  "type": "ByteLevel",
 
2407
  "end_of_word_suffix": null,
2408
  "fuse_unk": false,
2409
  "byte_fallback": false,
2410
+ "ignore_merges": true,
2411
  "vocab": {
2412
  "!": 0,
2413
  "\"": 1,
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 1.1737089201877935,
5
  "eval_steps": 500,
6
- "global_step": 1000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7007,14 +7007,3514 @@
7007
  "learning_rate": 8.298999411418483e-05,
7008
  "loss": 0.6655,
7009
  "step": 1000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7010
  }
7011
  ],
7012
  "logging_steps": 1,
7013
- "max_steps": 1704,
7014
  "num_input_tokens_seen": 0,
7015
  "num_train_epochs": 2,
7016
  "save_steps": 100,
7017
- "total_flos": 1.4844237184940114e+18,
7018
  "train_batch_size": 4,
7019
  "trial_name": null,
7020
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.7582771755054205,
5
  "eval_steps": 500,
6
+ "global_step": 1500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7007
  "learning_rate": 8.298999411418483e-05,
7008
  "loss": 0.6655,
7009
  "step": 1000
7010
+ },
7011
+ {
7012
+ "epoch": 1.1748826291079812,
7013
+ "grad_norm": 0.37893033027648926,
7014
+ "learning_rate": 8.287227781047675e-05,
7015
+ "loss": 0.7422,
7016
+ "step": 1001
7017
+ },
7018
+ {
7019
+ "epoch": 1.176056338028169,
7020
+ "grad_norm": 0.3806493580341339,
7021
+ "learning_rate": 8.27545615067687e-05,
7022
+ "loss": 0.7147,
7023
+ "step": 1002
7024
+ },
7025
+ {
7026
+ "epoch": 1.1772300469483568,
7027
+ "grad_norm": 0.36736544966697693,
7028
+ "learning_rate": 8.263684520306063e-05,
7029
+ "loss": 0.6813,
7030
+ "step": 1003
7031
+ },
7032
+ {
7033
+ "epoch": 1.1784037558685445,
7034
+ "grad_norm": 0.3947063088417053,
7035
+ "learning_rate": 8.251912889935256e-05,
7036
+ "loss": 0.6863,
7037
+ "step": 1004
7038
+ },
7039
+ {
7040
+ "epoch": 1.1795774647887325,
7041
+ "grad_norm": 0.3787820339202881,
7042
+ "learning_rate": 8.24014125956445e-05,
7043
+ "loss": 0.6929,
7044
+ "step": 1005
7045
+ },
7046
+ {
7047
+ "epoch": 1.1807511737089202,
7048
+ "grad_norm": 0.3705902099609375,
7049
+ "learning_rate": 8.228369629193645e-05,
7050
+ "loss": 0.6536,
7051
+ "step": 1006
7052
+ },
7053
+ {
7054
+ "epoch": 1.181924882629108,
7055
+ "grad_norm": 0.38193127512931824,
7056
+ "learning_rate": 8.216597998822837e-05,
7057
+ "loss": 0.6822,
7058
+ "step": 1007
7059
+ },
7060
+ {
7061
+ "epoch": 1.1830985915492958,
7062
+ "grad_norm": 0.3939112424850464,
7063
+ "learning_rate": 8.204826368452032e-05,
7064
+ "loss": 0.7211,
7065
+ "step": 1008
7066
+ },
7067
+ {
7068
+ "epoch": 1.1842723004694835,
7069
+ "grad_norm": 0.3711683452129364,
7070
+ "learning_rate": 8.193054738081225e-05,
7071
+ "loss": 0.6839,
7072
+ "step": 1009
7073
+ },
7074
+ {
7075
+ "epoch": 1.1854460093896715,
7076
+ "grad_norm": 0.3889683187007904,
7077
+ "learning_rate": 8.181283107710418e-05,
7078
+ "loss": 0.7151,
7079
+ "step": 1010
7080
+ },
7081
+ {
7082
+ "epoch": 1.1866197183098592,
7083
+ "grad_norm": 0.3716399073600769,
7084
+ "learning_rate": 8.169511477339612e-05,
7085
+ "loss": 0.6706,
7086
+ "step": 1011
7087
+ },
7088
+ {
7089
+ "epoch": 1.187793427230047,
7090
+ "grad_norm": 0.3653043806552887,
7091
+ "learning_rate": 8.157739846968805e-05,
7092
+ "loss": 0.691,
7093
+ "step": 1012
7094
+ },
7095
+ {
7096
+ "epoch": 1.1889671361502347,
7097
+ "grad_norm": 0.37435877323150635,
7098
+ "learning_rate": 8.145968216597999e-05,
7099
+ "loss": 0.6431,
7100
+ "step": 1013
7101
+ },
7102
+ {
7103
+ "epoch": 1.1901408450704225,
7104
+ "grad_norm": 0.36023011803627014,
7105
+ "learning_rate": 8.134196586227192e-05,
7106
+ "loss": 0.6397,
7107
+ "step": 1014
7108
+ },
7109
+ {
7110
+ "epoch": 1.1913145539906103,
7111
+ "grad_norm": 0.3797522485256195,
7112
+ "learning_rate": 8.122424955856387e-05,
7113
+ "loss": 0.6615,
7114
+ "step": 1015
7115
+ },
7116
+ {
7117
+ "epoch": 1.192488262910798,
7118
+ "grad_norm": 0.3832303285598755,
7119
+ "learning_rate": 8.11065332548558e-05,
7120
+ "loss": 0.6685,
7121
+ "step": 1016
7122
+ },
7123
+ {
7124
+ "epoch": 1.193661971830986,
7125
+ "grad_norm": 0.37008216977119446,
7126
+ "learning_rate": 8.098881695114774e-05,
7127
+ "loss": 0.7051,
7128
+ "step": 1017
7129
+ },
7130
+ {
7131
+ "epoch": 1.1948356807511737,
7132
+ "grad_norm": 0.3758820593357086,
7133
+ "learning_rate": 8.087110064743967e-05,
7134
+ "loss": 0.6753,
7135
+ "step": 1018
7136
+ },
7137
+ {
7138
+ "epoch": 1.1960093896713615,
7139
+ "grad_norm": 0.3715493977069855,
7140
+ "learning_rate": 8.075338434373161e-05,
7141
+ "loss": 0.6863,
7142
+ "step": 1019
7143
+ },
7144
+ {
7145
+ "epoch": 1.1971830985915493,
7146
+ "grad_norm": 0.36335518956184387,
7147
+ "learning_rate": 8.063566804002354e-05,
7148
+ "loss": 0.6865,
7149
+ "step": 1020
7150
+ },
7151
+ {
7152
+ "epoch": 1.198356807511737,
7153
+ "grad_norm": 0.36738407611846924,
7154
+ "learning_rate": 8.051795173631549e-05,
7155
+ "loss": 0.6729,
7156
+ "step": 1021
7157
+ },
7158
+ {
7159
+ "epoch": 1.199530516431925,
7160
+ "grad_norm": 0.37416642904281616,
7161
+ "learning_rate": 8.040023543260741e-05,
7162
+ "loss": 0.6904,
7163
+ "step": 1022
7164
+ },
7165
+ {
7166
+ "epoch": 1.2007042253521127,
7167
+ "grad_norm": 0.37728917598724365,
7168
+ "learning_rate": 8.028251912889936e-05,
7169
+ "loss": 0.6613,
7170
+ "step": 1023
7171
+ },
7172
+ {
7173
+ "epoch": 1.2018779342723005,
7174
+ "grad_norm": 0.3821254074573517,
7175
+ "learning_rate": 8.016480282519128e-05,
7176
+ "loss": 0.6567,
7177
+ "step": 1024
7178
+ },
7179
+ {
7180
+ "epoch": 1.2030516431924883,
7181
+ "grad_norm": 0.37766242027282715,
7182
+ "learning_rate": 8.004708652148323e-05,
7183
+ "loss": 0.6648,
7184
+ "step": 1025
7185
+ },
7186
+ {
7187
+ "epoch": 1.204225352112676,
7188
+ "grad_norm": 0.3994279205799103,
7189
+ "learning_rate": 7.992937021777516e-05,
7190
+ "loss": 0.7085,
7191
+ "step": 1026
7192
+ },
7193
+ {
7194
+ "epoch": 1.2053990610328638,
7195
+ "grad_norm": 0.3634461760520935,
7196
+ "learning_rate": 7.98116539140671e-05,
7197
+ "loss": 0.69,
7198
+ "step": 1027
7199
+ },
7200
+ {
7201
+ "epoch": 1.2065727699530517,
7202
+ "grad_norm": 0.36296284198760986,
7203
+ "learning_rate": 7.969393761035903e-05,
7204
+ "loss": 0.6394,
7205
+ "step": 1028
7206
+ },
7207
+ {
7208
+ "epoch": 1.2077464788732395,
7209
+ "grad_norm": 0.38547366857528687,
7210
+ "learning_rate": 7.957622130665098e-05,
7211
+ "loss": 0.6602,
7212
+ "step": 1029
7213
+ },
7214
+ {
7215
+ "epoch": 1.2089201877934272,
7216
+ "grad_norm": 0.38083600997924805,
7217
+ "learning_rate": 7.94585050029429e-05,
7218
+ "loss": 0.6559,
7219
+ "step": 1030
7220
+ },
7221
+ {
7222
+ "epoch": 1.210093896713615,
7223
+ "grad_norm": 0.377316415309906,
7224
+ "learning_rate": 7.934078869923485e-05,
7225
+ "loss": 0.7096,
7226
+ "step": 1031
7227
+ },
7228
+ {
7229
+ "epoch": 1.2112676056338028,
7230
+ "grad_norm": 0.37379539012908936,
7231
+ "learning_rate": 7.922307239552679e-05,
7232
+ "loss": 0.7321,
7233
+ "step": 1032
7234
+ },
7235
+ {
7236
+ "epoch": 1.2124413145539905,
7237
+ "grad_norm": 0.3899437487125397,
7238
+ "learning_rate": 7.910535609181872e-05,
7239
+ "loss": 0.6307,
7240
+ "step": 1033
7241
+ },
7242
+ {
7243
+ "epoch": 1.2136150234741785,
7244
+ "grad_norm": 0.3994787931442261,
7245
+ "learning_rate": 7.898763978811065e-05,
7246
+ "loss": 0.7189,
7247
+ "step": 1034
7248
+ },
7249
+ {
7250
+ "epoch": 1.2147887323943662,
7251
+ "grad_norm": 0.3705124855041504,
7252
+ "learning_rate": 7.88699234844026e-05,
7253
+ "loss": 0.6683,
7254
+ "step": 1035
7255
+ },
7256
+ {
7257
+ "epoch": 1.215962441314554,
7258
+ "grad_norm": 0.39496761560440063,
7259
+ "learning_rate": 7.875220718069452e-05,
7260
+ "loss": 0.6961,
7261
+ "step": 1036
7262
+ },
7263
+ {
7264
+ "epoch": 1.2171361502347418,
7265
+ "grad_norm": 0.38047799468040466,
7266
+ "learning_rate": 7.863449087698647e-05,
7267
+ "loss": 0.6877,
7268
+ "step": 1037
7269
+ },
7270
+ {
7271
+ "epoch": 1.2183098591549295,
7272
+ "grad_norm": 0.3772275745868683,
7273
+ "learning_rate": 7.85167745732784e-05,
7274
+ "loss": 0.6523,
7275
+ "step": 1038
7276
+ },
7277
+ {
7278
+ "epoch": 1.2194835680751175,
7279
+ "grad_norm": 0.37646278738975525,
7280
+ "learning_rate": 7.839905826957034e-05,
7281
+ "loss": 0.686,
7282
+ "step": 1039
7283
+ },
7284
+ {
7285
+ "epoch": 1.2206572769953052,
7286
+ "grad_norm": 0.3657703101634979,
7287
+ "learning_rate": 7.828134196586228e-05,
7288
+ "loss": 0.6904,
7289
+ "step": 1040
7290
+ },
7291
+ {
7292
+ "epoch": 1.221830985915493,
7293
+ "grad_norm": 0.36845406889915466,
7294
+ "learning_rate": 7.816362566215421e-05,
7295
+ "loss": 0.6795,
7296
+ "step": 1041
7297
+ },
7298
+ {
7299
+ "epoch": 1.2230046948356808,
7300
+ "grad_norm": 0.37235668301582336,
7301
+ "learning_rate": 7.804590935844614e-05,
7302
+ "loss": 0.6406,
7303
+ "step": 1042
7304
+ },
7305
+ {
7306
+ "epoch": 1.2241784037558685,
7307
+ "grad_norm": 0.3837567865848541,
7308
+ "learning_rate": 7.792819305473808e-05,
7309
+ "loss": 0.7387,
7310
+ "step": 1043
7311
+ },
7312
+ {
7313
+ "epoch": 1.2253521126760563,
7314
+ "grad_norm": 0.3731269836425781,
7315
+ "learning_rate": 7.781047675103003e-05,
7316
+ "loss": 0.6767,
7317
+ "step": 1044
7318
+ },
7319
+ {
7320
+ "epoch": 1.226525821596244,
7321
+ "grad_norm": 0.3709997534751892,
7322
+ "learning_rate": 7.769276044732196e-05,
7323
+ "loss": 0.6843,
7324
+ "step": 1045
7325
+ },
7326
+ {
7327
+ "epoch": 1.227699530516432,
7328
+ "grad_norm": 0.36420220136642456,
7329
+ "learning_rate": 7.75750441436139e-05,
7330
+ "loss": 0.6732,
7331
+ "step": 1046
7332
+ },
7333
+ {
7334
+ "epoch": 1.2288732394366197,
7335
+ "grad_norm": 0.35353943705558777,
7336
+ "learning_rate": 7.745732783990583e-05,
7337
+ "loss": 0.6955,
7338
+ "step": 1047
7339
+ },
7340
+ {
7341
+ "epoch": 1.2300469483568075,
7342
+ "grad_norm": 0.3663172721862793,
7343
+ "learning_rate": 7.733961153619777e-05,
7344
+ "loss": 0.6509,
7345
+ "step": 1048
7346
+ },
7347
+ {
7348
+ "epoch": 1.2312206572769953,
7349
+ "grad_norm": 0.3808366060256958,
7350
+ "learning_rate": 7.72218952324897e-05,
7351
+ "loss": 0.6736,
7352
+ "step": 1049
7353
+ },
7354
+ {
7355
+ "epoch": 1.232394366197183,
7356
+ "grad_norm": 0.3684788942337036,
7357
+ "learning_rate": 7.710417892878165e-05,
7358
+ "loss": 0.7294,
7359
+ "step": 1050
7360
+ },
7361
+ {
7362
+ "epoch": 1.233568075117371,
7363
+ "grad_norm": 0.3792336881160736,
7364
+ "learning_rate": 7.698646262507357e-05,
7365
+ "loss": 0.6864,
7366
+ "step": 1051
7367
+ },
7368
+ {
7369
+ "epoch": 1.2347417840375587,
7370
+ "grad_norm": 0.3681674897670746,
7371
+ "learning_rate": 7.686874632136552e-05,
7372
+ "loss": 0.6406,
7373
+ "step": 1052
7374
+ },
7375
+ {
7376
+ "epoch": 1.2359154929577465,
7377
+ "grad_norm": 0.3578929603099823,
7378
+ "learning_rate": 7.675103001765744e-05,
7379
+ "loss": 0.6799,
7380
+ "step": 1053
7381
+ },
7382
+ {
7383
+ "epoch": 1.2370892018779343,
7384
+ "grad_norm": 0.3885924816131592,
7385
+ "learning_rate": 7.663331371394939e-05,
7386
+ "loss": 0.6888,
7387
+ "step": 1054
7388
+ },
7389
+ {
7390
+ "epoch": 1.238262910798122,
7391
+ "grad_norm": 0.3622206747531891,
7392
+ "learning_rate": 7.651559741024132e-05,
7393
+ "loss": 0.6591,
7394
+ "step": 1055
7395
+ },
7396
+ {
7397
+ "epoch": 1.2394366197183098,
7398
+ "grad_norm": 0.36698073148727417,
7399
+ "learning_rate": 7.639788110653326e-05,
7400
+ "loss": 0.6703,
7401
+ "step": 1056
7402
+ },
7403
+ {
7404
+ "epoch": 1.2406103286384977,
7405
+ "grad_norm": 0.3823949992656708,
7406
+ "learning_rate": 7.628016480282519e-05,
7407
+ "loss": 0.6354,
7408
+ "step": 1057
7409
+ },
7410
+ {
7411
+ "epoch": 1.2417840375586855,
7412
+ "grad_norm": 0.3905463218688965,
7413
+ "learning_rate": 7.616244849911714e-05,
7414
+ "loss": 0.6875,
7415
+ "step": 1058
7416
+ },
7417
+ {
7418
+ "epoch": 1.2429577464788732,
7419
+ "grad_norm": 0.3658163845539093,
7420
+ "learning_rate": 7.604473219540906e-05,
7421
+ "loss": 0.6918,
7422
+ "step": 1059
7423
+ },
7424
+ {
7425
+ "epoch": 1.244131455399061,
7426
+ "grad_norm": 0.3887515068054199,
7427
+ "learning_rate": 7.592701589170101e-05,
7428
+ "loss": 0.6636,
7429
+ "step": 1060
7430
+ },
7431
+ {
7432
+ "epoch": 1.2453051643192488,
7433
+ "grad_norm": 0.38240671157836914,
7434
+ "learning_rate": 7.580929958799294e-05,
7435
+ "loss": 0.7151,
7436
+ "step": 1061
7437
+ },
7438
+ {
7439
+ "epoch": 1.2464788732394365,
7440
+ "grad_norm": 0.3772590458393097,
7441
+ "learning_rate": 7.569158328428488e-05,
7442
+ "loss": 0.646,
7443
+ "step": 1062
7444
+ },
7445
+ {
7446
+ "epoch": 1.2476525821596245,
7447
+ "grad_norm": 0.4079722464084625,
7448
+ "learning_rate": 7.557386698057681e-05,
7449
+ "loss": 0.6599,
7450
+ "step": 1063
7451
+ },
7452
+ {
7453
+ "epoch": 1.2488262910798122,
7454
+ "grad_norm": 0.36246946454048157,
7455
+ "learning_rate": 7.545615067686876e-05,
7456
+ "loss": 0.6512,
7457
+ "step": 1064
7458
+ },
7459
+ {
7460
+ "epoch": 1.25,
7461
+ "grad_norm": 0.4114508330821991,
7462
+ "learning_rate": 7.533843437316068e-05,
7463
+ "loss": 0.6756,
7464
+ "step": 1065
7465
+ },
7466
+ {
7467
+ "epoch": 1.2511737089201878,
7468
+ "grad_norm": 0.40775856375694275,
7469
+ "learning_rate": 7.522071806945263e-05,
7470
+ "loss": 0.7285,
7471
+ "step": 1066
7472
+ },
7473
+ {
7474
+ "epoch": 1.2523474178403755,
7475
+ "grad_norm": 0.3941507339477539,
7476
+ "learning_rate": 7.510300176574456e-05,
7477
+ "loss": 0.6548,
7478
+ "step": 1067
7479
+ },
7480
+ {
7481
+ "epoch": 1.2535211267605635,
7482
+ "grad_norm": 0.3808498978614807,
7483
+ "learning_rate": 7.49852854620365e-05,
7484
+ "loss": 0.6922,
7485
+ "step": 1068
7486
+ },
7487
+ {
7488
+ "epoch": 1.2546948356807512,
7489
+ "grad_norm": 0.39144501090049744,
7490
+ "learning_rate": 7.486756915832843e-05,
7491
+ "loss": 0.779,
7492
+ "step": 1069
7493
+ },
7494
+ {
7495
+ "epoch": 1.255868544600939,
7496
+ "grad_norm": 0.3885059356689453,
7497
+ "learning_rate": 7.474985285462037e-05,
7498
+ "loss": 0.7023,
7499
+ "step": 1070
7500
+ },
7501
+ {
7502
+ "epoch": 1.2570422535211268,
7503
+ "grad_norm": 0.37694790959358215,
7504
+ "learning_rate": 7.46321365509123e-05,
7505
+ "loss": 0.6306,
7506
+ "step": 1071
7507
+ },
7508
+ {
7509
+ "epoch": 1.2582159624413145,
7510
+ "grad_norm": 0.3846953213214874,
7511
+ "learning_rate": 7.451442024720424e-05,
7512
+ "loss": 0.6719,
7513
+ "step": 1072
7514
+ },
7515
+ {
7516
+ "epoch": 1.2593896713615025,
7517
+ "grad_norm": 0.3871643841266632,
7518
+ "learning_rate": 7.439670394349618e-05,
7519
+ "loss": 0.7057,
7520
+ "step": 1073
7521
+ },
7522
+ {
7523
+ "epoch": 1.26056338028169,
7524
+ "grad_norm": 0.37070584297180176,
7525
+ "learning_rate": 7.427898763978812e-05,
7526
+ "loss": 0.706,
7527
+ "step": 1074
7528
+ },
7529
+ {
7530
+ "epoch": 1.261737089201878,
7531
+ "grad_norm": 0.3774947226047516,
7532
+ "learning_rate": 7.416127133608005e-05,
7533
+ "loss": 0.6918,
7534
+ "step": 1075
7535
+ },
7536
+ {
7537
+ "epoch": 1.2629107981220657,
7538
+ "grad_norm": 0.36732053756713867,
7539
+ "learning_rate": 7.404355503237199e-05,
7540
+ "loss": 0.6639,
7541
+ "step": 1076
7542
+ },
7543
+ {
7544
+ "epoch": 1.2640845070422535,
7545
+ "grad_norm": 0.36723384261131287,
7546
+ "learning_rate": 7.392583872866392e-05,
7547
+ "loss": 0.6819,
7548
+ "step": 1077
7549
+ },
7550
+ {
7551
+ "epoch": 1.2652582159624413,
7552
+ "grad_norm": 0.35997796058654785,
7553
+ "learning_rate": 7.380812242495586e-05,
7554
+ "loss": 0.6772,
7555
+ "step": 1078
7556
+ },
7557
+ {
7558
+ "epoch": 1.266431924882629,
7559
+ "grad_norm": 0.385193407535553,
7560
+ "learning_rate": 7.36904061212478e-05,
7561
+ "loss": 0.693,
7562
+ "step": 1079
7563
+ },
7564
+ {
7565
+ "epoch": 1.267605633802817,
7566
+ "grad_norm": 0.40055274963378906,
7567
+ "learning_rate": 7.357268981753973e-05,
7568
+ "loss": 0.6957,
7569
+ "step": 1080
7570
+ },
7571
+ {
7572
+ "epoch": 1.2687793427230047,
7573
+ "grad_norm": 0.35632067918777466,
7574
+ "learning_rate": 7.345497351383167e-05,
7575
+ "loss": 0.685,
7576
+ "step": 1081
7577
+ },
7578
+ {
7579
+ "epoch": 1.2699530516431925,
7580
+ "grad_norm": 0.3778478503227234,
7581
+ "learning_rate": 7.333725721012361e-05,
7582
+ "loss": 0.6657,
7583
+ "step": 1082
7584
+ },
7585
+ {
7586
+ "epoch": 1.2711267605633803,
7587
+ "grad_norm": 0.38718998432159424,
7588
+ "learning_rate": 7.321954090641554e-05,
7589
+ "loss": 0.6929,
7590
+ "step": 1083
7591
+ },
7592
+ {
7593
+ "epoch": 1.272300469483568,
7594
+ "grad_norm": 0.3769080936908722,
7595
+ "learning_rate": 7.310182460270748e-05,
7596
+ "loss": 0.7031,
7597
+ "step": 1084
7598
+ },
7599
+ {
7600
+ "epoch": 1.273474178403756,
7601
+ "grad_norm": 0.3617388904094696,
7602
+ "learning_rate": 7.298410829899941e-05,
7603
+ "loss": 0.665,
7604
+ "step": 1085
7605
+ },
7606
+ {
7607
+ "epoch": 1.2746478873239437,
7608
+ "grad_norm": 0.38341668248176575,
7609
+ "learning_rate": 7.286639199529135e-05,
7610
+ "loss": 0.6921,
7611
+ "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 1.2758215962441315,
7615
+ "grad_norm": 0.36512598395347595,
7616
+ "learning_rate": 7.27486756915833e-05,
7617
+ "loss": 0.6582,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 1.2769953051643192,
7622
+ "grad_norm": 0.3690038025379181,
7623
+ "learning_rate": 7.263095938787522e-05,
7624
+ "loss": 0.6923,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 1.278169014084507,
7629
+ "grad_norm": 0.3716605007648468,
7630
+ "learning_rate": 7.251324308416716e-05,
7631
+ "loss": 0.6825,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 1.2793427230046948,
7636
+ "grad_norm": 0.3732469379901886,
7637
+ "learning_rate": 7.23955267804591e-05,
7638
+ "loss": 0.7064,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 1.2805164319248825,
7643
+ "grad_norm": 0.3982716500759125,
7644
+ "learning_rate": 7.227781047675103e-05,
7645
+ "loss": 0.7379,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 1.2816901408450705,
7650
+ "grad_norm": 0.36569979786872864,
7651
+ "learning_rate": 7.216009417304297e-05,
7652
+ "loss": 0.6309,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 1.2828638497652582,
7657
+ "grad_norm": 0.3752378523349762,
7658
+ "learning_rate": 7.204237786933492e-05,
7659
+ "loss": 0.655,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 1.284037558685446,
7664
+ "grad_norm": 0.3787980377674103,
7665
+ "learning_rate": 7.192466156562684e-05,
7666
+ "loss": 0.6503,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 1.2852112676056338,
7671
+ "grad_norm": 0.40723252296447754,
7672
+ "learning_rate": 7.180694526191878e-05,
7673
+ "loss": 0.6949,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 1.2863849765258215,
7678
+ "grad_norm": 0.36322662234306335,
7679
+ "learning_rate": 7.168922895821072e-05,
7680
+ "loss": 0.6924,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 1.2875586854460095,
7685
+ "grad_norm": 0.38535597920417786,
7686
+ "learning_rate": 7.157151265450265e-05,
7687
+ "loss": 0.6597,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 1.2887323943661972,
7692
+ "grad_norm": 0.3948807716369629,
7693
+ "learning_rate": 7.145379635079459e-05,
7694
+ "loss": 0.6594,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 1.289906103286385,
7699
+ "grad_norm": 0.3859221935272217,
7700
+ "learning_rate": 7.133608004708652e-05,
7701
+ "loss": 0.6894,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 1.2910798122065728,
7706
+ "grad_norm": 0.36739176511764526,
7707
+ "learning_rate": 7.121836374337846e-05,
7708
+ "loss": 0.6726,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 1.290653384119543,
7713
+ "grad_norm": 1.054391622543335,
7714
+ "learning_rate": 7.125220458553792e-05,
7715
+ "loss": 0.8774,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 1.2918253735716378,
7720
+ "grad_norm": 1.0680177211761475,
7721
+ "learning_rate": 7.113462669018225e-05,
7722
+ "loss": 0.8413,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 1.2929973630237328,
7727
+ "grad_norm": 0.6065592169761658,
7728
+ "learning_rate": 7.101704879482658e-05,
7729
+ "loss": 0.7806,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 1.2941693524758278,
7734
+ "grad_norm": 0.6377708315849304,
7735
+ "learning_rate": 7.089947089947089e-05,
7736
+ "loss": 0.7703,
7737
+ "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 1.2953413419279227,
7741
+ "grad_norm": 0.522957980632782,
7742
+ "learning_rate": 7.078189300411523e-05,
7743
+ "loss": 0.7668,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 1.2965133313800177,
7748
+ "grad_norm": 0.5710256099700928,
7749
+ "learning_rate": 7.066431510875956e-05,
7750
+ "loss": 0.7143,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 1.2976853208321124,
7755
+ "grad_norm": 0.5131927728652954,
7756
+ "learning_rate": 7.054673721340387e-05,
7757
+ "loss": 0.7151,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 1.2988573102842074,
7762
+ "grad_norm": 0.495702862739563,
7763
+ "learning_rate": 7.042915931804821e-05,
7764
+ "loss": 0.7108,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 1.3000292997363023,
7769
+ "grad_norm": 0.49212130904197693,
7770
+ "learning_rate": 7.031158142269254e-05,
7771
+ "loss": 0.711,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 1.3012012891883973,
7776
+ "grad_norm": 0.4861961305141449,
7777
+ "learning_rate": 7.019400352733686e-05,
7778
+ "loss": 0.7562,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 1.3023732786404922,
7783
+ "grad_norm": 0.4575994610786438,
7784
+ "learning_rate": 7.00764256319812e-05,
7785
+ "loss": 0.7036,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 1.3035452680925872,
7790
+ "grad_norm": 0.4313446283340454,
7791
+ "learning_rate": 6.995884773662552e-05,
7792
+ "loss": 0.7124,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 1.3047172575446822,
7797
+ "grad_norm": 0.4154439866542816,
7798
+ "learning_rate": 6.984126984126984e-05,
7799
+ "loss": 0.6674,
7800
+ "step": 1113
7801
+ },
7802
+ {
7803
+ "epoch": 1.305889246996777,
7804
+ "grad_norm": 0.4371664226055145,
7805
+ "learning_rate": 6.972369194591418e-05,
7806
+ "loss": 0.7066,
7807
+ "step": 1114
7808
+ },
7809
+ {
7810
+ "epoch": 1.307061236448872,
7811
+ "grad_norm": 0.40978437662124634,
7812
+ "learning_rate": 6.96061140505585e-05,
7813
+ "loss": 0.6923,
7814
+ "step": 1115
7815
+ },
7816
+ {
7817
+ "epoch": 1.3082332259009668,
7818
+ "grad_norm": 0.39959609508514404,
7819
+ "learning_rate": 6.948853615520282e-05,
7820
+ "loss": 0.7224,
7821
+ "step": 1116
7822
+ },
7823
+ {
7824
+ "epoch": 1.3094052153530618,
7825
+ "grad_norm": 0.4188673794269562,
7826
+ "learning_rate": 6.937095825984715e-05,
7827
+ "loss": 0.727,
7828
+ "step": 1117
7829
+ },
7830
+ {
7831
+ "epoch": 1.3105772048051567,
7832
+ "grad_norm": 0.3936775028705597,
7833
+ "learning_rate": 6.925338036449149e-05,
7834
+ "loss": 0.6825,
7835
+ "step": 1118
7836
+ },
7837
+ {
7838
+ "epoch": 1.3117491942572517,
7839
+ "grad_norm": 0.39894506335258484,
7840
+ "learning_rate": 6.91358024691358e-05,
7841
+ "loss": 0.642,
7842
+ "step": 1119
7843
+ },
7844
+ {
7845
+ "epoch": 1.3129211837093466,
7846
+ "grad_norm": 0.4340292513370514,
7847
+ "learning_rate": 6.901822457378013e-05,
7848
+ "loss": 0.7259,
7849
+ "step": 1120
7850
+ },
7851
+ {
7852
+ "epoch": 1.3140931731614416,
7853
+ "grad_norm": 0.4102571904659271,
7854
+ "learning_rate": 6.890064667842447e-05,
7855
+ "loss": 0.6954,
7856
+ "step": 1121
7857
+ },
7858
+ {
7859
+ "epoch": 1.3152651626135365,
7860
+ "grad_norm": 0.4111669063568115,
7861
+ "learning_rate": 6.878306878306878e-05,
7862
+ "loss": 0.671,
7863
+ "step": 1122
7864
+ },
7865
+ {
7866
+ "epoch": 1.3164371520656313,
7867
+ "grad_norm": 0.4138496518135071,
7868
+ "learning_rate": 6.866549088771311e-05,
7869
+ "loss": 0.6387,
7870
+ "step": 1123
7871
+ },
7872
+ {
7873
+ "epoch": 1.3176091415177265,
7874
+ "grad_norm": 0.3867737054824829,
7875
+ "learning_rate": 6.854791299235745e-05,
7876
+ "loss": 0.6777,
7877
+ "step": 1124
7878
+ },
7879
+ {
7880
+ "epoch": 1.3187811309698212,
7881
+ "grad_norm": 0.40671873092651367,
7882
+ "learning_rate": 6.843033509700176e-05,
7883
+ "loss": 0.695,
7884
+ "step": 1125
7885
+ },
7886
+ {
7887
+ "epoch": 1.3199531204219161,
7888
+ "grad_norm": 0.3959422707557678,
7889
+ "learning_rate": 6.831275720164609e-05,
7890
+ "loss": 0.6755,
7891
+ "step": 1126
7892
+ },
7893
+ {
7894
+ "epoch": 1.321125109874011,
7895
+ "grad_norm": 0.3982046842575073,
7896
+ "learning_rate": 6.819517930629043e-05,
7897
+ "loss": 0.6898,
7898
+ "step": 1127
7899
+ },
7900
+ {
7901
+ "epoch": 1.322297099326106,
7902
+ "grad_norm": 0.3888896405696869,
7903
+ "learning_rate": 6.807760141093474e-05,
7904
+ "loss": 0.6595,
7905
+ "step": 1128
7906
+ },
7907
+ {
7908
+ "epoch": 1.323469088778201,
7909
+ "grad_norm": 0.4006032347679138,
7910
+ "learning_rate": 6.796002351557907e-05,
7911
+ "loss": 0.6882,
7912
+ "step": 1129
7913
+ },
7914
+ {
7915
+ "epoch": 1.324641078230296,
7916
+ "grad_norm": 0.37636417150497437,
7917
+ "learning_rate": 6.78424456202234e-05,
7918
+ "loss": 0.6689,
7919
+ "step": 1130
7920
+ },
7921
+ {
7922
+ "epoch": 1.325813067682391,
7923
+ "grad_norm": 0.3819728195667267,
7924
+ "learning_rate": 6.772486772486773e-05,
7925
+ "loss": 0.7133,
7926
+ "step": 1131
7927
+ },
7928
+ {
7929
+ "epoch": 1.3269850571344857,
7930
+ "grad_norm": 0.37200263142585754,
7931
+ "learning_rate": 6.760728982951205e-05,
7932
+ "loss": 0.6942,
7933
+ "step": 1132
7934
+ },
7935
+ {
7936
+ "epoch": 1.3281570465865808,
7937
+ "grad_norm": 0.3960074186325073,
7938
+ "learning_rate": 6.748971193415638e-05,
7939
+ "loss": 0.6271,
7940
+ "step": 1133
7941
+ },
7942
+ {
7943
+ "epoch": 1.3293290360386756,
7944
+ "grad_norm": 0.3755532205104828,
7945
+ "learning_rate": 6.737213403880071e-05,
7946
+ "loss": 0.6706,
7947
+ "step": 1134
7948
+ },
7949
+ {
7950
+ "epoch": 1.3305010254907705,
7951
+ "grad_norm": 0.387464314699173,
7952
+ "learning_rate": 6.725455614344503e-05,
7953
+ "loss": 0.6958,
7954
+ "step": 1135
7955
+ },
7956
+ {
7957
+ "epoch": 1.3316730149428655,
7958
+ "grad_norm": 0.3806421756744385,
7959
+ "learning_rate": 6.713697824808936e-05,
7960
+ "loss": 0.6928,
7961
+ "step": 1136
7962
+ },
7963
+ {
7964
+ "epoch": 1.3328450043949605,
7965
+ "grad_norm": 0.38345402479171753,
7966
+ "learning_rate": 6.701940035273369e-05,
7967
+ "loss": 0.7126,
7968
+ "step": 1137
7969
+ },
7970
+ {
7971
+ "epoch": 1.3340169938470554,
7972
+ "grad_norm": 0.3863559067249298,
7973
+ "learning_rate": 6.690182245737802e-05,
7974
+ "loss": 0.6914,
7975
+ "step": 1138
7976
+ },
7977
+ {
7978
+ "epoch": 1.3351889832991504,
7979
+ "grad_norm": 0.3891694247722626,
7980
+ "learning_rate": 6.678424456202234e-05,
7981
+ "loss": 0.6817,
7982
+ "step": 1139
7983
+ },
7984
+ {
7985
+ "epoch": 1.3363609727512453,
7986
+ "grad_norm": 0.4065246284008026,
7987
+ "learning_rate": 6.666666666666667e-05,
7988
+ "loss": 0.7028,
7989
+ "step": 1140
7990
+ },
7991
+ {
7992
+ "epoch": 1.33753296220334,
7993
+ "grad_norm": 0.38939380645751953,
7994
+ "learning_rate": 6.6549088771311e-05,
7995
+ "loss": 0.6528,
7996
+ "step": 1141
7997
+ },
7998
+ {
7999
+ "epoch": 1.3387049516554352,
8000
+ "grad_norm": 0.3831149935722351,
8001
+ "learning_rate": 6.643151087595532e-05,
8002
+ "loss": 0.675,
8003
+ "step": 1142
8004
+ },
8005
+ {
8006
+ "epoch": 1.33987694110753,
8007
+ "grad_norm": 0.4192376434803009,
8008
+ "learning_rate": 6.631393298059965e-05,
8009
+ "loss": 0.7131,
8010
+ "step": 1143
8011
+ },
8012
+ {
8013
+ "epoch": 1.341048930559625,
8014
+ "grad_norm": 0.38939863443374634,
8015
+ "learning_rate": 6.619635508524398e-05,
8016
+ "loss": 0.6696,
8017
+ "step": 1144
8018
+ },
8019
+ {
8020
+ "epoch": 1.3422209200117199,
8021
+ "grad_norm": 0.39097532629966736,
8022
+ "learning_rate": 6.60787771898883e-05,
8023
+ "loss": 0.6845,
8024
+ "step": 1145
8025
+ },
8026
+ {
8027
+ "epoch": 1.3433929094638148,
8028
+ "grad_norm": 0.39098918437957764,
8029
+ "learning_rate": 6.596119929453263e-05,
8030
+ "loss": 0.6643,
8031
+ "step": 1146
8032
+ },
8033
+ {
8034
+ "epoch": 1.3445648989159098,
8035
+ "grad_norm": 0.41722220182418823,
8036
+ "learning_rate": 6.584362139917696e-05,
8037
+ "loss": 0.6461,
8038
+ "step": 1147
8039
+ },
8040
+ {
8041
+ "epoch": 1.3457368883680048,
8042
+ "grad_norm": 0.40393978357315063,
8043
+ "learning_rate": 6.572604350382129e-05,
8044
+ "loss": 0.677,
8045
+ "step": 1148
8046
+ },
8047
+ {
8048
+ "epoch": 1.3469088778200997,
8049
+ "grad_norm": 0.37448999285697937,
8050
+ "learning_rate": 6.560846560846561e-05,
8051
+ "loss": 0.6534,
8052
+ "step": 1149
8053
+ },
8054
+ {
8055
+ "epoch": 1.3480808672721944,
8056
+ "grad_norm": 0.3823452889919281,
8057
+ "learning_rate": 6.549088771310994e-05,
8058
+ "loss": 0.6269,
8059
+ "step": 1150
8060
+ },
8061
+ {
8062
+ "epoch": 1.3492528567242894,
8063
+ "grad_norm": 0.4128420650959015,
8064
+ "learning_rate": 6.537330981775427e-05,
8065
+ "loss": 0.6659,
8066
+ "step": 1151
8067
+ },
8068
+ {
8069
+ "epoch": 1.3504248461763844,
8070
+ "grad_norm": 0.385935515165329,
8071
+ "learning_rate": 6.525573192239858e-05,
8072
+ "loss": 0.6501,
8073
+ "step": 1152
8074
+ },
8075
+ {
8076
+ "epoch": 1.3515968356284793,
8077
+ "grad_norm": 0.39446333050727844,
8078
+ "learning_rate": 6.513815402704292e-05,
8079
+ "loss": 0.6607,
8080
+ "step": 1153
8081
+ },
8082
+ {
8083
+ "epoch": 1.3527688250805743,
8084
+ "grad_norm": 0.39609313011169434,
8085
+ "learning_rate": 6.502057613168725e-05,
8086
+ "loss": 0.6408,
8087
+ "step": 1154
8088
+ },
8089
+ {
8090
+ "epoch": 1.3539408145326692,
8091
+ "grad_norm": 0.4118976891040802,
8092
+ "learning_rate": 6.490299823633156e-05,
8093
+ "loss": 0.6783,
8094
+ "step": 1155
8095
+ },
8096
+ {
8097
+ "epoch": 1.3551128039847642,
8098
+ "grad_norm": 0.39040106534957886,
8099
+ "learning_rate": 6.47854203409759e-05,
8100
+ "loss": 0.6996,
8101
+ "step": 1156
8102
+ },
8103
+ {
8104
+ "epoch": 1.3562847934368591,
8105
+ "grad_norm": 0.3837215304374695,
8106
+ "learning_rate": 6.466784244562023e-05,
8107
+ "loss": 0.6536,
8108
+ "step": 1157
8109
+ },
8110
+ {
8111
+ "epoch": 1.357456782888954,
8112
+ "grad_norm": 0.38842037320137024,
8113
+ "learning_rate": 6.455026455026454e-05,
8114
+ "loss": 0.675,
8115
+ "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 1.3586287723410488,
8119
+ "grad_norm": 0.3818652927875519,
8120
+ "learning_rate": 6.443268665490889e-05,
8121
+ "loss": 0.6821,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 1.3598007617931438,
8126
+ "grad_norm": 0.38457590341567993,
8127
+ "learning_rate": 6.431510875955321e-05,
8128
+ "loss": 0.6801,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 1.3609727512452388,
8133
+ "grad_norm": 0.40308085083961487,
8134
+ "learning_rate": 6.419753086419753e-05,
8135
+ "loss": 0.7282,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 1.3621447406973337,
8140
+ "grad_norm": 0.3923408091068268,
8141
+ "learning_rate": 6.407995296884187e-05,
8142
+ "loss": 0.6771,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 1.3633167301494287,
8147
+ "grad_norm": 0.35983577370643616,
8148
+ "learning_rate": 6.39623750734862e-05,
8149
+ "loss": 0.6684,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 1.3644887196015236,
8154
+ "grad_norm": 0.38956505060195923,
8155
+ "learning_rate": 6.384479717813051e-05,
8156
+ "loss": 0.6456,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 1.3656607090536186,
8161
+ "grad_norm": 0.3745352327823639,
8162
+ "learning_rate": 6.372721928277484e-05,
8163
+ "loss": 0.6628,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 1.3668326985057133,
8168
+ "grad_norm": 0.3648051619529724,
8169
+ "learning_rate": 6.360964138741918e-05,
8170
+ "loss": 0.6341,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 1.3680046879578085,
8175
+ "grad_norm": 0.3933015763759613,
8176
+ "learning_rate": 6.349206349206349e-05,
8177
+ "loss": 0.6862,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 1.3691766774099032,
8182
+ "grad_norm": 0.3905039429664612,
8183
+ "learning_rate": 6.337448559670782e-05,
8184
+ "loss": 0.6697,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 1.3703486668619982,
8189
+ "grad_norm": 0.39760053157806396,
8190
+ "learning_rate": 6.325690770135216e-05,
8191
+ "loss": 0.6903,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 1.3715206563140931,
8196
+ "grad_norm": 0.38109833002090454,
8197
+ "learning_rate": 6.313932980599647e-05,
8198
+ "loss": 0.6539,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 1.372692645766188,
8203
+ "grad_norm": 0.3650861978530884,
8204
+ "learning_rate": 6.30217519106408e-05,
8205
+ "loss": 0.6749,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 1.373864635218283,
8210
+ "grad_norm": 0.35274556279182434,
8211
+ "learning_rate": 6.290417401528514e-05,
8212
+ "loss": 0.6421,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 1.375036624670378,
8217
+ "grad_norm": 0.41130268573760986,
8218
+ "learning_rate": 6.278659611992945e-05,
8219
+ "loss": 0.7218,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 1.376208614122473,
8224
+ "grad_norm": 0.3993924856185913,
8225
+ "learning_rate": 6.266901822457378e-05,
8226
+ "loss": 0.675,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 1.3773806035745677,
8231
+ "grad_norm": 0.3782753348350525,
8232
+ "learning_rate": 6.255144032921812e-05,
8233
+ "loss": 0.6316,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 1.3785525930266629,
8238
+ "grad_norm": 0.3624318242073059,
8239
+ "learning_rate": 6.243386243386243e-05,
8240
+ "loss": 0.65,
8241
+ "step": 1176
8242
+ },
8243
+ {
8244
+ "epoch": 1.3797245824787576,
8245
+ "grad_norm": 0.3888125717639923,
8246
+ "learning_rate": 6.231628453850676e-05,
8247
+ "loss": 0.7022,
8248
+ "step": 1177
8249
+ },
8250
+ {
8251
+ "epoch": 1.3808965719308526,
8252
+ "grad_norm": 0.3882753252983093,
8253
+ "learning_rate": 6.219870664315109e-05,
8254
+ "loss": 0.6866,
8255
+ "step": 1178
8256
+ },
8257
+ {
8258
+ "epoch": 1.3820685613829475,
8259
+ "grad_norm": 0.39087679982185364,
8260
+ "learning_rate": 6.208112874779542e-05,
8261
+ "loss": 0.6398,
8262
+ "step": 1179
8263
+ },
8264
+ {
8265
+ "epoch": 1.3832405508350425,
8266
+ "grad_norm": 0.40074875950813293,
8267
+ "learning_rate": 6.196355085243974e-05,
8268
+ "loss": 0.6446,
8269
+ "step": 1180
8270
+ },
8271
+ {
8272
+ "epoch": 1.3844125402871374,
8273
+ "grad_norm": 0.40180960297584534,
8274
+ "learning_rate": 6.184597295708407e-05,
8275
+ "loss": 0.6994,
8276
+ "step": 1181
8277
+ },
8278
+ {
8279
+ "epoch": 1.3855845297392324,
8280
+ "grad_norm": 0.38567396998405457,
8281
+ "learning_rate": 6.17283950617284e-05,
8282
+ "loss": 0.6659,
8283
+ "step": 1182
8284
+ },
8285
+ {
8286
+ "epoch": 1.3867565191913274,
8287
+ "grad_norm": 0.3690516948699951,
8288
+ "learning_rate": 6.161081716637272e-05,
8289
+ "loss": 0.6203,
8290
+ "step": 1183
8291
+ },
8292
+ {
8293
+ "epoch": 1.387928508643422,
8294
+ "grad_norm": 0.4022299349308014,
8295
+ "learning_rate": 6.149323927101705e-05,
8296
+ "loss": 0.6684,
8297
+ "step": 1184
8298
+ },
8299
+ {
8300
+ "epoch": 1.3891004980955173,
8301
+ "grad_norm": 0.384766161441803,
8302
+ "learning_rate": 6.137566137566138e-05,
8303
+ "loss": 0.6941,
8304
+ "step": 1185
8305
+ },
8306
+ {
8307
+ "epoch": 1.390272487547612,
8308
+ "grad_norm": 0.3742985427379608,
8309
+ "learning_rate": 6.12580834803057e-05,
8310
+ "loss": 0.6947,
8311
+ "step": 1186
8312
+ },
8313
+ {
8314
+ "epoch": 1.391444476999707,
8315
+ "grad_norm": 0.40857595205307007,
8316
+ "learning_rate": 6.114050558495003e-05,
8317
+ "loss": 0.6637,
8318
+ "step": 1187
8319
+ },
8320
+ {
8321
+ "epoch": 1.392616466451802,
8322
+ "grad_norm": 0.3824119567871094,
8323
+ "learning_rate": 6.102292768959435e-05,
8324
+ "loss": 0.6357,
8325
+ "step": 1188
8326
+ },
8327
+ {
8328
+ "epoch": 1.3937884559038969,
8329
+ "grad_norm": 0.39211392402648926,
8330
+ "learning_rate": 6.0905349794238687e-05,
8331
+ "loss": 0.644,
8332
+ "step": 1189
8333
+ },
8334
+ {
8335
+ "epoch": 1.3949604453559918,
8336
+ "grad_norm": 0.36606866121292114,
8337
+ "learning_rate": 6.0787771898883014e-05,
8338
+ "loss": 0.6388,
8339
+ "step": 1190
8340
+ },
8341
+ {
8342
+ "epoch": 1.3961324348080868,
8343
+ "grad_norm": 0.38364294171333313,
8344
+ "learning_rate": 6.0670194003527334e-05,
8345
+ "loss": 0.6561,
8346
+ "step": 1191
8347
+ },
8348
+ {
8349
+ "epoch": 1.3973044242601818,
8350
+ "grad_norm": 0.377848356962204,
8351
+ "learning_rate": 6.055261610817167e-05,
8352
+ "loss": 0.6916,
8353
+ "step": 1192
8354
+ },
8355
+ {
8356
+ "epoch": 1.3984764137122765,
8357
+ "grad_norm": 0.413018137216568,
8358
+ "learning_rate": 6.0435038212815995e-05,
8359
+ "loss": 0.6752,
8360
+ "step": 1193
8361
+ },
8362
+ {
8363
+ "epoch": 1.3996484031643714,
8364
+ "grad_norm": 0.3800462782382965,
8365
+ "learning_rate": 6.0317460317460316e-05,
8366
+ "loss": 0.6916,
8367
+ "step": 1194
8368
+ },
8369
+ {
8370
+ "epoch": 1.4008203926164664,
8371
+ "grad_norm": 0.38262689113616943,
8372
+ "learning_rate": 6.019988242210465e-05,
8373
+ "loss": 0.632,
8374
+ "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 1.4019923820685614,
8378
+ "grad_norm": 0.37755706906318665,
8379
+ "learning_rate": 6.0082304526748977e-05,
8380
+ "loss": 0.608,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 1.4031643715206563,
8385
+ "grad_norm": 0.4054010510444641,
8386
+ "learning_rate": 5.99647266313933e-05,
8387
+ "loss": 0.6952,
8388
+ "step": 1197
8389
+ },
8390
+ {
8391
+ "epoch": 1.4043363609727513,
8392
+ "grad_norm": 0.38393253087997437,
8393
+ "learning_rate": 5.984714873603763e-05,
8394
+ "loss": 0.6742,
8395
+ "step": 1198
8396
+ },
8397
+ {
8398
+ "epoch": 1.4055083504248462,
8399
+ "grad_norm": 0.3715971112251282,
8400
+ "learning_rate": 5.972957084068196e-05,
8401
+ "loss": 0.6944,
8402
+ "step": 1199
8403
+ },
8404
+ {
8405
+ "epoch": 1.4066803398769412,
8406
+ "grad_norm": 0.3809766471385956,
8407
+ "learning_rate": 5.961199294532628e-05,
8408
+ "loss": 0.69,
8409
+ "step": 1200
8410
+ },
8411
+ {
8412
+ "epoch": 1.4078523293290361,
8413
+ "grad_norm": 0.42656511068344116,
8414
+ "learning_rate": 5.9494415049970606e-05,
8415
+ "loss": 0.6761,
8416
+ "step": 1201
8417
+ },
8418
+ {
8419
+ "epoch": 1.4090243187811309,
8420
+ "grad_norm": 0.39485815167427063,
8421
+ "learning_rate": 5.937683715461494e-05,
8422
+ "loss": 0.6581,
8423
+ "step": 1202
8424
+ },
8425
+ {
8426
+ "epoch": 1.4101963082332258,
8427
+ "grad_norm": 0.39925625920295715,
8428
+ "learning_rate": 5.925925925925926e-05,
8429
+ "loss": 0.6785,
8430
+ "step": 1203
8431
+ },
8432
+ {
8433
+ "epoch": 1.4113682976853208,
8434
+ "grad_norm": 0.38978663086891174,
8435
+ "learning_rate": 5.914168136390359e-05,
8436
+ "loss": 0.6814,
8437
+ "step": 1204
8438
+ },
8439
+ {
8440
+ "epoch": 1.4125402871374158,
8441
+ "grad_norm": 0.37807661294937134,
8442
+ "learning_rate": 5.902410346854792e-05,
8443
+ "loss": 0.6872,
8444
+ "step": 1205
8445
+ },
8446
+ {
8447
+ "epoch": 1.4137122765895107,
8448
+ "grad_norm": 0.3912755846977234,
8449
+ "learning_rate": 5.890652557319224e-05,
8450
+ "loss": 0.6343,
8451
+ "step": 1206
8452
+ },
8453
+ {
8454
+ "epoch": 1.4148842660416057,
8455
+ "grad_norm": 0.39116203784942627,
8456
+ "learning_rate": 5.878894767783657e-05,
8457
+ "loss": 0.63,
8458
+ "step": 1207
8459
+ },
8460
+ {
8461
+ "epoch": 1.4160562554937006,
8462
+ "grad_norm": 0.4052892029285431,
8463
+ "learning_rate": 5.86713697824809e-05,
8464
+ "loss": 0.6698,
8465
+ "step": 1208
8466
+ },
8467
+ {
8468
+ "epoch": 1.4172282449457954,
8469
+ "grad_norm": 0.3755436837673187,
8470
+ "learning_rate": 5.855379188712522e-05,
8471
+ "loss": 0.6966,
8472
+ "step": 1209
8473
+ },
8474
+ {
8475
+ "epoch": 1.4184002343978905,
8476
+ "grad_norm": 0.37595874071121216,
8477
+ "learning_rate": 5.843621399176955e-05,
8478
+ "loss": 0.6879,
8479
+ "step": 1210
8480
+ },
8481
+ {
8482
+ "epoch": 1.4195722238499853,
8483
+ "grad_norm": 0.4029812514781952,
8484
+ "learning_rate": 5.8318636096413884e-05,
8485
+ "loss": 0.6469,
8486
+ "step": 1211
8487
+ },
8488
+ {
8489
+ "epoch": 1.4207442133020802,
8490
+ "grad_norm": 0.37568360567092896,
8491
+ "learning_rate": 5.82010582010582e-05,
8492
+ "loss": 0.663,
8493
+ "step": 1212
8494
+ },
8495
+ {
8496
+ "epoch": 1.4219162027541752,
8497
+ "grad_norm": 0.38563036918640137,
8498
+ "learning_rate": 5.808348030570253e-05,
8499
+ "loss": 0.6849,
8500
+ "step": 1213
8501
+ },
8502
+ {
8503
+ "epoch": 1.4230881922062701,
8504
+ "grad_norm": 0.3693836033344269,
8505
+ "learning_rate": 5.796590241034686e-05,
8506
+ "loss": 0.6502,
8507
+ "step": 1214
8508
+ },
8509
+ {
8510
+ "epoch": 1.424260181658365,
8511
+ "grad_norm": 0.3790949583053589,
8512
+ "learning_rate": 5.784832451499118e-05,
8513
+ "loss": 0.6848,
8514
+ "step": 1215
8515
+ },
8516
+ {
8517
+ "epoch": 1.42543217111046,
8518
+ "grad_norm": 0.379332572221756,
8519
+ "learning_rate": 5.773074661963551e-05,
8520
+ "loss": 0.642,
8521
+ "step": 1216
8522
+ },
8523
+ {
8524
+ "epoch": 1.426604160562555,
8525
+ "grad_norm": 0.38053902983665466,
8526
+ "learning_rate": 5.761316872427984e-05,
8527
+ "loss": 0.7017,
8528
+ "step": 1217
8529
+ },
8530
+ {
8531
+ "epoch": 1.4277761500146497,
8532
+ "grad_norm": 0.39065247774124146,
8533
+ "learning_rate": 5.749559082892416e-05,
8534
+ "loss": 0.6959,
8535
+ "step": 1218
8536
+ },
8537
+ {
8538
+ "epoch": 1.428948139466745,
8539
+ "grad_norm": 0.40035319328308105,
8540
+ "learning_rate": 5.7378012933568494e-05,
8541
+ "loss": 0.6378,
8542
+ "step": 1219
8543
+ },
8544
+ {
8545
+ "epoch": 1.4301201289188397,
8546
+ "grad_norm": 0.44022828340530396,
8547
+ "learning_rate": 5.726043503821282e-05,
8548
+ "loss": 0.6805,
8549
+ "step": 1220
8550
+ },
8551
+ {
8552
+ "epoch": 1.4312921183709346,
8553
+ "grad_norm": 0.37635087966918945,
8554
+ "learning_rate": 5.714285714285714e-05,
8555
+ "loss": 0.6437,
8556
+ "step": 1221
8557
+ },
8558
+ {
8559
+ "epoch": 1.4324641078230296,
8560
+ "grad_norm": 0.3882914185523987,
8561
+ "learning_rate": 5.7025279247501476e-05,
8562
+ "loss": 0.6468,
8563
+ "step": 1222
8564
+ },
8565
+ {
8566
+ "epoch": 1.4336360972751245,
8567
+ "grad_norm": 0.3925718665122986,
8568
+ "learning_rate": 5.69077013521458e-05,
8569
+ "loss": 0.6516,
8570
+ "step": 1223
8571
+ },
8572
+ {
8573
+ "epoch": 1.4348080867272195,
8574
+ "grad_norm": 0.37410497665405273,
8575
+ "learning_rate": 5.679012345679012e-05,
8576
+ "loss": 0.6963,
8577
+ "step": 1224
8578
+ },
8579
+ {
8580
+ "epoch": 1.4359800761793144,
8581
+ "grad_norm": 0.42080360651016235,
8582
+ "learning_rate": 5.667254556143445e-05,
8583
+ "loss": 0.6386,
8584
+ "step": 1225
8585
+ },
8586
+ {
8587
+ "epoch": 1.4371520656314094,
8588
+ "grad_norm": 0.41487985849380493,
8589
+ "learning_rate": 5.6554967666078784e-05,
8590
+ "loss": 0.6914,
8591
+ "step": 1226
8592
+ },
8593
+ {
8594
+ "epoch": 1.4383240550835041,
8595
+ "grad_norm": 0.36109688878059387,
8596
+ "learning_rate": 5.6437389770723105e-05,
8597
+ "loss": 0.6672,
8598
+ "step": 1227
8599
+ },
8600
+ {
8601
+ "epoch": 1.4394960445355993,
8602
+ "grad_norm": 0.37526097893714905,
8603
+ "learning_rate": 5.631981187536743e-05,
8604
+ "loss": 0.6437,
8605
+ "step": 1228
8606
+ },
8607
+ {
8608
+ "epoch": 1.440668033987694,
8609
+ "grad_norm": 0.38677671551704407,
8610
+ "learning_rate": 5.6202233980011766e-05,
8611
+ "loss": 0.6432,
8612
+ "step": 1229
8613
+ },
8614
+ {
8615
+ "epoch": 1.441840023439789,
8616
+ "grad_norm": 0.37004703283309937,
8617
+ "learning_rate": 5.6084656084656086e-05,
8618
+ "loss": 0.6873,
8619
+ "step": 1230
8620
+ },
8621
+ {
8622
+ "epoch": 1.443012012891884,
8623
+ "grad_norm": 0.363845556974411,
8624
+ "learning_rate": 5.596707818930041e-05,
8625
+ "loss": 0.6388,
8626
+ "step": 1231
8627
+ },
8628
+ {
8629
+ "epoch": 1.444184002343979,
8630
+ "grad_norm": 0.3900223970413208,
8631
+ "learning_rate": 5.584950029394475e-05,
8632
+ "loss": 0.636,
8633
+ "step": 1232
8634
+ },
8635
+ {
8636
+ "epoch": 1.4453559917960739,
8637
+ "grad_norm": 0.37807023525238037,
8638
+ "learning_rate": 5.573192239858907e-05,
8639
+ "loss": 0.6699,
8640
+ "step": 1233
8641
+ },
8642
+ {
8643
+ "epoch": 1.4465279812481688,
8644
+ "grad_norm": 0.3589508533477783,
8645
+ "learning_rate": 5.5614344503233395e-05,
8646
+ "loss": 0.6256,
8647
+ "step": 1234
8648
+ },
8649
+ {
8650
+ "epoch": 1.4476999707002638,
8651
+ "grad_norm": 0.3793289065361023,
8652
+ "learning_rate": 5.549676660787773e-05,
8653
+ "loss": 0.66,
8654
+ "step": 1235
8655
+ },
8656
+ {
8657
+ "epoch": 1.4488719601523585,
8658
+ "grad_norm": 0.38588500022888184,
8659
+ "learning_rate": 5.537918871252204e-05,
8660
+ "loss": 0.6795,
8661
+ "step": 1236
8662
+ },
8663
+ {
8664
+ "epoch": 1.4500439496044535,
8665
+ "grad_norm": 0.3903558552265167,
8666
+ "learning_rate": 5.5261610817166376e-05,
8667
+ "loss": 0.6871,
8668
+ "step": 1237
8669
+ },
8670
+ {
8671
+ "epoch": 1.4512159390565484,
8672
+ "grad_norm": 0.3721795082092285,
8673
+ "learning_rate": 5.51440329218107e-05,
8674
+ "loss": 0.6524,
8675
+ "step": 1238
8676
+ },
8677
+ {
8678
+ "epoch": 1.4523879285086434,
8679
+ "grad_norm": 0.41447609663009644,
8680
+ "learning_rate": 5.5026455026455024e-05,
8681
+ "loss": 0.6711,
8682
+ "step": 1239
8683
+ },
8684
+ {
8685
+ "epoch": 1.4535599179607384,
8686
+ "grad_norm": 0.3805668354034424,
8687
+ "learning_rate": 5.490887713109936e-05,
8688
+ "loss": 0.6467,
8689
+ "step": 1240
8690
+ },
8691
+ {
8692
+ "epoch": 1.4547319074128333,
8693
+ "grad_norm": 0.3742830157279968,
8694
+ "learning_rate": 5.4791299235743685e-05,
8695
+ "loss": 0.6497,
8696
+ "step": 1241
8697
+ },
8698
+ {
8699
+ "epoch": 1.4559038968649283,
8700
+ "grad_norm": 0.3923674523830414,
8701
+ "learning_rate": 5.4673721340388005e-05,
8702
+ "loss": 0.6446,
8703
+ "step": 1242
8704
+ },
8705
+ {
8706
+ "epoch": 1.4570758863170232,
8707
+ "grad_norm": 0.4189533591270447,
8708
+ "learning_rate": 5.455614344503234e-05,
8709
+ "loss": 0.688,
8710
+ "step": 1243
8711
+ },
8712
+ {
8713
+ "epoch": 1.4582478757691182,
8714
+ "grad_norm": 0.38281819224357605,
8715
+ "learning_rate": 5.4438565549676666e-05,
8716
+ "loss": 0.6543,
8717
+ "step": 1244
8718
+ },
8719
+ {
8720
+ "epoch": 1.459419865221213,
8721
+ "grad_norm": 0.3858702480792999,
8722
+ "learning_rate": 5.4320987654320986e-05,
8723
+ "loss": 0.6822,
8724
+ "step": 1245
8725
+ },
8726
+ {
8727
+ "epoch": 1.4605918546733079,
8728
+ "grad_norm": 0.41707929968833923,
8729
+ "learning_rate": 5.420340975896532e-05,
8730
+ "loss": 0.6261,
8731
+ "step": 1246
8732
+ },
8733
+ {
8734
+ "epoch": 1.4617638441254028,
8735
+ "grad_norm": 0.36858686804771423,
8736
+ "learning_rate": 5.408583186360965e-05,
8737
+ "loss": 0.6457,
8738
+ "step": 1247
8739
+ },
8740
+ {
8741
+ "epoch": 1.4629358335774978,
8742
+ "grad_norm": 0.4082486033439636,
8743
+ "learning_rate": 5.396825396825397e-05,
8744
+ "loss": 0.6932,
8745
+ "step": 1248
8746
+ },
8747
+ {
8748
+ "epoch": 1.4641078230295927,
8749
+ "grad_norm": 0.3880460858345032,
8750
+ "learning_rate": 5.3850676072898295e-05,
8751
+ "loss": 0.6646,
8752
+ "step": 1249
8753
+ },
8754
+ {
8755
+ "epoch": 1.4652798124816877,
8756
+ "grad_norm": 0.3867412209510803,
8757
+ "learning_rate": 5.373309817754263e-05,
8758
+ "loss": 0.7426,
8759
+ "step": 1250
8760
+ },
8761
+ {
8762
+ "epoch": 1.4664518019337827,
8763
+ "grad_norm": 0.3632020354270935,
8764
+ "learning_rate": 5.361552028218695e-05,
8765
+ "loss": 0.6446,
8766
+ "step": 1251
8767
+ },
8768
+ {
8769
+ "epoch": 1.4676237913858774,
8770
+ "grad_norm": 0.36393246054649353,
8771
+ "learning_rate": 5.3497942386831277e-05,
8772
+ "loss": 0.6056,
8773
+ "step": 1252
8774
+ },
8775
+ {
8776
+ "epoch": 1.4687957808379726,
8777
+ "grad_norm": 0.37027665972709656,
8778
+ "learning_rate": 5.338036449147561e-05,
8779
+ "loss": 0.672,
8780
+ "step": 1253
8781
+ },
8782
+ {
8783
+ "epoch": 1.4699677702900673,
8784
+ "grad_norm": 0.35585132241249084,
8785
+ "learning_rate": 5.326278659611993e-05,
8786
+ "loss": 0.696,
8787
+ "step": 1254
8788
+ },
8789
+ {
8790
+ "epoch": 1.4711397597421623,
8791
+ "grad_norm": 0.39298853278160095,
8792
+ "learning_rate": 5.314520870076426e-05,
8793
+ "loss": 0.667,
8794
+ "step": 1255
8795
+ },
8796
+ {
8797
+ "epoch": 1.4723117491942572,
8798
+ "grad_norm": 0.3782164454460144,
8799
+ "learning_rate": 5.302763080540859e-05,
8800
+ "loss": 0.6258,
8801
+ "step": 1256
8802
+ },
8803
+ {
8804
+ "epoch": 1.4734837386463522,
8805
+ "grad_norm": 0.38333067297935486,
8806
+ "learning_rate": 5.291005291005291e-05,
8807
+ "loss": 0.666,
8808
+ "step": 1257
8809
+ },
8810
+ {
8811
+ "epoch": 1.4746557280984471,
8812
+ "grad_norm": 0.40639209747314453,
8813
+ "learning_rate": 5.279247501469724e-05,
8814
+ "loss": 0.6612,
8815
+ "step": 1258
8816
+ },
8817
+ {
8818
+ "epoch": 1.475827717550542,
8819
+ "grad_norm": 0.38118046522140503,
8820
+ "learning_rate": 5.267489711934157e-05,
8821
+ "loss": 0.6475,
8822
+ "step": 1259
8823
+ },
8824
+ {
8825
+ "epoch": 1.476999707002637,
8826
+ "grad_norm": 0.3647833466529846,
8827
+ "learning_rate": 5.255731922398589e-05,
8828
+ "loss": 0.6594,
8829
+ "step": 1260
8830
+ },
8831
+ {
8832
+ "epoch": 1.4781716964547318,
8833
+ "grad_norm": 0.3835331201553345,
8834
+ "learning_rate": 5.243974132863022e-05,
8835
+ "loss": 0.6208,
8836
+ "step": 1261
8837
+ },
8838
+ {
8839
+ "epoch": 1.479343685906827,
8840
+ "grad_norm": 0.3909193277359009,
8841
+ "learning_rate": 5.232216343327455e-05,
8842
+ "loss": 0.6997,
8843
+ "step": 1262
8844
+ },
8845
+ {
8846
+ "epoch": 1.4805156753589217,
8847
+ "grad_norm": 0.377839595079422,
8848
+ "learning_rate": 5.220458553791887e-05,
8849
+ "loss": 0.6687,
8850
+ "step": 1263
8851
+ },
8852
+ {
8853
+ "epoch": 1.4816876648110167,
8854
+ "grad_norm": 0.3836138844490051,
8855
+ "learning_rate": 5.20870076425632e-05,
8856
+ "loss": 0.6636,
8857
+ "step": 1264
8858
+ },
8859
+ {
8860
+ "epoch": 1.4828596542631116,
8861
+ "grad_norm": 0.37317249178886414,
8862
+ "learning_rate": 5.196942974720753e-05,
8863
+ "loss": 0.6793,
8864
+ "step": 1265
8865
+ },
8866
+ {
8867
+ "epoch": 1.4840316437152066,
8868
+ "grad_norm": 0.385690838098526,
8869
+ "learning_rate": 5.185185185185185e-05,
8870
+ "loss": 0.6517,
8871
+ "step": 1266
8872
+ },
8873
+ {
8874
+ "epoch": 1.4852036331673015,
8875
+ "grad_norm": 0.37199866771698,
8876
+ "learning_rate": 5.1734273956496184e-05,
8877
+ "loss": 0.6403,
8878
+ "step": 1267
8879
+ },
8880
+ {
8881
+ "epoch": 1.4863756226193965,
8882
+ "grad_norm": 0.393108606338501,
8883
+ "learning_rate": 5.161669606114051e-05,
8884
+ "loss": 0.7115,
8885
+ "step": 1268
8886
+ },
8887
+ {
8888
+ "epoch": 1.4875476120714914,
8889
+ "grad_norm": 0.40995368361473083,
8890
+ "learning_rate": 5.149911816578483e-05,
8891
+ "loss": 0.6859,
8892
+ "step": 1269
8893
+ },
8894
+ {
8895
+ "epoch": 1.4887196015235862,
8896
+ "grad_norm": 0.35813668370246887,
8897
+ "learning_rate": 5.1381540270429165e-05,
8898
+ "loss": 0.6265,
8899
+ "step": 1270
8900
+ },
8901
+ {
8902
+ "epoch": 1.4898915909756814,
8903
+ "grad_norm": 0.3874257504940033,
8904
+ "learning_rate": 5.126396237507349e-05,
8905
+ "loss": 0.6407,
8906
+ "step": 1271
8907
+ },
8908
+ {
8909
+ "epoch": 1.491063580427776,
8910
+ "grad_norm": 0.39107558131217957,
8911
+ "learning_rate": 5.114638447971781e-05,
8912
+ "loss": 0.6787,
8913
+ "step": 1272
8914
+ },
8915
+ {
8916
+ "epoch": 1.492235569879871,
8917
+ "grad_norm": 0.38405880331993103,
8918
+ "learning_rate": 5.102880658436214e-05,
8919
+ "loss": 0.6422,
8920
+ "step": 1273
8921
+ },
8922
+ {
8923
+ "epoch": 1.493407559331966,
8924
+ "grad_norm": 0.40102508664131165,
8925
+ "learning_rate": 5.0911228689006474e-05,
8926
+ "loss": 0.6573,
8927
+ "step": 1274
8928
+ },
8929
+ {
8930
+ "epoch": 1.494579548784061,
8931
+ "grad_norm": 0.4192945659160614,
8932
+ "learning_rate": 5.0793650793650794e-05,
8933
+ "loss": 0.6181,
8934
+ "step": 1275
8935
+ },
8936
+ {
8937
+ "epoch": 1.495751538236156,
8938
+ "grad_norm": 0.3956759572029114,
8939
+ "learning_rate": 5.067607289829512e-05,
8940
+ "loss": 0.6583,
8941
+ "step": 1276
8942
+ },
8943
+ {
8944
+ "epoch": 1.4969235276882509,
8945
+ "grad_norm": 0.4155990183353424,
8946
+ "learning_rate": 5.0558495002939455e-05,
8947
+ "loss": 0.6849,
8948
+ "step": 1277
8949
+ },
8950
+ {
8951
+ "epoch": 1.4980955171403458,
8952
+ "grad_norm": 0.390337198972702,
8953
+ "learning_rate": 5.0440917107583776e-05,
8954
+ "loss": 0.7172,
8955
+ "step": 1278
8956
+ },
8957
+ {
8958
+ "epoch": 1.4992675065924406,
8959
+ "grad_norm": 0.39508169889450073,
8960
+ "learning_rate": 5.03233392122281e-05,
8961
+ "loss": 0.6638,
8962
+ "step": 1279
8963
+ },
8964
+ {
8965
+ "epoch": 1.5004394960445357,
8966
+ "grad_norm": 0.3898437023162842,
8967
+ "learning_rate": 5.020576131687244e-05,
8968
+ "loss": 0.6085,
8969
+ "step": 1280
8970
+ },
8971
+ {
8972
+ "epoch": 1.5016114854966305,
8973
+ "grad_norm": 0.37632593512535095,
8974
+ "learning_rate": 5.008818342151676e-05,
8975
+ "loss": 0.6722,
8976
+ "step": 1281
8977
+ },
8978
+ {
8979
+ "epoch": 1.5027834749487254,
8980
+ "grad_norm": 0.39309123158454895,
8981
+ "learning_rate": 4.9970605526161084e-05,
8982
+ "loss": 0.7213,
8983
+ "step": 1282
8984
+ },
8985
+ {
8986
+ "epoch": 1.5039554644008204,
8987
+ "grad_norm": 0.3973393440246582,
8988
+ "learning_rate": 4.985302763080541e-05,
8989
+ "loss": 0.6851,
8990
+ "step": 1283
8991
+ },
8992
+ {
8993
+ "epoch": 1.5051274538529154,
8994
+ "grad_norm": 0.3938598930835724,
8995
+ "learning_rate": 4.973544973544973e-05,
8996
+ "loss": 0.6219,
8997
+ "step": 1284
8998
+ },
8999
+ {
9000
+ "epoch": 1.5062994433050103,
9001
+ "grad_norm": 0.38015884160995483,
9002
+ "learning_rate": 4.9617871840094066e-05,
9003
+ "loss": 0.7159,
9004
+ "step": 1285
9005
+ },
9006
+ {
9007
+ "epoch": 1.507471432757105,
9008
+ "grad_norm": 0.3672783076763153,
9009
+ "learning_rate": 4.950029394473839e-05,
9010
+ "loss": 0.6958,
9011
+ "step": 1286
9012
+ },
9013
+ {
9014
+ "epoch": 1.5086434222092002,
9015
+ "grad_norm": 0.3825698494911194,
9016
+ "learning_rate": 4.938271604938271e-05,
9017
+ "loss": 0.6572,
9018
+ "step": 1287
9019
+ },
9020
+ {
9021
+ "epoch": 1.509815411661295,
9022
+ "grad_norm": 0.38162460923194885,
9023
+ "learning_rate": 4.926513815402705e-05,
9024
+ "loss": 0.6262,
9025
+ "step": 1288
9026
+ },
9027
+ {
9028
+ "epoch": 1.5109874011133901,
9029
+ "grad_norm": 0.3847755789756775,
9030
+ "learning_rate": 4.9147560258671374e-05,
9031
+ "loss": 0.6155,
9032
+ "step": 1289
9033
+ },
9034
+ {
9035
+ "epoch": 1.5121593905654849,
9036
+ "grad_norm": 0.3806037902832031,
9037
+ "learning_rate": 4.9029982363315695e-05,
9038
+ "loss": 0.6606,
9039
+ "step": 1290
9040
+ },
9041
+ {
9042
+ "epoch": 1.5133313800175798,
9043
+ "grad_norm": 0.38434869050979614,
9044
+ "learning_rate": 4.891240446796003e-05,
9045
+ "loss": 0.687,
9046
+ "step": 1291
9047
+ },
9048
+ {
9049
+ "epoch": 1.5145033694696748,
9050
+ "grad_norm": 0.39996469020843506,
9051
+ "learning_rate": 4.879482657260435e-05,
9052
+ "loss": 0.6714,
9053
+ "step": 1292
9054
+ },
9055
+ {
9056
+ "epoch": 1.5156753589217697,
9057
+ "grad_norm": 0.37494775652885437,
9058
+ "learning_rate": 4.8677248677248676e-05,
9059
+ "loss": 0.669,
9060
+ "step": 1293
9061
+ },
9062
+ {
9063
+ "epoch": 1.5168473483738647,
9064
+ "grad_norm": 0.3752374053001404,
9065
+ "learning_rate": 4.855967078189301e-05,
9066
+ "loss": 0.6388,
9067
+ "step": 1294
9068
+ },
9069
+ {
9070
+ "epoch": 1.5180193378259594,
9071
+ "grad_norm": 0.36477306485176086,
9072
+ "learning_rate": 4.844209288653733e-05,
9073
+ "loss": 0.6531,
9074
+ "step": 1295
9075
+ },
9076
+ {
9077
+ "epoch": 1.5191913272780546,
9078
+ "grad_norm": 0.36245569586753845,
9079
+ "learning_rate": 4.832451499118166e-05,
9080
+ "loss": 0.6685,
9081
+ "step": 1296
9082
+ },
9083
+ {
9084
+ "epoch": 1.5203633167301494,
9085
+ "grad_norm": 0.355896919965744,
9086
+ "learning_rate": 4.820693709582599e-05,
9087
+ "loss": 0.6594,
9088
+ "step": 1297
9089
+ },
9090
+ {
9091
+ "epoch": 1.5215353061822443,
9092
+ "grad_norm": 0.3616688549518585,
9093
+ "learning_rate": 4.808935920047031e-05,
9094
+ "loss": 0.6425,
9095
+ "step": 1298
9096
+ },
9097
+ {
9098
+ "epoch": 1.5227072956343393,
9099
+ "grad_norm": 0.3755030632019043,
9100
+ "learning_rate": 4.797178130511464e-05,
9101
+ "loss": 0.6472,
9102
+ "step": 1299
9103
+ },
9104
+ {
9105
+ "epoch": 1.5238792850864342,
9106
+ "grad_norm": 0.3720192015171051,
9107
+ "learning_rate": 4.7854203409758966e-05,
9108
+ "loss": 0.6426,
9109
+ "step": 1300
9110
+ },
9111
+ {
9112
+ "epoch": 1.5250512745385292,
9113
+ "grad_norm": 0.3859194219112396,
9114
+ "learning_rate": 4.773662551440329e-05,
9115
+ "loss": 0.6385,
9116
+ "step": 1301
9117
+ },
9118
+ {
9119
+ "epoch": 1.5262232639906241,
9120
+ "grad_norm": 0.37670567631721497,
9121
+ "learning_rate": 4.761904761904762e-05,
9122
+ "loss": 0.6411,
9123
+ "step": 1302
9124
+ },
9125
+ {
9126
+ "epoch": 1.527395253442719,
9127
+ "grad_norm": 0.3701159358024597,
9128
+ "learning_rate": 4.750146972369195e-05,
9129
+ "loss": 0.6767,
9130
+ "step": 1303
9131
+ },
9132
+ {
9133
+ "epoch": 1.5285672428948138,
9134
+ "grad_norm": 0.38531991839408875,
9135
+ "learning_rate": 4.7383891828336275e-05,
9136
+ "loss": 0.6948,
9137
+ "step": 1304
9138
+ },
9139
+ {
9140
+ "epoch": 1.529739232346909,
9141
+ "grad_norm": 0.4071838855743408,
9142
+ "learning_rate": 4.72663139329806e-05,
9143
+ "loss": 0.6502,
9144
+ "step": 1305
9145
+ },
9146
+ {
9147
+ "epoch": 1.5309112217990037,
9148
+ "grad_norm": 0.38243693113327026,
9149
+ "learning_rate": 4.714873603762493e-05,
9150
+ "loss": 0.6327,
9151
+ "step": 1306
9152
+ },
9153
+ {
9154
+ "epoch": 1.5320832112510987,
9155
+ "grad_norm": 0.37889015674591064,
9156
+ "learning_rate": 4.7031158142269256e-05,
9157
+ "loss": 0.6182,
9158
+ "step": 1307
9159
+ },
9160
+ {
9161
+ "epoch": 1.5332552007031937,
9162
+ "grad_norm": 0.36006277799606323,
9163
+ "learning_rate": 4.691358024691358e-05,
9164
+ "loss": 0.6053,
9165
+ "step": 1308
9166
+ },
9167
+ {
9168
+ "epoch": 1.5344271901552886,
9169
+ "grad_norm": 0.39384907484054565,
9170
+ "learning_rate": 4.679600235155791e-05,
9171
+ "loss": 0.6609,
9172
+ "step": 1309
9173
+ },
9174
+ {
9175
+ "epoch": 1.5355991796073836,
9176
+ "grad_norm": 0.38327935338020325,
9177
+ "learning_rate": 4.667842445620224e-05,
9178
+ "loss": 0.6948,
9179
+ "step": 1310
9180
+ },
9181
+ {
9182
+ "epoch": 1.5367711690594783,
9183
+ "grad_norm": 0.38430511951446533,
9184
+ "learning_rate": 4.656084656084656e-05,
9185
+ "loss": 0.6313,
9186
+ "step": 1311
9187
+ },
9188
+ {
9189
+ "epoch": 1.5379431585115735,
9190
+ "grad_norm": 0.3972114324569702,
9191
+ "learning_rate": 4.644326866549089e-05,
9192
+ "loss": 0.6396,
9193
+ "step": 1312
9194
+ },
9195
+ {
9196
+ "epoch": 1.5391151479636682,
9197
+ "grad_norm": 0.4078161120414734,
9198
+ "learning_rate": 4.632569077013522e-05,
9199
+ "loss": 0.6885,
9200
+ "step": 1313
9201
+ },
9202
+ {
9203
+ "epoch": 1.5402871374157634,
9204
+ "grad_norm": 0.3729688227176666,
9205
+ "learning_rate": 4.620811287477954e-05,
9206
+ "loss": 0.6438,
9207
+ "step": 1314
9208
+ },
9209
+ {
9210
+ "epoch": 1.5414591268678581,
9211
+ "grad_norm": 0.3863990902900696,
9212
+ "learning_rate": 4.609053497942387e-05,
9213
+ "loss": 0.6424,
9214
+ "step": 1315
9215
+ },
9216
+ {
9217
+ "epoch": 1.542631116319953,
9218
+ "grad_norm": 0.3734455406665802,
9219
+ "learning_rate": 4.5972957084068194e-05,
9220
+ "loss": 0.6927,
9221
+ "step": 1316
9222
+ },
9223
+ {
9224
+ "epoch": 1.543803105772048,
9225
+ "grad_norm": 0.3718372583389282,
9226
+ "learning_rate": 4.585537918871252e-05,
9227
+ "loss": 0.6325,
9228
+ "step": 1317
9229
+ },
9230
+ {
9231
+ "epoch": 1.544975095224143,
9232
+ "grad_norm": 0.36497369408607483,
9233
+ "learning_rate": 4.5737801293356855e-05,
9234
+ "loss": 0.6187,
9235
+ "step": 1318
9236
+ },
9237
+ {
9238
+ "epoch": 1.546147084676238,
9239
+ "grad_norm": 0.38579320907592773,
9240
+ "learning_rate": 4.5620223398001175e-05,
9241
+ "loss": 0.6754,
9242
+ "step": 1319
9243
+ },
9244
+ {
9245
+ "epoch": 1.5473190741283327,
9246
+ "grad_norm": 0.374126136302948,
9247
+ "learning_rate": 4.55026455026455e-05,
9248
+ "loss": 0.6472,
9249
+ "step": 1320
9250
+ },
9251
+ {
9252
+ "epoch": 1.5484910635804279,
9253
+ "grad_norm": 0.38020315766334534,
9254
+ "learning_rate": 4.5385067607289836e-05,
9255
+ "loss": 0.672,
9256
+ "step": 1321
9257
+ },
9258
+ {
9259
+ "epoch": 1.5496630530325226,
9260
+ "grad_norm": 0.38782334327697754,
9261
+ "learning_rate": 4.5267489711934157e-05,
9262
+ "loss": 0.7069,
9263
+ "step": 1322
9264
+ },
9265
+ {
9266
+ "epoch": 1.5508350424846178,
9267
+ "grad_norm": 0.36838847398757935,
9268
+ "learning_rate": 4.5149911816578484e-05,
9269
+ "loss": 0.6567,
9270
+ "step": 1323
9271
+ },
9272
+ {
9273
+ "epoch": 1.5520070319367125,
9274
+ "grad_norm": 0.37560224533081055,
9275
+ "learning_rate": 4.503233392122281e-05,
9276
+ "loss": 0.6638,
9277
+ "step": 1324
9278
+ },
9279
+ {
9280
+ "epoch": 1.5531790213888075,
9281
+ "grad_norm": 0.3812626898288727,
9282
+ "learning_rate": 4.491475602586714e-05,
9283
+ "loss": 0.6841,
9284
+ "step": 1325
9285
+ },
9286
+ {
9287
+ "epoch": 1.5543510108409024,
9288
+ "grad_norm": 0.37894850969314575,
9289
+ "learning_rate": 4.4797178130511465e-05,
9290
+ "loss": 0.6505,
9291
+ "step": 1326
9292
+ },
9293
+ {
9294
+ "epoch": 1.5555230002929974,
9295
+ "grad_norm": 0.3598770499229431,
9296
+ "learning_rate": 4.467960023515579e-05,
9297
+ "loss": 0.651,
9298
+ "step": 1327
9299
+ },
9300
+ {
9301
+ "epoch": 1.5566949897450924,
9302
+ "grad_norm": 0.4064580798149109,
9303
+ "learning_rate": 4.456202233980012e-05,
9304
+ "loss": 0.6593,
9305
+ "step": 1328
9306
+ },
9307
+ {
9308
+ "epoch": 1.557866979197187,
9309
+ "grad_norm": 0.3867085576057434,
9310
+ "learning_rate": 4.4444444444444447e-05,
9311
+ "loss": 0.6189,
9312
+ "step": 1329
9313
+ },
9314
+ {
9315
+ "epoch": 1.5590389686492823,
9316
+ "grad_norm": 0.3712484836578369,
9317
+ "learning_rate": 4.4326866549088774e-05,
9318
+ "loss": 0.6563,
9319
+ "step": 1330
9320
+ },
9321
+ {
9322
+ "epoch": 1.560210958101377,
9323
+ "grad_norm": 0.3924928605556488,
9324
+ "learning_rate": 4.42092886537331e-05,
9325
+ "loss": 0.6168,
9326
+ "step": 1331
9327
+ },
9328
+ {
9329
+ "epoch": 1.5613829475534722,
9330
+ "grad_norm": 0.36495327949523926,
9331
+ "learning_rate": 4.409171075837743e-05,
9332
+ "loss": 0.6584,
9333
+ "step": 1332
9334
+ },
9335
+ {
9336
+ "epoch": 1.562554937005567,
9337
+ "grad_norm": 0.37702497839927673,
9338
+ "learning_rate": 4.3974132863021755e-05,
9339
+ "loss": 0.6638,
9340
+ "step": 1333
9341
+ },
9342
+ {
9343
+ "epoch": 1.5637269264576619,
9344
+ "grad_norm": 0.3681667149066925,
9345
+ "learning_rate": 4.385655496766608e-05,
9346
+ "loss": 0.6122,
9347
+ "step": 1334
9348
+ },
9349
+ {
9350
+ "epoch": 1.5648989159097568,
9351
+ "grad_norm": 0.37110069394111633,
9352
+ "learning_rate": 4.37389770723104e-05,
9353
+ "loss": 0.6791,
9354
+ "step": 1335
9355
+ },
9356
+ {
9357
+ "epoch": 1.5660709053618518,
9358
+ "grad_norm": 0.3588317036628723,
9359
+ "learning_rate": 4.3621399176954737e-05,
9360
+ "loss": 0.616,
9361
+ "step": 1336
9362
+ },
9363
+ {
9364
+ "epoch": 1.5672428948139467,
9365
+ "grad_norm": 0.39171895384788513,
9366
+ "learning_rate": 4.3503821281599064e-05,
9367
+ "loss": 0.6859,
9368
+ "step": 1337
9369
+ },
9370
+ {
9371
+ "epoch": 1.5684148842660415,
9372
+ "grad_norm": 0.39346379041671753,
9373
+ "learning_rate": 4.3386243386243384e-05,
9374
+ "loss": 0.6833,
9375
+ "step": 1338
9376
+ },
9377
+ {
9378
+ "epoch": 1.5695868737181367,
9379
+ "grad_norm": 0.37361201643943787,
9380
+ "learning_rate": 4.326866549088772e-05,
9381
+ "loss": 0.637,
9382
+ "step": 1339
9383
+ },
9384
+ {
9385
+ "epoch": 1.5707588631702314,
9386
+ "grad_norm": 0.38074547052383423,
9387
+ "learning_rate": 4.315108759553204e-05,
9388
+ "loss": 0.6672,
9389
+ "step": 1340
9390
+ },
9391
+ {
9392
+ "epoch": 1.5719308526223263,
9393
+ "grad_norm": 0.36969512701034546,
9394
+ "learning_rate": 4.3033509700176366e-05,
9395
+ "loss": 0.6363,
9396
+ "step": 1341
9397
+ },
9398
+ {
9399
+ "epoch": 1.5731028420744213,
9400
+ "grad_norm": 0.36250782012939453,
9401
+ "learning_rate": 4.29159318048207e-05,
9402
+ "loss": 0.6194,
9403
+ "step": 1342
9404
+ },
9405
+ {
9406
+ "epoch": 1.5742748315265163,
9407
+ "grad_norm": 0.3632318377494812,
9408
+ "learning_rate": 4.279835390946502e-05,
9409
+ "loss": 0.6229,
9410
+ "step": 1343
9411
+ },
9412
+ {
9413
+ "epoch": 1.5754468209786112,
9414
+ "grad_norm": 0.37329503893852234,
9415
+ "learning_rate": 4.268077601410935e-05,
9416
+ "loss": 0.6614,
9417
+ "step": 1344
9418
+ },
9419
+ {
9420
+ "epoch": 1.5766188104307062,
9421
+ "grad_norm": 0.3797610402107239,
9422
+ "learning_rate": 4.256319811875368e-05,
9423
+ "loss": 0.6454,
9424
+ "step": 1345
9425
+ },
9426
+ {
9427
+ "epoch": 1.5777907998828011,
9428
+ "grad_norm": 0.38016003370285034,
9429
+ "learning_rate": 4.2445620223398e-05,
9430
+ "loss": 0.6362,
9431
+ "step": 1346
9432
+ },
9433
+ {
9434
+ "epoch": 1.5789627893348959,
9435
+ "grad_norm": 0.3744441568851471,
9436
+ "learning_rate": 4.232804232804233e-05,
9437
+ "loss": 0.6523,
9438
+ "step": 1347
9439
+ },
9440
+ {
9441
+ "epoch": 1.580134778786991,
9442
+ "grad_norm": 0.38999882340431213,
9443
+ "learning_rate": 4.2210464432686656e-05,
9444
+ "loss": 0.6723,
9445
+ "step": 1348
9446
+ },
9447
+ {
9448
+ "epoch": 1.5813067682390858,
9449
+ "grad_norm": 0.40173429250717163,
9450
+ "learning_rate": 4.209288653733098e-05,
9451
+ "loss": 0.6375,
9452
+ "step": 1349
9453
+ },
9454
+ {
9455
+ "epoch": 1.5824787576911807,
9456
+ "grad_norm": 0.38676032423973083,
9457
+ "learning_rate": 4.197530864197531e-05,
9458
+ "loss": 0.6853,
9459
+ "step": 1350
9460
+ },
9461
+ {
9462
+ "epoch": 1.5836507471432757,
9463
+ "grad_norm": 0.38119667768478394,
9464
+ "learning_rate": 4.185773074661964e-05,
9465
+ "loss": 0.6388,
9466
+ "step": 1351
9467
+ },
9468
+ {
9469
+ "epoch": 1.5848227365953707,
9470
+ "grad_norm": 0.3793523907661438,
9471
+ "learning_rate": 4.1740152851263964e-05,
9472
+ "loss": 0.6269,
9473
+ "step": 1352
9474
+ },
9475
+ {
9476
+ "epoch": 1.5859947260474656,
9477
+ "grad_norm": 0.3863115608692169,
9478
+ "learning_rate": 4.162257495590829e-05,
9479
+ "loss": 0.7104,
9480
+ "step": 1353
9481
+ },
9482
+ {
9483
+ "epoch": 1.5871667154995603,
9484
+ "grad_norm": 0.3677123785018921,
9485
+ "learning_rate": 4.150499706055262e-05,
9486
+ "loss": 0.6581,
9487
+ "step": 1354
9488
+ },
9489
+ {
9490
+ "epoch": 1.5883387049516555,
9491
+ "grad_norm": 0.39373883605003357,
9492
+ "learning_rate": 4.1387419165196946e-05,
9493
+ "loss": 0.6768,
9494
+ "step": 1355
9495
+ },
9496
+ {
9497
+ "epoch": 1.5895106944037503,
9498
+ "grad_norm": 0.39006727933883667,
9499
+ "learning_rate": 4.126984126984127e-05,
9500
+ "loss": 0.6636,
9501
+ "step": 1356
9502
+ },
9503
+ {
9504
+ "epoch": 1.5906826838558454,
9505
+ "grad_norm": 0.37299513816833496,
9506
+ "learning_rate": 4.11522633744856e-05,
9507
+ "loss": 0.6205,
9508
+ "step": 1357
9509
+ },
9510
+ {
9511
+ "epoch": 1.5918546733079402,
9512
+ "grad_norm": 0.374833345413208,
9513
+ "learning_rate": 4.103468547912993e-05,
9514
+ "loss": 0.6734,
9515
+ "step": 1358
9516
+ },
9517
+ {
9518
+ "epoch": 1.5930266627600351,
9519
+ "grad_norm": 0.38301679491996765,
9520
+ "learning_rate": 4.091710758377425e-05,
9521
+ "loss": 0.6709,
9522
+ "step": 1359
9523
+ },
9524
+ {
9525
+ "epoch": 1.59419865221213,
9526
+ "grad_norm": 0.35621005296707153,
9527
+ "learning_rate": 4.079952968841858e-05,
9528
+ "loss": 0.6523,
9529
+ "step": 1360
9530
+ },
9531
+ {
9532
+ "epoch": 1.595370641664225,
9533
+ "grad_norm": 0.3874707520008087,
9534
+ "learning_rate": 4.068195179306291e-05,
9535
+ "loss": 0.6615,
9536
+ "step": 1361
9537
+ },
9538
+ {
9539
+ "epoch": 1.59654263111632,
9540
+ "grad_norm": 0.39570900797843933,
9541
+ "learning_rate": 4.056437389770723e-05,
9542
+ "loss": 0.647,
9543
+ "step": 1362
9544
+ },
9545
+ {
9546
+ "epoch": 1.5977146205684147,
9547
+ "grad_norm": 0.38016220927238464,
9548
+ "learning_rate": 4.044679600235156e-05,
9549
+ "loss": 0.662,
9550
+ "step": 1363
9551
+ },
9552
+ {
9553
+ "epoch": 1.59888661002051,
9554
+ "grad_norm": 0.37574926018714905,
9555
+ "learning_rate": 4.032921810699588e-05,
9556
+ "loss": 0.6636,
9557
+ "step": 1364
9558
+ },
9559
+ {
9560
+ "epoch": 1.6000585994726046,
9561
+ "grad_norm": 0.40126630663871765,
9562
+ "learning_rate": 4.021164021164021e-05,
9563
+ "loss": 0.6081,
9564
+ "step": 1365
9565
+ },
9566
+ {
9567
+ "epoch": 1.6012305889246998,
9568
+ "grad_norm": 0.3685883581638336,
9569
+ "learning_rate": 4.0094062316284544e-05,
9570
+ "loss": 0.6364,
9571
+ "step": 1366
9572
+ },
9573
+ {
9574
+ "epoch": 1.6024025783767946,
9575
+ "grad_norm": 0.409110426902771,
9576
+ "learning_rate": 3.9976484420928865e-05,
9577
+ "loss": 0.7165,
9578
+ "step": 1367
9579
+ },
9580
+ {
9581
+ "epoch": 1.6035745678288895,
9582
+ "grad_norm": 0.39460107684135437,
9583
+ "learning_rate": 3.985890652557319e-05,
9584
+ "loss": 0.6756,
9585
+ "step": 1368
9586
+ },
9587
+ {
9588
+ "epoch": 1.6047465572809845,
9589
+ "grad_norm": 0.3784719407558441,
9590
+ "learning_rate": 3.9741328630217526e-05,
9591
+ "loss": 0.6578,
9592
+ "step": 1369
9593
+ },
9594
+ {
9595
+ "epoch": 1.6059185467330794,
9596
+ "grad_norm": 0.36832788586616516,
9597
+ "learning_rate": 3.9623750734861846e-05,
9598
+ "loss": 0.6372,
9599
+ "step": 1370
9600
+ },
9601
+ {
9602
+ "epoch": 1.6070905361851744,
9603
+ "grad_norm": 0.3807730972766876,
9604
+ "learning_rate": 3.950617283950617e-05,
9605
+ "loss": 0.6015,
9606
+ "step": 1371
9607
+ },
9608
+ {
9609
+ "epoch": 1.6082625256372691,
9610
+ "grad_norm": 0.3825012445449829,
9611
+ "learning_rate": 3.93885949441505e-05,
9612
+ "loss": 0.6982,
9613
+ "step": 1372
9614
+ },
9615
+ {
9616
+ "epoch": 1.6094345150893643,
9617
+ "grad_norm": 0.37073245644569397,
9618
+ "learning_rate": 3.927101704879483e-05,
9619
+ "loss": 0.6201,
9620
+ "step": 1373
9621
+ },
9622
+ {
9623
+ "epoch": 1.610606504541459,
9624
+ "grad_norm": 0.38484933972358704,
9625
+ "learning_rate": 3.9153439153439155e-05,
9626
+ "loss": 0.6671,
9627
+ "step": 1374
9628
+ },
9629
+ {
9630
+ "epoch": 1.6117784939935542,
9631
+ "grad_norm": 0.38665077090263367,
9632
+ "learning_rate": 3.903586125808348e-05,
9633
+ "loss": 0.6841,
9634
+ "step": 1375
9635
+ },
9636
+ {
9637
+ "epoch": 1.612950483445649,
9638
+ "grad_norm": 0.3957137167453766,
9639
+ "learning_rate": 3.891828336272781e-05,
9640
+ "loss": 0.6734,
9641
+ "step": 1376
9642
+ },
9643
+ {
9644
+ "epoch": 1.614122472897744,
9645
+ "grad_norm": 0.3841049075126648,
9646
+ "learning_rate": 3.8800705467372136e-05,
9647
+ "loss": 0.642,
9648
+ "step": 1377
9649
+ },
9650
+ {
9651
+ "epoch": 1.6152944623498389,
9652
+ "grad_norm": 0.3854089081287384,
9653
+ "learning_rate": 3.868312757201646e-05,
9654
+ "loss": 0.6292,
9655
+ "step": 1378
9656
+ },
9657
+ {
9658
+ "epoch": 1.6164664518019338,
9659
+ "grad_norm": 0.37589502334594727,
9660
+ "learning_rate": 3.856554967666079e-05,
9661
+ "loss": 0.6337,
9662
+ "step": 1379
9663
+ },
9664
+ {
9665
+ "epoch": 1.6176384412540288,
9666
+ "grad_norm": 0.3719007968902588,
9667
+ "learning_rate": 3.844797178130512e-05,
9668
+ "loss": 0.6396,
9669
+ "step": 1380
9670
+ },
9671
+ {
9672
+ "epoch": 1.6188104307061235,
9673
+ "grad_norm": 0.4034193158149719,
9674
+ "learning_rate": 3.8330393885949445e-05,
9675
+ "loss": 0.6406,
9676
+ "step": 1381
9677
+ },
9678
+ {
9679
+ "epoch": 1.6199824201582187,
9680
+ "grad_norm": 0.39838656783103943,
9681
+ "learning_rate": 3.821281599059377e-05,
9682
+ "loss": 0.674,
9683
+ "step": 1382
9684
+ },
9685
+ {
9686
+ "epoch": 1.6211544096103134,
9687
+ "grad_norm": 0.3712717592716217,
9688
+ "learning_rate": 3.809523809523809e-05,
9689
+ "loss": 0.6493,
9690
+ "step": 1383
9691
+ },
9692
+ {
9693
+ "epoch": 1.6223263990624084,
9694
+ "grad_norm": 0.38980063796043396,
9695
+ "learning_rate": 3.7977660199882426e-05,
9696
+ "loss": 0.6588,
9697
+ "step": 1384
9698
+ },
9699
+ {
9700
+ "epoch": 1.6234983885145033,
9701
+ "grad_norm": 0.37699729204177856,
9702
+ "learning_rate": 3.786008230452675e-05,
9703
+ "loss": 0.6591,
9704
+ "step": 1385
9705
+ },
9706
+ {
9707
+ "epoch": 1.6246703779665983,
9708
+ "grad_norm": 0.3779825270175934,
9709
+ "learning_rate": 3.7742504409171074e-05,
9710
+ "loss": 0.6293,
9711
+ "step": 1386
9712
+ },
9713
+ {
9714
+ "epoch": 1.6258423674186933,
9715
+ "grad_norm": 0.40519246459007263,
9716
+ "learning_rate": 3.762492651381541e-05,
9717
+ "loss": 0.6035,
9718
+ "step": 1387
9719
+ },
9720
+ {
9721
+ "epoch": 1.6270143568707882,
9722
+ "grad_norm": 0.3740384876728058,
9723
+ "learning_rate": 3.750734861845973e-05,
9724
+ "loss": 0.6495,
9725
+ "step": 1388
9726
+ },
9727
+ {
9728
+ "epoch": 1.6281863463228832,
9729
+ "grad_norm": 0.393038272857666,
9730
+ "learning_rate": 3.7389770723104055e-05,
9731
+ "loss": 0.6375,
9732
+ "step": 1389
9733
+ },
9734
+ {
9735
+ "epoch": 1.629358335774978,
9736
+ "grad_norm": 0.3672095835208893,
9737
+ "learning_rate": 3.727219282774839e-05,
9738
+ "loss": 0.6262,
9739
+ "step": 1390
9740
+ },
9741
+ {
9742
+ "epoch": 1.630530325227073,
9743
+ "grad_norm": 0.36593756079673767,
9744
+ "learning_rate": 3.715461493239271e-05,
9745
+ "loss": 0.6107,
9746
+ "step": 1391
9747
+ },
9748
+ {
9749
+ "epoch": 1.6317023146791678,
9750
+ "grad_norm": 0.38510987162590027,
9751
+ "learning_rate": 3.7037037037037037e-05,
9752
+ "loss": 0.666,
9753
+ "step": 1392
9754
+ },
9755
+ {
9756
+ "epoch": 1.6328743041312628,
9757
+ "grad_norm": 0.37760478258132935,
9758
+ "learning_rate": 3.691945914168137e-05,
9759
+ "loss": 0.6047,
9760
+ "step": 1393
9761
+ },
9762
+ {
9763
+ "epoch": 1.6340462935833577,
9764
+ "grad_norm": 0.39161157608032227,
9765
+ "learning_rate": 3.680188124632569e-05,
9766
+ "loss": 0.6353,
9767
+ "step": 1394
9768
+ },
9769
+ {
9770
+ "epoch": 1.6352182830354527,
9771
+ "grad_norm": 0.4048272669315338,
9772
+ "learning_rate": 3.668430335097002e-05,
9773
+ "loss": 0.6406,
9774
+ "step": 1395
9775
+ },
9776
+ {
9777
+ "epoch": 1.6363902724875476,
9778
+ "grad_norm": 0.3909299671649933,
9779
+ "learning_rate": 3.6566725455614345e-05,
9780
+ "loss": 0.6602,
9781
+ "step": 1396
9782
+ },
9783
+ {
9784
+ "epoch": 1.6375622619396424,
9785
+ "grad_norm": 0.3780452609062195,
9786
+ "learning_rate": 3.644914756025867e-05,
9787
+ "loss": 0.6563,
9788
+ "step": 1397
9789
+ },
9790
+ {
9791
+ "epoch": 1.6387342513917376,
9792
+ "grad_norm": 0.415984183549881,
9793
+ "learning_rate": 3.6331569664903e-05,
9794
+ "loss": 0.6956,
9795
+ "step": 1398
9796
+ },
9797
+ {
9798
+ "epoch": 1.6399062408438323,
9799
+ "grad_norm": 0.39058148860931396,
9800
+ "learning_rate": 3.6213991769547327e-05,
9801
+ "loss": 0.618,
9802
+ "step": 1399
9803
+ },
9804
+ {
9805
+ "epoch": 1.6410782302959275,
9806
+ "grad_norm": 0.3820166289806366,
9807
+ "learning_rate": 3.6096413874191654e-05,
9808
+ "loss": 0.6871,
9809
+ "step": 1400
9810
+ },
9811
+ {
9812
+ "epoch": 1.6422502197480222,
9813
+ "grad_norm": 0.3850885331630707,
9814
+ "learning_rate": 3.597883597883598e-05,
9815
+ "loss": 0.6564,
9816
+ "step": 1401
9817
+ },
9818
+ {
9819
+ "epoch": 1.6434222092001172,
9820
+ "grad_norm": 0.36710235476493835,
9821
+ "learning_rate": 3.586125808348031e-05,
9822
+ "loss": 0.6465,
9823
+ "step": 1402
9824
+ },
9825
+ {
9826
+ "epoch": 1.6445941986522121,
9827
+ "grad_norm": 0.37936750054359436,
9828
+ "learning_rate": 3.5743680188124635e-05,
9829
+ "loss": 0.6541,
9830
+ "step": 1403
9831
+ },
9832
+ {
9833
+ "epoch": 1.645766188104307,
9834
+ "grad_norm": 0.4197543263435364,
9835
+ "learning_rate": 3.562610229276896e-05,
9836
+ "loss": 0.7147,
9837
+ "step": 1404
9838
+ },
9839
+ {
9840
+ "epoch": 1.646938177556402,
9841
+ "grad_norm": 0.39201852679252625,
9842
+ "learning_rate": 3.550852439741329e-05,
9843
+ "loss": 0.6829,
9844
+ "step": 1405
9845
+ },
9846
+ {
9847
+ "epoch": 1.6481101670084968,
9848
+ "grad_norm": 0.3781983554363251,
9849
+ "learning_rate": 3.539094650205762e-05,
9850
+ "loss": 0.6482,
9851
+ "step": 1406
9852
+ },
9853
+ {
9854
+ "epoch": 1.649282156460592,
9855
+ "grad_norm": 0.3771427869796753,
9856
+ "learning_rate": 3.527336860670194e-05,
9857
+ "loss": 0.6526,
9858
+ "step": 1407
9859
+ },
9860
+ {
9861
+ "epoch": 1.6504541459126867,
9862
+ "grad_norm": 0.38876059651374817,
9863
+ "learning_rate": 3.515579071134627e-05,
9864
+ "loss": 0.6731,
9865
+ "step": 1408
9866
+ },
9867
+ {
9868
+ "epoch": 1.6516261353647819,
9869
+ "grad_norm": 0.38884153962135315,
9870
+ "learning_rate": 3.50382128159906e-05,
9871
+ "loss": 0.6311,
9872
+ "step": 1409
9873
+ },
9874
+ {
9875
+ "epoch": 1.6527981248168766,
9876
+ "grad_norm": 0.39201685786247253,
9877
+ "learning_rate": 3.492063492063492e-05,
9878
+ "loss": 0.6902,
9879
+ "step": 1410
9880
+ },
9881
+ {
9882
+ "epoch": 1.6539701142689716,
9883
+ "grad_norm": 0.37352827191352844,
9884
+ "learning_rate": 3.480305702527925e-05,
9885
+ "loss": 0.6938,
9886
+ "step": 1411
9887
+ },
9888
+ {
9889
+ "epoch": 1.6551421037210665,
9890
+ "grad_norm": 0.37906309962272644,
9891
+ "learning_rate": 3.468547912992357e-05,
9892
+ "loss": 0.6818,
9893
+ "step": 1412
9894
+ },
9895
+ {
9896
+ "epoch": 1.6563140931731615,
9897
+ "grad_norm": 0.3947876989841461,
9898
+ "learning_rate": 3.45679012345679e-05,
9899
+ "loss": 0.6529,
9900
+ "step": 1413
9901
+ },
9902
+ {
9903
+ "epoch": 1.6574860826252564,
9904
+ "grad_norm": 0.3685528635978699,
9905
+ "learning_rate": 3.4450323339212234e-05,
9906
+ "loss": 0.6282,
9907
+ "step": 1414
9908
+ },
9909
+ {
9910
+ "epoch": 1.6586580720773512,
9911
+ "grad_norm": 0.3796926438808441,
9912
+ "learning_rate": 3.4332745443856554e-05,
9913
+ "loss": 0.6472,
9914
+ "step": 1415
9915
+ },
9916
+ {
9917
+ "epoch": 1.6598300615294463,
9918
+ "grad_norm": 0.3854847848415375,
9919
+ "learning_rate": 3.421516754850088e-05,
9920
+ "loss": 0.6531,
9921
+ "step": 1416
9922
+ },
9923
+ {
9924
+ "epoch": 1.661002050981541,
9925
+ "grad_norm": 0.3648832440376282,
9926
+ "learning_rate": 3.4097589653145215e-05,
9927
+ "loss": 0.6203,
9928
+ "step": 1417
9929
+ },
9930
+ {
9931
+ "epoch": 1.6621740404336363,
9932
+ "grad_norm": 0.37867122888565063,
9933
+ "learning_rate": 3.3980011757789536e-05,
9934
+ "loss": 0.657,
9935
+ "step": 1418
9936
+ },
9937
+ {
9938
+ "epoch": 1.663346029885731,
9939
+ "grad_norm": 0.3739066421985626,
9940
+ "learning_rate": 3.386243386243386e-05,
9941
+ "loss": 0.6555,
9942
+ "step": 1419
9943
+ },
9944
+ {
9945
+ "epoch": 1.664518019337826,
9946
+ "grad_norm": 0.3743496537208557,
9947
+ "learning_rate": 3.374485596707819e-05,
9948
+ "loss": 0.6406,
9949
+ "step": 1420
9950
+ },
9951
+ {
9952
+ "epoch": 1.665690008789921,
9953
+ "grad_norm": 0.38990095257759094,
9954
+ "learning_rate": 3.362727807172252e-05,
9955
+ "loss": 0.6006,
9956
+ "step": 1421
9957
+ },
9958
+ {
9959
+ "epoch": 1.6668619982420159,
9960
+ "grad_norm": 0.38039836287498474,
9961
+ "learning_rate": 3.3509700176366844e-05,
9962
+ "loss": 0.6363,
9963
+ "step": 1422
9964
+ },
9965
+ {
9966
+ "epoch": 1.6680339876941108,
9967
+ "grad_norm": 0.36417829990386963,
9968
+ "learning_rate": 3.339212228101117e-05,
9969
+ "loss": 0.6366,
9970
+ "step": 1423
9971
+ },
9972
+ {
9973
+ "epoch": 1.6692059771462056,
9974
+ "grad_norm": 0.37726080417633057,
9975
+ "learning_rate": 3.32745443856555e-05,
9976
+ "loss": 0.6574,
9977
+ "step": 1424
9978
+ },
9979
+ {
9980
+ "epoch": 1.6703779665983007,
9981
+ "grad_norm": 0.3663460910320282,
9982
+ "learning_rate": 3.3156966490299826e-05,
9983
+ "loss": 0.6306,
9984
+ "step": 1425
9985
+ },
9986
+ {
9987
+ "epoch": 1.6715499560503955,
9988
+ "grad_norm": 0.4453365206718445,
9989
+ "learning_rate": 3.303938859494415e-05,
9990
+ "loss": 0.6846,
9991
+ "step": 1426
9992
+ },
9993
+ {
9994
+ "epoch": 1.6727219455024904,
9995
+ "grad_norm": 0.3600301742553711,
9996
+ "learning_rate": 3.292181069958848e-05,
9997
+ "loss": 0.6361,
9998
+ "step": 1427
9999
+ },
10000
+ {
10001
+ "epoch": 1.6738939349545854,
10002
+ "grad_norm": 0.3683728575706482,
10003
+ "learning_rate": 3.280423280423281e-05,
10004
+ "loss": 0.6304,
10005
+ "step": 1428
10006
+ },
10007
+ {
10008
+ "epoch": 1.6750659244066803,
10009
+ "grad_norm": 0.4204603135585785,
10010
+ "learning_rate": 3.2686654908877134e-05,
10011
+ "loss": 0.6582,
10012
+ "step": 1429
10013
+ },
10014
+ {
10015
+ "epoch": 1.6762379138587753,
10016
+ "grad_norm": 0.3554556667804718,
10017
+ "learning_rate": 3.256907701352146e-05,
10018
+ "loss": 0.6506,
10019
+ "step": 1430
10020
+ },
10021
+ {
10022
+ "epoch": 1.6774099033108703,
10023
+ "grad_norm": 0.39126551151275635,
10024
+ "learning_rate": 3.245149911816578e-05,
10025
+ "loss": 0.6441,
10026
+ "step": 1431
10027
+ },
10028
+ {
10029
+ "epoch": 1.6785818927629652,
10030
+ "grad_norm": 0.37401652336120605,
10031
+ "learning_rate": 3.2333921222810116e-05,
10032
+ "loss": 0.6569,
10033
+ "step": 1432
10034
+ },
10035
+ {
10036
+ "epoch": 1.67975388221506,
10037
+ "grad_norm": 0.38046538829803467,
10038
+ "learning_rate": 3.221634332745444e-05,
10039
+ "loss": 0.642,
10040
+ "step": 1433
10041
+ },
10042
+ {
10043
+ "epoch": 1.6809258716671551,
10044
+ "grad_norm": 0.375357061624527,
10045
+ "learning_rate": 3.209876543209876e-05,
10046
+ "loss": 0.66,
10047
+ "step": 1434
10048
+ },
10049
+ {
10050
+ "epoch": 1.6820978611192499,
10051
+ "grad_norm": 0.36403539776802063,
10052
+ "learning_rate": 3.19811875367431e-05,
10053
+ "loss": 0.6493,
10054
+ "step": 1435
10055
+ },
10056
+ {
10057
+ "epoch": 1.6832698505713448,
10058
+ "grad_norm": 0.3747311234474182,
10059
+ "learning_rate": 3.186360964138742e-05,
10060
+ "loss": 0.6422,
10061
+ "step": 1436
10062
+ },
10063
+ {
10064
+ "epoch": 1.6844418400234398,
10065
+ "grad_norm": 0.38533565402030945,
10066
+ "learning_rate": 3.1746031746031745e-05,
10067
+ "loss": 0.6381,
10068
+ "step": 1437
10069
+ },
10070
+ {
10071
+ "epoch": 1.6856138294755347,
10072
+ "grad_norm": 0.38410523533821106,
10073
+ "learning_rate": 3.162845385067608e-05,
10074
+ "loss": 0.6695,
10075
+ "step": 1438
10076
+ },
10077
+ {
10078
+ "epoch": 1.6867858189276297,
10079
+ "grad_norm": 0.37452232837677,
10080
+ "learning_rate": 3.15108759553204e-05,
10081
+ "loss": 0.6305,
10082
+ "step": 1439
10083
+ },
10084
+ {
10085
+ "epoch": 1.6879578083797244,
10086
+ "grad_norm": 0.3752080500125885,
10087
+ "learning_rate": 3.1393298059964726e-05,
10088
+ "loss": 0.6486,
10089
+ "step": 1440
10090
+ },
10091
+ {
10092
+ "epoch": 1.6891297978318196,
10093
+ "grad_norm": 0.384127676486969,
10094
+ "learning_rate": 3.127572016460906e-05,
10095
+ "loss": 0.628,
10096
+ "step": 1441
10097
+ },
10098
+ {
10099
+ "epoch": 1.6903017872839143,
10100
+ "grad_norm": 0.3655785024166107,
10101
+ "learning_rate": 3.115814226925338e-05,
10102
+ "loss": 0.6325,
10103
+ "step": 1442
10104
+ },
10105
+ {
10106
+ "epoch": 1.6914737767360095,
10107
+ "grad_norm": 0.37582463026046753,
10108
+ "learning_rate": 3.104056437389771e-05,
10109
+ "loss": 0.6641,
10110
+ "step": 1443
10111
+ },
10112
+ {
10113
+ "epoch": 1.6926457661881043,
10114
+ "grad_norm": 0.3942627012729645,
10115
+ "learning_rate": 3.0922986478542035e-05,
10116
+ "loss": 0.6314,
10117
+ "step": 1444
10118
+ },
10119
+ {
10120
+ "epoch": 1.6938177556401992,
10121
+ "grad_norm": 0.38446322083473206,
10122
+ "learning_rate": 3.080540858318636e-05,
10123
+ "loss": 0.6482,
10124
+ "step": 1445
10125
+ },
10126
+ {
10127
+ "epoch": 1.6949897450922942,
10128
+ "grad_norm": 0.3782792091369629,
10129
+ "learning_rate": 3.068783068783069e-05,
10130
+ "loss": 0.666,
10131
+ "step": 1446
10132
+ },
10133
+ {
10134
+ "epoch": 1.6961617345443891,
10135
+ "grad_norm": 0.3792760372161865,
10136
+ "learning_rate": 3.0570252792475016e-05,
10137
+ "loss": 0.6424,
10138
+ "step": 1447
10139
+ },
10140
+ {
10141
+ "epoch": 1.697333723996484,
10142
+ "grad_norm": 0.4009881615638733,
10143
+ "learning_rate": 3.0452674897119343e-05,
10144
+ "loss": 0.6803,
10145
+ "step": 1448
10146
+ },
10147
+ {
10148
+ "epoch": 1.6985057134485788,
10149
+ "grad_norm": 0.3797784149646759,
10150
+ "learning_rate": 3.0335097001763667e-05,
10151
+ "loss": 0.6243,
10152
+ "step": 1449
10153
+ },
10154
+ {
10155
+ "epoch": 1.699677702900674,
10156
+ "grad_norm": 0.37865757942199707,
10157
+ "learning_rate": 3.0217519106407998e-05,
10158
+ "loss": 0.6354,
10159
+ "step": 1450
10160
+ },
10161
+ {
10162
+ "epoch": 1.7008496923527687,
10163
+ "grad_norm": 0.38236260414123535,
10164
+ "learning_rate": 3.0099941211052325e-05,
10165
+ "loss": 0.6653,
10166
+ "step": 1451
10167
+ },
10168
+ {
10169
+ "epoch": 1.702021681804864,
10170
+ "grad_norm": 0.37716102600097656,
10171
+ "learning_rate": 2.998236331569665e-05,
10172
+ "loss": 0.6721,
10173
+ "step": 1452
10174
+ },
10175
+ {
10176
+ "epoch": 1.7031936712569586,
10177
+ "grad_norm": 0.38444986939430237,
10178
+ "learning_rate": 2.986478542034098e-05,
10179
+ "loss": 0.6269,
10180
+ "step": 1453
10181
+ },
10182
+ {
10183
+ "epoch": 1.7043656607090536,
10184
+ "grad_norm": 0.3900532126426697,
10185
+ "learning_rate": 2.9747207524985303e-05,
10186
+ "loss": 0.6657,
10187
+ "step": 1454
10188
+ },
10189
+ {
10190
+ "epoch": 1.7055376501611486,
10191
+ "grad_norm": 0.3843390643596649,
10192
+ "learning_rate": 2.962962962962963e-05,
10193
+ "loss": 0.6847,
10194
+ "step": 1455
10195
+ },
10196
+ {
10197
+ "epoch": 1.7067096396132435,
10198
+ "grad_norm": 0.3660966753959656,
10199
+ "learning_rate": 2.951205173427396e-05,
10200
+ "loss": 0.6667,
10201
+ "step": 1456
10202
+ },
10203
+ {
10204
+ "epoch": 1.7078816290653385,
10205
+ "grad_norm": 0.3676696717739105,
10206
+ "learning_rate": 2.9394473838918284e-05,
10207
+ "loss": 0.6643,
10208
+ "step": 1457
10209
+ },
10210
+ {
10211
+ "epoch": 1.7090536185174332,
10212
+ "grad_norm": 0.3827989101409912,
10213
+ "learning_rate": 2.927689594356261e-05,
10214
+ "loss": 0.6637,
10215
+ "step": 1458
10216
+ },
10217
+ {
10218
+ "epoch": 1.7102256079695284,
10219
+ "grad_norm": 0.3773452639579773,
10220
+ "learning_rate": 2.9159318048206942e-05,
10221
+ "loss": 0.6432,
10222
+ "step": 1459
10223
+ },
10224
+ {
10225
+ "epoch": 1.7113975974216231,
10226
+ "grad_norm": 0.39179813861846924,
10227
+ "learning_rate": 2.9041740152851266e-05,
10228
+ "loss": 0.6571,
10229
+ "step": 1460
10230
+ },
10231
+ {
10232
+ "epoch": 1.7125695868737183,
10233
+ "grad_norm": 0.3847814202308655,
10234
+ "learning_rate": 2.892416225749559e-05,
10235
+ "loss": 0.6611,
10236
+ "step": 1461
10237
+ },
10238
+ {
10239
+ "epoch": 1.713741576325813,
10240
+ "grad_norm": 0.3790866732597351,
10241
+ "learning_rate": 2.880658436213992e-05,
10242
+ "loss": 0.6731,
10243
+ "step": 1462
10244
+ },
10245
+ {
10246
+ "epoch": 1.714913565777908,
10247
+ "grad_norm": 0.37719854712486267,
10248
+ "learning_rate": 2.8689006466784247e-05,
10249
+ "loss": 0.6456,
10250
+ "step": 1463
10251
+ },
10252
+ {
10253
+ "epoch": 1.716085555230003,
10254
+ "grad_norm": 0.3641086220741272,
10255
+ "learning_rate": 2.857142857142857e-05,
10256
+ "loss": 0.6548,
10257
+ "step": 1464
10258
+ },
10259
+ {
10260
+ "epoch": 1.717257544682098,
10261
+ "grad_norm": 0.39434361457824707,
10262
+ "learning_rate": 2.84538506760729e-05,
10263
+ "loss": 0.6535,
10264
+ "step": 1465
10265
+ },
10266
+ {
10267
+ "epoch": 1.7184295341341929,
10268
+ "grad_norm": 0.36238378286361694,
10269
+ "learning_rate": 2.8336272780717225e-05,
10270
+ "loss": 0.6303,
10271
+ "step": 1466
10272
+ },
10273
+ {
10274
+ "epoch": 1.7196015235862876,
10275
+ "grad_norm": 0.3763822615146637,
10276
+ "learning_rate": 2.8218694885361552e-05,
10277
+ "loss": 0.7062,
10278
+ "step": 1467
10279
+ },
10280
+ {
10281
+ "epoch": 1.7207735130383828,
10282
+ "grad_norm": 0.37111690640449524,
10283
+ "learning_rate": 2.8101116990005883e-05,
10284
+ "loss": 0.6468,
10285
+ "step": 1468
10286
+ },
10287
+ {
10288
+ "epoch": 1.7219455024904775,
10289
+ "grad_norm": 0.3747517764568329,
10290
+ "learning_rate": 2.7983539094650207e-05,
10291
+ "loss": 0.663,
10292
+ "step": 1469
10293
+ },
10294
+ {
10295
+ "epoch": 1.7231174919425725,
10296
+ "grad_norm": 0.3822534382343292,
10297
+ "learning_rate": 2.7865961199294534e-05,
10298
+ "loss": 0.6306,
10299
+ "step": 1470
10300
+ },
10301
+ {
10302
+ "epoch": 1.7242894813946674,
10303
+ "grad_norm": 0.36476072669029236,
10304
+ "learning_rate": 2.7748383303938864e-05,
10305
+ "loss": 0.6283,
10306
+ "step": 1471
10307
+ },
10308
+ {
10309
+ "epoch": 1.7254614708467624,
10310
+ "grad_norm": 0.36173558235168457,
10311
+ "learning_rate": 2.7630805408583188e-05,
10312
+ "loss": 0.618,
10313
+ "step": 1472
10314
+ },
10315
+ {
10316
+ "epoch": 1.7266334602988573,
10317
+ "grad_norm": 0.36746352910995483,
10318
+ "learning_rate": 2.7513227513227512e-05,
10319
+ "loss": 0.6457,
10320
+ "step": 1473
10321
+ },
10322
+ {
10323
+ "epoch": 1.7278054497509523,
10324
+ "grad_norm": 0.37200871109962463,
10325
+ "learning_rate": 2.7395649617871842e-05,
10326
+ "loss": 0.6204,
10327
+ "step": 1474
10328
+ },
10329
+ {
10330
+ "epoch": 1.7289774392030473,
10331
+ "grad_norm": 0.3685344159603119,
10332
+ "learning_rate": 2.727807172251617e-05,
10333
+ "loss": 0.6303,
10334
+ "step": 1475
10335
+ },
10336
+ {
10337
+ "epoch": 1.730149428655142,
10338
+ "grad_norm": 0.37158438563346863,
10339
+ "learning_rate": 2.7160493827160493e-05,
10340
+ "loss": 0.6278,
10341
+ "step": 1476
10342
+ },
10343
+ {
10344
+ "epoch": 1.7313214181072372,
10345
+ "grad_norm": 0.3743583559989929,
10346
+ "learning_rate": 2.7042915931804824e-05,
10347
+ "loss": 0.6088,
10348
+ "step": 1477
10349
+ },
10350
+ {
10351
+ "epoch": 1.732493407559332,
10352
+ "grad_norm": 0.37238809466362,
10353
+ "learning_rate": 2.6925338036449148e-05,
10354
+ "loss": 0.6456,
10355
+ "step": 1478
10356
+ },
10357
+ {
10358
+ "epoch": 1.7336653970114269,
10359
+ "grad_norm": 0.3718564808368683,
10360
+ "learning_rate": 2.6807760141093475e-05,
10361
+ "loss": 0.6123,
10362
+ "step": 1479
10363
+ },
10364
+ {
10365
+ "epoch": 1.7348373864635218,
10366
+ "grad_norm": 0.3883103132247925,
10367
+ "learning_rate": 2.6690182245737805e-05,
10368
+ "loss": 0.6628,
10369
+ "step": 1480
10370
+ },
10371
+ {
10372
+ "epoch": 1.7360093759156168,
10373
+ "grad_norm": 0.376810759305954,
10374
+ "learning_rate": 2.657260435038213e-05,
10375
+ "loss": 0.6465,
10376
+ "step": 1481
10377
+ },
10378
+ {
10379
+ "epoch": 1.7371813653677117,
10380
+ "grad_norm": 0.41317370533943176,
10381
+ "learning_rate": 2.6455026455026456e-05,
10382
+ "loss": 0.6835,
10383
+ "step": 1482
10384
+ },
10385
+ {
10386
+ "epoch": 1.7383533548198065,
10387
+ "grad_norm": 0.3698785603046417,
10388
+ "learning_rate": 2.6337448559670787e-05,
10389
+ "loss": 0.6174,
10390
+ "step": 1483
10391
+ },
10392
+ {
10393
+ "epoch": 1.7395253442719016,
10394
+ "grad_norm": 0.3769229054450989,
10395
+ "learning_rate": 2.621987066431511e-05,
10396
+ "loss": 0.6402,
10397
+ "step": 1484
10398
+ },
10399
+ {
10400
+ "epoch": 1.7406973337239964,
10401
+ "grad_norm": 0.3612512946128845,
10402
+ "learning_rate": 2.6102292768959434e-05,
10403
+ "loss": 0.6457,
10404
+ "step": 1485
10405
+ },
10406
+ {
10407
+ "epoch": 1.7418693231760916,
10408
+ "grad_norm": 0.36678725481033325,
10409
+ "learning_rate": 2.5984714873603765e-05,
10410
+ "loss": 0.6247,
10411
+ "step": 1486
10412
+ },
10413
+ {
10414
+ "epoch": 1.7430413126281863,
10415
+ "grad_norm": 0.39542651176452637,
10416
+ "learning_rate": 2.5867136978248092e-05,
10417
+ "loss": 0.6294,
10418
+ "step": 1487
10419
+ },
10420
+ {
10421
+ "epoch": 1.7442133020802812,
10422
+ "grad_norm": 0.3900982439517975,
10423
+ "learning_rate": 2.5749559082892416e-05,
10424
+ "loss": 0.675,
10425
+ "step": 1488
10426
+ },
10427
+ {
10428
+ "epoch": 1.7453852915323762,
10429
+ "grad_norm": 0.3719351887702942,
10430
+ "learning_rate": 2.5631981187536746e-05,
10431
+ "loss": 0.6492,
10432
+ "step": 1489
10433
+ },
10434
+ {
10435
+ "epoch": 1.7465572809844712,
10436
+ "grad_norm": 0.37937313318252563,
10437
+ "learning_rate": 2.551440329218107e-05,
10438
+ "loss": 0.6232,
10439
+ "step": 1490
10440
+ },
10441
+ {
10442
+ "epoch": 1.7477292704365661,
10443
+ "grad_norm": 0.39128735661506653,
10444
+ "learning_rate": 2.5396825396825397e-05,
10445
+ "loss": 0.6404,
10446
+ "step": 1491
10447
+ },
10448
+ {
10449
+ "epoch": 1.7489012598886609,
10450
+ "grad_norm": 0.3798913359642029,
10451
+ "learning_rate": 2.5279247501469728e-05,
10452
+ "loss": 0.6588,
10453
+ "step": 1492
10454
+ },
10455
+ {
10456
+ "epoch": 1.750073249340756,
10457
+ "grad_norm": 0.3671737015247345,
10458
+ "learning_rate": 2.516166960611405e-05,
10459
+ "loss": 0.671,
10460
+ "step": 1493
10461
+ },
10462
+ {
10463
+ "epoch": 1.7512452387928508,
10464
+ "grad_norm": 0.3778979182243347,
10465
+ "learning_rate": 2.504409171075838e-05,
10466
+ "loss": 0.6157,
10467
+ "step": 1494
10468
+ },
10469
+ {
10470
+ "epoch": 1.752417228244946,
10471
+ "grad_norm": 0.38095155358314514,
10472
+ "learning_rate": 2.4926513815402706e-05,
10473
+ "loss": 0.6674,
10474
+ "step": 1495
10475
+ },
10476
+ {
10477
+ "epoch": 1.7535892176970407,
10478
+ "grad_norm": 0.39539647102355957,
10479
+ "learning_rate": 2.4808935920047033e-05,
10480
+ "loss": 0.6457,
10481
+ "step": 1496
10482
+ },
10483
+ {
10484
+ "epoch": 1.7547612071491356,
10485
+ "grad_norm": 0.3683115541934967,
10486
+ "learning_rate": 2.4691358024691357e-05,
10487
+ "loss": 0.6207,
10488
+ "step": 1497
10489
+ },
10490
+ {
10491
+ "epoch": 1.7559331966012306,
10492
+ "grad_norm": 0.38240090012550354,
10493
+ "learning_rate": 2.4573780129335687e-05,
10494
+ "loss": 0.6593,
10495
+ "step": 1498
10496
+ },
10497
+ {
10498
+ "epoch": 1.7571051860533256,
10499
+ "grad_norm": 0.36555352807044983,
10500
+ "learning_rate": 2.4456202233980014e-05,
10501
+ "loss": 0.6818,
10502
+ "step": 1499
10503
+ },
10504
+ {
10505
+ "epoch": 1.7582771755054205,
10506
+ "grad_norm": 0.3794335722923279,
10507
+ "learning_rate": 2.4338624338624338e-05,
10508
+ "loss": 0.6481,
10509
+ "step": 1500
10510
  }
10511
  ],
10512
  "logging_steps": 1,
10513
+ "max_steps": 1706,
10514
  "num_input_tokens_seen": 0,
10515
  "num_train_epochs": 2,
10516
  "save_steps": 100,
10517
+ "total_flos": 2.2263110020544594e+18,
10518
  "train_batch_size": 4,
10519
  "trial_name": null,
10520
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8b14546c39c8d9195f29701de6796941ce318c662752b819c18e6b4753e7858f
3
  size 5048
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:33d3224c7da2f806a2a4179942e95de4bae50529784366269bad80e18dc944bd
3
  size 5048