ssunggun2 commited on
Commit
bdd2f6a
1 Parent(s): d42fe63

Upload folder using huggingface_hub

Browse files
Files changed (5) hide show
  1. adapter_model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +6 -2086
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:288be6c8b98f62975ce52470207e00e09a929ae2be8c56589bc000e8bf648de2
3
  size 13648432
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:52a9be062605070742cde00600264cee991bb06edc9c792af4d52f4aaefb6256
3
  size 13648432
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f358539ba7d7cba232d693740717df16c470360c060dcbbfbdbc0b81740fd9f7
3
  size 27338810
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e4559046956d47204fd03216ecec0a6ab372ec6b1898619008c2c64d7a27e94c
3
  size 27338810
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:adcaf1c854b7f05c382576167fc5384fcf54c029f39da1646c97625ac98a2bba
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:89c22016d47a4c8fc4fba2c7162dce77859e0b25d0082d169067b9fa1803b889
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b41241c255ae14db691f28ac1e568666a54cb5937ca5a6e52af17207a998cbc0
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:57802a66d4e06aedffd82faf21afe91d5401e799d1bf827c6e333c3d9d5698a6
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 2.1491148471832275,
3
- "best_model_checkpoint": "/home/sunggeunan/data/ICL/outputs/lora/SKIML-ICL_mrqa_nq_v3/Meta-Llama-3-8B-Instruct-unanswerable-1Q-0U-0C-qa_first/checkpoint-891",
4
- "epoch": 2.991187578682333,
5
  "eval_steps": 500,
6
- "global_step": 891,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4188,2086 +4188,6 @@
4188
  "eval_samples_per_second": 1.114,
4189
  "eval_steps_per_second": 0.28,
4190
  "step": 595
4191
- },
4192
- {
4193
- "epoch": 2.00083927822073,
4194
- "grad_norm": 0.5490261316299438,
4195
- "learning_rate": 1.743498817966903e-07,
4196
- "loss": 2.0814,
4197
- "step": 596
4198
- },
4199
- {
4200
- "epoch": 2.0041963911036507,
4201
- "grad_norm": 0.5828990936279297,
4202
- "learning_rate": 1.7375886524822695e-07,
4203
- "loss": 2.0934,
4204
- "step": 597
4205
- },
4206
- {
4207
- "epoch": 2.0075535039865717,
4208
- "grad_norm": 0.5824359059333801,
4209
- "learning_rate": 1.7316784869976357e-07,
4210
- "loss": 2.1668,
4211
- "step": 598
4212
- },
4213
- {
4214
- "epoch": 2.0109106168694924,
4215
- "grad_norm": 0.5972450971603394,
4216
- "learning_rate": 1.7257683215130022e-07,
4217
- "loss": 2.1254,
4218
- "step": 599
4219
- },
4220
- {
4221
- "epoch": 2.014267729752413,
4222
- "grad_norm": 0.5486287474632263,
4223
- "learning_rate": 1.7198581560283688e-07,
4224
- "loss": 2.2053,
4225
- "step": 600
4226
- },
4227
- {
4228
- "epoch": 2.0176248426353336,
4229
- "grad_norm": 0.5345571637153625,
4230
- "learning_rate": 1.713947990543735e-07,
4231
- "loss": 2.0901,
4232
- "step": 601
4233
- },
4234
- {
4235
- "epoch": 2.020981955518254,
4236
- "grad_norm": 0.544323742389679,
4237
- "learning_rate": 1.7080378250591015e-07,
4238
- "loss": 2.1225,
4239
- "step": 602
4240
- },
4241
- {
4242
- "epoch": 2.024339068401175,
4243
- "grad_norm": 0.5551151633262634,
4244
- "learning_rate": 1.702127659574468e-07,
4245
- "loss": 2.1934,
4246
- "step": 603
4247
- },
4248
- {
4249
- "epoch": 2.027696181284096,
4250
- "grad_norm": 0.5789584517478943,
4251
- "learning_rate": 1.6962174940898345e-07,
4252
- "loss": 2.1936,
4253
- "step": 604
4254
- },
4255
- {
4256
- "epoch": 2.0310532941670165,
4257
- "grad_norm": 0.5161600112915039,
4258
- "learning_rate": 1.6903073286052007e-07,
4259
- "loss": 2.1503,
4260
- "step": 605
4261
- },
4262
- {
4263
- "epoch": 2.034410407049937,
4264
- "grad_norm": 0.5447808504104614,
4265
- "learning_rate": 1.6843971631205673e-07,
4266
- "loss": 2.1207,
4267
- "step": 606
4268
- },
4269
- {
4270
- "epoch": 2.0377675199328578,
4271
- "grad_norm": 0.5768391489982605,
4272
- "learning_rate": 1.6784869976359338e-07,
4273
- "loss": 2.2098,
4274
- "step": 607
4275
- },
4276
- {
4277
- "epoch": 2.0411246328157784,
4278
- "grad_norm": 0.5963948965072632,
4279
- "learning_rate": 1.6725768321513e-07,
4280
- "loss": 2.1794,
4281
- "step": 608
4282
- },
4283
- {
4284
- "epoch": 2.044481745698699,
4285
- "grad_norm": 0.5620808601379395,
4286
- "learning_rate": 1.6666666666666665e-07,
4287
- "loss": 2.1656,
4288
- "step": 609
4289
- },
4290
- {
4291
- "epoch": 2.0478388585816196,
4292
- "grad_norm": 0.49818509817123413,
4293
- "learning_rate": 1.660756501182033e-07,
4294
- "loss": 2.0503,
4295
- "step": 610
4296
- },
4297
- {
4298
- "epoch": 2.0511959714645407,
4299
- "grad_norm": 0.5394522547721863,
4300
- "learning_rate": 1.6548463356973992e-07,
4301
- "loss": 2.1243,
4302
- "step": 611
4303
- },
4304
- {
4305
- "epoch": 2.0545530843474613,
4306
- "grad_norm": 0.5886016488075256,
4307
- "learning_rate": 1.6489361702127658e-07,
4308
- "loss": 2.167,
4309
- "step": 612
4310
- },
4311
- {
4312
- "epoch": 2.057910197230382,
4313
- "grad_norm": 0.5549562573432922,
4314
- "learning_rate": 1.6430260047281323e-07,
4315
- "loss": 2.0998,
4316
- "step": 613
4317
- },
4318
- {
4319
- "epoch": 2.0612673101133026,
4320
- "grad_norm": 0.5675773620605469,
4321
- "learning_rate": 1.6371158392434985e-07,
4322
- "loss": 2.1334,
4323
- "step": 614
4324
- },
4325
- {
4326
- "epoch": 2.064624422996223,
4327
- "grad_norm": 0.5877095460891724,
4328
- "learning_rate": 1.6312056737588653e-07,
4329
- "loss": 2.1226,
4330
- "step": 615
4331
- },
4332
- {
4333
- "epoch": 2.067981535879144,
4334
- "grad_norm": 0.5441724061965942,
4335
- "learning_rate": 1.6252955082742318e-07,
4336
- "loss": 2.1736,
4337
- "step": 616
4338
- },
4339
- {
4340
- "epoch": 2.0713386487620644,
4341
- "grad_norm": 0.5380129218101501,
4342
- "learning_rate": 1.6193853427895983e-07,
4343
- "loss": 2.1552,
4344
- "step": 617
4345
- },
4346
- {
4347
- "epoch": 2.0746957616449855,
4348
- "grad_norm": 0.5300249457359314,
4349
- "learning_rate": 1.6134751773049645e-07,
4350
- "loss": 2.1198,
4351
- "step": 618
4352
- },
4353
- {
4354
- "epoch": 2.078052874527906,
4355
- "grad_norm": 0.5587384104728699,
4356
- "learning_rate": 1.607565011820331e-07,
4357
- "loss": 2.1519,
4358
- "step": 619
4359
- },
4360
- {
4361
- "epoch": 2.0814099874108267,
4362
- "grad_norm": 0.5410963296890259,
4363
- "learning_rate": 1.6016548463356975e-07,
4364
- "loss": 2.1687,
4365
- "step": 620
4366
- },
4367
- {
4368
- "epoch": 2.0847671002937473,
4369
- "grad_norm": 0.5827339291572571,
4370
- "learning_rate": 1.5957446808510638e-07,
4371
- "loss": 2.1853,
4372
- "step": 621
4373
- },
4374
- {
4375
- "epoch": 2.088124213176668,
4376
- "grad_norm": 0.5589419007301331,
4377
- "learning_rate": 1.5898345153664303e-07,
4378
- "loss": 2.1093,
4379
- "step": 622
4380
- },
4381
- {
4382
- "epoch": 2.0914813260595886,
4383
- "grad_norm": 0.5821492671966553,
4384
- "learning_rate": 1.5839243498817968e-07,
4385
- "loss": 2.1167,
4386
- "step": 623
4387
- },
4388
- {
4389
- "epoch": 2.0948384389425097,
4390
- "grad_norm": 0.5975298285484314,
4391
- "learning_rate": 1.578014184397163e-07,
4392
- "loss": 2.1522,
4393
- "step": 624
4394
- },
4395
- {
4396
- "epoch": 2.0981955518254303,
4397
- "grad_norm": 0.5707703232765198,
4398
- "learning_rate": 1.5721040189125295e-07,
4399
- "loss": 2.1726,
4400
- "step": 625
4401
- },
4402
- {
4403
- "epoch": 2.101552664708351,
4404
- "grad_norm": 0.550392746925354,
4405
- "learning_rate": 1.566193853427896e-07,
4406
- "loss": 2.1443,
4407
- "step": 626
4408
- },
4409
- {
4410
- "epoch": 2.1049097775912715,
4411
- "grad_norm": 0.5648649334907532,
4412
- "learning_rate": 1.5602836879432623e-07,
4413
- "loss": 2.1134,
4414
- "step": 627
4415
- },
4416
- {
4417
- "epoch": 2.108266890474192,
4418
- "grad_norm": 0.5239277482032776,
4419
- "learning_rate": 1.5543735224586288e-07,
4420
- "loss": 2.1372,
4421
- "step": 628
4422
- },
4423
- {
4424
- "epoch": 2.1116240033571128,
4425
- "grad_norm": 0.5361467003822327,
4426
- "learning_rate": 1.5484633569739953e-07,
4427
- "loss": 2.0948,
4428
- "step": 629
4429
- },
4430
- {
4431
- "epoch": 2.1149811162400334,
4432
- "grad_norm": 2.1900720596313477,
4433
- "learning_rate": 1.5425531914893615e-07,
4434
- "loss": 2.2063,
4435
- "step": 630
4436
- },
4437
- {
4438
- "epoch": 2.1183382291229544,
4439
- "grad_norm": 0.539082944393158,
4440
- "learning_rate": 1.536643026004728e-07,
4441
- "loss": 2.1237,
4442
- "step": 631
4443
- },
4444
- {
4445
- "epoch": 2.121695342005875,
4446
- "grad_norm": 0.5592411160469055,
4447
- "learning_rate": 1.5307328605200945e-07,
4448
- "loss": 2.2125,
4449
- "step": 632
4450
- },
4451
- {
4452
- "epoch": 2.1250524548887957,
4453
- "grad_norm": 0.5461694002151489,
4454
- "learning_rate": 1.524822695035461e-07,
4455
- "loss": 2.1581,
4456
- "step": 633
4457
- },
4458
- {
4459
- "epoch": 2.1284095677717163,
4460
- "grad_norm": 0.5573883652687073,
4461
- "learning_rate": 1.5189125295508273e-07,
4462
- "loss": 2.1502,
4463
- "step": 634
4464
- },
4465
- {
4466
- "epoch": 2.131766680654637,
4467
- "grad_norm": 0.6131634712219238,
4468
- "learning_rate": 1.5130023640661938e-07,
4469
- "loss": 2.1482,
4470
- "step": 635
4471
- },
4472
- {
4473
- "epoch": 2.1351237935375575,
4474
- "grad_norm": 0.509318470954895,
4475
- "learning_rate": 1.5070921985815603e-07,
4476
- "loss": 2.0815,
4477
- "step": 636
4478
- },
4479
- {
4480
- "epoch": 2.1384809064204786,
4481
- "grad_norm": 0.5671557188034058,
4482
- "learning_rate": 1.5011820330969265e-07,
4483
- "loss": 2.1446,
4484
- "step": 637
4485
- },
4486
- {
4487
- "epoch": 2.1418380193033992,
4488
- "grad_norm": 0.5513312816619873,
4489
- "learning_rate": 1.495271867612293e-07,
4490
- "loss": 2.1495,
4491
- "step": 638
4492
- },
4493
- {
4494
- "epoch": 2.14519513218632,
4495
- "grad_norm": 0.57234787940979,
4496
- "learning_rate": 1.4893617021276595e-07,
4497
- "loss": 2.2077,
4498
- "step": 639
4499
- },
4500
- {
4501
- "epoch": 2.1485522450692405,
4502
- "grad_norm": 0.5913609862327576,
4503
- "learning_rate": 1.4834515366430258e-07,
4504
- "loss": 2.2186,
4505
- "step": 640
4506
- },
4507
- {
4508
- "epoch": 2.151909357952161,
4509
- "grad_norm": 0.5753595232963562,
4510
- "learning_rate": 1.4775413711583923e-07,
4511
- "loss": 2.1373,
4512
- "step": 641
4513
- },
4514
- {
4515
- "epoch": 2.1552664708350817,
4516
- "grad_norm": 0.5550244450569153,
4517
- "learning_rate": 1.4716312056737588e-07,
4518
- "loss": 2.1694,
4519
- "step": 642
4520
- },
4521
- {
4522
- "epoch": 2.1586235837180023,
4523
- "grad_norm": 0.5355656743049622,
4524
- "learning_rate": 1.465721040189125e-07,
4525
- "loss": 2.2296,
4526
- "step": 643
4527
- },
4528
- {
4529
- "epoch": 2.1619806966009234,
4530
- "grad_norm": 0.5573230981826782,
4531
- "learning_rate": 1.4598108747044915e-07,
4532
- "loss": 2.1731,
4533
- "step": 644
4534
- },
4535
- {
4536
- "epoch": 2.165337809483844,
4537
- "grad_norm": 0.5603845715522766,
4538
- "learning_rate": 1.453900709219858e-07,
4539
- "loss": 2.1463,
4540
- "step": 645
4541
- },
4542
- {
4543
- "epoch": 2.1686949223667646,
4544
- "grad_norm": 0.5660983920097351,
4545
- "learning_rate": 1.4479905437352243e-07,
4546
- "loss": 2.1158,
4547
- "step": 646
4548
- },
4549
- {
4550
- "epoch": 2.1720520352496853,
4551
- "grad_norm": 0.5612486004829407,
4552
- "learning_rate": 1.442080378250591e-07,
4553
- "loss": 2.1343,
4554
- "step": 647
4555
- },
4556
- {
4557
- "epoch": 2.175409148132606,
4558
- "grad_norm": 0.563666045665741,
4559
- "learning_rate": 1.4361702127659576e-07,
4560
- "loss": 2.1491,
4561
- "step": 648
4562
- },
4563
- {
4564
- "epoch": 2.1787662610155265,
4565
- "grad_norm": 0.5978438258171082,
4566
- "learning_rate": 1.430260047281324e-07,
4567
- "loss": 2.213,
4568
- "step": 649
4569
- },
4570
- {
4571
- "epoch": 2.182123373898447,
4572
- "grad_norm": 0.5486546158790588,
4573
- "learning_rate": 1.4243498817966903e-07,
4574
- "loss": 2.1282,
4575
- "step": 650
4576
- },
4577
- {
4578
- "epoch": 2.185480486781368,
4579
- "grad_norm": 0.5446551442146301,
4580
- "learning_rate": 1.4184397163120568e-07,
4581
- "loss": 2.1639,
4582
- "step": 651
4583
- },
4584
- {
4585
- "epoch": 2.188837599664289,
4586
- "grad_norm": 0.5193803310394287,
4587
- "learning_rate": 1.4125295508274233e-07,
4588
- "loss": 2.1069,
4589
- "step": 652
4590
- },
4591
- {
4592
- "epoch": 2.1921947125472094,
4593
- "grad_norm": 0.5513821840286255,
4594
- "learning_rate": 1.4066193853427895e-07,
4595
- "loss": 2.1852,
4596
- "step": 653
4597
- },
4598
- {
4599
- "epoch": 2.19555182543013,
4600
- "grad_norm": 0.5725794434547424,
4601
- "learning_rate": 1.400709219858156e-07,
4602
- "loss": 2.1547,
4603
- "step": 654
4604
- },
4605
- {
4606
- "epoch": 2.1989089383130507,
4607
- "grad_norm": 0.5426892042160034,
4608
- "learning_rate": 1.3947990543735226e-07,
4609
- "loss": 2.1286,
4610
- "step": 655
4611
- },
4612
- {
4613
- "epoch": 2.2022660511959713,
4614
- "grad_norm": 0.5511768460273743,
4615
- "learning_rate": 1.3888888888888888e-07,
4616
- "loss": 2.0826,
4617
- "step": 656
4618
- },
4619
- {
4620
- "epoch": 2.205623164078892,
4621
- "grad_norm": 0.5628213286399841,
4622
- "learning_rate": 1.3829787234042553e-07,
4623
- "loss": 2.1114,
4624
- "step": 657
4625
- },
4626
- {
4627
- "epoch": 2.208980276961813,
4628
- "grad_norm": 0.5592065453529358,
4629
- "learning_rate": 1.3770685579196218e-07,
4630
- "loss": 2.1663,
4631
- "step": 658
4632
- },
4633
- {
4634
- "epoch": 2.2123373898447336,
4635
- "grad_norm": 0.584954559803009,
4636
- "learning_rate": 1.371158392434988e-07,
4637
- "loss": 2.2195,
4638
- "step": 659
4639
- },
4640
- {
4641
- "epoch": 2.2156945027276542,
4642
- "grad_norm": 0.6203845739364624,
4643
- "learning_rate": 1.3652482269503546e-07,
4644
- "loss": 2.1448,
4645
- "step": 660
4646
- },
4647
- {
4648
- "epoch": 2.219051615610575,
4649
- "grad_norm": 0.5427147746086121,
4650
- "learning_rate": 1.359338061465721e-07,
4651
- "loss": 2.1436,
4652
- "step": 661
4653
- },
4654
- {
4655
- "epoch": 2.2224087284934955,
4656
- "grad_norm": 0.5791121125221252,
4657
- "learning_rate": 1.3534278959810873e-07,
4658
- "loss": 2.1052,
4659
- "step": 662
4660
- },
4661
- {
4662
- "epoch": 2.225765841376416,
4663
- "grad_norm": 0.5903706550598145,
4664
- "learning_rate": 1.3475177304964538e-07,
4665
- "loss": 2.1175,
4666
- "step": 663
4667
- },
4668
- {
4669
- "epoch": 2.229122954259337,
4670
- "grad_norm": 0.5627418160438538,
4671
- "learning_rate": 1.3416075650118203e-07,
4672
- "loss": 2.1011,
4673
- "step": 664
4674
- },
4675
- {
4676
- "epoch": 2.2324800671422578,
4677
- "grad_norm": 0.5707918405532837,
4678
- "learning_rate": 1.3356973995271868e-07,
4679
- "loss": 2.0925,
4680
- "step": 665
4681
- },
4682
- {
4683
- "epoch": 2.2358371800251784,
4684
- "grad_norm": 0.5552944540977478,
4685
- "learning_rate": 1.329787234042553e-07,
4686
- "loss": 2.132,
4687
- "step": 666
4688
- },
4689
- {
4690
- "epoch": 2.239194292908099,
4691
- "grad_norm": 0.5708072185516357,
4692
- "learning_rate": 1.3238770685579196e-07,
4693
- "loss": 2.148,
4694
- "step": 667
4695
- },
4696
- {
4697
- "epoch": 2.2425514057910196,
4698
- "grad_norm": 0.5760245323181152,
4699
- "learning_rate": 1.317966903073286e-07,
4700
- "loss": 2.173,
4701
- "step": 668
4702
- },
4703
- {
4704
- "epoch": 2.2459085186739403,
4705
- "grad_norm": 0.5791294574737549,
4706
- "learning_rate": 1.3120567375886523e-07,
4707
- "loss": 2.1913,
4708
- "step": 669
4709
- },
4710
- {
4711
- "epoch": 2.2492656315568613,
4712
- "grad_norm": 0.5469384789466858,
4713
- "learning_rate": 1.3061465721040188e-07,
4714
- "loss": 2.0626,
4715
- "step": 670
4716
- },
4717
- {
4718
- "epoch": 2.252622744439782,
4719
- "grad_norm": 0.5542003512382507,
4720
- "learning_rate": 1.3002364066193853e-07,
4721
- "loss": 2.1759,
4722
- "step": 671
4723
- },
4724
- {
4725
- "epoch": 2.2559798573227026,
4726
- "grad_norm": 0.5164523720741272,
4727
- "learning_rate": 1.2943262411347516e-07,
4728
- "loss": 2.0917,
4729
- "step": 672
4730
- },
4731
- {
4732
- "epoch": 2.259336970205623,
4733
- "grad_norm": 0.5994356274604797,
4734
- "learning_rate": 1.288416075650118e-07,
4735
- "loss": 2.1832,
4736
- "step": 673
4737
- },
4738
- {
4739
- "epoch": 2.262694083088544,
4740
- "grad_norm": 0.5621914267539978,
4741
- "learning_rate": 1.2825059101654846e-07,
4742
- "loss": 2.1212,
4743
- "step": 674
4744
- },
4745
- {
4746
- "epoch": 2.2660511959714644,
4747
- "grad_norm": 0.576374351978302,
4748
- "learning_rate": 1.2765957446808508e-07,
4749
- "loss": 2.1408,
4750
- "step": 675
4751
- },
4752
- {
4753
- "epoch": 2.269408308854385,
4754
- "grad_norm": 0.5409926176071167,
4755
- "learning_rate": 1.2706855791962173e-07,
4756
- "loss": 2.1872,
4757
- "step": 676
4758
- },
4759
- {
4760
- "epoch": 2.272765421737306,
4761
- "grad_norm": 0.5715805292129517,
4762
- "learning_rate": 1.2647754137115838e-07,
4763
- "loss": 2.1805,
4764
- "step": 677
4765
- },
4766
- {
4767
- "epoch": 2.2761225346202267,
4768
- "grad_norm": 0.5578653812408447,
4769
- "learning_rate": 1.25886524822695e-07,
4770
- "loss": 2.1738,
4771
- "step": 678
4772
- },
4773
- {
4774
- "epoch": 2.2794796475031474,
4775
- "grad_norm": 0.574573278427124,
4776
- "learning_rate": 1.2529550827423166e-07,
4777
- "loss": 2.1258,
4778
- "step": 679
4779
- },
4780
- {
4781
- "epoch": 2.282836760386068,
4782
- "grad_norm": 0.5796377658843994,
4783
- "learning_rate": 1.247044917257683e-07,
4784
- "loss": 2.1559,
4785
- "step": 680
4786
- },
4787
- {
4788
- "epoch": 2.2861938732689886,
4789
- "grad_norm": 0.5414871573448181,
4790
- "learning_rate": 1.2411347517730496e-07,
4791
- "loss": 2.1258,
4792
- "step": 681
4793
- },
4794
- {
4795
- "epoch": 2.289550986151909,
4796
- "grad_norm": 0.5621658563613892,
4797
- "learning_rate": 1.235224586288416e-07,
4798
- "loss": 2.0942,
4799
- "step": 682
4800
- },
4801
- {
4802
- "epoch": 2.29290809903483,
4803
- "grad_norm": 0.5886093974113464,
4804
- "learning_rate": 1.2293144208037823e-07,
4805
- "loss": 2.1605,
4806
- "step": 683
4807
- },
4808
- {
4809
- "epoch": 2.296265211917751,
4810
- "grad_norm": 0.528712809085846,
4811
- "learning_rate": 1.2234042553191488e-07,
4812
- "loss": 2.1128,
4813
- "step": 684
4814
- },
4815
- {
4816
- "epoch": 2.2996223248006715,
4817
- "grad_norm": 0.5604879260063171,
4818
- "learning_rate": 1.2174940898345153e-07,
4819
- "loss": 2.1542,
4820
- "step": 685
4821
- },
4822
- {
4823
- "epoch": 2.302979437683592,
4824
- "grad_norm": 0.5524810552597046,
4825
- "learning_rate": 1.2115839243498816e-07,
4826
- "loss": 2.1249,
4827
- "step": 686
4828
- },
4829
- {
4830
- "epoch": 2.3063365505665128,
4831
- "grad_norm": 0.5685278177261353,
4832
- "learning_rate": 1.205673758865248e-07,
4833
- "loss": 2.1189,
4834
- "step": 687
4835
- },
4836
- {
4837
- "epoch": 2.3096936634494334,
4838
- "grad_norm": 0.5520109534263611,
4839
- "learning_rate": 1.1997635933806146e-07,
4840
- "loss": 2.1371,
4841
- "step": 688
4842
- },
4843
- {
4844
- "epoch": 2.313050776332354,
4845
- "grad_norm": 0.5782994627952576,
4846
- "learning_rate": 1.193853427895981e-07,
4847
- "loss": 2.1783,
4848
- "step": 689
4849
- },
4850
- {
4851
- "epoch": 2.3164078892152746,
4852
- "grad_norm": 0.5418346524238586,
4853
- "learning_rate": 1.1879432624113475e-07,
4854
- "loss": 2.1516,
4855
- "step": 690
4856
- },
4857
- {
4858
- "epoch": 2.3197650020981957,
4859
- "grad_norm": 0.5413779616355896,
4860
- "learning_rate": 1.182033096926714e-07,
4861
- "loss": 2.104,
4862
- "step": 691
4863
- },
4864
- {
4865
- "epoch": 2.3231221149811163,
4866
- "grad_norm": 0.5890994668006897,
4867
- "learning_rate": 1.1761229314420803e-07,
4868
- "loss": 2.1653,
4869
- "step": 692
4870
- },
4871
- {
4872
- "epoch": 2.326479227864037,
4873
- "grad_norm": 0.5684483051300049,
4874
- "learning_rate": 1.1702127659574468e-07,
4875
- "loss": 2.1468,
4876
- "step": 693
4877
- },
4878
- {
4879
- "epoch": 2.3298363407469576,
4880
- "grad_norm": 0.5710468888282776,
4881
- "learning_rate": 1.1643026004728132e-07,
4882
- "loss": 2.1695,
4883
- "step": 694
4884
- },
4885
- {
4886
- "epoch": 2.333193453629878,
4887
- "grad_norm": 0.5511908531188965,
4888
- "learning_rate": 1.1583924349881796e-07,
4889
- "loss": 2.153,
4890
- "step": 695
4891
- },
4892
- {
4893
- "epoch": 2.336550566512799,
4894
- "grad_norm": 0.5747969150543213,
4895
- "learning_rate": 1.1524822695035461e-07,
4896
- "loss": 2.1164,
4897
- "step": 696
4898
- },
4899
- {
4900
- "epoch": 2.33990767939572,
4901
- "grad_norm": 0.5769465565681458,
4902
- "learning_rate": 1.1465721040189125e-07,
4903
- "loss": 2.0983,
4904
- "step": 697
4905
- },
4906
- {
4907
- "epoch": 2.3432647922786405,
4908
- "grad_norm": 0.5540648698806763,
4909
- "learning_rate": 1.1406619385342788e-07,
4910
- "loss": 2.123,
4911
- "step": 698
4912
- },
4913
- {
4914
- "epoch": 2.346621905161561,
4915
- "grad_norm": 0.5682700276374817,
4916
- "learning_rate": 1.1347517730496453e-07,
4917
- "loss": 2.1387,
4918
- "step": 699
4919
- },
4920
- {
4921
- "epoch": 2.3499790180444817,
4922
- "grad_norm": 0.5571325421333313,
4923
- "learning_rate": 1.1288416075650117e-07,
4924
- "loss": 2.1504,
4925
- "step": 700
4926
- },
4927
- {
4928
- "epoch": 2.3533361309274023,
4929
- "grad_norm": 0.592702329158783,
4930
- "learning_rate": 1.1229314420803782e-07,
4931
- "loss": 2.1569,
4932
- "step": 701
4933
- },
4934
- {
4935
- "epoch": 2.356693243810323,
4936
- "grad_norm": 0.5651736259460449,
4937
- "learning_rate": 1.1170212765957446e-07,
4938
- "loss": 2.1349,
4939
- "step": 702
4940
- },
4941
- {
4942
- "epoch": 2.360050356693244,
4943
- "grad_norm": 0.5222681164741516,
4944
- "learning_rate": 1.111111111111111e-07,
4945
- "loss": 2.1089,
4946
- "step": 703
4947
- },
4948
- {
4949
- "epoch": 2.3634074695761647,
4950
- "grad_norm": 0.5406708717346191,
4951
- "learning_rate": 1.1052009456264776e-07,
4952
- "loss": 2.1394,
4953
- "step": 704
4954
- },
4955
- {
4956
- "epoch": 2.3667645824590853,
4957
- "grad_norm": 0.5576866269111633,
4958
- "learning_rate": 1.099290780141844e-07,
4959
- "loss": 2.1586,
4960
- "step": 705
4961
- },
4962
- {
4963
- "epoch": 2.370121695342006,
4964
- "grad_norm": 0.5735974311828613,
4965
- "learning_rate": 1.0933806146572103e-07,
4966
- "loss": 2.175,
4967
- "step": 706
4968
- },
4969
- {
4970
- "epoch": 2.3734788082249265,
4971
- "grad_norm": 0.5451417565345764,
4972
- "learning_rate": 1.0874704491725768e-07,
4973
- "loss": 2.1319,
4974
- "step": 707
4975
- },
4976
- {
4977
- "epoch": 2.376835921107847,
4978
- "grad_norm": 0.5943117737770081,
4979
- "learning_rate": 1.0815602836879432e-07,
4980
- "loss": 2.1199,
4981
- "step": 708
4982
- },
4983
- {
4984
- "epoch": 2.3801930339907678,
4985
- "grad_norm": 0.6147474050521851,
4986
- "learning_rate": 1.0756501182033097e-07,
4987
- "loss": 2.0827,
4988
- "step": 709
4989
- },
4990
- {
4991
- "epoch": 2.383550146873689,
4992
- "grad_norm": 0.5546717047691345,
4993
- "learning_rate": 1.0697399527186761e-07,
4994
- "loss": 2.1564,
4995
- "step": 710
4996
- },
4997
- {
4998
- "epoch": 2.3869072597566094,
4999
- "grad_norm": 0.5820872783660889,
5000
- "learning_rate": 1.0638297872340425e-07,
5001
- "loss": 2.1466,
5002
- "step": 711
5003
- },
5004
- {
5005
- "epoch": 2.39026437263953,
5006
- "grad_norm": 0.5819923877716064,
5007
- "learning_rate": 1.057919621749409e-07,
5008
- "loss": 2.1618,
5009
- "step": 712
5010
- },
5011
- {
5012
- "epoch": 2.3936214855224507,
5013
- "grad_norm": 0.6026069521903992,
5014
- "learning_rate": 1.0520094562647753e-07,
5015
- "loss": 2.118,
5016
- "step": 713
5017
- },
5018
- {
5019
- "epoch": 2.3969785984053713,
5020
- "grad_norm": 0.5684935450553894,
5021
- "learning_rate": 1.0460992907801417e-07,
5022
- "loss": 2.1309,
5023
- "step": 714
5024
- },
5025
- {
5026
- "epoch": 2.400335711288292,
5027
- "grad_norm": 0.5980827212333679,
5028
- "learning_rate": 1.0401891252955082e-07,
5029
- "loss": 2.1596,
5030
- "step": 715
5031
- },
5032
- {
5033
- "epoch": 2.4036928241712125,
5034
- "grad_norm": 0.4979473054409027,
5035
- "learning_rate": 1.0342789598108746e-07,
5036
- "loss": 2.0867,
5037
- "step": 716
5038
- },
5039
- {
5040
- "epoch": 2.4070499370541336,
5041
- "grad_norm": 0.5678048729896545,
5042
- "learning_rate": 1.0283687943262411e-07,
5043
- "loss": 2.1685,
5044
- "step": 717
5045
- },
5046
- {
5047
- "epoch": 2.4104070499370542,
5048
- "grad_norm": 0.5005086660385132,
5049
- "learning_rate": 1.0224586288416075e-07,
5050
- "loss": 2.0723,
5051
- "step": 718
5052
- },
5053
- {
5054
- "epoch": 2.413764162819975,
5055
- "grad_norm": 0.5812935829162598,
5056
- "learning_rate": 1.0165484633569738e-07,
5057
- "loss": 2.1636,
5058
- "step": 719
5059
- },
5060
- {
5061
- "epoch": 2.4171212757028955,
5062
- "grad_norm": 0.5400813817977905,
5063
- "learning_rate": 1.0106382978723404e-07,
5064
- "loss": 2.083,
5065
- "step": 720
5066
- },
5067
- {
5068
- "epoch": 2.420478388585816,
5069
- "grad_norm": 0.5791892409324646,
5070
- "learning_rate": 1.0047281323877069e-07,
5071
- "loss": 2.1372,
5072
- "step": 721
5073
- },
5074
- {
5075
- "epoch": 2.4238355014687367,
5076
- "grad_norm": 0.5753834843635559,
5077
- "learning_rate": 9.988179669030732e-08,
5078
- "loss": 2.1322,
5079
- "step": 722
5080
- },
5081
- {
5082
- "epoch": 2.4271926143516573,
5083
- "grad_norm": 0.5643473267555237,
5084
- "learning_rate": 9.929078014184397e-08,
5085
- "loss": 2.1252,
5086
- "step": 723
5087
- },
5088
- {
5089
- "epoch": 2.4305497272345784,
5090
- "grad_norm": 0.5979934930801392,
5091
- "learning_rate": 9.869976359338061e-08,
5092
- "loss": 2.1401,
5093
- "step": 724
5094
- },
5095
- {
5096
- "epoch": 2.433906840117499,
5097
- "grad_norm": 0.5440395474433899,
5098
- "learning_rate": 9.810874704491726e-08,
5099
- "loss": 2.165,
5100
- "step": 725
5101
- },
5102
- {
5103
- "epoch": 2.4372639530004196,
5104
- "grad_norm": 0.5564695000648499,
5105
- "learning_rate": 9.75177304964539e-08,
5106
- "loss": 2.0954,
5107
- "step": 726
5108
- },
5109
- {
5110
- "epoch": 2.4406210658833403,
5111
- "grad_norm": 0.6030122637748718,
5112
- "learning_rate": 9.692671394799054e-08,
5113
- "loss": 2.1144,
5114
- "step": 727
5115
- },
5116
- {
5117
- "epoch": 2.443978178766261,
5118
- "grad_norm": 0.5595952272415161,
5119
- "learning_rate": 9.633569739952719e-08,
5120
- "loss": 2.1009,
5121
- "step": 728
5122
- },
5123
- {
5124
- "epoch": 2.4473352916491815,
5125
- "grad_norm": 0.6225353479385376,
5126
- "learning_rate": 9.574468085106382e-08,
5127
- "loss": 2.1491,
5128
- "step": 729
5129
- },
5130
- {
5131
- "epoch": 2.4506924045321026,
5132
- "grad_norm": 0.5642361044883728,
5133
- "learning_rate": 9.515366430260046e-08,
5134
- "loss": 2.1863,
5135
- "step": 730
5136
- },
5137
- {
5138
- "epoch": 2.454049517415023,
5139
- "grad_norm": 0.5429561138153076,
5140
- "learning_rate": 9.456264775413711e-08,
5141
- "loss": 2.1346,
5142
- "step": 731
5143
- },
5144
- {
5145
- "epoch": 2.457406630297944,
5146
- "grad_norm": 0.603590726852417,
5147
- "learning_rate": 9.397163120567375e-08,
5148
- "loss": 2.1782,
5149
- "step": 732
5150
- },
5151
- {
5152
- "epoch": 2.4607637431808644,
5153
- "grad_norm": 0.5963548421859741,
5154
- "learning_rate": 9.33806146572104e-08,
5155
- "loss": 2.1252,
5156
- "step": 733
5157
- },
5158
- {
5159
- "epoch": 2.464120856063785,
5160
- "grad_norm": 0.5711669325828552,
5161
- "learning_rate": 9.278959810874704e-08,
5162
- "loss": 2.1494,
5163
- "step": 734
5164
- },
5165
- {
5166
- "epoch": 2.4674779689467057,
5167
- "grad_norm": 0.5727424025535583,
5168
- "learning_rate": 9.219858156028367e-08,
5169
- "loss": 2.1455,
5170
- "step": 735
5171
- },
5172
- {
5173
- "epoch": 2.4708350818296267,
5174
- "grad_norm": 0.5406821370124817,
5175
- "learning_rate": 9.160756501182032e-08,
5176
- "loss": 2.1044,
5177
- "step": 736
5178
- },
5179
- {
5180
- "epoch": 2.4741921947125474,
5181
- "grad_norm": 0.5895271301269531,
5182
- "learning_rate": 9.101654846335697e-08,
5183
- "loss": 2.1494,
5184
- "step": 737
5185
- },
5186
- {
5187
- "epoch": 2.477549307595468,
5188
- "grad_norm": 0.5411199331283569,
5189
- "learning_rate": 9.042553191489363e-08,
5190
- "loss": 2.1043,
5191
- "step": 738
5192
- },
5193
- {
5194
- "epoch": 2.4809064204783886,
5195
- "grad_norm": 0.6222611665725708,
5196
- "learning_rate": 8.983451536643026e-08,
5197
- "loss": 2.1783,
5198
- "step": 739
5199
- },
5200
- {
5201
- "epoch": 2.4842635333613092,
5202
- "grad_norm": 0.6279255747795105,
5203
- "learning_rate": 8.92434988179669e-08,
5204
- "loss": 2.1208,
5205
- "step": 740
5206
- },
5207
- {
5208
- "epoch": 2.48762064624423,
5209
- "grad_norm": 0.5328918099403381,
5210
- "learning_rate": 8.865248226950355e-08,
5211
- "loss": 2.0602,
5212
- "step": 741
5213
- },
5214
- {
5215
- "epoch": 2.4909777591271505,
5216
- "grad_norm": 0.5722616314888,
5217
- "learning_rate": 8.806146572104019e-08,
5218
- "loss": 2.1542,
5219
- "step": 742
5220
- },
5221
- {
5222
- "epoch": 2.4943348720100715,
5223
- "grad_norm": 0.6053423881530762,
5224
- "learning_rate": 8.747044917257682e-08,
5225
- "loss": 2.1443,
5226
- "step": 743
5227
- },
5228
- {
5229
- "epoch": 2.497691984892992,
5230
- "grad_norm": 0.5643149614334106,
5231
- "learning_rate": 8.687943262411348e-08,
5232
- "loss": 2.1571,
5233
- "step": 744
5234
- },
5235
- {
5236
- "epoch": 2.5010490977759128,
5237
- "grad_norm": 0.5647066831588745,
5238
- "learning_rate": 8.628841607565011e-08,
5239
- "loss": 2.0443,
5240
- "step": 745
5241
- },
5242
- {
5243
- "epoch": 2.5044062106588334,
5244
- "grad_norm": 0.5630561113357544,
5245
- "learning_rate": 8.569739952718675e-08,
5246
- "loss": 2.0837,
5247
- "step": 746
5248
- },
5249
- {
5250
- "epoch": 2.507763323541754,
5251
- "grad_norm": 0.5802566409111023,
5252
- "learning_rate": 8.51063829787234e-08,
5253
- "loss": 2.2105,
5254
- "step": 747
5255
- },
5256
- {
5257
- "epoch": 2.5111204364246746,
5258
- "grad_norm": 0.5902342796325684,
5259
- "learning_rate": 8.451536643026004e-08,
5260
- "loss": 2.1874,
5261
- "step": 748
5262
- },
5263
- {
5264
- "epoch": 2.5144775493075953,
5265
- "grad_norm": 0.5961369872093201,
5266
- "learning_rate": 8.392434988179669e-08,
5267
- "loss": 2.1717,
5268
- "step": 749
5269
- },
5270
- {
5271
- "epoch": 2.5178346621905163,
5272
- "grad_norm": 0.5433673858642578,
5273
- "learning_rate": 8.333333333333333e-08,
5274
- "loss": 2.1003,
5275
- "step": 750
5276
- },
5277
- {
5278
- "epoch": 2.521191775073437,
5279
- "grad_norm": 0.5389529466629028,
5280
- "learning_rate": 8.274231678486996e-08,
5281
- "loss": 2.1282,
5282
- "step": 751
5283
- },
5284
- {
5285
- "epoch": 2.5245488879563576,
5286
- "grad_norm": 0.5602272748947144,
5287
- "learning_rate": 8.215130023640661e-08,
5288
- "loss": 2.1452,
5289
- "step": 752
5290
- },
5291
- {
5292
- "epoch": 2.527906000839278,
5293
- "grad_norm": 0.5761686563491821,
5294
- "learning_rate": 8.156028368794326e-08,
5295
- "loss": 2.1399,
5296
- "step": 753
5297
- },
5298
- {
5299
- "epoch": 2.531263113722199,
5300
- "grad_norm": 0.5529290437698364,
5301
- "learning_rate": 8.096926713947991e-08,
5302
- "loss": 2.0855,
5303
- "step": 754
5304
- },
5305
- {
5306
- "epoch": 2.5346202266051194,
5307
- "grad_norm": 0.5970497727394104,
5308
- "learning_rate": 8.037825059101655e-08,
5309
- "loss": 2.1162,
5310
- "step": 755
5311
- },
5312
- {
5313
- "epoch": 2.53797733948804,
5314
- "grad_norm": 0.5574461221694946,
5315
- "learning_rate": 7.978723404255319e-08,
5316
- "loss": 2.169,
5317
- "step": 756
5318
- },
5319
- {
5320
- "epoch": 2.541334452370961,
5321
- "grad_norm": 0.5463849306106567,
5322
- "learning_rate": 7.919621749408984e-08,
5323
- "loss": 2.1589,
5324
- "step": 757
5325
- },
5326
- {
5327
- "epoch": 2.5446915652538817,
5328
- "grad_norm": 0.5842500925064087,
5329
- "learning_rate": 7.860520094562648e-08,
5330
- "loss": 2.1216,
5331
- "step": 758
5332
- },
5333
- {
5334
- "epoch": 2.5480486781368024,
5335
- "grad_norm": 0.5609316229820251,
5336
- "learning_rate": 7.801418439716311e-08,
5337
- "loss": 2.1259,
5338
- "step": 759
5339
- },
5340
- {
5341
- "epoch": 2.551405791019723,
5342
- "grad_norm": 0.563157856464386,
5343
- "learning_rate": 7.742316784869976e-08,
5344
- "loss": 2.1739,
5345
- "step": 760
5346
- },
5347
- {
5348
- "epoch": 2.5547629039026436,
5349
- "grad_norm": 0.5769089460372925,
5350
- "learning_rate": 7.68321513002364e-08,
5351
- "loss": 2.1196,
5352
- "step": 761
5353
- },
5354
- {
5355
- "epoch": 2.5581200167855647,
5356
- "grad_norm": 0.5630622506141663,
5357
- "learning_rate": 7.624113475177305e-08,
5358
- "loss": 2.1243,
5359
- "step": 762
5360
- },
5361
- {
5362
- "epoch": 2.561477129668485,
5363
- "grad_norm": 0.5799427032470703,
5364
- "learning_rate": 7.565011820330969e-08,
5365
- "loss": 2.0763,
5366
- "step": 763
5367
- },
5368
- {
5369
- "epoch": 2.564834242551406,
5370
- "grad_norm": 0.5502346754074097,
5371
- "learning_rate": 7.505910165484633e-08,
5372
- "loss": 2.1204,
5373
- "step": 764
5374
- },
5375
- {
5376
- "epoch": 2.5681913554343265,
5377
- "grad_norm": 0.5592603087425232,
5378
- "learning_rate": 7.446808510638298e-08,
5379
- "loss": 2.1178,
5380
- "step": 765
5381
- },
5382
- {
5383
- "epoch": 2.571548468317247,
5384
- "grad_norm": 0.5861775875091553,
5385
- "learning_rate": 7.387706855791961e-08,
5386
- "loss": 2.2152,
5387
- "step": 766
5388
- },
5389
- {
5390
- "epoch": 2.5749055812001678,
5391
- "grad_norm": 0.5786147713661194,
5392
- "learning_rate": 7.328605200945625e-08,
5393
- "loss": 2.1161,
5394
- "step": 767
5395
- },
5396
- {
5397
- "epoch": 2.5782626940830884,
5398
- "grad_norm": 0.5833945274353027,
5399
- "learning_rate": 7.26950354609929e-08,
5400
- "loss": 2.1747,
5401
- "step": 768
5402
- },
5403
- {
5404
- "epoch": 2.5816198069660095,
5405
- "grad_norm": 0.5661745667457581,
5406
- "learning_rate": 7.210401891252955e-08,
5407
- "loss": 2.1337,
5408
- "step": 769
5409
- },
5410
- {
5411
- "epoch": 2.58497691984893,
5412
- "grad_norm": 0.57346510887146,
5413
- "learning_rate": 7.15130023640662e-08,
5414
- "loss": 2.1262,
5415
- "step": 770
5416
- },
5417
- {
5418
- "epoch": 2.5883340327318507,
5419
- "grad_norm": 0.5714176893234253,
5420
- "learning_rate": 7.092198581560284e-08,
5421
- "loss": 2.1607,
5422
- "step": 771
5423
- },
5424
- {
5425
- "epoch": 2.5916911456147713,
5426
- "grad_norm": 0.5676454901695251,
5427
- "learning_rate": 7.033096926713948e-08,
5428
- "loss": 2.1609,
5429
- "step": 772
5430
- },
5431
- {
5432
- "epoch": 2.595048258497692,
5433
- "grad_norm": 0.6049889326095581,
5434
- "learning_rate": 6.973995271867613e-08,
5435
- "loss": 2.1581,
5436
- "step": 773
5437
- },
5438
- {
5439
- "epoch": 2.5984053713806126,
5440
- "grad_norm": 0.5774138569831848,
5441
- "learning_rate": 6.914893617021277e-08,
5442
- "loss": 2.111,
5443
- "step": 774
5444
- },
5445
- {
5446
- "epoch": 2.601762484263533,
5447
- "grad_norm": 0.5626241564750671,
5448
- "learning_rate": 6.85579196217494e-08,
5449
- "loss": 2.1279,
5450
- "step": 775
5451
- },
5452
- {
5453
- "epoch": 2.6051195971464542,
5454
- "grad_norm": 0.5682496428489685,
5455
- "learning_rate": 6.796690307328605e-08,
5456
- "loss": 2.1819,
5457
- "step": 776
5458
- },
5459
- {
5460
- "epoch": 2.608476710029375,
5461
- "grad_norm": 0.5871005058288574,
5462
- "learning_rate": 6.737588652482269e-08,
5463
- "loss": 2.1623,
5464
- "step": 777
5465
- },
5466
- {
5467
- "epoch": 2.6118338229122955,
5468
- "grad_norm": 0.6054531335830688,
5469
- "learning_rate": 6.678486997635934e-08,
5470
- "loss": 2.1136,
5471
- "step": 778
5472
- },
5473
- {
5474
- "epoch": 2.615190935795216,
5475
- "grad_norm": 0.5541722774505615,
5476
- "learning_rate": 6.619385342789598e-08,
5477
- "loss": 2.1334,
5478
- "step": 779
5479
- },
5480
- {
5481
- "epoch": 2.6185480486781367,
5482
- "grad_norm": 0.556919515132904,
5483
- "learning_rate": 6.560283687943262e-08,
5484
- "loss": 2.1148,
5485
- "step": 780
5486
- },
5487
- {
5488
- "epoch": 2.6219051615610574,
5489
- "grad_norm": 0.5363909602165222,
5490
- "learning_rate": 6.501182033096927e-08,
5491
- "loss": 2.0795,
5492
- "step": 781
5493
- },
5494
- {
5495
- "epoch": 2.625262274443978,
5496
- "grad_norm": 0.5697099566459656,
5497
- "learning_rate": 6.44208037825059e-08,
5498
- "loss": 2.1522,
5499
- "step": 782
5500
- },
5501
- {
5502
- "epoch": 2.628619387326899,
5503
- "grad_norm": 0.571094810962677,
5504
- "learning_rate": 6.382978723404254e-08,
5505
- "loss": 2.1545,
5506
- "step": 783
5507
- },
5508
- {
5509
- "epoch": 2.6319765002098197,
5510
- "grad_norm": 0.5669984817504883,
5511
- "learning_rate": 6.323877068557919e-08,
5512
- "loss": 2.1427,
5513
- "step": 784
5514
- },
5515
- {
5516
- "epoch": 2.6353336130927403,
5517
- "grad_norm": 0.5831683874130249,
5518
- "learning_rate": 6.264775413711583e-08,
5519
- "loss": 2.188,
5520
- "step": 785
5521
- },
5522
- {
5523
- "epoch": 2.638690725975661,
5524
- "grad_norm": 0.5660560131072998,
5525
- "learning_rate": 6.205673758865248e-08,
5526
- "loss": 2.1572,
5527
- "step": 786
5528
- },
5529
- {
5530
- "epoch": 2.6420478388585815,
5531
- "grad_norm": 0.5728089809417725,
5532
- "learning_rate": 6.146572104018912e-08,
5533
- "loss": 2.0789,
5534
- "step": 787
5535
- },
5536
- {
5537
- "epoch": 2.645404951741502,
5538
- "grad_norm": 0.5673388242721558,
5539
- "learning_rate": 6.087470449172577e-08,
5540
- "loss": 2.1508,
5541
- "step": 788
5542
- },
5543
- {
5544
- "epoch": 2.6487620646244228,
5545
- "grad_norm": 0.568686842918396,
5546
- "learning_rate": 6.02836879432624e-08,
5547
- "loss": 2.1811,
5548
- "step": 789
5549
- },
5550
- {
5551
- "epoch": 2.652119177507344,
5552
- "grad_norm": 0.5477533936500549,
5553
- "learning_rate": 5.969267139479905e-08,
5554
- "loss": 2.1047,
5555
- "step": 790
5556
- },
5557
- {
5558
- "epoch": 2.6554762903902644,
5559
- "grad_norm": 0.627791702747345,
5560
- "learning_rate": 5.91016548463357e-08,
5561
- "loss": 2.1543,
5562
- "step": 791
5563
- },
5564
- {
5565
- "epoch": 2.658833403273185,
5566
- "grad_norm": 0.5684884786605835,
5567
- "learning_rate": 5.851063829787234e-08,
5568
- "loss": 2.1225,
5569
- "step": 792
5570
- },
5571
- {
5572
- "epoch": 2.6621905161561057,
5573
- "grad_norm": 0.6162928938865662,
5574
- "learning_rate": 5.791962174940898e-08,
5575
- "loss": 2.1343,
5576
- "step": 793
5577
- },
5578
- {
5579
- "epoch": 2.6655476290390263,
5580
- "grad_norm": 0.5560017228126526,
5581
- "learning_rate": 5.732860520094562e-08,
5582
- "loss": 2.1797,
5583
- "step": 794
5584
- },
5585
- {
5586
- "epoch": 2.6689047419219474,
5587
- "grad_norm": 0.5683034658432007,
5588
- "learning_rate": 5.673758865248227e-08,
5589
- "loss": 2.1552,
5590
- "step": 795
5591
- },
5592
- {
5593
- "epoch": 2.6722618548048676,
5594
- "grad_norm": 0.6046074628829956,
5595
- "learning_rate": 5.614657210401891e-08,
5596
- "loss": 2.1549,
5597
- "step": 796
5598
- },
5599
- {
5600
- "epoch": 2.6756189676877886,
5601
- "grad_norm": 0.5512291789054871,
5602
- "learning_rate": 5.555555555555555e-08,
5603
- "loss": 2.1443,
5604
- "step": 797
5605
- },
5606
- {
5607
- "epoch": 2.6789760805707092,
5608
- "grad_norm": 0.5601515173912048,
5609
- "learning_rate": 5.49645390070922e-08,
5610
- "loss": 2.135,
5611
- "step": 798
5612
- },
5613
- {
5614
- "epoch": 2.68233319345363,
5615
- "grad_norm": 0.5837010741233826,
5616
- "learning_rate": 5.437352245862884e-08,
5617
- "loss": 2.0827,
5618
- "step": 799
5619
- },
5620
- {
5621
- "epoch": 2.6856903063365505,
5622
- "grad_norm": 0.5594925284385681,
5623
- "learning_rate": 5.3782505910165486e-08,
5624
- "loss": 2.1214,
5625
- "step": 800
5626
- },
5627
- {
5628
- "epoch": 2.689047419219471,
5629
- "grad_norm": 0.5061306953430176,
5630
- "learning_rate": 5.3191489361702123e-08,
5631
- "loss": 2.1342,
5632
- "step": 801
5633
- },
5634
- {
5635
- "epoch": 2.692404532102392,
5636
- "grad_norm": 0.5876765251159668,
5637
- "learning_rate": 5.260047281323877e-08,
5638
- "loss": 2.1541,
5639
- "step": 802
5640
- },
5641
- {
5642
- "epoch": 2.695761644985313,
5643
- "grad_norm": 0.5789502263069153,
5644
- "learning_rate": 5.200945626477541e-08,
5645
- "loss": 2.1463,
5646
- "step": 803
5647
- },
5648
- {
5649
- "epoch": 2.6991187578682334,
5650
- "grad_norm": 0.579647421836853,
5651
- "learning_rate": 5.1418439716312055e-08,
5652
- "loss": 2.1836,
5653
- "step": 804
5654
- },
5655
- {
5656
- "epoch": 2.702475870751154,
5657
- "grad_norm": 0.5416697859764099,
5658
- "learning_rate": 5.082742316784869e-08,
5659
- "loss": 2.0999,
5660
- "step": 805
5661
- },
5662
- {
5663
- "epoch": 2.7058329836340747,
5664
- "grad_norm": 0.5642104148864746,
5665
- "learning_rate": 5.023640661938534e-08,
5666
- "loss": 2.1421,
5667
- "step": 806
5668
- },
5669
- {
5670
- "epoch": 2.7091900965169953,
5671
- "grad_norm": 0.554743766784668,
5672
- "learning_rate": 4.964539007092199e-08,
5673
- "loss": 2.1678,
5674
- "step": 807
5675
- },
5676
- {
5677
- "epoch": 2.712547209399916,
5678
- "grad_norm": 0.5825777053833008,
5679
- "learning_rate": 4.905437352245863e-08,
5680
- "loss": 2.1865,
5681
- "step": 808
5682
- },
5683
- {
5684
- "epoch": 2.715904322282837,
5685
- "grad_norm": 0.5957197546958923,
5686
- "learning_rate": 4.846335697399527e-08,
5687
- "loss": 2.1653,
5688
- "step": 809
5689
- },
5690
- {
5691
- "epoch": 2.7192614351657576,
5692
- "grad_norm": 0.5674082040786743,
5693
- "learning_rate": 4.787234042553191e-08,
5694
- "loss": 2.1615,
5695
- "step": 810
5696
- },
5697
- {
5698
- "epoch": 2.722618548048678,
5699
- "grad_norm": 0.5784925818443298,
5700
- "learning_rate": 4.7281323877068556e-08,
5701
- "loss": 2.1737,
5702
- "step": 811
5703
- },
5704
- {
5705
- "epoch": 2.725975660931599,
5706
- "grad_norm": 0.5676373243331909,
5707
- "learning_rate": 4.66903073286052e-08,
5708
- "loss": 2.0867,
5709
- "step": 812
5710
- },
5711
- {
5712
- "epoch": 2.7293327738145194,
5713
- "grad_norm": 0.5750331878662109,
5714
- "learning_rate": 4.609929078014184e-08,
5715
- "loss": 2.1381,
5716
- "step": 813
5717
- },
5718
- {
5719
- "epoch": 2.73268988669744,
5720
- "grad_norm": 0.572400689125061,
5721
- "learning_rate": 4.550827423167849e-08,
5722
- "loss": 2.128,
5723
- "step": 814
5724
- },
5725
- {
5726
- "epoch": 2.7360469995803607,
5727
- "grad_norm": 0.5287570953369141,
5728
- "learning_rate": 4.491725768321513e-08,
5729
- "loss": 2.041,
5730
- "step": 815
5731
- },
5732
- {
5733
- "epoch": 2.7394041124632817,
5734
- "grad_norm": 0.5819547176361084,
5735
- "learning_rate": 4.4326241134751775e-08,
5736
- "loss": 2.1262,
5737
- "step": 816
5738
- },
5739
- {
5740
- "epoch": 2.7427612253462024,
5741
- "grad_norm": 0.5426435470581055,
5742
- "learning_rate": 4.373522458628841e-08,
5743
- "loss": 2.1539,
5744
- "step": 817
5745
- },
5746
- {
5747
- "epoch": 2.746118338229123,
5748
- "grad_norm": 0.5462058782577515,
5749
- "learning_rate": 4.3144208037825056e-08,
5750
- "loss": 2.1055,
5751
- "step": 818
5752
- },
5753
- {
5754
- "epoch": 2.7494754511120436,
5755
- "grad_norm": 0.5718535780906677,
5756
- "learning_rate": 4.25531914893617e-08,
5757
- "loss": 2.1508,
5758
- "step": 819
5759
- },
5760
- {
5761
- "epoch": 2.7528325639949642,
5762
- "grad_norm": 0.5446327328681946,
5763
- "learning_rate": 4.1962174940898344e-08,
5764
- "loss": 2.2267,
5765
- "step": 820
5766
- },
5767
- {
5768
- "epoch": 2.756189676877885,
5769
- "grad_norm": 0.5311114192008972,
5770
- "learning_rate": 4.137115839243498e-08,
5771
- "loss": 2.0866,
5772
- "step": 821
5773
- },
5774
- {
5775
- "epoch": 2.7595467897608055,
5776
- "grad_norm": 0.6080516576766968,
5777
- "learning_rate": 4.078014184397163e-08,
5778
- "loss": 2.1363,
5779
- "step": 822
5780
- },
5781
- {
5782
- "epoch": 2.7629039026437265,
5783
- "grad_norm": 0.5661442875862122,
5784
- "learning_rate": 4.0189125295508276e-08,
5785
- "loss": 2.1195,
5786
- "step": 823
5787
- },
5788
- {
5789
- "epoch": 2.766261015526647,
5790
- "grad_norm": 0.5298861265182495,
5791
- "learning_rate": 3.959810874704492e-08,
5792
- "loss": 2.1442,
5793
- "step": 824
5794
- },
5795
- {
5796
- "epoch": 2.769618128409568,
5797
- "grad_norm": 0.5596882700920105,
5798
- "learning_rate": 3.900709219858156e-08,
5799
- "loss": 2.0943,
5800
- "step": 825
5801
- },
5802
- {
5803
- "epoch": 2.7729752412924884,
5804
- "grad_norm": 0.5581501126289368,
5805
- "learning_rate": 3.84160756501182e-08,
5806
- "loss": 2.1547,
5807
- "step": 826
5808
- },
5809
- {
5810
- "epoch": 2.776332354175409,
5811
- "grad_norm": 0.5514313578605652,
5812
- "learning_rate": 3.7825059101654844e-08,
5813
- "loss": 2.0646,
5814
- "step": 827
5815
- },
5816
- {
5817
- "epoch": 2.77968946705833,
5818
- "grad_norm": 0.5894129872322083,
5819
- "learning_rate": 3.723404255319149e-08,
5820
- "loss": 2.1742,
5821
- "step": 828
5822
- },
5823
- {
5824
- "epoch": 2.7830465799412503,
5825
- "grad_norm": 0.5762084126472473,
5826
- "learning_rate": 3.6643026004728126e-08,
5827
- "loss": 2.1449,
5828
- "step": 829
5829
- },
5830
- {
5831
- "epoch": 2.7864036928241713,
5832
- "grad_norm": 0.5430789589881897,
5833
- "learning_rate": 3.6052009456264776e-08,
5834
- "loss": 2.1861,
5835
- "step": 830
5836
- },
5837
- {
5838
- "epoch": 2.789760805707092,
5839
- "grad_norm": 0.5707167983055115,
5840
- "learning_rate": 3.546099290780142e-08,
5841
- "loss": 2.1671,
5842
- "step": 831
5843
- },
5844
- {
5845
- "epoch": 2.7931179185900126,
5846
- "grad_norm": 0.5500497221946716,
5847
- "learning_rate": 3.4869976359338064e-08,
5848
- "loss": 2.135,
5849
- "step": 832
5850
- },
5851
- {
5852
- "epoch": 2.796475031472933,
5853
- "grad_norm": 0.5838862061500549,
5854
- "learning_rate": 3.42789598108747e-08,
5855
- "loss": 2.099,
5856
- "step": 833
5857
- },
5858
- {
5859
- "epoch": 2.799832144355854,
5860
- "grad_norm": 0.5668932199478149,
5861
- "learning_rate": 3.3687943262411345e-08,
5862
- "loss": 2.156,
5863
- "step": 834
5864
- },
5865
- {
5866
- "epoch": 2.803189257238775,
5867
- "grad_norm": 0.5672734975814819,
5868
- "learning_rate": 3.309692671394799e-08,
5869
- "loss": 2.1534,
5870
- "step": 835
5871
- },
5872
- {
5873
- "epoch": 2.8065463701216955,
5874
- "grad_norm": 0.593976616859436,
5875
- "learning_rate": 3.250591016548463e-08,
5876
- "loss": 2.1516,
5877
- "step": 836
5878
- },
5879
- {
5880
- "epoch": 2.809903483004616,
5881
- "grad_norm": 0.5572679042816162,
5882
- "learning_rate": 3.191489361702127e-08,
5883
- "loss": 2.1574,
5884
- "step": 837
5885
- },
5886
- {
5887
- "epoch": 2.8132605958875367,
5888
- "grad_norm": 0.570029079914093,
5889
- "learning_rate": 3.1323877068557914e-08,
5890
- "loss": 2.1257,
5891
- "step": 838
5892
- },
5893
- {
5894
- "epoch": 2.8166177087704574,
5895
- "grad_norm": 0.5792723894119263,
5896
- "learning_rate": 3.073286052009456e-08,
5897
- "loss": 2.181,
5898
- "step": 839
5899
- },
5900
- {
5901
- "epoch": 2.819974821653378,
5902
- "grad_norm": 0.5601706504821777,
5903
- "learning_rate": 3.01418439716312e-08,
5904
- "loss": 2.1163,
5905
- "step": 840
5906
- },
5907
- {
5908
- "epoch": 2.8233319345362986,
5909
- "grad_norm": 0.6072015166282654,
5910
- "learning_rate": 2.955082742316785e-08,
5911
- "loss": 2.2281,
5912
- "step": 841
5913
- },
5914
- {
5915
- "epoch": 2.8266890474192197,
5916
- "grad_norm": 0.5666745901107788,
5917
- "learning_rate": 2.895981087470449e-08,
5918
- "loss": 2.1562,
5919
- "step": 842
5920
- },
5921
- {
5922
- "epoch": 2.8300461603021403,
5923
- "grad_norm": 0.555409848690033,
5924
- "learning_rate": 2.8368794326241133e-08,
5925
- "loss": 2.1212,
5926
- "step": 843
5927
- },
5928
- {
5929
- "epoch": 2.833403273185061,
5930
- "grad_norm": 0.5660236477851868,
5931
- "learning_rate": 2.7777777777777774e-08,
5932
- "loss": 2.1268,
5933
- "step": 844
5934
- },
5935
- {
5936
- "epoch": 2.8367603860679815,
5937
- "grad_norm": 0.5438356399536133,
5938
- "learning_rate": 2.718676122931442e-08,
5939
- "loss": 2.1104,
5940
- "step": 845
5941
- },
5942
- {
5943
- "epoch": 2.840117498950902,
5944
- "grad_norm": 0.5927281379699707,
5945
- "learning_rate": 2.6595744680851062e-08,
5946
- "loss": 2.1474,
5947
- "step": 846
5948
- },
5949
- {
5950
- "epoch": 2.8434746118338228,
5951
- "grad_norm": 0.551418125629425,
5952
- "learning_rate": 2.6004728132387706e-08,
5953
- "loss": 2.148,
5954
- "step": 847
5955
- },
5956
- {
5957
- "epoch": 2.8468317247167434,
5958
- "grad_norm": 0.5623355507850647,
5959
- "learning_rate": 2.5413711583924346e-08,
5960
- "loss": 2.1714,
5961
- "step": 848
5962
- },
5963
- {
5964
- "epoch": 2.8501888375996645,
5965
- "grad_norm": 0.5470379590988159,
5966
- "learning_rate": 2.4822695035460993e-08,
5967
- "loss": 2.1373,
5968
- "step": 849
5969
- },
5970
- {
5971
- "epoch": 2.853545950482585,
5972
- "grad_norm": 0.5807493329048157,
5973
- "learning_rate": 2.4231678486997634e-08,
5974
- "loss": 2.0945,
5975
- "step": 850
5976
- },
5977
- {
5978
- "epoch": 2.8569030633655057,
5979
- "grad_norm": 0.5901828408241272,
5980
- "learning_rate": 2.3640661938534278e-08,
5981
- "loss": 2.1589,
5982
- "step": 851
5983
- },
5984
- {
5985
- "epoch": 2.8602601762484263,
5986
- "grad_norm": 0.5616815090179443,
5987
- "learning_rate": 2.304964539007092e-08,
5988
- "loss": 2.019,
5989
- "step": 852
5990
- },
5991
- {
5992
- "epoch": 2.863617289131347,
5993
- "grad_norm": 0.5549256801605225,
5994
- "learning_rate": 2.2458628841607566e-08,
5995
- "loss": 2.1154,
5996
- "step": 853
5997
- },
5998
- {
5999
- "epoch": 2.8669744020142676,
6000
- "grad_norm": 0.58626788854599,
6001
- "learning_rate": 2.1867612293144206e-08,
6002
- "loss": 2.1385,
6003
- "step": 854
6004
- },
6005
- {
6006
- "epoch": 2.870331514897188,
6007
- "grad_norm": 0.5496333241462708,
6008
- "learning_rate": 2.127659574468085e-08,
6009
- "loss": 2.1115,
6010
- "step": 855
6011
- },
6012
- {
6013
- "epoch": 2.8736886277801093,
6014
- "grad_norm": 0.5691447257995605,
6015
- "learning_rate": 2.068557919621749e-08,
6016
- "loss": 2.1418,
6017
- "step": 856
6018
- },
6019
- {
6020
- "epoch": 2.87704574066303,
6021
- "grad_norm": 0.5428998470306396,
6022
- "learning_rate": 2.0094562647754138e-08,
6023
- "loss": 2.0914,
6024
- "step": 857
6025
- },
6026
- {
6027
- "epoch": 2.8804028535459505,
6028
- "grad_norm": 0.5734657049179077,
6029
- "learning_rate": 1.950354609929078e-08,
6030
- "loss": 2.2244,
6031
- "step": 858
6032
- },
6033
- {
6034
- "epoch": 2.883759966428871,
6035
- "grad_norm": 0.5396918058395386,
6036
- "learning_rate": 1.8912529550827422e-08,
6037
- "loss": 2.0997,
6038
- "step": 859
6039
- },
6040
- {
6041
- "epoch": 2.8871170793117917,
6042
- "grad_norm": 0.5532637238502502,
6043
- "learning_rate": 1.8321513002364063e-08,
6044
- "loss": 2.1957,
6045
- "step": 860
6046
- },
6047
- {
6048
- "epoch": 2.890474192194713,
6049
- "grad_norm": 0.5601110458374023,
6050
- "learning_rate": 1.773049645390071e-08,
6051
- "loss": 2.1385,
6052
- "step": 861
6053
- },
6054
- {
6055
- "epoch": 2.893831305077633,
6056
- "grad_norm": 0.5704315304756165,
6057
- "learning_rate": 1.713947990543735e-08,
6058
- "loss": 2.1373,
6059
- "step": 862
6060
- },
6061
- {
6062
- "epoch": 2.897188417960554,
6063
- "grad_norm": 0.5758122205734253,
6064
- "learning_rate": 1.6548463356973994e-08,
6065
- "loss": 2.124,
6066
- "step": 863
6067
- },
6068
- {
6069
- "epoch": 2.9005455308434747,
6070
- "grad_norm": 0.5552284121513367,
6071
- "learning_rate": 1.5957446808510635e-08,
6072
- "loss": 2.114,
6073
- "step": 864
6074
- },
6075
- {
6076
- "epoch": 2.9039026437263953,
6077
- "grad_norm": 0.600894033908844,
6078
- "learning_rate": 1.536643026004728e-08,
6079
- "loss": 2.1908,
6080
- "step": 865
6081
- },
6082
- {
6083
- "epoch": 2.907259756609316,
6084
- "grad_norm": 0.5430445075035095,
6085
- "learning_rate": 1.4775413711583924e-08,
6086
- "loss": 2.0722,
6087
- "step": 866
6088
- },
6089
- {
6090
- "epoch": 2.9106168694922365,
6091
- "grad_norm": 0.564946711063385,
6092
- "learning_rate": 1.4184397163120567e-08,
6093
- "loss": 2.1676,
6094
- "step": 867
6095
- },
6096
- {
6097
- "epoch": 2.9139739823751576,
6098
- "grad_norm": 0.568100094795227,
6099
- "learning_rate": 1.359338061465721e-08,
6100
- "loss": 2.0945,
6101
- "step": 868
6102
- },
6103
- {
6104
- "epoch": 2.917331095258078,
6105
- "grad_norm": 0.553946316242218,
6106
- "learning_rate": 1.3002364066193853e-08,
6107
- "loss": 2.1065,
6108
- "step": 869
6109
- },
6110
- {
6111
- "epoch": 2.920688208140999,
6112
- "grad_norm": 0.5421509146690369,
6113
- "learning_rate": 1.2411347517730497e-08,
6114
- "loss": 2.0381,
6115
- "step": 870
6116
- },
6117
- {
6118
- "epoch": 2.9240453210239195,
6119
- "grad_norm": 0.543483316898346,
6120
- "learning_rate": 1.1820330969267139e-08,
6121
- "loss": 2.1513,
6122
- "step": 871
6123
- },
6124
- {
6125
- "epoch": 2.92740243390684,
6126
- "grad_norm": 0.5386929512023926,
6127
- "learning_rate": 1.1229314420803783e-08,
6128
- "loss": 2.164,
6129
- "step": 872
6130
- },
6131
- {
6132
- "epoch": 2.9307595467897607,
6133
- "grad_norm": 0.5322523713111877,
6134
- "learning_rate": 1.0638297872340425e-08,
6135
- "loss": 2.12,
6136
- "step": 873
6137
- },
6138
- {
6139
- "epoch": 2.9341166596726813,
6140
- "grad_norm": 0.5454387068748474,
6141
- "learning_rate": 1.0047281323877069e-08,
6142
- "loss": 2.1669,
6143
- "step": 874
6144
- },
6145
- {
6146
- "epoch": 2.9374737725556024,
6147
- "grad_norm": 0.5460171103477478,
6148
- "learning_rate": 9.456264775413711e-09,
6149
- "loss": 2.0947,
6150
- "step": 875
6151
- },
6152
- {
6153
- "epoch": 2.940830885438523,
6154
- "grad_norm": 0.5782340168952942,
6155
- "learning_rate": 8.865248226950355e-09,
6156
- "loss": 2.1667,
6157
- "step": 876
6158
- },
6159
- {
6160
- "epoch": 2.9441879983214436,
6161
- "grad_norm": 0.5890206694602966,
6162
- "learning_rate": 8.274231678486997e-09,
6163
- "loss": 2.2306,
6164
- "step": 877
6165
- },
6166
- {
6167
- "epoch": 2.9475451112043642,
6168
- "grad_norm": 0.5283526182174683,
6169
- "learning_rate": 7.68321513002364e-09,
6170
- "loss": 2.163,
6171
- "step": 878
6172
- },
6173
- {
6174
- "epoch": 2.950902224087285,
6175
- "grad_norm": 0.578064501285553,
6176
- "learning_rate": 7.092198581560283e-09,
6177
- "loss": 2.099,
6178
- "step": 879
6179
- },
6180
- {
6181
- "epoch": 2.9542593369702055,
6182
- "grad_norm": 0.5312917232513428,
6183
- "learning_rate": 6.501182033096926e-09,
6184
- "loss": 2.1152,
6185
- "step": 880
6186
- },
6187
- {
6188
- "epoch": 2.957616449853126,
6189
- "grad_norm": 0.5620092749595642,
6190
- "learning_rate": 5.9101654846335695e-09,
6191
- "loss": 2.0636,
6192
- "step": 881
6193
- },
6194
- {
6195
- "epoch": 2.960973562736047,
6196
- "grad_norm": 0.572350025177002,
6197
- "learning_rate": 5.3191489361702125e-09,
6198
- "loss": 2.1626,
6199
- "step": 882
6200
- },
6201
- {
6202
- "epoch": 2.964330675618968,
6203
- "grad_norm": 0.6169728636741638,
6204
- "learning_rate": 4.7281323877068556e-09,
6205
- "loss": 2.1022,
6206
- "step": 883
6207
- },
6208
- {
6209
- "epoch": 2.9676877885018884,
6210
- "grad_norm": 0.5962982773780823,
6211
- "learning_rate": 4.137115839243499e-09,
6212
- "loss": 2.1747,
6213
- "step": 884
6214
- },
6215
- {
6216
- "epoch": 2.971044901384809,
6217
- "grad_norm": 0.5752913355827332,
6218
- "learning_rate": 3.5460992907801417e-09,
6219
- "loss": 2.1499,
6220
- "step": 885
6221
- },
6222
- {
6223
- "epoch": 2.9744020142677297,
6224
- "grad_norm": 0.5664993524551392,
6225
- "learning_rate": 2.9550827423167847e-09,
6226
- "loss": 2.1381,
6227
- "step": 886
6228
- },
6229
- {
6230
- "epoch": 2.9777591271506503,
6231
- "grad_norm": 0.5439576506614685,
6232
- "learning_rate": 2.3640661938534278e-09,
6233
- "loss": 2.1562,
6234
- "step": 887
6235
- },
6236
- {
6237
- "epoch": 2.981116240033571,
6238
- "grad_norm": 0.5637330412864685,
6239
- "learning_rate": 1.7730496453900708e-09,
6240
- "loss": 2.1475,
6241
- "step": 888
6242
- },
6243
- {
6244
- "epoch": 2.984473352916492,
6245
- "grad_norm": 0.6112098693847656,
6246
- "learning_rate": 1.1820330969267139e-09,
6247
- "loss": 2.1624,
6248
- "step": 889
6249
- },
6250
- {
6251
- "epoch": 2.9878304657994126,
6252
- "grad_norm": 0.5705456733703613,
6253
- "learning_rate": 5.910165484633569e-10,
6254
- "loss": 2.1383,
6255
- "step": 890
6256
- },
6257
- {
6258
- "epoch": 2.991187578682333,
6259
- "grad_norm": 0.5267236232757568,
6260
- "learning_rate": 0.0,
6261
- "loss": 2.1183,
6262
- "step": 891
6263
- },
6264
- {
6265
- "epoch": 2.991187578682333,
6266
- "eval_loss": 2.1491148471832275,
6267
- "eval_runtime": 325.8656,
6268
- "eval_samples_per_second": 1.111,
6269
- "eval_steps_per_second": 0.279,
6270
- "step": 891
6271
  }
6272
  ],
6273
  "logging_steps": 1,
@@ -6282,12 +4202,12 @@
6282
  "should_evaluate": false,
6283
  "should_log": false,
6284
  "should_save": true,
6285
- "should_training_stop": true
6286
  },
6287
  "attributes": {}
6288
  }
6289
  },
6290
- "total_flos": 2.63058527225276e+18,
6291
  "train_batch_size": 2,
6292
  "trial_name": null,
6293
  "trial_params": null
 
1
  {
2
+ "best_metric": 2.154229164123535,
3
+ "best_model_checkpoint": "/home/sunggeunan/data/ICL/outputs/lora/SKIML-ICL_mrqa_nq_v3/Meta-Llama-3-8B-Instruct-unanswerable-1Q-0U-0C-qa_first/checkpoint-595",
4
+ "epoch": 1.9974821653378094,
5
  "eval_steps": 500,
6
+ "global_step": 595,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4188
  "eval_samples_per_second": 1.114,
4189
  "eval_steps_per_second": 0.28,
4190
  "step": 595
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4191
  }
4192
  ],
4193
  "logging_steps": 1,
 
4202
  "should_evaluate": false,
4203
  "should_log": false,
4204
  "should_save": true,
4205
+ "should_training_stop": false
4206
  },
4207
  "attributes": {}
4208
  }
4209
  },
4210
+ "total_flos": 1.758890208692011e+18,
4211
  "train_batch_size": 2,
4212
  "trial_name": null,
4213
  "trial_params": null