smritae01 commited on
Commit
388f69a
1 Parent(s): de612d6

Lowest loss (0.081) model - kaggle 2022 data

Browse files
Files changed (6) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +3 -0
  3. rng_state.pth +3 -0
  4. scheduler.pt +3 -0
  5. trainer_state.json +1714 -6
  6. training_args.bin +2 -2
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d454205cef2ec674c716d1c3580a07f706663989a297b3cddb25c30e2233868b
3
  size 1711848436
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5e98686d0d03cbee7a1649e25db03270c82652fb357994baa867fa48d8e78df7
3
  size 1711848436
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:120711f8e3a5143c632fd38b9e2d39f4f3f2e29ca1792568088d420c6f196157
3
+ size 3424048316
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3962da8332dca055eb5eac726e4e894ffb5cd43a2a9df05810854ac241ffd9a4
3
+ size 14244
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:02f28bef84c97955eea9d12d8874e6f8cb49f55187bb78549b0ba5bde0b4d2a2
3
+ size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 1.0,
5
  "eval_steps": 500,
6
- "global_step": 104972,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -1479,12 +1479,1720 @@
1479
  "train_runtime": 27901.1518,
1480
  "train_samples_per_second": 30.098,
1481
  "train_steps_per_second": 3.762
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1482
  }
1483
  ],
1484
  "logging_steps": 500,
1485
- "max_steps": 104972,
1486
  "num_input_tokens_seen": 0,
1487
- "num_train_epochs": 1,
1488
  "save_steps": 500,
1489
  "stateful_callbacks": {
1490
  "TrainerControl": {
@@ -1493,12 +3201,12 @@
1493
  "should_evaluate": false,
1494
  "should_log": false,
1495
  "should_save": true,
1496
- "should_training_stop": true
1497
  },
1498
  "attributes": {}
1499
  }
1500
  },
1501
- "total_flos": 1.5105749507715635e+17,
1502
  "train_batch_size": 8,
1503
  "trial_name": null,
1504
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 2.1577182486758373,
5
  "eval_steps": 500,
6
+ "global_step": 226500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
1479
  "train_runtime": 27901.1518,
1480
  "train_samples_per_second": 30.098,
1481
  "train_steps_per_second": 3.762
1482
+ },
1483
+ {
1484
+ "epoch": 1.0002667377967458,
1485
+ "grad_norm": 14.302581787109375,
1486
+ "learning_rate": 2.2480186776155165e-07,
1487
+ "loss": 0.0893,
1488
+ "step": 105000
1489
+ },
1490
+ {
1491
+ "epoch": 1.005029912738635,
1492
+ "grad_norm": 2.5177512168884277,
1493
+ "learning_rate": 2.2444491248259286e-07,
1494
+ "loss": 0.1055,
1495
+ "step": 105500
1496
+ },
1497
+ {
1498
+ "epoch": 1.0097930876805243,
1499
+ "grad_norm": 2.1406190395355225,
1500
+ "learning_rate": 2.2408795720363407e-07,
1501
+ "loss": 0.1254,
1502
+ "step": 106000
1503
+ },
1504
+ {
1505
+ "epoch": 1.0145562626224136,
1506
+ "grad_norm": 1.1113516092300415,
1507
+ "learning_rate": 2.2373100192467528e-07,
1508
+ "loss": 0.0951,
1509
+ "step": 106500
1510
+ },
1511
+ {
1512
+ "epoch": 1.0193194375643029,
1513
+ "grad_norm": 35.0811653137207,
1514
+ "learning_rate": 2.233740466457165e-07,
1515
+ "loss": 0.11,
1516
+ "step": 107000
1517
+ },
1518
+ {
1519
+ "epoch": 1.0240826125061921,
1520
+ "grad_norm": 11.133783340454102,
1521
+ "learning_rate": 2.230170913667577e-07,
1522
+ "loss": 0.1132,
1523
+ "step": 107500
1524
+ },
1525
+ {
1526
+ "epoch": 1.0288457874480814,
1527
+ "grad_norm": 4.060661315917969,
1528
+ "learning_rate": 2.226601360877989e-07,
1529
+ "loss": 0.1202,
1530
+ "step": 108000
1531
+ },
1532
+ {
1533
+ "epoch": 1.0336089623899707,
1534
+ "grad_norm": 0.13336028158664703,
1535
+ "learning_rate": 2.2230318080884012e-07,
1536
+ "loss": 0.1139,
1537
+ "step": 108500
1538
+ },
1539
+ {
1540
+ "epoch": 1.03837213733186,
1541
+ "grad_norm": 1.6817339658737183,
1542
+ "learning_rate": 2.2194622552988133e-07,
1543
+ "loss": 0.1093,
1544
+ "step": 109000
1545
+ },
1546
+ {
1547
+ "epoch": 1.0431353122737492,
1548
+ "grad_norm": 7.226846694946289,
1549
+ "learning_rate": 2.215892702509225e-07,
1550
+ "loss": 0.1019,
1551
+ "step": 109500
1552
+ },
1553
+ {
1554
+ "epoch": 1.0478984872156385,
1555
+ "grad_norm": 20.337854385375977,
1556
+ "learning_rate": 2.2123231497196372e-07,
1557
+ "loss": 0.1159,
1558
+ "step": 110000
1559
+ },
1560
+ {
1561
+ "epoch": 1.0526616621575278,
1562
+ "grad_norm": 12.429189682006836,
1563
+ "learning_rate": 2.2087535969300493e-07,
1564
+ "loss": 0.1058,
1565
+ "step": 110500
1566
+ },
1567
+ {
1568
+ "epoch": 1.057424837099417,
1569
+ "grad_norm": 2.344127655029297,
1570
+ "learning_rate": 2.2051840441404614e-07,
1571
+ "loss": 0.1252,
1572
+ "step": 111000
1573
+ },
1574
+ {
1575
+ "epoch": 1.0621880120413063,
1576
+ "grad_norm": 3.0213356018066406,
1577
+ "learning_rate": 2.2016144913508735e-07,
1578
+ "loss": 0.1091,
1579
+ "step": 111500
1580
+ },
1581
+ {
1582
+ "epoch": 1.0669511869831956,
1583
+ "grad_norm": 8.44406509399414,
1584
+ "learning_rate": 2.198044938561286e-07,
1585
+ "loss": 0.1084,
1586
+ "step": 112000
1587
+ },
1588
+ {
1589
+ "epoch": 1.0717143619250848,
1590
+ "grad_norm": 5.177192211151123,
1591
+ "learning_rate": 2.194475385771698e-07,
1592
+ "loss": 0.111,
1593
+ "step": 112500
1594
+ },
1595
+ {
1596
+ "epoch": 1.0764775368669741,
1597
+ "grad_norm": 0.7378814816474915,
1598
+ "learning_rate": 2.19090583298211e-07,
1599
+ "loss": 0.1123,
1600
+ "step": 113000
1601
+ },
1602
+ {
1603
+ "epoch": 1.0812407118088634,
1604
+ "grad_norm": 11.683990478515625,
1605
+ "learning_rate": 2.1873362801925222e-07,
1606
+ "loss": 0.1049,
1607
+ "step": 113500
1608
+ },
1609
+ {
1610
+ "epoch": 1.0860038867507527,
1611
+ "grad_norm": 1.845595121383667,
1612
+ "learning_rate": 2.1837667274029343e-07,
1613
+ "loss": 0.1359,
1614
+ "step": 114000
1615
+ },
1616
+ {
1617
+ "epoch": 1.090767061692642,
1618
+ "grad_norm": 18.56471824645996,
1619
+ "learning_rate": 2.1801971746133464e-07,
1620
+ "loss": 0.1101,
1621
+ "step": 114500
1622
+ },
1623
+ {
1624
+ "epoch": 1.0955302366345312,
1625
+ "grad_norm": 2.1949081420898438,
1626
+ "learning_rate": 2.1766276218237585e-07,
1627
+ "loss": 0.1213,
1628
+ "step": 115000
1629
+ },
1630
+ {
1631
+ "epoch": 1.1002934115764205,
1632
+ "grad_norm": 8.824433326721191,
1633
+ "learning_rate": 2.1730580690341706e-07,
1634
+ "loss": 0.0972,
1635
+ "step": 115500
1636
+ },
1637
+ {
1638
+ "epoch": 1.1050565865183097,
1639
+ "grad_norm": 8.95617389678955,
1640
+ "learning_rate": 2.1694885162445827e-07,
1641
+ "loss": 0.1088,
1642
+ "step": 116000
1643
+ },
1644
+ {
1645
+ "epoch": 1.109819761460199,
1646
+ "grad_norm": 16.236719131469727,
1647
+ "learning_rate": 2.1659189634549948e-07,
1648
+ "loss": 0.126,
1649
+ "step": 116500
1650
+ },
1651
+ {
1652
+ "epoch": 1.1145829364020883,
1653
+ "grad_norm": 0.8696116805076599,
1654
+ "learning_rate": 2.1623494106654069e-07,
1655
+ "loss": 0.111,
1656
+ "step": 117000
1657
+ },
1658
+ {
1659
+ "epoch": 1.1193461113439775,
1660
+ "grad_norm": 22.61142349243164,
1661
+ "learning_rate": 2.158779857875819e-07,
1662
+ "loss": 0.1128,
1663
+ "step": 117500
1664
+ },
1665
+ {
1666
+ "epoch": 1.1241092862858668,
1667
+ "grad_norm": 9.516005516052246,
1668
+ "learning_rate": 2.155210305086231e-07,
1669
+ "loss": 0.1262,
1670
+ "step": 118000
1671
+ },
1672
+ {
1673
+ "epoch": 1.1288724612277559,
1674
+ "grad_norm": 2.8408925533294678,
1675
+ "learning_rate": 2.1516407522966432e-07,
1676
+ "loss": 0.1254,
1677
+ "step": 118500
1678
+ },
1679
+ {
1680
+ "epoch": 1.1336356361696454,
1681
+ "grad_norm": 0.08307074010372162,
1682
+ "learning_rate": 2.148071199507055e-07,
1683
+ "loss": 0.1128,
1684
+ "step": 119000
1685
+ },
1686
+ {
1687
+ "epoch": 1.1383988111115344,
1688
+ "grad_norm": 0.07671812921762466,
1689
+ "learning_rate": 2.144501646717467e-07,
1690
+ "loss": 0.1105,
1691
+ "step": 119500
1692
+ },
1693
+ {
1694
+ "epoch": 1.1431619860534237,
1695
+ "grad_norm": 23.30893325805664,
1696
+ "learning_rate": 2.1409320939278792e-07,
1697
+ "loss": 0.1016,
1698
+ "step": 120000
1699
+ },
1700
+ {
1701
+ "epoch": 1.147925160995313,
1702
+ "grad_norm": 2.4784510135650635,
1703
+ "learning_rate": 2.1373625411382913e-07,
1704
+ "loss": 0.121,
1705
+ "step": 120500
1706
+ },
1707
+ {
1708
+ "epoch": 1.1526883359372022,
1709
+ "grad_norm": 6.876108169555664,
1710
+ "learning_rate": 2.1337929883487034e-07,
1711
+ "loss": 0.1191,
1712
+ "step": 121000
1713
+ },
1714
+ {
1715
+ "epoch": 1.1574515108790915,
1716
+ "grad_norm": 0.040010467171669006,
1717
+ "learning_rate": 2.1302234355591155e-07,
1718
+ "loss": 0.107,
1719
+ "step": 121500
1720
+ },
1721
+ {
1722
+ "epoch": 1.1622146858209808,
1723
+ "grad_norm": 0.3573683202266693,
1724
+ "learning_rate": 2.1266538827695276e-07,
1725
+ "loss": 0.1226,
1726
+ "step": 122000
1727
+ },
1728
+ {
1729
+ "epoch": 1.16697786076287,
1730
+ "grad_norm": 5.653687477111816,
1731
+ "learning_rate": 2.1230843299799397e-07,
1732
+ "loss": 0.1171,
1733
+ "step": 122500
1734
+ },
1735
+ {
1736
+ "epoch": 1.1717410357047593,
1737
+ "grad_norm": 0.8669099807739258,
1738
+ "learning_rate": 2.1195147771903518e-07,
1739
+ "loss": 0.1194,
1740
+ "step": 123000
1741
+ },
1742
+ {
1743
+ "epoch": 1.1765042106466486,
1744
+ "grad_norm": 4.056451320648193,
1745
+ "learning_rate": 2.115945224400764e-07,
1746
+ "loss": 0.111,
1747
+ "step": 123500
1748
+ },
1749
+ {
1750
+ "epoch": 1.1812673855885378,
1751
+ "grad_norm": 20.773231506347656,
1752
+ "learning_rate": 2.112375671611176e-07,
1753
+ "loss": 0.1009,
1754
+ "step": 124000
1755
+ },
1756
+ {
1757
+ "epoch": 1.186030560530427,
1758
+ "grad_norm": 0.029131252318620682,
1759
+ "learning_rate": 2.108806118821588e-07,
1760
+ "loss": 0.1076,
1761
+ "step": 124500
1762
+ },
1763
+ {
1764
+ "epoch": 1.1907937354723164,
1765
+ "grad_norm": 0.8366307020187378,
1766
+ "learning_rate": 2.1052365660320002e-07,
1767
+ "loss": 0.1112,
1768
+ "step": 125000
1769
+ },
1770
+ {
1771
+ "epoch": 1.1955569104142056,
1772
+ "grad_norm": 9.74376106262207,
1773
+ "learning_rate": 2.1016670132424123e-07,
1774
+ "loss": 0.1101,
1775
+ "step": 125500
1776
+ },
1777
+ {
1778
+ "epoch": 1.200320085356095,
1779
+ "grad_norm": 4.660519123077393,
1780
+ "learning_rate": 2.0980974604528244e-07,
1781
+ "loss": 0.1084,
1782
+ "step": 126000
1783
+ },
1784
+ {
1785
+ "epoch": 1.2050832602979842,
1786
+ "grad_norm": 14.676050186157227,
1787
+ "learning_rate": 2.0945279076632365e-07,
1788
+ "loss": 0.1186,
1789
+ "step": 126500
1790
+ },
1791
+ {
1792
+ "epoch": 1.2098464352398735,
1793
+ "grad_norm": 20.924720764160156,
1794
+ "learning_rate": 2.0909583548736486e-07,
1795
+ "loss": 0.1106,
1796
+ "step": 127000
1797
+ },
1798
+ {
1799
+ "epoch": 1.2146096101817627,
1800
+ "grad_norm": 0.0010393880074843764,
1801
+ "learning_rate": 2.0873888020840607e-07,
1802
+ "loss": 0.1225,
1803
+ "step": 127500
1804
+ },
1805
+ {
1806
+ "epoch": 1.219372785123652,
1807
+ "grad_norm": 11.950651168823242,
1808
+ "learning_rate": 2.0838192492944728e-07,
1809
+ "loss": 0.1122,
1810
+ "step": 128000
1811
+ },
1812
+ {
1813
+ "epoch": 1.2241359600655413,
1814
+ "grad_norm": 2.3444035053253174,
1815
+ "learning_rate": 2.0802496965048849e-07,
1816
+ "loss": 0.116,
1817
+ "step": 128500
1818
+ },
1819
+ {
1820
+ "epoch": 1.2288991350074305,
1821
+ "grad_norm": 18.723051071166992,
1822
+ "learning_rate": 2.0766801437152967e-07,
1823
+ "loss": 0.1091,
1824
+ "step": 129000
1825
+ },
1826
+ {
1827
+ "epoch": 1.2336623099493198,
1828
+ "grad_norm": 13.435932159423828,
1829
+ "learning_rate": 2.0731105909257088e-07,
1830
+ "loss": 0.1068,
1831
+ "step": 129500
1832
+ },
1833
+ {
1834
+ "epoch": 1.238425484891209,
1835
+ "grad_norm": 1.0864711999893188,
1836
+ "learning_rate": 2.069541038136121e-07,
1837
+ "loss": 0.1266,
1838
+ "step": 130000
1839
+ },
1840
+ {
1841
+ "epoch": 1.2431886598330983,
1842
+ "grad_norm": 8.090726852416992,
1843
+ "learning_rate": 2.065971485346533e-07,
1844
+ "loss": 0.1256,
1845
+ "step": 130500
1846
+ },
1847
+ {
1848
+ "epoch": 1.2479518347749876,
1849
+ "grad_norm": 3.7775135040283203,
1850
+ "learning_rate": 2.062401932556945e-07,
1851
+ "loss": 0.1112,
1852
+ "step": 131000
1853
+ },
1854
+ {
1855
+ "epoch": 1.2527150097168769,
1856
+ "grad_norm": 0.0022473677527159452,
1857
+ "learning_rate": 2.0588323797673572e-07,
1858
+ "loss": 0.12,
1859
+ "step": 131500
1860
+ },
1861
+ {
1862
+ "epoch": 1.2574781846587662,
1863
+ "grad_norm": 1.232242465019226,
1864
+ "learning_rate": 2.0552628269777693e-07,
1865
+ "loss": 0.1023,
1866
+ "step": 132000
1867
+ },
1868
+ {
1869
+ "epoch": 1.2622413596006554,
1870
+ "grad_norm": 0.16098114848136902,
1871
+ "learning_rate": 2.0516932741881814e-07,
1872
+ "loss": 0.1346,
1873
+ "step": 132500
1874
+ },
1875
+ {
1876
+ "epoch": 1.2670045345425447,
1877
+ "grad_norm": 12.452221870422363,
1878
+ "learning_rate": 2.0481237213985935e-07,
1879
+ "loss": 0.1215,
1880
+ "step": 133000
1881
+ },
1882
+ {
1883
+ "epoch": 1.271767709484434,
1884
+ "grad_norm": 10.727972984313965,
1885
+ "learning_rate": 2.0445541686090056e-07,
1886
+ "loss": 0.1062,
1887
+ "step": 133500
1888
+ },
1889
+ {
1890
+ "epoch": 1.2765308844263232,
1891
+ "grad_norm": 0.5605247020721436,
1892
+ "learning_rate": 2.0409846158194177e-07,
1893
+ "loss": 0.1082,
1894
+ "step": 134000
1895
+ },
1896
+ {
1897
+ "epoch": 1.2812940593682125,
1898
+ "grad_norm": 0.9301961660385132,
1899
+ "learning_rate": 2.0374150630298298e-07,
1900
+ "loss": 0.1273,
1901
+ "step": 134500
1902
+ },
1903
+ {
1904
+ "epoch": 1.2860572343101018,
1905
+ "grad_norm": 0.5364490747451782,
1906
+ "learning_rate": 2.033845510240242e-07,
1907
+ "loss": 0.117,
1908
+ "step": 135000
1909
+ },
1910
+ {
1911
+ "epoch": 1.290820409251991,
1912
+ "grad_norm": 11.421608924865723,
1913
+ "learning_rate": 2.030275957450654e-07,
1914
+ "loss": 0.119,
1915
+ "step": 135500
1916
+ },
1917
+ {
1918
+ "epoch": 1.2955835841938803,
1919
+ "grad_norm": 29.850894927978516,
1920
+ "learning_rate": 2.026706404661066e-07,
1921
+ "loss": 0.0931,
1922
+ "step": 136000
1923
+ },
1924
+ {
1925
+ "epoch": 1.3003467591357696,
1926
+ "grad_norm": 1.1624155044555664,
1927
+ "learning_rate": 2.0231368518714782e-07,
1928
+ "loss": 0.1055,
1929
+ "step": 136500
1930
+ },
1931
+ {
1932
+ "epoch": 1.3051099340776589,
1933
+ "grad_norm": 8.889257431030273,
1934
+ "learning_rate": 2.0195672990818903e-07,
1935
+ "loss": 0.1174,
1936
+ "step": 137000
1937
+ },
1938
+ {
1939
+ "epoch": 1.3098731090195481,
1940
+ "grad_norm": 0.10517348349094391,
1941
+ "learning_rate": 2.0159977462923024e-07,
1942
+ "loss": 0.0913,
1943
+ "step": 137500
1944
+ },
1945
+ {
1946
+ "epoch": 1.3146362839614374,
1947
+ "grad_norm": 3.1619289075024426e-05,
1948
+ "learning_rate": 2.0124281935027145e-07,
1949
+ "loss": 0.1053,
1950
+ "step": 138000
1951
+ },
1952
+ {
1953
+ "epoch": 1.3193994589033267,
1954
+ "grad_norm": 8.190518379211426,
1955
+ "learning_rate": 2.0088586407131266e-07,
1956
+ "loss": 0.1017,
1957
+ "step": 138500
1958
+ },
1959
+ {
1960
+ "epoch": 1.324162633845216,
1961
+ "grad_norm": 8.892984390258789,
1962
+ "learning_rate": 2.0052890879235387e-07,
1963
+ "loss": 0.1225,
1964
+ "step": 139000
1965
+ },
1966
+ {
1967
+ "epoch": 1.3289258087871052,
1968
+ "grad_norm": 0.019881388172507286,
1969
+ "learning_rate": 2.0017195351339505e-07,
1970
+ "loss": 0.1109,
1971
+ "step": 139500
1972
+ },
1973
+ {
1974
+ "epoch": 1.3336889837289945,
1975
+ "grad_norm": 0.39558929204940796,
1976
+ "learning_rate": 1.9981499823443626e-07,
1977
+ "loss": 0.1113,
1978
+ "step": 140000
1979
+ },
1980
+ {
1981
+ "epoch": 1.3384521586708837,
1982
+ "grad_norm": 0.0027440183330327272,
1983
+ "learning_rate": 1.9945804295547747e-07,
1984
+ "loss": 0.1111,
1985
+ "step": 140500
1986
+ },
1987
+ {
1988
+ "epoch": 1.343215333612773,
1989
+ "grad_norm": 0.051865462213754654,
1990
+ "learning_rate": 1.9910108767651868e-07,
1991
+ "loss": 0.1001,
1992
+ "step": 141000
1993
+ },
1994
+ {
1995
+ "epoch": 1.3479785085546623,
1996
+ "grad_norm": 17.542285919189453,
1997
+ "learning_rate": 1.987441323975599e-07,
1998
+ "loss": 0.1093,
1999
+ "step": 141500
2000
+ },
2001
+ {
2002
+ "epoch": 1.3527416834965513,
2003
+ "grad_norm": 1.5649853944778442,
2004
+ "learning_rate": 1.983871771186011e-07,
2005
+ "loss": 0.1108,
2006
+ "step": 142000
2007
+ },
2008
+ {
2009
+ "epoch": 1.3575048584384408,
2010
+ "grad_norm": 3.2729179859161377,
2011
+ "learning_rate": 1.980302218396423e-07,
2012
+ "loss": 0.1094,
2013
+ "step": 142500
2014
+ },
2015
+ {
2016
+ "epoch": 1.3622680333803299,
2017
+ "grad_norm": 19.61039161682129,
2018
+ "learning_rate": 1.9767326656068352e-07,
2019
+ "loss": 0.1232,
2020
+ "step": 143000
2021
+ },
2022
+ {
2023
+ "epoch": 1.3670312083222194,
2024
+ "grad_norm": 0.48026251792907715,
2025
+ "learning_rate": 1.9731631128172473e-07,
2026
+ "loss": 0.1179,
2027
+ "step": 143500
2028
+ },
2029
+ {
2030
+ "epoch": 1.3717943832641084,
2031
+ "grad_norm": 0.011149807833135128,
2032
+ "learning_rate": 1.9695935600276594e-07,
2033
+ "loss": 0.1205,
2034
+ "step": 144000
2035
+ },
2036
+ {
2037
+ "epoch": 1.376557558205998,
2038
+ "grad_norm": 0.02112853154540062,
2039
+ "learning_rate": 1.9660240072380715e-07,
2040
+ "loss": 0.1124,
2041
+ "step": 144500
2042
+ },
2043
+ {
2044
+ "epoch": 1.381320733147887,
2045
+ "grad_norm": 34.17774200439453,
2046
+ "learning_rate": 1.9624544544484836e-07,
2047
+ "loss": 0.096,
2048
+ "step": 145000
2049
+ },
2050
+ {
2051
+ "epoch": 1.3860839080897764,
2052
+ "grad_norm": 0.002524700714275241,
2053
+ "learning_rate": 1.9588849016588957e-07,
2054
+ "loss": 0.1279,
2055
+ "step": 145500
2056
+ },
2057
+ {
2058
+ "epoch": 1.3908470830316655,
2059
+ "grad_norm": 0.4319082498550415,
2060
+ "learning_rate": 1.9553153488693078e-07,
2061
+ "loss": 0.1096,
2062
+ "step": 146000
2063
+ },
2064
+ {
2065
+ "epoch": 1.395610257973555,
2066
+ "grad_norm": 17.499792098999023,
2067
+ "learning_rate": 1.95174579607972e-07,
2068
+ "loss": 0.1137,
2069
+ "step": 146500
2070
+ },
2071
+ {
2072
+ "epoch": 1.400373432915444,
2073
+ "grad_norm": 16.145008087158203,
2074
+ "learning_rate": 1.948176243290132e-07,
2075
+ "loss": 0.1051,
2076
+ "step": 147000
2077
+ },
2078
+ {
2079
+ "epoch": 1.4051366078573335,
2080
+ "grad_norm": 0.8132957816123962,
2081
+ "learning_rate": 1.944606690500544e-07,
2082
+ "loss": 0.1063,
2083
+ "step": 147500
2084
+ },
2085
+ {
2086
+ "epoch": 1.4098997827992226,
2087
+ "grad_norm": 0.05169007182121277,
2088
+ "learning_rate": 1.9410371377109562e-07,
2089
+ "loss": 0.1047,
2090
+ "step": 148000
2091
+ },
2092
+ {
2093
+ "epoch": 1.4146629577411118,
2094
+ "grad_norm": 3.716925859451294,
2095
+ "learning_rate": 1.9374675849213683e-07,
2096
+ "loss": 0.1081,
2097
+ "step": 148500
2098
+ },
2099
+ {
2100
+ "epoch": 1.419426132683001,
2101
+ "grad_norm": 16.134973526000977,
2102
+ "learning_rate": 1.9338980321317804e-07,
2103
+ "loss": 0.127,
2104
+ "step": 149000
2105
+ },
2106
+ {
2107
+ "epoch": 1.4241893076248904,
2108
+ "grad_norm": 0.8836007118225098,
2109
+ "learning_rate": 1.9303284793421922e-07,
2110
+ "loss": 0.1116,
2111
+ "step": 149500
2112
+ },
2113
+ {
2114
+ "epoch": 1.4289524825667796,
2115
+ "grad_norm": 4.612446308135986,
2116
+ "learning_rate": 1.9267589265526043e-07,
2117
+ "loss": 0.1263,
2118
+ "step": 150000
2119
+ },
2120
+ {
2121
+ "epoch": 1.433715657508669,
2122
+ "grad_norm": 0.24257691204547882,
2123
+ "learning_rate": 1.9231893737630164e-07,
2124
+ "loss": 0.1067,
2125
+ "step": 150500
2126
+ },
2127
+ {
2128
+ "epoch": 1.4384788324505582,
2129
+ "grad_norm": 18.72231101989746,
2130
+ "learning_rate": 1.9196198209734285e-07,
2131
+ "loss": 0.1174,
2132
+ "step": 151000
2133
+ },
2134
+ {
2135
+ "epoch": 1.4432420073924475,
2136
+ "grad_norm": 0.09871924668550491,
2137
+ "learning_rate": 1.9160502681838409e-07,
2138
+ "loss": 0.1096,
2139
+ "step": 151500
2140
+ },
2141
+ {
2142
+ "epoch": 1.4480051823343367,
2143
+ "grad_norm": 1.2534486055374146,
2144
+ "learning_rate": 1.912480715394253e-07,
2145
+ "loss": 0.1155,
2146
+ "step": 152000
2147
+ },
2148
+ {
2149
+ "epoch": 1.452768357276226,
2150
+ "grad_norm": 14.395082473754883,
2151
+ "learning_rate": 1.908911162604665e-07,
2152
+ "loss": 0.1047,
2153
+ "step": 152500
2154
+ },
2155
+ {
2156
+ "epoch": 1.4575315322181153,
2157
+ "grad_norm": 2.9728424549102783,
2158
+ "learning_rate": 1.9053416098150771e-07,
2159
+ "loss": 0.0942,
2160
+ "step": 153000
2161
+ },
2162
+ {
2163
+ "epoch": 1.4622947071600045,
2164
+ "grad_norm": 10.138772964477539,
2165
+ "learning_rate": 1.9017720570254892e-07,
2166
+ "loss": 0.1219,
2167
+ "step": 153500
2168
+ },
2169
+ {
2170
+ "epoch": 1.4670578821018938,
2171
+ "grad_norm": 16.113460540771484,
2172
+ "learning_rate": 1.8982025042359013e-07,
2173
+ "loss": 0.1094,
2174
+ "step": 154000
2175
+ },
2176
+ {
2177
+ "epoch": 1.471821057043783,
2178
+ "grad_norm": 1.4605754613876343,
2179
+ "learning_rate": 1.8946329514463134e-07,
2180
+ "loss": 0.1227,
2181
+ "step": 154500
2182
+ },
2183
+ {
2184
+ "epoch": 1.4765842319856723,
2185
+ "grad_norm": 19.34916877746582,
2186
+ "learning_rate": 1.8910633986567255e-07,
2187
+ "loss": 0.1032,
2188
+ "step": 155000
2189
+ },
2190
+ {
2191
+ "epoch": 1.4813474069275616,
2192
+ "grad_norm": 5.430410861968994,
2193
+ "learning_rate": 1.8874938458671376e-07,
2194
+ "loss": 0.1107,
2195
+ "step": 155500
2196
+ },
2197
+ {
2198
+ "epoch": 1.4861105818694509,
2199
+ "grad_norm": 0.01834196224808693,
2200
+ "learning_rate": 1.8839242930775497e-07,
2201
+ "loss": 0.1243,
2202
+ "step": 156000
2203
+ },
2204
+ {
2205
+ "epoch": 1.4908737568113402,
2206
+ "grad_norm": 22.170907974243164,
2207
+ "learning_rate": 1.8803547402879618e-07,
2208
+ "loss": 0.1019,
2209
+ "step": 156500
2210
+ },
2211
+ {
2212
+ "epoch": 1.4956369317532294,
2213
+ "grad_norm": 0.28510582447052,
2214
+ "learning_rate": 1.876785187498374e-07,
2215
+ "loss": 0.1354,
2216
+ "step": 157000
2217
+ },
2218
+ {
2219
+ "epoch": 1.5004001066951187,
2220
+ "grad_norm": 8.662985801696777,
2221
+ "learning_rate": 1.873215634708786e-07,
2222
+ "loss": 0.1043,
2223
+ "step": 157500
2224
+ },
2225
+ {
2226
+ "epoch": 1.505163281637008,
2227
+ "grad_norm": 5.042104721069336,
2228
+ "learning_rate": 1.869646081919198e-07,
2229
+ "loss": 0.1102,
2230
+ "step": 158000
2231
+ },
2232
+ {
2233
+ "epoch": 1.5099264565788972,
2234
+ "grad_norm": 0.07364173978567123,
2235
+ "learning_rate": 1.8660765291296102e-07,
2236
+ "loss": 0.129,
2237
+ "step": 158500
2238
+ },
2239
+ {
2240
+ "epoch": 1.5146896315207865,
2241
+ "grad_norm": 3.405261278152466,
2242
+ "learning_rate": 1.862506976340022e-07,
2243
+ "loss": 0.111,
2244
+ "step": 159000
2245
+ },
2246
+ {
2247
+ "epoch": 1.5194528064626758,
2248
+ "grad_norm": 3.3657171726226807,
2249
+ "learning_rate": 1.8589374235504342e-07,
2250
+ "loss": 0.1089,
2251
+ "step": 159500
2252
+ },
2253
+ {
2254
+ "epoch": 1.524215981404565,
2255
+ "grad_norm": 0.028935715556144714,
2256
+ "learning_rate": 1.8553678707608463e-07,
2257
+ "loss": 0.1038,
2258
+ "step": 160000
2259
+ },
2260
+ {
2261
+ "epoch": 1.5289791563464543,
2262
+ "grad_norm": 1.048443078994751,
2263
+ "learning_rate": 1.8517983179712584e-07,
2264
+ "loss": 0.0938,
2265
+ "step": 160500
2266
+ },
2267
+ {
2268
+ "epoch": 1.5337423312883436,
2269
+ "grad_norm": 15.945822715759277,
2270
+ "learning_rate": 1.8482287651816705e-07,
2271
+ "loss": 0.1138,
2272
+ "step": 161000
2273
+ },
2274
+ {
2275
+ "epoch": 1.5385055062302329,
2276
+ "grad_norm": 0.36497658491134644,
2277
+ "learning_rate": 1.8446592123920826e-07,
2278
+ "loss": 0.107,
2279
+ "step": 161500
2280
+ },
2281
+ {
2282
+ "epoch": 1.5432686811721221,
2283
+ "grad_norm": 0.7298380732536316,
2284
+ "learning_rate": 1.8410896596024947e-07,
2285
+ "loss": 0.1012,
2286
+ "step": 162000
2287
+ },
2288
+ {
2289
+ "epoch": 1.5480318561140114,
2290
+ "grad_norm": 0.041379645466804504,
2291
+ "learning_rate": 1.8375201068129068e-07,
2292
+ "loss": 0.1171,
2293
+ "step": 162500
2294
+ },
2295
+ {
2296
+ "epoch": 1.5527950310559007,
2297
+ "grad_norm": 1.361636996269226,
2298
+ "learning_rate": 1.8339505540233188e-07,
2299
+ "loss": 0.0978,
2300
+ "step": 163000
2301
+ },
2302
+ {
2303
+ "epoch": 1.55755820599779,
2304
+ "grad_norm": 0.0006419995916076005,
2305
+ "learning_rate": 1.830381001233731e-07,
2306
+ "loss": 0.1152,
2307
+ "step": 163500
2308
+ },
2309
+ {
2310
+ "epoch": 1.5623213809396792,
2311
+ "grad_norm": 29.9415340423584,
2312
+ "learning_rate": 1.826811448444143e-07,
2313
+ "loss": 0.1124,
2314
+ "step": 164000
2315
+ },
2316
+ {
2317
+ "epoch": 1.5670845558815683,
2318
+ "grad_norm": 14.25601577758789,
2319
+ "learning_rate": 1.8232418956545551e-07,
2320
+ "loss": 0.1096,
2321
+ "step": 164500
2322
+ },
2323
+ {
2324
+ "epoch": 1.5718477308234577,
2325
+ "grad_norm": 10.357718467712402,
2326
+ "learning_rate": 1.8196723428649672e-07,
2327
+ "loss": 0.1068,
2328
+ "step": 165000
2329
+ },
2330
+ {
2331
+ "epoch": 1.5766109057653468,
2332
+ "grad_norm": 2.6006975173950195,
2333
+ "learning_rate": 1.8161027900753793e-07,
2334
+ "loss": 0.112,
2335
+ "step": 165500
2336
+ },
2337
+ {
2338
+ "epoch": 1.5813740807072363,
2339
+ "grad_norm": 0.013517569750547409,
2340
+ "learning_rate": 1.8125332372857914e-07,
2341
+ "loss": 0.1046,
2342
+ "step": 166000
2343
+ },
2344
+ {
2345
+ "epoch": 1.5861372556491253,
2346
+ "grad_norm": 8.826921463012695,
2347
+ "learning_rate": 1.8089636844962035e-07,
2348
+ "loss": 0.1148,
2349
+ "step": 166500
2350
+ },
2351
+ {
2352
+ "epoch": 1.5909004305910148,
2353
+ "grad_norm": 30.500505447387695,
2354
+ "learning_rate": 1.8053941317066156e-07,
2355
+ "loss": 0.1022,
2356
+ "step": 167000
2357
+ },
2358
+ {
2359
+ "epoch": 1.5956636055329039,
2360
+ "grad_norm": 0.0015779563691467047,
2361
+ "learning_rate": 1.8018245789170277e-07,
2362
+ "loss": 0.0967,
2363
+ "step": 167500
2364
+ },
2365
+ {
2366
+ "epoch": 1.6004267804747934,
2367
+ "grad_norm": 5.478053092956543,
2368
+ "learning_rate": 1.7982550261274398e-07,
2369
+ "loss": 0.1134,
2370
+ "step": 168000
2371
+ },
2372
+ {
2373
+ "epoch": 1.6051899554166824,
2374
+ "grad_norm": 0.11672214418649673,
2375
+ "learning_rate": 1.794685473337852e-07,
2376
+ "loss": 0.1,
2377
+ "step": 168500
2378
+ },
2379
+ {
2380
+ "epoch": 1.609953130358572,
2381
+ "grad_norm": 1.3032927513122559,
2382
+ "learning_rate": 1.791115920548264e-07,
2383
+ "loss": 0.1165,
2384
+ "step": 169000
2385
+ },
2386
+ {
2387
+ "epoch": 1.614716305300461,
2388
+ "grad_norm": 0.20952224731445312,
2389
+ "learning_rate": 1.7875463677586759e-07,
2390
+ "loss": 0.112,
2391
+ "step": 169500
2392
+ },
2393
+ {
2394
+ "epoch": 1.6194794802423504,
2395
+ "grad_norm": 5.338772296905518,
2396
+ "learning_rate": 1.783976814969088e-07,
2397
+ "loss": 0.1151,
2398
+ "step": 170000
2399
+ },
2400
+ {
2401
+ "epoch": 1.6242426551842395,
2402
+ "grad_norm": 14.308218955993652,
2403
+ "learning_rate": 1.7804072621795e-07,
2404
+ "loss": 0.1188,
2405
+ "step": 170500
2406
+ },
2407
+ {
2408
+ "epoch": 1.629005830126129,
2409
+ "grad_norm": 2.5902771949768066,
2410
+ "learning_rate": 1.7768377093899122e-07,
2411
+ "loss": 0.1095,
2412
+ "step": 171000
2413
+ },
2414
+ {
2415
+ "epoch": 1.633769005068018,
2416
+ "grad_norm": 1.145963191986084,
2417
+ "learning_rate": 1.7732681566003243e-07,
2418
+ "loss": 0.1081,
2419
+ "step": 171500
2420
+ },
2421
+ {
2422
+ "epoch": 1.6385321800099075,
2423
+ "grad_norm": 0.019109368324279785,
2424
+ "learning_rate": 1.7696986038107364e-07,
2425
+ "loss": 0.1037,
2426
+ "step": 172000
2427
+ },
2428
+ {
2429
+ "epoch": 1.6432953549517966,
2430
+ "grad_norm": 0.381287544965744,
2431
+ "learning_rate": 1.7661290510211485e-07,
2432
+ "loss": 0.1024,
2433
+ "step": 172500
2434
+ },
2435
+ {
2436
+ "epoch": 1.648058529893686,
2437
+ "grad_norm": 0.28823208808898926,
2438
+ "learning_rate": 1.7625594982315606e-07,
2439
+ "loss": 0.1112,
2440
+ "step": 173000
2441
+ },
2442
+ {
2443
+ "epoch": 1.6528217048355751,
2444
+ "grad_norm": 7.33282995223999,
2445
+ "learning_rate": 1.7589899454419726e-07,
2446
+ "loss": 0.1037,
2447
+ "step": 173500
2448
+ },
2449
+ {
2450
+ "epoch": 1.6575848797774646,
2451
+ "grad_norm": 18.685562133789062,
2452
+ "learning_rate": 1.7554203926523847e-07,
2453
+ "loss": 0.1096,
2454
+ "step": 174000
2455
+ },
2456
+ {
2457
+ "epoch": 1.6623480547193537,
2458
+ "grad_norm": 5.129574298858643,
2459
+ "learning_rate": 1.7518508398627968e-07,
2460
+ "loss": 0.1028,
2461
+ "step": 174500
2462
+ },
2463
+ {
2464
+ "epoch": 1.6671112296612431,
2465
+ "grad_norm": 1.4392452239990234,
2466
+ "learning_rate": 1.748281287073209e-07,
2467
+ "loss": 0.1106,
2468
+ "step": 175000
2469
+ },
2470
+ {
2471
+ "epoch": 1.6718744046031322,
2472
+ "grad_norm": 3.51692795753479,
2473
+ "learning_rate": 1.744711734283621e-07,
2474
+ "loss": 0.1142,
2475
+ "step": 175500
2476
+ },
2477
+ {
2478
+ "epoch": 1.6766375795450217,
2479
+ "grad_norm": 0.026211030781269073,
2480
+ "learning_rate": 1.7411421814940331e-07,
2481
+ "loss": 0.1083,
2482
+ "step": 176000
2483
+ },
2484
+ {
2485
+ "epoch": 1.6814007544869107,
2486
+ "grad_norm": 4.911788463592529,
2487
+ "learning_rate": 1.7375726287044452e-07,
2488
+ "loss": 0.1053,
2489
+ "step": 176500
2490
+ },
2491
+ {
2492
+ "epoch": 1.6861639294288002,
2493
+ "grad_norm": 5.630278587341309,
2494
+ "learning_rate": 1.7340030759148573e-07,
2495
+ "loss": 0.1087,
2496
+ "step": 177000
2497
+ },
2498
+ {
2499
+ "epoch": 1.6909271043706893,
2500
+ "grad_norm": 1.8357000350952148,
2501
+ "learning_rate": 1.7304335231252694e-07,
2502
+ "loss": 0.104,
2503
+ "step": 177500
2504
+ },
2505
+ {
2506
+ "epoch": 1.6956902793125785,
2507
+ "grad_norm": 2.734142780303955,
2508
+ "learning_rate": 1.7268639703356815e-07,
2509
+ "loss": 0.1339,
2510
+ "step": 178000
2511
+ },
2512
+ {
2513
+ "epoch": 1.7004534542544678,
2514
+ "grad_norm": 27.017423629760742,
2515
+ "learning_rate": 1.7232944175460936e-07,
2516
+ "loss": 0.1085,
2517
+ "step": 178500
2518
+ },
2519
+ {
2520
+ "epoch": 1.705216629196357,
2521
+ "grad_norm": 0.3949691653251648,
2522
+ "learning_rate": 1.7197248647565057e-07,
2523
+ "loss": 0.1074,
2524
+ "step": 179000
2525
+ },
2526
+ {
2527
+ "epoch": 1.7099798041382464,
2528
+ "grad_norm": 14.20468807220459,
2529
+ "learning_rate": 1.7161553119669176e-07,
2530
+ "loss": 0.099,
2531
+ "step": 179500
2532
+ },
2533
+ {
2534
+ "epoch": 1.7147429790801356,
2535
+ "grad_norm": 0.0762014091014862,
2536
+ "learning_rate": 1.7125857591773297e-07,
2537
+ "loss": 0.1108,
2538
+ "step": 180000
2539
+ },
2540
+ {
2541
+ "epoch": 1.719506154022025,
2542
+ "grad_norm": 19.510847091674805,
2543
+ "learning_rate": 1.7090162063877418e-07,
2544
+ "loss": 0.1225,
2545
+ "step": 180500
2546
+ },
2547
+ {
2548
+ "epoch": 1.7242693289639142,
2549
+ "grad_norm": 0.08469968289136887,
2550
+ "learning_rate": 1.7054466535981539e-07,
2551
+ "loss": 0.1015,
2552
+ "step": 181000
2553
+ },
2554
+ {
2555
+ "epoch": 1.7290325039058034,
2556
+ "grad_norm": 30.91697120666504,
2557
+ "learning_rate": 1.701877100808566e-07,
2558
+ "loss": 0.108,
2559
+ "step": 181500
2560
+ },
2561
+ {
2562
+ "epoch": 1.7337956788476927,
2563
+ "grad_norm": 5.243447780609131,
2564
+ "learning_rate": 1.698307548018978e-07,
2565
+ "loss": 0.1279,
2566
+ "step": 182000
2567
+ },
2568
+ {
2569
+ "epoch": 1.738558853789582,
2570
+ "grad_norm": 19.558759689331055,
2571
+ "learning_rate": 1.6947379952293902e-07,
2572
+ "loss": 0.1043,
2573
+ "step": 182500
2574
+ },
2575
+ {
2576
+ "epoch": 1.7433220287314712,
2577
+ "grad_norm": 18.18353271484375,
2578
+ "learning_rate": 1.6911684424398023e-07,
2579
+ "loss": 0.1005,
2580
+ "step": 183000
2581
+ },
2582
+ {
2583
+ "epoch": 1.7480852036733605,
2584
+ "grad_norm": 0.06688349694013596,
2585
+ "learning_rate": 1.6875988896502144e-07,
2586
+ "loss": 0.1021,
2587
+ "step": 183500
2588
+ },
2589
+ {
2590
+ "epoch": 1.7528483786152498,
2591
+ "grad_norm": 3.162032127380371,
2592
+ "learning_rate": 1.6840293368606264e-07,
2593
+ "loss": 0.1244,
2594
+ "step": 184000
2595
+ },
2596
+ {
2597
+ "epoch": 1.757611553557139,
2598
+ "grad_norm": 0.6052823662757874,
2599
+ "learning_rate": 1.6804597840710385e-07,
2600
+ "loss": 0.1145,
2601
+ "step": 184500
2602
+ },
2603
+ {
2604
+ "epoch": 1.7623747284990283,
2605
+ "grad_norm": 12.853279113769531,
2606
+ "learning_rate": 1.6768902312814506e-07,
2607
+ "loss": 0.1004,
2608
+ "step": 185000
2609
+ },
2610
+ {
2611
+ "epoch": 1.7671379034409176,
2612
+ "grad_norm": 0.010185870341956615,
2613
+ "learning_rate": 1.6733206784918627e-07,
2614
+ "loss": 0.1048,
2615
+ "step": 185500
2616
+ },
2617
+ {
2618
+ "epoch": 1.7719010783828069,
2619
+ "grad_norm": 7.452764839399606e-05,
2620
+ "learning_rate": 1.6697511257022748e-07,
2621
+ "loss": 0.1,
2622
+ "step": 186000
2623
+ },
2624
+ {
2625
+ "epoch": 1.7766642533246961,
2626
+ "grad_norm": 17.169069290161133,
2627
+ "learning_rate": 1.666181572912687e-07,
2628
+ "loss": 0.1176,
2629
+ "step": 186500
2630
+ },
2631
+ {
2632
+ "epoch": 1.7814274282665854,
2633
+ "grad_norm": 12.43346118927002,
2634
+ "learning_rate": 1.662612020123099e-07,
2635
+ "loss": 0.111,
2636
+ "step": 187000
2637
+ },
2638
+ {
2639
+ "epoch": 1.7861906032084747,
2640
+ "grad_norm": 13.447138786315918,
2641
+ "learning_rate": 1.6590424673335111e-07,
2642
+ "loss": 0.1198,
2643
+ "step": 187500
2644
+ },
2645
+ {
2646
+ "epoch": 1.790953778150364,
2647
+ "grad_norm": 2.679323673248291,
2648
+ "learning_rate": 1.6554729145439232e-07,
2649
+ "loss": 0.1083,
2650
+ "step": 188000
2651
+ },
2652
+ {
2653
+ "epoch": 1.7957169530922532,
2654
+ "grad_norm": 12.469381332397461,
2655
+ "learning_rate": 1.6519033617543353e-07,
2656
+ "loss": 0.0948,
2657
+ "step": 188500
2658
+ },
2659
+ {
2660
+ "epoch": 1.8004801280341425,
2661
+ "grad_norm": 5.650728225708008,
2662
+ "learning_rate": 1.6483338089647474e-07,
2663
+ "loss": 0.1329,
2664
+ "step": 189000
2665
+ },
2666
+ {
2667
+ "epoch": 1.8052433029760317,
2668
+ "grad_norm": 0.8955023884773254,
2669
+ "learning_rate": 1.6447642561751593e-07,
2670
+ "loss": 0.0933,
2671
+ "step": 189500
2672
+ },
2673
+ {
2674
+ "epoch": 1.810006477917921,
2675
+ "grad_norm": 26.87681770324707,
2676
+ "learning_rate": 1.6411947033855714e-07,
2677
+ "loss": 0.1015,
2678
+ "step": 190000
2679
+ },
2680
+ {
2681
+ "epoch": 1.8147696528598103,
2682
+ "grad_norm": 4.95468282699585,
2683
+ "learning_rate": 1.6376251505959835e-07,
2684
+ "loss": 0.1067,
2685
+ "step": 190500
2686
+ },
2687
+ {
2688
+ "epoch": 1.8195328278016993,
2689
+ "grad_norm": 0.931701123714447,
2690
+ "learning_rate": 1.6340555978063958e-07,
2691
+ "loss": 0.1282,
2692
+ "step": 191000
2693
+ },
2694
+ {
2695
+ "epoch": 1.8242960027435888,
2696
+ "grad_norm": 7.3879780769348145,
2697
+ "learning_rate": 1.630486045016808e-07,
2698
+ "loss": 0.0935,
2699
+ "step": 191500
2700
+ },
2701
+ {
2702
+ "epoch": 1.8290591776854779,
2703
+ "grad_norm": 0.022659489884972572,
2704
+ "learning_rate": 1.62691649222722e-07,
2705
+ "loss": 0.1086,
2706
+ "step": 192000
2707
+ },
2708
+ {
2709
+ "epoch": 1.8338223526273674,
2710
+ "grad_norm": 0.1140231192111969,
2711
+ "learning_rate": 1.623346939437632e-07,
2712
+ "loss": 0.1005,
2713
+ "step": 192500
2714
+ },
2715
+ {
2716
+ "epoch": 1.8385855275692564,
2717
+ "grad_norm": 0.6795700192451477,
2718
+ "learning_rate": 1.6197773866480442e-07,
2719
+ "loss": 0.11,
2720
+ "step": 193000
2721
+ },
2722
+ {
2723
+ "epoch": 1.843348702511146,
2724
+ "grad_norm": 9.37308406829834,
2725
+ "learning_rate": 1.6162078338584563e-07,
2726
+ "loss": 0.1224,
2727
+ "step": 193500
2728
+ },
2729
+ {
2730
+ "epoch": 1.848111877453035,
2731
+ "grad_norm": 33.167701721191406,
2732
+ "learning_rate": 1.6126382810688684e-07,
2733
+ "loss": 0.1122,
2734
+ "step": 194000
2735
+ },
2736
+ {
2737
+ "epoch": 1.8528750523949244,
2738
+ "grad_norm": 0.8446443676948547,
2739
+ "learning_rate": 1.6090687282792805e-07,
2740
+ "loss": 0.1098,
2741
+ "step": 194500
2742
+ },
2743
+ {
2744
+ "epoch": 1.8576382273368135,
2745
+ "grad_norm": 30.448610305786133,
2746
+ "learning_rate": 1.6054991754896926e-07,
2747
+ "loss": 0.1041,
2748
+ "step": 195000
2749
+ },
2750
+ {
2751
+ "epoch": 1.862401402278703,
2752
+ "grad_norm": 21.807527542114258,
2753
+ "learning_rate": 1.6019296227001047e-07,
2754
+ "loss": 0.097,
2755
+ "step": 195500
2756
+ },
2757
+ {
2758
+ "epoch": 1.867164577220592,
2759
+ "grad_norm": 0.030451184138655663,
2760
+ "learning_rate": 1.5983600699105168e-07,
2761
+ "loss": 0.1073,
2762
+ "step": 196000
2763
+ },
2764
+ {
2765
+ "epoch": 1.8719277521624815,
2766
+ "grad_norm": 0.03133384510874748,
2767
+ "learning_rate": 1.594790517120929e-07,
2768
+ "loss": 0.1123,
2769
+ "step": 196500
2770
+ },
2771
+ {
2772
+ "epoch": 1.8766909271043706,
2773
+ "grad_norm": 2.491389513015747,
2774
+ "learning_rate": 1.591220964331341e-07,
2775
+ "loss": 0.0996,
2776
+ "step": 197000
2777
+ },
2778
+ {
2779
+ "epoch": 1.88145410204626,
2780
+ "grad_norm": 29.67350959777832,
2781
+ "learning_rate": 1.587651411541753e-07,
2782
+ "loss": 0.0885,
2783
+ "step": 197500
2784
+ },
2785
+ {
2786
+ "epoch": 1.8862172769881491,
2787
+ "grad_norm": 0.28274720907211304,
2788
+ "learning_rate": 1.5840818587521652e-07,
2789
+ "loss": 0.1085,
2790
+ "step": 198000
2791
+ },
2792
+ {
2793
+ "epoch": 1.8909804519300386,
2794
+ "grad_norm": 0.04003256559371948,
2795
+ "learning_rate": 1.5805123059625773e-07,
2796
+ "loss": 0.1044,
2797
+ "step": 198500
2798
+ },
2799
+ {
2800
+ "epoch": 1.8957436268719277,
2801
+ "grad_norm": 44.06182861328125,
2802
+ "learning_rate": 1.5769427531729894e-07,
2803
+ "loss": 0.1161,
2804
+ "step": 199000
2805
+ },
2806
+ {
2807
+ "epoch": 1.9005068018138171,
2808
+ "grad_norm": 3.635102621046826e-05,
2809
+ "learning_rate": 1.5733732003834012e-07,
2810
+ "loss": 0.112,
2811
+ "step": 199500
2812
+ },
2813
+ {
2814
+ "epoch": 1.9052699767557062,
2815
+ "grad_norm": 0.03733281418681145,
2816
+ "learning_rate": 1.5698036475938133e-07,
2817
+ "loss": 0.1241,
2818
+ "step": 200000
2819
+ },
2820
+ {
2821
+ "epoch": 1.9100331516975957,
2822
+ "grad_norm": 0.009642825461924076,
2823
+ "learning_rate": 1.5662340948042254e-07,
2824
+ "loss": 0.1116,
2825
+ "step": 200500
2826
+ },
2827
+ {
2828
+ "epoch": 1.9147963266394847,
2829
+ "grad_norm": 0.04384785518050194,
2830
+ "learning_rate": 1.5626645420146375e-07,
2831
+ "loss": 0.0975,
2832
+ "step": 201000
2833
+ },
2834
+ {
2835
+ "epoch": 1.9195595015813742,
2836
+ "grad_norm": 28.704349517822266,
2837
+ "learning_rate": 1.5590949892250496e-07,
2838
+ "loss": 0.1376,
2839
+ "step": 201500
2840
+ },
2841
+ {
2842
+ "epoch": 1.9243226765232633,
2843
+ "grad_norm": 0.0023307004012167454,
2844
+ "learning_rate": 1.5555254364354617e-07,
2845
+ "loss": 0.1216,
2846
+ "step": 202000
2847
+ },
2848
+ {
2849
+ "epoch": 1.9290858514651528,
2850
+ "grad_norm": 3.073564291000366,
2851
+ "learning_rate": 1.5519558836458738e-07,
2852
+ "loss": 0.1139,
2853
+ "step": 202500
2854
+ },
2855
+ {
2856
+ "epoch": 1.9338490264070418,
2857
+ "grad_norm": 0.6808690428733826,
2858
+ "learning_rate": 1.548386330856286e-07,
2859
+ "loss": 0.0976,
2860
+ "step": 203000
2861
+ },
2862
+ {
2863
+ "epoch": 1.9386122013489313,
2864
+ "grad_norm": 5.560125350952148,
2865
+ "learning_rate": 1.544816778066698e-07,
2866
+ "loss": 0.1022,
2867
+ "step": 203500
2868
+ },
2869
+ {
2870
+ "epoch": 1.9433753762908204,
2871
+ "grad_norm": 0.019307024776935577,
2872
+ "learning_rate": 1.54124722527711e-07,
2873
+ "loss": 0.1042,
2874
+ "step": 204000
2875
+ },
2876
+ {
2877
+ "epoch": 1.9481385512327096,
2878
+ "grad_norm": 0.23428542912006378,
2879
+ "learning_rate": 1.5376776724875222e-07,
2880
+ "loss": 0.1173,
2881
+ "step": 204500
2882
+ },
2883
+ {
2884
+ "epoch": 1.952901726174599,
2885
+ "grad_norm": 5.58413553237915,
2886
+ "learning_rate": 1.5341081196979343e-07,
2887
+ "loss": 0.1216,
2888
+ "step": 205000
2889
+ },
2890
+ {
2891
+ "epoch": 1.9576649011164882,
2892
+ "grad_norm": 2.8649184703826904,
2893
+ "learning_rate": 1.5305385669083464e-07,
2894
+ "loss": 0.1034,
2895
+ "step": 205500
2896
+ },
2897
+ {
2898
+ "epoch": 1.9624280760583774,
2899
+ "grad_norm": 0.037286777049303055,
2900
+ "learning_rate": 1.5269690141187585e-07,
2901
+ "loss": 0.1011,
2902
+ "step": 206000
2903
+ },
2904
+ {
2905
+ "epoch": 1.9671912510002667,
2906
+ "grad_norm": 0.007163808681070805,
2907
+ "learning_rate": 1.5233994613291706e-07,
2908
+ "loss": 0.1087,
2909
+ "step": 206500
2910
+ },
2911
+ {
2912
+ "epoch": 1.971954425942156,
2913
+ "grad_norm": 24.465059280395508,
2914
+ "learning_rate": 1.5198299085395827e-07,
2915
+ "loss": 0.1122,
2916
+ "step": 207000
2917
+ },
2918
+ {
2919
+ "epoch": 1.9767176008840452,
2920
+ "grad_norm": 6.201001167297363,
2921
+ "learning_rate": 1.5162603557499948e-07,
2922
+ "loss": 0.0882,
2923
+ "step": 207500
2924
+ },
2925
+ {
2926
+ "epoch": 1.9814807758259345,
2927
+ "grad_norm": 0.19351300597190857,
2928
+ "learning_rate": 1.512690802960407e-07,
2929
+ "loss": 0.1109,
2930
+ "step": 208000
2931
+ },
2932
+ {
2933
+ "epoch": 1.9862439507678238,
2934
+ "grad_norm": 0.0022748825140297413,
2935
+ "learning_rate": 1.509121250170819e-07,
2936
+ "loss": 0.1045,
2937
+ "step": 208500
2938
+ },
2939
+ {
2940
+ "epoch": 1.991007125709713,
2941
+ "grad_norm": 0.00041236350079998374,
2942
+ "learning_rate": 1.505551697381231e-07,
2943
+ "loss": 0.1095,
2944
+ "step": 209000
2945
+ },
2946
+ {
2947
+ "epoch": 1.9957703006516023,
2948
+ "grad_norm": 11.131386756896973,
2949
+ "learning_rate": 1.501982144591643e-07,
2950
+ "loss": 0.1293,
2951
+ "step": 209500
2952
+ },
2953
+ {
2954
+ "epoch": 2.0005334755934916,
2955
+ "grad_norm": 0.002583843655884266,
2956
+ "learning_rate": 1.498412591802055e-07,
2957
+ "loss": 0.1142,
2958
+ "step": 210000
2959
+ },
2960
+ {
2961
+ "epoch": 2.0052966505353806,
2962
+ "grad_norm": 14.562299728393555,
2963
+ "learning_rate": 1.494843039012467e-07,
2964
+ "loss": 0.1048,
2965
+ "step": 210500
2966
+ },
2967
+ {
2968
+ "epoch": 2.01005982547727,
2969
+ "grad_norm": 4.4846510887146,
2970
+ "learning_rate": 1.4912734862228792e-07,
2971
+ "loss": 0.1019,
2972
+ "step": 211000
2973
+ },
2974
+ {
2975
+ "epoch": 2.014823000419159,
2976
+ "grad_norm": 0.0017532992642372847,
2977
+ "learning_rate": 1.4877039334332913e-07,
2978
+ "loss": 0.1092,
2979
+ "step": 211500
2980
+ },
2981
+ {
2982
+ "epoch": 2.0195861753610487,
2983
+ "grad_norm": 0.005973345600068569,
2984
+ "learning_rate": 1.4841343806437034e-07,
2985
+ "loss": 0.099,
2986
+ "step": 212000
2987
+ },
2988
+ {
2989
+ "epoch": 2.0243493503029377,
2990
+ "grad_norm": 25.91645622253418,
2991
+ "learning_rate": 1.4805648278541155e-07,
2992
+ "loss": 0.1197,
2993
+ "step": 212500
2994
+ },
2995
+ {
2996
+ "epoch": 2.029112525244827,
2997
+ "grad_norm": 0.009553452022373676,
2998
+ "learning_rate": 1.4769952750645276e-07,
2999
+ "loss": 0.1058,
3000
+ "step": 213000
3001
+ },
3002
+ {
3003
+ "epoch": 2.0338757001867163,
3004
+ "grad_norm": 2.3231234550476074,
3005
+ "learning_rate": 1.4734257222749397e-07,
3006
+ "loss": 0.1098,
3007
+ "step": 213500
3008
+ },
3009
+ {
3010
+ "epoch": 2.0386388751286058,
3011
+ "grad_norm": 7.085731506347656,
3012
+ "learning_rate": 1.4698561694853518e-07,
3013
+ "loss": 0.0992,
3014
+ "step": 214000
3015
+ },
3016
+ {
3017
+ "epoch": 2.043402050070495,
3018
+ "grad_norm": 0.2953038215637207,
3019
+ "learning_rate": 1.466286616695764e-07,
3020
+ "loss": 0.1126,
3021
+ "step": 214500
3022
+ },
3023
+ {
3024
+ "epoch": 2.0481652250123843,
3025
+ "grad_norm": 0.0010392339900135994,
3026
+ "learning_rate": 1.462717063906176e-07,
3027
+ "loss": 0.1034,
3028
+ "step": 215000
3029
+ },
3030
+ {
3031
+ "epoch": 2.0529283999542733,
3032
+ "grad_norm": 0.07149825990200043,
3033
+ "learning_rate": 1.459147511116588e-07,
3034
+ "loss": 0.1008,
3035
+ "step": 215500
3036
+ },
3037
+ {
3038
+ "epoch": 2.057691574896163,
3039
+ "grad_norm": 0.594185471534729,
3040
+ "learning_rate": 1.4555779583270002e-07,
3041
+ "loss": 0.1004,
3042
+ "step": 216000
3043
+ },
3044
+ {
3045
+ "epoch": 2.062454749838052,
3046
+ "grad_norm": 2.347266912460327,
3047
+ "learning_rate": 1.4520084055374123e-07,
3048
+ "loss": 0.1087,
3049
+ "step": 216500
3050
+ },
3051
+ {
3052
+ "epoch": 2.0672179247799414,
3053
+ "grad_norm": 0.16203026473522186,
3054
+ "learning_rate": 1.4484388527478244e-07,
3055
+ "loss": 0.1065,
3056
+ "step": 217000
3057
+ },
3058
+ {
3059
+ "epoch": 2.0719810997218304,
3060
+ "grad_norm": 0.03992275521159172,
3061
+ "learning_rate": 1.4448692999582365e-07,
3062
+ "loss": 0.1247,
3063
+ "step": 217500
3064
+ },
3065
+ {
3066
+ "epoch": 2.07674427466372,
3067
+ "grad_norm": 0.5468718409538269,
3068
+ "learning_rate": 1.4412997471686486e-07,
3069
+ "loss": 0.1078,
3070
+ "step": 218000
3071
+ },
3072
+ {
3073
+ "epoch": 2.081507449605609,
3074
+ "grad_norm": 7.58856201171875,
3075
+ "learning_rate": 1.4377301943790607e-07,
3076
+ "loss": 0.0921,
3077
+ "step": 218500
3078
+ },
3079
+ {
3080
+ "epoch": 2.0862706245474985,
3081
+ "grad_norm": 17.591888427734375,
3082
+ "learning_rate": 1.4341606415894728e-07,
3083
+ "loss": 0.1105,
3084
+ "step": 219000
3085
+ },
3086
+ {
3087
+ "epoch": 2.0910337994893875,
3088
+ "grad_norm": 9.395910263061523,
3089
+ "learning_rate": 1.4305910887998846e-07,
3090
+ "loss": 0.1021,
3091
+ "step": 219500
3092
+ },
3093
+ {
3094
+ "epoch": 2.095796974431277,
3095
+ "grad_norm": 0.0014383163070306182,
3096
+ "learning_rate": 1.4270215360102967e-07,
3097
+ "loss": 0.1089,
3098
+ "step": 220000
3099
+ },
3100
+ {
3101
+ "epoch": 2.100560149373166,
3102
+ "grad_norm": 0.11439737677574158,
3103
+ "learning_rate": 1.4234519832207088e-07,
3104
+ "loss": 0.1108,
3105
+ "step": 220500
3106
+ },
3107
+ {
3108
+ "epoch": 2.1053233243150555,
3109
+ "grad_norm": 1.5022146701812744,
3110
+ "learning_rate": 1.419882430431121e-07,
3111
+ "loss": 0.1098,
3112
+ "step": 221000
3113
+ },
3114
+ {
3115
+ "epoch": 2.1100864992569446,
3116
+ "grad_norm": 0.004490518942475319,
3117
+ "learning_rate": 1.416312877641533e-07,
3118
+ "loss": 0.1063,
3119
+ "step": 221500
3120
+ },
3121
+ {
3122
+ "epoch": 2.114849674198834,
3123
+ "grad_norm": 5.6877360343933105,
3124
+ "learning_rate": 1.412743324851945e-07,
3125
+ "loss": 0.1107,
3126
+ "step": 222000
3127
+ },
3128
+ {
3129
+ "epoch": 2.119612849140723,
3130
+ "grad_norm": 1.135617733001709,
3131
+ "learning_rate": 1.4091737720623572e-07,
3132
+ "loss": 0.115,
3133
+ "step": 222500
3134
+ },
3135
+ {
3136
+ "epoch": 2.1243760240826126,
3137
+ "grad_norm": 2.0897531509399414,
3138
+ "learning_rate": 1.4056042192727693e-07,
3139
+ "loss": 0.1242,
3140
+ "step": 223000
3141
+ },
3142
+ {
3143
+ "epoch": 2.1291391990245017,
3144
+ "grad_norm": 12.82266902923584,
3145
+ "learning_rate": 1.4020346664831814e-07,
3146
+ "loss": 0.1066,
3147
+ "step": 223500
3148
+ },
3149
+ {
3150
+ "epoch": 2.133902373966391,
3151
+ "grad_norm": 0.15470212697982788,
3152
+ "learning_rate": 1.3984651136935935e-07,
3153
+ "loss": 0.0952,
3154
+ "step": 224000
3155
+ },
3156
+ {
3157
+ "epoch": 2.13866554890828,
3158
+ "grad_norm": 7.721962174400687e-05,
3159
+ "learning_rate": 1.3948955609040056e-07,
3160
+ "loss": 0.1237,
3161
+ "step": 224500
3162
+ },
3163
+ {
3164
+ "epoch": 2.1434287238501697,
3165
+ "grad_norm": 0.023135853931307793,
3166
+ "learning_rate": 1.3913260081144177e-07,
3167
+ "loss": 0.1118,
3168
+ "step": 225000
3169
+ },
3170
+ {
3171
+ "epoch": 2.1481918987920587,
3172
+ "grad_norm": 1.2089338302612305,
3173
+ "learning_rate": 1.3877564553248298e-07,
3174
+ "loss": 0.0944,
3175
+ "step": 225500
3176
+ },
3177
+ {
3178
+ "epoch": 2.1529550737339482,
3179
+ "grad_norm": 7.6081109046936035,
3180
+ "learning_rate": 1.384186902535242e-07,
3181
+ "loss": 0.1025,
3182
+ "step": 226000
3183
+ },
3184
+ {
3185
+ "epoch": 2.1577182486758373,
3186
+ "grad_norm": 11.101881980895996,
3187
+ "learning_rate": 1.380617349745654e-07,
3188
+ "loss": 0.081,
3189
+ "step": 226500
3190
  }
3191
  ],
3192
  "logging_steps": 500,
3193
+ "max_steps": 314916,
3194
  "num_input_tokens_seen": 0,
3195
+ "num_train_epochs": 3,
3196
  "save_steps": 500,
3197
  "stateful_callbacks": {
3198
  "TrainerControl": {
 
3201
  "should_evaluate": false,
3202
  "should_log": false,
3203
  "should_save": true,
3204
+ "should_training_stop": false
3205
  },
3206
  "attributes": {}
3207
  }
3208
  },
3209
+ "total_flos": 3.2593962720815494e+17,
3210
  "train_batch_size": 8,
3211
  "trial_name": null,
3212
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4b18796adfd3b7ca5c4dd8cb963803f85d1bb2dfb553e497857f598e895d13a0
3
- size 5304
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3cbfdc468a2a0424d8e075f221e8a6abca4bc2ebfd47002af3dd1af0fd638d1d
3
+ size 5240