UltimoUno commited on
Commit
b56500d
1 Parent(s): 6ba04ed

Uploaded checkpoint-3000

Browse files
Files changed (5) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +711 -3
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6f34a26801f7d37f64a99c14898ca0106179cdef8460793550938d8243950f81
3
  size 2836579040
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:324380f8549051ad119f7a5f1ecf2e45c0459be0dc3ff417db289f9e126509ba
3
  size 2836579040
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4add695eb3c80463223dce54d3c1dfd450589934a3767a55170cb5d7b58c1c37
3
  size 5673376169
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:577bb6ff5b16221ddbe7a96caee67d6e6e0b7837ed6fef1eb4c5f9ac3ea49052
3
  size 5673376169
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8c56c0d986fde7ce77bd50cb0ad4046e46bf3f78895b338e63f9217f7a569a8e
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5e5fc0f601c838403e67acb49c7b54f73c6cd7b1fce2cc26fd3c09d0ed6bb5bf
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b7dbe261a9604832f14328c92afa16e66095711f0d470c7aa4f09a20f6363131
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a89895d690ce4c7033aa40dfb76059ed31cde2d2d86428cdbd6159c4cf947465
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.1,
5
  "eval_steps": 1000,
6
- "global_step": 2000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -1423,6 +1423,714 @@
1423
  "eval_samples_per_second": 15.462,
1424
  "eval_steps_per_second": 15.462,
1425
  "step": 2000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1426
  }
1427
  ],
1428
  "logging_steps": 10,
@@ -1430,7 +2138,7 @@
1430
  "num_input_tokens_seen": 0,
1431
  "num_train_epochs": 1,
1432
  "save_steps": 1000,
1433
- "total_flos": 3.227844083712e+16,
1434
  "train_batch_size": 1,
1435
  "trial_name": null,
1436
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.15,
5
  "eval_steps": 1000,
6
+ "global_step": 3000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
1423
  "eval_samples_per_second": 15.462,
1424
  "eval_steps_per_second": 15.462,
1425
  "step": 2000
1426
+ },
1427
+ {
1428
+ "epoch": 0.1,
1429
+ "grad_norm": 8.0,
1430
+ "learning_rate": 7.308888888888889e-07,
1431
+ "loss": 0.0596,
1432
+ "step": 2010
1433
+ },
1434
+ {
1435
+ "epoch": 0.1,
1436
+ "grad_norm": 5.84375,
1437
+ "learning_rate": 7.284444444444445e-07,
1438
+ "loss": 0.0587,
1439
+ "step": 2020
1440
+ },
1441
+ {
1442
+ "epoch": 0.1,
1443
+ "grad_norm": 5.78125,
1444
+ "learning_rate": 7.260000000000001e-07,
1445
+ "loss": 0.0605,
1446
+ "step": 2030
1447
+ },
1448
+ {
1449
+ "epoch": 0.1,
1450
+ "grad_norm": 6.65625,
1451
+ "learning_rate": 7.235555555555556e-07,
1452
+ "loss": 0.0557,
1453
+ "step": 2040
1454
+ },
1455
+ {
1456
+ "epoch": 0.1,
1457
+ "grad_norm": 5.65625,
1458
+ "learning_rate": 7.211111111111112e-07,
1459
+ "loss": 0.0572,
1460
+ "step": 2050
1461
+ },
1462
+ {
1463
+ "epoch": 0.1,
1464
+ "grad_norm": 5.84375,
1465
+ "learning_rate": 7.186666666666667e-07,
1466
+ "loss": 0.053,
1467
+ "step": 2060
1468
+ },
1469
+ {
1470
+ "epoch": 0.1,
1471
+ "grad_norm": 5.78125,
1472
+ "learning_rate": 7.162222222222222e-07,
1473
+ "loss": 0.0582,
1474
+ "step": 2070
1475
+ },
1476
+ {
1477
+ "epoch": 0.1,
1478
+ "grad_norm": 6.90625,
1479
+ "learning_rate": 7.137777777777777e-07,
1480
+ "loss": 0.0644,
1481
+ "step": 2080
1482
+ },
1483
+ {
1484
+ "epoch": 0.1,
1485
+ "grad_norm": 7.96875,
1486
+ "learning_rate": 7.113333333333333e-07,
1487
+ "loss": 0.0588,
1488
+ "step": 2090
1489
+ },
1490
+ {
1491
+ "epoch": 0.1,
1492
+ "grad_norm": 5.15625,
1493
+ "learning_rate": 7.08888888888889e-07,
1494
+ "loss": 0.0535,
1495
+ "step": 2100
1496
+ },
1497
+ {
1498
+ "epoch": 0.11,
1499
+ "grad_norm": 7.46875,
1500
+ "learning_rate": 7.064444444444445e-07,
1501
+ "loss": 0.0573,
1502
+ "step": 2110
1503
+ },
1504
+ {
1505
+ "epoch": 0.11,
1506
+ "grad_norm": 6.28125,
1507
+ "learning_rate": 7.040000000000001e-07,
1508
+ "loss": 0.0584,
1509
+ "step": 2120
1510
+ },
1511
+ {
1512
+ "epoch": 0.11,
1513
+ "grad_norm": 5.75,
1514
+ "learning_rate": 7.015555555555556e-07,
1515
+ "loss": 0.0532,
1516
+ "step": 2130
1517
+ },
1518
+ {
1519
+ "epoch": 0.11,
1520
+ "grad_norm": 7.15625,
1521
+ "learning_rate": 6.991111111111111e-07,
1522
+ "loss": 0.0526,
1523
+ "step": 2140
1524
+ },
1525
+ {
1526
+ "epoch": 0.11,
1527
+ "grad_norm": 7.40625,
1528
+ "learning_rate": 6.966666666666666e-07,
1529
+ "loss": 0.0621,
1530
+ "step": 2150
1531
+ },
1532
+ {
1533
+ "epoch": 0.11,
1534
+ "grad_norm": 9.125,
1535
+ "learning_rate": 6.942222222222222e-07,
1536
+ "loss": 0.055,
1537
+ "step": 2160
1538
+ },
1539
+ {
1540
+ "epoch": 0.11,
1541
+ "grad_norm": 8.625,
1542
+ "learning_rate": 6.917777777777779e-07,
1543
+ "loss": 0.0614,
1544
+ "step": 2170
1545
+ },
1546
+ {
1547
+ "epoch": 0.11,
1548
+ "grad_norm": 6.375,
1549
+ "learning_rate": 6.893333333333334e-07,
1550
+ "loss": 0.0527,
1551
+ "step": 2180
1552
+ },
1553
+ {
1554
+ "epoch": 0.11,
1555
+ "grad_norm": 5.21875,
1556
+ "learning_rate": 6.868888888888889e-07,
1557
+ "loss": 0.069,
1558
+ "step": 2190
1559
+ },
1560
+ {
1561
+ "epoch": 0.11,
1562
+ "grad_norm": 5.65625,
1563
+ "learning_rate": 6.844444444444445e-07,
1564
+ "loss": 0.0524,
1565
+ "step": 2200
1566
+ },
1567
+ {
1568
+ "epoch": 0.11,
1569
+ "grad_norm": 5.84375,
1570
+ "learning_rate": 6.82e-07,
1571
+ "loss": 0.0596,
1572
+ "step": 2210
1573
+ },
1574
+ {
1575
+ "epoch": 0.11,
1576
+ "grad_norm": 5.15625,
1577
+ "learning_rate": 6.795555555555555e-07,
1578
+ "loss": 0.0587,
1579
+ "step": 2220
1580
+ },
1581
+ {
1582
+ "epoch": 0.11,
1583
+ "grad_norm": 5.375,
1584
+ "learning_rate": 6.771111111111111e-07,
1585
+ "loss": 0.0563,
1586
+ "step": 2230
1587
+ },
1588
+ {
1589
+ "epoch": 0.11,
1590
+ "grad_norm": 5.71875,
1591
+ "learning_rate": 6.746666666666667e-07,
1592
+ "loss": 0.0553,
1593
+ "step": 2240
1594
+ },
1595
+ {
1596
+ "epoch": 0.11,
1597
+ "grad_norm": 5.5625,
1598
+ "learning_rate": 6.722222222222223e-07,
1599
+ "loss": 0.0557,
1600
+ "step": 2250
1601
+ },
1602
+ {
1603
+ "epoch": 0.11,
1604
+ "grad_norm": 6.8125,
1605
+ "learning_rate": 6.697777777777778e-07,
1606
+ "loss": 0.0557,
1607
+ "step": 2260
1608
+ },
1609
+ {
1610
+ "epoch": 0.11,
1611
+ "grad_norm": 5.8125,
1612
+ "learning_rate": 6.673333333333334e-07,
1613
+ "loss": 0.0551,
1614
+ "step": 2270
1615
+ },
1616
+ {
1617
+ "epoch": 0.11,
1618
+ "grad_norm": 5.78125,
1619
+ "learning_rate": 6.648888888888889e-07,
1620
+ "loss": 0.0535,
1621
+ "step": 2280
1622
+ },
1623
+ {
1624
+ "epoch": 0.11,
1625
+ "grad_norm": 5.375,
1626
+ "learning_rate": 6.624444444444445e-07,
1627
+ "loss": 0.0501,
1628
+ "step": 2290
1629
+ },
1630
+ {
1631
+ "epoch": 0.12,
1632
+ "grad_norm": 6.40625,
1633
+ "learning_rate": 6.6e-07,
1634
+ "loss": 0.0586,
1635
+ "step": 2300
1636
+ },
1637
+ {
1638
+ "epoch": 0.12,
1639
+ "grad_norm": 7.3125,
1640
+ "learning_rate": 6.575555555555556e-07,
1641
+ "loss": 0.0548,
1642
+ "step": 2310
1643
+ },
1644
+ {
1645
+ "epoch": 0.12,
1646
+ "grad_norm": 8.5,
1647
+ "learning_rate": 6.551111111111111e-07,
1648
+ "loss": 0.0566,
1649
+ "step": 2320
1650
+ },
1651
+ {
1652
+ "epoch": 0.12,
1653
+ "grad_norm": 5.5,
1654
+ "learning_rate": 6.526666666666667e-07,
1655
+ "loss": 0.0656,
1656
+ "step": 2330
1657
+ },
1658
+ {
1659
+ "epoch": 0.12,
1660
+ "grad_norm": 5.625,
1661
+ "learning_rate": 6.502222222222222e-07,
1662
+ "loss": 0.052,
1663
+ "step": 2340
1664
+ },
1665
+ {
1666
+ "epoch": 0.12,
1667
+ "grad_norm": 6.1875,
1668
+ "learning_rate": 6.477777777777779e-07,
1669
+ "loss": 0.0574,
1670
+ "step": 2350
1671
+ },
1672
+ {
1673
+ "epoch": 0.12,
1674
+ "grad_norm": 7.53125,
1675
+ "learning_rate": 6.453333333333334e-07,
1676
+ "loss": 0.0564,
1677
+ "step": 2360
1678
+ },
1679
+ {
1680
+ "epoch": 0.12,
1681
+ "grad_norm": 5.0,
1682
+ "learning_rate": 6.428888888888889e-07,
1683
+ "loss": 0.0554,
1684
+ "step": 2370
1685
+ },
1686
+ {
1687
+ "epoch": 0.12,
1688
+ "grad_norm": 6.1875,
1689
+ "learning_rate": 6.404444444444444e-07,
1690
+ "loss": 0.0513,
1691
+ "step": 2380
1692
+ },
1693
+ {
1694
+ "epoch": 0.12,
1695
+ "grad_norm": 7.03125,
1696
+ "learning_rate": 6.38e-07,
1697
+ "loss": 0.0525,
1698
+ "step": 2390
1699
+ },
1700
+ {
1701
+ "epoch": 0.12,
1702
+ "grad_norm": 5.25,
1703
+ "learning_rate": 6.355555555555555e-07,
1704
+ "loss": 0.0522,
1705
+ "step": 2400
1706
+ },
1707
+ {
1708
+ "epoch": 0.12,
1709
+ "grad_norm": 6.125,
1710
+ "learning_rate": 6.331111111111112e-07,
1711
+ "loss": 0.06,
1712
+ "step": 2410
1713
+ },
1714
+ {
1715
+ "epoch": 0.12,
1716
+ "grad_norm": 5.0625,
1717
+ "learning_rate": 6.306666666666668e-07,
1718
+ "loss": 0.0542,
1719
+ "step": 2420
1720
+ },
1721
+ {
1722
+ "epoch": 0.12,
1723
+ "grad_norm": 5.71875,
1724
+ "learning_rate": 6.282222222222223e-07,
1725
+ "loss": 0.0614,
1726
+ "step": 2430
1727
+ },
1728
+ {
1729
+ "epoch": 0.12,
1730
+ "grad_norm": 6.8125,
1731
+ "learning_rate": 6.257777777777778e-07,
1732
+ "loss": 0.055,
1733
+ "step": 2440
1734
+ },
1735
+ {
1736
+ "epoch": 0.12,
1737
+ "grad_norm": 4.78125,
1738
+ "learning_rate": 6.233333333333333e-07,
1739
+ "loss": 0.0533,
1740
+ "step": 2450
1741
+ },
1742
+ {
1743
+ "epoch": 0.12,
1744
+ "grad_norm": 5.6875,
1745
+ "learning_rate": 6.208888888888889e-07,
1746
+ "loss": 0.0595,
1747
+ "step": 2460
1748
+ },
1749
+ {
1750
+ "epoch": 0.12,
1751
+ "grad_norm": 7.875,
1752
+ "learning_rate": 6.184444444444444e-07,
1753
+ "loss": 0.0589,
1754
+ "step": 2470
1755
+ },
1756
+ {
1757
+ "epoch": 0.12,
1758
+ "grad_norm": 6.71875,
1759
+ "learning_rate": 6.160000000000001e-07,
1760
+ "loss": 0.0513,
1761
+ "step": 2480
1762
+ },
1763
+ {
1764
+ "epoch": 0.12,
1765
+ "grad_norm": 7.125,
1766
+ "learning_rate": 6.135555555555556e-07,
1767
+ "loss": 0.0566,
1768
+ "step": 2490
1769
+ },
1770
+ {
1771
+ "epoch": 0.12,
1772
+ "grad_norm": 5.875,
1773
+ "learning_rate": 6.111111111111112e-07,
1774
+ "loss": 0.0549,
1775
+ "step": 2500
1776
+ },
1777
+ {
1778
+ "epoch": 0.13,
1779
+ "grad_norm": 7.125,
1780
+ "learning_rate": 6.086666666666667e-07,
1781
+ "loss": 0.0583,
1782
+ "step": 2510
1783
+ },
1784
+ {
1785
+ "epoch": 0.13,
1786
+ "grad_norm": 5.875,
1787
+ "learning_rate": 6.062222222222222e-07,
1788
+ "loss": 0.0632,
1789
+ "step": 2520
1790
+ },
1791
+ {
1792
+ "epoch": 0.13,
1793
+ "grad_norm": 4.875,
1794
+ "learning_rate": 6.037777777777777e-07,
1795
+ "loss": 0.058,
1796
+ "step": 2530
1797
+ },
1798
+ {
1799
+ "epoch": 0.13,
1800
+ "grad_norm": 5.03125,
1801
+ "learning_rate": 6.013333333333334e-07,
1802
+ "loss": 0.0566,
1803
+ "step": 2540
1804
+ },
1805
+ {
1806
+ "epoch": 0.13,
1807
+ "grad_norm": 5.8125,
1808
+ "learning_rate": 5.988888888888889e-07,
1809
+ "loss": 0.0588,
1810
+ "step": 2550
1811
+ },
1812
+ {
1813
+ "epoch": 0.13,
1814
+ "grad_norm": 6.21875,
1815
+ "learning_rate": 5.964444444444445e-07,
1816
+ "loss": 0.059,
1817
+ "step": 2560
1818
+ },
1819
+ {
1820
+ "epoch": 0.13,
1821
+ "grad_norm": 5.09375,
1822
+ "learning_rate": 5.94e-07,
1823
+ "loss": 0.0592,
1824
+ "step": 2570
1825
+ },
1826
+ {
1827
+ "epoch": 0.13,
1828
+ "grad_norm": 7.59375,
1829
+ "learning_rate": 5.915555555555556e-07,
1830
+ "loss": 0.0599,
1831
+ "step": 2580
1832
+ },
1833
+ {
1834
+ "epoch": 0.13,
1835
+ "grad_norm": 5.8125,
1836
+ "learning_rate": 5.891111111111111e-07,
1837
+ "loss": 0.0518,
1838
+ "step": 2590
1839
+ },
1840
+ {
1841
+ "epoch": 0.13,
1842
+ "grad_norm": 8.0,
1843
+ "learning_rate": 5.866666666666667e-07,
1844
+ "loss": 0.0578,
1845
+ "step": 2600
1846
+ },
1847
+ {
1848
+ "epoch": 0.13,
1849
+ "grad_norm": 7.125,
1850
+ "learning_rate": 5.842222222222223e-07,
1851
+ "loss": 0.0509,
1852
+ "step": 2610
1853
+ },
1854
+ {
1855
+ "epoch": 0.13,
1856
+ "grad_norm": 4.96875,
1857
+ "learning_rate": 5.817777777777778e-07,
1858
+ "loss": 0.0536,
1859
+ "step": 2620
1860
+ },
1861
+ {
1862
+ "epoch": 0.13,
1863
+ "grad_norm": 7.25,
1864
+ "learning_rate": 5.793333333333333e-07,
1865
+ "loss": 0.052,
1866
+ "step": 2630
1867
+ },
1868
+ {
1869
+ "epoch": 0.13,
1870
+ "grad_norm": 8.8125,
1871
+ "learning_rate": 5.768888888888889e-07,
1872
+ "loss": 0.0555,
1873
+ "step": 2640
1874
+ },
1875
+ {
1876
+ "epoch": 0.13,
1877
+ "grad_norm": 10.375,
1878
+ "learning_rate": 5.744444444444445e-07,
1879
+ "loss": 0.0574,
1880
+ "step": 2650
1881
+ },
1882
+ {
1883
+ "epoch": 0.13,
1884
+ "grad_norm": 7.625,
1885
+ "learning_rate": 5.720000000000001e-07,
1886
+ "loss": 0.0569,
1887
+ "step": 2660
1888
+ },
1889
+ {
1890
+ "epoch": 0.13,
1891
+ "grad_norm": 7.1875,
1892
+ "learning_rate": 5.695555555555556e-07,
1893
+ "loss": 0.0565,
1894
+ "step": 2670
1895
+ },
1896
+ {
1897
+ "epoch": 0.13,
1898
+ "grad_norm": 6.71875,
1899
+ "learning_rate": 5.671111111111111e-07,
1900
+ "loss": 0.0518,
1901
+ "step": 2680
1902
+ },
1903
+ {
1904
+ "epoch": 0.13,
1905
+ "grad_norm": 6.71875,
1906
+ "learning_rate": 5.646666666666667e-07,
1907
+ "loss": 0.0614,
1908
+ "step": 2690
1909
+ },
1910
+ {
1911
+ "epoch": 0.14,
1912
+ "grad_norm": 5.59375,
1913
+ "learning_rate": 5.622222222222222e-07,
1914
+ "loss": 0.054,
1915
+ "step": 2700
1916
+ },
1917
+ {
1918
+ "epoch": 0.14,
1919
+ "grad_norm": 8.0625,
1920
+ "learning_rate": 5.597777777777777e-07,
1921
+ "loss": 0.0573,
1922
+ "step": 2710
1923
+ },
1924
+ {
1925
+ "epoch": 0.14,
1926
+ "grad_norm": 8.25,
1927
+ "learning_rate": 5.573333333333335e-07,
1928
+ "loss": 0.0602,
1929
+ "step": 2720
1930
+ },
1931
+ {
1932
+ "epoch": 0.14,
1933
+ "grad_norm": 8.625,
1934
+ "learning_rate": 5.54888888888889e-07,
1935
+ "loss": 0.0643,
1936
+ "step": 2730
1937
+ },
1938
+ {
1939
+ "epoch": 0.14,
1940
+ "grad_norm": 7.25,
1941
+ "learning_rate": 5.524444444444445e-07,
1942
+ "loss": 0.0589,
1943
+ "step": 2740
1944
+ },
1945
+ {
1946
+ "epoch": 0.14,
1947
+ "grad_norm": 5.78125,
1948
+ "learning_rate": 5.5e-07,
1949
+ "loss": 0.0508,
1950
+ "step": 2750
1951
+ },
1952
+ {
1953
+ "epoch": 0.14,
1954
+ "grad_norm": 5.625,
1955
+ "learning_rate": 5.475555555555556e-07,
1956
+ "loss": 0.0644,
1957
+ "step": 2760
1958
+ },
1959
+ {
1960
+ "epoch": 0.14,
1961
+ "grad_norm": 6.15625,
1962
+ "learning_rate": 5.451111111111112e-07,
1963
+ "loss": 0.0525,
1964
+ "step": 2770
1965
+ },
1966
+ {
1967
+ "epoch": 0.14,
1968
+ "grad_norm": 7.5625,
1969
+ "learning_rate": 5.426666666666667e-07,
1970
+ "loss": 0.0626,
1971
+ "step": 2780
1972
+ },
1973
+ {
1974
+ "epoch": 0.14,
1975
+ "grad_norm": 7.875,
1976
+ "learning_rate": 5.402222222222222e-07,
1977
+ "loss": 0.0568,
1978
+ "step": 2790
1979
+ },
1980
+ {
1981
+ "epoch": 0.14,
1982
+ "grad_norm": 5.46875,
1983
+ "learning_rate": 5.377777777777778e-07,
1984
+ "loss": 0.0535,
1985
+ "step": 2800
1986
+ },
1987
+ {
1988
+ "epoch": 0.14,
1989
+ "grad_norm": 5.46875,
1990
+ "learning_rate": 5.353333333333334e-07,
1991
+ "loss": 0.0539,
1992
+ "step": 2810
1993
+ },
1994
+ {
1995
+ "epoch": 0.14,
1996
+ "grad_norm": 5.15625,
1997
+ "learning_rate": 5.328888888888889e-07,
1998
+ "loss": 0.0467,
1999
+ "step": 2820
2000
+ },
2001
+ {
2002
+ "epoch": 0.14,
2003
+ "grad_norm": 5.90625,
2004
+ "learning_rate": 5.304444444444444e-07,
2005
+ "loss": 0.0613,
2006
+ "step": 2830
2007
+ },
2008
+ {
2009
+ "epoch": 0.14,
2010
+ "grad_norm": 6.125,
2011
+ "learning_rate": 5.28e-07,
2012
+ "loss": 0.0516,
2013
+ "step": 2840
2014
+ },
2015
+ {
2016
+ "epoch": 0.14,
2017
+ "grad_norm": 5.8125,
2018
+ "learning_rate": 5.255555555555556e-07,
2019
+ "loss": 0.0555,
2020
+ "step": 2850
2021
+ },
2022
+ {
2023
+ "epoch": 0.14,
2024
+ "grad_norm": 8.125,
2025
+ "learning_rate": 5.231111111111111e-07,
2026
+ "loss": 0.0608,
2027
+ "step": 2860
2028
+ },
2029
+ {
2030
+ "epoch": 0.14,
2031
+ "grad_norm": 7.78125,
2032
+ "learning_rate": 5.206666666666666e-07,
2033
+ "loss": 0.0559,
2034
+ "step": 2870
2035
+ },
2036
+ {
2037
+ "epoch": 0.14,
2038
+ "grad_norm": 6.28125,
2039
+ "learning_rate": 5.182222222222223e-07,
2040
+ "loss": 0.0566,
2041
+ "step": 2880
2042
+ },
2043
+ {
2044
+ "epoch": 0.14,
2045
+ "grad_norm": 6.53125,
2046
+ "learning_rate": 5.157777777777778e-07,
2047
+ "loss": 0.0475,
2048
+ "step": 2890
2049
+ },
2050
+ {
2051
+ "epoch": 0.14,
2052
+ "grad_norm": 5.59375,
2053
+ "learning_rate": 5.133333333333333e-07,
2054
+ "loss": 0.0537,
2055
+ "step": 2900
2056
+ },
2057
+ {
2058
+ "epoch": 0.15,
2059
+ "grad_norm": 7.75,
2060
+ "learning_rate": 5.10888888888889e-07,
2061
+ "loss": 0.0558,
2062
+ "step": 2910
2063
+ },
2064
+ {
2065
+ "epoch": 0.15,
2066
+ "grad_norm": 5.9375,
2067
+ "learning_rate": 5.084444444444445e-07,
2068
+ "loss": 0.0518,
2069
+ "step": 2920
2070
+ },
2071
+ {
2072
+ "epoch": 0.15,
2073
+ "grad_norm": 7.0625,
2074
+ "learning_rate": 5.06e-07,
2075
+ "loss": 0.0578,
2076
+ "step": 2930
2077
+ },
2078
+ {
2079
+ "epoch": 0.15,
2080
+ "grad_norm": 6.0625,
2081
+ "learning_rate": 5.035555555555556e-07,
2082
+ "loss": 0.052,
2083
+ "step": 2940
2084
+ },
2085
+ {
2086
+ "epoch": 0.15,
2087
+ "grad_norm": 5.53125,
2088
+ "learning_rate": 5.011111111111112e-07,
2089
+ "loss": 0.048,
2090
+ "step": 2950
2091
+ },
2092
+ {
2093
+ "epoch": 0.15,
2094
+ "grad_norm": 6.59375,
2095
+ "learning_rate": 4.986666666666667e-07,
2096
+ "loss": 0.0566,
2097
+ "step": 2960
2098
+ },
2099
+ {
2100
+ "epoch": 0.15,
2101
+ "grad_norm": 5.1875,
2102
+ "learning_rate": 4.962222222222223e-07,
2103
+ "loss": 0.0501,
2104
+ "step": 2970
2105
+ },
2106
+ {
2107
+ "epoch": 0.15,
2108
+ "grad_norm": 6.09375,
2109
+ "learning_rate": 4.937777777777778e-07,
2110
+ "loss": 0.0554,
2111
+ "step": 2980
2112
+ },
2113
+ {
2114
+ "epoch": 0.15,
2115
+ "grad_norm": 7.34375,
2116
+ "learning_rate": 4.913333333333334e-07,
2117
+ "loss": 0.0582,
2118
+ "step": 2990
2119
+ },
2120
+ {
2121
+ "epoch": 0.15,
2122
+ "grad_norm": 5.09375,
2123
+ "learning_rate": 4.888888888888889e-07,
2124
+ "loss": 0.0568,
2125
+ "step": 3000
2126
+ },
2127
+ {
2128
+ "epoch": 0.15,
2129
+ "eval_loss": 0.05641532689332962,
2130
+ "eval_runtime": 64.515,
2131
+ "eval_samples_per_second": 15.5,
2132
+ "eval_steps_per_second": 15.5,
2133
+ "step": 3000
2134
  }
2135
  ],
2136
  "logging_steps": 10,
 
2138
  "num_input_tokens_seen": 0,
2139
  "num_train_epochs": 1,
2140
  "save_steps": 1000,
2141
+ "total_flos": 4.841766125568e+16,
2142
  "train_batch_size": 1,
2143
  "trial_name": null,
2144
  "trial_params": null