Training in progress, step 1800, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ac0520099b00fa8abb36aeca314ee7d832cf4b61bf801a2c30516aa851fb82b
 size 1370666272

 version https://git-lfs.github.com/spec/v1
+oid sha256:c19a8c4ff78657e1ad6849d03827d74a166332e2c92b5ee4c34966f79e091caa
 size 1370666272

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae58219350ead23fe4928d07a04438a2ecd5b7d63f45709bb1f9132f8f69dece
 size 697294462

 version https://git-lfs.github.com/spec/v1
+oid sha256:10c0470d53e83293b301fcaf8b6ed1125194ec8f54fe9618703c1367bf9a41e7
 size 697294462

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3c94e5a55e06b7a613c8f5f874916b5625507d7637367c63c55ddfb15995bfd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d290a2c62404485bacce37c57039bbf078af94d6cf0884b19d2a678f11aec096
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4061738424045491,
   "eval_steps": 500,
-  "global_step": 1750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12257,6 +12257,356 @@
       "learning_rate": 0.0001967750823269455,
       "loss": 0.8951,
       "step": 1750
     }
   ],
   "logging_steps": 1,
@@ -12276,7 +12626,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.76784253550592e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4177788093303934,
   "eval_steps": 500,
+  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0001967750823269455,
       "loss": 0.8951,
       "step": 1750
+    },
+    {
+      "epoch": 0.40640594174306605,
+      "grad_norm": 0.6410776972770691,
+      "learning_rate": 0.00019677140721822734,
+      "loss": 0.8931,
+      "step": 1751
+    },
+    {
+      "epoch": 0.4066380410815829,
+      "grad_norm": 0.7138279676437378,
+      "learning_rate": 0.00019676773005098766,
+      "loss": 0.9195,
+      "step": 1752
+    },
+    {
+      "epoch": 0.4068701404200998,
+      "grad_norm": 0.5348248481750488,
+      "learning_rate": 0.00019676405082530476,
+      "loss": 0.9232,
+      "step": 1753
+    },
+    {
+      "epoch": 0.4071022397586167,
+      "grad_norm": 0.6424762010574341,
+      "learning_rate": 0.00019676036954125684,
+      "loss": 0.9068,
+      "step": 1754
+    },
+    {
+      "epoch": 0.40733433909713357,
+      "grad_norm": 0.6323909759521484,
+      "learning_rate": 0.00019675668619892228,
+      "loss": 0.929,
+      "step": 1755
+    },
+    {
+      "epoch": 0.40756643843565044,
+      "grad_norm": 0.541854977607727,
+      "learning_rate": 0.00019675300079837935,
+      "loss": 0.9729,
+      "step": 1756
+    },
+    {
+      "epoch": 0.40779853777416736,
+      "grad_norm": 0.7092952132225037,
+      "learning_rate": 0.00019674931333970647,
+      "loss": 0.9005,
+      "step": 1757
+    },
+    {
+      "epoch": 0.4080306371126842,
+      "grad_norm": 0.5437161922454834,
+      "learning_rate": 0.0001967456238229821,
+      "loss": 0.9944,
+      "step": 1758
+    },
+    {
+      "epoch": 0.4082627364512011,
+      "grad_norm": 0.5253750681877136,
+      "learning_rate": 0.00019674193224828473,
+      "loss": 0.9535,
+      "step": 1759
+    },
+    {
+      "epoch": 0.408494835789718,
+      "grad_norm": 0.6329406499862671,
+      "learning_rate": 0.00019673823861569286,
+      "loss": 0.8904,
+      "step": 1760
+    },
+    {
+      "epoch": 0.4087269351282349,
+      "grad_norm": 0.5530345439910889,
+      "learning_rate": 0.00019673454292528508,
+      "loss": 0.934,
+      "step": 1761
+    },
+    {
+      "epoch": 0.40895903446675175,
+      "grad_norm": 0.6421835422515869,
+      "learning_rate": 0.00019673084517714,
+      "loss": 0.9014,
+      "step": 1762
+    },
+    {
+      "epoch": 0.40919113380526867,
+      "grad_norm": 0.5271580219268799,
+      "learning_rate": 0.00019672714537133628,
+      "loss": 0.923,
+      "step": 1763
+    },
+    {
+      "epoch": 0.40942323314378554,
+      "grad_norm": 0.5356336236000061,
+      "learning_rate": 0.00019672344350795258,
+      "loss": 0.9246,
+      "step": 1764
+    },
+    {
+      "epoch": 0.4096553324823024,
+      "grad_norm": 0.6168617606163025,
+      "learning_rate": 0.0001967197395870677,
+      "loss": 0.923,
+      "step": 1765
+    },
+    {
+      "epoch": 0.4098874318208193,
+      "grad_norm": 0.49557581543922424,
+      "learning_rate": 0.00019671603360876043,
+      "loss": 0.9448,
+      "step": 1766
+    },
+    {
+      "epoch": 0.4101195311593362,
+      "grad_norm": 0.5493084192276001,
+      "learning_rate": 0.00019671232557310958,
+      "loss": 0.9362,
+      "step": 1767
+    },
+    {
+      "epoch": 0.41035163049785306,
+      "grad_norm": 0.6057862639427185,
+      "learning_rate": 0.00019670861548019405,
+      "loss": 0.9443,
+      "step": 1768
+    },
+    {
+      "epoch": 0.41058372983637,
+      "grad_norm": 0.5347152948379517,
+      "learning_rate": 0.0001967049033300927,
+      "loss": 0.9054,
+      "step": 1769
+    },
+    {
+      "epoch": 0.41081582917488685,
+      "grad_norm": 0.5570089817047119,
+      "learning_rate": 0.0001967011891228846,
+      "loss": 0.9094,
+      "step": 1770
+    },
+    {
+      "epoch": 0.4110479285134037,
+      "grad_norm": 0.5425180792808533,
+      "learning_rate": 0.00019669747285864863,
+      "loss": 0.9072,
+      "step": 1771
+    },
+    {
+      "epoch": 0.41128002785192064,
+      "grad_norm": 0.5784744024276733,
+      "learning_rate": 0.00019669375453746396,
+      "loss": 1.0027,
+      "step": 1772
+    },
+    {
+      "epoch": 0.4115121271904375,
+      "grad_norm": 0.6552026867866516,
+      "learning_rate": 0.0001966900341594096,
+      "loss": 0.9353,
+      "step": 1773
+    },
+    {
+      "epoch": 0.41174422652895437,
+      "grad_norm": 0.4845140874385834,
+      "learning_rate": 0.0001966863117245648,
+      "loss": 0.9227,
+      "step": 1774
+    },
+    {
+      "epoch": 0.4119763258674713,
+      "grad_norm": 0.5522558689117432,
+      "learning_rate": 0.0001966825872330086,
+      "loss": 0.9159,
+      "step": 1775
+    },
+    {
+      "epoch": 0.41220842520598816,
+      "grad_norm": 0.6886111497879028,
+      "learning_rate": 0.0001966788606848203,
+      "loss": 0.8733,
+      "step": 1776
+    },
+    {
+      "epoch": 0.412440524544505,
+      "grad_norm": 0.5358473062515259,
+      "learning_rate": 0.0001966751320800792,
+      "loss": 0.8916,
+      "step": 1777
+    },
+    {
+      "epoch": 0.41267262388302195,
+      "grad_norm": 0.574971079826355,
+      "learning_rate": 0.0001966714014188646,
+      "loss": 0.8828,
+      "step": 1778
+    },
+    {
+      "epoch": 0.4129047232215388,
+      "grad_norm": 0.5384320616722107,
+      "learning_rate": 0.0001966676687012558,
+      "loss": 0.8881,
+      "step": 1779
+    },
+    {
+      "epoch": 0.4131368225600557,
+      "grad_norm": 0.6178532838821411,
+      "learning_rate": 0.00019666393392733228,
+      "loss": 0.9724,
+      "step": 1780
+    },
+    {
+      "epoch": 0.4133689218985726,
+      "grad_norm": 0.5532113313674927,
+      "learning_rate": 0.00019666019709717344,
+      "loss": 0.9535,
+      "step": 1781
+    },
+    {
+      "epoch": 0.4136010212370895,
+      "grad_norm": 0.5668889880180359,
+      "learning_rate": 0.00019665645821085876,
+      "loss": 0.9127,
+      "step": 1782
+    },
+    {
+      "epoch": 0.41383312057560634,
+      "grad_norm": 0.5764045715332031,
+      "learning_rate": 0.00019665271726846783,
+      "loss": 0.9412,
+      "step": 1783
+    },
+    {
+      "epoch": 0.41406521991412326,
+      "grad_norm": 0.5341030955314636,
+      "learning_rate": 0.00019664897427008014,
+      "loss": 0.9349,
+      "step": 1784
+    },
+    {
+      "epoch": 0.41429731925264013,
+      "grad_norm": 0.6231575012207031,
+      "learning_rate": 0.00019664522921577544,
+      "loss": 0.8928,
+      "step": 1785
+    },
+    {
+      "epoch": 0.414529418591157,
+      "grad_norm": 0.5901029706001282,
+      "learning_rate": 0.00019664148210563328,
+      "loss": 0.9054,
+      "step": 1786
+    },
+    {
+      "epoch": 0.4147615179296739,
+      "grad_norm": 0.5409894585609436,
+      "learning_rate": 0.0001966377329397334,
+      "loss": 0.8859,
+      "step": 1787
+    },
+    {
+      "epoch": 0.4149936172681908,
+      "grad_norm": 0.6134136915206909,
+      "learning_rate": 0.00019663398171815554,
+      "loss": 0.8984,
+      "step": 1788
+    },
+    {
+      "epoch": 0.41522571660670765,
+      "grad_norm": 0.5341612696647644,
+      "learning_rate": 0.00019663022844097956,
+      "loss": 0.8723,
+      "step": 1789
+    },
+    {
+      "epoch": 0.4154578159452246,
+      "grad_norm": 0.5658878684043884,
+      "learning_rate": 0.00019662647310828523,
+      "loss": 0.8559,
+      "step": 1790
+    },
+    {
+      "epoch": 0.41568991528374144,
+      "grad_norm": 0.49125760793685913,
+      "learning_rate": 0.00019662271572015247,
+      "loss": 0.8786,
+      "step": 1791
+    },
+    {
+      "epoch": 0.4159220146222583,
+      "grad_norm": 0.6301273703575134,
+      "learning_rate": 0.00019661895627666115,
+      "loss": 0.8943,
+      "step": 1792
+    },
+    {
+      "epoch": 0.41615411396077523,
+      "grad_norm": 0.5750293731689453,
+      "learning_rate": 0.00019661519477789135,
+      "loss": 0.8957,
+      "step": 1793
+    },
+    {
+      "epoch": 0.4163862132992921,
+      "grad_norm": 0.5299922823905945,
+      "learning_rate": 0.000196611431223923,
+      "loss": 0.963,
+      "step": 1794
+    },
+    {
+      "epoch": 0.41661831263780896,
+      "grad_norm": 0.7080173492431641,
+      "learning_rate": 0.00019660766561483618,
+      "loss": 0.9599,
+      "step": 1795
+    },
+    {
+      "epoch": 0.4168504119763259,
+      "grad_norm": 0.5741339921951294,
+      "learning_rate": 0.00019660389795071097,
+      "loss": 0.941,
+      "step": 1796
+    },
+    {
+      "epoch": 0.41708251131484275,
+      "grad_norm": 0.5957292318344116,
+      "learning_rate": 0.00019660012823162755,
+      "loss": 0.91,
+      "step": 1797
+    },
+    {
+      "epoch": 0.4173146106533596,
+      "grad_norm": 0.5832741856575012,
+      "learning_rate": 0.0001965963564576661,
+      "loss": 0.9038,
+      "step": 1798
+    },
+    {
+      "epoch": 0.41754670999187654,
+      "grad_norm": 0.613530158996582,
+      "learning_rate": 0.00019659258262890683,
+      "loss": 0.9392,
+      "step": 1799
+    },
+    {
+      "epoch": 0.4177788093303934,
+      "grad_norm": 0.5645830631256104,
+      "learning_rate": 0.00019658880674543004,
+      "loss": 0.9393,
+      "step": 1800
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.989780893663232e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null