Training in progress, step 1850, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c19a8c4ff78657e1ad6849d03827d74a166332e2c92b5ee4c34966f79e091caa
 size 1370666272

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a44dfb5e264781c6f6c2ec17953b55c8d56028cea17c18c1ea00e1a273ca0df
 size 1370666272

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10c0470d53e83293b301fcaf8b6ed1125194ec8f54fe9618703c1367bf9a41e7
 size 697294462

 version https://git-lfs.github.com/spec/v1
+oid sha256:64d8002ffbd9ad944ead17d83c487490d6c027e65dfe6f984e192a6959e76693
 size 697294462

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d290a2c62404485bacce37c57039bbf078af94d6cf0884b19d2a678f11aec096
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1839c408b2800d1f16254de5db0d477776bbfae78a9c676838bcb325c436cdf1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4177788093303934,
   "eval_steps": 500,
-  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12607,6 +12607,356 @@
       "learning_rate": 0.00019658880674543004,
       "loss": 0.9393,
       "step": 1800
     }
   ],
   "logging_steps": 1,
@@ -12626,7 +12976,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.989780893663232e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4293837762562377,
   "eval_steps": 500,
+  "global_step": 1850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00019658880674543004,
       "loss": 0.9393,
       "step": 1800
+    },
+    {
+      "epoch": 0.4180109086689103,
+      "grad_norm": 0.5023618936538696,
+      "learning_rate": 0.00019658502880731609,
+      "loss": 0.8936,
+      "step": 1801
+    },
+    {
+      "epoch": 0.4182430080074272,
+      "grad_norm": 0.7162852883338928,
+      "learning_rate": 0.00019658124881464525,
+      "loss": 0.9267,
+      "step": 1802
+    },
+    {
+      "epoch": 0.41847510734594406,
+      "grad_norm": 0.6218928694725037,
+      "learning_rate": 0.000196577466767498,
+      "loss": 0.9263,
+      "step": 1803
+    },
+    {
+      "epoch": 0.41870720668446093,
+      "grad_norm": 0.5862722396850586,
+      "learning_rate": 0.00019657368266595476,
+      "loss": 0.8879,
+      "step": 1804
+    },
+    {
+      "epoch": 0.41893930602297785,
+      "grad_norm": 0.5510787963867188,
+      "learning_rate": 0.00019656989651009607,
+      "loss": 0.9052,
+      "step": 1805
+    },
+    {
+      "epoch": 0.4191714053614947,
+      "grad_norm": 0.6477943062782288,
+      "learning_rate": 0.00019656610830000242,
+      "loss": 0.8852,
+      "step": 1806
+    },
+    {
+      "epoch": 0.4194035047000116,
+      "grad_norm": 0.5812867283821106,
+      "learning_rate": 0.0001965623180357544,
+      "loss": 0.946,
+      "step": 1807
+    },
+    {
+      "epoch": 0.4196356040385285,
+      "grad_norm": 0.5934841632843018,
+      "learning_rate": 0.00019655852571743264,
+      "loss": 0.9071,
+      "step": 1808
+    },
+    {
+      "epoch": 0.4198677033770454,
+      "grad_norm": 0.5561374425888062,
+      "learning_rate": 0.00019655473134511784,
+      "loss": 0.927,
+      "step": 1809
+    },
+    {
+      "epoch": 0.42009980271556224,
+      "grad_norm": 1.1915708780288696,
+      "learning_rate": 0.00019655093491889068,
+      "loss": 0.8689,
+      "step": 1810
+    },
+    {
+      "epoch": 0.42033190205407917,
+      "grad_norm": 0.6147586107254028,
+      "learning_rate": 0.00019654713643883193,
+      "loss": 0.884,
+      "step": 1811
+    },
+    {
+      "epoch": 0.42056400139259603,
+      "grad_norm": 0.5104571580886841,
+      "learning_rate": 0.00019654333590502234,
+      "loss": 0.9142,
+      "step": 1812
+    },
+    {
+      "epoch": 0.4207961007311129,
+      "grad_norm": 0.5579031705856323,
+      "learning_rate": 0.00019653953331754285,
+      "loss": 0.9324,
+      "step": 1813
+    },
+    {
+      "epoch": 0.4210282000696298,
+      "grad_norm": 0.5296502709388733,
+      "learning_rate": 0.00019653572867647426,
+      "loss": 0.8842,
+      "step": 1814
+    },
+    {
+      "epoch": 0.4212602994081467,
+      "grad_norm": 0.5059155821800232,
+      "learning_rate": 0.0001965319219818976,
+      "loss": 0.9587,
+      "step": 1815
+    },
+    {
+      "epoch": 0.42149239874666355,
+      "grad_norm": 0.565586507320404,
+      "learning_rate": 0.00019652811323389376,
+      "loss": 0.9126,
+      "step": 1816
+    },
+    {
+      "epoch": 0.4217244980851805,
+      "grad_norm": 0.5331727266311646,
+      "learning_rate": 0.00019652430243254377,
+      "loss": 0.9126,
+      "step": 1817
+    },
+    {
+      "epoch": 0.42195659742369734,
+      "grad_norm": 0.677875816822052,
+      "learning_rate": 0.00019652048957792876,
+      "loss": 0.9316,
+      "step": 1818
+    },
+    {
+      "epoch": 0.4221886967622142,
+      "grad_norm": 0.5276561975479126,
+      "learning_rate": 0.00019651667467012978,
+      "loss": 0.8651,
+      "step": 1819
+    },
+    {
+      "epoch": 0.42242079610073113,
+      "grad_norm": 0.5190433859825134,
+      "learning_rate": 0.00019651285770922797,
+      "loss": 0.917,
+      "step": 1820
+    },
+    {
+      "epoch": 0.422652895439248,
+      "grad_norm": 0.5006272792816162,
+      "learning_rate": 0.00019650903869530454,
+      "loss": 0.9645,
+      "step": 1821
+    },
+    {
+      "epoch": 0.42288499477776487,
+      "grad_norm": 0.5366963148117065,
+      "learning_rate": 0.00019650521762844077,
+      "loss": 0.912,
+      "step": 1822
+    },
+    {
+      "epoch": 0.4231170941162818,
+      "grad_norm": 0.4790819585323334,
+      "learning_rate": 0.00019650139450871787,
+      "loss": 0.9122,
+      "step": 1823
+    },
+    {
+      "epoch": 0.42334919345479866,
+      "grad_norm": 0.5402861833572388,
+      "learning_rate": 0.0001964975693362172,
+      "loss": 0.955,
+      "step": 1824
+    },
+    {
+      "epoch": 0.4235812927933155,
+      "grad_norm": 0.5376525521278381,
+      "learning_rate": 0.00019649374211102013,
+      "loss": 0.8837,
+      "step": 1825
+    },
+    {
+      "epoch": 0.42381339213183244,
+      "grad_norm": 0.5535842180252075,
+      "learning_rate": 0.0001964899128332081,
+      "loss": 0.9001,
+      "step": 1826
+    },
+    {
+      "epoch": 0.4240454914703493,
+      "grad_norm": 0.5926379561424255,
+      "learning_rate": 0.0001964860815028625,
+      "loss": 0.9202,
+      "step": 1827
+    },
+    {
+      "epoch": 0.4242775908088662,
+      "grad_norm": 0.547949492931366,
+      "learning_rate": 0.0001964822481200649,
+      "loss": 0.9076,
+      "step": 1828
+    },
+    {
+      "epoch": 0.4245096901473831,
+      "grad_norm": 0.4945877194404602,
+      "learning_rate": 0.00019647841268489682,
+      "loss": 0.9013,
+      "step": 1829
+    },
+    {
+      "epoch": 0.42474178948589997,
+      "grad_norm": 0.4917088449001312,
+      "learning_rate": 0.0001964745751974398,
+      "loss": 0.9332,
+      "step": 1830
+    },
+    {
+      "epoch": 0.42497388882441683,
+      "grad_norm": 0.5218760967254639,
+      "learning_rate": 0.00019647073565777555,
+      "loss": 0.9954,
+      "step": 1831
+    },
+    {
+      "epoch": 0.42520598816293376,
+      "grad_norm": 0.5042544007301331,
+      "learning_rate": 0.00019646689406598567,
+      "loss": 0.9127,
+      "step": 1832
+    },
+    {
+      "epoch": 0.4254380875014506,
+      "grad_norm": 0.4927321672439575,
+      "learning_rate": 0.00019646305042215193,
+      "loss": 0.9304,
+      "step": 1833
+    },
+    {
+      "epoch": 0.4256701868399675,
+      "grad_norm": 0.5180162191390991,
+      "learning_rate": 0.00019645920472635608,
+      "loss": 0.9806,
+      "step": 1834
+    },
+    {
+      "epoch": 0.4259022861784844,
+      "grad_norm": 0.5972525477409363,
+      "learning_rate": 0.0001964553569786799,
+      "loss": 0.8653,
+      "step": 1835
+    },
+    {
+      "epoch": 0.4261343855170013,
+      "grad_norm": 0.5696606636047363,
+      "learning_rate": 0.00019645150717920528,
+      "loss": 0.9044,
+      "step": 1836
+    },
+    {
+      "epoch": 0.42636648485551815,
+      "grad_norm": 0.6031782031059265,
+      "learning_rate": 0.00019644765532801412,
+      "loss": 0.9033,
+      "step": 1837
+    },
+    {
+      "epoch": 0.42659858419403507,
+      "grad_norm": 0.5550394654273987,
+      "learning_rate": 0.0001964438014251883,
+      "loss": 0.9123,
+      "step": 1838
+    },
+    {
+      "epoch": 0.42683068353255194,
+      "grad_norm": 0.6705706119537354,
+      "learning_rate": 0.00019643994547080982,
+      "loss": 0.9248,
+      "step": 1839
+    },
+    {
+      "epoch": 0.4270627828710688,
+      "grad_norm": 0.6391993761062622,
+      "learning_rate": 0.0001964360874649607,
+      "loss": 0.9417,
+      "step": 1840
+    },
+    {
+      "epoch": 0.4272948822095857,
+      "grad_norm": 0.4748203754425049,
+      "learning_rate": 0.0001964322274077231,
+      "loss": 0.9371,
+      "step": 1841
+    },
+    {
+      "epoch": 0.4275269815481026,
+      "grad_norm": 0.6255447864532471,
+      "learning_rate": 0.000196428365299179,
+      "loss": 0.8876,
+      "step": 1842
+    },
+    {
+      "epoch": 0.42775908088661946,
+      "grad_norm": 0.5568214058876038,
+      "learning_rate": 0.00019642450113941057,
+      "loss": 0.9473,
+      "step": 1843
+    },
+    {
+      "epoch": 0.4279911802251364,
+      "grad_norm": 0.609748363494873,
+      "learning_rate": 0.0001964206349285001,
+      "loss": 0.897,
+      "step": 1844
+    },
+    {
+      "epoch": 0.42822327956365325,
+      "grad_norm": 0.6173092722892761,
+      "learning_rate": 0.00019641676666652978,
+      "loss": 0.9228,
+      "step": 1845
+    },
+    {
+      "epoch": 0.4284553789021701,
+      "grad_norm": 0.5989368557929993,
+      "learning_rate": 0.00019641289635358186,
+      "loss": 0.9863,
+      "step": 1846
+    },
+    {
+      "epoch": 0.42868747824068704,
+      "grad_norm": 0.651771605014801,
+      "learning_rate": 0.00019640902398973873,
+      "loss": 0.9606,
+      "step": 1847
+    },
+    {
+      "epoch": 0.4289195775792039,
+      "grad_norm": 0.6313779354095459,
+      "learning_rate": 0.0001964051495750827,
+      "loss": 0.9273,
+      "step": 1848
+    },
+    {
+      "epoch": 0.42915167691772077,
+      "grad_norm": 0.5805069208145142,
+      "learning_rate": 0.00019640127310969628,
+      "loss": 0.8874,
+      "step": 1849
+    },
+    {
+      "epoch": 0.4293837762562377,
+      "grad_norm": 0.6379398107528687,
+      "learning_rate": 0.00019639739459366182,
+      "loss": 0.9533,
+      "step": 1850
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.211719251820544e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null