Uploaded checkpoint-20000

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +186 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4dabf74ae279de7b02efca8e86a8be7d6678c1fde1ca611cfcb013f2db9f286e
 size 119975656

 version https://git-lfs.github.com/spec/v1
+oid sha256:1094cefddb8a4c25c681c6cde66e2e7b24fd394103df2badf5c69d6900ada43b
 size 119975656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc93622196a281534191fa7817fe5473a0ed384e0fb7c72748dc1413da4ed838
 size 60477396

 version https://git-lfs.github.com/spec/v1
+oid sha256:645d5b94ee5359b4733aca4181803ae6254706a9713eb85a854d8057e3a67182
 size 60477396

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21391ce535d5dea001dfdd91c5b0f4da5fd63a663039abb0d77f3eadaeb8b4e4
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e33dda9942df9cbad9cd46793f638f52f82780e545c7592c3d1cbe682087eb0
+size 14180

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d75cd0c4e544f7391f9754fd838738017fc0e36a7e8de482816ca502f9dc5c07
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:29c7a79b53a589de48d3b7a21df9c0d024be4dea79f68869f72fdc01ae3b212a
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4375,
   "eval_steps": 2500,
-  "global_step": 17500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1288,6 +1288,189 @@
       "eval_samples_per_second": 9.594,
       "eval_steps_per_second": 9.594,
       "step": 17500
     }
   ],
   "logging_steps": 100,
@@ -1295,7 +1478,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
-  "total_flos": 2.8178720489472e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5,
   "eval_steps": 2500,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.594,
       "eval_steps_per_second": 9.594,
       "step": 17500
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 7.914300918579102,
+      "learning_rate": 2.461538461538462e-06,
+      "loss": 0.7651,
+      "step": 17600
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 4.809656620025635,
+      "learning_rate": 2.358974358974359e-06,
+      "loss": 0.7631,
+      "step": 17700
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 6.220585823059082,
+      "learning_rate": 2.2564102564102566e-06,
+      "loss": 0.7925,
+      "step": 17800
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 3.666391611099243,
+      "learning_rate": 2.153846153846154e-06,
+      "loss": 0.7857,
+      "step": 17900
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 5.744978427886963,
+      "learning_rate": 2.0512820512820513e-06,
+      "loss": 0.8025,
+      "step": 18000
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 5.490359783172607,
+      "learning_rate": 1.948717948717949e-06,
+      "loss": 0.8005,
+      "step": 18100
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 3.3625869750976562,
+      "learning_rate": 1.8461538461538465e-06,
+      "loss": 0.7753,
+      "step": 18200
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 13.186784744262695,
+      "learning_rate": 1.7435897435897436e-06,
+      "loss": 0.7705,
+      "step": 18300
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 2.9938299655914307,
+      "learning_rate": 1.6410256410256412e-06,
+      "loss": 0.7838,
+      "step": 18400
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 3.876194477081299,
+      "learning_rate": 1.5384615384615387e-06,
+      "loss": 0.7963,
+      "step": 18500
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 8.027066230773926,
+      "learning_rate": 1.4358974358974359e-06,
+      "loss": 0.7841,
+      "step": 18600
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 6.673095226287842,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.7676,
+      "step": 18700
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 6.047390460968018,
+      "learning_rate": 1.230769230769231e-06,
+      "loss": 0.7792,
+      "step": 18800
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 3.341261625289917,
+      "learning_rate": 1.1282051282051283e-06,
+      "loss": 0.7712,
+      "step": 18900
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 9.690947532653809,
+      "learning_rate": 1.0256410256410257e-06,
+      "loss": 0.768,
+      "step": 19000
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.3877036571502686,
+      "learning_rate": 9.230769230769232e-07,
+      "loss": 0.786,
+      "step": 19100
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 5.060111045837402,
+      "learning_rate": 8.205128205128206e-07,
+      "loss": 0.7492,
+      "step": 19200
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 4.0241570472717285,
+      "learning_rate": 7.179487179487179e-07,
+      "loss": 0.7638,
+      "step": 19300
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 6.047507286071777,
+      "learning_rate": 6.153846153846155e-07,
+      "loss": 0.7702,
+      "step": 19400
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 4.642309665679932,
+      "learning_rate": 5.128205128205128e-07,
+      "loss": 0.7541,
+      "step": 19500
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 10.096720695495605,
+      "learning_rate": 4.102564102564103e-07,
+      "loss": 0.7686,
+      "step": 19600
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 11.970602035522461,
+      "learning_rate": 3.0769230769230774e-07,
+      "loss": 0.7619,
+      "step": 19700
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 6.973097801208496,
+      "learning_rate": 2.0512820512820514e-07,
+      "loss": 0.7798,
+      "step": 19800
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 4.512222766876221,
+      "learning_rate": 1.0256410256410257e-07,
+      "loss": 0.7444,
+      "step": 19900
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 3.21940541267395,
+      "learning_rate": 0.0,
+      "loss": 0.7902,
+      "step": 20000
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.7663924694061279,
+      "eval_runtime": 104.2963,
+      "eval_samples_per_second": 9.588,
+      "eval_steps_per_second": 9.588,
+      "step": 20000
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
+  "total_flos": 3.2204251987968e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null