Training in progress, step 5, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/README.md +1 -1
last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +29 -80
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -199,4 +199,4 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 [More Information Needed]
 ### Framework versions
-- PEFT 0.13.0

 [More Information Needed]
 ### Framework versions
+- PEFT 0.13.2

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "down_proj",
-    "q_proj",
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "q_proj",
+    "k_proj",
+    "up_proj",
     "v_proj",
+    "gate_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:492c34ce089793c66bef58ab1a85e15ee11f6bda47da0a1585388b1922af74b5
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:45c523e535bb5eab432da370408378bd0959bf6549fdc0b20be0c2ea3658dc30
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43a94f06a4d8bc5d744c7850a4919ae054a738d179085d46cfeb9e1f8e4abc5c
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8b01be12122a074ab9ff608c9e481a16311cb45523dc77bbc8b651c792243e4
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f6478bb299c9ce1748f21b3376abcd598c4f5e5d476f17a8bb2fb903e082807
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:24df05627e2e86925ca37683e21f902381144a8ad40105a0738461c44ce5f2e2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb578e75c11a81e85dda67a691f96ba4793a02960f1409fd3e1511aac873491a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cda2d7da3ce8a95be6df505b84eace6ccd5aa18ffc6d1bcc9a79572045c8d78f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,114 +1,63 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.025789813023855575,
   "eval_steps": 3,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0025789813023855577,
-      "grad_norm": 1.0866130590438843,
       "learning_rate": 2e-05,
-      "loss": 1.0005,
       "step": 1
     },
     {
-      "epoch": 0.0025789813023855577,
-      "eval_loss": 1.0008565187454224,
-      "eval_runtime": 33.834,
-      "eval_samples_per_second": 4.847,
-      "eval_steps_per_second": 2.424,
       "step": 1
     },
     {
-      "epoch": 0.0051579626047711154,
-      "grad_norm": 1.0294866561889648,
       "learning_rate": 4e-05,
-      "loss": 0.9353,
       "step": 2
     },
     {
-      "epoch": 0.007736943907156673,
-      "grad_norm": 1.1095036268234253,
       "learning_rate": 6e-05,
-      "loss": 0.9896,
       "step": 3
     },
     {
-      "epoch": 0.007736943907156673,
-      "eval_loss": 0.9948899745941162,
-      "eval_runtime": 33.8316,
-      "eval_samples_per_second": 4.848,
-      "eval_steps_per_second": 2.424,
       "step": 3
     },
     {
-      "epoch": 0.010315925209542231,
-      "grad_norm": 1.0296807289123535,
       "learning_rate": 8e-05,
-      "loss": 1.122,
       "step": 4
     },
     {
-      "epoch": 0.012894906511927788,
-      "grad_norm": 0.6904521584510803,
       "learning_rate": 0.0001,
-      "loss": 0.8535,
       "step": 5
-    },
-    {
-      "epoch": 0.015473887814313346,
-      "grad_norm": 0.8963657021522522,
-      "learning_rate": 0.00012,
-      "loss": 0.8817,
-      "step": 6
-    },
-    {
-      "epoch": 0.015473887814313346,
-      "eval_loss": 0.9521864056587219,
-      "eval_runtime": 33.898,
-      "eval_samples_per_second": 4.838,
-      "eval_steps_per_second": 2.419,
-      "step": 6
-    },
-    {
-      "epoch": 0.018052869116698903,
-      "grad_norm": 0.8027058839797974,
-      "learning_rate": 0.00014,
-      "loss": 0.924,
-      "step": 7
-    },
-    {
-      "epoch": 0.020631850419084462,
-      "grad_norm": 0.7688745856285095,
-      "learning_rate": 0.00016,
-      "loss": 0.8294,
-      "step": 8
-    },
-    {
-      "epoch": 0.02321083172147002,
-      "grad_norm": 0.5971044898033142,
-      "learning_rate": 0.00018,
-      "loss": 0.9617,
-      "step": 9
-    },
-    {
-      "epoch": 0.02321083172147002,
-      "eval_loss": 0.9009978771209717,
-      "eval_runtime": 33.886,
-      "eval_samples_per_second": 4.84,
-      "eval_steps_per_second": 2.42,
-      "step": 9
-    },
-    {
-      "epoch": 0.025789813023855575,
-      "grad_norm": 0.6391702890396118,
-      "learning_rate": 0.0002,
-      "loss": 0.8898,
-      "step": 10
     }
   ],
   "logging_steps": 1,
@@ -123,12 +72,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 1935445139128320.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0029120559114735,
   "eval_steps": 3,
+  "global_step": 5,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0005824111822947001,
+      "grad_norm": 4.431249618530273,
       "learning_rate": 2e-05,
+      "loss": 2.441,
       "step": 1
     },
     {
+      "epoch": 0.0005824111822947001,
+      "eval_loss": 2.366206645965576,
+      "eval_runtime": 109.5177,
+      "eval_samples_per_second": 6.602,
+      "eval_steps_per_second": 3.305,
       "step": 1
     },
     {
+      "epoch": 0.0011648223645894002,
+      "grad_norm": 3.182062864303589,
       "learning_rate": 4e-05,
+      "loss": 2.416,
       "step": 2
     },
     {
+      "epoch": 0.0017472335468841002,
+      "grad_norm": 3.0722639560699463,
       "learning_rate": 6e-05,
+      "loss": 2.8122,
       "step": 3
     },
     {
+      "epoch": 0.0017472335468841002,
+      "eval_loss": 2.335751533508301,
+      "eval_runtime": 109.7628,
+      "eval_samples_per_second": 6.587,
+      "eval_steps_per_second": 3.298,
       "step": 3
     },
     {
+      "epoch": 0.0023296447291788003,
+      "grad_norm": 2.7917280197143555,
       "learning_rate": 8e-05,
+      "loss": 2.1245,
       "step": 4
     },
     {
+      "epoch": 0.0029120559114735,
+      "grad_norm": 3.1003541946411133,
       "learning_rate": 0.0001,
+      "loss": 2.2093,
       "step": 5
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 967722569564160.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:256adf7699ab7326b0a85e5d5de013f697d70ba6f2b261b23aec303bc035c096
 size 6648

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fc628c25d261dd6a2dfdcd2e8f4bb18d9b96223fe41a21c1fef9fba98a3adc6
 size 6648