Training in progress, step 20, checkpoint

Browse files

Files changed (14) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +84 -41
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -21,12 +21,12 @@
   "revision": null,
   "target_modules": [
     "k_proj",
-    "o_proj",
     "v_proj",
-    "down_proj",
     "gate_proj",
-    "q_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "k_proj",
     "v_proj",
     "gate_proj",
+    "down_proj",
+    "o_proj",
+    "up_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1231cf2320c3ddf0a48d00a2bd902d1c00f7e1dd9637ec965fa3cebb8f2429b6
 size 70430032

 version https://git-lfs.github.com/spec/v1
+oid sha256:300bba3d6dd656ffbc637166ddc9582343511d1ed18f8daea01b247abefa1028
 size 70430032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc4b994d0ca778039ab955f37020ccc28ccaff37cc722a8822ade922d25df1f0
 size 141053442

 version https://git-lfs.github.com/spec/v1
+oid sha256:82ee47a80d61c28550d9cb135a674aed9b17488ca85967cdaeaff8c9c0b02673
 size 141053442

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1a0d4bd220fbf49b44423e5ea9fda4712c0b03ac8a92c54c4c5bf15afb5ba6d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:57123e5fa00d8bf64605cdfc92f79dcb4dbb3559bbbfb51b41fdb47d989f8872
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edb6073028f61942e6821f0ab9162b891c86209f99a33c501339016044a9c441
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b45835c83ef9c4c0a5bed75763b431cdc3a11ef9b94140d06591dfd611da7be
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bc00ccf75b6762a7f099c9008454b44f1bc9472c3e149f6036b50a350283a44
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:14a879c93e2f204b91b53424ff34985f8c3db252cab19bf904db86e98d16d901
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90976ef44f5f57e43d0cf99fb2443d55184425ba2d98614513ee4d389a0137e7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1d3eb999a1ce2a1b384d8d1217cfb813c8f956b1658632c26da6584866764e0
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cef9b14b6afee9b8093272b9d0d6f22386d39de0a387fc62a45799e13a42229
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:2248e517b2313c40d9be69c5ef59cf308803578165c04b5597de02ed383bee4a
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c2d126c6e18640cd77b8db057e63b9b9a5e43322ddd8c6f6562184b4988b02f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5da2d4b911166dd1ebc15cef278dc1f7e2e363a073fc4d50308736b727522613
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c771130a0df904bfee5496151a9d76e7c4d3cb0e42406269389a420e74870b1
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:7103113f3895293b822b7def45fa6586fc05ebf64e849f28dc2477747824a24e
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f75e4a2caa94385e75fe51cf1899554bcfc4aa25fd8a73b6b7a7a1ccd46f737
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb4133e5dca9b975a0a7d4ac8dcb721e563c26208d4c1c8b5604625ea18eaaf4
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eae4efc55c9429b91bdc581cf21d4d1e88799c56c267a0959f657aba014828bf
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:90ba7ee426c710877af00b51544bc25223e2159a4009a97f5f8c523a61cf68ad
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.010666666666666666,
   "eval_steps": 5,
-  "global_step": 15,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -18,9 +18,9 @@
     {
       "epoch": 0.0007111111111111111,
       "eval_loss": 4.628085136413574,
-      "eval_runtime": 44.9571,
-      "eval_samples_per_second": 52.695,
-      "eval_steps_per_second": 6.606,
       "step": 1
     },
     {
@@ -39,111 +39,154 @@
     },
     {
       "epoch": 0.0028444444444444446,
-      "grad_norm": 10.534650802612305,
       "learning_rate": 2e-05,
       "loss": 4.8927,
       "step": 4
     },
     {
       "epoch": 0.0035555555555555557,
-      "grad_norm": 6.7862019538879395,
       "learning_rate": 4e-05,
       "loss": 3.526,
       "step": 5
     },
     {
       "epoch": 0.0035555555555555557,
-      "eval_loss": 4.499617576599121,
-      "eval_runtime": 39.947,
-      "eval_samples_per_second": 59.304,
-      "eval_steps_per_second": 7.435,
       "step": 5
     },
     {
       "epoch": 0.004266666666666667,
-      "grad_norm": 7.032112121582031,
       "learning_rate": 6e-05,
-      "loss": 3.8045,
       "step": 6
     },
     {
       "epoch": 0.004977777777777778,
-      "grad_norm": 6.311283111572266,
       "learning_rate": 8e-05,
-      "loss": 4.0029,
       "step": 7
     },
     {
       "epoch": 0.005688888888888889,
-      "grad_norm": 5.887501239776611,
       "learning_rate": 0.0001,
-      "loss": 3.8592,
       "step": 8
     },
     {
       "epoch": 0.0064,
-      "grad_norm": 4.442018508911133,
       "learning_rate": 0.00012,
-      "loss": 3.252,
       "step": 9
     },
     {
       "epoch": 0.0071111111111111115,
-      "grad_norm": 4.024985313415527,
       "learning_rate": 0.00014,
-      "loss": 3.4748,
       "step": 10
     },
     {
       "epoch": 0.0071111111111111115,
-      "eval_loss": 3.1893694400787354,
-      "eval_runtime": 37.4378,
-      "eval_samples_per_second": 63.278,
-      "eval_steps_per_second": 7.933,
       "step": 10
     },
     {
       "epoch": 0.007822222222222222,
-      "grad_norm": 3.4165191650390625,
       "learning_rate": 0.00016,
-      "loss": 2.8739,
       "step": 11
     },
     {
       "epoch": 0.008533333333333334,
-      "grad_norm": 3.099381446838379,
       "learning_rate": 0.00018,
-      "loss": 2.9354,
       "step": 12
     },
     {
       "epoch": 0.009244444444444444,
-      "grad_norm": 2.8003978729248047,
       "learning_rate": 0.0002,
-      "loss": 2.7117,
       "step": 13
     },
     {
       "epoch": 0.009955555555555556,
-      "grad_norm": 3.4195311069488525,
       "learning_rate": 0.00019510565162951537,
-      "loss": 2.9435,
       "step": 14
     },
     {
       "epoch": 0.010666666666666666,
-      "grad_norm": 4.078439712524414,
       "learning_rate": 0.00018090169943749476,
-      "loss": 2.9743,
       "step": 15
     },
     {
       "epoch": 0.010666666666666666,
-      "eval_loss": 2.8235130310058594,
-      "eval_runtime": 37.5377,
-      "eval_samples_per_second": 63.11,
-      "eval_steps_per_second": 7.912,
       "step": 15
     }
   ],
   "logging_steps": 1,
@@ -158,12 +201,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4429513689661440.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.014222222222222223,
   "eval_steps": 5,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.0007111111111111111,
       "eval_loss": 4.628085136413574,
+      "eval_runtime": 44.4506,
+      "eval_samples_per_second": 53.295,
+      "eval_steps_per_second": 6.682,
       "step": 1
     },
     {
     },
     {
       "epoch": 0.0028444444444444446,
+      "grad_norm": 10.709222793579102,
       "learning_rate": 2e-05,
       "loss": 4.8927,
       "step": 4
     },
     {
       "epoch": 0.0035555555555555557,
+      "grad_norm": 6.892472267150879,
       "learning_rate": 4e-05,
       "loss": 3.526,
       "step": 5
     },
     {
       "epoch": 0.0035555555555555557,
+      "eval_loss": 4.497377395629883,
+      "eval_runtime": 39.8243,
+      "eval_samples_per_second": 59.486,
+      "eval_steps_per_second": 7.458,
       "step": 5
     },
     {
       "epoch": 0.004266666666666667,
+      "grad_norm": 7.115167617797852,
       "learning_rate": 6e-05,
+      "loss": 3.8025,
       "step": 6
     },
     {
       "epoch": 0.004977777777777778,
+      "grad_norm": 6.403872489929199,
       "learning_rate": 8e-05,
+      "loss": 3.9999,
       "step": 7
     },
     {
       "epoch": 0.005688888888888889,
+      "grad_norm": 5.959023952484131,
       "learning_rate": 0.0001,
+      "loss": 3.8508,
       "step": 8
     },
     {
       "epoch": 0.0064,
+      "grad_norm": 4.489181041717529,
       "learning_rate": 0.00012,
+      "loss": 3.2468,
       "step": 9
     },
     {
       "epoch": 0.0071111111111111115,
+      "grad_norm": 4.083322525024414,
       "learning_rate": 0.00014,
+      "loss": 3.4724,
       "step": 10
     },
     {
       "epoch": 0.0071111111111111115,
+      "eval_loss": 3.18164324760437,
+      "eval_runtime": 37.2748,
+      "eval_samples_per_second": 63.555,
+      "eval_steps_per_second": 7.968,
       "step": 10
     },
     {
       "epoch": 0.007822222222222222,
+      "grad_norm": 3.44504714012146,
       "learning_rate": 0.00016,
+      "loss": 2.8699,
       "step": 11
     },
     {
       "epoch": 0.008533333333333334,
+      "grad_norm": 3.153762102127075,
       "learning_rate": 0.00018,
+      "loss": 2.9342,
       "step": 12
     },
     {
       "epoch": 0.009244444444444444,
+      "grad_norm": 2.8073348999023438,
       "learning_rate": 0.0002,
+      "loss": 2.705,
       "step": 13
     },
     {
       "epoch": 0.009955555555555556,
+      "grad_norm": 3.4868123531341553,
       "learning_rate": 0.00019510565162951537,
+      "loss": 2.9463,
       "step": 14
     },
     {
       "epoch": 0.010666666666666666,
+      "grad_norm": 4.070212364196777,
       "learning_rate": 0.00018090169943749476,
+      "loss": 2.9741,
       "step": 15
     },
     {
       "epoch": 0.010666666666666666,
+      "eval_loss": 2.8233630657196045,
+      "eval_runtime": 37.3991,
+      "eval_samples_per_second": 63.344,
+      "eval_steps_per_second": 7.941,
       "step": 15
+    },
+    {
+      "epoch": 0.011377777777777778,
+      "grad_norm": 3.4135398864746094,
+      "learning_rate": 0.00015877852522924732,
+      "loss": 2.9531,
+      "step": 16
+    },
+    {
+      "epoch": 0.012088888888888889,
+      "grad_norm": 3.347476005554199,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 2.9862,
+      "step": 17
+    },
+    {
+      "epoch": 0.0128,
+      "grad_norm": 3.600923538208008,
+      "learning_rate": 0.0001,
+      "loss": 2.8065,
+      "step": 18
+    },
+    {
+      "epoch": 0.013511111111111111,
+      "grad_norm": 3.2915897369384766,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 2.9556,
+      "step": 19
+    },
+    {
+      "epoch": 0.014222222222222223,
+      "grad_norm": 3.3658218383789062,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 2.9325,
+      "step": 20
+    },
+    {
+      "epoch": 0.014222222222222223,
+      "eval_loss": 2.736981153488159,
+      "eval_runtime": 39.7772,
+      "eval_samples_per_second": 59.557,
+      "eval_steps_per_second": 7.467,
+      "step": 20
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5906018252881920.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8141418bd3841ca1203dbe43091f9f4c2e7bd8a0fcec4b0acaf1e81043f1ff89
 size 6712

 version https://git-lfs.github.com/spec/v1
+oid sha256:86fc0fae7af6c964d28cbdfdf0241b208b3b6f862c8f1df4ccaad6f6a5f33100
 size 6712