Training in progress, step 5, checkpoint

Browse files

Files changed (10) hide show

last-checkpoint/adapter_config.json +2 -2
last-checkpoint/adapter_model.safetensors +2 -2
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/special_tokens_map.json +1 -1
last-checkpoint/tokenizer.json +2 -2
last-checkpoint/tokenizer_config.json +1 -9
last-checkpoint/trainer_state.json +22 -73
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,11 +20,11 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
     "up_proj",
-    "k_proj",
     "gate_proj",
     "down_proj",
     "q_proj",
     "v_proj"
   ],

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
     "gate_proj",
+    "o_proj",
     "down_proj",
+    "k_proj",
     "q_proj",
     "v_proj"
   ],

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9851f2ce2335fa9ceff2d08c7791e820790ceffb6985e73379c7f3b6164d098
-size 1095799992

 version https://git-lfs.github.com/spec/v1
+oid sha256:4eaf666384dd4097633b64380f5256d90c768219ac3ef92ed6198968879cc234
+size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65c800f5a3ae6886e6ad5da5df430221364a720abc9ee96054c5417a17800c77
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:afd01c697957759415a5cba455daa181ffc10443a8e0323d089f4e6d10ed29a7
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f6478bb299c9ce1748f21b3376abcd598c4f5e5d476f17a8bb2fb903e082807
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1b341f5d1cca25903f2af914332ce7846ff94b425ff95396e49d78d4c84d2cd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb578e75c11a81e85dda67a691f96ba4793a02960f1409fd3e1511aac873491a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cda2d7da3ce8a95be6df505b84eace6ccd5aa18ffc6d1bcc9a79572045c8d78f
 size 1064

last-checkpoint/special_tokens_map.json CHANGED Viewed

@@ -14,7 +14,7 @@
     "single_word": false
   },
   "pad_token": {
-    "content": " ",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

     "single_word": false
   },
   "pad_token": {
+    "content": "<|finetune_right_pad_id|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

last-checkpoint/tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22e9418ab95984e7ef5a01738e939415416ecded62e900139d3054935604f200
-size 17210098

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b9e4e7fb171f92fd137b777cc2714bf87d11576700a1dcd7a399e7bbe39537b
+size 17209920

last-checkpoint/tokenizer_config.json CHANGED Viewed

@@ -2047,14 +2047,6 @@
       "rstrip": false,
       "single_word": false,
       "special": true
-    },
-    "128256": {
-      "content": " ",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
     }
   },
   "bos_token": "<|begin_of_text|>",
@@ -2066,7 +2058,7 @@
     "attention_mask"
   ],
   "model_max_length": 131072,
-  "pad_token": " ",
   "padding_side": "left",
   "tokenizer_class": "PreTrainedTokenizerFast"
 }

       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "bos_token": "<|begin_of_text|>",
     "attention_mask"
   ],
   "model_max_length": 131072,
+  "pad_token": "<|finetune_right_pad_id|>",
   "padding_side": "left",
   "tokenizer_class": "PreTrainedTokenizerFast"
 }

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,114 +1,63 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04678362573099415,
   "eval_steps": 3,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.004678362573099415,
-      "grad_norm": 24.10063362121582,
       "learning_rate": 2e-05,
-      "loss": 3.9024,
       "step": 1
     },
     {
       "epoch": 0.004678362573099415,
-      "eval_loss": 3.851412057876587,
-      "eval_runtime": 19.4247,
-      "eval_samples_per_second": 4.633,
-      "eval_steps_per_second": 2.317,
       "step": 1
     },
     {
       "epoch": 0.00935672514619883,
-      "grad_norm": 22.118074417114258,
       "learning_rate": 4e-05,
-      "loss": 3.9457,
       "step": 2
     },
     {
       "epoch": 0.014035087719298246,
-      "grad_norm": 20.144309997558594,
       "learning_rate": 6e-05,
-      "loss": 3.7873,
       "step": 3
     },
     {
       "epoch": 0.014035087719298246,
-      "eval_loss": 3.515256643295288,
-      "eval_runtime": 19.367,
-      "eval_samples_per_second": 4.647,
-      "eval_steps_per_second": 2.324,
       "step": 3
     },
     {
       "epoch": 0.01871345029239766,
-      "grad_norm": 14.628968238830566,
       "learning_rate": 8e-05,
-      "loss": 3.3904,
       "step": 4
     },
     {
       "epoch": 0.023391812865497075,
-      "grad_norm": 20.263803482055664,
       "learning_rate": 0.0001,
-      "loss": 3.0809,
       "step": 5
-    },
-    {
-      "epoch": 0.028070175438596492,
-      "grad_norm": 21.53115463256836,
-      "learning_rate": 0.00012,
-      "loss": 1.9426,
-      "step": 6
-    },
-    {
-      "epoch": 0.028070175438596492,
-      "eval_loss": 0.6338469386100769,
-      "eval_runtime": 19.4514,
-      "eval_samples_per_second": 4.627,
-      "eval_steps_per_second": 2.313,
-      "step": 6
-    },
-    {
-      "epoch": 0.03274853801169591,
-      "grad_norm": 12.841294288635254,
-      "learning_rate": 0.00014,
-      "loss": 0.5604,
-      "step": 7
-    },
-    {
-      "epoch": 0.03742690058479532,
-      "grad_norm": 3.9876534938812256,
-      "learning_rate": 0.00016,
-      "loss": 0.2407,
-      "step": 8
-    },
-    {
-      "epoch": 0.042105263157894736,
-      "grad_norm": 2.328019380569458,
-      "learning_rate": 0.00018,
-      "loss": 0.0884,
-      "step": 9
-    },
-    {
-      "epoch": 0.042105263157894736,
-      "eval_loss": 0.06048693507909775,
-      "eval_runtime": 19.4626,
-      "eval_samples_per_second": 4.624,
-      "eval_steps_per_second": 2.312,
-      "step": 9
-    },
-    {
-      "epoch": 0.04678362573099415,
-      "grad_norm": 0.9690966606140137,
-      "learning_rate": 0.0002,
-      "loss": 0.0289,
-      "step": 10
     }
   ],
   "logging_steps": 1,
@@ -123,12 +72,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 1935445139128320.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.023391812865497075,
   "eval_steps": 3,
+  "global_step": 5,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.004678362573099415,
+      "grad_norm": 0.6735537648200989,
       "learning_rate": 2e-05,
+      "loss": 0.1972,
       "step": 1
     },
     {
       "epoch": 0.004678362573099415,
+      "eval_loss": 0.3719722628593445,
+      "eval_runtime": 18.7839,
+      "eval_samples_per_second": 4.791,
+      "eval_steps_per_second": 2.396,
       "step": 1
     },
     {
       "epoch": 0.00935672514619883,
+      "grad_norm": 0.9589656591415405,
       "learning_rate": 4e-05,
+      "loss": 0.2563,
       "step": 2
     },
     {
       "epoch": 0.014035087719298246,
+      "grad_norm": 0.5426504015922546,
       "learning_rate": 6e-05,
+      "loss": 0.0768,
       "step": 3
     },
     {
       "epoch": 0.014035087719298246,
+      "eval_loss": 0.36278754472732544,
+      "eval_runtime": 18.8904,
+      "eval_samples_per_second": 4.764,
+      "eval_steps_per_second": 2.382,
       "step": 3
     },
     {
       "epoch": 0.01871345029239766,
+      "grad_norm": 1.8147257566452026,
       "learning_rate": 8e-05,
+      "loss": 0.4255,
       "step": 4
     },
     {
       "epoch": 0.023391812865497075,
+      "grad_norm": 1.2051106691360474,
       "learning_rate": 0.0001,
+      "loss": 0.2858,
       "step": 5
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 967722569564160.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26b16adc3474dc959339f40a125db5e9e705f95a61ba36f94f606cb65722e3a6
 size 6648

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8bb872fc4af979d4644be3a4e7cd832ace947512f06305456d5f8aadcc96d23
 size 6648