Training in progress, step 100, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddfe67a44369497ba941790aaedb13a9e576b7a570ced2e459401c6bd22bed7b
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:87e31f39627ba52b48359d084626bc6f99614365bb9537249c642ef0ff5fda15
 size 29034840

last-checkpoint/global_step100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92a53c404163e85ff983692ad570f400e43c2847cdd0d069c483a732b36be8d4
 size 43429616

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c39bc4e3912b020a01c4ad7ed4f21389e5bd74f34aabdc6a1535d7762106341
 size 43429616

last-checkpoint/global_step100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46a03925af6826bf6c00bffcc1584a6359475255347f1f068ef743f7e12c6c9f
 size 43429616

 version https://git-lfs.github.com/spec/v1
+oid sha256:aee732318fb84718d95612348f082dbf37a877f3046b0a67d9dfa1863e6c1ed6
 size 43429616

last-checkpoint/global_step100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2afe739241a4b9f8fe68c79e7e0a64eb9d2b03897a49eafff1469f818907a43a
 size 43429616

 version https://git-lfs.github.com/spec/v1
+oid sha256:12795b9b3aadf57e342191c9336b3e3f7a73f7a535037e521e2730ea93794f3b
 size 43429616

last-checkpoint/global_step100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d104230696d55717acd3c2b8a4d72163b534dabb303f6e09895a2f79f4e79a0e
 size 43429616

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3a9d632fcd9f887ae5bfc2bda7691d7e9e567c4b151964d4183789e16348bda
 size 43429616

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step50~~


1	+ global_step100

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbe0d720c4c75a6a04213fa3b64bacbe794718a53e2b56ebb67a1a795014dfad
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:308f94f9a5c24e1bad5c393d56ae7af7782600f4e791d9c6ac35b22fff2105b6
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72452d3138d0ca2ff89429e3294a834ae7a68e8596fc757735ca56ae52509d57
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b056f3c23cb32dc77a2ec9e7651e0b64e4440e21f0fdf969b86bfc56a1cbdf06
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f36e306fb8ebcf53a167bfd6c9af74db410a269ada1e619e3e816f5269543b9d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3f8a05714bc528f4885a2816181652f2303b3e8150f89b56aaee6bec56aa520
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb47ce0c6f815a6f8302b0e3819b4c2315ca71dae3138d97fdceb765cdd0a039
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f755bd3c330281961e5c03af9d10ce8c1e1678619d384f6f1fd5fd7dce2ff50
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cca48e2d3844a29a683fd85ffce1b801b7cef50edd6cbd3fd12220cfd7592690
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68f3697ebde6b4b610ed5967d76917d2bfd154b81c4fd80c169590521cb7d60
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.889969527721405,
   "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale4/lora/sft/checkpoint-50",
-  "epoch": 0.022172949002217297,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -96,11 +96,100 @@
       "eval_steps_per_second": 0.314,
       "num_input_tokens_seen": 521992,
       "step": 50
     }
   ],
   "logging_steps": 5,
   "max_steps": 1200,
-  "num_input_tokens_seen": 521992,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -115,7 +204,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 34435736010752.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.889969527721405,
   "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale4/lora/sft/checkpoint-50",
+  "epoch": 0.04434589800443459,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.314,
       "num_input_tokens_seen": 521992,
       "step": 50
+    },
+    {
+      "epoch": 0.024390243902439025,
+      "grad_norm": 0.9805700614384589,
+      "learning_rate": 9.166666666666667e-05,
+      "loss": 0.9117,
+      "num_input_tokens_seen": 574288,
+      "step": 55
+    },
+    {
+      "epoch": 0.026607538802660754,
+      "grad_norm": 0.9233792774186961,
+      "learning_rate": 0.0001,
+      "loss": 0.8536,
+      "num_input_tokens_seen": 626960,
+      "step": 60
+    },
+    {
+      "epoch": 0.028824833702882482,
+      "grad_norm": 0.6897618492525014,
+      "learning_rate": 9.999525361252996e-05,
+      "loss": 0.8525,
+      "num_input_tokens_seen": 678248,
+      "step": 65
+    },
+    {
+      "epoch": 0.031042128603104215,
+      "grad_norm": 0.4751822186720059,
+      "learning_rate": 9.998101535124758e-05,
+      "loss": 0.8411,
+      "num_input_tokens_seen": 730376,
+      "step": 70
+    },
+    {
+      "epoch": 0.03325942350332594,
+      "grad_norm": 0.8184941608670437,
+      "learning_rate": 9.995728791936504e-05,
+      "loss": 0.8105,
+      "num_input_tokens_seen": 781648,
+      "step": 75
+    },
+    {
+      "epoch": 0.03547671840354767,
+      "grad_norm": 0.930967493911239,
+      "learning_rate": 9.992407582166581e-05,
+      "loss": 0.8383,
+      "num_input_tokens_seen": 833096,
+      "step": 80
+    },
+    {
+      "epoch": 0.037694013303769404,
+      "grad_norm": 0.9048736490092079,
+      "learning_rate": 9.988138536364922e-05,
+      "loss": 0.8133,
+      "num_input_tokens_seen": 885648,
+      "step": 85
+    },
+    {
+      "epoch": 0.03991130820399113,
+      "grad_norm": 1.4017690802266505,
+      "learning_rate": 9.98292246503335e-05,
+      "loss": 0.8217,
+      "num_input_tokens_seen": 938208,
+      "step": 90
+    },
+    {
+      "epoch": 0.04212860310421286,
+      "grad_norm": 1.2230184844510747,
+      "learning_rate": 9.976760358471686e-05,
+      "loss": 0.7601,
+      "num_input_tokens_seen": 989992,
+      "step": 95
+    },
+    {
+      "epoch": 0.04434589800443459,
+      "grad_norm": 1.108668630058659,
+      "learning_rate": 9.969653386589748e-05,
+      "loss": 0.7938,
+      "num_input_tokens_seen": 1042120,
+      "step": 100
+    },
+    {
+      "epoch": 0.04434589800443459,
+      "eval_loss": 0.8915936946868896,
+      "eval_runtime": 19.4403,
+      "eval_samples_per_second": 3.086,
+      "eval_steps_per_second": 0.772,
+      "num_input_tokens_seen": 1042120,
+      "step": 100
     }
   ],
   "logging_steps": 5,
   "max_steps": 1200,
+  "num_input_tokens_seen": 1042120,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 68727405543424.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null