Training in progress, step 2800, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step2800/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2800/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2800/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2800/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2800/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2800/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2800/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2800/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71879fd91931f28264e3a813a60350149ee278572f6af60c14a93354f4b2e458
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a4775218e4d9519c7e7224a3c5f1838a68e0cfaca11bd2bcf9f97934c96fd4c
 size 29034840

last-checkpoint/global_step2800/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2f0622c084fc6ee7213ea6ef083d7fbe78d41428bd7eef2426a18ec56926f83
+size 43429616

last-checkpoint/global_step2800/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b1bc89c27e182046c49b0a4eec741ec6d4abcf64fc546a7dbaf72c029b7f25c
+size 43429616

last-checkpoint/global_step2800/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7300b60795f90634f69d1acd5bb6001a19025d8375de7ba93002af85968edc6a
+size 43429616

last-checkpoint/global_step2800/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c485cc1fdb8e82d0fcbedfb3ea98649e5ecc11f53d2ab95dbb4149bbfa6bbdcc
+size 43429616

last-checkpoint/global_step2800/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f997960f7f186166b975c90300d6bce3c01ae9ed696d6c6962cf37c6aef47b58
+size 637299

last-checkpoint/global_step2800/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f80a1d396d880ad0020e4df1d51ad7be0886c4ab66c722875e1e8ab089c2b229
+size 637171

last-checkpoint/global_step2800/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ae9598d90f975eb10de5489e7c1fb42af3d9ba46a3f4ce3e6d95f228e07c6be
+size 637171

last-checkpoint/global_step2800/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:995e707df2b78c4fa80e869409936596ec459f4c04a98cb91524bd5a798c99f6
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2750~~


1	+ global_step2800

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d8d3c7739f9787ea797b86ff1b3a51f9e68197835ba3178915a8a77558f67fc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:49db5a9fd0c84d580c671e52905ebeffc155b36537e76ff966d2e82906708999
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a22a57799bc43e59db67d9a787ed73040020c5f35990602033f4dab1318787d7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8ca224562d8d97aaa131b3516288bb99f68d7dcf62170494326662bda0bb206
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29a624b936b77a04d6bfb6940acdd65a710bf39452e419e7ddb5c40fb2261072
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:56e86a11c89dba78d60e1b2a1855a651b90a5a22ef131ce65d26af83668c154e
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a79306817d4440cd621149537e8cf216b60f847fc6f9531a6147426aa02bb07
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3dd63019c923e9692431619aced46b91aaf3fd22e1c22ec0a64347f2fe635a0e
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc99fc5a48a169bebd6bda86672afa6c721f544602a3586f7782ae7070075fc7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0dc59065f970fd13c57a16e5aa2c2ec0e5dc6ba16189267486fbd8cc465a6fd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.1869634985923767,
   "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale6/lora/sft/checkpoint-2350",
-  "epoch": 0.8124076809453471,
   "eval_steps": 50,
-  "global_step": 2750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4902,11 +4902,100 @@
       "eval_steps_per_second": 0.778,
       "num_input_tokens_seen": 28561248,
       "step": 2750
     }
   ],
   "logging_steps": 5,
   "max_steps": 6770,
-  "num_input_tokens_seen": 28561248,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -4921,7 +5010,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1884238220361728.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.1869634985923767,
   "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale6/lora/sft/checkpoint-2350",
+  "epoch": 0.827178729689808,
   "eval_steps": 50,
+  "global_step": 2800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.778,
       "num_input_tokens_seen": 28561248,
       "step": 2750
+    },
+    {
+      "epoch": 0.8138847858197932,
+      "grad_norm": 1.1919186743284782,
+      "learning_rate": 6.903540125961965e-05,
+      "loss": 0.225,
+      "num_input_tokens_seen": 28613120,
+      "step": 2755
+    },
+    {
+      "epoch": 0.8153618906942393,
+      "grad_norm": 1.4599715179768002,
+      "learning_rate": 6.892241440886377e-05,
+      "loss": 0.2365,
+      "num_input_tokens_seen": 28664864,
+      "step": 2760
+    },
+    {
+      "epoch": 0.8168389955686853,
+      "grad_norm": 1.2279132312954155,
+      "learning_rate": 6.880931466717327e-05,
+      "loss": 0.2386,
+      "num_input_tokens_seen": 28716896,
+      "step": 2765
+    },
+    {
+      "epoch": 0.8183161004431314,
+      "grad_norm": 22.206631253466607,
+      "learning_rate": 6.86961027093001e-05,
+      "loss": 0.2358,
+      "num_input_tokens_seen": 28769528,
+      "step": 2770
+    },
+    {
+      "epoch": 0.8197932053175776,
+      "grad_norm": 6.630701043823761,
+      "learning_rate": 6.858277921066568e-05,
+      "loss": 0.2844,
+      "num_input_tokens_seen": 28821304,
+      "step": 2775
+    },
+    {
+      "epoch": 0.8212703101920237,
+      "grad_norm": 0.7473512414072709,
+      "learning_rate": 6.846934484735686e-05,
+      "loss": 0.1867,
+      "num_input_tokens_seen": 28872712,
+      "step": 2780
+    },
+    {
+      "epoch": 0.8227474150664698,
+      "grad_norm": 1.1277045436573916,
+      "learning_rate": 6.83558002961219e-05,
+      "loss": 0.2184,
+      "num_input_tokens_seen": 28924272,
+      "step": 2785
+    },
+    {
+      "epoch": 0.8242245199409158,
+      "grad_norm": 14.609958116422174,
+      "learning_rate": 6.824214623436644e-05,
+      "loss": 0.1938,
+      "num_input_tokens_seen": 28976352,
+      "step": 2790
+    },
+    {
+      "epoch": 0.8257016248153619,
+      "grad_norm": 1.2950871631178849,
+      "learning_rate": 6.812838334014951e-05,
+      "loss": 0.2046,
+      "num_input_tokens_seen": 29028344,
+      "step": 2795
+    },
+    {
+      "epoch": 0.827178729689808,
+      "grad_norm": 1.6899801995875487,
+      "learning_rate": 6.801451229217938e-05,
+      "loss": 0.2507,
+      "num_input_tokens_seen": 29079576,
+      "step": 2800
+    },
+    {
+      "epoch": 0.827178729689808,
+      "eval_loss": 0.32233569025993347,
+      "eval_runtime": 19.2788,
+      "eval_samples_per_second": 3.112,
+      "eval_steps_per_second": 0.778,
+      "num_input_tokens_seen": 29079576,
+      "step": 2800
     }
   ],
   "logging_steps": 5,
   "max_steps": 6770,
+  "num_input_tokens_seen": 29079576,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1918391455318016.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null