Training in progress, step 2200, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step2200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2200/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2200/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2200/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2200/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1c3e74f99d6e6f70e37f4de247287b17ec6f7280a9a5e1856338be701a8ce67
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc6d99739705e6763281ee09273da0b205242e8f372f5506b947c515878799f9
 size 29034840

last-checkpoint/global_step2200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4fe043b5cadc8517f11d478e72cd248b162e3a0d1d5114a0ae922964ce360aa
+size 43429616

last-checkpoint/global_step2200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d80d00d7800514d352dd987d59a09c74b7f731db7ab318cda5d99a6207425ae
+size 43429616

last-checkpoint/global_step2200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2c8478e0eacdd6121b67ce4d4c24aaf708a067b154a4317c0140f5adecb156b
+size 43429616

last-checkpoint/global_step2200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c43a286485090fd96465f49f9ad6a8761cf9c17b7fa07db6e5696433dec64cf8
+size 43429616

last-checkpoint/global_step2200/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03e85e9a8f15d009b7a2c0d66ad0f9ccf6f71ee8b946421a9e8140daf02469c2
+size 637299

last-checkpoint/global_step2200/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1eda17816cb6a54c13e3632551cc61e833387382dba58c7f5746cfe31e437c7e
+size 637171

last-checkpoint/global_step2200/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b39cdeaf4ab8e921200387e3671b7631731d65aa5eb68167423b11ff4bd888fb
+size 637171

last-checkpoint/global_step2200/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2745094b0911b0ead6af362a14d1f5978c54c570c87d42bee5b6064a4cd37e41
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2150~~


1	+ global_step2200

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b105708e2c99c8661b46698b8ccc5799ac83c1f0fc6a30c2d41c9fbfb349d480
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c2f72d01585273766959f0cc9805fab753b53f20e581399855a293176ace988
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc44cd2015d8c8fc2f109f07c797876873a52f478c57b0350b8a2cf5dcb17f25
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fd1ecda2bb159be37a2a23800e098324f5b0334e7189df47c343ca6cb7605a2
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9843dec201b5a542ebd69abfc596f99ad5a000cf81dab52c6a2c52a5b9224ea7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf71c84ea2995fbc545b918d03f7f94c92293ca2e33343f177e6fd04531b7b19
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2296f0efda653dd4c7e861f5a867baa09d6d8bb50e57bc69af930268b40de9ef
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:72c53116f0f4c80841c24cd681d5fbd5a5992b259583a4cfb493f8f3e4544d82
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b804035c19d1fffbc2b920172de721087c798cb2e8bcad45f6808db2d808af75
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:01d30aec100967976eb875a41f6c605190fbb2f410e1523b990ce51daf9cd1a5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.25809118151664734,
   "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale6/lora/sft/checkpoint-2150",
-  "epoch": 0.6351550960118169,
   "eval_steps": 50,
-  "global_step": 2150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3834,11 +3834,100 @@
       "eval_steps_per_second": 0.777,
       "num_input_tokens_seen": 22332144,
       "step": 2150
     }
   ],
   "logging_steps": 5,
   "max_steps": 6770,
-  "num_input_tokens_seen": 22332144,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -3853,7 +3942,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1473404374351872.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.25809118151664734,
   "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale6/lora/sft/checkpoint-2150",
+  "epoch": 0.6499261447562777,
   "eval_steps": 50,
+  "global_step": 2200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.777,
       "num_input_tokens_seen": 22332144,
       "step": 2150
+    },
+    {
+      "epoch": 0.6366322008862629,
+      "grad_norm": 48.075734297605706,
+      "learning_rate": 8.158198600908405e-05,
+      "loss": 0.2606,
+      "num_input_tokens_seen": 22383912,
+      "step": 2155
+    },
+    {
+      "epoch": 0.638109305760709,
+      "grad_norm": 12.349268472522956,
+      "learning_rate": 8.148721153369411e-05,
+      "loss": 0.2672,
+      "num_input_tokens_seen": 22435504,
+      "step": 2160
+    },
+    {
+      "epoch": 0.6395864106351551,
+      "grad_norm": 17.499211985691577,
+      "learning_rate": 8.139224920591598e-05,
+      "loss": 0.2771,
+      "num_input_tokens_seen": 22487696,
+      "step": 2165
+    },
+    {
+      "epoch": 0.6410635155096012,
+      "grad_norm": 7.176310226710563,
+      "learning_rate": 8.129709959229388e-05,
+      "loss": 0.3018,
+      "num_input_tokens_seen": 22539664,
+      "step": 2170
+    },
+    {
+      "epoch": 0.6425406203840472,
+      "grad_norm": 22.989487671947256,
+      "learning_rate": 8.120176326048949e-05,
+      "loss": 0.312,
+      "num_input_tokens_seen": 22592240,
+      "step": 2175
+    },
+    {
+      "epoch": 0.6440177252584933,
+      "grad_norm": 2.0595093158376825,
+      "learning_rate": 8.110624077927842e-05,
+      "loss": 0.2413,
+      "num_input_tokens_seen": 22643648,
+      "step": 2180
+    },
+    {
+      "epoch": 0.6454948301329394,
+      "grad_norm": 1.0826681349485223,
+      "learning_rate": 8.101053271854682e-05,
+      "loss": 0.2585,
+      "num_input_tokens_seen": 22695208,
+      "step": 2185
+    },
+    {
+      "epoch": 0.6469719350073855,
+      "grad_norm": 1.351248688875387,
+      "learning_rate": 8.091463964928801e-05,
+      "loss": 0.2621,
+      "num_input_tokens_seen": 22746896,
+      "step": 2190
+    },
+    {
+      "epoch": 0.6484490398818316,
+      "grad_norm": 7.190623982268162,
+      "learning_rate": 8.081856214359908e-05,
+      "loss": 0.324,
+      "num_input_tokens_seen": 22797936,
+      "step": 2195
+    },
+    {
+      "epoch": 0.6499261447562777,
+      "grad_norm": 0.9587990520200799,
+      "learning_rate": 8.072230077467748e-05,
+      "loss": 0.2662,
+      "num_input_tokens_seen": 22849552,
+      "step": 2200
+    },
+    {
+      "epoch": 0.6499261447562777,
+      "eval_loss": 0.48401138186454773,
+      "eval_runtime": 19.182,
+      "eval_samples_per_second": 3.128,
+      "eval_steps_per_second": 0.782,
+      "num_input_tokens_seen": 22849552,
+      "step": 2200
     }
   ],
   "logging_steps": 5,
   "max_steps": 6770,
+  "num_input_tokens_seen": 22849552,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1507548125986816.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null