Training in progress, step 1300, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1300/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1300/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1300/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1300/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49efabf09713516088de3465883ff1d8943c4d5b7de6e932ffa50531df3a26bb
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:b44254d9a1623586ea1f5a75bfc6d736cfd5e37677b54824320d6e82460a2035
 size 29034840

last-checkpoint/global_step1300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9c1a42e79721b37ac6048cc8aca57576dc233426bad9e66fd95aa202906a2fc
+size 43429616

last-checkpoint/global_step1300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5700ea0d55977b1676ff4fa5914079f8829077024f21b263faa2c7809bab5667
+size 43429616

last-checkpoint/global_step1300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:525b229e937c504e8385a2311ce4e52be4f35717e844a6752cbf30818159facd
+size 43429616

last-checkpoint/global_step1300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:380d00ce28f33e1589c1df8f6f7f7ff5276b46ffb9dc71ba85553eb6f4f98bc1
+size 43429616

last-checkpoint/global_step1300/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e38c4177c1b3c208cadab4e11227a8fda48618f1e7f34460d4a982c52358ed8b
+size 637299

last-checkpoint/global_step1300/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b28c5fffe2b2275164aba9685d890dd7267851d7800fec9fb46b7ed118a21acf
+size 637171

last-checkpoint/global_step1300/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68484b426a7d568a8d268de575beee45dfd1d392aeea48ac22ac8249d9460646
+size 637171

last-checkpoint/global_step1300/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edfb359ed776cd63c27b035d670e3798d4487e045fd2576d5beff80cf431925f
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1250~~


1	+ global_step1300

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15bbef9a4c878a05b4f189e9f77701a153dc9faf093499714094cb36ac0ca030
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c364a094b8b4b8d6b015687012206e88b2233dd7d6a4f6f395d7aef77752ea67
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a7122760cfda3f3e13eac4f7e56d09b0fd3beac4bd49b2f0e58da9519469ff9
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bd2e297a13ac051fc5f3cce9c34767e51a5cb4574835aa8bd1309d8cdc48053
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71edf044d4ea96e62ffecab515d42b58ae56cd64abd0092a897468e0e0d7c10f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:028047dd1753d92e11bf971ee14a5c981a9a3ea6631f228e38475027eb5ae430
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef5ca30351deca9d83675a183b2186ef346093f56e0d5a6dacdf62ef921f12c2
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:000eb4cb4096582f15856f380d5f2a9a00eaecdbb95f2289a7a81a0a624fdf72
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88c4e20232245763c3fa9c7256563263254aa7f4fcf1acb3e46226c0466eab5e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:522af9421667c7c03e6690f39891bfba59de53aa879f1f8a4c0690d7908aa17c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.2966395914554596,
   "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale6/lora/sft/checkpoint-1200",
-  "epoch": 0.36927621861152143,
   "eval_steps": 50,
-  "global_step": 1250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2232,11 +2232,100 @@
       "eval_steps_per_second": 0.792,
       "num_input_tokens_seen": 12972696,
       "step": 1250
     }
   ],
   "logging_steps": 5,
   "max_steps": 6770,
-  "num_input_tokens_seen": 12972696,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -2251,7 +2340,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 855825716609024.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.2966395914554596,
   "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale6/lora/sft/checkpoint-1200",
+  "epoch": 0.38404726735598227,
   "eval_steps": 50,
+  "global_step": 1300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.792,
       "num_input_tokens_seen": 12972696,
       "step": 1250
+    },
+    {
+      "epoch": 0.3707533234859675,
+      "grad_norm": 2.1850732370217045,
+      "learning_rate": 9.507716917831099e-05,
+      "loss": 0.3242,
+      "num_input_tokens_seen": 13025280,
+      "step": 1255
+    },
+    {
+      "epoch": 0.3722304283604136,
+      "grad_norm": 7.470465465497159,
+      "learning_rate": 9.50241918292927e-05,
+      "loss": 0.4083,
+      "num_input_tokens_seen": 13075992,
+      "step": 1260
+    },
+    {
+      "epoch": 0.37370753323485967,
+      "grad_norm": 10.134768151698713,
+      "learning_rate": 9.49709458663975e-05,
+      "loss": 0.4043,
+      "num_input_tokens_seen": 13128592,
+      "step": 1265
+    },
+    {
+      "epoch": 0.37518463810930575,
+      "grad_norm": 7.635543650225297,
+      "learning_rate": 9.491743160729026e-05,
+      "loss": 0.3481,
+      "num_input_tokens_seen": 13181824,
+      "step": 1270
+    },
+    {
+      "epoch": 0.3766617429837518,
+      "grad_norm": 17.089924601510244,
+      "learning_rate": 9.486364937123651e-05,
+      "loss": 0.4121,
+      "num_input_tokens_seen": 13233624,
+      "step": 1275
+    },
+    {
+      "epoch": 0.37813884785819796,
+      "grad_norm": 8.52905916993994,
+      "learning_rate": 9.480959947910055e-05,
+      "loss": 0.487,
+      "num_input_tokens_seen": 13285808,
+      "step": 1280
+    },
+    {
+      "epoch": 0.37961595273264404,
+      "grad_norm": 11.841989523288227,
+      "learning_rate": 9.47552822533435e-05,
+      "loss": 0.3798,
+      "num_input_tokens_seen": 13337864,
+      "step": 1285
+    },
+    {
+      "epoch": 0.3810930576070901,
+      "grad_norm": 2.1853711175575734,
+      "learning_rate": 9.470069801802135e-05,
+      "loss": 0.348,
+      "num_input_tokens_seen": 13390544,
+      "step": 1290
+    },
+    {
+      "epoch": 0.3825701624815362,
+      "grad_norm": 2.9516647949035826,
+      "learning_rate": 9.464584709878313e-05,
+      "loss": 0.41,
+      "num_input_tokens_seen": 13441664,
+      "step": 1295
+    },
+    {
+      "epoch": 0.38404726735598227,
+      "grad_norm": 3.7764410954952514,
+      "learning_rate": 9.459072982286886e-05,
+      "loss": 0.3594,
+      "num_input_tokens_seen": 13493264,
+      "step": 1300
+    },
+    {
+      "epoch": 0.38404726735598227,
+      "eval_loss": 0.4715976417064667,
+      "eval_runtime": 19.0919,
+      "eval_samples_per_second": 3.143,
+      "eval_steps_per_second": 0.786,
+      "num_input_tokens_seen": 13493264,
+      "step": 1300
     }
   ],
   "logging_steps": 5,
   "max_steps": 6770,
+  "num_input_tokens_seen": 13493264,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 890156538658816.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null