Training in progress, step 1950, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1950/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1950/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1950/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1950/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1950/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1950/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1950/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1950/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbfd21913024836a541ea9e4804a4fbd723ce6bc0181f6257333676058a340fa
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:24258a1c284f2e5e09aacf01faee241dabd7ef5ca96fece0a7b0849d7edeb577
 size 29034840

last-checkpoint/global_step1950/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82aaadf47a144b788872e51c6a1a6007fefeb003f4d352eec1a00254d36c6ab0
+size 43429616

last-checkpoint/global_step1950/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ee1eaee89ef24958e4b33fdc1d3cec1bfe7cce8494a7d935d11b9bc5cba7900
+size 43429616

last-checkpoint/global_step1950/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a797afc790c7358ad676cbc51801b99f9ba67cb6d009bd651f4001d6e45420c0
+size 43429616

last-checkpoint/global_step1950/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5ae1f1f5991994465ba8432397478cdc71281b6497781452a906eb68d626072
+size 43429616

last-checkpoint/global_step1950/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec2eee1c827b58b94cbb0ba0dc8b44f046c8cbab8f4d8f244be51bf3c1e0a3db
+size 637299

last-checkpoint/global_step1950/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc9e2862ddf9da9018e498cb0ddaff309c1fe0955553cb6c40835a940701d96e
+size 637171

last-checkpoint/global_step1950/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a8aeb2a9ee16658bc362ef45e432893c9c07e02ea21b64f97648ac7042f7216
+size 637171

last-checkpoint/global_step1950/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:075ee02aba76263bff18e95eb0d231f36fef41bdacc3184f2e24255758e4ea16
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1900~~


1	+ global_step1950

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:585b8316bac42fce8431ad71be5542adc79fdd5ff1839401f8374f6ab8226086
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a12f59c32c769438d50dc0cafe27e6fc40938bdddec36889a5df342054ce351e
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc4c7cc343f6d985da07523b86ffd7b02d0b8ae40ff925936c48aff8a7385f39
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:adfe49ca065b2692ef1b5fa1d31070f7f1bd192ca458adb37564630382a34304
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b364386e5b3618cb74f99527a8e31fa3c7d8d93018d2d0cf0b819ae4c3c1794b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2128704174ab99852922ed60f853889db68df441b0349c973ed4e07336cfce8e
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed71fe0f2fd47c414d9fd305b847e65b2f95946543d7b867318fdc05f761e6bc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:090480cd9b6a50ca427e61698c04a96bcef20285d14b3963931e7e5bf69fddf8
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1638a0d8fae0cac9f51058dc27d95044277961dbc065df33adbdd1c6ae671a0d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a323a8ccf8ef79a414d4a8cf4f36b33f1f113b5c5ffb8de9538d61f0bfd4dcd6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.28714123368263245,
   "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale6/lora/sft/checkpoint-1550",
-  "epoch": 0.5612998522895125,
   "eval_steps": 50,
-  "global_step": 1900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3389,11 +3389,100 @@
       "eval_steps_per_second": 0.773,
       "num_input_tokens_seen": 19735976,
       "step": 1900
     }
   ],
   "logging_steps": 5,
   "max_steps": 6770,
-  "num_input_tokens_seen": 19735976,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -3408,7 +3497,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1302030401404928.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.28714123368263245,
   "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale6/lora/sft/checkpoint-1550",
+  "epoch": 0.5760709010339734,
   "eval_steps": 50,
+  "global_step": 1950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.773,
       "num_input_tokens_seen": 19735976,
       "step": 1900
+    },
+    {
+      "epoch": 0.5627769571639586,
+      "grad_norm": 7.406464018339625,
+      "learning_rate": 8.606901505441718e-05,
+      "loss": 0.3128,
+      "num_input_tokens_seen": 19787504,
+      "step": 1905
+    },
+    {
+      "epoch": 0.5642540620384048,
+      "grad_norm": 2.9136695732910467,
+      "learning_rate": 8.598432987897565e-05,
+      "loss": 0.2711,
+      "num_input_tokens_seen": 19839104,
+      "step": 1910
+    },
+    {
+      "epoch": 0.5657311669128509,
+      "grad_norm": 16.37365104368587,
+      "learning_rate": 8.589943002138295e-05,
+      "loss": 0.3735,
+      "num_input_tokens_seen": 19891064,
+      "step": 1915
+    },
+    {
+      "epoch": 0.5672082717872969,
+      "grad_norm": 12.090734435687315,
+      "learning_rate": 8.581431598815077e-05,
+      "loss": 0.29,
+      "num_input_tokens_seen": 19942368,
+      "step": 1920
+    },
+    {
+      "epoch": 0.568685376661743,
+      "grad_norm": 2.098717687702263,
+      "learning_rate": 8.572898828706857e-05,
+      "loss": 0.2977,
+      "num_input_tokens_seen": 19994816,
+      "step": 1925
+    },
+    {
+      "epoch": 0.5701624815361891,
+      "grad_norm": 8.108786754862253,
+      "learning_rate": 8.564344742720059e-05,
+      "loss": 0.2483,
+      "num_input_tokens_seen": 20046192,
+      "step": 1930
+    },
+    {
+      "epoch": 0.5716395864106352,
+      "grad_norm": 32.34891985769585,
+      "learning_rate": 8.55576939188827e-05,
+      "loss": 0.3126,
+      "num_input_tokens_seen": 20097328,
+      "step": 1935
+    },
+    {
+      "epoch": 0.5731166912850812,
+      "grad_norm": 10.903589696110263,
+      "learning_rate": 8.54717282737195e-05,
+      "loss": 0.2688,
+      "num_input_tokens_seen": 20149392,
+      "step": 1940
+    },
+    {
+      "epoch": 0.5745937961595273,
+      "grad_norm": 1.6351631003571967,
+      "learning_rate": 8.538555100458114e-05,
+      "loss": 0.2491,
+      "num_input_tokens_seen": 20201392,
+      "step": 1945
+    },
+    {
+      "epoch": 0.5760709010339734,
+      "grad_norm": 13.847094678250938,
+      "learning_rate": 8.529916262560038e-05,
+      "loss": 0.2992,
+      "num_input_tokens_seen": 20253288,
+      "step": 1950
+    },
+    {
+      "epoch": 0.5760709010339734,
+      "eval_loss": 0.3468088209629059,
+      "eval_runtime": 19.3874,
+      "eval_samples_per_second": 3.095,
+      "eval_steps_per_second": 0.774,
+      "num_input_tokens_seen": 20253288,
+      "step": 1950
     }
   ],
   "logging_steps": 5,
   "max_steps": 6770,
+  "num_input_tokens_seen": 20253288,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1336194242183168.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null