Training in progress, step 800, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step800/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step800/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step800/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step800/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step800/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step800/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step800/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step800/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87a05b954f6ad396e106053a5bf73274eb4671d1ca4b7518421076c40296fc81
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:6469efd0e0f557a18cd35ba4f70eb77371da998a85d2c741e6c6de160fc4ff06
 size 29034840

last-checkpoint/global_step800/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2174a443dad6d9006acfe79d324978c9f07b5ea257aca9d95fd75624fa54cb8
+size 43429616

last-checkpoint/global_step800/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:426fa667d71ccf8b60e8ade9d81b9ad760a7ce15cee036b23b87adbc4a07f4bf
+size 43429616

last-checkpoint/global_step800/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6dfc313755621ef1469887426d377a58d160443a75db41587783dcdc3dc396d1
+size 43429616

last-checkpoint/global_step800/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e060e6d58d9af18772eb1d31b043460d98bb11979e5a6b98631c1444a78c439e
+size 43429616

last-checkpoint/global_step800/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33467f0cec03b4779dee333111c3bd03a22372ddf3a2a795922f0ea80db2d9e0
+size 637299

last-checkpoint/global_step800/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cff6501f8b06265046ed0183476dba0c748bb06dda09c2b6e873c247c05ea43d
+size 637171

last-checkpoint/global_step800/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0768848701c35a91de3ad97687565841b9f4771f8101fdde7bedbe1ebcbc9f3
+size 637171

last-checkpoint/global_step800/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4416b108bf4bd22e915b38c44cb62e05b07e52df22336b642b6cf6d7761cbad4
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step750~~


1	+ global_step800

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66b4ef73f3603a1b91082ee108fa8299ebe45fb3cdeec7d0bdca1982af5bf07d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4f003069486a57c6ac033f30cf4c4213eb6b7d659bab68a5a50fdb8da7c4118
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:882eccb2a272cf97cd645050bd077c971e48e78584f717a1b1cc9b5f1c9326dc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a016ef89b4392d083b2c15a7cf06a39bc61a759f648cf6dc03f1c32b89a526aa
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1626bac54f5806a604b7efdd749c5b65d63bbb40fc55c3744aae6130aa24f3de
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b56fe0893036dc052d18d90feba4328b90ea71561942150b07406ac3d7a700e
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40cf83ff997228172cf0b991f9d5209728ccf2f0a75841db5e31e647779a1ad2
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0c203d12c2c308dab785ed672c9ca27fb6a2f72acd1e1552d1516c7b0006013
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb90ddaf9f2555f7a751dcba5b295eed1e25f610d0357becbe825d3cf6fda52d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c7fcb50f64a1a582f4b708119f6541895781dfbde796583be012e2904ba248d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.4665524661540985,
   "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale6/lora/sft/checkpoint-750",
-  "epoch": 0.22156573116691286,
   "eval_steps": 50,
-  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1342,11 +1342,100 @@
       "eval_steps_per_second": 0.783,
       "num_input_tokens_seen": 7779872,
       "step": 750
     }
   ],
   "logging_steps": 5,
   "max_steps": 6770,
-  "num_input_tokens_seen": 7779872,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -1361,7 +1450,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 513213288415232.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.4665524661540985,
   "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale6/lora/sft/checkpoint-750",
+  "epoch": 0.2363367799113737,
   "eval_steps": 50,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.783,
       "num_input_tokens_seen": 7779872,
       "step": 750
+    },
+    {
+      "epoch": 0.22304283604135894,
+      "grad_norm": 7.392056712218606,
+      "learning_rate": 9.897109742122721e-05,
+      "loss": 0.5248,
+      "num_input_tokens_seen": 7832168,
+      "step": 755
+    },
+    {
+      "epoch": 0.22451994091580502,
+      "grad_norm": 9.230824229530686,
+      "learning_rate": 9.894630330827686e-05,
+      "loss": 0.5017,
+      "num_input_tokens_seen": 7884040,
+      "step": 760
+    },
+    {
+      "epoch": 0.2259970457902511,
+      "grad_norm": 11.203609848309013,
+      "learning_rate": 9.892121718217182e-05,
+      "loss": 0.4896,
+      "num_input_tokens_seen": 7935528,
+      "step": 765
+    },
+    {
+      "epoch": 0.2274741506646972,
+      "grad_norm": 30.185572869944284,
+      "learning_rate": 9.88958391925757e-05,
+      "loss": 0.5125,
+      "num_input_tokens_seen": 7987760,
+      "step": 770
+    },
+    {
+      "epoch": 0.22895125553914328,
+      "grad_norm": 18.649424971543322,
+      "learning_rate": 9.887016949089333e-05,
+      "loss": 0.5615,
+      "num_input_tokens_seen": 8039400,
+      "step": 775
+    },
+    {
+      "epoch": 0.23042836041358936,
+      "grad_norm": 5.360845077873566,
+      "learning_rate": 9.884420823026989e-05,
+      "loss": 0.494,
+      "num_input_tokens_seen": 8092440,
+      "step": 780
+    },
+    {
+      "epoch": 0.23190546528803546,
+      "grad_norm": 10.101391912363345,
+      "learning_rate": 9.881795556558999e-05,
+      "loss": 0.5122,
+      "num_input_tokens_seen": 8145040,
+      "step": 785
+    },
+    {
+      "epoch": 0.23338257016248154,
+      "grad_norm": 5.90491429019666,
+      "learning_rate": 9.879141165347678e-05,
+      "loss": 0.4925,
+      "num_input_tokens_seen": 8196904,
+      "step": 790
+    },
+    {
+      "epoch": 0.23485967503692762,
+      "grad_norm": 6.228283676778458,
+      "learning_rate": 9.876457665229097e-05,
+      "loss": 0.4752,
+      "num_input_tokens_seen": 8249232,
+      "step": 795
+    },
+    {
+      "epoch": 0.2363367799113737,
+      "grad_norm": 8.496099871334396,
+      "learning_rate": 9.87374507221299e-05,
+      "loss": 0.4239,
+      "num_input_tokens_seen": 8301976,
+      "step": 800
+    },
+    {
+      "epoch": 0.2363367799113737,
+      "eval_loss": 0.48219749331474304,
+      "eval_runtime": 19.0825,
+      "eval_samples_per_second": 3.144,
+      "eval_steps_per_second": 0.786,
+      "num_input_tokens_seen": 8301976,
+      "step": 800
     }
   ],
   "logging_steps": 5,
   "max_steps": 6770,
+  "num_input_tokens_seen": 8301976,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 547680066994176.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null