Training in progress, step 2000, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1999/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1999/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1999/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1999/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1999/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1999/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1999/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1999/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d060453114c8a92294690d88c0be250011d18ae38a75a4c22a50983826ea4699
 size 18516456

 version https://git-lfs.github.com/spec/v1
+oid sha256:b27b450bf69f26bb0a80206beeb4dd904291117c93705869b5a8ff84aa1e3f84
 size 18516456

last-checkpoint/global_step1999/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:023f92380397745f8f77ec321aafe2aa87a6575324f089996239b60a3189a75c
+size 27700976

last-checkpoint/global_step1999/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d518f32093035095c01b2c282c562dd35fa1efdb54745f369cbecd811ee1400e
+size 27700976

last-checkpoint/global_step1999/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b99d59e37119ed5eb8569f17f475bf3a623293a6eae349fd2f4effe3f03805e8
+size 27700976

last-checkpoint/global_step1999/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0ff1a1bccc2cd493f0260ddb9c05a93dbfd5f46956ea28826fe40360f48b4b2
+size 27700976

last-checkpoint/global_step1999/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c54b98763325461b6d9c8e5fe28ccb463f2ecc19bb48a6257a639424b649fb1f
+size 411571

last-checkpoint/global_step1999/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:deca8205cfceb02ab7ae7fc764eaabb2ec9f99c411572adb08a6d62a415e2ea0
+size 411507

last-checkpoint/global_step1999/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4edec322c3f2cc486eecfd582f74e2c7ea6f1c964c25e64669da8706cb8bc27
+size 411507

last-checkpoint/global_step1999/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0cf51d7631542144114ab6c24b5854b5b2433aca495109faf0b36df3eb80003
+size 411507

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1949~~


1	+ global_step1999

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76c7a1c4ad326ceb79f3afbc6d47975b14a4cb17c9f8fb7483b37b11ee134aac
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4a695de1db3382235d3f8ae213672491aa2fdc3ba3be96403a089077ad3c2bf
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:364e129a29ed2420756ce71165221396b3418a310a60e2d96548d62cc7590232
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2025b170fa1d4693537c2d73f89a6495c58940d033678742a74810c0154a6a7
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89d078b36f7a96070fb2b399b9fe9bc0196d5110cb8255158e3354d836845a5
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:0865c4d7d921b23a22c91c2f3b2c6cca03dae0eb27c43dee575c9602605c94d6
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10672d33daa64ff34468d947c3c30b17fe906ae6c3d9ace60ba1c3e119c8efa4
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f4ec19d9df4417359523e8cc4d27875614c1021ebcc6391b27632aa7897b7ea
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83645aef3795b979dc9a5c77e06d9eebfefa4998e2a5da58eb5de75d197fb29f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f900ab4b5112c328cc663d738cb777b204b3c8bdcbb2ceb91ed099a09d207ee1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.6319106221199036,
   "best_model_checkpoint": "saves/CADICA_qwenvl_stenosis_classily_scale4_frozenVision/lora/sft/checkpoint-1600",
-  "epoch": 1.0041205253669843,
   "eval_steps": 50,
-  "global_step": 1950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3478,11 +3478,100 @@
       "eval_steps_per_second": 0.919,
       "num_input_tokens_seen": 22801512,
       "step": 1950
     }
   ],
   "logging_steps": 5,
   "max_steps": 3400,
-  "num_input_tokens_seen": 22801512,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -3497,7 +3586,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1280406731358208.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.6319106221199036,
   "best_model_checkpoint": "saves/CADICA_qwenvl_stenosis_classily_scale4_frozenVision/lora/sft/checkpoint-1600",
+  "epoch": 1.029873808910636,
   "eval_steps": 50,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.919,
       "num_input_tokens_seen": 22801512,
       "step": 1950
+    },
+    {
+      "epoch": 1.0066958537213495,
+      "grad_norm": 6.506183969602581,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 0.3784,
+      "num_input_tokens_seen": 22859952,
+      "step": 1955
+    },
+    {
+      "epoch": 1.0092711820757148,
+      "grad_norm": 7.31299798110374,
+      "learning_rate": 4.153052777136879e-05,
+      "loss": 0.5587,
+      "num_input_tokens_seen": 22918440,
+      "step": 1960
+    },
+    {
+      "epoch": 1.0118465104300798,
+      "grad_norm": 4.338872323547646,
+      "learning_rate": 4.1290985361041614e-05,
+      "loss": 0.3803,
+      "num_input_tokens_seen": 22976944,
+      "step": 1965
+    },
+    {
+      "epoch": 1.014421838784445,
+      "grad_norm": 6.798827966152428,
+      "learning_rate": 4.105164892019514e-05,
+      "loss": 0.4038,
+      "num_input_tokens_seen": 23035408,
+      "step": 1970
+    },
+    {
+      "epoch": 1.0169971671388103,
+      "grad_norm": 5.018683403937771,
+      "learning_rate": 4.0812524109171476e-05,
+      "loss": 0.3226,
+      "num_input_tokens_seen": 23093912,
+      "step": 1975
+    },
+    {
+      "epoch": 1.0195724954931753,
+      "grad_norm": 4.594775856201265,
+      "learning_rate": 4.0573616583307705e-05,
+      "loss": 0.4026,
+      "num_input_tokens_seen": 23152344,
+      "step": 1980
+    },
+    {
+      "epoch": 1.0221478238475405,
+      "grad_norm": 7.5346230342964695,
+      "learning_rate": 4.033493199280202e-05,
+      "loss": 0.4225,
+      "num_input_tokens_seen": 23210800,
+      "step": 1985
+    },
+    {
+      "epoch": 1.0247231522019058,
+      "grad_norm": 8.213657673441388,
+      "learning_rate": 4.009647598258022e-05,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 23269304,
+      "step": 1990
+    },
+    {
+      "epoch": 1.0272984805562708,
+      "grad_norm": 6.881744374075897,
+      "learning_rate": 3.985825419216207e-05,
+      "loss": 0.3821,
+      "num_input_tokens_seen": 23327800,
+      "step": 1995
+    },
+    {
+      "epoch": 1.029873808910636,
+      "grad_norm": 3.916989546123924,
+      "learning_rate": 3.962027225552807e-05,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 23386232,
+      "step": 2000
+    },
+    {
+      "epoch": 1.029873808910636,
+      "eval_loss": 0.7484827041625977,
+      "eval_runtime": 16.091,
+      "eval_samples_per_second": 3.729,
+      "eval_steps_per_second": 0.932,
+      "num_input_tokens_seen": 23386232,
+      "step": 2000
     }
   ],
   "logging_steps": 5,
   "max_steps": 3400,
+  "num_input_tokens_seen": 23386232,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1313241973129216.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null