Training in progress, step 100, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step100/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step100/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step100/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step100/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +95 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ec17bc88ac76153637df1b04176014909e961cdf177b910eb472c5e048439bb
 size 18516456

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd961b0e78417f1e80902a52b4b9a133d9724bddd4f50db6ac185504a1aebd52
 size 18516456

last-checkpoint/global_step100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1b5222ece9c07bc0707840fd209d23ed3425181c60bbe9066a81da1cc913f8a
+size 27700976

last-checkpoint/global_step100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf6bb8fd7d7e600dab44cd221b6f39d1fc98b2b65a22c8ff0c03f1f91b855c07
+size 27700976

last-checkpoint/global_step100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d55864a517cc73f6af60442807993dfcab4932a335a2dc5a1ce07e58fc3fedbc
+size 27700976

last-checkpoint/global_step100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27c6617a438e97dca9ca57f429bb94e72f3270e48616e5ddabd3c45eef92888c
+size 27700976

last-checkpoint/global_step100/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77ab030b3fb16c943c20557696294e261908aa49808993525db2314febcd364c
+size 411571

last-checkpoint/global_step100/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98a12a65975be5132e3b8312e6c4ad5570bb2e62a73e91d7be7eb4d7809eb237
+size 411507

last-checkpoint/global_step100/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf6a973959fae837554064cd65731d8cf436b2cf978d2efbc00bf7ce6b54eacb
+size 411507

last-checkpoint/global_step100/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d582bb0bfd605fc477447d0f280945126b1ed22748ebad3a0689426e5c97f8c5
+size 411507

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step50~~


1	+ global_step100

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbe0d720c4c75a6a04213fa3b64bacbe794718a53e2b56ebb67a1a795014dfad
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:308f94f9a5c24e1bad5c393d56ae7af7782600f4e791d9c6ac35b22fff2105b6
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72452d3138d0ca2ff89429e3294a834ae7a68e8596fc757735ca56ae52509d57
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b056f3c23cb32dc77a2ec9e7651e0b64e4440e21f0fdf969b86bfc56a1cbdf06
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f36e306fb8ebcf53a167bfd6c9af74db410a269ada1e619e3e816f5269543b9d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3f8a05714bc528f4885a2816181652f2303b3e8150f89b56aaee6bec56aa520
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb47ce0c6f815a6f8302b0e3819b4c2315ca71dae3138d97fdceb765cdd0a039
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f755bd3c330281961e5c03af9d10ce8c1e1678619d384f6f1fd5fd7dce2ff50
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ab82860e8f4753962498aa91f545ddf5d94711cc852b62536116736b2908eac
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e451a9e086b06d7c667be8442b2115f5c088953bade0b625e61f2ce5c7fd404
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9191630482673645,
-  "best_model_checkpoint": "saves/CADICA_qwenvl_stenosis_classily_scale4_frozenVision/lora/sft/checkpoint-50",
-  "epoch": 0.025753283543651816,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -96,11 +96,100 @@
       "eval_steps_per_second": 0.41,
       "num_input_tokens_seen": 584856,
       "step": 50
     }
   ],
   "logging_steps": 5,
   "max_steps": 3400,
-  "num_input_tokens_seen": 584856,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -115,7 +204,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 32796859170816.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9077914953231812,
+  "best_model_checkpoint": "saves/CADICA_qwenvl_stenosis_classily_scale4_frozenVision/lora/sft/checkpoint-100",
+  "epoch": 0.05150656708730363,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.41,
       "num_input_tokens_seen": 584856,
       "step": 50
+    },
+    {
+      "epoch": 0.028328611898016998,
+      "grad_norm": 0.8294990584587586,
+      "learning_rate": 3.235294117647059e-05,
+      "loss": 0.9009,
+      "num_input_tokens_seen": 643344,
+      "step": 55
+    },
+    {
+      "epoch": 0.03090394025238218,
+      "grad_norm": 0.8278765532866457,
+      "learning_rate": 3.529411764705883e-05,
+      "loss": 0.9063,
+      "num_input_tokens_seen": 701808,
+      "step": 60
+    },
+    {
+      "epoch": 0.03347926860674736,
+      "grad_norm": 0.7285901101792476,
+      "learning_rate": 3.8235294117647055e-05,
+      "loss": 0.9031,
+      "num_input_tokens_seen": 760304,
+      "step": 65
+    },
+    {
+      "epoch": 0.036054596961112545,
+      "grad_norm": 0.5341783688819233,
+      "learning_rate": 4.11764705882353e-05,
+      "loss": 0.8991,
+      "num_input_tokens_seen": 818760,
+      "step": 70
+    },
+    {
+      "epoch": 0.03862992531547772,
+      "grad_norm": 0.46059313680988906,
+      "learning_rate": 4.411764705882353e-05,
+      "loss": 0.9055,
+      "num_input_tokens_seen": 877256,
+      "step": 75
+    },
+    {
+      "epoch": 0.04120525366984291,
+      "grad_norm": 0.8194379237293679,
+      "learning_rate": 4.705882352941177e-05,
+      "loss": 0.9092,
+      "num_input_tokens_seen": 935752,
+      "step": 80
+    },
+    {
+      "epoch": 0.043780582024208085,
+      "grad_norm": 0.6745093544830881,
+      "learning_rate": 5e-05,
+      "loss": 0.9069,
+      "num_input_tokens_seen": 994216,
+      "step": 85
+    },
+    {
+      "epoch": 0.04635591037857327,
+      "grad_norm": 0.2894672897884604,
+      "learning_rate": 5.294117647058824e-05,
+      "loss": 0.8924,
+      "num_input_tokens_seen": 1052704,
+      "step": 90
+    },
+    {
+      "epoch": 0.04893123873293845,
+      "grad_norm": 0.5108489024576455,
+      "learning_rate": 5.588235294117647e-05,
+      "loss": 0.9059,
+      "num_input_tokens_seen": 1111176,
+      "step": 95
+    },
+    {
+      "epoch": 0.05150656708730363,
+      "grad_norm": 0.40317180386305224,
+      "learning_rate": 5.882352941176471e-05,
+      "loss": 0.901,
+      "num_input_tokens_seen": 1169664,
+      "step": 100
+    },
+    {
+      "epoch": 0.05150656708730363,
+      "eval_loss": 0.9077914953231812,
+      "eval_runtime": 16.8879,
+      "eval_samples_per_second": 3.553,
+      "eval_steps_per_second": 0.888,
+      "num_input_tokens_seen": 1169664,
+      "step": 100
     }
   ],
   "logging_steps": 5,
   "max_steps": 3400,
+  "num_input_tokens_seen": 1169664,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 65637304762368.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null