g4rg commited on Oct 13, 2024

Commit

ee7abc5

verified ·

1 Parent(s): 186490b

Training in progress, step 96, checkpoint

Browse files

Files changed (22) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step96/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step96/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step96/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step96/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step96/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step96/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step96/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step96/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step96/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step96/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step96/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step96/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +235 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c4a5e2add8c903d966ce8710e97157c591e27dae3825fe3c2d2fd8594e8da90
 size 763470136

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d281dead310dc912d96ea9c1ecf041030d9b9eda5a70050289f56893a32f795
 size 763470136

last-checkpoint/global_step96/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7b861109736f9e25e086aed1a1fddd63c6942bd39bba0da383a0542dae65588
+size 385019984

last-checkpoint/global_step96/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d86e4d1c0014d1412435b331c85ccc3cdf61eb589f4ae020739e77a7221b66d
+size 385019984

last-checkpoint/global_step96/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbef0bf2e51a29abe24d04075d92f103231b3c2658b794facc9ffa01dcc2bc48
+size 385019984

last-checkpoint/global_step96/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:754d3b5c90d2e73fd13dcd360b2c6eafe627fc7f15db6632aea2afbdbbf98e7b
+size 385019984

last-checkpoint/global_step96/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a3a11c3ac404043c019564950aa61d5dcd5ff0e804350a911a40348e024bae6
+size 385019984

last-checkpoint/global_step96/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b27ef6303c05d781a8e7e681180069a7499343a77c1f3e312c7e06e4df24fa7
+size 385019984

last-checkpoint/global_step96/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22cf195c16fd65966316397268f3d87870fa9bdbd53df64960236049b16bcd7d
+size 348711830

last-checkpoint/global_step96/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f23c09b06ab3c2d67b09265f6ae5a7d6677f76a8ceb8fc4fee7a9f9355273d9
+size 348711830

last-checkpoint/global_step96/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ee3353cc58853b3bf08488fb8200b0044f2c1714bf66c0bc0d4fb45b954307a
+size 348711830

last-checkpoint/global_step96/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46dddca3867947d351db07f7330fc7f0365395ebbac13c640f830609c22d5a6e
+size 348711830

last-checkpoint/global_step96/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f5a128a4eefd61ce663446c0d456bd8626e7497c843aa9a87db61097e46e07b
+size 348711830

last-checkpoint/global_step96/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bc982405297d8a24ceb926a3dcc148a9533c0b0aec2af68187233e64b39806e
+size 348711830

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step64~~


1	+ global_step96

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1d2706b93a662ac3d076f62ac0cc0bf9da89b22f28d7aedb79e2d221480bf22
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:18fb5e6493092cd8f71e5b3842d879509d55ae6cab2bf942dd56c48e7b8cc9fc
 size 15472

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e012a473e8960670cde6d00f32b72516b3b678ea6c28d0bc75a8a6872b87726
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fc4d72ba97fb58bd464a1fddcf7c6f2d733fa949f29b90e179d642b44eb624e
 size 15472

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d15d65d436172526002aa34da5c198ac75a338a871f9c7b229bad29a0998f16
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c2da6915b4a587863bc60c730f828ac7764e70c41ebff8c368e95f045073b7f
 size 15472

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82fade3599ddd40984f8a744d9e09f0f5ed5dde67c4de699c5efada15e9b546c
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:89e0de0d83a177df7de41df7ea72b48a294a2d0589d8ca1035b9dd419b036e81
 size 15472

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3553f81d93560a998b742fcb2c39d12dae1b25a8fe484f0f025ea17be9815aeb
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d6218d38ef6fd867f07998ab60de53f729af52921318b25e9685aae0a3d9044
 size 15472

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f45b6ba5697e78673c882ff2682372ece017522f58d35821dcf57b76881f3694
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:10040054714cbe309f578c161884fad07491098cb4b32684d3d08fcb91914d00
 size 15472

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3db122c9205c73d5e7e1d59359a230de2aae1e7f2b50ca89f28123120a2430ad
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c8d252fdd44d3c445fb84b7c408c35fe553a7fa8fd66113443f48d6125c89b0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4129032258064516,
   "eval_steps": 32,
-  "global_step": 64,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -479,6 +479,238 @@
       "eval_samples_per_second": 1.608,
       "eval_steps_per_second": 0.064,
       "step": 64
     }
   ],
   "logging_steps": 1,
@@ -498,7 +730,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 131039452200960.0,
   "train_batch_size": 5,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6193548387096774,
   "eval_steps": 32,
+  "global_step": 96,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.608,
       "eval_steps_per_second": 0.064,
       "step": 64
+    },
+    {
+      "epoch": 0.41935483870967744,
+      "grad_norm": 0.42898014496026954,
+      "learning_rate": 3.8899703564688187e-05,
+      "loss": 1.3098,
+      "step": 65
+    },
+    {
+      "epoch": 0.4258064516129032,
+      "grad_norm": 0.3729718619879595,
+      "learning_rate": 3.8448600767754265e-05,
+      "loss": 1.3267,
+      "step": 66
+    },
+    {
+      "epoch": 0.432258064516129,
+      "grad_norm": 0.5652836221912215,
+      "learning_rate": 3.7991655975072834e-05,
+      "loss": 1.3008,
+      "step": 67
+    },
+    {
+      "epoch": 0.43870967741935485,
+      "grad_norm": 0.3611571783806379,
+      "learning_rate": 3.752911300497212e-05,
+      "loss": 1.2365,
+      "step": 68
+    },
+    {
+      "epoch": 0.44516129032258067,
+      "grad_norm": 0.4101622999668487,
+      "learning_rate": 3.706121866287699e-05,
+      "loss": 1.2805,
+      "step": 69
+    },
+    {
+      "epoch": 0.45161290322580644,
+      "grad_norm": 0.4194502800160711,
+      "learning_rate": 3.658822260961763e-05,
+      "loss": 1.2627,
+      "step": 70
+    },
+    {
+      "epoch": 0.45806451612903226,
+      "grad_norm": 0.4464572963409143,
+      "learning_rate": 3.611037722821452e-05,
+      "loss": 1.3269,
+      "step": 71
+    },
+    {
+      "epoch": 0.4645161290322581,
+      "grad_norm": 0.43900384749780696,
+      "learning_rate": 3.562793748921095e-05,
+      "loss": 1.0625,
+      "step": 72
+    },
+    {
+      "epoch": 0.47096774193548385,
+      "grad_norm": 0.3492561062627179,
+      "learning_rate": 3.514116081462488e-05,
+      "loss": 1.2854,
+      "step": 73
+    },
+    {
+      "epoch": 0.4774193548387097,
+      "grad_norm": 1.004303081481083,
+      "learning_rate": 3.4650306940592784e-05,
+      "loss": 1.3114,
+      "step": 74
+    },
+    {
+      "epoch": 0.4838709677419355,
+      "grad_norm": 0.372149762179685,
+      "learning_rate": 3.415563777877859e-05,
+      "loss": 1.1604,
+      "step": 75
+    },
+    {
+      "epoch": 0.49032258064516127,
+      "grad_norm": 0.36620109818968666,
+      "learning_rate": 3.365741727662187e-05,
+      "loss": 1.2055,
+      "step": 76
+    },
+    {
+      "epoch": 0.4967741935483871,
+      "grad_norm": 0.3209403988829257,
+      "learning_rate": 3.315591127649981e-05,
+      "loss": 1.2652,
+      "step": 77
+    },
+    {
+      "epoch": 0.5032258064516129,
+      "grad_norm": 0.6268869630058581,
+      "learning_rate": 3.265138737387802e-05,
+      "loss": 1.3451,
+      "step": 78
+    },
+    {
+      "epoch": 0.5096774193548387,
+      "grad_norm": 0.37710251621094776,
+      "learning_rate": 3.214411477452589e-05,
+      "loss": 1.1998,
+      "step": 79
+    },
+    {
+      "epoch": 0.5161290322580645,
+      "grad_norm": 0.3965119239115867,
+      "learning_rate": 3.1634364150872836e-05,
+      "loss": 1.198,
+      "step": 80
+    },
+    {
+      "epoch": 0.5225806451612903,
+      "grad_norm": 0.38914331784636286,
+      "learning_rate": 3.112240749758179e-05,
+      "loss": 1.3164,
+      "step": 81
+    },
+    {
+      "epoch": 0.5290322580645161,
+      "grad_norm": 0.4854967858248665,
+      "learning_rate": 3.060851798641735e-05,
+      "loss": 1.1669,
+      "step": 82
+    },
+    {
+      "epoch": 0.535483870967742,
+      "grad_norm": 0.4486571105935308,
+      "learning_rate": 3.00929698204857e-05,
+      "loss": 1.3611,
+      "step": 83
+    },
+    {
+      "epoch": 0.5419354838709678,
+      "grad_norm": 0.5816885351466946,
+      "learning_rate": 2.9576038087924297e-05,
+      "loss": 1.2272,
+      "step": 84
+    },
+    {
+      "epoch": 0.5483870967741935,
+      "grad_norm": 0.3242743003758612,
+      "learning_rate": 2.905799861511932e-05,
+      "loss": 1.1925,
+      "step": 85
+    },
+    {
+      "epoch": 0.5548387096774193,
+      "grad_norm": 0.3110545851314829,
+      "learning_rate": 2.8539127819529143e-05,
+      "loss": 0.9746,
+      "step": 86
+    },
+    {
+      "epoch": 0.5612903225806452,
+      "grad_norm": 0.3102061641971853,
+      "learning_rate": 2.801970256219253e-05,
+      "loss": 1.352,
+      "step": 87
+    },
+    {
+      "epoch": 0.567741935483871,
+      "grad_norm": 0.30361763618294724,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 1.2039,
+      "step": 88
+    },
+    {
+      "epoch": 0.5741935483870968,
+      "grad_norm": 0.5030242942383549,
+      "learning_rate": 2.698029743780748e-05,
+      "loss": 1.2757,
+      "step": 89
+    },
+    {
+      "epoch": 0.5806451612903226,
+      "grad_norm": 0.5902079797954521,
+      "learning_rate": 2.6460872180470865e-05,
+      "loss": 1.1542,
+      "step": 90
+    },
+    {
+      "epoch": 0.5870967741935483,
+      "grad_norm": 0.4650188539079032,
+      "learning_rate": 2.594200138488069e-05,
+      "loss": 1.1455,
+      "step": 91
+    },
+    {
+      "epoch": 0.5935483870967742,
+      "grad_norm": 0.6953375177526994,
+      "learning_rate": 2.5423961912075712e-05,
+      "loss": 1.2476,
+      "step": 92
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.324295911329268,
+      "learning_rate": 2.4907030179514307e-05,
+      "loss": 1.0578,
+      "step": 93
+    },
+    {
+      "epoch": 0.6064516129032258,
+      "grad_norm": 0.36056444973850205,
+      "learning_rate": 2.4391482013582657e-05,
+      "loss": 1.3128,
+      "step": 94
+    },
+    {
+      "epoch": 0.6129032258064516,
+      "grad_norm": 0.31638336845784404,
+      "learning_rate": 2.387759250241821e-05,
+      "loss": 1.1412,
+      "step": 95
+    },
+    {
+      "epoch": 0.6193548387096774,
+      "grad_norm": 0.3807737813278726,
+      "learning_rate": 2.3365635849127166e-05,
+      "loss": 1.301,
+      "step": 96
+    },
+    {
+      "epoch": 0.6193548387096774,
+      "eval_loss": 1.0401562452316284,
+      "eval_runtime": 62.5349,
+      "eval_samples_per_second": 1.599,
+      "eval_steps_per_second": 0.064,
+      "step": 96
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 196559178301440.0,
   "train_batch_size": 5,
   "trial_name": null,
   "trial_params": null