mattbonnell commited on Sep 26, 2024

Commit

46b3219

verified ·

1 Parent(s): 1cbb687

Training in progress, step 4000, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step4000/mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +2 -2
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +2 -2
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +331 -629
last-checkpoint/training_args.bin +1 -1

last-checkpoint/global_step4000/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c5d32c0a772af4dbee65ad1a00c1716d28a7d08f8c615bb042942d553e069c0
+size 197282509

last-checkpoint/global_step4000/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52944272e11fbf6d1b80dd30f91da9fe76f2310c0264c54038b1bff04f60332a
+size 180416968

last-checkpoint/global_step4000/zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b89320d37b4274212eae501862122331d33974c44f94bef2b67672203ccd5d48
+size 180416776

last-checkpoint/global_step4000/zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63d209a5738732e2fb6d02f90c8706dfb271296572285626f5d15d58f74b7c5c
+size 180416776

last-checkpoint/global_step4000/zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2971581128d1a37471527c0d18947f037ad1582558d8e215a30839d57824470
+size 180416904

last-checkpoint/global_step4000/zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2560ed7e050ec5c29442de6b34fe5113cd07d8e7b476b736be57b6d656a79d5
+size 180416712

last-checkpoint/global_step4000/zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef0c7079605563319b5dd1afada9b7aa986127b321f031dca73e4d2325dee45e
+size 180417096

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step6000~~


1	+ global_step4000

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d65ae3230bb707935e32d6cbda35d657705b73b0f7ddcb177c643c20f8093a31
 size 188836816

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c58337fef44eb64b6a836e64f9822d87d574565c1d4747cb3f62a0896064c30
 size 188836816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e390a2be9c5995b0f931a918e6ba103c1fc0a5f7dd8428f9ca8a37d88260511d
-size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:1120d6b90c959e6013002d9cd97f09e528d1b42ae693d2827c2d54e16c694bbc
+size 15536

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8164e6f09d7d4a2b32f06fad11840f50fa2cef4b965555f39061e311af5a78ca
 size 15536

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d99b0f2716b6bbd2656ca2579fc6e066d6cb7eea792a1703bf7c506b83aa1d0
 size 15536

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cca18c03a541d2a588557af787f4d48c40a18e9be5cec0aeb7edeba4681764e7
-size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:76db77f420d621e8fac6b0fd0bf21b1ecd3f60cfa225a5b1931114779487d72a
+size 15536

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d5b5cfcb88d6c7bb0424323df6c09dca5fbe84d67b27dcc4c0742ed7916212c
 size 15536

 version https://git-lfs.github.com/spec/v1
+oid sha256:0453137c5c7c5fc34c2f256c3c93e22036b6cd2a92e8ffc1d74379bf993729d0
 size 15536

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0598a6c8c368d2bf99d0d1fe2f1010d047aba019f726603992b9a8378a1545e1
-size 15536

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f5102e93b3b130237df21a5f2bace34bae17ff3505215cc0b26c12f787c0c0b
+size 15472

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf50668c594145fca89753b90a29f56383c66691d4f2505c3004c6ffdea431a8
-size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:17c3cf9ecb1946bfeabec74341670b2af7e53a439f2ca46db571f9d71890d4ef
+size 15536

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf1c46a3e3bc779b6bad1b27eadceaf9e2b4463b55a10856ecf184da490d87b6
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc90a6007365e39e7e0345f81ac15b6e4bfb01eb7fc36962492017af5025d392
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,885 +1,587 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 86.95652173913044,
   "eval_steps": 1500,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.36231884057971014,
-      "grad_norm": 0.7415200471878052,
-      "learning_rate": 9.369565217391306e-06,
-      "loss": 2.8372,
       "step": 50
     },
     {
-      "epoch": 0.7246376811594203,
-      "grad_norm": 0.7866194844245911,
-      "learning_rate": 2.1086956521739132e-05,
-      "loss": 2.7495,
       "step": 100
     },
     {
-      "epoch": 1.0869565217391304,
-      "grad_norm": 1.3562049865722656,
-      "learning_rate": 3.304347826086956e-05,
-      "loss": 2.649,
       "step": 150
     },
     {
-      "epoch": 1.4492753623188406,
-      "grad_norm": 1.167938232421875,
-      "learning_rate": 4.5e-05,
-      "loss": 2.4866,
       "step": 200
     },
     {
-      "epoch": 1.8115942028985508,
-      "grad_norm": 2.102412462234497,
-      "learning_rate": 5.6956521739130437e-05,
-      "loss": 2.2804,
       "step": 250
     },
     {
-      "epoch": 2.1739130434782608,
-      "grad_norm": 1.8163594007492065,
-      "learning_rate": 6.891304347826088e-05,
-      "loss": 2.1049,
       "step": 300
     },
     {
-      "epoch": 2.536231884057971,
-      "grad_norm": 1.6761736869812012,
-      "learning_rate": 8.086956521739131e-05,
-      "loss": 1.9311,
       "step": 350
     },
     {
-      "epoch": 2.898550724637681,
-      "grad_norm": 2.327892303466797,
-      "learning_rate": 9.282608695652174e-05,
-      "loss": 1.7867,
       "step": 400
     },
     {
-      "epoch": 3.260869565217391,
-      "grad_norm": 1.8326770067214966,
-      "learning_rate": 0.0001,
-      "loss": 1.6734,
       "step": 450
     },
     {
-      "epoch": 3.6231884057971016,
-      "grad_norm": 2.092679738998413,
-      "learning_rate": 0.0001,
-      "loss": 1.5518,
       "step": 500
     },
     {
-      "epoch": 3.9855072463768115,
-      "grad_norm": 1.874523401260376,
-      "learning_rate": 0.0001,
-      "loss": 1.5172,
       "step": 550
     },
     {
-      "epoch": 4.3478260869565215,
-      "grad_norm": 2.122560977935791,
-      "learning_rate": 0.0001,
-      "loss": 1.4705,
       "step": 600
     },
     {
-      "epoch": 4.710144927536232,
-      "grad_norm": 1.9091864824295044,
-      "learning_rate": 0.0001,
-      "loss": 1.3828,
       "step": 650
     },
     {
-      "epoch": 5.072463768115942,
-      "grad_norm": 1.9627286195755005,
-      "learning_rate": 0.0001,
-      "loss": 1.3473,
       "step": 700
     },
     {
-      "epoch": 5.434782608695652,
-      "grad_norm": 1.845944881439209,
-      "learning_rate": 0.0001,
-      "loss": 1.3271,
       "step": 750
     },
     {
-      "epoch": 5.797101449275362,
-      "grad_norm": 1.8691362142562866,
-      "learning_rate": 0.0001,
-      "loss": 1.2634,
       "step": 800
     },
     {
-      "epoch": 6.159420289855072,
-      "grad_norm": 2.231165647506714,
-      "learning_rate": 0.0001,
-      "loss": 1.2429,
       "step": 850
     },
     {
-      "epoch": 6.521739130434782,
-      "grad_norm": 1.8022764921188354,
-      "learning_rate": 0.0001,
-      "loss": 1.215,
       "step": 900
     },
     {
-      "epoch": 6.884057971014493,
-      "grad_norm": 1.918607473373413,
-      "learning_rate": 0.0001,
-      "loss": 1.1836,
       "step": 950
     },
     {
-      "epoch": 7.246376811594203,
-      "grad_norm": 1.9824390411376953,
-      "learning_rate": 0.0001,
-      "loss": 1.1721,
       "step": 1000
     },
     {
-      "epoch": 7.608695652173913,
-      "grad_norm": 1.8581913709640503,
-      "learning_rate": 0.0001,
-      "loss": 1.1351,
       "step": 1050
     },
     {
-      "epoch": 7.971014492753623,
-      "grad_norm": 1.8977991342544556,
-      "learning_rate": 0.0001,
-      "loss": 1.1176,
       "step": 1100
     },
     {
-      "epoch": 8.333333333333334,
-      "grad_norm": 2.095898389816284,
-      "learning_rate": 0.0001,
-      "loss": 1.1092,
       "step": 1150
     },
     {
-      "epoch": 8.695652173913043,
-      "grad_norm": 2.253805637359619,
-      "learning_rate": 0.0001,
-      "loss": 1.0644,
       "step": 1200
     },
     {
-      "epoch": 9.057971014492754,
-      "grad_norm": 2.290984869003296,
-      "learning_rate": 0.0001,
-      "loss": 1.0581,
       "step": 1250
     },
     {
-      "epoch": 9.420289855072463,
-      "grad_norm": 1.8521511554718018,
-      "learning_rate": 0.0001,
-      "loss": 1.0616,
       "step": 1300
     },
     {
-      "epoch": 9.782608695652174,
-      "grad_norm": 2.424522876739502,
-      "learning_rate": 0.0001,
-      "loss": 1.0235,
       "step": 1350
     },
     {
-      "epoch": 10.144927536231885,
-      "grad_norm": 1.9674047231674194,
-      "learning_rate": 0.0001,
-      "loss": 1.018,
       "step": 1400
     },
     {
-      "epoch": 10.507246376811594,
-      "grad_norm": 2.169654130935669,
-      "learning_rate": 0.0001,
-      "loss": 0.9963,
       "step": 1450
     },
     {
-      "epoch": 10.869565217391305,
-      "grad_norm": 2.0874452590942383,
-      "learning_rate": 0.0001,
-      "loss": 0.9781,
       "step": 1500
     },
     {
-      "epoch": 11.231884057971014,
-      "grad_norm": 2.0761208534240723,
-      "learning_rate": 0.0001,
-      "loss": 0.9712,
       "step": 1550
     },
     {
-      "epoch": 11.594202898550725,
-      "grad_norm": 2.053912401199341,
-      "learning_rate": 0.0001,
-      "loss": 0.9663,
       "step": 1600
     },
     {
-      "epoch": 11.956521739130435,
-      "grad_norm": 2.502487897872925,
-      "learning_rate": 0.0001,
-      "loss": 0.9438,
       "step": 1650
     },
     {
-      "epoch": 12.318840579710145,
-      "grad_norm": 2.000900983810425,
-      "learning_rate": 0.0001,
-      "loss": 0.9521,
       "step": 1700
     },
     {
-      "epoch": 12.681159420289855,
-      "grad_norm": 2.4034128189086914,
-      "learning_rate": 0.0001,
-      "loss": 0.9084,
       "step": 1750
     },
     {
-      "epoch": 13.043478260869565,
-      "grad_norm": 1.9942097663879395,
-      "learning_rate": 0.0001,
-      "loss": 0.9016,
       "step": 1800
     },
     {
-      "epoch": 13.405797101449275,
-      "grad_norm": 1.8242056369781494,
-      "learning_rate": 0.0001,
-      "loss": 0.9113,
       "step": 1850
     },
     {
-      "epoch": 13.768115942028986,
-      "grad_norm": 2.07265305519104,
-      "learning_rate": 0.0001,
-      "loss": 0.8838,
       "step": 1900
     },
     {
-      "epoch": 14.130434782608695,
-      "grad_norm": 1.9476542472839355,
-      "learning_rate": 0.0001,
-      "loss": 0.8749,
       "step": 1950
     },
     {
-      "epoch": 14.492753623188406,
-      "grad_norm": 1.7369720935821533,
-      "learning_rate": 0.0001,
-      "loss": 0.8767,
       "step": 2000
     },
     {
-      "epoch": 14.855072463768115,
-      "grad_norm": 1.6376968622207642,
-      "learning_rate": 0.0001,
-      "loss": 0.8649,
       "step": 2050
     },
     {
-      "epoch": 15.217391304347826,
-      "grad_norm": 2.408804416656494,
-      "learning_rate": 0.0001,
-      "loss": 0.8546,
       "step": 2100
     },
     {
-      "epoch": 15.579710144927537,
-      "grad_norm": 2.418651819229126,
-      "learning_rate": 0.0001,
-      "loss": 0.8557,
       "step": 2150
     },
     {
-      "epoch": 15.942028985507246,
-      "grad_norm": 1.9724761247634888,
-      "learning_rate": 0.0001,
-      "loss": 0.8418,
       "step": 2200
     },
     {
-      "epoch": 16.304347826086957,
-      "grad_norm": 1.8794658184051514,
-      "learning_rate": 0.0001,
-      "loss": 0.8316,
       "step": 2250
     },
     {
-      "epoch": 16.666666666666668,
-      "grad_norm": 1.8745840787887573,
-      "learning_rate": 0.0001,
-      "loss": 0.8179,
       "step": 2300
     },
     {
-      "epoch": 17.028985507246375,
-      "grad_norm": 2.0710532665252686,
-      "learning_rate": 0.0001,
-      "loss": 0.8078,
       "step": 2350
     },
     {
-      "epoch": 17.391304347826086,
-      "grad_norm": 1.9383975267410278,
-      "learning_rate": 0.0001,
-      "loss": 0.806,
       "step": 2400
     },
     {
-      "epoch": 17.753623188405797,
-      "grad_norm": 2.5431768894195557,
-      "learning_rate": 0.0001,
-      "loss": 0.795,
       "step": 2450
     },
     {
-      "epoch": 18.115942028985508,
-      "grad_norm": 2.2625672817230225,
-      "learning_rate": 0.0001,
-      "loss": 0.7889,
       "step": 2500
     },
     {
-      "epoch": 18.47826086956522,
-      "grad_norm": 1.995342493057251,
-      "learning_rate": 9.98804347826087e-05,
-      "loss": 0.7857,
       "step": 2550
     },
     {
-      "epoch": 18.840579710144926,
-      "grad_norm": 2.2518508434295654,
-      "learning_rate": 9.975323774283072e-05,
-      "loss": 0.774,
       "step": 2600
     },
     {
-      "epoch": 19.202898550724637,
-      "grad_norm": 2.207653522491455,
-      "learning_rate": 9.962604070305273e-05,
-      "loss": 0.762,
       "step": 2650
     },
     {
-      "epoch": 19.565217391304348,
-      "grad_norm": 2.011214017868042,
-      "learning_rate": 9.949884366327475e-05,
-      "loss": 0.7556,
       "step": 2700
     },
     {
-      "epoch": 19.92753623188406,
-      "grad_norm": 1.8435475826263428,
-      "learning_rate": 9.937164662349677e-05,
-      "loss": 0.7505,
       "step": 2750
     },
     {
-      "epoch": 20.28985507246377,
-      "grad_norm": 1.9571833610534668,
-      "learning_rate": 9.924444958371878e-05,
-      "loss": 0.7442,
       "step": 2800
     },
     {
-      "epoch": 20.652173913043477,
-      "grad_norm": 1.830269694328308,
-      "learning_rate": 9.91172525439408e-05,
-      "loss": 0.7288,
       "step": 2850
     },
     {
-      "epoch": 21.014492753623188,
-      "grad_norm": 2.604294538497925,
-      "learning_rate": 9.899005550416282e-05,
-      "loss": 0.719,
       "step": 2900
     },
     {
-      "epoch": 21.3768115942029,
-      "grad_norm": 2.1636900901794434,
-      "learning_rate": 9.886285846438483e-05,
-      "loss": 0.7301,
       "step": 2950
     },
     {
-      "epoch": 21.73913043478261,
-      "grad_norm": 2.368319034576416,
-      "learning_rate": 9.873566142460685e-05,
-      "loss": 0.7184,
       "step": 3000
     },
     {
-      "epoch": 21.73913043478261,
-      "eval_loss": 0.902417004108429,
-      "eval_runtime": 584.856,
-      "eval_samples_per_second": 10.03,
-      "eval_steps_per_second": 0.027,
-      "eval_wer": 0.49515657834042337,
       "step": 3000
     },
     {
-      "epoch": 22.10144927536232,
-      "grad_norm": 2.398688793182373,
-      "learning_rate": 9.860846438482886e-05,
-      "loss": 0.708,
       "step": 3050
     },
     {
-      "epoch": 22.463768115942027,
-      "grad_norm": 2.0567405223846436,
-      "learning_rate": 9.848126734505088e-05,
-      "loss": 0.7062,
       "step": 3100
     },
     {
-      "epoch": 22.82608695652174,
-      "grad_norm": 2.001675844192505,
-      "learning_rate": 9.83540703052729e-05,
-      "loss": 0.7016,
       "step": 3150
     },
     {
-      "epoch": 23.18840579710145,
-      "grad_norm": 2.003246307373047,
-      "learning_rate": 9.822687326549491e-05,
-      "loss": 0.6884,
       "step": 3200
     },
     {
-      "epoch": 23.55072463768116,
-      "grad_norm": 2.49794340133667,
-      "learning_rate": 9.809967622571694e-05,
-      "loss": 0.6846,
       "step": 3250
     },
     {
-      "epoch": 23.91304347826087,
-      "grad_norm": 2.2691776752471924,
-      "learning_rate": 9.797247918593895e-05,
-      "loss": 0.6746,
       "step": 3300
     },
     {
-      "epoch": 24.27536231884058,
-      "grad_norm": 1.9415994882583618,
-      "learning_rate": 9.784528214616096e-05,
-      "loss": 0.6854,
       "step": 3350
     },
     {
-      "epoch": 24.63768115942029,
-      "grad_norm": 2.4430294036865234,
-      "learning_rate": 9.771808510638299e-05,
-      "loss": 0.6747,
       "step": 3400
     },
     {
-      "epoch": 25.0,
-      "grad_norm": 1.759033203125,
-      "learning_rate": 9.7590888066605e-05,
-      "loss": 0.6505,
       "step": 3450
     },
     {
-      "epoch": 25.36231884057971,
-      "grad_norm": 1.9296367168426514,
-      "learning_rate": 9.746369102682701e-05,
-      "loss": 0.6642,
       "step": 3500
     },
     {
-      "epoch": 25.72463768115942,
-      "grad_norm": 1.9138261079788208,
-      "learning_rate": 9.733649398704904e-05,
-      "loss": 0.6469,
       "step": 3550
     },
     {
-      "epoch": 26.08695652173913,
-      "grad_norm": 2.2081732749938965,
-      "learning_rate": 9.720929694727105e-05,
-      "loss": 0.6512,
       "step": 3600
     },
     {
-      "epoch": 26.44927536231884,
-      "grad_norm": 1.6682246923446655,
-      "learning_rate": 9.708209990749306e-05,
-      "loss": 0.6379,
       "step": 3650
     },
     {
-      "epoch": 26.81159420289855,
-      "grad_norm": 2.3980038166046143,
-      "learning_rate": 9.695490286771509e-05,
-      "loss": 0.6365,
       "step": 3700
     },
     {
-      "epoch": 27.17391304347826,
-      "grad_norm": 1.7031484842300415,
-      "learning_rate": 9.683024976873265e-05,
-      "loss": 0.6253,
       "step": 3750
     },
     {
-      "epoch": 27.536231884057973,
-      "grad_norm": 2.0912516117095947,
-      "learning_rate": 9.670305272895468e-05,
-      "loss": 0.6257,
       "step": 3800
     },
     {
-      "epoch": 27.89855072463768,
-      "grad_norm": 2.1551194190979004,
-      "learning_rate": 9.657585568917669e-05,
-      "loss": 0.6266,
       "step": 3850
     },
     {
-      "epoch": 28.26086956521739,
-      "grad_norm": 1.8378657102584839,
-      "learning_rate": 9.64486586493987e-05,
-      "loss": 0.617,
       "step": 3900
     },
     {
-      "epoch": 28.6231884057971,
-      "grad_norm": 1.9624013900756836,
-      "learning_rate": 9.632146160962073e-05,
-      "loss": 0.6194,
       "step": 3950
     },
     {
-      "epoch": 28.985507246376812,
-      "grad_norm": 1.9267085790634155,
-      "learning_rate": 9.619426456984274e-05,
-      "loss": 0.6052,
       "step": 4000
-    },
-    {
-      "epoch": 58.69565217391305,
-      "grad_norm": 1.3925776481628418,
-      "learning_rate": 9.606706753006477e-05,
-      "loss": 0.5858,
-      "step": 4050
-    },
-    {
-      "epoch": 59.42028985507246,
-      "grad_norm": 1.3453298807144165,
-      "learning_rate": 9.593987049028678e-05,
-      "loss": 0.5715,
-      "step": 4100
-    },
-    {
-      "epoch": 60.14492753623188,
-      "grad_norm": 1.5027530193328857,
-      "learning_rate": 9.581267345050879e-05,
-      "loss": 0.5599,
-      "step": 4150
-    },
-    {
-      "epoch": 60.869565217391305,
-      "grad_norm": 1.3528389930725098,
-      "learning_rate": 9.568547641073081e-05,
-      "loss": 0.5492,
-      "step": 4200
-    },
-    {
-      "epoch": 61.594202898550726,
-      "grad_norm": 1.344739317893982,
-      "learning_rate": 9.555827937095283e-05,
-      "loss": 0.5386,
-      "step": 4250
-    },
-    {
-      "epoch": 62.31884057971015,
-      "grad_norm": 1.4145418405532837,
-      "learning_rate": 9.543108233117484e-05,
-      "loss": 0.5349,
-      "step": 4300
-    },
-    {
-      "epoch": 63.04347826086956,
-      "grad_norm": 1.4277065992355347,
-      "learning_rate": 9.530388529139686e-05,
-      "loss": 0.5177,
-      "step": 4350
-    },
-    {
-      "epoch": 63.768115942028984,
-      "grad_norm": 1.4313771724700928,
-      "learning_rate": 9.517668825161888e-05,
-      "loss": 0.5193,
-      "step": 4400
-    },
-    {
-      "epoch": 64.4927536231884,
-      "grad_norm": 1.3793104887008667,
-      "learning_rate": 9.504949121184089e-05,
-      "loss": 0.5119,
-      "step": 4450
-    },
-    {
-      "epoch": 65.21739130434783,
-      "grad_norm": 1.312393307685852,
-      "learning_rate": 9.492229417206291e-05,
-      "loss": 0.4959,
-      "step": 4500
-    },
-    {
-      "epoch": 65.21739130434783,
-      "eval_loss": 1.0089221000671387,
-      "eval_runtime": 304.2405,
-      "eval_samples_per_second": 19.281,
-      "eval_steps_per_second": 0.026,
-      "eval_wer": 0.4844446722361745,
-      "step": 4500
-    },
-    {
-      "epoch": 65.94202898550725,
-      "grad_norm": 1.6502594947814941,
-      "learning_rate": 9.479509713228492e-05,
-      "loss": 0.4997,
-      "step": 4550
-    },
-    {
-      "epoch": 66.66666666666667,
-      "grad_norm": 1.2879911661148071,
-      "learning_rate": 9.466790009250694e-05,
-      "loss": 0.4935,
-      "step": 4600
-    },
-    {
-      "epoch": 67.3913043478261,
-      "grad_norm": 1.3771027326583862,
-      "learning_rate": 9.454070305272896e-05,
-      "loss": 0.4821,
-      "step": 4650
-    },
-    {
-      "epoch": 68.1159420289855,
-      "grad_norm": 1.8583579063415527,
-      "learning_rate": 9.441350601295097e-05,
-      "loss": 0.4733,
-      "step": 4700
-    },
-    {
-      "epoch": 68.84057971014492,
-      "grad_norm": 1.495661735534668,
-      "learning_rate": 9.428630897317299e-05,
-      "loss": 0.4737,
-      "step": 4750
-    },
-    {
-      "epoch": 69.56521739130434,
-      "grad_norm": 1.5063421726226807,
-      "learning_rate": 9.415911193339501e-05,
-      "loss": 0.4716,
-      "step": 4800
-    },
-    {
-      "epoch": 70.28985507246377,
-      "grad_norm": 1.748350977897644,
-      "learning_rate": 9.403191489361702e-05,
-      "loss": 0.4653,
-      "step": 4850
-    },
-    {
-      "epoch": 71.01449275362319,
-      "grad_norm": 1.3581229448318481,
-      "learning_rate": 9.390471785383905e-05,
-      "loss": 0.4521,
-      "step": 4900
-    },
-    {
-      "epoch": 71.73913043478261,
-      "grad_norm": 1.439302921295166,
-      "learning_rate": 9.377752081406106e-05,
-      "loss": 0.4538,
-      "step": 4950
-    },
-    {
-      "epoch": 72.46376811594203,
-      "grad_norm": 1.3644930124282837,
-      "learning_rate": 9.365032377428307e-05,
-      "loss": 0.4435,
-      "step": 5000
-    },
-    {
-      "epoch": 73.18840579710145,
-      "grad_norm": 1.3828235864639282,
-      "learning_rate": 9.35231267345051e-05,
-      "loss": 0.4377,
-      "step": 5050
-    },
-    {
-      "epoch": 73.91304347826087,
-      "grad_norm": 1.3479715585708618,
-      "learning_rate": 9.339592969472711e-05,
-      "loss": 0.4358,
-      "step": 5100
-    },
-    {
-      "epoch": 74.6376811594203,
-      "grad_norm": 1.5974297523498535,
-      "learning_rate": 9.326873265494912e-05,
-      "loss": 0.4332,
-      "step": 5150
-    },
-    {
-      "epoch": 75.3623188405797,
-      "grad_norm": 1.2654752731323242,
-      "learning_rate": 9.314153561517115e-05,
-      "loss": 0.4235,
-      "step": 5200
-    },
-    {
-      "epoch": 76.08695652173913,
-      "grad_norm": 1.6698533296585083,
-      "learning_rate": 9.301433857539316e-05,
-      "loss": 0.4137,
-      "step": 5250
-    },
-    {
-      "epoch": 76.81159420289855,
-      "grad_norm": 1.6293294429779053,
-      "learning_rate": 9.288714153561517e-05,
-      "loss": 0.4151,
-      "step": 5300
-    },
-    {
-      "epoch": 77.53623188405797,
-      "grad_norm": 1.9236047267913818,
-      "learning_rate": 9.27599444958372e-05,
-      "loss": 0.4069,
-      "step": 5350
-    },
-    {
-      "epoch": 78.26086956521739,
-      "grad_norm": 1.5525872707366943,
-      "learning_rate": 9.263274745605921e-05,
-      "loss": 0.4052,
-      "step": 5400
-    },
-    {
-      "epoch": 78.98550724637681,
-      "grad_norm": 1.4388564825057983,
-      "learning_rate": 9.250555041628122e-05,
-      "loss": 0.4043,
-      "step": 5450
-    },
-    {
-      "epoch": 79.71014492753623,
-      "grad_norm": 1.520162582397461,
-      "learning_rate": 9.237835337650325e-05,
-      "loss": 0.3965,
-      "step": 5500
-    },
-    {
-      "epoch": 80.43478260869566,
-      "grad_norm": 1.4822075366973877,
-      "learning_rate": 9.225115633672526e-05,
-      "loss": 0.3948,
-      "step": 5550
-    },
-    {
-      "epoch": 81.15942028985508,
-      "grad_norm": 1.5057759284973145,
-      "learning_rate": 9.212395929694727e-05,
-      "loss": 0.3867,
-      "step": 5600
-    },
-    {
-      "epoch": 81.8840579710145,
-      "grad_norm": 2.7516353130340576,
-      "learning_rate": 9.19967622571693e-05,
-      "loss": 0.3871,
-      "step": 5650
-    },
-    {
-      "epoch": 82.6086956521739,
-      "grad_norm": 1.4540650844573975,
-      "learning_rate": 9.186956521739131e-05,
-      "loss": 0.38,
-      "step": 5700
-    },
-    {
-      "epoch": 83.33333333333333,
-      "grad_norm": 1.484658122062683,
-      "learning_rate": 9.174236817761332e-05,
-      "loss": 0.378,
-      "step": 5750
-    },
-    {
-      "epoch": 84.05797101449275,
-      "grad_norm": 1.5327116250991821,
-      "learning_rate": 9.161517113783534e-05,
-      "loss": 0.371,
-      "step": 5800
-    },
-    {
-      "epoch": 84.78260869565217,
-      "grad_norm": 1.7103629112243652,
-      "learning_rate": 9.148797409805736e-05,
-      "loss": 0.3768,
-      "step": 5850
-    },
-    {
-      "epoch": 85.5072463768116,
-      "grad_norm": 1.3443946838378906,
-      "learning_rate": 9.136077705827937e-05,
-      "loss": 0.364,
-      "step": 5900
-    },
-    {
-      "epoch": 86.23188405797102,
-      "grad_norm": 1.4796549081802368,
-      "learning_rate": 9.12335800185014e-05,
-      "loss": 0.3613,
-      "step": 5950
-    },
-    {
-      "epoch": 86.95652173913044,
-      "grad_norm": 1.3333659172058105,
-      "learning_rate": 9.11063829787234e-05,
-      "loss": 0.3584,
-      "step": 6000
-    },
-    {
-      "epoch": 86.95652173913044,
-      "eval_loss": 1.1995052099227905,
-      "eval_runtime": 473.8923,
-      "eval_samples_per_second": 12.378,
-      "eval_steps_per_second": 0.017,
-      "eval_wer": 0.4768592076264671,
-      "step": 6000
     }
   ],
   "logging_steps": 50,
-  "max_steps": 20700,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 300,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -893,7 +595,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.098625235959834e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 108.10810810810811,
   "eval_steps": 1500,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.3513513513513513,
+      "grad_norm": 0.5760506987571716,
+      "learning_rate": 1.9364864864864865e-06,
+      "loss": 0.0736,
       "step": 50
     },
     {
+      "epoch": 2.7027027027027026,
+      "grad_norm": 0.4748266339302063,
+      "learning_rate": 3.2743243243243245e-06,
+      "loss": 0.0682,
       "step": 100
     },
     {
+      "epoch": 4.054054054054054,
+      "grad_norm": 0.4784703552722931,
+      "learning_rate": 4.612162162162162e-06,
+      "loss": 0.0661,
       "step": 150
     },
     {
+      "epoch": 5.405405405405405,
+      "grad_norm": 0.4363403022289276,
+      "learning_rate": 5.95e-06,
+      "loss": 0.0646,
       "step": 200
     },
     {
+      "epoch": 6.756756756756757,
+      "grad_norm": 0.49891752004623413,
+      "learning_rate": 7.287837837837838e-06,
+      "loss": 0.0624,
       "step": 250
     },
     {
+      "epoch": 8.108108108108109,
+      "grad_norm": 0.47630417346954346,
+      "learning_rate": 8.625675675675676e-06,
+      "loss": 0.0635,
       "step": 300
     },
     {
+      "epoch": 9.45945945945946,
+      "grad_norm": 0.5554671287536621,
+      "learning_rate": 9.963513513513515e-06,
+      "loss": 0.0617,
       "step": 350
     },
     {
+      "epoch": 10.81081081081081,
+      "grad_norm": 0.4327123165130615,
+      "learning_rate": 1.1301351351351353e-05,
+      "loss": 0.0595,
       "step": 400
     },
     {
+      "epoch": 12.162162162162161,
+      "grad_norm": 0.5002420544624329,
+      "learning_rate": 1.263918918918919e-05,
+      "loss": 0.0585,
       "step": 450
     },
     {
+      "epoch": 13.513513513513514,
+      "grad_norm": 0.42524299025535583,
+      "learning_rate": 1.3977027027027028e-05,
+      "loss": 0.0579,
       "step": 500
     },
     {
+      "epoch": 14.864864864864865,
+      "grad_norm": 0.44030219316482544,
+      "learning_rate": 1.5314864864864867e-05,
+      "loss": 0.0575,
       "step": 550
     },
     {
+      "epoch": 16.216216216216218,
+      "grad_norm": 0.46804261207580566,
+      "learning_rate": 1.6625945945945947e-05,
+      "loss": 0.0579,
       "step": 600
     },
     {
+      "epoch": 17.56756756756757,
+      "grad_norm": 0.5248824954032898,
+      "learning_rate": 1.7963783783783787e-05,
+      "loss": 0.0556,
       "step": 650
     },
     {
+      "epoch": 18.91891891891892,
+      "grad_norm": 0.43462327122688293,
+      "learning_rate": 1.9301621621621623e-05,
+      "loss": 0.0546,
       "step": 700
     },
     {
+      "epoch": 20.27027027027027,
+      "grad_norm": 0.48718762397766113,
+      "learning_rate": 2.0639459459459462e-05,
+      "loss": 0.0529,
       "step": 750
     },
     {
+      "epoch": 21.62162162162162,
+      "grad_norm": 0.40828168392181396,
+      "learning_rate": 2.19772972972973e-05,
+      "loss": 0.0523,
       "step": 800
     },
     {
+      "epoch": 22.972972972972972,
+      "grad_norm": 0.4686122238636017,
+      "learning_rate": 2.3315135135135137e-05,
+      "loss": 0.0531,
       "step": 850
     },
     {
+      "epoch": 24.324324324324323,
+      "grad_norm": 0.4426785707473755,
+      "learning_rate": 2.4652972972972976e-05,
+      "loss": 0.051,
       "step": 900
     },
     {
+      "epoch": 25.675675675675677,
+      "grad_norm": 0.4910499155521393,
+      "learning_rate": 2.5990810810810812e-05,
+      "loss": 0.0486,
       "step": 950
     },
     {
+      "epoch": 27.027027027027028,
+      "grad_norm": 0.4253314435482025,
+      "learning_rate": 2.7328648648648652e-05,
+      "loss": 0.0491,
       "step": 1000
     },
     {
+      "epoch": 28.37837837837838,
+      "grad_norm": 0.3838571012020111,
+      "learning_rate": 2.866648648648649e-05,
+      "loss": 0.049,
       "step": 1050
     },
     {
+      "epoch": 29.72972972972973,
+      "grad_norm": 0.39428308606147766,
+      "learning_rate": 3.0004324324324327e-05,
+      "loss": 0.0478,
       "step": 1100
     },
     {
+      "epoch": 31.08108108108108,
+      "grad_norm": 0.3973025381565094,
+      "learning_rate": 3.134216216216216e-05,
+      "loss": 0.0473,
       "step": 1150
     },
     {
+      "epoch": 32.432432432432435,
+      "grad_norm": 0.47299668192863464,
+      "learning_rate": 3.268e-05,
+      "loss": 0.047,
       "step": 1200
     },
     {
+      "epoch": 33.78378378378378,
+      "grad_norm": 0.5077139139175415,
+      "learning_rate": 3.4017837837837835e-05,
+      "loss": 0.0459,
       "step": 1250
     },
     {
+      "epoch": 35.13513513513514,
+      "grad_norm": 0.3789336085319519,
+      "learning_rate": 3.535567567567568e-05,
+      "loss": 0.0462,
       "step": 1300
     },
     {
+      "epoch": 36.486486486486484,
+      "grad_norm": 0.3798762857913971,
+      "learning_rate": 3.669351351351351e-05,
+      "loss": 0.045,
       "step": 1350
     },
     {
+      "epoch": 37.83783783783784,
+      "grad_norm": 0.41409873962402344,
+      "learning_rate": 3.803135135135135e-05,
+      "loss": 0.0438,
       "step": 1400
     },
     {
+      "epoch": 39.189189189189186,
+      "grad_norm": 0.4816993176937103,
+      "learning_rate": 3.936918918918919e-05,
+      "loss": 0.0432,
       "step": 1450
     },
     {
+      "epoch": 40.54054054054054,
+      "grad_norm": 0.31075775623321533,
+      "learning_rate": 4.070702702702703e-05,
+      "loss": 0.0415,
       "step": 1500
     },
     {
+      "epoch": 41.891891891891895,
+      "grad_norm": 0.5353565812110901,
+      "learning_rate": 4.2044864864864864e-05,
+      "loss": 0.0414,
       "step": 1550
     },
     {
+      "epoch": 43.24324324324324,
+      "grad_norm": 0.3337886333465576,
+      "learning_rate": 4.3382702702702707e-05,
+      "loss": 0.0406,
       "step": 1600
     },
     {
+      "epoch": 44.5945945945946,
+      "grad_norm": 0.3847792446613312,
+      "learning_rate": 4.472054054054054e-05,
+      "loss": 0.0404,
       "step": 1650
     },
     {
+      "epoch": 45.945945945945944,
+      "grad_norm": 0.4075019657611847,
+      "learning_rate": 4.605837837837838e-05,
+      "loss": 0.0409,
       "step": 1700
     },
     {
+      "epoch": 47.2972972972973,
+      "grad_norm": 0.4205191433429718,
+      "learning_rate": 4.7396216216216214e-05,
+      "loss": 0.0399,
       "step": 1750
     },
     {
+      "epoch": 48.648648648648646,
+      "grad_norm": 0.5053867101669312,
+      "learning_rate": 4.873405405405406e-05,
+      "loss": 0.0387,
       "step": 1800
     },
     {
+      "epoch": 50.0,
+      "grad_norm": 0.43625885248184204,
+      "learning_rate": 5.007189189189189e-05,
+      "loss": 0.0393,
       "step": 1850
     },
     {
+      "epoch": 51.351351351351354,
+      "grad_norm": 0.44896236062049866,
+      "learning_rate": 5.140972972972973e-05,
+      "loss": 0.0376,
       "step": 1900
     },
     {
+      "epoch": 52.7027027027027,
+      "grad_norm": 0.42207279801368713,
+      "learning_rate": 5.274756756756757e-05,
+      "loss": 0.0392,
       "step": 1950
     },
     {
+      "epoch": 54.054054054054056,
+      "grad_norm": 0.4605530798435211,
+      "learning_rate": 5.408540540540541e-05,
+      "loss": 0.0384,
       "step": 2000
     },
     {
+      "epoch": 55.4054054054054,
+      "grad_norm": 0.4523848295211792,
+      "learning_rate": 5.5423243243243243e-05,
+      "loss": 0.0366,
       "step": 2050
     },
     {
+      "epoch": 56.75675675675676,
+      "grad_norm": 0.37463346123695374,
+      "learning_rate": 5.6761081081081086e-05,
+      "loss": 0.037,
       "step": 2100
     },
     {
+      "epoch": 58.108108108108105,
+      "grad_norm": 0.5655389428138733,
+      "learning_rate": 5.809891891891892e-05,
+      "loss": 0.0383,
       "step": 2150
     },
     {
+      "epoch": 59.45945945945946,
+      "grad_norm": 0.441587895154953,
+      "learning_rate": 5.943675675675676e-05,
+      "loss": 0.0392,
       "step": 2200
     },
     {
+      "epoch": 60.810810810810814,
+      "grad_norm": 0.44860920310020447,
+      "learning_rate": 6.074783783783784e-05,
+      "loss": 0.0372,
       "step": 2250
     },
     {
+      "epoch": 62.16216216216216,
+      "grad_norm": 0.4874947965145111,
+      "learning_rate": 6.208567567567567e-05,
+      "loss": 0.0372,
       "step": 2300
     },
     {
+      "epoch": 63.513513513513516,
+      "grad_norm": 0.44674238562583923,
+      "learning_rate": 6.342351351351351e-05,
+      "loss": 0.0368,
       "step": 2350
     },
     {
+      "epoch": 64.86486486486487,
+      "grad_norm": 0.535265326499939,
+      "learning_rate": 6.476135135135136e-05,
+      "loss": 0.0372,
       "step": 2400
     },
     {
+      "epoch": 66.21621621621621,
+      "grad_norm": 0.38546523451805115,
+      "learning_rate": 6.60991891891892e-05,
+      "loss": 0.0349,
       "step": 2450
     },
     {
+      "epoch": 67.56756756756756,
+      "grad_norm": 0.4751232862472534,
+      "learning_rate": 6.743702702702703e-05,
+      "loss": 0.038,
       "step": 2500
     },
     {
+      "epoch": 68.91891891891892,
+      "grad_norm": 0.6618958115577698,
+      "learning_rate": 6.877486486486487e-05,
+      "loss": 0.0512,
       "step": 2550
     },
     {
+      "epoch": 70.27027027027027,
+      "grad_norm": 0.4467822015285492,
+      "learning_rate": 7.01127027027027e-05,
+      "loss": 0.0517,
       "step": 2600
     },
     {
+      "epoch": 71.62162162162163,
+      "grad_norm": 0.5807027816772461,
+      "learning_rate": 7.145054054054054e-05,
+      "loss": 0.0506,
       "step": 2650
     },
     {
+      "epoch": 72.97297297297297,
+      "grad_norm": 0.44088873267173767,
+      "learning_rate": 7.278837837837837e-05,
+      "loss": 0.0517,
       "step": 2700
     },
     {
+      "epoch": 74.32432432432432,
+      "grad_norm": 0.5117065906524658,
+      "learning_rate": 7.412621621621622e-05,
+      "loss": 0.0497,
       "step": 2750
     },
     {
+      "epoch": 75.67567567567568,
+      "grad_norm": 0.5457988381385803,
+      "learning_rate": 7.546405405405406e-05,
+      "loss": 0.0494,
       "step": 2800
     },
     {
+      "epoch": 77.02702702702703,
+      "grad_norm": 0.35911738872528076,
+      "learning_rate": 7.68018918918919e-05,
+      "loss": 0.0476,
       "step": 2850
     },
     {
+      "epoch": 78.37837837837837,
+      "grad_norm": 0.5895106196403503,
+      "learning_rate": 7.813972972972973e-05,
+      "loss": 0.0479,
       "step": 2900
     },
     {
+      "epoch": 79.72972972972973,
+      "grad_norm": 0.39779385924339294,
+      "learning_rate": 7.947756756756757e-05,
+      "loss": 0.0479,
       "step": 2950
     },
     {
+      "epoch": 81.08108108108108,
+      "grad_norm": 0.5251230001449585,
+      "learning_rate": 8.08154054054054e-05,
+      "loss": 0.0468,
       "step": 3000
     },
     {
+      "epoch": 81.08108108108108,
+      "eval_loss": 0.5344434976577759,
+      "eval_runtime": 19.3274,
+      "eval_samples_per_second": 81.076,
+      "eval_steps_per_second": 0.259,
+      "eval_wer": 0.18456803226491192,
       "step": 3000
     },
     {
+      "epoch": 82.43243243243244,
+      "grad_norm": 0.44322407245635986,
+      "learning_rate": 8.215324324324325e-05,
+      "loss": 0.0458,
       "step": 3050
     },
     {
+      "epoch": 83.78378378378379,
+      "grad_norm": 0.47398409247398376,
+      "learning_rate": 8.349108108108109e-05,
+      "loss": 0.0461,
       "step": 3100
     },
     {
+      "epoch": 85.13513513513513,
+      "grad_norm": 0.452659010887146,
+      "learning_rate": 8.482891891891893e-05,
+      "loss": 0.045,
       "step": 3150
     },
     {
+      "epoch": 86.48648648648648,
+      "grad_norm": 0.6125317215919495,
+      "learning_rate": 8.616675675675676e-05,
+      "loss": 0.046,
       "step": 3200
     },
     {
+      "epoch": 87.83783783783784,
+      "grad_norm": 0.4655373692512512,
+      "learning_rate": 8.75045945945946e-05,
+      "loss": 0.0462,
       "step": 3250
     },
     {
+      "epoch": 89.1891891891892,
+      "grad_norm": 0.5071247220039368,
+      "learning_rate": 8.884243243243243e-05,
+      "loss": 0.0455,
       "step": 3300
     },
     {
+      "epoch": 90.54054054054055,
+      "grad_norm": 0.4586324691772461,
+      "learning_rate": 9.018027027027027e-05,
+      "loss": 0.0443,
       "step": 3350
     },
     {
+      "epoch": 91.89189189189189,
+      "grad_norm": 0.49810245633125305,
+      "learning_rate": 9.151810810810812e-05,
+      "loss": 0.0444,
       "step": 3400
     },
     {
+      "epoch": 93.24324324324324,
+      "grad_norm": 0.4874321222305298,
+      "learning_rate": 9.285594594594595e-05,
+      "loss": 0.0424,
       "step": 3450
     },
     {
+      "epoch": 94.5945945945946,
+      "grad_norm": 0.5060502886772156,
+      "learning_rate": 9.419378378378379e-05,
+      "loss": 0.0432,
       "step": 3500
     },
     {
+      "epoch": 95.94594594594595,
+      "grad_norm": 0.4356514513492584,
+      "learning_rate": 9.553162162162163e-05,
+      "loss": 0.042,
       "step": 3550
     },
     {
+      "epoch": 97.29729729729729,
+      "grad_norm": 0.5080994367599487,
+      "learning_rate": 9.684270270270271e-05,
+      "loss": 0.0424,
       "step": 3600
     },
     {
+      "epoch": 98.64864864864865,
+      "grad_norm": 0.6090648174285889,
+      "learning_rate": 9.818054054054055e-05,
+      "loss": 0.0423,
       "step": 3650
     },
     {
+      "epoch": 100.0,
+      "grad_norm": 0.6025941967964172,
+      "learning_rate": 9.951837837837838e-05,
+      "loss": 0.0445,
       "step": 3700
     },
     {
+      "epoch": 101.35135135135135,
+      "grad_norm": 0.592052161693573,
+      "learning_rate": 0.0001,
+      "loss": 0.0425,
       "step": 3750
     },
     {
+      "epoch": 102.70270270270271,
+      "grad_norm": 0.5158424973487854,
+      "learning_rate": 0.0001,
+      "loss": 0.0423,
       "step": 3800
     },
     {
+      "epoch": 104.05405405405405,
+      "grad_norm": 0.45459866523742676,
+      "learning_rate": 0.0001,
+      "loss": 0.0411,
       "step": 3850
     },
     {
+      "epoch": 105.4054054054054,
+      "grad_norm": 0.4477308392524719,
+      "learning_rate": 0.0001,
+      "loss": 0.0426,
       "step": 3900
     },
     {
+      "epoch": 106.75675675675676,
+      "grad_norm": 0.5172644853591919,
+      "learning_rate": 0.0001,
+      "loss": 0.0413,
       "step": 3950
     },
     {
+      "epoch": 108.10810810810811,
+      "grad_norm": 0.4363681674003601,
+      "learning_rate": 0.0001,
+      "loss": 0.0418,
       "step": 4000
     }
   ],
   "logging_steps": 50,
+  "max_steps": 37000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1000,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.1227882820640702e+20,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4ae428fb9537eb0fb6bf007b0fbf0b48120ff43c4475668d98c717c11721749
 size 6264

 version https://git-lfs.github.com/spec/v1
+oid sha256:947b426ccbf2210bfedcbd5a6451184b0ef96e0b87c9ffe2057287fdde11bc1c
 size 6264