Training in progress, step 7000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df1244c910bb4060fc5cd3cd04e33a0310bf7b71cf0fe800440d55080893d1a2
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:28072047700e1de585a07077ebc92b4714eed04f2345d75eb99ced2196fe9fa7
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f77b13041110339e8140256c79f4ac6e2ee378775e323dfcd41c6660939958fd
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2c3a16a887489600f444738e291b8186e27ffbeb4f43a529a4469099c5dc85f
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03be960e2fc539e2d69d5db998af57e835579dabd06a4178f51fdda3448e0efb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:48d505bc797ae06b42ca84d6f450fca5d6d2f612a42f19f5b2b9faeb52b37e39
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9dca2388d7b13e399101f77bac9094a9dd1673ec11d576f1f56065692ea6a74
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5042add55b1f9bbff03a2f79c52bf9eb682e629b3af75c9a351c18dbe12735bf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.10702774673700333,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-6500",
-  "epoch": 1.1416527619214893,
   "eval_steps": 100,
-  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1437,6 +1437,116 @@
       "eval_samples_per_second": 25.245,
       "eval_steps_per_second": 3.158,
       "step": 6500
     }
   ],
   "logging_steps": 50,
@@ -1456,7 +1566,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.166367895650304e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.10637149214744568,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-7000",
+  "epoch": 1.2294722051462195,
   "eval_steps": 100,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.245,
       "eval_steps_per_second": 3.158,
       "step": 6500
+    },
+    {
+      "epoch": 1.1504347062439624,
+      "grad_norm": 9161.2529296875,
+      "learning_rate": 2.1370981907605832e-05,
+      "loss": 0.1037,
+      "step": 6550
+    },
+    {
+      "epoch": 1.1592166505664354,
+      "grad_norm": 9676.08203125,
+      "learning_rate": 2.130511154048832e-05,
+      "loss": 0.1113,
+      "step": 6600
+    },
+    {
+      "epoch": 1.1592166505664354,
+      "eval_loss": 0.10694678127765656,
+      "eval_runtime": 176.4583,
+      "eval_samples_per_second": 25.275,
+      "eval_steps_per_second": 3.162,
+      "step": 6600
+    },
+    {
+      "epoch": 1.1679985948889084,
+      "grad_norm": 10895.8876953125,
+      "learning_rate": 2.1239241173370806e-05,
+      "loss": 0.1029,
+      "step": 6650
+    },
+    {
+      "epoch": 1.1767805392113815,
+      "grad_norm": 10269.076171875,
+      "learning_rate": 2.1173370806253292e-05,
+      "loss": 0.1086,
+      "step": 6700
+    },
+    {
+      "epoch": 1.1767805392113815,
+      "eval_loss": 0.10676951706409454,
+      "eval_runtime": 176.5328,
+      "eval_samples_per_second": 25.264,
+      "eval_steps_per_second": 3.161,
+      "step": 6700
+    },
+    {
+      "epoch": 1.1855624835338543,
+      "grad_norm": 9631.9169921875,
+      "learning_rate": 2.1107500439135782e-05,
+      "loss": 0.111,
+      "step": 6750
+    },
+    {
+      "epoch": 1.1943444278563273,
+      "grad_norm": 8764.7451171875,
+      "learning_rate": 2.104163007201827e-05,
+      "loss": 0.1066,
+      "step": 6800
+    },
+    {
+      "epoch": 1.1943444278563273,
+      "eval_loss": 0.10679937154054642,
+      "eval_runtime": 176.7169,
+      "eval_samples_per_second": 25.238,
+      "eval_steps_per_second": 3.158,
+      "step": 6800
+    },
+    {
+      "epoch": 1.2031263721788004,
+      "grad_norm": 12220.5439453125,
+      "learning_rate": 2.0975759704900756e-05,
+      "loss": 0.1106,
+      "step": 6850
+    },
+    {
+      "epoch": 1.2119083165012734,
+      "grad_norm": 13508.0205078125,
+      "learning_rate": 2.0909889337783242e-05,
+      "loss": 0.1115,
+      "step": 6900
+    },
+    {
+      "epoch": 1.2119083165012734,
+      "eval_loss": 0.10662820190191269,
+      "eval_runtime": 176.4182,
+      "eval_samples_per_second": 25.281,
+      "eval_steps_per_second": 3.163,
+      "step": 6900
+    },
+    {
+      "epoch": 1.2206902608237464,
+      "grad_norm": 11431.49609375,
+      "learning_rate": 2.0844018970665732e-05,
+      "loss": 0.1042,
+      "step": 6950
+    },
+    {
+      "epoch": 1.2294722051462195,
+      "grad_norm": 8914.7119140625,
+      "learning_rate": 2.077814860354822e-05,
+      "loss": 0.1037,
+      "step": 7000
+    },
+    {
+      "epoch": 1.2294722051462195,
+      "eval_loss": 0.10637149214744568,
+      "eval_runtime": 176.33,
+      "eval_samples_per_second": 25.293,
+      "eval_steps_per_second": 3.165,
+      "step": 7000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.409951051874304e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null