Training in progress, step 3180

Browse files

Files changed (6) hide show

model.safetensors +1 -1
run-11/checkpoint-3180/model.safetensors +1 -1
run-11/checkpoint-3180/optimizer.pt +1 -1
run-11/checkpoint-3180/trainer_state.json +68 -68
run-11/checkpoint-3180/training_args.bin +1 -1
runs/Dec20_17-34-05_bogon/events.out.tfevents.1734705433.bogon.92058.33 +3 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1eae9dab05be60513a1795635af24cccfa3fdfdead0509ebf734e5c1958177e
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7b4592ac0c8c2621aa0bf6cc48358a9a7733b828ad086371bcfd4495a46541b
 size 268290900

run-11/checkpoint-3180/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e39c4f5a6351f3075b5b3741515b1cd2a71b546343c8e64ebfd362859c446880
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7b4592ac0c8c2621aa0bf6cc48358a9a7733b828ad086371bcfd4495a46541b
 size 268290900

run-11/checkpoint-3180/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5cf890b0e900fa8fb9af90e4a9608e082d3b705681d57cfdb8cf04b75a95eec
 size 536641018

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bfa0ebb9d3c136bf9e300c370d03a101413666475a585e27fe5bfe859b7caae
 size 536641018

run-11/checkpoint-3180/trainer_state.json CHANGED Viewed

@@ -10,153 +10,153 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 0.6248980164527893,
       "learning_rate": 1.8006289308176103e-05,
-      "loss": 0.3888,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5883870967741935,
-      "eval_loss": 0.19156621396541595,
-      "eval_runtime": 3.2342,
-      "eval_samples_per_second": 958.508,
-      "eval_steps_per_second": 20.098,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 0.5106106400489807,
       "learning_rate": 1.6012578616352204e-05,
-      "loss": 0.1606,
       "step": 634
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.824516129032258,
-      "eval_loss": 0.09305667877197266,
-      "eval_runtime": 3.4512,
-      "eval_samples_per_second": 898.226,
-      "eval_steps_per_second": 18.834,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 0.4880390465259552,
       "learning_rate": 1.4018867924528304e-05,
-      "loss": 0.1004,
       "step": 951
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8829032258064516,
-      "eval_loss": 0.061857614666223526,
-      "eval_runtime": 3.24,
-      "eval_samples_per_second": 956.798,
-      "eval_steps_per_second": 20.062,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 0.36079642176628113,
       "learning_rate": 1.2025157232704403e-05,
-      "loss": 0.0748,
       "step": 1268
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8987096774193548,
-      "eval_loss": 0.04717925190925598,
-      "eval_runtime": 3.2015,
-      "eval_samples_per_second": 968.283,
-      "eval_steps_per_second": 20.303,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 0.271781861782074,
       "learning_rate": 1.0031446540880504e-05,
-      "loss": 0.0615,
       "step": 1585
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9103225806451613,
-      "eval_loss": 0.038652800023555756,
-      "eval_runtime": 3.1772,
-      "eval_samples_per_second": 975.707,
-      "eval_steps_per_second": 20.458,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
-      "grad_norm": 0.289711594581604,
       "learning_rate": 8.037735849056606e-06,
-      "loss": 0.0536,
       "step": 1902
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9158064516129032,
-      "eval_loss": 0.0337749719619751,
-      "eval_runtime": 3.3687,
-      "eval_samples_per_second": 920.232,
-      "eval_steps_per_second": 19.295,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
-      "grad_norm": 0.3146103024482727,
       "learning_rate": 6.044025157232704e-06,
-      "loss": 0.0484,
       "step": 2219
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9225806451612903,
-      "eval_loss": 0.03082694299519062,
-      "eval_runtime": 3.1055,
-      "eval_samples_per_second": 998.238,
-      "eval_steps_per_second": 20.931,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
-      "grad_norm": 0.27518415451049805,
       "learning_rate": 4.0503144654088055e-06,
-      "loss": 0.0452,
       "step": 2536
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9251612903225807,
-      "eval_loss": 0.028789741918444633,
-      "eval_runtime": 3.1097,
-      "eval_samples_per_second": 996.886,
-      "eval_steps_per_second": 20.902,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
-      "grad_norm": 0.40024998784065247,
       "learning_rate": 2.056603773584906e-06,
-      "loss": 0.0432,
       "step": 2853
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9274193548387096,
-      "eval_loss": 0.027747342362999916,
-      "eval_runtime": 3.1187,
-      "eval_samples_per_second": 994.017,
-      "eval_steps_per_second": 20.842,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
-      "grad_norm": 0.25973939895629883,
       "learning_rate": 6.289308176100629e-08,
-      "loss": 0.0422,
       "step": 3170
     }
   ],
@@ -177,12 +177,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 825891210476556.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.3626109413894891,
     "num_train_epochs": 10,
-    "temperature": 14
   }
 }

   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 0.8055088520050049,
       "learning_rate": 1.8006289308176103e-05,
+      "loss": 0.8034,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6793548387096774,
+      "eval_loss": 0.4008634388446808,
+      "eval_runtime": 2.7556,
+      "eval_samples_per_second": 1124.967,
+      "eval_steps_per_second": 23.588,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 0.731418788433075,
       "learning_rate": 1.6012578616352204e-05,
+      "loss": 0.3002,
       "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8464516129032258,
+      "eval_loss": 0.1342196762561798,
+      "eval_runtime": 2.8872,
+      "eval_samples_per_second": 1073.695,
+      "eval_steps_per_second": 22.513,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 0.8417670726776123,
       "learning_rate": 1.4018867924528304e-05,
+      "loss": 0.1385,
       "step": 951
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9006451612903226,
+      "eval_loss": 0.06945406645536423,
+      "eval_runtime": 2.7998,
+      "eval_samples_per_second": 1107.216,
+      "eval_steps_per_second": 23.216,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 0.5138720273971558,
       "learning_rate": 1.2025157232704403e-05,
+      "loss": 0.0883,
       "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9167741935483871,
+      "eval_loss": 0.049133624881505966,
+      "eval_runtime": 3.0876,
+      "eval_samples_per_second": 1004.012,
+      "eval_steps_per_second": 21.052,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 0.3620692193508148,
       "learning_rate": 1.0031446540880504e-05,
+      "loss": 0.0692,
       "step": 1585
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.925483870967742,
+      "eval_loss": 0.04096338152885437,
+      "eval_runtime": 3.4962,
+      "eval_samples_per_second": 886.683,
+      "eval_steps_per_second": 18.592,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
+      "grad_norm": 0.3995964229106903,
       "learning_rate": 8.037735849056606e-06,
+      "loss": 0.0594,
       "step": 1902
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9270967741935484,
+      "eval_loss": 0.03643520548939705,
+      "eval_runtime": 4.6927,
+      "eval_samples_per_second": 660.602,
+      "eval_steps_per_second": 13.851,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
+      "grad_norm": 0.4138696789741516,
       "learning_rate": 6.044025157232704e-06,
+      "loss": 0.0537,
       "step": 2219
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.932258064516129,
+      "eval_loss": 0.033999357372522354,
+      "eval_runtime": 3.3936,
+      "eval_samples_per_second": 913.496,
+      "eval_steps_per_second": 19.154,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
+      "grad_norm": 0.4184480905532837,
       "learning_rate": 4.0503144654088055e-06,
+      "loss": 0.0502,
       "step": 2536
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9316129032258065,
+      "eval_loss": 0.03201307728886604,
+      "eval_runtime": 3.2498,
+      "eval_samples_per_second": 953.913,
+      "eval_steps_per_second": 20.001,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
+      "grad_norm": 0.7048718929290771,
       "learning_rate": 2.056603773584906e-06,
+      "loss": 0.0479,
       "step": 2853
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9358064516129032,
+      "eval_loss": 0.030989257618784904,
+      "eval_runtime": 3.1686,
+      "eval_samples_per_second": 978.342,
+      "eval_steps_per_second": 20.514,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
+      "grad_norm": 0.35616278648376465,
       "learning_rate": 6.289308176100629e-08,
+      "loss": 0.0469,
       "step": 3170
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 825254092458012.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.8773153648687787,
     "num_train_epochs": 10,
+    "temperature": 2
   }
 }

run-11/checkpoint-3180/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca15aa91e74be22fabab116e726c428471c3d4cc15b083f9638589263aea63f6
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:31136b152d8bec823af46e8f97f2f8bbe5859cef952eba4c6121a11c30bcfdf6
 size 5432

runs/Dec20_17-34-05_bogon/events.out.tfevents.1734705433.bogon.92058.33 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43635439e28f2fdd4757707f8b9d547604415beac1b3a41b0087bf110e01227e
+size 18250