Training in progress, step 3180

Browse files

Files changed (13) hide show

model.safetensors +1 -1
run-19/checkpoint-3180/config.json +1 -1
run-19/checkpoint-3180/model.safetensors +1 -1
run-19/checkpoint-3180/optimizer.pt +2 -2
run-19/checkpoint-3180/rng_state.pth +2 -2
run-19/checkpoint-3180/scheduler.pt +1 -1
run-19/checkpoint-3180/tokenizer.json +6 -1
run-19/checkpoint-3180/tokenizer_config.json +1 -0
run-19/checkpoint-3180/trainer_state.json +67 -67
run-19/checkpoint-3180/training_args.bin +2 -2
runs/Dec20_17-34-05_bogon/events.out.tfevents.1734708149.bogon.92058.40 +3 -0
runs/Dec20_17-34-05_bogon/events.out.tfevents.1734708299.bogon.92058.41 +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:653b0e018e72d692bf7628138f5d4a36847a2a672b4dbcdcc6ed9cf77b0428aa
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dba1231926faf59ba8e66e75038141c586d1a2ad892362af3b9ae8429919f80
 size 268290900

run-19/checkpoint-3180/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.46.0",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.47.0",
   "vocab_size": 30522
 }

run-19/checkpoint-3180/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f62cce617d3ef7392e27e1cde8293e31311afd010709036d9b4a537e663900c1
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dba1231926faf59ba8e66e75038141c586d1a2ad892362af3b9ae8429919f80
 size 268290900

run-19/checkpoint-3180/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e6613a1e044f4a2530068329d4f97f4e0e4fd2b6291b67717ff98bde1977684
-size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:eda0574be3137c2e180aaa0e4d587149d96a6be4c47c3556200183ede1047d91
+size 536641018

run-19/checkpoint-3180/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcab77a6433e3835a1262321a52af97636d69a8c0c7216b9d6088e880f2c5950
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fbdf6070082bd7f064003b0a80093bbcf8031eab17e8484cd03c2f330dae634
+size 13990

run-19/checkpoint-3180/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33fadc11bb5c6bd0a5ea603f5e48cedcd72384fa2714656ecf6f8da629f7ae05
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7377b4a081dc59fc9c5a604a8fe62d7aa1f698f549e73e5c90d42a32e2a0d766
 size 1064

run-19/checkpoint-3180/tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 512,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

run-19/checkpoint-3180/tokenizer_config.json CHANGED Viewed

@@ -44,6 +44,7 @@
   "clean_up_tokenization_spaces": false,
   "cls_token": "[CLS]",
   "do_lower_case": true,
   "mask_token": "[MASK]",
   "model_max_length": 512,
   "pad_token": "[PAD]",

   "clean_up_tokenization_spaces": false,
   "cls_token": "[CLS]",
   "do_lower_case": true,
+  "extra_special_tokens": {},
   "mask_token": "[MASK]",
   "model_max_length": 512,
   "pad_token": "[PAD]",

run-19/checkpoint-3180/trainer_state.json CHANGED Viewed

@@ -10,153 +10,153 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 5.211723804473877,
       "learning_rate": 1.8006289308176103e-05,
-      "loss": 6.0788,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7067741935483871,
-      "eval_loss": 4.211826324462891,
-      "eval_runtime": 1.61,
-      "eval_samples_per_second": 1925.494,
-      "eval_steps_per_second": 40.373,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 5.270339488983154,
       "learning_rate": 1.6012578616352204e-05,
-      "loss": 3.1783,
       "step": 634
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8548387096774194,
-      "eval_loss": 1.911292314529419,
-      "eval_runtime": 1.6231,
-      "eval_samples_per_second": 1909.933,
-      "eval_steps_per_second": 40.047,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 5.103645324707031,
       "learning_rate": 1.4018867924528304e-05,
-      "loss": 1.5075,
       "step": 951
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9087096774193548,
-      "eval_loss": 1.0654947757720947,
-      "eval_runtime": 1.6222,
-      "eval_samples_per_second": 1911.008,
-      "eval_steps_per_second": 40.07,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 3.8782594203948975,
       "learning_rate": 1.2025157232704403e-05,
-      "loss": 0.8843,
       "step": 1268
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9332258064516129,
-      "eval_loss": 0.8456443548202515,
-      "eval_runtime": 2.7148,
-      "eval_samples_per_second": 1141.9,
-      "eval_steps_per_second": 23.943,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 3.119723081588745,
       "learning_rate": 1.0031446540880504e-05,
-      "loss": 0.6849,
       "step": 1585
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9380645161290323,
-      "eval_loss": 0.7831763625144958,
-      "eval_runtime": 1.6521,
-      "eval_samples_per_second": 1876.357,
-      "eval_steps_per_second": 39.343,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
-      "grad_norm": 3.575148582458496,
       "learning_rate": 8.037735849056606e-06,
-      "loss": 0.606,
       "step": 1902
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9425806451612904,
-      "eval_loss": 0.756099283695221,
-      "eval_runtime": 1.6501,
-      "eval_samples_per_second": 1878.717,
-      "eval_steps_per_second": 39.392,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
-      "grad_norm": 1.812427043914795,
       "learning_rate": 6.044025157232704e-06,
-      "loss": 0.5681,
       "step": 2219
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9451612903225807,
-      "eval_loss": 0.7347410321235657,
-      "eval_runtime": 1.644,
-      "eval_samples_per_second": 1885.659,
-      "eval_steps_per_second": 39.538,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
-      "grad_norm": 1.113770842552185,
       "learning_rate": 4.0503144654088055e-06,
-      "loss": 0.5453,
       "step": 2536
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9438709677419355,
-      "eval_loss": 0.722730278968811,
-      "eval_runtime": 1.6417,
-      "eval_samples_per_second": 1888.311,
-      "eval_steps_per_second": 39.594,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
-      "grad_norm": 1.670234203338623,
       "learning_rate": 2.056603773584906e-06,
-      "loss": 0.5339,
       "step": 2853
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9451612903225807,
-      "eval_loss": 0.7155605554580688,
-      "eval_runtime": 1.647,
-      "eval_samples_per_second": 1882.178,
-      "eval_steps_per_second": 39.465,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
-      "grad_norm": 1.3198106288909912,
       "learning_rate": 6.289308176100629e-08,
-      "loss": 0.527,
       "step": 3170
     }
   ],
@@ -177,11 +177,11 @@
       "attributes": {}
     }
   },
-  "total_flos": 825404033099184.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.23585438123087688,
     "num_train_epochs": 10,
     "temperature": 2
   }

   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 0.8043636083602905,
       "learning_rate": 1.8006289308176103e-05,
+      "loss": 0.8035,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6790322580645162,
+      "eval_loss": 0.40093910694122314,
+      "eval_runtime": 3.1065,
+      "eval_samples_per_second": 997.903,
+      "eval_steps_per_second": 20.924,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 0.7337319850921631,
       "learning_rate": 1.6012578616352204e-05,
+      "loss": 0.3003,
       "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8467741935483871,
+      "eval_loss": 0.13425306975841522,
+      "eval_runtime": 3.0294,
+      "eval_samples_per_second": 1023.301,
+      "eval_steps_per_second": 21.456,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 0.841530442237854,
       "learning_rate": 1.4018867924528304e-05,
+      "loss": 0.1385,
       "step": 951
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9006451612903226,
+      "eval_loss": 0.06951464712619781,
+      "eval_runtime": 2.6416,
+      "eval_samples_per_second": 1173.552,
+      "eval_steps_per_second": 24.607,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 0.5123167037963867,
       "learning_rate": 1.2025157232704403e-05,
+      "loss": 0.0883,
       "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9167741935483871,
+      "eval_loss": 0.04914076626300812,
+      "eval_runtime": 2.6133,
+      "eval_samples_per_second": 1186.256,
+      "eval_steps_per_second": 24.873,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 0.36215561628341675,
       "learning_rate": 1.0031446540880504e-05,
+      "loss": 0.0692,
       "step": 1585
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.925483870967742,
+      "eval_loss": 0.04095139354467392,
+      "eval_runtime": 2.6937,
+      "eval_samples_per_second": 1150.847,
+      "eval_steps_per_second": 24.131,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
+      "grad_norm": 0.3997320532798767,
       "learning_rate": 8.037735849056606e-06,
+      "loss": 0.0594,
       "step": 1902
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.927741935483871,
+      "eval_loss": 0.036415789276361465,
+      "eval_runtime": 2.7348,
+      "eval_samples_per_second": 1133.556,
+      "eval_steps_per_second": 23.768,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
+      "grad_norm": 0.4116480350494385,
       "learning_rate": 6.044025157232704e-06,
+      "loss": 0.0537,
       "step": 2219
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9325806451612904,
+      "eval_loss": 0.034003693610429764,
+      "eval_runtime": 2.8646,
+      "eval_samples_per_second": 1082.178,
+      "eval_steps_per_second": 22.691,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
+      "grad_norm": 0.4246405363082886,
       "learning_rate": 4.0503144654088055e-06,
+      "loss": 0.0502,
       "step": 2536
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9312903225806451,
+      "eval_loss": 0.03199988231062889,
+      "eval_runtime": 2.7372,
+      "eval_samples_per_second": 1132.539,
+      "eval_steps_per_second": 23.747,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
+      "grad_norm": 0.7065708041191101,
       "learning_rate": 2.056603773584906e-06,
+      "loss": 0.0479,
       "step": 2853
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9354838709677419,
+      "eval_loss": 0.03098655492067337,
+      "eval_runtime": 2.8146,
+      "eval_samples_per_second": 1101.398,
+      "eval_steps_per_second": 23.094,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
+      "grad_norm": 0.3563520312309265,
       "learning_rate": 6.289308176100629e-08,
+      "loss": 0.0469,
       "step": 3170
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 826195242364884.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.8649874145246917,
     "num_train_epochs": 10,
     "temperature": 2
   }

run-19/checkpoint-3180/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52566a7e2a9c0923379d21e1e4678dbd4f2446278a294303e974618c420bee9d
-size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:31136b152d8bec823af46e8f97f2f8bbe5859cef952eba4c6121a11c30bcfdf6
+size 5432

runs/Dec20_17-34-05_bogon/events.out.tfevents.1734708149.bogon.92058.40 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4349c926b105dd46011c8d76173cab31d859e86f3dddbe1cd0df6ef86bef303f
+size 14691

runs/Dec20_17-34-05_bogon/events.out.tfevents.1734708299.bogon.92058.41 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:400abbd27fe2b0119b7740b8d6530333fef8a1e284b966489c70dd7a21ebe99b
+size 18250

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d55f72d033e4da62205f611e22d64151820ef3799975ce2ff32a7cb5cd94ac1d
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:31136b152d8bec823af46e8f97f2f8bbe5859cef952eba4c6121a11c30bcfdf6
 size 5432