End of training

Browse files

Files changed (9) hide show

README.md +30 -20
all_results.json +10 -10
eval_results.json +6 -6
model.safetensors +1 -1
runs/Dec28_00-52-56_MacBook-Pro-de-Max-2.local/events.out.tfevents.1703721182.MacBook-Pro-de-Max-2.local.31343.9 +3 -0
runs/Dec28_00-52-56_MacBook-Pro-de-Max-2.local/events.out.tfevents.1703723525.MacBook-Pro-de-Max-2.local.31343.10 +3 -0
train_results.json +5 -5
trainer_state.json +303 -129
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -22,7 +22,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.8355704697986577
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -32,12 +32,12 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5500
-- Accuracy: 0.8356
 ## Model description
-Predict Expansion Grade - Gardner Score from an embryo image
 ## Intended uses & limitations
@@ -61,27 +61,37 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 15
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 1.6043        | 0.97  | 14   | 1.5288          | 0.5415   |
-| 1.4967        | 2.0   | 29   | 1.1719          | 0.5415   |
-| 1.1276        | 2.97  | 43   | 1.0525          | 0.5463   |
-| 1.0796        | 4.0   | 58   | 0.9086          | 0.6537   |
-| 0.9387        | 4.97  | 72   | 0.8500          | 0.6439   |
-| 0.9232        | 6.0   | 87   | 0.8190          | 0.6732   |
-| 0.8456        | 6.97  | 101  | 0.8042          | 0.6878   |
-| 0.8348        | 8.0   | 116  | 0.7770          | 0.6927   |
-| 0.8057        | 8.97  | 130  | 0.7457          | 0.7073   |
-| 0.8033        | 10.0  | 145  | 0.7353          | 0.7024   |
-| 0.7822        | 10.97 | 159  | 0.7166          | 0.7122   |
-| 0.7594        | 12.0  | 174  | 0.7188          | 0.7171   |
-| 0.7777        | 12.97 | 188  | 0.7086          | 0.7171   |
-| 0.7445        | 14.0  | 203  | 0.7139          | 0.6878   |
-| 0.7513        | 14.48 | 210  | 0.7139          | 0.6878   |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8389261744966443
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5312
+- Accuracy: 0.8389
 ## Model description
+More information needed
 ## Intended uses & limitations
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 25
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 1.6068        | 0.97  | 14   | 1.5809          | 0.5415   |
+| 1.56          | 2.0   | 29   | 1.2830          | 0.5415   |
+| 1.1852        | 2.97  | 43   | 1.0794          | 0.5415   |
+| 1.1132        | 4.0   | 58   | 0.9314          | 0.6488   |
+| 0.9416        | 4.97  | 72   | 0.8935          | 0.6341   |
+| 0.9143        | 6.0   | 87   | 0.8009          | 0.6829   |
+| 0.8243        | 6.97  | 101  | 0.8067          | 0.6634   |
+| 0.8171        | 8.0   | 116  | 0.7783          | 0.6780   |
+| 0.7901        | 8.97  | 130  | 0.7871          | 0.6585   |
+| 0.7944        | 10.0  | 145  | 0.7414          | 0.6976   |
+| 0.7669        | 10.97 | 159  | 0.6977          | 0.7122   |
+| 0.7478        | 12.0  | 174  | 0.7043          | 0.7122   |
+| 0.766         | 12.97 | 188  | 0.7778          | 0.6585   |
+| 0.7322        | 14.0  | 203  | 0.7504          | 0.6780   |
+| 0.7242        | 14.97 | 217  | 0.7291          | 0.6829   |
+| 0.7554        | 16.0  | 232  | 0.7694          | 0.6634   |
+| 0.7422        | 16.97 | 246  | 0.7569          | 0.6829   |
+| 0.7292        | 18.0  | 261  | 0.7389          | 0.6780   |
+| 0.7354        | 18.97 | 275  | 0.6684          | 0.7122   |
+| 0.6847        | 20.0  | 290  | 0.6821          | 0.7122   |
+| 0.7231        | 20.97 | 304  | 0.6839          | 0.7024   |
+| 0.6962        | 22.0  | 319  | 0.6958          | 0.6878   |
+| 0.7079        | 22.97 | 333  | 0.7039          | 0.6878   |
+| 0.7088        | 24.0  | 348  | 0.6974          | 0.6878   |
+| 0.7106        | 24.14 | 350  | 0.6975          | 0.6878   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 14.48,
-    "eval_accuracy": 0.8355704697986577,
-    "eval_loss": 0.5500471591949463,
-    "eval_runtime": 5.0985,
-    "eval_samples_per_second": 58.448,
-    "eval_steps_per_second": 1.961,
-    "train_loss": 0.9456698463076637,
-    "train_runtime": 1102.737,
-    "train_samples_per_second": 25.015,
-    "train_steps_per_second": 0.19
 }

 {
+    "epoch": 24.14,
+    "eval_accuracy": 0.8389261744966443,
+    "eval_loss": 0.5312080979347229,
+    "eval_runtime": 6.5357,
+    "eval_samples_per_second": 45.596,
+    "eval_steps_per_second": 1.53,
+    "train_loss": 0.8573012270246233,
+    "train_runtime": 2334.0273,
+    "train_samples_per_second": 19.698,
+    "train_steps_per_second": 0.15
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 14.48,
-    "eval_accuracy": 0.8355704697986577,
-    "eval_loss": 0.5500471591949463,
-    "eval_runtime": 5.0985,
-    "eval_samples_per_second": 58.448,
-    "eval_steps_per_second": 1.961
 }

 {
+    "epoch": 24.14,
+    "eval_accuracy": 0.8389261744966443,
+    "eval_loss": 0.5312080979347229,
+    "eval_runtime": 6.5357,
+    "eval_samples_per_second": 45.596,
+    "eval_steps_per_second": 1.53
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ba5d11712824f6d4f6f330378764fd34aae7206d7f052e681a25944638ca39e
 size 110359372

 version https://git-lfs.github.com/spec/v1
+oid sha256:3efa52dfd3f432fcd7e64448044d880f0ab3510db098be6c7896a1dadb4c6fd3
 size 110359372

runs/Dec28_00-52-56_MacBook-Pro-de-Max-2.local/events.out.tfevents.1703721182.MacBook-Pro-de-Max-2.local.31343.9 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ec33d0976e9fa7bb349d40c55b93cb4f7052e406b8a42eb4765391a2702541e
+size 18671

runs/Dec28_00-52-56_MacBook-Pro-de-Max-2.local/events.out.tfevents.1703723525.MacBook-Pro-de-Max-2.local.31343.10 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29da514cabfbb21c5dcf1d41eef3eb7d18dfd601dbc797059b7dcc153dc93f68
+size 734

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 14.48,
-    "train_loss": 0.9456698463076637,
-    "train_runtime": 1102.737,
-    "train_samples_per_second": 25.015,
-    "train_steps_per_second": 0.19
 }

 {
+    "epoch": 24.14,
+    "train_loss": 0.8573012270246233,
+    "train_runtime": 2334.0273,
+    "train_samples_per_second": 19.698,
+    "train_steps_per_second": 0.15
 }

trainer_state.json CHANGED Viewed

@@ -1,290 +1,464 @@
 {
-  "best_metric": 0.7170731707317073,
-  "best_model_checkpoint": "swinv2-tiny-patch4-window8-256-finetuned-gardner-exp-max/checkpoint-174",
-  "epoch": 14.482758620689655,
   "eval_steps": 500,
-  "global_step": 210,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.69,
-      "learning_rate": 2.380952380952381e-05,
-      "loss": 1.6043,
       "step": 10
     },
     {
       "epoch": 0.97,
       "eval_accuracy": 0.5414634146341464,
-      "eval_loss": 1.5287535190582275,
-      "eval_runtime": 3.5003,
-      "eval_samples_per_second": 58.567,
-      "eval_steps_per_second": 2.0,
       "step": 14
     },
     {
       "epoch": 1.38,
-      "learning_rate": 4.761904761904762e-05,
-      "loss": 1.4967,
       "step": 20
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.5414634146341464,
-      "eval_loss": 1.1718776226043701,
-      "eval_runtime": 3.523,
-      "eval_samples_per_second": 58.189,
-      "eval_steps_per_second": 1.987,
       "step": 29
     },
     {
       "epoch": 2.07,
-      "learning_rate": 4.761904761904762e-05,
-      "loss": 1.2615,
       "step": 30
     },
     {
       "epoch": 2.76,
-      "learning_rate": 4.4973544973544974e-05,
-      "loss": 1.1276,
       "step": 40
     },
     {
       "epoch": 2.97,
-      "eval_accuracy": 0.5463414634146342,
-      "eval_loss": 1.052482008934021,
-      "eval_runtime": 3.482,
-      "eval_samples_per_second": 58.874,
-      "eval_steps_per_second": 2.01,
       "step": 43
     },
     {
       "epoch": 3.45,
-      "learning_rate": 4.232804232804233e-05,
-      "loss": 1.0796,
       "step": 50
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.6536585365853659,
-      "eval_loss": 0.9085918664932251,
-      "eval_runtime": 3.5324,
-      "eval_samples_per_second": 58.034,
-      "eval_steps_per_second": 1.982,
       "step": 58
     },
     {
       "epoch": 4.14,
-      "learning_rate": 3.968253968253968e-05,
-      "loss": 1.0019,
       "step": 60
     },
     {
       "epoch": 4.83,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.9387,
       "step": 70
     },
     {
       "epoch": 4.97,
-      "eval_accuracy": 0.6439024390243903,
-      "eval_loss": 0.8500024676322937,
-      "eval_runtime": 3.5195,
-      "eval_samples_per_second": 58.246,
-      "eval_steps_per_second": 1.989,
       "step": 72
     },
     {
       "epoch": 5.52,
-      "learning_rate": 3.439153439153439e-05,
-      "loss": 0.9232,
       "step": 80
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.6731707317073171,
-      "eval_loss": 0.8189888000488281,
-      "eval_runtime": 3.532,
-      "eval_samples_per_second": 58.041,
-      "eval_steps_per_second": 1.982,
       "step": 87
     },
     {
       "epoch": 6.21,
-      "learning_rate": 3.1746031746031745e-05,
-      "loss": 0.9018,
       "step": 90
     },
     {
       "epoch": 6.9,
-      "learning_rate": 2.91005291005291e-05,
-      "loss": 0.8456,
       "step": 100
     },
     {
       "epoch": 6.97,
-      "eval_accuracy": 0.6878048780487804,
-      "eval_loss": 0.8041830062866211,
-      "eval_runtime": 3.4986,
-      "eval_samples_per_second": 58.594,
-      "eval_steps_per_second": 2.001,
       "step": 101
     },
     {
       "epoch": 7.59,
-      "learning_rate": 2.6455026455026456e-05,
-      "loss": 0.8348,
       "step": 110
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.6926829268292682,
-      "eval_loss": 0.7769930362701416,
-      "eval_runtime": 3.5012,
-      "eval_samples_per_second": 58.552,
-      "eval_steps_per_second": 1.999,
       "step": 116
     },
     {
       "epoch": 8.28,
-      "learning_rate": 2.380952380952381e-05,
-      "loss": 0.8287,
       "step": 120
     },
     {
       "epoch": 8.97,
-      "learning_rate": 2.1164021164021164e-05,
-      "loss": 0.8057,
       "step": 130
     },
     {
       "epoch": 8.97,
-      "eval_accuracy": 0.7073170731707317,
-      "eval_loss": 0.7456830143928528,
-      "eval_runtime": 3.4827,
-      "eval_samples_per_second": 58.862,
-      "eval_steps_per_second": 2.01,
       "step": 130
     },
     {
       "epoch": 9.66,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.8033,
       "step": 140
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.7024390243902439,
-      "eval_loss": 0.7352668642997742,
-      "eval_runtime": 3.5384,
-      "eval_samples_per_second": 57.935,
-      "eval_steps_per_second": 1.978,
       "step": 145
     },
     {
       "epoch": 10.34,
-      "learning_rate": 1.5873015873015872e-05,
-      "loss": 0.7822,
       "step": 150
     },
     {
       "epoch": 10.97,
       "eval_accuracy": 0.7121951219512195,
-      "eval_loss": 0.7165755033493042,
-      "eval_runtime": 3.4957,
-      "eval_samples_per_second": 58.643,
-      "eval_steps_per_second": 2.002,
       "step": 159
     },
     {
       "epoch": 11.03,
-      "learning_rate": 1.3227513227513228e-05,
-      "loss": 0.8041,
       "step": 160
     },
     {
       "epoch": 11.72,
-      "learning_rate": 1.0582010582010582e-05,
-      "loss": 0.7594,
       "step": 170
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.7170731707317073,
-      "eval_loss": 0.718829333782196,
-      "eval_runtime": 3.5638,
-      "eval_samples_per_second": 57.522,
-      "eval_steps_per_second": 1.964,
       "step": 174
     },
     {
       "epoch": 12.41,
-      "learning_rate": 7.936507936507936e-06,
-      "loss": 0.7777,
       "step": 180
     },
     {
       "epoch": 12.97,
-      "eval_accuracy": 0.7170731707317073,
-      "eval_loss": 0.7086274027824402,
-      "eval_runtime": 3.4886,
-      "eval_samples_per_second": 58.762,
-      "eval_steps_per_second": 2.007,
       "step": 188
     },
     {
       "epoch": 13.1,
-      "learning_rate": 5.291005291005291e-06,
-      "loss": 0.7863,
       "step": 190
     },
     {
       "epoch": 13.79,
-      "learning_rate": 2.6455026455026455e-06,
-      "loss": 0.7445,
       "step": 200
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.6878048780487804,
-      "eval_loss": 0.7139347791671753,
-      "eval_runtime": 3.4798,
-      "eval_samples_per_second": 58.912,
-      "eval_steps_per_second": 2.012,
       "step": 203
     },
     {
       "epoch": 14.48,
-      "learning_rate": 0.0,
-      "loss": 0.7513,
       "step": 210
     },
     {
-      "epoch": 14.48,
       "eval_accuracy": 0.6878048780487804,
-      "eval_loss": 0.7138883471488953,
-      "eval_runtime": 3.48,
-      "eval_samples_per_second": 58.908,
-      "eval_steps_per_second": 2.012,
-      "step": 210
     },
     {
-      "epoch": 14.48,
-      "step": 210,
-      "total_flos": 8.6685208493713e+17,
-      "train_loss": 0.9456698463076637,
-      "train_runtime": 1102.737,
-      "train_samples_per_second": 25.015,
-      "train_steps_per_second": 0.19
     }
   ],
   "logging_steps": 10,
-  "max_steps": 210,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 15,
   "save_steps": 500,
-  "total_flos": 8.6685208493713e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7121951219512195,
+  "best_model_checkpoint": "swinv2-tiny-patch4-window8-256-finetuned-gardner-exp-max/checkpoint-159",
+  "epoch": 24.137931034482758,
   "eval_steps": 500,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.69,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 1.6068,
       "step": 10
     },
     {
       "epoch": 0.97,
       "eval_accuracy": 0.5414634146341464,
+      "eval_loss": 1.5808794498443604,
+      "eval_runtime": 3.5265,
+      "eval_samples_per_second": 58.131,
+      "eval_steps_per_second": 1.985,
       "step": 14
     },
     {
       "epoch": 1.38,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 1.56,
       "step": 20
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.5414634146341464,
+      "eval_loss": 1.2830290794372559,
+      "eval_runtime": 3.4914,
+      "eval_samples_per_second": 58.716,
+      "eval_steps_per_second": 2.005,
       "step": 29
     },
     {
       "epoch": 2.07,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 1.3595,
       "step": 30
     },
     {
       "epoch": 2.76,
+      "learning_rate": 4.9206349206349204e-05,
+      "loss": 1.1852,
       "step": 40
     },
     {
       "epoch": 2.97,
+      "eval_accuracy": 0.5414634146341464,
+      "eval_loss": 1.0793886184692383,
+      "eval_runtime": 3.5623,
+      "eval_samples_per_second": 57.547,
+      "eval_steps_per_second": 1.965,
       "step": 43
     },
     {
       "epoch": 3.45,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 1.1132,
       "step": 50
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6487804878048781,
+      "eval_loss": 0.9314356446266174,
+      "eval_runtime": 3.4589,
+      "eval_samples_per_second": 59.268,
+      "eval_steps_per_second": 2.024,
       "step": 58
     },
     {
       "epoch": 4.14,
+      "learning_rate": 4.603174603174603e-05,
+      "loss": 1.024,
       "step": 60
     },
     {
       "epoch": 4.83,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.9416,
       "step": 70
     },
     {
       "epoch": 4.97,
+      "eval_accuracy": 0.6341463414634146,
+      "eval_loss": 0.8935254216194153,
+      "eval_runtime": 3.4888,
+      "eval_samples_per_second": 58.759,
+      "eval_steps_per_second": 2.006,
       "step": 72
     },
     {
       "epoch": 5.52,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 0.9143,
       "step": 80
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.6829268292682927,
+      "eval_loss": 0.8009229898452759,
+      "eval_runtime": 3.465,
+      "eval_samples_per_second": 59.163,
+      "eval_steps_per_second": 2.02,
       "step": 87
     },
     {
       "epoch": 6.21,
+      "learning_rate": 4.126984126984127e-05,
+      "loss": 0.8868,
       "step": 90
     },
     {
       "epoch": 6.9,
+      "learning_rate": 3.968253968253968e-05,
+      "loss": 0.8243,
       "step": 100
     },
     {
       "epoch": 6.97,
+      "eval_accuracy": 0.6634146341463415,
+      "eval_loss": 0.8067137002944946,
+      "eval_runtime": 3.5324,
+      "eval_samples_per_second": 58.034,
+      "eval_steps_per_second": 1.982,
       "step": 101
     },
     {
       "epoch": 7.59,
+      "learning_rate": 3.809523809523809e-05,
+      "loss": 0.8171,
       "step": 110
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.6780487804878049,
+      "eval_loss": 0.7783121466636658,
+      "eval_runtime": 3.4599,
+      "eval_samples_per_second": 59.25,
+      "eval_steps_per_second": 2.023,
       "step": 116
     },
     {
       "epoch": 8.28,
+      "learning_rate": 3.650793650793651e-05,
+      "loss": 0.8161,
       "step": 120
     },
     {
       "epoch": 8.97,
+      "learning_rate": 3.492063492063492e-05,
+      "loss": 0.7901,
       "step": 130
     },
     {
       "epoch": 8.97,
+      "eval_accuracy": 0.6585365853658537,
+      "eval_loss": 0.7871080636978149,
+      "eval_runtime": 3.4561,
+      "eval_samples_per_second": 59.316,
+      "eval_steps_per_second": 2.025,
       "step": 130
     },
     {
       "epoch": 9.66,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.7944,
       "step": 140
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.697560975609756,
+      "eval_loss": 0.7413551211357117,
+      "eval_runtime": 3.4339,
+      "eval_samples_per_second": 59.699,
+      "eval_steps_per_second": 2.038,
       "step": 145
     },
     {
       "epoch": 10.34,
+      "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.7669,
       "step": 150
     },
     {
       "epoch": 10.97,
       "eval_accuracy": 0.7121951219512195,
+      "eval_loss": 0.6976904273033142,
+      "eval_runtime": 3.4718,
+      "eval_samples_per_second": 59.047,
+      "eval_steps_per_second": 2.016,
       "step": 159
     },
     {
       "epoch": 11.03,
+      "learning_rate": 3.0158730158730158e-05,
+      "loss": 0.7961,
       "step": 160
     },
     {
       "epoch": 11.72,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 0.7478,
       "step": 170
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.7121951219512195,
+      "eval_loss": 0.7042645812034607,
+      "eval_runtime": 3.4485,
+      "eval_samples_per_second": 59.447,
+      "eval_steps_per_second": 2.03,
       "step": 174
     },
     {
       "epoch": 12.41,
+      "learning_rate": 2.6984126984126984e-05,
+      "loss": 0.766,
       "step": 180
     },
     {
       "epoch": 12.97,
+      "eval_accuracy": 0.6585365853658537,
+      "eval_loss": 0.7778439521789551,
+      "eval_runtime": 3.6047,
+      "eval_samples_per_second": 56.87,
+      "eval_steps_per_second": 1.942,
       "step": 188
     },
     {
       "epoch": 13.1,
+      "learning_rate": 2.5396825396825397e-05,
+      "loss": 0.7691,
       "step": 190
     },
     {
       "epoch": 13.79,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 0.7322,
       "step": 200
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.6780487804878049,
+      "eval_loss": 0.7503620386123657,
+      "eval_runtime": 3.4523,
+      "eval_samples_per_second": 59.381,
+      "eval_steps_per_second": 2.028,
       "step": 203
     },
     {
       "epoch": 14.48,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.7242,
       "step": 210
     },
     {
+      "epoch": 14.97,
+      "eval_accuracy": 0.6829268292682927,
+      "eval_loss": 0.7290918827056885,
+      "eval_runtime": 3.5373,
+      "eval_samples_per_second": 57.954,
+      "eval_steps_per_second": 1.979,
+      "step": 217
+    },
+    {
+      "epoch": 15.17,
+      "learning_rate": 2.0634920634920636e-05,
+      "loss": 0.7172,
+      "step": 220
+    },
+    {
+      "epoch": 15.86,
+      "learning_rate": 1.9047619047619046e-05,
+      "loss": 0.7554,
+      "step": 230
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.6634146341463415,
+      "eval_loss": 0.7694374918937683,
+      "eval_runtime": 3.4718,
+      "eval_samples_per_second": 59.047,
+      "eval_steps_per_second": 2.016,
+      "step": 232
+    },
+    {
+      "epoch": 16.55,
+      "learning_rate": 1.746031746031746e-05,
+      "loss": 0.7422,
+      "step": 240
+    },
+    {
+      "epoch": 16.97,
+      "eval_accuracy": 0.6829268292682927,
+      "eval_loss": 0.7568630576133728,
+      "eval_runtime": 3.5281,
+      "eval_samples_per_second": 58.104,
+      "eval_steps_per_second": 1.984,
+      "step": 246
+    },
+    {
+      "epoch": 17.24,
+      "learning_rate": 1.5873015873015872e-05,
+      "loss": 0.7324,
+      "step": 250
+    },
+    {
+      "epoch": 17.93,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.7292,
+      "step": 260
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.6780487804878049,
+      "eval_loss": 0.7389385104179382,
+      "eval_runtime": 3.4574,
+      "eval_samples_per_second": 59.292,
+      "eval_steps_per_second": 2.025,
+      "step": 261
+    },
+    {
+      "epoch": 18.62,
+      "learning_rate": 1.2698412698412699e-05,
+      "loss": 0.7354,
+      "step": 270
+    },
+    {
+      "epoch": 18.97,
+      "eval_accuracy": 0.7121951219512195,
+      "eval_loss": 0.668440580368042,
+      "eval_runtime": 3.6943,
+      "eval_samples_per_second": 55.491,
+      "eval_steps_per_second": 1.895,
+      "step": 275
+    },
+    {
+      "epoch": 19.31,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.7274,
+      "step": 280
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 9.523809523809523e-06,
+      "loss": 0.6847,
+      "step": 290
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.7121951219512195,
+      "eval_loss": 0.6821430325508118,
+      "eval_runtime": 3.4768,
+      "eval_samples_per_second": 58.962,
+      "eval_steps_per_second": 2.013,
+      "step": 290
+    },
+    {
+      "epoch": 20.69,
+      "learning_rate": 7.936507936507936e-06,
+      "loss": 0.7231,
+      "step": 300
+    },
+    {
+      "epoch": 20.97,
+      "eval_accuracy": 0.7024390243902439,
+      "eval_loss": 0.6839069128036499,
+      "eval_runtime": 3.53,
+      "eval_samples_per_second": 58.074,
+      "eval_steps_per_second": 1.983,
+      "step": 304
+    },
+    {
+      "epoch": 21.38,
+      "learning_rate": 6.349206349206349e-06,
+      "loss": 0.6962,
+      "step": 310
+    },
+    {
+      "epoch": 22.0,
       "eval_accuracy": 0.6878048780487804,
+      "eval_loss": 0.6958089470863342,
+      "eval_runtime": 3.4679,
+      "eval_samples_per_second": 59.113,
+      "eval_steps_per_second": 2.018,
+      "step": 319
     },
     {
+      "epoch": 22.07,
+      "learning_rate": 4.7619047619047615e-06,
+      "loss": 0.6995,
+      "step": 320
+    },
+    {
+      "epoch": 22.76,
+      "learning_rate": 3.1746031746031746e-06,
+      "loss": 0.7079,
+      "step": 330
+    },
+    {
+      "epoch": 22.97,
+      "eval_accuracy": 0.6878048780487804,
+      "eval_loss": 0.7039469480514526,
+      "eval_runtime": 3.4654,
+      "eval_samples_per_second": 59.156,
+      "eval_steps_per_second": 2.02,
+      "step": 333
+    },
+    {
+      "epoch": 23.45,
+      "learning_rate": 1.5873015873015873e-06,
+      "loss": 0.7088,
+      "step": 340
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.6878048780487804,
+      "eval_loss": 0.6974486112594604,
+      "eval_runtime": 4.2005,
+      "eval_samples_per_second": 48.803,
+      "eval_steps_per_second": 1.666,
+      "step": 348
+    },
+    {
+      "epoch": 24.14,
+      "learning_rate": 0.0,
+      "loss": 0.7106,
+      "step": 350
+    },
+    {
+      "epoch": 24.14,
+      "eval_accuracy": 0.6878048780487804,
+      "eval_loss": 0.6975364089012146,
+      "eval_runtime": 3.9957,
+      "eval_samples_per_second": 51.305,
+      "eval_steps_per_second": 1.752,
+      "step": 350
+    },
+    {
+      "epoch": 24.14,
+      "step": 350,
+      "total_flos": 1.444384721662378e+18,
+      "train_loss": 0.8573012270246233,
+      "train_runtime": 2334.0273,
+      "train_samples_per_second": 19.698,
+      "train_steps_per_second": 0.15
     }
   ],
   "logging_steps": 10,
+  "max_steps": 350,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 25,
   "save_steps": 500,
+  "total_flos": 1.444384721662378e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53217e0c5182d6e5b40d2b23665f7781a2c9b4eacf79515ea542107971a6ea22
 size 4792

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f2b62bbe9a6d50250e169300e55cdbb15de7e0a611ef74fc73949faedf4cc42
 size 4792