doodle-dash

Browse files

Files changed (8) hide show

README.md +22 -3
all_results.json +10 -10
model.safetensors +1 -1
preprocessor_config.json +3 -3
test_results.json +5 -5
train_results.json +5 -5
trainer_state.json +765 -17
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [apple/mobilevit-small](https://huggingface.co/apple/mobilevit-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.3757
-- Accuracy: 0.6597
 ## Model description
@@ -42,12 +42,31 @@ The following hyperparameters were used during training:
 - eval_batch_size: 256
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
-- lr_scheduler_type: linear
 - num_epochs: 5
 - mixed_precision_training: Native AMP
 ### Training results
 ### Framework versions

 This model is a fine-tuned version of [apple/mobilevit-small](https://huggingface.co/apple/mobilevit-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9890
+- Accuracy: 0.7494
 ## Model description
 - eval_batch_size: 256
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
 - num_epochs: 5
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Accuracy |
+|:-------------:|:-----:|:-----:|:---------------:|:--------:|
+| 1.4668        | 0.28  | 5000  | 1.4146          | 0.6488   |
+| 1.3282        | 0.57  | 10000 | 1.2907          | 0.6766   |
+| 1.2617        | 0.85  | 15000 | 1.2270          | 0.6905   |
+| 1.196         | 1.14  | 20000 | 1.1758          | 0.7035   |
+| 1.1664        | 1.42  | 25000 | 1.1527          | 0.7093   |
+| 1.1504        | 1.71  | 30000 | 1.1152          | 0.7170   |
+| 1.1234        | 1.99  | 35000 | 1.0903          | 0.7241   |
+| 1.0819        | 2.28  | 40000 | 1.0728          | 0.7283   |
+| 1.0707        | 2.56  | 45000 | 1.0533          | 0.7334   |
+| 1.049         | 2.84  | 50000 | 1.0399          | 0.7369   |
+| 1.0017        | 3.13  | 55000 | 1.0253          | 0.7405   |
+| 0.995         | 3.41  | 60000 | 1.0120          | 0.7438   |
+| 0.9829        | 3.7   | 65000 | 0.9977          | 0.7468   |
+| 0.9807        | 3.98  | 70000 | 0.9908          | 0.7487   |
+| 0.9452        | 4.27  | 75000 | 0.9875          | 0.7498   |
+| 0.949         | 4.55  | 80000 | 0.9845          | 0.7507   |
+| 0.9509        | 4.84  | 85000 | 0.9841          | 0.7509   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_accuracy": 0.6597333333333333,
-    "eval_loss": 1.3756999969482422,
-    "eval_runtime": 16.2859,
-    "eval_samples_per_second": 460.521,
-    "eval_steps_per_second": 1.842,
-    "total_flos": 8.55731423232e+16,
-    "train_loss": 1.5635583357377485,
-    "train_runtime": 1391.129,
-    "train_samples_per_second": 485.217,
-    "train_steps_per_second": 1.898
 }

 {
     "epoch": 5.0,
+    "eval_accuracy": 0.749444,
+    "eval_loss": 0.9889541864395142,
+    "eval_runtime": 480.919,
+    "eval_samples_per_second": 519.838,
+    "eval_steps_per_second": 2.032,
+    "total_flos": 5.4597447576e+17,
+    "train_loss": 1.1248133655402486,
+    "train_runtime": 51144.106,
+    "train_samples_per_second": 439.933,
+    "train_steps_per_second": 1.719
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4594fe1cdfb2d8f9baf4a3c32c01066461f5b9e25044f0208a0a12061d6d2c49
 size 20730036

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cdbd0fe9d0acb014744296fad548e9c5803a702dc65c640d5a141db652944dd
 size 20730036

preprocessor_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "crop_size": {
-    "height": 64,
-    "width": 64
   },
   "do_center_crop": true,
   "do_convert_rgb": false,
@@ -12,6 +12,6 @@
   "resample": 2,
   "rescale_factor": 0.00392156862745098,
   "size": {
-    "shortest_edge": 64
   }
 }

 {
   "crop_size": {
+    "height": 28,
+    "width": 28
   },
   "do_center_crop": true,
   "do_convert_rgb": false,
   "resample": 2,
   "rescale_factor": 0.00392156862745098,
   "size": {
+    "shortest_edge": 28
   }
 }

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
-    "eval_accuracy": 0.6597333333333333,
-    "eval_loss": 1.3756999969482422,
-    "eval_runtime": 16.2859,
-    "eval_samples_per_second": 460.521,
-    "eval_steps_per_second": 1.842
 }

 {
     "epoch": 5.0,
+    "eval_accuracy": 0.749444,
+    "eval_loss": 0.9889541864395142,
+    "eval_runtime": 480.919,
+    "eval_samples_per_second": 519.838,
+    "eval_steps_per_second": 2.032
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
-    "total_flos": 8.55731423232e+16,
-    "train_loss": 1.5635583357377485,
-    "train_runtime": 1391.129,
-    "train_samples_per_second": 485.217,
-    "train_steps_per_second": 1.898
 }

 {
     "epoch": 5.0,
+    "total_flos": 5.4597447576e+17,
+    "train_loss": 1.1248133655402486,
+    "train_runtime": 51144.106,
+    "train_samples_per_second": 439.933,
+    "train_steps_per_second": 1.719
 }

trainer_state.json CHANGED Viewed

@@ -3,41 +3,789 @@
   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 5000,
-  "global_step": 2640,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.89,
-      "grad_norm": 1.7177796363830566,
-      "learning_rate": 0.0004978787878787879,
-      "loss": 2.2138,
       "step": 1000
     },
     {
-      "epoch": 3.79,
-      "grad_norm": 2.4473989009857178,
-      "learning_rate": 0.00019484848484848486,
-      "loss": 1.2577,
       "step": 2000
     },
     {
       "epoch": 5.0,
-      "step": 2640,
-      "total_flos": 8.55731423232e+16,
-      "train_loss": 1.5635583357377485,
-      "train_runtime": 1391.129,
-      "train_samples_per_second": 485.217,
-      "train_steps_per_second": 1.898
     }
   ],
   "logging_steps": 1000,
-  "max_steps": 2640,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 5000,
-  "total_flos": 8.55731423232e+16,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 5000,
+  "global_step": 87895,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.06,
+      "grad_norm": 2.239067792892456,
+      "learning_rate": 0.0007997460514380593,
+      "loss": 2.6519,
       "step": 1000
     },
     {
+      "epoch": 0.11,
+      "grad_norm": 1.9583632946014404,
+      "learning_rate": 0.0007989814716192582,
+      "loss": 1.7524,
       "step": 2000
     },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.9535893201828003,
+      "learning_rate": 0.0007977072349143816,
+      "loss": 1.6001,
+      "step": 3000
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 2.063387632369995,
+      "learning_rate": 0.0007959249690268624,
+      "loss": 1.5217,
+      "step": 4000
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.9860559701919556,
+      "learning_rate": 0.0007936369506140068,
+      "loss": 1.4668,
+      "step": 5000
+    },
+    {
+      "epoch": 0.28,
+      "eval_accuracy": 0.648804,
+      "eval_loss": 1.4146429300308228,
+      "eval_runtime": 478.1117,
+      "eval_samples_per_second": 522.89,
+      "eval_steps_per_second": 2.043,
+      "step": 5000
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 2.0301945209503174,
+      "learning_rate": 0.0007908461023788039,
+      "loss": 1.4298,
+      "step": 6000
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.5042238235473633,
+      "learning_rate": 0.0007875595274863339,
+      "loss": 1.3942,
+      "step": 7000
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.6014552116394043,
+      "learning_rate": 0.0007837748451621974,
+      "loss": 1.3678,
+      "step": 8000
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 1.509202241897583,
+      "learning_rate": 0.0007795044488381889,
+      "loss": 1.3487,
+      "step": 9000
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.4688481092453003,
+      "learning_rate": 0.0007747452450657864,
+      "loss": 1.3282,
+      "step": 10000
+    },
+    {
+      "epoch": 0.57,
+      "eval_accuracy": 0.676572,
+      "eval_loss": 1.2906984090805054,
+      "eval_runtime": 477.0964,
+      "eval_samples_per_second": 524.003,
+      "eval_steps_per_second": 2.048,
+      "step": 10000
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 1.4521937370300293,
+      "learning_rate": 0.0007695128184733147,
+      "loss": 1.3244,
+      "step": 11000
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.4638675451278687,
+      "learning_rate": 0.000763803378723512,
+      "loss": 1.2934,
+      "step": 12000
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.614662528038025,
+      "learning_rate": 0.0007576292184031235,
+      "loss": 1.2847,
+      "step": 13000
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.3933509588241577,
+      "learning_rate": 0.0007510050807642281,
+      "loss": 1.2779,
+      "step": 14000
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 1.424271583557129,
+      "learning_rate": 0.0007439261673227427,
+      "loss": 1.2617,
+      "step": 15000
+    },
+    {
+      "epoch": 0.85,
+      "eval_accuracy": 0.690468,
+      "eval_loss": 1.227000117301941,
+      "eval_runtime": 474.9613,
+      "eval_samples_per_second": 526.359,
+      "eval_steps_per_second": 2.057,
+      "step": 15000
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 1.5942885875701904,
+      "learning_rate": 0.0007364156588963428,
+      "loss": 1.2525,
+      "step": 16000
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 1.342366099357605,
+      "learning_rate": 0.0007284681149194631,
+      "loss": 1.2437,
+      "step": 17000
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 1.3556225299835205,
+      "learning_rate": 0.0007201095606528187,
+      "loss": 1.2252,
+      "step": 18000
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 1.18772554397583,
+      "learning_rate": 0.0007113339412117152,
+      "loss": 1.1982,
+      "step": 19000
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 1.2163102626800537,
+      "learning_rate": 0.0007021606253904673,
+      "loss": 1.196,
+      "step": 20000
+    },
+    {
+      "epoch": 1.14,
+      "eval_accuracy": 0.703472,
+      "eval_loss": 1.1758021116256714,
+      "eval_runtime": 477.2497,
+      "eval_samples_per_second": 523.835,
+      "eval_steps_per_second": 2.047,
+      "step": 20000
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 1.4264676570892334,
+      "learning_rate": 0.0006926013311356693,
+      "loss": 1.1909,
+      "step": 21000
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.4394527673721313,
+      "learning_rate": 0.0006826783850151473,
+      "loss": 1.1906,
+      "step": 22000
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 1.6702680587768555,
+      "learning_rate": 0.0006723845989084832,
+      "loss": 1.1836,
+      "step": 23000
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 1.4739456176757812,
+      "learning_rate": 0.0006617536811497173,
+      "loss": 1.1826,
+      "step": 24000
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 1.8557323217391968,
+      "learning_rate": 0.0006507779307681826,
+      "loss": 1.1664,
+      "step": 25000
+    },
+    {
+      "epoch": 1.42,
+      "eval_accuracy": 0.709336,
+      "eval_loss": 1.1526598930358887,
+      "eval_runtime": 478.812,
+      "eval_samples_per_second": 522.126,
+      "eval_steps_per_second": 2.04,
+      "step": 25000
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 1.0533519983291626,
+      "learning_rate": 0.0006394818379437445,
+      "loss": 1.1641,
+      "step": 26000
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 1.3917081356048584,
+      "learning_rate": 0.0006278798322474558,
+      "loss": 1.1606,
+      "step": 27000
+    },
+    {
+      "epoch": 1.59,
+      "grad_norm": 1.281437873840332,
+      "learning_rate": 0.000616010800690931,
+      "loss": 1.1553,
+      "step": 28000
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 1.2246198654174805,
+      "learning_rate": 0.0006038423385201748,
+      "loss": 1.149,
+      "step": 29000
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 1.2770333290100098,
+      "learning_rate": 0.0005914134891913911,
+      "loss": 1.1504,
+      "step": 30000
+    },
+    {
+      "epoch": 1.71,
+      "eval_accuracy": 0.717008,
+      "eval_loss": 1.115194320678711,
+      "eval_runtime": 479.3599,
+      "eval_samples_per_second": 521.529,
+      "eval_steps_per_second": 2.038,
+      "step": 30000
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 1.062719702720642,
+      "learning_rate": 0.0005787401292529838,
+      "loss": 1.1433,
+      "step": 31000
+    },
+    {
+      "epoch": 1.82,
+      "grad_norm": 1.4529552459716797,
+      "learning_rate": 0.0005658514578562903,
+      "loss": 1.1445,
+      "step": 32000
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.107438564300537,
+      "learning_rate": 0.000552738138527959,
+      "loss": 1.1345,
+      "step": 33000
+    },
+    {
+      "epoch": 1.93,
+      "grad_norm": 1.309801697731018,
+      "learning_rate": 0.0005394431125282525,
+      "loss": 1.1255,
+      "step": 34000
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 1.2301312685012817,
+      "learning_rate": 0.0005259567490230731,
+      "loss": 1.1234,
+      "step": 35000
+    },
+    {
+      "epoch": 1.99,
+      "eval_accuracy": 0.724084,
+      "eval_loss": 1.0902520418167114,
+      "eval_runtime": 480.0595,
+      "eval_samples_per_second": 520.769,
+      "eval_steps_per_second": 2.035,
+      "step": 35000
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 1.4310553073883057,
+      "learning_rate": 0.0005123232108540917,
+      "loss": 1.0933,
+      "step": 36000
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 1.1885666847229004,
+      "learning_rate": 0.0004985326219711018,
+      "loss": 1.0855,
+      "step": 37000
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 1.2444497346878052,
+      "learning_rate": 0.0004846161680220303,
+      "loss": 1.0785,
+      "step": 38000
+    },
+    {
+      "epoch": 2.22,
+      "grad_norm": 1.5714720487594604,
+      "learning_rate": 0.0004705916258137954,
+      "loss": 1.0748,
+      "step": 39000
+    },
+    {
+      "epoch": 2.28,
+      "grad_norm": 1.5065577030181885,
+      "learning_rate": 0.0004564910639893322,
+      "loss": 1.0819,
+      "step": 40000
+    },
+    {
+      "epoch": 2.28,
+      "eval_accuracy": 0.728284,
+      "eval_loss": 1.072808027267456,
+      "eval_runtime": 478.1415,
+      "eval_samples_per_second": 522.858,
+      "eval_steps_per_second": 2.043,
+      "step": 40000
+    },
+    {
+      "epoch": 2.33,
+      "grad_norm": 1.459184169769287,
+      "learning_rate": 0.00044230426818940436,
+      "loss": 1.077,
+      "step": 41000
+    },
+    {
+      "epoch": 2.39,
+      "grad_norm": 1.0881271362304688,
+      "learning_rate": 0.0004280776949118281,
+      "loss": 1.0763,
+      "step": 42000
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 1.257857322692871,
+      "learning_rate": 0.000413801038515455,
+      "loss": 1.0654,
+      "step": 43000
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 1.3307342529296875,
+      "learning_rate": 0.000399521049758247,
+      "loss": 1.0652,
+      "step": 44000
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 1.1706323623657227,
+      "learning_rate": 0.00038522738430521474,
+      "loss": 1.0707,
+      "step": 45000
+    },
+    {
+      "epoch": 2.56,
+      "eval_accuracy": 0.733432,
+      "eval_loss": 1.0532697439193726,
+      "eval_runtime": 479.4432,
+      "eval_samples_per_second": 521.438,
+      "eval_steps_per_second": 2.038,
+      "step": 45000
+    },
+    {
+      "epoch": 2.62,
+      "grad_norm": 1.3150368928909302,
+      "learning_rate": 0.00037096684861267625,
+      "loss": 1.0657,
+      "step": 46000
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 1.3128031492233276,
+      "learning_rate": 0.00035672911243732087,
+      "loss": 1.0601,
+      "step": 47000
+    },
+    {
+      "epoch": 2.73,
+      "grad_norm": 1.3551691770553589,
+      "learning_rate": 0.0003425607990878131,
+      "loss": 1.0575,
+      "step": 48000
+    },
+    {
+      "epoch": 2.79,
+      "grad_norm": 1.2833973169326782,
+      "learning_rate": 0.0003284516451261337,
+      "loss": 1.059,
+      "step": 49000
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 1.4435667991638184,
+      "learning_rate": 0.000314447852801857,
+      "loss": 1.049,
+      "step": 50000
+    },
+    {
+      "epoch": 2.84,
+      "eval_accuracy": 0.736904,
+      "eval_loss": 1.039907693862915,
+      "eval_runtime": 482.5464,
+      "eval_samples_per_second": 518.085,
+      "eval_steps_per_second": 2.025,
+      "step": 50000
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 1.2984023094177246,
+      "learning_rate": 0.0003005392778549707,
+      "loss": 1.0418,
+      "step": 51000
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 1.109937310218811,
+      "learning_rate": 0.0002867714657131215,
+      "loss": 1.048,
+      "step": 52000
+    },
+    {
+      "epoch": 3.01,
+      "grad_norm": 1.1215381622314453,
+      "learning_rate": 0.00027313444305887276,
+      "loss": 1.0303,
+      "step": 53000
+    },
+    {
+      "epoch": 3.07,
+      "grad_norm": 1.3672548532485962,
+      "learning_rate": 0.00025967286608676553,
+      "loss": 1.0047,
+      "step": 54000
+    },
+    {
+      "epoch": 3.13,
+      "grad_norm": 1.4645944833755493,
+      "learning_rate": 0.0002463769833142144,
+      "loss": 1.0017,
+      "step": 55000
+    },
+    {
+      "epoch": 3.13,
+      "eval_accuracy": 0.740544,
+      "eval_loss": 1.0252685546875,
+      "eval_runtime": 480.6997,
+      "eval_samples_per_second": 520.075,
+      "eval_steps_per_second": 2.032,
+      "step": 55000
+    },
+    {
+      "epoch": 3.19,
+      "grad_norm": 1.3108264207839966,
+      "learning_rate": 0.00023329033382909358,
+      "loss": 1.0012,
+      "step": 56000
+    },
+    {
+      "epoch": 3.24,
+      "grad_norm": 1.4289699792861938,
+      "learning_rate": 0.00022040343774395584,
+      "loss": 0.9987,
+      "step": 57000
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 1.2855439186096191,
+      "learning_rate": 0.00020775849486686778,
+      "loss": 0.9988,
+      "step": 58000
+    },
+    {
+      "epoch": 3.36,
+      "grad_norm": 1.162169098854065,
+      "learning_rate": 0.00019534634527990013,
+      "loss": 1.0006,
+      "step": 59000
+    },
+    {
+      "epoch": 3.41,
+      "grad_norm": 1.2256358861923218,
+      "learning_rate": 0.00018320763417230612,
+      "loss": 0.995,
+      "step": 60000
+    },
+    {
+      "epoch": 3.41,
+      "eval_accuracy": 0.743764,
+      "eval_loss": 1.0119822025299072,
+      "eval_runtime": 480.4029,
+      "eval_samples_per_second": 520.396,
+      "eval_steps_per_second": 2.034,
+      "step": 60000
+    },
+    {
+      "epoch": 3.47,
+      "grad_norm": 1.2014998197555542,
+      "learning_rate": 0.00017133356833730004,
+      "loss": 0.9976,
+      "step": 61000
+    },
+    {
+      "epoch": 3.53,
+      "grad_norm": 1.1588609218597412,
+      "learning_rate": 0.00015975159982961664,
+      "loss": 1.001,
+      "step": 62000
+    },
+    {
+      "epoch": 3.58,
+      "grad_norm": 1.2534708976745605,
+      "learning_rate": 0.00014847652339644127,
+      "loss": 0.9967,
+      "step": 63000
+    },
+    {
+      "epoch": 3.64,
+      "grad_norm": 1.2062395811080933,
+      "learning_rate": 0.00013753353036528426,
+      "loss": 0.9972,
+      "step": 64000
+    },
+    {
+      "epoch": 3.7,
+      "grad_norm": 1.280290126800537,
+      "learning_rate": 0.00012691469370009338,
+      "loss": 0.9829,
+      "step": 65000
+    },
+    {
+      "epoch": 3.7,
+      "eval_accuracy": 0.746796,
+      "eval_loss": 0.9977088570594788,
+      "eval_runtime": 476.9935,
+      "eval_samples_per_second": 524.116,
+      "eval_steps_per_second": 2.048,
+      "step": 65000
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 1.2085012197494507,
+      "learning_rate": 0.00011665478615500634,
+      "loss": 0.9863,
+      "step": 66000
+    },
+    {
+      "epoch": 3.81,
+      "grad_norm": 1.7737034559249878,
+      "learning_rate": 0.00010674637551684559,
+      "loss": 0.9777,
+      "step": 67000
+    },
+    {
+      "epoch": 3.87,
+      "grad_norm": 1.1058114767074585,
+      "learning_rate": 9.722190815783432e-05,
+      "loss": 0.9903,
+      "step": 68000
+    },
+    {
+      "epoch": 3.93,
+      "grad_norm": 1.285079836845398,
+      "learning_rate": 8.807448461308951e-05,
+      "loss": 0.9814,
+      "step": 69000
+    },
+    {
+      "epoch": 3.98,
+      "grad_norm": 1.4150310754776,
+      "learning_rate": 7.933405930416787e-05,
+      "loss": 0.9807,
+      "step": 70000
+    },
+    {
+      "epoch": 3.98,
+      "eval_accuracy": 0.7487,
+      "eval_loss": 0.9908215999603271,
+      "eval_runtime": 478.9031,
+      "eval_samples_per_second": 522.026,
+      "eval_steps_per_second": 2.04,
+      "step": 70000
+    },
+    {
+      "epoch": 4.04,
+      "grad_norm": 1.0839868783950806,
+      "learning_rate": 7.100243228624242e-05,
+      "loss": 0.963,
+      "step": 71000
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 1.2299129962921143,
+      "learning_rate": 6.30825184828638e-05,
+      "loss": 0.955,
+      "step": 72000
+    },
+    {
+      "epoch": 4.15,
+      "grad_norm": 1.3780415058135986,
+      "learning_rate": 5.5592981342836236e-05,
+      "loss": 0.9508,
+      "step": 73000
+    },
+    {
+      "epoch": 4.21,
+      "grad_norm": 1.1320440769195557,
+      "learning_rate": 4.8543387962500266e-05,
+      "loss": 0.9493,
+      "step": 74000
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 1.120684027671814,
+      "learning_rate": 4.1949116996191016e-05,
+      "loss": 0.9452,
+      "step": 75000
+    },
+    {
+      "epoch": 4.27,
+      "eval_accuracy": 0.749816,
+      "eval_loss": 0.9875096082687378,
+      "eval_runtime": 477.8512,
+      "eval_samples_per_second": 523.175,
+      "eval_steps_per_second": 2.045,
+      "step": 75000
+    },
+    {
+      "epoch": 4.32,
+      "grad_norm": 1.4629569053649902,
+      "learning_rate": 3.5805391595057494e-05,
+      "loss": 0.9484,
+      "step": 76000
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 1.2522917985916138,
+      "learning_rate": 3.013233018257653e-05,
+      "loss": 0.9567,
+      "step": 77000
+    },
+    {
+      "epoch": 4.44,
+      "grad_norm": 1.331236720085144,
+      "learning_rate": 2.492582322836503e-05,
+      "loss": 0.9494,
+      "step": 78000
+    },
+    {
+      "epoch": 4.49,
+      "grad_norm": 1.312769889831543,
+      "learning_rate": 2.0202920112872213e-05,
+      "loss": 0.9494,
+      "step": 79000
+    },
+    {
+      "epoch": 4.55,
+      "grad_norm": 1.0436272621154785,
+      "learning_rate": 1.5960199594472392e-05,
+      "loss": 0.949,
+      "step": 80000
+    },
+    {
+      "epoch": 4.55,
+      "eval_accuracy": 0.750728,
+      "eval_loss": 0.9844790697097778,
+      "eval_runtime": 480.1647,
+      "eval_samples_per_second": 520.655,
+      "eval_steps_per_second": 2.035,
+      "step": 80000
+    },
+    {
+      "epoch": 4.61,
+      "grad_norm": 1.7521427869796753,
+      "learning_rate": 1.221155501027127e-05,
+      "loss": 0.9459,
+      "step": 81000
+    },
+    {
+      "epoch": 4.66,
+      "grad_norm": 1.4406906366348267,
+      "learning_rate": 8.954270865460369e-06,
+      "loss": 0.9507,
+      "step": 82000
+    },
+    {
+      "epoch": 4.72,
+      "grad_norm": 1.2117027044296265,
+      "learning_rate": 6.196506529965529e-06,
+      "loss": 0.9471,
+      "step": 83000
+    },
+    {
+      "epoch": 4.78,
+      "grad_norm": 1.1171038150787354,
+      "learning_rate": 3.943787197483806e-06,
+      "loss": 0.951,
+      "step": 84000
+    },
+    {
+      "epoch": 4.84,
+      "grad_norm": 1.388543963432312,
+      "learning_rate": 2.194481012149785e-06,
+      "loss": 0.9509,
+      "step": 85000
+    },
+    {
+      "epoch": 4.84,
+      "eval_accuracy": 0.750944,
+      "eval_loss": 0.984071671962738,
+      "eval_runtime": 479.0227,
+      "eval_samples_per_second": 521.896,
+      "eval_steps_per_second": 2.04,
+      "step": 85000
+    },
+    {
+      "epoch": 4.89,
+      "grad_norm": 1.2518051862716675,
+      "learning_rate": 9.543163033286728e-07,
+      "loss": 0.955,
+      "step": 86000
+    },
+    {
+      "epoch": 4.95,
+      "grad_norm": 1.1738619804382324,
+      "learning_rate": 2.2239470342309e-07,
+      "loss": 0.9482,
+      "step": 87000
+    },
     {
       "epoch": 5.0,
+      "step": 87895,
+      "total_flos": 5.4597447576e+17,
+      "train_loss": 1.1248133655402486,
+      "train_runtime": 51144.106,
+      "train_samples_per_second": 439.933,
+      "train_steps_per_second": 1.719
     }
   ],
   "logging_steps": 1000,
+  "max_steps": 87895,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 5000,
+  "total_flos": 5.4597447576e+17,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57eb28f43f42cafdd51441529e7f5eee73bdb0c9dd9f65304199c2aea12458a4
 size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d9a6f1a8233545c2d422a032a79a3101f63ca1427a7c955c87c0125bf8df20e
 size 4856