doodle-dash8

Browse files

Files changed (9) hide show

README.md +10 -28
all_results.json +10 -10
config.json +20 -24
model.safetensors +2 -2
preprocessor_config.json +18 -3
test_results.json +5 -5
train_results.json +5 -5
trainer_state.json +9 -771
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 license: other
-base_model: apple/mobilevit-small
 tags:
 - generated_from_trainer
 metrics:
@@ -15,10 +15,10 @@ should probably proofread and complete it, then remove this comment. -->
 # results
-This model is a fine-tuned version of [apple/mobilevit-small](https://huggingface.co/apple/mobilevit-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9890
-- Accuracy: 0.7494
 ## Model description
@@ -41,37 +41,19 @@ The following hyperparameters were used during training:
 - train_batch_size: 256
 - eval_batch_size: 256
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
-- lr_scheduler_type: cosine
 - num_epochs: 5
 - mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch | Step  | Validation Loss | Accuracy |
-|:-------------:|:-----:|:-----:|:---------------:|:--------:|
-| 1.4668        | 0.28  | 5000  | 1.4146          | 0.6488   |
-| 1.3282        | 0.57  | 10000 | 1.2907          | 0.6766   |
-| 1.2617        | 0.85  | 15000 | 1.2270          | 0.6905   |
-| 1.196         | 1.14  | 20000 | 1.1758          | 0.7035   |
-| 1.1664        | 1.42  | 25000 | 1.1527          | 0.7093   |
-| 1.1504        | 1.71  | 30000 | 1.1152          | 0.7170   |
-| 1.1234        | 1.99  | 35000 | 1.0903          | 0.7241   |
-| 1.0819        | 2.28  | 40000 | 1.0728          | 0.7283   |
-| 1.0707        | 2.56  | 45000 | 1.0533          | 0.7334   |
-| 1.049         | 2.84  | 50000 | 1.0399          | 0.7369   |
-| 1.0017        | 3.13  | 55000 | 1.0253          | 0.7405   |
-| 0.995         | 3.41  | 60000 | 1.0120          | 0.7438   |
-| 0.9829        | 3.7   | 65000 | 0.9977          | 0.7468   |
-| 0.9807        | 3.98  | 70000 | 0.9908          | 0.7487   |
-| 0.9452        | 4.27  | 75000 | 0.9875          | 0.7498   |
-| 0.949         | 4.55  | 80000 | 0.9845          | 0.7507   |
-| 0.9509        | 4.84  | 85000 | 0.9841          | 0.7509   |
 ### Framework versions
-- Transformers 4.38.2
-- Pytorch 2.2.1+cu121
-- Datasets 2.18.0
-- Tokenizers 0.15.2

 ---
 license: other
+base_model: apple/mobilevitv2-1.0-imagenet1k-256
 tags:
 - generated_from_trainer
 metrics:
 # results
+This model is a fine-tuned version of [apple/mobilevitv2-1.0-imagenet1k-256](https://huggingface.co/apple/mobilevitv2-1.0-imagenet1k-256) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 5.6378
+- Accuracy: 0.84
 ## Model description
 - train_batch_size: 256
 - eval_batch_size: 256
 - seed: 42
+- distributed_type: multi-GPU
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
 - num_epochs: 5
 - mixed_precision_training: Native AMP
 ### Training results
 ### Framework versions
+- Transformers 4.40.0
+- Pytorch 2.2.2+cu121
+- Datasets 2.19.0
+- Tokenizers 0.19.1

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_accuracy": 0.749444,
-    "eval_loss": 0.9889541864395142,
-    "eval_runtime": 480.919,
-    "eval_samples_per_second": 519.838,
-    "eval_steps_per_second": 2.032,
-    "total_flos": 5.4597447576e+17,
-    "train_loss": 1.1248133655402486,
-    "train_runtime": 51144.106,
-    "train_samples_per_second": 439.933,
-    "train_steps_per_second": 1.719
 }

 {
     "epoch": 5.0,
+    "eval_accuracy": 0.84,
+    "eval_loss": 5.637753486633301,
+    "eval_runtime": 0.5983,
+    "eval_samples_per_second": 334.259,
+    "eval_steps_per_second": 1.671,
+    "total_flos": 429498709311488.0,
+    "train_loss": 5.7403564453125,
+    "train_runtime": 6.8068,
+    "train_samples_per_second": 734.556,
+    "train_steps_per_second": 2.938
 }

config.json CHANGED Viewed

@@ -1,26 +1,27 @@
 {
-  "_name_or_path": "apple/mobilevit-small",
   "architectures": [
-    "MobileViTForImageClassification"
   ],
   "aspp_dropout_prob": 0.1,
-  "aspp_out_channels": 256,
   "atrous_rates": [
     6,
     12,
     18
   ],
-  "attention_probs_dropout_prob": 0.0,
-  "classifier_dropout_prob": 0.1,
-  "conv_kernel_size": 3,
-  "expand_ratio": 4.0,
-  "hidden_act": "silu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_sizes": [
-    144,
     192,
-    240
   ],
   "id2label": {
     "0": "aircraft carrier",
     "1": "airplane",
@@ -719,23 +720,18 @@
   },
   "layer_norm_eps": 1e-05,
   "mlp_ratio": 2.0,
-  "model_type": "mobilevit",
-  "neck_hidden_sizes": [
-    16,
-    32,
-    64,
-    96,
-    128,
-    160,
-    640
   ],
-  "num_attention_heads": 4,
   "num_channels": 1,
   "output_stride": 32,
   "patch_size": 2,
   "problem_type": "single_label_classification",
-  "qkv_bias": true,
   "semantic_loss_ignore_index": 255,
   "torch_dtype": "float32",
-  "transformers_version": "4.38.2"
 }

 {
+  "_name_or_path": "apple/mobilevitv2-1.0-imagenet1k-256",
   "architectures": [
+    "MobileViTV2ForImageClassification"
   ],
   "aspp_dropout_prob": 0.1,
+  "aspp_out_channels": 512,
   "atrous_rates": [
     6,
     12,
     18
   ],
+  "attn_dropout": 0.0,
+  "base_attn_unit_dims": [
+    128,
     192,
+    256
   ],
+  "classifier_dropout_prob": 0.1,
+  "conv_kernel_size": 3,
+  "expand_ratio": 2.0,
+  "ffn_dropout": 0.0,
+  "ffn_multiplier": 2,
+  "hidden_act": "swish",
   "id2label": {
     "0": "aircraft carrier",
     "1": "airplane",
   },
   "layer_norm_eps": 1e-05,
   "mlp_ratio": 2.0,
+  "model_type": "mobilevitv2",
+  "n_attn_blocks": [
+    2,
+    4,
+    3
   ],
   "num_channels": 1,
   "output_stride": 32,
   "patch_size": 2,
   "problem_type": "single_label_classification",
   "semantic_loss_ignore_index": 255,
   "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "width_multiplier": 1.0
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cdbd0fe9d0acb014744296fad548e9c5803a702dc65c640d5a141db652944dd
-size 20730036

 version https://git-lfs.github.com/spec/v1
+oid sha256:64c40e94a7f11eb9e5f594ab9f6825b2f681c1da4fbb2aeffaaebabf0456aae3
+size 18360744

preprocessor_config.json CHANGED Viewed

@@ -1,7 +1,22 @@
 {
   "crop_size": {
-    "height": 28,
-    "width": 28
   },
   "do_center_crop": true,
   "do_convert_rgb": false,
@@ -12,6 +27,6 @@
   "resample": 2,
   "rescale_factor": 0.00392156862745098,
   "size": {
-    "shortest_edge": 28
   }
 }

 {
+  "_valid_processor_keys": [
+    "images",
+    "segmentation_maps",
+    "do_resize",
+    "size",
+    "resample",
+    "do_rescale",
+    "rescale_factor",
+    "do_center_crop",
+    "crop_size",
+    "do_flip_channel_order",
+    "return_tensors",
+    "data_format",
+    "input_data_format"
+  ],
   "crop_size": {
+    "height": 56,
+    "width": 56
   },
   "do_center_crop": true,
   "do_convert_rgb": false,
   "resample": 2,
   "rescale_factor": 0.00392156862745098,
   "size": {
+    "shortest_edge": 56
   }
 }

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
-    "eval_accuracy": 0.749444,
-    "eval_loss": 0.9889541864395142,
-    "eval_runtime": 480.919,
-    "eval_samples_per_second": 519.838,
-    "eval_steps_per_second": 2.032
 }

 {
     "epoch": 5.0,
+    "eval_accuracy": 0.84,
+    "eval_loss": 5.637753486633301,
+    "eval_runtime": 0.5983,
+    "eval_samples_per_second": 334.259,
+    "eval_steps_per_second": 1.671
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
-    "total_flos": 5.4597447576e+17,
-    "train_loss": 1.1248133655402486,
-    "train_runtime": 51144.106,
-    "train_samples_per_second": 439.933,
-    "train_steps_per_second": 1.719
 }

 {
     "epoch": 5.0,
+    "total_flos": 429498709311488.0,
+    "train_loss": 5.7403564453125,
+    "train_runtime": 6.8068,
+    "train_samples_per_second": 734.556,
+    "train_steps_per_second": 2.938
 }

trainer_state.json CHANGED Viewed

@@ -3,789 +3,27 @@
   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 5000,
-  "global_step": 87895,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.06,
-      "grad_norm": 2.239067792892456,
-      "learning_rate": 0.0007997460514380593,
-      "loss": 2.6519,
-      "step": 1000
-    },
-    {
-      "epoch": 0.11,
-      "grad_norm": 1.9583632946014404,
-      "learning_rate": 0.0007989814716192582,
-      "loss": 1.7524,
-      "step": 2000
-    },
-    {
-      "epoch": 0.17,
-      "grad_norm": 1.9535893201828003,
-      "learning_rate": 0.0007977072349143816,
-      "loss": 1.6001,
-      "step": 3000
-    },
-    {
-      "epoch": 0.23,
-      "grad_norm": 2.063387632369995,
-      "learning_rate": 0.0007959249690268624,
-      "loss": 1.5217,
-      "step": 4000
-    },
-    {
-      "epoch": 0.28,
-      "grad_norm": 1.9860559701919556,
-      "learning_rate": 0.0007936369506140068,
-      "loss": 1.4668,
-      "step": 5000
-    },
-    {
-      "epoch": 0.28,
-      "eval_accuracy": 0.648804,
-      "eval_loss": 1.4146429300308228,
-      "eval_runtime": 478.1117,
-      "eval_samples_per_second": 522.89,
-      "eval_steps_per_second": 2.043,
-      "step": 5000
-    },
-    {
-      "epoch": 0.34,
-      "grad_norm": 2.0301945209503174,
-      "learning_rate": 0.0007908461023788039,
-      "loss": 1.4298,
-      "step": 6000
-    },
-    {
-      "epoch": 0.4,
-      "grad_norm": 1.5042238235473633,
-      "learning_rate": 0.0007875595274863339,
-      "loss": 1.3942,
-      "step": 7000
-    },
-    {
-      "epoch": 0.46,
-      "grad_norm": 1.6014552116394043,
-      "learning_rate": 0.0007837748451621974,
-      "loss": 1.3678,
-      "step": 8000
-    },
-    {
-      "epoch": 0.51,
-      "grad_norm": 1.509202241897583,
-      "learning_rate": 0.0007795044488381889,
-      "loss": 1.3487,
-      "step": 9000
-    },
-    {
-      "epoch": 0.57,
-      "grad_norm": 1.4688481092453003,
-      "learning_rate": 0.0007747452450657864,
-      "loss": 1.3282,
-      "step": 10000
-    },
-    {
-      "epoch": 0.57,
-      "eval_accuracy": 0.676572,
-      "eval_loss": 1.2906984090805054,
-      "eval_runtime": 477.0964,
-      "eval_samples_per_second": 524.003,
-      "eval_steps_per_second": 2.048,
-      "step": 10000
-    },
-    {
-      "epoch": 0.63,
-      "grad_norm": 1.4521937370300293,
-      "learning_rate": 0.0007695128184733147,
-      "loss": 1.3244,
-      "step": 11000
-    },
-    {
-      "epoch": 0.68,
-      "grad_norm": 1.4638675451278687,
-      "learning_rate": 0.000763803378723512,
-      "loss": 1.2934,
-      "step": 12000
-    },
-    {
-      "epoch": 0.74,
-      "grad_norm": 1.614662528038025,
-      "learning_rate": 0.0007576292184031235,
-      "loss": 1.2847,
-      "step": 13000
-    },
-    {
-      "epoch": 0.8,
-      "grad_norm": 1.3933509588241577,
-      "learning_rate": 0.0007510050807642281,
-      "loss": 1.2779,
-      "step": 14000
-    },
-    {
-      "epoch": 0.85,
-      "grad_norm": 1.424271583557129,
-      "learning_rate": 0.0007439261673227427,
-      "loss": 1.2617,
-      "step": 15000
-    },
-    {
-      "epoch": 0.85,
-      "eval_accuracy": 0.690468,
-      "eval_loss": 1.227000117301941,
-      "eval_runtime": 474.9613,
-      "eval_samples_per_second": 526.359,
-      "eval_steps_per_second": 2.057,
-      "step": 15000
-    },
-    {
-      "epoch": 0.91,
-      "grad_norm": 1.5942885875701904,
-      "learning_rate": 0.0007364156588963428,
-      "loss": 1.2525,
-      "step": 16000
-    },
-    {
-      "epoch": 0.97,
-      "grad_norm": 1.342366099357605,
-      "learning_rate": 0.0007284681149194631,
-      "loss": 1.2437,
-      "step": 17000
-    },
-    {
-      "epoch": 1.02,
-      "grad_norm": 1.3556225299835205,
-      "learning_rate": 0.0007201095606528187,
-      "loss": 1.2252,
-      "step": 18000
-    },
-    {
-      "epoch": 1.08,
-      "grad_norm": 1.18772554397583,
-      "learning_rate": 0.0007113339412117152,
-      "loss": 1.1982,
-      "step": 19000
-    },
-    {
-      "epoch": 1.14,
-      "grad_norm": 1.2163102626800537,
-      "learning_rate": 0.0007021606253904673,
-      "loss": 1.196,
-      "step": 20000
-    },
-    {
-      "epoch": 1.14,
-      "eval_accuracy": 0.703472,
-      "eval_loss": 1.1758021116256714,
-      "eval_runtime": 477.2497,
-      "eval_samples_per_second": 523.835,
-      "eval_steps_per_second": 2.047,
-      "step": 20000
-    },
-    {
-      "epoch": 1.19,
-      "grad_norm": 1.4264676570892334,
-      "learning_rate": 0.0006926013311356693,
-      "loss": 1.1909,
-      "step": 21000
-    },
-    {
-      "epoch": 1.25,
-      "grad_norm": 1.4394527673721313,
-      "learning_rate": 0.0006826783850151473,
-      "loss": 1.1906,
-      "step": 22000
-    },
-    {
-      "epoch": 1.31,
-      "grad_norm": 1.6702680587768555,
-      "learning_rate": 0.0006723845989084832,
-      "loss": 1.1836,
-      "step": 23000
-    },
-    {
-      "epoch": 1.37,
-      "grad_norm": 1.4739456176757812,
-      "learning_rate": 0.0006617536811497173,
-      "loss": 1.1826,
-      "step": 24000
-    },
-    {
-      "epoch": 1.42,
-      "grad_norm": 1.8557323217391968,
-      "learning_rate": 0.0006507779307681826,
-      "loss": 1.1664,
-      "step": 25000
-    },
-    {
-      "epoch": 1.42,
-      "eval_accuracy": 0.709336,
-      "eval_loss": 1.1526598930358887,
-      "eval_runtime": 478.812,
-      "eval_samples_per_second": 522.126,
-      "eval_steps_per_second": 2.04,
-      "step": 25000
-    },
-    {
-      "epoch": 1.48,
-      "grad_norm": 1.0533519983291626,
-      "learning_rate": 0.0006394818379437445,
-      "loss": 1.1641,
-      "step": 26000
-    },
-    {
-      "epoch": 1.54,
-      "grad_norm": 1.3917081356048584,
-      "learning_rate": 0.0006278798322474558,
-      "loss": 1.1606,
-      "step": 27000
-    },
-    {
-      "epoch": 1.59,
-      "grad_norm": 1.281437873840332,
-      "learning_rate": 0.000616010800690931,
-      "loss": 1.1553,
-      "step": 28000
-    },
-    {
-      "epoch": 1.65,
-      "grad_norm": 1.2246198654174805,
-      "learning_rate": 0.0006038423385201748,
-      "loss": 1.149,
-      "step": 29000
-    },
-    {
-      "epoch": 1.71,
-      "grad_norm": 1.2770333290100098,
-      "learning_rate": 0.0005914134891913911,
-      "loss": 1.1504,
-      "step": 30000
-    },
-    {
-      "epoch": 1.71,
-      "eval_accuracy": 0.717008,
-      "eval_loss": 1.115194320678711,
-      "eval_runtime": 479.3599,
-      "eval_samples_per_second": 521.529,
-      "eval_steps_per_second": 2.038,
-      "step": 30000
-    },
-    {
-      "epoch": 1.76,
-      "grad_norm": 1.062719702720642,
-      "learning_rate": 0.0005787401292529838,
-      "loss": 1.1433,
-      "step": 31000
-    },
-    {
-      "epoch": 1.82,
-      "grad_norm": 1.4529552459716797,
-      "learning_rate": 0.0005658514578562903,
-      "loss": 1.1445,
-      "step": 32000
-    },
-    {
-      "epoch": 1.88,
-      "grad_norm": 1.107438564300537,
-      "learning_rate": 0.000552738138527959,
-      "loss": 1.1345,
-      "step": 33000
-    },
-    {
-      "epoch": 1.93,
-      "grad_norm": 1.309801697731018,
-      "learning_rate": 0.0005394431125282525,
-      "loss": 1.1255,
-      "step": 34000
-    },
-    {
-      "epoch": 1.99,
-      "grad_norm": 1.2301312685012817,
-      "learning_rate": 0.0005259567490230731,
-      "loss": 1.1234,
-      "step": 35000
-    },
-    {
-      "epoch": 1.99,
-      "eval_accuracy": 0.724084,
-      "eval_loss": 1.0902520418167114,
-      "eval_runtime": 480.0595,
-      "eval_samples_per_second": 520.769,
-      "eval_steps_per_second": 2.035,
-      "step": 35000
-    },
-    {
-      "epoch": 2.05,
-      "grad_norm": 1.4310553073883057,
-      "learning_rate": 0.0005123232108540917,
-      "loss": 1.0933,
-      "step": 36000
-    },
-    {
-      "epoch": 2.1,
-      "grad_norm": 1.1885666847229004,
-      "learning_rate": 0.0004985326219711018,
-      "loss": 1.0855,
-      "step": 37000
-    },
-    {
-      "epoch": 2.16,
-      "grad_norm": 1.2444497346878052,
-      "learning_rate": 0.0004846161680220303,
-      "loss": 1.0785,
-      "step": 38000
-    },
-    {
-      "epoch": 2.22,
-      "grad_norm": 1.5714720487594604,
-      "learning_rate": 0.0004705916258137954,
-      "loss": 1.0748,
-      "step": 39000
-    },
-    {
-      "epoch": 2.28,
-      "grad_norm": 1.5065577030181885,
-      "learning_rate": 0.0004564910639893322,
-      "loss": 1.0819,
-      "step": 40000
-    },
-    {
-      "epoch": 2.28,
-      "eval_accuracy": 0.728284,
-      "eval_loss": 1.072808027267456,
-      "eval_runtime": 478.1415,
-      "eval_samples_per_second": 522.858,
-      "eval_steps_per_second": 2.043,
-      "step": 40000
-    },
-    {
-      "epoch": 2.33,
-      "grad_norm": 1.459184169769287,
-      "learning_rate": 0.00044230426818940436,
-      "loss": 1.077,
-      "step": 41000
-    },
-    {
-      "epoch": 2.39,
-      "grad_norm": 1.0881271362304688,
-      "learning_rate": 0.0004280776949118281,
-      "loss": 1.0763,
-      "step": 42000
-    },
-    {
-      "epoch": 2.45,
-      "grad_norm": 1.257857322692871,
-      "learning_rate": 0.000413801038515455,
-      "loss": 1.0654,
-      "step": 43000
-    },
-    {
-      "epoch": 2.5,
-      "grad_norm": 1.3307342529296875,
-      "learning_rate": 0.000399521049758247,
-      "loss": 1.0652,
-      "step": 44000
-    },
-    {
-      "epoch": 2.56,
-      "grad_norm": 1.1706323623657227,
-      "learning_rate": 0.00038522738430521474,
-      "loss": 1.0707,
-      "step": 45000
-    },
-    {
-      "epoch": 2.56,
-      "eval_accuracy": 0.733432,
-      "eval_loss": 1.0532697439193726,
-      "eval_runtime": 479.4432,
-      "eval_samples_per_second": 521.438,
-      "eval_steps_per_second": 2.038,
-      "step": 45000
-    },
-    {
-      "epoch": 2.62,
-      "grad_norm": 1.3150368928909302,
-      "learning_rate": 0.00037096684861267625,
-      "loss": 1.0657,
-      "step": 46000
-    },
-    {
-      "epoch": 2.67,
-      "grad_norm": 1.3128031492233276,
-      "learning_rate": 0.00035672911243732087,
-      "loss": 1.0601,
-      "step": 47000
-    },
-    {
-      "epoch": 2.73,
-      "grad_norm": 1.3551691770553589,
-      "learning_rate": 0.0003425607990878131,
-      "loss": 1.0575,
-      "step": 48000
-    },
-    {
-      "epoch": 2.79,
-      "grad_norm": 1.2833973169326782,
-      "learning_rate": 0.0003284516451261337,
-      "loss": 1.059,
-      "step": 49000
-    },
-    {
-      "epoch": 2.84,
-      "grad_norm": 1.4435667991638184,
-      "learning_rate": 0.000314447852801857,
-      "loss": 1.049,
-      "step": 50000
-    },
-    {
-      "epoch": 2.84,
-      "eval_accuracy": 0.736904,
-      "eval_loss": 1.039907693862915,
-      "eval_runtime": 482.5464,
-      "eval_samples_per_second": 518.085,
-      "eval_steps_per_second": 2.025,
-      "step": 50000
-    },
-    {
-      "epoch": 2.9,
-      "grad_norm": 1.2984023094177246,
-      "learning_rate": 0.0003005392778549707,
-      "loss": 1.0418,
-      "step": 51000
-    },
-    {
-      "epoch": 2.96,
-      "grad_norm": 1.109937310218811,
-      "learning_rate": 0.0002867714657131215,
-      "loss": 1.048,
-      "step": 52000
-    },
-    {
-      "epoch": 3.01,
-      "grad_norm": 1.1215381622314453,
-      "learning_rate": 0.00027313444305887276,
-      "loss": 1.0303,
-      "step": 53000
-    },
-    {
-      "epoch": 3.07,
-      "grad_norm": 1.3672548532485962,
-      "learning_rate": 0.00025967286608676553,
-      "loss": 1.0047,
-      "step": 54000
-    },
-    {
-      "epoch": 3.13,
-      "grad_norm": 1.4645944833755493,
-      "learning_rate": 0.0002463769833142144,
-      "loss": 1.0017,
-      "step": 55000
-    },
-    {
-      "epoch": 3.13,
-      "eval_accuracy": 0.740544,
-      "eval_loss": 1.0252685546875,
-      "eval_runtime": 480.6997,
-      "eval_samples_per_second": 520.075,
-      "eval_steps_per_second": 2.032,
-      "step": 55000
-    },
-    {
-      "epoch": 3.19,
-      "grad_norm": 1.3108264207839966,
-      "learning_rate": 0.00023329033382909358,
-      "loss": 1.0012,
-      "step": 56000
-    },
-    {
-      "epoch": 3.24,
-      "grad_norm": 1.4289699792861938,
-      "learning_rate": 0.00022040343774395584,
-      "loss": 0.9987,
-      "step": 57000
-    },
-    {
-      "epoch": 3.3,
-      "grad_norm": 1.2855439186096191,
-      "learning_rate": 0.00020775849486686778,
-      "loss": 0.9988,
-      "step": 58000
-    },
-    {
-      "epoch": 3.36,
-      "grad_norm": 1.162169098854065,
-      "learning_rate": 0.00019534634527990013,
-      "loss": 1.0006,
-      "step": 59000
-    },
-    {
-      "epoch": 3.41,
-      "grad_norm": 1.2256358861923218,
-      "learning_rate": 0.00018320763417230612,
-      "loss": 0.995,
-      "step": 60000
-    },
-    {
-      "epoch": 3.41,
-      "eval_accuracy": 0.743764,
-      "eval_loss": 1.0119822025299072,
-      "eval_runtime": 480.4029,
-      "eval_samples_per_second": 520.396,
-      "eval_steps_per_second": 2.034,
-      "step": 60000
-    },
-    {
-      "epoch": 3.47,
-      "grad_norm": 1.2014998197555542,
-      "learning_rate": 0.00017133356833730004,
-      "loss": 0.9976,
-      "step": 61000
-    },
-    {
-      "epoch": 3.53,
-      "grad_norm": 1.1588609218597412,
-      "learning_rate": 0.00015975159982961664,
-      "loss": 1.001,
-      "step": 62000
-    },
-    {
-      "epoch": 3.58,
-      "grad_norm": 1.2534708976745605,
-      "learning_rate": 0.00014847652339644127,
-      "loss": 0.9967,
-      "step": 63000
-    },
-    {
-      "epoch": 3.64,
-      "grad_norm": 1.2062395811080933,
-      "learning_rate": 0.00013753353036528426,
-      "loss": 0.9972,
-      "step": 64000
-    },
-    {
-      "epoch": 3.7,
-      "grad_norm": 1.280290126800537,
-      "learning_rate": 0.00012691469370009338,
-      "loss": 0.9829,
-      "step": 65000
-    },
-    {
-      "epoch": 3.7,
-      "eval_accuracy": 0.746796,
-      "eval_loss": 0.9977088570594788,
-      "eval_runtime": 476.9935,
-      "eval_samples_per_second": 524.116,
-      "eval_steps_per_second": 2.048,
-      "step": 65000
-    },
-    {
-      "epoch": 3.75,
-      "grad_norm": 1.2085012197494507,
-      "learning_rate": 0.00011665478615500634,
-      "loss": 0.9863,
-      "step": 66000
-    },
-    {
-      "epoch": 3.81,
-      "grad_norm": 1.7737034559249878,
-      "learning_rate": 0.00010674637551684559,
-      "loss": 0.9777,
-      "step": 67000
-    },
-    {
-      "epoch": 3.87,
-      "grad_norm": 1.1058114767074585,
-      "learning_rate": 9.722190815783432e-05,
-      "loss": 0.9903,
-      "step": 68000
-    },
-    {
-      "epoch": 3.93,
-      "grad_norm": 1.285079836845398,
-      "learning_rate": 8.807448461308951e-05,
-      "loss": 0.9814,
-      "step": 69000
-    },
-    {
-      "epoch": 3.98,
-      "grad_norm": 1.4150310754776,
-      "learning_rate": 7.933405930416787e-05,
-      "loss": 0.9807,
-      "step": 70000
-    },
-    {
-      "epoch": 3.98,
-      "eval_accuracy": 0.7487,
-      "eval_loss": 0.9908215999603271,
-      "eval_runtime": 478.9031,
-      "eval_samples_per_second": 522.026,
-      "eval_steps_per_second": 2.04,
-      "step": 70000
-    },
-    {
-      "epoch": 4.04,
-      "grad_norm": 1.0839868783950806,
-      "learning_rate": 7.100243228624242e-05,
-      "loss": 0.963,
-      "step": 71000
-    },
-    {
-      "epoch": 4.1,
-      "grad_norm": 1.2299129962921143,
-      "learning_rate": 6.30825184828638e-05,
-      "loss": 0.955,
-      "step": 72000
-    },
-    {
-      "epoch": 4.15,
-      "grad_norm": 1.3780415058135986,
-      "learning_rate": 5.5592981342836236e-05,
-      "loss": 0.9508,
-      "step": 73000
-    },
-    {
-      "epoch": 4.21,
-      "grad_norm": 1.1320440769195557,
-      "learning_rate": 4.8543387962500266e-05,
-      "loss": 0.9493,
-      "step": 74000
-    },
-    {
-      "epoch": 4.27,
-      "grad_norm": 1.120684027671814,
-      "learning_rate": 4.1949116996191016e-05,
-      "loss": 0.9452,
-      "step": 75000
-    },
-    {
-      "epoch": 4.27,
-      "eval_accuracy": 0.749816,
-      "eval_loss": 0.9875096082687378,
-      "eval_runtime": 477.8512,
-      "eval_samples_per_second": 523.175,
-      "eval_steps_per_second": 2.045,
-      "step": 75000
-    },
-    {
-      "epoch": 4.32,
-      "grad_norm": 1.4629569053649902,
-      "learning_rate": 3.5805391595057494e-05,
-      "loss": 0.9484,
-      "step": 76000
-    },
-    {
-      "epoch": 4.38,
-      "grad_norm": 1.2522917985916138,
-      "learning_rate": 3.013233018257653e-05,
-      "loss": 0.9567,
-      "step": 77000
-    },
-    {
-      "epoch": 4.44,
-      "grad_norm": 1.331236720085144,
-      "learning_rate": 2.492582322836503e-05,
-      "loss": 0.9494,
-      "step": 78000
-    },
-    {
-      "epoch": 4.49,
-      "grad_norm": 1.312769889831543,
-      "learning_rate": 2.0202920112872213e-05,
-      "loss": 0.9494,
-      "step": 79000
-    },
-    {
-      "epoch": 4.55,
-      "grad_norm": 1.0436272621154785,
-      "learning_rate": 1.5960199594472392e-05,
-      "loss": 0.949,
-      "step": 80000
-    },
-    {
-      "epoch": 4.55,
-      "eval_accuracy": 0.750728,
-      "eval_loss": 0.9844790697097778,
-      "eval_runtime": 480.1647,
-      "eval_samples_per_second": 520.655,
-      "eval_steps_per_second": 2.035,
-      "step": 80000
-    },
-    {
-      "epoch": 4.61,
-      "grad_norm": 1.7521427869796753,
-      "learning_rate": 1.221155501027127e-05,
-      "loss": 0.9459,
-      "step": 81000
-    },
-    {
-      "epoch": 4.66,
-      "grad_norm": 1.4406906366348267,
-      "learning_rate": 8.954270865460369e-06,
-      "loss": 0.9507,
-      "step": 82000
-    },
-    {
-      "epoch": 4.72,
-      "grad_norm": 1.2117027044296265,
-      "learning_rate": 6.196506529965529e-06,
-      "loss": 0.9471,
-      "step": 83000
-    },
-    {
-      "epoch": 4.78,
-      "grad_norm": 1.1171038150787354,
-      "learning_rate": 3.943787197483806e-06,
-      "loss": 0.951,
-      "step": 84000
-    },
-    {
-      "epoch": 4.84,
-      "grad_norm": 1.388543963432312,
-      "learning_rate": 2.194481012149785e-06,
-      "loss": 0.9509,
-      "step": 85000
-    },
-    {
-      "epoch": 4.84,
-      "eval_accuracy": 0.750944,
-      "eval_loss": 0.984071671962738,
-      "eval_runtime": 479.0227,
-      "eval_samples_per_second": 521.896,
-      "eval_steps_per_second": 2.04,
-      "step": 85000
-    },
-    {
-      "epoch": 4.89,
-      "grad_norm": 1.2518051862716675,
-      "learning_rate": 9.543163033286728e-07,
-      "loss": 0.955,
-      "step": 86000
-    },
-    {
-      "epoch": 4.95,
-      "grad_norm": 1.1738619804382324,
-      "learning_rate": 2.2239470342309e-07,
-      "loss": 0.9482,
-      "step": 87000
-    },
     {
       "epoch": 5.0,
-      "step": 87895,
-      "total_flos": 5.4597447576e+17,
-      "train_loss": 1.1248133655402486,
-      "train_runtime": 51144.106,
-      "train_samples_per_second": 439.933,
-      "train_steps_per_second": 1.719
     }
   ],
   "logging_steps": 1000,
-  "max_steps": 87895,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 5000,
-  "total_flos": 5.4597447576e+17,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 5000,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 5.0,
+      "step": 20,
+      "total_flos": 429498709311488.0,
+      "train_loss": 5.7403564453125,
+      "train_runtime": 6.8068,
+      "train_samples_per_second": 734.556,
+      "train_steps_per_second": 2.938
     }
   ],
   "logging_steps": 1000,
+  "max_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 5000,
+  "total_flos": 429498709311488.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d9a6f1a8233545c2d422a032a79a3101f63ca1427a7c955c87c0125bf8df20e
-size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:94028c98d450c3cf82efda505f3a584702831ed0c33a23dd3ade11963108d031
+size 4984