ruanchaves
/

bert-base-portuguese-cased-assin-similarity

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.9984,
+  "global_step": 6240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.3489128649234772,
+      "eval_mse": 0.34891289472579956,
+      "eval_runtime": 4.7891,
+      "eval_samples_per_second": 208.807,
+      "eval_steps_per_second": 26.101,
+      "step": 312
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 4.331812181114852e-05,
+      "loss": 0.3355,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.23772406578063965,
+      "eval_mse": 0.23772406578063965,
+      "eval_runtime": 4.8126,
+      "eval_samples_per_second": 207.789,
+      "eval_steps_per_second": 25.974,
+      "step": 624
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.2444075644016266,
+      "eval_mse": 0.2444075644016266,
+      "eval_runtime": 4.8651,
+      "eval_samples_per_second": 205.548,
+      "eval_steps_per_second": 25.693,
+      "step": 936
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 3.9544766252686105e-05,
+      "loss": 0.1182,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.3121347725391388,
+      "eval_mse": 0.3121347725391388,
+      "eval_runtime": 4.9119,
+      "eval_samples_per_second": 203.588,
+      "eval_steps_per_second": 25.448,
+      "step": 1248
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 3.577141069422369e-05,
+      "loss": 0.0651,
+      "step": 1500
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.22353506088256836,
+      "eval_mse": 0.22353507578372955,
+      "eval_runtime": 4.9339,
+      "eval_samples_per_second": 202.678,
+      "eval_steps_per_second": 25.335,
+      "step": 1560
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.19977863132953644,
+      "eval_mse": 0.19977861642837524,
+      "eval_runtime": 4.7835,
+      "eval_samples_per_second": 209.051,
+      "eval_steps_per_second": 26.131,
+      "step": 1872
+    },
+    {
+      "epoch": 6.41,
+      "learning_rate": 3.199805513576128e-05,
+      "loss": 0.0498,
+      "step": 2000
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.2336214929819107,
+      "eval_mse": 0.2336214929819107,
+      "eval_runtime": 4.7754,
+      "eval_samples_per_second": 209.407,
+      "eval_steps_per_second": 26.176,
+      "step": 2184
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.21180056035518646,
+      "eval_mse": 0.21180060505867004,
+      "eval_runtime": 4.9099,
+      "eval_samples_per_second": 203.671,
+      "eval_steps_per_second": 25.459,
+      "step": 2496
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 2.822469957729886e-05,
+      "loss": 0.0358,
+      "step": 2500
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.22979474067687988,
+      "eval_mse": 0.22979475557804108,
+      "eval_runtime": 4.8765,
+      "eval_samples_per_second": 205.065,
+      "eval_steps_per_second": 25.633,
+      "step": 2808
+    },
+    {
+      "epoch": 9.61,
+      "learning_rate": 2.445134401883645e-05,
+      "loss": 0.0279,
+      "step": 3000
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.2303524762392044,
+      "eval_mse": 0.2303524762392044,
+      "eval_runtime": 4.9464,
+      "eval_samples_per_second": 202.165,
+      "eval_steps_per_second": 25.271,
+      "step": 3120
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.21912191808223724,
+      "eval_mse": 0.21912193298339844,
+      "eval_runtime": 4.8937,
+      "eval_samples_per_second": 204.345,
+      "eval_steps_per_second": 25.543,
+      "step": 3432
+    },
+    {
+      "epoch": 11.22,
+      "learning_rate": 2.0677988460374033e-05,
+      "loss": 0.0236,
+      "step": 3500
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.20294061303138733,
+      "eval_mse": 0.20294061303138733,
+      "eval_runtime": 4.6751,
+      "eval_samples_per_second": 213.901,
+      "eval_steps_per_second": 26.738,
+      "step": 3744
+    },
+    {
+      "epoch": 12.82,
+      "learning_rate": 1.6904632901911617e-05,
+      "loss": 0.0195,
+      "step": 4000
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.21014319360256195,
+      "eval_mse": 0.21014319360256195,
+      "eval_runtime": 4.8248,
+      "eval_samples_per_second": 207.262,
+      "eval_steps_per_second": 25.908,
+      "step": 4056
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.2216099053621292,
+      "eval_mse": 0.2216099053621292,
+      "eval_runtime": 4.7789,
+      "eval_samples_per_second": 209.252,
+      "eval_steps_per_second": 26.157,
+      "step": 4368
+    },
+    {
+      "epoch": 14.42,
+      "learning_rate": 1.3131277343449203e-05,
+      "loss": 0.0156,
+      "step": 4500
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.21098460257053375,
+      "eval_mse": 0.21098460257053375,
+      "eval_runtime": 4.7959,
+      "eval_samples_per_second": 208.509,
+      "eval_steps_per_second": 26.064,
+      "step": 4680
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.21815571188926697,
+      "eval_mse": 0.21815571188926697,
+      "eval_runtime": 4.9214,
+      "eval_samples_per_second": 203.196,
+      "eval_steps_per_second": 25.4,
+      "step": 4992
+    },
+    {
+      "epoch": 16.03,
+      "learning_rate": 9.357921784986788e-06,
+      "loss": 0.0127,
+      "step": 5000
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 0.21420633792877197,
+      "eval_mse": 0.21420633792877197,
+      "eval_runtime": 4.7835,
+      "eval_samples_per_second": 209.054,
+      "eval_steps_per_second": 26.132,
+      "step": 5304
+    },
+    {
+      "epoch": 17.63,
+      "learning_rate": 5.5845662265243735e-06,
+      "loss": 0.0109,
+      "step": 5500
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.2126861810684204,
+      "eval_mse": 0.2126861810684204,
+      "eval_runtime": 4.8516,
+      "eval_samples_per_second": 206.117,
+      "eval_steps_per_second": 25.765,
+      "step": 5616
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.21384698152542114,
+      "eval_mse": 0.21384698152542114,
+      "eval_runtime": 4.9235,
+      "eval_samples_per_second": 203.109,
+      "eval_steps_per_second": 25.389,
+      "step": 5928
+    },
+    {
+      "epoch": 19.23,
+      "learning_rate": 1.8112106680619593e-06,
+      "loss": 0.0094,
+      "step": 6000
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.2143700271844864,
+      "eval_mse": 0.2143700271844864,
+      "eval_runtime": 4.7927,
+      "eval_samples_per_second": 208.649,
+      "eval_steps_per_second": 26.081,
+      "step": 6240
+    },
+    {
+      "epoch": 20.0,
+      "step": 6240,
+      "total_flos": 6577191107414016.0,
+      "train_loss": 0.05834093816005267,
+      "train_runtime": 2383.5567,
+      "train_samples_per_second": 41.954,
+      "train_steps_per_second": 2.618
+    }
+  ],
+  "max_steps": 6240,
+  "num_train_epochs": 20,
+  "total_flos": 6577191107414016.0,
+  "trial_name": null,
+  "trial_params": null
+}