albertmartinez
/

bert-multilingual-sdg-classification

@@ -1,15 +1,15 @@
 {
-    "epoch": 3.0,
-    "eval_f1": 0.7966137307268389,
-    "eval_loss": 0.6998273134231567,
-    "eval_runtime": 2255.012,
-    "eval_samples": 12908,
-    "eval_samples_per_second": 5.724,
-    "eval_steps_per_second": 0.716,
-    "total_flos": 2.377533515518771e+16,
-    "train_loss": 0.9355160604532273,
-    "train_runtime": 47353.9083,
-    "train_samples": 30117,
-    "train_samples_per_second": 1.908,
-    "train_steps_per_second": 0.06
 }

 {
+    "epoch": 5.0,
+    "eval_f1": 0.8082255356174132,
+    "eval_loss": 0.7049386501312256,
+    "eval_runtime": 258.2262,
+    "eval_samples": 8605,
+    "eval_samples_per_second": 33.324,
+    "eval_steps_per_second": 1.042,
+    "total_flos": 4.52871045169152e+16,
+    "train_loss": 0.6680765201611146,
+    "train_runtime": 28188.6693,
+    "train_samples": 34420,
+    "train_samples_per_second": 6.105,
+    "train_steps_per_second": 0.191
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 3.0,
-    "eval_f1": 0.7966137307268389,
-    "eval_loss": 0.6998273134231567,
-    "eval_runtime": 2255.012,
-    "eval_samples": 12908,
-    "eval_samples_per_second": 5.724,
-    "eval_steps_per_second": 0.716
 }

 {
+    "epoch": 5.0,
+    "eval_f1": 0.8082255356174132,
+    "eval_loss": 0.7049386501312256,
+    "eval_runtime": 258.2262,
+    "eval_samples": 8605,
+    "eval_samples_per_second": 33.324,
+    "eval_steps_per_second": 1.042
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 3.0,
-    "total_flos": 2.377533515518771e+16,
-    "train_loss": 0.9355160604532273,
-    "train_runtime": 47353.9083,
-    "train_samples": 30117,
-    "train_samples_per_second": 1.908,
-    "train_steps_per_second": 0.06
 }

 {
+    "epoch": 5.0,
+    "total_flos": 4.52871045169152e+16,
+    "train_loss": 0.6680765201611146,
+    "train_runtime": 28188.6693,
+    "train_samples": 34420,
+    "train_samples_per_second": 6.105,
+    "train_steps_per_second": 0.191
 }

trainer_state.json CHANGED Viewed

@@ -1,62 +1,107 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
-  "eval_steps": 300.0,
-  "global_step": 2826,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.5307855626326964,
-      "grad_norm": 10.279387474060059,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 1.9545,
-      "step": 500
     },
     {
-      "epoch": 1.0615711252653928,
-      "grad_norm": 7.024175643920898,
-      "learning_rate": 1.6406109613656783e-05,
-      "loss": 0.9557,
-      "step": 1000
     },
     {
-      "epoch": 1.5923566878980893,
-      "grad_norm": 7.754688262939453,
-      "learning_rate": 1.1913746630727763e-05,
-      "loss": 0.7767,
-      "step": 1500
     },
     {
-      "epoch": 2.1231422505307855,
-      "grad_norm": 9.531620979309082,
-      "learning_rate": 7.421383647798742e-06,
-      "loss": 0.6899,
-      "step": 2000
     },
     {
-      "epoch": 2.653927813163482,
-      "grad_norm": 6.811396598815918,
-      "learning_rate": 2.929020664869722e-06,
-      "loss": 0.5649,
-      "step": 2500
     },
     {
       "epoch": 3.0,
-      "step": 2826,
-      "total_flos": 2.377533515518771e+16,
-      "train_loss": 0.9355160604532273,
-      "train_runtime": 47353.9083,
-      "train_samples_per_second": 1.908,
-      "train_steps_per_second": 0.06
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2826,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -70,7 +115,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.377533515518771e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500.0,
+  "global_step": 5380,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "grad_norm": 13.417204856872559,
+      "learning_rate": 1.8008368200836822e-05,
+      "loss": 1.4134,
+      "step": 1076
     },
     {
+      "epoch": 1.0,
+      "eval_f1": 0.7558544457720137,
+      "eval_loss": 0.8534303903579712,
+      "eval_runtime": 268.7511,
+      "eval_samples_per_second": 32.018,
+      "eval_steps_per_second": 1.001,
+      "step": 1076
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 13.140690803527832,
+      "learning_rate": 1.3506276150627616e-05,
+      "loss": 0.7309,
+      "step": 2152
     },
     {
+      "epoch": 2.0,
+      "eval_f1": 0.7933829613883598,
+      "eval_loss": 0.7049058675765991,
+      "eval_runtime": 268.5786,
+      "eval_samples_per_second": 32.039,
+      "eval_steps_per_second": 1.002,
+      "step": 2152
     },
     {
+      "epoch": 3.0,
+      "grad_norm": 8.68571949005127,
+      "learning_rate": 9.004184100418411e-06,
+      "loss": 0.5277,
+      "step": 3228
     },
     {
       "epoch": 3.0,
+      "eval_f1": 0.8081018590927308,
+      "eval_loss": 0.6787558197975159,
+      "eval_runtime": 277.348,
+      "eval_samples_per_second": 31.026,
+      "eval_steps_per_second": 0.97,
+      "step": 3228
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 7.1122260093688965,
+      "learning_rate": 4.5020920502092055e-06,
+      "loss": 0.3819,
+      "step": 4304
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.8077891874826753,
+      "eval_loss": 0.6842708587646484,
+      "eval_runtime": 271.8952,
+      "eval_samples_per_second": 31.648,
+      "eval_steps_per_second": 0.989,
+      "step": 4304
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 10.43897819519043,
+      "learning_rate": 0.0,
+      "loss": 0.2865,
+      "step": 5380
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.8082255356174132,
+      "eval_loss": 0.7049386501312256,
+      "eval_runtime": 260.8665,
+      "eval_samples_per_second": 32.986,
+      "eval_steps_per_second": 1.031,
+      "step": 5380
+    },
+    {
+      "epoch": 5.0,
+      "step": 5380,
+      "total_flos": 4.52871045169152e+16,
+      "train_loss": 0.6680765201611146,
+      "train_runtime": 28188.6693,
+      "train_samples_per_second": 6.105,
+      "train_steps_per_second": 0.191
     }
   ],
   "logging_steps": 500,
+  "max_steps": 5380,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 4.52871045169152e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null