End of training

Files changed (5) hide show

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 0.7679501651406831,
-    "eval_loss": 0.7943122386932373,
-    "eval_runtime": 7.2439,
-    "eval_samples": 469,
-    "eval_samples_per_second": 64.744,
-    "eval_steps_per_second": 16.29,
-    "perplexity": 2.2129185135829017,
-    "train_loss": 0.8620750466894024,
-    "train_runtime": 287.9872,
-    "train_samples": 1794,
-    "train_samples_per_second": 18.688,
-    "train_steps_per_second": 4.677
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.8116554844749571,
+    "eval_loss": 0.6323513984680176,
+    "eval_runtime": 23.456,
+    "eval_samples": 1508,
+    "eval_samples_per_second": 64.291,
+    "eval_steps_per_second": 16.073,
+    "perplexity": 1.8820307846994662,
+    "train_loss": 0.6928272205209627,
+    "train_runtime": 684.2817,
+    "train_samples": 4226,
+    "train_samples_per_second": 18.527,
+    "train_steps_per_second": 4.634
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 0.7679501651406831,
-    "eval_loss": 0.7943122386932373,
-    "eval_runtime": 7.2439,
-    "eval_samples": 469,
-    "eval_samples_per_second": 64.744,
-    "eval_steps_per_second": 16.29,
-    "perplexity": 2.2129185135829017
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.8116554844749571,
+    "eval_loss": 0.6323513984680176,
+    "eval_runtime": 23.456,
+    "eval_samples": 1508,
+    "eval_samples_per_second": 64.291,
+    "eval_steps_per_second": 16.073,
+    "perplexity": 1.8820307846994662
 }

runs/Aug14_18-45-40_409033645ffb/events.out.tfevents.1660503921.409033645ffb.237.2 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dd5d5d2248ce8afdfdbd900737df8ea408e37750bb160056a92413b93b8bbeb
+size 363

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.8620750466894024,
-    "train_runtime": 287.9872,
-    "train_samples": 1794,
-    "train_samples_per_second": 18.688,
-    "train_steps_per_second": 4.677
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.6928272205209627,
+    "train_runtime": 684.2817,
+    "train_samples": 4226,
+    "train_samples_per_second": 18.527,
+    "train_steps_per_second": 4.634
 }

trainer_state.json CHANGED Viewed

@@ -2,36 +2,60 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 3.0,
-  "global_step": 1347,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.11,
-      "learning_rate": 3.144023756495917e-05,
-      "loss": 0.988,
       "step": 500
     },
     {
-      "epoch": 2.23,
-      "learning_rate": 1.2880475129918337e-05,
-      "loss": 0.7995,
       "step": 1000
     },
     {
       "epoch": 3.0,
-      "step": 1347,
-      "total_flos": 351574777921536.0,
-      "train_loss": 0.8620750466894024,
-      "train_runtime": 287.9872,
-      "train_samples_per_second": 18.688,
-      "train_steps_per_second": 4.677
     }
   ],
-  "max_steps": 1347,
   "num_train_epochs": 3,
-  "total_flos": 351574777921536.0,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 3.0,
+  "global_step": 3171,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.47,
+      "learning_rate": 4.211605171870073e-05,
+      "loss": 0.8922,
       "step": 500
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 3.423210343740145e-05,
+      "loss": 0.7122,
       "step": 1000
     },
+    {
+      "epoch": 1.42,
+      "learning_rate": 2.634815515610218e-05,
+      "loss": 0.6706,
+      "step": 1500
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 1.8464206874802904e-05,
+      "loss": 0.648,
+      "step": 2000
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 1.0580258593503627e-05,
+      "loss": 0.6318,
+      "step": 2500
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 2.6963103122043523e-06,
+      "loss": 0.6272,
+      "step": 3000
+    },
     {
       "epoch": 3.0,
+      "step": 3171,
+      "total_flos": 828180051001344.0,
+      "train_loss": 0.6928272205209627,
+      "train_runtime": 684.2817,
+      "train_samples_per_second": 18.527,
+      "train_steps_per_second": 4.634
     }
   ],
+  "max_steps": 3171,
   "num_train_epochs": 3,
+  "total_flos": 828180051001344.0,
   "trial_name": null,
   "trial_params": null
 }