AlekseyKorshuk
/

gpt2-jokes

@@ -1,15 +1,15 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.36584496431695074,
-    "eval_loss": 3.5665595531463623,
-    "eval_runtime": 3.3682,
-    "eval_samples": 266,
-    "eval_samples_per_second": 78.974,
-    "eval_steps_per_second": 2.672,
-    "perplexity": 35.3946101587927,
-    "train_loss": 3.7494896997379352,
-    "train_runtime": 102.1454,
-    "train_samples": 5035,
-    "train_samples_per_second": 49.292,
-    "train_steps_per_second": 1.547
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.8760281609284458,
+    "eval_loss": 0.6851363778114319,
+    "eval_runtime": 15.1077,
+    "eval_samples": 11583,
+    "eval_samples_per_second": 766.695,
+    "eval_steps_per_second": 23.961,
+    "perplexity": 1.9840423964473037,
+    "train_loss": 0.7258401500793972,
+    "train_runtime": 612.7363,
+    "train_samples": 220074,
+    "train_samples_per_second": 359.166,
+    "train_steps_per_second": 11.225
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.36584496431695074,
-    "eval_loss": 3.5665595531463623,
-    "eval_runtime": 3.3682,
-    "eval_samples": 266,
-    "eval_samples_per_second": 78.974,
-    "eval_steps_per_second": 2.672,
-    "perplexity": 35.3946101587927
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.8760281609284458,
+    "eval_loss": 0.6851363778114319,
+    "eval_runtime": 15.1077,
+    "eval_samples": 11583,
+    "eval_samples_per_second": 766.695,
+    "eval_steps_per_second": 23.961,
+    "perplexity": 1.9840423964473037
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 3.7494896997379352,
-    "train_runtime": 102.1454,
-    "train_samples": 5035,
-    "train_samples_per_second": 49.292,
-    "train_steps_per_second": 1.547
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.7258401500793972,
+    "train_runtime": 612.7363,
+    "train_samples": 220074,
+    "train_samples_per_second": 359.166,
+    "train_steps_per_second": 11.225
 }

trainer_state.json CHANGED Viewed

@@ -2,24 +2,102 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 1.0,
-  "global_step": 158,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "step": 158,
-      "total_flos": 2631733425995776.0,
-      "train_loss": 3.7494896997379352,
-      "train_runtime": 102.1454,
-      "train_samples_per_second": 49.292,
-      "train_steps_per_second": 1.547
     }
   ],
-  "max_steps": 158,
   "num_train_epochs": 1,
-  "total_flos": 2631733425995776.0,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 1.0,
+  "global_step": 6878,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.636522244838616e-05,
+      "loss": 0.8273,
+      "step": 500
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.273044489677232e-05,
+      "loss": 0.7505,
+      "step": 1000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 3.9095667345158474e-05,
+      "loss": 0.7387,
+      "step": 1500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 3.546088979354464e-05,
+      "loss": 0.7288,
+      "step": 2000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 3.1826112241930793e-05,
+      "loss": 0.7288,
+      "step": 2500
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 2.8191334690316956e-05,
+      "loss": 0.7138,
+      "step": 3000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.4556557138703113e-05,
+      "loss": 0.7155,
+      "step": 3500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.0921779587089272e-05,
+      "loss": 0.7102,
+      "step": 4000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.728700203547543e-05,
+      "loss": 0.7133,
+      "step": 4500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.365222448386159e-05,
+      "loss": 0.7119,
+      "step": 5000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.0017446932247747e-05,
+      "loss": 0.7091,
+      "step": 5500
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.382669380633906e-06,
+      "loss": 0.7014,
+      "step": 6000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.747891829020064e-06,
+      "loss": 0.7087,
+      "step": 6500
+    },
     {
       "epoch": 1.0,
+      "step": 6878,
+      "total_flos": 1.3252899316432896e+16,
+      "train_loss": 0.7258401500793972,
+      "train_runtime": 612.7363,
+      "train_samples_per_second": 359.166,
+      "train_steps_per_second": 11.225
     }
   ],
+  "max_steps": 6878,
   "num_train_epochs": 1,
+  "total_flos": 1.3252899316432896e+16,
   "trial_name": null,
   "trial_params": null
 }