End of training

Browse files

Files changed (6) hide show

all_results.json +13 -13
generated_predictions.txt +0 -0
generation_config.json +0 -1
predict_results.json +8 -8
train_results.json +5 -5
trainer_state.json +114 -12

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
-    "epoch": 10.0,
-    "predict_gen_len": 45.68034889687019,
-    "predict_loss": 2.10367488861084,
-    "predict_rouge1": 31.8781,
-    "predict_rouge2": 14.0329,
-    "predict_rougeL": 27.5321,
-    "predict_rougeLsum": 29.6372,
-    "predict_runtime": 175.8488,
     "predict_samples": 1949,
-    "predict_samples_per_second": 11.083,
     "predict_steps_per_second": 0.347,
-    "train_loss": 2.6604936368203576,
-    "train_runtime": 4208.1526,
     "train_samples": 11044,
-    "train_samples_per_second": 26.244,
-    "train_steps_per_second": 0.411
 }

 {
+    "epoch": 20.0,
+    "predict_gen_len": 45.74653668547973,
+    "predict_loss": 2.085327386856079,
+    "predict_rouge1": 32.5094,
+    "predict_rouge2": 14.5115,
+    "predict_rougeL": 28.0616,
+    "predict_rougeLsum": 30.2293,
+    "predict_runtime": 175.8133,
     "predict_samples": 1949,
+    "predict_samples_per_second": 11.086,
     "predict_steps_per_second": 0.347,
+    "train_loss": 1.2214314234739094,
+    "train_runtime": 4297.3848,
     "train_samples": 11044,
+    "train_samples_per_second": 51.399,
+    "train_steps_per_second": 0.805
 }

generated_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

generation_config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_from_model_config": true,
   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,

 {
   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,

predict_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "predict_gen_len": 45.68034889687019,
-    "predict_loss": 2.10367488861084,
-    "predict_rouge1": 31.8781,
-    "predict_rouge2": 14.0329,
-    "predict_rougeL": 27.5321,
-    "predict_rougeLsum": 29.6372,
-    "predict_runtime": 175.8488,
     "predict_samples": 1949,
-    "predict_samples_per_second": 11.083,
     "predict_steps_per_second": 0.347
 }

 {
+    "predict_gen_len": 45.74653668547973,
+    "predict_loss": 2.085327386856079,
+    "predict_rouge1": 32.5094,
+    "predict_rouge2": 14.5115,
+    "predict_rougeL": 28.0616,
+    "predict_rougeLsum": 30.2293,
+    "predict_runtime": 175.8133,
     "predict_samples": 1949,
+    "predict_samples_per_second": 11.086,
     "predict_steps_per_second": 0.347
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "train_loss": 2.6604936368203576,
-    "train_runtime": 4208.1526,
     "train_samples": 11044,
-    "train_samples_per_second": 26.244,
-    "train_steps_per_second": 0.411
 }

 {
+    "epoch": 20.0,
+    "train_loss": 1.2214314234739094,
+    "train_runtime": 4297.3848,
     "train_samples": 11044,
+    "train_samples_per_second": 51.399,
+    "train_steps_per_second": 0.805
 }

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
-  "global_step": 1730,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -26,18 +26,120 @@
       "step": 1500
     },
     {
-      "epoch": 10.0,
-      "step": 1730,
-      "total_flos": 2.648315673797714e+17,
-      "train_loss": 2.6604936368203576,
-      "train_runtime": 4208.1526,
-      "train_samples_per_second": 26.244,
-      "train_steps_per_second": 0.411
     }
   ],
-  "max_steps": 1730,
-  "num_train_epochs": 10,
-  "total_flos": 2.648315673797714e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.0,
+  "global_step": 3460,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 1500
     },
     {
+      "epoch": 10.4,
+      "learning_rate": 2.3988439306358382e-05,
+      "loss": 2.4779,
+      "step": 1800
+    },
+    {
+      "epoch": 10.98,
+      "learning_rate": 2.254335260115607e-05,
+      "loss": 2.4677,
+      "step": 1900
+    },
+    {
+      "epoch": 11.56,
+      "learning_rate": 2.1098265895953757e-05,
+      "loss": 2.4479,
+      "step": 2000
+    },
+    {
+      "epoch": 12.14,
+      "learning_rate": 1.9653179190751446e-05,
+      "loss": 2.4503,
+      "step": 2100
+    },
+    {
+      "epoch": 12.72,
+      "learning_rate": 1.8208092485549132e-05,
+      "loss": 2.4222,
+      "step": 2200
+    },
+    {
+      "epoch": 13.29,
+      "learning_rate": 1.676300578034682e-05,
+      "loss": 2.4106,
+      "step": 2300
+    },
+    {
+      "epoch": 13.87,
+      "learning_rate": 1.531791907514451e-05,
+      "loss": 2.4054,
+      "step": 2400
+    },
+    {
+      "epoch": 14.45,
+      "learning_rate": 1.3872832369942197e-05,
+      "loss": 2.4101,
+      "step": 2500
+    },
+    {
+      "epoch": 15.03,
+      "learning_rate": 1.2427745664739884e-05,
+      "loss": 2.3919,
+      "step": 2600
+    },
+    {
+      "epoch": 15.61,
+      "learning_rate": 1.0982658959537573e-05,
+      "loss": 2.3841,
+      "step": 2700
+    },
+    {
+      "epoch": 16.18,
+      "learning_rate": 9.53757225433526e-06,
+      "loss": 2.377,
+      "step": 2800
+    },
+    {
+      "epoch": 16.76,
+      "learning_rate": 8.092485549132949e-06,
+      "loss": 2.3716,
+      "step": 2900
+    },
+    {
+      "epoch": 17.34,
+      "learning_rate": 6.647398843930635e-06,
+      "loss": 2.3867,
+      "step": 3000
+    },
+    {
+      "epoch": 17.92,
+      "learning_rate": 5.202312138728324e-06,
+      "loss": 2.3632,
+      "step": 3100
+    },
+    {
+      "epoch": 18.5,
+      "learning_rate": 3.757225433526012e-06,
+      "loss": 2.3578,
+      "step": 3200
+    },
+    {
+      "epoch": 19.08,
+      "learning_rate": 2.3121387283236993e-06,
+      "loss": 2.3616,
+      "step": 3300
+    },
+    {
+      "epoch": 19.65,
+      "learning_rate": 8.670520231213873e-07,
+      "loss": 2.3635,
+      "step": 3400
+    },
+    {
+      "epoch": 20.0,
+      "step": 3460,
+      "total_flos": 5.296559685853962e+17,
+      "train_loss": 1.2214314234739094,
+      "train_runtime": 4297.3848,
+      "train_samples_per_second": 51.399,
+      "train_steps_per_second": 0.805
     }
   ],
+  "max_steps": 3460,
+  "num_train_epochs": 20,
+  "total_flos": 5.296559685853962e+17,
   "trial_name": null,
   "trial_params": null
 }