End of training

Browse files

Files changed (5) hide show

README.md +14 -2
all_results.json +14 -14
eval_results.json +10 -10
train_results.json +5 -5
trainer_state.json +596 -194

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: apache-2.0
 base_model: google-t5/t5-small
 tags:
 - generated_from_trainer
 metrics:
 - rouge
 model-index:
 - name: pep_summarization
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,7 +27,7 @@ should probably proofread and complete it, then remove this comment. -->
 # pep_summarization
-This model is a fine-tuned version of [google-t5/t5-small](https://huggingface.co/google-t5/t5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0459
 - Rouge1: 87.1522

 base_model: google-t5/t5-small
 tags:
 - generated_from_trainer
+datasets:
+- fedora-copr/pep-sum
 metrics:
 - rouge
 model-index:
 - name: pep_summarization
+  results:
+  - task:
+      name: Summarization
+      type: summarization
+    dataset:
+      name: fedora-copr/pep-sum
+      type: fedora-copr/pep-sum
+    metrics:
+    - name: Rouge1
+      type: rouge
+      value: 87.1522
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # pep_summarization
+This model is a fine-tuned version of [google-t5/t5-small](https://huggingface.co/google-t5/t5-small) on the fedora-copr/pep-sum dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0459
 - Rouge1: 87.1522

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
-    "epoch": 20.0,
-    "eval_gen_len": 67.08695652173913,
-    "eval_loss": 0.07390377670526505,
-    "eval_rouge1": 83.9415,
-    "eval_rouge2": 83.3937,
-    "eval_rougeL": 84.0648,
-    "eval_rougeLsum": 84.0055,
-    "eval_runtime": 3.0684,
     "eval_samples": 69,
-    "eval_samples_per_second": 22.487,
-    "eval_steps_per_second": 2.933,
-    "train_loss": 0.1759471893310547,
-    "train_runtime": 142.9885,
     "train_samples": 276,
-    "train_samples_per_second": 38.604,
-    "train_steps_per_second": 4.895
 }

 {
+    "epoch": 50.0,
+    "eval_gen_len": 68.34782608695652,
+    "eval_loss": 0.04586370289325714,
+    "eval_rouge1": 87.1522,
+    "eval_rouge2": 86.6031,
+    "eval_rougeL": 87.1206,
+    "eval_rougeLsum": 87.0701,
+    "eval_runtime": 3.3714,
     "eval_samples": 69,
+    "eval_samples_per_second": 20.467,
+    "eval_steps_per_second": 2.67,
+    "train_loss": 0.08541564777919225,
+    "train_runtime": 358.6661,
     "train_samples": 276,
+    "train_samples_per_second": 38.476,
+    "train_steps_per_second": 4.879
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 20.0,
-    "eval_gen_len": 67.08695652173913,
-    "eval_loss": 0.07390377670526505,
-    "eval_rouge1": 83.9415,
-    "eval_rouge2": 83.3937,
-    "eval_rougeL": 84.0648,
-    "eval_rougeLsum": 84.0055,
-    "eval_runtime": 3.0684,
     "eval_samples": 69,
-    "eval_samples_per_second": 22.487,
-    "eval_steps_per_second": 2.933
 }

 {
+    "epoch": 50.0,
+    "eval_gen_len": 68.34782608695652,
+    "eval_loss": 0.04586370289325714,
+    "eval_rouge1": 87.1522,
+    "eval_rouge2": 86.6031,
+    "eval_rougeL": 87.1206,
+    "eval_rougeLsum": 87.0701,
+    "eval_runtime": 3.3714,
     "eval_samples": 69,
+    "eval_samples_per_second": 20.467,
+    "eval_steps_per_second": 2.67
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 20.0,
-    "train_loss": 0.1759471893310547,
-    "train_runtime": 142.9885,
     "train_samples": 276,
-    "train_samples_per_second": 38.604,
-    "train_steps_per_second": 4.895
 }

 {
+    "epoch": 50.0,
+    "train_loss": 0.08541564777919225,
+    "train_runtime": 358.6661,
     "train_samples": 276,
+    "train_samples_per_second": 38.476,
+    "train_steps_per_second": 4.879
 }

trainer_state.json CHANGED Viewed

@@ -1,295 +1,697 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_gen_len": 81.30434782608695,
-      "eval_loss": 0.4793303906917572,
-      "eval_rouge1": 53.6231,
-      "eval_rouge2": 44.4209,
-      "eval_rougeL": 49.0707,
-      "eval_rougeLsum": 51.5197,
-      "eval_runtime": 3.1743,
-      "eval_samples_per_second": 21.737,
-      "eval_steps_per_second": 2.835,
       "step": 35
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 66.68115942028986,
-      "eval_loss": 0.2904551923274994,
-      "eval_rouge1": 62.9386,
-      "eval_rouge2": 57.5356,
-      "eval_rougeL": 60.385,
-      "eval_rougeLsum": 61.6177,
-      "eval_runtime": 2.9628,
-      "eval_samples_per_second": 23.289,
-      "eval_steps_per_second": 3.038,
       "step": 70
     },
     {
       "epoch": 3.0,
-      "eval_gen_len": 62.028985507246375,
-      "eval_loss": 0.22017963230609894,
-      "eval_rouge1": 64.16,
-      "eval_rouge2": 60.1179,
-      "eval_rougeL": 62.5159,
-      "eval_rougeLsum": 63.4504,
-      "eval_runtime": 2.9458,
-      "eval_samples_per_second": 23.423,
-      "eval_steps_per_second": 3.055,
       "step": 105
     },
     {
       "epoch": 4.0,
-      "eval_gen_len": 63.79710144927536,
-      "eval_loss": 0.18573065102100372,
-      "eval_rouge1": 68.0771,
-      "eval_rouge2": 64.1938,
-      "eval_rougeL": 66.2172,
-      "eval_rougeLsum": 67.4379,
-      "eval_runtime": 2.8038,
-      "eval_samples_per_second": 24.609,
-      "eval_steps_per_second": 3.21,
       "step": 140
     },
     {
       "epoch": 5.0,
-      "eval_gen_len": 60.36231884057971,
-      "eval_loss": 0.16388797760009766,
-      "eval_rouge1": 72.5114,
-      "eval_rouge2": 69.7863,
-      "eval_rougeL": 71.3965,
-      "eval_rougeLsum": 71.7778,
-      "eval_runtime": 2.8796,
-      "eval_samples_per_second": 23.961,
-      "eval_steps_per_second": 3.125,
       "step": 175
     },
     {
       "epoch": 6.0,
-      "eval_gen_len": 64.05797101449275,
-      "eval_loss": 0.14642906188964844,
-      "eval_rouge1": 75.0133,
-      "eval_rouge2": 73.3835,
-      "eval_rougeL": 74.5891,
-      "eval_rougeLsum": 74.5624,
-      "eval_runtime": 3.1388,
-      "eval_samples_per_second": 21.983,
-      "eval_steps_per_second": 2.867,
       "step": 210
     },
     {
       "epoch": 7.0,
-      "eval_gen_len": 64.85507246376811,
-      "eval_loss": 0.13372762501239777,
-      "eval_rouge1": 76.8715,
-      "eval_rouge2": 75.6755,
-      "eval_rougeL": 76.8114,
-      "eval_rougeLsum": 76.6515,
-      "eval_runtime": 3.0949,
-      "eval_samples_per_second": 22.295,
-      "eval_steps_per_second": 2.908,
       "step": 245
     },
     {
       "epoch": 8.0,
-      "eval_gen_len": 66.3768115942029,
-      "eval_loss": 0.1221652403473854,
-      "eval_rouge1": 79.3923,
-      "eval_rouge2": 78.5756,
-      "eval_rougeL": 79.2249,
-      "eval_rougeLsum": 79.3579,
-      "eval_runtime": 3.0252,
-      "eval_samples_per_second": 22.808,
-      "eval_steps_per_second": 2.975,
       "step": 280
     },
     {
       "epoch": 9.0,
-      "eval_gen_len": 65.53623188405797,
-      "eval_loss": 0.11279460042715073,
-      "eval_rouge1": 81.6449,
-      "eval_rouge2": 81.0708,
-      "eval_rougeL": 81.7166,
-      "eval_rougeLsum": 81.4895,
-      "eval_runtime": 2.8183,
-      "eval_samples_per_second": 24.482,
-      "eval_steps_per_second": 3.193,
       "step": 315
     },
     {
       "epoch": 10.0,
-      "eval_gen_len": 63.88405797101449,
-      "eval_loss": 0.10504022985696793,
-      "eval_rouge1": 83.4877,
-      "eval_rouge2": 83.0142,
-      "eval_rougeL": 83.6498,
-      "eval_rougeLsum": 83.5732,
-      "eval_runtime": 3.1321,
-      "eval_samples_per_second": 22.03,
-      "eval_steps_per_second": 2.874,
       "step": 350
     },
     {
       "epoch": 11.0,
-      "eval_gen_len": 65.92753623188406,
-      "eval_loss": 0.09819629788398743,
-      "eval_rouge1": 83.1207,
-      "eval_rouge2": 82.583,
-      "eval_rougeL": 83.2399,
-      "eval_rougeLsum": 83.09,
-      "eval_runtime": 3.0914,
-      "eval_samples_per_second": 22.32,
-      "eval_steps_per_second": 2.911,
       "step": 385
     },
     {
       "epoch": 12.0,
-      "eval_gen_len": 64.43478260869566,
-      "eval_loss": 0.09112720936536789,
-      "eval_rouge1": 83.9059,
-      "eval_rouge2": 83.3589,
-      "eval_rougeL": 84.0599,
-      "eval_rougeLsum": 83.9385,
-      "eval_runtime": 2.9617,
-      "eval_samples_per_second": 23.298,
-      "eval_steps_per_second": 3.039,
       "step": 420
     },
     {
       "epoch": 13.0,
-      "eval_gen_len": 66.82608695652173,
-      "eval_loss": 0.08676959574222565,
-      "eval_rouge1": 83.9578,
-      "eval_rouge2": 83.425,
-      "eval_rougeL": 84.1007,
-      "eval_rougeLsum": 84.0404,
-      "eval_runtime": 3.0066,
-      "eval_samples_per_second": 22.949,
-      "eval_steps_per_second": 2.993,
       "step": 455
     },
     {
       "epoch": 14.0,
-      "eval_gen_len": 66.82608695652173,
-      "eval_loss": 0.08292272686958313,
-      "eval_rouge1": 83.9578,
-      "eval_rouge2": 83.425,
-      "eval_rougeL": 84.1007,
-      "eval_rougeLsum": 84.0404,
-      "eval_runtime": 3.2002,
-      "eval_samples_per_second": 21.561,
-      "eval_steps_per_second": 2.812,
       "step": 490
     },
     {
       "epoch": 14.29,
-      "learning_rate": 5.7142857142857145e-06,
-      "loss": 0.2115,
       "step": 500
     },
     {
       "epoch": 15.0,
-      "eval_gen_len": 66.84057971014492,
-      "eval_loss": 0.0795898288488388,
-      "eval_rouge1": 83.9594,
-      "eval_rouge2": 83.4287,
-      "eval_rougeL": 84.1054,
-      "eval_rougeLsum": 84.0427,
-      "eval_runtime": 3.1795,
-      "eval_samples_per_second": 21.701,
-      "eval_steps_per_second": 2.831,
       "step": 525
     },
     {
       "epoch": 16.0,
-      "eval_gen_len": 67.1159420289855,
-      "eval_loss": 0.0777181014418602,
-      "eval_rouge1": 83.7657,
-      "eval_rouge2": 83.2066,
-      "eval_rougeL": 83.9053,
-      "eval_rougeLsum": 83.8554,
-      "eval_runtime": 3.1843,
-      "eval_samples_per_second": 21.669,
-      "eval_steps_per_second": 2.826,
       "step": 560
     },
     {
       "epoch": 17.0,
-      "eval_gen_len": 67.08695652173913,
-      "eval_loss": 0.07602674514055252,
-      "eval_rouge1": 83.9415,
-      "eval_rouge2": 83.3937,
-      "eval_rougeL": 84.0648,
-      "eval_rougeLsum": 84.0055,
-      "eval_runtime": 3.2183,
-      "eval_samples_per_second": 21.44,
-      "eval_steps_per_second": 2.797,
       "step": 595
     },
     {
       "epoch": 18.0,
-      "eval_gen_len": 67.08695652173913,
-      "eval_loss": 0.07477501034736633,
-      "eval_rouge1": 83.9415,
-      "eval_rouge2": 83.3937,
-      "eval_rougeL": 84.0648,
-      "eval_rougeLsum": 84.0055,
-      "eval_runtime": 3.2689,
-      "eval_samples_per_second": 21.108,
-      "eval_steps_per_second": 2.753,
       "step": 630
     },
     {
       "epoch": 19.0,
-      "eval_gen_len": 67.08695652173913,
-      "eval_loss": 0.07416118681430817,
-      "eval_rouge1": 83.9415,
-      "eval_rouge2": 83.3937,
-      "eval_rougeL": 84.0648,
-      "eval_rougeLsum": 84.0055,
-      "eval_runtime": 3.1956,
-      "eval_samples_per_second": 21.592,
-      "eval_steps_per_second": 2.816,
       "step": 665
     },
     {
       "epoch": 20.0,
-      "eval_gen_len": 67.08695652173913,
-      "eval_loss": 0.07390377670526505,
-      "eval_rouge1": 83.9415,
-      "eval_rouge2": 83.3937,
-      "eval_rougeL": 84.0648,
-      "eval_rougeLsum": 84.0055,
-      "eval_runtime": 3.2574,
-      "eval_samples_per_second": 21.183,
-      "eval_steps_per_second": 2.763,
       "step": 700
     },
     {
-      "epoch": 20.0,
-      "step": 700,
-      "total_flos": 1494173488250880.0,
-      "train_loss": 0.1759471893310547,
-      "train_runtime": 142.9885,
-      "train_samples_per_second": 38.604,
-      "train_steps_per_second": 4.895
     }
   ],
   "logging_steps": 500,
-  "max_steps": 700,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
   "save_steps": 500,
-  "total_flos": 1494173488250880.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 50.0,
   "eval_steps": 500,
+  "global_step": 1750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_gen_len": 81.21739130434783,
+      "eval_loss": 0.4761563539505005,
+      "eval_rouge1": 53.8677,
+      "eval_rouge2": 44.8002,
+      "eval_rougeL": 49.2937,
+      "eval_rougeLsum": 51.8392,
+      "eval_runtime": 3.1021,
+      "eval_samples_per_second": 22.243,
+      "eval_steps_per_second": 2.901,
       "step": 35
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 66.27536231884058,
+      "eval_loss": 0.28426334261894226,
+      "eval_rouge1": 63.6062,
+      "eval_rouge2": 58.4113,
+      "eval_rougeL": 61.1896,
+      "eval_rougeLsum": 62.3844,
+      "eval_runtime": 2.9392,
+      "eval_samples_per_second": 23.476,
+      "eval_steps_per_second": 3.062,
       "step": 70
     },
     {
       "epoch": 3.0,
+      "eval_gen_len": 61.20289855072464,
+      "eval_loss": 0.21173293888568878,
+      "eval_rouge1": 64.8696,
+      "eval_rouge2": 60.8866,
+      "eval_rougeL": 63.1615,
+      "eval_rougeLsum": 64.2496,
+      "eval_runtime": 2.8249,
+      "eval_samples_per_second": 24.425,
+      "eval_steps_per_second": 3.186,
       "step": 105
     },
     {
       "epoch": 4.0,
+      "eval_gen_len": 62.82608695652174,
+      "eval_loss": 0.17675279080867767,
+      "eval_rouge1": 70.8455,
+      "eval_rouge2": 67.8574,
+      "eval_rougeL": 69.4736,
+      "eval_rougeLsum": 70.0874,
+      "eval_runtime": 2.7232,
+      "eval_samples_per_second": 25.338,
+      "eval_steps_per_second": 3.305,
       "step": 140
     },
     {
       "epoch": 5.0,
+      "eval_gen_len": 61.46376811594203,
+      "eval_loss": 0.15457534790039062,
+      "eval_rouge1": 74.0309,
+      "eval_rouge2": 71.9404,
+      "eval_rougeL": 73.3747,
+      "eval_rougeLsum": 73.5531,
+      "eval_runtime": 2.77,
+      "eval_samples_per_second": 24.91,
+      "eval_steps_per_second": 3.249,
       "step": 175
     },
     {
       "epoch": 6.0,
+      "eval_gen_len": 63.0,
+      "eval_loss": 0.13463033735752106,
+      "eval_rouge1": 77.1153,
+      "eval_rouge2": 75.713,
+      "eval_rougeL": 77.0396,
+      "eval_rougeLsum": 76.815,
+      "eval_runtime": 2.9058,
+      "eval_samples_per_second": 23.745,
+      "eval_steps_per_second": 3.097,
       "step": 210
     },
     {
       "epoch": 7.0,
+      "eval_gen_len": 65.55072463768116,
+      "eval_loss": 0.12134861946105957,
+      "eval_rouge1": 80.2369,
+      "eval_rouge2": 79.6485,
+      "eval_rougeL": 80.4178,
+      "eval_rougeLsum": 80.1986,
+      "eval_runtime": 2.934,
+      "eval_samples_per_second": 23.517,
+      "eval_steps_per_second": 3.067,
       "step": 245
     },
     {
       "epoch": 8.0,
+      "eval_gen_len": 65.23188405797102,
+      "eval_loss": 0.10570676624774933,
+      "eval_rouge1": 82.3014,
+      "eval_rouge2": 81.6093,
+      "eval_rougeL": 82.3372,
+      "eval_rougeLsum": 82.1797,
+      "eval_runtime": 2.7932,
+      "eval_samples_per_second": 24.703,
+      "eval_steps_per_second": 3.222,
       "step": 280
     },
     {
       "epoch": 9.0,
+      "eval_gen_len": 66.08695652173913,
+      "eval_loss": 0.09365525096654892,
+      "eval_rouge1": 83.5682,
+      "eval_rouge2": 82.9738,
+      "eval_rougeL": 83.6388,
+      "eval_rougeLsum": 83.5486,
+      "eval_runtime": 2.9365,
+      "eval_samples_per_second": 23.497,
+      "eval_steps_per_second": 3.065,
       "step": 315
     },
     {
       "epoch": 10.0,
+      "eval_gen_len": 66.08695652173913,
+      "eval_loss": 0.08428314328193665,
+      "eval_rouge1": 83.5735,
+      "eval_rouge2": 82.9779,
+      "eval_rougeL": 83.6425,
+      "eval_rougeLsum": 83.5533,
+      "eval_runtime": 2.9255,
+      "eval_samples_per_second": 23.586,
+      "eval_steps_per_second": 3.076,
       "step": 350
     },
     {
       "epoch": 11.0,
+      "eval_gen_len": 67.69565217391305,
+      "eval_loss": 0.07632659375667572,
+      "eval_rouge1": 83.5502,
+      "eval_rouge2": 83.0151,
+      "eval_rougeL": 83.7004,
+      "eval_rougeLsum": 83.6188,
+      "eval_runtime": 3.0282,
+      "eval_samples_per_second": 22.786,
+      "eval_steps_per_second": 2.972,
       "step": 385
     },
     {
       "epoch": 12.0,
+      "eval_gen_len": 65.6086956521739,
+      "eval_loss": 0.06880246102809906,
+      "eval_rouge1": 83.8612,
+      "eval_rouge2": 83.4112,
+      "eval_rougeL": 84.0555,
+      "eval_rougeLsum": 83.8541,
+      "eval_runtime": 2.9936,
+      "eval_samples_per_second": 23.049,
+      "eval_steps_per_second": 3.006,
       "step": 420
     },
     {
       "epoch": 13.0,
+      "eval_gen_len": 68.4927536231884,
+      "eval_loss": 0.0652654618024826,
+      "eval_rouge1": 83.2559,
+      "eval_rouge2": 82.7398,
+      "eval_rougeL": 83.437,
+      "eval_rougeLsum": 83.3363,
+      "eval_runtime": 3.0469,
+      "eval_samples_per_second": 22.646,
+      "eval_steps_per_second": 2.954,
       "step": 455
     },
     {
       "epoch": 14.0,
+      "eval_gen_len": 67.76811594202898,
+      "eval_loss": 0.06127766892313957,
+      "eval_rouge1": 84.2407,
+      "eval_rouge2": 83.738,
+      "eval_rougeL": 84.3104,
+      "eval_rougeLsum": 84.3012,
+      "eval_runtime": 3.1021,
+      "eval_samples_per_second": 22.243,
+      "eval_steps_per_second": 2.901,
       "step": 490
     },
     {
       "epoch": 14.29,
+      "learning_rate": 1.4285714285714287e-05,
+      "loss": 0.1963,
       "step": 500
     },
     {
       "epoch": 15.0,
+      "eval_gen_len": 68.55072463768116,
+      "eval_loss": 0.05842842161655426,
+      "eval_rouge1": 83.8361,
+      "eval_rouge2": 83.3141,
+      "eval_rougeL": 83.8976,
+      "eval_rougeLsum": 83.8751,
+      "eval_runtime": 3.2109,
+      "eval_samples_per_second": 21.489,
+      "eval_steps_per_second": 2.803,
       "step": 525
     },
     {
       "epoch": 16.0,
+      "eval_gen_len": 71.4927536231884,
+      "eval_loss": 0.05631176754832268,
+      "eval_rouge1": 83.5952,
+      "eval_rouge2": 83.1416,
+      "eval_rougeL": 83.5644,
+      "eval_rougeLsum": 83.5389,
+      "eval_runtime": 3.2752,
+      "eval_samples_per_second": 21.067,
+      "eval_steps_per_second": 2.748,
       "step": 560
     },
     {
       "epoch": 17.0,
+      "eval_gen_len": 69.47826086956522,
+      "eval_loss": 0.05389421060681343,
+      "eval_rouge1": 84.6048,
+      "eval_rouge2": 84.1681,
+      "eval_rougeL": 84.7325,
+      "eval_rougeLsum": 84.567,
+      "eval_runtime": 3.2569,
+      "eval_samples_per_second": 21.186,
+      "eval_steps_per_second": 2.763,
       "step": 595
     },
     {
       "epoch": 18.0,
+      "eval_gen_len": 68.72463768115942,
+      "eval_loss": 0.052007660269737244,
+      "eval_rouge1": 84.9204,
+      "eval_rouge2": 84.4493,
+      "eval_rougeL": 85.0357,
+      "eval_rougeLsum": 84.9063,
+      "eval_runtime": 3.1538,
+      "eval_samples_per_second": 21.879,
+      "eval_steps_per_second": 2.854,
       "step": 630
     },
     {
       "epoch": 19.0,
+      "eval_gen_len": 69.79710144927536,
+      "eval_loss": 0.051409389823675156,
+      "eval_rouge1": 84.3924,
+      "eval_rouge2": 83.9735,
+      "eval_rougeL": 84.4126,
+      "eval_rougeLsum": 84.3779,
+      "eval_runtime": 3.2185,
+      "eval_samples_per_second": 21.438,
+      "eval_steps_per_second": 2.796,
       "step": 665
     },
     {
       "epoch": 20.0,
+      "eval_gen_len": 67.23188405797102,
+      "eval_loss": 0.050410542637109756,
+      "eval_rouge1": 86.1503,
+      "eval_rouge2": 85.6151,
+      "eval_rougeL": 86.2393,
+      "eval_rougeLsum": 86.0495,
+      "eval_runtime": 3.144,
+      "eval_samples_per_second": 21.947,
+      "eval_steps_per_second": 2.863,
       "step": 700
     },
     {
+      "epoch": 21.0,
+      "eval_gen_len": 66.52173913043478,
+      "eval_loss": 0.04962162673473358,
+      "eval_rouge1": 86.4875,
+      "eval_rouge2": 85.9614,
+      "eval_rougeL": 86.5042,
+      "eval_rougeLsum": 86.3616,
+      "eval_runtime": 3.1455,
+      "eval_samples_per_second": 21.936,
+      "eval_steps_per_second": 2.861,
+      "step": 735
+    },
+    {
+      "epoch": 22.0,
+      "eval_gen_len": 67.94202898550725,
+      "eval_loss": 0.04964025691151619,
+      "eval_rouge1": 85.6339,
+      "eval_rouge2": 85.1604,
+      "eval_rougeL": 85.6862,
+      "eval_rougeLsum": 85.5112,
+      "eval_runtime": 3.1386,
+      "eval_samples_per_second": 21.984,
+      "eval_steps_per_second": 2.868,
+      "step": 770
+    },
+    {
+      "epoch": 23.0,
+      "eval_gen_len": 65.52173913043478,
+      "eval_loss": 0.04901711642742157,
+      "eval_rouge1": 87.0368,
+      "eval_rouge2": 86.5415,
+      "eval_rougeL": 87.1099,
+      "eval_rougeLsum": 86.9317,
+      "eval_runtime": 3.1705,
+      "eval_samples_per_second": 21.763,
+      "eval_steps_per_second": 2.839,
+      "step": 805
+    },
+    {
+      "epoch": 24.0,
+      "eval_gen_len": 67.94202898550725,
+      "eval_loss": 0.04925404489040375,
+      "eval_rouge1": 85.6323,
+      "eval_rouge2": 85.1577,
+      "eval_rougeL": 85.6823,
+      "eval_rougeLsum": 85.5102,
+      "eval_runtime": 3.1481,
+      "eval_samples_per_second": 21.918,
+      "eval_steps_per_second": 2.859,
+      "step": 840
+    },
+    {
+      "epoch": 25.0,
+      "eval_gen_len": 69.04347826086956,
+      "eval_loss": 0.049253568053245544,
+      "eval_rouge1": 86.3078,
+      "eval_rouge2": 85.7832,
+      "eval_rougeL": 86.3026,
+      "eval_rougeLsum": 86.1442,
+      "eval_runtime": 3.2721,
+      "eval_samples_per_second": 21.087,
+      "eval_steps_per_second": 2.751,
+      "step": 875
+    },
+    {
+      "epoch": 26.0,
+      "eval_gen_len": 70.28985507246377,
+      "eval_loss": 0.04901302605867386,
+      "eval_rouge1": 85.877,
+      "eval_rouge2": 85.3534,
+      "eval_rougeL": 85.9035,
+      "eval_rougeLsum": 85.8208,
+      "eval_runtime": 3.3048,
+      "eval_samples_per_second": 20.879,
+      "eval_steps_per_second": 2.723,
+      "step": 910
+    },
+    {
+      "epoch": 27.0,
+      "eval_gen_len": 69.2463768115942,
+      "eval_loss": 0.04779437184333801,
+      "eval_rouge1": 86.6353,
+      "eval_rouge2": 86.054,
+      "eval_rougeL": 86.5856,
+      "eval_rougeLsum": 86.5515,
+      "eval_runtime": 3.295,
+      "eval_samples_per_second": 20.941,
+      "eval_steps_per_second": 2.731,
+      "step": 945
+    },
+    {
+      "epoch": 28.0,
+      "eval_gen_len": 68.56521739130434,
+      "eval_loss": 0.047761447727680206,
+      "eval_rouge1": 87.0975,
+      "eval_rouge2": 86.5716,
+      "eval_rougeL": 87.1452,
+      "eval_rougeLsum": 87.0713,
+      "eval_runtime": 3.2938,
+      "eval_samples_per_second": 20.948,
+      "eval_steps_per_second": 2.732,
+      "step": 980
+    },
+    {
+      "epoch": 28.57,
+      "learning_rate": 8.571428571428571e-06,
+      "loss": 0.0499,
+      "step": 1000
+    },
+    {
+      "epoch": 29.0,
+      "eval_gen_len": 67.0,
+      "eval_loss": 0.04680383577942848,
+      "eval_rouge1": 87.9989,
+      "eval_rouge2": 87.509,
+      "eval_rougeL": 88.0597,
+      "eval_rougeLsum": 87.9458,
+      "eval_runtime": 3.282,
+      "eval_samples_per_second": 21.024,
+      "eval_steps_per_second": 2.742,
+      "step": 1015
+    },
+    {
+      "epoch": 30.0,
+      "eval_gen_len": 69.1304347826087,
+      "eval_loss": 0.046802520751953125,
+      "eval_rouge1": 86.6642,
+      "eval_rouge2": 86.1007,
+      "eval_rougeL": 86.6429,
+      "eval_rougeLsum": 86.582,
+      "eval_runtime": 3.306,
+      "eval_samples_per_second": 20.871,
+      "eval_steps_per_second": 2.722,
+      "step": 1050
+    },
+    {
+      "epoch": 31.0,
+      "eval_gen_len": 69.30434782608695,
+      "eval_loss": 0.04671892151236534,
+      "eval_rouge1": 86.3475,
+      "eval_rouge2": 85.7566,
+      "eval_rougeL": 86.257,
+      "eval_rougeLsum": 86.2544,
+      "eval_runtime": 3.2952,
+      "eval_samples_per_second": 20.94,
+      "eval_steps_per_second": 2.731,
+      "step": 1085
+    },
+    {
+      "epoch": 32.0,
+      "eval_gen_len": 69.14492753623189,
+      "eval_loss": 0.046326328068971634,
+      "eval_rouge1": 86.6794,
+      "eval_rouge2": 86.1044,
+      "eval_rougeL": 86.6438,
+      "eval_rougeLsum": 86.5856,
+      "eval_runtime": 3.3092,
+      "eval_samples_per_second": 20.851,
+      "eval_steps_per_second": 2.72,
+      "step": 1120
+    },
+    {
+      "epoch": 33.0,
+      "eval_gen_len": 69.14492753623189,
+      "eval_loss": 0.0462319478392601,
+      "eval_rouge1": 86.6794,
+      "eval_rouge2": 86.1044,
+      "eval_rougeL": 86.6438,
+      "eval_rougeLsum": 86.5856,
+      "eval_runtime": 3.2895,
+      "eval_samples_per_second": 20.976,
+      "eval_steps_per_second": 2.736,
+      "step": 1155
+    },
+    {
+      "epoch": 34.0,
+      "eval_gen_len": 68.46376811594203,
+      "eval_loss": 0.04606299102306366,
+      "eval_rouge1": 87.1151,
+      "eval_rouge2": 86.605,
+      "eval_rougeL": 87.1857,
+      "eval_rougeLsum": 87.1151,
+      "eval_runtime": 3.2939,
+      "eval_samples_per_second": 20.948,
+      "eval_steps_per_second": 2.732,
+      "step": 1190
+    },
+    {
+      "epoch": 35.0,
+      "eval_gen_len": 67.01449275362319,
+      "eval_loss": 0.045941609889268875,
+      "eval_rouge1": 88.0068,
+      "eval_rouge2": 87.5135,
+      "eval_rougeL": 88.0611,
+      "eval_rougeLsum": 87.9535,
+      "eval_runtime": 3.2649,
+      "eval_samples_per_second": 21.134,
+      "eval_steps_per_second": 2.757,
+      "step": 1225
+    },
+    {
+      "epoch": 36.0,
+      "eval_gen_len": 67.57971014492753,
+      "eval_loss": 0.045919787138700485,
+      "eval_rouge1": 87.6823,
+      "eval_rouge2": 87.1982,
+      "eval_rougeL": 87.7207,
+      "eval_rougeLsum": 87.6541,
+      "eval_runtime": 3.2871,
+      "eval_samples_per_second": 20.991,
+      "eval_steps_per_second": 2.738,
+      "step": 1260
+    },
+    {
+      "epoch": 37.0,
+      "eval_gen_len": 69.14492753623189,
+      "eval_loss": 0.04610535874962807,
+      "eval_rouge1": 86.6794,
+      "eval_rouge2": 86.1044,
+      "eval_rougeL": 86.6438,
+      "eval_rougeLsum": 86.5856,
+      "eval_runtime": 3.2941,
+      "eval_samples_per_second": 20.946,
+      "eval_steps_per_second": 2.732,
+      "step": 1295
+    },
+    {
+      "epoch": 38.0,
+      "eval_gen_len": 69.14492753623189,
+      "eval_loss": 0.046049315482378006,
+      "eval_rouge1": 86.6794,
+      "eval_rouge2": 86.1044,
+      "eval_rougeL": 86.6438,
+      "eval_rougeLsum": 86.5856,
+      "eval_runtime": 3.2849,
+      "eval_samples_per_second": 21.005,
+      "eval_steps_per_second": 2.74,
+      "step": 1330
+    },
+    {
+      "epoch": 39.0,
+      "eval_gen_len": 69.04347826086956,
+      "eval_loss": 0.04580928757786751,
+      "eval_rouge1": 86.701,
+      "eval_rouge2": 86.1532,
+      "eval_rougeL": 86.6831,
+      "eval_rougeLsum": 86.6226,
+      "eval_runtime": 3.2714,
+      "eval_samples_per_second": 21.092,
+      "eval_steps_per_second": 2.751,
+      "step": 1365
+    },
+    {
+      "epoch": 40.0,
+      "eval_gen_len": 69.04347826086956,
+      "eval_loss": 0.04582460597157478,
+      "eval_rouge1": 86.701,
+      "eval_rouge2": 86.1532,
+      "eval_rougeL": 86.6831,
+      "eval_rougeLsum": 86.6226,
+      "eval_runtime": 3.2721,
+      "eval_samples_per_second": 21.087,
+      "eval_steps_per_second": 2.751,
+      "step": 1400
+    },
+    {
+      "epoch": 41.0,
+      "eval_gen_len": 67.47826086956522,
+      "eval_loss": 0.0457453578710556,
+      "eval_rouge1": 87.6998,
+      "eval_rouge2": 87.2471,
+      "eval_rougeL": 87.7695,
+      "eval_rougeLsum": 87.6934,
+      "eval_runtime": 3.2688,
+      "eval_samples_per_second": 21.109,
+      "eval_steps_per_second": 2.753,
+      "step": 1435
+    },
+    {
+      "epoch": 42.0,
+      "eval_gen_len": 69.14492753623189,
+      "eval_loss": 0.04603540897369385,
+      "eval_rouge1": 86.6794,
+      "eval_rouge2": 86.1044,
+      "eval_rougeL": 86.6438,
+      "eval_rougeLsum": 86.5856,
+      "eval_runtime": 3.3002,
+      "eval_samples_per_second": 20.908,
+      "eval_steps_per_second": 2.727,
+      "step": 1470
+    },
+    {
+      "epoch": 42.86,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 0.0362,
+      "step": 1500
+    },
+    {
+      "epoch": 43.0,
+      "eval_gen_len": 67.65217391304348,
+      "eval_loss": 0.045989979058504105,
+      "eval_rouge1": 87.5977,
+      "eval_rouge2": 87.1424,
+      "eval_rougeL": 87.6777,
+      "eval_rougeLsum": 87.5976,
+      "eval_runtime": 3.2827,
+      "eval_samples_per_second": 21.02,
+      "eval_steps_per_second": 2.742,
+      "step": 1505
+    },
+    {
+      "epoch": 44.0,
+      "eval_gen_len": 67.76811594202898,
+      "eval_loss": 0.04582388699054718,
+      "eval_rouge1": 87.571,
+      "eval_rouge2": 87.1237,
+      "eval_rougeL": 87.6515,
+      "eval_rougeLsum": 87.5747,
+      "eval_runtime": 3.3039,
+      "eval_samples_per_second": 20.884,
+      "eval_steps_per_second": 2.724,
+      "step": 1540
+    },
+    {
+      "epoch": 45.0,
+      "eval_gen_len": 67.10144927536231,
+      "eval_loss": 0.045716848224401474,
+      "eval_rouge1": 87.9476,
+      "eval_rouge2": 87.4526,
+      "eval_rougeL": 88.0306,
+      "eval_rougeLsum": 87.9122,
+      "eval_runtime": 3.2864,
+      "eval_samples_per_second": 20.996,
+      "eval_steps_per_second": 2.739,
+      "step": 1575
+    },
+    {
+      "epoch": 46.0,
+      "eval_gen_len": 67.66666666666667,
+      "eval_loss": 0.04581255465745926,
+      "eval_rouge1": 87.6074,
+      "eval_rouge2": 87.1494,
+      "eval_rougeL": 87.6861,
+      "eval_rougeLsum": 87.6103,
+      "eval_runtime": 3.297,
+      "eval_samples_per_second": 20.928,
+      "eval_steps_per_second": 2.73,
+      "step": 1610
+    },
+    {
+      "epoch": 47.0,
+      "eval_gen_len": 67.66666666666667,
+      "eval_loss": 0.045844241976737976,
+      "eval_rouge1": 87.6074,
+      "eval_rouge2": 87.1494,
+      "eval_rougeL": 87.6861,
+      "eval_rougeLsum": 87.6103,
+      "eval_runtime": 3.2878,
+      "eval_samples_per_second": 20.987,
+      "eval_steps_per_second": 2.737,
+      "step": 1645
+    },
+    {
+      "epoch": 48.0,
+      "eval_gen_len": 67.66666666666667,
+      "eval_loss": 0.045833244919776917,
+      "eval_rouge1": 87.6074,
+      "eval_rouge2": 87.1494,
+      "eval_rougeL": 87.6861,
+      "eval_rougeLsum": 87.6103,
+      "eval_runtime": 3.2729,
+      "eval_samples_per_second": 21.082,
+      "eval_steps_per_second": 2.75,
+      "step": 1680
+    },
+    {
+      "epoch": 49.0,
+      "eval_gen_len": 68.34782608695652,
+      "eval_loss": 0.045867208391427994,
+      "eval_rouge1": 87.1522,
+      "eval_rouge2": 86.6031,
+      "eval_rougeL": 87.1206,
+      "eval_rougeLsum": 87.0701,
+      "eval_runtime": 3.2833,
+      "eval_samples_per_second": 21.016,
+      "eval_steps_per_second": 2.741,
+      "step": 1715
+    },
+    {
+      "epoch": 50.0,
+      "eval_gen_len": 68.34782608695652,
+      "eval_loss": 0.04586370289325714,
+      "eval_rouge1": 87.1522,
+      "eval_rouge2": 86.6031,
+      "eval_rougeL": 87.1206,
+      "eval_rougeLsum": 87.0701,
+      "eval_runtime": 3.2773,
+      "eval_samples_per_second": 21.054,
+      "eval_steps_per_second": 2.746,
+      "step": 1750
+    },
+    {
+      "epoch": 50.0,
+      "step": 1750,
+      "total_flos": 3735433720627200.0,
+      "train_loss": 0.08541564777919225,
+      "train_runtime": 358.6661,
+      "train_samples_per_second": 38.476,
+      "train_steps_per_second": 4.879
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1750,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
   "save_steps": 500,
+  "total_flos": 3735433720627200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null