End of training

Browse files

Files changed (6) hide show

README.md +23 -0
all_results.json +34 -0
eval_results.json +18 -20
predict_results.json +4 -4
train_results.json +4 -4
trainer_state.json +85 -85

README.md CHANGED Viewed

@@ -3,6 +3,11 @@ license: mit
 base_model: facebook/bart-large-cnn
 tags:
 - generated_from_trainer
 model-index:
 - name: sjlee311bart-large-cnn-finetuned
   results: []
@@ -14,6 +19,24 @@ should probably proofread and complete it, then remove this comment. -->
 # sjlee311bart-large-cnn-finetuned
 This model is a fine-tuned version of [facebook/bart-large-cnn](https://huggingface.co/facebook/bart-large-cnn) on an unknown dataset.
 ## Model description

 base_model: facebook/bart-large-cnn
 tags:
 - generated_from_trainer
+metrics:
+- rouge
+- precision
+- recall
+- f1
 model-index:
 - name: sjlee311bart-large-cnn-finetuned
   results: []
 # sjlee311bart-large-cnn-finetuned
 This model is a fine-tuned version of [facebook/bart-large-cnn](https://huggingface.co/facebook/bart-large-cnn) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.1557
+- Rouge1: 49.9356
+- Rouge2: 14.8574
+- Rougel: 22.2849
+- Precision: 86.7404
+- Recall: 86.4333
+- F1: 86.584
+- Hashcode: roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.35.2)
+- Fkgl: 10.01
+- Cloze Score: 17.05
+- Reading Level 13-15: 110
+- Reading Level 11-12: 39
+- Reading Level 16+: 85
+- Reading Level 9-10: 7
+- Reading Level Mode: 13-15
+- Summac Val: 0.57
+- Gen Len: 434.7842
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+    "epoch": 2.99,
+    "eval_cloze_score": 17.05,
+    "eval_f1": 86.584,
+    "eval_fkgl": 10.01,
+    "eval_gen_len": 434.7842323651452,
+    "eval_hashcode": "roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.35.2)",
+    "eval_loss": 2.155679941177368,
+    "eval_precision": 86.7404,
+    "eval_reading_level_11-12": 39,
+    "eval_reading_level_13-15": 110,
+    "eval_reading_level_16+": 85,
+    "eval_reading_level_9-10": 7,
+    "eval_reading_level_mode": "13-15",
+    "eval_recall": 86.4333,
+    "eval_rouge1": 49.9356,
+    "eval_rouge2": 14.8574,
+    "eval_rougeL": 22.2849,
+    "eval_runtime": 1122.9876,
+    "eval_samples": 241,
+    "eval_samples_per_second": 0.215,
+    "eval_steps_per_second": 0.054,
+    "eval_summac_val": 0.57,
+    "predict_runtime": 149.2151,
+    "predict_samples": 142,
+    "predict_samples_per_second": 0.952,
+    "predict_steps_per_second": 0.241,
+    "summac_predict": 0.56,
+    "train_loss": 2.124213267956273,
+    "train_runtime": 1043.2,
+    "train_samples": 4346,
+    "train_samples_per_second": 12.498,
+    "train_steps_per_second": 0.779
+}

eval_results.json CHANGED Viewed

@@ -1,26 +1,24 @@
 {
     "epoch": 2.99,
-    "eval_cloze_score": 17.01,
-    "eval_f1": 86.7381,
     "eval_fkgl": 10.01,
-    "eval_gen_len": 128.0,
     "eval_hashcode": "roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.35.2)",
-    "eval_loss": 2.3937041759490967,
-    "eval_precision": 86.95,
-    "eval_reading_level_11-12": 46,
-    "eval_reading_level_13-15": 83,
-    "eval_reading_level_16+": 94,
-    "eval_reading_level_5-6": 1,
-    "eval_reading_level_7-8": 3,
-    "eval_reading_level_9-10": 14,
-    "eval_reading_level_mode": "16+",
-    "eval_recall": 86.5305,
-    "eval_rouge1": 40.8383,
-    "eval_rouge2": 9.9101,
-    "eval_rougeL": 21.2025,
-    "eval_runtime": 355.8584,
     "eval_samples": 241,
-    "eval_samples_per_second": 0.677,
-    "eval_steps_per_second": 0.171,
-    "eval_summac_val": 0.61
 }

 {
     "epoch": 2.99,
+    "eval_cloze_score": 17.05,
+    "eval_f1": 86.584,
     "eval_fkgl": 10.01,
+    "eval_gen_len": 434.7842323651452,
     "eval_hashcode": "roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.35.2)",
+    "eval_loss": 2.155679941177368,
+    "eval_precision": 86.7404,
+    "eval_reading_level_11-12": 39,
+    "eval_reading_level_13-15": 110,
+    "eval_reading_level_16+": 85,
+    "eval_reading_level_9-10": 7,
+    "eval_reading_level_mode": "13-15",
+    "eval_recall": 86.4333,
+    "eval_rouge1": 49.9356,
+    "eval_rouge2": 14.8574,
+    "eval_rougeL": 22.2849,
+    "eval_runtime": 1122.9876,
     "eval_samples": 241,
+    "eval_samples_per_second": 0.215,
+    "eval_steps_per_second": 0.054,
+    "eval_summac_val": 0.57
 }

predict_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "predict_runtime": 38.5172,
     "predict_samples": 142,
-    "predict_samples_per_second": 3.687,
-    "predict_steps_per_second": 0.935,
-    "summac_predict": 0.61
 }

 {
+    "predict_runtime": 149.2151,
     "predict_samples": 142,
+    "predict_samples_per_second": 0.952,
+    "predict_steps_per_second": 0.241,
+    "summac_predict": 0.56
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.99,
-    "train_loss": 1.5162586585182105,
-    "train_runtime": 753.3958,
     "train_samples": 4346,
-    "train_samples_per_second": 17.306,
-    "train_steps_per_second": 1.079
 }

 {
     "epoch": 2.99,
+    "train_loss": 2.124213267956273,
+    "train_runtime": 1043.2,
     "train_samples": 4346,
+    "train_samples_per_second": 12.498,
+    "train_steps_per_second": 0.779
 }

trainer_state.json CHANGED Viewed

@@ -11,497 +11,497 @@
     {
       "epoch": 0.04,
       "learning_rate": 4.93849938499385e-05,
-      "loss": 1.7671,
       "step": 10
     },
     {
       "epoch": 0.07,
       "learning_rate": 4.8769987699877e-05,
-      "loss": 1.7167,
       "step": 20
     },
     {
       "epoch": 0.11,
       "learning_rate": 4.81549815498155e-05,
-      "loss": 1.7802,
       "step": 30
     },
     {
       "epoch": 0.15,
       "learning_rate": 4.7539975399754e-05,
-      "loss": 1.7147,
       "step": 40
     },
     {
       "epoch": 0.18,
       "learning_rate": 4.6924969249692496e-05,
-      "loss": 1.7821,
       "step": 50
     },
     {
       "epoch": 0.22,
       "learning_rate": 4.6309963099631e-05,
-      "loss": 1.736,
       "step": 60
     },
     {
       "epoch": 0.26,
       "learning_rate": 4.569495694956949e-05,
-      "loss": 1.7452,
       "step": 70
     },
     {
       "epoch": 0.29,
       "learning_rate": 4.5079950799507994e-05,
-      "loss": 1.7133,
       "step": 80
     },
     {
       "epoch": 0.33,
       "learning_rate": 4.4464944649446495e-05,
-      "loss": 1.7226,
       "step": 90
     },
     {
       "epoch": 0.37,
       "learning_rate": 4.3849938499385e-05,
-      "loss": 1.7183,
       "step": 100
     },
     {
       "epoch": 0.4,
       "learning_rate": 4.323493234932349e-05,
-      "loss": 1.7213,
       "step": 110
     },
     {
       "epoch": 0.44,
       "learning_rate": 4.261992619926199e-05,
-      "loss": 1.7129,
       "step": 120
     },
     {
       "epoch": 0.48,
       "learning_rate": 4.2004920049200495e-05,
-      "loss": 1.7263,
       "step": 130
     },
     {
       "epoch": 0.52,
       "learning_rate": 4.1389913899138996e-05,
-      "loss": 1.6906,
       "step": 140
     },
     {
       "epoch": 0.55,
       "learning_rate": 4.077490774907749e-05,
-      "loss": 1.7081,
       "step": 150
     },
     {
       "epoch": 0.59,
       "learning_rate": 4.015990159901599e-05,
-      "loss": 1.6632,
       "step": 160
     },
     {
       "epoch": 0.63,
       "learning_rate": 3.954489544895449e-05,
-      "loss": 1.7391,
       "step": 170
     },
     {
       "epoch": 0.66,
       "learning_rate": 3.892988929889299e-05,
-      "loss": 1.7226,
       "step": 180
     },
     {
       "epoch": 0.7,
       "learning_rate": 3.831488314883149e-05,
-      "loss": 1.7101,
       "step": 190
     },
     {
       "epoch": 0.74,
       "learning_rate": 3.769987699876999e-05,
-      "loss": 1.7839,
       "step": 200
     },
     {
       "epoch": 0.77,
       "learning_rate": 3.7084870848708486e-05,
-      "loss": 1.7438,
       "step": 210
     },
     {
       "epoch": 0.81,
       "learning_rate": 3.646986469864699e-05,
-      "loss": 1.7511,
       "step": 220
     },
     {
       "epoch": 0.85,
       "learning_rate": 3.585485854858548e-05,
-      "loss": 1.7076,
       "step": 230
     },
     {
       "epoch": 0.88,
       "learning_rate": 3.5239852398523984e-05,
-      "loss": 1.6967,
       "step": 240
     },
     {
       "epoch": 0.92,
       "learning_rate": 3.4624846248462485e-05,
-      "loss": 1.7217,
       "step": 250
     },
     {
       "epoch": 0.96,
       "learning_rate": 3.400984009840099e-05,
-      "loss": 1.7106,
       "step": 260
     },
     {
       "epoch": 0.99,
       "learning_rate": 3.339483394833948e-05,
-      "loss": 1.7438,
       "step": 270
     },
     {
       "epoch": 1.03,
       "learning_rate": 3.277982779827798e-05,
-      "loss": 1.4464,
       "step": 280
     },
     {
       "epoch": 1.07,
       "learning_rate": 3.2164821648216484e-05,
-      "loss": 1.3142,
       "step": 290
     },
     {
       "epoch": 1.1,
       "learning_rate": 3.1549815498154986e-05,
-      "loss": 1.3559,
       "step": 300
     },
     {
       "epoch": 1.14,
       "learning_rate": 3.093480934809348e-05,
-      "loss": 1.3662,
       "step": 310
     },
     {
       "epoch": 1.18,
       "learning_rate": 3.0319803198031982e-05,
-      "loss": 1.3499,
       "step": 320
     },
     {
       "epoch": 1.21,
       "learning_rate": 2.970479704797048e-05,
-      "loss": 1.3961,
       "step": 330
     },
     {
       "epoch": 1.25,
       "learning_rate": 2.908979089790898e-05,
-      "loss": 1.3712,
       "step": 340
     },
     {
       "epoch": 1.29,
       "learning_rate": 2.8474784747847476e-05,
-      "loss": 1.3994,
       "step": 350
     },
     {
       "epoch": 1.32,
       "learning_rate": 2.7859778597785978e-05,
-      "loss": 1.3919,
       "step": 360
     },
     {
       "epoch": 1.36,
       "learning_rate": 2.7244772447724476e-05,
-      "loss": 1.3564,
       "step": 370
     },
     {
       "epoch": 1.4,
       "learning_rate": 2.6629766297662977e-05,
-      "loss": 1.3711,
       "step": 380
     },
     {
       "epoch": 1.44,
       "learning_rate": 2.6014760147601475e-05,
-      "loss": 1.3818,
       "step": 390
     },
     {
       "epoch": 1.47,
       "learning_rate": 2.5399753997539977e-05,
-      "loss": 1.4208,
       "step": 400
     },
     {
       "epoch": 1.51,
       "learning_rate": 2.4784747847478475e-05,
-      "loss": 1.4105,
       "step": 410
     },
     {
       "epoch": 1.55,
       "learning_rate": 2.4169741697416977e-05,
-      "loss": 1.4127,
       "step": 420
     },
     {
       "epoch": 1.58,
       "learning_rate": 2.3554735547355475e-05,
-      "loss": 1.4413,
       "step": 430
     },
     {
       "epoch": 1.62,
       "learning_rate": 2.2939729397293973e-05,
-      "loss": 1.4459,
       "step": 440
     },
     {
       "epoch": 1.66,
       "learning_rate": 2.2324723247232474e-05,
-      "loss": 1.4432,
       "step": 450
     },
     {
       "epoch": 1.69,
       "learning_rate": 2.1709717097170972e-05,
-      "loss": 1.4724,
       "step": 460
     },
     {
       "epoch": 1.73,
       "learning_rate": 2.1094710947109474e-05,
-      "loss": 1.4482,
       "step": 470
     },
     {
       "epoch": 1.77,
       "learning_rate": 2.0479704797047972e-05,
-      "loss": 1.4861,
       "step": 480
     },
     {
       "epoch": 1.8,
       "learning_rate": 1.986469864698647e-05,
-      "loss": 1.4791,
       "step": 490
     },
     {
       "epoch": 1.84,
       "learning_rate": 1.924969249692497e-05,
-      "loss": 1.5557,
       "step": 500
     },
     {
       "epoch": 1.88,
       "learning_rate": 1.863468634686347e-05,
-      "loss": 1.7621,
       "step": 510
     },
     {
       "epoch": 1.91,
       "learning_rate": 1.8019680196801968e-05,
-      "loss": 1.7283,
       "step": 520
     },
     {
       "epoch": 1.95,
       "learning_rate": 1.740467404674047e-05,
-      "loss": 1.7163,
       "step": 530
     },
     {
       "epoch": 1.99,
       "learning_rate": 1.6789667896678967e-05,
-      "loss": 1.6936,
       "step": 540
     },
     {
       "epoch": 2.02,
       "learning_rate": 1.617466174661747e-05,
-      "loss": 1.4864,
       "step": 550
     },
     {
       "epoch": 2.06,
       "learning_rate": 1.5559655596555967e-05,
-      "loss": 1.328,
       "step": 560
     },
     {
       "epoch": 2.1,
       "learning_rate": 1.4944649446494467e-05,
-      "loss": 1.3673,
       "step": 570
     },
     {
       "epoch": 2.13,
       "learning_rate": 1.4329643296432965e-05,
-      "loss": 1.3545,
       "step": 580
     },
     {
       "epoch": 2.17,
       "learning_rate": 1.3714637146371464e-05,
-      "loss": 1.3736,
       "step": 590
     },
     {
       "epoch": 2.21,
       "learning_rate": 1.3099630996309964e-05,
-      "loss": 1.3618,
       "step": 600
     },
     {
       "epoch": 2.24,
       "learning_rate": 1.2484624846248464e-05,
-      "loss": 1.3407,
       "step": 610
     },
     {
       "epoch": 2.28,
       "learning_rate": 1.1869618696186962e-05,
-      "loss": 1.3543,
       "step": 620
     },
     {
       "epoch": 2.32,
       "learning_rate": 1.1254612546125462e-05,
-      "loss": 1.3831,
       "step": 630
     },
     {
       "epoch": 2.36,
       "learning_rate": 1.0639606396063962e-05,
-      "loss": 1.3331,
       "step": 640
     },
     {
       "epoch": 2.39,
       "learning_rate": 1.0024600246002461e-05,
-      "loss": 1.3872,
       "step": 650
     },
     {
       "epoch": 2.43,
       "learning_rate": 9.40959409594096e-06,
-      "loss": 1.3579,
       "step": 660
     },
     {
       "epoch": 2.47,
       "learning_rate": 8.79458794587946e-06,
-      "loss": 1.402,
       "step": 670
     },
     {
       "epoch": 2.5,
       "learning_rate": 8.179581795817959e-06,
-      "loss": 1.3763,
       "step": 680
     },
     {
       "epoch": 2.54,
       "learning_rate": 7.564575645756458e-06,
-      "loss": 1.3659,
       "step": 690
     },
     {
       "epoch": 2.58,
       "learning_rate": 6.949569495694958e-06,
-      "loss": 1.3575,
       "step": 700
     },
     {
       "epoch": 2.61,
       "learning_rate": 6.334563345633457e-06,
-      "loss": 1.3666,
       "step": 710
     },
     {
       "epoch": 2.65,
       "learning_rate": 5.7195571955719566e-06,
-      "loss": 1.3642,
       "step": 720
     },
     {
       "epoch": 2.69,
       "learning_rate": 5.1045510455104555e-06,
-      "loss": 1.3613,
       "step": 730
     },
     {
       "epoch": 2.72,
       "learning_rate": 4.489544895448955e-06,
-      "loss": 1.3673,
       "step": 740
     },
     {
       "epoch": 2.76,
       "learning_rate": 3.874538745387454e-06,
-      "loss": 1.3516,
       "step": 750
     },
     {
       "epoch": 2.8,
       "learning_rate": 3.2595325953259536e-06,
-      "loss": 1.3662,
       "step": 760
     },
     {
       "epoch": 2.83,
       "learning_rate": 2.6445264452644525e-06,
-      "loss": 1.3449,
       "step": 770
     },
     {
       "epoch": 2.87,
       "learning_rate": 2.029520295202952e-06,
-      "loss": 1.3232,
       "step": 780
     },
     {
       "epoch": 2.91,
       "learning_rate": 1.4145141451414515e-06,
-      "loss": 1.3536,
       "step": 790
     },
     {
       "epoch": 2.94,
       "learning_rate": 7.995079950799507e-07,
-      "loss": 1.3384,
       "step": 800
     },
     {
       "epoch": 2.98,
       "learning_rate": 1.845018450184502e-07,
-      "loss": 1.3277,
       "step": 810
     },
     {
       "epoch": 2.99,
       "step": 813,
       "total_flos": 2.818102824586445e+16,
-      "train_loss": 1.5162586585182105,
-      "train_runtime": 753.3958,
-      "train_samples_per_second": 17.306,
-      "train_steps_per_second": 1.079
     }
   ],
   "logging_steps": 10,

     {
       "epoch": 0.04,
       "learning_rate": 4.93849938499385e-05,
+      "loss": 3.0474,
       "step": 10
     },
     {
       "epoch": 0.07,
       "learning_rate": 4.8769987699877e-05,
+      "loss": 2.5423,
       "step": 20
     },
     {
       "epoch": 0.11,
       "learning_rate": 4.81549815498155e-05,
+      "loss": 2.494,
       "step": 30
     },
     {
       "epoch": 0.15,
       "learning_rate": 4.7539975399754e-05,
+      "loss": 2.4624,
       "step": 40
     },
     {
       "epoch": 0.18,
       "learning_rate": 4.6924969249692496e-05,
+      "loss": 2.4676,
       "step": 50
     },
     {
       "epoch": 0.22,
       "learning_rate": 4.6309963099631e-05,
+      "loss": 2.4296,
       "step": 60
     },
     {
       "epoch": 0.26,
       "learning_rate": 4.569495694956949e-05,
+      "loss": 2.4051,
       "step": 70
     },
     {
       "epoch": 0.29,
       "learning_rate": 4.5079950799507994e-05,
+      "loss": 2.4153,
       "step": 80
     },
     {
       "epoch": 0.33,
       "learning_rate": 4.4464944649446495e-05,
+      "loss": 2.416,
       "step": 90
     },
     {
       "epoch": 0.37,
       "learning_rate": 4.3849938499385e-05,
+      "loss": 2.3806,
       "step": 100
     },
     {
       "epoch": 0.4,
       "learning_rate": 4.323493234932349e-05,
+      "loss": 2.359,
       "step": 110
     },
     {
       "epoch": 0.44,
       "learning_rate": 4.261992619926199e-05,
+      "loss": 2.3396,
       "step": 120
     },
     {
       "epoch": 0.48,
       "learning_rate": 4.2004920049200495e-05,
+      "loss": 2.3664,
       "step": 130
     },
     {
       "epoch": 0.52,
       "learning_rate": 4.1389913899138996e-05,
+      "loss": 2.3306,
       "step": 140
     },
     {
       "epoch": 0.55,
       "learning_rate": 4.077490774907749e-05,
+      "loss": 2.3515,
       "step": 150
     },
     {
       "epoch": 0.59,
       "learning_rate": 4.015990159901599e-05,
+      "loss": 2.2757,
       "step": 160
     },
     {
       "epoch": 0.63,
       "learning_rate": 3.954489544895449e-05,
+      "loss": 2.3511,
       "step": 170
     },
     {
       "epoch": 0.66,
       "learning_rate": 3.892988929889299e-05,
+      "loss": 2.3337,
       "step": 180
     },
     {
       "epoch": 0.7,
       "learning_rate": 3.831488314883149e-05,
+      "loss": 2.2724,
       "step": 190
     },
     {
       "epoch": 0.74,
       "learning_rate": 3.769987699876999e-05,
+      "loss": 2.3169,
       "step": 200
     },
     {
       "epoch": 0.77,
       "learning_rate": 3.7084870848708486e-05,
+      "loss": 2.2984,
       "step": 210
     },
     {
       "epoch": 0.81,
       "learning_rate": 3.646986469864699e-05,
+      "loss": 2.3052,
       "step": 220
     },
     {
       "epoch": 0.85,
       "learning_rate": 3.585485854858548e-05,
+      "loss": 2.2797,
       "step": 230
     },
     {
       "epoch": 0.88,
       "learning_rate": 3.5239852398523984e-05,
+      "loss": 2.2492,
       "step": 240
     },
     {
       "epoch": 0.92,
       "learning_rate": 3.4624846248462485e-05,
+      "loss": 2.2824,
       "step": 250
     },
     {
       "epoch": 0.96,
       "learning_rate": 3.400984009840099e-05,
+      "loss": 2.2565,
       "step": 260
     },
     {
       "epoch": 0.99,
       "learning_rate": 3.339483394833948e-05,
+      "loss": 2.2766,
       "step": 270
     },
     {
       "epoch": 1.03,
       "learning_rate": 3.277982779827798e-05,
+      "loss": 2.1366,
       "step": 280
     },
     {
       "epoch": 1.07,
       "learning_rate": 3.2164821648216484e-05,
+      "loss": 2.0625,
       "step": 290
     },
     {
       "epoch": 1.1,
       "learning_rate": 3.1549815498154986e-05,
+      "loss": 2.0812,
       "step": 300
     },
     {
       "epoch": 1.14,
       "learning_rate": 3.093480934809348e-05,
+      "loss": 2.0876,
       "step": 310
     },
     {
       "epoch": 1.18,
       "learning_rate": 3.0319803198031982e-05,
+      "loss": 2.0732,
       "step": 320
     },
     {
       "epoch": 1.21,
       "learning_rate": 2.970479704797048e-05,
+      "loss": 2.1055,
       "step": 330
     },
     {
       "epoch": 1.25,
       "learning_rate": 2.908979089790898e-05,
+      "loss": 2.0799,
       "step": 340
     },
     {
       "epoch": 1.29,
       "learning_rate": 2.8474784747847476e-05,
+      "loss": 2.0846,
       "step": 350
     },
     {
       "epoch": 1.32,
       "learning_rate": 2.7859778597785978e-05,
+      "loss": 2.0928,
       "step": 360
     },
     {
       "epoch": 1.36,
       "learning_rate": 2.7244772447724476e-05,
+      "loss": 2.0533,
       "step": 370
     },
     {
       "epoch": 1.4,
       "learning_rate": 2.6629766297662977e-05,
+      "loss": 2.0432,
       "step": 380
     },
     {
       "epoch": 1.44,
       "learning_rate": 2.6014760147601475e-05,
+      "loss": 2.0408,
       "step": 390
     },
     {
       "epoch": 1.47,
       "learning_rate": 2.5399753997539977e-05,
+      "loss": 2.1038,
       "step": 400
     },
     {
       "epoch": 1.51,
       "learning_rate": 2.4784747847478475e-05,
+      "loss": 2.0639,
       "step": 410
     },
     {
       "epoch": 1.55,
       "learning_rate": 2.4169741697416977e-05,
+      "loss": 2.0712,
       "step": 420
     },
     {
       "epoch": 1.58,
       "learning_rate": 2.3554735547355475e-05,
+      "loss": 2.0843,
       "step": 430
     },
     {
       "epoch": 1.62,
       "learning_rate": 2.2939729397293973e-05,
+      "loss": 2.0795,
       "step": 440
     },
     {
       "epoch": 1.66,
       "learning_rate": 2.2324723247232474e-05,
+      "loss": 2.0812,
       "step": 450
     },
     {
       "epoch": 1.69,
       "learning_rate": 2.1709717097170972e-05,
+      "loss": 2.0648,
       "step": 460
     },
     {
       "epoch": 1.73,
       "learning_rate": 2.1094710947109474e-05,
+      "loss": 2.0476,
       "step": 470
     },
     {
       "epoch": 1.77,
       "learning_rate": 2.0479704797047972e-05,
+      "loss": 2.0769,
       "step": 480
     },
     {
       "epoch": 1.8,
       "learning_rate": 1.986469864698647e-05,
+      "loss": 2.0753,
       "step": 490
     },
     {
       "epoch": 1.84,
       "learning_rate": 1.924969249692497e-05,
+      "loss": 2.0336,
       "step": 500
     },
     {
       "epoch": 1.88,
       "learning_rate": 1.863468634686347e-05,
+      "loss": 2.0888,
       "step": 510
     },
     {
       "epoch": 1.91,
       "learning_rate": 1.8019680196801968e-05,
+      "loss": 2.0748,
       "step": 520
     },
     {
       "epoch": 1.95,
       "learning_rate": 1.740467404674047e-05,
+      "loss": 2.062,
       "step": 530
     },
     {
       "epoch": 1.99,
       "learning_rate": 1.6789667896678967e-05,
+      "loss": 2.0263,
       "step": 540
     },
     {
       "epoch": 2.02,
       "learning_rate": 1.617466174661747e-05,
+      "loss": 1.9472,
       "step": 550
     },
     {
       "epoch": 2.06,
       "learning_rate": 1.5559655596555967e-05,
+      "loss": 1.9055,
       "step": 560
     },
     {
       "epoch": 2.1,
       "learning_rate": 1.4944649446494467e-05,
+      "loss": 1.9086,
       "step": 570
     },
     {
       "epoch": 2.13,
       "learning_rate": 1.4329643296432965e-05,
+      "loss": 1.9112,
       "step": 580
     },
     {
       "epoch": 2.17,
       "learning_rate": 1.3714637146371464e-05,
+      "loss": 1.9361,
       "step": 590
     },
     {
       "epoch": 2.21,
       "learning_rate": 1.3099630996309964e-05,
+      "loss": 1.9229,
       "step": 600
     },
     {
       "epoch": 2.24,
       "learning_rate": 1.2484624846248464e-05,
+      "loss": 1.9133,
       "step": 610
     },
     {
       "epoch": 2.28,
       "learning_rate": 1.1869618696186962e-05,
+      "loss": 1.9196,
       "step": 620
     },
     {
       "epoch": 2.32,
       "learning_rate": 1.1254612546125462e-05,
+      "loss": 1.9198,
       "step": 630
     },
     {
       "epoch": 2.36,
       "learning_rate": 1.0639606396063962e-05,
+      "loss": 1.8842,
       "step": 640
     },
     {
       "epoch": 2.39,
       "learning_rate": 1.0024600246002461e-05,
+      "loss": 1.948,
       "step": 650
     },
     {
       "epoch": 2.43,
       "learning_rate": 9.40959409594096e-06,
+      "loss": 1.9455,
       "step": 660
     },
     {
       "epoch": 2.47,
       "learning_rate": 8.79458794587946e-06,
+      "loss": 1.9538,
       "step": 670
     },
     {
       "epoch": 2.5,
       "learning_rate": 8.179581795817959e-06,
+      "loss": 1.9362,
       "step": 680
     },
     {
       "epoch": 2.54,
       "learning_rate": 7.564575645756458e-06,
+      "loss": 1.9044,
       "step": 690
     },
     {
       "epoch": 2.58,
       "learning_rate": 6.949569495694958e-06,
+      "loss": 1.9351,
       "step": 700
     },
     {
       "epoch": 2.61,
       "learning_rate": 6.334563345633457e-06,
+      "loss": 1.9374,
       "step": 710
     },
     {
       "epoch": 2.65,
       "learning_rate": 5.7195571955719566e-06,
+      "loss": 1.9474,
       "step": 720
     },
     {
       "epoch": 2.69,
       "learning_rate": 5.1045510455104555e-06,
+      "loss": 1.8852,
       "step": 730
     },
     {
       "epoch": 2.72,
       "learning_rate": 4.489544895448955e-06,
+      "loss": 1.9285,
       "step": 740
     },
     {
       "epoch": 2.76,
       "learning_rate": 3.874538745387454e-06,
+      "loss": 1.8788,
       "step": 750
     },
     {
       "epoch": 2.8,
       "learning_rate": 3.2595325953259536e-06,
+      "loss": 1.9447,
       "step": 760
     },
     {
       "epoch": 2.83,
       "learning_rate": 2.6445264452644525e-06,
+      "loss": 1.9196,
       "step": 770
     },
     {
       "epoch": 2.87,
       "learning_rate": 2.029520295202952e-06,
+      "loss": 1.9037,
       "step": 780
     },
     {
       "epoch": 2.91,
       "learning_rate": 1.4145141451414515e-06,
+      "loss": 1.8997,
       "step": 790
     },
     {
       "epoch": 2.94,
       "learning_rate": 7.995079950799507e-07,
+      "loss": 1.9194,
       "step": 800
     },
     {
       "epoch": 2.98,
       "learning_rate": 1.845018450184502e-07,
+      "loss": 1.8938,
       "step": 810
     },
     {
       "epoch": 2.99,
       "step": 813,
       "total_flos": 2.818102824586445e+16,
+      "train_loss": 2.124213267956273,
+      "train_runtime": 1043.2,
+      "train_samples_per_second": 12.498,
+      "train_steps_per_second": 0.779
     }
   ],
   "logging_steps": 10,