Model save

Browse files

Files changed (11) hide show

README.md +18 -75
all_results.json +14 -14
config.json +6 -6
eval_results.json +10 -10
model.safetensors +2 -2
special_tokens_map.json +3 -21
tokenizer.json +1 -6
tokenizer_config.json +1 -1
train_results.json +5 -5
trainer_state.json +63 -666
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,25 +1,13 @@
 ---
 license: apache-2.0
-base_model: google-t5/t5-small
 tags:
 - generated_from_trainer
-datasets:
-- fedora-copr/pep-sum
 metrics:
 - rouge
 model-index:
 - name: pep_summarization
-  results:
-  - task:
-      name: Summarization
-      type: summarization
-    dataset:
-      name: fedora-copr/pep-sum
-      type: fedora-copr/pep-sum
-    metrics:
-    - name: Rouge1
-      type: rouge
-      value: 87.1522
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -27,14 +15,14 @@ should probably proofread and complete it, then remove this comment. -->
 # pep_summarization
-This model is a fine-tuned version of [google-t5/t5-small](https://huggingface.co/google-t5/t5-small) on the fedora-copr/pep-sum dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0459
-- Rouge1: 87.1522
-- Rouge2: 86.6031
-- Rougel: 87.1206
-- Rougelsum: 87.0701
-- Gen Len: 68.3478
 ## Model description
@@ -53,68 +41,23 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-05
-- train_batch_size: 8
-- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 50.0
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Rouge1  | Rouge2  | Rougel  | Rougelsum | Gen Len |
 |:-------------:|:-----:|:----:|:---------------:|:-------:|:-------:|:-------:|:---------:|:-------:|
-| No log        | 1.0   | 35   | 0.4762          | 53.8677 | 44.8002 | 49.2937 | 51.8392   | 81.2174 |
-| No log        | 2.0   | 70   | 0.2843          | 63.6062 | 58.4113 | 61.1896 | 62.3844   | 66.2754 |
-| No log        | 3.0   | 105  | 0.2117          | 64.8696 | 60.8866 | 63.1615 | 64.2496   | 61.2029 |
-| No log        | 4.0   | 140  | 0.1768          | 70.8455 | 67.8574 | 69.4736 | 70.0874   | 62.8261 |
-| No log        | 5.0   | 175  | 0.1546          | 74.0309 | 71.9404 | 73.3747 | 73.5531   | 61.4638 |
-| No log        | 6.0   | 210  | 0.1346          | 77.1153 | 75.713  | 77.0396 | 76.815    | 63.0    |
-| No log        | 7.0   | 245  | 0.1213          | 80.2369 | 79.6485 | 80.4178 | 80.1986   | 65.5507 |
-| No log        | 8.0   | 280  | 0.1057          | 82.3014 | 81.6093 | 82.3372 | 82.1797   | 65.2319 |
-| No log        | 9.0   | 315  | 0.0937          | 83.5682 | 82.9738 | 83.6388 | 83.5486   | 66.0870 |
-| No log        | 10.0  | 350  | 0.0843          | 83.5735 | 82.9779 | 83.6425 | 83.5533   | 66.0870 |
-| No log        | 11.0  | 385  | 0.0763          | 83.5502 | 83.0151 | 83.7004 | 83.6188   | 67.6957 |
-| No log        | 12.0  | 420  | 0.0688          | 83.8612 | 83.4112 | 84.0555 | 83.8541   | 65.6087 |
-| No log        | 13.0  | 455  | 0.0653          | 83.2559 | 82.7398 | 83.437  | 83.3363   | 68.4928 |
-| No log        | 14.0  | 490  | 0.0613          | 84.2407 | 83.738  | 84.3104 | 84.3012   | 67.7681 |
-| 0.1963        | 15.0  | 525  | 0.0584          | 83.8361 | 83.3141 | 83.8976 | 83.8751   | 68.5507 |
-| 0.1963        | 16.0  | 560  | 0.0563          | 83.5952 | 83.1416 | 83.5644 | 83.5389   | 71.4928 |
-| 0.1963        | 17.0  | 595  | 0.0539          | 84.6048 | 84.1681 | 84.7325 | 84.567    | 69.4783 |
-| 0.1963        | 18.0  | 630  | 0.0520          | 84.9204 | 84.4493 | 85.0357 | 84.9063   | 68.7246 |
-| 0.1963        | 19.0  | 665  | 0.0514          | 84.3924 | 83.9735 | 84.4126 | 84.3779   | 69.7971 |
-| 0.1963        | 20.0  | 700  | 0.0504          | 86.1503 | 85.6151 | 86.2393 | 86.0495   | 67.2319 |
-| 0.1963        | 21.0  | 735  | 0.0496          | 86.4875 | 85.9614 | 86.5042 | 86.3616   | 66.5217 |
-| 0.1963        | 22.0  | 770  | 0.0496          | 85.6339 | 85.1604 | 85.6862 | 85.5112   | 67.9420 |
-| 0.1963        | 23.0  | 805  | 0.0490          | 87.0368 | 86.5415 | 87.1099 | 86.9317   | 65.5217 |
-| 0.1963        | 24.0  | 840  | 0.0493          | 85.6323 | 85.1577 | 85.6823 | 85.5102   | 67.9420 |
-| 0.1963        | 25.0  | 875  | 0.0493          | 86.3078 | 85.7832 | 86.3026 | 86.1442   | 69.0435 |
-| 0.1963        | 26.0  | 910  | 0.0490          | 85.877  | 85.3534 | 85.9035 | 85.8208   | 70.2899 |
-| 0.1963        | 27.0  | 945  | 0.0478          | 86.6353 | 86.054  | 86.5856 | 86.5515   | 69.2464 |
-| 0.1963        | 28.0  | 980  | 0.0478          | 87.0975 | 86.5716 | 87.1452 | 87.0713   | 68.5652 |
-| 0.0499        | 29.0  | 1015 | 0.0468          | 87.9989 | 87.509  | 88.0597 | 87.9458   | 67.0    |
-| 0.0499        | 30.0  | 1050 | 0.0468          | 86.6642 | 86.1007 | 86.6429 | 86.582    | 69.1304 |
-| 0.0499        | 31.0  | 1085 | 0.0467          | 86.3475 | 85.7566 | 86.257  | 86.2544   | 69.3043 |
-| 0.0499        | 32.0  | 1120 | 0.0463          | 86.6794 | 86.1044 | 86.6438 | 86.5856   | 69.1449 |
-| 0.0499        | 33.0  | 1155 | 0.0462          | 86.6794 | 86.1044 | 86.6438 | 86.5856   | 69.1449 |
-| 0.0499        | 34.0  | 1190 | 0.0461          | 87.1151 | 86.605  | 87.1857 | 87.1151   | 68.4638 |
-| 0.0499        | 35.0  | 1225 | 0.0459          | 88.0068 | 87.5135 | 88.0611 | 87.9535   | 67.0145 |
-| 0.0499        | 36.0  | 1260 | 0.0459          | 87.6823 | 87.1982 | 87.7207 | 87.6541   | 67.5797 |
-| 0.0499        | 37.0  | 1295 | 0.0461          | 86.6794 | 86.1044 | 86.6438 | 86.5856   | 69.1449 |
-| 0.0499        | 38.0  | 1330 | 0.0460          | 86.6794 | 86.1044 | 86.6438 | 86.5856   | 69.1449 |
-| 0.0499        | 39.0  | 1365 | 0.0458          | 86.701  | 86.1532 | 86.6831 | 86.6226   | 69.0435 |
-| 0.0499        | 40.0  | 1400 | 0.0458          | 86.701  | 86.1532 | 86.6831 | 86.6226   | 69.0435 |
-| 0.0499        | 41.0  | 1435 | 0.0457          | 87.6998 | 87.2471 | 87.7695 | 87.6934   | 67.4783 |
-| 0.0499        | 42.0  | 1470 | 0.0460          | 86.6794 | 86.1044 | 86.6438 | 86.5856   | 69.1449 |
-| 0.0362        | 43.0  | 1505 | 0.0460          | 87.5977 | 87.1424 | 87.6777 | 87.5976   | 67.6522 |
-| 0.0362        | 44.0  | 1540 | 0.0458          | 87.571  | 87.1237 | 87.6515 | 87.5747   | 67.7681 |
-| 0.0362        | 45.0  | 1575 | 0.0457          | 87.9476 | 87.4526 | 88.0306 | 87.9122   | 67.1014 |
-| 0.0362        | 46.0  | 1610 | 0.0458          | 87.6074 | 87.1494 | 87.6861 | 87.6103   | 67.6667 |
-| 0.0362        | 47.0  | 1645 | 0.0458          | 87.6074 | 87.1494 | 87.6861 | 87.6103   | 67.6667 |
-| 0.0362        | 48.0  | 1680 | 0.0458          | 87.6074 | 87.1494 | 87.6861 | 87.6103   | 67.6667 |
-| 0.0362        | 49.0  | 1715 | 0.0459          | 87.1522 | 86.6031 | 87.1206 | 87.0701   | 68.3478 |
-| 0.0362        | 50.0  | 1750 | 0.0459          | 87.1522 | 86.6031 | 87.1206 | 87.0701   | 68.3478 |
 ### Framework versions

 ---
 license: apache-2.0
+base_model: google-t5/t5-base
 tags:
 - generated_from_trainer
 metrics:
 - rouge
 model-index:
 - name: pep_summarization
+  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # pep_summarization
+This model is a fine-tuned version of [google-t5/t5-base](https://huggingface.co/google-t5/t5-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9288
+- Rouge1: 39.7591
+- Rouge2: 24.1983
+- Rougel: 32.2869
+- Rougelsum: 36.1493
+- Gen Len: 68.0435
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 1e-09
+- train_batch_size: 4
+- eval_batch_size: 4
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 5.0
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Rouge1  | Rouge2  | Rougel  | Rougelsum | Gen Len |
 |:-------------:|:-----:|:----:|:---------------:|:-------:|:-------:|:-------:|:---------:|:-------:|
+| No log        | 1.0   | 69   | 0.9289          | 39.7591 | 24.1983 | 32.2869 | 36.1493   | 68.0435 |
+| No log        | 2.0   | 138  | 0.9289          | 39.7591 | 24.1983 | 32.2869 | 36.1493   | 68.0435 |
+| No log        | 3.0   | 207  | 0.9288          | 39.7591 | 24.1983 | 32.2869 | 36.1493   | 68.0435 |
+| No log        | 4.0   | 276  | 0.9288          | 39.7591 | 24.1983 | 32.2869 | 36.1493   | 68.0435 |
+| No log        | 5.0   | 345  | 0.9288          | 39.7591 | 24.1983 | 32.2869 | 36.1493   | 68.0435 |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
-    "epoch": 50.0,
-    "eval_gen_len": 68.34782608695652,
-    "eval_loss": 0.04586370289325714,
-    "eval_rouge1": 87.1522,
-    "eval_rouge2": 86.6031,
-    "eval_rougeL": 87.1206,
-    "eval_rougeLsum": 87.0701,
-    "eval_runtime": 3.3714,
     "eval_samples": 69,
-    "eval_samples_per_second": 20.467,
-    "eval_steps_per_second": 2.67,
-    "train_loss": 0.08541564777919225,
-    "train_runtime": 358.6661,
     "train_samples": 276,
-    "train_samples_per_second": 38.476,
-    "train_steps_per_second": 4.879
 }

 {
+    "epoch": 5.0,
+    "eval_gen_len": 62.05797101449275,
+    "eval_loss": 0.0359114333987236,
+    "eval_rouge1": 84.8601,
+    "eval_rouge2": 84.2185,
+    "eval_rougeL": 84.7842,
+    "eval_rougeLsum": 84.8657,
+    "eval_runtime": 9.4102,
     "eval_samples": 69,
+    "eval_samples_per_second": 7.332,
+    "eval_steps_per_second": 1.913,
+    "train_loss": 0.16054312664529552,
+    "train_runtime": 120.7301,
     "train_samples": 276,
+    "train_samples_per_second": 11.43,
+    "train_steps_per_second": 2.858
 }

config.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-  "_name_or_path": "google-t5/t5-small",
   "architectures": [
     "T5ForConditionalGeneration"
   ],
   "classifier_dropout": 0.0,
-  "d_ff": 2048,
   "d_kv": 64,
-  "d_model": 512,
   "decoder_start_token_id": 0,
   "dense_act_fn": "relu",
   "dropout_rate": 0.1,
@@ -18,9 +18,9 @@
   "layer_norm_epsilon": 1e-06,
   "model_type": "t5",
   "n_positions": 512,
-  "num_decoder_layers": 6,
-  "num_heads": 8,
-  "num_layers": 6,
   "output_past": true,
   "pad_token_id": 0,
   "relative_attention_max_distance": 128,

 {
+  "_name_or_path": "google-t5/t5-base",
   "architectures": [
     "T5ForConditionalGeneration"
   ],
   "classifier_dropout": 0.0,
+  "d_ff": 3072,
   "d_kv": 64,
+  "d_model": 768,
   "decoder_start_token_id": 0,
   "dense_act_fn": "relu",
   "dropout_rate": 0.1,
   "layer_norm_epsilon": 1e-06,
   "model_type": "t5",
   "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
   "output_past": true,
   "pad_token_id": 0,
   "relative_attention_max_distance": 128,

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 50.0,
-    "eval_gen_len": 68.34782608695652,
-    "eval_loss": 0.04586370289325714,
-    "eval_rouge1": 87.1522,
-    "eval_rouge2": 86.6031,
-    "eval_rougeL": 87.1206,
-    "eval_rougeLsum": 87.0701,
-    "eval_runtime": 3.3714,
     "eval_samples": 69,
-    "eval_samples_per_second": 20.467,
-    "eval_steps_per_second": 2.67
 }

 {
+    "epoch": 5.0,
+    "eval_gen_len": 62.05797101449275,
+    "eval_loss": 0.0359114333987236,
+    "eval_rouge1": 84.8601,
+    "eval_rouge2": 84.2185,
+    "eval_rougeL": 84.7842,
+    "eval_rougeLsum": 84.8657,
+    "eval_runtime": 9.4102,
     "eval_samples": 69,
+    "eval_samples_per_second": 7.332,
+    "eval_steps_per_second": 1.913
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01ed1cd65605ceb6bdbeb9d361e56aad4a992608f3a9d3093a7610dfc198ebfc
-size 242041896

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e246720b637d1f8b21602feb21506054bfa943035657a6a0a489f6ecff230fa
+size 891644712

special_tokens_map.json CHANGED Viewed

@@ -101,25 +101,7 @@
     "<extra_id_98>",
     "<extra_id_99>"
   ],
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
 }

     "<extra_id_98>",
     "<extra_id_99>"
   ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
 }

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 128,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

tokenizer_config.json CHANGED Viewed

@@ -930,7 +930,7 @@
   "clean_up_tokenization_spaces": true,
   "eos_token": "</s>",
   "extra_ids": 100,
-  "model_max_length": 512,
   "pad_token": "<pad>",
   "tokenizer_class": "T5Tokenizer",
   "unk_token": "<unk>"

   "clean_up_tokenization_spaces": true,
   "eos_token": "</s>",
   "extra_ids": 100,
+  "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "tokenizer_class": "T5Tokenizer",
   "unk_token": "<unk>"

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 50.0,
-    "train_loss": 0.08541564777919225,
-    "train_runtime": 358.6661,
     "train_samples": 276,
-    "train_samples_per_second": 38.476,
-    "train_steps_per_second": 4.879
 }

 {
+    "epoch": 5.0,
+    "train_loss": 0.16054312664529552,
+    "train_runtime": 120.7301,
     "train_samples": 276,
+    "train_samples_per_second": 11.43,
+    "train_steps_per_second": 2.858
 }

trainer_state.json CHANGED Viewed

@@ -1,698 +1,95 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 50.0,
   "eval_steps": 500,
-  "global_step": 1750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_gen_len": 81.21739130434783,
-      "eval_loss": 0.4761563539505005,
-      "eval_rouge1": 53.8677,
-      "eval_rouge2": 44.8002,
-      "eval_rougeL": 49.2937,
-      "eval_rougeLsum": 51.8392,
-      "eval_runtime": 3.1021,
-      "eval_samples_per_second": 22.243,
-      "eval_steps_per_second": 2.901,
-      "step": 35
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 66.27536231884058,
-      "eval_loss": 0.28426334261894226,
-      "eval_rouge1": 63.6062,
-      "eval_rouge2": 58.4113,
-      "eval_rougeL": 61.1896,
-      "eval_rougeLsum": 62.3844,
-      "eval_runtime": 2.9392,
-      "eval_samples_per_second": 23.476,
-      "eval_steps_per_second": 3.062,
-      "step": 70
     },
     {
       "epoch": 3.0,
-      "eval_gen_len": 61.20289855072464,
-      "eval_loss": 0.21173293888568878,
-      "eval_rouge1": 64.8696,
-      "eval_rouge2": 60.8866,
-      "eval_rougeL": 63.1615,
-      "eval_rougeLsum": 64.2496,
-      "eval_runtime": 2.8249,
-      "eval_samples_per_second": 24.425,
-      "eval_steps_per_second": 3.186,
-      "step": 105
     },
     {
       "epoch": 4.0,
-      "eval_gen_len": 62.82608695652174,
-      "eval_loss": 0.17675279080867767,
-      "eval_rouge1": 70.8455,
-      "eval_rouge2": 67.8574,
-      "eval_rougeL": 69.4736,
-      "eval_rougeLsum": 70.0874,
-      "eval_runtime": 2.7232,
-      "eval_samples_per_second": 25.338,
-      "eval_steps_per_second": 3.305,
-      "step": 140
     },
     {
       "epoch": 5.0,
-      "eval_gen_len": 61.46376811594203,
-      "eval_loss": 0.15457534790039062,
-      "eval_rouge1": 74.0309,
-      "eval_rouge2": 71.9404,
-      "eval_rougeL": 73.3747,
-      "eval_rougeLsum": 73.5531,
-      "eval_runtime": 2.77,
-      "eval_samples_per_second": 24.91,
-      "eval_steps_per_second": 3.249,
-      "step": 175
     },
     {
-      "epoch": 6.0,
-      "eval_gen_len": 63.0,
-      "eval_loss": 0.13463033735752106,
-      "eval_rouge1": 77.1153,
-      "eval_rouge2": 75.713,
-      "eval_rougeL": 77.0396,
-      "eval_rougeLsum": 76.815,
-      "eval_runtime": 2.9058,
-      "eval_samples_per_second": 23.745,
-      "eval_steps_per_second": 3.097,
-      "step": 210
-    },
-    {
-      "epoch": 7.0,
-      "eval_gen_len": 65.55072463768116,
-      "eval_loss": 0.12134861946105957,
-      "eval_rouge1": 80.2369,
-      "eval_rouge2": 79.6485,
-      "eval_rougeL": 80.4178,
-      "eval_rougeLsum": 80.1986,
-      "eval_runtime": 2.934,
-      "eval_samples_per_second": 23.517,
-      "eval_steps_per_second": 3.067,
-      "step": 245
-    },
-    {
-      "epoch": 8.0,
-      "eval_gen_len": 65.23188405797102,
-      "eval_loss": 0.10570676624774933,
-      "eval_rouge1": 82.3014,
-      "eval_rouge2": 81.6093,
-      "eval_rougeL": 82.3372,
-      "eval_rougeLsum": 82.1797,
-      "eval_runtime": 2.7932,
-      "eval_samples_per_second": 24.703,
-      "eval_steps_per_second": 3.222,
-      "step": 280
-    },
-    {
-      "epoch": 9.0,
-      "eval_gen_len": 66.08695652173913,
-      "eval_loss": 0.09365525096654892,
-      "eval_rouge1": 83.5682,
-      "eval_rouge2": 82.9738,
-      "eval_rougeL": 83.6388,
-      "eval_rougeLsum": 83.5486,
-      "eval_runtime": 2.9365,
-      "eval_samples_per_second": 23.497,
-      "eval_steps_per_second": 3.065,
-      "step": 315
-    },
-    {
-      "epoch": 10.0,
-      "eval_gen_len": 66.08695652173913,
-      "eval_loss": 0.08428314328193665,
-      "eval_rouge1": 83.5735,
-      "eval_rouge2": 82.9779,
-      "eval_rougeL": 83.6425,
-      "eval_rougeLsum": 83.5533,
-      "eval_runtime": 2.9255,
-      "eval_samples_per_second": 23.586,
-      "eval_steps_per_second": 3.076,
-      "step": 350
-    },
-    {
-      "epoch": 11.0,
-      "eval_gen_len": 67.69565217391305,
-      "eval_loss": 0.07632659375667572,
-      "eval_rouge1": 83.5502,
-      "eval_rouge2": 83.0151,
-      "eval_rougeL": 83.7004,
-      "eval_rougeLsum": 83.6188,
-      "eval_runtime": 3.0282,
-      "eval_samples_per_second": 22.786,
-      "eval_steps_per_second": 2.972,
-      "step": 385
-    },
-    {
-      "epoch": 12.0,
-      "eval_gen_len": 65.6086956521739,
-      "eval_loss": 0.06880246102809906,
-      "eval_rouge1": 83.8612,
-      "eval_rouge2": 83.4112,
-      "eval_rougeL": 84.0555,
-      "eval_rougeLsum": 83.8541,
-      "eval_runtime": 2.9936,
-      "eval_samples_per_second": 23.049,
-      "eval_steps_per_second": 3.006,
-      "step": 420
-    },
-    {
-      "epoch": 13.0,
-      "eval_gen_len": 68.4927536231884,
-      "eval_loss": 0.0652654618024826,
-      "eval_rouge1": 83.2559,
-      "eval_rouge2": 82.7398,
-      "eval_rougeL": 83.437,
-      "eval_rougeLsum": 83.3363,
-      "eval_runtime": 3.0469,
-      "eval_samples_per_second": 22.646,
-      "eval_steps_per_second": 2.954,
-      "step": 455
-    },
-    {
-      "epoch": 14.0,
-      "eval_gen_len": 67.76811594202898,
-      "eval_loss": 0.06127766892313957,
-      "eval_rouge1": 84.2407,
-      "eval_rouge2": 83.738,
-      "eval_rougeL": 84.3104,
-      "eval_rougeLsum": 84.3012,
-      "eval_runtime": 3.1021,
-      "eval_samples_per_second": 22.243,
-      "eval_steps_per_second": 2.901,
-      "step": 490
-    },
-    {
-      "epoch": 14.29,
-      "learning_rate": 1.4285714285714287e-05,
-      "loss": 0.1963,
-      "step": 500
-    },
-    {
-      "epoch": 15.0,
-      "eval_gen_len": 68.55072463768116,
-      "eval_loss": 0.05842842161655426,
-      "eval_rouge1": 83.8361,
-      "eval_rouge2": 83.3141,
-      "eval_rougeL": 83.8976,
-      "eval_rougeLsum": 83.8751,
-      "eval_runtime": 3.2109,
-      "eval_samples_per_second": 21.489,
-      "eval_steps_per_second": 2.803,
-      "step": 525
-    },
-    {
-      "epoch": 16.0,
-      "eval_gen_len": 71.4927536231884,
-      "eval_loss": 0.05631176754832268,
-      "eval_rouge1": 83.5952,
-      "eval_rouge2": 83.1416,
-      "eval_rougeL": 83.5644,
-      "eval_rougeLsum": 83.5389,
-      "eval_runtime": 3.2752,
-      "eval_samples_per_second": 21.067,
-      "eval_steps_per_second": 2.748,
-      "step": 560
-    },
-    {
-      "epoch": 17.0,
-      "eval_gen_len": 69.47826086956522,
-      "eval_loss": 0.05389421060681343,
-      "eval_rouge1": 84.6048,
-      "eval_rouge2": 84.1681,
-      "eval_rougeL": 84.7325,
-      "eval_rougeLsum": 84.567,
-      "eval_runtime": 3.2569,
-      "eval_samples_per_second": 21.186,
-      "eval_steps_per_second": 2.763,
-      "step": 595
-    },
-    {
-      "epoch": 18.0,
-      "eval_gen_len": 68.72463768115942,
-      "eval_loss": 0.052007660269737244,
-      "eval_rouge1": 84.9204,
-      "eval_rouge2": 84.4493,
-      "eval_rougeL": 85.0357,
-      "eval_rougeLsum": 84.9063,
-      "eval_runtime": 3.1538,
-      "eval_samples_per_second": 21.879,
-      "eval_steps_per_second": 2.854,
-      "step": 630
-    },
-    {
-      "epoch": 19.0,
-      "eval_gen_len": 69.79710144927536,
-      "eval_loss": 0.051409389823675156,
-      "eval_rouge1": 84.3924,
-      "eval_rouge2": 83.9735,
-      "eval_rougeL": 84.4126,
-      "eval_rougeLsum": 84.3779,
-      "eval_runtime": 3.2185,
-      "eval_samples_per_second": 21.438,
-      "eval_steps_per_second": 2.796,
-      "step": 665
-    },
-    {
-      "epoch": 20.0,
-      "eval_gen_len": 67.23188405797102,
-      "eval_loss": 0.050410542637109756,
-      "eval_rouge1": 86.1503,
-      "eval_rouge2": 85.6151,
-      "eval_rougeL": 86.2393,
-      "eval_rougeLsum": 86.0495,
-      "eval_runtime": 3.144,
-      "eval_samples_per_second": 21.947,
-      "eval_steps_per_second": 2.863,
-      "step": 700
-    },
-    {
-      "epoch": 21.0,
-      "eval_gen_len": 66.52173913043478,
-      "eval_loss": 0.04962162673473358,
-      "eval_rouge1": 86.4875,
-      "eval_rouge2": 85.9614,
-      "eval_rougeL": 86.5042,
-      "eval_rougeLsum": 86.3616,
-      "eval_runtime": 3.1455,
-      "eval_samples_per_second": 21.936,
-      "eval_steps_per_second": 2.861,
-      "step": 735
-    },
-    {
-      "epoch": 22.0,
-      "eval_gen_len": 67.94202898550725,
-      "eval_loss": 0.04964025691151619,
-      "eval_rouge1": 85.6339,
-      "eval_rouge2": 85.1604,
-      "eval_rougeL": 85.6862,
-      "eval_rougeLsum": 85.5112,
-      "eval_runtime": 3.1386,
-      "eval_samples_per_second": 21.984,
-      "eval_steps_per_second": 2.868,
-      "step": 770
-    },
-    {
-      "epoch": 23.0,
-      "eval_gen_len": 65.52173913043478,
-      "eval_loss": 0.04901711642742157,
-      "eval_rouge1": 87.0368,
-      "eval_rouge2": 86.5415,
-      "eval_rougeL": 87.1099,
-      "eval_rougeLsum": 86.9317,
-      "eval_runtime": 3.1705,
-      "eval_samples_per_second": 21.763,
-      "eval_steps_per_second": 2.839,
-      "step": 805
-    },
-    {
-      "epoch": 24.0,
-      "eval_gen_len": 67.94202898550725,
-      "eval_loss": 0.04925404489040375,
-      "eval_rouge1": 85.6323,
-      "eval_rouge2": 85.1577,
-      "eval_rougeL": 85.6823,
-      "eval_rougeLsum": 85.5102,
-      "eval_runtime": 3.1481,
-      "eval_samples_per_second": 21.918,
-      "eval_steps_per_second": 2.859,
-      "step": 840
-    },
-    {
-      "epoch": 25.0,
-      "eval_gen_len": 69.04347826086956,
-      "eval_loss": 0.049253568053245544,
-      "eval_rouge1": 86.3078,
-      "eval_rouge2": 85.7832,
-      "eval_rougeL": 86.3026,
-      "eval_rougeLsum": 86.1442,
-      "eval_runtime": 3.2721,
-      "eval_samples_per_second": 21.087,
-      "eval_steps_per_second": 2.751,
-      "step": 875
-    },
-    {
-      "epoch": 26.0,
-      "eval_gen_len": 70.28985507246377,
-      "eval_loss": 0.04901302605867386,
-      "eval_rouge1": 85.877,
-      "eval_rouge2": 85.3534,
-      "eval_rougeL": 85.9035,
-      "eval_rougeLsum": 85.8208,
-      "eval_runtime": 3.3048,
-      "eval_samples_per_second": 20.879,
-      "eval_steps_per_second": 2.723,
-      "step": 910
-    },
-    {
-      "epoch": 27.0,
-      "eval_gen_len": 69.2463768115942,
-      "eval_loss": 0.04779437184333801,
-      "eval_rouge1": 86.6353,
-      "eval_rouge2": 86.054,
-      "eval_rougeL": 86.5856,
-      "eval_rougeLsum": 86.5515,
-      "eval_runtime": 3.295,
-      "eval_samples_per_second": 20.941,
-      "eval_steps_per_second": 2.731,
-      "step": 945
-    },
-    {
-      "epoch": 28.0,
-      "eval_gen_len": 68.56521739130434,
-      "eval_loss": 0.047761447727680206,
-      "eval_rouge1": 87.0975,
-      "eval_rouge2": 86.5716,
-      "eval_rougeL": 87.1452,
-      "eval_rougeLsum": 87.0713,
-      "eval_runtime": 3.2938,
-      "eval_samples_per_second": 20.948,
-      "eval_steps_per_second": 2.732,
-      "step": 980
-    },
-    {
-      "epoch": 28.57,
-      "learning_rate": 8.571428571428571e-06,
-      "loss": 0.0499,
-      "step": 1000
-    },
-    {
-      "epoch": 29.0,
-      "eval_gen_len": 67.0,
-      "eval_loss": 0.04680383577942848,
-      "eval_rouge1": 87.9989,
-      "eval_rouge2": 87.509,
-      "eval_rougeL": 88.0597,
-      "eval_rougeLsum": 87.9458,
-      "eval_runtime": 3.282,
-      "eval_samples_per_second": 21.024,
-      "eval_steps_per_second": 2.742,
-      "step": 1015
-    },
-    {
-      "epoch": 30.0,
-      "eval_gen_len": 69.1304347826087,
-      "eval_loss": 0.046802520751953125,
-      "eval_rouge1": 86.6642,
-      "eval_rouge2": 86.1007,
-      "eval_rougeL": 86.6429,
-      "eval_rougeLsum": 86.582,
-      "eval_runtime": 3.306,
-      "eval_samples_per_second": 20.871,
-      "eval_steps_per_second": 2.722,
-      "step": 1050
-    },
-    {
-      "epoch": 31.0,
-      "eval_gen_len": 69.30434782608695,
-      "eval_loss": 0.04671892151236534,
-      "eval_rouge1": 86.3475,
-      "eval_rouge2": 85.7566,
-      "eval_rougeL": 86.257,
-      "eval_rougeLsum": 86.2544,
-      "eval_runtime": 3.2952,
-      "eval_samples_per_second": 20.94,
-      "eval_steps_per_second": 2.731,
-      "step": 1085
-    },
-    {
-      "epoch": 32.0,
-      "eval_gen_len": 69.14492753623189,
-      "eval_loss": 0.046326328068971634,
-      "eval_rouge1": 86.6794,
-      "eval_rouge2": 86.1044,
-      "eval_rougeL": 86.6438,
-      "eval_rougeLsum": 86.5856,
-      "eval_runtime": 3.3092,
-      "eval_samples_per_second": 20.851,
-      "eval_steps_per_second": 2.72,
-      "step": 1120
-    },
-    {
-      "epoch": 33.0,
-      "eval_gen_len": 69.14492753623189,
-      "eval_loss": 0.0462319478392601,
-      "eval_rouge1": 86.6794,
-      "eval_rouge2": 86.1044,
-      "eval_rougeL": 86.6438,
-      "eval_rougeLsum": 86.5856,
-      "eval_runtime": 3.2895,
-      "eval_samples_per_second": 20.976,
-      "eval_steps_per_second": 2.736,
-      "step": 1155
-    },
-    {
-      "epoch": 34.0,
-      "eval_gen_len": 68.46376811594203,
-      "eval_loss": 0.04606299102306366,
-      "eval_rouge1": 87.1151,
-      "eval_rouge2": 86.605,
-      "eval_rougeL": 87.1857,
-      "eval_rougeLsum": 87.1151,
-      "eval_runtime": 3.2939,
-      "eval_samples_per_second": 20.948,
-      "eval_steps_per_second": 2.732,
-      "step": 1190
-    },
-    {
-      "epoch": 35.0,
-      "eval_gen_len": 67.01449275362319,
-      "eval_loss": 0.045941609889268875,
-      "eval_rouge1": 88.0068,
-      "eval_rouge2": 87.5135,
-      "eval_rougeL": 88.0611,
-      "eval_rougeLsum": 87.9535,
-      "eval_runtime": 3.2649,
-      "eval_samples_per_second": 21.134,
-      "eval_steps_per_second": 2.757,
-      "step": 1225
-    },
-    {
-      "epoch": 36.0,
-      "eval_gen_len": 67.57971014492753,
-      "eval_loss": 0.045919787138700485,
-      "eval_rouge1": 87.6823,
-      "eval_rouge2": 87.1982,
-      "eval_rougeL": 87.7207,
-      "eval_rougeLsum": 87.6541,
-      "eval_runtime": 3.2871,
-      "eval_samples_per_second": 20.991,
-      "eval_steps_per_second": 2.738,
-      "step": 1260
-    },
-    {
-      "epoch": 37.0,
-      "eval_gen_len": 69.14492753623189,
-      "eval_loss": 0.04610535874962807,
-      "eval_rouge1": 86.6794,
-      "eval_rouge2": 86.1044,
-      "eval_rougeL": 86.6438,
-      "eval_rougeLsum": 86.5856,
-      "eval_runtime": 3.2941,
-      "eval_samples_per_second": 20.946,
-      "eval_steps_per_second": 2.732,
-      "step": 1295
-    },
-    {
-      "epoch": 38.0,
-      "eval_gen_len": 69.14492753623189,
-      "eval_loss": 0.046049315482378006,
-      "eval_rouge1": 86.6794,
-      "eval_rouge2": 86.1044,
-      "eval_rougeL": 86.6438,
-      "eval_rougeLsum": 86.5856,
-      "eval_runtime": 3.2849,
-      "eval_samples_per_second": 21.005,
-      "eval_steps_per_second": 2.74,
-      "step": 1330
-    },
-    {
-      "epoch": 39.0,
-      "eval_gen_len": 69.04347826086956,
-      "eval_loss": 0.04580928757786751,
-      "eval_rouge1": 86.701,
-      "eval_rouge2": 86.1532,
-      "eval_rougeL": 86.6831,
-      "eval_rougeLsum": 86.6226,
-      "eval_runtime": 3.2714,
-      "eval_samples_per_second": 21.092,
-      "eval_steps_per_second": 2.751,
-      "step": 1365
-    },
-    {
-      "epoch": 40.0,
-      "eval_gen_len": 69.04347826086956,
-      "eval_loss": 0.04582460597157478,
-      "eval_rouge1": 86.701,
-      "eval_rouge2": 86.1532,
-      "eval_rougeL": 86.6831,
-      "eval_rougeLsum": 86.6226,
-      "eval_runtime": 3.2721,
-      "eval_samples_per_second": 21.087,
-      "eval_steps_per_second": 2.751,
-      "step": 1400
-    },
-    {
-      "epoch": 41.0,
-      "eval_gen_len": 67.47826086956522,
-      "eval_loss": 0.0457453578710556,
-      "eval_rouge1": 87.6998,
-      "eval_rouge2": 87.2471,
-      "eval_rougeL": 87.7695,
-      "eval_rougeLsum": 87.6934,
-      "eval_runtime": 3.2688,
-      "eval_samples_per_second": 21.109,
-      "eval_steps_per_second": 2.753,
-      "step": 1435
-    },
-    {
-      "epoch": 42.0,
-      "eval_gen_len": 69.14492753623189,
-      "eval_loss": 0.04603540897369385,
-      "eval_rouge1": 86.6794,
-      "eval_rouge2": 86.1044,
-      "eval_rougeL": 86.6438,
-      "eval_rougeLsum": 86.5856,
-      "eval_runtime": 3.3002,
-      "eval_samples_per_second": 20.908,
-      "eval_steps_per_second": 2.727,
-      "step": 1470
-    },
-    {
-      "epoch": 42.86,
-      "learning_rate": 2.8571428571428573e-06,
-      "loss": 0.0362,
-      "step": 1500
-    },
-    {
-      "epoch": 43.0,
-      "eval_gen_len": 67.65217391304348,
-      "eval_loss": 0.045989979058504105,
-      "eval_rouge1": 87.5977,
-      "eval_rouge2": 87.1424,
-      "eval_rougeL": 87.6777,
-      "eval_rougeLsum": 87.5976,
-      "eval_runtime": 3.2827,
-      "eval_samples_per_second": 21.02,
-      "eval_steps_per_second": 2.742,
-      "step": 1505
-    },
-    {
-      "epoch": 44.0,
-      "eval_gen_len": 67.76811594202898,
-      "eval_loss": 0.04582388699054718,
-      "eval_rouge1": 87.571,
-      "eval_rouge2": 87.1237,
-      "eval_rougeL": 87.6515,
-      "eval_rougeLsum": 87.5747,
-      "eval_runtime": 3.3039,
-      "eval_samples_per_second": 20.884,
-      "eval_steps_per_second": 2.724,
-      "step": 1540
-    },
-    {
-      "epoch": 45.0,
-      "eval_gen_len": 67.10144927536231,
-      "eval_loss": 0.045716848224401474,
-      "eval_rouge1": 87.9476,
-      "eval_rouge2": 87.4526,
-      "eval_rougeL": 88.0306,
-      "eval_rougeLsum": 87.9122,
-      "eval_runtime": 3.2864,
-      "eval_samples_per_second": 20.996,
-      "eval_steps_per_second": 2.739,
-      "step": 1575
-    },
-    {
-      "epoch": 46.0,
-      "eval_gen_len": 67.66666666666667,
-      "eval_loss": 0.04581255465745926,
-      "eval_rouge1": 87.6074,
-      "eval_rouge2": 87.1494,
-      "eval_rougeL": 87.6861,
-      "eval_rougeLsum": 87.6103,
-      "eval_runtime": 3.297,
-      "eval_samples_per_second": 20.928,
-      "eval_steps_per_second": 2.73,
-      "step": 1610
-    },
-    {
-      "epoch": 47.0,
-      "eval_gen_len": 67.66666666666667,
-      "eval_loss": 0.045844241976737976,
-      "eval_rouge1": 87.6074,
-      "eval_rouge2": 87.1494,
-      "eval_rougeL": 87.6861,
-      "eval_rougeLsum": 87.6103,
-      "eval_runtime": 3.2878,
-      "eval_samples_per_second": 20.987,
-      "eval_steps_per_second": 2.737,
-      "step": 1645
-    },
-    {
-      "epoch": 48.0,
-      "eval_gen_len": 67.66666666666667,
-      "eval_loss": 0.045833244919776917,
-      "eval_rouge1": 87.6074,
-      "eval_rouge2": 87.1494,
-      "eval_rougeL": 87.6861,
-      "eval_rougeLsum": 87.6103,
-      "eval_runtime": 3.2729,
-      "eval_samples_per_second": 21.082,
-      "eval_steps_per_second": 2.75,
-      "step": 1680
-    },
-    {
-      "epoch": 49.0,
-      "eval_gen_len": 68.34782608695652,
-      "eval_loss": 0.045867208391427994,
-      "eval_rouge1": 87.1522,
-      "eval_rouge2": 86.6031,
-      "eval_rougeL": 87.1206,
-      "eval_rougeLsum": 87.0701,
-      "eval_runtime": 3.2833,
-      "eval_samples_per_second": 21.016,
-      "eval_steps_per_second": 2.741,
-      "step": 1715
-    },
-    {
-      "epoch": 50.0,
-      "eval_gen_len": 68.34782608695652,
-      "eval_loss": 0.04586370289325714,
-      "eval_rouge1": 87.1522,
-      "eval_rouge2": 86.6031,
-      "eval_rougeL": 87.1206,
-      "eval_rougeLsum": 87.0701,
-      "eval_runtime": 3.2773,
-      "eval_samples_per_second": 21.054,
-      "eval_steps_per_second": 2.746,
-      "step": 1750
-    },
-    {
-      "epoch": 50.0,
-      "step": 1750,
-      "total_flos": 3735433720627200.0,
-      "train_loss": 0.08541564777919225,
-      "train_runtime": 358.6661,
-      "train_samples_per_second": 38.476,
-      "train_steps_per_second": 4.879
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1750,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 50,
   "save_steps": 500,
-  "total_flos": 3735433720627200.0,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 345,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_gen_len": 49.08695652173913,
+      "eval_loss": 0.2411632537841797,
+      "eval_rouge1": 74.9533,
+      "eval_rouge2": 71.1831,
+      "eval_rougeL": 74.2512,
+      "eval_rougeLsum": 74.5914,
+      "eval_runtime": 9.2355,
+      "eval_samples_per_second": 7.471,
+      "eval_steps_per_second": 1.949,
+      "step": 69
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 88.17391304347827,
+      "eval_loss": 0.08010436594486237,
+      "eval_rouge1": 78.7144,
+      "eval_rouge2": 77.7186,
+      "eval_rougeL": 78.6962,
+      "eval_rougeLsum": 78.6452,
+      "eval_runtime": 11.7911,
+      "eval_samples_per_second": 5.852,
+      "eval_steps_per_second": 1.527,
+      "step": 138
     },
     {
       "epoch": 3.0,
+      "eval_gen_len": 73.0,
+      "eval_loss": 0.08717019110918045,
+      "eval_rouge1": 83.0112,
+      "eval_rouge2": 82.1689,
+      "eval_rougeL": 82.8847,
+      "eval_rougeLsum": 82.9534,
+      "eval_runtime": 10.9663,
+      "eval_samples_per_second": 6.292,
+      "eval_steps_per_second": 1.641,
+      "step": 207
     },
     {
       "epoch": 4.0,
+      "eval_gen_len": 60.88405797101449,
+      "eval_loss": 0.06106267869472504,
+      "eval_rouge1": 86.2191,
+      "eval_rouge2": 85.8311,
+      "eval_rougeL": 86.308,
+      "eval_rougeLsum": 86.4542,
+      "eval_runtime": 9.6061,
+      "eval_samples_per_second": 7.183,
+      "eval_steps_per_second": 1.874,
+      "step": 276
     },
     {
       "epoch": 5.0,
+      "eval_gen_len": 62.05797101449275,
+      "eval_loss": 0.0359114333987236,
+      "eval_rouge1": 84.8601,
+      "eval_rouge2": 84.2185,
+      "eval_rougeL": 84.7842,
+      "eval_rougeLsum": 84.8657,
+      "eval_runtime": 9.6516,
+      "eval_samples_per_second": 7.149,
+      "eval_steps_per_second": 1.865,
+      "step": 345
     },
     {
+      "epoch": 5.0,
+      "step": 345,
+      "total_flos": 1680723777945600.0,
+      "train_loss": 0.16054312664529552,
+      "train_runtime": 120.7301,
+      "train_samples_per_second": 11.43,
+      "train_steps_per_second": 2.858
     }
   ],
   "logging_steps": 500,
+  "max_steps": 345,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 1680723777945600.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74003bc739bb73bad7e8ab0c9f428e1e0ebb810c2783c8045252e647116f0eed
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e025e4018a9890f32b5c68a2e1bb60ff4238740a0a6ef6e06af05e57c789d285
 size 4984