updated by abhijithneilabraham

Browse files

Files changed (11) hide show

config.json +56 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +1 -0
spiece.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
trainer_state.json +1156 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_name_or_path": "google/pegasus-pubmed",
+  "activation_dropout": 0.1,
+  "activation_function": "relu",
+  "add_bias_logits": false,
+  "add_final_layer_norm": true,
+  "architectures": [
+    "PegasusForConditionalGeneration"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 1024,
+  "decoder_attention_heads": 16,
+  "decoder_ffn_dim": 4096,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 16,
+  "decoder_start_token_id": 0,
+  "dropout": 0.1,
+  "encoder_attention_heads": 16,
+  "encoder_ffn_dim": 4096,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 16,
+  "eos_token_id": 1,
+  "extra_pos_embeddings": 1,
+  "forced_eos_token_id": 1,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "length_penalty": 0.8,
+  "max_length": 256,
+  "max_position_embeddings": 1024,
+  "min_length": 32,
+  "model_type": "pegasus",
+  "normalize_before": true,
+  "normalize_embedding": false,
+  "num_beams": 8,
+  "num_hidden_layers": 16,
+  "pad_token_id": 0,
+  "scale_embedding": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.13.0",
+  "use_cache": true,
+  "vocab_size": 96103
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f1319e5dd880c5a18b9d501f2fa5479532848a6371931b492d44c9462f612ee
+size 4550014615

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:244454df3d37b755ec0ce4d818b77e00986be8b506f9afffacdc6fa4f73d6135
+size 2283834829

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acfc7c5d62e915d3c3b520f2600ffa7c59ec9807db73534c68cce067d1520ea9
+size 17672

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ae62c7a2018fef5496da63a2bce6219d8ee040ceb325bad8ac1e7a13b7234df
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "mask_token": "<mask_2>", "additional_special_tokens": ["<mask_1>", "<unk_2>", "<unk_3>", "<unk_4>", "<unk_5>", "<unk_6>", "<unk_7>", "<unk_8>", "<unk_9>", "<unk_10>", "<unk_11>", "<unk_12>", "<unk_13>", "<unk_14>", "<unk_15>", "<unk_16>", "<unk_17>", "<unk_18>", "<unk_19>", "<unk_20>", "<unk_21>", "<unk_22>", "<unk_23>", "<unk_24>", "<unk_25>", "<unk_26>", "<unk_27>", "<unk_28>", "<unk_29>", "<unk_30>", "<unk_31>", "<unk_32>", "<unk_33>", "<unk_34>", "<unk_35>", "<unk_36>", "<unk_37>", "<unk_38>", "<unk_39>", "<unk_40>", "<unk_41>", "<unk_42>", "<unk_43>", "<unk_44>", "<unk_45>", "<unk_46>", "<unk_47>", "<unk_48>", "<unk_49>", "<unk_50>", "<unk_51>", "<unk_52>", "<unk_53>", "<unk_54>", "<unk_55>", "<unk_56>", "<unk_57>", "<unk_58>", "<unk_59>", "<unk_60>", "<unk_61>", "<unk_62>", "<unk_63>", "<unk_64>", "<unk_65>", "<unk_66>", "<unk_67>", "<unk_68>", "<unk_69>", "<unk_70>", "<unk_71>", "<unk_72>", "<unk_73>", "<unk_74>", "<unk_75>", "<unk_76>", "<unk_77>", "<unk_78>", "<unk_79>", "<unk_80>", "<unk_81>", "<unk_82>", "<unk_83>", "<unk_84>", "<unk_85>", "<unk_86>", "<unk_87>", "<unk_88>", "<unk_89>", "<unk_90>", "<unk_91>", "<unk_92>", "<unk_93>", "<unk_94>", "<unk_95>", "<unk_96>", "<unk_97>", "<unk_98>", "<unk_99>", "<unk_100>", "<unk_101>", "<unk_102>"]}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0015189ef36359283fec8b93cf6d9ce51bca37eb1101defc68a53b394913b96c
+size 1912529

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"pad_token": "<pad>", "eos_token": "</s>", "unk_token": "<unk>", "mask_token": "<mask_2>", "mask_token_sent": "<mask_1>", "offset": 103, "additional_special_tokens": ["<mask_1>", "<unk_2>", "<unk_3>", "<unk_4>", "<unk_5>", "<unk_6>", "<unk_7>", "<unk_8>", "<unk_9>", "<unk_10>", "<unk_11>", "<unk_12>", "<unk_13>", "<unk_14>", "<unk_15>", "<unk_16>", "<unk_17>", "<unk_18>", "<unk_19>", "<unk_20>", "<unk_21>", "<unk_22>", "<unk_23>", "<unk_24>", "<unk_25>", "<unk_26>", "<unk_27>", "<unk_28>", "<unk_29>", "<unk_30>", "<unk_31>", "<unk_32>", "<unk_33>", "<unk_34>", "<unk_35>", "<unk_36>", "<unk_37>", "<unk_38>", "<unk_39>", "<unk_40>", "<unk_41>", "<unk_42>", "<unk_43>", "<unk_44>", "<unk_45>", "<unk_46>", "<unk_47>", "<unk_48>", "<unk_49>", "<unk_50>", "<unk_51>", "<unk_52>", "<unk_53>", "<unk_54>", "<unk_55>", "<unk_56>", "<unk_57>", "<unk_58>", "<unk_59>", "<unk_60>", "<unk_61>", "<unk_62>", "<unk_63>", "<unk_64>", "<unk_65>", "<unk_66>", "<unk_67>", "<unk_68>", "<unk_69>", "<unk_70>", "<unk_71>", "<unk_72>", "<unk_73>", "<unk_74>", "<unk_75>", "<unk_76>", "<unk_77>", "<unk_78>", "<unk_79>", "<unk_80>", "<unk_81>", "<unk_82>", "<unk_83>", "<unk_84>", "<unk_85>", "<unk_86>", "<unk_87>", "<unk_88>", "<unk_89>", "<unk_90>", "<unk_91>", "<unk_92>", "<unk_93>", "<unk_94>", "<unk_95>", "<unk_96>", "<unk_97>", "<unk_98>", "<unk_99>", "<unk_100>", "<unk_101>", "<unk_102>"], "model_max_length": 1024, "special_tokens_map_file": null, "full_tokenizer_file": null, "name_or_path": "google/pegasus-pubmed", "sp_model_kwargs": {}, "tokenizer_class": "PegasusTokenizer"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1156 @@

+{
+  "best_metric": 1.4883581399917603,
+  "best_model_checkpoint": "ccdv_pegasus_xsum_summarization/checkpoint-13500",
+  "epoch": 2.0012007204322595,
+  "global_step": 30000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.944411091099104e-05,
+      "loss": 1.3482,
+      "step": 500
+    },
+    {
+      "epoch": 0.03,
+      "eval_gen_len": 190.7041,
+      "eval_loss": 1.5671061277389526,
+      "eval_rouge1": 43.9725,
+      "eval_rouge2": 20.8852,
+      "eval_rougeL": 29.6036,
+      "eval_rougeLsum": 39.2595,
+      "eval_runtime": 10745.9844,
+      "eval_samples_per_second": 0.617,
+      "eval_steps_per_second": 0.077,
+      "step": 500
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.8888221821982085e-05,
+      "loss": 1.0335,
+      "step": 1000
+    },
+    {
+      "epoch": 0.07,
+      "eval_gen_len": 159.8545,
+      "eval_loss": 1.5465657711029053,
+      "eval_rouge1": 44.9236,
+      "eval_rouge2": 21.1853,
+      "eval_rougeL": 30.4447,
+      "eval_rougeLsum": 39.9918,
+      "eval_runtime": 10231.1208,
+      "eval_samples_per_second": 0.648,
+      "eval_steps_per_second": 0.081,
+      "step": 1000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.8332332732973116e-05,
+      "loss": 1.0184,
+      "step": 1500
+    },
+    {
+      "epoch": 0.1,
+      "eval_gen_len": 143.5453,
+      "eval_loss": 1.5334348678588867,
+      "eval_rouge1": 44.9483,
+      "eval_rouge2": 20.9962,
+      "eval_rougeL": 30.5328,
+      "eval_rougeLsum": 40.0531,
+      "eval_runtime": 8769.3615,
+      "eval_samples_per_second": 0.756,
+      "eval_steps_per_second": 0.095,
+      "step": 1500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.777644364396416e-05,
+      "loss": 1.0015,
+      "step": 2000
+    },
+    {
+      "epoch": 0.13,
+      "eval_gen_len": 137.856,
+      "eval_loss": 1.529853343963623,
+      "eval_rouge1": 45.9034,
+      "eval_rouge2": 21.784,
+      "eval_rougeL": 31.4025,
+      "eval_rougeLsum": 40.8983,
+      "eval_runtime": 7582.4229,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.109,
+      "step": 2000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.72205545549552e-05,
+      "loss": 1.0101,
+      "step": 2500
+    },
+    {
+      "epoch": 0.17,
+      "eval_gen_len": 134.5485,
+      "eval_loss": 1.5291049480438232,
+      "eval_rouge1": 45.6738,
+      "eval_rouge2": 21.5853,
+      "eval_rougeL": 31.1439,
+      "eval_rougeLsum": 40.7442,
+      "eval_runtime": 6945.0608,
+      "eval_samples_per_second": 0.955,
+      "eval_steps_per_second": 0.12,
+      "step": 2500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.6664665465946236e-05,
+      "loss": 0.9973,
+      "step": 3000
+    },
+    {
+      "epoch": 0.2,
+      "eval_gen_len": 131.2587,
+      "eval_loss": 1.523977518081665,
+      "eval_rouge1": 45.5052,
+      "eval_rouge2": 21.4202,
+      "eval_rougeL": 31.1499,
+      "eval_rougeLsum": 40.5736,
+      "eval_runtime": 6458.4712,
+      "eval_samples_per_second": 1.027,
+      "eval_steps_per_second": 0.129,
+      "step": 3000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.6108776376937274e-05,
+      "loss": 0.9855,
+      "step": 3500
+    },
+    {
+      "epoch": 0.23,
+      "eval_gen_len": 131.0582,
+      "eval_loss": 1.5234577655792236,
+      "eval_rouge1": 45.8336,
+      "eval_rouge2": 21.7072,
+      "eval_rougeL": 31.439,
+      "eval_rougeLsum": 40.9387,
+      "eval_runtime": 6345.3859,
+      "eval_samples_per_second": 1.045,
+      "eval_steps_per_second": 0.131,
+      "step": 3500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.555288728792831e-05,
+      "loss": 0.9868,
+      "step": 4000
+    },
+    {
+      "epoch": 0.27,
+      "eval_gen_len": 127.9753,
+      "eval_loss": 1.5183237791061401,
+      "eval_rouge1": 45.6348,
+      "eval_rouge2": 21.5462,
+      "eval_rougeL": 31.3009,
+      "eval_rougeLsum": 40.6469,
+      "eval_runtime": 6091.2782,
+      "eval_samples_per_second": 1.089,
+      "eval_steps_per_second": 0.136,
+      "step": 4000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.4996998198919356e-05,
+      "loss": 0.9802,
+      "step": 4500
+    },
+    {
+      "epoch": 0.3,
+      "eval_gen_len": 127.78,
+      "eval_loss": 1.5132805109024048,
+      "eval_rouge1": 45.4357,
+      "eval_rouge2": 21.3339,
+      "eval_rougeL": 31.1304,
+      "eval_rougeLsum": 40.531,
+      "eval_runtime": 5970.8563,
+      "eval_samples_per_second": 1.111,
+      "eval_steps_per_second": 0.139,
+      "step": 4500
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.4441109109910394e-05,
+      "loss": 0.9743,
+      "step": 5000
+    },
+    {
+      "epoch": 0.33,
+      "eval_gen_len": 126.9619,
+      "eval_loss": 1.5101301670074463,
+      "eval_rouge1": 45.4845,
+      "eval_rouge2": 21.4302,
+      "eval_rougeL": 31.2033,
+      "eval_rougeLsum": 40.5934,
+      "eval_runtime": 5820.9525,
+      "eval_samples_per_second": 1.14,
+      "eval_steps_per_second": 0.143,
+      "step": 5000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.388522002090143e-05,
+      "loss": 0.972,
+      "step": 5500
+    },
+    {
+      "epoch": 0.37,
+      "eval_gen_len": 127.1796,
+      "eval_loss": 1.5053614377975464,
+      "eval_rouge1": 45.196,
+      "eval_rouge2": 21.1882,
+      "eval_rougeL": 30.9407,
+      "eval_rougeLsum": 40.2648,
+      "eval_runtime": 5768.324,
+      "eval_samples_per_second": 1.15,
+      "eval_steps_per_second": 0.144,
+      "step": 5500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.332933093189247e-05,
+      "loss": 0.9651,
+      "step": 6000
+    },
+    {
+      "epoch": 0.4,
+      "eval_gen_len": 126.9254,
+      "eval_loss": 1.5030862092971802,
+      "eval_rouge1": 45.4822,
+      "eval_rouge2": 21.4363,
+      "eval_rougeL": 31.1422,
+      "eval_rougeLsum": 40.5397,
+      "eval_runtime": 5665.8916,
+      "eval_samples_per_second": 1.171,
+      "eval_steps_per_second": 0.146,
+      "step": 6000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.277344184288351e-05,
+      "loss": 0.9758,
+      "step": 6500
+    },
+    {
+      "epoch": 0.43,
+      "eval_gen_len": 126.4933,
+      "eval_loss": 1.495548963546753,
+      "eval_rouge1": 45.299,
+      "eval_rouge2": 21.346,
+      "eval_rougeL": 31.0361,
+      "eval_rougeLsum": 40.3325,
+      "eval_runtime": 5589.2093,
+      "eval_samples_per_second": 1.187,
+      "eval_steps_per_second": 0.149,
+      "step": 6500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.221755275387455e-05,
+      "loss": 0.9652,
+      "step": 7000
+    },
+    {
+      "epoch": 0.47,
+      "eval_gen_len": 126.0859,
+      "eval_loss": 1.4975615739822388,
+      "eval_rouge1": 45.4694,
+      "eval_rouge2": 21.5044,
+      "eval_rougeL": 31.1786,
+      "eval_rougeLsum": 40.5032,
+      "eval_runtime": 5569.8623,
+      "eval_samples_per_second": 1.191,
+      "eval_steps_per_second": 0.149,
+      "step": 7000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.166166366486558e-05,
+      "loss": 0.9601,
+      "step": 7500
+    },
+    {
+      "epoch": 0.5,
+      "eval_gen_len": 126.8815,
+      "eval_loss": 1.4945002794265747,
+      "eval_rouge1": 45.1971,
+      "eval_rouge2": 21.2682,
+      "eval_rougeL": 30.9321,
+      "eval_rougeLsum": 40.2959,
+      "eval_runtime": 5557.7856,
+      "eval_samples_per_second": 1.193,
+      "eval_steps_per_second": 0.149,
+      "step": 7500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.110577457585663e-05,
+      "loss": 0.9502,
+      "step": 8000
+    },
+    {
+      "epoch": 0.53,
+      "eval_gen_len": 126.4628,
+      "eval_loss": 1.49406898021698,
+      "eval_rouge1": 45.5653,
+      "eval_rouge2": 21.5655,
+      "eval_rougeL": 31.2703,
+      "eval_rougeLsum": 40.5622,
+      "eval_runtime": 5535.3927,
+      "eval_samples_per_second": 1.198,
+      "eval_steps_per_second": 0.15,
+      "step": 8000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.0549885486847665e-05,
+      "loss": 0.9537,
+      "step": 8500
+    },
+    {
+      "epoch": 0.57,
+      "eval_gen_len": 126.5709,
+      "eval_loss": 1.4941043853759766,
+      "eval_rouge1": 45.2806,
+      "eval_rouge2": 21.2587,
+      "eval_rougeL": 30.93,
+      "eval_rougeLsum": 40.354,
+      "eval_runtime": 5533.5879,
+      "eval_samples_per_second": 1.199,
+      "eval_steps_per_second": 0.15,
+      "step": 8500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 3.999399639783871e-05,
+      "loss": 0.9629,
+      "step": 9000
+    },
+    {
+      "epoch": 0.6,
+      "eval_gen_len": 126.547,
+      "eval_loss": 1.4939745664596558,
+      "eval_rouge1": 45.2474,
+      "eval_rouge2": 21.275,
+      "eval_rougeL": 30.9302,
+      "eval_rougeLsum": 40.3377,
+      "eval_runtime": 5530.7272,
+      "eval_samples_per_second": 1.199,
+      "eval_steps_per_second": 0.15,
+      "step": 9000
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 3.943810730882974e-05,
+      "loss": 0.9528,
+      "step": 9500
+    },
+    {
+      "epoch": 0.63,
+      "eval_gen_len": 126.768,
+      "eval_loss": 1.4947481155395508,
+      "eval_rouge1": 45.3619,
+      "eval_rouge2": 21.3754,
+      "eval_rougeL": 31.0723,
+      "eval_rougeLsum": 40.4162,
+      "eval_runtime": 5524.5717,
+      "eval_samples_per_second": 1.201,
+      "eval_steps_per_second": 0.15,
+      "step": 9500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 3.888221821982078e-05,
+      "loss": 0.9532,
+      "step": 10000
+    },
+    {
+      "epoch": 0.67,
+      "eval_gen_len": 126.5323,
+      "eval_loss": 1.4923893213272095,
+      "eval_rouge1": 45.5763,
+      "eval_rouge2": 21.6469,
+      "eval_rougeL": 31.2585,
+      "eval_rougeLsum": 40.5722,
+      "eval_runtime": 5518.2912,
+      "eval_samples_per_second": 1.202,
+      "eval_steps_per_second": 0.15,
+      "step": 10000
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 3.832632913081182e-05,
+      "loss": 0.945,
+      "step": 10500
+    },
+    {
+      "epoch": 0.7,
+      "eval_gen_len": 126.69,
+      "eval_loss": 1.4898710250854492,
+      "eval_rouge1": 45.2629,
+      "eval_rouge2": 21.3471,
+      "eval_rougeL": 31.0405,
+      "eval_rougeLsum": 40.3211,
+      "eval_runtime": 6184.8714,
+      "eval_samples_per_second": 1.072,
+      "eval_steps_per_second": 0.134,
+      "step": 10500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3.777044004180286e-05,
+      "loss": 0.9464,
+      "step": 11000
+    },
+    {
+      "epoch": 0.73,
+      "eval_gen_len": 126.9052,
+      "eval_loss": 1.489205002784729,
+      "eval_rouge1": 45.3769,
+      "eval_rouge2": 21.3457,
+      "eval_rougeL": 30.9968,
+      "eval_rougeLsum": 40.388,
+      "eval_runtime": 5520.5499,
+      "eval_samples_per_second": 1.202,
+      "eval_steps_per_second": 0.15,
+      "step": 11000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 3.7214550952793906e-05,
+      "loss": 0.9544,
+      "step": 11500
+    },
+    {
+      "epoch": 0.77,
+      "eval_gen_len": 126.5739,
+      "eval_loss": 1.4892535209655762,
+      "eval_rouge1": 45.411,
+      "eval_rouge2": 21.3852,
+      "eval_rougeL": 31.0295,
+      "eval_rougeLsum": 40.4881,
+      "eval_runtime": 5521.4271,
+      "eval_samples_per_second": 1.201,
+      "eval_steps_per_second": 0.15,
+      "step": 11500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 3.6658661863784937e-05,
+      "loss": 0.9467,
+      "step": 12000
+    },
+    {
+      "epoch": 0.8,
+      "eval_gen_len": 126.7315,
+      "eval_loss": 1.4929231405258179,
+      "eval_rouge1": 45.4345,
+      "eval_rouge2": 21.4378,
+      "eval_rougeL": 31.1163,
+      "eval_rougeLsum": 40.4393,
+      "eval_runtime": 5524.2145,
+      "eval_samples_per_second": 1.201,
+      "eval_steps_per_second": 0.15,
+      "step": 12000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 3.610277277477598e-05,
+      "loss": 0.9517,
+      "step": 12500
+    },
+    {
+      "epoch": 0.83,
+      "eval_gen_len": 126.58,
+      "eval_loss": 1.4917516708374023,
+      "eval_rouge1": 45.3614,
+      "eval_rouge2": 21.3396,
+      "eval_rougeL": 30.9925,
+      "eval_rougeLsum": 40.3636,
+      "eval_runtime": 5514.201,
+      "eval_samples_per_second": 1.203,
+      "eval_steps_per_second": 0.151,
+      "step": 12500
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 3.554688368576702e-05,
+      "loss": 0.9497,
+      "step": 13000
+    },
+    {
+      "epoch": 0.87,
+      "eval_gen_len": 126.7977,
+      "eval_loss": 1.4918133020401,
+      "eval_rouge1": 45.2485,
+      "eval_rouge2": 21.2367,
+      "eval_rougeL": 30.9282,
+      "eval_rougeLsum": 40.3438,
+      "eval_runtime": 6509.3818,
+      "eval_samples_per_second": 1.019,
+      "eval_steps_per_second": 0.128,
+      "step": 13000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 3.499099459675806e-05,
+      "loss": 0.9386,
+      "step": 13500
+    },
+    {
+      "epoch": 0.9,
+      "eval_gen_len": 126.7524,
+      "eval_loss": 1.4883581399917603,
+      "eval_rouge1": 45.5038,
+      "eval_rouge2": 21.5064,
+      "eval_rougeL": 31.2132,
+      "eval_rougeLsum": 40.5696,
+      "eval_runtime": 5529.57,
+      "eval_samples_per_second": 1.2,
+      "eval_steps_per_second": 0.15,
+      "step": 13500
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.4435105507749095e-05,
+      "loss": 0.9473,
+      "step": 14000
+    },
+    {
+      "epoch": 0.93,
+      "eval_gen_len": 126.6534,
+      "eval_loss": 1.4918317794799805,
+      "eval_rouge1": 45.2367,
+      "eval_rouge2": 21.2615,
+      "eval_rougeL": 30.9179,
+      "eval_rougeLsum": 40.2548,
+      "eval_runtime": 5515.735,
+      "eval_samples_per_second": 1.203,
+      "eval_steps_per_second": 0.15,
+      "step": 14000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 3.387921641874013e-05,
+      "loss": 0.9235,
+      "step": 14500
+    },
+    {
+      "epoch": 0.97,
+      "eval_gen_len": 126.5972,
+      "eval_loss": 1.4897193908691406,
+      "eval_rouge1": 45.8027,
+      "eval_rouge2": 21.7228,
+      "eval_rougeL": 31.3946,
+      "eval_rougeLsum": 40.764,
+      "eval_runtime": 5518.2889,
+      "eval_samples_per_second": 1.202,
+      "eval_steps_per_second": 0.15,
+      "step": 14500
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 3.332332732973118e-05,
+      "loss": 0.9344,
+      "step": 15000
+    },
+    {
+      "epoch": 1.0,
+      "eval_gen_len": 126.9212,
+      "eval_loss": 1.4973394870758057,
+      "eval_rouge1": 44.8773,
+      "eval_rouge2": 20.9475,
+      "eval_rougeL": 30.5827,
+      "eval_rougeLsum": 39.9489,
+      "eval_runtime": 5510.2549,
+      "eval_samples_per_second": 1.204,
+      "eval_steps_per_second": 0.151,
+      "step": 15000
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3.2767438240722215e-05,
+      "loss": 0.9139,
+      "step": 15500
+    },
+    {
+      "epoch": 1.03,
+      "eval_gen_len": 126.692,
+      "eval_loss": 1.5064738988876343,
+      "eval_rouge1": 45.4207,
+      "eval_rouge2": 21.3856,
+      "eval_rougeL": 31.0837,
+      "eval_rougeLsum": 40.4414,
+      "eval_runtime": 5526.017,
+      "eval_samples_per_second": 1.2,
+      "eval_steps_per_second": 0.15,
+      "step": 15500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 3.221154915171325e-05,
+      "loss": 0.8939,
+      "step": 16000
+    },
+    {
+      "epoch": 1.07,
+      "eval_gen_len": 126.5179,
+      "eval_loss": 1.508902668952942,
+      "eval_rouge1": 45.5575,
+      "eval_rouge2": 21.5153,
+      "eval_rougeL": 31.2115,
+      "eval_rougeLsum": 40.5517,
+      "eval_runtime": 5698.8075,
+      "eval_samples_per_second": 1.164,
+      "eval_steps_per_second": 0.146,
+      "step": 16000
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 3.165566006270429e-05,
+      "loss": 0.8968,
+      "step": 16500
+    },
+    {
+      "epoch": 1.1,
+      "eval_gen_len": 126.5447,
+      "eval_loss": 1.5106098651885986,
+      "eval_rouge1": 45.4574,
+      "eval_rouge2": 21.4786,
+      "eval_rougeL": 31.1065,
+      "eval_rougeLsum": 40.495,
+      "eval_runtime": 5606.9538,
+      "eval_samples_per_second": 1.183,
+      "eval_steps_per_second": 0.148,
+      "step": 16500
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 3.109977097369533e-05,
+      "loss": 0.8999,
+      "step": 17000
+    },
+    {
+      "epoch": 1.13,
+      "eval_gen_len": 126.6894,
+      "eval_loss": 1.5100876092910767,
+      "eval_rouge1": 45.4805,
+      "eval_rouge2": 21.4579,
+      "eval_rougeL": 31.1062,
+      "eval_rougeLsum": 40.5138,
+      "eval_runtime": 5594.355,
+      "eval_samples_per_second": 1.186,
+      "eval_steps_per_second": 0.148,
+      "step": 17000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 3.054388188468637e-05,
+      "loss": 0.903,
+      "step": 17500
+    },
+    {
+      "epoch": 1.17,
+      "eval_gen_len": 126.5988,
+      "eval_loss": 1.5103389024734497,
+      "eval_rouge1": 45.495,
+      "eval_rouge2": 21.4395,
+      "eval_rougeL": 31.1445,
+      "eval_rougeLsum": 40.4949,
+      "eval_runtime": 5586.6059,
+      "eval_samples_per_second": 1.187,
+      "eval_steps_per_second": 0.149,
+      "step": 17500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 2.9987992795677407e-05,
+      "loss": 0.8988,
+      "step": 18000
+    },
+    {
+      "epoch": 1.2,
+      "eval_gen_len": 126.5643,
+      "eval_loss": 1.5120760202407837,
+      "eval_rouge1": 45.2764,
+      "eval_rouge2": 21.2652,
+      "eval_rougeL": 30.944,
+      "eval_rougeLsum": 40.3249,
+      "eval_runtime": 5558.8098,
+      "eval_samples_per_second": 1.193,
+      "eval_steps_per_second": 0.149,
+      "step": 18000
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 2.9432103706668445e-05,
+      "loss": 0.9027,
+      "step": 18500
+    },
+    {
+      "epoch": 1.23,
+      "eval_gen_len": 126.8441,
+      "eval_loss": 1.5092076063156128,
+      "eval_rouge1": 45.4884,
+      "eval_rouge2": 21.4334,
+      "eval_rougeL": 31.0499,
+      "eval_rougeLsum": 40.4796,
+      "eval_runtime": 5536.9856,
+      "eval_samples_per_second": 1.198,
+      "eval_steps_per_second": 0.15,
+      "step": 18500
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 2.8876214617659486e-05,
+      "loss": 0.9044,
+      "step": 19000
+    },
+    {
+      "epoch": 1.27,
+      "eval_gen_len": 126.8737,
+      "eval_loss": 1.5079020261764526,
+      "eval_rouge1": 45.5708,
+      "eval_rouge2": 21.5358,
+      "eval_rougeL": 31.1862,
+      "eval_rougeLsum": 40.594,
+      "eval_runtime": 5524.867,
+      "eval_samples_per_second": 1.201,
+      "eval_steps_per_second": 0.15,
+      "step": 19000
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 2.8320325528650527e-05,
+      "loss": 0.906,
+      "step": 19500
+    },
+    {
+      "epoch": 1.3,
+      "eval_gen_len": 126.8627,
+      "eval_loss": 1.5116254091262817,
+      "eval_rouge1": 45.4542,
+      "eval_rouge2": 21.4172,
+      "eval_rougeL": 31.0754,
+      "eval_rougeLsum": 40.439,
+      "eval_runtime": 5524.341,
+      "eval_samples_per_second": 1.201,
+      "eval_steps_per_second": 0.15,
+      "step": 19500
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 2.776443643964157e-05,
+      "loss": 0.8994,
+      "step": 20000
+    },
+    {
+      "epoch": 1.33,
+      "eval_gen_len": 126.8206,
+      "eval_loss": 1.5085355043411255,
+      "eval_rouge1": 45.5424,
+      "eval_rouge2": 21.5009,
+      "eval_rougeL": 31.1428,
+      "eval_rougeLsum": 40.5667,
+      "eval_runtime": 5528.1375,
+      "eval_samples_per_second": 1.2,
+      "eval_steps_per_second": 0.15,
+      "step": 20000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 2.7208547350632603e-05,
+      "loss": 0.9088,
+      "step": 20500
+    },
+    {
+      "epoch": 1.37,
+      "eval_gen_len": 126.7414,
+      "eval_loss": 1.5124515295028687,
+      "eval_rouge1": 45.3129,
+      "eval_rouge2": 21.2629,
+      "eval_rougeL": 30.9461,
+      "eval_rougeLsum": 40.3271,
+      "eval_runtime": 5534.3419,
+      "eval_samples_per_second": 1.199,
+      "eval_steps_per_second": 0.15,
+      "step": 20500
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 2.665265826162364e-05,
+      "loss": 0.8983,
+      "step": 21000
+    },
+    {
+      "epoch": 1.4,
+      "eval_gen_len": 126.357,
+      "eval_loss": 1.5135449171066284,
+      "eval_rouge1": 45.6846,
+      "eval_rouge2": 21.6282,
+      "eval_rougeL": 31.2929,
+      "eval_rougeLsum": 40.6821,
+      "eval_runtime": 5538.2932,
+      "eval_samples_per_second": 1.198,
+      "eval_steps_per_second": 0.15,
+      "step": 21000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 2.6096769172614682e-05,
+      "loss": 0.907,
+      "step": 21500
+    },
+    {
+      "epoch": 1.43,
+      "eval_gen_len": 127.0029,
+      "eval_loss": 1.5076923370361328,
+      "eval_rouge1": 45.4873,
+      "eval_rouge2": 21.455,
+      "eval_rougeL": 31.1193,
+      "eval_rougeLsum": 40.5128,
+      "eval_runtime": 5539.9922,
+      "eval_samples_per_second": 1.197,
+      "eval_steps_per_second": 0.15,
+      "step": 21500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 2.5540880083605723e-05,
+      "loss": 0.9097,
+      "step": 22000
+    },
+    {
+      "epoch": 1.47,
+      "eval_gen_len": 126.8553,
+      "eval_loss": 1.5052434206008911,
+      "eval_rouge1": 45.5988,
+      "eval_rouge2": 21.6134,
+      "eval_rougeL": 31.247,
+      "eval_rougeLsum": 40.58,
+      "eval_runtime": 5539.7468,
+      "eval_samples_per_second": 1.197,
+      "eval_steps_per_second": 0.15,
+      "step": 22000
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 2.498499099459676e-05,
+      "loss": 0.9033,
+      "step": 22500
+    },
+    {
+      "epoch": 1.5,
+      "eval_gen_len": 127.0048,
+      "eval_loss": 1.5133850574493408,
+      "eval_rouge1": 45.3223,
+      "eval_rouge2": 21.2968,
+      "eval_rougeL": 30.9357,
+      "eval_rougeLsum": 40.3813,
+      "eval_runtime": 9404.5,
+      "eval_samples_per_second": 0.705,
+      "eval_steps_per_second": 0.088,
+      "step": 22500
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 2.44291019055878e-05,
+      "loss": 0.8925,
+      "step": 23000
+    },
+    {
+      "epoch": 1.53,
+      "eval_gen_len": 126.7316,
+      "eval_loss": 1.510839819908142,
+      "eval_rouge1": 45.6747,
+      "eval_rouge2": 21.6374,
+      "eval_rougeL": 31.31,
+      "eval_rougeLsum": 40.7015,
+      "eval_runtime": 22732.2519,
+      "eval_samples_per_second": 0.292,
+      "eval_steps_per_second": 0.037,
+      "step": 23000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 2.387321281657884e-05,
+      "loss": 0.8913,
+      "step": 23500
+    },
+    {
+      "epoch": 1.57,
+      "eval_gen_len": 126.6869,
+      "eval_loss": 1.5129714012145996,
+      "eval_rouge1": 45.6531,
+      "eval_rouge2": 21.6354,
+      "eval_rougeL": 31.2956,
+      "eval_rougeLsum": 40.6555,
+      "eval_runtime": 6945.8776,
+      "eval_samples_per_second": 0.955,
+      "eval_steps_per_second": 0.119,
+      "step": 23500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.3317323727569874e-05,
+      "loss": 0.8931,
+      "step": 24000
+    },
+    {
+      "epoch": 1.6,
+      "eval_gen_len": 126.4862,
+      "eval_loss": 1.5111068487167358,
+      "eval_rouge1": 45.7876,
+      "eval_rouge2": 21.7115,
+      "eval_rougeL": 31.3274,
+      "eval_rougeLsum": 40.7579,
+      "eval_runtime": 5539.5619,
+      "eval_samples_per_second": 1.197,
+      "eval_steps_per_second": 0.15,
+      "step": 24000
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 2.2761434638560915e-05,
+      "loss": 0.9009,
+      "step": 24500
+    },
+    {
+      "epoch": 1.63,
+      "eval_gen_len": 126.6229,
+      "eval_loss": 1.5083845853805542,
+      "eval_rouge1": 45.6359,
+      "eval_rouge2": 21.583,
+      "eval_rougeL": 31.2775,
+      "eval_rougeLsum": 40.6351,
+      "eval_runtime": 5545.0209,
+      "eval_samples_per_second": 1.196,
+      "eval_steps_per_second": 0.15,
+      "step": 24500
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 2.2205545549551953e-05,
+      "loss": 0.8925,
+      "step": 25000
+    },
+    {
+      "epoch": 1.67,
+      "eval_gen_len": 126.8396,
+      "eval_loss": 1.5094473361968994,
+      "eval_rouge1": 45.397,
+      "eval_rouge2": 21.4266,
+      "eval_rougeL": 31.082,
+      "eval_rougeLsum": 40.4261,
+      "eval_runtime": 5534.6802,
+      "eval_samples_per_second": 1.198,
+      "eval_steps_per_second": 0.15,
+      "step": 25000
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 2.1649656460542994e-05,
+      "loss": 0.8991,
+      "step": 25500
+    },
+    {
+      "epoch": 1.7,
+      "eval_gen_len": 126.722,
+      "eval_loss": 1.512014627456665,
+      "eval_rouge1": 45.2851,
+      "eval_rouge2": 21.2798,
+      "eval_rougeL": 30.8973,
+      "eval_rougeLsum": 40.2787,
+      "eval_runtime": 5538.1327,
+      "eval_samples_per_second": 1.198,
+      "eval_steps_per_second": 0.15,
+      "step": 25500
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 2.1093767371534032e-05,
+      "loss": 0.9019,
+      "step": 26000
+    },
+    {
+      "epoch": 1.73,
+      "eval_gen_len": 126.8048,
+      "eval_loss": 1.510252833366394,
+      "eval_rouge1": 45.2905,
+      "eval_rouge2": 21.2992,
+      "eval_rougeL": 30.9204,
+      "eval_rougeLsum": 40.3262,
+      "eval_runtime": 5535.5354,
+      "eval_samples_per_second": 1.198,
+      "eval_steps_per_second": 0.15,
+      "step": 26000
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 2.0537878282525073e-05,
+      "loss": 0.891,
+      "step": 26500
+    },
+    {
+      "epoch": 1.77,
+      "eval_gen_len": 126.2902,
+      "eval_loss": 1.5112383365631104,
+      "eval_rouge1": 45.7091,
+      "eval_rouge2": 21.6159,
+      "eval_rougeL": 31.2889,
+      "eval_rougeLsum": 40.6986,
+      "eval_runtime": 5537.5343,
+      "eval_samples_per_second": 1.198,
+      "eval_steps_per_second": 0.15,
+      "step": 26500
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.998198919351611e-05,
+      "loss": 0.898,
+      "step": 27000
+    },
+    {
+      "epoch": 1.8,
+      "eval_gen_len": 126.5218,
+      "eval_loss": 1.5084278583526611,
+      "eval_rouge1": 45.4964,
+      "eval_rouge2": 21.4702,
+      "eval_rougeL": 31.177,
+      "eval_rougeLsum": 40.5432,
+      "eval_runtime": 5530.5865,
+      "eval_samples_per_second": 1.199,
+      "eval_steps_per_second": 0.15,
+      "step": 27000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1.942610010450715e-05,
+      "loss": 0.8839,
+      "step": 27500
+    },
+    {
+      "epoch": 1.83,
+      "eval_gen_len": 126.8648,
+      "eval_loss": 1.5090144872665405,
+      "eval_rouge1": 45.6279,
+      "eval_rouge2": 21.5346,
+      "eval_rougeL": 31.252,
+      "eval_rougeLsum": 40.6096,
+      "eval_runtime": 5522.5033,
+      "eval_samples_per_second": 1.201,
+      "eval_steps_per_second": 0.15,
+      "step": 27500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.8870211015498187e-05,
+      "loss": 0.8899,
+      "step": 28000
+    },
+    {
+      "epoch": 1.87,
+      "eval_gen_len": 126.8498,
+      "eval_loss": 1.5073039531707764,
+      "eval_rouge1": 45.6406,
+      "eval_rouge2": 21.5551,
+      "eval_rougeL": 31.2519,
+      "eval_rougeLsum": 40.6425,
+      "eval_runtime": 5520.5026,
+      "eval_samples_per_second": 1.202,
+      "eval_steps_per_second": 0.15,
+      "step": 28000
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 1.8314321926489228e-05,
+      "loss": 0.8904,
+      "step": 28500
+    },
+    {
+      "epoch": 1.9,
+      "eval_gen_len": 126.689,
+      "eval_loss": 1.5086652040481567,
+      "eval_rouge1": 45.7334,
+      "eval_rouge2": 21.7071,
+      "eval_rougeL": 31.3069,
+      "eval_rougeLsum": 40.6992,
+      "eval_runtime": 5519.0861,
+      "eval_samples_per_second": 1.202,
+      "eval_steps_per_second": 0.15,
+      "step": 28500
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.7758432837480266e-05,
+      "loss": 0.8958,
+      "step": 29000
+    },
+    {
+      "epoch": 1.93,
+      "eval_gen_len": 126.9157,
+      "eval_loss": 1.5112992525100708,
+      "eval_rouge1": 45.4618,
+      "eval_rouge2": 21.4623,
+      "eval_rougeL": 31.0914,
+      "eval_rougeLsum": 40.4648,
+      "eval_runtime": 5520.0088,
+      "eval_samples_per_second": 1.202,
+      "eval_steps_per_second": 0.15,
+      "step": 29000
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.7202543748471307e-05,
+      "loss": 0.8991,
+      "step": 29500
+    },
+    {
+      "epoch": 1.97,
+      "eval_gen_len": 126.7855,
+      "eval_loss": 1.5126971006393433,
+      "eval_rouge1": 45.6364,
+      "eval_rouge2": 21.5467,
+      "eval_rougeL": 31.2001,
+      "eval_rougeLsum": 40.5946,
+      "eval_runtime": 5532.4138,
+      "eval_samples_per_second": 1.199,
+      "eval_steps_per_second": 0.15,
+      "step": 29500
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.6646654659462345e-05,
+      "loss": 0.889,
+      "step": 30000
+    },
+    {
+      "epoch": 2.0,
+      "eval_gen_len": 126.6989,
+      "eval_loss": 1.5128982067108154,
+      "eval_rouge1": 45.3668,
+      "eval_rouge2": 21.3563,
+      "eval_rougeL": 30.998,
+      "eval_rougeLsum": 40.3714,
+      "eval_runtime": 5736.9272,
+      "eval_samples_per_second": 1.156,
+      "eval_steps_per_second": 0.145,
+      "step": 30000
+    }
+  ],
+  "max_steps": 44973,
+  "num_train_epochs": 3,
+  "total_flos": 7.801293866564321e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71a6e55853e1185615590ece7402cc04f12cebc0d4953dbb1d2e764254b022d1
+size 3055