initial model

Browse files

Files changed (13) hide show

added_tokens.json +1 -0
config.json +77 -0
merges.txt +0 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
trainer_state.json +858 -0
training_args.bin +3 -0
vocab.json +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"<Hint/Information_Reveal>": 50267, "<Correction>": 50266, "<user>": 50273, "<Other>": 50268, "<knowledge_tag>": 50272, "<agent>": 50270, "<knowledge_sep>": 50271, "<Question>": 50269, "<Confirmation>": 50265}

config.json ADDED Viewed

	@@ -0,0 +1,77 @@

+{
+  "_name_or_path": "facebook/bart-base",
+  "activation_dropout": 0.1,
+  "activation_function": "gelu",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "BartForConditionalGeneration"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "classif_dropout": 0.1,
+  "classifier_dropout": 0.0,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "early_stopping": true,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": 60,
+  "max_position_embeddings": 1024,
+  "model_type": "bart",
+  "no_repeat_ngram_size": 3,
+  "normalize_before": false,
+  "normalize_embedding": true,
+  "num_beams": 10,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "scale_embedding": false,
+  "task_specific_params": {
+    "summarization": {
+      "length_penalty": 1.0,
+      "max_length": 128,
+      "min_length": 12,
+      "num_beams": 4
+    },
+    "summarization_cnn": {
+      "length_penalty": 2.0,
+      "max_length": 142,
+      "min_length": 56,
+      "num_beams": 4
+    },
+    "summarization_xsum": {
+      "length_penalty": 1.0,
+      "max_length": 62,
+      "min_length": 11,
+      "num_beams": 6
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.9.0",
+  "uid_regularization": 0.0,
+  "use_cache": true,
+  "vocab_size": 50274
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e282ca7c67b2f0a7a2ed1e93d7ee48848e6c8a737a982140071e8d4c343224d6
+size 1115581221

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c18d8c21a5bec64b6b9a3f7e9101ff956e9340ebf8201779079425aa1f21a669
+size 558013395

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d108da5ef66331f937797906f625c8846f74761e2da63219dc1978627b54d4b3
+size 14657

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1bb9bdc4c1c89f937942a1165786f8e682f0330541a622942e057de47622afdf
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}, "additional_special_tokens": ["<Confirmation>", "<Correction>", "<Hint/Information_Reveal>", "<Other>", "<Question>", "<agent>", "<knowledge_sep>", "<knowledge_tag>", "<user>"]}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "add_prefix_space": false, "errors": "replace", "sep_token": "</s>", "cls_token": "<s>", "pad_token": "<pad>", "mask_token": "<mask>", "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "facebook/bart-base", "tokenizer_class": "BartTokenizer"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,858 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 16.99889502762431,
+  "global_step": 5763,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.38,
+      "gpu_memory": 2987030016,
+      "learning_rate": 8.32e-06,
+      "loss": 4.0407,
+      "step": 128
+    },
+    {
+      "epoch": 0.75,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.664e-05,
+      "loss": 2.405,
+      "step": 256
+    },
+    {
+      "epoch": 1.0,
+      "eval_bp": 0.035349686560536234,
+      "eval_counts": [
+        505,
+        125,
+        50,
+        11
+      ],
+      "eval_loss": 1.9292821884155273,
+      "eval_precisions": [
+        46.118721461187214,
+        15.723270440251572,
+        9.861932938856016,
+        4.471544715447155
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 44.1807,
+      "eval_samples_per_second": 6.79,
+      "eval_score": 0.47271078280719403,
+      "eval_steps_per_second": 6.79,
+      "eval_sys_len": 1095,
+      "eval_totals": [
+        1095,
+        795,
+        507,
+        246
+      ],
+      "gpu_memory": 3076460544,
+      "step": 339
+    },
+    {
+      "epoch": 1.13,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.4959999999999998e-05,
+      "loss": 2.0089,
+      "step": 384
+    },
+    {
+      "epoch": 1.51,
+      "gpu_memory": 3076460544,
+      "learning_rate": 3.2437898089171974e-05,
+      "loss": 1.8155,
+      "step": 512
+    },
+    {
+      "epoch": 1.89,
+      "gpu_memory": 3076460544,
+      "learning_rate": 3.1775477707006364e-05,
+      "loss": 1.7234,
+      "step": 640
+    },
+    {
+      "epoch": 2.0,
+      "eval_bp": 0.0840891954437523,
+      "eval_counts": [
+        492,
+        189,
+        85,
+        29
+      ],
+      "eval_loss": 1.6681220531463623,
+      "eval_precisions": [
+        35.96491228070175,
+        17.696629213483146,
+        10.303030303030303,
+        4.833333333333333
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 53.1682,
+      "eval_samples_per_second": 5.642,
+      "eval_score": 1.1219810390322362,
+      "eval_steps_per_second": 5.642,
+      "eval_sys_len": 1368,
+      "eval_totals": [
+        1368,
+        1068,
+        825,
+        600
+      ],
+      "gpu_memory": 3076460544,
+      "step": 678
+    },
+    {
+      "epoch": 2.27,
+      "gpu_memory": 3076460544,
+      "learning_rate": 3.111305732484076e-05,
+      "loss": 1.6058,
+      "step": 768
+    },
+    {
+      "epoch": 2.64,
+      "gpu_memory": 3076460544,
+      "learning_rate": 3.0450636942675155e-05,
+      "loss": 1.5189,
+      "step": 896
+    },
+    {
+      "epoch": 3.0,
+      "eval_bp": 0.09192776836698148,
+      "eval_counts": [
+        571,
+        192,
+        93,
+        40
+      ],
+      "eval_loss": 1.5985139608383179,
+      "eval_precisions": [
+        40.66951566951567,
+        17.391304347826086,
+        11.03202846975089,
+        6.734006734006734
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 44.5545,
+      "eval_samples_per_second": 6.733,
+      "eval_score": 1.391807704814939,
+      "eval_steps_per_second": 6.733,
+      "eval_sys_len": 1404,
+      "eval_totals": [
+        1404,
+        1104,
+        843,
+        594
+      ],
+      "gpu_memory": 3076460544,
+      "step": 1017
+    },
+    {
+      "epoch": 3.02,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.9788216560509553e-05,
+      "loss": 1.4885,
+      "step": 1024
+    },
+    {
+      "epoch": 3.4,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.9125796178343946e-05,
+      "loss": 1.334,
+      "step": 1152
+    },
+    {
+      "epoch": 3.77,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.8463375796178344e-05,
+      "loss": 1.3861,
+      "step": 1280
+    },
+    {
+      "epoch": 4.0,
+      "eval_bp": 0.034513967404432855,
+      "eval_counts": [
+        432,
+        173,
+        84,
+        35
+      ],
+      "eval_loss": 1.6043497323989868,
+      "eval_precisions": [
+        39.66942148760331,
+        21.926489226869457,
+        16.184971098265898,
+        9.48509485094851
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 42.8527,
+      "eval_samples_per_second": 7.001,
+      "eval_score": 0.6597653875525311,
+      "eval_steps_per_second": 7.001,
+      "eval_sys_len": 1089,
+      "eval_totals": [
+        1089,
+        789,
+        519,
+        369
+      ],
+      "gpu_memory": 3076460544,
+      "step": 1356
+    },
+    {
+      "epoch": 4.15,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.7800955414012737e-05,
+      "loss": 1.3367,
+      "step": 1408
+    },
+    {
+      "epoch": 4.53,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.713853503184713e-05,
+      "loss": 1.2828,
+      "step": 1536
+    },
+    {
+      "epoch": 4.91,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.647611464968153e-05,
+      "loss": 1.2571,
+      "step": 1664
+    },
+    {
+      "epoch": 5.0,
+      "eval_bp": 0.17929973112718744,
+      "eval_counts": [
+        671,
+        230,
+        102,
+        43
+      ],
+      "eval_loss": 1.5908681154251099,
+      "eval_precisions": [
+        38.36477987421384,
+        15.873015873015873,
+        8.695652173913043,
+        4.699453551912568
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 55.6404,
+      "eval_samples_per_second": 5.392,
+      "eval_score": 2.2519827467510987,
+      "eval_steps_per_second": 5.392,
+      "eval_sys_len": 1749,
+      "eval_totals": [
+        1749,
+        1449,
+        1173,
+        915
+      ],
+      "gpu_memory": 3076460544,
+      "step": 1695
+    },
+    {
+      "epoch": 5.29,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.5813694267515922e-05,
+      "loss": 1.2035,
+      "step": 1792
+    },
+    {
+      "epoch": 5.66,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.515127388535032e-05,
+      "loss": 1.183,
+      "step": 1920
+    },
+    {
+      "epoch": 6.0,
+      "eval_bp": 0.07050485313640832,
+      "eval_counts": [
+        615,
+        257,
+        141,
+        80
+      ],
+      "eval_loss": 1.5943706035614014,
+      "eval_precisions": [
+        47.235023041474655,
+        25.64870259481038,
+        19.502074688796682,
+        14.109347442680775
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 47.1825,
+      "eval_samples_per_second": 6.358,
+      "eval_score": 1.6941362350992444,
+      "eval_steps_per_second": 6.358,
+      "eval_sys_len": 1302,
+      "eval_totals": [
+        1302,
+        1002,
+        723,
+        567
+      ],
+      "gpu_memory": 3076460544,
+      "step": 2034
+    },
+    {
+      "epoch": 6.04,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.4488853503184713e-05,
+      "loss": 1.1964,
+      "step": 2048
+    },
+    {
+      "epoch": 6.42,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.3826433121019104e-05,
+      "loss": 1.1073,
+      "step": 2176
+    },
+    {
+      "epoch": 6.8,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.31640127388535e-05,
+      "loss": 1.1316,
+      "step": 2304
+    },
+    {
+      "epoch": 7.0,
+      "eval_bp": 0.10421315891869368,
+      "eval_counts": [
+        649,
+        197,
+        79,
+        22
+      ],
+      "eval_loss": 1.6070951223373413,
+      "eval_precisions": [
+        44.51303155006859,
+        17.012089810017272,
+        9.111880046136102,
+        3.559870550161812
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 47.6479,
+      "eval_samples_per_second": 6.296,
+      "eval_score": 1.3046509061748794,
+      "eval_steps_per_second": 6.296,
+      "eval_sys_len": 1458,
+      "eval_totals": [
+        1458,
+        1158,
+        867,
+        618
+      ],
+      "gpu_memory": 3076460544,
+      "step": 2373
+    },
+    {
+      "epoch": 7.17,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.2501592356687895e-05,
+      "loss": 1.0398,
+      "step": 2432
+    },
+    {
+      "epoch": 7.55,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.183917197452229e-05,
+      "loss": 1.0349,
+      "step": 2560
+    },
+    {
+      "epoch": 7.93,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.1176751592356686e-05,
+      "loss": 1.0816,
+      "step": 2688
+    },
+    {
+      "epoch": 8.0,
+      "eval_bp": 0.21001389512353258,
+      "eval_counts": [
+        846,
+        344,
+        187,
+        105
+      ],
+      "eval_loss": 1.6298103332519531,
+      "eval_precisions": [
+        45.55735056542811,
+        22.093770070648684,
+        14.597970335675253,
+        10.294117647058824
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 54.6716,
+      "eval_samples_per_second": 5.487,
+      "eval_score": 4.141670104799348,
+      "eval_steps_per_second": 5.487,
+      "eval_sys_len": 1857,
+      "eval_totals": [
+        1857,
+        1557,
+        1281,
+        1020
+      ],
+      "gpu_memory": 3076460544,
+      "step": 2712
+    },
+    {
+      "epoch": 8.31,
+      "gpu_memory": 3076460544,
+      "learning_rate": 2.051433121019108e-05,
+      "loss": 0.987,
+      "step": 2816
+    },
+    {
+      "epoch": 8.68,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.9851910828025477e-05,
+      "loss": 0.9829,
+      "step": 2944
+    },
+    {
+      "epoch": 9.0,
+      "eval_bp": 0.06525766524199453,
+      "eval_counts": [
+        577,
+        216,
+        100,
+        37
+      ],
+      "eval_loss": 1.6366333961486816,
+      "eval_precisions": [
+        45.254901960784316,
+        22.153846153846153,
+        14.367816091954023,
+        7.297830374753452
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 49.3567,
+      "eval_samples_per_second": 6.078,
+      "eval_score": 1.1750500193614282,
+      "eval_steps_per_second": 6.078,
+      "eval_sys_len": 1275,
+      "eval_totals": [
+        1275,
+        975,
+        696,
+        507
+      ],
+      "gpu_memory": 3076460544,
+      "step": 3051
+    },
+    {
+      "epoch": 9.06,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.918949044585987e-05,
+      "loss": 1.003,
+      "step": 3072
+    },
+    {
+      "epoch": 9.44,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.8527070063694264e-05,
+      "loss": 0.9337,
+      "step": 3200
+    },
+    {
+      "epoch": 9.82,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.786464968152866e-05,
+      "loss": 0.9325,
+      "step": 3328
+    },
+    {
+      "epoch": 10.0,
+      "eval_bp": 0.16851984622310243,
+      "eval_counts": [
+        667,
+        248,
+        121,
+        62
+      ],
+      "eval_loss": 1.67235267162323,
+      "eval_precisions": [
+        39.005847953216374,
+        17.588652482269502,
+        10.503472222222221,
+        6.68824163969795
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 50.0923,
+      "eval_samples_per_second": 5.989,
+      "eval_score": 2.4969097127652855,
+      "eval_steps_per_second": 5.989,
+      "eval_sys_len": 1710,
+      "eval_totals": [
+        1710,
+        1410,
+        1152,
+        927
+      ],
+      "gpu_memory": 3076460544,
+      "step": 3390
+    },
+    {
+      "epoch": 10.19,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.7202229299363055e-05,
+      "loss": 0.9075,
+      "step": 3456
+    },
+    {
+      "epoch": 10.57,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.6539808917197452e-05,
+      "loss": 0.8753,
+      "step": 3584
+    },
+    {
+      "epoch": 10.95,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.5877388535031846e-05,
+      "loss": 0.9098,
+      "step": 3712
+    },
+    {
+      "epoch": 11.0,
+      "eval_bp": 0.1483387334695538,
+      "eval_counts": [
+        735,
+        268,
+        134,
+        67
+      ],
+      "eval_loss": 1.6972090005874634,
+      "eval_precisions": [
+        44.95412844036697,
+        20.074906367041198,
+        12.725546058879392,
+        8.18070818070818
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 46.9235,
+      "eval_samples_per_second": 6.393,
+      "eval_score": 2.5970312545681904,
+      "eval_steps_per_second": 6.393,
+      "eval_sys_len": 1635,
+      "eval_totals": [
+        1635,
+        1335,
+        1053,
+        819
+      ],
+      "gpu_memory": 3076460544,
+      "step": 3729
+    },
+    {
+      "epoch": 11.33,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.5214968152866242e-05,
+      "loss": 0.839,
+      "step": 3840
+    },
+    {
+      "epoch": 11.7,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.4552547770700635e-05,
+      "loss": 0.8643,
+      "step": 3968
+    },
+    {
+      "epoch": 12.0,
+      "eval_bp": 0.1320190352563076,
+      "eval_counts": [
+        715,
+        285,
+        143,
+        70
+      ],
+      "eval_loss": 1.713928461074829,
+      "eval_precisions": [
+        45.48346055979644,
+        22.40566037735849,
+        14.357429718875501,
+        9.25925925925926
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 46.2792,
+      "eval_samples_per_second": 6.482,
+      "eval_score": 2.532809945547002,
+      "eval_steps_per_second": 6.482,
+      "eval_sys_len": 1572,
+      "eval_totals": [
+        1572,
+        1272,
+        996,
+        756
+      ],
+      "gpu_memory": 3076460544,
+      "step": 4068
+    },
+    {
+      "epoch": 12.08,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.3890127388535031e-05,
+      "loss": 0.8264,
+      "step": 4096
+    },
+    {
+      "epoch": 12.46,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.3227707006369426e-05,
+      "loss": 0.8008,
+      "step": 4224
+    },
+    {
+      "epoch": 12.84,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.2565286624203822e-05,
+      "loss": 0.7963,
+      "step": 4352
+    },
+    {
+      "epoch": 13.0,
+      "eval_bp": 0.18517745860640325,
+      "eval_counts": [
+        782,
+        310,
+        160,
+        79
+      ],
+      "eval_loss": 1.7276182174682617,
+      "eval_precisions": [
+        44.18079096045198,
+        21.08843537414966,
+        13.43408900083963,
+        8.44017094017094
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 49.531,
+      "eval_samples_per_second": 6.057,
+      "eval_score": 3.3384697611529055,
+      "eval_steps_per_second": 6.057,
+      "eval_sys_len": 1770,
+      "eval_totals": [
+        1770,
+        1470,
+        1191,
+        936
+      ],
+      "gpu_memory": 3076460544,
+      "step": 4407
+    },
+    {
+      "epoch": 13.22,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.1902866242038214e-05,
+      "loss": 0.791,
+      "step": 4480
+    },
+    {
+      "epoch": 13.59,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.124044585987261e-05,
+      "loss": 0.7591,
+      "step": 4608
+    },
+    {
+      "epoch": 13.97,
+      "gpu_memory": 3076460544,
+      "learning_rate": 1.0578025477707005e-05,
+      "loss": 0.7651,
+      "step": 4736
+    },
+    {
+      "epoch": 14.0,
+      "eval_bp": 0.17762954994257873,
+      "eval_counts": [
+        784,
+        310,
+        160,
+        81
+      ],
+      "eval_loss": 1.788110375404358,
+      "eval_precisions": [
+        44.97991967871486,
+        21.48302148302148,
+        13.605442176870747,
+        8.653846153846153
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 48.2995,
+      "eval_samples_per_second": 6.211,
+      "eval_score": 3.262302153360586,
+      "eval_steps_per_second": 6.211,
+      "eval_sys_len": 1743,
+      "eval_totals": [
+        1743,
+        1443,
+        1176,
+        936
+      ],
+      "gpu_memory": 3076460544,
+      "step": 4746
+    },
+    {
+      "epoch": 14.35,
+      "gpu_memory": 3076460544,
+      "learning_rate": 9.9156050955414e-06,
+      "loss": 0.7389,
+      "step": 4864
+    },
+    {
+      "epoch": 14.72,
+      "gpu_memory": 3076460544,
+      "learning_rate": 9.253184713375794e-06,
+      "loss": 0.7292,
+      "step": 4992
+    },
+    {
+      "epoch": 15.0,
+      "eval_bp": 0.19451009506119815,
+      "eval_counts": [
+        756,
+        286,
+        139,
+        66
+      ],
+      "eval_loss": 1.8334678411483765,
+      "eval_precisions": [
+        41.930116472545755,
+        19.028609447771125,
+        11.356209150326798,
+        6.790123456790123
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 50.9389,
+      "eval_samples_per_second": 5.889,
+      "eval_score": 3.063396343878355,
+      "eval_steps_per_second": 5.889,
+      "eval_sys_len": 1803,
+      "eval_totals": [
+        1803,
+        1503,
+        1224,
+        972
+      ],
+      "gpu_memory": 3076460544,
+      "step": 5085
+    },
+    {
+      "epoch": 15.1,
+      "gpu_memory": 3076460544,
+      "learning_rate": 8.59076433121019e-06,
+      "loss": 0.7051,
+      "step": 5120
+    },
+    {
+      "epoch": 15.48,
+      "gpu_memory": 3076460544,
+      "learning_rate": 7.928343949044585e-06,
+      "loss": 0.6872,
+      "step": 5248
+    },
+    {
+      "epoch": 15.86,
+      "gpu_memory": 3076460544,
+      "learning_rate": 7.265923566878981e-06,
+      "loss": 0.6935,
+      "step": 5376
+    },
+    {
+      "epoch": 16.0,
+      "eval_bp": 0.2204937574447589,
+      "eval_counts": [
+        792,
+        311,
+        160,
+        80
+      ],
+      "eval_loss": 1.8358988761901855,
+      "eval_precisions": [
+        41.83835182250396,
+        19.522912743251727,
+        12.121212121212121,
+        7.469654528478058
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 51.7295,
+      "eval_samples_per_second": 5.799,
+      "eval_score": 3.6361160482722528,
+      "eval_steps_per_second": 5.799,
+      "eval_sys_len": 1893,
+      "eval_totals": [
+        1893,
+        1593,
+        1320,
+        1071
+      ],
+      "gpu_memory": 3076460544,
+      "step": 5424
+    },
+    {
+      "epoch": 16.24,
+      "gpu_memory": 3076460544,
+      "learning_rate": 6.6035031847133755e-06,
+      "loss": 0.6808,
+      "step": 5504
+    },
+    {
+      "epoch": 16.61,
+      "gpu_memory": 3076460544,
+      "learning_rate": 5.94108280254777e-06,
+      "loss": 0.6649,
+      "step": 5632
+    },
+    {
+      "epoch": 16.99,
+      "gpu_memory": 3076460544,
+      "learning_rate": 5.278662420382165e-06,
+      "loss": 0.6902,
+      "step": 5760
+    },
+    {
+      "epoch": 17.0,
+      "eval_bp": 0.27059488659440983,
+      "eval_counts": [
+        875,
+        346,
+        196,
+        113
+      ],
+      "eval_loss": 1.8474984169006348,
+      "eval_precisions": [
+        42.45511887433285,
+        19.64792731402612,
+        13.198653198653199,
+        9.254709254709255
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 53.1106,
+      "eval_samples_per_second": 5.649,
+      "eval_score": 4.834531406134382,
+      "eval_steps_per_second": 5.649,
+      "eval_sys_len": 2061,
+      "eval_totals": [
+        2061,
+        1761,
+        1485,
+        1221
+      ],
+      "gpu_memory": 3076460544,
+      "step": 5763
+    }
+  ],
+  "max_steps": 6780,
+  "num_train_epochs": 20,
+  "total_flos": 5005888091043840.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6d0dd5195a5c72eed3cf01ad4025ca6a983050b6d3743b3153b17a436650aa6
+size 2927

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff