Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

README.md +108 -0
all_results.json +17 -0
config.json +144 -0
eval_results.json +12 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +15 -0
tokenizer.json +0 -0
tokenizer_config.json +18 -0
train_results.json +8 -0
trainer_state.json +529 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,108 @@

+---
+license: mit
+tags:
+- generated_from_trainer
+metrics:
+- precision
+- recall
+- f1
+- accuracy
+model-index:
+- name: pos_final_mono_en
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# pos_final_mono_en
+This model is a fine-tuned version of [FacebookAI/roberta-base](https://huggingface.co/FacebookAI/roberta-base) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0681
+- Precision: 0.9696
+- Recall: 0.9714
+- F1: 0.9705
+- Accuracy: 0.9796
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 256
+- eval_batch_size: 256
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 1024
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 500
+- num_epochs: 40.0
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Precision | Recall | F1     | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:---------:|:------:|:------:|:--------:|
+| No log        | 0.99  | 60   | 2.7933          | 0.3216    | 0.0997 | 0.1522 | 0.2833   |
+| No log        | 1.99  | 120  | 0.3818          | 0.9075    | 0.8989 | 0.9032 | 0.9224   |
+| No log        | 2.99  | 180  | 0.1156          | 0.9602    | 0.9607 | 0.9605 | 0.9721   |
+| No log        | 3.99  | 240  | 0.0911          | 0.9634    | 0.9650 | 0.9642 | 0.9748   |
+| No log        | 4.99  | 300  | 0.0794          | 0.9664    | 0.9679 | 0.9671 | 0.9772   |
+| No log        | 5.99  | 360  | 0.0741          | 0.9670    | 0.9697 | 0.9683 | 0.9781   |
+| No log        | 6.99  | 420  | 0.0695          | 0.9683    | 0.9702 | 0.9693 | 0.9787   |
+| No log        | 7.99  | 480  | 0.0688          | 0.9686    | 0.9700 | 0.9693 | 0.9789   |
+| 0.7281        | 8.99  | 540  | 0.0675          | 0.9688    | 0.9703 | 0.9695 | 0.9789   |
+| 0.7281        | 9.99  | 600  | 0.0670          | 0.9687    | 0.9705 | 0.9696 | 0.9791   |
+| 0.7281        | 10.99 | 660  | 0.0658          | 0.9696    | 0.9702 | 0.9699 | 0.9792   |
+| 0.7281        | 11.99 | 720  | 0.0670          | 0.9684    | 0.9715 | 0.9700 | 0.9793   |
+| 0.7281        | 12.99 | 780  | 0.0672          | 0.9689    | 0.9711 | 0.9700 | 0.9792   |
+| 0.7281        | 13.99 | 840  | 0.0678          | 0.9698    | 0.9708 | 0.9703 | 0.9796   |
+| 0.7281        | 14.99 | 900  | 0.0681          | 0.9696    | 0.9714 | 0.9705 | 0.9796   |
+| 0.7281        | 15.99 | 960  | 0.0706          | 0.9696    | 0.9711 | 0.9703 | 0.9795   |
+| 0.0484        | 16.99 | 1020 | 0.0725          | 0.9694    | 0.9705 | 0.9699 | 0.9793   |
+| 0.0484        | 17.99 | 1080 | 0.0735          | 0.9689    | 0.9705 | 0.9697 | 0.9791   |
+| 0.0484        | 18.99 | 1140 | 0.0745          | 0.9690    | 0.9705 | 0.9698 | 0.9792   |
+| 0.0484        | 19.99 | 1200 | 0.0769          | 0.9690    | 0.9706 | 0.9698 | 0.9791   |
+| 0.0484        | 20.99 | 1260 | 0.0797          | 0.9691    | 0.9703 | 0.9697 | 0.9791   |
+| 0.0484        | 21.99 | 1320 | 0.0808          | 0.9689    | 0.9705 | 0.9697 | 0.9791   |
+| 0.0484        | 22.99 | 1380 | 0.0838          | 0.9691    | 0.9702 | 0.9697 | 0.9791   |
+| 0.0484        | 23.99 | 1440 | 0.0861          | 0.9685    | 0.9704 | 0.9695 | 0.9789   |
+| 0.0289        | 24.99 | 1500 | 0.0879          | 0.9684    | 0.9698 | 0.9691 | 0.9787   |
+| 0.0289        | 25.99 | 1560 | 0.0887          | 0.9684    | 0.9703 | 0.9694 | 0.9789   |
+| 0.0289        | 26.99 | 1620 | 0.0910          | 0.9684    | 0.9698 | 0.9691 | 0.9787   |
+| 0.0289        | 27.99 | 1680 | 0.0924          | 0.9684    | 0.9697 | 0.9691 | 0.9787   |
+| 0.0289        | 28.99 | 1740 | 0.0950          | 0.9693    | 0.9692 | 0.9693 | 0.9788   |
+| 0.0289        | 29.99 | 1800 | 0.0962          | 0.9692    | 0.9697 | 0.9694 | 0.9789   |
+| 0.0289        | 30.99 | 1860 | 0.0977          | 0.9687    | 0.9699 | 0.9693 | 0.9787   |
+| 0.0289        | 31.99 | 1920 | 0.0979          | 0.9688    | 0.9699 | 0.9694 | 0.9788   |
+| 0.0289        | 32.99 | 1980 | 0.1000          | 0.9687    | 0.9698 | 0.9692 | 0.9788   |
+| 0.018         | 33.99 | 2040 | 0.1021          | 0.9688    | 0.9698 | 0.9693 | 0.9788   |
+| 0.018         | 34.99 | 2100 | 0.1037          | 0.9687    | 0.9701 | 0.9694 | 0.9788   |
+| 0.018         | 35.99 | 2160 | 0.1035          | 0.9688    | 0.9703 | 0.9696 | 0.9790   |
+| 0.018         | 36.99 | 2220 | 0.1042          | 0.9688    | 0.9700 | 0.9694 | 0.9789   |
+| 0.018         | 37.99 | 2280 | 0.1053          | 0.9685    | 0.9699 | 0.9692 | 0.9787   |
+| 0.018         | 38.99 | 2340 | 0.1052          | 0.9689    | 0.9700 | 0.9695 | 0.9789   |
+| 0.018         | 39.99 | 2400 | 0.1054          | 0.9688    | 0.9700 | 0.9694 | 0.9788   |
+### Framework versions
+- Transformers 4.25.1
+- Pytorch 1.12.0
+- Datasets 2.18.0
+- Tokenizers 0.13.2

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 39.99,
+    "eval_accuracy": 0.9796479120738681,
+    "eval_f1": 0.9704877076819325,
+    "eval_loss": 0.06808918714523315,
+    "eval_precision": 0.969581195926805,
+    "eval_recall": 0.971395916113097,
+    "eval_runtime": 8.3139,
+    "eval_samples": 2072,
+    "eval_samples_per_second": 831.143,
+    "eval_steps_per_second": 3.248,
+    "train_loss": 0.17379826227823894,
+    "train_runtime": 1699.1945,
+    "train_samples": 62189,
+    "train_samples_per_second": 1463.964,
+    "train_steps_per_second": 1.412
+}

config.json ADDED Viewed

	@@ -0,0 +1,144 @@

+{
+  "_name_or_path": "FacebookAI/roberta-base",
+  "architectures": [
+    "RobertaForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "finetuning_task": "pos",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "WP",
+    "1": "VB",
+    "2": "RB",
+    "3": "terrorist\t#",
+    "4": "''",
+    "5": "`",
+    "6": "VBD",
+    "7": "RBS",
+    "8": "PRP$",
+    "9": "NN",
+    "10": "PRP",
+    "11": "NNP",
+    "12": "RP",
+    "13": "\tSYM",
+    "14": "WDT",
+    "15": "U",
+    "16": "JJ",
+    "17": "JJR",
+    "18": "FW",
+    "19": "POS",
+    "20": "CD",
+    "21": "VBN",
+    "22": "RBR",
+    "23": "hero\t#",
+    "24": ",",
+    "25": "it",
+    "26": ":",
+    "27": "Ready\t#",
+    "28": "WRB",
+    "29": "VBP",
+    "30": "NNPS",
+    "31": "$",
+    "32": "TO",
+    "33": "VBG",
+    "34": ")",
+    "35": "JJS",
+    "36": "#",
+    "37": "sleepy\t#",
+    "38": "IN",
+    "39": "\tPRP",
+    "40": "``",
+    "41": "PDT",
+    "42": "@",
+    "43": "DT",
+    "44": "VBZ",
+    "45": "NNS",
+    "46": "LS",
+    "47": ".",
+    "48": "\tDT",
+    "49": "EX",
+    "50": "SYM",
+    "51": "CC",
+    "52": "UH",
+    "53": "MD",
+    "54": "(",
+    "55": "WP$"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "\tDT": 48,
+    "\tPRP": 39,
+    "\tSYM": 13,
+    "#": 36,
+    "$": 31,
+    "''": 4,
+    "(": 54,
+    ")": 34,
+    ",": 24,
+    ".": 47,
+    ":": 26,
+    "@": 42,
+    "CC": 51,
+    "CD": 20,
+    "DT": 43,
+    "EX": 49,
+    "FW": 18,
+    "IN": 38,
+    "JJ": 16,
+    "JJR": 17,
+    "JJS": 35,
+    "LS": 46,
+    "MD": 53,
+    "NN": 9,
+    "NNP": 11,
+    "NNPS": 30,
+    "NNS": 45,
+    "PDT": 41,
+    "POS": 19,
+    "PRP": 10,
+    "PRP$": 8,
+    "RB": 2,
+    "RBR": 22,
+    "RBS": 7,
+    "RP": 12,
+    "Ready\t#": 27,
+    "SYM": 50,
+    "TO": 32,
+    "U": 15,
+    "UH": 52,
+    "VB": 1,
+    "VBD": 6,
+    "VBG": 33,
+    "VBN": 21,
+    "VBP": 29,
+    "VBZ": 44,
+    "WDT": 14,
+    "WP": 0,
+    "WP$": 55,
+    "WRB": 28,
+    "`": 5,
+    "``": 40,
+    "hero\t#": 23,
+    "it": 25,
+    "sleepy\t#": 37,
+    "terrorist\t#": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 39.99,
+    "eval_accuracy": 0.9796479120738681,
+    "eval_f1": 0.9704877076819325,
+    "eval_loss": 0.06808918714523315,
+    "eval_precision": 0.969581195926805,
+    "eval_recall": 0.971395916113097,
+    "eval_runtime": 8.3139,
+    "eval_samples": 2072,
+    "eval_samples_per_second": 831.143,
+    "eval_steps_per_second": 3.248
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71a49303af36dfd77a50f18f363c750a6b3d15df1e1140d336cbd255fcba745f
+size 496463473

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "add_prefix_space": true,
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "max_length": 128,
+  "model_max_length": 512,
+  "name_or_path": "FacebookAI/roberta-base",
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "special_tokens_map_file": null,
+  "token": null,
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 39.99,
+    "train_loss": 0.17379826227823894,
+    "train_runtime": 1699.1945,
+    "train_samples": 62189,
+    "train_samples_per_second": 1463.964,
+    "train_steps_per_second": 1.412
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,529 @@

+{
+  "best_metric": 0.9704877076819325,
+  "best_model_checkpoint": "models/pos_final_mono_en/checkpoint-900",
+  "epoch": 39.98765432098765,
+  "global_step": 2400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.99,
+      "eval_accuracy": 0.2832997859356529,
+      "eval_f1": 0.15215239835327324,
+      "eval_loss": 2.7932815551757812,
+      "eval_precision": 0.3215832858875659,
+      "eval_recall": 0.09965021554699845,
+      "eval_runtime": 8.3095,
+      "eval_samples_per_second": 831.582,
+      "eval_steps_per_second": 3.249,
+      "step": 60
+    },
+    {
+      "epoch": 1.99,
+      "eval_accuracy": 0.92244480654334,
+      "eval_f1": 0.9032193422583952,
+      "eval_loss": 0.3818030059337616,
+      "eval_precision": 0.9075490985688619,
+      "eval_recall": 0.8989307027906049,
+      "eval_runtime": 8.786,
+      "eval_samples_per_second": 786.48,
+      "eval_steps_per_second": 3.073,
+      "step": 120
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 0.9720821751493658,
+      "eval_f1": 0.9604647150169666,
+      "eval_loss": 0.11557099223136902,
+      "eval_precision": 0.9601959536641649,
+      "eval_recall": 0.9607336268659006,
+      "eval_runtime": 8.8137,
+      "eval_samples_per_second": 784.005,
+      "eval_steps_per_second": 3.063,
+      "step": 180
+    },
+    {
+      "epoch": 3.99,
+      "eval_accuracy": 0.974849036710438,
+      "eval_f1": 0.9641873067091794,
+      "eval_loss": 0.09111332893371582,
+      "eval_precision": 0.9634156614972238,
+      "eval_recall": 0.964960189006336,
+      "eval_runtime": 8.5212,
+      "eval_samples_per_second": 810.917,
+      "eval_steps_per_second": 3.169,
+      "step": 240
+    },
+    {
+      "epoch": 4.99,
+      "eval_accuracy": 0.9772261094603661,
+      "eval_f1": 0.9671334513708446,
+      "eval_loss": 0.07944779098033905,
+      "eval_precision": 0.9663853317811408,
+      "eval_recall": 0.9678827301597042,
+      "eval_runtime": 8.3156,
+      "eval_samples_per_second": 830.964,
+      "eval_steps_per_second": 3.247,
+      "step": 300
+    },
+    {
+      "epoch": 5.99,
+      "eval_accuracy": 0.9781015367903128,
+      "eval_f1": 0.9683213898602403,
+      "eval_loss": 0.07408788055181503,
+      "eval_precision": 0.9669917766303309,
+      "eval_recall": 0.9696546645597779,
+      "eval_runtime": 8.4486,
+      "eval_samples_per_second": 817.888,
+      "eval_steps_per_second": 3.196,
+      "step": 360
+    },
+    {
+      "epoch": 6.99,
+      "eval_accuracy": 0.9787405348413687,
+      "eval_f1": 0.9692896581055761,
+      "eval_loss": 0.06950810551643372,
+      "eval_precision": 0.9683435282228738,
+      "eval_recall": 0.9702376386481137,
+      "eval_runtime": 8.5813,
+      "eval_samples_per_second": 805.242,
+      "eval_steps_per_second": 3.146,
+      "step": 420
+    },
+    {
+      "epoch": 7.99,
+      "eval_accuracy": 0.9788555544905588,
+      "eval_f1": 0.9692969848880303,
+      "eval_loss": 0.06879482418298721,
+      "eval_precision": 0.9686027896716276,
+      "eval_recall": 0.9699921758740776,
+      "eval_runtime": 8.4632,
+      "eval_samples_per_second": 816.474,
+      "eval_steps_per_second": 3.19,
+      "step": 480
+    },
+    {
+      "epoch": 8.33,
+      "learning_rate": 5e-05,
+      "loss": 0.7281,
+      "step": 500
+    },
+    {
+      "epoch": 8.99,
+      "eval_accuracy": 0.9788938943736222,
+      "eval_f1": 0.9695171959192747,
+      "eval_loss": 0.06750848144292831,
+      "eval_precision": 0.9687672323999755,
+      "eval_recall": 0.9702683214948683,
+      "eval_runtime": 8.3585,
+      "eval_samples_per_second": 826.702,
+      "eval_steps_per_second": 3.23,
+      "step": 540
+    },
+    {
+      "epoch": 9.99,
+      "eval_accuracy": 0.9791367136330235,
+      "eval_f1": 0.9696259085980099,
+      "eval_loss": 0.06700527667999268,
+      "eval_precision": 0.9687090871505899,
+      "eval_recall": 0.970544467115659,
+      "eval_runtime": 8.4143,
+      "eval_samples_per_second": 821.219,
+      "eval_steps_per_second": 3.209,
+      "step": 600
+    },
+    {
+      "epoch": 10.99,
+      "eval_accuracy": 0.9792261733601713,
+      "eval_f1": 0.9698826362182866,
+      "eval_loss": 0.06581725925207138,
+      "eval_precision": 0.9695815158646807,
+      "eval_recall": 0.9701839436662933,
+      "eval_runtime": 8.2031,
+      "eval_samples_per_second": 842.369,
+      "eval_steps_per_second": 3.291,
+      "step": 660
+    },
+    {
+      "epoch": 11.99,
+      "eval_accuracy": 0.9792900731652768,
+      "eval_f1": 0.9699631623689432,
+      "eval_loss": 0.06702851504087448,
+      "eval_precision": 0.968427894173421,
+      "eval_recall": 0.9715033060767378,
+      "eval_runtime": 8.414,
+      "eval_samples_per_second": 821.254,
+      "eval_steps_per_second": 3.209,
+      "step": 720
+    },
+    {
+      "epoch": 12.99,
+      "eval_accuracy": 0.9792261733601713,
+      "eval_f1": 0.9699927596470999,
+      "eval_loss": 0.0671982690691948,
+      "eval_precision": 0.9688607265575376,
+      "eval_recall": 0.9711274412039949,
+      "eval_runtime": 9.0147,
+      "eval_samples_per_second": 766.523,
+      "eval_steps_per_second": 2.995,
+      "step": 780
+    },
+    {
+      "epoch": 13.99,
+      "eval_accuracy": 0.9795584523467203,
+      "eval_f1": 0.9702842773467448,
+      "eval_loss": 0.06784472614526749,
+      "eval_precision": 0.969763842275451,
+      "eval_recall": 0.9708052713130725,
+      "eval_runtime": 8.2137,
+      "eval_samples_per_second": 841.282,
+      "eval_steps_per_second": 3.287,
+      "step": 840
+    },
+    {
+      "epoch": 14.99,
+      "eval_accuracy": 0.9796479120738681,
+      "eval_f1": 0.9704877076819325,
+      "eval_loss": 0.06808918714523315,
+      "eval_precision": 0.969581195926805,
+      "eval_recall": 0.971395916113097,
+      "eval_runtime": 8.1766,
+      "eval_samples_per_second": 845.097,
+      "eval_steps_per_second": 3.302,
+      "step": 900
+    },
+    {
+      "epoch": 15.99,
+      "eval_accuracy": 0.9794817725805937,
+      "eval_f1": 0.9703219971333746,
+      "eval_loss": 0.07063417881727219,
+      "eval_precision": 0.9695714110654985,
+      "eval_recall": 0.9710737462221745,
+      "eval_runtime": 8.3057,
+      "eval_samples_per_second": 831.963,
+      "eval_steps_per_second": 3.251,
+      "step": 960
+    },
+    {
+      "epoch": 16.66,
+      "learning_rate": 3.6842105263157895e-05,
+      "loss": 0.0484,
+      "step": 1000
+    },
+    {
+      "epoch": 16.99,
+      "eval_accuracy": 0.9793284130483402,
+      "eval_f1": 0.9699285875827489,
+      "eval_loss": 0.07248909771442413,
+      "eval_precision": 0.9693823603778934,
+      "eval_recall": 0.9704754307104613,
+      "eval_runtime": 8.1639,
+      "eval_samples_per_second": 846.409,
+      "eval_steps_per_second": 3.307,
+      "step": 1020
+    },
+    {
+      "epoch": 17.99,
+      "eval_accuracy": 0.9790855937889389,
+      "eval_f1": 0.9696844283497156,
+      "eval_loss": 0.0734858438372612,
+      "eval_precision": 0.9688564886782195,
+      "eval_recall": 0.9705137842689044,
+      "eval_runtime": 8.302,
+      "eval_samples_per_second": 832.333,
+      "eval_steps_per_second": 3.252,
+      "step": 1080
+    },
+    {
+      "epoch": 18.99,
+      "eval_accuracy": 0.9791878334771079,
+      "eval_f1": 0.9697733866300795,
+      "eval_loss": 0.0745043233036995,
+      "eval_precision": 0.969041765278065,
+      "eval_recall": 0.9705061135572158,
+      "eval_runtime": 8.2203,
+      "eval_samples_per_second": 840.607,
+      "eval_steps_per_second": 3.285,
+      "step": 1140
+    },
+    {
+      "epoch": 19.99,
+      "eval_accuracy": 0.9791111537109812,
+      "eval_f1": 0.9697643226671777,
+      "eval_loss": 0.07685930281877518,
+      "eval_precision": 0.9689548489860933,
+      "eval_recall": 0.9705751499624136,
+      "eval_runtime": 8.1933,
+      "eval_samples_per_second": 843.373,
+      "eval_steps_per_second": 3.295,
+      "step": 1200
+    },
+    {
+      "epoch": 20.99,
+      "eval_accuracy": 0.9790600338668967,
+      "eval_f1": 0.9696818704484477,
+      "eval_loss": 0.0796540305018425,
+      "eval_precision": 0.969057869980235,
+      "eval_recall": 0.9703066750533115,
+      "eval_runtime": 8.1909,
+      "eval_samples_per_second": 843.621,
+      "eval_steps_per_second": 3.296,
+      "step": 1260
+    },
+    {
+      "epoch": 21.99,
+      "eval_accuracy": 0.9790983737499601,
+      "eval_f1": 0.9697178726633098,
+      "eval_loss": 0.08079346269369125,
+      "eval_precision": 0.9689232654311534,
+      "eval_recall": 0.9705137842689044,
+      "eval_runtime": 8.2659,
+      "eval_samples_per_second": 835.967,
+      "eval_steps_per_second": 3.266,
+      "step": 1320
+    },
+    {
+      "epoch": 22.99,
+      "eval_accuracy": 0.9791047637304706,
+      "eval_f1": 0.9696795461514873,
+      "eval_loss": 0.08375120162963867,
+      "eval_precision": 0.9691297485327245,
+      "eval_recall": 0.9702299679364251,
+      "eval_runtime": 8.1982,
+      "eval_samples_per_second": 842.873,
+      "eval_steps_per_second": 3.293,
+      "step": 1380
+    },
+    {
+      "epoch": 23.99,
+      "eval_accuracy": 0.9789322342566855,
+      "eval_f1": 0.9694696267232725,
+      "eval_loss": 0.08609236031770706,
+      "eval_precision": 0.9685270249578931,
+      "eval_recall": 0.9704140650169523,
+      "eval_runtime": 8.2431,
+      "eval_samples_per_second": 838.274,
+      "eval_steps_per_second": 3.275,
+      "step": 1440
+    },
+    {
+      "epoch": 24.99,
+      "learning_rate": 2.368421052631579e-05,
+      "loss": 0.0289,
+      "step": 1500
+    },
+    {
+      "epoch": 24.99,
+      "eval_accuracy": 0.978663855075242,
+      "eval_f1": 0.9691399662731872,
+      "eval_loss": 0.08786529302597046,
+      "eval_precision": 0.9684421771833878,
+      "eval_recall": 0.969838761640305,
+      "eval_runtime": 8.3812,
+      "eval_samples_per_second": 824.467,
+      "eval_steps_per_second": 3.222,
+      "step": 1500
+    },
+    {
+      "epoch": 25.99,
+      "eval_accuracy": 0.9788747244320904,
+      "eval_f1": 0.9693623412750109,
+      "eval_loss": 0.08869566768407822,
+      "eval_precision": 0.968419843821773,
+      "eval_recall": 0.9703066750533115,
+      "eval_runtime": 8.2152,
+      "eval_samples_per_second": 841.126,
+      "eval_steps_per_second": 3.287,
+      "step": 1560
+    },
+    {
+      "epoch": 26.99,
+      "eval_accuracy": 0.9787341448608582,
+      "eval_f1": 0.9691018771893516,
+      "eval_loss": 0.09096662700176239,
+      "eval_precision": 0.9683967033303716,
+      "eval_recall": 0.9698080787935505,
+      "eval_runtime": 8.2409,
+      "eval_samples_per_second": 838.5,
+      "eval_steps_per_second": 3.276,
+      "step": 1620
+    },
+    {
+      "epoch": 27.99,
+      "eval_accuracy": 0.9786702450557526,
+      "eval_f1": 0.9690532771176695,
+      "eval_loss": 0.09239726513624191,
+      "eval_precision": 0.9684296811558675,
+      "eval_recall": 0.9696776766948437,
+      "eval_runtime": 8.2167,
+      "eval_samples_per_second": 840.968,
+      "eval_steps_per_second": 3.286,
+      "step": 1680
+    },
+    {
+      "epoch": 28.99,
+      "eval_accuracy": 0.9788299945685166,
+      "eval_f1": 0.9692778570442306,
+      "eval_loss": 0.09497389197349548,
+      "eval_precision": 0.9693075990733212,
+      "eval_recall": 0.9692481168402804,
+      "eval_runtime": 8.3979,
+      "eval_samples_per_second": 822.821,
+      "eval_steps_per_second": 3.215,
+      "step": 1740
+    },
+    {
+      "epoch": 29.99,
+      "eval_accuracy": 0.9788811144126011,
+      "eval_f1": 0.9694443698883832,
+      "eval_loss": 0.09615545719861984,
+      "eval_precision": 0.9691805239310932,
+      "eval_recall": 0.9697083595415983,
+      "eval_runtime": 8.3107,
+      "eval_samples_per_second": 831.454,
+      "eval_steps_per_second": 3.249,
+      "step": 1800
+    },
+    {
+      "epoch": 30.99,
+      "eval_accuracy": 0.9787213648998371,
+      "eval_f1": 0.9692713982912798,
+      "eval_loss": 0.09773550182580948,
+      "eval_precision": 0.9686587860355012,
+      "eval_recall": 0.9698847859104368,
+      "eval_runtime": 8.3495,
+      "eval_samples_per_second": 827.598,
+      "eval_steps_per_second": 3.234,
+      "step": 1860
+    },
+    {
+      "epoch": 31.99,
+      "eval_accuracy": 0.9788491645100482,
+      "eval_f1": 0.9693524335969396,
+      "eval_loss": 0.09792140126228333,
+      "eval_precision": 0.9688436281158288,
+      "eval_recall": 0.9698617737753709,
+      "eval_runtime": 8.217,
+      "eval_samples_per_second": 840.944,
+      "eval_steps_per_second": 3.286,
+      "step": 1920
+    },
+    {
+      "epoch": 32.99,
+      "eval_accuracy": 0.9787916546854533,
+      "eval_f1": 0.9692388483638134,
+      "eval_loss": 0.09997569024562836,
+      "eval_precision": 0.9686855916944412,
+      "eval_recall": 0.9697927373701732,
+      "eval_runtime": 9.2731,
+      "eval_samples_per_second": 745.164,
+      "eval_steps_per_second": 2.912,
+      "step": 1980
+    },
+    {
+      "epoch": 33.33,
+      "learning_rate": 1.0526315789473684e-05,
+      "loss": 0.018,
+      "step": 2000
+    },
+    {
+      "epoch": 33.99,
+      "eval_accuracy": 0.9788427745295377,
+      "eval_f1": 0.9692880908937579,
+      "eval_loss": 0.10211524367332458,
+      "eval_precision": 0.9687533522335453,
+      "eval_recall": 0.9698234202169277,
+      "eval_runtime": 8.1926,
+      "eval_samples_per_second": 843.447,
+      "eval_steps_per_second": 3.296,
+      "step": 2040
+    },
+    {
+      "epoch": 34.99,
+      "eval_accuracy": 0.9788427745295377,
+      "eval_f1": 0.9694191594963878,
+      "eval_loss": 0.10369361937046051,
+      "eval_precision": 0.968739706929965,
+      "eval_recall": 0.9700995658377184,
+      "eval_runtime": 8.1647,
+      "eval_samples_per_second": 846.325,
+      "eval_steps_per_second": 3.307,
+      "step": 2100
+    },
+    {
+      "epoch": 35.99,
+      "eval_accuracy": 0.9789514041982172,
+      "eval_f1": 0.9695659672319632,
+      "eval_loss": 0.10349933803081512,
+      "eval_precision": 0.9688493324856962,
+      "eval_recall": 0.9702836629182455,
+      "eval_runtime": 8.3265,
+      "eval_samples_per_second": 829.884,
+      "eval_steps_per_second": 3.243,
+      "step": 2160
+    },
+    {
+      "epoch": 36.99,
+      "eval_accuracy": 0.9788875043931116,
+      "eval_f1": 0.9694168151938519,
+      "eval_loss": 0.10418598353862762,
+      "eval_precision": 0.9688115284726,
+      "eval_recall": 0.9700228587208322,
+      "eval_runtime": 8.3843,
+      "eval_samples_per_second": 824.159,
+      "eval_steps_per_second": 3.22,
+      "step": 2220
+    },
+    {
+      "epoch": 37.99,
+      "eval_accuracy": 0.9787405348413687,
+      "eval_f1": 0.9692040580887735,
+      "eval_loss": 0.10528801381587982,
+      "eval_precision": 0.9685395840514766,
+      "eval_recall": 0.9698694444870595,
+      "eval_runtime": 9.1629,
+      "eval_samples_per_second": 754.13,
+      "eval_steps_per_second": 2.947,
+      "step": 2280
+    },
+    {
+      "epoch": 38.99,
+      "eval_accuracy": 0.97886833445158,
+      "eval_f1": 0.969450960550726,
+      "eval_loss": 0.10520931333303452,
+      "eval_precision": 0.9688567794922085,
+      "eval_recall": 0.970045870855898,
+      "eval_runtime": 8.2422,
+      "eval_samples_per_second": 838.371,
+      "eval_steps_per_second": 3.276,
+      "step": 2340
+    },
+    {
+      "epoch": 39.99,
+      "eval_accuracy": 0.9788491645100482,
+      "eval_f1": 0.9694007796419167,
+      "eval_loss": 0.1054077297449112,
+      "eval_precision": 0.9688177562575179,
+      "eval_recall": 0.969984505162389,
+      "eval_runtime": 8.347,
+      "eval_samples_per_second": 827.841,
+      "eval_steps_per_second": 3.235,
+      "step": 2400
+    },
+    {
+      "epoch": 39.99,
+      "step": 2400,
+      "total_flos": 1.1777248744118362e+17,
+      "train_loss": 0.17379826227823894,
+      "train_runtime": 1699.1945,
+      "train_samples_per_second": 1463.964,
+      "train_steps_per_second": 1.412
+    }
+  ],
+  "max_steps": 2400,
+  "num_train_epochs": 40,
+  "total_flos": 1.1777248744118362e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8fe0ed38e74a4d194378331bfb9493c837d3b3f57d63a2deb0d0dcb374d8006
+size 3439

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff