Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

README.md +108 -0
all_results.json +17 -0
config.json +139 -0
eval_results.json +12 -0
pytorch_model.bin +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +18 -0
train_results.json +8 -0
trainer_state.json +565 -0
training_args.bin +3 -0
vocab.txt +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,108 @@

+---
+license: mit
+tags:
+- generated_from_trainer
+metrics:
+- precision
+- recall
+- f1
+- accuracy
+model-index:
+- name: pos_final_mono_de
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# pos_final_mono_de
+This model is a fine-tuned version of [dbmdz/bert-base-german-cased](https://huggingface.co/dbmdz/bert-base-german-cased) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.1567
+- Precision: 0.9771
+- Recall: 0.9791
+- F1: 0.9781
+- Accuracy: 0.9810
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 256
+- eval_batch_size: 256
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 1024
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 500
+- num_epochs: 40.0
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Precision | Recall | F1     | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:---------:|:------:|:------:|:--------:|
+| No log        | 0.99  | 128  | 0.2357          | 0.9443    | 0.9413 | 0.9428 | 0.9475   |
+| No log        | 1.99  | 256  | 0.0513          | 0.9843    | 0.9842 | 0.9842 | 0.9853   |
+| No log        | 2.99  | 384  | 0.0406          | 0.9868    | 0.9866 | 0.9867 | 0.9875   |
+| 0.6822        | 3.99  | 512  | 0.0365          | 0.9877    | 0.9877 | 0.9877 | 0.9885   |
+| 0.6822        | 4.99  | 640  | 0.0352          | 0.9881    | 0.9882 | 0.9882 | 0.9890   |
+| 0.6822        | 5.99  | 768  | 0.0345          | 0.9887    | 0.9887 | 0.9887 | 0.9895   |
+| 0.6822        | 6.99  | 896  | 0.0353          | 0.9888    | 0.9888 | 0.9888 | 0.9896   |
+| 0.024         | 7.99  | 1024 | 0.0371          | 0.9886    | 0.9888 | 0.9887 | 0.9895   |
+| 0.024         | 8.99  | 1152 | 0.0387          | 0.9888    | 0.9888 | 0.9888 | 0.9896   |
+| 0.024         | 9.99  | 1280 | 0.0402          | 0.9890    | 0.9889 | 0.9890 | 0.9898   |
+| 0.024         | 10.99 | 1408 | 0.0429          | 0.9889    | 0.9890 | 0.9889 | 0.9897   |
+| 0.0128        | 11.99 | 1536 | 0.0454          | 0.9889    | 0.9889 | 0.9889 | 0.9896   |
+| 0.0128        | 12.99 | 1664 | 0.0461          | 0.9889    | 0.9889 | 0.9889 | 0.9897   |
+| 0.0128        | 13.99 | 1792 | 0.0477          | 0.9892    | 0.9891 | 0.9891 | 0.9899   |
+| 0.0128        | 14.99 | 1920 | 0.0507          | 0.9890    | 0.9891 | 0.9890 | 0.9898   |
+| 0.0069        | 15.99 | 2048 | 0.0514          | 0.9893    | 0.9893 | 0.9893 | 0.9901   |
+| 0.0069        | 16.99 | 2176 | 0.0530          | 0.9892    | 0.9892 | 0.9892 | 0.9899   |
+| 0.0069        | 17.99 | 2304 | 0.0552          | 0.9890    | 0.9891 | 0.9891 | 0.9898   |
+| 0.0069        | 18.99 | 2432 | 0.0567          | 0.9891    | 0.9892 | 0.9892 | 0.9898   |
+| 0.0037        | 19.99 | 2560 | 0.0577          | 0.9892    | 0.9893 | 0.9892 | 0.9900   |
+| 0.0037        | 20.99 | 2688 | 0.0592          | 0.9892    | 0.9893 | 0.9893 | 0.9899   |
+| 0.0037        | 21.99 | 2816 | 0.0606          | 0.9893    | 0.9893 | 0.9893 | 0.9900   |
+| 0.0037        | 22.99 | 2944 | 0.0628          | 0.9893    | 0.9893 | 0.9893 | 0.9900   |
+| 0.0023        | 23.99 | 3072 | 0.0629          | 0.9892    | 0.9891 | 0.9891 | 0.9899   |
+| 0.0023        | 24.99 | 3200 | 0.0625          | 0.9892    | 0.9893 | 0.9893 | 0.9900   |
+| 0.0023        | 25.99 | 3328 | 0.0636          | 0.9893    | 0.9893 | 0.9893 | 0.9900   |
+| 0.0023        | 26.99 | 3456 | 0.0650          | 0.9894    | 0.9894 | 0.9894 | 0.9901   |
+| 0.0017        | 27.99 | 3584 | 0.0644          | 0.9894    | 0.9894 | 0.9894 | 0.9901   |
+| 0.0017        | 28.99 | 3712 | 0.0656          | 0.9895    | 0.9895 | 0.9895 | 0.9901   |
+| 0.0017        | 29.99 | 3840 | 0.0668          | 0.9895    | 0.9895 | 0.9895 | 0.9902   |
+| 0.0017        | 30.99 | 3968 | 0.0666          | 0.9895    | 0.9894 | 0.9894 | 0.9901   |
+| 0.0011        | 31.99 | 4096 | 0.0678          | 0.9894    | 0.9894 | 0.9894 | 0.9900   |
+| 0.0011        | 32.99 | 4224 | 0.0685          | 0.9896    | 0.9896 | 0.9896 | 0.9902   |
+| 0.0011        | 33.99 | 4352 | 0.0692          | 0.9894    | 0.9894 | 0.9894 | 0.9901   |
+| 0.0011        | 34.99 | 4480 | 0.0698          | 0.9895    | 0.9895 | 0.9895 | 0.9902   |
+| 0.0009        | 35.99 | 4608 | 0.0698          | 0.9894    | 0.9894 | 0.9894 | 0.9901   |
+| 0.0009        | 36.99 | 4736 | 0.0695          | 0.9895    | 0.9895 | 0.9895 | 0.9902   |
+| 0.0009        | 37.99 | 4864 | 0.0696          | 0.9894    | 0.9895 | 0.9894 | 0.9902   |
+| 0.0009        | 38.99 | 4992 | 0.0699          | 0.9895    | 0.9895 | 0.9895 | 0.9902   |
+| 0.0007        | 39.99 | 5120 | 0.0697          | 0.9894    | 0.9894 | 0.9894 | 0.9901   |
+### Framework versions
+- Transformers 4.25.1
+- Pytorch 1.12.0
+- Datasets 2.18.0
+- Tokenizers 0.13.2

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 39.99,
+    "eval_accuracy": 0.9810301218670959,
+    "eval_f1": 0.9781145801758109,
+    "eval_loss": 0.1567157655954361,
+    "eval_precision": 0.9771075581395349,
+    "eval_recall": 0.9791236800582594,
+    "eval_runtime": 1.068,
+    "eval_samples": 437,
+    "eval_samples_per_second": 409.172,
+    "eval_steps_per_second": 1.873,
+    "train_loss": 0.07192220802244265,
+    "train_runtime": 4057.7347,
+    "train_samples": 131833,
+    "train_samples_per_second": 1299.572,
+    "train_steps_per_second": 1.262
+}

config.json ADDED Viewed

	@@ -0,0 +1,139 @@

+{
+  "_name_or_path": "dbmdz/bert-base-german-cased",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "finetuning_task": "pos",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "ADV",
+    "1": "VMINF",
+    "2": "APPO",
+    "3": "CARD",
+    "4": "PTKVZ",
+    "5": "PDAT",
+    "6": "PTKZU",
+    "7": "PRELS",
+    "8": "ITJ",
+    "9": "APPR",
+    "10": "PIAT",
+    "11": "NN",
+    "12": "PWS",
+    "13": "VVINF",
+    "14": "APPRART",
+    "15": "VAPP",
+    "16": "APZR",
+    "17": "KOKOM",
+    "18": "$,",
+    "19": "PDS",
+    "20": "VAIMP",
+    "21": "PTKANT",
+    "22": "PRF",
+    "23": "PWAV",
+    "24": "KON",
+    "25": "VVPP",
+    "26": "PPOSS",
+    "27": "VVFIN",
+    "28": "PTKNEG",
+    "29": "ART",
+    "30": "VMFIN",
+    "31": "FW",
+    "32": "PPER",
+    "33": "$",
+    "34": "VAINF",
+    "35": "PTKA",
+    "36": "$.",
+    "37": "ADJA",
+    "38": "XY",
+    "39": "KOUS",
+    "40": "PPOSAT",
+    "41": "VAFIN",
+    "42": "FM",
+    "43": "PIS",
+    "44": "VVIZU",
+    "45": "ADJD",
+    "46": "KOUI",
+    "47": "PROAV",
+    "48": "PRELAT",
+    "49": "VMPP",
+    "50": "VVIMP",
+    "51": "PWAT",
+    "52": "TRUNC",
+    "53": "NE"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "$": 33,
+    "$,": 18,
+    "$.": 36,
+    "ADJA": 37,
+    "ADJD": 45,
+    "ADV": 0,
+    "APPO": 2,
+    "APPR": 9,
+    "APPRART": 14,
+    "APZR": 16,
+    "ART": 29,
+    "CARD": 3,
+    "FM": 42,
+    "FW": 31,
+    "ITJ": 8,
+    "KOKOM": 17,
+    "KON": 24,
+    "KOUI": 46,
+    "KOUS": 39,
+    "NE": 53,
+    "NN": 11,
+    "PDAT": 5,
+    "PDS": 19,
+    "PIAT": 10,
+    "PIS": 43,
+    "PPER": 32,
+    "PPOSAT": 40,
+    "PPOSS": 26,
+    "PRELAT": 48,
+    "PRELS": 7,
+    "PRF": 22,
+    "PROAV": 47,
+    "PTKA": 35,
+    "PTKANT": 21,
+    "PTKNEG": 28,
+    "PTKVZ": 4,
+    "PTKZU": 6,
+    "PWAT": 51,
+    "PWAV": 23,
+    "PWS": 12,
+    "TRUNC": 52,
+    "VAFIN": 41,
+    "VAIMP": 20,
+    "VAINF": 34,
+    "VAPP": 15,
+    "VMFIN": 30,
+    "VMINF": 1,
+    "VMPP": 49,
+    "VVFIN": 27,
+    "VVIMP": 50,
+    "VVINF": 13,
+    "VVIZU": 44,
+    "VVPP": 25,
+    "XY": 38
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 31102
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 39.99,
+    "eval_accuracy": 0.9810301218670959,
+    "eval_f1": 0.9781145801758109,
+    "eval_loss": 0.1567157655954361,
+    "eval_precision": 0.9771075581395349,
+    "eval_recall": 0.9791236800582594,
+    "eval_runtime": 1.068,
+    "eval_samples": 437,
+    "eval_samples_per_second": 409.172,
+    "eval_steps_per_second": 1.873
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c56e41223a9c0bf47efb09c096f4589a5af4ea4a1e4549dea5919e47dce0c69
+size 437584881

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "max_len": 512,
+  "model_max_length": 512,
+  "name_or_path": "dbmdz/bert-base-german-cased",
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "special_tokens_map_file": null,
+  "strip_accents": null,
+  "token": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 39.99,
+    "train_loss": 0.07192220802244265,
+    "train_runtime": 4057.7347,
+    "train_samples": 131833,
+    "train_samples_per_second": 1299.572,
+    "train_steps_per_second": 1.262
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,565 @@

+{
+  "best_metric": 0.9895929814239887,
+  "best_model_checkpoint": "models/pos_final_mono_de/checkpoint-4224",
+  "epoch": 39.994174757281556,
+  "global_step": 5120,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.99,
+      "eval_accuracy": 0.9475099341812547,
+      "eval_f1": 0.9428053278974075,
+      "eval_loss": 0.235727921128273,
+      "eval_precision": 0.9442734211134948,
+      "eval_recall": 0.941341792581462,
+      "eval_runtime": 18.99,
+      "eval_samples_per_second": 771.406,
+      "eval_steps_per_second": 3.054,
+      "step": 128
+    },
+    {
+      "epoch": 1.99,
+      "eval_accuracy": 0.9852943432700717,
+      "eval_f1": 0.9842332493182053,
+      "eval_loss": 0.05128009244799614,
+      "eval_precision": 0.9842997713944935,
+      "eval_recall": 0.9841667362328519,
+      "eval_runtime": 19.2922,
+      "eval_samples_per_second": 759.323,
+      "eval_steps_per_second": 3.006,
+      "step": 256
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 0.9875228217677473,
+      "eval_f1": 0.9867158568898448,
+      "eval_loss": 0.04063262417912483,
+      "eval_precision": 0.9867884320258268,
+      "eval_recall": 0.9866432924284164,
+      "eval_runtime": 19.7655,
+      "eval_samples_per_second": 741.14,
+      "eval_steps_per_second": 2.934,
+      "step": 384
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 5e-05,
+      "loss": 0.6822,
+      "step": 500
+    },
+    {
+      "epoch": 3.99,
+      "eval_accuracy": 0.9884893907546909,
+      "eval_f1": 0.9876851402812782,
+      "eval_loss": 0.036450713872909546,
+      "eval_precision": 0.9876576580157648,
+      "eval_recall": 0.9877126240762605,
+      "eval_runtime": 18.3474,
+      "eval_samples_per_second": 798.424,
+      "eval_steps_per_second": 3.161,
+      "step": 512
+    },
+    {
+      "epoch": 4.99,
+      "eval_accuracy": 0.9889918532042529,
+      "eval_f1": 0.9881764176274528,
+      "eval_loss": 0.03515882417559624,
+      "eval_precision": 0.9881194651573207,
+      "eval_recall": 0.9882333766631287,
+      "eval_runtime": 19.0555,
+      "eval_samples_per_second": 768.756,
+      "eval_steps_per_second": 3.044,
+      "step": 640
+    },
+    {
+      "epoch": 5.99,
+      "eval_accuracy": 0.9894521241504165,
+      "eval_f1": 0.9887225068869429,
+      "eval_loss": 0.0344870425760746,
+      "eval_precision": 0.9887067858661908,
+      "eval_recall": 0.9887382284076499,
+      "eval_runtime": 18.7765,
+      "eval_samples_per_second": 780.176,
+      "eval_steps_per_second": 3.089,
+      "step": 768
+    },
+    {
+      "epoch": 6.99,
+      "eval_accuracy": 0.9896017122079197,
+      "eval_f1": 0.9887940595397575,
+      "eval_loss": 0.03525426983833313,
+      "eval_precision": 0.9887783373812941,
+      "eval_recall": 0.9888097821982119,
+      "eval_runtime": 18.226,
+      "eval_samples_per_second": 803.744,
+      "eval_steps_per_second": 3.182,
+      "step": 896
+    },
+    {
+      "epoch": 7.81,
+      "learning_rate": 4.458874458874459e-05,
+      "loss": 0.024,
+      "step": 1000
+    },
+    {
+      "epoch": 7.99,
+      "eval_accuracy": 0.9894866444713788,
+      "eval_f1": 0.9887030802192603,
+      "eval_loss": 0.037094976752996445,
+      "eval_precision": 0.9886480621017779,
+      "eval_recall": 0.9887581044605838,
+      "eval_runtime": 18.998,
+      "eval_samples_per_second": 771.08,
+      "eval_steps_per_second": 3.053,
+      "step": 1024
+    },
+    {
+      "epoch": 8.99,
+      "eval_accuracy": 0.9895556851133034,
+      "eval_f1": 0.988807816838561,
+      "eval_loss": 0.03866518661379814,
+      "eval_precision": 0.9888058514867228,
+      "eval_recall": 0.9888097821982119,
+      "eval_runtime": 19.63,
+      "eval_samples_per_second": 746.255,
+      "eval_steps_per_second": 2.955,
+      "step": 1152
+    },
+    {
+      "epoch": 9.99,
+      "eval_accuracy": 0.9897513002654229,
+      "eval_f1": 0.9889666056460926,
+      "eval_loss": 0.04022372514009476,
+      "eval_precision": 0.9889842973563904,
+      "eval_recall": 0.9889489145687492,
+      "eval_runtime": 17.8198,
+      "eval_samples_per_second": 822.064,
+      "eval_steps_per_second": 3.255,
+      "step": 1280
+    },
+    {
+      "epoch": 10.99,
+      "eval_accuracy": 0.9897282867181147,
+      "eval_f1": 0.9889296106084937,
+      "eval_loss": 0.04293292760848999,
+      "eval_precision": 0.9888785102450464,
+      "eval_recall": 0.9889807162534435,
+      "eval_runtime": 18.5105,
+      "eval_samples_per_second": 791.389,
+      "eval_steps_per_second": 3.133,
+      "step": 1408
+    },
+    {
+      "epoch": 11.71,
+      "learning_rate": 3.917748917748918e-05,
+      "loss": 0.0128,
+      "step": 1500
+    },
+    {
+      "epoch": 11.99,
+      "eval_accuracy": 0.989628561346446,
+      "eval_f1": 0.9888770954828604,
+      "eval_loss": 0.045427996665239334,
+      "eval_precision": 0.9889006825762183,
+      "eval_recall": 0.9888535095146666,
+      "eval_runtime": 18.3742,
+      "eval_samples_per_second": 797.257,
+      "eval_steps_per_second": 3.157,
+      "step": 1536
+    },
+    {
+      "epoch": 12.99,
+      "eval_accuracy": 0.9896899308059345,
+      "eval_f1": 0.9889251953792704,
+      "eval_loss": 0.04608777165412903,
+      "eval_precision": 0.9889134021028363,
+      "eval_recall": 0.9889369889369889,
+      "eval_runtime": 18.3253,
+      "eval_samples_per_second": 799.387,
+      "eval_steps_per_second": 3.165,
+      "step": 1664
+    },
+    {
+      "epoch": 13.99,
+      "eval_accuracy": 0.989889381549272,
+      "eval_f1": 0.9891329626839416,
+      "eval_loss": 0.04769197106361389,
+      "eval_precision": 0.9892057156034064,
+      "eval_recall": 0.9890602204651792,
+      "eval_runtime": 18.8558,
+      "eval_samples_per_second": 776.896,
+      "eval_steps_per_second": 3.076,
+      "step": 1792
+    },
+    {
+      "epoch": 14.99,
+      "eval_accuracy": 0.9897743138127311,
+      "eval_f1": 0.9890247489724366,
+      "eval_loss": 0.0506986528635025,
+      "eval_precision": 0.9889972294324113,
+      "eval_recall": 0.9890522700440055,
+      "eval_runtime": 17.9307,
+      "eval_samples_per_second": 816.978,
+      "eval_steps_per_second": 3.235,
+      "step": 1920
+    },
+    {
+      "epoch": 15.62,
+      "learning_rate": 3.376623376623377e-05,
+      "loss": 0.0069,
+      "step": 2000
+    },
+    {
+      "epoch": 15.99,
+      "eval_accuracy": 0.9900581475628654,
+      "eval_f1": 0.9893163454944793,
+      "eval_loss": 0.05137912556529045,
+      "eval_precision": 0.9893419096308429,
+      "eval_recall": 0.9892907826792124,
+      "eval_runtime": 18.9861,
+      "eval_samples_per_second": 771.564,
+      "eval_steps_per_second": 3.055,
+      "step": 2048
+    },
+    {
+      "epoch": 16.99,
+      "eval_accuracy": 0.989889381549272,
+      "eval_f1": 0.989197257872486,
+      "eval_loss": 0.053016748279333115,
+      "eval_precision": 0.9892070887364145,
+      "eval_recall": 0.9891874272039561,
+      "eval_runtime": 18.1987,
+      "eval_samples_per_second": 804.946,
+      "eval_steps_per_second": 3.187,
+      "step": 2176
+    },
+    {
+      "epoch": 17.99,
+      "eval_accuracy": 0.9898203409073475,
+      "eval_f1": 0.9890543664272952,
+      "eval_loss": 0.05524001270532608,
+      "eval_precision": 0.9890445373741871,
+      "eval_recall": 0.989064195675766,
+      "eval_runtime": 18.53,
+      "eval_samples_per_second": 790.554,
+      "eval_steps_per_second": 3.13,
+      "step": 2304
+    },
+    {
+      "epoch": 18.99,
+      "eval_accuracy": 0.9898395188634376,
+      "eval_f1": 0.9891659296212747,
+      "eval_loss": 0.0566512756049633,
+      "eval_precision": 0.9891325086653735,
+      "eval_recall": 0.9891993528357165,
+      "eval_runtime": 19.0959,
+      "eval_samples_per_second": 767.129,
+      "eval_steps_per_second": 3.037,
+      "step": 2432
+    },
+    {
+      "epoch": 19.53,
+      "learning_rate": 2.8354978354978357e-05,
+      "loss": 0.0037,
+      "step": 2500
+    },
+    {
+      "epoch": 19.99,
+      "eval_accuracy": 0.9899507510087605,
+      "eval_f1": 0.989249406222982,
+      "eval_loss": 0.057712409645318985,
+      "eval_precision": 0.9892159824466563,
+      "eval_recall": 0.9892828322580389,
+      "eval_runtime": 18.1495,
+      "eval_samples_per_second": 807.13,
+      "eval_steps_per_second": 3.196,
+      "step": 2560
+    },
+    {
+      "epoch": 20.99,
+      "eval_accuracy": 0.989897052731708,
+      "eval_f1": 0.9892537230374182,
+      "eval_loss": 0.05920035019516945,
+      "eval_precision": 0.9891888454322872,
+      "eval_recall": 0.9893186091533199,
+      "eval_runtime": 18.5483,
+      "eval_samples_per_second": 789.775,
+      "eval_steps_per_second": 3.127,
+      "step": 2688
+    },
+    {
+      "epoch": 21.99,
+      "eval_accuracy": 0.9899584221911966,
+      "eval_f1": 0.9892630842496084,
+      "eval_loss": 0.06059529632329941,
+      "eval_precision": 0.9892512869437322,
+      "eval_recall": 0.9892748818368653,
+      "eval_runtime": 18.2219,
+      "eval_samples_per_second": 803.923,
+      "eval_steps_per_second": 3.183,
+      "step": 2816
+    },
+    {
+      "epoch": 22.99,
+      "eval_accuracy": 0.9899699289648506,
+      "eval_f1": 0.9892710345759693,
+      "eval_loss": 0.06275586783885956,
+      "eval_precision": 0.9892592371752827,
+      "eval_recall": 0.9892828322580389,
+      "eval_runtime": 18.6724,
+      "eval_samples_per_second": 784.529,
+      "eval_steps_per_second": 3.106,
+      "step": 2944
+    },
+    {
+      "epoch": 23.43,
+      "learning_rate": 2.2943722943722946e-05,
+      "loss": 0.0023,
+      "step": 3000
+    },
+    {
+      "epoch": 23.99,
+      "eval_accuracy": 0.9899162306877982,
+      "eval_f1": 0.9891494254701287,
+      "eval_loss": 0.06293565034866333,
+      "eval_precision": 0.9891710528408098,
+      "eval_recall": 0.9891277990451545,
+      "eval_runtime": 18.198,
+      "eval_samples_per_second": 804.98,
+      "eval_steps_per_second": 3.187,
+      "step": 3072
+    },
+    {
+      "epoch": 24.99,
+      "eval_accuracy": 0.9899776001472868,
+      "eval_f1": 0.9892692816043408,
+      "eval_loss": 0.06246413290500641,
+      "eval_precision": 0.9892358571564855,
+      "eval_recall": 0.9893027083109728,
+      "eval_runtime": 18.2292,
+      "eval_samples_per_second": 803.601,
+      "eval_steps_per_second": 3.182,
+      "step": 3200
+    },
+    {
+      "epoch": 25.99,
+      "eval_accuracy": 0.990008284877031,
+      "eval_f1": 0.9893007845031315,
+      "eval_loss": 0.06362640857696533,
+      "eval_precision": 0.9892948855550521,
+      "eval_recall": 0.9893066835215596,
+      "eval_runtime": 19.3067,
+      "eval_samples_per_second": 758.751,
+      "eval_steps_per_second": 3.004,
+      "step": 3328
+    },
+    {
+      "epoch": 26.99,
+      "eval_accuracy": 0.9900926678838277,
+      "eval_f1": 0.9893981976538494,
+      "eval_loss": 0.0649913027882576,
+      "eval_precision": 0.9893903316465458,
+      "eval_recall": 0.9894060637862291,
+      "eval_runtime": 18.4146,
+      "eval_samples_per_second": 795.511,
+      "eval_steps_per_second": 3.15,
+      "step": 3456
+    },
+    {
+      "epoch": 27.34,
+      "learning_rate": 1.7532467532467535e-05,
+      "loss": 0.0017,
+      "step": 3500
+    },
+    {
+      "epoch": 27.99,
+      "eval_accuracy": 0.9901003390662637,
+      "eval_f1": 0.989384347826087,
+      "eval_loss": 0.0644073411822319,
+      "eval_precision": 0.9893705826701542,
+      "eval_recall": 0.9893981133650556,
+      "eval_runtime": 18.6787,
+      "eval_samples_per_second": 784.263,
+      "eval_steps_per_second": 3.105,
+      "step": 3584
+    },
+    {
+      "epoch": 28.99,
+      "eval_accuracy": 0.9901425305696621,
+      "eval_f1": 0.9894557748763214,
+      "eval_loss": 0.06558605283498764,
+      "eval_precision": 0.9894538082366036,
+      "eval_recall": 0.9894577415238572,
+      "eval_runtime": 18.1086,
+      "eval_samples_per_second": 808.954,
+      "eval_steps_per_second": 3.203,
+      "step": 3712
+    },
+    {
+      "epoch": 29.99,
+      "eval_accuracy": 0.9901502017520981,
+      "eval_f1": 0.9894956104173334,
+      "eval_loss": 0.0667632669210434,
+      "eval_precision": 0.989485776979218,
+      "eval_recall": 0.9895054440508986,
+      "eval_runtime": 18.5261,
+      "eval_samples_per_second": 790.723,
+      "eval_steps_per_second": 3.131,
+      "step": 3840
+    },
+    {
+      "epoch": 30.99,
+      "eval_accuracy": 0.9901003390662637,
+      "eval_f1": 0.9894474469341146,
+      "eval_loss": 0.06663960218429565,
+      "eval_precision": 0.9894808819203155,
+      "eval_recall": 0.9894140142074026,
+      "eval_runtime": 18.0695,
+      "eval_samples_per_second": 810.702,
+      "eval_steps_per_second": 3.21,
+      "step": 3968
+    },
+    {
+      "epoch": 31.25,
+      "learning_rate": 1.2121212121212122e-05,
+      "loss": 0.0011,
+      "step": 4000
+    },
+    {
+      "epoch": 31.99,
+      "eval_accuracy": 0.9900466407892112,
+      "eval_f1": 0.9893740508996081,
+      "eval_loss": 0.06780469417572021,
+      "eval_precision": 0.9893937165323654,
+      "eval_recall": 0.9893543860486009,
+      "eval_runtime": 18.1642,
+      "eval_samples_per_second": 806.478,
+      "eval_steps_per_second": 3.193,
+      "step": 4096
+    },
+    {
+      "epoch": 32.99,
+      "eval_accuracy": 0.9902230779852407,
+      "eval_f1": 0.9895929814239887,
+      "eval_loss": 0.06849976629018784,
+      "eval_precision": 0.9895851138680967,
+      "eval_recall": 0.9896008491049814,
+      "eval_runtime": 18.9151,
+      "eval_samples_per_second": 774.46,
+      "eval_steps_per_second": 3.066,
+      "step": 4224
+    },
+    {
+      "epoch": 33.99,
+      "eval_accuracy": 0.99014636616088,
+      "eval_f1": 0.9894398320867711,
+      "eval_loss": 0.06920044124126434,
+      "eval_precision": 0.9894417987104366,
+      "eval_recall": 0.9894378654709233,
+      "eval_runtime": 18.3423,
+      "eval_samples_per_second": 798.645,
+      "eval_steps_per_second": 3.162,
+      "step": 4352
+    },
+    {
+      "epoch": 34.99,
+      "eval_accuracy": 0.9902000644379325,
+      "eval_f1": 0.9895391709648887,
+      "eval_loss": 0.06976373493671417,
+      "eval_precision": 0.9895450714751387,
+      "eval_recall": 0.9895332705250061,
+      "eval_runtime": 18.8004,
+      "eval_samples_per_second": 779.185,
+      "eval_steps_per_second": 3.085,
+      "step": 4480
+    },
+    {
+      "epoch": 35.16,
+      "learning_rate": 6.709956709956711e-06,
+      "loss": 0.0009,
+      "step": 4500
+    },
+    {
+      "epoch": 35.99,
+      "eval_accuracy": 0.9900658187453014,
+      "eval_f1": 0.9893825501754999,
+      "eval_loss": 0.06981877237558365,
+      "eval_precision": 0.9893510881446884,
+      "eval_recall": 0.9894140142074026,
+      "eval_runtime": 18.1896,
+      "eval_samples_per_second": 805.351,
+      "eval_steps_per_second": 3.189,
+      "step": 4608
+    },
+    {
+      "epoch": 36.99,
+      "eval_accuracy": 0.9902039000291505,
+      "eval_f1": 0.9894797097330076,
+      "eval_loss": 0.0695314109325409,
+      "eval_precision": 0.9894698764529106,
+      "eval_recall": 0.9894895432085514,
+      "eval_runtime": 18.7061,
+      "eval_samples_per_second": 783.113,
+      "eval_steps_per_second": 3.101,
+      "step": 4736
+    },
+    {
+      "epoch": 37.99,
+      "eval_accuracy": 0.9901732152994063,
+      "eval_f1": 0.9894400419774727,
+      "eval_loss": 0.06961216777563095,
+      "eval_precision": 0.9894223430643007,
+      "eval_recall": 0.9894577415238572,
+      "eval_runtime": 18.6705,
+      "eval_samples_per_second": 784.607,
+      "eval_steps_per_second": 3.107,
+      "step": 4864
+    },
+    {
+      "epoch": 38.99,
+      "eval_accuracy": 0.9901962288467144,
+      "eval_f1": 0.9894779103694458,
+      "eval_loss": 0.06985215842723846,
+      "eval_precision": 0.9894503782202383,
+      "eval_recall": 0.9895054440508986,
+      "eval_runtime": 18.2919,
+      "eval_samples_per_second": 800.846,
+      "eval_steps_per_second": 3.171,
+      "step": 4992
+    },
+    {
+      "epoch": 39.06,
+      "learning_rate": 1.2987012987012988e-06,
+      "loss": 0.0007,
+      "step": 5000
+    },
+    {
+      "epoch": 39.99,
+      "eval_accuracy": 0.990138694978444,
+      "eval_f1": 0.9894261920378432,
+      "eval_loss": 0.06969785690307617,
+      "eval_precision": 0.9894025940986839,
+      "eval_recall": 0.9894497911026837,
+      "eval_runtime": 18.675,
+      "eval_samples_per_second": 784.419,
+      "eval_steps_per_second": 3.106,
+      "step": 5120
+    },
+    {
+      "epoch": 39.99,
+      "step": 5120,
+      "total_flos": 2.72643266432467e+17,
+      "train_loss": 0.07192220802244265,
+      "train_runtime": 4057.7347,
+      "train_samples_per_second": 1299.572,
+      "train_steps_per_second": 1.262
+    }
+  ],
+  "max_steps": 5120,
+  "num_train_epochs": 40,
+  "total_flos": 2.72643266432467e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83ef6dcd651fd93358c9bef18839cad5184cd6bdf5d92b85da1278d4445f323b
+size 3439

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff