Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

README.md +79 -0
all_results.json +14 -0
config.json +33 -0
eval_results.json +9 -0
merges.txt +0 -0
model.safetensors +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +57 -0
train_results.json +8 -0
trainer_state.json +229 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,79 @@

+---
+language:
+- en
+base_model: FacebookAI/roberta-large
+tags:
+- generated_from_trainer
+datasets:
+- glue
+metrics:
+- accuracy
+model-index:
+- name: QNLI
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE QNLI
+      type: glue
+      args: qnli
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.9450851180669961
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# QNLI
+This model is a fine-tuned version of [FacebookAI/roberta-large](https://huggingface.co/FacebookAI/roberta-large) on the GLUE QNLI dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.2250
+- Accuracy: 0.9451
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 64
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 6.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 0.2269        | 1.0   | 1637 | 0.1639          | 0.9363   |
+| 0.1637        | 2.0   | 3274 | 0.1718          | 0.9372   |
+| 0.0977        | 3.0   | 4911 | 0.1788          | 0.9425   |
+| 0.0672        | 4.0   | 6548 | 0.2250          | 0.9451   |
+| 0.0437        | 5.0   | 8185 | 0.2863          | 0.9431   |
+| 0.0289        | 6.0   | 9822 | 0.3216          | 0.9438   |
+### Framework versions
+- Transformers 4.43.3
+- Pytorch 1.11.0+cu113
+- Datasets 2.20.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 6.0,
+    "eval_accuracy": 0.9450851180669961,
+    "eval_loss": 0.22500622272491455,
+    "eval_runtime": 21.7772,
+    "eval_samples": 5463,
+    "eval_samples_per_second": 250.858,
+    "eval_steps_per_second": 31.363,
+    "train_loss": 0.11072125577606219,
+    "train_runtime": 6983.3562,
+    "train_samples": 104743,
+    "train_samples_per_second": 89.994,
+    "train_steps_per_second": 1.406
+}

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "FacebookAI/roberta-large",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "finetuning_task": "qnli",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "entailment": 0,
+    "not_entailment": 1
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.43.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 6.0,
+    "eval_accuracy": 0.9450851180669961,
+    "eval_loss": 0.22500622272491455,
+    "eval_runtime": 21.7772,
+    "eval_samples": 5463,
+    "eval_samples_per_second": 250.858,
+    "eval_steps_per_second": 31.363
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90f8102aaaf5f515b252790cff8cc8964b8a57b92cf8916a6175fff92b95b9da
+size 1421495416

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 6.0,
+    "train_loss": 0.11072125577606219,
+    "train_runtime": 6983.3562,
+    "train_samples": 104743,
+    "train_samples_per_second": 89.994,
+    "train_steps_per_second": 1.406
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,229 @@

+{
+  "best_metric": 0.9450851180669961,
+  "best_model_checkpoint": "output/fine_tuned/roberta-large/QNLI/checkpoint-6548",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 9822,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.30543677458766033,
+      "grad_norm": 11.247173309326172,
+      "learning_rate": 1.8981877418041133e-05,
+      "loss": 0.3568,
+      "step": 500
+    },
+    {
+      "epoch": 0.6108735491753207,
+      "grad_norm": 10.365036010742188,
+      "learning_rate": 1.7963754836082265e-05,
+      "loss": 0.2495,
+      "step": 1000
+    },
+    {
+      "epoch": 0.916310323762981,
+      "grad_norm": 10.150346755981445,
+      "learning_rate": 1.69456322541234e-05,
+      "loss": 0.2269,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9362987369577156,
+      "eval_loss": 0.16394878923892975,
+      "eval_runtime": 21.9619,
+      "eval_samples_per_second": 248.749,
+      "eval_steps_per_second": 31.099,
+      "step": 1637
+    },
+    {
+      "epoch": 1.2217470983506413,
+      "grad_norm": 3.6020638942718506,
+      "learning_rate": 1.592750967216453e-05,
+      "loss": 0.1745,
+      "step": 2000
+    },
+    {
+      "epoch": 1.5271838729383018,
+      "grad_norm": 6.046133518218994,
+      "learning_rate": 1.4909387090205662e-05,
+      "loss": 0.152,
+      "step": 2500
+    },
+    {
+      "epoch": 1.832620647525962,
+      "grad_norm": 8.392080307006836,
+      "learning_rate": 1.3891264508246794e-05,
+      "loss": 0.1637,
+      "step": 3000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9372139849899322,
+      "eval_loss": 0.1717752367258072,
+      "eval_runtime": 21.9471,
+      "eval_samples_per_second": 248.916,
+      "eval_steps_per_second": 31.12,
+      "step": 3274
+    },
+    {
+      "epoch": 2.1380574221136226,
+      "grad_norm": 8.249826431274414,
+      "learning_rate": 1.2873141926287927e-05,
+      "loss": 0.1264,
+      "step": 3500
+    },
+    {
+      "epoch": 2.4434941967012827,
+      "grad_norm": 11.953063011169434,
+      "learning_rate": 1.1855019344329057e-05,
+      "loss": 0.0972,
+      "step": 4000
+    },
+    {
+      "epoch": 2.748930971288943,
+      "grad_norm": 10.987544059753418,
+      "learning_rate": 1.083689676237019e-05,
+      "loss": 0.0977,
+      "step": 4500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9425224235767893,
+      "eval_loss": 0.17880001664161682,
+      "eval_runtime": 21.9406,
+      "eval_samples_per_second": 248.991,
+      "eval_steps_per_second": 31.13,
+      "step": 4911
+    },
+    {
+      "epoch": 3.0543677458766036,
+      "grad_norm": 7.250609874725342,
+      "learning_rate": 9.818774180411322e-06,
+      "loss": 0.0931,
+      "step": 5000
+    },
+    {
+      "epoch": 3.359804520464264,
+      "grad_norm": 13.711064338684082,
+      "learning_rate": 8.800651598452455e-06,
+      "loss": 0.063,
+      "step": 5500
+    },
+    {
+      "epoch": 3.665241295051924,
+      "grad_norm": 13.753935813903809,
+      "learning_rate": 7.782529016493586e-06,
+      "loss": 0.0648,
+      "step": 6000
+    },
+    {
+      "epoch": 3.9706780696395847,
+      "grad_norm": 24.30721664428711,
+      "learning_rate": 6.764406434534719e-06,
+      "loss": 0.0672,
+      "step": 6500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9450851180669961,
+      "eval_loss": 0.22500622272491455,
+      "eval_runtime": 21.9639,
+      "eval_samples_per_second": 248.726,
+      "eval_steps_per_second": 31.096,
+      "step": 6548
+    },
+    {
+      "epoch": 4.276114844227245,
+      "grad_norm": 12.191655158996582,
+      "learning_rate": 5.74628385257585e-06,
+      "loss": 0.0443,
+      "step": 7000
+    },
+    {
+      "epoch": 4.581551618814905,
+      "grad_norm": 18.065465927124023,
+      "learning_rate": 4.728161270616982e-06,
+      "loss": 0.0444,
+      "step": 7500
+    },
+    {
+      "epoch": 4.886988393402565,
+      "grad_norm": 6.896982669830322,
+      "learning_rate": 3.7100386886581147e-06,
+      "loss": 0.0437,
+      "step": 8000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9430715723961194,
+      "eval_loss": 0.2863176465034485,
+      "eval_runtime": 21.9571,
+      "eval_samples_per_second": 248.803,
+      "eval_steps_per_second": 31.106,
+      "step": 8185
+    },
+    {
+      "epoch": 5.192425167990226,
+      "grad_norm": 0.14475573599338531,
+      "learning_rate": 2.6919161066992467e-06,
+      "loss": 0.034,
+      "step": 8500
+    },
+    {
+      "epoch": 5.497861942577886,
+      "grad_norm": 0.1549614816904068,
+      "learning_rate": 1.6737935247403788e-06,
+      "loss": 0.0297,
+      "step": 9000
+    },
+    {
+      "epoch": 5.803298717165546,
+      "grad_norm": 23.986265182495117,
+      "learning_rate": 6.55670942781511e-07,
+      "loss": 0.0289,
+      "step": 9500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9438037708218927,
+      "eval_loss": 0.32157793641090393,
+      "eval_runtime": 21.9268,
+      "eval_samples_per_second": 249.147,
+      "eval_steps_per_second": 31.149,
+      "step": 9822
+    },
+    {
+      "epoch": 6.0,
+      "step": 9822,
+      "total_flos": 1.4641993018359706e+17,
+      "train_loss": 0.11072125577606219,
+      "train_runtime": 6983.3562,
+      "train_samples_per_second": 89.994,
+      "train_steps_per_second": 1.406
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 9822,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.4641993018359706e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ba283463e935b6d11e62b41fdcd8f49b5c67501faf80e19c4619e31cf9f8b9a
+size 4783

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff