jed351
/

deberta-v3-large

Model card Files Files and versions Community

jed351 commited on Sep 6, 2023

Commit

a08367c

•

1 Parent(s): 93c3185

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

deberta-v3-finetuned/fold_0/0/checkpoint-500/config.json +42 -0
deberta-v3-finetuned/fold_0/0/checkpoint-500/optimizer.pt +3 -0
deberta-v3-finetuned/fold_0/0/checkpoint-500/pytorch_model.bin +3 -0
deberta-v3-finetuned/fold_0/0/checkpoint-500/rng_state.pth +3 -0
deberta-v3-finetuned/fold_0/0/checkpoint-500/scheduler.pt +3 -0
deberta-v3-finetuned/fold_0/0/checkpoint-500/special_tokens_map.json +9 -0
deberta-v3-finetuned/fold_0/0/checkpoint-500/tokenizer.json +0 -0
deberta-v3-finetuned/fold_0/0/checkpoint-500/tokenizer_config.json +16 -0
deberta-v3-finetuned/fold_0/0/checkpoint-500/trainer_state.json +70 -0
deberta-v3-finetuned/fold_0/0/checkpoint-500/training_args.bin +3 -0
deberta-v3-finetuned/fold_0/config.json +42 -0
deberta-v3-finetuned/fold_0/pytorch_model.bin +3 -0
deberta-v3-finetuned/fold_0/special_tokens_map.json +9 -0
deberta-v3-finetuned/fold_0/tokenizer.json +0 -0
deberta-v3-finetuned/fold_0/tokenizer_config.json +16 -0
deberta-v3-finetuned/fold_1/1/checkpoint-1000/config.json +42 -0
deberta-v3-finetuned/fold_1/1/checkpoint-1000/optimizer.pt +3 -0
deberta-v3-finetuned/fold_1/1/checkpoint-1000/pytorch_model.bin +3 -0
deberta-v3-finetuned/fold_1/1/checkpoint-1000/rng_state.pth +3 -0
deberta-v3-finetuned/fold_1/1/checkpoint-1000/scheduler.pt +3 -0
deberta-v3-finetuned/fold_1/1/checkpoint-1000/special_tokens_map.json +9 -0
deberta-v3-finetuned/fold_1/1/checkpoint-1000/tokenizer.json +0 -0
deberta-v3-finetuned/fold_1/1/checkpoint-1000/tokenizer_config.json +16 -0
deberta-v3-finetuned/fold_1/1/checkpoint-1000/trainer_state.json +121 -0
deberta-v3-finetuned/fold_1/1/checkpoint-1000/training_args.bin +3 -0
deberta-v3-finetuned/fold_1/config.json +42 -0
deberta-v3-finetuned/fold_1/pytorch_model.bin +3 -0
deberta-v3-finetuned/fold_1/special_tokens_map.json +9 -0
deberta-v3-finetuned/fold_1/tokenizer.json +0 -0
deberta-v3-finetuned/fold_1/tokenizer_config.json +16 -0
deberta-v3-finetuned/fold_2/2/checkpoint-400/config.json +42 -0
deberta-v3-finetuned/fold_2/2/checkpoint-400/optimizer.pt +3 -0
deberta-v3-finetuned/fold_2/2/checkpoint-400/pytorch_model.bin +3 -0
deberta-v3-finetuned/fold_2/2/checkpoint-400/rng_state.pth +3 -0
deberta-v3-finetuned/fold_2/2/checkpoint-400/scheduler.pt +3 -0
deberta-v3-finetuned/fold_2/2/checkpoint-400/special_tokens_map.json +9 -0
deberta-v3-finetuned/fold_2/2/checkpoint-400/tokenizer.json +0 -0
deberta-v3-finetuned/fold_2/2/checkpoint-400/tokenizer_config.json +16 -0
deberta-v3-finetuned/fold_2/2/checkpoint-400/trainer_state.json +55 -0
deberta-v3-finetuned/fold_2/2/checkpoint-400/training_args.bin +3 -0
deberta-v3-finetuned/fold_2/config.json +42 -0
deberta-v3-finetuned/fold_2/pytorch_model.bin +3 -0
deberta-v3-finetuned/fold_2/special_tokens_map.json +9 -0
deberta-v3-finetuned/fold_2/tokenizer.json +0 -0
deberta-v3-finetuned/fold_2/tokenizer_config.json +16 -0
deberta-v3-finetuned/fold_3/3/checkpoint-100/config.json +42 -0
deberta-v3-finetuned/fold_3/3/checkpoint-100/optimizer.pt +3 -0
deberta-v3-finetuned/fold_3/3/checkpoint-100/pytorch_model.bin +3 -0
deberta-v3-finetuned/fold_3/3/checkpoint-100/rng_state.pth +3 -0
deberta-v3-finetuned/fold_3/3/checkpoint-100/scheduler.pt +3 -0

deberta-v3-finetuned/fold_0/0/checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "/gpfs/home/jc3821/kaggle/microsoft-deberta-v3-large",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.007,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.007,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "regression",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

deberta-v3-finetuned/fold_0/0/checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ce4b3555aaabd6ebf364eef18675e77db495a9c88a5af48454ebfefcddf1b52
+size 3480831547

deberta-v3-finetuned/fold_0/0/checkpoint-500/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdc5261521c4981b187281dea24a24d8290fd2c4e222a5efff1cf0e9234c7cf5
+size 1740387701

deberta-v3-finetuned/fold_0/0/checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51783737039aaae77df9f6cc876318bdb54431cf6e9bffdfbb995a59239ef270
+size 14575

deberta-v3-finetuned/fold_0/0/checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af2fa603561d1610ba73b457cac52ea6a0ab7ffa9c9c41a75a141811fc0185a3
+size 627

deberta-v3-finetuned/fold_0/0/checkpoint-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

deberta-v3-finetuned/fold_0/0/checkpoint-500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

deberta-v3-finetuned/fold_0/0/checkpoint-500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

deberta-v3-finetuned/fold_0/0/checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "best_metric": 0.4025963544845581,
+  "best_model_checkpoint": "/gpfs/home/jc3821/kaggle/content/deberta-v3-finetuned/fold_0/0/checkpoint-500",
+  "epoch": 1.953125,
+  "eval_steps": 100,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.20960840582847595,
+      "eval_rmse": 0.4578301012516022,
+      "eval_runtime": 22.7398,
+      "eval_samples_per_second": 90.458,
+      "eval_steps_per_second": 11.346,
+      "step": 100
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 0.23187659680843353,
+      "eval_rmse": 0.4815356731414795,
+      "eval_runtime": 22.6916,
+      "eval_samples_per_second": 90.65,
+      "eval_steps_per_second": 11.37,
+      "step": 200
+    },
+    {
+      "epoch": 1.17,
+      "eval_loss": 0.16903835535049438,
+      "eval_rmse": 0.4111427366733551,
+      "eval_runtime": 22.6924,
+      "eval_samples_per_second": 90.647,
+      "eval_steps_per_second": 11.369,
+      "step": 300
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.3062863349914551,
+      "eval_rmse": 0.5534313917160034,
+      "eval_runtime": 22.6866,
+      "eval_samples_per_second": 90.67,
+      "eval_steps_per_second": 11.372,
+      "step": 400
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 9.140625e-06,
+      "loss": 0.2205,
+      "step": 500
+    },
+    {
+      "epoch": 1.95,
+      "eval_loss": 0.16208384931087494,
+      "eval_rmse": 0.4025963544845581,
+      "eval_runtime": 22.6795,
+      "eval_samples_per_second": 90.699,
+      "eval_steps_per_second": 11.376,
+      "step": 500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1280,
+  "num_train_epochs": 5,
+  "save_steps": 100,
+  "total_flos": 5457160921939152.0,
+  "trial_name": null,
+  "trial_params": null
+}

deberta-v3-finetuned/fold_0/0/checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0439c9395e86496a1acd5f3dc9d68a57fea982eccfb5766d700c8191ec8b133
+size 4091

deberta-v3-finetuned/fold_0/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "/gpfs/home/jc3821/kaggle/microsoft-deberta-v3-large",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.007,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.007,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "regression",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

deberta-v3-finetuned/fold_0/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdc5261521c4981b187281dea24a24d8290fd2c4e222a5efff1cf0e9234c7cf5
+size 1740387701

deberta-v3-finetuned/fold_0/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

deberta-v3-finetuned/fold_0/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

deberta-v3-finetuned/fold_0/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

deberta-v3-finetuned/fold_1/1/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "/gpfs/home/jc3821/kaggle/microsoft-deberta-v3-large",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.007,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.007,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "regression",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

deberta-v3-finetuned/fold_1/1/checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:635821f4fe588432a6200b884f1b1d97ceabcde528ef510f99a3074b07be7eb9
+size 3480831547

deberta-v3-finetuned/fold_1/1/checkpoint-1000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f2cbd3bab0adc0d8c2db3cdd23f8fc8a30712e8f7908c9a31e7d2da1698518f
+size 1740387701

deberta-v3-finetuned/fold_1/1/checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5458d3bcbcf4f0bc302eba1f212281704d725141b083eb254d6baf69117be06c
+size 14575

deberta-v3-finetuned/fold_1/1/checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41a3073593c1c4cceb7a03282a47eee18756b89792798e8d3b798cb70f5a3bbe
+size 627

deberta-v3-finetuned/fold_1/1/checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

deberta-v3-finetuned/fold_1/1/checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

deberta-v3-finetuned/fold_1/1/checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

deberta-v3-finetuned/fold_1/1/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,121 @@

+{
+  "best_metric": 0.4920215308666229,
+  "best_model_checkpoint": "/gpfs/home/jc3821/kaggle/content/deberta-v3-finetuned/fold_1/1/checkpoint-1000",
+  "epoch": 3.875968992248062,
+  "eval_steps": 100,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.2649173140525818,
+      "eval_rmse": 0.5147011876106262,
+      "eval_runtime": 31.3445,
+      "eval_samples_per_second": 64.094,
+      "eval_steps_per_second": 8.04,
+      "step": 100
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 0.4311714172363281,
+      "eval_rmse": 0.6566364169120789,
+      "eval_runtime": 31.3047,
+      "eval_samples_per_second": 64.176,
+      "eval_steps_per_second": 8.05,
+      "step": 200
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.3980819880962372,
+      "eval_rmse": 0.630937397480011,
+      "eval_runtime": 31.303,
+      "eval_samples_per_second": 64.179,
+      "eval_steps_per_second": 8.05,
+      "step": 300
+    },
+    {
+      "epoch": 1.55,
+      "eval_loss": 0.2832517623901367,
+      "eval_rmse": 0.5322140455245972,
+      "eval_runtime": 31.2992,
+      "eval_samples_per_second": 64.187,
+      "eval_steps_per_second": 8.051,
+      "step": 400
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 9.186046511627908e-06,
+      "loss": 0.2244,
+      "step": 500
+    },
+    {
+      "epoch": 1.94,
+      "eval_loss": 0.26878467202186584,
+      "eval_rmse": 0.5184444785118103,
+      "eval_runtime": 31.2847,
+      "eval_samples_per_second": 64.217,
+      "eval_steps_per_second": 8.055,
+      "step": 500
+    },
+    {
+      "epoch": 2.33,
+      "eval_loss": 0.2900581955909729,
+      "eval_rmse": 0.5385705232620239,
+      "eval_runtime": 31.3051,
+      "eval_samples_per_second": 64.175,
+      "eval_steps_per_second": 8.05,
+      "step": 600
+    },
+    {
+      "epoch": 2.71,
+      "eval_loss": 0.3477973937988281,
+      "eval_rmse": 0.5897434949874878,
+      "eval_runtime": 31.2983,
+      "eval_samples_per_second": 64.189,
+      "eval_steps_per_second": 8.052,
+      "step": 700
+    },
+    {
+      "epoch": 3.1,
+      "eval_loss": 0.27153390645980835,
+      "eval_rmse": 0.5210891366004944,
+      "eval_runtime": 31.2968,
+      "eval_samples_per_second": 64.192,
+      "eval_steps_per_second": 8.052,
+      "step": 800
+    },
+    {
+      "epoch": 3.49,
+      "eval_loss": 0.24941422045230865,
+      "eval_rmse": 0.4994138777256012,
+      "eval_runtime": 31.3146,
+      "eval_samples_per_second": 64.155,
+      "eval_steps_per_second": 8.047,
+      "step": 900
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 3.372093023255814e-06,
+      "loss": 0.0945,
+      "step": 1000
+    },
+    {
+      "epoch": 3.88,
+      "eval_loss": 0.24208517372608185,
+      "eval_rmse": 0.4920215308666229,
+      "eval_runtime": 31.2894,
+      "eval_samples_per_second": 64.207,
+      "eval_steps_per_second": 8.054,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1290,
+  "num_train_epochs": 5,
+  "save_steps": 100,
+  "total_flos": 9605995008551688.0,
+  "trial_name": null,
+  "trial_params": null
+}

deberta-v3-finetuned/fold_1/1/checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4eadc822c2797edd54906ce4e0b7f9ef7987f46ee2743298e1f123e0e41dc785
+size 4091

deberta-v3-finetuned/fold_1/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "/gpfs/home/jc3821/kaggle/microsoft-deberta-v3-large",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.007,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.007,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "regression",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

deberta-v3-finetuned/fold_1/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f2cbd3bab0adc0d8c2db3cdd23f8fc8a30712e8f7908c9a31e7d2da1698518f
+size 1740387701

deberta-v3-finetuned/fold_1/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

deberta-v3-finetuned/fold_1/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

deberta-v3-finetuned/fold_1/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

deberta-v3-finetuned/fold_2/2/checkpoint-400/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "/gpfs/home/jc3821/kaggle/microsoft-deberta-v3-large",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.007,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.007,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "regression",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

deberta-v3-finetuned/fold_2/2/checkpoint-400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce44670793ed58c21f8c2cbce6afc4efc891a30dfde7518e85135bd442780680
+size 3480831547

deberta-v3-finetuned/fold_2/2/checkpoint-400/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d0bb0e3c058a48281a2b64af0f6ecdf014de51e36ea51b0251bfb5cc4c00691
+size 1740387701

deberta-v3-finetuned/fold_2/2/checkpoint-400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4e100a81cf298499260f07579dde148991722b91ee300d8212533f095c23a93
+size 14575

deberta-v3-finetuned/fold_2/2/checkpoint-400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7cd6229b27eb04441fb524f85b3a83bef58d5a81203fc33e818a099412769c8
+size 627

deberta-v3-finetuned/fold_2/2/checkpoint-400/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

deberta-v3-finetuned/fold_2/2/checkpoint-400/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

deberta-v3-finetuned/fold_2/2/checkpoint-400/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

deberta-v3-finetuned/fold_2/2/checkpoint-400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "best_metric": 0.43666166067123413,
+  "best_model_checkpoint": "/gpfs/home/jc3821/kaggle/content/deberta-v3-finetuned/fold_2/2/checkpoint-400",
+  "epoch": 1.5444015444015444,
+  "eval_steps": 100,
+  "global_step": 400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.31523793935775757,
+      "eval_rmse": 0.561460554599762,
+      "eval_runtime": 28.1344,
+      "eval_samples_per_second": 70.945,
+      "eval_steps_per_second": 8.886,
+      "step": 100
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 0.30585768818855286,
+      "eval_rmse": 0.5530440211296082,
+      "eval_runtime": 28.135,
+      "eval_samples_per_second": 70.944,
+      "eval_steps_per_second": 8.886,
+      "step": 200
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.33985063433647156,
+      "eval_rmse": 0.5829670429229736,
+      "eval_runtime": 28.1345,
+      "eval_samples_per_second": 70.945,
+      "eval_steps_per_second": 8.886,
+      "step": 300
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.19067342579364777,
+      "eval_rmse": 0.43666166067123413,
+      "eval_runtime": 28.134,
+      "eval_samples_per_second": 70.946,
+      "eval_steps_per_second": 8.886,
+      "step": 400
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1295,
+  "num_train_epochs": 5,
+  "save_steps": 100,
+  "total_flos": 4057351609521216.0,
+  "trial_name": null,
+  "trial_params": null
+}

deberta-v3-finetuned/fold_2/2/checkpoint-400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41d0d43d565b7b3f73ca58f024d9c5d913daab26a6cc112d5207845da19c1431
+size 4091

deberta-v3-finetuned/fold_2/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "/gpfs/home/jc3821/kaggle/microsoft-deberta-v3-large",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.007,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.007,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "regression",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

deberta-v3-finetuned/fold_2/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d0bb0e3c058a48281a2b64af0f6ecdf014de51e36ea51b0251bfb5cc4c00691
+size 1740387701

deberta-v3-finetuned/fold_2/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

deberta-v3-finetuned/fold_2/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

deberta-v3-finetuned/fold_2/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

deberta-v3-finetuned/fold_3/3/checkpoint-100/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "/gpfs/home/jc3821/kaggle/microsoft-deberta-v3-large",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.007,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.007,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "regression",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

deberta-v3-finetuned/fold_3/3/checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b20b449044c88ca077f2e4d53ed3e7965841a392bfcc938260acb2ff57021f6c
+size 3480831547

deberta-v3-finetuned/fold_3/3/checkpoint-100/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c9b7956e94bf38e46350de37247628745d4153d0f030e66a40e9099c62a7e70
+size 1740387701

deberta-v3-finetuned/fold_3/3/checkpoint-100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72b166cc4874ed59847a59cc4b7fa887c9be4c1c2d459fe1b29872f6ec46e8ea
+size 14575

deberta-v3-finetuned/fold_3/3/checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64a05a810a830e4742e4818737ab479a0943e4c2e2dab122df5475f155021251
+size 627