tharindu commited on Mar 12, 2024

Commit

853fe42

verified ·

1 Parent(s): a4cb774

Upload folder using huggingface_hub

Browse files

Files changed (33) hide show

best_model/config.json +32 -0
best_model/eval_results.txt +1 -0
best_model/generation_config.json +7 -0
best_model/model_args.json +1 -0
best_model/optimizer.pt +3 -0
best_model/pytorch_model.bin +3 -0
best_model/scheduler.pt +3 -0
best_model/special_tokens_map.json +5 -0
best_model/spiece.model +3 -0
best_model/tokenizer_config.json +13 -0
best_model/training_args.bin +3 -0
checkpoint-82420-epoch-10/config.json +32 -0
checkpoint-82420-epoch-10/eval_results.txt +1 -0
checkpoint-82420-epoch-10/generation_config.json +7 -0
checkpoint-82420-epoch-10/model_args.json +1 -0
checkpoint-82420-epoch-10/optimizer.pt +3 -0
checkpoint-82420-epoch-10/pytorch_model.bin +3 -0
checkpoint-82420-epoch-10/scheduler.pt +3 -0
checkpoint-82420-epoch-10/special_tokens_map.json +5 -0
checkpoint-82420-epoch-10/spiece.model +3 -0
checkpoint-82420-epoch-10/tokenizer_config.json +13 -0
checkpoint-82420-epoch-10/training_args.bin +3 -0
config.json +32 -0
eval_results.txt +1 -0
generation_config.json +7 -0
model_args.json +1 -0
predictions.tsv +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +5 -0
spiece.model +3 -0
tokenizer_config.json +13 -0
training_args.bin +3 -0
training_progress_scores.csv +36 -0

best_model/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "google/mt5-large",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.29.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

best_model/eval_results.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ eval_loss = 2.0929034238067548

best_model/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.29.2"
+}

best_model/model_args.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"adafactor_beta1": null, "adafactor_clip_threshold": 1.0, "adafactor_decay_rate": -0.8, "adafactor_eps": [1e-30, 0.001], "adafactor_relative_step": false, "adafactor_scale_parameter": false, "adafactor_warmup_init": false, "adam_betas": [0.9, 0.999], "adam_epsilon": 1e-08, "best_model_dir": "outputs/mt5_large/best_model", "cache_dir": "cache_dir/mt5_large", "config": {}, "cosine_schedule_num_cycles": 0.5, "custom_layer_parameters": [], "custom_parameter_groups": [], "dataloader_num_workers": 0, "do_lower_case": false, "dynamic_quantize": false, "early_stopping_consider_epochs": false, "early_stopping_delta": 0, "early_stopping_metric": "eval_loss", "early_stopping_metric_minimize": true, "early_stopping_patience": 25, "encoding": null, "eval_batch_size": 8, "evaluate_during_training": true, "evaluate_during_training_silent": true, "evaluate_during_training_steps": 3200, "evaluate_during_training_verbose": true, "evaluate_each_epoch": true, "fp16": false, "gradient_accumulation_steps": 1, "learning_rate": 0.0001, "local_rank": -1, "logging_steps": 3200, "loss_type": null, "loss_args": {}, "manual_seed": 777, "max_grad_norm": 1.0, "max_seq_length": 256, "model_name": "google/mt5-large", "model_type": "mt5", "multiprocessing_chunksize": -1, "n_gpu": 1, "no_cache": false, "no_save": false, "not_saved_args": [], "num_train_epochs": 10, "optimizer": "Adafactor", "output_dir": "outputs/mt5_large", "overwrite_output_dir": true, "polynomial_decay_schedule_lr_end": 1e-07, "polynomial_decay_schedule_power": 1.0, "process_count": 78, "quantized_model": false, "reprocess_input_data": true, "save_best_model": true, "save_eval_checkpoints": true, "save_model_every_epoch": true, "save_optimizer_and_scheduler": true, "save_steps": 3200, "scheduler": "constant_schedule_with_warmup", "silent": false, "skip_special_tokens": true, "tensorboard_dir": null, "thread_count": null, "tokenizer_name": null, "tokenizer_type": null, "train_batch_size": 8, "train_custom_parameters_only": false, "use_cached_eval_features": false, "use_early_stopping": false, "use_hf_datasets": false, "use_multiprocessing": false, "use_multiprocessing_for_evaluation": false, "wandb_kwargs": {"name": "google/mt5-large"}, "wandb_project": "DORE", "warmup_ratio": 0.06, "warmup_steps": 4946, "weight_decay": 0.0, "model_class": "T5Model", "dataset_class": null, "do_sample": false, "early_stopping": true, "evaluate_generated_text": true, "length_penalty": 2.0, "max_length": 20, "max_steps": -1, "num_beams": 1, "num_return_sequences": 1, "preprocess_inputs": true, "repetition_penalty": 1.0, "save_recent_only": true, "special_tokens_list": [], "top_k": null, "top_p": null, "use_multiprocessed_decoding": false}

best_model/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:275296b14d81239a41d08dcb9e7613223687e3f129673ab4173c7b6c2a9e48fb
+size 7520365

best_model/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11d9cc93c9f8cf2b24b08e76bd06d6642602994dfcbfa91e15b58d9e92bd8c78
+size 4918519065

best_model/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05742c8bca689df2628e85dde3814c6fc6e99ba443819af08f1582bdf225b1c3
+size 627

best_model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

best_model/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

best_model/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "additional_special_tokens": null,
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "tokenizer_file": null,
+  "truncate": true,
+  "unk_token": "<unk>"
+}

best_model/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea41f43eb1240f44af43e081b5ea7293edb1755ba599426461bba32f9628ee33
+size 3259

checkpoint-82420-epoch-10/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "google/mt5-large",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.29.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

checkpoint-82420-epoch-10/eval_results.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ eval_loss = 2.1630911444761636

checkpoint-82420-epoch-10/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.29.2"
+}

checkpoint-82420-epoch-10/model_args.json ADDED Viewed

	@@ -0,0 +1 @@

checkpoint-82420-epoch-10/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5137cb32d26c0f06b9f3fbe954a82b7e7fe3715a38189b682fb89bf298854c77
+size 7521453

checkpoint-82420-epoch-10/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a298c30a12f7a27d561c9a99a83f20660e2c2a89edf5c80c83130bf86fc5c1d
+size 4918519065

checkpoint-82420-epoch-10/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fd1cccdeb248b7f8999fe406383ed85cd2dac82db6896af46d2e3034942e921
+size 627

checkpoint-82420-epoch-10/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

checkpoint-82420-epoch-10/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

checkpoint-82420-epoch-10/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "additional_special_tokens": null,
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "tokenizer_file": null,
+  "truncate": true,
+  "unk_token": "<unk>"
+}

checkpoint-82420-epoch-10/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea41f43eb1240f44af43e081b5ea7293edb1755ba599426461bba32f9628ee33
+size 3259

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "google/mt5-large",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.29.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

eval_results.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ eval_loss = 2.1630911444761636

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.29.2"
+}

model_args.json ADDED Viewed

	@@ -0,0 +1 @@

predictions.tsv ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a298c30a12f7a27d561c9a99a83f20660e2c2a89edf5c80c83130bf86fc5c1d
+size 4918519065

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "additional_special_tokens": null,
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "tokenizer_file": null,
+  "truncate": true,
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea41f43eb1240f44af43e081b5ea7293edb1755ba599426461bba32f9628ee33
+size 3259

training_progress_scores.csv ADDED Viewed

	@@ -0,0 +1,36 @@

+global_step,eval_loss,train_loss
+3200,3.374674614976182,3.9845597743988037
+6400,2.706956196849292,2.7733676433563232
+8242,2.570083327689025,2.4919896125793457
+9600,2.515582152965403,3.8742754459381104
+12800,2.3950378823083676,2.7731893062591553
+16000,2.319675380370387,2.355102300643921
+16484,2.3093124071641316,2.736697196960449
+19200,2.274697218399381,2.460291624069214
+22400,2.233421452932714,2.386378765106201
+24726,2.206636606808255,2.309751272201538
+25600,2.2117342631947583,2.62117338180542
+28800,2.180760636426823,2.5339839458465576
+32000,2.15714982815705,2.0680296421051025
+32968,2.152647942723955,2.349128246307373
+35200,2.147941063064675,1.759698748588562
+38400,2.1283009001955366,2.1585071086883545
+41210,2.1159927752456404,2.1501214504241943
+41600,2.1335905477411825,2.0185444355010986
+44800,2.123631885247228,2.0413599014282227
+48000,2.1065466314308394,1.3459291458129883
+49452,2.0929034238067548,2.1008188724517822
+51200,2.1275019966127338,1.792270302772522
+54400,2.114972168354662,2.2761390209198
+57600,2.0976422183551815,1.4940288066864014
+57694,2.103544478738036,1.8865816593170166
+60800,2.1289511687081166,1.5527468919754028
+64000,2.1186459614546886,1.9742714166641235
+65936,2.108243196349535,1.8574228286743164
+67200,2.164943459888849,1.2815409898757935
+70400,2.1567862394190365,1.5030395984649658
+73600,2.124936136789891,1.7319765090942383
+74178,2.1341943316873793,1.4674173593521118
+76800,2.1910559786921966,1.2420061826705933
+80000,2.1617909553616674,1.3645386695861816
+82420,2.1630911444761636,1.241598129272461