Farjfar commited on Jun 4

Commit

5c52d9c

•

1 Parent(s): 172d3de

Training in progress, step 500

Browse files

Files changed (35) hide show

model.safetensors +1 -1
run-79oeor1j/checkpoint-500/config.json +36 -0
run-79oeor1j/checkpoint-500/model.safetensors +3 -0
run-79oeor1j/checkpoint-500/optimizer.pt +3 -0
run-79oeor1j/checkpoint-500/rng_state.pth +3 -0
run-79oeor1j/checkpoint-500/scheduler.pt +3 -0
run-79oeor1j/checkpoint-500/special_tokens_map.json +7 -0
run-79oeor1j/checkpoint-500/tokenizer.json +0 -0
run-79oeor1j/checkpoint-500/tokenizer_config.json +55 -0
run-79oeor1j/checkpoint-500/trainer_state.json +88 -0
run-79oeor1j/checkpoint-500/training_args.bin +3 -0
run-79oeor1j/checkpoint-500/vocab.txt +0 -0
run-zhekmzi0/checkpoint-1000/config.json +36 -0
run-zhekmzi0/checkpoint-1000/model.safetensors +3 -0
run-zhekmzi0/checkpoint-1000/optimizer.pt +3 -0
run-zhekmzi0/checkpoint-1000/rng_state.pth +3 -0
run-zhekmzi0/checkpoint-1000/scheduler.pt +3 -0
run-zhekmzi0/checkpoint-1000/special_tokens_map.json +7 -0
run-zhekmzi0/checkpoint-1000/tokenizer.json +0 -0
run-zhekmzi0/checkpoint-1000/tokenizer_config.json +55 -0
run-zhekmzi0/checkpoint-1000/trainer_state.json +95 -0
run-zhekmzi0/checkpoint-1000/training_args.bin +3 -0
run-zhekmzi0/checkpoint-1000/vocab.txt +0 -0
run-zhekmzi0/checkpoint-1500/config.json +36 -0
run-zhekmzi0/checkpoint-1500/model.safetensors +3 -0
run-zhekmzi0/checkpoint-1500/optimizer.pt +3 -0
run-zhekmzi0/checkpoint-1500/rng_state.pth +3 -0
run-zhekmzi0/checkpoint-1500/scheduler.pt +3 -0
run-zhekmzi0/checkpoint-1500/special_tokens_map.json +7 -0
run-zhekmzi0/checkpoint-1500/tokenizer.json +0 -0
run-zhekmzi0/checkpoint-1500/tokenizer_config.json +55 -0
run-zhekmzi0/checkpoint-1500/trainer_state.json +116 -0
run-zhekmzi0/checkpoint-1500/training_args.bin +3 -0
run-zhekmzi0/checkpoint-1500/vocab.txt +0 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:637071f6b94ca4846fdb162f4d57f6c6e63a66b4ea34a374baf7e778c56adfa2
 size 430911284

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dc24ecb4e2a01a0338e189e4d33932af15ef69f24202c595d6be8e219950769
 size 430911284

run-79oeor1j/checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "bert-base-cased",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "I-S",
+    "2": "B-S"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "B-S": 2,
+    "I-S": 1,
+    "O": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 28996
+}

run-79oeor1j/checkpoint-500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9dc24ecb4e2a01a0338e189e4d33932af15ef69f24202c595d6be8e219950769
+size 430911284

run-79oeor1j/checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb1746e2ecd5bc93d8c894fd1a310ff5bd7ca023d33f7fb6f3cca44316527863
+size 861942330

run-79oeor1j/checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7a801e52b02802e184980e68632305a0661a666536a8c36170f2de2d9852f4e
+size 14244

run-79oeor1j/checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97aba1e22bddfa23e4db72f05a00ad8d432a9cbe2f6ff7ae53ee3d01d8dd5e68
+size 1064

run-79oeor1j/checkpoint-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-79oeor1j/checkpoint-500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-79oeor1j/checkpoint-500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-79oeor1j/checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,88 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.2679738562091503,
+  "eval_steps": 500,
+  "global_step": 500,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.4003896736483195,
+      "eval_f1_sklearn": 0.9435184823763613,
+      "eval_loss": 0.14738868176937103,
+      "eval_precision": 0.41431451612903225,
+      "eval_precision_sklearn": 0.9435184823763613,
+      "eval_recall": 0.38737040527803956,
+      "eval_recall_sklearn": 0.9435184823763613,
+      "eval_runtime": 4.4981,
+      "eval_samples_per_second": 90.705,
+      "eval_steps_per_second": 22.676,
+      "step": 153
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.485981308411215,
+      "eval_f1_sklearn": 0.9462117959327062,
+      "eval_loss": 0.1417916864156723,
+      "eval_precision": 0.4423820572312452,
+      "eval_precision_sklearn": 0.9462117959327062,
+      "eval_recall": 0.5391140433553252,
+      "eval_recall_sklearn": 0.9462117959327062,
+      "eval_runtime": 4.9291,
+      "eval_samples_per_second": 82.773,
+      "eval_steps_per_second": 20.693,
+      "step": 306
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.5239385727190605,
+      "eval_f1_sklearn": 0.9519106912838128,
+      "eval_loss": 0.13697904348373413,
+      "eval_precision": 0.5030355594102341,
+      "eval_precision_sklearn": 0.9519106912838128,
+      "eval_recall": 0.5466540999057493,
+      "eval_recall_sklearn": 0.9519106912838128,
+      "eval_runtime": 4.3056,
+      "eval_samples_per_second": 94.761,
+      "eval_steps_per_second": 23.69,
+      "step": 459
+    },
+    {
+      "epoch": 3.2679738562091503,
+      "grad_norm": 2.058626413345337,
+      "learning_rate": 3.4640522875816997e-06,
+      "loss": 0.1143,
+      "step": 500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 765,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 433135952304768.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "_wandb": {},
+    "assignments": {},
+    "learning_rate": 1e-05,
+    "metric": "eval/loss",
+    "per_device_train_batch_size": 8
+  }
+}

run-79oeor1j/checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de9de7a0666faf4ee948815d6d5e96b27bf8b91f1baf7d940eb78b9a5b4d00f1
+size 5112

run-79oeor1j/checkpoint-500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-zhekmzi0/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "bert-base-cased",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "I-S",
+    "2": "B-S"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "B-S": 2,
+    "I-S": 1,
+    "O": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 28996
+}

run-zhekmzi0/checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ff678356e4e9dae5bf0e71bbb5bb493ea623fe35ee1a5863e2497c4c3816836
+size 430911284

run-zhekmzi0/checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3244b120f8875324264970dfa626dfeb592b8f26423cbddf8e7bcb96a8ff84a
+size 861942330

run-zhekmzi0/checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a6506071cda30ec363ad5c19299436106e9bc716569a13a88656f006a4610af
+size 14244

run-zhekmzi0/checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5936d358126f361dac1a479cc6248387145ec4d6d8dde7d57442c55ce482fe0
+size 1064

run-zhekmzi0/checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-zhekmzi0/checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-zhekmzi0/checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-zhekmzi0/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,95 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.2679738562091503,
+  "eval_steps": 500,
+  "global_step": 1000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.515569167942828,
+      "eval_f1_sklearn": 0.9512861548069792,
+      "eval_loss": 0.1222936138510704,
+      "eval_precision": 0.5623608017817372,
+      "eval_precision_sklearn": 0.9512861548069792,
+      "eval_recall": 0.4759660697455231,
+      "eval_recall_sklearn": 0.9512861548069792,
+      "eval_runtime": 4.769,
+      "eval_samples_per_second": 85.553,
+      "eval_steps_per_second": 21.388,
+      "step": 306
+    },
+    {
+      "epoch": 1.6339869281045751,
+      "grad_norm": 1.8479167222976685,
+      "learning_rate": 6.73202614379085e-05,
+      "loss": 0.1033,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.5069582504970179,
+      "eval_f1_sklearn": 0.949646746555291,
+      "eval_loss": 0.16670264303684235,
+      "eval_precision": 0.5362776025236593,
+      "eval_precision_sklearn": 0.949646746555291,
+      "eval_recall": 0.4806786050895382,
+      "eval_recall_sklearn": 0.949646746555291,
+      "eval_runtime": 5.4042,
+      "eval_samples_per_second": 75.497,
+      "eval_steps_per_second": 18.874,
+      "step": 612
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.6056458511548333,
+      "eval_f1_sklearn": 0.9522229595222295,
+      "eval_loss": 0.15249785780906677,
+      "eval_precision": 0.5544244322631167,
+      "eval_precision_sklearn": 0.9522229595222296,
+      "eval_recall": 0.6672950047125353,
+      "eval_recall_sklearn": 0.9522229595222296,
+      "eval_runtime": 6.0493,
+      "eval_samples_per_second": 67.446,
+      "eval_steps_per_second": 16.862,
+      "step": 918
+    },
+    {
+      "epoch": 3.2679738562091503,
+      "grad_norm": 0.18758179247379303,
+      "learning_rate": 3.464052287581699e-05,
+      "loss": 0.0311,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1530,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 318346024442760.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "_wandb": {},
+    "assignments": {},
+    "learning_rate": 0.0001,
+    "metric": "eval/loss",
+    "per_device_train_batch_size": 4
+  }
+}

run-zhekmzi0/checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca5e8846bf2c23aa1f92199215b96f27a6aef16cc262f5408c515283e6c3691b
+size 5112

run-zhekmzi0/checkpoint-1000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-zhekmzi0/checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "bert-base-cased",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "I-S",
+    "2": "B-S"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "B-S": 2,
+    "I-S": 1,
+    "O": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 28996
+}

run-zhekmzi0/checkpoint-1500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52caabece46f64b616b7f2ce4d8bf847c2f0e45ad9c79e24024e17829b0ab874
+size 430911284

run-zhekmzi0/checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b8f859e97514166929cada84531fbfb175121d08133d0caddc30e378cd2b0ac
+size 861942330

run-zhekmzi0/checkpoint-1500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2623190ade7475a14422c6523b005c8acd111f240775a08c6f4ab59256d8d57
+size 14244

run-zhekmzi0/checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c760e131eecd128de99d6ae96641dcf76e359c1e356bd934c4313d53dd4fdfc
+size 1064

run-zhekmzi0/checkpoint-1500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-zhekmzi0/checkpoint-1500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-zhekmzi0/checkpoint-1500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-zhekmzi0/checkpoint-1500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,116 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.901960784313726,
+  "eval_steps": 500,
+  "global_step": 1500,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.515569167942828,
+      "eval_f1_sklearn": 0.9512861548069792,
+      "eval_loss": 0.1222936138510704,
+      "eval_precision": 0.5623608017817372,
+      "eval_precision_sklearn": 0.9512861548069792,
+      "eval_recall": 0.4759660697455231,
+      "eval_recall_sklearn": 0.9512861548069792,
+      "eval_runtime": 4.769,
+      "eval_samples_per_second": 85.553,
+      "eval_steps_per_second": 21.388,
+      "step": 306
+    },
+    {
+      "epoch": 1.6339869281045751,
+      "grad_norm": 1.8479167222976685,
+      "learning_rate": 6.73202614379085e-05,
+      "loss": 0.1033,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.5069582504970179,
+      "eval_f1_sklearn": 0.949646746555291,
+      "eval_loss": 0.16670264303684235,
+      "eval_precision": 0.5362776025236593,
+      "eval_precision_sklearn": 0.949646746555291,
+      "eval_recall": 0.4806786050895382,
+      "eval_recall_sklearn": 0.949646746555291,
+      "eval_runtime": 5.4042,
+      "eval_samples_per_second": 75.497,
+      "eval_steps_per_second": 18.874,
+      "step": 612
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.6056458511548333,
+      "eval_f1_sklearn": 0.9522229595222295,
+      "eval_loss": 0.15249785780906677,
+      "eval_precision": 0.5544244322631167,
+      "eval_precision_sklearn": 0.9522229595222296,
+      "eval_recall": 0.6672950047125353,
+      "eval_recall_sklearn": 0.9522229595222296,
+      "eval_runtime": 6.0493,
+      "eval_samples_per_second": 67.446,
+      "eval_steps_per_second": 16.862,
+      "step": 918
+    },
+    {
+      "epoch": 3.2679738562091503,
+      "grad_norm": 0.18758179247379303,
+      "learning_rate": 3.464052287581699e-05,
+      "loss": 0.0311,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.6042296072507553,
+      "eval_f1_sklearn": 0.9524571607010422,
+      "eval_loss": 0.19059278070926666,
+      "eval_precision": 0.5573248407643312,
+      "eval_precision_sklearn": 0.9524571607010422,
+      "eval_recall": 0.6597549481621112,
+      "eval_recall_sklearn": 0.9524571607010422,
+      "eval_runtime": 5.3859,
+      "eval_samples_per_second": 75.754,
+      "eval_steps_per_second": 18.938,
+      "step": 1224
+    },
+    {
+      "epoch": 4.901960784313726,
+      "grad_norm": 0.01050425972789526,
+      "learning_rate": 1.96078431372549e-06,
+      "loss": 0.0068,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1530,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 470773232452584.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "_wandb": {},
+    "assignments": {},
+    "learning_rate": 0.0001,
+    "metric": "eval/loss",
+    "per_device_train_batch_size": 4
+  }
+}

run-zhekmzi0/checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca5e8846bf2c23aa1f92199215b96f27a6aef16cc262f5408c515283e6c3691b
+size 5112

run-zhekmzi0/checkpoint-1500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca5e8846bf2c23aa1f92199215b96f27a6aef16cc262f5408c515283e6c3691b
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:de9de7a0666faf4ee948815d6d5e96b27bf8b91f1baf7d940eb78b9a5b4d00f1
 size 5112