End of training

Browse files

Files changed (9) hide show

README.md +12 -11
all_results.json +23 -23
eval_results.json +9 -9
predict_results.json +8 -8
predictions.txt +0 -0
tb/events.out.tfevents.1725057364.6b97e535edda.51600.1 +3 -0
train.log +48 -0
train_results.json +6 -6
trainer_state.json +120 -155

README.md CHANGED Viewed

@@ -2,9 +2,10 @@
 license: apache-2.0
 base_model: PlanTL-GOB-ES/bsc-bio-ehr-es
 tags:
 - generated_from_trainer
 datasets:
-- symptemist-ner
 metrics:
 - precision
 - recall
@@ -17,24 +18,24 @@ model-index:
       name: Token Classification
       type: token-classification
     dataset:
-      name: symptemist-ner
-      type: symptemist-ner
       config: SympTEMIST NER
       split: validation
       args: SympTEMIST NER
     metrics:
     - name: Precision
       type: precision
-      value: 0.6594676042189854
     - name: Recall
       type: recall
       value: 0.7186644772851669
     - name: F1
       type: f1
-      value: 0.6877946568884233
     - name: Accuracy
       type: accuracy
-      value: 0.9487631941993647
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -42,13 +43,13 @@ should probably proofread and complete it, then remove this comment. -->
 # output
-This model is a fine-tuned version of [PlanTL-GOB-ES/bsc-bio-ehr-es](https://huggingface.co/PlanTL-GOB-ES/bsc-bio-ehr-es) on the symptemist-ner dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2767
-- Precision: 0.6595
 - Recall: 0.7187
-- F1: 0.6878
-- Accuracy: 0.9488
 ## Model description

 license: apache-2.0
 base_model: PlanTL-GOB-ES/bsc-bio-ehr-es
 tags:
+- token-classification
 - generated_from_trainer
 datasets:
+- Rodrigo1771/symptemist-ner
 metrics:
 - precision
 - recall
       name: Token Classification
       type: token-classification
     dataset:
+      name: Rodrigo1771/symptemist-ner
+      type: Rodrigo1771/symptemist-ner
       config: SympTEMIST NER
       split: validation
       args: SympTEMIST NER
     metrics:
     - name: Precision
       type: precision
+      value: 0.6675139806812405
     - name: Recall
       type: recall
       value: 0.7186644772851669
     - name: F1
       type: f1
+      value: 0.6921454928835002
     - name: Accuracy
       type: accuracy
+      value: 0.9483461131252205
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # output
+This model is a fine-tuned version of [PlanTL-GOB-ES/bsc-bio-ehr-es](https://huggingface.co/PlanTL-GOB-ES/bsc-bio-ehr-es) on the Rodrigo1771/symptemist-ner dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2747
+- Precision: 0.6675
 - Recall: 0.7187
+- F1: 0.6921
+- Accuracy: 0.9483
 ## Model description

all_results.json CHANGED Viewed

@@ -1,26 +1,26 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.9988184887042326,
-    "eval_f1": 0.936867469879518,
-    "eval_loss": 0.006724909413605928,
-    "eval_precision": 0.9328214971209213,
-    "eval_recall": 0.9409486931268151,
-    "eval_runtime": 14.1827,
-    "eval_samples": 6798,
-    "eval_samples_per_second": 479.317,
-    "eval_steps_per_second": 59.932,
-    "predict_accuracy": 0.9981367644802958,
-    "predict_f1": 0.8965517241379309,
-    "predict_loss": 0.010722821578383446,
-    "predict_precision": 0.8768736616702355,
-    "predict_recall": 0.9171332586786114,
-    "predict_runtime": 27.7085,
-    "predict_samples_per_second": 527.095,
-    "predict_steps_per_second": 65.9,
-    "total_flos": 1.4262694978690116e+16,
-    "train_loss": 0.0022696754537961062,
-    "train_runtime": 1261.5031,
-    "train_samples": 27198,
-    "train_samples_per_second": 215.6,
-    "train_steps_per_second": 3.369
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.9483461131252205,
+    "eval_f1": 0.6921454928835002,
+    "eval_loss": 0.27473828196525574,
+    "eval_precision": 0.6675139806812405,
+    "eval_recall": 0.7186644772851669,
+    "eval_runtime": 5.5231,
+    "eval_samples": 2519,
+    "eval_samples_per_second": 456.084,
+    "eval_steps_per_second": 57.033,
+    "predict_accuracy": 0.9465558078053287,
+    "predict_f1": 0.6901960784313725,
+    "predict_loss": 0.29509031772613525,
+    "predict_precision": 0.6731946144430845,
+    "predict_recall": 0.7080785323463148,
+    "predict_runtime": 8.8975,
+    "predict_samples_per_second": 454.847,
+    "predict_steps_per_second": 56.87,
+    "total_flos": 4433220248012460.0,
+    "train_loss": 0.05337127685546875,
+    "train_runtime": 453.0745,
+    "train_samples": 9597,
+    "train_samples_per_second": 211.819,
+    "train_steps_per_second": 3.311
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.9988184887042326,
-    "eval_f1": 0.936867469879518,
-    "eval_loss": 0.006724909413605928,
-    "eval_precision": 0.9328214971209213,
-    "eval_recall": 0.9409486931268151,
-    "eval_runtime": 14.1827,
-    "eval_samples": 6798,
-    "eval_samples_per_second": 479.317,
-    "eval_steps_per_second": 59.932
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.9483461131252205,
+    "eval_f1": 0.6921454928835002,
+    "eval_loss": 0.27473828196525574,
+    "eval_precision": 0.6675139806812405,
+    "eval_recall": 0.7186644772851669,
+    "eval_runtime": 5.5231,
+    "eval_samples": 2519,
+    "eval_samples_per_second": 456.084,
+    "eval_steps_per_second": 57.033
 }

predict_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "predict_accuracy": 0.9981367644802958,
-    "predict_f1": 0.8965517241379309,
-    "predict_loss": 0.010722821578383446,
-    "predict_precision": 0.8768736616702355,
-    "predict_recall": 0.9171332586786114,
-    "predict_runtime": 27.7085,
-    "predict_samples_per_second": 527.095,
-    "predict_steps_per_second": 65.9
 }

 {
+    "predict_accuracy": 0.9465558078053287,
+    "predict_f1": 0.6901960784313725,
+    "predict_loss": 0.29509031772613525,
+    "predict_precision": 0.6731946144430845,
+    "predict_recall": 0.7080785323463148,
+    "predict_runtime": 8.8975,
+    "predict_samples_per_second": 454.847,
+    "predict_steps_per_second": 56.87
 }

predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

tb/events.out.tfevents.1725057364.6b97e535edda.51600.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:895e3f1ac3a8be4076f491ddd7b0d149722e94c01471a91b13d80e70d799cb09
+size 560

train.log CHANGED Viewed

@@ -857,3 +857,51 @@ Training completed. Do not forget to share your model on huggingface.co/models =
 {'eval_loss': 0.27674129605293274, 'eval_precision': 0.6594676042189854, 'eval_recall': 0.7186644772851669, 'eval_f1': 0.6877946568884233, 'eval_accuracy': 0.9487631941993647, 'eval_runtime': 6.0833, 'eval_samples_per_second': 414.082, 'eval_steps_per_second': 51.781, 'epoch': 10.0}
 {'train_runtime': 453.0745, 'train_samples_per_second': 211.819, 'train_steps_per_second': 3.311, 'train_loss': 0.05337127685546875, 'epoch': 10.0}
  0%|          | 0/315 [00:00<?, ?it/s]
  3%|▎         | 8/315 [00:00<00:03, 78.55it/s]
  5%|▌         | 16/315 [00:00<00:03, 76.48it/s]
  8%|▊         | 24/315 [00:00<00:03, 77.21it/s]
 10%|█         | 32/315 [00:00<00:03, 74.08it/s]
 13%|█▎        | 41/315 [00:00<00:03, 76.11it/s]
 16%|█▌        | 49/315 [00:00<00:03, 75.89it/s]
 18%|█▊        | 58/315 [00:00<00:03, 78.15it/s]
 21%|██        | 66/315 [00:00<00:03, 76.95it/s]
 24%|██▍       | 75/315 [00:00<00:03, 77.89it/s]
 26%|██▋       | 83/315 [00:01<00:03, 77.02it/s]
 29%|██▉       | 91/315 [00:01<00:02, 76.65it/s]
 31%|███▏      | 99/315 [00:01<00:02, 74.96it/s]
 34%|███▍      | 108/315 [00:01<00:02, 76.95it/s]
 37%|███▋      | 117/315 [00:01<00:02, 78.34it/s]
 40%|███▉      | 125/315 [00:01<00:02, 76.97it/s]
 42%|████▏     | 133/315 [00:01<00:02, 77.15it/s]
 45%|████▍     | 141/315 [00:01<00:02, 77.50it/s]
 47%|████▋     | 149/315 [00:01<00:02, 72.28it/s]
 50%|█████     | 158/315 [00:02<00:02, 74.89it/s]
 53%|█████▎    | 166/315 [00:02<00:01, 75.30it/s]
 55%|█████▌    | 174/315 [00:02<00:01, 76.29it/s]
 58%|█████▊    | 182/315 [00:02<00:01, 76.29it/s]
 60%|██████    | 190/315 [00:02<00:01, 77.30it/s]
 63%|██████▎   | 198/315 [00:02<00:01, 75.64it/s]
 65%|██████▌   | 206/315 [00:02<00:01, 75.73it/s]
 68%|██████▊   | 215/315 [00:02<00:01, 77.49it/s]
 71%|███████   | 224/315 [00:02<00:01, 79.65it/s]
 74%|███████▍  | 233/315 [00:03<00:01, 80.99it/s]
 77%|███████▋  | 242/315 [00:03<00:00, 79.71it/s]
 80%|███████▉  | 251/315 [00:03<00:00, 80.17it/s]
 83%|████████▎ | 260/315 [00:03<00:00, 80.00it/s]
 85%|████████▌ | 269/315 [00:03<00:00, 79.61it/s]
 88%|████████▊ | 278/315 [00:03<00:00, 80.43it/s]
 91%|█████████ | 287/315 [00:03<00:00, 79.16it/s]
 94%|█████████▎| 295/315 [00:03<00:00, 78.94it/s]
 96%|█████████▌| 303/315 [00:03<00:00, 76.90it/s]
 99%|█████████▊| 311/315 [00:04<00:00, 77.62it/s]
  0%|          | 0/506 [00:00<?, ?it/s]
  2%|▏         | 9/506 [00:00<00:06, 81.25it/s]
  4%|▎         | 18/506 [00:00<00:06, 80.18it/s]
  5%|▌         | 27/506 [00:00<00:05, 80.05it/s]
  7%|▋         | 36/506 [00:00<00:05, 80.13it/s]
  9%|▉         | 45/506 [00:00<00:05, 80.98it/s]
 11%|█         | 54/506 [00:00<00:05, 81.38it/s]
 12%|█▏        | 63/506 [00:00<00:05, 80.61it/s]
 14%|█▍        | 72/506 [00:00<00:05, 80.43it/s]
 16%|█▌        | 81/506 [00:01<00:05, 73.83it/s]
 18%|█▊        | 89/506 [00:01<00:05, 72.82it/s]
 19%|█▉        | 98/506 [00:01<00:05, 75.82it/s]
 21%|██        | 107/506 [00:01<00:05, 76.84it/s]
 23%|██▎       | 116/506 [00:01<00:05, 77.86it/s]
 25%|██▍       | 124/506 [00:01<00:05, 75.68it/s]
 26%|██▌       | 132/506 [00:01<00:05, 70.81it/s]
 28%|██▊       | 140/506 [00:01<00:05, 73.02it/s]
 29%|██▉       | 149/506 [00:01<00:04, 75.42it/s]
 31%|███       | 157/506 [00:02<00:04, 73.61it/s]
 33%|███▎      | 165/506 [00:02<00:04, 74.13it/s]
 34%|███▍      | 174/506 [00:02<00:04, 76.00it/s]
 36%|███▌      | 183/506 [00:02<00:04, 77.93it/s]
 38%|███▊      | 192/506 [00:02<00:03, 78.84it/s]
 40%|███▉      | 200/506 [00:02<00:03, 78.57it/s]
 41%|████      | 208/506 [00:02<00:03, 78.07it/s]
 43%|████▎     | 217/506 [00:02<00:03, 78.97it/s]
 44%|████▍     | 225/506 [00:02<00:03, 77.10it/s]
 46%|████▌     | 233/506 [00:03<00:03, 77.53it/s]
 48%|████▊     | 241/506 [00:03<00:03, 77.34it/s]
 49%|████▉     | 250/506 [00:03<00:03, 78.93it/s]
 51%|█████     | 259/506 [00:03<00:03, 79.67it/s]
 53%|█████▎    | 268/506 [00:03<00:02, 80.55it/s]
 55%|█████▍    | 277/506 [00:03<00:02, 80.74it/s]
 57%|█████▋    | 286/506 [00:03<00:02, 79.79it/s]
 58%|█████▊    | 295/506 [00:03<00:02, 80.40it/s]
 60%|██████    | 304/506 [00:03<00:02, 81.38it/s]
 62%|██████▏   | 313/506 [00:04<00:02, 81.61it/s]
 64%|██████▎   | 322/506 [00:04<00:02, 82.25it/s]
 65%|██████▌   | 331/506 [00:04<00:02, 83.19it/s]
 67%|██████▋   | 340/506 [00:04<00:01, 83.24it/s]
 69%|██████▉   | 349/506 [00:04<00:01, 83.80it/s]
 71%|███████   | 358/506 [00:04<00:01, 83.68it/s]
 73%|███████▎  | 367/506 [00:04<00:01, 81.45it/s]
 74%|███████▍  | 376/506 [00:04<00:01, 79.16it/s]
 76%|███████▌  | 384/506 [00:04<00:01, 77.68it/s]
 77%|███████▋  | 392/506 [00:05<00:01, 74.28it/s]
 79%|███████▉  | 400/506 [00:05<00:01, 73.39it/s]
 81%|████████  | 408/506 [00:05<00:01, 75.09it/s]
 82%|████████▏ | 416/506 [00:05<00:01, 75.31it/s]
 84%|████████▍ | 424/506 [00:05<00:01, 76.23it/s]
 86%|████████▌ | 433/506 [00:05<00:00, 78.69it/s]
 87%|████████▋ | 441/506 [00:05<00:00, 77.63it/s]
 89%|████████▊ | 449/506 [00:05<00:00, 78.02it/s]
 91%|█████████ | 458/506 [00:05<00:00, 79.39it/s]
 92%|█████████▏| 467/506 [00:05<00:00, 79.79it/s]
 94%|█████████▍| 475/506 [00:06<00:00, 77.02it/s]
 96%|█████████▌| 484/506 [00:06<00:00, 76.28it/s]
 97%|█████████▋| 493/506 [00:06<00:00, 77.37it/s]
 99%|█████████▉| 501/506 [00:06<00:00, 77.62it/s]

 {'eval_loss': 0.27674129605293274, 'eval_precision': 0.6594676042189854, 'eval_recall': 0.7186644772851669, 'eval_f1': 0.6877946568884233, 'eval_accuracy': 0.9487631941993647, 'eval_runtime': 6.0833, 'eval_samples_per_second': 414.082, 'eval_steps_per_second': 51.781, 'epoch': 10.0}
 {'train_runtime': 453.0745, 'train_samples_per_second': 211.819, 'train_steps_per_second': 3.311, 'train_loss': 0.05337127685546875, 'epoch': 10.0}
+***** train metrics *****
+  epoch                    =       10.0
+  total_flos               =  4128758GF
+  train_loss               =     0.0534
+  train_runtime            = 0:07:33.07
+  train_samples            =       9597
+  train_samples_per_second =    211.819
+  train_steps_per_second   =      3.311
+08/30/2024 22:35:59 - INFO - __main__ -   *** Evaluate ***
+[INFO|trainer.py:805] 2024-08-30 22:35:59,010 >> The following columns in the evaluation set don't have a corresponding argument in `RobertaForTokenClassification.forward` and have been ignored: tokens, id, ner_tags. If tokens, id, ner_tags are not expected by `RobertaForTokenClassification.forward`,  you can safely ignore this message.
+[INFO|trainer.py:3788] 2024-08-30 22:35:59,013 >>
+***** Running Evaluation *****
+[INFO|trainer.py:3790] 2024-08-30 22:35:59,013 >>   Num examples = 2519
+[INFO|trainer.py:3793] 2024-08-30 22:35:59,013 >>   Batch size = 8
  0%|          | 0/315 [00:00<?, ?it/s]
  3%|▎         | 8/315 [00:00<00:03, 78.55it/s]
  5%|▌         | 16/315 [00:00<00:03, 76.48it/s]
  8%|▊         | 24/315 [00:00<00:03, 77.21it/s]
 10%|█         | 32/315 [00:00<00:03, 74.08it/s]
 13%|█▎        | 41/315 [00:00<00:03, 76.11it/s]
 16%|█▌        | 49/315 [00:00<00:03, 75.89it/s]
 18%|█▊        | 58/315 [00:00<00:03, 78.15it/s]
 21%|██        | 66/315 [00:00<00:03, 76.95it/s]
 24%|██▍       | 75/315 [00:00<00:03, 77.89it/s]
 26%|██▋       | 83/315 [00:01<00:03, 77.02it/s]
 29%|██▉       | 91/315 [00:01<00:02, 76.65it/s]
 31%|███▏      | 99/315 [00:01<00:02, 74.96it/s]
 34%|███▍      | 108/315 [00:01<00:02, 76.95it/s]
 37%|███▋      | 117/315 [00:01<00:02, 78.34it/s]
 40%|███▉      | 125/315 [00:01<00:02, 76.97it/s]
 42%|████▏     | 133/315 [00:01<00:02, 77.15it/s]
 45%|████▍     | 141/315 [00:01<00:02, 77.50it/s]
 47%|████▋     | 149/315 [00:01<00:02, 72.28it/s]
 50%|█████     | 158/315 [00:02<00:02, 74.89it/s]
 53%|█████▎    | 166/315 [00:02<00:01, 75.30it/s]
 55%|█████▌    | 174/315 [00:02<00:01, 76.29it/s]
 58%|█████▊    | 182/315 [00:02<00:01, 76.29it/s]
 60%|██████    | 190/315 [00:02<00:01, 77.30it/s]
 63%|██████▎   | 198/315 [00:02<00:01, 75.64it/s]
 65%|██████▌   | 206/315 [00:02<00:01, 75.73it/s]
 68%|██████▊   | 215/315 [00:02<00:01, 77.49it/s]
 71%|███████   | 224/315 [00:02<00:01, 79.65it/s]
 74%|███████▍  | 233/315 [00:03<00:01, 80.99it/s]
 77%|███████▋  | 242/315 [00:03<00:00, 79.71it/s]
 80%|███████▉  | 251/315 [00:03<00:00, 80.17it/s]
 83%|████████▎ | 260/315 [00:03<00:00, 80.00it/s]
 85%|████████▌ | 269/315 [00:03<00:00, 79.61it/s]
 88%|████████▊ | 278/315 [00:03<00:00, 80.43it/s]
 91%|█████████ | 287/315 [00:03<00:00, 79.16it/s]
 94%|█████████▎| 295/315 [00:03<00:00, 78.94it/s]
 96%|█████████▌| 303/315 [00:03<00:00, 76.90it/s]
 99%|█████████▊| 311/315 [00:04<00:00, 77.62it/s]
+***** eval metrics *****
+  epoch                   =       10.0
+  eval_accuracy           =     0.9483
+  eval_f1                 =     0.6921
+  eval_loss               =     0.2747
+  eval_precision          =     0.6675
+  eval_recall             =     0.7187
+  eval_runtime            = 0:00:05.52
+  eval_samples            =       2519
+  eval_samples_per_second =    456.084
+  eval_steps_per_second   =     57.033
+08/30/2024 22:36:04 - INFO - __main__ -   *** Predict ***
+[INFO|trainer.py:805] 2024-08-30 22:36:04,538 >> The following columns in the test set don't have a corresponding argument in `RobertaForTokenClassification.forward` and have been ignored: tokens, id, ner_tags. If tokens, id, ner_tags are not expected by `RobertaForTokenClassification.forward`,  you can safely ignore this message.
+[INFO|trainer.py:3788] 2024-08-30 22:36:04,541 >>
+***** Running Prediction *****
+[INFO|trainer.py:3790] 2024-08-30 22:36:04,541 >>   Num examples = 4047
+[INFO|trainer.py:3793] 2024-08-30 22:36:04,541 >>   Batch size = 8
  0%|          | 0/506 [00:00<?, ?it/s]
  2%|▏         | 9/506 [00:00<00:06, 81.25it/s]
  4%|▎         | 18/506 [00:00<00:06, 80.18it/s]
  5%|▌         | 27/506 [00:00<00:05, 80.05it/s]
  7%|▋         | 36/506 [00:00<00:05, 80.13it/s]
  9%|▉         | 45/506 [00:00<00:05, 80.98it/s]
 11%|█         | 54/506 [00:00<00:05, 81.38it/s]
 12%|█▏        | 63/506 [00:00<00:05, 80.61it/s]
 14%|█▍        | 72/506 [00:00<00:05, 80.43it/s]
 16%|█▌        | 81/506 [00:01<00:05, 73.83it/s]
 18%|█▊        | 89/506 [00:01<00:05, 72.82it/s]
 19%|█▉        | 98/506 [00:01<00:05, 75.82it/s]
 21%|██        | 107/506 [00:01<00:05, 76.84it/s]
 23%|██▎       | 116/506 [00:01<00:05, 77.86it/s]
 25%|██▍       | 124/506 [00:01<00:05, 75.68it/s]
 26%|██▌       | 132/506 [00:01<00:05, 70.81it/s]
 28%|██▊       | 140/506 [00:01<00:05, 73.02it/s]
 29%|██▉       | 149/506 [00:01<00:04, 75.42it/s]
 31%|███       | 157/506 [00:02<00:04, 73.61it/s]
 33%|███▎      | 165/506 [00:02<00:04, 74.13it/s]
 34%|███▍      | 174/506 [00:02<00:04, 76.00it/s]
 36%|███▌      | 183/506 [00:02<00:04, 77.93it/s]
 38%|███▊      | 192/506 [00:02<00:03, 78.84it/s]
 40%|███▉      | 200/506 [00:02<00:03, 78.57it/s]
 41%|████      | 208/506 [00:02<00:03, 78.07it/s]
 43%|████▎     | 217/506 [00:02<00:03, 78.97it/s]
 44%|████▍     | 225/506 [00:02<00:03, 77.10it/s]
 46%|████▌     | 233/506 [00:03<00:03, 77.53it/s]
 48%|████▊     | 241/506 [00:03<00:03, 77.34it/s]
 49%|████▉     | 250/506 [00:03<00:03, 78.93it/s]
 51%|█████     | 259/506 [00:03<00:03, 79.67it/s]
 53%|█████▎    | 268/506 [00:03<00:02, 80.55it/s]
 55%|█████▍    | 277/506 [00:03<00:02, 80.74it/s]
 57%|█████▋    | 286/506 [00:03<00:02, 79.79it/s]
 58%|█████▊    | 295/506 [00:03<00:02, 80.40it/s]
 60%|██████    | 304/506 [00:03<00:02, 81.38it/s]
 62%|██████▏   | 313/506 [00:04<00:02, 81.61it/s]
 64%|██████▎   | 322/506 [00:04<00:02, 82.25it/s]
 65%|██████▌   | 331/506 [00:04<00:02, 83.19it/s]
 67%|██████▋   | 340/506 [00:04<00:01, 83.24it/s]
 69%|██████▉   | 349/506 [00:04<00:01, 83.80it/s]
 71%|███████   | 358/506 [00:04<00:01, 83.68it/s]
 73%|███████▎  | 367/506 [00:04<00:01, 81.45it/s]
 74%|███████▍  | 376/506 [00:04<00:01, 79.16it/s]
 76%|███████▌  | 384/506 [00:04<00:01, 77.68it/s]
 77%|███████▋  | 392/506 [00:05<00:01, 74.28it/s]
 79%|███████▉  | 400/506 [00:05<00:01, 73.39it/s]
 81%|████████  | 408/506 [00:05<00:01, 75.09it/s]
 82%|████████▏ | 416/506 [00:05<00:01, 75.31it/s]
 84%|████████▍ | 424/506 [00:05<00:01, 76.23it/s]
 86%|████████▌ | 433/506 [00:05<00:00, 78.69it/s]
 87%|████████▋ | 441/506 [00:05<00:00, 77.63it/s]
 89%|████████▊ | 449/506 [00:05<00:00, 78.02it/s]
 91%|█████████ | 458/506 [00:05<00:00, 79.39it/s]
 92%|█████████▏| 467/506 [00:05<00:00, 79.79it/s]
 94%|█████████▍| 475/506 [00:06<00:00, 77.02it/s]
 96%|█████████▌| 484/506 [00:06<00:00, 76.28it/s]
 97%|█████████▋| 493/506 [00:06<00:00, 77.37it/s]
 99%|█████████▉| 501/506 [00:06<00:00, 77.62it/s]
+[INFO|trainer.py:3478] 2024-08-30 22:36:13,602 >> Saving model checkpoint to /content/dissertation/scripts/ner/output
+[INFO|configuration_utils.py:472] 2024-08-30 22:36:13,603 >> Configuration saved in /content/dissertation/scripts/ner/output/config.json
+[INFO|modeling_utils.py:2690] 2024-08-30 22:36:14,973 >> Model weights saved in /content/dissertation/scripts/ner/output/model.safetensors
+[INFO|tokenization_utils_base.py:2574] 2024-08-30 22:36:14,974 >> tokenizer config file saved in /content/dissertation/scripts/ner/output/tokenizer_config.json
+[INFO|tokenization_utils_base.py:2583] 2024-08-30 22:36:14,975 >> Special tokens file saved in /content/dissertation/scripts/ner/output/special_tokens_map.json
+***** predict metrics *****
+  predict_accuracy           =     0.9466
+  predict_f1                 =     0.6902
+  predict_loss               =     0.2951
+  predict_precision          =     0.6732
+  predict_recall             =     0.7081
+  predict_runtime            = 0:00:08.89
+  predict_samples_per_second =    454.847
+  predict_steps_per_second   =      56.87

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 10.0,
-    "total_flos": 1.4262694978690116e+16,
-    "train_loss": 0.0022696754537961062,
-    "train_runtime": 1261.5031,
-    "train_samples": 27198,
-    "train_samples_per_second": 215.6,
-    "train_steps_per_second": 3.369
 }

 {
     "epoch": 10.0,
+    "total_flos": 4433220248012460.0,
+    "train_loss": 0.05337127685546875,
+    "train_runtime": 453.0745,
+    "train_samples": 9597,
+    "train_samples_per_second": 211.819,
+    "train_steps_per_second": 3.311
 }

trainer_state.json CHANGED Viewed

@@ -1,201 +1,166 @@
 {
-  "best_metric": 0.936867469879518,
-  "best_model_checkpoint": "/content/dissertation/scripts/ner/output/checkpoint-4250",
   "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 4250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.9981303557517528,
-      "eval_f1": 0.8939962476547841,
-      "eval_loss": 0.00556989898905158,
-      "eval_precision": 0.8671519563239308,
-      "eval_recall": 0.9225556631171346,
-      "eval_runtime": 14.25,
-      "eval_samples_per_second": 477.051,
-      "eval_steps_per_second": 59.649,
-      "step": 425
-    },
-    {
-      "epoch": 1.1764705882352942,
-      "grad_norm": 0.1311497986316681,
-      "learning_rate": 4.411764705882353e-05,
-      "loss": 0.0104,
-      "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9985782913528953,
-      "eval_f1": 0.9216722729456991,
-      "eval_loss": 0.0041933078318834305,
-      "eval_precision": 0.9150763358778626,
-      "eval_recall": 0.9283639883833494,
-      "eval_runtime": 14.1751,
-      "eval_samples_per_second": 479.575,
-      "eval_steps_per_second": 59.965,
-      "step": 850
-    },
-    {
-      "epoch": 2.3529411764705883,
-      "grad_norm": 0.002636878052726388,
-      "learning_rate": 3.8235294117647055e-05,
-      "loss": 0.0034,
-      "step": 1000
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9985133731498312,
-      "eval_f1": 0.9155339805825242,
-      "eval_loss": 0.004266700241714716,
-      "eval_precision": 0.9182083739045764,
-      "eval_recall": 0.9128751210067764,
-      "eval_runtime": 14.285,
-      "eval_samples_per_second": 475.883,
-      "eval_steps_per_second": 59.503,
-      "step": 1275
-    },
-    {
-      "epoch": 3.5294117647058822,
-      "grad_norm": 0.08669757843017578,
-      "learning_rate": 3.235294117647059e-05,
-      "loss": 0.0022,
-      "step": 1500
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9985847831732018,
-      "eval_f1": 0.9250367466927977,
-      "eval_loss": 0.0043651387095451355,
-      "eval_precision": 0.9365079365079365,
-      "eval_recall": 0.9138431752178122,
-      "eval_runtime": 14.5173,
-      "eval_samples_per_second": 468.27,
-      "eval_steps_per_second": 58.551,
-      "step": 1700
-    },
-    {
-      "epoch": 4.705882352941177,
-      "grad_norm": 0.27693310379981995,
-      "learning_rate": 2.647058823529412e-05,
-      "loss": 0.0012,
-      "step": 2000
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9985393404310569,
-      "eval_f1": 0.919463087248322,
-      "eval_loss": 0.006118799094110727,
-      "eval_precision": 0.9107312440645774,
-      "eval_recall": 0.9283639883833494,
-      "eval_runtime": 14.2824,
-      "eval_samples_per_second": 475.97,
-      "eval_steps_per_second": 59.514,
-      "step": 2125
-    },
-    {
-      "epoch": 5.882352941176471,
-      "grad_norm": 0.008007431402802467,
-      "learning_rate": 2.058823529411765e-05,
-      "loss": 0.0009,
-      "step": 2500
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9986626850168787,
-      "eval_f1": 0.9221213569039655,
-      "eval_loss": 0.005954863503575325,
-      "eval_precision": 0.910377358490566,
-      "eval_recall": 0.9341723136495643,
-      "eval_runtime": 14.2494,
-      "eval_samples_per_second": 477.072,
-      "eval_steps_per_second": 59.652,
-      "step": 2550
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9986691768371851,
-      "eval_f1": 0.9314148681055155,
-      "eval_loss": 0.006543714087456465,
-      "eval_precision": 0.9230038022813688,
-      "eval_recall": 0.9399806389157793,
-      "eval_runtime": 14.386,
-      "eval_samples_per_second": 472.542,
-      "eval_steps_per_second": 59.085,
-      "step": 2975
-    },
-    {
-      "epoch": 7.0588235294117645,
-      "grad_norm": 0.0017305670771747828,
-      "learning_rate": 1.4705882352941177e-05,
-      "loss": 0.0005,
-      "step": 3000
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9986886522981044,
-      "eval_f1": 0.9280540801545147,
-      "eval_loss": 0.005883762612938881,
-      "eval_precision": 0.9258188824662813,
-      "eval_recall": 0.9303000968054211,
-      "eval_runtime": 14.3169,
-      "eval_samples_per_second": 474.822,
-      "eval_steps_per_second": 59.37,
-      "step": 3400
-    },
-    {
-      "epoch": 8.235294117647058,
-      "grad_norm": 0.00020609228522516787,
-      "learning_rate": 8.823529411764707e-06,
-      "loss": 0.0004,
-      "step": 3500
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9987276032199429,
-      "eval_f1": 0.9317307692307693,
-      "eval_loss": 0.00656876852735877,
-      "eval_precision": 0.9255014326647565,
-      "eval_recall": 0.9380445304937076,
-      "eval_runtime": 14.5715,
-      "eval_samples_per_second": 466.526,
-      "eval_steps_per_second": 58.333,
-      "step": 3825
     },
     {
-      "epoch": 9.411764705882353,
-      "grad_norm": 0.00026785818045027554,
-      "learning_rate": 2.9411764705882355e-06,
-      "loss": 0.0001,
-      "step": 4000
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.9988184887042326,
-      "eval_f1": 0.936867469879518,
-      "eval_loss": 0.006724909413605928,
-      "eval_precision": 0.9328214971209213,
-      "eval_recall": 0.9409486931268151,
-      "eval_runtime": 14.3451,
-      "eval_samples_per_second": 473.891,
-      "eval_steps_per_second": 59.254,
-      "step": 4250
     },
     {
       "epoch": 10.0,
-      "step": 4250,
-      "total_flos": 1.4262694978690116e+16,
-      "train_loss": 0.0022696754537961062,
-      "train_runtime": 1261.5031,
-      "train_samples_per_second": 215.6,
-      "train_steps_per_second": 3.369
     }
   ],
   "logging_steps": 500,
-  "max_steps": 4250,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
@@ -211,7 +176,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4262694978690116e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6921454928835002,
+  "best_model_checkpoint": "/content/dissertation/scripts/ner/output/checkpoint-1350",
   "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9456350861432834,
+      "eval_f1": 0.567482432759874,
+      "eval_loss": 0.1503801792860031,
+      "eval_precision": 0.5091304347826087,
+      "eval_recall": 0.6409414340448824,
+      "eval_runtime": 5.4744,
+      "eval_samples_per_second": 460.141,
+      "eval_steps_per_second": 57.541,
+      "step": 150
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9462125830151753,
+      "eval_f1": 0.639,
+      "eval_loss": 0.15472079813480377,
+      "eval_precision": 0.5881270133456051,
+      "eval_recall": 0.6995073891625616,
+      "eval_runtime": 5.4777,
+      "eval_samples_per_second": 459.865,
+      "eval_steps_per_second": 57.506,
+      "step": 300
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9475600757162566,
+      "eval_f1": 0.6589207332816938,
+      "eval_loss": 0.16183686256408691,
+      "eval_precision": 0.6236559139784946,
+      "eval_recall": 0.6984126984126984,
+      "eval_runtime": 5.4114,
+      "eval_samples_per_second": 465.5,
+      "eval_steps_per_second": 58.211,
+      "step": 450
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.5628494620323181,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.126,
+      "step": 500
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9450575892713915,
+      "eval_f1": 0.6627936347562516,
+      "eval_loss": 0.1920311450958252,
+      "eval_precision": 0.6153846153846154,
+      "eval_recall": 0.7181171319102354,
+      "eval_runtime": 5.502,
+      "eval_samples_per_second": 457.833,
+      "eval_steps_per_second": 57.252,
+      "step": 600
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9488273605184638,
+      "eval_f1": 0.678646934460888,
+      "eval_loss": 0.21016015112400055,
+      "eval_precision": 0.6561062851303014,
+      "eval_recall": 0.7027914614121511,
+      "eval_runtime": 5.3774,
+      "eval_samples_per_second": 468.442,
+      "eval_steps_per_second": 58.579,
+      "step": 750
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9467259135679682,
+      "eval_f1": 0.6750065155069064,
+      "eval_loss": 0.24135558307170868,
+      "eval_precision": 0.6442786069651741,
+      "eval_recall": 0.7088122605363985,
+      "eval_runtime": 5.4273,
+      "eval_samples_per_second": 464.135,
+      "eval_steps_per_second": 58.04,
+      "step": 900
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 0.5565813779830933,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0251,
+      "step": 1000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9491642336937341,
+      "eval_f1": 0.6816380449141347,
+      "eval_loss": 0.25002309679985046,
+      "eval_precision": 0.658835546475996,
+      "eval_recall": 0.7060755336617406,
+      "eval_runtime": 5.3969,
+      "eval_samples_per_second": 466.75,
+      "eval_steps_per_second": 58.367,
+      "step": 1050
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.947383618338734,
+      "eval_f1": 0.6846153846153845,
+      "eval_loss": 0.26423653960227966,
+      "eval_precision": 0.6439942112879884,
+      "eval_recall": 0.7307060755336617,
+      "eval_runtime": 5.4091,
+      "eval_samples_per_second": 465.698,
+      "eval_steps_per_second": 58.235,
+      "step": 1200
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9483461131252205,
+      "eval_f1": 0.6921454928835002,
+      "eval_loss": 0.27473828196525574,
+      "eval_precision": 0.6675139806812405,
+      "eval_recall": 0.7186644772851669,
+      "eval_runtime": 5.4389,
+      "eval_samples_per_second": 463.146,
+      "eval_steps_per_second": 57.916,
+      "step": 1350
     },
     {
+      "epoch": 10.0,
+      "grad_norm": 0.17641158401966095,
+      "learning_rate": 0.0,
+      "loss": 0.0091,
+      "step": 1500
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.9487631941993647,
+      "eval_f1": 0.6877946568884233,
+      "eval_loss": 0.27674129605293274,
+      "eval_precision": 0.6594676042189854,
+      "eval_recall": 0.7186644772851669,
+      "eval_runtime": 6.0833,
+      "eval_samples_per_second": 414.082,
+      "eval_steps_per_second": 51.781,
+      "step": 1500
     },
     {
       "epoch": 10.0,
+      "step": 1500,
+      "total_flos": 4433220248012460.0,
+      "train_loss": 0.05337127685546875,
+      "train_runtime": 453.0745,
+      "train_samples_per_second": 211.819,
+      "train_steps_per_second": 3.311
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4433220248012460.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null