Training in progress, epoch 1

Browse files

Files changed (10) hide show

all_results.json +21 -21
config.json +1 -1
eval_results.json +8 -8
model.safetensors +1 -1
predict_results.json +7 -7
special_tokens_map.json +6 -42
test_predictions.csv +0 -0
train_results.json +7 -7
trainer_state.json +92 -41
training_args.bin +2 -2

all_results.json CHANGED Viewed

@@ -1,23 +1,23 @@
 {
-    "epoch": 4.0,
-    "eval_loss": 0.41252821683883667,
-    "eval_macro-f1": 0.029029793735676088,
-    "eval_micro-f1": 0.16521739130434782,
-    "eval_runtime": 0.9629,
-    "eval_samples": 100,
-    "eval_samples_per_second": 103.853,
-    "eval_steps_per_second": 4.154,
-    "predict_loss": 0.39896854758262634,
-    "predict_macro-f1": 0.01948051948051948,
-    "predict_micro-f1": 0.1095890410958904,
-    "predict_runtime": 0.9583,
-    "predict_samples": 100,
-    "predict_samples_per_second": 104.354,
-    "predict_steps_per_second": 4.174,
-    "total_flos": 2512343535714304.0,
-    "train_loss": 0.3421715199947357,
-    "train_runtime": 21.559,
-    "train_samples": 100,
-    "train_samples_per_second": 92.769,
-    "train_steps_per_second": 3.711
 }

 {
+    "epoch": 7.0,
+    "eval_loss": 0.17048782110214233,
+    "eval_macro-f1": 0.6382923768808028,
+    "eval_micro-f1": 0.6991622239146992,
+    "eval_runtime": 8.0772,
+    "eval_samples": 1000,
+    "eval_samples_per_second": 123.805,
+    "eval_steps_per_second": 3.962,
+    "predict_loss": 0.17293496429920197,
+    "predict_macro-f1": 0.6196372035945414,
+    "predict_micro-f1": 0.7044410413476263,
+    "predict_runtime": 8.1514,
+    "predict_samples": 1000,
+    "predict_samples_per_second": 122.678,
+    "predict_steps_per_second": 3.926,
+    "total_flos": 3.099603884499272e+17,
+    "train_loss": 0.1036064192396046,
+    "train_runtime": 1162.1568,
+    "train_samples": 9000,
+    "train_samples_per_second": 154.884,
+    "train_steps_per_second": 4.853
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "MHGanainy/roberta-base-legal-multi",
   "architectures": [
     "RobertaForSequenceClassification"
   ],

 {
+  "_name_or_path": "roberta-base",
   "architectures": [
     "RobertaForSequenceClassification"
   ],

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 4.0,
-    "eval_loss": 0.41252821683883667,
-    "eval_macro-f1": 0.029029793735676088,
-    "eval_micro-f1": 0.16521739130434782,
-    "eval_runtime": 0.9629,
-    "eval_samples": 100,
-    "eval_samples_per_second": 103.853,
-    "eval_steps_per_second": 4.154
 }

 {
+    "epoch": 7.0,
+    "eval_loss": 0.17048782110214233,
+    "eval_macro-f1": 0.6382923768808028,
+    "eval_micro-f1": 0.6991622239146992,
+    "eval_runtime": 8.0772,
+    "eval_samples": 1000,
+    "eval_samples_per_second": 123.805,
+    "eval_steps_per_second": 3.962
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d7c8091f761aa3c28089731f10012011c36f00fab5143295d6870ddb95aeb37
 size 555550888

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1bef6202866743eb9ff9f0eb39a9bb1b791b83ef1fe2ffdcae3439df470d8fd
 size 555550888

predict_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "predict_loss": 0.39896854758262634,
-    "predict_macro-f1": 0.01948051948051948,
-    "predict_micro-f1": 0.1095890410958904,
-    "predict_runtime": 0.9583,
-    "predict_samples": 100,
-    "predict_samples_per_second": 104.354,
-    "predict_steps_per_second": 4.174
 }

 {
+    "predict_loss": 0.17293496429920197,
+    "predict_macro-f1": 0.6196372035945414,
+    "predict_micro-f1": 0.7044410413476263,
+    "predict_runtime": 8.1514,
+    "predict_samples": 1000,
+    "predict_samples_per_second": 122.678,
+    "predict_steps_per_second": 3.926
 }

special_tokens_map.json CHANGED Viewed

@@ -1,25 +1,7 @@
 {
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "cls_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
   "mask_token": {
     "content": "<mask>",
     "lstrip": true,
@@ -27,25 +9,7 @@
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "sep_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
   "mask_token": {
     "content": "<mask>",
     "lstrip": true,
     "rstrip": false,
     "single_word": false
   },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
 }

test_predictions.csv CHANGED Viewed

The diff for this file is too large to render. See raw diff

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 4.0,
-    "total_flos": 2512343535714304.0,
-    "train_loss": 0.3421715199947357,
-    "train_runtime": 21.559,
-    "train_samples": 100,
-    "train_samples_per_second": 92.769,
-    "train_steps_per_second": 3.711
 }

 {
+    "epoch": 7.0,
+    "total_flos": 3.099603884499272e+17,
+    "train_loss": 0.1036064192396046,
+    "train_runtime": 1162.1568,
+    "train_samples": 9000,
+    "train_samples_per_second": 154.884,
+    "train_steps_per_second": 4.853
 }

trainer_state.json CHANGED Viewed

@@ -1,65 +1,116 @@
 {
-  "best_metric": 0.16521739130434782,
-  "best_model_checkpoint": "logs/ecthr_a/MHGanainy/roberta-base-legal-multi/seed_1/checkpoint-4",
-  "epoch": 4.0,
   "eval_steps": 500,
-  "global_step": 16,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_loss": 0.41245660185813904,
-      "eval_macro-f1": 0.029029793735676088,
-      "eval_micro-f1": 0.16521739130434782,
-      "eval_runtime": 1.0722,
-      "eval_samples_per_second": 93.268,
-      "eval_steps_per_second": 3.731,
-      "step": 4
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.3445906341075897,
-      "eval_macro-f1": 0.029029793735676088,
-      "eval_micro-f1": 0.16521739130434782,
-      "eval_runtime": 1.4747,
-      "eval_samples_per_second": 67.809,
-      "eval_steps_per_second": 2.712,
-      "step": 8
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.3343995213508606,
-      "eval_macro-f1": 0.029029793735676088,
-      "eval_micro-f1": 0.16521739130434782,
-      "eval_runtime": 1.6766,
-      "eval_samples_per_second": 59.646,
-      "eval_steps_per_second": 2.386,
-      "step": 12
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 0.333324134349823,
-      "eval_macro-f1": 0.029029793735676088,
-      "eval_micro-f1": 0.16521739130434782,
-      "eval_runtime": 1.0723,
-      "eval_samples_per_second": 93.253,
-      "eval_steps_per_second": 3.73,
-      "step": 16
     },
     {
       "epoch": 4.0,
-      "step": 16,
-      "total_flos": 2512343535714304.0,
-      "train_loss": 0.3421715199947357,
-      "train_runtime": 21.559,
-      "train_samples_per_second": 92.769,
-      "train_steps_per_second": 3.711
     }
   ],
   "logging_steps": 500,
-  "max_steps": 80,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 20,
   "save_steps": 500,
@@ -84,7 +135,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2512343535714304.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6991622239146992,
+  "best_model_checkpoint": "logs/ecthr_a/roberta-base/seed_1/checkpoint-1128",
+  "epoch": 7.0,
   "eval_steps": 500,
+  "global_step": 1974,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_loss": 0.17883636057376862,
+      "eval_macro-f1": 0.5361152463526995,
+      "eval_micro-f1": 0.6690590111642744,
+      "eval_runtime": 8.3244,
+      "eval_samples_per_second": 120.128,
+      "eval_steps_per_second": 3.844,
+      "step": 282
+    },
+    {
+      "epoch": 1.773049645390071,
+      "grad_norm": 1.5047844648361206,
+      "learning_rate": 2.7340425531914897e-05,
+      "loss": 0.1598,
+      "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.165725439786911,
+      "eval_macro-f1": 0.5864998053589437,
+      "eval_micro-f1": 0.6876456876456877,
+      "eval_runtime": 8.9929,
+      "eval_samples_per_second": 111.199,
+      "eval_steps_per_second": 3.558,
+      "step": 564
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.1847357153892517,
+      "eval_macro-f1": 0.619725405380703,
+      "eval_micro-f1": 0.6802973977695167,
+      "eval_runtime": 9.0294,
+      "eval_samples_per_second": 110.749,
+      "eval_steps_per_second": 3.544,
+      "step": 846
     },
     {
+      "epoch": 3.546099290780142,
+      "grad_norm": 1.266696572303772,
+      "learning_rate": 2.4680851063829786e-05,
+      "loss": 0.1038,
+      "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.17048540711402893,
+      "eval_macro-f1": 0.6382923768808028,
+      "eval_micro-f1": 0.6991622239146992,
+      "eval_runtime": 8.9765,
+      "eval_samples_per_second": 111.402,
+      "eval_steps_per_second": 3.565,
+      "step": 1128
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.18128305673599243,
+      "eval_macro-f1": 0.6483583317279754,
+      "eval_micro-f1": 0.6948249619482496,
+      "eval_runtime": 8.4919,
+      "eval_samples_per_second": 117.76,
+      "eval_steps_per_second": 3.768,
+      "step": 1410
+    },
+    {
+      "epoch": 5.319148936170213,
+      "grad_norm": 1.974063754081726,
+      "learning_rate": 2.2026595744680854e-05,
+      "loss": 0.0835,
+      "step": 1500
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.1945626437664032,
+      "eval_macro-f1": 0.6427139982243243,
+      "eval_micro-f1": 0.6928838951310862,
+      "eval_runtime": 8.3849,
+      "eval_samples_per_second": 119.262,
+      "eval_steps_per_second": 3.816,
+      "step": 1692
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.20862846076488495,
+      "eval_macro-f1": 0.6248697036429669,
+      "eval_micro-f1": 0.6922798115259152,
+      "eval_runtime": 8.6109,
+      "eval_samples_per_second": 116.132,
+      "eval_steps_per_second": 3.716,
+      "step": 1974
+    },
+    {
+      "epoch": 7.0,
+      "step": 1974,
+      "total_flos": 3.099603884499272e+17,
+      "train_loss": 0.1036064192396046,
+      "train_runtime": 1162.1568,
+      "train_samples_per_second": 154.884,
+      "train_steps_per_second": 4.853
     }
   ],
   "logging_steps": 500,
+  "max_steps": 5640,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 20,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 3.099603884499272e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b87e2f8ca7182c2e8e7414bb9ba5315ef8689f78814540dd7ecf7ffc055dc6c0
-size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:008de9f90937118ff4ab764fae92bf7cffb170775d5feb1b19e47bea4ef14eeb
+size 5304