Training in progress, step 5, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/2_Dense/model.safetensors +1 -1
last-checkpoint/README.md +31 -30
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +23 -23
last-checkpoint/training_args.bin +1 -1

last-checkpoint/2_Dense/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af8e000e75d8c67d7ccd238e1d436d7fc316b12360b6482472768cd1f1560787
 size 3149984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6f5e9bbb0278bccd5f7111dde1eafe0778c20560c5cba593530ada9a35b6af8
 size 3149984

last-checkpoint/README.md CHANGED Viewed

@@ -58,34 +58,34 @@ model-index:
       type: sts_dev
     metrics:
     - type: pearson_cosine
-      value: 0.7501719739320529
       name: Pearson Cosine
     - type: spearman_cosine
-      value: 0.7479806577356133
       name: Spearman Cosine
     - type: pearson_euclidean
-      value: 0.6950119317484778
       name: Pearson Euclidean
     - type: spearman_euclidean
-      value: 0.6856175380175804
       name: Spearman Euclidean
     - type: pearson_manhattan
-      value: 0.6972701521824715
       name: Pearson Manhattan
     - type: spearman_manhattan
-      value: 0.6882826037704075
       name: Spearman Manhattan
     - type: pearson_dot
-      value: 0.6587791423576534
       name: Pearson Dot
     - type: spearman_dot
-      value: 0.6501434858309123
       name: Spearman Dot
     - type: pearson_max
-      value: 0.7501719739320529
       name: Pearson Max
     - type: spearman_max
-      value: 0.7479806577356133
       name: Spearman Max
 ---
@@ -186,18 +186,18 @@ You can finetune this model on your own dataset.
 * Dataset: `sts_dev`
 * Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
-| Metric             | Value     |
-|:-------------------|:----------|
-| pearson_cosine     | 0.7502    |
-| spearman_cosine    | 0.748     |
-| pearson_euclidean  | 0.695     |
-| spearman_euclidean | 0.6856    |
-| pearson_manhattan  | 0.6973    |
-| spearman_manhattan | 0.6883    |
-| pearson_dot        | 0.6588    |
-| spearman_dot       | 0.6501    |
-| pearson_max        | 0.7502    |
-| **spearman_max**   | **0.748** |
 <!--
 ## Bias, Risks and Limitations
@@ -266,10 +266,11 @@ You can finetune this model on your own dataset.
 - `overwrite_output_dir`: True
 - `eval_strategy`: steps
-- `per_device_train_batch_size`: 16
-- `per_device_eval_batch_size`: 16
-- `gradient_accumulation_steps`: 8
 - `learning_rate`: 8e-05
 - `warmup_ratio`: 0.2
 - `push_to_hub`: True
 - `hub_model_id`: CocoRoF/ModernBERT-SimCSE-multitask_v03-retry
@@ -283,11 +284,11 @@ You can finetune this model on your own dataset.
 - `do_predict`: False
 - `eval_strategy`: steps
 - `prediction_loss_only`: True
-- `per_device_train_batch_size`: 16
-- `per_device_eval_batch_size`: 16
 - `per_gpu_train_batch_size`: None
 - `per_gpu_eval_batch_size`: None
-- `gradient_accumulation_steps`: 8
 - `eval_accumulation_steps`: None
 - `torch_empty_cache_steps`: None
 - `learning_rate`: 8e-05
@@ -296,7 +297,7 @@ You can finetune this model on your own dataset.
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
-- `num_train_epochs`: 3.0
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
@@ -400,7 +401,7 @@ You can finetune this model on your own dataset.
 ### Training Logs
 | Epoch  | Step | Validation Loss | sts_dev_spearman_max |
 |:------:|:----:|:---------------:|:--------------------:|
-| 0.5455 | 3    | 0.0373          | 0.7480               |
 ### Framework Versions

       type: sts_dev
     metrics:
     - type: pearson_cosine
+      value: 0.7494115429773479
       name: Pearson Cosine
     - type: spearman_cosine
+      value: 0.7470700524367354
       name: Spearman Cosine
     - type: pearson_euclidean
+      value: 0.6941454281465765
       name: Pearson Euclidean
     - type: spearman_euclidean
+      value: 0.684590776689316
       name: Spearman Euclidean
     - type: pearson_manhattan
+      value: 0.6964259759684527
       name: Pearson Manhattan
     - type: spearman_manhattan
+      value: 0.6873610947323412
       name: Spearman Manhattan
     - type: pearson_dot
+      value: 0.6583752142885668
       name: Pearson Dot
     - type: spearman_dot
+      value: 0.6497928276890669
       name: Spearman Dot
     - type: pearson_max
+      value: 0.7494115429773479
       name: Pearson Max
     - type: spearman_max
+      value: 0.7470700524367354
       name: Spearman Max
 ---
 * Dataset: `sts_dev`
 * Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
+| Metric             | Value      |
+|:-------------------|:-----------|
+| pearson_cosine     | 0.7494     |
+| spearman_cosine    | 0.7471     |
+| pearson_euclidean  | 0.6941     |
+| spearman_euclidean | 0.6846     |
+| pearson_manhattan  | 0.6964     |
+| spearman_manhattan | 0.6874     |
+| pearson_dot        | 0.6584     |
+| spearman_dot       | 0.6498     |
+| pearson_max        | 0.7494     |
+| **spearman_max**   | **0.7471** |
 <!--
 ## Bias, Risks and Limitations
 - `overwrite_output_dir`: True
 - `eval_strategy`: steps
+- `per_device_train_batch_size`: 1
+- `per_device_eval_batch_size`: 1
+- `gradient_accumulation_steps`: 16
 - `learning_rate`: 8e-05
+- `num_train_epochs`: 10.0
 - `warmup_ratio`: 0.2
 - `push_to_hub`: True
 - `hub_model_id`: CocoRoF/ModernBERT-SimCSE-multitask_v03-retry
 - `do_predict`: False
 - `eval_strategy`: steps
 - `prediction_loss_only`: True
+- `per_device_train_batch_size`: 1
+- `per_device_eval_batch_size`: 1
 - `per_gpu_train_batch_size`: None
 - `per_gpu_eval_batch_size`: None
+- `gradient_accumulation_steps`: 16
 - `eval_accumulation_steps`: None
 - `torch_empty_cache_steps`: None
 - `learning_rate`: 8e-05
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
+- `num_train_epochs`: 10.0
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
 ### Training Logs
 | Epoch  | Step | Validation Loss | sts_dev_spearman_max |
 |:------:|:----:|:---------------:|:--------------------:|
+| 0.1114 | 5    | 0.0377          | 0.7471               |
 ### Framework Versions

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb41efa187e981ffdf2d70aa9cead5df9133631b64effed4a884aa80b5e50c60
 size 735216376

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ef8ba139bbf8cc3e37ff551c0583eb18ad410203eff7083c9ca251338c80b6a
 size 735216376

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4c5b38dee965f0b4e99b14be42584a5416c2d8795490aece812d9112dc52ac0
 size 1476823354

 version https://git-lfs.github.com/spec/v1
+oid sha256:f451df94acc29ee1b5aee563e0dd7baf84f28529b714825cae75dff52ae97e44
 size 1476823354

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f13302c77db72d951d015b8f23d8c87919e14738fb30ddfb20a6c2417dd1d21
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:adeff075bf4ae4999268687af80c7d60cbf988ed52c8f4810d47686a7b79442e
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,37 +1,37 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5454545454545454,
-  "eval_steps": 3,
-  "global_step": 3,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.5454545454545454,
-      "eval_loss": 0.037283755838871,
-      "eval_runtime": 2.8675,
-      "eval_samples_per_second": 523.109,
-      "eval_steps_per_second": 4.185,
-      "eval_sts_dev_pearson_cosine": 0.7501719739320529,
-      "eval_sts_dev_pearson_dot": 0.6587791423576534,
-      "eval_sts_dev_pearson_euclidean": 0.6950119317484778,
-      "eval_sts_dev_pearson_manhattan": 0.6972701521824715,
-      "eval_sts_dev_pearson_max": 0.7501719739320529,
-      "eval_sts_dev_spearman_cosine": 0.7479806577356133,
-      "eval_sts_dev_spearman_dot": 0.6501434858309123,
-      "eval_sts_dev_spearman_euclidean": 0.6856175380175804,
-      "eval_sts_dev_spearman_manhattan": 0.6882826037704075,
-      "eval_sts_dev_spearman_max": 0.7479806577356133,
-      "step": 3
     }
   ],
   "logging_steps": 10,
-  "max_steps": 15,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
-  "save_steps": 3,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -45,7 +45,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.11142061281337047,
+  "eval_steps": 5,
+  "global_step": 5,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.11142061281337047,
+      "eval_loss": 0.037675488740205765,
+      "eval_runtime": 6.7342,
+      "eval_samples_per_second": 222.743,
+      "eval_steps_per_second": 27.917,
+      "eval_sts_dev_pearson_cosine": 0.7494115429773479,
+      "eval_sts_dev_pearson_dot": 0.6583752142885668,
+      "eval_sts_dev_pearson_euclidean": 0.6941454281465765,
+      "eval_sts_dev_pearson_manhattan": 0.6964259759684527,
+      "eval_sts_dev_pearson_max": 0.7494115429773479,
+      "eval_sts_dev_spearman_cosine": 0.7470700524367354,
+      "eval_sts_dev_spearman_dot": 0.6497928276890669,
+      "eval_sts_dev_spearman_euclidean": 0.684590776689316,
+      "eval_sts_dev_spearman_manhattan": 0.6873610947323412,
+      "eval_sts_dev_spearman_max": 0.7470700524367354,
+      "step": 5
     }
   ],
   "logging_steps": 10,
+  "max_steps": 440,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ca14ea9a349dd9557ee3240159b578fbc0d4351af07ba2f771c21465a6b6687
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:12391e60c366f91d109aa8b1d895de31abafef60746621c5321108d15de493f1
 size 5688