Training in progress, step 405, checkpoint

Browse files

Files changed (14) hide show

last-checkpoint/2_Dense/model.safetensors +1 -1
last-checkpoint/README.md +33 -20
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +278 -2

last-checkpoint/2_Dense/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b870f7daac0f4a980d7a920673d51b73e853f58b3a99e04a4bfed0ab4836418
 size 3149984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f642c9d042a42b6fb5e4d89ed562ea76517d1cc374d93aa530166a44d526d80d
 size 3149984

last-checkpoint/README.md CHANGED Viewed

@@ -58,34 +58,34 @@ model-index:
       type: sts_dev
     metrics:
     - type: pearson_cosine
-      value: 0.7848078944075182
       name: Pearson Cosine
     - type: spearman_cosine
-      value: 0.7857175803487115
       name: Spearman Cosine
     - type: pearson_euclidean
-      value: 0.7156669541008578
       name: Pearson Euclidean
     - type: spearman_euclidean
-      value: 0.7074396606352066
       name: Spearman Euclidean
     - type: pearson_manhattan
-      value: 0.7176849379592309
       name: Pearson Manhattan
     - type: spearman_manhattan
-      value: 0.7101303213368534
       name: Spearman Manhattan
     - type: pearson_dot
-      value: 0.7062611613987171
       name: Pearson Dot
     - type: spearman_dot
-      value: 0.7006071388870717
       name: Spearman Dot
     - type: pearson_max
-      value: 0.7848078944075182
       name: Pearson Max
     - type: spearman_max
-      value: 0.7857175803487115
       name: Spearman Max
 ---
@@ -188,16 +188,16 @@ You can finetune this model on your own dataset.
 | Metric             | Value      |
 |:-------------------|:-----------|
-| pearson_cosine     | 0.7848     |
-| spearman_cosine    | 0.7857     |
-| pearson_euclidean  | 0.7157     |
-| spearman_euclidean | 0.7074     |
-| pearson_manhattan  | 0.7177     |
-| spearman_manhattan | 0.7101     |
-| pearson_dot        | 0.7063     |
-| spearman_dot       | 0.7006     |
-| pearson_max        | 0.7848     |
-| **spearman_max**   | **0.7857** |
 <!--
 ## Bias, Risks and Limitations
@@ -469,6 +469,19 @@ You can finetune this model on your own dataset.
 | 7.4903 | 330  | 0.4221        | 0.0312          | 0.7848               |
 | 7.6017 | 335  | -             | 0.0311          | 0.7854               |
 | 7.7131 | 340  | 0.4268        | 0.0310          | 0.7857               |
 ### Framework Versions

       type: sts_dev
     metrics:
     - type: pearson_cosine
+      value: 0.787184477170156
       name: Pearson Cosine
     - type: spearman_cosine
+      value: 0.78809909542145
       name: Spearman Cosine
     - type: pearson_euclidean
+      value: 0.7195444208609296
       name: Pearson Euclidean
     - type: spearman_euclidean
+      value: 0.7115938480269084
       name: Spearman Euclidean
     - type: pearson_manhattan
+      value: 0.7213936268781151
       name: Pearson Manhattan
     - type: spearman_manhattan
+      value: 0.7143300985487689
       name: Spearman Manhattan
     - type: pearson_dot
+      value: 0.7102603851217889
       name: Pearson Dot
     - type: spearman_dot
+      value: 0.7036724949513745
       name: Spearman Dot
     - type: pearson_max
+      value: 0.787184477170156
       name: Pearson Max
     - type: spearman_max
+      value: 0.78809909542145
       name: Spearman Max
 ---
 | Metric             | Value      |
 |:-------------------|:-----------|
+| pearson_cosine     | 0.7872     |
+| spearman_cosine    | 0.7881     |
+| pearson_euclidean  | 0.7195     |
+| spearman_euclidean | 0.7116     |
+| pearson_manhattan  | 0.7214     |
+| spearman_manhattan | 0.7143     |
+| pearson_dot        | 0.7103     |
+| spearman_dot       | 0.7037     |
+| pearson_max        | 0.7872     |
+| **spearman_max**   | **0.7881** |
 <!--
 ## Bias, Risks and Limitations
 | 7.4903 | 330  | 0.4221        | 0.0312          | 0.7848               |
 | 7.6017 | 335  | -             | 0.0311          | 0.7854               |
 | 7.7131 | 340  | 0.4268        | 0.0310          | 0.7857               |
+| 7.8245 | 345  | -             | 0.0309          | 0.7861               |
+| 7.9359 | 350  | 0.4316        | 0.0309          | 0.7866               |
+| 8.0669 | 355  | -             | 0.0309          | 0.7872               |
+| 8.1783 | 360  | 0.4277        | 0.0309          | 0.7873               |
+| 8.2897 | 365  | -             | 0.0308          | 0.7870               |
+| 8.4011 | 370  | 0.3925        | 0.0308          | 0.7868               |
+| 8.5125 | 375  | -             | 0.0308          | 0.7866               |
+| 8.6240 | 380  | 0.4049        | 0.0308          | 0.7869               |
+| 8.7354 | 385  | -             | 0.0308          | 0.7875               |
+| 8.8468 | 390  | 0.3742        | 0.0308          | 0.7883               |
+| 8.9582 | 395  | -             | 0.0307          | 0.7885               |
+| 9.0891 | 400  | 0.3498        | 0.0307          | 0.7886               |
+| 9.2006 | 405  | -             | 0.0307          | 0.7881               |
 ### Framework Versions

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d04fa800717f58ef5e6f0860853987a0cb36d6871103a505ec7f18f0c8d1e24
 size 735216376

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f26b706c07e140e2edd57fafcc709e1a43ae165be88a326e339c41e3237937a
 size 735216376

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc467df84c2a0e88611b2aab8643e37351c039e2c7f1103496ef14ec92c0c4ad
 size 1476823354

 version https://git-lfs.github.com/spec/v1
+oid sha256:3785556f501aad29fcbea152f12a1290505e2d5120ff9ef892fea6a83710c125
 size 1476823354

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3144a48358cd6bf04cc853f08e410043fb407f87bd6a0c68ca70ad834c31efe
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:0aed9b6bd6e6e1beacbd05484944e482a60b207824bbac7beedc13b893e316f6
 size 15920

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55077727665855a5b89991696b2904041ae70f3107b9b237a46fbba9a02e4ee3
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:79119d62c189f0ce3be5549f3e7ca09f006763bebbe6fc4271cba9cc53baba97
 size 15920

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b76a5815810a65e67b40cd681f2067cb6b3b6c464e81e4400284c03451340b87
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:c92c32fe5af972bd0601b45d325cd53a4b35f93bd22d6abc2cedf42357de0876
 size 15920

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8666828916f11f1cabe404ec73ef559b94d85c4b551426cb9e985c001d916437
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e7ac6dc7d789f396271db6e6f76a74abad025b3dd94a3a591312d8d14d22816
 size 15920

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d521e6afe5d08a185f41247427404b38548d3e87b68fe3d300f8b3dcc4a15fe
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:14e06115d50f393b55f097c540247ea67d69dff792018e4dc25fcd26b97cd6a4
 size 15920

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:626147651aa870bb47ab8b580c498252f78757aa80cc5932d6b3e11e2aef7d99
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:97535fbca74da1d5f07193406191f57fcd05860183293eb61167310a17ef8004
 size 15920

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52b253b36f823ae06fbd7e190036c923117ff265d050024b030f5175e9b97961
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:08ea52dce94ae2223b6b7b57c45f4cc100fd214b2dabf3e2391a9c5cfc032d9a
 size 15920

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:132709e360606a72b2d2be0fe29824d3dfdafc54ed713803a6b6d2b2f7fff3a4
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:08b0a80781bd7349dfd5c50e57ab7242d5086f72f741cf97b90a29e5a945d966
 size 15920

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d5d490efe88b2712da4404d6da858c3fdbb2ab6c9bd797ff7799d7870cc26d9
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0eac241248b44a91e36b8370560e3c209ccb1e7f6634c18a7bc72a219fac2ee
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.713091922005571,
   "eval_steps": 5,
-  "global_step": 340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1469,6 +1469,282 @@
       "eval_sts_dev_spearman_manhattan": 0.7101303213368534,
       "eval_sts_dev_spearman_max": 0.7857175803487115,
       "step": 340
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.200557103064067,
   "eval_steps": 5,
+  "global_step": 405,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_sts_dev_spearman_manhattan": 0.7101303213368534,
       "eval_sts_dev_spearman_max": 0.7857175803487115,
       "step": 340
+    },
+    {
+      "epoch": 7.8245125348189415,
+      "eval_loss": 0.030945729464292526,
+      "eval_runtime": 6.9722,
+      "eval_samples_per_second": 215.14,
+      "eval_steps_per_second": 26.964,
+      "eval_sts_dev_pearson_cosine": 0.7852280992749574,
+      "eval_sts_dev_pearson_dot": 0.7063015365766652,
+      "eval_sts_dev_pearson_euclidean": 0.71618048050416,
+      "eval_sts_dev_pearson_manhattan": 0.7181959951306995,
+      "eval_sts_dev_pearson_max": 0.7852280992749574,
+      "eval_sts_dev_spearman_cosine": 0.7861447827888495,
+      "eval_sts_dev_spearman_dot": 0.7007253260607372,
+      "eval_sts_dev_spearman_euclidean": 0.7080307843557273,
+      "eval_sts_dev_spearman_manhattan": 0.710707788624518,
+      "eval_sts_dev_spearman_max": 0.7861447827888495,
+      "step": 345
+    },
+    {
+      "epoch": 7.935933147632312,
+      "grad_norm": 4.521576881408691,
+      "learning_rate": 2.435206122803966e-06,
+      "loss": 0.4316,
+      "step": 350
+    },
+    {
+      "epoch": 7.935933147632312,
+      "eval_loss": 0.030903467908501625,
+      "eval_runtime": 6.8754,
+      "eval_samples_per_second": 218.169,
+      "eval_steps_per_second": 27.344,
+      "eval_sts_dev_pearson_cosine": 0.7857408106817081,
+      "eval_sts_dev_pearson_dot": 0.7063227803586387,
+      "eval_sts_dev_pearson_euclidean": 0.7171064497768416,
+      "eval_sts_dev_pearson_manhattan": 0.7190977579026478,
+      "eval_sts_dev_pearson_max": 0.7857408106817081,
+      "eval_sts_dev_spearman_cosine": 0.786647063435545,
+      "eval_sts_dev_spearman_dot": 0.7004210617791904,
+      "eval_sts_dev_spearman_euclidean": 0.7090060931384192,
+      "eval_sts_dev_spearman_manhattan": 0.7117304388117395,
+      "eval_sts_dev_spearman_max": 0.786647063435545,
+      "step": 350
+    },
+    {
+      "epoch": 8.066852367688023,
+      "eval_loss": 0.03090326115489006,
+      "eval_runtime": 6.7967,
+      "eval_samples_per_second": 220.696,
+      "eval_steps_per_second": 27.661,
+      "eval_sts_dev_pearson_cosine": 0.7860914327083659,
+      "eval_sts_dev_pearson_dot": 0.7067109311815922,
+      "eval_sts_dev_pearson_euclidean": 0.7179978723314155,
+      "eval_sts_dev_pearson_manhattan": 0.7199506434198831,
+      "eval_sts_dev_pearson_max": 0.7860914327083659,
+      "eval_sts_dev_spearman_cosine": 0.7871799411716375,
+      "eval_sts_dev_spearman_dot": 0.7005966817709771,
+      "eval_sts_dev_spearman_euclidean": 0.7099849983444726,
+      "eval_sts_dev_spearman_manhattan": 0.7126081974741519,
+      "eval_sts_dev_spearman_max": 0.7871799411716375,
+      "step": 355
+    },
+    {
+      "epoch": 8.178272980501394,
+      "grad_norm": 3.464381217956543,
+      "learning_rate": 2.504783440598365e-06,
+      "loss": 0.4277,
+      "step": 360
+    },
+    {
+      "epoch": 8.178272980501394,
+      "eval_loss": 0.030861668288707733,
+      "eval_runtime": 6.8952,
+      "eval_samples_per_second": 217.544,
+      "eval_steps_per_second": 27.265,
+      "eval_sts_dev_pearson_cosine": 0.7862113365203784,
+      "eval_sts_dev_pearson_dot": 0.7070142268847368,
+      "eval_sts_dev_pearson_euclidean": 0.7181137478219999,
+      "eval_sts_dev_pearson_manhattan": 0.7200573508948256,
+      "eval_sts_dev_pearson_max": 0.7862113365203784,
+      "eval_sts_dev_spearman_cosine": 0.7873051906331155,
+      "eval_sts_dev_spearman_dot": 0.700851803333668,
+      "eval_sts_dev_spearman_euclidean": 0.7101326235059475,
+      "eval_sts_dev_spearman_manhattan": 0.7126791959108771,
+      "eval_sts_dev_spearman_max": 0.7873051906331155,
+      "step": 360
+    },
+    {
+      "epoch": 8.289693593314762,
+      "eval_loss": 0.03079277276992798,
+      "eval_runtime": 7.0041,
+      "eval_samples_per_second": 214.159,
+      "eval_steps_per_second": 26.841,
+      "eval_sts_dev_pearson_cosine": 0.7861051555153227,
+      "eval_sts_dev_pearson_dot": 0.7077462081618229,
+      "eval_sts_dev_pearson_euclidean": 0.7175047036545574,
+      "eval_sts_dev_pearson_manhattan": 0.7194616943503004,
+      "eval_sts_dev_pearson_max": 0.7861051555153227,
+      "eval_sts_dev_spearman_cosine": 0.7869754283660466,
+      "eval_sts_dev_spearman_dot": 0.7018953525077267,
+      "eval_sts_dev_spearman_euclidean": 0.7093618435488815,
+      "eval_sts_dev_spearman_manhattan": 0.7120432245619701,
+      "eval_sts_dev_spearman_max": 0.7869754283660466,
+      "step": 365
+    },
+    {
+      "epoch": 8.401114206128133,
+      "grad_norm": 3.629032850265503,
+      "learning_rate": 2.5743607583927645e-06,
+      "loss": 0.3925,
+      "step": 370
+    },
+    {
+      "epoch": 8.401114206128133,
+      "eval_loss": 0.03077574074268341,
+      "eval_runtime": 6.9569,
+      "eval_samples_per_second": 215.613,
+      "eval_steps_per_second": 27.024,
+      "eval_sts_dev_pearson_cosine": 0.7860927703016911,
+      "eval_sts_dev_pearson_dot": 0.7084805810982604,
+      "eval_sts_dev_pearson_euclidean": 0.7171292733763057,
+      "eval_sts_dev_pearson_manhattan": 0.7191008391698412,
+      "eval_sts_dev_pearson_max": 0.7860927703016911,
+      "eval_sts_dev_spearman_cosine": 0.7868465023058949,
+      "eval_sts_dev_spearman_dot": 0.7026257860756843,
+      "eval_sts_dev_spearman_euclidean": 0.7087433915922463,
+      "eval_sts_dev_spearman_manhattan": 0.7115662090675204,
+      "eval_sts_dev_spearman_max": 0.7868465023058949,
+      "step": 370
+    },
+    {
+      "epoch": 8.512534818941504,
+      "eval_loss": 0.03077036887407303,
+      "eval_runtime": 6.8481,
+      "eval_samples_per_second": 219.038,
+      "eval_steps_per_second": 27.453,
+      "eval_sts_dev_pearson_cosine": 0.7860543259557101,
+      "eval_sts_dev_pearson_dot": 0.7090029747286515,
+      "eval_sts_dev_pearson_euclidean": 0.7168001987123229,
+      "eval_sts_dev_pearson_manhattan": 0.7187912798445806,
+      "eval_sts_dev_pearson_max": 0.7860543259557101,
+      "eval_sts_dev_spearman_cosine": 0.786577121013552,
+      "eval_sts_dev_spearman_dot": 0.7032207123703509,
+      "eval_sts_dev_spearman_euclidean": 0.7083026579268292,
+      "eval_sts_dev_spearman_manhattan": 0.7111138102646555,
+      "eval_sts_dev_spearman_max": 0.786577121013552,
+      "step": 375
+    },
+    {
+      "epoch": 8.623955431754874,
+      "grad_norm": 4.5424346923828125,
+      "learning_rate": 2.643938076187163e-06,
+      "loss": 0.4049,
+      "step": 380
+    },
+    {
+      "epoch": 8.623955431754874,
+      "eval_loss": 0.030785972252488136,
+      "eval_runtime": 6.9052,
+      "eval_samples_per_second": 217.228,
+      "eval_steps_per_second": 27.226,
+      "eval_sts_dev_pearson_cosine": 0.786338341456081,
+      "eval_sts_dev_pearson_dot": 0.7090251722360976,
+      "eval_sts_dev_pearson_euclidean": 0.7176375494602096,
+      "eval_sts_dev_pearson_manhattan": 0.7195903686388057,
+      "eval_sts_dev_pearson_max": 0.786338341456081,
+      "eval_sts_dev_spearman_cosine": 0.7869461186588641,
+      "eval_sts_dev_spearman_dot": 0.7030353980707192,
+      "eval_sts_dev_spearman_euclidean": 0.7093240329985625,
+      "eval_sts_dev_spearman_manhattan": 0.7120013731894795,
+      "eval_sts_dev_spearman_max": 0.7869461186588641,
+      "step": 380
+    },
+    {
+      "epoch": 8.735376044568245,
+      "eval_loss": 0.03077947534620762,
+      "eval_runtime": 6.94,
+      "eval_samples_per_second": 216.137,
+      "eval_steps_per_second": 27.089,
+      "eval_sts_dev_pearson_cosine": 0.7867836664964302,
+      "eval_sts_dev_pearson_dot": 0.7089649699768177,
+      "eval_sts_dev_pearson_euclidean": 0.7185998785212442,
+      "eval_sts_dev_pearson_manhattan": 0.7205256023581162,
+      "eval_sts_dev_pearson_max": 0.7867836664964302,
+      "eval_sts_dev_spearman_cosine": 0.7875195626790124,
+      "eval_sts_dev_spearman_dot": 0.7028351666319841,
+      "eval_sts_dev_spearman_euclidean": 0.7105482738364566,
+      "eval_sts_dev_spearman_manhattan": 0.7132642042369475,
+      "eval_sts_dev_spearman_max": 0.7875195626790124,
+      "step": 385
+    },
+    {
+      "epoch": 8.846796657381615,
+      "grad_norm": 3.7269480228424072,
+      "learning_rate": 2.7135153939815623e-06,
+      "loss": 0.3742,
+      "step": 390
+    },
+    {
+      "epoch": 8.846796657381615,
+      "eval_loss": 0.030757909640669823,
+      "eval_runtime": 6.912,
+      "eval_samples_per_second": 217.015,
+      "eval_steps_per_second": 27.199,
+      "eval_sts_dev_pearson_cosine": 0.7873307957198338,
+      "eval_sts_dev_pearson_dot": 0.7087450117938812,
+      "eval_sts_dev_pearson_euclidean": 0.7199394166229915,
+      "eval_sts_dev_pearson_manhattan": 0.7218118008402783,
+      "eval_sts_dev_pearson_max": 0.7873307957198338,
+      "eval_sts_dev_spearman_cosine": 0.7883481466120934,
+      "eval_sts_dev_spearman_dot": 0.702431533404311,
+      "eval_sts_dev_spearman_euclidean": 0.7122286167501692,
+      "eval_sts_dev_spearman_manhattan": 0.7149544811678771,
+      "eval_sts_dev_spearman_max": 0.7883481466120934,
+      "step": 390
+    },
+    {
+      "epoch": 8.958217270194986,
+      "eval_loss": 0.03074067085981369,
+      "eval_runtime": 7.0786,
+      "eval_samples_per_second": 211.905,
+      "eval_steps_per_second": 26.559,
+      "eval_sts_dev_pearson_cosine": 0.7875281932009626,
+      "eval_sts_dev_pearson_dot": 0.7091183187974348,
+      "eval_sts_dev_pearson_euclidean": 0.720306579358833,
+      "eval_sts_dev_pearson_manhattan": 0.7221545912209083,
+      "eval_sts_dev_pearson_max": 0.7875281932009626,
+      "eval_sts_dev_spearman_cosine": 0.7884911216315376,
+      "eval_sts_dev_spearman_dot": 0.7026504547905195,
+      "eval_sts_dev_spearman_euclidean": 0.7125846397557779,
+      "eval_sts_dev_spearman_manhattan": 0.7153917764693033,
+      "eval_sts_dev_spearman_max": 0.7884911216315376,
+      "step": 395
+    },
+    {
+      "epoch": 9.089136490250697,
+      "grad_norm": 3.8048255443573,
+      "learning_rate": 2.7830927117759614e-06,
+      "loss": 0.3498,
+      "step": 400
+    },
+    {
+      "epoch": 9.089136490250697,
+      "eval_loss": 0.03073756769299507,
+      "eval_runtime": 7.1819,
+      "eval_samples_per_second": 208.858,
+      "eval_steps_per_second": 26.177,
+      "eval_sts_dev_pearson_cosine": 0.7875285006609543,
+      "eval_sts_dev_pearson_dot": 0.709718276464936,
+      "eval_sts_dev_pearson_euclidean": 0.7202436438310591,
+      "eval_sts_dev_pearson_manhattan": 0.7220766094080024,
+      "eval_sts_dev_pearson_max": 0.7875285006609543,
+      "eval_sts_dev_spearman_cosine": 0.7885939335328866,
+      "eval_sts_dev_spearman_dot": 0.7032536436958657,
+      "eval_sts_dev_spearman_euclidean": 0.7124855846354039,
+      "eval_sts_dev_spearman_manhattan": 0.7153797502128406,
+      "eval_sts_dev_spearman_max": 0.7885939335328866,
+      "step": 400
+    },
+    {
+      "epoch": 9.200557103064067,
+      "eval_loss": 0.03071259893476963,
+      "eval_runtime": 6.8201,
+      "eval_samples_per_second": 219.938,
+      "eval_steps_per_second": 27.566,
+      "eval_sts_dev_pearson_cosine": 0.787184477170156,
+      "eval_sts_dev_pearson_dot": 0.7102603851217889,
+      "eval_sts_dev_pearson_euclidean": 0.7195444208609296,
+      "eval_sts_dev_pearson_manhattan": 0.7213936268781151,
+      "eval_sts_dev_pearson_max": 0.787184477170156,
+      "eval_sts_dev_spearman_cosine": 0.78809909542145,
+      "eval_sts_dev_spearman_dot": 0.7036724949513745,
+      "eval_sts_dev_spearman_euclidean": 0.7115938480269084,
+      "eval_sts_dev_spearman_manhattan": 0.7143300985487689,
+      "eval_sts_dev_spearman_max": 0.78809909542145,
+      "step": 405
     }
   ],
   "logging_steps": 10,