End of training

Browse files

Files changed (4) hide show

README.md +21 -54
generation_config.json +1 -1
model.safetensors +1 -1
runs/Jun10_23-49-43_20d0574f53df/events.out.tfevents.1718063384.20d0574f53df.1139.0 +2 -2

README.md CHANGED Viewed

@@ -15,9 +15,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7196
-- Bleu: 23.6683
-- Gen Len: 45.6564
 ## Model description
@@ -36,69 +36,36 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0003
 - train_batch_size: 32
 - eval_batch_size: 32
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 5
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss | Bleu    | Gen Len |
 |:-------------:|:------:|:----:|:---------------:|:-------:|:-------:|
-| No log        | 0.1071 | 100  | 0.6652          | 23.8215 | 46.146  |
-| No log        | 0.2141 | 200  | 0.6821          | 23.4518 | 45.8357 |
-| No log        | 0.3212 | 300  | 0.6870          | 23.1324 | 45.8827 |
-| No log        | 0.4283 | 400  | 0.7018          | 22.953  | 45.9213 |
-| 0.983         | 0.5353 | 500  | 0.7049          | 22.98   | 45.8547 |
-| 0.983         | 0.6424 | 600  | 0.7046          | 22.8865 | 45.9609 |
-| 0.983         | 0.7495 | 700  | 0.7136          | 22.5721 | 45.478  |
-| 0.983         | 0.8565 | 800  | 0.7137          | 22.5416 | 46.017  |
-| 0.983         | 0.9636 | 900  | 0.7149          | 22.5314 | 45.7645 |
-| 0.9989        | 1.0707 | 1000 | 0.7213          | 22.5012 | 45.9881 |
-| 0.9989        | 1.1777 | 1100 | 0.7195          | 22.5104 | 45.6612 |
-| 0.9989        | 1.2848 | 1200 | 0.7211          | 22.4268 | 46.085  |
-| 0.9989        | 1.3919 | 1300 | 0.7220          | 22.5986 | 45.754  |
-| 0.9989        | 1.4989 | 1400 | 0.7243          | 22.5969 | 46.077  |
-| 0.9195        | 1.6060 | 1500 | 0.7300          | 22.6051 | 45.7915 |
-| 0.9195        | 1.7131 | 1600 | 0.7255          | 22.563  | 45.8345 |
-| 0.9195        | 1.8201 | 1700 | 0.7268          | 22.7627 | 45.7479 |
-| 0.9195        | 1.9272 | 1800 | 0.7239          | 22.6867 | 45.9264 |
-| 0.9195        | 2.0343 | 1900 | 0.7292          | 22.7507 | 45.6174 |
-| 0.9069        | 2.1413 | 2000 | 0.7287          | 22.8822 | 45.7353 |
-| 0.9069        | 2.2484 | 2100 | 0.7288          | 22.9287 | 45.7574 |
-| 0.9069        | 2.3555 | 2200 | 0.7271          | 22.739  | 45.8887 |
-| 0.9069        | 2.4625 | 2300 | 0.7295          | 22.7979 | 45.6375 |
-| 0.9069        | 2.5696 | 2400 | 0.7255          | 22.8196 | 45.8767 |
-| 0.8581        | 2.6767 | 2500 | 0.7285          | 22.9328 | 45.5503 |
-| 0.8581        | 2.7837 | 2600 | 0.7272          | 22.8605 | 45.4845 |
-| 0.8581        | 2.8908 | 2700 | 0.7266          | 22.7798 | 45.8115 |
-| 0.8581        | 2.9979 | 2800 | 0.7263          | 22.8977 | 45.7137 |
-| 0.8581        | 3.1049 | 2900 | 0.7278          | 23.1761 | 45.5648 |
-| 0.8337        | 3.2120 | 3000 | 0.7253          | 23.1161 | 45.6975 |
-| 0.8337        | 3.3191 | 3100 | 0.7254          | 23.2943 | 45.8444 |
-| 0.8337        | 3.4261 | 3200 | 0.7269          | 23.3569 | 45.5949 |
-| 0.8337        | 3.5332 | 3300 | 0.7249          | 23.3935 | 45.7649 |
-| 0.8337        | 3.6403 | 3400 | 0.7245          | 23.3007 | 45.7151 |
-| 0.7951        | 3.7473 | 3500 | 0.7256          | 23.2827 | 45.5649 |
-| 0.7951        | 3.8544 | 3600 | 0.7224          | 23.4464 | 45.7041 |
-| 0.7951        | 3.9615 | 3700 | 0.7209          | 23.4635 | 45.6198 |
-| 0.7951        | 4.0685 | 3800 | 0.7261          | 23.4885 | 45.6302 |
-| 0.7951        | 4.1756 | 3900 | 0.7226          | 23.5112 | 45.6264 |
-| 0.769         | 4.2827 | 4000 | 0.7226          | 23.4213 | 45.6869 |
-| 0.769         | 4.3897 | 4100 | 0.7219          | 23.5038 | 45.4214 |
-| 0.769         | 4.4968 | 4200 | 0.7211          | 23.5617 | 45.6644 |
-| 0.769         | 4.6039 | 4300 | 0.7201          | 23.5387 | 45.742  |
-| 0.769         | 4.7109 | 4400 | 0.7199          | 23.5526 | 45.6596 |
-| 0.7513        | 4.8180 | 4500 | 0.7193          | 23.6482 | 45.6834 |
-| 0.7513        | 4.9251 | 4600 | 0.7196          | 23.6683 | 45.6564 |
 ### Framework versions
-- Transformers 4.40.1
-- Pytorch 2.2.1+cu121
-- Datasets 2.19.0
 - Tokenizers 0.19.1

 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6835
+- Bleu: 25.7459
+- Gen Len: 45.7999
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0005
 - train_batch_size: 32
 - eval_batch_size: 32
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 4
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss | Bleu    | Gen Len |
 |:-------------:|:------:|:----:|:---------------:|:-------:|:-------:|
+| No log        | 0.3027 | 300  | 0.6651          | 24.827  | 46.2006 |
+| 0.9651        | 0.6054 | 600  | 0.6967          | 24.0607 | 45.3494 |
+| 0.9651        | 0.9082 | 900  | 0.7045          | 23.7928 | 46.1327 |
+| 1.001         | 1.2109 | 1200 | 0.7084          | 23.9299 | 46.4082 |
+| 0.8741        | 1.5136 | 1500 | 0.7156          | 23.9047 | 45.8685 |
+| 0.8741        | 1.8163 | 1800 | 0.7121          | 23.9386 | 45.7796 |
+| 0.8763        | 2.1191 | 2100 | 0.7083          | 24.5377 | 45.8846 |
+| 0.8763        | 2.4218 | 2400 | 0.7032          | 24.6723 | 46.1827 |
+| 0.7689        | 2.7245 | 2700 | 0.6988          | 24.7631 | 45.8793 |
+| 0.7599        | 3.0272 | 3000 | 0.6961          | 25.2701 | 45.7947 |
+| 0.7599        | 3.3300 | 3300 | 0.6935          | 25.4704 | 45.7461 |
+| 0.6782        | 3.6327 | 3600 | 0.6861          | 25.7835 | 45.9797 |
+| 0.6782        | 3.9354 | 3900 | 0.6835          | 25.7459 | 45.7999 |
 ### Framework versions
+- Transformers 4.41.2
+- Pytorch 2.3.0+cu121
+- Datasets 2.19.2
 - Tokenizers 0.19.1

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
-  "transformers_version": "4.40.1"
 }

   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
+  "transformers_version": "4.41.2"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2e3e32840449c6cb76a324cb17e83202ad68ee63e4dcd76d1ab8d4a2a4ee0ac
 size 990345064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8f5e9d8733b5b505d0be90c2eda85fc8668c072b2bfd83f77d3c63b7e0db7bb
 size 990345064

runs/Jun10_23-49-43_20d0574f53df/events.out.tfevents.1718063384.20d0574f53df.1139.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92123126c0137aed36267ef7e393118b8f13aea8cd50f82701f7be8253c8b2dc
-size 11465

 version https://git-lfs.github.com/spec/v1
+oid sha256:5abe82048d302ccf73308cf8f2281cf24138a1d4de6a259b7bf44be5a233ca0b
+size 12559