JimmyPin
/

mt5-finetuned-summarize

@@ -43,8 +43,8 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 4
-- eval_batch_size: 4
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
@@ -55,26 +55,26 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch   | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum |
 |:-------------:|:-------:|:----:|:---------------:|:------:|:------:|:------:|:---------:|
-| 0.0           | 0.9969  | 317  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 1.9937  | 634  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 2.9906  | 951  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 3.9874  | 1268 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 4.9843  | 1585 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 5.9811  | 1902 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 6.9780  | 2219 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 7.9748  | 2536 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 8.9717  | 2853 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 9.9686  | 3170 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 10.9654 | 3487 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 11.9623 | 3804 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 12.9591 | 4121 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 13.9560 | 4438 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 14.9528 | 4755 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 15.9497 | 5072 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 16.9465 | 5389 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 17.9434 | 5706 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 18.9403 | 6023 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0           | 19.9371 | 6340 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
 ### Framework versions

 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 8
+- eval_batch_size: 8
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 | Training Loss | Epoch   | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum |
 |:-------------:|:-------:|:----:|:---------------:|:------:|:------:|:------:|:---------:|
+| 0.0           | 0.9875  | 79   | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 1.975   | 158  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 2.9625  | 237  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 3.95    | 316  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 4.9375  | 395  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 5.925   | 474  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 6.9125  | 553  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 7.9     | 632  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 8.8875  | 711  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 9.875   | 790  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 10.8625 | 869  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 11.85   | 948  | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 12.8375 | 1027 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 13.825  | 1106 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 14.8125 | 1185 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 15.8    | 1264 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 16.7875 | 1343 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 17.775  | 1422 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 18.7625 | 1501 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
+| 0.0           | 19.75   | 1580 | nan             | 0.0    | 0.0    | 0.0    | 0.0       |
 ### Framework versions