Evaluation on the test set completed on 2024_11_14.

Browse files

Files changed (8) hide show

README.md +104 -152
all_results.json +13 -13
logs/events.out.tfevents.1731607061.datavisu2 +2 -2
logs/events.out.tfevents.1731624072.datavisu2 +3 -0
model.safetensors +1 -1
test_results.json +9 -9
train_results.json +5 -5
trainer_state.json +681 -681

README.md CHANGED Viewed

@@ -1,172 +1,124 @@
 ---
-language:
-- eng
-license: cc0-1.0
 tags:
-- multilabel-image-classification
-- multilabel
 - generated_from_trainer
-base_model: drone-DinoVdeau-from-binary-large-2024_11_14-batch-size16_freeze_probs
 model-index:
 - name: drone-DinoVdeau-from-binary-large-2024_11_14-batch-size16_freeze_probs
   results: []
 ---
-drone-DinoVdeau-from-binary is a fine-tuned version of [drone-DinoVdeau-from-binary-large-2024_11_14-batch-size16_freeze_probs](https://huggingface.co/drone-DinoVdeau-from-binary-large-2024_11_14-batch-size16_freeze_probs). It achieves the following results on the test set:
-- Loss: 0.4693
-- F1 Micro: 0.0000
-- F1 Macro: 0.0000
-- Accuracy: 0.0000
-- RMSE: 0.1576
-- MAE: 0.1172
-- KL Divergence: 0.4185
----
-# Model description
-drone-DinoVdeau-from-binary is a model built on top of drone-DinoVdeau-from-binary-large-2024_11_14-batch-size16_freeze_probs model for underwater multilabel image classification.The classification head is a combination of linear, ReLU, batch normalization, and dropout layers.
-The source code for training the model can be found in this [Git repository](https://github.com/SeatizenDOI/DinoVdeau).
-- **Developed by:** [lombardata](https://huggingface.co/lombardata), credits to [César Leblanc](https://huggingface.co/CesarLeblanc) and [Victor Illien](https://huggingface.co/groderg)
----
-# Intended uses & limitations
-You can use the raw model for classify diverse marine species, encompassing coral morphotypes classes taken from the Global Coral Reef Monitoring Network (GCRMN), habitats classes and seagrass species.
----
-# Training and evaluation data
-Details on the estimated number of images for each class are given in the following table:
-| Class                   |   train |   test |   val |   Total |
-|:------------------------|--------:|-------:|------:|--------:|
-| Acropore_branched       |    1220 |    363 |   362 |    1945 |
-| Acropore_digitised      |     586 |    195 |   189 |     970 |
-| Acropore_tabular        |     308 |    133 |   119 |     560 |
-| Algae                   |    4777 |   1372 |  1384 |    7533 |
-| Dead_coral              |    2513 |    671 |   693 |    3877 |
-| Millepore               |     136 |     55 |    59 |     250 |
-| No_acropore_encrusting  |     252 |     88 |    93 |     433 |
-| No_acropore_massive     |    2158 |    725 |   726 |    3609 |
-| No_acropore_sub_massive |    2036 |    582 |   612 |    3230 |
-| Rock                    |    5976 |   1941 |  1928 |    9845 |
-| Rubble                  |    4851 |   1486 |  1474 |    7811 |
-| Sand                    |    6155 |   2019 |  1990 |   10164 |
----
-# Training procedure
-## Training hyperparameters
 The following hyperparameters were used during training:
-- **Number of Epochs**: 62.0
-- **Learning Rate**: 0.001
-- **Train Batch Size**: 16
-- **Eval Batch Size**: 16
-- **Optimizer**: Adam
-- **LR Scheduler Type**: ReduceLROnPlateau with a patience of 5 epochs and a factor of 0.1
-- **Freeze Encoder**: Yes
-- **Data Augmentation**: Yes
-## Data Augmentation
-Data were augmented using the following transformations :
-Train Transforms
-- **PreProcess**: No additional parameters
-- **Resize**: probability=1.00
-- **RandomHorizontalFlip**: probability=0.25
-- **RandomVerticalFlip**: probability=0.25
-- **ColorJiggle**: probability=0.25
-- **RandomPerspective**: probability=0.25
-- **Normalize**: probability=1.00
-Val Transforms
-- **PreProcess**: No additional parameters
-- **Resize**: probability=1.00
-- **Normalize**: probability=1.00
-## Training results
-Epoch | Validation Loss | MAE | RMSE | KL div | Learning Rate
---- | --- | --- | --- | --- | ---
-1 | 0.4821413457393646 | 0.1308 | 0.1731 | 0.4219 | 0.001
-2 | 0.4784533977508545 | 0.1263 | 0.1710 | 0.6148 | 0.001
-3 | 0.47776785492897034 | 0.1273 | 0.1699 | 0.4880 | 0.001
-4 | 0.4793245792388916 | 0.1290 | 0.1710 | 0.3418 | 0.001
-5 | 0.47521594166755676 | 0.1280 | 0.1674 | 0.3456 | 0.001
-6 | 0.478865385055542 | 0.1254 | 0.1707 | 0.6403 | 0.001
-7 | 0.4779475927352905 | 0.1288 | 0.1709 | 0.5492 | 0.001
-8 | 0.4756968021392822 | 0.1270 | 0.1678 | 0.3383 | 0.001
-9 | 0.4731782376766205 | 0.1231 | 0.1657 | 0.5418 | 0.001
-10 | 0.4799855649471283 | 0.1321 | 0.1723 | 0.1547 | 0.001
-11 | 0.4731641411781311 | 0.1256 | 0.1656 | 0.3437 | 0.001
-12 | 0.47767141461372375 | 0.1293 | 0.1701 | 0.2947 | 0.001
-13 | 0.48009705543518066 | 0.1248 | 0.1677 | 0.6136 | 0.001
-14 | 0.4954195022583008 | 0.1253 | 0.1669 | inf | 0.001
-15 | 0.4812238812446594 | 0.1254 | 0.1662 | inf | 0.001
-16 | 0.4858487546443939 | 0.1243 | 0.1656 | inf | 0.0001
-17 | 0.47084349393844604 | 0.1223 | 0.1628 | 0.4165 | 0.0001
-18 | 0.4707622528076172 | 0.1216 | 0.1626 | 0.4066 | 0.0001
-19 | 0.47095733880996704 | 0.1227 | 0.1632 | 0.3185 | 0.0001
-20 | 0.4696938395500183 | 0.1205 | 0.1620 | 0.4651 | 0.0001
-21 | 0.46922874450683594 | 0.1216 | 0.1614 | 0.3773 | 0.0001
-22 | 0.4685634672641754 | 0.1203 | 0.1609 | 0.4611 | 0.0001
-23 | 0.47018975019454956 | 0.1226 | 0.1621 | 0.2499 | 0.0001
-24 | 0.4705464243888855 | 0.1213 | 0.1628 | 0.3702 | 0.0001
-25 | 0.4678299129009247 | 0.1188 | 0.1601 | 0.5133 | 0.0001
-26 | 0.46802961826324463 | 0.1179 | 0.1604 | 0.5665 | 0.0001
-27 | 0.4680938124656677 | 0.1200 | 0.1604 | 0.4242 | 0.0001
-28 | 0.4693257212638855 | 0.1215 | 0.1616 | 0.2968 | 0.0001
-29 | 0.46847742795944214 | 0.1197 | 0.1607 | 0.3925 | 0.0001
-30 | 0.46944141387939453 | 0.1221 | 0.1614 | 0.2495 | 0.0001
-31 | 0.4678958058357239 | 0.1185 | 0.1601 | 0.4510 | 0.0001
-32 | 0.46778997778892517 | 0.1193 | 0.1601 | 0.3886 | 1e-05
-33 | 0.4686955511569977 | 0.1202 | 0.1606 | 0.3132 | 1e-05
-34 | 0.46784329414367676 | 0.1195 | 0.1601 | 0.3958 | 1e-05
-35 | 0.4671097695827484 | 0.1180 | 0.1595 | 0.4579 | 1e-05
-36 | 0.46735426783561707 | 0.1184 | 0.1595 | 0.4391 | 1e-05
-37 | 0.468018501996994 | 0.1191 | 0.1600 | 0.3633 | 1e-05
-38 | 0.46701580286026 | 0.1186 | 0.1592 | 0.4303 | 1e-05
-39 | 0.4673251509666443 | 0.1187 | 0.1596 | 0.4562 | 1e-05
-40 | 0.4673212468624115 | 0.1189 | 0.1594 | 0.4065 | 1e-05
-41 | 0.4677547216415405 | 0.1206 | 0.1599 | 0.3336 | 1e-05
-42 | 0.4671882390975952 | 0.1178 | 0.1597 | 0.5312 | 1e-05
-43 | 0.46716412901878357 | 0.1185 | 0.1592 | 0.3924 | 1e-05
-44 | 0.4678168296813965 | 0.1194 | 0.1602 | 0.4259 | 1e-05
-45 | 0.46699702739715576 | 0.1172 | 0.1594 | 0.5214 | 1.0000000000000002e-06
-46 | 0.46712958812713623 | 0.1188 | 0.1594 | 0.4175 | 1.0000000000000002e-06
-47 | 0.4666382074356079 | 0.1188 | 0.1589 | 0.4446 | 1.0000000000000002e-06
-48 | 0.46714723110198975 | 0.1180 | 0.1597 | 0.5755 | 1.0000000000000002e-06
-49 | 0.46758702397346497 | 0.1192 | 0.1600 | 0.4304 | 1.0000000000000002e-06
-50 | 0.46752068400382996 | 0.1204 | 0.1595 | 0.3337 | 1.0000000000000002e-06
-51 | 0.46691644191741943 | 0.1181 | 0.1591 | 0.3955 | 1.0000000000000002e-06
-52 | 0.466439425945282 | 0.1175 | 0.1588 | 0.4761 | 1.0000000000000002e-06
-53 | 0.4667709469795227 | 0.1189 | 0.1590 | 0.4327 | 1.0000000000000002e-06
-54 | 0.46701404452323914 | 0.1187 | 0.1592 | 0.3725 | 1.0000000000000002e-06
-55 | 0.467383474111557 | 0.1199 | 0.1595 | 0.3841 | 1.0000000000000002e-06
-56 | 0.46739572286605835 | 0.1190 | 0.1596 | 0.3822 | 1.0000000000000002e-06
-57 | 0.46702033281326294 | 0.1186 | 0.1593 | 0.4675 | 1.0000000000000002e-06
-58 | 0.46735846996307373 | 0.1189 | 0.1596 | 0.3738 | 1.0000000000000002e-06
-59 | 0.46666717529296875 | 0.1185 | 0.1589 | 0.4204 | 1.0000000000000002e-07
-60 | 0.46685320138931274 | 0.1178 | 0.1592 | 0.4532 | 1.0000000000000002e-07
-61 | 0.46734780073165894 | 0.1189 | 0.1596 | 0.4032 | 1.0000000000000002e-07
-62 | 0.4673011302947998 | 0.1189 | 0.1595 | 0.3407 | 1.0000000000000002e-07
----
-# Framework Versions
-- **Transformers**: 4.41.0
-- **Pytorch**: 2.5.0+cu124
-- **Datasets**: 3.0.2
-- **Tokenizers**: 0.19.1

 ---
+license: apache-2.0
+base_model: facebook/dinov2-large
 tags:
 - generated_from_trainer
 model-index:
 - name: drone-DinoVdeau-from-binary-large-2024_11_14-batch-size16_freeze_probs
   results: []
 ---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# drone-DinoVdeau-from-binary-large-2024_11_14-batch-size16_freeze_probs
+This model is a fine-tuned version of [facebook/dinov2-large](https://huggingface.co/facebook/dinov2-large) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4061
+- Rmse: 0.2019
+- Mae: 0.1446
+- Kl Divergence: 0.9802
+- Explained Variance: 0.3860
+- Learning Rate: 0.0000
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 150
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Rmse   | Mae    | Kl Divergence | Explained Variance | Rate   |
+|:-------------:|:-----:|:-----:|:---------------:|:------:|:------:|:-------------:|:------------------:|:------:|
+| No log        | 1.0   | 438   | 0.4306          | 0.2210 | 0.1621 | 1.0069        | 0.2882             | 0.001  |
+| 0.4808        | 2.0   | 876   | 0.4246          | 0.2179 | 0.1547 | 1.3119        | 0.3118             | 0.001  |
+| 0.421         | 3.0   | 1314  | 0.4223          | 0.2158 | 0.1554 | 1.0982        | 0.3192             | 0.001  |
+| 0.4151        | 4.0   | 1752  | 0.4191          | 0.2142 | 0.1552 | 1.0414        | 0.3351             | 0.001  |
+| 0.4114        | 5.0   | 2190  | 0.4171          | 0.2123 | 0.1541 | 1.0698        | 0.3384             | 0.001  |
+| 0.4089        | 6.0   | 2628  | 0.4209          | 0.2140 | 0.1520 | 1.1959        | 0.3311             | 0.001  |
+| 0.4091        | 7.0   | 3066  | 0.4166          | 0.2126 | 0.1530 | 1.1709        | 0.3382             | 0.001  |
+| 0.4071        | 8.0   | 3504  | 0.4195          | 0.2143 | 0.1556 | 0.9712        | 0.3346             | 0.001  |
+| 0.4071        | 9.0   | 3942  | 0.4167          | 0.2121 | 0.1524 | 1.1432        | 0.3415             | 0.001  |
+| 0.4062        | 10.0  | 4380  | 0.4186          | 0.2139 | 0.1535 | 0.9121        | 0.3420             | 0.001  |
+| 0.4052        | 11.0  | 4818  | 0.4156          | 0.2114 | 0.1536 | 0.9950        | 0.3442             | 0.001  |
+| 0.406         | 12.0  | 5256  | 0.4188          | 0.2139 | 0.1555 | 1.0106        | 0.3390             | 0.001  |
+| 0.4058        | 13.0  | 5694  | 0.4163          | 0.2121 | 0.1553 | 1.1482        | 0.3425             | 0.001  |
+| 0.4056        | 14.0  | 6132  | 0.4193          | 0.2138 | 0.1546 | 1.2111        | 0.3286             | 0.001  |
+| 0.4033        | 15.0  | 6570  | 0.4162          | 0.2121 | 0.1542 | 1.2043        | 0.3402             | 0.001  |
+| 0.4057        | 16.0  | 7008  | 0.4139          | 0.2102 | 0.1528 | 1.0828        | 0.3500             | 0.001  |
+| 0.4057        | 17.0  | 7446  | 0.4171          | 0.2118 | 0.1564 | 1.0006        | 0.3430             | 0.001  |
+| 0.405         | 18.0  | 7884  | 0.4146          | 0.2107 | 0.1507 | 1.0514        | 0.3499             | 0.001  |
+| 0.4035        | 19.0  | 8322  | 0.4186          | 0.2114 | 0.1532 | 0.9575        | 0.3468             | 0.001  |
+| 0.4031        | 20.0  | 8760  | 0.4143          | 0.2108 | 0.1513 | 1.1648        | 0.3487             | 0.001  |
+| 0.4048        | 21.0  | 9198  | 0.4195          | 0.2123 | 0.1533 | 1.2950        | 0.3385             | 0.001  |
+| 0.4055        | 22.0  | 9636  | 0.4340          | 0.2110 | 0.1524 | inf           | 0.3463             | 0.001  |
+| 0.4022        | 23.0  | 10074 | 0.4327          | 0.2085 | 0.1517 | nan           | 0.3621             | 0.0001 |
+| 0.3978        | 24.0  | 10512 | 0.4385          | 0.2092 | 0.1493 | nan           | 0.3583             | 0.0001 |
+| 0.3978        | 25.0  | 10950 | 0.4272          | 0.2074 | 0.1490 | inf           | 0.3649             | 0.0001 |
+| 0.3988        | 26.0  | 11388 | 0.4105          | 0.2075 | 0.1480 | 1.1903        | 0.3644             | 0.0001 |
+| 0.3958        | 27.0  | 11826 | 0.4096          | 0.2067 | 0.1494 | 0.9915        | 0.3688             | 0.0001 |
+| 0.3965        | 28.0  | 12264 | 0.4104          | 0.2075 | 0.1493 | 0.9669        | 0.3681             | 0.0001 |
+| 0.396         | 29.0  | 12702 | 0.4097          | 0.2069 | 0.1469 | 1.0433        | 0.3696             | 0.0001 |
+| 0.3936        | 30.0  | 13140 | 0.4094          | 0.2065 | 0.1490 | 0.9082        | 0.3731             | 0.0001 |
+| 0.3944        | 31.0  | 13578 | 0.4091          | 0.2065 | 0.1470 | 1.0120        | 0.3705             | 0.0001 |
+| 0.3941        | 32.0  | 14016 | 0.4084          | 0.2060 | 0.1483 | 0.9708        | 0.3742             | 0.0001 |
+| 0.3941        | 33.0  | 14454 | 0.4082          | 0.2057 | 0.1474 | 0.9317        | 0.3755             | 0.0001 |
+| 0.3933        | 34.0  | 14892 | 0.4085          | 0.2061 | 0.1481 | 0.9619        | 0.3747             | 0.0001 |
+| 0.3926        | 35.0  | 15330 | 0.4073          | 0.2054 | 0.1466 | 1.0523        | 0.3758             | 0.0001 |
+| 0.3936        | 36.0  | 15768 | 0.4074          | 0.2052 | 0.1460 | 1.0622        | 0.3771             | 0.0001 |
+| 0.3935        | 37.0  | 16206 | 0.4066          | 0.2047 | 0.1456 | 1.0201        | 0.3802             | 0.0001 |
+| 0.3927        | 38.0  | 16644 | 0.4064          | 0.2045 | 0.1459 | 1.0557        | 0.3800             | 0.0001 |
+| 0.392         | 39.0  | 17082 | 0.4078          | 0.2056 | 0.1469 | 1.0055        | 0.3771             | 0.0001 |
+| 0.3915        | 40.0  | 17520 | 0.4068          | 0.2049 | 0.1464 | 0.9849        | 0.3805             | 0.0001 |
+| 0.3915        | 41.0  | 17958 | 0.4089          | 0.2063 | 0.1489 | 0.8999        | 0.3778             | 0.0001 |
+| 0.3907        | 42.0  | 18396 | 0.4069          | 0.2049 | 0.1463 | 1.0617        | 0.3797             | 0.0001 |
+| 0.3919        | 43.0  | 18834 | 0.4058          | 0.2041 | 0.1450 | 1.0520        | 0.3830             | 0.0001 |
+| 0.3902        | 44.0  | 19272 | 0.4071          | 0.2050 | 0.1475 | 1.0054        | 0.3809             | 0.0001 |
+| 0.3896        | 45.0  | 19710 | 0.4067          | 0.2047 | 0.1440 | 1.1386        | 0.3813             | 0.0001 |
+| 0.3925        | 46.0  | 20148 | 0.4067          | 0.2047 | 0.1457 | 1.0253        | 0.3831             | 0.0001 |
+| 0.3896        | 47.0  | 20586 | 0.4062          | 0.2043 | 0.1473 | 1.0430        | 0.3834             | 0.0001 |
+| 0.3902        | 48.0  | 21024 | 0.4065          | 0.2048 | 0.1457 | 1.1041        | 0.3812             | 0.0001 |
+| 0.3902        | 49.0  | 21462 | 0.4071          | 0.2052 | 0.1463 | 1.0702        | 0.3798             | 0.0001 |
+| 0.3897        | 50.0  | 21900 | 0.4064          | 0.2042 | 0.1479 | 0.8917        | 0.3857             | 1e-05  |
+| 0.3875        | 51.0  | 22338 | 0.4058          | 0.2041 | 0.1437 | 0.9960        | 0.3845             | 1e-05  |
+| 0.3874        | 52.0  | 22776 | 0.4053          | 0.2037 | 0.1446 | 1.0567        | 0.3851             | 1e-05  |
+| 0.3899        | 53.0  | 23214 | 0.4056          | 0.2039 | 0.1462 | 1.0205        | 0.3859             | 1e-05  |
+| 0.3892        | 54.0  | 23652 | 0.4059          | 0.2041 | 0.1441 | 0.9905        | 0.3854             | 1e-05  |
+| 0.3892        | 55.0  | 24090 | 0.4061          | 0.2041 | 0.1471 | 0.9379        | 0.3856             | 1e-05  |
+| 0.3869        | 56.0  | 24528 | 0.4059          | 0.2041 | 0.1454 | 0.9696        | 0.3854             | 1e-05  |
+| 0.3869        | 57.0  | 24966 | 0.4058          | 0.2041 | 0.1460 | 1.0591        | 0.3842             | 1e-05  |
+| 0.3874        | 58.0  | 25404 | 0.4063          | 0.2043 | 0.1460 | 0.9276        | 0.3860             | 1e-05  |
+| 0.3887        | 59.0  | 25842 | 0.4056          | 0.2038 | 0.1453 | 0.9794        | 0.3868             | 0.0000 |
+| 0.3882        | 60.0  | 26280 | 0.4057          | 0.2040 | 0.1446 | 1.0349        | 0.3851             | 0.0000 |
+| 0.389         | 61.0  | 26718 | 0.4058          | 0.2041 | 0.1449 | 0.9860        | 0.3857             | 0.0000 |
+| 0.3882        | 62.0  | 27156 | 0.4054          | 0.2037 | 0.1446 | 0.9528        | 0.3865             | 0.0000 |
+### Framework versions
+- Transformers 4.41.0
+- Pytorch 2.5.0+cu124
+- Datasets 3.0.2
+- Tokenizers 0.19.1

all_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
     "epoch": 62.0,
-    "eval_explained_variance": 0.44826042652130127,
-    "eval_kl_divergence": 0.41849657893180847,
-    "eval_loss": 0.4693068563938141,
-    "eval_mae": 0.11716800183057785,
-    "eval_rmse": 0.15763415396213531,
-    "eval_runtime": 70.8809,
-    "eval_samples_per_second": 33.253,
-    "eval_steps_per_second": 2.088,
-    "learning_rate": 1.0000000000000002e-07,
     "total_flos": 6.42634409963284e+19,
-    "train_loss": 0.466335079458891,
-    "train_runtime": 17194.6751,
-    "train_samples_per_second": 61.092,
-    "train_steps_per_second": 3.821
 }

 {
     "epoch": 62.0,
+    "eval_explained_variance": 0.38597723841667175,
+    "eval_kl_divergence": 0.9802031517028809,
+    "eval_loss": 0.40605100989341736,
+    "eval_mae": 0.1445874720811844,
+    "eval_rmse": 0.2018682211637497,
+    "eval_runtime": 61.1056,
+    "eval_samples_per_second": 38.573,
+    "eval_steps_per_second": 2.422,
+    "learning_rate": 1.0000000000000002e-06,
     "total_flos": 6.42634409963284e+19,
+    "train_loss": 0.3985773164651095,
+    "train_runtime": 16834.9641,
+    "train_samples_per_second": 62.397,
+    "train_steps_per_second": 3.903
 }

logs/events.out.tfevents.1731607061.datavisu2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72264f0fc4d279613f4c668b0e2c37410de44a5ff7887c72102cbccf436418d8
-size 50291

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b78d17ccbe193fb3e7efa694c7335abe32b4b424175235d19d34a204ae5784c
+size 52031

logs/events.out.tfevents.1731624072.datavisu2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b9a76e82fce26948e90638211553f83c99a8ff5929731754be2434210688e4f
+size 40

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b262f1226221e7c2c5a08e8c8c09cef4e400f822c23850ddfddb8cde988f980
 size 1222956704

 version https://git-lfs.github.com/spec/v1
+oid sha256:25b4e914eff7c60cd1a3ff535322cf77a16ee8e82564b50a87aafed111ab96d8
 size 1222956704

test_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 62.0,
-    "eval_explained_variance": 0.44826042652130127,
-    "eval_kl_divergence": 0.41849657893180847,
-    "eval_loss": 0.4693068563938141,
-    "eval_mae": 0.11716800183057785,
-    "eval_rmse": 0.15763415396213531,
-    "eval_runtime": 70.8809,
-    "eval_samples_per_second": 33.253,
-    "eval_steps_per_second": 2.088,
-    "learning_rate": 1.0000000000000002e-07
 }

 {
     "epoch": 62.0,
+    "eval_explained_variance": 0.38597723841667175,
+    "eval_kl_divergence": 0.9802031517028809,
+    "eval_loss": 0.40605100989341736,
+    "eval_mae": 0.1445874720811844,
+    "eval_rmse": 0.2018682211637497,
+    "eval_runtime": 61.1056,
+    "eval_samples_per_second": 38.573,
+    "eval_steps_per_second": 2.422,
+    "learning_rate": 1.0000000000000002e-06
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 62.0,
-    "learning_rate": 1.0000000000000002e-07,
     "total_flos": 6.42634409963284e+19,
-    "train_loss": 0.466335079458891,
-    "train_runtime": 17194.6751,
-    "train_samples_per_second": 61.092,
-    "train_steps_per_second": 3.821
 }

 {
     "epoch": 62.0,
+    "learning_rate": 1.0000000000000002e-06,
     "total_flos": 6.42634409963284e+19,
+    "train_loss": 0.3985773164651095,
+    "train_runtime": 16834.9641,
+    "train_samples_per_second": 62.397,
+    "train_steps_per_second": 3.903
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.466439425945282,
   "best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/drone/drone-DinoVdeau-from-binary-large-2024_11_14-batch-size16_freeze_probs/checkpoint-22776",
   "epoch": 62.0,
   "eval_steps": 500,
@@ -10,1197 +10,1197 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_explained_variance": 0.3631434440612793,
-      "eval_kl_divergence": 0.421912282705307,
-      "eval_loss": 0.4821413457393646,
-      "eval_mae": 0.13084472715854645,
-      "eval_rmse": 0.173090398311615,
-      "eval_runtime": 64.2475,
-      "eval_samples_per_second": 36.64,
-      "eval_steps_per_second": 2.304,
       "learning_rate": 0.001,
       "step": 438
     },
     {
       "epoch": 1.1415525114155252,
-      "grad_norm": 0.4757365882396698,
       "learning_rate": 0.001,
-      "loss": 0.5317,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_explained_variance": 0.3752269744873047,
-      "eval_kl_divergence": 0.6148446202278137,
-      "eval_loss": 0.4784533977508545,
-      "eval_mae": 0.12629373371601105,
-      "eval_rmse": 0.17098082602024078,
-      "eval_runtime": 63.6833,
-      "eval_samples_per_second": 36.964,
-      "eval_steps_per_second": 2.324,
       "learning_rate": 0.001,
       "step": 876
     },
     {
       "epoch": 2.2831050228310503,
-      "grad_norm": 0.4254082143306732,
       "learning_rate": 0.001,
-      "loss": 0.4832,
       "step": 1000
     },
     {
       "epoch": 3.0,
-      "eval_explained_variance": 0.3838556706905365,
-      "eval_kl_divergence": 0.48802560567855835,
-      "eval_loss": 0.47776785492897034,
-      "eval_mae": 0.12731628119945526,
-      "eval_rmse": 0.16985835134983063,
-      "eval_runtime": 62.637,
-      "eval_samples_per_second": 37.582,
-      "eval_steps_per_second": 2.363,
       "learning_rate": 0.001,
       "step": 1314
     },
     {
       "epoch": 3.4246575342465753,
-      "grad_norm": 0.2670271098613739,
       "learning_rate": 0.001,
-      "loss": 0.4791,
       "step": 1500
     },
     {
       "epoch": 4.0,
-      "eval_explained_variance": 0.38376739621162415,
-      "eval_kl_divergence": 0.3418101370334625,
-      "eval_loss": 0.4793245792388916,
-      "eval_mae": 0.12901858985424042,
-      "eval_rmse": 0.171015664935112,
-      "eval_runtime": 62.2828,
-      "eval_samples_per_second": 37.795,
-      "eval_steps_per_second": 2.376,
       "learning_rate": 0.001,
       "step": 1752
     },
     {
       "epoch": 4.566210045662101,
-      "grad_norm": 0.20498104393482208,
       "learning_rate": 0.001,
-      "loss": 0.4771,
       "step": 2000
     },
     {
       "epoch": 5.0,
-      "eval_explained_variance": 0.40547776222229004,
-      "eval_kl_divergence": 0.34562820196151733,
-      "eval_loss": 0.47521594166755676,
-      "eval_mae": 0.12799377739429474,
-      "eval_rmse": 0.16736441850662231,
-      "eval_runtime": 62.7606,
-      "eval_samples_per_second": 37.508,
-      "eval_steps_per_second": 2.358,
       "learning_rate": 0.001,
       "step": 2190
     },
     {
       "epoch": 5.707762557077626,
-      "grad_norm": 0.24335043132305145,
       "learning_rate": 0.001,
-      "loss": 0.4752,
       "step": 2500
     },
     {
       "epoch": 6.0,
-      "eval_explained_variance": 0.3849389851093292,
-      "eval_kl_divergence": 0.6402714848518372,
-      "eval_loss": 0.478865385055542,
-      "eval_mae": 0.12540282309055328,
-      "eval_rmse": 0.17068879306316376,
-      "eval_runtime": 63.4836,
-      "eval_samples_per_second": 37.08,
-      "eval_steps_per_second": 2.331,
       "learning_rate": 0.001,
       "step": 2628
     },
     {
       "epoch": 6.8493150684931505,
-      "grad_norm": 0.18768365681171417,
       "learning_rate": 0.001,
-      "loss": 0.4752,
       "step": 3000
     },
     {
       "epoch": 7.0,
-      "eval_explained_variance": 0.3788411617279053,
-      "eval_kl_divergence": 0.5491646528244019,
-      "eval_loss": 0.4779475927352905,
-      "eval_mae": 0.12878474593162537,
-      "eval_rmse": 0.17091502249240875,
-      "eval_runtime": 63.4904,
-      "eval_samples_per_second": 37.076,
-      "eval_steps_per_second": 2.331,
       "learning_rate": 0.001,
       "step": 3066
     },
     {
       "epoch": 7.9908675799086755,
-      "grad_norm": 0.1587909311056137,
       "learning_rate": 0.001,
-      "loss": 0.4735,
       "step": 3500
     },
     {
       "epoch": 8.0,
-      "eval_explained_variance": 0.40857037901878357,
-      "eval_kl_divergence": 0.33827269077301025,
-      "eval_loss": 0.4756968021392822,
-      "eval_mae": 0.12695902585983276,
-      "eval_rmse": 0.16784566640853882,
-      "eval_runtime": 64.8792,
-      "eval_samples_per_second": 36.283,
-      "eval_steps_per_second": 2.281,
       "learning_rate": 0.001,
       "step": 3504
     },
     {
       "epoch": 9.0,
-      "eval_explained_variance": 0.4111548960208893,
-      "eval_kl_divergence": 0.5417521595954895,
-      "eval_loss": 0.4731782376766205,
-      "eval_mae": 0.12311580032110214,
-      "eval_rmse": 0.1657222956418991,
-      "eval_runtime": 61.0673,
-      "eval_samples_per_second": 38.548,
-      "eval_steps_per_second": 2.424,
       "learning_rate": 0.001,
       "step": 3942
     },
     {
       "epoch": 9.132420091324201,
-      "grad_norm": 0.1892658919095993,
       "learning_rate": 0.001,
-      "loss": 0.4719,
       "step": 4000
     },
     {
       "epoch": 10.0,
-      "eval_explained_variance": 0.4006313979625702,
-      "eval_kl_divergence": 0.15472176671028137,
-      "eval_loss": 0.4799855649471283,
-      "eval_mae": 0.1320570707321167,
-      "eval_rmse": 0.1722680777311325,
-      "eval_runtime": 62.7974,
-      "eval_samples_per_second": 37.486,
-      "eval_steps_per_second": 2.357,
       "learning_rate": 0.001,
       "step": 4380
     },
     {
       "epoch": 10.273972602739725,
-      "grad_norm": 0.20271532237529755,
       "learning_rate": 0.001,
-      "loss": 0.4727,
       "step": 4500
     },
     {
       "epoch": 11.0,
-      "eval_explained_variance": 0.41580215096473694,
-      "eval_kl_divergence": 0.3436921238899231,
-      "eval_loss": 0.4731641411781311,
-      "eval_mae": 0.12562014162540436,
-      "eval_rmse": 0.16564464569091797,
-      "eval_runtime": 62.757,
-      "eval_samples_per_second": 37.51,
-      "eval_steps_per_second": 2.358,
       "learning_rate": 0.001,
       "step": 4818
     },
     {
       "epoch": 11.415525114155251,
-      "grad_norm": 0.15571434795856476,
       "learning_rate": 0.001,
-      "loss": 0.4723,
       "step": 5000
     },
     {
       "epoch": 12.0,
-      "eval_explained_variance": 0.401115745306015,
-      "eval_kl_divergence": 0.2946830093860626,
-      "eval_loss": 0.47767141461372375,
-      "eval_mae": 0.12927968800067902,
-      "eval_rmse": 0.17007046937942505,
-      "eval_runtime": 62.3684,
-      "eval_samples_per_second": 37.743,
-      "eval_steps_per_second": 2.373,
       "learning_rate": 0.001,
       "step": 5256
     },
     {
       "epoch": 12.557077625570777,
-      "grad_norm": 0.16043365001678467,
       "learning_rate": 0.001,
-      "loss": 0.4735,
       "step": 5500
     },
     {
       "epoch": 13.0,
-      "eval_explained_variance": 0.39704158902168274,
-      "eval_kl_divergence": 0.6136478781700134,
-      "eval_loss": 0.48009705543518066,
-      "eval_mae": 0.12475714087486267,
-      "eval_rmse": 0.16773907840251923,
-      "eval_runtime": 64.7917,
-      "eval_samples_per_second": 36.332,
-      "eval_steps_per_second": 2.284,
       "learning_rate": 0.001,
       "step": 5694
     },
     {
       "epoch": 13.698630136986301,
-      "grad_norm": 0.13616104423999786,
       "learning_rate": 0.001,
-      "loss": 0.4728,
       "step": 6000
     },
     {
       "epoch": 14.0,
-      "eval_explained_variance": 0.40355002880096436,
-      "eval_kl_divergence": Infinity,
-      "eval_loss": 0.4954195022583008,
-      "eval_mae": 0.12534154951572418,
-      "eval_rmse": 0.16692323982715607,
-      "eval_runtime": 62.1801,
-      "eval_samples_per_second": 37.858,
-      "eval_steps_per_second": 2.38,
       "learning_rate": 0.001,
       "step": 6132
     },
     {
       "epoch": 14.840182648401827,
-      "grad_norm": 0.12133222818374634,
       "learning_rate": 0.001,
-      "loss": 0.4713,
       "step": 6500
     },
     {
       "epoch": 15.0,
-      "eval_explained_variance": 0.4051372706890106,
-      "eval_kl_divergence": Infinity,
-      "eval_loss": 0.4812238812446594,
-      "eval_mae": 0.12540575861930847,
-      "eval_rmse": 0.16624794900417328,
-      "eval_runtime": 61.3206,
-      "eval_samples_per_second": 38.388,
-      "eval_steps_per_second": 2.414,
       "learning_rate": 0.001,
       "step": 6570
     },
     {
       "epoch": 15.981735159817351,
-      "grad_norm": 0.11760278791189194,
-      "learning_rate": 0.0001,
-      "loss": 0.4706,
       "step": 7000
     },
     {
       "epoch": 16.0,
-      "eval_explained_variance": 0.41243478655815125,
-      "eval_kl_divergence": Infinity,
-      "eval_loss": 0.4858487546443939,
-      "eval_mae": 0.12432911992073059,
-      "eval_rmse": 0.16562338173389435,
-      "eval_runtime": 61.1501,
-      "eval_samples_per_second": 38.495,
-      "eval_steps_per_second": 2.42,
-      "learning_rate": 0.0001,
       "step": 7008
     },
     {
       "epoch": 17.0,
-      "eval_explained_variance": 0.4291960895061493,
-      "eval_kl_divergence": 0.41650328040122986,
-      "eval_loss": 0.47084349393844604,
-      "eval_mae": 0.12233477830886841,
-      "eval_rmse": 0.162751242518425,
-      "eval_runtime": 60.5736,
-      "eval_samples_per_second": 38.862,
-      "eval_steps_per_second": 2.443,
-      "learning_rate": 0.0001,
       "step": 7446
     },
     {
       "epoch": 17.123287671232877,
-      "grad_norm": 0.13284093141555786,
-      "learning_rate": 0.0001,
-      "loss": 0.4672,
       "step": 7500
     },
     {
       "epoch": 18.0,
-      "eval_explained_variance": 0.43114474415779114,
-      "eval_kl_divergence": 0.4066373407840729,
-      "eval_loss": 0.4707622528076172,
-      "eval_mae": 0.12164173275232315,
-      "eval_rmse": 0.16261519491672516,
-      "eval_runtime": 63.1248,
-      "eval_samples_per_second": 37.291,
-      "eval_steps_per_second": 2.345,
-      "learning_rate": 0.0001,
       "step": 7884
     },
     {
       "epoch": 18.264840182648403,
-      "grad_norm": 0.11859569698572159,
-      "learning_rate": 0.0001,
-      "loss": 0.4659,
       "step": 8000
     },
     {
       "epoch": 19.0,
-      "eval_explained_variance": 0.4342735707759857,
-      "eval_kl_divergence": 0.31854644417762756,
-      "eval_loss": 0.47095733880996704,
-      "eval_mae": 0.12272538989782333,
-      "eval_rmse": 0.16323107481002808,
-      "eval_runtime": 61.7089,
-      "eval_samples_per_second": 38.147,
-      "eval_steps_per_second": 2.398,
-      "learning_rate": 0.0001,
       "step": 8322
     },
     {
       "epoch": 19.40639269406393,
-      "grad_norm": 0.16951066255569458,
-      "learning_rate": 0.0001,
-      "loss": 0.4653,
       "step": 8500
     },
     {
       "epoch": 20.0,
-      "eval_explained_variance": 0.43487218022346497,
-      "eval_kl_divergence": 0.465139240026474,
-      "eval_loss": 0.4696938395500183,
-      "eval_mae": 0.12050192803144455,
-      "eval_rmse": 0.1620241105556488,
-      "eval_runtime": 61.0162,
-      "eval_samples_per_second": 38.58,
-      "eval_steps_per_second": 2.426,
-      "learning_rate": 0.0001,
       "step": 8760
     },
     {
       "epoch": 20.54794520547945,
-      "grad_norm": 0.167369082570076,
-      "learning_rate": 0.0001,
-      "loss": 0.4653,
       "step": 9000
     },
     {
       "epoch": 21.0,
-      "eval_explained_variance": 0.4389828145503998,
-      "eval_kl_divergence": 0.3772728741168976,
-      "eval_loss": 0.46922874450683594,
-      "eval_mae": 0.12155676633119583,
-      "eval_rmse": 0.16139467060565948,
-      "eval_runtime": 62.17,
-      "eval_samples_per_second": 37.864,
-      "eval_steps_per_second": 2.381,
-      "learning_rate": 0.0001,
       "step": 9198
     },
     {
       "epoch": 21.689497716894977,
-      "grad_norm": 0.1247042864561081,
-      "learning_rate": 0.0001,
-      "loss": 0.4659,
       "step": 9500
     },
     {
       "epoch": 22.0,
-      "eval_explained_variance": 0.43975934386253357,
-      "eval_kl_divergence": 0.4611187279224396,
-      "eval_loss": 0.4685634672641754,
-      "eval_mae": 0.1203194335103035,
-      "eval_rmse": 0.16088876128196716,
-      "eval_runtime": 62.0052,
-      "eval_samples_per_second": 37.965,
-      "eval_steps_per_second": 2.387,
-      "learning_rate": 0.0001,
       "step": 9636
     },
     {
       "epoch": 22.831050228310502,
-      "grad_norm": 0.16208066046237946,
       "learning_rate": 0.0001,
-      "loss": 0.465,
       "step": 10000
     },
     {
       "epoch": 23.0,
-      "eval_explained_variance": 0.44279029965400696,
-      "eval_kl_divergence": 0.24986685812473297,
-      "eval_loss": 0.47018975019454956,
-      "eval_mae": 0.12256480008363724,
-      "eval_rmse": 0.16208301484584808,
-      "eval_runtime": 61.6543,
-      "eval_samples_per_second": 38.181,
-      "eval_steps_per_second": 2.4,
       "learning_rate": 0.0001,
       "step": 10074
     },
     {
       "epoch": 23.972602739726028,
-      "grad_norm": 0.17417912185192108,
       "learning_rate": 0.0001,
-      "loss": 0.4633,
       "step": 10500
     },
     {
       "epoch": 24.0,
-      "eval_explained_variance": 0.4367590844631195,
-      "eval_kl_divergence": 0.3702172040939331,
-      "eval_loss": 0.4705464243888855,
-      "eval_mae": 0.12131566554307938,
-      "eval_rmse": 0.16277877986431122,
-      "eval_runtime": 62.8273,
-      "eval_samples_per_second": 37.468,
-      "eval_steps_per_second": 2.356,
       "learning_rate": 0.0001,
       "step": 10512
     },
     {
       "epoch": 25.0,
-      "eval_explained_variance": 0.4433206617832184,
-      "eval_kl_divergence": 0.5132729411125183,
-      "eval_loss": 0.4678299129009247,
-      "eval_mae": 0.11875440925359726,
-      "eval_rmse": 0.16013289988040924,
-      "eval_runtime": 61.7077,
-      "eval_samples_per_second": 38.148,
-      "eval_steps_per_second": 2.398,
       "learning_rate": 0.0001,
       "step": 10950
     },
     {
       "epoch": 25.114155251141554,
-      "grad_norm": 0.13617579638957977,
       "learning_rate": 0.0001,
-      "loss": 0.4656,
       "step": 11000
     },
     {
       "epoch": 26.0,
-      "eval_explained_variance": 0.4423791468143463,
-      "eval_kl_divergence": 0.5665323138237,
-      "eval_loss": 0.46802961826324463,
-      "eval_mae": 0.117874376475811,
-      "eval_rmse": 0.1604483276605606,
-      "eval_runtime": 61.9639,
-      "eval_samples_per_second": 37.99,
-      "eval_steps_per_second": 2.388,
       "learning_rate": 0.0001,
       "step": 11388
     },
     {
       "epoch": 26.255707762557076,
-      "grad_norm": 0.15818916261196136,
       "learning_rate": 0.0001,
-      "loss": 0.4629,
       "step": 11500
     },
     {
       "epoch": 27.0,
-      "eval_explained_variance": 0.4434410333633423,
-      "eval_kl_divergence": 0.42424070835113525,
-      "eval_loss": 0.4680938124656677,
-      "eval_mae": 0.1199984923005104,
-      "eval_rmse": 0.16038183867931366,
-      "eval_runtime": 62.3144,
-      "eval_samples_per_second": 37.776,
-      "eval_steps_per_second": 2.375,
       "learning_rate": 0.0001,
       "step": 11826
     },
     {
       "epoch": 27.397260273972602,
-      "grad_norm": 0.15971983969211578,
       "learning_rate": 0.0001,
-      "loss": 0.4636,
       "step": 12000
     },
     {
       "epoch": 28.0,
-      "eval_explained_variance": 0.44512465596199036,
-      "eval_kl_divergence": 0.2967982292175293,
-      "eval_loss": 0.4693257212638855,
-      "eval_mae": 0.12149528414011002,
-      "eval_rmse": 0.1616295725107193,
-      "eval_runtime": 66.789,
-      "eval_samples_per_second": 35.245,
-      "eval_steps_per_second": 2.216,
       "learning_rate": 0.0001,
       "step": 12264
     },
     {
       "epoch": 28.538812785388128,
-      "grad_norm": 0.15448875725269318,
       "learning_rate": 0.0001,
-      "loss": 0.4633,
       "step": 12500
     },
     {
       "epoch": 29.0,
-      "eval_explained_variance": 0.4442717730998993,
-      "eval_kl_divergence": 0.3924856185913086,
-      "eval_loss": 0.46847742795944214,
-      "eval_mae": 0.1196620985865593,
-      "eval_rmse": 0.16072382032871246,
-      "eval_runtime": 61.9086,
-      "eval_samples_per_second": 38.024,
-      "eval_steps_per_second": 2.391,
       "learning_rate": 0.0001,
       "step": 12702
     },
     {
       "epoch": 29.680365296803654,
-      "grad_norm": 0.15532433986663818,
       "learning_rate": 0.0001,
-      "loss": 0.4631,
       "step": 13000
     },
     {
       "epoch": 30.0,
-      "eval_explained_variance": 0.4473068416118622,
-      "eval_kl_divergence": 0.2495478093624115,
-      "eval_loss": 0.46944141387939453,
-      "eval_mae": 0.12209376692771912,
-      "eval_rmse": 0.16142255067825317,
-      "eval_runtime": 62.4285,
-      "eval_samples_per_second": 37.707,
-      "eval_steps_per_second": 2.371,
       "learning_rate": 0.0001,
       "step": 13140
     },
     {
       "epoch": 30.82191780821918,
-      "grad_norm": 0.1961052566766739,
       "learning_rate": 0.0001,
-      "loss": 0.463,
       "step": 13500
     },
     {
       "epoch": 31.0,
-      "eval_explained_variance": 0.4445982277393341,
-      "eval_kl_divergence": 0.45099732279777527,
-      "eval_loss": 0.4678958058357239,
-      "eval_mae": 0.11854251474142075,
-      "eval_rmse": 0.16011421382427216,
-      "eval_runtime": 61.3729,
-      "eval_samples_per_second": 38.356,
-      "eval_steps_per_second": 2.411,
       "learning_rate": 0.0001,
       "step": 13578
     },
     {
       "epoch": 31.963470319634702,
-      "grad_norm": 0.3346303701400757,
-      "learning_rate": 1e-05,
-      "loss": 0.4623,
       "step": 14000
     },
     {
       "epoch": 32.0,
-      "eval_explained_variance": 0.4478188455104828,
-      "eval_kl_divergence": 0.3885524570941925,
-      "eval_loss": 0.46778997778892517,
-      "eval_mae": 0.11933697015047073,
-      "eval_rmse": 0.16006481647491455,
-      "eval_runtime": 63.8544,
-      "eval_samples_per_second": 36.865,
-      "eval_steps_per_second": 2.318,
-      "learning_rate": 1e-05,
       "step": 14016
     },
     {
       "epoch": 33.0,
-      "eval_explained_variance": 0.44756200909614563,
-      "eval_kl_divergence": 0.31322383880615234,
-      "eval_loss": 0.4686955511569977,
-      "eval_mae": 0.1201881393790245,
-      "eval_rmse": 0.16055406630039215,
-      "eval_runtime": 62.7334,
-      "eval_samples_per_second": 37.524,
-      "eval_steps_per_second": 2.359,
-      "learning_rate": 1e-05,
       "step": 14454
     },
     {
       "epoch": 33.10502283105023,
-      "grad_norm": 0.21087272465229034,
-      "learning_rate": 1e-05,
-      "loss": 0.4621,
       "step": 14500
     },
     {
       "epoch": 34.0,
-      "eval_explained_variance": 0.4478868544101715,
-      "eval_kl_divergence": 0.3957745432853699,
-      "eval_loss": 0.46784329414367676,
-      "eval_mae": 0.11951460689306259,
-      "eval_rmse": 0.1600986272096634,
-      "eval_runtime": 60.6174,
-      "eval_samples_per_second": 38.834,
-      "eval_steps_per_second": 2.442,
-      "learning_rate": 1e-05,
       "step": 14892
     },
     {
       "epoch": 34.24657534246575,
-      "grad_norm": 0.1875353455543518,
-      "learning_rate": 1e-05,
-      "loss": 0.4607,
       "step": 15000
     },
     {
       "epoch": 35.0,
-      "eval_explained_variance": 0.44849491119384766,
-      "eval_kl_divergence": 0.45786312222480774,
-      "eval_loss": 0.4671097695827484,
-      "eval_mae": 0.11800643056631088,
-      "eval_rmse": 0.15947793424129486,
-      "eval_runtime": 61.7609,
-      "eval_samples_per_second": 38.115,
-      "eval_steps_per_second": 2.396,
-      "learning_rate": 1e-05,
       "step": 15330
     },
     {
       "epoch": 35.38812785388128,
-      "grad_norm": 0.16752338409423828,
-      "learning_rate": 1e-05,
-      "loss": 0.4619,
       "step": 15500
     },
     {
       "epoch": 36.0,
-      "eval_explained_variance": 0.44863569736480713,
-      "eval_kl_divergence": 0.43913933634757996,
-      "eval_loss": 0.46735426783561707,
-      "eval_mae": 0.11842861026525497,
-      "eval_rmse": 0.15950414538383484,
-      "eval_runtime": 64.5571,
-      "eval_samples_per_second": 36.464,
-      "eval_steps_per_second": 2.293,
-      "learning_rate": 1e-05,
       "step": 15768
     },
     {
       "epoch": 36.529680365296805,
-      "grad_norm": 0.15660376846790314,
-      "learning_rate": 1e-05,
-      "loss": 0.4612,
       "step": 16000
     },
     {
       "epoch": 37.0,
-      "eval_explained_variance": 0.44943228363990784,
-      "eval_kl_divergence": 0.36332887411117554,
-      "eval_loss": 0.468018501996994,
-      "eval_mae": 0.11912700533866882,
-      "eval_rmse": 0.16002707183361053,
-      "eval_runtime": 63.2971,
-      "eval_samples_per_second": 37.19,
-      "eval_steps_per_second": 2.338,
-      "learning_rate": 1e-05,
       "step": 16206
     },
     {
       "epoch": 37.67123287671233,
-      "grad_norm": 0.15865331888198853,
-      "learning_rate": 1e-05,
-      "loss": 0.4625,
       "step": 16500
     },
     {
       "epoch": 38.0,
-      "eval_explained_variance": 0.45025742053985596,
-      "eval_kl_divergence": 0.43029093742370605,
-      "eval_loss": 0.46701580286026,
-      "eval_mae": 0.1186341941356659,
-      "eval_rmse": 0.15923398733139038,
-      "eval_runtime": 63.0229,
-      "eval_samples_per_second": 37.351,
-      "eval_steps_per_second": 2.348,
-      "learning_rate": 1e-05,
       "step": 16644
     },
     {
       "epoch": 38.81278538812786,
-      "grad_norm": 0.2913804352283478,
-      "learning_rate": 1e-05,
-      "loss": 0.4608,
       "step": 17000
     },
     {
       "epoch": 39.0,
-      "eval_explained_variance": 0.448851078748703,
-      "eval_kl_divergence": 0.4562166929244995,
-      "eval_loss": 0.4673251509666443,
-      "eval_mae": 0.11870113760232925,
-      "eval_rmse": 0.1596096307039261,
-      "eval_runtime": 63.132,
-      "eval_samples_per_second": 37.287,
-      "eval_steps_per_second": 2.344,
-      "learning_rate": 1e-05,
       "step": 17082
     },
     {
       "epoch": 39.954337899543376,
-      "grad_norm": 0.1813182234764099,
-      "learning_rate": 1e-05,
-      "loss": 0.4614,
       "step": 17500
     },
     {
       "epoch": 40.0,
-      "eval_explained_variance": 0.449774831533432,
-      "eval_kl_divergence": 0.40653547644615173,
-      "eval_loss": 0.4673212468624115,
-      "eval_mae": 0.1188703179359436,
-      "eval_rmse": 0.15939703583717346,
-      "eval_runtime": 65.2215,
-      "eval_samples_per_second": 36.092,
-      "eval_steps_per_second": 2.269,
-      "learning_rate": 1e-05,
       "step": 17520
     },
     {
       "epoch": 41.0,
-      "eval_explained_variance": 0.4507579803466797,
-      "eval_kl_divergence": 0.3335873782634735,
-      "eval_loss": 0.4677547216415405,
-      "eval_mae": 0.12059084326028824,
-      "eval_rmse": 0.159872904419899,
-      "eval_runtime": 65.9882,
-      "eval_samples_per_second": 35.673,
-      "eval_steps_per_second": 2.243,
-      "learning_rate": 1e-05,
       "step": 17958
     },
     {
       "epoch": 41.0958904109589,
-      "grad_norm": 0.1584874391555786,
-      "learning_rate": 1e-05,
-      "loss": 0.4608,
       "step": 18000
     },
     {
       "epoch": 42.0,
-      "eval_explained_variance": 0.4486294686794281,
-      "eval_kl_divergence": 0.5311685800552368,
-      "eval_loss": 0.4671882390975952,
-      "eval_mae": 0.1177595853805542,
-      "eval_rmse": 0.15967120230197906,
-      "eval_runtime": 65.4501,
-      "eval_samples_per_second": 35.966,
-      "eval_steps_per_second": 2.261,
-      "learning_rate": 1e-05,
       "step": 18396
     },
     {
       "epoch": 42.23744292237443,
-      "grad_norm": 0.17140232026576996,
-      "learning_rate": 1e-05,
-      "loss": 0.4615,
       "step": 18500
     },
     {
       "epoch": 43.0,
-      "eval_explained_variance": 0.45157137513160706,
-      "eval_kl_divergence": 0.3923657536506653,
-      "eval_loss": 0.46716412901878357,
-      "eval_mae": 0.1185157299041748,
-      "eval_rmse": 0.1592295914888382,
-      "eval_runtime": 64.3671,
-      "eval_samples_per_second": 36.571,
-      "eval_steps_per_second": 2.299,
-      "learning_rate": 1e-05,
       "step": 18834
     },
     {
       "epoch": 43.37899543378995,
-      "grad_norm": 0.12803754210472107,
-      "learning_rate": 1e-05,
-      "loss": 0.4601,
       "step": 19000
     },
     {
       "epoch": 44.0,
-      "eval_explained_variance": 0.44912728667259216,
-      "eval_kl_divergence": 0.4258858561515808,
-      "eval_loss": 0.4678168296813965,
-      "eval_mae": 0.11944716423749924,
-      "eval_rmse": 0.16020986437797546,
-      "eval_runtime": 65.6519,
-      "eval_samples_per_second": 35.856,
-      "eval_steps_per_second": 2.254,
-      "learning_rate": 1e-05,
       "step": 19272
     },
     {
       "epoch": 44.52054794520548,
-      "grad_norm": 0.12536858022212982,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.4602,
       "step": 19500
     },
     {
       "epoch": 45.0,
-      "eval_explained_variance": 0.4489940404891968,
-      "eval_kl_divergence": 0.5214298367500305,
-      "eval_loss": 0.46699702739715576,
-      "eval_mae": 0.11719372868537903,
-      "eval_rmse": 0.15936775505542755,
-      "eval_runtime": 64.8181,
-      "eval_samples_per_second": 36.317,
-      "eval_steps_per_second": 2.283,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 19710
     },
     {
       "epoch": 45.662100456621005,
-      "grad_norm": 0.12503549456596375,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.4616,
       "step": 20000
     },
     {
       "epoch": 46.0,
-      "eval_explained_variance": 0.45176592469215393,
-      "eval_kl_divergence": 0.4174787700176239,
-      "eval_loss": 0.46712958812713623,
-      "eval_mae": 0.11880326271057129,
-      "eval_rmse": 0.1593877524137497,
-      "eval_runtime": 64.134,
-      "eval_samples_per_second": 36.704,
-      "eval_steps_per_second": 2.308,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 20148
     },
     {
       "epoch": 46.80365296803653,
-      "grad_norm": 0.1746779829263687,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.4602,
       "step": 20500
     },
     {
       "epoch": 47.0,
-      "eval_explained_variance": 0.4524901807308197,
-      "eval_kl_divergence": 0.4446321427822113,
-      "eval_loss": 0.4666382074356079,
-      "eval_mae": 0.11884639412164688,
-      "eval_rmse": 0.15886224806308746,
-      "eval_runtime": 68.911,
-      "eval_samples_per_second": 34.16,
-      "eval_steps_per_second": 2.148,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 20586
     },
     {
       "epoch": 47.945205479452056,
-      "grad_norm": 0.18253998458385468,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.4604,
       "step": 21000
     },
     {
       "epoch": 48.0,
-      "eval_explained_variance": 0.44860827922821045,
-      "eval_kl_divergence": 0.5755118727684021,
-      "eval_loss": 0.46714723110198975,
-      "eval_mae": 0.11802936345338821,
-      "eval_rmse": 0.15972274541854858,
-      "eval_runtime": 68.5695,
-      "eval_samples_per_second": 34.33,
-      "eval_steps_per_second": 2.158,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 21024
     },
     {
       "epoch": 49.0,
-      "eval_explained_variance": 0.4494647979736328,
-      "eval_kl_divergence": 0.4303589463233948,
-      "eval_loss": 0.46758702397346497,
-      "eval_mae": 0.11922705173492432,
-      "eval_rmse": 0.15995512902736664,
-      "eval_runtime": 68.4997,
-      "eval_samples_per_second": 34.365,
-      "eval_steps_per_second": 2.161,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 21462
     },
     {
       "epoch": 49.08675799086758,
-      "grad_norm": 0.1836538463830948,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.4606,
       "step": 21500
     },
     {
       "epoch": 50.0,
-      "eval_explained_variance": 0.4534037411212921,
-      "eval_kl_divergence": 0.33374354243278503,
-      "eval_loss": 0.46752068400382996,
-      "eval_mae": 0.12040751427412033,
-      "eval_rmse": 0.15945331752300262,
-      "eval_runtime": 67.7842,
-      "eval_samples_per_second": 34.728,
-      "eval_steps_per_second": 2.183,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 21900
     },
     {
       "epoch": 50.22831050228311,
-      "grad_norm": 0.18452928960323334,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.4598,
       "step": 22000
     },
     {
       "epoch": 51.0,
-      "eval_explained_variance": 0.4523892402648926,
-      "eval_kl_divergence": 0.395465224981308,
-      "eval_loss": 0.46691644191741943,
-      "eval_mae": 0.11809410899877548,
-      "eval_rmse": 0.1590944528579712,
-      "eval_runtime": 68.2629,
-      "eval_samples_per_second": 34.484,
-      "eval_steps_per_second": 2.168,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 22338
     },
     {
       "epoch": 51.36986301369863,
-      "grad_norm": 0.1816985160112381,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.4602,
       "step": 22500
     },
     {
       "epoch": 52.0,
-      "eval_explained_variance": 0.45300889015197754,
-      "eval_kl_divergence": 0.4761090576648712,
-      "eval_loss": 0.466439425945282,
-      "eval_mae": 0.1174706444144249,
-      "eval_rmse": 0.15875311195850372,
-      "eval_runtime": 68.2396,
-      "eval_samples_per_second": 34.496,
-      "eval_steps_per_second": 2.169,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 22776
     },
     {
       "epoch": 52.51141552511415,
-      "grad_norm": 0.17806819081306458,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.462,
       "step": 23000
     },
     {
       "epoch": 53.0,
-      "eval_explained_variance": 0.45259252190589905,
-      "eval_kl_divergence": 0.43274176120758057,
-      "eval_loss": 0.4667709469795227,
-      "eval_mae": 0.11889918893575668,
-      "eval_rmse": 0.15901200473308563,
-      "eval_runtime": 66.8799,
-      "eval_samples_per_second": 35.197,
-      "eval_steps_per_second": 2.213,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 23214
     },
     {
       "epoch": 53.65296803652968,
-      "grad_norm": 0.18054644763469696,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.4604,
       "step": 23500
     },
     {
       "epoch": 54.0,
-      "eval_explained_variance": 0.4532507658004761,
-      "eval_kl_divergence": 0.3724806606769562,
-      "eval_loss": 0.46701404452323914,
-      "eval_mae": 0.11868719011545181,
-      "eval_rmse": 0.15923155844211578,
-      "eval_runtime": 73.556,
-      "eval_samples_per_second": 32.003,
-      "eval_steps_per_second": 2.012,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 23652
     },
     {
       "epoch": 54.794520547945204,
-      "grad_norm": 0.26471829414367676,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.461,
       "step": 24000
     },
     {
       "epoch": 55.0,
-      "eval_explained_variance": 0.45088374614715576,
-      "eval_kl_divergence": 0.38409897685050964,
-      "eval_loss": 0.467383474111557,
-      "eval_mae": 0.11990005522966385,
-      "eval_rmse": 0.1595049947500229,
-      "eval_runtime": 70.451,
-      "eval_samples_per_second": 33.413,
-      "eval_steps_per_second": 2.101,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 24090
     },
     {
       "epoch": 55.93607305936073,
-      "grad_norm": 0.2783886194229126,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.4599,
       "step": 24500
     },
     {
       "epoch": 56.0,
-      "eval_explained_variance": 0.45115411281585693,
-      "eval_kl_divergence": 0.3821828067302704,
-      "eval_loss": 0.46739572286605835,
-      "eval_mae": 0.11897724121809006,
-      "eval_rmse": 0.15964223444461823,
-      "eval_runtime": 69.6578,
-      "eval_samples_per_second": 33.794,
-      "eval_steps_per_second": 2.125,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 24528
     },
     {
       "epoch": 57.0,
-      "eval_explained_variance": 0.4505263864994049,
-      "eval_kl_divergence": 0.4674541652202606,
-      "eval_loss": 0.46702033281326294,
-      "eval_mae": 0.1185864806175232,
-      "eval_rmse": 0.15932416915893555,
-      "eval_runtime": 67.4689,
-      "eval_samples_per_second": 34.89,
-      "eval_steps_per_second": 2.194,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 24966
     },
     {
       "epoch": 57.077625570776256,
-      "grad_norm": 0.16562320291996002,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.4594,
       "step": 25000
     },
     {
       "epoch": 58.0,
-      "eval_explained_variance": 0.4521506726741791,
-      "eval_kl_divergence": 0.37376847863197327,
-      "eval_loss": 0.46735846996307373,
-      "eval_mae": 0.11891353130340576,
-      "eval_rmse": 0.15956538915634155,
-      "eval_runtime": 68.6492,
-      "eval_samples_per_second": 34.29,
-      "eval_steps_per_second": 2.156,
-      "learning_rate": 1.0000000000000002e-06,
       "step": 25404
     },
     {
       "epoch": 58.21917808219178,
-      "grad_norm": 0.21171259880065918,
-      "learning_rate": 1.0000000000000002e-07,
-      "loss": 0.4613,
       "step": 25500
     },
     {
       "epoch": 59.0,
-      "eval_explained_variance": 0.45357391238212585,
-      "eval_kl_divergence": 0.4204346239566803,
-      "eval_loss": 0.46666717529296875,
-      "eval_mae": 0.11845538765192032,
-      "eval_rmse": 0.1589372605085373,
-      "eval_runtime": 69.2012,
-      "eval_samples_per_second": 34.017,
-      "eval_steps_per_second": 2.139,
-      "learning_rate": 1.0000000000000002e-07,
       "step": 25842
     },
     {
       "epoch": 59.36073059360731,
-      "grad_norm": 0.1960112601518631,
-      "learning_rate": 1.0000000000000002e-07,
-      "loss": 0.4607,
       "step": 26000
     },
     {
       "epoch": 60.0,
-      "eval_explained_variance": 0.4513193368911743,
-      "eval_kl_divergence": 0.45320600271224976,
-      "eval_loss": 0.46685320138931274,
-      "eval_mae": 0.11779770255088806,
-      "eval_rmse": 0.15917657315731049,
-      "eval_runtime": 71.4331,
-      "eval_samples_per_second": 32.954,
-      "eval_steps_per_second": 2.072,
-      "learning_rate": 1.0000000000000002e-07,
       "step": 26280
     },
     {
       "epoch": 60.50228310502283,
-      "grad_norm": 0.2178792506456375,
-      "learning_rate": 1.0000000000000002e-07,
-      "loss": 0.4613,
       "step": 26500
     },
     {
       "epoch": 61.0,
-      "eval_explained_variance": 0.45110437273979187,
-      "eval_kl_divergence": 0.40322577953338623,
-      "eval_loss": 0.46734780073165894,
-      "eval_mae": 0.11893540620803833,
-      "eval_rmse": 0.1595635712146759,
-      "eval_runtime": 69.3534,
-      "eval_samples_per_second": 33.942,
-      "eval_steps_per_second": 2.134,
-      "learning_rate": 1.0000000000000002e-07,
       "step": 26718
     },
     {
       "epoch": 61.64383561643836,
-      "grad_norm": 0.16740958392620087,
-      "learning_rate": 1.0000000000000002e-07,
-      "loss": 0.4598,
       "step": 27000
     },
     {
       "epoch": 62.0,
-      "eval_explained_variance": 0.4526772201061249,
-      "eval_kl_divergence": 0.3406714200973511,
-      "eval_loss": 0.4673011302947998,
-      "eval_mae": 0.11888447403907776,
-      "eval_rmse": 0.1594574898481369,
-      "eval_runtime": 70.4024,
-      "eval_samples_per_second": 33.436,
-      "eval_steps_per_second": 2.102,
-      "learning_rate": 1.0000000000000002e-07,
       "step": 27156
     },
     {
       "epoch": 62.0,
-      "learning_rate": 1.0000000000000002e-07,
       "step": 27156,
       "total_flos": 6.42634409963284e+19,
-      "train_loss": 0.466335079458891,
-      "train_runtime": 17194.6751,
-      "train_samples_per_second": 61.092,
-      "train_steps_per_second": 3.821
     }
   ],
   "logging_steps": 500,

 {
+  "best_metric": 0.40528106689453125,
   "best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/drone/drone-DinoVdeau-from-binary-large-2024_11_14-batch-size16_freeze_probs/checkpoint-22776",
   "epoch": 62.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_explained_variance": 0.2881631553173065,
+      "eval_kl_divergence": 1.006906509399414,
+      "eval_loss": 0.43063807487487793,
+      "eval_mae": 0.16208958625793457,
+      "eval_rmse": 0.22103922069072723,
+      "eval_runtime": 65.2687,
+      "eval_samples_per_second": 36.066,
+      "eval_steps_per_second": 2.268,
       "learning_rate": 0.001,
       "step": 438
     },
     {
       "epoch": 1.1415525114155252,
+      "grad_norm": 0.5616265535354614,
       "learning_rate": 0.001,
+      "loss": 0.4808,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_explained_variance": 0.31177183985710144,
+      "eval_kl_divergence": 1.3118820190429688,
+      "eval_loss": 0.4245865046977997,
+      "eval_mae": 0.15473191440105438,
+      "eval_rmse": 0.21785493195056915,
+      "eval_runtime": 70.2445,
+      "eval_samples_per_second": 33.512,
+      "eval_steps_per_second": 2.107,
       "learning_rate": 0.001,
       "step": 876
     },
     {
       "epoch": 2.2831050228310503,
+      "grad_norm": 0.5421963930130005,
       "learning_rate": 0.001,
+      "loss": 0.421,
       "step": 1000
     },
     {
       "epoch": 3.0,
+      "eval_explained_variance": 0.3191607892513275,
+      "eval_kl_divergence": 1.0982407331466675,
+      "eval_loss": 0.422325998544693,
+      "eval_mae": 0.1554209440946579,
+      "eval_rmse": 0.21583305299282074,
+      "eval_runtime": 63.3078,
+      "eval_samples_per_second": 37.183,
+      "eval_steps_per_second": 2.338,
       "learning_rate": 0.001,
       "step": 1314
     },
     {
       "epoch": 3.4246575342465753,
+      "grad_norm": 0.4156647324562073,
       "learning_rate": 0.001,
+      "loss": 0.4151,
       "step": 1500
     },
     {
       "epoch": 4.0,
+      "eval_explained_variance": 0.3350948095321655,
+      "eval_kl_divergence": 1.041384220123291,
+      "eval_loss": 0.41912660002708435,
+      "eval_mae": 0.15517595410346985,
+      "eval_rmse": 0.21416835486888885,
+      "eval_runtime": 63.7743,
+      "eval_samples_per_second": 36.911,
+      "eval_steps_per_second": 2.321,
       "learning_rate": 0.001,
       "step": 1752
     },
     {
       "epoch": 4.566210045662101,
+      "grad_norm": 0.2765987813472748,
       "learning_rate": 0.001,
+      "loss": 0.4114,
       "step": 2000
     },
     {
       "epoch": 5.0,
+      "eval_explained_variance": 0.33842501044273376,
+      "eval_kl_divergence": 1.0698424577713013,
+      "eval_loss": 0.41713497042655945,
+      "eval_mae": 0.15411676466464996,
+      "eval_rmse": 0.21232052147388458,
+      "eval_runtime": 61.7723,
+      "eval_samples_per_second": 38.108,
+      "eval_steps_per_second": 2.396,
       "learning_rate": 0.001,
       "step": 2190
     },
     {
       "epoch": 5.707762557077626,
+      "grad_norm": 0.34299173951148987,
       "learning_rate": 0.001,
+      "loss": 0.4089,
       "step": 2500
     },
     {
       "epoch": 6.0,
+      "eval_explained_variance": 0.3310842514038086,
+      "eval_kl_divergence": 1.1958788633346558,
+      "eval_loss": 0.42093637585639954,
+      "eval_mae": 0.1519818753004074,
+      "eval_rmse": 0.21403205394744873,
+      "eval_runtime": 61.4619,
+      "eval_samples_per_second": 38.3,
+      "eval_steps_per_second": 2.408,
       "learning_rate": 0.001,
       "step": 2628
     },
     {
       "epoch": 6.8493150684931505,
+      "grad_norm": 0.30921000242233276,
       "learning_rate": 0.001,
+      "loss": 0.4091,
       "step": 3000
     },
     {
       "epoch": 7.0,
+      "eval_explained_variance": 0.33822229504585266,
+      "eval_kl_divergence": 1.1708621978759766,
+      "eval_loss": 0.4166290760040283,
+      "eval_mae": 0.153007373213768,
+      "eval_rmse": 0.21260716021060944,
+      "eval_runtime": 60.3411,
+      "eval_samples_per_second": 39.012,
+      "eval_steps_per_second": 2.453,
       "learning_rate": 0.001,
       "step": 3066
     },
     {
       "epoch": 7.9908675799086755,
+      "grad_norm": 0.21716275811195374,
       "learning_rate": 0.001,
+      "loss": 0.4071,
       "step": 3500
     },
     {
       "epoch": 8.0,
+      "eval_explained_variance": 0.33456894755363464,
+      "eval_kl_divergence": 0.971220850944519,
+      "eval_loss": 0.41946443915367126,
+      "eval_mae": 0.15562371909618378,
+      "eval_rmse": 0.2142825573682785,
+      "eval_runtime": 62.8353,
+      "eval_samples_per_second": 37.463,
+      "eval_steps_per_second": 2.355,
       "learning_rate": 0.001,
       "step": 3504
     },
     {
       "epoch": 9.0,
+      "eval_explained_variance": 0.3415004014968872,
+      "eval_kl_divergence": 1.1432474851608276,
+      "eval_loss": 0.41668570041656494,
+      "eval_mae": 0.1524006426334381,
+      "eval_rmse": 0.21208135783672333,
+      "eval_runtime": 62.325,
+      "eval_samples_per_second": 37.77,
+      "eval_steps_per_second": 2.375,
       "learning_rate": 0.001,
       "step": 3942
     },
     {
       "epoch": 9.132420091324201,
+      "grad_norm": 0.2371012270450592,
       "learning_rate": 0.001,
+      "loss": 0.4062,
       "step": 4000
     },
     {
       "epoch": 10.0,
+      "eval_explained_variance": 0.34203192591667175,
+      "eval_kl_divergence": 0.9120630025863647,
+      "eval_loss": 0.4186115860939026,
+      "eval_mae": 0.15351708233356476,
+      "eval_rmse": 0.2138604372739792,
+      "eval_runtime": 60.5397,
+      "eval_samples_per_second": 38.884,
+      "eval_steps_per_second": 2.445,
       "learning_rate": 0.001,
       "step": 4380
     },
     {
       "epoch": 10.273972602739725,
+      "grad_norm": 0.2552158236503601,
       "learning_rate": 0.001,
+      "loss": 0.4052,
       "step": 4500
     },
     {
       "epoch": 11.0,
+      "eval_explained_variance": 0.34416234493255615,
+      "eval_kl_divergence": 0.995019793510437,
+      "eval_loss": 0.41557687520980835,
+      "eval_mae": 0.15356659889221191,
+      "eval_rmse": 0.2114415019750595,
+      "eval_runtime": 61.7293,
+      "eval_samples_per_second": 38.134,
+      "eval_steps_per_second": 2.398,
       "learning_rate": 0.001,
       "step": 4818
     },
     {
       "epoch": 11.415525114155251,
+      "grad_norm": 0.20953956246376038,
       "learning_rate": 0.001,
+      "loss": 0.406,
       "step": 5000
     },
     {
       "epoch": 12.0,
+      "eval_explained_variance": 0.3389909565448761,
+      "eval_kl_divergence": 1.0105773210525513,
+      "eval_loss": 0.41883811354637146,
+      "eval_mae": 0.1555173546075821,
+      "eval_rmse": 0.21388684213161469,
+      "eval_runtime": 62.5745,
+      "eval_samples_per_second": 37.619,
+      "eval_steps_per_second": 2.365,
       "learning_rate": 0.001,
       "step": 5256
     },
     {
       "epoch": 12.557077625570777,
+      "grad_norm": 0.18659397959709167,
       "learning_rate": 0.001,
+      "loss": 0.4058,
       "step": 5500
     },
     {
       "epoch": 13.0,
+      "eval_explained_variance": 0.34248629212379456,
+      "eval_kl_divergence": 1.1481796503067017,
+      "eval_loss": 0.41630858182907104,
+      "eval_mae": 0.15531976521015167,
+      "eval_rmse": 0.21213315427303314,
+      "eval_runtime": 61.6003,
+      "eval_samples_per_second": 38.214,
+      "eval_steps_per_second": 2.403,
       "learning_rate": 0.001,
       "step": 5694
     },
     {
       "epoch": 13.698630136986301,
+      "grad_norm": 0.19523686170578003,
       "learning_rate": 0.001,
+      "loss": 0.4056,
       "step": 6000
     },
     {
       "epoch": 14.0,
+      "eval_explained_variance": 0.3286344110965729,
+      "eval_kl_divergence": 1.211091160774231,
+      "eval_loss": 0.4193180799484253,
+      "eval_mae": 0.15458153188228607,
+      "eval_rmse": 0.21381880342960358,
+      "eval_runtime": 62.0339,
+      "eval_samples_per_second": 37.947,
+      "eval_steps_per_second": 2.386,
       "learning_rate": 0.001,
       "step": 6132
     },
     {
       "epoch": 14.840182648401827,
+      "grad_norm": 0.18541939556598663,
       "learning_rate": 0.001,
+      "loss": 0.4033,
       "step": 6500
     },
     {
       "epoch": 15.0,
+      "eval_explained_variance": 0.3402325212955475,
+      "eval_kl_divergence": 1.2042615413665771,
+      "eval_loss": 0.416218638420105,
+      "eval_mae": 0.15419499576091766,
+      "eval_rmse": 0.2121332883834839,
+      "eval_runtime": 62.9591,
+      "eval_samples_per_second": 37.389,
+      "eval_steps_per_second": 2.351,
       "learning_rate": 0.001,
       "step": 6570
     },
     {
       "epoch": 15.981735159817351,
+      "grad_norm": 0.16085268557071686,
+      "learning_rate": 0.001,
+      "loss": 0.4057,
       "step": 7000
     },
     {
       "epoch": 16.0,
+      "eval_explained_variance": 0.35001620650291443,
+      "eval_kl_divergence": 1.0827727317810059,
+      "eval_loss": 0.41389620304107666,
+      "eval_mae": 0.1527981460094452,
+      "eval_rmse": 0.21022744476795197,
+      "eval_runtime": 62.4108,
+      "eval_samples_per_second": 37.718,
+      "eval_steps_per_second": 2.371,
+      "learning_rate": 0.001,
       "step": 7008
     },
     {
       "epoch": 17.0,
+      "eval_explained_variance": 0.3429690897464752,
+      "eval_kl_divergence": 1.0005594491958618,
+      "eval_loss": 0.4171081781387329,
+      "eval_mae": 0.15638333559036255,
+      "eval_rmse": 0.21180683374404907,
+      "eval_runtime": 63.4048,
+      "eval_samples_per_second": 37.127,
+      "eval_steps_per_second": 2.334,
+      "learning_rate": 0.001,
       "step": 7446
     },
     {
       "epoch": 17.123287671232877,
+      "grad_norm": 0.17030780017375946,
+      "learning_rate": 0.001,
+      "loss": 0.405,
       "step": 7500
     },
     {
       "epoch": 18.0,
+      "eval_explained_variance": 0.3499327600002289,
+      "eval_kl_divergence": 1.0514436960220337,
+      "eval_loss": 0.4146382212638855,
+      "eval_mae": 0.1507440060377121,
+      "eval_rmse": 0.2107054442167282,
+      "eval_runtime": 64.4758,
+      "eval_samples_per_second": 36.51,
+      "eval_steps_per_second": 2.295,
+      "learning_rate": 0.001,
       "step": 7884
     },
     {
       "epoch": 18.264840182648403,
+      "grad_norm": 0.16620762646198273,
+      "learning_rate": 0.001,
+      "loss": 0.4035,
       "step": 8000
     },
     {
       "epoch": 19.0,
+      "eval_explained_variance": 0.3467938005924225,
+      "eval_kl_divergence": 0.9575299024581909,
+      "eval_loss": 0.41857486963272095,
+      "eval_mae": 0.1531781703233719,
+      "eval_rmse": 0.21135376393795013,
+      "eval_runtime": 65.1272,
+      "eval_samples_per_second": 36.145,
+      "eval_steps_per_second": 2.272,
+      "learning_rate": 0.001,
       "step": 8322
     },
     {
       "epoch": 19.40639269406393,
+      "grad_norm": 0.21431417763233185,
+      "learning_rate": 0.001,
+      "loss": 0.4031,
       "step": 8500
     },
     {
       "epoch": 20.0,
+      "eval_explained_variance": 0.34868308901786804,
+      "eval_kl_divergence": 1.164780855178833,
+      "eval_loss": 0.41434723138809204,
+      "eval_mae": 0.15129883587360382,
+      "eval_rmse": 0.21083922684192657,
+      "eval_runtime": 62.809,
+      "eval_samples_per_second": 37.479,
+      "eval_steps_per_second": 2.356,
+      "learning_rate": 0.001,
       "step": 8760
     },
     {
       "epoch": 20.54794520547945,
+      "grad_norm": 0.16674350202083588,
+      "learning_rate": 0.001,
+      "loss": 0.4048,
       "step": 9000
     },
     {
       "epoch": 21.0,
+      "eval_explained_variance": 0.3385157585144043,
+      "eval_kl_divergence": 1.2949873208999634,
+      "eval_loss": 0.4195358157157898,
+      "eval_mae": 0.15333952009677887,
+      "eval_rmse": 0.21233241260051727,
+      "eval_runtime": 62.2788,
+      "eval_samples_per_second": 37.798,
+      "eval_steps_per_second": 2.376,
+      "learning_rate": 0.001,
       "step": 9198
     },
     {
       "epoch": 21.689497716894977,
+      "grad_norm": 0.2121485322713852,
+      "learning_rate": 0.001,
+      "loss": 0.4055,
       "step": 9500
     },
     {
       "epoch": 22.0,
+      "eval_explained_variance": 0.34627434611320496,
+      "eval_kl_divergence": Infinity,
+      "eval_loss": 0.4339658319950104,
+      "eval_mae": 0.15240180492401123,
+      "eval_rmse": 0.21100641787052155,
+      "eval_runtime": 63.2767,
+      "eval_samples_per_second": 37.202,
+      "eval_steps_per_second": 2.339,
+      "learning_rate": 0.001,
       "step": 9636
     },
     {
       "epoch": 22.831050228310502,
+      "grad_norm": 0.17502234876155853,
       "learning_rate": 0.0001,
+      "loss": 0.4022,
       "step": 10000
     },
     {
       "epoch": 23.0,
+      "eval_explained_variance": 0.362075537443161,
+      "eval_kl_divergence": NaN,
+      "eval_loss": 0.43265336751937866,
+      "eval_mae": 0.1517171412706375,
+      "eval_rmse": 0.2084527164697647,
+      "eval_runtime": 61.7803,
+      "eval_samples_per_second": 38.103,
+      "eval_steps_per_second": 2.396,
       "learning_rate": 0.0001,
       "step": 10074
     },
     {
       "epoch": 23.972602739726028,
+      "grad_norm": 0.20596392452716827,
       "learning_rate": 0.0001,
+      "loss": 0.3978,
       "step": 10500
     },
     {
       "epoch": 24.0,
+      "eval_explained_variance": 0.3582542836666107,
+      "eval_kl_divergence": NaN,
+      "eval_loss": 0.4384593963623047,
+      "eval_mae": 0.14925144612789154,
+      "eval_rmse": 0.20924808084964752,
+      "eval_runtime": 62.266,
+      "eval_samples_per_second": 37.806,
+      "eval_steps_per_second": 2.377,
       "learning_rate": 0.0001,
       "step": 10512
     },
     {
       "epoch": 25.0,
+      "eval_explained_variance": 0.3649435043334961,
+      "eval_kl_divergence": Infinity,
+      "eval_loss": 0.4271779954433441,
+      "eval_mae": 0.14897416532039642,
+      "eval_rmse": 0.20736177265644073,
+      "eval_runtime": 63.0259,
+      "eval_samples_per_second": 37.35,
+      "eval_steps_per_second": 2.348,
       "learning_rate": 0.0001,
       "step": 10950
     },
     {
       "epoch": 25.114155251141554,
+      "grad_norm": 0.14978627860546112,
       "learning_rate": 0.0001,
+      "loss": 0.3988,
       "step": 11000
     },
     {
       "epoch": 26.0,
+      "eval_explained_variance": 0.36444517970085144,
+      "eval_kl_divergence": 1.1902661323547363,
+      "eval_loss": 0.41048941016197205,
+      "eval_mae": 0.148028165102005,
+      "eval_rmse": 0.20754428207874298,
+      "eval_runtime": 62.2088,
+      "eval_samples_per_second": 37.84,
+      "eval_steps_per_second": 2.379,
       "learning_rate": 0.0001,
       "step": 11388
     },
     {
       "epoch": 26.255707762557076,
+      "grad_norm": 0.13278695940971375,
       "learning_rate": 0.0001,
+      "loss": 0.3958,
       "step": 11500
     },
     {
       "epoch": 27.0,
+      "eval_explained_variance": 0.3687790632247925,
+      "eval_kl_divergence": 0.9915334582328796,
+      "eval_loss": 0.4096038341522217,
+      "eval_mae": 0.1493707150220871,
+      "eval_rmse": 0.20674215257167816,
+      "eval_runtime": 63.9932,
+      "eval_samples_per_second": 36.785,
+      "eval_steps_per_second": 2.313,
       "learning_rate": 0.0001,
       "step": 11826
     },
     {
       "epoch": 27.397260273972602,
+      "grad_norm": 0.16862636804580688,
       "learning_rate": 0.0001,
+      "loss": 0.3965,
       "step": 12000
     },
     {
       "epoch": 28.0,
+      "eval_explained_variance": 0.3680773675441742,
+      "eval_kl_divergence": 0.9668822288513184,
+      "eval_loss": 0.4104350507259369,
+      "eval_mae": 0.1493188589811325,
+      "eval_rmse": 0.20746104419231415,
+      "eval_runtime": 64.0647,
+      "eval_samples_per_second": 36.744,
+      "eval_steps_per_second": 2.31,
       "learning_rate": 0.0001,
       "step": 12264
     },
     {
       "epoch": 28.538812785388128,
+      "grad_norm": 0.16052192449569702,
       "learning_rate": 0.0001,
+      "loss": 0.396,
       "step": 12500
     },
     {
       "epoch": 29.0,
+      "eval_explained_variance": 0.3695773184299469,
+      "eval_kl_divergence": 1.0432541370391846,
+      "eval_loss": 0.40966179966926575,
+      "eval_mae": 0.1468651443719864,
+      "eval_rmse": 0.20694835484027863,
+      "eval_runtime": 63.2767,
+      "eval_samples_per_second": 37.202,
+      "eval_steps_per_second": 2.339,
       "learning_rate": 0.0001,
       "step": 12702
     },
     {
       "epoch": 29.680365296803654,
+      "grad_norm": 0.14418508112430573,
       "learning_rate": 0.0001,
+      "loss": 0.3936,
       "step": 13000
     },
     {
       "epoch": 30.0,
+      "eval_explained_variance": 0.373136430978775,
+      "eval_kl_divergence": 0.908222496509552,
+      "eval_loss": 0.4094092547893524,
+      "eval_mae": 0.14899054169654846,
+      "eval_rmse": 0.20645444095134735,
+      "eval_runtime": 62.5038,
+      "eval_samples_per_second": 37.662,
+      "eval_steps_per_second": 2.368,
       "learning_rate": 0.0001,
       "step": 13140
     },
     {
       "epoch": 30.82191780821918,
+      "grad_norm": 0.19649599492549896,
       "learning_rate": 0.0001,
+      "loss": 0.3944,
       "step": 13500
     },
     {
       "epoch": 31.0,
+      "eval_explained_variance": 0.3705109655857086,
+      "eval_kl_divergence": 1.0120004415512085,
+      "eval_loss": 0.40909385681152344,
+      "eval_mae": 0.14699043333530426,
+      "eval_rmse": 0.20654882490634918,
+      "eval_runtime": 63.2971,
+      "eval_samples_per_second": 37.19,
+      "eval_steps_per_second": 2.338,
       "learning_rate": 0.0001,
       "step": 13578
     },
     {
       "epoch": 31.963470319634702,
+      "grad_norm": 0.228424534201622,
+      "learning_rate": 0.0001,
+      "loss": 0.3941,
       "step": 14000
     },
     {
       "epoch": 32.0,
+      "eval_explained_variance": 0.37417080998420715,
+      "eval_kl_divergence": 0.9708234071731567,
+      "eval_loss": 0.4084269404411316,
+      "eval_mae": 0.14826728403568268,
+      "eval_rmse": 0.2059999257326126,
+      "eval_runtime": 64.3761,
+      "eval_samples_per_second": 36.566,
+      "eval_steps_per_second": 2.299,
+      "learning_rate": 0.0001,
       "step": 14016
     },
     {
       "epoch": 33.0,
+      "eval_explained_variance": 0.37551748752593994,
+      "eval_kl_divergence": 0.9317126870155334,
+      "eval_loss": 0.40824124217033386,
+      "eval_mae": 0.14738227427005768,
+      "eval_rmse": 0.20570062100887299,
+      "eval_runtime": 63.4848,
+      "eval_samples_per_second": 37.08,
+      "eval_steps_per_second": 2.331,
+      "learning_rate": 0.0001,
       "step": 14454
     },
     {
       "epoch": 33.10502283105023,
+      "grad_norm": 0.2595873773097992,
+      "learning_rate": 0.0001,
+      "loss": 0.3933,
       "step": 14500
     },
     {
       "epoch": 34.0,
+      "eval_explained_variance": 0.37467464804649353,
+      "eval_kl_divergence": 0.9618669748306274,
+      "eval_loss": 0.40851354598999023,
+      "eval_mae": 0.14805640280246735,
+      "eval_rmse": 0.20609329640865326,
+      "eval_runtime": 65.3615,
+      "eval_samples_per_second": 36.015,
+      "eval_steps_per_second": 2.264,
+      "learning_rate": 0.0001,
       "step": 14892
     },
     {
       "epoch": 34.24657534246575,
+      "grad_norm": 0.26568445563316345,
+      "learning_rate": 0.0001,
+      "loss": 0.3926,
       "step": 15000
     },
     {
       "epoch": 35.0,
+      "eval_explained_variance": 0.375776082277298,
+      "eval_kl_divergence": 1.0522711277008057,
+      "eval_loss": 0.4072923958301544,
+      "eval_mae": 0.14664247632026672,
+      "eval_rmse": 0.20538650453090668,
+      "eval_runtime": 64.7697,
+      "eval_samples_per_second": 36.344,
+      "eval_steps_per_second": 2.285,
+      "learning_rate": 0.0001,
       "step": 15330
     },
     {
       "epoch": 35.38812785388128,
+      "grad_norm": 0.15931576490402222,
+      "learning_rate": 0.0001,
+      "loss": 0.3936,
       "step": 15500
     },
     {
       "epoch": 36.0,
+      "eval_explained_variance": 0.3770906925201416,
+      "eval_kl_divergence": 1.0621892213821411,
+      "eval_loss": 0.40741708874702454,
+      "eval_mae": 0.1460237056016922,
+      "eval_rmse": 0.20519912242889404,
+      "eval_runtime": 64.23,
+      "eval_samples_per_second": 36.65,
+      "eval_steps_per_second": 2.304,
+      "learning_rate": 0.0001,
       "step": 15768
     },
     {
       "epoch": 36.529680365296805,
+      "grad_norm": 0.22164444625377655,
+      "learning_rate": 0.0001,
+      "loss": 0.3935,
       "step": 16000
     },
     {
       "epoch": 37.0,
+      "eval_explained_variance": 0.38024798035621643,
+      "eval_kl_divergence": 1.020066261291504,
+      "eval_loss": 0.40657544136047363,
+      "eval_mae": 0.1456020027399063,
+      "eval_rmse": 0.20468135178089142,
+      "eval_runtime": 63.8016,
+      "eval_samples_per_second": 36.896,
+      "eval_steps_per_second": 2.32,
+      "learning_rate": 0.0001,
       "step": 16206
     },
     {
       "epoch": 37.67123287671233,
+      "grad_norm": 0.2097047120332718,
+      "learning_rate": 0.0001,
+      "loss": 0.3927,
       "step": 16500
     },
     {
       "epoch": 38.0,
+      "eval_explained_variance": 0.3799835741519928,
+      "eval_kl_divergence": 1.0557153224945068,
+      "eval_loss": 0.406360387802124,
+      "eval_mae": 0.14585663378238678,
+      "eval_rmse": 0.20454762876033783,
+      "eval_runtime": 63.2021,
+      "eval_samples_per_second": 37.246,
+      "eval_steps_per_second": 2.342,
+      "learning_rate": 0.0001,
       "step": 16644
     },
     {
       "epoch": 38.81278538812786,
+      "grad_norm": 0.34068891406059265,
+      "learning_rate": 0.0001,
+      "loss": 0.392,
       "step": 17000
     },
     {
       "epoch": 39.0,
+      "eval_explained_variance": 0.377095103263855,
+      "eval_kl_divergence": 1.005536675453186,
+      "eval_loss": 0.4077896773815155,
+      "eval_mae": 0.14692139625549316,
+      "eval_rmse": 0.2055957317352295,
+      "eval_runtime": 62.5136,
+      "eval_samples_per_second": 37.656,
+      "eval_steps_per_second": 2.367,
+      "learning_rate": 0.0001,
       "step": 17082
     },
     {
       "epoch": 39.954337899543376,
+      "grad_norm": 0.23111671209335327,
+      "learning_rate": 0.0001,
+      "loss": 0.3915,
       "step": 17500
     },
     {
       "epoch": 40.0,
+      "eval_explained_variance": 0.38054999709129333,
+      "eval_kl_divergence": 0.9849128723144531,
+      "eval_loss": 0.4068063199520111,
+      "eval_mae": 0.14637430012226105,
+      "eval_rmse": 0.20490336418151855,
+      "eval_runtime": 62.8552,
+      "eval_samples_per_second": 37.451,
+      "eval_steps_per_second": 2.355,
+      "learning_rate": 0.0001,
       "step": 17520
     },
     {
       "epoch": 41.0,
+      "eval_explained_variance": 0.3777576982975006,
+      "eval_kl_divergence": 0.899895191192627,
+      "eval_loss": 0.40890073776245117,
+      "eval_mae": 0.1488751471042633,
+      "eval_rmse": 0.20631897449493408,
+      "eval_runtime": 63.9481,
+      "eval_samples_per_second": 36.811,
+      "eval_steps_per_second": 2.314,
+      "learning_rate": 0.0001,
       "step": 17958
     },
     {
       "epoch": 41.0958904109589,
+      "grad_norm": 0.28402578830718994,
+      "learning_rate": 0.0001,
+      "loss": 0.3907,
       "step": 18000
     },
     {
       "epoch": 42.0,
+      "eval_explained_variance": 0.37971171736717224,
+      "eval_kl_divergence": 1.0616570711135864,
+      "eval_loss": 0.4068816602230072,
+      "eval_mae": 0.14634381234645844,
+      "eval_rmse": 0.20491831004619598,
+      "eval_runtime": 63.1884,
+      "eval_samples_per_second": 37.254,
+      "eval_steps_per_second": 2.342,
+      "learning_rate": 0.0001,
       "step": 18396
     },
     {
       "epoch": 42.23744292237443,
+      "grad_norm": 0.24103382229804993,
+      "learning_rate": 0.0001,
+      "loss": 0.3919,
       "step": 18500
     },
     {
       "epoch": 43.0,
+      "eval_explained_variance": 0.3829738199710846,
+      "eval_kl_divergence": 1.0520097017288208,
+      "eval_loss": 0.40578988194465637,
+      "eval_mae": 0.14498426020145416,
+      "eval_rmse": 0.2040938138961792,
+      "eval_runtime": 64.2301,
+      "eval_samples_per_second": 36.649,
+      "eval_steps_per_second": 2.304,
+      "learning_rate": 0.0001,
       "step": 18834
     },
     {
       "epoch": 43.37899543378995,
+      "grad_norm": 0.3461155891418457,
+      "learning_rate": 0.0001,
+      "loss": 0.3902,
       "step": 19000
     },
     {
       "epoch": 44.0,
+      "eval_explained_variance": 0.3809111416339874,
+      "eval_kl_divergence": 1.0053679943084717,
+      "eval_loss": 0.4070681035518646,
+      "eval_mae": 0.14748047292232513,
+      "eval_rmse": 0.20503848791122437,
+      "eval_runtime": 63.682,
+      "eval_samples_per_second": 36.965,
+      "eval_steps_per_second": 2.324,
+      "learning_rate": 0.0001,
       "step": 19272
     },
     {
       "epoch": 44.52054794520548,
+      "grad_norm": 0.21600213646888733,
+      "learning_rate": 0.0001,
+      "loss": 0.3896,
       "step": 19500
     },
     {
       "epoch": 45.0,
+      "eval_explained_variance": 0.38130107522010803,
+      "eval_kl_divergence": 1.13860285282135,
+      "eval_loss": 0.40669572353363037,
+      "eval_mae": 0.14402073621749878,
+      "eval_rmse": 0.2047145813703537,
+      "eval_runtime": 61.9143,
+      "eval_samples_per_second": 38.02,
+      "eval_steps_per_second": 2.39,
+      "learning_rate": 0.0001,
       "step": 19710
     },
     {
       "epoch": 45.662100456621005,
+      "grad_norm": 0.2100251168012619,
+      "learning_rate": 0.0001,
+      "loss": 0.3925,
       "step": 20000
     },
     {
       "epoch": 46.0,
+      "eval_explained_variance": 0.3830677270889282,
+      "eval_kl_divergence": 1.0252840518951416,
+      "eval_loss": 0.40670666098594666,
+      "eval_mae": 0.14572028815746307,
+      "eval_rmse": 0.20469875633716583,
+      "eval_runtime": 61.3533,
+      "eval_samples_per_second": 38.368,
+      "eval_steps_per_second": 2.412,
+      "learning_rate": 0.0001,
       "step": 20148
     },
     {
       "epoch": 46.80365296803653,
+      "grad_norm": 0.16854612529277802,
+      "learning_rate": 0.0001,
+      "loss": 0.3896,
       "step": 20500
     },
     {
       "epoch": 47.0,
+      "eval_explained_variance": 0.3834179639816284,
+      "eval_kl_divergence": 1.0430312156677246,
+      "eval_loss": 0.4062415659427643,
+      "eval_mae": 0.14726205170154572,
+      "eval_rmse": 0.20429861545562744,
+      "eval_runtime": 62.7532,
+      "eval_samples_per_second": 37.512,
+      "eval_steps_per_second": 2.358,
+      "learning_rate": 0.0001,
       "step": 20586
     },
     {
       "epoch": 47.945205479452056,
+      "grad_norm": 0.2040056735277176,
+      "learning_rate": 0.0001,
+      "loss": 0.3902,
       "step": 21000
     },
     {
       "epoch": 48.0,
+      "eval_explained_variance": 0.38119378685951233,
+      "eval_kl_divergence": 1.104145884513855,
+      "eval_loss": 0.4064981937408447,
+      "eval_mae": 0.14571230113506317,
+      "eval_rmse": 0.20479492843151093,
+      "eval_runtime": 66.5743,
+      "eval_samples_per_second": 35.359,
+      "eval_steps_per_second": 2.223,
+      "learning_rate": 0.0001,
       "step": 21024
     },
     {
       "epoch": 49.0,
+      "eval_explained_variance": 0.37976840138435364,
+      "eval_kl_divergence": 1.0702213048934937,
+      "eval_loss": 0.40709760785102844,
+      "eval_mae": 0.14625640213489532,
+      "eval_rmse": 0.20520327985286713,
+      "eval_runtime": 62.1191,
+      "eval_samples_per_second": 37.895,
+      "eval_steps_per_second": 2.383,
+      "learning_rate": 0.0001,
       "step": 21462
     },
     {
       "epoch": 49.08675799086758,
+      "grad_norm": 0.2242765724658966,
+      "learning_rate": 1e-05,
+      "loss": 0.3897,
       "step": 21500
     },
     {
       "epoch": 50.0,
+      "eval_explained_variance": 0.38569536805152893,
+      "eval_kl_divergence": 0.8917386531829834,
+      "eval_loss": 0.40644556283950806,
+      "eval_mae": 0.1479080468416214,
+      "eval_rmse": 0.2042473703622818,
+      "eval_runtime": 62.3011,
+      "eval_samples_per_second": 37.784,
+      "eval_steps_per_second": 2.376,
+      "learning_rate": 1e-05,
       "step": 21900
     },
     {
       "epoch": 50.22831050228311,
+      "grad_norm": 0.21291576325893402,
+      "learning_rate": 1e-05,
+      "loss": 0.3875,
       "step": 22000
     },
     {
       "epoch": 51.0,
+      "eval_explained_variance": 0.3844810426235199,
+      "eval_kl_divergence": 0.9960101842880249,
+      "eval_loss": 0.40579161047935486,
+      "eval_mae": 0.14372152090072632,
+      "eval_rmse": 0.20405276119709015,
+      "eval_runtime": 61.2114,
+      "eval_samples_per_second": 38.457,
+      "eval_steps_per_second": 2.418,
+      "learning_rate": 1e-05,
       "step": 22338
     },
     {
       "epoch": 51.36986301369863,
+      "grad_norm": 0.24317112565040588,
+      "learning_rate": 1e-05,
+      "loss": 0.3874,
       "step": 22500
     },
     {
       "epoch": 52.0,
+      "eval_explained_variance": 0.385125994682312,
+      "eval_kl_divergence": 1.0567286014556885,
+      "eval_loss": 0.40528106689453125,
+      "eval_mae": 0.14458806812763214,
+      "eval_rmse": 0.20368923246860504,
+      "eval_runtime": 62.8042,
+      "eval_samples_per_second": 37.482,
+      "eval_steps_per_second": 2.357,
+      "learning_rate": 1e-05,
       "step": 22776
     },
     {
       "epoch": 52.51141552511415,
+      "grad_norm": 0.30417612195014954,
+      "learning_rate": 1e-05,
+      "loss": 0.3899,
       "step": 23000
     },
     {
       "epoch": 53.0,
+      "eval_explained_variance": 0.3858625590801239,
+      "eval_kl_divergence": 1.0205212831497192,
+      "eval_loss": 0.4056229293346405,
+      "eval_mae": 0.14624176919460297,
+      "eval_rmse": 0.20387189090251923,
+      "eval_runtime": 62.9117,
+      "eval_samples_per_second": 37.418,
+      "eval_steps_per_second": 2.353,
+      "learning_rate": 1e-05,
       "step": 23214
     },
     {
       "epoch": 53.65296803652968,
+      "grad_norm": 0.24982061982154846,
+      "learning_rate": 1e-05,
+      "loss": 0.3892,
       "step": 23500
     },
     {
       "epoch": 54.0,
+      "eval_explained_variance": 0.3853992521762848,
+      "eval_kl_divergence": 0.9905322194099426,
+      "eval_loss": 0.4058997631072998,
+      "eval_mae": 0.14412301778793335,
+      "eval_rmse": 0.20410750806331635,
+      "eval_runtime": 63.4824,
+      "eval_samples_per_second": 37.081,
+      "eval_steps_per_second": 2.331,
+      "learning_rate": 1e-05,
       "step": 23652
     },
     {
       "epoch": 54.794520547945204,
+      "grad_norm": 0.2903271019458771,
+      "learning_rate": 1e-05,
+      "loss": 0.3892,
       "step": 24000
     },
     {
       "epoch": 55.0,
+      "eval_explained_variance": 0.38560736179351807,
+      "eval_kl_divergence": 0.937917947769165,
+      "eval_loss": 0.4060685932636261,
+      "eval_mae": 0.1471087485551834,
+      "eval_rmse": 0.20407529175281525,
+      "eval_runtime": 64.4026,
+      "eval_samples_per_second": 36.551,
+      "eval_steps_per_second": 2.298,
+      "learning_rate": 1e-05,
       "step": 24090
     },
     {
       "epoch": 55.93607305936073,
+      "grad_norm": 0.2701994776725769,
+      "learning_rate": 1e-05,
+      "loss": 0.3869,
       "step": 24500
     },
     {
       "epoch": 56.0,
+      "eval_explained_variance": 0.3853694200515747,
+      "eval_kl_divergence": 0.9695614576339722,
+      "eval_loss": 0.40592971444129944,
+      "eval_mae": 0.14540034532546997,
+      "eval_rmse": 0.20410047471523285,
+      "eval_runtime": 63.4818,
+      "eval_samples_per_second": 37.081,
+      "eval_steps_per_second": 2.331,
+      "learning_rate": 1e-05,
       "step": 24528
     },
     {
       "epoch": 57.0,
+      "eval_explained_variance": 0.3842361867427826,
+      "eval_kl_divergence": 1.0590680837631226,
+      "eval_loss": 0.4058408737182617,
+      "eval_mae": 0.1459987610578537,
+      "eval_rmse": 0.20412230491638184,
+      "eval_runtime": 62.5651,
+      "eval_samples_per_second": 37.625,
+      "eval_steps_per_second": 2.366,
+      "learning_rate": 1e-05,
       "step": 24966
     },
     {
       "epoch": 57.077625570776256,
+      "grad_norm": 0.20055490732192993,
+      "learning_rate": 1e-05,
+      "loss": 0.3874,
       "step": 25000
     },
     {
       "epoch": 58.0,
+      "eval_explained_variance": 0.38601794838905334,
+      "eval_kl_divergence": 0.9275628328323364,
+      "eval_loss": 0.4063320457935333,
+      "eval_mae": 0.14603658020496368,
+      "eval_rmse": 0.20428447425365448,
+      "eval_runtime": 62.6353,
+      "eval_samples_per_second": 37.583,
+      "eval_steps_per_second": 2.363,
+      "learning_rate": 1e-05,
       "step": 25404
     },
     {
       "epoch": 58.21917808219178,
+      "grad_norm": 0.24670056998729706,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.3887,
       "step": 25500
     },
     {
       "epoch": 59.0,
+      "eval_explained_variance": 0.3867626488208771,
+      "eval_kl_divergence": 0.9793874621391296,
+      "eval_loss": 0.4056239724159241,
+      "eval_mae": 0.14530591666698456,
+      "eval_rmse": 0.20382745563983917,
+      "eval_runtime": 63.6318,
+      "eval_samples_per_second": 36.994,
+      "eval_steps_per_second": 2.326,
+      "learning_rate": 1.0000000000000002e-06,
       "step": 25842
     },
     {
       "epoch": 59.36073059360731,
+      "grad_norm": 0.27373573184013367,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.3882,
       "step": 26000
     },
     {
       "epoch": 60.0,
+      "eval_explained_variance": 0.3851200044155121,
+      "eval_kl_divergence": 1.0348856449127197,
+      "eval_loss": 0.40571752190589905,
+      "eval_mae": 0.1446085125207901,
+      "eval_rmse": 0.20402370393276215,
+      "eval_runtime": 63.8531,
+      "eval_samples_per_second": 36.866,
+      "eval_steps_per_second": 2.318,
+      "learning_rate": 1.0000000000000002e-06,
       "step": 26280
     },
     {
       "epoch": 60.50228310502283,
+      "grad_norm": 0.23867332935333252,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.389,
       "step": 26500
     },
     {
       "epoch": 61.0,
+      "eval_explained_variance": 0.38573384284973145,
+      "eval_kl_divergence": 0.9859956502914429,
+      "eval_loss": 0.4058452248573303,
+      "eval_mae": 0.14494158327579498,
+      "eval_rmse": 0.2040751427412033,
+      "eval_runtime": 61.8751,
+      "eval_samples_per_second": 38.044,
+      "eval_steps_per_second": 2.392,
+      "learning_rate": 1.0000000000000002e-06,
       "step": 26718
     },
     {
       "epoch": 61.64383561643836,
+      "grad_norm": 0.21306726336479187,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.3882,
       "step": 27000
     },
     {
       "epoch": 62.0,
+      "eval_explained_variance": 0.3864554166793823,
+      "eval_kl_divergence": 0.9528394937515259,
+      "eval_loss": 0.4054276943206787,
+      "eval_mae": 0.14455263316631317,
+      "eval_rmse": 0.20368416607379913,
+      "eval_runtime": 61.7886,
+      "eval_samples_per_second": 38.098,
+      "eval_steps_per_second": 2.395,
+      "learning_rate": 1.0000000000000002e-06,
       "step": 27156
     },
     {
       "epoch": 62.0,
+      "learning_rate": 1.0000000000000002e-06,
       "step": 27156,
       "total_flos": 6.42634409963284e+19,
+      "train_loss": 0.3985773164651095,
+      "train_runtime": 16834.9641,
+      "train_samples_per_second": 62.397,
+      "train_steps_per_second": 3.903
     }
   ],
   "logging_steps": 500,