End of training

Browse files

Files changed (6) hide show

README.md +4 -2
all_results.json +12 -12
runs/Aug03_09-00-43_c969d6f45fba/events.out.tfevents.1722684228.c969d6f45fba.52.1 +3 -0
test_results.json +7 -7
trainer_state.json +402 -190
training_results.json +6 -6

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: apache-2.0
 base_model: microsoft/swinv2-base-patch4-window8-256
 tags:
 - generated_from_trainer
 datasets:
 - generator
@@ -15,11 +17,11 @@ should probably proofread and complete it, then remove this comment. -->
 # swinv2-base-panorama-IQA
-This model is a fine-tuned version of [microsoft/swinv2-base-patch4-window8-256](https://huggingface.co/microsoft/swinv2-base-patch4-window8-256) on the generator dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0312
 - Srocc: 0.1132
-- Lcc: 0.1584
 ## Model description

 license: apache-2.0
 base_model: microsoft/swinv2-base-patch4-window8-256
 tags:
+- image-classification
+- vision
 - generated_from_trainer
 datasets:
 - generator
 # swinv2-base-panorama-IQA
+This model is a fine-tuned version of [microsoft/swinv2-base-patch4-window8-256](https://huggingface.co/microsoft/swinv2-base-patch4-window8-256) on the isiqa-2019-hf dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0312
 - Srocc: 0.1132
+- Lcc: 0.1583
 ## Model description

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 26.0,
-    "eval_LCC": 0.17734737426317984,
-    "eval_SROCC": 0.08955582232893158,
-    "eval_loss": 0.02460244856774807,
-    "eval_runtime": 37.0604,
-    "eval_samples_per_second": 1.349,
-    "eval_steps_per_second": 0.054,
-    "total_flos": 2.2813585220126638e+18,
-    "train_loss": 0.041763259517540646,
-    "train_runtime": 5114.8643,
-    "train_samples_per_second": 2.092,
-    "train_steps_per_second": 0.029
 }

 {
+    "epoch": 42.857142857142854,
+    "eval_LCC": 0.15832038036938517,
+    "eval_SROCC": 0.11318127250900359,
+    "eval_loss": 0.031172048300504684,
+    "eval_runtime": 39.8118,
+    "eval_samples_per_second": 1.256,
+    "eval_steps_per_second": 0.05,
+    "total_flos": 3.763995548539945e+18,
+    "train_loss": 0.029827568009495736,
+    "train_runtime": 8529.9763,
+    "train_samples_per_second": 1.254,
+    "train_steps_per_second": 0.018
 }

runs/Aug03_09-00-43_c969d6f45fba/events.out.tfevents.1722684228.c969d6f45fba.52.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d9dfb99a2f307330fe59856fe1193ef7e13d27cfb673d9ff79182f86c9dabad
+size 455

test_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 26.0,
-    "eval_LCC": 0.17734737426317984,
-    "eval_SROCC": 0.08955582232893158,
-    "eval_loss": 0.02460244856774807,
-    "eval_runtime": 37.0604,
-    "eval_samples_per_second": 1.349,
-    "eval_steps_per_second": 0.054
 }

 {
+    "epoch": 42.857142857142854,
+    "eval_LCC": 0.15832038036938517,
+    "eval_SROCC": 0.11318127250900359,
+    "eval_loss": 0.031172048300504684,
+    "eval_runtime": 39.8118,
+    "eval_samples_per_second": 1.256,
+    "eval_steps_per_second": 0.05
 }

trainer_state.json CHANGED Viewed

@@ -1,344 +1,556 @@
 {
-  "best_metric": 0.02460244856774807,
-  "best_model_checkpoint": "/kaggle/working/output/checkpoint-73",
-  "epoch": 26.0,
   "eval_steps": 500,
-  "global_step": 91,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.8571428571428571,
-      "eval_LCC": -0.13996786173466005,
-      "eval_SROCC": -0.1660984393757503,
-      "eval_loss": 0.2684723138809204,
-      "eval_runtime": 39.3373,
-      "eval_samples_per_second": 1.271,
-      "eval_steps_per_second": 0.051,
       "step": 3
     },
     {
       "epoch": 2.0,
-      "eval_LCC": -0.13191836249511346,
-      "eval_SROCC": -0.20710684273709484,
-      "eval_loss": 0.06745556741952896,
-      "eval_runtime": 37.0134,
-      "eval_samples_per_second": 1.351,
-      "eval_steps_per_second": 0.054,
       "step": 7
     },
     {
       "epoch": 2.857142857142857,
-      "grad_norm": 5.974637508392334,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 0.223,
       "step": 10
     },
     {
       "epoch": 2.857142857142857,
-      "eval_LCC": -0.11444761651756143,
-      "eval_SROCC": -0.19721488595438177,
-      "eval_loss": 0.13801459968090057,
-      "eval_runtime": 37.041,
-      "eval_samples_per_second": 1.35,
-      "eval_steps_per_second": 0.054,
       "step": 10
     },
     {
       "epoch": 4.0,
-      "eval_LCC": -0.11619739343449043,
-      "eval_SROCC": -0.23620648259303723,
-      "eval_loss": 0.0638759583234787,
-      "eval_runtime": 37.3454,
-      "eval_samples_per_second": 1.339,
-      "eval_steps_per_second": 0.054,
       "step": 14
     },
     {
       "epoch": 4.857142857142857,
-      "eval_LCC": -0.1097281268596262,
-      "eval_SROCC": -0.17599039615846337,
-      "eval_loss": 0.06009223312139511,
-      "eval_runtime": 39.2582,
-      "eval_samples_per_second": 1.274,
-      "eval_steps_per_second": 0.051,
       "step": 17
     },
     {
       "epoch": 5.714285714285714,
-      "grad_norm": 1.5656846761703491,
-      "learning_rate": 1.925925925925926e-05,
-      "loss": 0.0607,
       "step": 20
     },
     {
       "epoch": 6.0,
-      "eval_LCC": -0.08523254844178266,
-      "eval_SROCC": -0.12902761104441776,
-      "eval_loss": 0.06266126781702042,
-      "eval_runtime": 37.4159,
-      "eval_samples_per_second": 1.336,
-      "eval_steps_per_second": 0.053,
       "step": 21
     },
     {
       "epoch": 6.857142857142857,
-      "eval_LCC": -0.07908973191513438,
-      "eval_SROCC": -0.10501800720288115,
-      "eval_loss": 0.054282378405332565,
-      "eval_runtime": 39.9947,
-      "eval_samples_per_second": 1.25,
-      "eval_steps_per_second": 0.05,
       "step": 24
     },
     {
       "epoch": 8.0,
-      "eval_LCC": -0.07022943984845728,
-      "eval_SROCC": -0.0683313325330132,
-      "eval_loss": 0.04083505645394325,
-      "eval_runtime": 39.4734,
-      "eval_samples_per_second": 1.267,
-      "eval_steps_per_second": 0.051,
       "step": 28
     },
     {
       "epoch": 8.571428571428571,
-      "grad_norm": 0.6326273679733276,
-      "learning_rate": 1.7777777777777777e-05,
-      "loss": 0.0212,
       "step": 30
     },
     {
       "epoch": 8.857142857142858,
-      "eval_LCC": -0.05666279490414187,
-      "eval_SROCC": -0.06919567827130851,
-      "eval_loss": 0.04194454103708267,
-      "eval_runtime": 37.518,
-      "eval_samples_per_second": 1.333,
-      "eval_steps_per_second": 0.053,
       "step": 31
     },
     {
       "epoch": 10.0,
-      "eval_LCC": -0.02743218726796948,
-      "eval_SROCC": -0.037022809123649456,
-      "eval_loss": 0.03434378281235695,
-      "eval_runtime": 37.3074,
-      "eval_samples_per_second": 1.34,
-      "eval_steps_per_second": 0.054,
       "step": 35
     },
     {
       "epoch": 10.857142857142858,
-      "eval_LCC": -0.0012650189550020947,
-      "eval_SROCC": -0.033949579831932766,
-      "eval_loss": 0.03074028715491295,
-      "eval_runtime": 39.2094,
-      "eval_samples_per_second": 1.275,
-      "eval_steps_per_second": 0.051,
       "step": 38
     },
     {
       "epoch": 11.428571428571429,
-      "grad_norm": 0.3264749348163605,
-      "learning_rate": 1.6296296296296297e-05,
-      "loss": 0.0168,
       "step": 40
     },
     {
       "epoch": 12.0,
-      "eval_LCC": 0.02330881609272888,
-      "eval_SROCC": -0.02809123649459784,
-      "eval_loss": 0.029941115528345108,
-      "eval_runtime": 39.1241,
-      "eval_samples_per_second": 1.278,
-      "eval_steps_per_second": 0.051,
       "step": 42
     },
     {
       "epoch": 12.857142857142858,
-      "eval_LCC": 0.03261216335612809,
-      "eval_SROCC": -0.042785114045618244,
-      "eval_loss": 0.03004513680934906,
-      "eval_runtime": 36.9998,
-      "eval_samples_per_second": 1.351,
-      "eval_steps_per_second": 0.054,
       "step": 45
     },
     {
       "epoch": 14.0,
-      "eval_LCC": 0.051745647526359385,
-      "eval_SROCC": -0.02376950780312125,
-      "eval_loss": 0.028606927022337914,
-      "eval_runtime": 36.9029,
-      "eval_samples_per_second": 1.355,
-      "eval_steps_per_second": 0.054,
       "step": 49
     },
     {
       "epoch": 14.285714285714286,
-      "grad_norm": 0.6258419156074524,
-      "learning_rate": 1.4814814814814815e-05,
-      "loss": 0.0143,
       "step": 50
     },
     {
       "epoch": 14.857142857142858,
-      "eval_LCC": 0.06012754354341758,
-      "eval_SROCC": -0.018583433373349337,
-      "eval_loss": 0.028338493779301643,
-      "eval_runtime": 39.2004,
-      "eval_samples_per_second": 1.275,
       "eval_steps_per_second": 0.051,
       "step": 52
     },
     {
       "epoch": 16.0,
-      "eval_LCC": 0.08678963760193395,
-      "eval_SROCC": -0.0024489795918367346,
-      "eval_loss": 0.027331581339240074,
-      "eval_runtime": 39.1787,
-      "eval_samples_per_second": 1.276,
       "eval_steps_per_second": 0.051,
       "step": 56
     },
     {
       "epoch": 16.857142857142858,
-      "eval_LCC": 0.11189936135943072,
-      "eval_SROCC": 0.028283313325330132,
-      "eval_loss": 0.02574434131383896,
-      "eval_runtime": 37.6775,
-      "eval_samples_per_second": 1.327,
-      "eval_steps_per_second": 0.053,
       "step": 59
     },
     {
       "epoch": 17.142857142857142,
-      "grad_norm": 0.2967870831489563,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 0.013,
       "step": 60
     },
     {
       "epoch": 18.0,
-      "eval_LCC": 0.140408573006196,
-      "eval_SROCC": 0.05421368547418968,
-      "eval_loss": 0.024704232811927795,
-      "eval_runtime": 39.5048,
-      "eval_samples_per_second": 1.266,
       "eval_steps_per_second": 0.051,
       "step": 63
     },
     {
       "epoch": 18.857142857142858,
-      "eval_LCC": 0.15329553575685126,
-      "eval_SROCC": 0.07025210084033613,
-      "eval_loss": 0.0247227493673563,
-      "eval_runtime": 37.5863,
-      "eval_samples_per_second": 1.33,
-      "eval_steps_per_second": 0.053,
       "step": 66
     },
     {
       "epoch": 20.0,
-      "grad_norm": 0.35133129358291626,
-      "learning_rate": 1.1851851851851852e-05,
-      "loss": 0.0111,
       "step": 70
     },
     {
       "epoch": 20.0,
-      "eval_LCC": 0.16704999475534,
-      "eval_SROCC": 0.08004801920768306,
-      "eval_loss": 0.02460792474448681,
-      "eval_runtime": 39.6008,
-      "eval_samples_per_second": 1.263,
-      "eval_steps_per_second": 0.051,
       "step": 70
     },
     {
       "epoch": 20.857142857142858,
-      "eval_LCC": 0.17734737426317984,
-      "eval_SROCC": 0.08955582232893158,
-      "eval_loss": 0.02460244856774807,
-      "eval_runtime": 39.3838,
-      "eval_samples_per_second": 1.27,
-      "eval_steps_per_second": 0.051,
       "step": 73
     },
     {
       "epoch": 22.0,
-      "eval_LCC": 0.183477067706457,
-      "eval_SROCC": 0.09983193277310923,
-      "eval_loss": 0.025651078671216965,
-      "eval_runtime": 37.2011,
-      "eval_samples_per_second": 1.344,
-      "eval_steps_per_second": 0.054,
       "step": 77
     },
     {
       "epoch": 22.857142857142858,
-      "grad_norm": 0.3938016891479492,
-      "learning_rate": 1.037037037037037e-05,
-      "loss": 0.0104,
       "step": 80
     },
     {
       "epoch": 22.857142857142858,
-      "eval_LCC": 0.1943336496302965,
-      "eval_SROCC": 0.10165666266506602,
-      "eval_loss": 0.02549559995532036,
-      "eval_runtime": 39.3404,
-      "eval_samples_per_second": 1.271,
-      "eval_steps_per_second": 0.051,
       "step": 80
     },
     {
       "epoch": 24.0,
-      "eval_LCC": 0.20850983626278138,
-      "eval_SROCC": 0.11490996398559422,
-      "eval_loss": 0.02545199543237686,
-      "eval_runtime": 39.5182,
-      "eval_samples_per_second": 1.265,
-      "eval_steps_per_second": 0.051,
       "step": 84
     },
     {
       "epoch": 24.857142857142858,
-      "eval_LCC": 0.21549093905447098,
-      "eval_SROCC": 0.12451380552220888,
-      "eval_loss": 0.025542089715600014,
-      "eval_runtime": 37.4091,
-      "eval_samples_per_second": 1.337,
-      "eval_steps_per_second": 0.053,
       "step": 87
     },
     {
       "epoch": 25.714285714285715,
-      "grad_norm": 0.5060675740242004,
-      "learning_rate": 8.888888888888888e-06,
-      "loss": 0.0088,
       "step": 90
     },
     {
       "epoch": 26.0,
-      "eval_LCC": 0.22575900814493188,
-      "eval_SROCC": 0.13190876350540215,
-      "eval_loss": 0.026240630075335503,
-      "eval_runtime": 38.9035,
       "eval_samples_per_second": 1.285,
       "eval_steps_per_second": 0.051,
       "step": 91
     },
     {
-      "epoch": 26.0,
-      "step": 91,
-      "total_flos": 2.2813585220126638e+18,
-      "train_loss": 0.041763259517540646,
-      "train_runtime": 5114.8643,
-      "train_samples_per_second": 2.092,
-      "train_steps_per_second": 0.029
     }
   ],
   "logging_steps": 10,
@@ -367,7 +579,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.2813585220126638e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.031172048300504684,
+  "best_model_checkpoint": "/kaggle/working/output/checkpoint-140",
+  "epoch": 42.857142857142854,
   "eval_steps": 500,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.8571428571428571,
+      "eval_LCC": -0.13924632211285398,
+      "eval_SROCC": -0.16677070828331333,
+      "eval_loss": 0.30208367109298706,
+      "eval_runtime": 40.3225,
+      "eval_samples_per_second": 1.24,
+      "eval_steps_per_second": 0.05,
       "step": 3
     },
     {
       "epoch": 2.0,
+      "eval_LCC": -0.13474898479193245,
+      "eval_SROCC": -0.1807923169267707,
+      "eval_loss": 0.12863630056381226,
+      "eval_runtime": 40.2585,
+      "eval_samples_per_second": 1.242,
+      "eval_steps_per_second": 0.05,
       "step": 7
     },
     {
       "epoch": 2.857142857142857,
+      "grad_norm": 2.176586151123047,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.2494,
       "step": 10
     },
     {
       "epoch": 2.857142857142857,
+      "eval_LCC": -0.1273026992962787,
+      "eval_SROCC": -0.17839135654261706,
+      "eval_loss": 0.06783520430326462,
+      "eval_runtime": 38.6817,
+      "eval_samples_per_second": 1.293,
+      "eval_steps_per_second": 0.052,
       "step": 10
     },
     {
       "epoch": 4.0,
+      "eval_LCC": -0.11136535393072287,
+      "eval_SROCC": -0.16254501800720286,
+      "eval_loss": 0.1143360510468483,
+      "eval_runtime": 40.2563,
+      "eval_samples_per_second": 1.242,
+      "eval_steps_per_second": 0.05,
       "step": 14
     },
     {
       "epoch": 4.857142857142857,
+      "eval_LCC": -0.11520350547892241,
+      "eval_SROCC": -0.19394957983193276,
+      "eval_loss": 0.0686483308672905,
+      "eval_runtime": 41.6029,
+      "eval_samples_per_second": 1.202,
+      "eval_steps_per_second": 0.048,
       "step": 17
     },
     {
       "epoch": 5.714285714285714,
+      "grad_norm": 1.4751098155975342,
+      "learning_rate": 9.966191788709716e-06,
+      "loss": 0.069,
       "step": 20
     },
     {
       "epoch": 6.0,
+      "eval_LCC": -0.13762820684113933,
+      "eval_SROCC": -0.2063385354141657,
+      "eval_loss": 0.05720577389001846,
+      "eval_runtime": 40.3372,
+      "eval_samples_per_second": 1.24,
+      "eval_steps_per_second": 0.05,
       "step": 21
     },
     {
       "epoch": 6.857142857142857,
+      "eval_LCC": -0.14053110609303213,
+      "eval_SROCC": -0.19654261704681872,
+      "eval_loss": 0.05371831730008125,
+      "eval_runtime": 38.7274,
+      "eval_samples_per_second": 1.291,
+      "eval_steps_per_second": 0.052,
       "step": 24
     },
     {
       "epoch": 8.0,
+      "eval_LCC": -0.1289209958563034,
+      "eval_SROCC": -0.17944777911164464,
+      "eval_loss": 0.06708792597055435,
+      "eval_runtime": 39.9307,
+      "eval_samples_per_second": 1.252,
+      "eval_steps_per_second": 0.05,
       "step": 28
     },
     {
       "epoch": 8.571428571428571,
+      "grad_norm": 1.0116759538650513,
+      "learning_rate": 9.698463103929542e-06,
+      "loss": 0.0276,
       "step": 30
     },
     {
       "epoch": 8.857142857142858,
+      "eval_LCC": -0.11639993851566689,
+      "eval_SROCC": -0.14429771908763506,
+      "eval_loss": 0.05505238473415375,
+      "eval_runtime": 40.7189,
+      "eval_samples_per_second": 1.228,
+      "eval_steps_per_second": 0.049,
       "step": 31
     },
     {
       "epoch": 10.0,
+      "eval_LCC": -0.09483350559637191,
+      "eval_SROCC": -0.11097238895558223,
+      "eval_loss": 0.04916208237409592,
+      "eval_runtime": 39.8785,
+      "eval_samples_per_second": 1.254,
+      "eval_steps_per_second": 0.05,
       "step": 35
     },
     {
       "epoch": 10.857142857142858,
+      "eval_LCC": -0.07673019260109643,
+      "eval_SROCC": -0.09445378151260504,
+      "eval_loss": 0.04647849500179291,
+      "eval_runtime": 40.0012,
+      "eval_samples_per_second": 1.25,
+      "eval_steps_per_second": 0.05,
       "step": 38
     },
     {
       "epoch": 11.428571428571429,
+      "grad_norm": 0.6633228063583374,
+      "learning_rate": 9.177439057064684e-06,
+      "loss": 0.0181,
       "step": 40
     },
     {
       "epoch": 12.0,
+      "eval_LCC": -0.04636396970926032,
+      "eval_SROCC": -0.0830252100840336,
+      "eval_loss": 0.04492847993969917,
+      "eval_runtime": 40.5111,
+      "eval_samples_per_second": 1.234,
+      "eval_steps_per_second": 0.049,
       "step": 42
     },
     {
       "epoch": 12.857142857142858,
+      "eval_LCC": -0.028021486790691955,
+      "eval_SROCC": -0.06593037214885954,
+      "eval_loss": 0.04024951532483101,
+      "eval_runtime": 39.9421,
+      "eval_samples_per_second": 1.252,
+      "eval_steps_per_second": 0.05,
       "step": 45
     },
     {
       "epoch": 14.0,
+      "eval_LCC": -0.011749661725862606,
+      "eval_SROCC": -0.041056422569027605,
+      "eval_loss": 0.038896750658750534,
+      "eval_runtime": 38.1309,
+      "eval_samples_per_second": 1.311,
+      "eval_steps_per_second": 0.052,
       "step": 49
     },
     {
       "epoch": 14.285714285714286,
+      "grad_norm": 0.8275535106658936,
+      "learning_rate": 8.43120818934367e-06,
+      "loss": 0.0128,
       "step": 50
     },
     {
       "epoch": 14.857142857142858,
+      "eval_LCC": -0.005515563619600932,
+      "eval_SROCC": -0.03481392557022809,
+      "eval_loss": 0.03803449496626854,
+      "eval_runtime": 39.4857,
+      "eval_samples_per_second": 1.266,
       "eval_steps_per_second": 0.051,
       "step": 52
     },
     {
       "epoch": 16.0,
+      "eval_LCC": 0.008753274292948681,
+      "eval_SROCC": -0.023193277310924368,
+      "eval_loss": 0.037131380289793015,
+      "eval_runtime": 39.5889,
+      "eval_samples_per_second": 1.263,
       "eval_steps_per_second": 0.051,
       "step": 56
     },
     {
       "epoch": 16.857142857142858,
+      "eval_LCC": 0.020548187715507097,
+      "eval_SROCC": 0.00475390156062425,
+      "eval_loss": 0.03600911796092987,
+      "eval_runtime": 38.3606,
+      "eval_samples_per_second": 1.303,
+      "eval_steps_per_second": 0.052,
       "step": 59
     },
     {
       "epoch": 17.142857142857142,
+      "grad_norm": 0.48783865571022034,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.0112,
       "step": 60
     },
     {
       "epoch": 18.0,
+      "eval_LCC": 0.038465536486787584,
+      "eval_SROCC": 0.01282112845138055,
+      "eval_loss": 0.03541974350810051,
+      "eval_runtime": 39.3983,
+      "eval_samples_per_second": 1.269,
       "eval_steps_per_second": 0.051,
       "step": 63
     },
     {
       "epoch": 18.857142857142858,
+      "eval_LCC": 0.05092487532044425,
+      "eval_SROCC": 0.019735894357743092,
+      "eval_loss": 0.03518449887633324,
+      "eval_runtime": 38.2131,
+      "eval_samples_per_second": 1.308,
+      "eval_steps_per_second": 0.052,
       "step": 66
     },
     {
       "epoch": 20.0,
+      "grad_norm": 0.5530023574829102,
+      "learning_rate": 6.434016163555452e-06,
+      "loss": 0.0088,
       "step": 70
     },
     {
       "epoch": 20.0,
+      "eval_LCC": 0.06701747831478003,
+      "eval_SROCC": 0.03308523409363745,
+      "eval_loss": 0.03455502539873123,
+      "eval_runtime": 37.5917,
+      "eval_samples_per_second": 1.33,
+      "eval_steps_per_second": 0.053,
       "step": 70
     },
     {
       "epoch": 20.857142857142858,
+      "eval_LCC": 0.08014093003987598,
+      "eval_SROCC": 0.04124849939975991,
+      "eval_loss": 0.033747877925634384,
+      "eval_runtime": 37.8795,
+      "eval_samples_per_second": 1.32,
+      "eval_steps_per_second": 0.053,
       "step": 73
     },
     {
       "epoch": 22.0,
+      "eval_LCC": 0.08790653267137535,
+      "eval_SROCC": 0.039615846338535404,
+      "eval_loss": 0.034678902477025986,
+      "eval_runtime": 40.032,
+      "eval_samples_per_second": 1.249,
+      "eval_steps_per_second": 0.05,
       "step": 77
     },
     {
       "epoch": 22.857142857142858,
+      "grad_norm": 0.45388710498809814,
+      "learning_rate": 5.290724144552379e-06,
+      "loss": 0.008,
       "step": 80
     },
     {
       "epoch": 22.857142857142858,
+      "eval_LCC": 0.09537098486730576,
+      "eval_SROCC": 0.051236494597839126,
+      "eval_loss": 0.034752532839775085,
+      "eval_runtime": 38.2511,
+      "eval_samples_per_second": 1.307,
+      "eval_steps_per_second": 0.052,
       "step": 80
     },
     {
       "epoch": 24.0,
+      "eval_LCC": 0.10710952739103984,
+      "eval_SROCC": 0.06429771908763504,
+      "eval_loss": 0.0338628776371479,
+      "eval_runtime": 37.9231,
+      "eval_samples_per_second": 1.318,
+      "eval_steps_per_second": 0.053,
       "step": 84
     },
     {
       "epoch": 24.857142857142858,
+      "eval_LCC": 0.11431013947231683,
+      "eval_SROCC": 0.07649459783913565,
+      "eval_loss": 0.03316153585910797,
+      "eval_runtime": 39.8963,
+      "eval_samples_per_second": 1.253,
+      "eval_steps_per_second": 0.05,
       "step": 87
     },
     {
       "epoch": 25.714285714285715,
+      "grad_norm": 0.3282585144042969,
+      "learning_rate": 4.131759111665349e-06,
+      "loss": 0.0066,
       "step": 90
     },
     {
       "epoch": 26.0,
+      "eval_LCC": 0.12399887441297865,
+      "eval_SROCC": 0.08552220888355341,
+      "eval_loss": 0.03337186202406883,
+      "eval_runtime": 38.9243,
       "eval_samples_per_second": 1.285,
       "eval_steps_per_second": 0.051,
       "step": 91
     },
     {
+      "epoch": 26.857142857142858,
+      "eval_LCC": 0.12917364004592166,
+      "eval_SROCC": 0.09378151260504201,
+      "eval_loss": 0.032974038273096085,
+      "eval_runtime": 38.6081,
+      "eval_samples_per_second": 1.295,
+      "eval_steps_per_second": 0.052,
+      "step": 94
+    },
+    {
+      "epoch": 28.0,
+      "eval_LCC": 0.13808917019413902,
+      "eval_SROCC": 0.09973589435774309,
+      "eval_loss": 0.03173243626952171,
+      "eval_runtime": 40.6852,
+      "eval_samples_per_second": 1.229,
+      "eval_steps_per_second": 0.049,
+      "step": 98
+    },
+    {
+      "epoch": 28.571428571428573,
+      "grad_norm": 0.3081737458705902,
+      "learning_rate": 3.019601169804216e-06,
+      "loss": 0.006,
+      "step": 100
+    },
+    {
+      "epoch": 28.857142857142858,
+      "eval_LCC": 0.14324069262154604,
+      "eval_SROCC": 0.1086674669867947,
+      "eval_loss": 0.031397391110658646,
+      "eval_runtime": 40.3292,
+      "eval_samples_per_second": 1.24,
+      "eval_steps_per_second": 0.05,
+      "step": 101
+    },
+    {
+      "epoch": 30.0,
+      "eval_LCC": 0.14463811773223376,
+      "eval_SROCC": 0.10530612244897959,
+      "eval_loss": 0.03169296309351921,
+      "eval_runtime": 38.2368,
+      "eval_samples_per_second": 1.308,
+      "eval_steps_per_second": 0.052,
+      "step": 105
+    },
+    {
+      "epoch": 30.857142857142858,
+      "eval_LCC": 0.14653245871689255,
+      "eval_SROCC": 0.09714285714285714,
+      "eval_loss": 0.0316772386431694,
+      "eval_runtime": 39.419,
+      "eval_samples_per_second": 1.268,
+      "eval_steps_per_second": 0.051,
+      "step": 108
+    },
+    {
+      "epoch": 31.428571428571427,
+      "grad_norm": 0.286915123462677,
+      "learning_rate": 2.0142070414860704e-06,
+      "loss": 0.0062,
+      "step": 110
+    },
+    {
+      "epoch": 32.0,
+      "eval_LCC": 0.14957484084767725,
+      "eval_SROCC": 0.10319327731092437,
+      "eval_loss": 0.03150345757603645,
+      "eval_runtime": 37.6067,
+      "eval_samples_per_second": 1.33,
+      "eval_steps_per_second": 0.053,
+      "step": 112
+    },
+    {
+      "epoch": 32.857142857142854,
+      "eval_LCC": 0.15114563767181508,
+      "eval_SROCC": 0.10319327731092437,
+      "eval_loss": 0.031500138342380524,
+      "eval_runtime": 39.4534,
+      "eval_samples_per_second": 1.267,
+      "eval_steps_per_second": 0.051,
+      "step": 115
+    },
+    {
+      "epoch": 34.0,
+      "eval_LCC": 0.15328812324811011,
+      "eval_SROCC": 0.10319327731092437,
+      "eval_loss": 0.03136735409498215,
+      "eval_runtime": 39.3064,
+      "eval_samples_per_second": 1.272,
+      "eval_steps_per_second": 0.051,
+      "step": 119
+    },
+    {
+      "epoch": 34.285714285714285,
+      "grad_norm": 0.290955513715744,
+      "learning_rate": 1.1697777844051105e-06,
+      "loss": 0.0057,
+      "step": 120
+    },
+    {
+      "epoch": 34.857142857142854,
+      "eval_LCC": 0.15433310778646528,
+      "eval_SROCC": 0.10943577430972388,
+      "eval_loss": 0.03135786950588226,
+      "eval_runtime": 39.8429,
+      "eval_samples_per_second": 1.255,
+      "eval_steps_per_second": 0.05,
+      "step": 122
+    },
+    {
+      "epoch": 36.0,
+      "eval_LCC": 0.15576240657153692,
+      "eval_SROCC": 0.10905162064825931,
+      "eval_loss": 0.03134962171316147,
+      "eval_runtime": 37.8477,
+      "eval_samples_per_second": 1.321,
+      "eval_steps_per_second": 0.053,
+      "step": 126
+    },
+    {
+      "epoch": 36.857142857142854,
+      "eval_LCC": 0.15697894936703244,
+      "eval_SROCC": 0.11318127250900359,
+      "eval_loss": 0.03124266117811203,
+      "eval_runtime": 38.2997,
+      "eval_samples_per_second": 1.305,
+      "eval_steps_per_second": 0.052,
+      "step": 129
+    },
+    {
+      "epoch": 37.142857142857146,
+      "grad_norm": 0.33939629793167114,
+      "learning_rate": 5.318367983829393e-07,
+      "loss": 0.006,
+      "step": 130
+    },
+    {
+      "epoch": 38.0,
+      "eval_LCC": 0.15766699322349262,
+      "eval_SROCC": 0.11318127250900359,
+      "eval_loss": 0.031217649579048157,
+      "eval_runtime": 40.1834,
+      "eval_samples_per_second": 1.244,
+      "eval_steps_per_second": 0.05,
+      "step": 133
+    },
+    {
+      "epoch": 38.857142857142854,
+      "eval_LCC": 0.15808379809146395,
+      "eval_SROCC": 0.11318127250900359,
+      "eval_loss": 0.031192703172564507,
+      "eval_runtime": 40.4348,
+      "eval_samples_per_second": 1.237,
+      "eval_steps_per_second": 0.049,
+      "step": 136
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.4542177617549896,
+      "learning_rate": 1.3477564710088097e-07,
+      "loss": 0.0058,
+      "step": 140
+    },
+    {
+      "epoch": 40.0,
+      "eval_LCC": 0.15832038036938517,
+      "eval_SROCC": 0.11318127250900359,
+      "eval_loss": 0.031172048300504684,
+      "eval_runtime": 38.0122,
+      "eval_samples_per_second": 1.315,
+      "eval_steps_per_second": 0.053,
+      "step": 140
+    },
+    {
+      "epoch": 40.857142857142854,
+      "eval_LCC": 0.15841233686752923,
+      "eval_SROCC": 0.11318127250900359,
+      "eval_loss": 0.03117518685758114,
+      "eval_runtime": 38.0357,
+      "eval_samples_per_second": 1.315,
+      "eval_steps_per_second": 0.053,
+      "step": 143
+    },
+    {
+      "epoch": 42.0,
+      "eval_LCC": 0.15844144208781846,
+      "eval_SROCC": 0.11318127250900359,
+      "eval_loss": 0.031179124489426613,
+      "eval_runtime": 37.8479,
+      "eval_samples_per_second": 1.321,
+      "eval_steps_per_second": 0.053,
+      "step": 147
+    },
+    {
+      "epoch": 42.857142857142854,
+      "grad_norm": 0.2731544077396393,
+      "learning_rate": 0.0,
+      "loss": 0.006,
+      "step": 150
+    },
+    {
+      "epoch": 42.857142857142854,
+      "eval_LCC": 0.15844069648001213,
+      "eval_SROCC": 0.11318127250900359,
+      "eval_loss": 0.031179847195744514,
+      "eval_runtime": 38.1122,
+      "eval_samples_per_second": 1.312,
+      "eval_steps_per_second": 0.052,
+      "step": 150
+    },
+    {
+      "epoch": 42.857142857142854,
+      "step": 150,
+      "total_flos": 3.763995548539945e+18,
+      "train_loss": 0.029827568009495736,
+      "train_runtime": 8529.9763,
+      "train_samples_per_second": 1.254,
+      "train_steps_per_second": 0.018
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.763995548539945e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

training_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 26.0,
-    "total_flos": 2.2813585220126638e+18,
-    "train_loss": 0.041763259517540646,
-    "train_runtime": 5114.8643,
-    "train_samples_per_second": 2.092,
-    "train_steps_per_second": 0.029
 }

 {
+    "epoch": 42.857142857142854,
+    "total_flos": 3.763995548539945e+18,
+    "train_loss": 0.029827568009495736,
+    "train_runtime": 8529.9763,
+    "train_samples_per_second": 1.254,
+    "train_steps_per_second": 0.018
 }