Classification tuned over mask lm 50 epochs 32 batch size

Browse files

Files changed (8) hide show

config.json +1 -1
optimizer.pt +2 -2
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +336 -544
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "google/electra-small-generator",
   "architectures": [
     "ElectraForMaskedLM"
   ],

 {
+  "_name_or_path": "factored/electra-fr-explorer-mlm",
   "architectures": [
     "ElectraForMaskedLM"
   ],

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a41f3b11c84d7da4a9743ce8310e19901dc457aa737f4fc4e0dbeafe07c03c7
-size 108493381

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c1eb0a9ede330f1a2ae441653c5d937ad29a8203bd9ca40964757dcfd7a8626
+size 108492997

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39e43fb05f5efb970cf90a967a7751e994326d5f2685efd9a3b1e85036634221
 size 54261249

 version https://git-lfs.github.com/spec/v1
+oid sha256:70cc7c05cec640a561b87f47167d3df540a2e905e84cd75dc591796f7377b6c9
 size 54261249

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cea533a89b2544a3dd1251891c69b80a38083ac6e4a328a74fb9dcf37f83a3d6
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:57398a737a50b74774b4d2844b3914f0610d12c7b222d5be2a9fcf7797cb99b8
 size 14575

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50aea151c5f20e32891d48e17d25cb58a62ab96c29ad66fed893801a78352bd2
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:16972d715adf496be8933e6bd369a2b9ee09d5563bc0a104babf5df390e74ec5
 size 557

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a68a014ef7352c80af8f4bee88886be9fab2aaa62e4867fa274fd40142f3442
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e843c34009ed217f8b4ed69dfa5bbf79f39670df24945af9fa5f6a41852cef2
 size 627

trainer_state.json CHANGED Viewed

@@ -1,702 +1,494 @@
 {
-  "best_metric": 1.3500477075576782,
-  "best_model_checkpoint": "./output_c/checkpoint-842163",
-  "epoch": 49.0,
-  "global_step": 842163,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 1.960020946063886e-05,
-      "loss": 2.4473,
-      "step": 17186
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 2.0222833156585693,
-      "eval_runtime": 62.1889,
-      "eval_samples_per_second": 1104.941,
-      "eval_steps_per_second": 34.54,
-      "step": 17187
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 1.920032582766044e-05,
-      "loss": 2.0795,
-      "step": 34372
     },
     {
       "epoch": 2.0,
-      "eval_loss": 1.871239185333252,
-      "eval_runtime": 58.1601,
-      "eval_samples_per_second": 1181.481,
-      "eval_steps_per_second": 36.933,
-      "step": 34374
     },
     {
       "epoch": 3.0,
-      "learning_rate": 1.880051201489498e-05,
-      "loss": 1.958,
-      "step": 51558
-    },
-    {
-      "epoch": 3.0,
-      "eval_loss": 1.781246542930603,
-      "eval_runtime": 54.7184,
-      "eval_samples_per_second": 1255.793,
-      "eval_steps_per_second": 39.256,
-      "step": 51561
     },
     {
       "epoch": 4.0,
-      "learning_rate": 1.8400698202129518e-05,
-      "loss": 1.883,
-      "step": 68744
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 1.7132632732391357,
-      "eval_runtime": 53.9408,
-      "eval_samples_per_second": 1273.896,
-      "eval_steps_per_second": 39.821,
-      "step": 68748
-    },
-    {
-      "epoch": 5.0,
-      "learning_rate": 1.8000884389364056e-05,
-      "loss": 1.8308,
-      "step": 85930
     },
     {
       "epoch": 5.0,
-      "eval_loss": 1.6726739406585693,
-      "eval_runtime": 54.0625,
-      "eval_samples_per_second": 1271.03,
-      "eval_steps_per_second": 39.732,
-      "step": 85935
     },
     {
       "epoch": 6.0,
-      "learning_rate": 1.7601047303194276e-05,
-      "loss": 1.7889,
-      "step": 103116
-    },
-    {
-      "epoch": 6.0,
-      "eval_loss": 1.6451952457427979,
-      "eval_runtime": 56.4005,
-      "eval_samples_per_second": 1218.341,
-      "eval_steps_per_second": 38.085,
-      "step": 103122
     },
     {
       "epoch": 7.0,
-      "learning_rate": 1.7201256763833133e-05,
-      "loss": 1.7562,
-      "step": 120302
-    },
-    {
-      "epoch": 7.0,
-      "eval_loss": 1.6122530698776245,
-      "eval_runtime": 56.1664,
-      "eval_samples_per_second": 1223.419,
-      "eval_steps_per_second": 38.244,
-      "step": 120309
-    },
-    {
-      "epoch": 8.0,
-      "learning_rate": 1.6801442951067668e-05,
-      "loss": 1.7289,
-      "step": 137488
     },
     {
       "epoch": 8.0,
-      "eval_loss": 1.5861868858337402,
-      "eval_runtime": 59.6521,
-      "eval_samples_per_second": 1151.929,
-      "eval_steps_per_second": 36.009,
-      "step": 137496
     },
     {
       "epoch": 9.0,
-      "learning_rate": 1.6401652411706525e-05,
-      "loss": 1.7051,
-      "step": 154674
-    },
-    {
-      "epoch": 9.0,
-      "eval_loss": 1.5660465955734253,
-      "eval_runtime": 55.3868,
-      "eval_samples_per_second": 1240.638,
-      "eval_steps_per_second": 38.782,
-      "step": 154683
-    },
-    {
-      "epoch": 10.0,
-      "learning_rate": 1.6001838598941063e-05,
-      "loss": 1.6828,
-      "step": 171860
     },
     {
       "epoch": 10.0,
-      "eval_loss": 1.551895022392273,
-      "eval_runtime": 56.8329,
-      "eval_samples_per_second": 1209.07,
-      "eval_steps_per_second": 37.795,
-      "step": 171870
-    },
-    {
-      "epoch": 11.0,
-      "learning_rate": 1.5602048059579917e-05,
-      "loss": 1.666,
-      "step": 189046
     },
     {
       "epoch": 11.0,
-      "eval_loss": 1.5311487913131714,
-      "eval_runtime": 55.1299,
-      "eval_samples_per_second": 1246.419,
-      "eval_steps_per_second": 38.962,
-      "step": 189057
     },
     {
       "epoch": 12.0,
-      "learning_rate": 1.5202234246814453e-05,
-      "loss": 1.65,
-      "step": 206232
-    },
-    {
-      "epoch": 12.0,
-      "eval_loss": 1.521924376487732,
-      "eval_runtime": 54.0055,
-      "eval_samples_per_second": 1272.369,
-      "eval_steps_per_second": 39.774,
-      "step": 206244
     },
     {
       "epoch": 13.0,
-      "learning_rate": 1.4802443707453309e-05,
-      "loss": 1.6347,
-      "step": 223418
-    },
-    {
-      "epoch": 13.0,
-      "eval_loss": 1.5064960718154907,
-      "eval_runtime": 53.5728,
-      "eval_samples_per_second": 1282.647,
-      "eval_steps_per_second": 40.095,
-      "step": 223431
-    },
-    {
-      "epoch": 14.0,
-      "learning_rate": 1.4402629894687847e-05,
-      "loss": 1.6208,
-      "step": 240604
     },
     {
       "epoch": 14.0,
-      "eval_loss": 1.4912291765213013,
-      "eval_runtime": 55.9464,
-      "eval_samples_per_second": 1228.23,
-      "eval_steps_per_second": 38.394,
-      "step": 240618
     },
     {
       "epoch": 15.0,
-      "learning_rate": 1.4002816081922384e-05,
-      "loss": 1.6095,
-      "step": 257790
-    },
-    {
-      "epoch": 15.0,
-      "eval_loss": 1.4807928800582886,
-      "eval_runtime": 57.4004,
-      "eval_samples_per_second": 1197.116,
-      "eval_steps_per_second": 37.421,
-      "step": 257805
-    },
-    {
-      "epoch": 16.0,
-      "learning_rate": 1.3603002269156922e-05,
-      "loss": 1.6,
-      "step": 274976
     },
     {
       "epoch": 16.0,
-      "eval_loss": 1.4743348360061646,
-      "eval_runtime": 56.4585,
-      "eval_samples_per_second": 1217.089,
-      "eval_steps_per_second": 38.046,
-      "step": 274992
-    },
-    {
-      "epoch": 17.0,
-      "learning_rate": 1.3203235003200094e-05,
-      "loss": 1.5898,
-      "step": 292162
     },
     {
       "epoch": 17.0,
-      "eval_loss": 1.460829734802246,
-      "eval_runtime": 55.6267,
-      "eval_samples_per_second": 1235.289,
-      "eval_steps_per_second": 38.615,
-      "step": 292179
     },
     {
       "epoch": 18.0,
-      "learning_rate": 1.2803397917030315e-05,
-      "loss": 1.5802,
-      "step": 309348
-    },
-    {
-      "epoch": 18.0,
-      "eval_loss": 1.455512523651123,
-      "eval_runtime": 55.4831,
-      "eval_samples_per_second": 1238.486,
-      "eval_steps_per_second": 38.715,
-      "step": 309366
-    },
-    {
-      "epoch": 19.0,
-      "learning_rate": 1.2403584104264852e-05,
-      "loss": 1.5711,
-      "step": 326534
     },
     {
       "epoch": 19.0,
-      "eval_loss": 1.4483146667480469,
-      "eval_runtime": 55.2066,
-      "eval_samples_per_second": 1244.689,
-      "eval_steps_per_second": 38.908,
-      "step": 326553
-    },
-    {
-      "epoch": 20.0,
-      "learning_rate": 1.2003793564903707e-05,
-      "loss": 1.5638,
-      "step": 343720
     },
     {
       "epoch": 20.0,
-      "eval_loss": 1.4421828985214233,
-      "eval_runtime": 53.3823,
-      "eval_samples_per_second": 1287.225,
-      "eval_steps_per_second": 40.238,
-      "step": 343740
     },
     {
       "epoch": 21.0,
-      "learning_rate": 1.1603956478733929e-05,
-      "loss": 1.5577,
-      "step": 360906
-    },
-    {
-      "epoch": 21.0,
-      "eval_loss": 1.4301999807357788,
-      "eval_runtime": 52.0928,
-      "eval_samples_per_second": 1319.088,
-      "eval_steps_per_second": 41.234,
-      "step": 360927
-    },
-    {
-      "epoch": 22.0,
-      "learning_rate": 1.1204165939372782e-05,
-      "loss": 1.5494,
-      "step": 378092
     },
     {
       "epoch": 22.0,
-      "eval_loss": 1.4282857179641724,
-      "eval_runtime": 51.7394,
-      "eval_samples_per_second": 1328.098,
-      "eval_steps_per_second": 41.516,
-      "step": 378114
-    },
-    {
-      "epoch": 23.0,
-      "learning_rate": 1.0804328853203004e-05,
-      "loss": 1.5437,
-      "step": 395278
     },
     {
       "epoch": 23.0,
-      "eval_loss": 1.4197551012039185,
-      "eval_runtime": 56.4255,
-      "eval_samples_per_second": 1217.801,
-      "eval_steps_per_second": 38.068,
-      "step": 395301
     },
     {
       "epoch": 24.0,
-      "learning_rate": 1.0404515040437542e-05,
-      "loss": 1.5377,
-      "step": 412464
-    },
-    {
-      "epoch": 24.0,
-      "eval_loss": 1.4187239408493042,
-      "eval_runtime": 57.0967,
-      "eval_samples_per_second": 1203.485,
-      "eval_steps_per_second": 37.62,
-      "step": 412488
     },
     {
       "epoch": 25.0,
-      "learning_rate": 1.0004701227672077e-05,
-      "loss": 1.532,
-      "step": 429650
-    },
-    {
-      "epoch": 25.0,
-      "eval_loss": 1.407697319984436,
-      "eval_runtime": 57.5147,
-      "eval_samples_per_second": 1194.737,
-      "eval_steps_per_second": 37.347,
-      "step": 429675
-    },
-    {
-      "epoch": 26.0,
-      "learning_rate": 9.604887414906617e-06,
-      "loss": 1.5259,
-      "step": 446836
     },
     {
       "epoch": 26.0,
-      "eval_loss": 1.406160593032837,
-      "eval_runtime": 57.387,
-      "eval_samples_per_second": 1197.396,
-      "eval_steps_per_second": 37.43,
-      "step": 446862
     },
     {
       "epoch": 27.0,
-      "learning_rate": 9.205073602141154e-06,
-      "loss": 1.5202,
-      "step": 464022
-    },
-    {
-      "epoch": 27.0,
-      "eval_loss": 1.4006047248840332,
-      "eval_runtime": 57.8577,
-      "eval_samples_per_second": 1187.656,
-      "eval_steps_per_second": 37.126,
-      "step": 464049
-    },
-    {
-      "epoch": 28.0,
-      "learning_rate": 8.805283062780009e-06,
-      "loss": 1.5165,
-      "step": 481208
     },
     {
       "epoch": 28.0,
-      "eval_loss": 1.401613473892212,
-      "eval_runtime": 57.2222,
-      "eval_samples_per_second": 1200.846,
-      "eval_steps_per_second": 37.538,
-      "step": 481236
-    },
-    {
-      "epoch": 29.0,
-      "learning_rate": 8.405469250014546e-06,
-      "loss": 1.5118,
-      "step": 498394
     },
     {
       "epoch": 29.0,
-      "eval_loss": 1.3900607824325562,
-      "eval_runtime": 57.1887,
-      "eval_samples_per_second": 1201.549,
-      "eval_steps_per_second": 37.56,
-      "step": 498423
     },
     {
       "epoch": 30.0,
-      "learning_rate": 8.005678710653402e-06,
-      "loss": 1.5079,
-      "step": 515580
-    },
-    {
-      "epoch": 30.0,
-      "eval_loss": 1.3925185203552246,
-      "eval_runtime": 57.0206,
-      "eval_samples_per_second": 1205.091,
-      "eval_steps_per_second": 37.671,
-      "step": 515610
-    },
-    {
-      "epoch": 31.0,
-      "learning_rate": 7.605864897887939e-06,
-      "loss": 1.5037,
-      "step": 532766
     },
     {
       "epoch": 31.0,
-      "eval_loss": 1.3832355737686157,
-      "eval_runtime": 57.7842,
-      "eval_samples_per_second": 1189.166,
-      "eval_steps_per_second": 37.173,
-      "step": 532797
-    },
-    {
-      "epoch": 32.0,
-      "learning_rate": 7.206027811718159e-06,
-      "loss": 1.4998,
-      "step": 549952
     },
     {
       "epoch": 32.0,
-      "eval_loss": 1.3857349157333374,
-      "eval_runtime": 57.6923,
-      "eval_samples_per_second": 1191.061,
-      "eval_steps_per_second": 37.232,
-      "step": 549984
     },
     {
       "epoch": 33.0,
-      "learning_rate": 6.806213998952697e-06,
-      "loss": 1.4953,
-      "step": 567138
-    },
-    {
-      "epoch": 33.0,
-      "eval_loss": 1.3751457929611206,
-      "eval_runtime": 56.0689,
-      "eval_samples_per_second": 1225.545,
-      "eval_steps_per_second": 38.31,
-      "step": 567171
-    },
-    {
-      "epoch": 34.0,
-      "learning_rate": 6.406423459591552e-06,
-      "loss": 1.4924,
-      "step": 584324
     },
     {
       "epoch": 34.0,
-      "eval_loss": 1.3691054582595825,
-      "eval_runtime": 57.9405,
-      "eval_samples_per_second": 1185.957,
-      "eval_steps_per_second": 37.072,
-      "step": 584358
-    },
-    {
-      "epoch": 35.0,
-      "learning_rate": 6.006586373421773e-06,
-      "loss": 1.489,
-      "step": 601510
     },
     {
       "epoch": 35.0,
-      "eval_loss": 1.3761118650436401,
-      "eval_runtime": 57.9115,
-      "eval_samples_per_second": 1186.551,
-      "eval_steps_per_second": 37.091,
-      "step": 601545
     },
     {
       "epoch": 36.0,
-      "learning_rate": 5.606749287251994e-06,
-      "loss": 1.4857,
-      "step": 618696
-    },
-    {
-      "epoch": 36.0,
-      "eval_loss": 1.3728961944580078,
-      "eval_runtime": 57.678,
-      "eval_samples_per_second": 1191.356,
-      "eval_steps_per_second": 37.241,
-      "step": 618732
-    },
-    {
-      "epoch": 37.0,
-      "learning_rate": 5.2069354744865304e-06,
-      "loss": 1.4836,
-      "step": 635882
     },
     {
       "epoch": 37.0,
-      "eval_loss": 1.3688822984695435,
-      "eval_runtime": 57.411,
-      "eval_samples_per_second": 1196.896,
-      "eval_steps_per_second": 37.414,
-      "step": 635919
-    },
-    {
-      "epoch": 38.0,
-      "learning_rate": 4.807121661721069e-06,
-      "loss": 1.4814,
-      "step": 653068
     },
     {
       "epoch": 38.0,
-      "eval_loss": 1.3645319938659668,
-      "eval_runtime": 57.5288,
-      "eval_samples_per_second": 1194.446,
-      "eval_steps_per_second": 37.338,
-      "step": 653106
     },
     {
       "epoch": 39.0,
-      "learning_rate": 4.407284575551289e-06,
-      "loss": 1.4804,
-      "step": 670254
-    },
-    {
-      "epoch": 39.0,
-      "eval_loss": 1.3667703866958618,
-      "eval_runtime": 57.9227,
-      "eval_samples_per_second": 1186.322,
-      "eval_steps_per_second": 37.084,
-      "step": 670293
-    },
-    {
-      "epoch": 40.0,
-      "learning_rate": 4.007447489381509e-06,
-      "loss": 1.4773,
-      "step": 687440
     },
     {
       "epoch": 40.0,
-      "eval_loss": 1.3591846227645874,
-      "eval_runtime": 57.728,
-      "eval_samples_per_second": 1190.324,
-      "eval_steps_per_second": 37.209,
-      "step": 687480
     },
     {
-      "epoch": 41.0,
-      "learning_rate": 3.6076569500203645e-06,
-      "loss": 1.4735,
-      "step": 704626
     },
     {
       "epoch": 41.0,
-      "eval_loss": 1.3576593399047852,
-      "eval_runtime": 57.8776,
-      "eval_samples_per_second": 1187.247,
-      "eval_steps_per_second": 37.113,
-      "step": 704667
     },
     {
       "epoch": 42.0,
-      "learning_rate": 3.2078664106592196e-06,
-      "loss": 1.473,
-      "step": 721812
-    },
-    {
-      "epoch": 42.0,
-      "eval_loss": 1.3613665103912354,
-      "eval_runtime": 57.6832,
-      "eval_samples_per_second": 1191.247,
-      "eval_steps_per_second": 37.238,
-      "step": 721854
-    },
-    {
-      "epoch": 43.0,
-      "learning_rate": 2.8080758712980744e-06,
-      "loss": 1.4715,
-      "step": 738998
     },
     {
       "epoch": 43.0,
-      "eval_loss": 1.3575751781463623,
-      "eval_runtime": 58.5415,
-      "eval_samples_per_second": 1173.783,
-      "eval_steps_per_second": 36.692,
-      "step": 739041
     },
     {
       "epoch": 44.0,
-      "learning_rate": 2.4082620585326123e-06,
-      "loss": 1.4696,
-      "step": 756184
-    },
-    {
-      "epoch": 44.0,
-      "eval_loss": 1.3553742170333862,
-      "eval_runtime": 57.9841,
-      "eval_samples_per_second": 1185.066,
-      "eval_steps_per_second": 37.045,
-      "step": 756228
     },
     {
       "epoch": 45.0,
-      "learning_rate": 2.00844824576715e-06,
-      "loss": 1.4681,
-      "step": 773370
-    },
-    {
-      "epoch": 45.0,
-      "eval_loss": 1.3520816564559937,
-      "eval_runtime": 57.2264,
-      "eval_samples_per_second": 1200.757,
-      "eval_steps_per_second": 37.535,
-      "step": 773415
-    },
-    {
-      "epoch": 46.0,
-      "learning_rate": 1.6086111595973703e-06,
-      "loss": 1.4667,
-      "step": 790556
     },
     {
       "epoch": 46.0,
-      "eval_loss": 1.3518463373184204,
-      "eval_runtime": 57.2812,
-      "eval_samples_per_second": 1199.609,
-      "eval_steps_per_second": 37.499,
-      "step": 790602
     },
     {
       "epoch": 47.0,
-      "learning_rate": 1.2088206202362252e-06,
-      "loss": 1.465,
-      "step": 807742
-    },
-    {
-      "epoch": 47.0,
-      "eval_loss": 1.353028416633606,
-      "eval_runtime": 57.8145,
-      "eval_samples_per_second": 1188.543,
-      "eval_steps_per_second": 37.153,
-      "step": 807789
     },
     {
       "epoch": 48.0,
-      "learning_rate": 8.090300808750801e-07,
-      "loss": 1.4637,
-      "step": 824928
-    },
-    {
-      "epoch": 48.0,
-      "eval_loss": 1.3512929677963257,
-      "eval_runtime": 57.6297,
-      "eval_samples_per_second": 1192.354,
-      "eval_steps_per_second": 37.272,
-      "step": 824976
-    },
-    {
-      "epoch": 49.0,
-      "learning_rate": 4.092162681096178e-07,
-      "loss": 1.462,
-      "step": 842114
     },
     {
       "epoch": 49.0,
-      "eval_loss": 1.3500477075576782,
-      "eval_runtime": 58.0134,
-      "eval_samples_per_second": 1184.467,
-      "eval_steps_per_second": 37.026,
-      "step": 842163
     }
   ],
-  "max_steps": 859350,
-  "num_train_epochs": 50,
-  "total_flos": 1.9815098644202803e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.190300464630127,
+  "best_model_checkpoint": "./output_c/checkpoint-615",
+  "epoch": 59.0,
+  "global_step": 885,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_loss": 3.077622652053833,
+      "eval_runtime": 0.2951,
+      "eval_samples_per_second": 494.804,
+      "eval_steps_per_second": 16.945,
+      "step": 15
     },
     {
       "epoch": 2.0,
+      "eval_loss": 2.9188127517700195,
+      "eval_runtime": 0.3714,
+      "eval_samples_per_second": 393.09,
+      "eval_steps_per_second": 13.462,
+      "step": 30
     },
     {
       "epoch": 3.0,
+      "eval_loss": 2.8426482677459717,
+      "eval_runtime": 0.2609,
+      "eval_samples_per_second": 559.557,
+      "eval_steps_per_second": 19.163,
+      "step": 45
     },
     {
       "epoch": 4.0,
+      "eval_loss": 2.6221985816955566,
+      "eval_runtime": 0.2726,
+      "eval_samples_per_second": 535.638,
+      "eval_steps_per_second": 18.344,
+      "step": 60
     },
     {
       "epoch": 5.0,
+      "eval_loss": 2.6243655681610107,
+      "eval_runtime": 0.2669,
+      "eval_samples_per_second": 546.955,
+      "eval_steps_per_second": 18.731,
+      "step": 75
     },
     {
       "epoch": 6.0,
+      "eval_loss": 2.6885011196136475,
+      "eval_runtime": 0.2608,
+      "eval_samples_per_second": 559.912,
+      "eval_steps_per_second": 19.175,
+      "step": 90
     },
     {
       "epoch": 7.0,
+      "eval_loss": 2.4477977752685547,
+      "eval_runtime": 0.266,
+      "eval_samples_per_second": 548.901,
+      "eval_steps_per_second": 18.798,
+      "step": 105
     },
     {
       "epoch": 8.0,
+      "eval_loss": 2.588456153869629,
+      "eval_runtime": 0.3103,
+      "eval_samples_per_second": 470.587,
+      "eval_steps_per_second": 16.116,
+      "step": 120
     },
     {
       "epoch": 9.0,
+      "eval_loss": 2.4026825428009033,
+      "eval_runtime": 0.2649,
+      "eval_samples_per_second": 551.053,
+      "eval_steps_per_second": 18.872,
+      "step": 135
     },
     {
       "epoch": 10.0,
+      "eval_loss": 2.3897533416748047,
+      "eval_runtime": 0.3189,
+      "eval_samples_per_second": 457.83,
+      "eval_steps_per_second": 15.679,
+      "step": 150
     },
     {
       "epoch": 11.0,
+      "eval_loss": 2.473085641860962,
+      "eval_runtime": 0.3415,
+      "eval_samples_per_second": 427.488,
+      "eval_steps_per_second": 14.64,
+      "step": 165
     },
     {
       "epoch": 12.0,
+      "eval_loss": 2.448983907699585,
+      "eval_runtime": 0.2684,
+      "eval_samples_per_second": 543.977,
+      "eval_steps_per_second": 18.629,
+      "step": 180
     },
     {
       "epoch": 13.0,
+      "eval_loss": 2.3829126358032227,
+      "eval_runtime": 0.2785,
+      "eval_samples_per_second": 524.252,
+      "eval_steps_per_second": 17.954,
+      "step": 195
     },
     {
       "epoch": 14.0,
+      "eval_loss": 2.501011610031128,
+      "eval_runtime": 0.2671,
+      "eval_samples_per_second": 546.582,
+      "eval_steps_per_second": 18.719,
+      "step": 210
     },
     {
       "epoch": 15.0,
+      "eval_loss": 2.427177906036377,
+      "eval_runtime": 0.2718,
+      "eval_samples_per_second": 537.134,
+      "eval_steps_per_second": 18.395,
+      "step": 225
     },
     {
       "epoch": 16.0,
+      "eval_loss": 2.421048879623413,
+      "eval_runtime": 0.2742,
+      "eval_samples_per_second": 532.533,
+      "eval_steps_per_second": 18.237,
+      "step": 240
     },
     {
       "epoch": 17.0,
+      "eval_loss": 2.342533826828003,
+      "eval_runtime": 0.2891,
+      "eval_samples_per_second": 505.042,
+      "eval_steps_per_second": 17.296,
+      "step": 255
     },
     {
       "epoch": 18.0,
+      "eval_loss": 2.398080348968506,
+      "eval_runtime": 0.2794,
+      "eval_samples_per_second": 522.517,
+      "eval_steps_per_second": 17.894,
+      "step": 270
     },
     {
       "epoch": 19.0,
+      "eval_loss": 2.3011465072631836,
+      "eval_runtime": 0.2774,
+      "eval_samples_per_second": 526.407,
+      "eval_steps_per_second": 18.028,
+      "step": 285
     },
     {
       "epoch": 20.0,
+      "eval_loss": 2.5109691619873047,
+      "eval_runtime": 0.2617,
+      "eval_samples_per_second": 557.964,
+      "eval_steps_per_second": 19.108,
+      "step": 300
     },
     {
       "epoch": 21.0,
+      "eval_loss": 2.381415843963623,
+      "eval_runtime": 0.2801,
+      "eval_samples_per_second": 521.25,
+      "eval_steps_per_second": 17.851,
+      "step": 315
     },
     {
       "epoch": 22.0,
+      "eval_loss": 2.3828046321868896,
+      "eval_runtime": 0.2743,
+      "eval_samples_per_second": 532.299,
+      "eval_steps_per_second": 18.229,
+      "step": 330
     },
     {
       "epoch": 23.0,
+      "eval_loss": 2.353680372238159,
+      "eval_runtime": 0.2779,
+      "eval_samples_per_second": 525.432,
+      "eval_steps_per_second": 17.994,
+      "step": 345
     },
     {
       "epoch": 24.0,
+      "eval_loss": 2.29482364654541,
+      "eval_runtime": 0.2832,
+      "eval_samples_per_second": 515.574,
+      "eval_steps_per_second": 17.657,
+      "step": 360
     },
     {
       "epoch": 25.0,
+      "eval_loss": 2.3079590797424316,
+      "eval_runtime": 0.3243,
+      "eval_samples_per_second": 450.187,
+      "eval_steps_per_second": 15.417,
+      "step": 375
     },
     {
       "epoch": 26.0,
+      "eval_loss": 2.379464864730835,
+      "eval_runtime": 0.2934,
+      "eval_samples_per_second": 497.692,
+      "eval_steps_per_second": 17.044,
+      "step": 390
     },
     {
       "epoch": 27.0,
+      "eval_loss": 2.37467885017395,
+      "eval_runtime": 0.2869,
+      "eval_samples_per_second": 508.855,
+      "eval_steps_per_second": 17.427,
+      "step": 405
     },
     {
       "epoch": 28.0,
+      "eval_loss": 2.3926637172698975,
+      "eval_runtime": 0.2792,
+      "eval_samples_per_second": 523.011,
+      "eval_steps_per_second": 17.911,
+      "step": 420
     },
     {
       "epoch": 29.0,
+      "eval_loss": 2.2542331218719482,
+      "eval_runtime": 0.2705,
+      "eval_samples_per_second": 539.84,
+      "eval_steps_per_second": 18.488,
+      "step": 435
     },
     {
       "epoch": 30.0,
+      "eval_loss": 2.312037944793701,
+      "eval_runtime": 0.2823,
+      "eval_samples_per_second": 517.14,
+      "eval_steps_per_second": 17.71,
+      "step": 450
     },
     {
       "epoch": 31.0,
+      "eval_loss": 2.2595930099487305,
+      "eval_runtime": 0.2709,
+      "eval_samples_per_second": 538.869,
+      "eval_steps_per_second": 18.454,
+      "step": 465
     },
     {
       "epoch": 32.0,
+      "eval_loss": 2.3319013118743896,
+      "eval_runtime": 0.2718,
+      "eval_samples_per_second": 537.135,
+      "eval_steps_per_second": 18.395,
+      "step": 480
     },
     {
       "epoch": 33.0,
+      "eval_loss": 2.321133852005005,
+      "eval_runtime": 0.3056,
+      "eval_samples_per_second": 477.789,
+      "eval_steps_per_second": 16.363,
+      "step": 495
     },
     {
       "epoch": 34.0,
+      "eval_loss": 2.3662209510803223,
+      "eval_runtime": 0.2727,
+      "eval_samples_per_second": 535.325,
+      "eval_steps_per_second": 18.333,
+      "step": 510
     },
     {
       "epoch": 35.0,
+      "eval_loss": 2.3607561588287354,
+      "eval_runtime": 0.2769,
+      "eval_samples_per_second": 527.269,
+      "eval_steps_per_second": 18.057,
+      "step": 525
     },
     {
       "epoch": 36.0,
+      "eval_loss": 2.2733652591705322,
+      "eval_runtime": 0.3144,
+      "eval_samples_per_second": 464.449,
+      "eval_steps_per_second": 15.906,
+      "step": 540
     },
     {
       "epoch": 37.0,
+      "eval_loss": 2.332275390625,
+      "eval_runtime": 0.2823,
+      "eval_samples_per_second": 517.096,
+      "eval_steps_per_second": 17.709,
+      "step": 555
     },
     {
       "epoch": 38.0,
+      "eval_loss": 2.3226001262664795,
+      "eval_runtime": 0.2722,
+      "eval_samples_per_second": 536.297,
+      "eval_steps_per_second": 18.366,
+      "step": 570
     },
     {
       "epoch": 39.0,
+      "eval_loss": 2.2499899864196777,
+      "eval_runtime": 0.2823,
+      "eval_samples_per_second": 517.269,
+      "eval_steps_per_second": 17.715,
+      "step": 585
     },
     {
       "epoch": 40.0,
+      "eval_loss": 2.3148353099823,
+      "eval_runtime": 0.2735,
+      "eval_samples_per_second": 533.755,
+      "eval_steps_per_second": 18.279,
+      "step": 600
     },
     {
+      "epoch": 40.73,
+      "learning_rate": 6.444444444444445e-06,
+      "loss": 2.4323,
+      "step": 611
     },
     {
       "epoch": 41.0,
+      "eval_loss": 2.190300464630127,
+      "eval_runtime": 0.279,
+      "eval_samples_per_second": 523.306,
+      "eval_steps_per_second": 17.921,
+      "step": 615
     },
     {
       "epoch": 42.0,
+      "eval_loss": 2.2688183784484863,
+      "eval_runtime": 0.2786,
+      "eval_samples_per_second": 524.054,
+      "eval_steps_per_second": 17.947,
+      "step": 630
     },
     {
       "epoch": 43.0,
+      "eval_loss": 2.3206570148468018,
+      "eval_runtime": 0.3166,
+      "eval_samples_per_second": 461.08,
+      "eval_steps_per_second": 15.79,
+      "step": 645
     },
     {
       "epoch": 44.0,
+      "eval_loss": 2.398860454559326,
+      "eval_runtime": 0.2802,
+      "eval_samples_per_second": 521.028,
+      "eval_steps_per_second": 17.843,
+      "step": 660
     },
     {
       "epoch": 45.0,
+      "eval_loss": 2.329181432723999,
+      "eval_runtime": 0.2845,
+      "eval_samples_per_second": 513.222,
+      "eval_steps_per_second": 17.576,
+      "step": 675
     },
     {
       "epoch": 46.0,
+      "eval_loss": 2.301910877227783,
+      "eval_runtime": 0.2825,
+      "eval_samples_per_second": 516.788,
+      "eval_steps_per_second": 17.698,
+      "step": 690
     },
     {
       "epoch": 47.0,
+      "eval_loss": 2.286062002182007,
+      "eval_runtime": 0.2774,
+      "eval_samples_per_second": 526.332,
+      "eval_steps_per_second": 18.025,
+      "step": 705
     },
     {
       "epoch": 48.0,
+      "eval_loss": 2.2627930641174316,
+      "eval_runtime": 0.3491,
+      "eval_samples_per_second": 418.174,
+      "eval_steps_per_second": 14.321,
+      "step": 720
     },
     {
       "epoch": 49.0,
+      "eval_loss": 2.3683576583862305,
+      "eval_runtime": 0.2828,
+      "eval_samples_per_second": 516.226,
+      "eval_steps_per_second": 17.679,
+      "step": 735
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 2.3841121196746826,
+      "eval_runtime": 0.2738,
+      "eval_samples_per_second": 533.204,
+      "eval_steps_per_second": 18.26,
+      "step": 750
+    },
+    {
+      "epoch": 51.0,
+      "eval_loss": 2.3427212238311768,
+      "eval_runtime": 0.2841,
+      "eval_samples_per_second": 513.874,
+      "eval_steps_per_second": 17.598,
+      "step": 765
+    },
+    {
+      "epoch": 52.0,
+      "eval_loss": 2.3786392211914062,
+      "eval_runtime": 0.2882,
+      "eval_samples_per_second": 506.555,
+      "eval_steps_per_second": 17.348,
+      "step": 780
+    },
+    {
+      "epoch": 53.0,
+      "eval_loss": 2.3314857482910156,
+      "eval_runtime": 0.3054,
+      "eval_samples_per_second": 478.014,
+      "eval_steps_per_second": 16.37,
+      "step": 795
+    },
+    {
+      "epoch": 54.0,
+      "eval_loss": 2.4228127002716064,
+      "eval_runtime": 0.2752,
+      "eval_samples_per_second": 530.586,
+      "eval_steps_per_second": 18.171,
+      "step": 810
+    },
+    {
+      "epoch": 55.0,
+      "eval_loss": 2.2979846000671387,
+      "eval_runtime": 0.2804,
+      "eval_samples_per_second": 520.739,
+      "eval_steps_per_second": 17.834,
+      "step": 825
+    },
+    {
+      "epoch": 56.0,
+      "eval_loss": 2.288037061691284,
+      "eval_runtime": 0.2706,
+      "eval_samples_per_second": 539.536,
+      "eval_steps_per_second": 18.477,
+      "step": 840
+    },
+    {
+      "epoch": 57.0,
+      "eval_loss": 2.375304698944092,
+      "eval_runtime": 0.2754,
+      "eval_samples_per_second": 530.218,
+      "eval_steps_per_second": 18.158,
+      "step": 855
+    },
+    {
+      "epoch": 58.0,
+      "eval_loss": 2.302351474761963,
+      "eval_runtime": 0.2976,
+      "eval_samples_per_second": 490.644,
+      "eval_steps_per_second": 16.803,
+      "step": 870
+    },
+    {
+      "epoch": 59.0,
+      "eval_loss": 2.2706165313720703,
+      "eval_runtime": 0.3674,
+      "eval_samples_per_second": 397.413,
+      "eval_steps_per_second": 13.61,
+      "step": 885
     }
   ],
+  "max_steps": 900,
+  "num_train_epochs": 60,
+  "total_flos": 196520659812864.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89ca1ca3557d4150cb0d838160870f5330797f6b3f02ab04d02a6520f1b7cfed
 size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:c01f1cfb649a682bee068d5207deba93cefefbe24e4ab9cc31a8c66c0b3e205d
 size 3643