upload new version

Browse files

Files changed (8) hide show

all_results.json +15 -15
eval_results.json +6 -6
predict_results.json +5 -5
predictions.txt +0 -0
pytorch_model.bin +1 -1
train_results.json +5 -5
trainer_state.json +487 -175
training_args.bin +2 -2

all_results.json CHANGED Viewed

@@ -1,20 +1,20 @@
 {
-    "epoch": 3.0,
-    "eval_accuracy": 0.3333333333333333,
-    "eval_loss": 1.0986398458480835,
-    "eval_runtime": 4.7036,
     "eval_samples": 2490,
-    "eval_samples_per_second": 529.38,
-    "eval_steps_per_second": 66.332,
-    "predict_accuracy": 0.3333333333333333,
-    "predict_loss": 1.098639965057373,
-    "predict_runtime": 9.4394,
     "predict_samples": 5010,
-    "predict_samples_per_second": 530.754,
-    "predict_steps_per_second": 66.424,
-    "train_loss": 1.0997137627566393,
-    "train_runtime": 7140.2329,
     "train_samples": 392702,
-    "train_samples_per_second": 164.995,
-    "train_steps_per_second": 5.156
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.7072289156626506,
+    "eval_loss": 0.6941096782684326,
+    "eval_runtime": 4.8482,
     "eval_samples": 2490,
+    "eval_samples_per_second": 513.595,
+    "eval_steps_per_second": 64.354,
+    "predict_accuracy": 0.7121756487025949,
+    "predict_loss": 0.6680849194526672,
+    "predict_runtime": 9.7657,
     "predict_samples": 5010,
+    "predict_samples_per_second": 513.02,
+    "predict_steps_per_second": 64.204,
+    "train_loss": 0.6272442545387238,
+    "train_runtime": 12094.1727,
     "train_samples": 392702,
+    "train_samples_per_second": 162.352,
+    "train_steps_per_second": 5.074
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 3.0,
-    "eval_accuracy": 0.3333333333333333,
-    "eval_loss": 1.0986398458480835,
-    "eval_runtime": 4.7036,
     "eval_samples": 2490,
-    "eval_samples_per_second": 529.38,
-    "eval_steps_per_second": 66.332
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.7072289156626506,
+    "eval_loss": 0.6941096782684326,
+    "eval_runtime": 4.8482,
     "eval_samples": 2490,
+    "eval_samples_per_second": 513.595,
+    "eval_steps_per_second": 64.354
 }

predict_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "predict_accuracy": 0.3333333333333333,
-    "predict_loss": 1.098639965057373,
-    "predict_runtime": 9.4394,
     "predict_samples": 5010,
-    "predict_samples_per_second": 530.754,
-    "predict_steps_per_second": 66.424
 }

 {
+    "predict_accuracy": 0.7121756487025949,
+    "predict_loss": 0.6680849194526672,
+    "predict_runtime": 9.7657,
     "predict_samples": 5010,
+    "predict_samples_per_second": 513.02,
+    "predict_steps_per_second": 64.204
 }

predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8d5e195bce62a8f17bbea2d9797120a991bee7fac0a55afb31620d1b6a22b33
 size 1112257205

 version https://git-lfs.github.com/spec/v1
+oid sha256:eac31853255822987a9524fdf5859e4ed00afbd78a9321592c30b77de29343b9
 size 1112257205

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 1.0997137627566393,
-    "train_runtime": 7140.2329,
     "train_samples": 392702,
-    "train_samples_per_second": 164.995,
-    "train_steps_per_second": 5.156
 }

 {
+    "epoch": 5.0,
+    "train_loss": 0.6272442545387238,
+    "train_runtime": 12094.1727,
     "train_samples": 392702,
+    "train_samples_per_second": 162.352,
+    "train_steps_per_second": 5.074
 }

trainer_state.json CHANGED Viewed

@@ -1,490 +1,802 @@
 {
-  "best_metric": 1.0986398458480835,
-  "best_model_checkpoint": "hindi_xlm_xnli/checkpoint-12272",
-  "epoch": 3.0,
-  "global_step": 36816,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "learning_rate": 4.932094741416776e-05,
-      "loss": 1.1048,
       "step": 500
     },
     {
       "epoch": 0.08,
-      "learning_rate": 4.864189482833551e-05,
-      "loss": 1.1022,
       "step": 1000
     },
     {
       "epoch": 0.12,
-      "learning_rate": 4.7962842242503265e-05,
-      "loss": 1.1026,
       "step": 1500
     },
     {
       "epoch": 0.16,
-      "learning_rate": 4.728378965667101e-05,
-      "loss": 1.1017,
       "step": 2000
     },
     {
       "epoch": 0.2,
-      "learning_rate": 4.660473707083877e-05,
-      "loss": 1.1017,
       "step": 2500
     },
     {
       "epoch": 0.24,
-      "learning_rate": 4.592568448500652e-05,
-      "loss": 1.1011,
       "step": 3000
     },
     {
       "epoch": 0.29,
-      "learning_rate": 4.5246631899174276e-05,
-      "loss": 1.1014,
       "step": 3500
     },
     {
       "epoch": 0.33,
-      "learning_rate": 4.456757931334203e-05,
-      "loss": 1.1009,
       "step": 4000
     },
     {
       "epoch": 0.37,
-      "learning_rate": 4.3888526727509784e-05,
-      "loss": 1.1013,
       "step": 4500
     },
     {
       "epoch": 0.41,
-      "learning_rate": 4.320947414167754e-05,
-      "loss": 1.101,
       "step": 5000
     },
     {
       "epoch": 0.45,
-      "learning_rate": 4.2530421555845286e-05,
-      "loss": 1.1005,
       "step": 5500
     },
     {
       "epoch": 0.49,
-      "learning_rate": 4.185136897001304e-05,
-      "loss": 1.1004,
       "step": 6000
     },
     {
       "epoch": 0.53,
-      "learning_rate": 4.1172316384180795e-05,
-      "loss": 1.1003,
       "step": 6500
     },
     {
       "epoch": 0.57,
-      "learning_rate": 4.049326379834855e-05,
-      "loss": 1.1003,
       "step": 7000
     },
     {
       "epoch": 0.61,
-      "learning_rate": 3.98142112125163e-05,
-      "loss": 1.1008,
       "step": 7500
     },
     {
       "epoch": 0.65,
-      "learning_rate": 3.913515862668405e-05,
-      "loss": 1.1002,
       "step": 8000
     },
     {
       "epoch": 0.69,
-      "learning_rate": 3.8456106040851805e-05,
-      "loss": 1.1009,
       "step": 8500
     },
     {
       "epoch": 0.73,
-      "learning_rate": 3.777705345501956e-05,
-      "loss": 1.1002,
       "step": 9000
     },
     {
       "epoch": 0.77,
-      "learning_rate": 3.7098000869187314e-05,
-      "loss": 1.1003,
       "step": 9500
     },
     {
       "epoch": 0.81,
-      "learning_rate": 3.641894828335506e-05,
-      "loss": 1.1003,
       "step": 10000
     },
     {
       "epoch": 0.86,
-      "learning_rate": 3.5739895697522816e-05,
-      "loss": 1.1003,
       "step": 10500
     },
     {
       "epoch": 0.9,
-      "learning_rate": 3.506084311169057e-05,
-      "loss": 1.0997,
       "step": 11000
     },
     {
       "epoch": 0.94,
-      "learning_rate": 3.4381790525858324e-05,
-      "loss": 1.0994,
       "step": 11500
     },
     {
       "epoch": 0.98,
-      "learning_rate": 3.370273794002607e-05,
-      "loss": 1.1002,
       "step": 12000
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.3333333333333333,
-      "eval_loss": 1.0986398458480835,
-      "eval_runtime": 4.7521,
-      "eval_samples_per_second": 523.98,
-      "eval_steps_per_second": 65.655,
       "step": 12272
     },
     {
       "epoch": 1.02,
-      "learning_rate": 3.3023685354193826e-05,
-      "loss": 1.0996,
       "step": 12500
     },
     {
       "epoch": 1.06,
-      "learning_rate": 3.234463276836158e-05,
-      "loss": 1.0999,
       "step": 13000
     },
     {
       "epoch": 1.1,
-      "learning_rate": 3.1665580182529335e-05,
-      "loss": 1.1,
       "step": 13500
     },
     {
       "epoch": 1.14,
-      "learning_rate": 3.098652759669709e-05,
-      "loss": 1.0992,
       "step": 14000
     },
     {
       "epoch": 1.18,
-      "learning_rate": 3.0307475010864843e-05,
-      "loss": 1.0997,
       "step": 14500
     },
     {
       "epoch": 1.22,
-      "learning_rate": 2.9628422425032598e-05,
-      "loss": 1.0993,
       "step": 15000
     },
     {
       "epoch": 1.26,
-      "learning_rate": 2.8949369839200345e-05,
-      "loss": 1.0996,
       "step": 15500
     },
     {
       "epoch": 1.3,
-      "learning_rate": 2.82703172533681e-05,
-      "loss": 1.0996,
       "step": 16000
     },
     {
       "epoch": 1.34,
-      "learning_rate": 2.7591264667535854e-05,
-      "loss": 1.0994,
       "step": 16500
     },
     {
       "epoch": 1.39,
-      "learning_rate": 2.6912212081703608e-05,
-      "loss": 1.0996,
       "step": 17000
     },
     {
       "epoch": 1.43,
-      "learning_rate": 2.6233159495871362e-05,
-      "loss": 1.0993,
       "step": 17500
     },
     {
       "epoch": 1.47,
-      "learning_rate": 2.5554106910039117e-05,
-      "loss": 1.099,
       "step": 18000
     },
     {
       "epoch": 1.51,
-      "learning_rate": 2.4875054324206867e-05,
-      "loss": 1.0994,
       "step": 18500
     },
     {
       "epoch": 1.55,
-      "learning_rate": 2.4196001738374622e-05,
-      "loss": 1.0992,
       "step": 19000
     },
     {
       "epoch": 1.59,
-      "learning_rate": 2.3516949152542376e-05,
-      "loss": 1.0993,
       "step": 19500
     },
     {
       "epoch": 1.63,
-      "learning_rate": 2.2837896566710127e-05,
-      "loss": 1.0991,
       "step": 20000
     },
     {
       "epoch": 1.67,
-      "learning_rate": 2.215884398087788e-05,
-      "loss": 1.0991,
       "step": 20500
     },
     {
       "epoch": 1.71,
-      "learning_rate": 2.1479791395045636e-05,
-      "loss": 1.0992,
       "step": 21000
     },
     {
       "epoch": 1.75,
-      "learning_rate": 2.0800738809213386e-05,
-      "loss": 1.0992,
       "step": 21500
     },
     {
       "epoch": 1.79,
-      "learning_rate": 2.012168622338114e-05,
-      "loss": 1.0995,
       "step": 22000
     },
     {
       "epoch": 1.83,
-      "learning_rate": 1.944263363754889e-05,
-      "loss": 1.099,
       "step": 22500
     },
     {
       "epoch": 1.87,
-      "learning_rate": 1.8763581051716646e-05,
-      "loss": 1.0993,
       "step": 23000
     },
     {
       "epoch": 1.91,
-      "learning_rate": 1.8084528465884397e-05,
-      "loss": 1.0994,
       "step": 23500
     },
     {
       "epoch": 1.96,
-      "learning_rate": 1.740547588005215e-05,
-      "loss": 1.0989,
       "step": 24000
     },
     {
       "epoch": 2.0,
-      "learning_rate": 1.6726423294219905e-05,
-      "loss": 1.099,
       "step": 24500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.3333333333333333,
-      "eval_loss": 1.0986965894699097,
-      "eval_runtime": 4.7432,
-      "eval_samples_per_second": 524.96,
-      "eval_steps_per_second": 65.778,
       "step": 24544
     },
     {
       "epoch": 2.04,
-      "learning_rate": 1.6047370708387656e-05,
-      "loss": 1.0988,
       "step": 25000
     },
     {
       "epoch": 2.08,
-      "learning_rate": 1.536831812255541e-05,
-      "loss": 1.0991,
       "step": 25500
     },
     {
       "epoch": 2.12,
-      "learning_rate": 1.4689265536723165e-05,
-      "loss": 1.099,
       "step": 26000
     },
     {
       "epoch": 2.16,
-      "learning_rate": 1.4010212950890916e-05,
-      "loss": 1.099,
       "step": 26500
     },
     {
       "epoch": 2.2,
-      "learning_rate": 1.333116036505867e-05,
-      "loss": 1.0991,
       "step": 27000
     },
     {
       "epoch": 2.24,
-      "learning_rate": 1.2652107779226425e-05,
-      "loss": 1.0988,
       "step": 27500
     },
     {
       "epoch": 2.28,
-      "learning_rate": 1.1973055193394177e-05,
-      "loss": 1.0993,
       "step": 28000
     },
     {
       "epoch": 2.32,
-      "learning_rate": 1.1294002607561931e-05,
-      "loss": 1.0989,
       "step": 28500
     },
     {
       "epoch": 2.36,
-      "learning_rate": 1.0614950021729684e-05,
-      "loss": 1.0985,
       "step": 29000
     },
     {
       "epoch": 2.4,
-      "learning_rate": 9.935897435897435e-06,
-      "loss": 1.0991,
       "step": 29500
     },
     {
       "epoch": 2.44,
-      "learning_rate": 9.25684485006519e-06,
-      "loss": 1.0989,
       "step": 30000
     },
     {
       "epoch": 2.49,
-      "learning_rate": 8.577792264232942e-06,
-      "loss": 1.0985,
       "step": 30500
     },
     {
       "epoch": 2.53,
-      "learning_rate": 7.898739678400696e-06,
-      "loss": 1.099,
       "step": 31000
     },
     {
       "epoch": 2.57,
-      "learning_rate": 7.219687092568449e-06,
-      "loss": 1.099,
       "step": 31500
     },
     {
       "epoch": 2.61,
-      "learning_rate": 6.540634506736203e-06,
-      "loss": 1.0991,
       "step": 32000
     },
     {
       "epoch": 2.65,
-      "learning_rate": 5.861581920903955e-06,
-      "loss": 1.0988,
       "step": 32500
     },
     {
       "epoch": 2.69,
-      "learning_rate": 5.182529335071708e-06,
-      "loss": 1.0988,
       "step": 33000
     },
     {
       "epoch": 2.73,
-      "learning_rate": 4.503476749239461e-06,
-      "loss": 1.0989,
       "step": 33500
     },
     {
       "epoch": 2.77,
-      "learning_rate": 3.824424163407214e-06,
-      "loss": 1.0988,
       "step": 34000
     },
     {
       "epoch": 2.81,
-      "learning_rate": 3.1453715775749674e-06,
-      "loss": 1.0988,
       "step": 34500
     },
     {
       "epoch": 2.85,
-      "learning_rate": 2.466318991742721e-06,
-      "loss": 1.0989,
       "step": 35000
     },
     {
       "epoch": 2.89,
-      "learning_rate": 1.7872664059104738e-06,
-      "loss": 1.0987,
       "step": 35500
     },
     {
       "epoch": 2.93,
-      "learning_rate": 1.108213820078227e-06,
-      "loss": 1.0987,
       "step": 36000
     },
     {
       "epoch": 2.97,
-      "learning_rate": 4.2916123424598005e-07,
-      "loss": 1.0988,
       "step": 36500
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.3333333333333333,
-      "eval_loss": 1.0987015962600708,
-      "eval_runtime": 4.7438,
-      "eval_samples_per_second": 524.901,
-      "eval_steps_per_second": 65.771,
       "step": 36816
     },
     {
-      "epoch": 3.0,
-      "step": 36816,
-      "total_flos": 7.74938740264658e+16,
-      "train_loss": 1.0997137627566393,
-      "train_runtime": 7140.2329,
-      "train_samples_per_second": 164.995,
-      "train_steps_per_second": 5.156
     }
   ],
-  "max_steps": 36816,
-  "num_train_epochs": 3,
-  "total_flos": 7.74938740264658e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.7072289156626506,
+  "best_model_checkpoint": "models/hindi_xlm_xnli/checkpoint-24544",
+  "epoch": 5.0,
+  "global_step": 61360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "learning_rate": 1.983702737940026e-05,
+      "loss": 1.0782,
       "step": 500
     },
     {
       "epoch": 0.08,
+      "learning_rate": 1.9674054758800523e-05,
+      "loss": 0.9835,
       "step": 1000
     },
     {
       "epoch": 0.12,
+      "learning_rate": 1.9511082138200782e-05,
+      "loss": 0.9185,
       "step": 1500
     },
     {
       "epoch": 0.16,
+      "learning_rate": 1.9348109517601044e-05,
+      "loss": 0.8817,
       "step": 2000
     },
     {
       "epoch": 0.2,
+      "learning_rate": 1.9185136897001307e-05,
+      "loss": 0.8641,
       "step": 2500
     },
     {
       "epoch": 0.24,
+      "learning_rate": 1.9022164276401566e-05,
+      "loss": 0.8451,
       "step": 3000
     },
     {
       "epoch": 0.29,
+      "learning_rate": 1.8859191655801828e-05,
+      "loss": 0.8306,
       "step": 3500
     },
     {
       "epoch": 0.33,
+      "learning_rate": 1.8696219035202087e-05,
+      "loss": 0.8116,
       "step": 4000
     },
     {
       "epoch": 0.37,
+      "learning_rate": 1.853324641460235e-05,
+      "loss": 0.796,
       "step": 4500
     },
     {
       "epoch": 0.41,
+      "learning_rate": 1.837027379400261e-05,
+      "loss": 0.7946,
       "step": 5000
     },
     {
       "epoch": 0.45,
+      "learning_rate": 1.820730117340287e-05,
+      "loss": 0.7872,
       "step": 5500
     },
     {
       "epoch": 0.49,
+      "learning_rate": 1.804432855280313e-05,
+      "loss": 0.7875,
       "step": 6000
     },
     {
       "epoch": 0.53,
+      "learning_rate": 1.788135593220339e-05,
+      "loss": 0.7858,
       "step": 6500
     },
     {
       "epoch": 0.57,
+      "learning_rate": 1.771838331160365e-05,
+      "loss": 0.7762,
       "step": 7000
     },
     {
       "epoch": 0.61,
+      "learning_rate": 1.7555410691003914e-05,
+      "loss": 0.7681,
       "step": 7500
     },
     {
       "epoch": 0.65,
+      "learning_rate": 1.7392438070404173e-05,
+      "loss": 0.762,
       "step": 8000
     },
     {
       "epoch": 0.69,
+      "learning_rate": 1.7229465449804435e-05,
+      "loss": 0.7609,
       "step": 8500
     },
     {
       "epoch": 0.73,
+      "learning_rate": 1.7066492829204694e-05,
+      "loss": 0.7566,
       "step": 9000
     },
     {
       "epoch": 0.77,
+      "learning_rate": 1.6903520208604957e-05,
+      "loss": 0.7492,
       "step": 9500
     },
     {
       "epoch": 0.81,
+      "learning_rate": 1.6740547588005215e-05,
+      "loss": 0.7519,
       "step": 10000
     },
     {
       "epoch": 0.86,
+      "learning_rate": 1.6577574967405478e-05,
+      "loss": 0.752,
       "step": 10500
     },
     {
       "epoch": 0.9,
+      "learning_rate": 1.6414602346805737e-05,
+      "loss": 0.749,
       "step": 11000
     },
     {
       "epoch": 0.94,
+      "learning_rate": 1.6251629726206e-05,
+      "loss": 0.7408,
       "step": 11500
     },
     {
       "epoch": 0.98,
+      "learning_rate": 1.608865710560626e-05,
+      "loss": 0.7427,
       "step": 12000
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6626506024096386,
+      "eval_loss": 0.7575283646583557,
+      "eval_runtime": 5.1368,
+      "eval_samples_per_second": 484.741,
+      "eval_steps_per_second": 60.739,
       "step": 12272
     },
     {
       "epoch": 1.02,
+      "learning_rate": 1.592568448500652e-05,
+      "loss": 0.7104,
       "step": 12500
     },
     {
       "epoch": 1.06,
+      "learning_rate": 1.576271186440678e-05,
+      "loss": 0.6976,
       "step": 13000
     },
     {
       "epoch": 1.1,
+      "learning_rate": 1.5599739243807042e-05,
+      "loss": 0.6915,
       "step": 13500
     },
     {
       "epoch": 1.14,
+      "learning_rate": 1.54367666232073e-05,
+      "loss": 0.6892,
       "step": 14000
     },
     {
       "epoch": 1.18,
+      "learning_rate": 1.5273794002607563e-05,
+      "loss": 0.6871,
       "step": 14500
     },
     {
       "epoch": 1.22,
+      "learning_rate": 1.5110821382007822e-05,
+      "loss": 0.6946,
       "step": 15000
     },
     {
       "epoch": 1.26,
+      "learning_rate": 1.4947848761408083e-05,
+      "loss": 0.6798,
       "step": 15500
     },
     {
       "epoch": 1.3,
+      "learning_rate": 1.4784876140808346e-05,
+      "loss": 0.6797,
       "step": 16000
     },
     {
       "epoch": 1.34,
+      "learning_rate": 1.4621903520208606e-05,
+      "loss": 0.6809,
       "step": 16500
     },
     {
       "epoch": 1.39,
+      "learning_rate": 1.4458930899608867e-05,
+      "loss": 0.6944,
       "step": 17000
     },
     {
       "epoch": 1.43,
+      "learning_rate": 1.4295958279009128e-05,
+      "loss": 0.6872,
       "step": 17500
     },
     {
       "epoch": 1.47,
+      "learning_rate": 1.4132985658409388e-05,
+      "loss": 0.6873,
       "step": 18000
     },
     {
       "epoch": 1.51,
+      "learning_rate": 1.3970013037809649e-05,
+      "loss": 0.6801,
       "step": 18500
     },
     {
       "epoch": 1.55,
+      "learning_rate": 1.380704041720991e-05,
+      "loss": 0.6754,
       "step": 19000
     },
     {
       "epoch": 1.59,
+      "learning_rate": 1.364406779661017e-05,
+      "loss": 0.6804,
       "step": 19500
     },
     {
       "epoch": 1.63,
+      "learning_rate": 1.3481095176010431e-05,
+      "loss": 0.6833,
       "step": 20000
     },
     {
       "epoch": 1.67,
+      "learning_rate": 1.3318122555410693e-05,
+      "loss": 0.6759,
       "step": 20500
     },
     {
       "epoch": 1.71,
+      "learning_rate": 1.3155149934810954e-05,
+      "loss": 0.6777,
       "step": 21000
     },
     {
       "epoch": 1.75,
+      "learning_rate": 1.2992177314211213e-05,
+      "loss": 0.6802,
       "step": 21500
     },
     {
       "epoch": 1.79,
+      "learning_rate": 1.2829204693611474e-05,
+      "loss": 0.673,
       "step": 22000
     },
     {
       "epoch": 1.83,
+      "learning_rate": 1.2666232073011735e-05,
+      "loss": 0.6772,
       "step": 22500
     },
     {
       "epoch": 1.87,
+      "learning_rate": 1.2503259452411995e-05,
+      "loss": 0.6763,
       "step": 23000
     },
     {
       "epoch": 1.91,
+      "learning_rate": 1.2340286831812256e-05,
+      "loss": 0.6679,
       "step": 23500
     },
     {
       "epoch": 1.96,
+      "learning_rate": 1.2177314211212517e-05,
+      "loss": 0.6782,
       "step": 24000
     },
     {
       "epoch": 2.0,
+      "learning_rate": 1.2014341590612777e-05,
+      "loss": 0.6737,
       "step": 24500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7072289156626506,
+      "eval_loss": 0.6941096782684326,
+      "eval_runtime": 5.0446,
+      "eval_samples_per_second": 493.602,
+      "eval_steps_per_second": 61.849,
       "step": 24544
     },
     {
       "epoch": 2.04,
+      "learning_rate": 1.185136897001304e-05,
+      "loss": 0.6132,
       "step": 25000
     },
     {
       "epoch": 2.08,
+      "learning_rate": 1.16883963494133e-05,
+      "loss": 0.613,
       "step": 25500
     },
     {
       "epoch": 2.12,
+      "learning_rate": 1.1525423728813561e-05,
+      "loss": 0.6062,
       "step": 26000
     },
     {
       "epoch": 2.16,
+      "learning_rate": 1.1362451108213822e-05,
+      "loss": 0.6084,
       "step": 26500
     },
     {
       "epoch": 2.2,
+      "learning_rate": 1.1199478487614082e-05,
+      "loss": 0.6106,
       "step": 27000
     },
     {
       "epoch": 2.24,
+      "learning_rate": 1.1036505867014341e-05,
+      "loss": 0.6136,
       "step": 27500
     },
     {
       "epoch": 2.28,
+      "learning_rate": 1.0873533246414602e-05,
+      "loss": 0.6148,
       "step": 28000
     },
     {
       "epoch": 2.32,
+      "learning_rate": 1.0710560625814863e-05,
+      "loss": 0.6078,
       "step": 28500
     },
     {
       "epoch": 2.36,
+      "learning_rate": 1.0547588005215125e-05,
+      "loss": 0.6141,
       "step": 29000
     },
     {
       "epoch": 2.4,
+      "learning_rate": 1.0384615384615386e-05,
+      "loss": 0.6115,
       "step": 29500
     },
     {
       "epoch": 2.44,
+      "learning_rate": 1.0221642764015647e-05,
+      "loss": 0.6076,
       "step": 30000
     },
     {
       "epoch": 2.49,
+      "learning_rate": 1.0058670143415907e-05,
+      "loss": 0.6131,
       "step": 30500
     },
     {
       "epoch": 2.53,
+      "learning_rate": 9.895697522816168e-06,
+      "loss": 0.6036,
       "step": 31000
     },
     {
       "epoch": 2.57,
+      "learning_rate": 9.732724902216429e-06,
+      "loss": 0.6077,
       "step": 31500
     },
     {
       "epoch": 2.61,
+      "learning_rate": 9.56975228161669e-06,
+      "loss": 0.6129,
       "step": 32000
     },
     {
       "epoch": 2.65,
+      "learning_rate": 9.40677966101695e-06,
+      "loss": 0.6014,
       "step": 32500
     },
     {
       "epoch": 2.69,
+      "learning_rate": 9.24380704041721e-06,
+      "loss": 0.6137,
       "step": 33000
     },
     {
       "epoch": 2.73,
+      "learning_rate": 9.080834419817471e-06,
+      "loss": 0.5913,
       "step": 33500
     },
     {
       "epoch": 2.77,
+      "learning_rate": 8.917861799217732e-06,
+      "loss": 0.6113,
       "step": 34000
     },
     {
       "epoch": 2.81,
+      "learning_rate": 8.754889178617993e-06,
+      "loss": 0.615,
       "step": 34500
     },
     {
       "epoch": 2.85,
+      "learning_rate": 8.591916558018254e-06,
+      "loss": 0.6139,
       "step": 35000
     },
     {
       "epoch": 2.89,
+      "learning_rate": 8.428943937418514e-06,
+      "loss": 0.6065,
       "step": 35500
     },
     {
       "epoch": 2.93,
+      "learning_rate": 8.265971316818775e-06,
+      "loss": 0.6067,
       "step": 36000
     },
     {
       "epoch": 2.97,
+      "learning_rate": 8.102998696219036e-06,
+      "loss": 0.6036,
       "step": 36500
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.706425702811245,
+      "eval_loss": 0.7108311057090759,
+      "eval_runtime": 4.9237,
+      "eval_samples_per_second": 505.716,
+      "eval_steps_per_second": 63.367,
       "step": 36816
     },
     {
+      "epoch": 3.01,
+      "learning_rate": 7.940026075619296e-06,
+      "loss": 0.5806,
+      "step": 37000
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 7.777053455019557e-06,
+      "loss": 0.539,
+      "step": 37500
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 7.614080834419818e-06,
+      "loss": 0.5466,
+      "step": 38000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 7.451108213820078e-06,
+      "loss": 0.5441,
+      "step": 38500
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 7.288135593220339e-06,
+      "loss": 0.5403,
+      "step": 39000
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 7.125162972620601e-06,
+      "loss": 0.547,
+      "step": 39500
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 6.962190352020861e-06,
+      "loss": 0.552,
+      "step": 40000
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 6.799217731421122e-06,
+      "loss": 0.5487,
+      "step": 40500
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 6.636245110821382e-06,
+      "loss": 0.5434,
+      "step": 41000
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 6.473272490221643e-06,
+      "loss": 0.5483,
+      "step": 41500
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 6.310299869621904e-06,
+      "loss": 0.547,
+      "step": 42000
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 6.147327249022165e-06,
+      "loss": 0.5497,
+      "step": 42500
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 5.9843546284224255e-06,
+      "loss": 0.546,
+      "step": 43000
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 5.821382007822687e-06,
+      "loss": 0.5464,
+      "step": 43500
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 5.658409387222948e-06,
+      "loss": 0.5522,
+      "step": 44000
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 5.4954367666232076e-06,
+      "loss": 0.5534,
+      "step": 44500
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 5.332464146023468e-06,
+      "loss": 0.5584,
+      "step": 45000
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 5.169491525423729e-06,
+      "loss": 0.5458,
+      "step": 45500
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 5.0065189048239905e-06,
+      "loss": 0.5372,
+      "step": 46000
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 4.843546284224251e-06,
+      "loss": 0.539,
+      "step": 46500
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 4.680573663624511e-06,
+      "loss": 0.5461,
+      "step": 47000
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 4.5176010430247726e-06,
+      "loss": 0.534,
+      "step": 47500
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 4.354628422425033e-06,
+      "loss": 0.5356,
+      "step": 48000
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 4.191655801825294e-06,
+      "loss": 0.5397,
+      "step": 48500
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 4.028683181225555e-06,
+      "loss": 0.528,
+      "step": 49000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7008032128514057,
+      "eval_loss": 0.7767410278320312,
+      "eval_runtime": 4.9024,
+      "eval_samples_per_second": 507.915,
+      "eval_steps_per_second": 63.642,
+      "step": 49088
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 3.865710560625815e-06,
+      "loss": 0.5064,
+      "step": 49500
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 3.702737940026076e-06,
+      "loss": 0.4931,
+      "step": 50000
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 3.5397653194263363e-06,
+      "loss": 0.4878,
+      "step": 50500
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 3.3767926988265974e-06,
+      "loss": 0.4905,
+      "step": 51000
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 3.213820078226858e-06,
+      "loss": 0.4871,
+      "step": 51500
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 3.0508474576271192e-06,
+      "loss": 0.4869,
+      "step": 52000
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 2.8878748370273795e-06,
+      "loss": 0.5042,
+      "step": 52500
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 2.7249022164276406e-06,
+      "loss": 0.4899,
+      "step": 53000
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 2.5619295958279013e-06,
+      "loss": 0.4953,
+      "step": 53500
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 2.398956975228162e-06,
+      "loss": 0.4881,
+      "step": 54000
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 2.2359843546284227e-06,
+      "loss": 0.4998,
+      "step": 54500
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 2.0730117340286834e-06,
+      "loss": 0.5032,
+      "step": 55000
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 1.910039113428944e-06,
+      "loss": 0.4854,
+      "step": 55500
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 1.7470664928292048e-06,
+      "loss": 0.4972,
+      "step": 56000
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 1.5840938722294655e-06,
+      "loss": 0.4912,
+      "step": 56500
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 1.4211212516297262e-06,
+      "loss": 0.4955,
+      "step": 57000
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 1.258148631029987e-06,
+      "loss": 0.484,
+      "step": 57500
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 1.0951760104302478e-06,
+      "loss": 0.4871,
+      "step": 58000
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 9.322033898305086e-07,
+      "loss": 0.4871,
+      "step": 58500
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 7.692307692307694e-07,
+      "loss": 0.4791,
+      "step": 59000
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 6.0625814863103e-07,
+      "loss": 0.4957,
+      "step": 59500
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 4.432855280312908e-07,
+      "loss": 0.4803,
+      "step": 60000
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 2.803129074315515e-07,
+      "loss": 0.4851,
+      "step": 60500
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 1.1734028683181226e-07,
+      "loss": 0.4945,
+      "step": 61000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.6971887550200804,
+      "eval_loss": 0.8202624917030334,
+      "eval_runtime": 4.9127,
+      "eval_samples_per_second": 506.853,
+      "eval_steps_per_second": 63.509,
+      "step": 61360
+    },
+    {
+      "epoch": 5.0,
+      "step": 61360,
+      "total_flos": 1.2915645671077632e+17,
+      "train_loss": 0.6272442545387238,
+      "train_runtime": 12094.1727,
+      "train_samples_per_second": 162.352,
+      "train_steps_per_second": 5.074
     }
   ],
+  "max_steps": 61360,
+  "num_train_epochs": 5,
+  "total_flos": 1.2915645671077632e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c23805752adb1876aeaddea086e92cf12df7d3e9cd57c0c832732f8ddf930a2
-size 3387

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b85d27881a27304e8e1cdddcd69af64338afcdc25dbf870c1297de7dcf71a60
+size 3451