huggingartists

Browse files

Files changed (11) hide show

README.md +3 -3
config.json +1 -1
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +2 -2
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
tokenizer_config.json +1 -1
trainer_state.json +582 -84
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/big-baby-tape")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/1htarx7k/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Big Baby Tape's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/3g1oe5ka) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/3g1oe5ka/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/big-baby-tape")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/2oh33los/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Big Baby Tape's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1s6lnq7u) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1s6lnq7u/artifacts) is logged and versioned.
 ## How to use

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "gpt2",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

 {
+  "_name_or_path": "huggingartists/big-baby-tape",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 1.~~8946211338043213~~, "eval_runtime": 10.~~5235~~, "eval_samples_per_second": 22.~~141~~, "eval_steps_per_second": 2.~~851~~, "epoch": 1.0}


1	+ {"eval_loss": 1.7459986209869385, "eval_runtime": 9.6814, "eval_samples_per_second": 20.142, "eval_steps_per_second": 2.582, "epoch": 4.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44d87f70a283f33a59661b0fe30fe1f9cff19d9800e930e3708095a5e6458c56
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb5c95a97e20f7c95d543dc5984fc5037b700d9f4b39e1b5e4f6b58ce0293f31
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5840e665a12f250aefcbd09f8ad23143611ffa62d50914515f5b3acf3bd54c9d
-size 995603825

 version https://git-lfs.github.com/spec/v1
+oid sha256:234a4acde292f927cb5081f20b7a098d4310346b486b808347df772453d38fbe
+size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b476da6a207efc2b6a2780dae8d0dc6d3f8797b977d1cbb20db331183108af2
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:97121acb26a6fa4c7fb4a741eb682f5cf8f1b3bb9f337fe691b8c152067e55fe
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:911921c48e2767fcdd364e55b8ac5adb7fa66719512f66f920a291ef0ff95179
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:077dc7f31533b68ea237703ffc91a5ac35fd4765522f824d8d2330befe10761d
+size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00dd6b6c01d14ec8bb955c14a18bd11e818291c6d3cf3ac44048cedcc0186d76
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:bac8ceca19c5c4936fbf77b46507ea6d5819a16be52083fb75390b76c3994a44
 size 623

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"unk_token": "<\|endoftext\|>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "~~gpt2~~", "tokenizer_class": "GPT2Tokenizer"}


1	+ {"unk_token": "<\|endoftext\|>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "huggingartists/big-baby-tape", "tokenizer_class": "GPT2Tokenizer"}

trainer_state.json CHANGED Viewed

@@ -1,174 +1,672 @@
 {
-  "best_metric": 1.8946211338043213,
-  "best_model_checkpoint": "output/big-baby-tape/checkpoint-126",
-  "epoch": 1.0,
-  "global_step": 126,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "learning_rate": 0.0001366676095727718,
-      "loss": 2.7486,
       "step": 5
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.00013507870183531476,
-      "loss": 2.6211,
       "step": 10
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.0001324579391569924,
-      "loss": 2.2625,
       "step": 15
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 0.00012884599993319768,
-      "loss": 2.3757,
       "step": 20
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 0.00012429894719210777,
-      "loss": 2.3396,
       "step": 25
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 0.00011888735840752609,
-      "loss": 2.2627,
       "step": 30
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 0.00011269523002449659,
-      "loss": 2.226,
       "step": 35
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 0.0001058186737011911,
-      "loss": 2.1916,
       "step": 40
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 9.836442450346448e-05,
-      "loss": 2.2987,
       "step": 45
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 9.044818420726556e-05,
-      "loss": 2.0771,
       "step": 50
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 8.219282542347867e-05,
-      "loss": 2.1651,
       "step": 55
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 7.372648442002871e-05,
-      "loss": 2.1705,
       "step": 60
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 6.518057224367617e-05,
-      "loss": 2.0684,
       "step": 65
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 5.668773501204858e-05,
-      "loss": 2.025,
       "step": 70
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 4.837979503541197e-05,
-      "loss": 2.1328,
       "step": 75
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 4.0385704725240065e-05,
-      "loss": 2.076,
       "step": 80
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 3.282954504816644e-05,
-      "loss": 2.0965,
       "step": 85
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 2.5828599592490882e-05,
-      "loss": 2.157,
       "step": 90
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 1.9491534140783314e-05,
-      "loss": 2.0402,
       "step": 95
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 1.3916710004507539e-05,
-      "loss": 2.0006,
       "step": 100
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 9.190657300387505e-06,
-      "loss": 1.993,
       "step": 105
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 5.38673186569003e-06,
-      "loss": 2.0394,
       "step": 110
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 2.5639766592291746e-06,
-      "loss": 1.9176,
       "step": 115
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 7.662053209561833e-07,
-      "loss": 2.0078,
       "step": 120
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 2.132211474400556e-08,
-      "loss": 2.0426,
       "step": 125
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.8946211338043213,
-      "eval_runtime": 10.3833,
-      "eval_samples_per_second": 22.44,
-      "eval_steps_per_second": 2.889,
-      "step": 126
     }
   ],
-  "max_steps": 126,
-  "num_train_epochs": 1,
-  "total_flos": 130776662016000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.7459986209869385,
+  "best_model_checkpoint": "output/big-baby-tape/checkpoint-520",
+  "epoch": 4.0,
+  "global_step": 520,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "learning_rate": 5.001712368734975e-07,
+      "loss": 1.923,
       "step": 5
     },
     {
       "epoch": 0.08,
+      "learning_rate": 1.9933913245728244e-06,
+      "loss": 2.0321,
       "step": 10
     },
     {
       "epoch": 0.12,
+      "learning_rate": 4.457885751780542e-06,
+      "loss": 2.0426,
       "step": 15
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 7.857716640189785e-06,
+      "loss": 2.0776,
       "step": 20
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 1.2143306799695167e-05,
+      "loss": 1.9711,
       "step": 25
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 1.7252162675462473e-05,
+      "loss": 2.0637,
       "step": 30
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 2.3109785644681427e-05,
+      "loss": 1.8713,
       "step": 35
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 2.9630758374242703e-05,
+      "loss": 2.088,
       "step": 40
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 3.671999039779749e-05,
+      "loss": 1.9995,
       "step": 45
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 4.427410474888204e-05,
+      "loss": 2.0004,
       "step": 50
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 5.218294542987354e-05,
+      "loss": 1.9791,
       "step": 55
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 6.03311837344848e-05,
+      "loss": 1.882,
       "step": 60
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 6.859999999999999e-05,
+      "loss": 1.8736,
       "step": 65
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 7.686881626551516e-05,
+      "loss": 1.9173,
       "step": 70
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 8.501705457012643e-05,
+      "loss": 2.0122,
       "step": 75
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 9.292589525111794e-05,
+      "loss": 1.871,
       "step": 80
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 0.00010048000960220248,
+      "loss": 2.0619,
       "step": 85
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 0.00010756924162575728,
+      "loss": 1.9238,
       "step": 90
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 0.00011409021435531856,
+      "loss": 2.0238,
       "step": 95
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 0.0001199478373245375,
+      "loss": 1.9745,
       "step": 100
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 0.00012505669320030482,
+      "loss": 1.9809,
       "step": 105
     },
     {
+      "epoch": 0.85,
+      "learning_rate": 0.0001293422833598102,
+      "loss": 1.8881,
       "step": 110
     },
     {
+      "epoch": 0.88,
+      "learning_rate": 0.00013274211424821946,
+      "loss": 1.8788,
       "step": 115
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 0.00013520660867542716,
+      "loss": 1.984,
       "step": 120
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 0.00013669982876312649,
+      "loss": 1.9443,
       "step": 125
     },
     {
       "epoch": 1.0,
+      "learning_rate": 0.0001372,
+      "loss": 1.9006,
+      "step": 130
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.9121332168579102,
+      "eval_runtime": 9.6453,
+      "eval_samples_per_second": 20.217,
+      "eval_steps_per_second": 2.592,
+      "step": 130
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0001366998287631265,
+      "loss": 1.8831,
+      "step": 135
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00013520660867542716,
+      "loss": 1.8547,
+      "step": 140
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00013274211424821946,
+      "loss": 1.87,
+      "step": 145
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00012934228335981023,
+      "loss": 1.8612,
+      "step": 150
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00012505669320030482,
+      "loss": 1.7875,
+      "step": 155
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00011994783732453754,
+      "loss": 1.8327,
+      "step": 160
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00011409021435531858,
+      "loss": 1.9541,
+      "step": 165
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00010756924162575734,
+      "loss": 1.8205,
+      "step": 170
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00010048000960220251,
+      "loss": 1.8993,
+      "step": 175
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 9.292589525111797e-05,
+      "loss": 1.8431,
+      "step": 180
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 8.501705457012652e-05,
+      "loss": 1.8127,
+      "step": 185
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 7.686881626551514e-05,
+      "loss": 1.8428,
+      "step": 190
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 6.860000000000001e-05,
+      "loss": 1.7509,
+      "step": 195
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 6.03311837344849e-05,
+      "loss": 1.7859,
+      "step": 200
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.218294542987351e-05,
+      "loss": 1.8358,
+      "step": 205
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.427410474888207e-05,
+      "loss": 1.7393,
+      "step": 210
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 3.6719990397797524e-05,
+      "loss": 1.8051,
+      "step": 215
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 2.9630758374242683e-05,
+      "loss": 1.8083,
+      "step": 220
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 2.310978564468145e-05,
+      "loss": 1.7062,
+      "step": 225
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1.7252162675462497e-05,
+      "loss": 1.7829,
+      "step": 230
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 1.214330679969522e-05,
+      "loss": 1.7874,
+      "step": 235
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 7.8577166401898e-06,
+      "loss": 1.8435,
+      "step": 240
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 4.457885751780558e-06,
+      "loss": 1.8288,
+      "step": 245
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.9933913245728472e-06,
+      "loss": 1.7984,
+      "step": 250
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 5.001712368734975e-07,
+      "loss": 1.8331,
+      "step": 255
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0,
+      "loss": 1.8175,
+      "step": 260
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.8163535594940186,
+      "eval_runtime": 9.657,
+      "eval_samples_per_second": 20.193,
+      "eval_steps_per_second": 2.589,
+      "step": 260
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 5.001712368734899e-07,
+      "loss": 1.7297,
+      "step": 265
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 1.9933913245728396e-06,
+      "loss": 1.5719,
+      "step": 270
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 4.457885751780535e-06,
+      "loss": 1.7261,
+      "step": 275
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 7.857716640189778e-06,
+      "loss": 1.6366,
+      "step": 280
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 1.2143306799695189e-05,
+      "loss": 1.8032,
+      "step": 285
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 1.725216267546246e-05,
+      "loss": 1.8041,
+      "step": 290
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 2.310978564468141e-05,
+      "loss": 1.752,
+      "step": 295
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 2.9630758374242642e-05,
+      "loss": 1.831,
+      "step": 300
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 3.671999039779748e-05,
+      "loss": 1.6489,
+      "step": 305
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 4.427410474888202e-05,
+      "loss": 1.7224,
+      "step": 310
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 5.218294542987346e-05,
+      "loss": 1.6862,
+      "step": 315
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 6.033118373448485e-05,
+      "loss": 1.7129,
+      "step": 320
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 6.859999999999997e-05,
+      "loss": 1.9049,
+      "step": 325
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 7.68688162655151e-05,
+      "loss": 1.8259,
+      "step": 330
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 8.501705457012648e-05,
+      "loss": 1.7537,
+      "step": 335
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 9.292589525111793e-05,
+      "loss": 1.7193,
+      "step": 340
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.00010048000960220248,
+      "loss": 1.7921,
+      "step": 345
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.00010756924162575731,
+      "loss": 1.7727,
+      "step": 350
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00011409021435531856,
+      "loss": 1.8267,
+      "step": 355
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0001199478373245375,
+      "loss": 1.6066,
+      "step": 360
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.0001250566932003048,
+      "loss": 1.757,
+      "step": 365
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.00012934228335981018,
+      "loss": 1.7909,
+      "step": 370
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.00013274211424821943,
+      "loss": 1.7481,
+      "step": 375
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.00013520660867542716,
+      "loss": 1.7786,
+      "step": 380
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.00013669982876312649,
+      "loss": 1.689,
+      "step": 385
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.0001372,
+      "loss": 1.7754,
+      "step": 390
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.8065567016601562,
+      "eval_runtime": 9.6575,
+      "eval_samples_per_second": 20.192,
+      "eval_steps_per_second": 2.589,
+      "step": 390
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 0.0001366998287631265,
+      "loss": 1.6829,
+      "step": 395
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 0.0001352066086754272,
+      "loss": 1.7295,
+      "step": 400
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 0.0001327421142482195,
+      "loss": 1.6853,
+      "step": 405
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 0.00012934228335981015,
+      "loss": 1.7343,
+      "step": 410
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 0.00012505669320030482,
+      "loss": 1.7685,
+      "step": 415
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 0.00011994783732453755,
+      "loss": 1.6945,
+      "step": 420
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 0.00011409021435531858,
+      "loss": 1.7482,
+      "step": 425
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 0.00010756924162575738,
+      "loss": 1.5529,
+      "step": 430
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 0.00010048000960220263,
+      "loss": 1.7141,
+      "step": 435
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 9.292589525111788e-05,
+      "loss": 1.6804,
+      "step": 440
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 8.501705457012643e-05,
+      "loss": 1.7525,
+      "step": 445
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 7.686881626551516e-05,
+      "loss": 1.6325,
+      "step": 450
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 6.860000000000003e-05,
+      "loss": 1.6941,
+      "step": 455
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 6.033118373448492e-05,
+      "loss": 1.5753,
+      "step": 460
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 5.218294542987365e-05,
+      "loss": 1.6565,
+      "step": 465
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 4.42741047488822e-05,
+      "loss": 1.6553,
+      "step": 470
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 3.671999039779743e-05,
+      "loss": 1.5705,
+      "step": 475
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 2.9630758374242696e-05,
+      "loss": 1.7043,
+      "step": 480
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 2.3109785644681465e-05,
+      "loss": 1.5999,
+      "step": 485
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 1.7252162675462504e-05,
+      "loss": 1.675,
+      "step": 490
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 1.2143306799695228e-05,
+      "loss": 1.6187,
+      "step": 495
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 7.857716640189861e-06,
+      "loss": 1.5483,
+      "step": 500
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 4.4578857517805195e-06,
+      "loss": 1.6583,
+      "step": 505
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 1.9933913245728244e-06,
+      "loss": 1.6295,
+      "step": 510
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 5.001712368734975e-07,
+      "loss": 1.5502,
+      "step": 515
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 0.0,
+      "loss": 1.7657,
+      "step": 520
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.7459986209869385,
+      "eval_runtime": 9.6571,
+      "eval_samples_per_second": 20.192,
+      "eval_steps_per_second": 2.589,
+      "step": 520
     }
   ],
+  "max_steps": 520,
+  "num_train_epochs": 4,
+  "total_flos": 542964842496000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a697d9fe12925fe593db615b6532711275101c30a75091651a57d54878a90dd9
 size 2671

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b5708c7447842968121331f651a0667504a3cf69e6dddb04ddfb6f7d888825b
 size 2671