huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +537 -7
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/3ugwysdf/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/3ppfpolr) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/3ppfpolr/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/1mu4lqjp/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/2q3s5jtp) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/2q3s5jtp/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 2.~~4912426471710205~~, "eval_runtime": 31.~~0278~~, "eval_samples_per_second": 20.~~659~~, "eval_steps_per_second": 2.~~611~~, "epoch": 6.0}


1	+ {"eval_loss": 2.2795188426971436, "eval_runtime": 31.0656, "eval_samples_per_second": 22.275, "eval_steps_per_second": 2.801, "epoch": 3.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba86a7379d53933ac5e5218639ca8f842f5e002bf6366e9a3fd24bed24f28122
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:778af938d1eaa3d3f9dabbca66905ddad8fd0ef1c2c6856e32e51560809f9528
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7afdd4d66f7a5fb461c1f5449c0a88b116edb6baa5c5a18d3f1fc451d2c39538
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:f78b60a25dedda811fb282751adbda74c6f4550043a2cf072063f6a0c4267b91
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:511ec31b47c42ac20592874aafd4053e011c0a6029d1762336507dee879f4b62
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ceaf064a30f42afdc18a8bbf3c37df3a2224d7bdbc5d2eb4450c995c4f5e6d6
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:706c9e2b7a9643251c7e54913d71cd38a14dc9ea9c2c37f5a6c67a08aae9d978
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d122a44853bfd4a9455393e12da8ebc33e470bae150af53bcaf049c301e63b3
 size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0538d80c9e5b4ba41140beacd1f45a01b77629e237c5c71b0ff1ae309ea5115
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a0f31f350ab98f69a90467f5115b0c4ab363327ccd3ccde8a452d9f884d07bb
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 2.4912426471710205,
-  "best_model_checkpoint": "output/eminem/checkpoint-910",
-  "epoch": 2.0,
-  "global_step": 910,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1114,11 +1114,541 @@
       "eval_samples_per_second": 20.932,
       "eval_steps_per_second": 2.645,
       "step": 910
     }
   ],
-  "max_steps": 2730,
-  "num_train_epochs": 6,
-  "total_flos": 950057828352000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.2795188426971436,
+  "best_model_checkpoint": "output/eminem/checkpoint-1347",
+  "epoch": 3.0,
+  "global_step": 1347,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.932,
       "eval_steps_per_second": 2.645,
       "step": 910
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.1246491964533778e-05,
+      "loss": 2.424,
+      "step": 915
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 1.2598018517843792e-05,
+      "loss": 2.5084,
+      "step": 920
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 1.4018079085430647e-05,
+      "loss": 2.3701,
+      "step": 925
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.5504935827871155e-05,
+      "loss": 2.4517,
+      "step": 930
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 1.7056769162026474e-05,
+      "loss": 2.6206,
+      "step": 935
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 1.867167998781036e-05,
+      "loss": 2.5704,
+      "step": 940
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 2.0347692012266013e-05,
+      "loss": 2.4849,
+      "step": 945
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 2.208275416810954e-05,
+      "loss": 2.5616,
+      "step": 950
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 2.3874743123783855e-05,
+      "loss": 2.3109,
+      "step": 955
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 2.572146588194454e-05,
+      "loss": 2.4892,
+      "step": 960
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 2.7620662463202956e-05,
+      "loss": 2.443,
+      "step": 965
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 2.957000867184013e-05,
+      "loss": 2.4545,
+      "step": 970
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 3.156711894010725e-05,
+      "loss": 2.4657,
+      "step": 975
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 3.360954924763191e-05,
+      "loss": 2.1432,
+      "step": 980
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 3.569480011235739e-05,
+      "loss": 2.5793,
+      "step": 985
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 3.782031964935521e-05,
+      "loss": 2.3062,
+      "step": 990
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 3.998350669376499e-05,
+      "loss": 2.3345,
+      "step": 995
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 4.218171398404682e-05,
+      "loss": 2.5329,
+      "step": 1000
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 4.4412251401639226e-05,
+      "loss": 2.201,
+      "step": 1005
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 4.667238926307116e-05,
+      "loss": 2.5198,
+      "step": 1010
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 4.895936166048787e-05,
+      "loss": 2.5241,
+      "step": 1015
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 5.1270369846509574e-05,
+      "loss": 2.4079,
+      "step": 1020
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 5.360258565927803e-05,
+      "loss": 2.5147,
+      "step": 1025
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 5.595315498349983e-05,
+      "loss": 2.5063,
+      "step": 1030
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 5.83192012432515e-05,
+      "loss": 2.3742,
+      "step": 1035
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 6.069782892226903e-05,
+      "loss": 2.625,
+      "step": 1040
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 6.308612710742091e-05,
+      "loss": 2.4382,
+      "step": 1045
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 6.548117305101883e-05,
+      "loss": 2.4238,
+      "step": 1050
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.788003574761404e-05,
+      "loss": 2.4157,
+      "step": 1055
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 7.027977952089649e-05,
+      "loss": 2.5458,
+      "step": 1060
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 7.267746761631506e-05,
+      "loss": 2.5048,
+      "step": 1065
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 7.507016579501221e-05,
+      "loss": 2.5779,
+      "step": 1070
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 7.745494592468267e-05,
+      "loss": 2.5149,
+      "step": 1075
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 7.98288895629588e-05,
+      "loss": 2.4972,
+      "step": 1080
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 8.218909152893547e-05,
+      "loss": 2.2248,
+      "step": 1085
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 8.453266345847049e-05,
+      "loss": 2.3945,
+      "step": 1090
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 8.685673733890025e-05,
+      "loss": 2.4223,
+      "step": 1095
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 8.915846901885212e-05,
+      "loss": 2.5513,
+      "step": 1100
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 9.143504168885545e-05,
+      "loss": 2.527,
+      "step": 1105
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 9.368366932849205e-05,
+      "loss": 2.6526,
+      "step": 1110
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 9.590160011586822e-05,
+      "loss": 2.6926,
+      "step": 1115
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 9.808611979523307e-05,
+      "loss": 2.4965,
+      "step": 1120
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.00010023455499862926,
+      "loss": 2.4985,
+      "step": 1125
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.00010234427651749925,
+      "loss": 2.6502,
+      "step": 1130
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00010441270252025704,
+      "loss": 2.5715,
+      "step": 1135
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.00010643730171187608,
+      "loss": 2.1817,
+      "step": 1140
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.00010841559643163376,
+      "loss": 2.3754,
+      "step": 1145
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.00011034516568521922,
+      "loss": 2.8706,
+      "step": 1150
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.0001122236481074937,
+      "loss": 2.6822,
+      "step": 1155
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.0001140487448522782,
+      "loss": 2.5523,
+      "step": 1160
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0001158182224056317,
+      "loss": 2.4356,
+      "step": 1165
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.00011752991531917766,
+      "loss": 2.5516,
+      "step": 1170
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.00011918172886013147,
+      "loss": 2.4273,
+      "step": 1175
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.00012077164157479157,
+      "loss": 2.2673,
+      "step": 1180
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00012229770776234816,
+      "loss": 2.6163,
+      "step": 1185
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.000123758059855992,
+      "loss": 2.5445,
+      "step": 1190
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.00012515091070840103,
+      "loss": 2.3948,
+      "step": 1195
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.00012647455577881304,
+      "loss": 2.5891,
+      "step": 1200
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.00012772737521900558,
+      "loss": 2.5894,
+      "step": 1205
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.00012890783585563144,
+      "loss": 2.5051,
+      "step": 1210
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0001300144930664832,
+      "loss": 2.4751,
+      "step": 1215
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.00013104599254838963,
+      "loss": 2.4493,
+      "step": 1220
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00013200107197458417,
+      "loss": 2.4946,
+      "step": 1225
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0001328785625395121,
+      "loss": 2.4618,
+      "step": 1230
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.00013367739038918988,
+      "loss": 2.5223,
+      "step": 1235
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.0001343965779353643,
+      "loss": 2.4409,
+      "step": 1240
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0001350352450518637,
+      "loss": 2.3083,
+      "step": 1245
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.00013559261015167785,
+      "loss": 2.4411,
+      "step": 1250
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.0001360679911434468,
+      "loss": 2.3657,
+      "step": 1255
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.00013646080626618978,
+      "loss": 2.4467,
+      "step": 1260
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.0001367705748012514,
+      "loss": 2.3811,
+      "step": 1265
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.0001369969176605951,
+      "loss": 2.5053,
+      "step": 1270
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.00013713955785072274,
+      "loss": 2.7194,
+      "step": 1275
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0001371983208116533,
+      "loss": 2.5204,
+      "step": 1280
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.0001371731346305456,
+      "loss": 2.5025,
+      "step": 1285
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.00013706403012970347,
+      "loss": 2.4982,
+      "step": 1290
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.00013687114082885652,
+      "loss": 2.7208,
+      "step": 1295
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.00013659470278176106,
+      "loss": 2.5839,
+      "step": 1300
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.00013623505428732318,
+      "loss": 2.5333,
+      "step": 1305
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.0001357926354755953,
+      "loss": 2.5095,
+      "step": 1310
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 0.0001352679877691551,
+      "loss": 2.2663,
+      "step": 1315
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.00013466175322052366,
+      "loss": 2.5816,
+      "step": 1320
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.00013397467372643594,
+      "loss": 2.4828,
+      "step": 1325
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.00013320759011992343,
+      "loss": 2.5478,
+      "step": 1330
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 0.00013236144114132077,
+      "loss": 2.5125,
+      "step": 1335
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 0.0001314372622894558,
+      "loss": 2.5845,
+      "step": 1340
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.00013043618455442838,
+      "loss": 2.6289,
+      "step": 1345
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 2.2795188426971436,
+      "eval_runtime": 30.9908,
+      "eval_samples_per_second": 22.329,
+      "eval_steps_per_second": 2.807,
+      "step": 1347
     }
   ],
+  "max_steps": 1347,
+  "num_train_epochs": 3,
+  "total_flos": 1406012424192000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:041b139d86c291eb088ecf942b80f42d53377dc136dbec1a58bef984db28f0fc
 size 2671

 version https://git-lfs.github.com/spec/v1
+oid sha256:a20a91a1d8b949d119304f2ada1bfca86587c3aa3a905b75978d6260abbfcff4
 size 2671