Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +1 -4
adapter_model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +23 -143
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -22,10 +22,7 @@
     "v_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
-    "q_proj",
-    "gate_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

     "v_proj",
     "k_proj",
     "o_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae7caec5c4fee863bf7714e37b40940fc7b9a2ccc6b15c0c30d3921c100527e0
-size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:fecbabb257d4b758223de98c6bb3df3630a2ef8350900d11d691c68ddc87dfff
+size 27297544

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d739e54f808f363bd08093c5f2a5f61697f9f45e81c0cf8e124386e8db92dfec
-size 168150290

 version https://git-lfs.github.com/spec/v1
+oid sha256:07a718a3f933b148012bfd6ae847854cce775de7021cf1ccfbf9c28ebeeeb0e4
+size 54741498

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36dcfcfc803739dc7e39932af6ce6f1f2ce2c025976e7f00f389005f2c0584c1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a398f9b8128cc403794327e2cb46084defdbfce858e6984a5b910adfab5b773f
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ca6f8824afe881b980664c8bcb10698cb1c06b90190b1056d469e315eaee37a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5449d9d082a25061677758fd48dfced59c627b0e0309a0f36524214a3219778
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.28735632183908044,
   "eval_steps": 500,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -17,242 +17,122 @@
     {
       "epoch": 0.01,
       "learning_rate": 1.4285714285714285e-05,
-      "loss": 2.3645,
       "step": 5
     },
     {
       "epoch": 0.01,
       "learning_rate": 2.857142857142857e-05,
-      "loss": 2.1283,
       "step": 10
     },
     {
       "epoch": 0.02,
       "learning_rate": 4.2857142857142856e-05,
-      "loss": 1.4859,
       "step": 15
     },
     {
       "epoch": 0.03,
       "learning_rate": 5.714285714285714e-05,
-      "loss": 1.2983,
       "step": 20
     },
     {
       "epoch": 0.04,
       "learning_rate": 7.142857142857143e-05,
-      "loss": 1.2019,
       "step": 25
     },
     {
       "epoch": 0.04,
       "learning_rate": 8.571428571428571e-05,
-      "loss": 1.1346,
       "step": 30
     },
     {
       "epoch": 0.05,
       "learning_rate": 0.0001,
-      "loss": 1.0858,
       "step": 35
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.00011428571428571428,
-      "loss": 1.0524,
       "step": 40
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.00012857142857142858,
-      "loss": 1.0344,
       "step": 45
     },
     {
       "epoch": 0.07,
       "learning_rate": 0.00014285714285714287,
-      "loss": 1.0069,
       "step": 50
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.00015714285714285716,
-      "loss": 1.0073,
       "step": 55
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.00017142857142857143,
-      "loss": 0.9816,
       "step": 60
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.00018571428571428572,
-      "loss": 0.9896,
       "step": 65
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.0002,
-      "loss": 0.9846,
       "step": 70
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.0001999685197404432,
-      "loss": 0.9712,
       "step": 75
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.00019987409878190752,
-      "loss": 0.9792,
       "step": 80
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.00019971679657231872,
-      "loss": 0.9515,
       "step": 85
     },
     {
       "epoch": 0.13,
       "learning_rate": 0.00019949671214996445,
-      "loss": 0.9689,
       "step": 90
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.00019921398408113955,
-      "loss": 0.9604,
       "step": 95
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.00019886879037290384,
-      "loss": 0.9637,
       "step": 100
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00019846134836100796,
-      "loss": 0.9787,
-      "step": 105
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.00019799191457305768,
-      "loss": 0.9616,
-      "step": 110
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.0001974607845670028,
-      "loss": 0.9312,
-      "step": 115
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.0001968682927450523,
-      "loss": 0.945,
-      "step": 120
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.00019621481214313297,
-      "loss": 0.9363,
-      "step": 125
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.00019550075419602408,
-      "loss": 0.9322,
-      "step": 130
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.00019472656847831595,
-      "loss": 0.939,
-      "step": 135
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.0001938927424213553,
-      "loss": 0.9282,
-      "step": 140
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.00019299980100635612,
-      "loss": 0.955,
-      "step": 145
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.00019204830643386868,
-      "loss": 0.9281,
-      "step": 150
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.00019103885776981515,
-      "loss": 0.9308,
-      "step": 155
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.00018997209056831462,
-      "loss": 0.9409,
-      "step": 160
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 0.00018884867647153483,
-      "loss": 0.9366,
-      "step": 165
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 0.000187669322786823,
-      "loss": 0.9203,
-      "step": 170
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 0.00018643477204138113,
-      "loss": 0.9254,
-      "step": 175
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.0001851458015147673,
-      "loss": 0.9481,
-      "step": 180
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.0001838032227495163,
-      "loss": 0.9369,
-      "step": 185
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.00018240788104018822,
-      "loss": 0.9435,
-      "step": 190
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.0001809606549011667,
-      "loss": 0.9409,
-      "step": 195
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.00017946245551354157,
-      "loss": 0.9396,
-      "step": 200
     }
   ],
   "logging_steps": 5,
@@ -260,7 +140,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
-  "total_flos": 1.406259049707602e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.14367816091954022,
   "eval_steps": 500,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.01,
       "learning_rate": 1.4285714285714285e-05,
+      "loss": 2.3695,
       "step": 5
     },
     {
       "epoch": 0.01,
       "learning_rate": 2.857142857142857e-05,
+      "loss": 2.2916,
       "step": 10
     },
     {
       "epoch": 0.02,
       "learning_rate": 4.2857142857142856e-05,
+      "loss": 1.7865,
       "step": 15
     },
     {
       "epoch": 0.03,
       "learning_rate": 5.714285714285714e-05,
+      "loss": 1.4162,
       "step": 20
     },
     {
       "epoch": 0.04,
       "learning_rate": 7.142857142857143e-05,
+      "loss": 1.3012,
       "step": 25
     },
     {
       "epoch": 0.04,
       "learning_rate": 8.571428571428571e-05,
+      "loss": 1.2177,
       "step": 30
     },
     {
       "epoch": 0.05,
       "learning_rate": 0.0001,
+      "loss": 1.1726,
       "step": 35
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.00011428571428571428,
+      "loss": 1.1367,
       "step": 40
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.00012857142857142858,
+      "loss": 1.105,
       "step": 45
     },
     {
       "epoch": 0.07,
       "learning_rate": 0.00014285714285714287,
+      "loss": 1.0671,
       "step": 50
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.00015714285714285716,
+      "loss": 1.0583,
       "step": 55
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.00017142857142857143,
+      "loss": 1.0278,
       "step": 60
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.00018571428571428572,
+      "loss": 1.0297,
       "step": 65
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.0002,
+      "loss": 1.0224,
       "step": 70
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.0001999685197404432,
+      "loss": 1.0077,
       "step": 75
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.00019987409878190752,
+      "loss": 1.0135,
       "step": 80
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.00019971679657231872,
+      "loss": 0.9836,
       "step": 85
     },
     {
       "epoch": 0.13,
       "learning_rate": 0.00019949671214996445,
+      "loss": 1.0012,
       "step": 90
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.00019921398408113955,
+      "loss": 0.9927,
       "step": 95
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.00019886879037290384,
+      "loss": 0.9966,
       "step": 100
     }
   ],
   "logging_steps": 5,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
+  "total_flos": 7.003463853749043e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35bfe367412d6cce2d4651bb47f4aa1514a8740353adbe218792b83227be32d2
 size 4792

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d247e6edadd8eec25fafda911325a153e7ec9bfb084946dbb826f80e3be6ebd
 size 4792