Upload 12 files

Browse files

Files changed (7) hide show

README.md +0 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +66 -17
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,10 +1,6 @@
 ---
 library_name: peft
 base_model: mistralai/Mistral-7B-Instruct-v0.3
-license: apache-2.0
-language:
-- en
-pipeline_tag: text-generation
 ---
 # Model Card for Model ID

 ---
 library_name: peft
 base_model: mistralai/Mistral-7B-Instruct-v0.3
 ---
 # Model Card for Model ID

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:580a33032ba98e3506ee441f4e5f75780f1a03e1ee052c0a5133486f9f6cfd8f
 size 109069176

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cec231ba6b91706ea2a50580577e766a95a3fe4af139bd3844daa155e75bc98
 size 109069176

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58f74c022ab8ac2dd6b4b0b7a61d586792ca5ffc6b996a4cd024f2179c52f128
 size 218182586

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ad4878e8a63e316ac11866123641662dc7216d50e67d57bfe0debada823dac3
 size 218182586

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb2b34e37db29df208daf0ddbe9d385e4ba6889399d10d69389d14c1cd292838
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6cbfb719333be9e6c83f55aaecd8c648686c99a7490787c95506dc1016037fe
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0a7343915c78125635d9ebba74d66cd6af1a76cc5481916839c6ed63f8cc757
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd2651dbbb234a1169de9db4c1691e20ebcc2a6f2cad7a0b6f3fb47aa10c248f
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,69 +1,118 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.938271604938271,
   "eval_steps": 500,
-  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.7054673721340388,
-      "grad_norm": 0.2144777774810791,
       "learning_rate": 0.0002,
-      "loss": 1.3606,
       "step": 100
     },
     {
       "epoch": 1.4109347442680775,
-      "grad_norm": 0.18283842504024506,
       "learning_rate": 0.0002,
-      "loss": 1.2686,
       "step": 200
     },
     {
       "epoch": 2.1164021164021163,
-      "grad_norm": 0.22576524317264557,
       "learning_rate": 0.0002,
       "loss": 1.2149,
       "step": 300
     },
     {
       "epoch": 2.821869488536155,
-      "grad_norm": 0.2537195384502411,
       "learning_rate": 0.0002,
-      "loss": 1.1427,
       "step": 400
     },
     {
       "epoch": 3.527336860670194,
-      "grad_norm": 0.36884188652038574,
       "learning_rate": 0.0002,
-      "loss": 1.0694,
       "step": 500
     },
     {
       "epoch": 4.232804232804233,
-      "grad_norm": 0.6655462384223938,
       "learning_rate": 0.0002,
       "loss": 0.9957,
       "step": 600
     },
     {
       "epoch": 4.938271604938271,
-      "grad_norm": 0.47897958755493164,
       "learning_rate": 0.0002,
-      "loss": 0.972,
       "step": 700
     }
   ],
   "logging_steps": 100,
-  "max_steps": 705,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 100,
-  "total_flos": 8.23802837336064e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.876543209876543,
   "eval_steps": 500,
+  "global_step": 1400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.7054673721340388,
+      "grad_norm": 0.20514033734798431,
       "learning_rate": 0.0002,
+      "loss": 1.3614,
       "step": 100
     },
     {
       "epoch": 1.4109347442680775,
+      "grad_norm": 0.18633601069450378,
       "learning_rate": 0.0002,
+      "loss": 1.2692,
       "step": 200
     },
     {
       "epoch": 2.1164021164021163,
+      "grad_norm": 0.22059209644794464,
       "learning_rate": 0.0002,
       "loss": 1.2149,
       "step": 300
     },
     {
       "epoch": 2.821869488536155,
+      "grad_norm": 0.2522888779640198,
       "learning_rate": 0.0002,
+      "loss": 1.1426,
       "step": 400
     },
     {
       "epoch": 3.527336860670194,
+      "grad_norm": 0.3600117266178131,
       "learning_rate": 0.0002,
+      "loss": 1.0687,
       "step": 500
     },
     {
       "epoch": 4.232804232804233,
+      "grad_norm": 0.617989718914032,
       "learning_rate": 0.0002,
       "loss": 0.9957,
       "step": 600
     },
     {
       "epoch": 4.938271604938271,
+      "grad_norm": 0.5240411162376404,
       "learning_rate": 0.0002,
+      "loss": 0.973,
       "step": 700
+    },
+    {
+      "epoch": 5.64373897707231,
+      "grad_norm": 0.615224301815033,
+      "learning_rate": 0.0002,
+      "loss": 0.8472,
+      "step": 800
+    },
+    {
+      "epoch": 6.349206349206349,
+      "grad_norm": 0.6250160932540894,
+      "learning_rate": 0.0002,
+      "loss": 0.7726,
+      "step": 900
+    },
+    {
+      "epoch": 7.054673721340388,
+      "grad_norm": 0.7413871884346008,
+      "learning_rate": 0.0002,
+      "loss": 0.7079,
+      "step": 1000
+    },
+    {
+      "epoch": 7.760141093474427,
+      "grad_norm": 1.084841012954712,
+      "learning_rate": 0.0002,
+      "loss": 0.6037,
+      "step": 1100
+    },
+    {
+      "epoch": 8.465608465608465,
+      "grad_norm": 1.128200650215149,
+      "learning_rate": 0.0002,
+      "loss": 0.5464,
+      "step": 1200
+    },
+    {
+      "epoch": 9.171075837742505,
+      "grad_norm": 1.0372769832611084,
+      "learning_rate": 0.0002,
+      "loss": 0.5376,
+      "step": 1300
+    },
+    {
+      "epoch": 9.876543209876543,
+      "grad_norm": 1.0853991508483887,
+      "learning_rate": 0.0002,
+      "loss": 0.475,
+      "step": 1400
     }
   ],
   "logging_steps": 100,
+  "max_steps": 1410,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 100,
+  "total_flos": 1.646216165505024e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:881cde0630a4c41c4e442efc0a6da9df8e0c0644d3075b6726cc576bd0b7c0a8
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:14239da92aa96b64b73efe5aa4434231ca52bdacd8fffc77ac6b77246788c490
 size 4984