Model save

Browse files

Files changed (10) hide show

README.md +12 -3
adapter_config.json +3 -3
adapter_model.safetensors +1 -1
all_results.json +8 -8
eval_results.json +5 -5
runs/Dec14_10-31-23_s4311/events.out.tfevents.1702549962.s4311.768568.0 +3 -0
runs/Dec14_10-31-23_s4311/events.out.tfevents.1702554102.s4311.768568.1 +3 -0
train_results.json +4 -4
trainer_state.json +100 -16
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.7015
 ## Model description
@@ -43,13 +43,22 @@ The following hyperparameters were used during training:
 - total_train_batch_size: 512
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
-- num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.7095        | 0.09  | 1    | 1.7014          |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.4756
 ## Model description
 - total_train_batch_size: 512
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
+- num_epochs: 10
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.7095        | 0.09  | 1    | 1.7013          |
+| 1.7095        | 1.07  | 2    | 1.6854          |
+| 1.7095        | 2.06  | 3    | 1.6635          |
+| 1.7095        | 3.04  | 4    | 1.6378          |
+| 1.6715        | 4.02  | 5    | 1.6107          |
+| 1.6715        | 5.1   | 7    | 1.5584          |
+| 1.6715        | 6.08  | 8    | 1.5345          |
+| 1.6715        | 7.06  | 9    | 1.5133          |
+| 1.5588        | 8.05  | 10   | 1.4934          |
+| 1.5588        | 9.03  | 11   | 1.4756          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -16,10 +16,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "o_proj",
     "q_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "o_proj",
+    "v_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc8eb436eedc5349c5cff2524568a2287eb770f5b7ed3b6c8e1af55d1579195a
 size 218138576

 version https://git-lfs.github.com/spec/v1
+oid sha256:77ca5ccdfab3e7b33d87a3f17cf5babcc7eb5f9f741a0ee2885fd1e7aeb00147
 size 218138576

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 0.09,
-    "eval_loss": 1.7014812231063843,
-    "eval_runtime": 6.3438,
     "eval_samples": 294,
-    "eval_samples_per_second": 46.345,
-    "eval_steps_per_second": 5.833,
-    "train_loss": 2.015326350927353,
-    "train_runtime": 412.8764,
     "train_samples": 5895,
-    "train_samples_per_second": 14.278,
     "train_steps_per_second": 0.027
 }

 {
+    "epoch": 9.03,
+    "eval_loss": 1.475583791732788,
+    "eval_runtime": 6.3363,
     "eval_samples": 294,
+    "eval_samples_per_second": 46.399,
+    "eval_steps_per_second": 5.839,
+    "train_loss": 1.714235695925626,
+    "train_runtime": 4134.2039,
     "train_samples": 5895,
+    "train_samples_per_second": 14.259,
     "train_steps_per_second": 0.027
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.09,
-    "eval_loss": 1.7014812231063843,
-    "eval_runtime": 6.3438,
     "eval_samples": 294,
-    "eval_samples_per_second": 46.345,
-    "eval_steps_per_second": 5.833
 }

 {
+    "epoch": 9.03,
+    "eval_loss": 1.475583791732788,
+    "eval_runtime": 6.3363,
     "eval_samples": 294,
+    "eval_samples_per_second": 46.399,
+    "eval_steps_per_second": 5.839
 }

runs/Dec14_10-31-23_s4311/events.out.tfevents.1702549962.s4311.768568.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eaa3389de6af497b4fce61ea053090b29bbe3ed4ed58e6be0df5593e61d564b5
+size 7724

runs/Dec14_10-31-23_s4311/events.out.tfevents.1702554102.s4311.768568.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b9b921ef1d83fbbbc33f8163dcfbab55759cdfcb1b20732fe75fecdca7d2a5b8
+size 354

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.09,
-    "train_loss": 2.015326350927353,
-    "train_runtime": 412.8764,
     "train_samples": 5895,
-    "train_samples_per_second": 14.278,
     "train_steps_per_second": 0.027
 }

 {
+    "epoch": 9.03,
+    "train_loss": 1.714235695925626,
+    "train_runtime": 4134.2039,
     "train_samples": 5895,
+    "train_samples_per_second": 14.259,
     "train_steps_per_second": 0.027
 }

trainer_state.json CHANGED Viewed

@@ -1,42 +1,126 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.08683853459972862,
   "eval_steps": 500,
-  "global_step": 1,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.09,
-      "learning_rate": 1.9594929736144978e-05,
       "loss": 1.7095,
       "step": 1
     },
     {
       "epoch": 0.09,
-      "eval_loss": 1.7014471292495728,
-      "eval_runtime": 6.3775,
-      "eval_samples_per_second": 46.1,
-      "eval_steps_per_second": 5.802,
       "step": 1
     },
     {
-      "epoch": 0.09,
-      "step": 1,
-      "total_flos": 5.309162136482611e+16,
-      "train_loss": 2.015326350927353,
-      "train_runtime": 412.8764,
-      "train_samples_per_second": 14.278,
       "train_steps_per_second": 0.027
     }
   ],
   "logging_steps": 5,
-  "max_steps": 11,
-  "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 5.309162136482611e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.033242876526458,
   "eval_steps": 500,
+  "global_step": 11,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.09,
+      "learning_rate": 1.9995921928281893e-05,
       "loss": 1.7095,
       "step": 1
     },
     {
       "epoch": 0.09,
+      "eval_loss": 1.7013005018234253,
+      "eval_runtime": 6.3689,
+      "eval_samples_per_second": 46.162,
+      "eval_steps_per_second": 5.809,
       "step": 1
     },
     {
+      "epoch": 1.07,
+      "eval_loss": 1.6853851079940796,
+      "eval_runtime": 6.3663,
+      "eval_samples_per_second": 46.181,
+      "eval_steps_per_second": 5.812,
+      "step": 2
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 1.6635044813156128,
+      "eval_runtime": 6.3573,
+      "eval_samples_per_second": 46.246,
+      "eval_steps_per_second": 5.82,
+      "step": 3
+    },
+    {
+      "epoch": 3.04,
+      "eval_loss": 1.6378282308578491,
+      "eval_runtime": 6.3598,
+      "eval_samples_per_second": 46.228,
+      "eval_steps_per_second": 5.818,
+      "step": 4
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 1.989821441880933e-05,
+      "loss": 1.6715,
+      "step": 5
+    },
+    {
+      "epoch": 4.02,
+      "eval_loss": 1.610694408416748,
+      "eval_runtime": 6.3454,
+      "eval_samples_per_second": 46.333,
+      "eval_steps_per_second": 5.831,
+      "step": 5
+    },
+    {
+      "epoch": 5.1,
+      "eval_loss": 1.5584030151367188,
+      "eval_runtime": 6.3281,
+      "eval_samples_per_second": 46.459,
+      "eval_steps_per_second": 5.847,
+      "step": 7
+    },
+    {
+      "epoch": 6.08,
+      "eval_loss": 1.5344550609588623,
+      "eval_runtime": 6.3648,
+      "eval_samples_per_second": 46.192,
+      "eval_steps_per_second": 5.813,
+      "step": 8
+    },
+    {
+      "epoch": 7.06,
+      "eval_loss": 1.5132712125778198,
+      "eval_runtime": 6.3444,
+      "eval_samples_per_second": 46.34,
+      "eval_steps_per_second": 5.832,
+      "step": 9
+    },
+    {
+      "epoch": 8.05,
+      "learning_rate": 1.9594929736144978e-05,
+      "loss": 1.5588,
+      "step": 10
+    },
+    {
+      "epoch": 8.05,
+      "eval_loss": 1.493425965309143,
+      "eval_runtime": 6.3668,
+      "eval_samples_per_second": 46.177,
+      "eval_steps_per_second": 5.811,
+      "step": 10
+    },
+    {
+      "epoch": 9.03,
+      "eval_loss": 1.475648283958435,
+      "eval_runtime": 6.352,
+      "eval_samples_per_second": 46.285,
+      "eval_steps_per_second": 5.825,
+      "step": 11
+    },
+    {
+      "epoch": 9.03,
+      "step": 11,
+      "total_flos": 5.3091621472200294e+17,
+      "train_loss": 1.714235695925626,
+      "train_runtime": 4134.2039,
+      "train_samples_per_second": 14.259,
       "train_steps_per_second": 0.027
     }
   ],
   "logging_steps": 5,
+  "max_steps": 110,
+  "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 5.3091621472200294e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b3e4c3f23c1f11e87d7a2f1c50e2c6c75a52e5846cf0348d5e1d95cf8d28e94
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:06d3d120ec42d827abe951b3cebbab8012a29481eaf1f3e3baf37f66d3ab56b7
 size 4664