End of training

Browse files

Files changed (4) hide show

README.md +48 -38
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.1](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1) on the openwebtext dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0786
 ## Model description
@@ -41,10 +41,10 @@ The following hyperparameters were used during training:
 - eval_batch_size: 16
 - seed: 0
 - distributed_type: multi-GPU
-- num_devices: 6
 - gradient_accumulation_steps: 2
-- total_train_batch_size: 96
-- total_eval_batch_size: 96
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - training_steps: 5000
@@ -53,40 +53,50 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.2733        | 0.05  | 50   | 1.2400          |
-| 1.0554        | 0.1   | 100  | 1.0549          |
-| 0.962         | 0.15  | 150  | 0.9682          |
-| 0.9117        | 0.19  | 200  | 0.9159          |
-| 0.8765        | 0.24  | 250  | 0.8785          |
-| 0.8521        | 0.29  | 300  | 0.8509          |
-| 0.8394        | 0.34  | 350  | 0.8275          |
-| 0.8178        | 0.39  | 400  | 0.8106          |
-| 0.801         | 0.44  | 450  | 0.8012          |
-| 0.7905        | 0.48  | 500  | 0.7912          |
-| 0.7865        | 0.53  | 550  | 0.7825          |
-| 0.7612        | 0.58  | 600  | 0.7748          |
-| 0.7636        | 0.63  | 650  | 0.7672          |
-| 0.7524        | 0.68  | 700  | 0.7617          |
-| 0.7512        | 0.73  | 750  | 0.7564          |
-| 0.7572        | 0.78  | 800  | 0.7515          |
-| 0.7536        | 0.82  | 850  | 0.7541          |
-| 0.7543        | 0.87  | 900  | 0.7501          |
-| 0.7435        | 0.92  | 950  | 0.7466          |
-| 0.7465        | 0.97  | 1000 | 0.7435          |
-| 0.7282        | 1.02  | 1050 | 0.7409          |
-| 0.7261        | 1.07  | 1100 | 0.7376          |
-| 0.7199        | 1.11  | 1150 | 0.7358          |
-| 0.7218        | 1.16  | 1200 | 0.7339          |
-| 0.7411        | 1.21  | 1250 | 0.7472          |
-| 0.741         | 1.26  | 1300 | 0.7451          |
-| 0.7326        | 1.31  | 1350 | 0.7421          |
-| 0.7359        | 1.36  | 1400 | 0.7402          |
-| 0.7278        | 1.41  | 1450 | 0.7385          |
-| 0.7235        | 1.45  | 1500 | 0.7365          |
-| 0.7138        | 1.5   | 1550 | 0.7353          |
-| 0.731         | 1.55  | 1600 | 0.7341          |
-| 0.7774        | 1.6   | 1650 | 0.7806          |
-| 0.7672        | 1.65  | 1700 | 0.7738          |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.1](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1) on the openwebtext dataset.
 It achieves the following results on the evaluation set:
+- Loss: 4.9832
 ## Model description
 - eval_batch_size: 16
 - seed: 0
 - distributed_type: multi-GPU
+- num_devices: 3
 - gradient_accumulation_steps: 2
+- total_train_batch_size: 48
+- total_eval_batch_size: 48
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - training_steps: 5000
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.2964        | 0.02  | 50   | 1.2517          |
+| 1.1086        | 0.05  | 100  | 1.0714          |
+| 0.9727        | 0.07  | 150  | 0.9857          |
+| 0.9326        | 0.1   | 200  | 0.9357          |
+| 0.8944        | 0.12  | 250  | 0.8988          |
+| 0.872         | 0.15  | 300  | 0.8700          |
+| 0.8523        | 0.17  | 350  | 0.8516          |
+| 0.8369        | 0.19  | 400  | 0.8358          |
+| 0.8372        | 0.22  | 450  | 0.8226          |
+| 0.8221        | 0.24  | 500  | 0.8116          |
+| 0.8093        | 0.27  | 550  | 0.8020          |
+| 0.804         | 0.29  | 600  | 0.7937          |
+| 0.8111        | 0.32  | 650  | 0.7935          |
+| 0.7949        | 0.34  | 700  | 0.7872          |
+| 0.7947        | 0.36  | 750  | 0.7815          |
+| 0.8045        | 0.39  | 800  | 0.7771          |
+| 0.7706        | 0.41  | 850  | 0.7724          |
+| 0.7669        | 0.44  | 900  | 0.7683          |
+| 0.7691        | 0.46  | 950  | 0.7825          |
+| 0.7737        | 0.48  | 1000 | 0.7779          |
+| 0.7595        | 0.51  | 1050 | 0.7748          |
+| 0.7672        | 0.53  | 1100 | 0.7709          |
+| 0.7725        | 0.56  | 1150 | 0.7681          |
+| 0.7551        | 0.58  | 1200 | 0.7658          |
+| 0.8035        | 0.61  | 1250 | 0.8159          |
+| 0.804         | 0.63  | 1300 | 0.8068          |
+| 0.8074        | 0.65  | 1350 | 0.8016          |
+| 0.7801        | 0.68  | 1400 | 0.7982          |
+| 0.7842        | 0.7   | 1450 | 0.7951          |
+| 0.7938        | 0.73  | 1500 | 0.7907          |
+| 0.8625        | 0.75  | 1550 | 0.8568          |
+| 0.8467        | 0.78  | 1600 | 0.8443          |
+| 0.8216        | 0.8   | 1650 | 0.8379          |
+| 0.8334        | 0.82  | 1700 | 0.8332          |
+| 0.8287        | 0.85  | 1750 | 0.8292          |
+| 0.8251        | 0.87  | 1800 | 0.8250          |
+| 0.8969        | 0.9   | 1850 | 0.8790          |
+| 0.8619        | 0.92  | 1900 | 0.8696          |
+| 0.8566        | 0.95  | 1950 | 0.8645          |
+| 0.8633        | 0.97  | 2000 | 0.8599          |
+| 0.8622        | 0.99  | 2050 | 0.8558          |
+| 0.8336        | 1.02  | 2100 | 0.8520          |
+| 0.918         | 1.04  | 2150 | 0.9045          |
+| 0.8755        | 1.07  | 2200 | 0.8960          |
 ### Framework versions

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2712219c2539e248d4c171302b6e31a6ed7216a276b36996fdf16239416cf5cc
 size 4943163992

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ed910571981950d36cba54325fd9bf133cf78508b6ea10558d7a3b9148e8021
 size 4943163992

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06e689af952986a77635f2dd09b9d5b8453396ef02728637979c2410dafe2244
 size 4999821144

 version https://git-lfs.github.com/spec/v1
+oid sha256:77e27035e935b3f907381e8a934d30a29ab6a0cf06d8e79d8991cc4830975212
 size 4999821144

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83f02961cfae9f6b4fb9bb15c989e17599d075ad4cfc2e6c23b4f4411c981ea7
 size 4540517840

 version https://git-lfs.github.com/spec/v1
+oid sha256:c43267ffdf5daa7bf296abb299744205422289ef0a4be298e6fd8a35d1561498
 size 4540517840