Model save

Browse files

Files changed (11) hide show

README.md +1 -1
all_results.json +7 -7
eval_results.json +4 -4
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Jan23_19-21-30_amaterasu/events.out.tfevents.1706037734.amaterasu.3311.0 +3 -0
runs/Jan23_19-21-30_amaterasu/events.out.tfevents.1706049529.amaterasu.3311.1 +3 -0
train_results.json +3 -3
trainer_state.json +41 -41
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9587
 ## Model description

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9586
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 0.67,
-    "eval_loss": 0.9586901068687439,
-    "eval_runtime": 338.7099,
     "eval_samples": 23110,
-    "eval_samples_per_second": 68.229,
-    "eval_steps_per_second": 0.534,
-    "train_loss": 1.0367616415023804,
-    "train_runtime": 11588.1271,
     "train_samples": 207865,
-    "train_samples_per_second": 17.938,
     "train_steps_per_second": 0.035
 }

 {
     "epoch": 0.67,
+    "eval_loss": 0.9586499929428101,
+    "eval_runtime": 333.321,
     "eval_samples": 23110,
+    "eval_samples_per_second": 69.333,
+    "eval_steps_per_second": 0.543,
+    "train_loss": 1.0367797762155533,
+    "train_runtime": 11462.4547,
     "train_samples": 207865,
+    "train_samples_per_second": 18.134,
     "train_steps_per_second": 0.035
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.67,
-    "eval_loss": 0.9586901068687439,
-    "eval_runtime": 338.7099,
     "eval_samples": 23110,
-    "eval_samples_per_second": 68.229,
-    "eval_steps_per_second": 0.534
 }

 {
     "epoch": 0.67,
+    "eval_loss": 0.9586499929428101,
+    "eval_runtime": 333.321,
     "eval_samples": 23110,
+    "eval_samples_per_second": 69.333,
+    "eval_steps_per_second": 0.543
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29f64ccddda6c0fcd585f1e3182871190794b27f7694a67f641bafb359f3a16a
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:d133ee02314c0c032b252de99f23524a5b1e553b206a82dd637a401291e97b9a
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90d6bc73445642011681757914f7bf0c2c6a0e5de00e70cae2ee87d8edc1b89b
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:32944870c023c11e648111e265a622c622e5d7fc68d7e413a56c90fe00f6cbb4
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3bac1a48a392f6a99fd3b9299797ab34813b60a6ef02afd7c5ea9ad8f99d539
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:58d8268cebc9504100d8e9c416cb87910a645a4212ad05f790e3bf7ccc14950a
 size 4540516344

runs/Jan23_19-21-30_amaterasu/events.out.tfevents.1706037734.amaterasu.3311.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b6c9ddece4b8ba39591bc343de35f36636aadd5041c64d67c697e16bac8c31f
+size 13411

runs/Jan23_19-21-30_amaterasu/events.out.tfevents.1706049529.amaterasu.3311.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:660a2700d5790599234bd131f6d88a772664268a392f92ac8a3aaca88720fd2f
+size 359

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.67,
-    "train_loss": 1.0367616415023804,
-    "train_runtime": 11588.1271,
     "train_samples": 207865,
-    "train_samples_per_second": 17.938,
     "train_steps_per_second": 0.035
 }

 {
     "epoch": 0.67,
+    "train_loss": 1.0367797762155533,
+    "train_runtime": 11462.4547,
     "train_samples": 207865,
+    "train_samples_per_second": 18.134,
     "train_steps_per_second": 0.035
 }

trainer_state.json CHANGED Viewed

@@ -17,37 +17,37 @@
     {
       "epoch": 0.01,
       "learning_rate": 1.999251652147735e-05,
-      "loss": 2.616,
       "step": 5
     },
     {
       "epoch": 0.02,
       "learning_rate": 1.997007728639956e-05,
-      "loss": 1.5607,
       "step": 10
     },
     {
       "epoch": 0.04,
       "learning_rate": 1.9932715879473385e-05,
-      "loss": 1.2901,
       "step": 15
     },
     {
       "epoch": 0.05,
       "learning_rate": 1.9880488219356086e-05,
-      "loss": 1.2126,
       "step": 20
     },
     {
       "epoch": 0.06,
       "learning_rate": 1.981347247496222e-05,
-      "loss": 1.1381,
       "step": 25
     },
     {
       "epoch": 0.07,
       "learning_rate": 1.973176894846855e-05,
-      "loss": 1.1002,
       "step": 30
     },
     {
@@ -59,13 +59,13 @@
     {
       "epoch": 0.1,
       "learning_rate": 1.9524809490566878e-05,
-      "loss": 1.0567,
       "step": 40
     },
     {
       "epoch": 0.11,
       "learning_rate": 1.939986331449053e-05,
-      "loss": 1.0453,
       "step": 45
     },
     {
@@ -77,7 +77,7 @@
     {
       "epoch": 0.14,
       "learning_rate": 1.910797282022027e-05,
-      "loss": 1.0293,
       "step": 55
     },
     {
@@ -89,7 +89,7 @@
     {
       "epoch": 0.16,
       "learning_rate": 1.8761575273514005e-05,
-      "loss": 1.0082,
       "step": 65
     },
     {
@@ -101,13 +101,13 @@
     {
       "epoch": 0.18,
       "learning_rate": 1.8362743705288127e-05,
-      "loss": 1.002,
       "step": 75
     },
     {
       "epoch": 0.2,
       "learning_rate": 1.814439916631857e-05,
-      "loss": 1.0086,
       "step": 80
     },
     {
@@ -119,7 +119,7 @@
     {
       "epoch": 0.22,
       "learning_rate": 1.7671486066220965e-05,
-      "loss": 0.9918,
       "step": 90
     },
     {
@@ -137,7 +137,7 @@
     {
       "epoch": 0.26,
       "learning_rate": 1.6876994588534234e-05,
-      "loss": 1.0055,
       "step": 105
     },
     {
@@ -149,13 +149,13 @@
     {
       "epoch": 0.28,
       "learning_rate": 1.629520819706912e-05,
-      "loss": 0.978,
       "step": 115
     },
     {
       "epoch": 0.3,
       "learning_rate": 1.598996060429634e-05,
-      "loss": 0.9822,
       "step": 120
     },
     {
@@ -173,13 +173,13 @@
     {
       "epoch": 0.33,
       "learning_rate": 1.5022320773808612e-05,
-      "loss": 0.9865,
       "step": 135
     },
     {
       "epoch": 0.34,
       "learning_rate": 1.4684084406997903e-05,
-      "loss": 0.9718,
       "step": 140
     },
     {
@@ -191,7 +191,7 @@
     {
       "epoch": 0.37,
       "learning_rate": 1.3987096456067236e-05,
-      "loss": 0.9725,
       "step": 150
     },
     {
@@ -221,49 +221,49 @@
     {
       "epoch": 0.43,
       "learning_rate": 1.2149704402110243e-05,
-      "loss": 0.9589,
       "step": 175
     },
     {
       "epoch": 0.44,
       "learning_rate": 1.1770339692844484e-05,
-      "loss": 0.9654,
       "step": 180
     },
     {
       "epoch": 0.46,
       "learning_rate": 1.1388325323764889e-05,
-      "loss": 0.9746,
       "step": 185
     },
     {
       "epoch": 0.47,
       "learning_rate": 1.1004233054136726e-05,
-      "loss": 0.9681,
       "step": 190
     },
     {
       "epoch": 0.48,
       "learning_rate": 1.0618637753210086e-05,
-      "loss": 0.9692,
       "step": 195
     },
     {
       "epoch": 0.49,
       "learning_rate": 1.0232116539815558e-05,
-      "loss": 0.9589,
       "step": 200
     },
     {
       "epoch": 0.5,
       "learning_rate": 9.845247918592937e-06,
-      "loss": 0.9628,
       "step": 205
     },
     {
       "epoch": 0.52,
       "learning_rate": 9.458610914145826e-06,
-      "loss": 0.9613,
       "step": 210
     },
     {
@@ -275,25 +275,25 @@
     {
       "epoch": 0.54,
       "learning_rate": 8.688345254588579e-06,
-      "loss": 0.961,
       "step": 220
     },
     {
       "epoch": 0.55,
       "learning_rate": 8.305869452782446e-06,
-      "loss": 0.9638,
       "step": 225
     },
     {
       "epoch": 0.57,
       "learning_rate": 7.92592924888925e-06,
-      "loss": 0.9621,
       "step": 230
     },
     {
       "epoch": 0.58,
       "learning_rate": 7.549093297780133e-06,
-      "loss": 0.959,
       "step": 235
     },
     {
@@ -311,7 +311,7 @@
     {
       "epoch": 0.62,
       "learning_rate": 6.442822761362015e-06,
-      "loss": 0.9541,
       "step": 250
     },
     {
@@ -323,13 +323,13 @@
     {
       "epoch": 0.64,
       "learning_rate": 5.731007993667155e-06,
-      "loss": 0.9633,
       "step": 260
     },
     {
       "epoch": 0.65,
       "learning_rate": 5.38442053335571e-06,
-      "loss": 0.9527,
       "step": 265
     },
     {
@@ -340,19 +340,19 @@
     },
     {
       "epoch": 0.67,
-      "eval_loss": 0.9585356712341309,
-      "eval_runtime": 338.2538,
-      "eval_samples_per_second": 68.321,
-      "eval_steps_per_second": 0.535,
       "step": 272
     },
     {
       "epoch": 0.67,
       "step": 272,
       "total_flos": 455322233733120.0,
-      "train_loss": 1.0367616415023804,
-      "train_runtime": 11588.1271,
-      "train_samples_per_second": 17.938,
       "train_steps_per_second": 0.035
     }
   ],

     {
       "epoch": 0.01,
       "learning_rate": 1.999251652147735e-05,
+      "loss": 2.6184,
       "step": 5
     },
     {
       "epoch": 0.02,
       "learning_rate": 1.997007728639956e-05,
+      "loss": 1.5618,
       "step": 10
     },
     {
       "epoch": 0.04,
       "learning_rate": 1.9932715879473385e-05,
+      "loss": 1.2898,
       "step": 15
     },
     {
       "epoch": 0.05,
       "learning_rate": 1.9880488219356086e-05,
+      "loss": 1.2119,
       "step": 20
     },
     {
       "epoch": 0.06,
       "learning_rate": 1.981347247496222e-05,
+      "loss": 1.138,
       "step": 25
     },
     {
       "epoch": 0.07,
       "learning_rate": 1.973176894846855e-05,
+      "loss": 1.1003,
       "step": 30
     },
     {
     {
       "epoch": 0.1,
       "learning_rate": 1.9524809490566878e-05,
+      "loss": 1.0568,
       "step": 40
     },
     {
       "epoch": 0.11,
       "learning_rate": 1.939986331449053e-05,
+      "loss": 1.0454,
       "step": 45
     },
     {
     {
       "epoch": 0.14,
       "learning_rate": 1.910797282022027e-05,
+      "loss": 1.0294,
       "step": 55
     },
     {
     {
       "epoch": 0.16,
       "learning_rate": 1.8761575273514005e-05,
+      "loss": 1.0083,
       "step": 65
     },
     {
     {
       "epoch": 0.18,
       "learning_rate": 1.8362743705288127e-05,
+      "loss": 1.0021,
       "step": 75
     },
     {
       "epoch": 0.2,
       "learning_rate": 1.814439916631857e-05,
+      "loss": 1.0087,
       "step": 80
     },
     {
     {
       "epoch": 0.22,
       "learning_rate": 1.7671486066220965e-05,
+      "loss": 0.9919,
       "step": 90
     },
     {
     {
       "epoch": 0.26,
       "learning_rate": 1.6876994588534234e-05,
+      "loss": 1.0056,
       "step": 105
     },
     {
     {
       "epoch": 0.28,
       "learning_rate": 1.629520819706912e-05,
+      "loss": 0.9781,
       "step": 115
     },
     {
       "epoch": 0.3,
       "learning_rate": 1.598996060429634e-05,
+      "loss": 0.9823,
       "step": 120
     },
     {
     {
       "epoch": 0.33,
       "learning_rate": 1.5022320773808612e-05,
+      "loss": 0.9866,
       "step": 135
     },
     {
       "epoch": 0.34,
       "learning_rate": 1.4684084406997903e-05,
+      "loss": 0.9719,
       "step": 140
     },
     {
     {
       "epoch": 0.37,
       "learning_rate": 1.3987096456067236e-05,
+      "loss": 0.9726,
       "step": 150
     },
     {
     {
       "epoch": 0.43,
       "learning_rate": 1.2149704402110243e-05,
+      "loss": 0.9588,
       "step": 175
     },
     {
       "epoch": 0.44,
       "learning_rate": 1.1770339692844484e-05,
+      "loss": 0.9652,
       "step": 180
     },
     {
       "epoch": 0.46,
       "learning_rate": 1.1388325323764889e-05,
+      "loss": 0.9742,
       "step": 185
     },
     {
       "epoch": 0.47,
       "learning_rate": 1.1004233054136726e-05,
+      "loss": 0.9679,
       "step": 190
     },
     {
       "epoch": 0.48,
       "learning_rate": 1.0618637753210086e-05,
+      "loss": 0.969,
       "step": 195
     },
     {
       "epoch": 0.49,
       "learning_rate": 1.0232116539815558e-05,
+      "loss": 0.9587,
       "step": 200
     },
     {
       "epoch": 0.5,
       "learning_rate": 9.845247918592937e-06,
+      "loss": 0.9627,
       "step": 205
     },
     {
       "epoch": 0.52,
       "learning_rate": 9.458610914145826e-06,
+      "loss": 0.9612,
       "step": 210
     },
     {
     {
       "epoch": 0.54,
       "learning_rate": 8.688345254588579e-06,
+      "loss": 0.9609,
       "step": 220
     },
     {
       "epoch": 0.55,
       "learning_rate": 8.305869452782446e-06,
+      "loss": 0.9637,
       "step": 225
     },
     {
       "epoch": 0.57,
       "learning_rate": 7.92592924888925e-06,
+      "loss": 0.962,
       "step": 230
     },
     {
       "epoch": 0.58,
       "learning_rate": 7.549093297780133e-06,
+      "loss": 0.9589,
       "step": 235
     },
     {
     {
       "epoch": 0.62,
       "learning_rate": 6.442822761362015e-06,
+      "loss": 0.954,
       "step": 250
     },
     {
     {
       "epoch": 0.64,
       "learning_rate": 5.731007993667155e-06,
+      "loss": 0.9632,
       "step": 260
     },
     {
       "epoch": 0.65,
       "learning_rate": 5.38442053335571e-06,
+      "loss": 0.9526,
       "step": 265
     },
     {
     },
     {
       "epoch": 0.67,
+      "eval_loss": 0.9584953188896179,
+      "eval_runtime": 333.8493,
+      "eval_samples_per_second": 69.223,
+      "eval_steps_per_second": 0.542,
       "step": 272
     },
     {
       "epoch": 0.67,
       "step": 272,
       "total_flos": 455322233733120.0,
+      "train_loss": 1.0367797762155533,
+      "train_runtime": 11462.4547,
+      "train_samples_per_second": 18.134,
       "train_steps_per_second": 0.035
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:865b2c04678854723a48a676747a698c10682157b8e6f3fe4dbf271aadd875c0
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2055e8bf9addc42b7592d7e584bd3ce9cbd7b433a56701bd779bd50ab33700e
 size 5624