Model save

Browse files

Files changed (10) hide show

README.md +40 -40
all_results.json +4 -4
config.json +2 -2
generation_config.json +1 -1
model.safetensors +1 -1
runs/Oct05_06-10-28_xe8545-a100-15/events.out.tfevents.1728102218.xe8545-a100-15.1041997.0 +3 -0
tokenizer.json +0 -0
train_results.json +4 -4
trainer_state.json +0 -0
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -16,15 +16,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.3938
-- Rewards/chosen: -10.0625
-- Rewards/rejected: -12.0625
-- Rewards/accuracies: 0.6152
-- Rewards/margins: 2.0156
-- Logps/rejected: -1496.0
-- Logps/chosen: -1328.0
-- Logits/rejected: 1.9375
-- Logits/chosen: 0.4395
 ## Model description
@@ -61,39 +61,39 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.3669        | 0.1047 | 100  | 0.6720          | -1.4219        | -1.75            | 0.5977             | 0.3301          | -464.0         | -460.0       | -13.0           | -13.25        |
-| 0.3019        | 0.2094 | 200  | 0.7079          | -2.1875        | -2.5469          | 0.5801             | 0.3477          | -544.0         | -536.0       | -8.25           | -8.875        |
-| 0.2872        | 0.3141 | 300  | 0.9193          | -4.5938        | -5.125           | 0.5508             | 0.5195          | -800.0         | -776.0       | -10.125         | -10.8125      |
-| 0.2766        | 0.4188 | 400  | 0.7222          | -3.75          | -4.25            | 0.6074             | 0.5156          | -716.0         | -692.0       | -8.0625         | -8.8125       |
-| 0.2443        | 0.5236 | 500  | 0.8614          | -5.1875        | -6.0938          | 0.6055             | 0.8906          | -896.0         | -836.0       | -4.9375         | -5.875        |
-| 0.2505        | 0.6283 | 600  | 0.8266          | -4.5           | -5.1875          | 0.5957             | 0.6719          | -808.0         | -768.0       | -4.5938         | -5.6562       |
-| 0.2305        | 0.7330 | 700  | 0.7984          | -5.375         | -6.25            | 0.6289             | 0.8594          | -912.0         | -856.0       | -3.7031         | -5.0625       |
-| 0.2384        | 0.8377 | 800  | 0.9506          | -5.875         | -6.625           | 0.5723             | 0.7578          | -952.0         | -904.0       | -3.8281         | -5.0312       |
-| 0.2003        | 0.9424 | 900  | 0.9553          | -6.8438        | -7.8125          | 0.5938             | 0.9883          | -1072.0        | -1000.0      | -2.5            | -3.75         |
-| 0.0478        | 1.0471 | 1000 | 1.2033          | -8.1875        | -9.3125          | 0.5996             | 1.1641          | -1224.0        | -1136.0      | -1.9453         | -3.5156       |
-| 0.0626        | 1.1518 | 1100 | 1.1790          | -8.1875        | -9.6875          | 0.5918             | 1.5156          | -1256.0        | -1136.0      | -1.5781         | -3.2031       |
-| 0.0518        | 1.2565 | 1200 | 1.1558          | -8.3125        | -9.5             | 0.6016             | 1.2031          | -1240.0        | -1144.0      | -0.2715         | -1.8516       |
-| 0.0627        | 1.3613 | 1300 | 1.2760          | -8.0625        | -9.4375          | 0.5918             | 1.3672          | -1232.0        | -1120.0      | -0.9414         | -2.4531       |
-| 0.067         | 1.4660 | 1400 | 1.1144          | -7.625         | -9.0             | 0.6113             | 1.3516          | -1184.0        | -1080.0      | 1.1875          | -0.4336       |
-| 0.057         | 1.5707 | 1500 | 1.2384          | -8.8125        | -10.25           | 0.5781             | 1.4453          | -1312.0        | -1200.0      | 1.4453          | -0.0266       |
-| 0.0549        | 1.6754 | 1600 | 1.1039          | -7.875         | -9.1875          | 0.6016             | 1.3047          | -1208.0        | -1104.0      | 1.4922          | -0.0466       |
-| 0.065         | 1.7801 | 1700 | 1.2125          | -8.1875        | -9.8125          | 0.6055             | 1.6016          | -1272.0        | -1136.0      | 1.5391          | -0.0018       |
-| 0.0477        | 1.8848 | 1800 | 1.2242          | -8.4375        | -10.0            | 0.6035             | 1.5469          | -1288.0        | -1160.0      | 2.0469          | 0.5508        |
-| 0.0232        | 1.9895 | 1900 | 1.1594          | -8.125         | -9.6875          | 0.6152             | 1.5938          | -1256.0        | -1128.0      | 1.9297          | 0.4180        |
-| 0.0025        | 2.0942 | 2000 | 1.2469          | -9.1875        | -11.0            | 0.6035             | 1.8438          | -1392.0        | -1232.0      | 2.0938          | 0.5664        |
-| 0.0064        | 2.1990 | 2100 | 1.3712          | -10.1875       | -12.1875         | 0.6055             | 1.9844          | -1504.0        | -1336.0      | 2.3281          | 0.8320        |
-| 0.0068        | 2.3037 | 2200 | 1.2939          | -9.5625        | -11.4375         | 0.6094             | 1.8359          | -1432.0        | -1280.0      | 2.1094          | 0.6328        |
-| 0.0106        | 2.4084 | 2300 | 1.3934          | -10.375        | -12.375          | 0.6074             | 1.9766          | -1528.0        | -1360.0      | 2.2344          | 0.7539        |
-| 0.0074        | 2.5131 | 2400 | 1.4226          | -10.4375       | -12.4375         | 0.6152             | 2.0312          | -1536.0        | -1360.0      | 2.125           | 0.6367        |
-| 0.0055        | 2.6178 | 2500 | 1.4319          | -10.5625       | -12.625          | 0.6152             | 2.0625          | -1552.0        | -1376.0      | 2.1094          | 0.6211        |
-| 0.0094        | 2.7225 | 2600 | 1.3983          | -10.125        | -12.125          | 0.6152             | 2.0156          | -1504.0        | -1328.0      | 1.9375          | 0.4336        |
-| 0.0045        | 2.8272 | 2700 | 1.3869          | -10.0          | -12.0            | 0.6133             | 2.0156          | -1488.0        | -1320.0      | 1.9297          | 0.4238        |
-| 0.0065        | 2.9319 | 2800 | 1.3938          | -10.0625       | -12.0625         | 0.6152             | 2.0156          | -1496.0        | -1328.0      | 1.9375          | 0.4395        |
 ### Framework versions
-- Transformers 4.44.2
 - Pytorch 2.3.0
-- Datasets 3.0.0
-- Tokenizers 0.19.1

 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.5814
+- Rewards/chosen: -10.375
+- Rewards/rejected: -12.25
+- Rewards/accuracies: 0.5938
+- Rewards/margins: 1.8906
+- Logps/rejected: -1520.0
+- Logps/chosen: -1360.0
+- Logits/rejected: -5.6875
+- Logits/chosen: -7.5938
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.3737        | 0.1047 | 100  | 0.6771          | -2.0469        | -2.3906          | 0.5918             | 0.3301          | -528.0         | -524.0       | -13.625         | -13.875       |
+| 0.2761        | 0.2094 | 200  | 0.7596          | -3.1719        | -3.7344          | 0.6035             | 0.5703          | -664.0         | -636.0       | -8.5625         | -9.3125       |
+| 0.2447        | 0.3141 | 300  | 0.8172          | -3.8125        | -4.4688          | 0.6074             | 0.6484          | -736.0         | -700.0       | -13.0625        | -13.75        |
+| 0.2872        | 0.4188 | 400  | 0.7366          | -3.5469        | -4.0312          | 0.5977             | 0.4707          | -692.0         | -672.0       | -10.5625        | -11.4375      |
+| 0.255         | 0.5236 | 500  | 0.8523          | -4.875         | -5.75            | 0.6035             | 0.8672          | -864.0         | -808.0       | -11.4375        | -12.6875      |
+| 0.2543        | 0.6283 | 600  | 0.8723          | -4.6562        | -5.2812          | 0.5723             | 0.6328          | -820.0         | -784.0       | -13.5           | -14.1875      |
+| 0.2317        | 0.7330 | 700  | 0.8776          | -4.875         | -5.8125          | 0.6035             | 0.9141          | -868.0         | -808.0       | -9.125          | -10.8125      |
+| 0.2231        | 0.8377 | 800  | 1.0687          | -7.7188        | -8.8125          | 0.5723             | 1.0859          | -1168.0        | -1088.0      | -10.3125        | -11.5625      |
+| 0.2171        | 0.9424 | 900  | 0.9579          | -7.75          | -8.5625          | 0.5762             | 0.8398          | -1144.0        | -1096.0      | -10.125         | -11.0         |
+| 0.0657        | 1.0471 | 1000 | 1.0863          | -7.2812        | -8.375           | 0.5840             | 1.1016          | -1128.0        | -1048.0      | -8.3125         | -9.625        |
+| 0.0641        | 1.1518 | 1100 | 1.1397          | -8.0           | -9.1875          | 0.5977             | 1.1719          | -1208.0        | -1120.0      | -8.9375         | -10.125       |
+| 0.0464        | 1.2565 | 1200 | 1.2448          | -8.3125        | -9.5625          | 0.6016             | 1.2734          | -1248.0        | -1152.0      | -6.3438         | -7.9688       |
+| 0.0455        | 1.3613 | 1300 | 1.2368          | -8.1875        | -9.4375          | 0.5859             | 1.25            | -1232.0        | -1136.0      | -8.5            | -10.0625      |
+| 0.0614        | 1.4660 | 1400 | 1.2305          | -8.0           | -9.3125          | 0.5996             | 1.2578          | -1216.0        | -1120.0      | -7.875          | -9.375        |
+| 0.0573        | 1.5707 | 1500 | 1.2170          | -7.8125        | -9.0             | 0.5723             | 1.1641          | -1184.0        | -1104.0      | -11.0625        | -12.375       |
+| 0.0561        | 1.6754 | 1600 | 1.1795          | -9.1875        | -10.5            | 0.6094             | 1.2656          | -1336.0        | -1240.0      | -6.9062         | -8.75         |
+| 0.0735        | 1.7801 | 1700 | 1.3456          | -9.0625        | -10.625          | 0.6055             | 1.5859          | -1352.0        | -1224.0      | -7.0938         | -8.8125       |
+| 0.0646        | 1.8848 | 1800 | 1.1507          | -8.25          | -9.625           | 0.6055             | 1.3438          | -1248.0        | -1144.0      | -6.3438         | -7.875        |
+| 0.0256        | 1.9895 | 1900 | 1.2247          | -8.625         | -10.125          | 0.5977             | 1.4922          | -1304.0        | -1184.0      | -6.9062         | -8.5          |
+| 0.002         | 2.0942 | 2000 | 1.4274          | -9.9375        | -11.6875         | 0.5957             | 1.75            | -1456.0        | -1312.0      | -5.4688         | -7.3125       |
+| 0.0035        | 2.1990 | 2100 | 1.5121          | -10.125        | -12.0            | 0.6016             | 1.8438          | -1488.0        | -1328.0      | -5.625          | -7.5625       |
+| 0.0073        | 2.3037 | 2200 | 1.4838          | -10.25         | -12.0625         | 0.5996             | 1.8125          | -1496.0        | -1344.0      | -5.4062         | -7.25         |
+| 0.0081        | 2.4084 | 2300 | 1.5810          | -10.875        | -12.75           | 0.5957             | 1.8984          | -1568.0        | -1408.0      | -4.8125         | -6.6562       |
+| 0.0074        | 2.5131 | 2400 | 1.6088          | -10.8125       | -12.6875         | 0.5918             | 1.9141          | -1560.0        | -1400.0      | -5.3438         | -7.2188       |
+| 0.0063        | 2.6178 | 2500 | 1.5735          | -10.5          | -12.375          | 0.5938             | 1.8828          | -1528.0        | -1368.0      | -5.5625         | -7.4375       |
+| 0.0058        | 2.7225 | 2600 | 1.5902          | -10.5          | -12.4375         | 0.5918             | 1.8906          | -1528.0        | -1368.0      | -5.6562         | -7.5312       |
+| 0.0071        | 2.8272 | 2700 | 1.5780          | -10.375        | -12.25           | 0.5898             | 1.8828          | -1512.0        | -1360.0      | -5.7188         | -7.625        |
+| 0.0063        | 2.9319 | 2800 | 1.5814          | -10.375        | -12.25           | 0.5938             | 1.8906          | -1520.0        | -1360.0      | -5.6875         | -7.5938       |
 ### Framework versions
+- Transformers 4.45.1
 - Pytorch 2.3.0
+- Datasets 3.0.1
+- Tokenizers 0.20.0

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 3.0,
     "total_flos": 0.0,
-    "train_loss": 0.11531559581726945,
-    "train_runtime": 12304.0145,
     "train_samples": 61119,
-    "train_samples_per_second": 14.902,
-    "train_steps_per_second": 0.233
 }

 {
     "epoch": 3.0,
     "total_flos": 0.0,
+    "train_loss": 0.116292925227765,
+    "train_runtime": 12240.7967,
     "train_samples": 61119,
+    "train_samples_per_second": 14.979,
+    "train_steps_per_second": 0.234
 }

config.json CHANGED Viewed

@@ -6,7 +6,7 @@
   ],
   "auto_map": {
     "AutoConfig": "configuration_openelm.OpenELMConfig",
-    "AutoModelForCausalLM": "modeling_openelm.OpenELMForCausalLM"
   },
   "bos_token_id": 1,
   "eos_token_id": 2,
@@ -119,7 +119,7 @@
   "rope_max_length": 4096,
   "share_input_output_layers": true,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.44.2",
   "use_cache": false,
   "vocab_size": 32000
 }

   ],
   "auto_map": {
     "AutoConfig": "configuration_openelm.OpenELMConfig",
+    "AutoModelForCausalLM": "apple/OpenELM-1_1B--modeling_openelm.OpenELMForCausalLM"
   },
   "bos_token_id": 1,
   "eos_token_id": 2,
   "rope_max_length": 4096,
   "share_input_output_layers": true,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.1",
   "use_cache": false,
   "vocab_size": 32000
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
-  "transformers_version": "4.44.2"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "transformers_version": "4.45.1"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8341e3d85c5d1c1552984c82b924391fe85974334e9691034c4c7aed2551a2ce
 size 2159808696

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9f75f97f619ab2737b7de16b33bad8dad3884712fd87e87b39df03a974f8892
 size 2159808696

runs/Oct05_06-10-28_xe8545-a100-15/events.out.tfevents.1728102218.xe8545-a100-15.1041997.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea7bc1e2f05a379da6bbc01533385a772bb62b1edc034084a199d4b4247ae75b
+size 225711

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 3.0,
     "total_flos": 0.0,
-    "train_loss": 0.11531559581726945,
-    "train_runtime": 12304.0145,
     "train_samples": 61119,
-    "train_samples_per_second": 14.902,
-    "train_steps_per_second": 0.233
 }

 {
     "epoch": 3.0,
     "total_flos": 0.0,
+    "train_loss": 0.116292925227765,
+    "train_runtime": 12240.7967,
     "train_samples": 61119,
+    "train_samples_per_second": 14.979,
+    "train_steps_per_second": 0.234
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6802c57e65d4a89f4ecdde060df902f61fadd7b70e59e185b23e306cf24d5406
-size 7544

 version https://git-lfs.github.com/spec/v1
+oid sha256:a503dca67b11c4161459c676910cb819b0c83cdbb947f51abf87c2e8c4293ebf
+size 7672