Model save

Browse files

Files changed (10) hide show

README.md +4 -7
adapter_config.json +5 -5
all_results.json +4 -4
runs/Aug13_18-49-16_ip-172-31-10-237/events.out.tfevents.1723574976.ip-172-31-10-237.661202.0 +3 -0
special_tokens_map.json +2 -2
tokenizer.json +6 -1
tokenizer_config.json +2 -2
train_results.json +4 -4
trainer_state.json +4 -12
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,13 +1,11 @@
 ---
-base_model: meta-llama/Meta-Llama-3-8B-Instruct
-datasets:
-- HuggingFaceH4/ultrachat_200k
 library_name: peft
 license: llama3
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
 model-index:
 - name: llama3-sudo
@@ -19,9 +17,9 @@ should probably proofread and complete it, then remove this comment. -->
 # llama3-sudo
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on the HuggingFaceH4/ultrachat_200k dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0598
 ## Model description
@@ -60,7 +58,6 @@ The following hyperparameters were used during training:
 |:-------------:|:------:|:----:|:---------------:|
 | 1.3252        | 0.9697 | 24   | 1.1693          |
 | 1.1352        | 1.9798 | 49   | 1.0709          |
-| 1.1558        | 2.9091 | 72   | 1.0598          |
 ### Framework versions

 ---
+base_model: meta-llama/Meta-Llama-3-8B
 library_name: peft
 license: llama3
 tags:
 - trl
 - sft
+- alignment-handbook
 - generated_from_trainer
 model-index:
 - name: llama3-sudo
 # llama3-sudo
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0709
 ## Model description
 |:-------------:|:------:|:----:|:---------------:|
 | 1.3252        | 0.9697 | 24   | 1.1693          |
 | 1.1352        | 1.9798 | 49   | 1.0709          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "alpha_pattern": {},
   "auto_mapping": null,
-  "base_model_name_or_path": "meta-llama/Meta-Llama-3-8B-Instruct",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "o_proj",
-    "gate_proj",
     "down_proj",
     "k_proj",
     "up_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

 {
   "alpha_pattern": {},
   "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Meta-Llama-3-8B",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
     "k_proj",
     "up_proj",
+    "o_proj",
+    "v_proj",
+    "q_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 2.909090909090909,
     "total_flos": 644347544469504.0,
-    "train_loss": 1.4444001482592688,
-    "train_runtime": 1573.8006,
     "train_samples": 6321,
-    "train_samples_per_second": 12.049,
-    "train_steps_per_second": 0.046
 }

 {
     "epoch": 2.909090909090909,
     "total_flos": 644347544469504.0,
+    "train_loss": 0.0,
+    "train_runtime": 0.0104,
     "train_samples": 6321,
+    "train_samples_per_second": 1824024.464,
+    "train_steps_per_second": 6925.579
 }

runs/Aug13_18-49-16_ip-172-31-10-237/events.out.tfevents.1723574976.ip-172-31-10-237.661202.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de5373aee182d1a9c0926ddb74a818d355ff7d303b9130821b995d948f9ff990
+size 5898

special_tokens_map.json CHANGED Viewed

@@ -7,11 +7,11 @@
     "single_word": false
   },
   "eos_token": {
-    "content": "<|eot_id|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": "<|eot_id|>"
 }

     "single_word": false
   },
   "eos_token": {
+    "content": "<|end_of_text|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
+  "pad_token": "<|end_of_text|>"
 }

tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 2048,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

tokenizer_config.json CHANGED Viewed

@@ -2052,12 +2052,12 @@
   "bos_token": "<|begin_of_text|>",
   "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|start_header_id|>user<|end_header_id|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|start_header_id|>system<|end_header_id|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|start_header_id|>assistant<|end_header_id|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|start_header_id|>assistant<|end_header_id|>' }}\n{% endif %}\n{% endfor %}",
   "clean_up_tokenization_spaces": true,
-  "eos_token": "<|eot_id|>",
   "model_input_names": [
     "input_ids",
     "attention_mask"
   ],
   "model_max_length": 2048,
-  "pad_token": "<|eot_id|>",
   "tokenizer_class": "PreTrainedTokenizerFast"
 }

   "bos_token": "<|begin_of_text|>",
   "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|start_header_id|>user<|end_header_id|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|start_header_id|>system<|end_header_id|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|start_header_id|>assistant<|end_header_id|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|start_header_id|>assistant<|end_header_id|>' }}\n{% endif %}\n{% endfor %}",
   "clean_up_tokenization_spaces": true,
+  "eos_token": "<|end_of_text|>",
   "model_input_names": [
     "input_ids",
     "attention_mask"
   ],
   "model_max_length": 2048,
+  "pad_token": "<|end_of_text|>",
   "tokenizer_class": "PreTrainedTokenizerFast"
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 2.909090909090909,
     "total_flos": 644347544469504.0,
-    "train_loss": 1.4444001482592688,
-    "train_runtime": 1573.8006,
     "train_samples": 6321,
-    "train_samples_per_second": 12.049,
-    "train_steps_per_second": 0.046
 }

 {
     "epoch": 2.909090909090909,
     "total_flos": 644347544469504.0,
+    "train_loss": 0.0,
+    "train_runtime": 0.0104,
     "train_samples": 6321,
+    "train_samples_per_second": 1824024.464,
+    "train_steps_per_second": 6925.579
 }

trainer_state.json CHANGED Viewed

@@ -129,22 +129,14 @@
       "loss": 1.1558,
       "step": 70
     },
-    {
-      "epoch": 2.909090909090909,
-      "eval_loss": 1.0598390102386475,
-      "eval_runtime": 175.9252,
-      "eval_samples_per_second": 35.93,
-      "eval_steps_per_second": 2.251,
-      "step": 72
-    },
     {
       "epoch": 2.909090909090909,
       "step": 72,
       "total_flos": 644347544469504.0,
-      "train_loss": 1.4444001482592688,
-      "train_runtime": 1573.8006,
-      "train_samples_per_second": 12.049,
-      "train_steps_per_second": 0.046
     }
   ],
   "logging_steps": 5,

       "loss": 1.1558,
       "step": 70
     },
     {
       "epoch": 2.909090909090909,
       "step": 72,
       "total_flos": 644347544469504.0,
+      "train_loss": 0.0,
+      "train_runtime": 0.0104,
+      "train_samples_per_second": 1824024.464,
+      "train_steps_per_second": 6925.579
     }
   ],
   "logging_steps": 5,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d844177e8427c397d610e07a0039ee146b9b5a34f9333112312039844df094b
 size 6904

 version https://git-lfs.github.com/spec/v1
+oid sha256:16295eeb1f0e38a509b14adb88dbf8378e3f98e2904ac3853b73ccdfcab71665
 size 6904