Model save

Files changed (10) hide show

adapter_config.json CHANGED Viewed

@@ -16,9 +16,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "k_proj",
     "q_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM"

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "k_proj",
+    "o_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM"

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6960fd089e19d164d7894dc5fb001aa03ce42dd75ec66e7dc79904d6abf7b02f
 size 134252592

 version https://git-lfs.github.com/spec/v1
+oid sha256:59776a288423adf8e1413385dbd08b91feca51bb66e8eff856a4ab646069f9cf
 size 134252592

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 0.69,
-    "eval_loss": 1.444887399673462,
-    "eval_runtime": 364.7595,
     "eval_samples": 23110,
-    "eval_samples_per_second": 63.357,
     "eval_steps_per_second": 0.992,
-    "train_loss": 1.5280099289757865,
-    "train_runtime": 11248.8271,
     "train_samples": 207865,
-    "train_samples_per_second": 18.479,
     "train_steps_per_second": 0.004
 }

 {
     "epoch": 0.69,
+    "eval_loss": 1.444868564605713,
+    "eval_runtime": 364.8083,
     "eval_samples": 23110,
+    "eval_samples_per_second": 63.348,
     "eval_steps_per_second": 0.992,
+    "train_loss": 1.5280096292495728,
+    "train_runtime": 11257.3852,
     "train_samples": 207865,
+    "train_samples_per_second": 18.465,
     "train_steps_per_second": 0.004
 }

config.json ADDED Viewed

+{
+  "_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.35.0",
+  "use_cache": true,
+  "vocab_size": 32000
+}

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.69,
-    "eval_loss": 1.444887399673462,
-    "eval_runtime": 364.7595,
     "eval_samples": 23110,
-    "eval_samples_per_second": 63.357,
     "eval_steps_per_second": 0.992
 }

 {
     "epoch": 0.69,
+    "eval_loss": 1.444868564605713,
+    "eval_runtime": 364.8083,
     "eval_samples": 23110,
+    "eval_samples_per_second": 63.348,
     "eval_steps_per_second": 0.992
 }

runs/Dec12_06-25-04_beta-a100-3-do-not-terminate/events.out.tfevents.1702362326.beta-a100-3-do-not-terminate.140581.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:50e7b1fdd69612d0ca08a49df49f7bec25e9ddf59d4b7c912006fbfcdd3dab18
+size 6174

runs/Dec12_06-25-04_beta-a100-3-do-not-terminate/events.out.tfevents.1702373948.beta-a100-3-do-not-terminate.140581.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:441824f2dfe971e3b99522dcce10fd78d6d966ba82df1fefbe03050f622370c8
+size 354

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.69,
-    "train_loss": 1.5280099289757865,
-    "train_runtime": 11248.8271,
     "train_samples": 207865,
-    "train_samples_per_second": 18.479,
     "train_steps_per_second": 0.004
 }

 {
     "epoch": 0.69,
+    "train_loss": 1.5280096292495728,
+    "train_runtime": 11257.3852,
     "train_samples": 207865,
+    "train_samples_per_second": 18.465,
     "train_steps_per_second": 0.004
 }

trainer_state.json CHANGED Viewed

@@ -58,19 +58,19 @@
     },
     {
       "epoch": 0.69,
-      "eval_loss": 1.4448440074920654,
-      "eval_runtime": 364.9267,
-      "eval_samples_per_second": 63.328,
-      "eval_steps_per_second": 0.992,
       "step": 35
     },
     {
       "epoch": 0.69,
       "step": 35,
       "total_flos": 9.151767518380032e+16,
-      "train_loss": 1.5280099289757865,
-      "train_runtime": 11248.8271,
-      "train_samples_per_second": 18.479,
       "train_steps_per_second": 0.004
     }
   ],

     },
     {
       "epoch": 0.69,
+      "eval_loss": 1.4448249340057373,
+      "eval_runtime": 365.3304,
+      "eval_samples_per_second": 63.258,
+      "eval_steps_per_second": 0.991,
       "step": 35
     },
     {
       "epoch": 0.69,
       "step": 35,
       "total_flos": 9.151767518380032e+16,
+      "train_loss": 1.5280096292495728,
+      "train_runtime": 11257.3852,
+      "train_samples_per_second": 18.465,
       "train_steps_per_second": 0.004
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f95da2441cd921f3f95e05efb2b79fa496411b703a2e11dd1e9675cca4b3a0e4
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:31fbe82d73129fb8341d01ddf859411b4efa5022cffc1bfee4f83b9709d8f0fd
 size 5688