Upload 8 files

Browse files

Files changed (8) hide show

README.md +32 -1
adapter_config.json +21 -0
adapter_model.bin +3 -0
training_graph.json +1268 -0
training_graph.png +0 -0
training_log.json +18 -0
training_parameters.json +37 -0
training_prompt.json +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,34 @@
 ---
-license: mit
 ---

 ---
+library_name: peft
 ---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: QuantizationMethod.BITS_AND_BYTES
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float16
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: QuantizationMethod.BITS_AND_BYTES
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.5.0
+- PEFT 0.5.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "models\\HuggingFaceH4_zephyr-7b-alpha",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 64,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53e37f76541a681d7adc309759a6fec09199cefa4e57e670fb85c99c07e72fba
+size 54572362

training_graph.json ADDED Viewed

	@@ -0,0 +1,1268 @@

+[
+    {
+        "current_steps": 0,
+        "loss": 3.6926,
+        "learning_rate": 0.0,
+        "epoch": 0.01
+    },
+    {
+        "current_steps": 1,
+        "loss": 3.0107,
+        "learning_rate": 0.0,
+        "epoch": 0.03
+    },
+    {
+        "current_steps": 2,
+        "loss": 3.0688,
+        "learning_rate": 0.0,
+        "epoch": 0.04
+    },
+    {
+        "current_steps": 3,
+        "loss": 4.0176,
+        "learning_rate": 0.0,
+        "epoch": 0.06
+    },
+    {
+        "current_steps": 4,
+        "loss": 4.0609,
+        "learning_rate": 0.0,
+        "epoch": 0.07
+    },
+    {
+        "current_steps": 5,
+        "loss": 3.754,
+        "learning_rate": 0.0,
+        "epoch": 0.09
+    },
+    {
+        "current_steps": 6,
+        "loss": 3.1981,
+        "learning_rate": 0.0,
+        "epoch": 0.1
+    },
+    {
+        "current_steps": 7,
+        "loss": 2.7138,
+        "learning_rate": 0.0,
+        "epoch": 0.11
+    },
+    {
+        "current_steps": 8,
+        "loss": 3.8803,
+        "learning_rate": 0.0,
+        "epoch": 0.13
+    },
+    {
+        "current_steps": 9,
+        "loss": 3.5793,
+        "learning_rate": 2.9999999999999997e-06,
+        "epoch": 0.14
+    },
+    {
+        "current_steps": 10,
+        "loss": 2.8589,
+        "learning_rate": 5.999999999999999e-06,
+        "epoch": 0.16
+    },
+    {
+        "current_steps": 11,
+        "loss": 2.6536,
+        "learning_rate": 8.999999999999999e-06,
+        "epoch": 0.17
+    },
+    {
+        "current_steps": 12,
+        "loss": 4.1845,
+        "learning_rate": 1.1999999999999999e-05,
+        "epoch": 0.19
+    },
+    {
+        "current_steps": 13,
+        "loss": 3.7447,
+        "learning_rate": 1.4999999999999999e-05,
+        "epoch": 0.2
+    },
+    {
+        "current_steps": 14,
+        "loss": 2.9558,
+        "learning_rate": 1.7999999999999997e-05,
+        "epoch": 0.21
+    },
+    {
+        "current_steps": 15,
+        "loss": 3.7552,
+        "learning_rate": 2.1e-05,
+        "epoch": 0.23
+    },
+    {
+        "current_steps": 16,
+        "loss": 3.7336,
+        "learning_rate": 2.3999999999999997e-05,
+        "epoch": 0.24
+    },
+    {
+        "current_steps": 17,
+        "loss": 2.484,
+        "learning_rate": 2.6999999999999996e-05,
+        "epoch": 0.26
+    },
+    {
+        "current_steps": 18,
+        "loss": 3.7203,
+        "learning_rate": 2.9999999999999997e-05,
+        "epoch": 0.27
+    },
+    {
+        "current_steps": 19,
+        "loss": 3.6129,
+        "learning_rate": 2.9999999999999997e-05,
+        "epoch": 0.29
+    },
+    {
+        "current_steps": 20,
+        "loss": 2.2497,
+        "learning_rate": 3.2999999999999996e-05,
+        "epoch": 0.3
+    },
+    {
+        "current_steps": 21,
+        "loss": 3.2732,
+        "learning_rate": 3.5999999999999994e-05,
+        "epoch": 0.31
+    },
+    {
+        "current_steps": 22,
+        "loss": 2.4979,
+        "learning_rate": 3.9e-05,
+        "epoch": 0.33
+    },
+    {
+        "current_steps": 23,
+        "loss": 3.043,
+        "learning_rate": 4.2e-05,
+        "epoch": 0.34
+    },
+    {
+        "current_steps": 24,
+        "loss": 3.2435,
+        "learning_rate": 4.4999999999999996e-05,
+        "epoch": 0.36
+    },
+    {
+        "current_steps": 25,
+        "loss": 3.3493,
+        "learning_rate": 4.7999999999999994e-05,
+        "epoch": 0.37
+    },
+    {
+        "current_steps": 26,
+        "loss": 2.6339,
+        "learning_rate": 5.1e-05,
+        "epoch": 0.39
+    },
+    {
+        "current_steps": 27,
+        "loss": 2.9486,
+        "learning_rate": 5.399999999999999e-05,
+        "epoch": 0.4
+    },
+    {
+        "current_steps": 28,
+        "loss": 2.3865,
+        "learning_rate": 5.6999999999999996e-05,
+        "epoch": 0.41
+    },
+    {
+        "current_steps": 29,
+        "loss": 2.3687,
+        "learning_rate": 5.9999999999999995e-05,
+        "epoch": 0.43
+    },
+    {
+        "current_steps": 30,
+        "loss": 2.3417,
+        "learning_rate": 6.299999999999999e-05,
+        "epoch": 0.44
+    },
+    {
+        "current_steps": 31,
+        "loss": 2.5443,
+        "learning_rate": 6.599999999999999e-05,
+        "epoch": 0.46
+    },
+    {
+        "current_steps": 32,
+        "loss": 2.4717,
+        "learning_rate": 6.9e-05,
+        "epoch": 0.47
+    },
+    {
+        "current_steps": 33,
+        "loss": 2.2291,
+        "learning_rate": 7.199999999999999e-05,
+        "epoch": 0.49
+    },
+    {
+        "current_steps": 34,
+        "loss": 2.4815,
+        "learning_rate": 7.5e-05,
+        "epoch": 0.5
+    },
+    {
+        "current_steps": 35,
+        "loss": 2.4468,
+        "learning_rate": 7.8e-05,
+        "epoch": 0.51
+    },
+    {
+        "current_steps": 36,
+        "loss": 2.4246,
+        "learning_rate": 8.1e-05,
+        "epoch": 0.53
+    },
+    {
+        "current_steps": 37,
+        "loss": 2.3154,
+        "learning_rate": 8.4e-05,
+        "epoch": 0.54
+    },
+    {
+        "current_steps": 38,
+        "loss": 1.9939,
+        "learning_rate": 8.699999999999999e-05,
+        "epoch": 0.56
+    },
+    {
+        "current_steps": 39,
+        "loss": 1.8099,
+        "learning_rate": 8.999999999999999e-05,
+        "epoch": 0.57
+    },
+    {
+        "current_steps": 40,
+        "loss": 1.865,
+        "learning_rate": 9.3e-05,
+        "epoch": 0.59
+    },
+    {
+        "current_steps": 41,
+        "loss": 1.4322,
+        "learning_rate": 9.599999999999999e-05,
+        "epoch": 0.6
+    },
+    {
+        "current_steps": 42,
+        "loss": 2.3252,
+        "learning_rate": 9.9e-05,
+        "epoch": 0.61
+    },
+    {
+        "current_steps": 43,
+        "loss": 1.7521,
+        "learning_rate": 0.000102,
+        "epoch": 0.63
+    },
+    {
+        "current_steps": 44,
+        "loss": 2.145,
+        "learning_rate": 0.00010499999999999999,
+        "epoch": 0.64
+    },
+    {
+        "current_steps": 45,
+        "loss": 1.6641,
+        "learning_rate": 0.00010799999999999998,
+        "epoch": 0.66
+    },
+    {
+        "current_steps": 46,
+        "loss": 1.8938,
+        "learning_rate": 0.00011099999999999999,
+        "epoch": 0.67
+    },
+    {
+        "current_steps": 47,
+        "loss": 1.5194,
+        "learning_rate": 0.00011399999999999999,
+        "epoch": 0.69
+    },
+    {
+        "current_steps": 48,
+        "loss": 1.4478,
+        "learning_rate": 0.000117,
+        "epoch": 0.7
+    },
+    {
+        "current_steps": 49,
+        "loss": 1.9414,
+        "learning_rate": 0.00011999999999999999,
+        "epoch": 0.71
+    },
+    {
+        "current_steps": 50,
+        "loss": 1.5601,
+        "learning_rate": 0.00012299999999999998,
+        "epoch": 0.73
+    },
+    {
+        "current_steps": 51,
+        "loss": 1.9015,
+        "learning_rate": 0.00012599999999999997,
+        "epoch": 0.74
+    },
+    {
+        "current_steps": 52,
+        "loss": 1.7384,
+        "learning_rate": 0.000129,
+        "epoch": 0.76
+    },
+    {
+        "current_steps": 53,
+        "loss": 1.7282,
+        "learning_rate": 0.00013199999999999998,
+        "epoch": 0.77
+    },
+    {
+        "current_steps": 54,
+        "loss": 1.6877,
+        "learning_rate": 0.000135,
+        "epoch": 0.79
+    },
+    {
+        "current_steps": 55,
+        "loss": 1.0647,
+        "learning_rate": 0.000138,
+        "epoch": 0.8
+    },
+    {
+        "current_steps": 56,
+        "loss": 1.755,
+        "learning_rate": 0.00014099999999999998,
+        "epoch": 0.81
+    },
+    {
+        "current_steps": 57,
+        "loss": 1.516,
+        "learning_rate": 0.00014399999999999998,
+        "epoch": 0.83
+    },
+    {
+        "current_steps": 58,
+        "loss": 1.3498,
+        "learning_rate": 0.000147,
+        "epoch": 0.84
+    },
+    {
+        "current_steps": 59,
+        "loss": 1.6789,
+        "learning_rate": 0.00015,
+        "epoch": 0.86
+    },
+    {
+        "current_steps": 60,
+        "loss": 1.3651,
+        "learning_rate": 0.00015299999999999998,
+        "epoch": 0.87
+    },
+    {
+        "current_steps": 61,
+        "loss": 1.2967,
+        "learning_rate": 0.000156,
+        "epoch": 0.89
+    },
+    {
+        "current_steps": 62,
+        "loss": 1.3998,
+        "learning_rate": 0.000159,
+        "epoch": 0.9
+    },
+    {
+        "current_steps": 63,
+        "loss": 1.1989,
+        "learning_rate": 0.000162,
+        "epoch": 0.91
+    },
+    {
+        "current_steps": 64,
+        "loss": 1.029,
+        "learning_rate": 0.000165,
+        "epoch": 0.93
+    },
+    {
+        "current_steps": 65,
+        "loss": 1.4441,
+        "learning_rate": 0.000168,
+        "epoch": 0.94
+    },
+    {
+        "current_steps": 66,
+        "loss": 1.1804,
+        "learning_rate": 0.00017099999999999998,
+        "epoch": 0.96
+    },
+    {
+        "current_steps": 67,
+        "loss": 1.2868,
+        "learning_rate": 0.00017399999999999997,
+        "epoch": 0.97
+    },
+    {
+        "current_steps": 68,
+        "loss": 1.1724,
+        "learning_rate": 0.00017699999999999997,
+        "epoch": 0.99
+    },
+    {
+        "current_steps": 69,
+        "loss": 1.4346,
+        "learning_rate": 0.00017999999999999998,
+        "epoch": 1.0
+    },
+    {
+        "current_steps": 70,
+        "loss": 1.0183,
+        "learning_rate": 0.00018299999999999998,
+        "epoch": 1.01
+    },
+    {
+        "current_steps": 71,
+        "loss": 1.1259,
+        "learning_rate": 0.000186,
+        "epoch": 1.03
+    },
+    {
+        "current_steps": 72,
+        "loss": 1.1713,
+        "learning_rate": 0.00018899999999999999,
+        "epoch": 1.04
+    },
+    {
+        "current_steps": 73,
+        "loss": 1.0773,
+        "learning_rate": 0.00019199999999999998,
+        "epoch": 1.06
+    },
+    {
+        "current_steps": 74,
+        "loss": 1.2956,
+        "learning_rate": 0.000195,
+        "epoch": 1.07
+    },
+    {
+        "current_steps": 75,
+        "loss": 0.9359,
+        "learning_rate": 0.000198,
+        "epoch": 1.09
+    },
+    {
+        "current_steps": 76,
+        "loss": 0.9838,
+        "learning_rate": 0.000201,
+        "epoch": 1.1
+    },
+    {
+        "current_steps": 77,
+        "loss": 0.9488,
+        "learning_rate": 0.000204,
+        "epoch": 1.11
+    },
+    {
+        "current_steps": 78,
+        "loss": 1.0748,
+        "learning_rate": 0.00020699999999999996,
+        "epoch": 1.13
+    },
+    {
+        "current_steps": 79,
+        "loss": 1.0914,
+        "learning_rate": 0.00020999999999999998,
+        "epoch": 1.14
+    },
+    {
+        "current_steps": 80,
+        "loss": 0.5364,
+        "learning_rate": 0.00021299999999999997,
+        "epoch": 1.16
+    },
+    {
+        "current_steps": 81,
+        "loss": 0.4909,
+        "learning_rate": 0.00021599999999999996,
+        "epoch": 1.17
+    },
+    {
+        "current_steps": 82,
+        "loss": 1.0176,
+        "learning_rate": 0.00021899999999999998,
+        "epoch": 1.19
+    },
+    {
+        "current_steps": 83,
+        "loss": 1.0543,
+        "learning_rate": 0.00022199999999999998,
+        "epoch": 1.2
+    },
+    {
+        "current_steps": 84,
+        "loss": 0.9092,
+        "learning_rate": 0.000225,
+        "epoch": 1.21
+    },
+    {
+        "current_steps": 85,
+        "loss": 0.5678,
+        "learning_rate": 0.00022799999999999999,
+        "epoch": 1.23
+    },
+    {
+        "current_steps": 86,
+        "loss": 0.8385,
+        "learning_rate": 0.00023099999999999998,
+        "epoch": 1.24
+    },
+    {
+        "current_steps": 87,
+        "loss": 1.6241,
+        "learning_rate": 0.000234,
+        "epoch": 1.26
+    },
+    {
+        "current_steps": 88,
+        "loss": 0.8294,
+        "learning_rate": 0.000237,
+        "epoch": 1.27
+    },
+    {
+        "current_steps": 89,
+        "loss": 1.2953,
+        "learning_rate": 0.00023999999999999998,
+        "epoch": 1.29
+    },
+    {
+        "current_steps": 90,
+        "loss": 0.5297,
+        "learning_rate": 0.000243,
+        "epoch": 1.3
+    },
+    {
+        "current_steps": 91,
+        "loss": 1.1592,
+        "learning_rate": 0.00024599999999999996,
+        "epoch": 1.31
+    },
+    {
+        "current_steps": 92,
+        "loss": 1.1055,
+        "learning_rate": 0.000249,
+        "epoch": 1.33
+    },
+    {
+        "current_steps": 93,
+        "loss": 0.9804,
+        "learning_rate": 0.00025199999999999995,
+        "epoch": 1.34
+    },
+    {
+        "current_steps": 94,
+        "loss": 0.8683,
+        "learning_rate": 0.00025499999999999996,
+        "epoch": 1.36
+    },
+    {
+        "current_steps": 95,
+        "loss": 0.9698,
+        "learning_rate": 0.000258,
+        "epoch": 1.37
+    },
+    {
+        "current_steps": 96,
+        "loss": 1.037,
+        "learning_rate": 0.000261,
+        "epoch": 1.39
+    },
+    {
+        "current_steps": 97,
+        "loss": 0.5479,
+        "learning_rate": 0.00026399999999999997,
+        "epoch": 1.4
+    },
+    {
+        "current_steps": 98,
+        "loss": 0.598,
+        "learning_rate": 0.000267,
+        "epoch": 1.41
+    },
+    {
+        "current_steps": 99,
+        "loss": 0.3627,
+        "learning_rate": 0.00027,
+        "epoch": 1.43
+    },
+    {
+        "current_steps": 100,
+        "loss": 0.8042,
+        "learning_rate": 0.00027299999999999997,
+        "epoch": 1.44
+    },
+    {
+        "current_steps": 101,
+        "loss": 1.0378,
+        "learning_rate": 0.000276,
+        "epoch": 1.46
+    },
+    {
+        "current_steps": 102,
+        "loss": 1.0192,
+        "learning_rate": 0.000279,
+        "epoch": 1.47
+    },
+    {
+        "current_steps": 103,
+        "loss": 1.4654,
+        "learning_rate": 0.00028199999999999997,
+        "epoch": 1.49
+    },
+    {
+        "current_steps": 104,
+        "loss": 1.0614,
+        "learning_rate": 0.000285,
+        "epoch": 1.5
+    },
+    {
+        "current_steps": 105,
+        "loss": 0.779,
+        "learning_rate": 0.00028799999999999995,
+        "epoch": 1.51
+    },
+    {
+        "current_steps": 106,
+        "loss": 1.0255,
+        "learning_rate": 0.00029099999999999997,
+        "epoch": 1.53
+    },
+    {
+        "current_steps": 107,
+        "loss": 1.0924,
+        "learning_rate": 0.000294,
+        "epoch": 1.54
+    },
+    {
+        "current_steps": 108,
+        "loss": 1.1016,
+        "learning_rate": 0.00029699999999999996,
+        "epoch": 1.56
+    },
+    {
+        "current_steps": 109,
+        "loss": 0.8748,
+        "learning_rate": 0.0003,
+        "epoch": 1.57
+    },
+    {
+        "current_steps": 110,
+        "loss": 0.8048,
+        "learning_rate": 0.00029727272727272724,
+        "epoch": 1.59
+    },
+    {
+        "current_steps": 111,
+        "loss": 1.0229,
+        "learning_rate": 0.0002945454545454545,
+        "epoch": 1.6
+    },
+    {
+        "current_steps": 112,
+        "loss": 0.9677,
+        "learning_rate": 0.0002918181818181818,
+        "epoch": 1.61
+    },
+    {
+        "current_steps": 113,
+        "loss": 0.5605,
+        "learning_rate": 0.00028909090909090904,
+        "epoch": 1.63
+    },
+    {
+        "current_steps": 114,
+        "loss": 0.9392,
+        "learning_rate": 0.00028636363636363636,
+        "epoch": 1.64
+    },
+    {
+        "current_steps": 115,
+        "loss": 1.0068,
+        "learning_rate": 0.0002836363636363636,
+        "epoch": 1.66
+    },
+    {
+        "current_steps": 116,
+        "loss": 0.898,
+        "learning_rate": 0.0002809090909090909,
+        "epoch": 1.67
+    },
+    {
+        "current_steps": 117,
+        "loss": 1.1297,
+        "learning_rate": 0.00027818181818181815,
+        "epoch": 1.69
+    },
+    {
+        "current_steps": 118,
+        "loss": 0.8696,
+        "learning_rate": 0.0002754545454545454,
+        "epoch": 1.7
+    },
+    {
+        "current_steps": 119,
+        "loss": 0.975,
+        "learning_rate": 0.0002727272727272727,
+        "epoch": 1.71
+    },
+    {
+        "current_steps": 120,
+        "loss": 1.107,
+        "learning_rate": 0.00027,
+        "epoch": 1.73
+    },
+    {
+        "current_steps": 121,
+        "loss": 1.1696,
+        "learning_rate": 0.0002672727272727272,
+        "epoch": 1.74
+    },
+    {
+        "current_steps": 122,
+        "loss": 0.7181,
+        "learning_rate": 0.00026454545454545453,
+        "epoch": 1.76
+    },
+    {
+        "current_steps": 123,
+        "loss": 0.4008,
+        "learning_rate": 0.0002618181818181818,
+        "epoch": 1.77
+    },
+    {
+        "current_steps": 124,
+        "loss": 0.6227,
+        "learning_rate": 0.00025909090909090907,
+        "epoch": 1.79
+    },
+    {
+        "current_steps": 125,
+        "loss": 1.4091,
+        "learning_rate": 0.00025636363636363633,
+        "epoch": 1.8
+    },
+    {
+        "current_steps": 126,
+        "loss": 0.7953,
+        "learning_rate": 0.0002536363636363636,
+        "epoch": 1.81
+    },
+    {
+        "current_steps": 127,
+        "loss": 1.1635,
+        "learning_rate": 0.00025090909090909086,
+        "epoch": 1.83
+    },
+    {
+        "current_steps": 128,
+        "loss": 0.6109,
+        "learning_rate": 0.0002481818181818182,
+        "epoch": 1.84
+    },
+    {
+        "current_steps": 129,
+        "loss": 0.7244,
+        "learning_rate": 0.00024545454545454545,
+        "epoch": 1.86
+    },
+    {
+        "current_steps": 130,
+        "loss": 1.0868,
+        "learning_rate": 0.0002427272727272727,
+        "epoch": 1.87
+    },
+    {
+        "current_steps": 131,
+        "loss": 1.1968,
+        "learning_rate": 0.00023999999999999998,
+        "epoch": 1.89
+    },
+    {
+        "current_steps": 132,
+        "loss": 1.109,
+        "learning_rate": 0.00023727272727272724,
+        "epoch": 1.9
+    },
+    {
+        "current_steps": 133,
+        "loss": 0.8744,
+        "learning_rate": 0.00023454545454545454,
+        "epoch": 1.91
+    },
+    {
+        "current_steps": 134,
+        "loss": 0.6971,
+        "learning_rate": 0.0002318181818181818,
+        "epoch": 1.93
+    },
+    {
+        "current_steps": 135,
+        "loss": 0.827,
+        "learning_rate": 0.00022909090909090907,
+        "epoch": 1.94
+    },
+    {
+        "current_steps": 136,
+        "loss": 0.8474,
+        "learning_rate": 0.00022636363636363633,
+        "epoch": 1.96
+    },
+    {
+        "current_steps": 137,
+        "loss": 0.8051,
+        "learning_rate": 0.00022363636363636363,
+        "epoch": 1.97
+    },
+    {
+        "current_steps": 138,
+        "loss": 0.8532,
+        "learning_rate": 0.0002209090909090909,
+        "epoch": 1.99
+    },
+    {
+        "current_steps": 139,
+        "loss": 0.8277,
+        "learning_rate": 0.00021818181818181816,
+        "epoch": 2.0
+    },
+    {
+        "current_steps": 140,
+        "loss": 0.3926,
+        "learning_rate": 0.00021545454545454542,
+        "epoch": 2.01
+    },
+    {
+        "current_steps": 141,
+        "loss": 0.5717,
+        "learning_rate": 0.00021272727272727272,
+        "epoch": 2.03
+    },
+    {
+        "current_steps": 142,
+        "loss": 0.6956,
+        "learning_rate": 0.00020999999999999998,
+        "epoch": 2.04
+    },
+    {
+        "current_steps": 143,
+        "loss": 0.6353,
+        "learning_rate": 0.00020727272727272725,
+        "epoch": 2.06
+    },
+    {
+        "current_steps": 144,
+        "loss": 0.4248,
+        "learning_rate": 0.0002045454545454545,
+        "epoch": 2.07
+    },
+    {
+        "current_steps": 145,
+        "loss": 0.6299,
+        "learning_rate": 0.0002018181818181818,
+        "epoch": 2.09
+    },
+    {
+        "current_steps": 146,
+        "loss": 0.3415,
+        "learning_rate": 0.0001990909090909091,
+        "epoch": 2.1
+    },
+    {
+        "current_steps": 147,
+        "loss": 0.4788,
+        "learning_rate": 0.00019636363636363634,
+        "epoch": 2.11
+    },
+    {
+        "current_steps": 148,
+        "loss": 0.6898,
+        "learning_rate": 0.00019363636363636363,
+        "epoch": 2.13
+    },
+    {
+        "current_steps": 149,
+        "loss": 0.4212,
+        "learning_rate": 0.0001909090909090909,
+        "epoch": 2.14
+    },
+    {
+        "current_steps": 150,
+        "loss": 0.6855,
+        "learning_rate": 0.0001881818181818182,
+        "epoch": 2.16
+    },
+    {
+        "current_steps": 151,
+        "loss": 0.4411,
+        "learning_rate": 0.00018545454545454543,
+        "epoch": 2.17
+    },
+    {
+        "current_steps": 152,
+        "loss": 0.4706,
+        "learning_rate": 0.00018272727272727272,
+        "epoch": 2.19
+    },
+    {
+        "current_steps": 153,
+        "loss": 0.6222,
+        "learning_rate": 0.00017999999999999998,
+        "epoch": 2.2
+    },
+    {
+        "current_steps": 154,
+        "loss": 0.6584,
+        "learning_rate": 0.00017727272727272728,
+        "epoch": 2.21
+    },
+    {
+        "current_steps": 155,
+        "loss": 0.6037,
+        "learning_rate": 0.00017454545454545452,
+        "epoch": 2.23
+    },
+    {
+        "current_steps": 156,
+        "loss": 0.6478,
+        "learning_rate": 0.0001718181818181818,
+        "epoch": 2.24
+    },
+    {
+        "current_steps": 157,
+        "loss": 0.4591,
+        "learning_rate": 0.00016909090909090907,
+        "epoch": 2.26
+    },
+    {
+        "current_steps": 158,
+        "loss": 0.4085,
+        "learning_rate": 0.00016636363636363637,
+        "epoch": 2.27
+    },
+    {
+        "current_steps": 159,
+        "loss": 0.6747,
+        "learning_rate": 0.0001636363636363636,
+        "epoch": 2.29
+    },
+    {
+        "current_steps": 160,
+        "loss": 0.4008,
+        "learning_rate": 0.0001609090909090909,
+        "epoch": 2.3
+    },
+    {
+        "current_steps": 161,
+        "loss": 0.671,
+        "learning_rate": 0.00015818181818181816,
+        "epoch": 2.31
+    },
+    {
+        "current_steps": 162,
+        "loss": 0.593,
+        "learning_rate": 0.00015545454545454546,
+        "epoch": 2.33
+    },
+    {
+        "current_steps": 163,
+        "loss": 0.4881,
+        "learning_rate": 0.0001527272727272727,
+        "epoch": 2.34
+    },
+    {
+        "current_steps": 164,
+        "loss": 0.6749,
+        "learning_rate": 0.00015,
+        "epoch": 2.36
+    },
+    {
+        "current_steps": 165,
+        "loss": 0.7904,
+        "learning_rate": 0.00014727272727272725,
+        "epoch": 2.37
+    },
+    {
+        "current_steps": 166,
+        "loss": 0.7036,
+        "learning_rate": 0.00014454545454545452,
+        "epoch": 2.39
+    },
+    {
+        "current_steps": 167,
+        "loss": 0.5043,
+        "learning_rate": 0.0001418181818181818,
+        "epoch": 2.4
+    },
+    {
+        "current_steps": 168,
+        "loss": 0.7245,
+        "learning_rate": 0.00013909090909090908,
+        "epoch": 2.41
+    },
+    {
+        "current_steps": 169,
+        "loss": 0.7101,
+        "learning_rate": 0.00013636363636363634,
+        "epoch": 2.43
+    },
+    {
+        "current_steps": 170,
+        "loss": 0.3898,
+        "learning_rate": 0.0001336363636363636,
+        "epoch": 2.44
+    },
+    {
+        "current_steps": 171,
+        "loss": 0.4639,
+        "learning_rate": 0.0001309090909090909,
+        "epoch": 2.46
+    },
+    {
+        "current_steps": 172,
+        "loss": 0.686,
+        "learning_rate": 0.00012818181818181817,
+        "epoch": 2.47
+    },
+    {
+        "current_steps": 173,
+        "loss": 0.4952,
+        "learning_rate": 0.00012545454545454543,
+        "epoch": 2.49
+    },
+    {
+        "current_steps": 174,
+        "loss": 0.2727,
+        "learning_rate": 0.00012272727272727272,
+        "epoch": 2.5
+    },
+    {
+        "current_steps": 175,
+        "loss": 0.3428,
+        "learning_rate": 0.00011999999999999999,
+        "epoch": 2.51
+    },
+    {
+        "current_steps": 176,
+        "loss": 0.253,
+        "learning_rate": 0.00011727272727272727,
+        "epoch": 2.53
+    },
+    {
+        "current_steps": 177,
+        "loss": 0.5778,
+        "learning_rate": 0.00011454545454545453,
+        "epoch": 2.54
+    },
+    {
+        "current_steps": 178,
+        "loss": 0.639,
+        "learning_rate": 0.00011181818181818181,
+        "epoch": 2.56
+    },
+    {
+        "current_steps": 179,
+        "loss": 0.7327,
+        "learning_rate": 0.00010909090909090908,
+        "epoch": 2.57
+    },
+    {
+        "current_steps": 180,
+        "loss": 0.4956,
+        "learning_rate": 0.00010636363636363636,
+        "epoch": 2.59
+    },
+    {
+        "current_steps": 181,
+        "loss": 0.364,
+        "learning_rate": 0.00010363636363636362,
+        "epoch": 2.6
+    },
+    {
+        "current_steps": 182,
+        "loss": 0.4497,
+        "learning_rate": 0.0001009090909090909,
+        "epoch": 2.61
+    },
+    {
+        "current_steps": 183,
+        "loss": 0.7653,
+        "learning_rate": 9.818181818181817e-05,
+        "epoch": 2.63
+    },
+    {
+        "current_steps": 184,
+        "loss": 0.6586,
+        "learning_rate": 9.545454545454545e-05,
+        "epoch": 2.64
+    },
+    {
+        "current_steps": 185,
+        "loss": 0.4404,
+        "learning_rate": 9.272727272727271e-05,
+        "epoch": 2.66
+    },
+    {
+        "current_steps": 186,
+        "loss": 0.7484,
+        "learning_rate": 8.999999999999999e-05,
+        "epoch": 2.67
+    },
+    {
+        "current_steps": 187,
+        "loss": 0.6176,
+        "learning_rate": 8.727272727272726e-05,
+        "epoch": 2.69
+    },
+    {
+        "current_steps": 188,
+        "loss": 0.7404,
+        "learning_rate": 8.454545454545454e-05,
+        "epoch": 2.7
+    },
+    {
+        "current_steps": 189,
+        "loss": 0.8124,
+        "learning_rate": 8.18181818181818e-05,
+        "epoch": 2.71
+    },
+    {
+        "current_steps": 190,
+        "loss": 0.6525,
+        "learning_rate": 7.909090909090908e-05,
+        "epoch": 2.73
+    },
+    {
+        "current_steps": 191,
+        "loss": 0.5986,
+        "learning_rate": 7.636363636363635e-05,
+        "epoch": 2.74
+    },
+    {
+        "current_steps": 192,
+        "loss": 0.294,
+        "learning_rate": 7.363636363636363e-05,
+        "epoch": 2.76
+    },
+    {
+        "current_steps": 193,
+        "loss": 0.2973,
+        "learning_rate": 7.09090909090909e-05,
+        "epoch": 2.77
+    },
+    {
+        "current_steps": 194,
+        "loss": 0.3589,
+        "learning_rate": 6.818181818181817e-05,
+        "epoch": 2.79
+    },
+    {
+        "current_steps": 195,
+        "loss": 0.78,
+        "learning_rate": 6.545454545454545e-05,
+        "epoch": 2.8
+    },
+    {
+        "current_steps": 196,
+        "loss": 0.4056,
+        "learning_rate": 6.272727272727272e-05,
+        "epoch": 2.81
+    },
+    {
+        "current_steps": 197,
+        "loss": 0.5843,
+        "learning_rate": 5.9999999999999995e-05,
+        "epoch": 2.83
+    },
+    {
+        "current_steps": 198,
+        "loss": 0.5745,
+        "learning_rate": 5.727272727272727e-05,
+        "epoch": 2.84
+    },
+    {
+        "current_steps": 199,
+        "loss": 0.2763,
+        "learning_rate": 5.454545454545454e-05,
+        "epoch": 2.86
+    },
+    {
+        "current_steps": 200,
+        "loss": 0.5494,
+        "learning_rate": 5.181818181818181e-05,
+        "epoch": 2.87
+    },
+    {
+        "current_steps": 201,
+        "loss": 0.4962,
+        "learning_rate": 4.9090909090909084e-05,
+        "epoch": 2.89
+    },
+    {
+        "current_steps": 202,
+        "loss": 0.5864,
+        "learning_rate": 4.6363636363636356e-05,
+        "epoch": 2.9
+    },
+    {
+        "current_steps": 203,
+        "loss": 0.3165,
+        "learning_rate": 4.363636363636363e-05,
+        "epoch": 2.91
+    },
+    {
+        "current_steps": 204,
+        "loss": 0.5969,
+        "learning_rate": 4.09090909090909e-05,
+        "epoch": 2.93
+    },
+    {
+        "current_steps": 205,
+        "loss": 0.3003,
+        "learning_rate": 3.8181818181818174e-05,
+        "epoch": 2.94
+    },
+    {
+        "current_steps": 206,
+        "loss": 0.6398,
+        "learning_rate": 3.545454545454545e-05,
+        "epoch": 2.96
+    },
+    {
+        "current_steps": 207,
+        "loss": 0.604,
+        "learning_rate": 3.2727272727272725e-05,
+        "epoch": 2.97
+    },
+    {
+        "current_steps": 208,
+        "loss": 0.6389,
+        "learning_rate": 2.9999999999999997e-05,
+        "epoch": 2.99
+    },
+    {
+        "current_steps": 209,
+        "loss": 0.5865,
+        "learning_rate": 2.727272727272727e-05,
+        "epoch": 3.0
+    },
+    {
+        "current_steps": 209,
+        "loss": 0.5865,
+        "learning_rate": 2.727272727272727e-05,
+        "epoch": 3.0
+    }
+]

training_graph.png ADDED Viewed

training_log.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "base_model_name": "HuggingFaceH4_zephyr-7b-alpha",
+  "base_model_class": "MistralForCausalLM",
+  "base_loaded_in_4bit": true,
+  "base_loaded_in_8bit": false,
+  "projections": "q, v",
+  "loss": 0.5865,
+  "learning_rate": 2.727272727272727e-05,
+  "epoch": 3.0,
+  "current_steps": 209,
+  "current_steps_adjusted": 209,
+  "epoch_adjusted": 3.0,
+  "train_runtime": 152.7978,
+  "train_samples_per_second": 5.478,
+  "train_steps_per_second": 1.374,
+  "total_flos": 9159217237721088.0,
+  "train_loss": 1.2863307027589708
+}

training_parameters.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "lora_name": "zephyr7b_prompts",
+  "always_override": false,
+  "save_steps": 0.0,
+  "micro_batch_size": 4,
+  "batch_size": 0,
+  "epochs": 3.0,
+  "learning_rate": "3e-4",
+  "lr_scheduler_type": "linear",
+  "lora_rank": 32,
+  "lora_alpha": 64,
+  "lora_dropout": 0.05,
+  "cutoff_len": 256,
+  "dataset": "None",
+  "eval_dataset": "None",
+  "format": "None",
+  "eval_steps": 100.0,
+  "raw_text_file": "singles",
+  "higher_rank_limit": false,
+  "warmup_steps": 100.0,
+  "optimizer": "adamw_torch",
+  "hard_cut_string": "end;\\n",
+  "train_only_after": "",
+  "stop_at_loss": 0,
+  "add_eos_token": false,
+  "min_chars": 0.0,
+  "report_to": "None",
+  "precize_slicing_overlap": true,
+  "add_eos_token_type": "Every Block",
+  "save_steps_under_loss": 1.8,
+  "add_bos_token": true,
+  "training_projection": "q-v",
+  "sliding_window": false,
+  "warmup_ratio": 0,
+  "grad_accumulation": 1,
+  "neft_noise_alpha": 0
+}

training_prompt.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "template_type": "raw_text"
+}