Upload v1 Model 1k steps

Browse files

Files changed (8) hide show

README.md +18 -1
adapter_config.json +20 -0
adapter_model.bin +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +1248 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,20 @@
 ---
-license: mit
 ---

 ---
+library_name: peft
 ---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0.dev0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "base_model_name_or_path": "decapoda-research/llama-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5e1621f48d9ad8feb1d6d31050275f0aafd080c5c07153301fe2f48411f4406
+size 443

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:40e486e534b16c41b45d08413ceb5f443c0991730446ff950bd02f1ea93d3a71
+size 33661637

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd771d4fdcc07b3c7d3128e34406ab567381117cf663ec63f46bc1ee9385a49b
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fdf9887d830501ed44fcfc9b1240b3894b0a39f156a92a6534273c610fd7f49b
+size 627

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1248 @@

+{
+  "best_metric": 0.43608614802360535,
+  "best_model_checkpoint": "experiments/checkpoint-1000",
+  "epoch": 16.0,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.9999999999999997e-06,
+      "loss": 1.5328,
+      "step": 5
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 5.999999999999999e-06,
+      "loss": 1.5296,
+      "step": 10
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 8.999999999999999e-06,
+      "loss": 1.5193,
+      "step": 15
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 1.1999999999999999e-05,
+      "loss": 1.5027,
+      "step": 20
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.4999999999999999e-05,
+      "loss": 1.5015,
+      "step": 25
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.7999999999999997e-05,
+      "loss": 1.4799,
+      "step": 30
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.1e-05,
+      "loss": 1.4705,
+      "step": 35
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 2.3999999999999997e-05,
+      "loss": 1.4524,
+      "step": 40
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 2.6999999999999996e-05,
+      "loss": 1.4231,
+      "step": 45
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 2.9999999999999997e-05,
+      "loss": 1.3934,
+      "step": 50
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 3.2999999999999996e-05,
+      "loss": 1.3408,
+      "step": 55
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 3.5999999999999994e-05,
+      "loss": 1.2911,
+      "step": 60
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 3.9e-05,
+      "loss": 1.2097,
+      "step": 65
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 4.2e-05,
+      "loss": 1.121,
+      "step": 70
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 4.4999999999999996e-05,
+      "loss": 1.0317,
+      "step": 75
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 4.7999999999999994e-05,
+      "loss": 0.9421,
+      "step": 80
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 5.1e-05,
+      "loss": 0.883,
+      "step": 85
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 5.399999999999999e-05,
+      "loss": 0.8388,
+      "step": 90
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 5.6999999999999996e-05,
+      "loss": 0.8171,
+      "step": 95
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 5.9999999999999995e-05,
+      "loss": 0.7882,
+      "step": 100
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 6.299999999999999e-05,
+      "loss": 0.7571,
+      "step": 105
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 6.599999999999999e-05,
+      "loss": 0.7267,
+      "step": 110
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 6.9e-05,
+      "loss": 0.7099,
+      "step": 115
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 7.199999999999999e-05,
+      "loss": 0.69,
+      "step": 120
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 7.5e-05,
+      "loss": 0.6809,
+      "step": 125
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 7.8e-05,
+      "loss": 0.6636,
+      "step": 130
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 8.1e-05,
+      "loss": 0.6522,
+      "step": 135
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 8.4e-05,
+      "loss": 0.6398,
+      "step": 140
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 8.699999999999999e-05,
+      "loss": 0.6322,
+      "step": 145
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 8.999999999999999e-05,
+      "loss": 0.6268,
+      "step": 150
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 9.3e-05,
+      "loss": 0.6159,
+      "step": 155
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 9.599999999999999e-05,
+      "loss": 0.6111,
+      "step": 160
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 9.9e-05,
+      "loss": 0.5995,
+      "step": 165
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.000102,
+      "loss": 0.591,
+      "step": 170
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.00010499999999999999,
+      "loss": 0.5885,
+      "step": 175
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.00010799999999999998,
+      "loss": 0.5779,
+      "step": 180
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.00011099999999999999,
+      "loss": 0.5663,
+      "step": 185
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 0.00011399999999999999,
+      "loss": 0.5686,
+      "step": 190
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 0.000117,
+      "loss": 0.558,
+      "step": 195
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 0.00011999999999999999,
+      "loss": 0.5568,
+      "step": 200
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 0.00012299999999999998,
+      "loss": 0.5528,
+      "step": 205
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 0.00012599999999999997,
+      "loss": 0.5469,
+      "step": 210
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 0.000129,
+      "loss": 0.545,
+      "step": 215
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 0.00013199999999999998,
+      "loss": 0.5373,
+      "step": 220
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 0.000135,
+      "loss": 0.5376,
+      "step": 225
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 0.000138,
+      "loss": 0.5373,
+      "step": 230
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 0.00014099999999999998,
+      "loss": 0.5241,
+      "step": 235
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 0.00014399999999999998,
+      "loss": 0.5221,
+      "step": 240
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 0.000147,
+      "loss": 0.5229,
+      "step": 245
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 0.00015,
+      "loss": 0.5199,
+      "step": 250
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.5244991183280945,
+      "eval_runtime": 265.103,
+      "eval_samples_per_second": 7.548,
+      "eval_steps_per_second": 0.947,
+      "step": 250
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 0.00015299999999999998,
+      "loss": 0.5141,
+      "step": 255
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 0.000156,
+      "loss": 0.5086,
+      "step": 260
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 0.000159,
+      "loss": 0.5129,
+      "step": 265
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 0.000162,
+      "loss": 0.5156,
+      "step": 270
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 0.000165,
+      "loss": 0.5053,
+      "step": 275
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 0.000168,
+      "loss": 0.5024,
+      "step": 280
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 0.00017099999999999998,
+      "loss": 0.5048,
+      "step": 285
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 0.00017399999999999997,
+      "loss": 0.5001,
+      "step": 290
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 0.00017699999999999997,
+      "loss": 0.497,
+      "step": 295
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 0.4929,
+      "step": 300
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 0.00018299999999999998,
+      "loss": 0.4962,
+      "step": 305
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 0.000186,
+      "loss": 0.4941,
+      "step": 310
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 0.00018899999999999999,
+      "loss": 0.4927,
+      "step": 315
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 0.00019199999999999998,
+      "loss": 0.4879,
+      "step": 320
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 0.000195,
+      "loss": 0.4825,
+      "step": 325
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 0.000198,
+      "loss": 0.4841,
+      "step": 330
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 0.000201,
+      "loss": 0.484,
+      "step": 335
+    },
+    {
+      "epoch": 5.44,
+      "learning_rate": 0.000204,
+      "loss": 0.4777,
+      "step": 340
+    },
+    {
+      "epoch": 5.52,
+      "learning_rate": 0.00020699999999999996,
+      "loss": 0.4777,
+      "step": 345
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 0.00020999999999999998,
+      "loss": 0.4834,
+      "step": 350
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 0.00021299999999999997,
+      "loss": 0.4724,
+      "step": 355
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 0.00021599999999999996,
+      "loss": 0.4777,
+      "step": 360
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 0.00021899999999999998,
+      "loss": 0.4799,
+      "step": 365
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 0.00022199999999999998,
+      "loss": 0.4771,
+      "step": 370
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 0.000225,
+      "loss": 0.4771,
+      "step": 375
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 0.00022799999999999999,
+      "loss": 0.4671,
+      "step": 380
+    },
+    {
+      "epoch": 6.16,
+      "learning_rate": 0.00023099999999999998,
+      "loss": 0.465,
+      "step": 385
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 0.000234,
+      "loss": 0.4634,
+      "step": 390
+    },
+    {
+      "epoch": 6.32,
+      "learning_rate": 0.000237,
+      "loss": 0.4656,
+      "step": 395
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 0.4726,
+      "step": 400
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 0.000243,
+      "loss": 0.4679,
+      "step": 405
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 0.00024599999999999996,
+      "loss": 0.467,
+      "step": 410
+    },
+    {
+      "epoch": 6.64,
+      "learning_rate": 0.000249,
+      "loss": 0.4642,
+      "step": 415
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 0.00025199999999999995,
+      "loss": 0.462,
+      "step": 420
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 0.00025499999999999996,
+      "loss": 0.4599,
+      "step": 425
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 0.000258,
+      "loss": 0.4569,
+      "step": 430
+    },
+    {
+      "epoch": 6.96,
+      "learning_rate": 0.000261,
+      "loss": 0.4644,
+      "step": 435
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 0.00026399999999999997,
+      "loss": 0.4594,
+      "step": 440
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 0.000267,
+      "loss": 0.4524,
+      "step": 445
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 0.00027,
+      "loss": 0.4547,
+      "step": 450
+    },
+    {
+      "epoch": 7.28,
+      "learning_rate": 0.00027299999999999997,
+      "loss": 0.4565,
+      "step": 455
+    },
+    {
+      "epoch": 7.36,
+      "learning_rate": 0.000276,
+      "loss": 0.4521,
+      "step": 460
+    },
+    {
+      "epoch": 7.44,
+      "learning_rate": 0.000279,
+      "loss": 0.4557,
+      "step": 465
+    },
+    {
+      "epoch": 7.52,
+      "learning_rate": 0.00028199999999999997,
+      "loss": 0.4541,
+      "step": 470
+    },
+    {
+      "epoch": 7.6,
+      "learning_rate": 0.000285,
+      "loss": 0.4537,
+      "step": 475
+    },
+    {
+      "epoch": 7.68,
+      "learning_rate": 0.00028799999999999995,
+      "loss": 0.4516,
+      "step": 480
+    },
+    {
+      "epoch": 7.76,
+      "learning_rate": 0.00029099999999999997,
+      "loss": 0.4423,
+      "step": 485
+    },
+    {
+      "epoch": 7.84,
+      "learning_rate": 0.000294,
+      "loss": 0.4479,
+      "step": 490
+    },
+    {
+      "epoch": 7.92,
+      "learning_rate": 0.00029699999999999996,
+      "loss": 0.4484,
+      "step": 495
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 0.0003,
+      "loss": 0.4589,
+      "step": 500
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.4642273485660553,
+      "eval_runtime": 264.6645,
+      "eval_samples_per_second": 7.561,
+      "eval_steps_per_second": 0.948,
+      "step": 500
+    },
+    {
+      "epoch": 8.08,
+      "learning_rate": 0.00029984210526315787,
+      "loss": 0.441,
+      "step": 505
+    },
+    {
+      "epoch": 8.16,
+      "learning_rate": 0.00029968421052631577,
+      "loss": 0.4404,
+      "step": 510
+    },
+    {
+      "epoch": 8.24,
+      "learning_rate": 0.00029952631578947366,
+      "loss": 0.4452,
+      "step": 515
+    },
+    {
+      "epoch": 8.32,
+      "learning_rate": 0.00029936842105263156,
+      "loss": 0.4385,
+      "step": 520
+    },
+    {
+      "epoch": 8.4,
+      "learning_rate": 0.00029921052631578946,
+      "loss": 0.4457,
+      "step": 525
+    },
+    {
+      "epoch": 8.48,
+      "learning_rate": 0.00029905263157894735,
+      "loss": 0.4407,
+      "step": 530
+    },
+    {
+      "epoch": 8.56,
+      "learning_rate": 0.00029889473684210525,
+      "loss": 0.4432,
+      "step": 535
+    },
+    {
+      "epoch": 8.64,
+      "learning_rate": 0.00029873684210526315,
+      "loss": 0.4408,
+      "step": 540
+    },
+    {
+      "epoch": 8.72,
+      "learning_rate": 0.00029857894736842104,
+      "loss": 0.4431,
+      "step": 545
+    },
+    {
+      "epoch": 8.8,
+      "learning_rate": 0.00029842105263157894,
+      "loss": 0.4403,
+      "step": 550
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 0.0002982631578947368,
+      "loss": 0.4357,
+      "step": 555
+    },
+    {
+      "epoch": 8.96,
+      "learning_rate": 0.00029810526315789473,
+      "loss": 0.4411,
+      "step": 560
+    },
+    {
+      "epoch": 9.04,
+      "learning_rate": 0.00029794736842105263,
+      "loss": 0.4347,
+      "step": 565
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 0.0002977894736842105,
+      "loss": 0.4317,
+      "step": 570
+    },
+    {
+      "epoch": 9.2,
+      "learning_rate": 0.00029763157894736837,
+      "loss": 0.4332,
+      "step": 575
+    },
+    {
+      "epoch": 9.28,
+      "learning_rate": 0.00029747368421052627,
+      "loss": 0.4261,
+      "step": 580
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 0.0002973157894736842,
+      "loss": 0.4348,
+      "step": 585
+    },
+    {
+      "epoch": 9.44,
+      "learning_rate": 0.00029715789473684206,
+      "loss": 0.434,
+      "step": 590
+    },
+    {
+      "epoch": 9.52,
+      "learning_rate": 0.00029699999999999996,
+      "loss": 0.4334,
+      "step": 595
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 0.00029684210526315785,
+      "loss": 0.4348,
+      "step": 600
+    },
+    {
+      "epoch": 9.68,
+      "learning_rate": 0.0002966842105263158,
+      "loss": 0.4292,
+      "step": 605
+    },
+    {
+      "epoch": 9.76,
+      "learning_rate": 0.00029652631578947364,
+      "loss": 0.4332,
+      "step": 610
+    },
+    {
+      "epoch": 9.84,
+      "learning_rate": 0.00029636842105263154,
+      "loss": 0.4302,
+      "step": 615
+    },
+    {
+      "epoch": 9.92,
+      "learning_rate": 0.00029621052631578944,
+      "loss": 0.4303,
+      "step": 620
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 0.00029605263157894733,
+      "loss": 0.427,
+      "step": 625
+    },
+    {
+      "epoch": 10.08,
+      "learning_rate": 0.00029589473684210523,
+      "loss": 0.4234,
+      "step": 630
+    },
+    {
+      "epoch": 10.16,
+      "learning_rate": 0.00029573684210526313,
+      "loss": 0.4251,
+      "step": 635
+    },
+    {
+      "epoch": 10.24,
+      "learning_rate": 0.000295578947368421,
+      "loss": 0.4208,
+      "step": 640
+    },
+    {
+      "epoch": 10.32,
+      "learning_rate": 0.0002954210526315789,
+      "loss": 0.4252,
+      "step": 645
+    },
+    {
+      "epoch": 10.4,
+      "learning_rate": 0.0002952631578947368,
+      "loss": 0.4263,
+      "step": 650
+    },
+    {
+      "epoch": 10.48,
+      "learning_rate": 0.0002951052631578947,
+      "loss": 0.4221,
+      "step": 655
+    },
+    {
+      "epoch": 10.56,
+      "learning_rate": 0.0002949473684210526,
+      "loss": 0.4169,
+      "step": 660
+    },
+    {
+      "epoch": 10.64,
+      "learning_rate": 0.0002947894736842105,
+      "loss": 0.4282,
+      "step": 665
+    },
+    {
+      "epoch": 10.72,
+      "learning_rate": 0.0002946315789473684,
+      "loss": 0.4207,
+      "step": 670
+    },
+    {
+      "epoch": 10.8,
+      "learning_rate": 0.0002944736842105263,
+      "loss": 0.4257,
+      "step": 675
+    },
+    {
+      "epoch": 10.88,
+      "learning_rate": 0.0002943157894736842,
+      "loss": 0.4207,
+      "step": 680
+    },
+    {
+      "epoch": 10.96,
+      "learning_rate": 0.0002941578947368421,
+      "loss": 0.4171,
+      "step": 685
+    },
+    {
+      "epoch": 11.04,
+      "learning_rate": 0.000294,
+      "loss": 0.4215,
+      "step": 690
+    },
+    {
+      "epoch": 11.12,
+      "learning_rate": 0.00029384210526315783,
+      "loss": 0.4112,
+      "step": 695
+    },
+    {
+      "epoch": 11.2,
+      "learning_rate": 0.0002936842105263158,
+      "loss": 0.4127,
+      "step": 700
+    },
+    {
+      "epoch": 11.28,
+      "learning_rate": 0.0002935263157894737,
+      "loss": 0.4125,
+      "step": 705
+    },
+    {
+      "epoch": 11.36,
+      "learning_rate": 0.0002933684210526316,
+      "loss": 0.4149,
+      "step": 710
+    },
+    {
+      "epoch": 11.44,
+      "learning_rate": 0.0002932105263157894,
+      "loss": 0.4144,
+      "step": 715
+    },
+    {
+      "epoch": 11.52,
+      "learning_rate": 0.0002930526315789473,
+      "loss": 0.4157,
+      "step": 720
+    },
+    {
+      "epoch": 11.6,
+      "learning_rate": 0.00029289473684210527,
+      "loss": 0.4087,
+      "step": 725
+    },
+    {
+      "epoch": 11.68,
+      "learning_rate": 0.00029273684210526316,
+      "loss": 0.4162,
+      "step": 730
+    },
+    {
+      "epoch": 11.76,
+      "learning_rate": 0.000292578947368421,
+      "loss": 0.4104,
+      "step": 735
+    },
+    {
+      "epoch": 11.84,
+      "learning_rate": 0.0002924210526315789,
+      "loss": 0.414,
+      "step": 740
+    },
+    {
+      "epoch": 11.92,
+      "learning_rate": 0.00029226315789473685,
+      "loss": 0.4132,
+      "step": 745
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.0002921052631578947,
+      "loss": 0.4223,
+      "step": 750
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.44360578060150146,
+      "eval_runtime": 265.1184,
+      "eval_samples_per_second": 7.548,
+      "eval_steps_per_second": 0.947,
+      "step": 750
+    },
+    {
+      "epoch": 12.08,
+      "learning_rate": 0.0002919473684210526,
+      "loss": 0.4084,
+      "step": 755
+    },
+    {
+      "epoch": 12.16,
+      "learning_rate": 0.0002917894736842105,
+      "loss": 0.4045,
+      "step": 760
+    },
+    {
+      "epoch": 12.24,
+      "learning_rate": 0.0002916315789473684,
+      "loss": 0.4084,
+      "step": 765
+    },
+    {
+      "epoch": 12.32,
+      "learning_rate": 0.0002914736842105263,
+      "loss": 0.4053,
+      "step": 770
+    },
+    {
+      "epoch": 12.4,
+      "learning_rate": 0.0002913157894736842,
+      "loss": 0.4079,
+      "step": 775
+    },
+    {
+      "epoch": 12.48,
+      "learning_rate": 0.0002911578947368421,
+      "loss": 0.4045,
+      "step": 780
+    },
+    {
+      "epoch": 12.56,
+      "learning_rate": 0.00029099999999999997,
+      "loss": 0.4009,
+      "step": 785
+    },
+    {
+      "epoch": 12.64,
+      "learning_rate": 0.00029084210526315787,
+      "loss": 0.4064,
+      "step": 790
+    },
+    {
+      "epoch": 12.72,
+      "learning_rate": 0.00029068421052631577,
+      "loss": 0.4104,
+      "step": 795
+    },
+    {
+      "epoch": 12.8,
+      "learning_rate": 0.00029052631578947366,
+      "loss": 0.4121,
+      "step": 800
+    },
+    {
+      "epoch": 12.88,
+      "learning_rate": 0.00029036842105263156,
+      "loss": 0.4064,
+      "step": 805
+    },
+    {
+      "epoch": 12.96,
+      "learning_rate": 0.00029021052631578945,
+      "loss": 0.4126,
+      "step": 810
+    },
+    {
+      "epoch": 13.04,
+      "learning_rate": 0.00029005263157894735,
+      "loss": 0.4028,
+      "step": 815
+    },
+    {
+      "epoch": 13.12,
+      "learning_rate": 0.00028989473684210525,
+      "loss": 0.3973,
+      "step": 820
+    },
+    {
+      "epoch": 13.2,
+      "learning_rate": 0.00028973684210526314,
+      "loss": 0.3977,
+      "step": 825
+    },
+    {
+      "epoch": 13.28,
+      "learning_rate": 0.00028957894736842104,
+      "loss": 0.3989,
+      "step": 830
+    },
+    {
+      "epoch": 13.36,
+      "learning_rate": 0.0002894210526315789,
+      "loss": 0.4025,
+      "step": 835
+    },
+    {
+      "epoch": 13.44,
+      "learning_rate": 0.00028926315789473683,
+      "loss": 0.4013,
+      "step": 840
+    },
+    {
+      "epoch": 13.52,
+      "learning_rate": 0.00028910526315789473,
+      "loss": 0.4044,
+      "step": 845
+    },
+    {
+      "epoch": 13.6,
+      "learning_rate": 0.00028894736842105263,
+      "loss": 0.4037,
+      "step": 850
+    },
+    {
+      "epoch": 13.68,
+      "learning_rate": 0.00028878947368421047,
+      "loss": 0.4,
+      "step": 855
+    },
+    {
+      "epoch": 13.76,
+      "learning_rate": 0.00028863157894736837,
+      "loss": 0.4023,
+      "step": 860
+    },
+    {
+      "epoch": 13.84,
+      "learning_rate": 0.0002884736842105263,
+      "loss": 0.402,
+      "step": 865
+    },
+    {
+      "epoch": 13.92,
+      "learning_rate": 0.0002883157894736842,
+      "loss": 0.4033,
+      "step": 870
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 0.00028815789473684206,
+      "loss": 0.4009,
+      "step": 875
+    },
+    {
+      "epoch": 14.08,
+      "learning_rate": 0.00028799999999999995,
+      "loss": 0.3952,
+      "step": 880
+    },
+    {
+      "epoch": 14.16,
+      "learning_rate": 0.0002878421052631579,
+      "loss": 0.3911,
+      "step": 885
+    },
+    {
+      "epoch": 14.24,
+      "learning_rate": 0.00028768421052631575,
+      "loss": 0.392,
+      "step": 890
+    },
+    {
+      "epoch": 14.32,
+      "learning_rate": 0.00028752631578947364,
+      "loss": 0.3912,
+      "step": 895
+    },
+    {
+      "epoch": 14.4,
+      "learning_rate": 0.00028736842105263154,
+      "loss": 0.3918,
+      "step": 900
+    },
+    {
+      "epoch": 14.48,
+      "learning_rate": 0.00028721052631578944,
+      "loss": 0.3955,
+      "step": 905
+    },
+    {
+      "epoch": 14.56,
+      "learning_rate": 0.00028705263157894733,
+      "loss": 0.3979,
+      "step": 910
+    },
+    {
+      "epoch": 14.64,
+      "learning_rate": 0.00028689473684210523,
+      "loss": 0.396,
+      "step": 915
+    },
+    {
+      "epoch": 14.72,
+      "learning_rate": 0.0002867368421052631,
+      "loss": 0.3957,
+      "step": 920
+    },
+    {
+      "epoch": 14.8,
+      "learning_rate": 0.000286578947368421,
+      "loss": 0.3975,
+      "step": 925
+    },
+    {
+      "epoch": 14.88,
+      "learning_rate": 0.0002864210526315789,
+      "loss": 0.398,
+      "step": 930
+    },
+    {
+      "epoch": 14.96,
+      "learning_rate": 0.0002862631578947368,
+      "loss": 0.3965,
+      "step": 935
+    },
+    {
+      "epoch": 15.04,
+      "learning_rate": 0.0002861052631578947,
+      "loss": 0.3906,
+      "step": 940
+    },
+    {
+      "epoch": 15.12,
+      "learning_rate": 0.0002859473684210526,
+      "loss": 0.3852,
+      "step": 945
+    },
+    {
+      "epoch": 15.2,
+      "learning_rate": 0.0002857894736842105,
+      "loss": 0.3933,
+      "step": 950
+    },
+    {
+      "epoch": 15.28,
+      "learning_rate": 0.0002856315789473684,
+      "loss": 0.3857,
+      "step": 955
+    },
+    {
+      "epoch": 15.36,
+      "learning_rate": 0.0002854736842105263,
+      "loss": 0.3897,
+      "step": 960
+    },
+    {
+      "epoch": 15.44,
+      "learning_rate": 0.0002853157894736842,
+      "loss": 0.3885,
+      "step": 965
+    },
+    {
+      "epoch": 15.52,
+      "learning_rate": 0.0002851578947368421,
+      "loss": 0.3882,
+      "step": 970
+    },
+    {
+      "epoch": 15.6,
+      "learning_rate": 0.000285,
+      "loss": 0.3961,
+      "step": 975
+    },
+    {
+      "epoch": 15.68,
+      "learning_rate": 0.0002848421052631579,
+      "loss": 0.3886,
+      "step": 980
+    },
+    {
+      "epoch": 15.76,
+      "learning_rate": 0.0002846842105263158,
+      "loss": 0.391,
+      "step": 985
+    },
+    {
+      "epoch": 15.84,
+      "learning_rate": 0.0002845263157894737,
+      "loss": 0.391,
+      "step": 990
+    },
+    {
+      "epoch": 15.92,
+      "learning_rate": 0.0002843684210526315,
+      "loss": 0.3901,
+      "step": 995
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 0.0002842105263157894,
+      "loss": 0.3869,
+      "step": 1000
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.43608614802360535,
+      "eval_runtime": 265.3444,
+      "eval_samples_per_second": 7.541,
+      "eval_steps_per_second": 0.946,
+      "step": 1000
+    }
+  ],
+  "max_steps": 10000,
+  "num_train_epochs": 162,
+  "total_flos": 2.599744722936791e+18,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:938e3a85e1584e1669ed7b89d0c0c72ab3ee7f45a24587d91ef691e943ee42d6
+size 3963