Model save

Browse files

Files changed (8) hide show

README.md +9 -9
adapter_config.json +3 -3
adapter_model.safetensors +1 -1
all_results.json +9 -9
eval_results.json +5 -5
train_results.json +5 -5
trainer_state.json +593 -665
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 license: llama2
-base_model: codellama/Codellama-7b-Instruct-hf
 tags:
 - generated_from_trainer
 model-index:
@@ -13,9 +13,9 @@ should probably proofread and complete it, then remove this comment. -->
 # codellama-7b-sft-lora-func-names
-This model is a fine-tuned version of [codellama/Codellama-7b-Instruct-hf](https://huggingface.co/codellama/Codellama-7b-Instruct-hf) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.8012
 ## Model description
@@ -44,17 +44,17 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- training_steps: 960
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.7046        | 0.31  | 192  | 0.7329          |
-| 0.6521        | 0.61  | 384  | 0.7474          |
-| 0.5824        | 0.92  | 576  | 0.7729          |
-| 0.5575        | 1.23  | 768  | 0.7964          |
-| 0.5371        | 1.54  | 960  | 0.8012          |
 ### Framework versions

 ---
 license: llama2
+base_model: codellama/CodeLlama-7b-Instruct-hf
 tags:
 - generated_from_trainer
 model-index:
 # codellama-7b-sft-lora-func-names
+This model is a fine-tuned version of [codellama/CodeLlama-7b-Instruct-hf](https://huggingface.co/codellama/CodeLlama-7b-Instruct-hf) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7084
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- training_steps: 900
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.7541        | 0.01  | 180  | 0.7222          |
+| 0.7126        | 0.01  | 360  | 0.7118          |
+| 0.7342        | 0.02  | 540  | 0.7100          |
+| 0.7216        | 0.03  | 720  | 0.7083          |
+| 0.7171        | 0.04  | 900  | 0.7084          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "alpha_pattern": {},
   "auto_mapping": null,
-  "base_model_name_or_path": "codellama/Codellama-7b-Instruct-hf",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
@@ -16,10 +16,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
-    "k_proj",
     "o_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

 {
   "alpha_pattern": {},
   "auto_mapping": null,
+  "base_model_name_or_path": "codellama/CodeLlama-7b-Instruct-hf",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "q_proj",
     "o_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51eee9d9700e6d36b06c92a7a0e9de7328f8f1b637b34c01423c901f28571a2d
 size 536906096

 version https://git-lfs.github.com/spec/v1
+oid sha256:3dd35e68b814416647cebfb59b1a3eb02805721bcd06f0fd64b38a515eeb3965
 size 536906096

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 1.54,
-    "eval_loss": 0.8011999726295471,
-    "eval_runtime": 117.8304,
     "eval_samples": 2000,
-    "eval_samples_per_second": 16.974,
-    "eval_steps_per_second": 4.243,
-    "train_loss": 0.6617152964075407,
-    "train_runtime": 23627.0915,
-    "train_samples": 10000,
-    "train_samples_per_second": 0.65,
     "train_steps_per_second": 0.041
 }

 {
+    "epoch": 0.04,
+    "eval_loss": 0.70841383934021,
+    "eval_runtime": 117.6726,
     "eval_samples": 2000,
+    "eval_samples_per_second": 16.996,
+    "eval_steps_per_second": 4.249,
+    "train_loss": 0.7602509791321225,
+    "train_runtime": 22175.0023,
+    "train_samples": 405813,
+    "train_samples_per_second": 0.649,
     "train_steps_per_second": 0.041
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.54,
-    "eval_loss": 0.8011999726295471,
-    "eval_runtime": 117.8304,
     "eval_samples": 2000,
-    "eval_samples_per_second": 16.974,
-    "eval_steps_per_second": 4.243
 }

 {
+    "epoch": 0.04,
+    "eval_loss": 0.70841383934021,
+    "eval_runtime": 117.6726,
     "eval_samples": 2000,
+    "eval_samples_per_second": 16.996,
+    "eval_steps_per_second": 4.249
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.54,
-    "train_loss": 0.6617152964075407,
-    "train_runtime": 23627.0915,
-    "train_samples": 10000,
-    "train_samples_per_second": 0.65,
     "train_steps_per_second": 0.041
 }

 {
+    "epoch": 0.04,
+    "train_loss": 0.7602509791321225,
+    "train_runtime": 22175.0023,
+    "train_samples": 405813,
+    "train_samples_per_second": 0.649,
     "train_steps_per_second": 0.041
 }

trainer_state.json CHANGED Viewed

@@ -1,1226 +1,1154 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.536,
-  "eval_steps": 192,
-  "global_step": 960,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 4.1666666666666667e-07,
-      "loss": 1.5394,
       "step": 1
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.0833333333333334e-06,
-      "loss": 1.5312,
       "step": 5
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 4.166666666666667e-06,
-      "loss": 1.4755,
       "step": 10
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 6.25e-06,
-      "loss": 1.4213,
       "step": 15
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 1.2847,
       "step": 20
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.0416666666666668e-05,
-      "loss": 1.1147,
       "step": 25
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.25e-05,
-      "loss": 1.0576,
       "step": 30
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 1.4583333333333333e-05,
-      "loss": 1.0231,
       "step": 35
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.9849,
       "step": 40
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 1.8750000000000002e-05,
-      "loss": 0.9878,
       "step": 45
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 0.9602,
       "step": 50
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 2.2916666666666667e-05,
-      "loss": 0.9681,
       "step": 55
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 2.5e-05,
-      "loss": 0.9352,
       "step": 60
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 2.7083333333333335e-05,
-      "loss": 0.9187,
       "step": 65
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 2.9166666666666666e-05,
-      "loss": 0.9051,
       "step": 70
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 3.125e-05,
-      "loss": 0.8898,
       "step": 75
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.8779,
       "step": 80
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 3.541666666666667e-05,
-      "loss": 0.8798,
       "step": 85
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.8861,
       "step": 90
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 3.958333333333334e-05,
-      "loss": 0.8748,
       "step": 95
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 3.999788463854215e-05,
-      "loss": 0.8486,
       "step": 100
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 3.9989291749527314e-05,
-      "loss": 0.8652,
       "step": 105
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 3.997409196081781e-05,
-      "loss": 0.8443,
       "step": 110
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 3.9952290296277454e-05,
-      "loss": 0.8305,
       "step": 115
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 3.9923893961834914e-05,
-      "loss": 0.8217,
       "step": 120
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 3.988891234310205e-05,
-      "loss": 0.8284,
       "step": 125
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 3.98473570022717e-05,
-      "loss": 0.7975,
       "step": 130
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 3.979924167429616e-05,
-      "loss": 0.769,
       "step": 135
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 3.9744582262347486e-05,
-      "loss": 0.7685,
       "step": 140
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 3.968339683256111e-05,
-      "loss": 0.7308,
       "step": 145
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 3.961570560806461e-05,
-      "loss": 0.74,
       "step": 150
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 3.954153096229354e-05,
-      "loss": 0.7414,
       "step": 155
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 3.946089741159648e-05,
-      "loss": 0.7143,
       "step": 160
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 3.937383160713187e-05,
-      "loss": 0.7298,
       "step": 165
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 3.9280362326059194e-05,
-      "loss": 0.7259,
       "step": 170
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 3.918052046202755e-05,
-      "loss": 0.7032,
       "step": 175
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 3.907433901496454e-05,
-      "loss": 0.7353,
       "step": 180
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 3.8961853080169156e-05,
-      "loss": 0.7075,
-      "step": 185
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 3.884309983671193e-05,
-      "loss": 0.7046,
-      "step": 190
     },
     {
-      "epoch": 0.31,
-      "eval_loss": 0.7329480648040771,
-      "eval_runtime": 118.1096,
-      "eval_samples_per_second": 16.933,
-      "eval_steps_per_second": 4.233,
-      "step": 192
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 3.871811853514652e-05,
-      "loss": 0.7085,
       "step": 195
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 3.858695048453645e-05,
-      "loss": 0.7113,
       "step": 200
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 3.844963903880165e-05,
-      "loss": 0.7117,
       "step": 205
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 3.830622958238895e-05,
-      "loss": 0.7031,
       "step": 210
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 3.815676951527158e-05,
-      "loss": 0.7057,
       "step": 215
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 3.800130823728242e-05,
-      "loss": 0.7072,
       "step": 220
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 3.783989713178629e-05,
-      "loss": 0.7006,
       "step": 225
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 3.767258954869656e-05,
-      "loss": 0.6969,
       "step": 230
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 3.7499440786841897e-05,
-      "loss": 0.6878,
       "step": 235
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 3.732050807568878e-05,
-      "loss": 0.6901,
       "step": 240
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 3.713585055642586e-05,
-      "loss": 0.6812,
       "step": 245
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 3.694552926241656e-05,
-      "loss": 0.6854,
       "step": 250
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 3.674960709902616e-05,
-      "loss": 0.6871,
       "step": 255
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 3.654814882283021e-05,
-      "loss": 0.6824,
       "step": 260
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 3.634122102021108e-05,
-      "loss": 0.6909,
       "step": 265
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 3.612889208534966e-05,
-      "loss": 0.6871,
       "step": 270
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 3.59112321976196e-05,
-      "loss": 0.6748,
       "step": 275
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 3.568831329839152e-05,
-      "loss": 0.688,
       "step": 280
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 3.546020906725474e-05,
-      "loss": 0.6806,
       "step": 285
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 3.522699489766462e-05,
-      "loss": 0.662,
       "step": 290
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 3.498874787202335e-05,
-      "loss": 0.6766,
       "step": 295
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 3.474554673620248e-05,
-      "loss": 0.6815,
       "step": 300
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 3.4497471873515765e-05,
-      "loss": 0.6581,
       "step": 305
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 3.4244605278150625e-05,
-      "loss": 0.6509,
       "step": 310
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 3.398703052806734e-05,
-      "loss": 0.6658,
       "step": 315
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 3.372483275737468e-05,
-      "loss": 0.6653,
       "step": 320
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 3.3458098628191155e-05,
-      "loss": 0.6331,
       "step": 325
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 3.318691630200138e-05,
-      "loss": 0.669,
       "step": 330
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 3.2911375410516696e-05,
-      "loss": 0.6525,
       "step": 335
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 3.2631567026049954e-05,
-      "loss": 0.6726,
       "step": 340
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 3.2347583631414106e-05,
-      "loss": 0.6596,
       "step": 345
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 3.2059519089354595e-05,
-      "loss": 0.6587,
       "step": 350
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 3.176746861152569e-05,
-      "loss": 0.6504,
       "step": 355
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 3.147152872702092e-05,
-      "loss": 0.6465,
       "step": 360
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 3.1171797250468094e-05,
-      "loss": 0.6547,
       "step": 365
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 3.08683732496994e-05,
-      "loss": 0.6353,
       "step": 370
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 3.056135701300736e-05,
-      "loss": 0.6494,
       "step": 375
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 3.0250850015997307e-05,
-      "loss": 0.6521,
       "step": 380
     },
     {
-      "epoch": 0.61,
-      "eval_loss": 0.7474338412284851,
-      "eval_runtime": 117.8174,
-      "eval_samples_per_second": 16.975,
-      "eval_steps_per_second": 4.244,
-      "step": 384
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 2.9936954888047478e-05,
-      "loss": 0.6363,
       "step": 385
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 2.9619775378387756e-05,
-      "loss": 0.6388,
       "step": 390
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 2.9299416321808284e-05,
-      "loss": 0.6429,
       "step": 395
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 2.897598360400925e-05,
-      "loss": 0.6182,
       "step": 400
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 2.8649584126603325e-05,
-      "loss": 0.6279,
       "step": 405
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 2.8320325771782387e-05,
-      "loss": 0.634,
       "step": 410
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 2.798831736666001e-05,
-      "loss": 0.6278,
       "step": 415
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 2.7653668647301797e-05,
-      "loss": 0.6298,
       "step": 420
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 2.7316490222455143e-05,
-      "loss": 0.619,
       "step": 425
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 2.6976893536990618e-05,
-      "loss": 0.6308,
       "step": 430
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 2.6634990835067046e-05,
-      "loss": 0.6138,
       "step": 435
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 2.6290895123032277e-05,
-      "loss": 0.6394,
       "step": 440
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 2.5944720132072156e-05,
-      "loss": 0.6215,
       "step": 445
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 2.5596580280619847e-05,
-      "loss": 0.628,
       "step": 450
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 2.5246590636538035e-05,
-      "loss": 0.6311,
       "step": 455
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 2.4894866879086478e-05,
-      "loss": 0.6283,
       "step": 460
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 2.4541525260687468e-05,
-      "loss": 0.6134,
       "step": 465
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 2.4186682568501844e-05,
-      "loss": 0.6114,
       "step": 470
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 2.3830456085828288e-05,
-      "loss": 0.5984,
       "step": 475
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 2.3472963553338614e-05,
-      "loss": 0.6236,
       "step": 480
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 2.311432313016188e-05,
-      "loss": 0.618,
       "step": 485
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 2.2754653354830215e-05,
-      "loss": 0.6117,
       "step": 490
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 2.239407310609925e-05,
-      "loss": 0.6095,
       "step": 495
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 2.203270156365604e-05,
-      "loss": 0.6131,
       "step": 500
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 2.1670658168727575e-05,
-      "loss": 0.5883,
       "step": 505
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 2.1308062584602865e-05,
-      "loss": 0.5988,
       "step": 510
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 2.094503465708154e-05,
-      "loss": 0.5863,
       "step": 515
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 2.058169437486223e-05,
-      "loss": 0.6016,
       "step": 520
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 2.021816182988365e-05,
-      "loss": 0.6133,
       "step": 525
     },
     {
-      "epoch": 0.85,
-      "learning_rate": 1.985455717763157e-05,
-      "loss": 0.5928,
       "step": 530
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 1.94910005974248e-05,
-      "loss": 0.6039,
       "step": 535
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 1.9127612252693285e-05,
-      "loss": 0.5839,
       "step": 540
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 1.8764512251261444e-05,
-      "loss": 0.5895,
       "step": 545
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 1.8401820605649928e-05,
-      "loss": 0.593,
       "step": 550
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 1.8039657193408788e-05,
-      "loss": 0.5969,
       "step": 555
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 1.7678141717495394e-05,
-      "loss": 0.6023,
       "step": 560
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 1.7317393666709918e-05,
-      "loss": 0.5852,
       "step": 565
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 1.6957532276201668e-05,
-      "loss": 0.5868,
       "step": 570
     },
     {
-      "epoch": 0.92,
-      "learning_rate": 1.6598676488059292e-05,
-      "loss": 0.5824,
       "step": 575
     },
     {
-      "epoch": 0.92,
-      "eval_loss": 0.7729184031486511,
-      "eval_runtime": 117.9572,
-      "eval_samples_per_second": 16.955,
-      "eval_steps_per_second": 4.239,
-      "step": 576
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 1.6240944911997765e-05,
-      "loss": 0.5815,
       "step": 580
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 1.5884455786155304e-05,
-      "loss": 0.5935,
       "step": 585
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 1.5529326938013053e-05,
-      "loss": 0.592,
       "step": 590
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 1.5175675745450513e-05,
-      "loss": 0.5871,
       "step": 595
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 1.4823619097949584e-05,
-      "loss": 0.5914,
       "step": 600
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 1.4473273357960035e-05,
-      "loss": 0.5819,
       "step": 605
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 1.4124754322439112e-05,
-      "loss": 0.5677,
       "step": 610
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 1.3778177184578185e-05,
-      "loss": 0.585,
       "step": 615
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 1.3433656495728781e-05,
-      "loss": 0.571,
       "step": 620
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 1.3091306127540916e-05,
-      "loss": 0.5714,
       "step": 625
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 1.275123923432597e-05,
-      "loss": 0.5794,
       "step": 630
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 1.2413568215656735e-05,
-      "loss": 0.5685,
       "step": 635
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 1.2078404679216864e-05,
-      "loss": 0.58,
       "step": 640
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 1.1745859403912108e-05,
-      "loss": 0.5585,
       "step": 645
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 1.1416042303255424e-05,
-      "loss": 0.5733,
       "step": 650
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 1.1089062389038175e-05,
-      "loss": 0.5736,
       "step": 655
     },
     {
-      "epoch": 1.06,
-      "learning_rate": 1.0765027735299327e-05,
-      "loss": 0.5593,
       "step": 660
     },
     {
-      "epoch": 1.06,
-      "learning_rate": 1.04440454426046e-05,
-      "loss": 0.5623,
       "step": 665
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 1.0126221602647395e-05,
-      "loss": 0.5709,
       "step": 670
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 9.811661263183165e-06,
-      "loss": 0.5722,
       "step": 675
     },
     {
-      "epoch": 1.09,
-      "learning_rate": 9.5004683933088e-06,
-      "loss": 0.5787,
       "step": 680
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 9.192745849098575e-06,
-      "loss": 0.5841,
       "step": 685
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 8.888595339607961e-06,
-      "loss": 0.5594,
       "step": 690
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 8.588117393256543e-06,
-      "loss": 0.5544,
       "step": 695
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 8.291411324601191e-06,
-      "loss": 0.5747,
       "step": 700
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 7.998575201510383e-06,
-      "loss": 0.5602,
       "step": 705
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 7.709705812750651e-06,
-      "loss": 0.5597,
       "step": 710
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 7.4248986359957474e-06,
-      "loss": 0.5536,
       "step": 715
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 7.1442478062692135e-06,
-      "loss": 0.5674,
       "step": 720
     },
     {
-      "epoch": 1.16,
-      "learning_rate": 6.867846084830645e-06,
-      "loss": 0.5669,
       "step": 725
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 6.595784828516085e-06,
-      "loss": 0.5465,
       "step": 730
     },
     {
-      "epoch": 1.18,
-      "learning_rate": 6.328153959542573e-06,
-      "loss": 0.566,
       "step": 735
     },
     {
-      "epoch": 1.18,
-      "learning_rate": 6.065041935786906e-06,
-      "loss": 0.5553,
       "step": 740
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 5.806535721548305e-06,
-      "loss": 0.5761,
       "step": 745
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 5.55272075880489e-06,
-      "loss": 0.5616,
       "step": 750
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 5.303680938973164e-06,
-      "loss": 0.573,
       "step": 755
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 5.059498575180084e-06,
-      "loss": 0.5407,
       "step": 760
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 4.8202543750567635e-06,
-      "loss": 0.5575,
       "step": 765
     },
     {
-      "epoch": 1.23,
-      "eval_loss": 0.7963955998420715,
-      "eval_runtime": 117.8913,
-      "eval_samples_per_second": 16.965,
-      "eval_steps_per_second": 4.241,
-      "step": 768
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 4.586027414062839e-06,
-      "loss": 0.5603,
       "step": 770
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 4.356895109350272e-06,
-      "loss": 0.5504,
       "step": 775
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 4.132933194175299e-06,
-      "loss": 0.5396,
       "step": 780
     },
     {
-      "epoch": 1.26,
-      "learning_rate": 3.914215692866918e-06,
-      "loss": 0.5648,
       "step": 785
     },
     {
-      "epoch": 1.26,
-      "learning_rate": 3.7008148963602474e-06,
-      "loss": 0.5547,
       "step": 790
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 3.4928013383027247e-06,
-      "loss": 0.5439,
       "step": 795
     },
     {
-      "epoch": 1.28,
-      "learning_rate": 3.290243771741275e-06,
-      "loss": 0.5485,
       "step": 800
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 3.0932091463978397e-06,
-      "loss": 0.54,
       "step": 805
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 2.9017625865410727e-06,
-      "loss": 0.5524,
       "step": 810
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 2.715967369461314e-06,
-      "loss": 0.5412,
       "step": 815
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 2.535884904556085e-06,
-      "loss": 0.5538,
       "step": 820
     },
     {
-      "epoch": 1.32,
-      "learning_rate": 2.3615747130329013e-06,
-      "loss": 0.5322,
       "step": 825
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 2.1930944082362204e-06,
-      "loss": 0.5485,
       "step": 830
     },
     {
-      "epoch": 1.34,
-      "learning_rate": 2.0304996766049844e-06,
-      "loss": 0.5451,
       "step": 835
     },
     {
-      "epoch": 1.34,
-      "learning_rate": 1.8738442592670014e-06,
-      "loss": 0.5315,
       "step": 840
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 1.7231799342763379e-06,
-      "loss": 0.5457,
       "step": 845
     },
     {
-      "epoch": 1.36,
-      "learning_rate": 1.5785564994995284e-06,
-      "loss": 0.5476,
       "step": 850
     },
     {
-      "epoch": 1.37,
-      "learning_rate": 1.4400217561563112e-06,
-      "loss": 0.5637,
       "step": 855
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 1.3076214930202324e-06,
-      "loss": 0.5294,
       "step": 860
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 1.1813994712844922e-06,
-      "loss": 0.5446,
       "step": 865
     },
     {
-      "epoch": 1.39,
-      "learning_rate": 1.0613974100978885e-06,
-      "loss": 0.5607,
       "step": 870
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 9.476549727757267e-07,
-      "loss": 0.5386,
       "step": 875
     },
     {
-      "epoch": 1.41,
-      "learning_rate": 8.402097536902221e-07,
-      "loss": 0.5545,
       "step": 880
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 7.390972658447459e-07,
-      "loss": 0.5361,
       "step": 885
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 6.443509291359817e-07,
-      "loss": 0.5461,
       "step": 890
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 5.56002059307923e-07,
-      "loss": 0.546,
       "step": 895
     },
     {
-      "epoch": 1.44,
-      "learning_rate": 4.740798576013328e-07,
-      "loss": 0.5472,
-      "step": 900
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 3.9861140110209806e-07,
-      "loss": 0.5339,
-      "step": 905
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 3.296216337916458e-07,
-      "loss": 0.536,
-      "step": 910
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 2.671333583024205e-07,
-      "loss": 0.5434,
-      "step": 915
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 2.111672283811106e-07,
-      "loss": 0.5483,
-      "step": 920
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 1.6174174206212922e-07,
-      "loss": 0.5437,
-      "step": 925
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 1.1887323555360708e-07,
-      "loss": 0.5446,
-      "step": 930
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 8.25758778379293e-08,
-      "loss": 0.5457,
-      "step": 935
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 5.286166598855502e-08,
-      "loss": 0.5429,
-      "step": 940
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 2.974042120473808e-08,
-      "loss": 0.5405,
-      "step": 945
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 1.3219785565399268e-08,
-      "loss": 0.5388,
-      "step": 950
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 3.305219503249024e-09,
-      "loss": 0.5402,
-      "step": 955
-    },
-    {
-      "epoch": 1.54,
       "learning_rate": 0.0,
-      "loss": 0.5371,
-      "step": 960
     },
     {
-      "epoch": 1.54,
-      "eval_loss": 0.8011998534202576,
-      "eval_runtime": 117.9168,
-      "eval_samples_per_second": 16.961,
-      "eval_steps_per_second": 4.24,
-      "step": 960
     },
     {
-      "epoch": 1.54,
-      "step": 960,
-      "total_flos": 1.2724395167155487e+18,
-      "train_loss": 0.6617152964075407,
-      "train_runtime": 23627.0915,
-      "train_samples_per_second": 0.65,
       "train_steps_per_second": 0.041
     }
   ],
   "logging_steps": 5,
-  "max_steps": 960,
-  "num_train_epochs": 2,
-  "save_steps": 192,
-  "total_flos": 1.2724395167155487e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03548406174226743,
+  "eval_steps": 180,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 4.444444444444445e-07,
+      "loss": 1.4612,
       "step": 1
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 1.4717,
       "step": 5
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 1.4887,
       "step": 10
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 1.4126,
       "step": 15
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 8.888888888888888e-06,
+      "loss": 1.2639,
       "step": 20
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 1.1111111111111113e-05,
+      "loss": 1.1005,
       "step": 25
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 1.0341,
       "step": 30
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 1.555555555555556e-05,
+      "loss": 1.0016,
       "step": 35
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 1.7777777777777777e-05,
+      "loss": 0.9879,
       "step": 40
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 2e-05,
+      "loss": 0.947,
       "step": 45
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 2.2222222222222227e-05,
+      "loss": 0.9558,
       "step": 50
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 2.444444444444445e-05,
+      "loss": 0.9208,
       "step": 55
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 0.9096,
       "step": 60
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 2.888888888888889e-05,
+      "loss": 0.8924,
       "step": 65
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 3.111111111111112e-05,
+      "loss": 0.8883,
       "step": 70
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.879,
       "step": 75
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 3.555555555555555e-05,
+      "loss": 0.8643,
       "step": 80
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 3.777777777777778e-05,
+      "loss": 0.8491,
       "step": 85
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 4e-05,
+      "loss": 0.8485,
       "step": 90
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 3.999623940897003e-05,
+      "loss": 0.8734,
       "step": 95
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 3.998495905008461e-05,
+      "loss": 0.8522,
       "step": 100
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 3.996616316542537e-05,
+      "loss": 0.8434,
       "step": 105
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 3.993985882335584e-05,
+      "loss": 0.8312,
       "step": 110
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 3.9906055915863316e-05,
+      "loss": 0.8248,
       "step": 115
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 3.9864767154838864e-05,
+      "loss": 0.8387,
       "step": 120
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 3.9816008067296905e-05,
+      "loss": 0.8191,
       "step": 125
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.9759796989536185e-05,
+      "loss": 0.8047,
       "step": 130
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.9696155060244166e-05,
+      "loss": 0.7999,
       "step": 135
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.9625106212547696e-05,
+      "loss": 0.7841,
       "step": 140
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.9546677165012714e-05,
+      "loss": 0.7546,
       "step": 145
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.946089741159648e-05,
+      "loss": 0.7539,
       "step": 150
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.9367799210556124e-05,
+      "loss": 0.7346,
       "step": 155
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.926741757231761e-05,
+      "loss": 0.7315,
       "step": 160
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.915979024630978e-05,
+      "loss": 0.744,
       "step": 165
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.904495770676831e-05,
+      "loss": 0.7298,
       "step": 170
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.892296313751502e-05,
+      "loss": 0.7385,
       "step": 175
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.879385241571817e-05,
+      "loss": 0.7541,
       "step": 180
     },
     {
+      "epoch": 0.01,
+      "eval_loss": 0.7222402691841125,
+      "eval_runtime": 118.1542,
+      "eval_samples_per_second": 16.927,
+      "eval_steps_per_second": 4.232,
+      "step": 180
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.865767409464002e-05,
+      "loss": 0.7311,
+      "step": 185
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.8514479385377813e-05,
+      "loss": 0.7376,
+      "step": 190
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.8364322137605484e-05,
+      "loss": 0.727,
       "step": 195
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.8207258819322936e-05,
+      "loss": 0.739,
       "step": 200
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.804334849562076e-05,
+      "loss": 0.741,
       "step": 205
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.787265280646825e-05,
+      "loss": 0.7216,
       "step": 210
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.7695235943533155e-05,
+      "loss": 0.7115,
       "step": 215
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.7511164626041823e-05,
+      "loss": 0.731,
       "step": 220
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.732050807568878e-05,
+      "loss": 0.7185,
       "step": 225
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.7123337990605335e-05,
+      "loss": 0.729,
       "step": 230
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.691972851839682e-05,
+      "loss": 0.7485,
       "step": 235
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.6709756228258735e-05,
+      "loss": 0.7344,
       "step": 240
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.649350008218214e-05,
+      "loss": 0.7527,
       "step": 245
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.6271041405259354e-05,
+      "loss": 0.7381,
       "step": 250
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.604246385510088e-05,
+      "loss": 0.7512,
       "step": 255
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.580785339037519e-05,
+      "loss": 0.7368,
       "step": 260
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.5567298238483206e-05,
+      "loss": 0.7228,
       "step": 265
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.532088886237956e-05,
+      "loss": 0.7361,
       "step": 270
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.506871792655321e-05,
+      "loss": 0.727,
       "step": 275
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.48108802621801e-05,
+      "loss": 0.7198,
       "step": 280
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.4547472831460976e-05,
+      "loss": 0.736,
       "step": 285
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.4278594691157985e-05,
+      "loss": 0.7552,
       "step": 290
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.400434695534337e-05,
+      "loss": 0.7316,
       "step": 295
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.372483275737468e-05,
+      "loss": 0.7235,
       "step": 300
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.3440157211110454e-05,
+      "loss": 0.7189,
       "step": 305
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.315042737138128e-05,
+      "loss": 0.7358,
       "step": 310
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.285575219373079e-05,
+      "loss": 0.7252,
       "step": 315
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.255624249344198e-05,
+      "loss": 0.7157,
       "step": 320
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.2252010903864057e-05,
+      "loss": 0.7175,
       "step": 325
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.194317183405573e-05,
+      "loss": 0.7417,
       "step": 330
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.1629841425760534e-05,
+      "loss": 0.736,
       "step": 335
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.1312137509730776e-05,
+      "loss": 0.7194,
       "step": 340
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.0990179561416124e-05,
+      "loss": 0.7222,
       "step": 345
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.066408865603383e-05,
+      "loss": 0.7196,
       "step": 350
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.0333987423037262e-05,
+      "loss": 0.714,
       "step": 355
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.0000000000000004e-05,
+      "loss": 0.7126,
+      "step": 360
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 0.7118021249771118,
+      "eval_runtime": 117.7706,
+      "eval_samples_per_second": 16.982,
+      "eval_steps_per_second": 4.246,
       "step": 360
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 2.9662251985932773e-05,
+      "loss": 0.7159,
       "step": 365
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 2.9320870394050783e-05,
+      "loss": 0.7249,
       "step": 370
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 2.897598360400925e-05,
+      "loss": 0.7182,
       "step": 375
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 2.8627721313625073e-05,
+      "loss": 0.7083,
       "step": 380
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.8276214490102788e-05,
+      "loss": 0.7238,
       "step": 385
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.792159532078314e-05,
+      "loss": 0.7137,
       "step": 390
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.7563997163432853e-05,
+      "loss": 0.7182,
       "step": 395
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.720355449609421e-05,
+      "loss": 0.7285,
       "step": 400
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.684040286651338e-05,
+      "loss": 0.6988,
       "step": 405
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.6474678841166426e-05,
+      "loss": 0.7217,
       "step": 410
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.6106519953902268e-05,
+      "loss": 0.7185,
       "step": 415
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.5736064654221808e-05,
+      "loss": 0.7303,
       "step": 420
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.536345225521275e-05,
+      "loss": 0.7134,
       "step": 425
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.4988822881159627e-05,
+      "loss": 0.7215,
       "step": 430
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.4612317414848804e-05,
+      "loss": 0.7219,
       "step": 435
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.423407744458822e-05,
+      "loss": 0.7253,
       "step": 440
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.3854245210961798e-05,
+      "loss": 0.7251,
       "step": 445
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.3472963553338614e-05,
+      "loss": 0.7259,
       "step": 450
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.3090375856156813e-05,
+      "loss": 0.7412,
       "step": 455
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.2706625995002626e-05,
+      "loss": 0.7316,
       "step": 460
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.2321858282504606e-05,
+      "loss": 0.7166,
       "step": 465
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.1936217414063584e-05,
+      "loss": 0.7453,
       "step": 470
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.154984841343862e-05,
+      "loss": 0.7135,
       "step": 475
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.1162896578209517e-05,
+      "loss": 0.712,
       "step": 480
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.077550742513634e-05,
+      "loss": 0.7185,
       "step": 485
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2.038782663543649e-05,
+      "loss": 0.7366,
       "step": 490
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.7302,
       "step": 495
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.9612173364563517e-05,
+      "loss": 0.7393,
       "step": 500
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.9224492574863663e-05,
+      "loss": 0.7296,
       "step": 505
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.8837103421790486e-05,
+      "loss": 0.7109,
       "step": 510
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.8450151586561386e-05,
+      "loss": 0.7092,
       "step": 515
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.806378258593642e-05,
+      "loss": 0.7381,
       "step": 520
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.7678141717495394e-05,
+      "loss": 0.733,
       "step": 525
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.7293374004997384e-05,
+      "loss": 0.7068,
       "step": 530
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.6909624143843193e-05,
+      "loss": 0.7062,
       "step": 535
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.6527036446661396e-05,
+      "loss": 0.7342,
+      "step": 540
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 0.7100361585617065,
+      "eval_runtime": 117.785,
+      "eval_samples_per_second": 16.98,
+      "eval_steps_per_second": 4.245,
       "step": 540
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.6145754789038205e-05,
+      "loss": 0.7193,
       "step": 545
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.5765922555411793e-05,
+      "loss": 0.7087,
       "step": 550
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.53876825851512e-05,
+      "loss": 0.7228,
       "step": 555
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.5011177118840376e-05,
+      "loss": 0.7254,
       "step": 560
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.4636547744787251e-05,
+      "loss": 0.732,
       "step": 565
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.4263935345778202e-05,
+      "loss": 0.7186,
       "step": 570
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.389348004609774e-05,
+      "loss": 0.7091,
       "step": 575
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.3525321158833582e-05,
+      "loss": 0.7278,
       "step": 580
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.3159597133486628e-05,
+      "loss": 0.7088,
       "step": 585
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.2796445503905797e-05,
+      "loss": 0.7188,
       "step": 590
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.2436002836567154e-05,
+      "loss": 0.7311,
       "step": 595
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.2078404679216864e-05,
+      "loss": 0.727,
       "step": 600
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.1723785509897219e-05,
+      "loss": 0.7089,
       "step": 605
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.1372278686374935e-05,
+      "loss": 0.7108,
       "step": 610
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.1024016395990758e-05,
+      "loss": 0.7189,
       "step": 615
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.067912960594923e-05,
+      "loss": 0.717,
       "step": 620
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.033774801406723e-05,
+      "loss": 0.713,
       "step": 625
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.0000000000000006e-05,
+      "loss": 0.7217,
       "step": 630
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 9.666012576962743e-06,
+      "loss": 0.7099,
       "step": 635
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 9.33591134396618e-06,
+      "loss": 0.6947,
       "step": 640
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 9.009820438583881e-06,
+      "loss": 0.7051,
       "step": 645
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 8.687862490269232e-06,
+      "loss": 0.7244,
       "step": 650
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 8.370158574239466e-06,
+      "loss": 0.7233,
       "step": 655
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 8.056828165944282e-06,
+      "loss": 0.712,
       "step": 660
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 7.747989096135943e-06,
+      "loss": 0.7236,
       "step": 665
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 7.443757506558033e-06,
+      "loss": 0.7134,
       "step": 670
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 7.1442478062692135e-06,
+      "loss": 0.714,
       "step": 675
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 6.84957262861873e-06,
+      "loss": 0.7058,
       "step": 680
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 6.559842788889552e-06,
+      "loss": 0.7265,
       "step": 685
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 6.275167242625331e-06,
+      "loss": 0.7119,
       "step": 690
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 5.9956530446566305e-06,
+      "loss": 0.7263,
       "step": 695
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 5.721405308842023e-06,
+      "loss": 0.7274,
       "step": 700
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 5.452527168539026e-06,
+      "loss": 0.7166,
       "step": 705
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 5.189119737819912e-06,
+      "loss": 0.713,
       "step": 710
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 4.9312820734467855e-06,
+      "loss": 0.7253,
       "step": 715
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 4.679111137620442e-06,
+      "loss": 0.7216,
       "step": 720
     },
     {
+      "epoch": 0.03,
+      "eval_loss": 0.708259105682373,
+      "eval_runtime": 117.7068,
+      "eval_samples_per_second": 16.991,
+      "eval_steps_per_second": 4.248,
+      "step": 720
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.4327017615168e-06,
+      "loss": 0.7165,
       "step": 725
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 4.1921466096248164e-06,
+      "loss": 0.7303,
       "step": 730
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 3.957536144899123e-06,
+      "loss": 0.7198,
       "step": 735
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 3.7289585947406504e-06,
+      "loss": 0.7186,
       "step": 740
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 3.5064999178178648e-06,
+      "loss": 0.7438,
       "step": 745
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 3.290243771741275e-06,
+      "loss": 0.7191,
       "step": 750
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 3.0802714816031787e-06,
+      "loss": 0.7132,
       "step": 755
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 2.876662009394673e-06,
+      "loss": 0.7278,
       "step": 760
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 2.679491924311226e-06,
+      "loss": 0.7085,
       "step": 765
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 2.488835373958185e-06,
+      "loss": 0.7115,
       "step": 770
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 2.304764056466844e-06,
+      "loss": 0.7118,
       "step": 775
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 2.127347193531757e-06,
+      "loss": 0.7121,
       "step": 780
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.9566515043792455e-06,
+      "loss": 0.7174,
       "step": 785
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.792741180677069e-06,
+      "loss": 0.6913,
       "step": 790
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.6356778623945223e-06,
+      "loss": 0.7038,
       "step": 795
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.4855206146221934e-06,
+      "loss": 0.7156,
       "step": 800
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.3423259053599891e-06,
+      "loss": 0.7113,
       "step": 805
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.2061475842818337e-06,
+      "loss": 0.727,
       "step": 810
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.0770368624849947e-06,
+      "loss": 0.7186,
       "step": 815
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 9.550422932316938e-07,
+      "loss": 0.7088,
       "step": 820
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 8.402097536902221e-07,
+      "loss": 0.7125,
       "step": 825
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 7.325824276823934e-07,
+      "loss": 0.7076,
       "step": 830
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 6.322007894438842e-07,
+      "loss": 0.7099,
       "step": 835
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 5.391025884035239e-07,
+      "loss": 0.7238,
       "step": 840
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 4.533228349872887e-07,
+      "loss": 0.7241,
       "step": 845
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 3.748937874523062e-07,
+      "loss": 0.7248,
       "step": 850
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 3.038449397558396e-07,
+      "loss": 0.7083,
       "step": 855
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 2.402030104638198e-07,
+      "loss": 0.7167,
       "step": 860
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.839919327030937e-07,
+      "loss": 0.7277,
       "step": 865
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.3523284516113955e-07,
+      "loss": 0.7075,
       "step": 870
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 9.394408413668343e-08,
+      "loss": 0.7134,
       "step": 875
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 6.014117664415953e-08,
+      "loss": 0.7147,
       "step": 880
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 3.383683457463649e-08,
+      "loss": 0.7287,
       "step": 885
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 1.5040949915399173e-08,
+      "loss": 0.7152,
       "step": 890
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 3.760591029973171e-09,
+      "loss": 0.7195,
       "step": 895
     },
     {
+      "epoch": 0.04,
       "learning_rate": 0.0,
+      "loss": 0.7171,
+      "step": 900
     },
     {
+      "epoch": 0.04,
+      "eval_loss": 0.7084137797355652,
+      "eval_runtime": 117.7342,
+      "eval_samples_per_second": 16.987,
+      "eval_steps_per_second": 4.247,
+      "step": 900
     },
     {
+      "epoch": 0.04,
+      "step": 900,
+      "total_flos": 1.1929120479106826e+18,
+      "train_loss": 0.7602509791321225,
+      "train_runtime": 22175.0023,
+      "train_samples_per_second": 0.649,
       "train_steps_per_second": 0.041
     }
   ],
   "logging_steps": 5,
+  "max_steps": 900,
+  "num_train_epochs": 1,
+  "save_steps": 180,
+  "total_flos": 1.1929120479106826e+18,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e4293e4b07049ac9ae8d94f77930f2db536f10de6e8e326cdf856056cf94f80
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:f65537292be9c1a03c759b840c2f8b9421e85df46af77ce90fdb8f69e1b17890
 size 4728