End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +7 -7
eval_results.json +4 -4
train_results.json +3 -3
trainer_state.json +265 -265
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3.1
 base_model: meta-llama/Llama-3.1-8B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: OH_DCFT_V3_wo_gpteacher
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # OH_DCFT_V3_wo_gpteacher
-This model is a fine-tuned version of [meta-llama/Llama-3.1-8B](https://huggingface.co/meta-llama/Llama-3.1-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6407

 base_model: meta-llama/Llama-3.1-8B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: OH_DCFT_V3_wo_gpteacher
 # OH_DCFT_V3_wo_gpteacher
+This model is a fine-tuned version of [meta-llama/Llama-3.1-8B](https://huggingface.co/meta-llama/Llama-3.1-8B) on the mlfoundations-dev/OH_DCFT_V3_wo_gpteacher dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6407

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 3.0,
-    "eval_loss": 0.6440668702125549,
-    "eval_runtime": 227.293,
-    "eval_samples_per_second": 49.786,
-    "eval_steps_per_second": 0.392,
     "total_flos": 2110128169943040.0,
-    "train_loss": 0.6162170792382861,
-    "train_runtime": 37920.9719,
-    "train_samples_per_second": 17.008,
     "train_steps_per_second": 0.033
 }

 {
     "epoch": 3.0,
+    "eval_loss": 0.64065021276474,
+    "eval_runtime": 226.5797,
+    "eval_samples_per_second": 49.943,
+    "eval_steps_per_second": 0.393,
     "total_flos": 2110128169943040.0,
+    "train_loss": 0.6183440295476762,
+    "train_runtime": 37778.6065,
+    "train_samples_per_second": 17.072,
     "train_steps_per_second": 0.033
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 3.0,
-    "eval_loss": 0.6440668702125549,
-    "eval_runtime": 227.293,
-    "eval_samples_per_second": 49.786,
-    "eval_steps_per_second": 0.392
 }

 {
     "epoch": 3.0,
+    "eval_loss": 0.64065021276474,
+    "eval_runtime": 226.5797,
+    "eval_samples_per_second": 49.943,
+    "eval_steps_per_second": 0.393
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
     "total_flos": 2110128169943040.0,
-    "train_loss": 0.6162170792382861,
-    "train_runtime": 37920.9719,
-    "train_samples_per_second": 17.008,
     "train_steps_per_second": 0.033
 }

 {
     "epoch": 3.0,
     "total_flos": 2110128169943040.0,
+    "train_loss": 0.6183440295476762,
+    "train_runtime": 37778.6065,
+    "train_samples_per_second": 17.072,
     "train_steps_per_second": 0.033
 }

trainer_state.json CHANGED Viewed

@@ -10,907 +10,907 @@
   "log_history": [
     {
       "epoch": 0.023809523809523808,
-      "grad_norm": 2.979096394688749,
       "learning_rate": 5e-06,
-      "loss": 0.9025,
       "step": 10
     },
     {
       "epoch": 0.047619047619047616,
-      "grad_norm": 2.223142048644808,
       "learning_rate": 5e-06,
-      "loss": 0.7906,
       "step": 20
     },
     {
       "epoch": 0.07142857142857142,
-      "grad_norm": 0.9659685115817319,
       "learning_rate": 5e-06,
-      "loss": 0.7618,
       "step": 30
     },
     {
       "epoch": 0.09523809523809523,
-      "grad_norm": 2.5886379347886272,
       "learning_rate": 5e-06,
-      "loss": 0.7377,
       "step": 40
     },
     {
       "epoch": 0.11904761904761904,
-      "grad_norm": 1.0245503548131887,
       "learning_rate": 5e-06,
-      "loss": 0.7259,
       "step": 50
     },
     {
       "epoch": 0.14285714285714285,
-      "grad_norm": 1.738748891091501,
       "learning_rate": 5e-06,
-      "loss": 0.7176,
       "step": 60
     },
     {
       "epoch": 0.16666666666666666,
-      "grad_norm": 1.2057121051713384,
       "learning_rate": 5e-06,
-      "loss": 0.7096,
       "step": 70
     },
     {
       "epoch": 0.19047619047619047,
-      "grad_norm": 0.9909295460877846,
       "learning_rate": 5e-06,
-      "loss": 0.6993,
       "step": 80
     },
     {
       "epoch": 0.21428571428571427,
-      "grad_norm": 1.0715651790004184,
       "learning_rate": 5e-06,
-      "loss": 0.6967,
       "step": 90
     },
     {
       "epoch": 0.23809523809523808,
-      "grad_norm": 0.6693921792141905,
       "learning_rate": 5e-06,
-      "loss": 0.6894,
       "step": 100
     },
     {
       "epoch": 0.2619047619047619,
-      "grad_norm": 0.7540545910263109,
       "learning_rate": 5e-06,
-      "loss": 0.6897,
       "step": 110
     },
     {
       "epoch": 0.2857142857142857,
-      "grad_norm": 0.9619591233907567,
       "learning_rate": 5e-06,
-      "loss": 0.6791,
       "step": 120
     },
     {
       "epoch": 0.30952380952380953,
-      "grad_norm": 0.5780917568032095,
       "learning_rate": 5e-06,
-      "loss": 0.6797,
       "step": 130
     },
     {
       "epoch": 0.3333333333333333,
-      "grad_norm": 0.9635552433253597,
       "learning_rate": 5e-06,
-      "loss": 0.6841,
       "step": 140
     },
     {
       "epoch": 0.35714285714285715,
-      "grad_norm": 0.8584456045570616,
       "learning_rate": 5e-06,
-      "loss": 0.6867,
       "step": 150
     },
     {
       "epoch": 0.38095238095238093,
-      "grad_norm": 0.7712335735700714,
       "learning_rate": 5e-06,
-      "loss": 0.6742,
       "step": 160
     },
     {
       "epoch": 0.40476190476190477,
-      "grad_norm": 0.5607748596375883,
       "learning_rate": 5e-06,
-      "loss": 0.6645,
       "step": 170
     },
     {
       "epoch": 0.42857142857142855,
-      "grad_norm": 0.6860408185076606,
       "learning_rate": 5e-06,
-      "loss": 0.67,
       "step": 180
     },
     {
       "epoch": 0.4523809523809524,
-      "grad_norm": 0.6423601136831741,
       "learning_rate": 5e-06,
-      "loss": 0.6617,
       "step": 190
     },
     {
       "epoch": 0.47619047619047616,
-      "grad_norm": 0.6913927833272892,
       "learning_rate": 5e-06,
-      "loss": 0.6693,
       "step": 200
     },
     {
       "epoch": 0.5,
-      "grad_norm": 0.731217906174741,
       "learning_rate": 5e-06,
-      "loss": 0.6613,
       "step": 210
     },
     {
       "epoch": 0.5238095238095238,
-      "grad_norm": 0.7416700934245687,
       "learning_rate": 5e-06,
-      "loss": 0.665,
       "step": 220
     },
     {
       "epoch": 0.5476190476190477,
-      "grad_norm": 0.693116297233903,
       "learning_rate": 5e-06,
-      "loss": 0.6664,
       "step": 230
     },
     {
       "epoch": 0.5714285714285714,
-      "grad_norm": 0.6060455581468875,
       "learning_rate": 5e-06,
-      "loss": 0.6685,
       "step": 240
     },
     {
       "epoch": 0.5952380952380952,
-      "grad_norm": 0.5949942186099269,
       "learning_rate": 5e-06,
-      "loss": 0.6648,
       "step": 250
     },
     {
       "epoch": 0.6190476190476191,
-      "grad_norm": 0.6650051022426187,
       "learning_rate": 5e-06,
-      "loss": 0.6698,
       "step": 260
     },
     {
       "epoch": 0.6428571428571429,
-      "grad_norm": 0.4881193268448229,
       "learning_rate": 5e-06,
-      "loss": 0.6579,
       "step": 270
     },
     {
       "epoch": 0.6666666666666666,
-      "grad_norm": 0.6835244906664516,
       "learning_rate": 5e-06,
-      "loss": 0.663,
       "step": 280
     },
     {
       "epoch": 0.6904761904761905,
-      "grad_norm": 0.549317421807424,
       "learning_rate": 5e-06,
-      "loss": 0.6693,
       "step": 290
     },
     {
       "epoch": 0.7142857142857143,
-      "grad_norm": 0.7488182034561941,
       "learning_rate": 5e-06,
-      "loss": 0.654,
       "step": 300
     },
     {
       "epoch": 0.7380952380952381,
-      "grad_norm": 0.5270894181702861,
       "learning_rate": 5e-06,
-      "loss": 0.6587,
       "step": 310
     },
     {
       "epoch": 0.7619047619047619,
-      "grad_norm": 0.5020088435096579,
       "learning_rate": 5e-06,
-      "loss": 0.6555,
       "step": 320
     },
     {
       "epoch": 0.7857142857142857,
-      "grad_norm": 0.6580789108763763,
       "learning_rate": 5e-06,
-      "loss": 0.6594,
       "step": 330
     },
     {
       "epoch": 0.8095238095238095,
-      "grad_norm": 0.5327515064364189,
       "learning_rate": 5e-06,
-      "loss": 0.6562,
       "step": 340
     },
     {
       "epoch": 0.8333333333333334,
-      "grad_norm": 0.6766119147927919,
       "learning_rate": 5e-06,
-      "loss": 0.6622,
       "step": 350
     },
     {
       "epoch": 0.8571428571428571,
-      "grad_norm": 0.48312467069161585,
       "learning_rate": 5e-06,
-      "loss": 0.6499,
       "step": 360
     },
     {
       "epoch": 0.8809523809523809,
-      "grad_norm": 0.5489308235550809,
       "learning_rate": 5e-06,
-      "loss": 0.6511,
       "step": 370
     },
     {
       "epoch": 0.9047619047619048,
-      "grad_norm": 0.531393638730665,
       "learning_rate": 5e-06,
-      "loss": 0.6474,
       "step": 380
     },
     {
       "epoch": 0.9285714285714286,
-      "grad_norm": 0.5442860805200723,
       "learning_rate": 5e-06,
-      "loss": 0.647,
       "step": 390
     },
     {
       "epoch": 0.9523809523809523,
-      "grad_norm": 0.5341470533579747,
       "learning_rate": 5e-06,
-      "loss": 0.6524,
       "step": 400
     },
     {
       "epoch": 0.9761904761904762,
-      "grad_norm": 0.5888795467394295,
       "learning_rate": 5e-06,
-      "loss": 0.6542,
       "step": 410
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.49834935458120216,
       "learning_rate": 5e-06,
-      "loss": 0.656,
       "step": 420
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.6510941386222839,
-      "eval_runtime": 227.0311,
-      "eval_samples_per_second": 49.843,
-      "eval_steps_per_second": 0.392,
       "step": 420
     },
     {
       "epoch": 1.0238095238095237,
-      "grad_norm": 0.6687540925652379,
       "learning_rate": 5e-06,
-      "loss": 0.6017,
       "step": 430
     },
     {
       "epoch": 1.0476190476190477,
-      "grad_norm": 0.6881882382037877,
       "learning_rate": 5e-06,
-      "loss": 0.605,
       "step": 440
     },
     {
       "epoch": 1.0714285714285714,
-      "grad_norm": 0.6838107122997646,
       "learning_rate": 5e-06,
-      "loss": 0.6057,
       "step": 450
     },
     {
       "epoch": 1.0952380952380953,
-      "grad_norm": 0.6206546806913035,
       "learning_rate": 5e-06,
-      "loss": 0.6025,
       "step": 460
     },
     {
       "epoch": 1.119047619047619,
-      "grad_norm": 0.5234446949681405,
       "learning_rate": 5e-06,
-      "loss": 0.6026,
       "step": 470
     },
     {
       "epoch": 1.1428571428571428,
-      "grad_norm": 0.5688053143712357,
       "learning_rate": 5e-06,
-      "loss": 0.6084,
       "step": 480
     },
     {
       "epoch": 1.1666666666666667,
-      "grad_norm": 0.5144927383094415,
       "learning_rate": 5e-06,
-      "loss": 0.6056,
       "step": 490
     },
     {
       "epoch": 1.1904761904761905,
-      "grad_norm": 0.5798202925506201,
       "learning_rate": 5e-06,
-      "loss": 0.6051,
       "step": 500
     },
     {
       "epoch": 1.2142857142857142,
-      "grad_norm": 0.5763013849243751,
       "learning_rate": 5e-06,
-      "loss": 0.6072,
       "step": 510
     },
     {
       "epoch": 1.2380952380952381,
-      "grad_norm": 0.516136225290882,
       "learning_rate": 5e-06,
-      "loss": 0.6039,
       "step": 520
     },
     {
       "epoch": 1.2619047619047619,
-      "grad_norm": 0.5434868232176754,
       "learning_rate": 5e-06,
-      "loss": 0.6049,
       "step": 530
     },
     {
       "epoch": 1.2857142857142856,
-      "grad_norm": 0.5781098423365609,
       "learning_rate": 5e-06,
-      "loss": 0.6106,
       "step": 540
     },
     {
       "epoch": 1.3095238095238095,
-      "grad_norm": 0.6160851889527316,
       "learning_rate": 5e-06,
-      "loss": 0.6131,
       "step": 550
     },
     {
       "epoch": 1.3333333333333333,
-      "grad_norm": 0.6505657162711183,
       "learning_rate": 5e-06,
-      "loss": 0.6044,
       "step": 560
     },
     {
       "epoch": 1.3571428571428572,
-      "grad_norm": 0.7226294537660097,
       "learning_rate": 5e-06,
-      "loss": 0.5995,
       "step": 570
     },
     {
       "epoch": 1.380952380952381,
-      "grad_norm": 0.7401627819549035,
       "learning_rate": 5e-06,
-      "loss": 0.6076,
       "step": 580
     },
     {
       "epoch": 1.4047619047619047,
-      "grad_norm": 0.5976345814355858,
       "learning_rate": 5e-06,
-      "loss": 0.6059,
       "step": 590
     },
     {
       "epoch": 1.4285714285714286,
-      "grad_norm": 0.5726009859635873,
       "learning_rate": 5e-06,
-      "loss": 0.6096,
       "step": 600
     },
     {
       "epoch": 1.4523809523809523,
-      "grad_norm": 0.6957346206924405,
       "learning_rate": 5e-06,
-      "loss": 0.6068,
       "step": 610
     },
     {
       "epoch": 1.4761904761904763,
-      "grad_norm": 0.6013418142360826,
       "learning_rate": 5e-06,
-      "loss": 0.6054,
       "step": 620
     },
     {
       "epoch": 1.5,
-      "grad_norm": 0.529882487661824,
       "learning_rate": 5e-06,
-      "loss": 0.6094,
       "step": 630
     },
     {
       "epoch": 1.5238095238095237,
-      "grad_norm": 0.5964013041735027,
       "learning_rate": 5e-06,
-      "loss": 0.6087,
       "step": 640
     },
     {
       "epoch": 1.5476190476190477,
-      "grad_norm": 0.6720997706264525,
       "learning_rate": 5e-06,
-      "loss": 0.6089,
       "step": 650
     },
     {
       "epoch": 1.5714285714285714,
-      "grad_norm": 0.5540017744559399,
       "learning_rate": 5e-06,
-      "loss": 0.6159,
       "step": 660
     },
     {
       "epoch": 1.5952380952380953,
-      "grad_norm": 0.634842502281549,
       "learning_rate": 5e-06,
-      "loss": 0.6028,
       "step": 670
     },
     {
       "epoch": 1.619047619047619,
-      "grad_norm": 0.5437572103572672,
       "learning_rate": 5e-06,
-      "loss": 0.6114,
       "step": 680
     },
     {
       "epoch": 1.6428571428571428,
-      "grad_norm": 0.6906266274795664,
       "learning_rate": 5e-06,
-      "loss": 0.6044,
       "step": 690
     },
     {
       "epoch": 1.6666666666666665,
-      "grad_norm": 0.5334026010038674,
       "learning_rate": 5e-06,
-      "loss": 0.601,
       "step": 700
     },
     {
       "epoch": 1.6904761904761905,
-      "grad_norm": 0.5451974027222483,
       "learning_rate": 5e-06,
-      "loss": 0.6032,
       "step": 710
     },
     {
       "epoch": 1.7142857142857144,
-      "grad_norm": 0.6762373268566487,
       "learning_rate": 5e-06,
-      "loss": 0.5986,
       "step": 720
     },
     {
       "epoch": 1.7380952380952381,
-      "grad_norm": 0.5412074184482999,
       "learning_rate": 5e-06,
-      "loss": 0.6054,
       "step": 730
     },
     {
       "epoch": 1.7619047619047619,
-      "grad_norm": 0.771274774231781,
       "learning_rate": 5e-06,
-      "loss": 0.6092,
       "step": 740
     },
     {
       "epoch": 1.7857142857142856,
-      "grad_norm": 0.48730103990677553,
       "learning_rate": 5e-06,
-      "loss": 0.6035,
       "step": 750
     },
     {
       "epoch": 1.8095238095238095,
-      "grad_norm": 0.6623660039317416,
       "learning_rate": 5e-06,
-      "loss": 0.5956,
       "step": 760
     },
     {
       "epoch": 1.8333333333333335,
-      "grad_norm": 0.47412102834711495,
       "learning_rate": 5e-06,
-      "loss": 0.6046,
       "step": 770
     },
     {
       "epoch": 1.8571428571428572,
-      "grad_norm": 0.5242018166622929,
       "learning_rate": 5e-06,
-      "loss": 0.6023,
       "step": 780
     },
     {
       "epoch": 1.880952380952381,
-      "grad_norm": 0.5058468113558267,
       "learning_rate": 5e-06,
-      "loss": 0.6032,
       "step": 790
     },
     {
       "epoch": 1.9047619047619047,
-      "grad_norm": 0.5259508772857945,
       "learning_rate": 5e-06,
-      "loss": 0.6039,
       "step": 800
     },
     {
       "epoch": 1.9285714285714286,
-      "grad_norm": 0.5204834424492372,
       "learning_rate": 5e-06,
-      "loss": 0.5964,
       "step": 810
     },
     {
       "epoch": 1.9523809523809523,
-      "grad_norm": 0.6677307987141299,
       "learning_rate": 5e-06,
-      "loss": 0.6039,
       "step": 820
     },
     {
       "epoch": 1.9761904761904763,
-      "grad_norm": 0.6038451203219031,
       "learning_rate": 5e-06,
-      "loss": 0.6051,
       "step": 830
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.5104923296850143,
       "learning_rate": 5e-06,
-      "loss": 0.6054,
       "step": 840
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.6414868831634521,
-      "eval_runtime": 226.8523,
-      "eval_samples_per_second": 49.883,
       "eval_steps_per_second": 0.392,
       "step": 840
     },
     {
       "epoch": 2.0238095238095237,
-      "grad_norm": 0.6730357183628786,
       "learning_rate": 5e-06,
-      "loss": 0.5583,
       "step": 850
     },
     {
       "epoch": 2.0476190476190474,
-      "grad_norm": 0.6443977651353381,
       "learning_rate": 5e-06,
-      "loss": 0.5484,
       "step": 860
     },
     {
       "epoch": 2.0714285714285716,
-      "grad_norm": 0.6621011415103402,
       "learning_rate": 5e-06,
-      "loss": 0.5541,
       "step": 870
     },
     {
       "epoch": 2.0952380952380953,
-      "grad_norm": 0.5941142046912498,
       "learning_rate": 5e-06,
-      "loss": 0.5557,
       "step": 880
     },
     {
       "epoch": 2.119047619047619,
-      "grad_norm": 0.6880423100090476,
       "learning_rate": 5e-06,
-      "loss": 0.5522,
       "step": 890
     },
     {
       "epoch": 2.142857142857143,
-      "grad_norm": 0.5826827164455727,
       "learning_rate": 5e-06,
-      "loss": 0.5575,
       "step": 900
     },
     {
       "epoch": 2.1666666666666665,
-      "grad_norm": 0.546984665323485,
       "learning_rate": 5e-06,
-      "loss": 0.5573,
       "step": 910
     },
     {
       "epoch": 2.1904761904761907,
-      "grad_norm": 0.6578594473450741,
       "learning_rate": 5e-06,
-      "loss": 0.5572,
       "step": 920
     },
     {
       "epoch": 2.2142857142857144,
-      "grad_norm": 0.5174066412507444,
       "learning_rate": 5e-06,
-      "loss": 0.5558,
       "step": 930
     },
     {
       "epoch": 2.238095238095238,
-      "grad_norm": 0.5665396877262667,
       "learning_rate": 5e-06,
-      "loss": 0.5591,
       "step": 940
     },
     {
       "epoch": 2.261904761904762,
-      "grad_norm": 0.5517767824029327,
       "learning_rate": 5e-06,
-      "loss": 0.5686,
       "step": 950
     },
     {
       "epoch": 2.2857142857142856,
-      "grad_norm": 0.7067335515343864,
       "learning_rate": 5e-06,
-      "loss": 0.5571,
       "step": 960
     },
     {
       "epoch": 2.3095238095238093,
-      "grad_norm": 0.5430060019384252,
       "learning_rate": 5e-06,
-      "loss": 0.5482,
       "step": 970
     },
     {
       "epoch": 2.3333333333333335,
-      "grad_norm": 0.6706596793287323,
       "learning_rate": 5e-06,
-      "loss": 0.5556,
       "step": 980
     },
     {
       "epoch": 2.357142857142857,
-      "grad_norm": 0.566293047488571,
       "learning_rate": 5e-06,
-      "loss": 0.5641,
       "step": 990
     },
     {
       "epoch": 2.380952380952381,
-      "grad_norm": 0.6116527741940925,
       "learning_rate": 5e-06,
-      "loss": 0.5622,
       "step": 1000
     },
     {
       "epoch": 2.4047619047619047,
-      "grad_norm": 0.6143562660668103,
       "learning_rate": 5e-06,
-      "loss": 0.568,
       "step": 1010
     },
     {
       "epoch": 2.4285714285714284,
-      "grad_norm": 0.6090596093797429,
       "learning_rate": 5e-06,
-      "loss": 0.5636,
       "step": 1020
     },
     {
       "epoch": 2.4523809523809526,
-      "grad_norm": 0.5243339859967657,
       "learning_rate": 5e-06,
-      "loss": 0.5611,
       "step": 1030
     },
     {
       "epoch": 2.4761904761904763,
-      "grad_norm": 0.5859833474274038,
       "learning_rate": 5e-06,
-      "loss": 0.5646,
       "step": 1040
     },
     {
       "epoch": 2.5,
-      "grad_norm": 0.6091596308635463,
       "learning_rate": 5e-06,
-      "loss": 0.5616,
       "step": 1050
     },
     {
       "epoch": 2.5238095238095237,
-      "grad_norm": 0.5720777402597989,
       "learning_rate": 5e-06,
-      "loss": 0.5625,
       "step": 1060
     },
     {
       "epoch": 2.5476190476190474,
-      "grad_norm": 0.6196708033793199,
       "learning_rate": 5e-06,
-      "loss": 0.5631,
       "step": 1070
     },
     {
       "epoch": 2.571428571428571,
-      "grad_norm": 0.6052531031436665,
       "learning_rate": 5e-06,
-      "loss": 0.5566,
       "step": 1080
     },
     {
       "epoch": 2.5952380952380953,
-      "grad_norm": 0.554207795958823,
       "learning_rate": 5e-06,
-      "loss": 0.5659,
       "step": 1090
     },
     {
       "epoch": 2.619047619047619,
-      "grad_norm": 0.564240933144199,
       "learning_rate": 5e-06,
-      "loss": 0.5594,
       "step": 1100
     },
     {
       "epoch": 2.642857142857143,
-      "grad_norm": 0.6888429556851143,
       "learning_rate": 5e-06,
-      "loss": 0.5661,
       "step": 1110
     },
     {
       "epoch": 2.6666666666666665,
-      "grad_norm": 0.506844447200667,
       "learning_rate": 5e-06,
-      "loss": 0.5625,
       "step": 1120
     },
     {
       "epoch": 2.6904761904761907,
-      "grad_norm": 0.5934885397813097,
       "learning_rate": 5e-06,
-      "loss": 0.5603,
       "step": 1130
     },
     {
       "epoch": 2.7142857142857144,
-      "grad_norm": 0.5569090391621104,
       "learning_rate": 5e-06,
-      "loss": 0.5626,
       "step": 1140
     },
     {
       "epoch": 2.738095238095238,
-      "grad_norm": 0.523043491964592,
       "learning_rate": 5e-06,
-      "loss": 0.5645,
       "step": 1150
     },
     {
       "epoch": 2.761904761904762,
-      "grad_norm": 0.6108836571145032,
       "learning_rate": 5e-06,
-      "loss": 0.5648,
       "step": 1160
     },
     {
       "epoch": 2.7857142857142856,
-      "grad_norm": 0.5434168095034596,
       "learning_rate": 5e-06,
-      "loss": 0.5592,
       "step": 1170
     },
     {
       "epoch": 2.8095238095238093,
-      "grad_norm": 0.5074570216881327,
       "learning_rate": 5e-06,
-      "loss": 0.5612,
       "step": 1180
     },
     {
       "epoch": 2.8333333333333335,
-      "grad_norm": 0.8613619535923634,
       "learning_rate": 5e-06,
-      "loss": 0.5673,
       "step": 1190
     },
     {
       "epoch": 2.857142857142857,
-      "grad_norm": 0.5411037216568878,
       "learning_rate": 5e-06,
-      "loss": 0.568,
       "step": 1200
     },
     {
       "epoch": 2.880952380952381,
-      "grad_norm": 0.5977798849441338,
       "learning_rate": 5e-06,
-      "loss": 0.5652,
       "step": 1210
     },
     {
       "epoch": 2.9047619047619047,
-      "grad_norm": 0.5535606431439672,
       "learning_rate": 5e-06,
-      "loss": 0.5515,
       "step": 1220
     },
     {
       "epoch": 2.928571428571429,
-      "grad_norm": 0.541578167814688,
       "learning_rate": 5e-06,
-      "loss": 0.5605,
       "step": 1230
     },
     {
       "epoch": 2.9523809523809526,
-      "grad_norm": 0.6599900818842629,
       "learning_rate": 5e-06,
-      "loss": 0.5592,
       "step": 1240
     },
     {
       "epoch": 2.9761904761904763,
-      "grad_norm": 0.5712008591735968,
       "learning_rate": 5e-06,
-      "loss": 0.567,
       "step": 1250
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.5872625935196057,
       "learning_rate": 5e-06,
-      "loss": 0.5671,
       "step": 1260
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.6440668702125549,
-      "eval_runtime": 227.2775,
-      "eval_samples_per_second": 49.789,
       "eval_steps_per_second": 0.392,
       "step": 1260
     },
@@ -918,9 +918,9 @@
       "epoch": 3.0,
       "step": 1260,
       "total_flos": 2110128169943040.0,
-      "train_loss": 0.6162170792382861,
-      "train_runtime": 37920.9719,
-      "train_samples_per_second": 17.008,
       "train_steps_per_second": 0.033
     }
   ],

   "log_history": [
     {
       "epoch": 0.023809523809523808,
+      "grad_norm": 8.445232891321785,
       "learning_rate": 5e-06,
+      "loss": 0.8762,
       "step": 10
     },
     {
       "epoch": 0.047619047619047616,
+      "grad_norm": 0.904843982790976,
       "learning_rate": 5e-06,
+      "loss": 0.7786,
       "step": 20
     },
     {
       "epoch": 0.07142857142857142,
+      "grad_norm": 0.8545978145052984,
       "learning_rate": 5e-06,
+      "loss": 0.7527,
       "step": 30
     },
     {
       "epoch": 0.09523809523809523,
+      "grad_norm": 1.6189319907091486,
       "learning_rate": 5e-06,
+      "loss": 0.7327,
       "step": 40
     },
     {
       "epoch": 0.11904761904761904,
+      "grad_norm": 3.2111995463545036,
       "learning_rate": 5e-06,
+      "loss": 0.721,
       "step": 50
     },
     {
       "epoch": 0.14285714285714285,
+      "grad_norm": 1.5622579588100545,
       "learning_rate": 5e-06,
+      "loss": 0.7155,
       "step": 60
     },
     {
       "epoch": 0.16666666666666666,
+      "grad_norm": 0.9194869158617756,
       "learning_rate": 5e-06,
+      "loss": 0.7073,
       "step": 70
     },
     {
       "epoch": 0.19047619047619047,
+      "grad_norm": 1.1360615566124799,
       "learning_rate": 5e-06,
+      "loss": 0.6982,
       "step": 80
     },
     {
       "epoch": 0.21428571428571427,
+      "grad_norm": 0.6337591570267407,
       "learning_rate": 5e-06,
+      "loss": 0.6948,
       "step": 90
     },
     {
       "epoch": 0.23809523809523808,
+      "grad_norm": 0.6294601373379741,
       "learning_rate": 5e-06,
+      "loss": 0.6868,
       "step": 100
     },
     {
       "epoch": 0.2619047619047619,
+      "grad_norm": 0.7227604147889286,
       "learning_rate": 5e-06,
+      "loss": 0.6873,
       "step": 110
     },
     {
       "epoch": 0.2857142857142857,
+      "grad_norm": 0.6329554150338043,
       "learning_rate": 5e-06,
+      "loss": 0.6767,
       "step": 120
     },
     {
       "epoch": 0.30952380952380953,
+      "grad_norm": 0.7399122002499049,
       "learning_rate": 5e-06,
+      "loss": 0.6773,
       "step": 130
     },
     {
       "epoch": 0.3333333333333333,
+      "grad_norm": 0.9154334676485532,
       "learning_rate": 5e-06,
+      "loss": 0.6816,
       "step": 140
     },
     {
       "epoch": 0.35714285714285715,
+      "grad_norm": 0.7517066478000081,
       "learning_rate": 5e-06,
+      "loss": 0.6844,
       "step": 150
     },
     {
       "epoch": 0.38095238095238093,
+      "grad_norm": 0.5944319769110347,
       "learning_rate": 5e-06,
+      "loss": 0.6718,
       "step": 160
     },
     {
       "epoch": 0.40476190476190477,
+      "grad_norm": 0.5554236598726099,
       "learning_rate": 5e-06,
+      "loss": 0.6625,
       "step": 170
     },
     {
       "epoch": 0.42857142857142855,
+      "grad_norm": 0.5527412054134143,
       "learning_rate": 5e-06,
+      "loss": 0.6679,
       "step": 180
     },
     {
       "epoch": 0.4523809523809524,
+      "grad_norm": 0.6675222560631745,
       "learning_rate": 5e-06,
+      "loss": 0.6599,
       "step": 190
     },
     {
       "epoch": 0.47619047619047616,
+      "grad_norm": 0.5135528660090127,
       "learning_rate": 5e-06,
+      "loss": 0.6673,
       "step": 200
     },
     {
       "epoch": 0.5,
+      "grad_norm": 0.5424652267211545,
       "learning_rate": 5e-06,
+      "loss": 0.6595,
       "step": 210
     },
     {
       "epoch": 0.5238095238095238,
+      "grad_norm": 0.6772483317418574,
       "learning_rate": 5e-06,
+      "loss": 0.6632,
       "step": 220
     },
     {
       "epoch": 0.5476190476190477,
+      "grad_norm": 0.6246331080259045,
       "learning_rate": 5e-06,
+      "loss": 0.6648,
       "step": 230
     },
     {
       "epoch": 0.5714285714285714,
+      "grad_norm": 0.8107636093046625,
       "learning_rate": 5e-06,
+      "loss": 0.6669,
       "step": 240
     },
     {
       "epoch": 0.5952380952380952,
+      "grad_norm": 0.6057267628051226,
       "learning_rate": 5e-06,
+      "loss": 0.6632,
       "step": 250
     },
     {
       "epoch": 0.6190476190476191,
+      "grad_norm": 0.4697523845613325,
       "learning_rate": 5e-06,
+      "loss": 0.6682,
       "step": 260
     },
     {
       "epoch": 0.6428571428571429,
+      "grad_norm": 0.7106341402212613,
       "learning_rate": 5e-06,
+      "loss": 0.6565,
       "step": 270
     },
     {
       "epoch": 0.6666666666666666,
+      "grad_norm": 0.6640978568662332,
       "learning_rate": 5e-06,
+      "loss": 0.6614,
       "step": 280
     },
     {
       "epoch": 0.6904761904761905,
+      "grad_norm": 0.47105154073005556,
       "learning_rate": 5e-06,
+      "loss": 0.6678,
       "step": 290
     },
     {
       "epoch": 0.7142857142857143,
+      "grad_norm": 0.5076235307186338,
       "learning_rate": 5e-06,
+      "loss": 0.6526,
       "step": 300
     },
     {
       "epoch": 0.7380952380952381,
+      "grad_norm": 0.5774485428478285,
       "learning_rate": 5e-06,
+      "loss": 0.6572,
       "step": 310
     },
     {
       "epoch": 0.7619047619047619,
+      "grad_norm": 0.44356473492316634,
       "learning_rate": 5e-06,
+      "loss": 0.6541,
       "step": 320
     },
     {
       "epoch": 0.7857142857142857,
+      "grad_norm": 0.5583060645539694,
       "learning_rate": 5e-06,
+      "loss": 0.6579,
       "step": 330
     },
     {
       "epoch": 0.8095238095238095,
+      "grad_norm": 0.5093809388308376,
       "learning_rate": 5e-06,
+      "loss": 0.6549,
       "step": 340
     },
     {
       "epoch": 0.8333333333333334,
+      "grad_norm": 0.6286453858043566,
       "learning_rate": 5e-06,
+      "loss": 0.6609,
       "step": 350
     },
     {
       "epoch": 0.8571428571428571,
+      "grad_norm": 0.4665382898949909,
       "learning_rate": 5e-06,
+      "loss": 0.6486,
       "step": 360
     },
     {
       "epoch": 0.8809523809523809,
+      "grad_norm": 0.48421942235168053,
       "learning_rate": 5e-06,
+      "loss": 0.6498,
       "step": 370
     },
     {
       "epoch": 0.9047619047619048,
+      "grad_norm": 0.47968168006990375,
       "learning_rate": 5e-06,
+      "loss": 0.6463,
       "step": 380
     },
     {
       "epoch": 0.9285714285714286,
+      "grad_norm": 0.6498313381053872,
       "learning_rate": 5e-06,
+      "loss": 0.646,
       "step": 390
     },
     {
       "epoch": 0.9523809523809523,
+      "grad_norm": 0.501652313286086,
       "learning_rate": 5e-06,
+      "loss": 0.6513,
       "step": 400
     },
     {
       "epoch": 0.9761904761904762,
+      "grad_norm": 0.6946015511436041,
       "learning_rate": 5e-06,
+      "loss": 0.6531,
       "step": 410
     },
     {
       "epoch": 1.0,
+      "grad_norm": 0.4229645503919674,
       "learning_rate": 5e-06,
+      "loss": 0.655,
       "step": 420
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.6498768329620361,
+      "eval_runtime": 225.8577,
+      "eval_samples_per_second": 50.102,
+      "eval_steps_per_second": 0.394,
       "step": 420
     },
     {
       "epoch": 1.0238095238095237,
+      "grad_norm": 0.5848273077976011,
       "learning_rate": 5e-06,
+      "loss": 0.6049,
       "step": 430
     },
     {
       "epoch": 1.0476190476190477,
+      "grad_norm": 0.6081820995830461,
       "learning_rate": 5e-06,
+      "loss": 0.6086,
       "step": 440
     },
     {
       "epoch": 1.0714285714285714,
+      "grad_norm": 0.7117254288676989,
       "learning_rate": 5e-06,
+      "loss": 0.6092,
       "step": 450
     },
     {
       "epoch": 1.0952380952380953,
+      "grad_norm": 0.5386642213868081,
       "learning_rate": 5e-06,
+      "loss": 0.6057,
       "step": 460
     },
     {
       "epoch": 1.119047619047619,
+      "grad_norm": 0.4838860637353068,
       "learning_rate": 5e-06,
+      "loss": 0.6063,
       "step": 470
     },
     {
       "epoch": 1.1428571428571428,
+      "grad_norm": 0.6899201478964959,
       "learning_rate": 5e-06,
+      "loss": 0.6117,
       "step": 480
     },
     {
       "epoch": 1.1666666666666667,
+      "grad_norm": 0.4519793880714107,
       "learning_rate": 5e-06,
+      "loss": 0.6088,
       "step": 490
     },
     {
       "epoch": 1.1904761904761905,
+      "grad_norm": 0.5061125852880405,
       "learning_rate": 5e-06,
+      "loss": 0.6083,
       "step": 500
     },
     {
       "epoch": 1.2142857142857142,
+      "grad_norm": 0.5248863647668095,
       "learning_rate": 5e-06,
+      "loss": 0.6104,
       "step": 510
     },
     {
       "epoch": 1.2380952380952381,
+      "grad_norm": 0.5968882106247873,
       "learning_rate": 5e-06,
+      "loss": 0.6069,
       "step": 520
     },
     {
       "epoch": 1.2619047619047619,
+      "grad_norm": 0.5501143820464358,
       "learning_rate": 5e-06,
+      "loss": 0.608,
       "step": 530
     },
     {
       "epoch": 1.2857142857142856,
+      "grad_norm": 0.4956499652626632,
       "learning_rate": 5e-06,
+      "loss": 0.6137,
       "step": 540
     },
     {
       "epoch": 1.3095238095238095,
+      "grad_norm": 0.5885785221479344,
       "learning_rate": 5e-06,
+      "loss": 0.616,
       "step": 550
     },
     {
       "epoch": 1.3333333333333333,
+      "grad_norm": 0.6508207591047148,
       "learning_rate": 5e-06,
+      "loss": 0.6076,
       "step": 560
     },
     {
       "epoch": 1.3571428571428572,
+      "grad_norm": 0.6567861781663986,
       "learning_rate": 5e-06,
+      "loss": 0.6024,
       "step": 570
     },
     {
       "epoch": 1.380952380952381,
+      "grad_norm": 0.6368222901082733,
       "learning_rate": 5e-06,
+      "loss": 0.6105,
       "step": 580
     },
     {
       "epoch": 1.4047619047619047,
+      "grad_norm": 0.4765033439165101,
       "learning_rate": 5e-06,
+      "loss": 0.6085,
       "step": 590
     },
     {
       "epoch": 1.4285714285714286,
+      "grad_norm": 0.5412789060995679,
       "learning_rate": 5e-06,
+      "loss": 0.6125,
       "step": 600
     },
     {
       "epoch": 1.4523809523809523,
+      "grad_norm": 0.6550891112594979,
       "learning_rate": 5e-06,
+      "loss": 0.6098,
       "step": 610
     },
     {
       "epoch": 1.4761904761904763,
+      "grad_norm": 0.4941780495813866,
       "learning_rate": 5e-06,
+      "loss": 0.6079,
       "step": 620
     },
     {
       "epoch": 1.5,
+      "grad_norm": 0.4616359398639311,
       "learning_rate": 5e-06,
+      "loss": 0.6124,
       "step": 630
     },
     {
       "epoch": 1.5238095238095237,
+      "grad_norm": 0.5672461066448958,
       "learning_rate": 5e-06,
+      "loss": 0.6116,
       "step": 640
     },
     {
       "epoch": 1.5476190476190477,
+      "grad_norm": 0.5489798189032514,
       "learning_rate": 5e-06,
+      "loss": 0.6117,
       "step": 650
     },
     {
       "epoch": 1.5714285714285714,
+      "grad_norm": 0.48057024394509507,
       "learning_rate": 5e-06,
+      "loss": 0.6187,
       "step": 660
     },
     {
       "epoch": 1.5952380952380953,
+      "grad_norm": 0.5181771441671735,
       "learning_rate": 5e-06,
+      "loss": 0.6054,
       "step": 670
     },
     {
       "epoch": 1.619047619047619,
+      "grad_norm": 0.4437262379380175,
       "learning_rate": 5e-06,
+      "loss": 0.6137,
       "step": 680
     },
     {
       "epoch": 1.6428571428571428,
+      "grad_norm": 0.7378881109321974,
       "learning_rate": 5e-06,
+      "loss": 0.6068,
       "step": 690
     },
     {
       "epoch": 1.6666666666666665,
+      "grad_norm": 0.499037021825346,
       "learning_rate": 5e-06,
+      "loss": 0.6034,
       "step": 700
     },
     {
       "epoch": 1.6904761904761905,
+      "grad_norm": 0.4703517200789926,
       "learning_rate": 5e-06,
+      "loss": 0.606,
       "step": 710
     },
     {
       "epoch": 1.7142857142857144,
+      "grad_norm": 0.6587144015590305,
       "learning_rate": 5e-06,
+      "loss": 0.6012,
       "step": 720
     },
     {
       "epoch": 1.7380952380952381,
+      "grad_norm": 0.48833715383705506,
       "learning_rate": 5e-06,
+      "loss": 0.6079,
       "step": 730
     },
     {
       "epoch": 1.7619047619047619,
+      "grad_norm": 0.6685361241012429,
       "learning_rate": 5e-06,
+      "loss": 0.6116,
       "step": 740
     },
     {
       "epoch": 1.7857142857142856,
+      "grad_norm": 0.6149706599367468,
       "learning_rate": 5e-06,
+      "loss": 0.6062,
       "step": 750
     },
     {
       "epoch": 1.8095238095238095,
+      "grad_norm": 0.5091886649503007,
       "learning_rate": 5e-06,
+      "loss": 0.5981,
       "step": 760
     },
     {
       "epoch": 1.8333333333333335,
+      "grad_norm": 0.5048302650982107,
       "learning_rate": 5e-06,
+      "loss": 0.6071,
       "step": 770
     },
     {
       "epoch": 1.8571428571428572,
+      "grad_norm": 0.43120999313392744,
       "learning_rate": 5e-06,
+      "loss": 0.6047,
       "step": 780
     },
     {
       "epoch": 1.880952380952381,
+      "grad_norm": 0.43029897993140503,
       "learning_rate": 5e-06,
+      "loss": 0.6056,
       "step": 790
     },
     {
       "epoch": 1.9047619047619047,
+      "grad_norm": 0.496655514939085,
       "learning_rate": 5e-06,
+      "loss": 0.6063,
       "step": 800
     },
     {
       "epoch": 1.9285714285714286,
+      "grad_norm": 0.6058031312406722,
       "learning_rate": 5e-06,
+      "loss": 0.5987,
       "step": 810
     },
     {
       "epoch": 1.9523809523809523,
+      "grad_norm": 0.5801525856212552,
       "learning_rate": 5e-06,
+      "loss": 0.6062,
       "step": 820
     },
     {
       "epoch": 1.9761904761904763,
+      "grad_norm": 0.5287188007584436,
       "learning_rate": 5e-06,
+      "loss": 0.6075,
       "step": 830
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.4693366296588104,
       "learning_rate": 5e-06,
+      "loss": 0.6078,
       "step": 840
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.6398360133171082,
+      "eval_runtime": 226.8062,
+      "eval_samples_per_second": 49.893,
       "eval_steps_per_second": 0.392,
       "step": 840
     },
     {
       "epoch": 2.0238095238095237,
+      "grad_norm": 0.6317055308986993,
       "learning_rate": 5e-06,
+      "loss": 0.5656,
       "step": 850
     },
     {
       "epoch": 2.0476190476190474,
+      "grad_norm": 0.5508213482577374,
       "learning_rate": 5e-06,
+      "loss": 0.5557,
       "step": 860
     },
     {
       "epoch": 2.0714285714285716,
+      "grad_norm": 0.5665189426466252,
       "learning_rate": 5e-06,
+      "loss": 0.5617,
       "step": 870
     },
     {
       "epoch": 2.0952380952380953,
+      "grad_norm": 0.5708719211761654,
       "learning_rate": 5e-06,
+      "loss": 0.5629,
       "step": 880
     },
     {
       "epoch": 2.119047619047619,
+      "grad_norm": 0.585919720488859,
       "learning_rate": 5e-06,
+      "loss": 0.5592,
       "step": 890
     },
     {
       "epoch": 2.142857142857143,
+      "grad_norm": 0.512641311308892,
       "learning_rate": 5e-06,
+      "loss": 0.5645,
       "step": 900
     },
     {
       "epoch": 2.1666666666666665,
+      "grad_norm": 0.5448411844682196,
       "learning_rate": 5e-06,
+      "loss": 0.5644,
       "step": 910
     },
     {
       "epoch": 2.1904761904761907,
+      "grad_norm": 0.6240052214528613,
       "learning_rate": 5e-06,
+      "loss": 0.5643,
       "step": 920
     },
     {
       "epoch": 2.2142857142857144,
+      "grad_norm": 0.5089889720545453,
       "learning_rate": 5e-06,
+      "loss": 0.5628,
       "step": 930
     },
     {
       "epoch": 2.238095238095238,
+      "grad_norm": 0.4392590521750202,
       "learning_rate": 5e-06,
+      "loss": 0.5659,
       "step": 940
     },
     {
       "epoch": 2.261904761904762,
+      "grad_norm": 0.4848503543872302,
       "learning_rate": 5e-06,
+      "loss": 0.5755,
       "step": 950
     },
     {
       "epoch": 2.2857142857142856,
+      "grad_norm": 0.6304825214497957,
       "learning_rate": 5e-06,
+      "loss": 0.564,
       "step": 960
     },
     {
       "epoch": 2.3095238095238093,
+      "grad_norm": 0.5022963193078647,
       "learning_rate": 5e-06,
+      "loss": 0.5548,
       "step": 970
     },
     {
       "epoch": 2.3333333333333335,
+      "grad_norm": 0.5369612472077095,
       "learning_rate": 5e-06,
+      "loss": 0.5625,
       "step": 980
     },
     {
       "epoch": 2.357142857142857,
+      "grad_norm": 0.4759917866765363,
       "learning_rate": 5e-06,
+      "loss": 0.5708,
       "step": 990
     },
     {
       "epoch": 2.380952380952381,
+      "grad_norm": 0.6016766885366513,
       "learning_rate": 5e-06,
+      "loss": 0.5689,
       "step": 1000
     },
     {
       "epoch": 2.4047619047619047,
+      "grad_norm": 0.5307133776111298,
       "learning_rate": 5e-06,
+      "loss": 0.5744,
       "step": 1010
     },
     {
       "epoch": 2.4285714285714284,
+      "grad_norm": 0.5106189519040727,
       "learning_rate": 5e-06,
+      "loss": 0.5701,
       "step": 1020
     },
     {
       "epoch": 2.4523809523809526,
+      "grad_norm": 0.5120395251477051,
       "learning_rate": 5e-06,
+      "loss": 0.5674,
       "step": 1030
     },
     {
       "epoch": 2.4761904761904763,
+      "grad_norm": 0.5360273318914704,
       "learning_rate": 5e-06,
+      "loss": 0.5712,
       "step": 1040
     },
     {
       "epoch": 2.5,
+      "grad_norm": 0.567087734254625,
       "learning_rate": 5e-06,
+      "loss": 0.5681,
       "step": 1050
     },
     {
       "epoch": 2.5238095238095237,
+      "grad_norm": 0.4786686531657179,
       "learning_rate": 5e-06,
+      "loss": 0.5689,
       "step": 1060
     },
     {
       "epoch": 2.5476190476190474,
+      "grad_norm": 0.6357185519881481,
       "learning_rate": 5e-06,
+      "loss": 0.5695,
       "step": 1070
     },
     {
       "epoch": 2.571428571428571,
+      "grad_norm": 0.5407397510648377,
       "learning_rate": 5e-06,
+      "loss": 0.5629,
       "step": 1080
     },
     {
       "epoch": 2.5952380952380953,
+      "grad_norm": 0.6222781368696665,
       "learning_rate": 5e-06,
+      "loss": 0.5724,
       "step": 1090
     },
     {
       "epoch": 2.619047619047619,
+      "grad_norm": 0.5165820385889532,
       "learning_rate": 5e-06,
+      "loss": 0.5655,
       "step": 1100
     },
     {
       "epoch": 2.642857142857143,
+      "grad_norm": 0.608766287830255,
       "learning_rate": 5e-06,
+      "loss": 0.5725,
       "step": 1110
     },
     {
       "epoch": 2.6666666666666665,
+      "grad_norm": 0.4594249383292841,
       "learning_rate": 5e-06,
+      "loss": 0.5684,
       "step": 1120
     },
     {
       "epoch": 2.6904761904761907,
+      "grad_norm": 0.4874560641150811,
       "learning_rate": 5e-06,
+      "loss": 0.5662,
       "step": 1130
     },
     {
       "epoch": 2.7142857142857144,
+      "grad_norm": 0.4712693165037158,
       "learning_rate": 5e-06,
+      "loss": 0.5687,
       "step": 1140
     },
     {
       "epoch": 2.738095238095238,
+      "grad_norm": 0.45012903888687444,
       "learning_rate": 5e-06,
+      "loss": 0.5706,
       "step": 1150
     },
     {
       "epoch": 2.761904761904762,
+      "grad_norm": 0.5496212836763024,
       "learning_rate": 5e-06,
+      "loss": 0.5708,
       "step": 1160
     },
     {
       "epoch": 2.7857142857142856,
+      "grad_norm": 0.46476871854434104,
       "learning_rate": 5e-06,
+      "loss": 0.5649,
       "step": 1170
     },
     {
       "epoch": 2.8095238095238093,
+      "grad_norm": 0.49154119108233535,
       "learning_rate": 5e-06,
+      "loss": 0.5673,
       "step": 1180
     },
     {
       "epoch": 2.8333333333333335,
+      "grad_norm": 0.658009656544454,
       "learning_rate": 5e-06,
+      "loss": 0.5731,
       "step": 1190
     },
     {
       "epoch": 2.857142857142857,
+      "grad_norm": 0.587948539981229,
       "learning_rate": 5e-06,
+      "loss": 0.5739,
       "step": 1200
     },
     {
       "epoch": 2.880952380952381,
+      "grad_norm": 0.4564005311443965,
       "learning_rate": 5e-06,
+      "loss": 0.5709,
       "step": 1210
     },
     {
       "epoch": 2.9047619047619047,
+      "grad_norm": 0.4778927219605842,
       "learning_rate": 5e-06,
+      "loss": 0.5571,
       "step": 1220
     },
     {
       "epoch": 2.928571428571429,
+      "grad_norm": 0.45838251308426436,
       "learning_rate": 5e-06,
+      "loss": 0.5665,
       "step": 1230
     },
     {
       "epoch": 2.9523809523809526,
+      "grad_norm": 0.5496247257686689,
       "learning_rate": 5e-06,
+      "loss": 0.5649,
       "step": 1240
     },
     {
       "epoch": 2.9761904761904763,
+      "grad_norm": 0.4480068307641731,
       "learning_rate": 5e-06,
+      "loss": 0.5728,
       "step": 1250
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.5038304772459032,
       "learning_rate": 5e-06,
+      "loss": 0.5729,
       "step": 1260
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.64065021276474,
+      "eval_runtime": 227.2124,
+      "eval_samples_per_second": 49.804,
       "eval_steps_per_second": 0.392,
       "step": 1260
     },
       "epoch": 3.0,
       "step": 1260,
       "total_flos": 2110128169943040.0,
+      "train_loss": 0.6183440295476762,
+      "train_runtime": 37778.6065,
+      "train_samples_per_second": 17.072,
       "train_steps_per_second": 0.033
     }
   ],

training_eval_loss.png CHANGED Viewed

training_loss.png CHANGED Viewed