{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9998222222222222,
  "eval_steps": 5000,
  "global_step": 4218,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0023703703703703703,
      "grad_norm": 0.542885959148407,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 1.4997,
      "step": 10
    },
    {
      "epoch": 0.004740740740740741,
      "grad_norm": 0.44538265466690063,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 1.4925,
      "step": 20
    },
    {
      "epoch": 0.0071111111111111115,
      "grad_norm": 0.4945567548274994,
      "learning_rate": 3e-06,
      "loss": 1.4985,
      "step": 30
    },
    {
      "epoch": 0.009481481481481481,
      "grad_norm": 0.4560663402080536,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.4031,
      "step": 40
    },
    {
      "epoch": 0.011851851851851851,
      "grad_norm": 0.4691298007965088,
      "learning_rate": 5e-06,
      "loss": 1.4175,
      "step": 50
    },
    {
      "epoch": 0.014222222222222223,
      "grad_norm": 0.44202300906181335,
      "learning_rate": 6e-06,
      "loss": 1.4337,
      "step": 60
    },
    {
      "epoch": 0.016592592592592593,
      "grad_norm": 0.5069476366043091,
      "learning_rate": 7.000000000000001e-06,
      "loss": 1.4629,
      "step": 70
    },
    {
      "epoch": 0.018962962962962963,
      "grad_norm": 0.4806945025920868,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.5706,
      "step": 80
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 0.5269841551780701,
      "learning_rate": 9e-06,
      "loss": 1.5625,
      "step": 90
    },
    {
      "epoch": 0.023703703703703703,
      "grad_norm": 0.37831586599349976,
      "learning_rate": 1e-05,
      "loss": 1.4083,
      "step": 100
    },
    {
      "epoch": 0.026074074074074072,
      "grad_norm": 0.442981094121933,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 1.3799,
      "step": 110
    },
    {
      "epoch": 0.028444444444444446,
      "grad_norm": 0.47675761580467224,
      "learning_rate": 1.2e-05,
      "loss": 1.5356,
      "step": 120
    },
    {
      "epoch": 0.030814814814814816,
      "grad_norm": 0.5033993721008301,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 1.504,
      "step": 130
    },
    {
      "epoch": 0.033185185185185186,
      "grad_norm": 0.4628155827522278,
      "learning_rate": 1.4000000000000001e-05,
      "loss": 1.3474,
      "step": 140
    },
    {
      "epoch": 0.035555555555555556,
      "grad_norm": 0.41637757420539856,
      "learning_rate": 1.5e-05,
      "loss": 1.4352,
      "step": 150
    },
    {
      "epoch": 0.037925925925925925,
      "grad_norm": 0.5029244422912598,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 1.3224,
      "step": 160
    },
    {
      "epoch": 0.040296296296296295,
      "grad_norm": 0.6434731483459473,
      "learning_rate": 1.7000000000000003e-05,
      "loss": 1.5611,
      "step": 170
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 0.42424359917640686,
      "learning_rate": 1.8e-05,
      "loss": 1.4191,
      "step": 180
    },
    {
      "epoch": 0.045037037037037035,
      "grad_norm": 0.4729703962802887,
      "learning_rate": 1.9e-05,
      "loss": 1.3284,
      "step": 190
    },
    {
      "epoch": 0.047407407407407405,
      "grad_norm": 0.48806190490722656,
      "learning_rate": 2e-05,
      "loss": 1.48,
      "step": 200
    },
    {
      "epoch": 0.049777777777777775,
      "grad_norm": 0.4987320303916931,
      "learning_rate": 2.1e-05,
      "loss": 1.4535,
      "step": 210
    },
    {
      "epoch": 0.052148148148148145,
      "grad_norm": 0.46912866830825806,
      "learning_rate": 2.2000000000000003e-05,
      "loss": 1.4846,
      "step": 220
    },
    {
      "epoch": 0.05451851851851852,
      "grad_norm": 0.4369196593761444,
      "learning_rate": 2.3000000000000003e-05,
      "loss": 1.5564,
      "step": 230
    },
    {
      "epoch": 0.05688888888888889,
      "grad_norm": 0.48074963688850403,
      "learning_rate": 2.4e-05,
      "loss": 1.3142,
      "step": 240
    },
    {
      "epoch": 0.05925925925925926,
      "grad_norm": 0.450253427028656,
      "learning_rate": 2.5e-05,
      "loss": 1.3877,
      "step": 250
    },
    {
      "epoch": 0.06162962962962963,
      "grad_norm": 0.4517356753349304,
      "learning_rate": 2.6000000000000002e-05,
      "loss": 1.3969,
      "step": 260
    },
    {
      "epoch": 0.064,
      "grad_norm": 0.47781577706336975,
      "learning_rate": 2.7000000000000002e-05,
      "loss": 1.5352,
      "step": 270
    },
    {
      "epoch": 0.06637037037037037,
      "grad_norm": 0.5579633712768555,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 1.5436,
      "step": 280
    },
    {
      "epoch": 0.06874074074074074,
      "grad_norm": 0.4838034510612488,
      "learning_rate": 2.9e-05,
      "loss": 1.3564,
      "step": 290
    },
    {
      "epoch": 0.07111111111111111,
      "grad_norm": 0.5685828328132629,
      "learning_rate": 3e-05,
      "loss": 1.4429,
      "step": 300
    },
    {
      "epoch": 0.07348148148148148,
      "grad_norm": 0.5230541229248047,
      "learning_rate": 3.1e-05,
      "loss": 1.3933,
      "step": 310
    },
    {
      "epoch": 0.07585185185185185,
      "grad_norm": 0.45525529980659485,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 1.4224,
      "step": 320
    },
    {
      "epoch": 0.07822222222222222,
      "grad_norm": 0.47926583886146545,
      "learning_rate": 3.3e-05,
      "loss": 1.4466,
      "step": 330
    },
    {
      "epoch": 0.08059259259259259,
      "grad_norm": 0.38689500093460083,
      "learning_rate": 3.4000000000000007e-05,
      "loss": 1.5105,
      "step": 340
    },
    {
      "epoch": 0.08296296296296296,
      "grad_norm": 0.4488411843776703,
      "learning_rate": 3.5e-05,
      "loss": 1.3392,
      "step": 350
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 0.5381152033805847,
      "learning_rate": 3.6e-05,
      "loss": 1.375,
      "step": 360
    },
    {
      "epoch": 0.0877037037037037,
      "grad_norm": 0.5788478255271912,
      "learning_rate": 3.7e-05,
      "loss": 1.3522,
      "step": 370
    },
    {
      "epoch": 0.09007407407407407,
      "grad_norm": 0.501133143901825,
      "learning_rate": 3.8e-05,
      "loss": 1.3294,
      "step": 380
    },
    {
      "epoch": 0.09244444444444444,
      "grad_norm": 0.5300689935684204,
      "learning_rate": 3.9000000000000006e-05,
      "loss": 1.5623,
      "step": 390
    },
    {
      "epoch": 0.09481481481481481,
      "grad_norm": 0.5409078001976013,
      "learning_rate": 4e-05,
      "loss": 1.4098,
      "step": 400
    },
    {
      "epoch": 0.09718518518518518,
      "grad_norm": 0.5598166584968567,
      "learning_rate": 4.1e-05,
      "loss": 1.4104,
      "step": 410
    },
    {
      "epoch": 0.09955555555555555,
      "grad_norm": 0.5656659603118896,
      "learning_rate": 4.2e-05,
      "loss": 1.3782,
      "step": 420
    },
    {
      "epoch": 0.10192592592592592,
      "grad_norm": 0.5094364881515503,
      "learning_rate": 4.3e-05,
      "loss": 1.6233,
      "step": 430
    },
    {
      "epoch": 0.10429629629629629,
      "grad_norm": 0.5540050268173218,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 1.512,
      "step": 440
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.5693063139915466,
      "learning_rate": 4.5e-05,
      "loss": 1.641,
      "step": 450
    },
    {
      "epoch": 0.10903703703703704,
      "grad_norm": 0.5556958913803101,
      "learning_rate": 4.600000000000001e-05,
      "loss": 1.4532,
      "step": 460
    },
    {
      "epoch": 0.11140740740740741,
      "grad_norm": 0.5052928924560547,
      "learning_rate": 4.7e-05,
      "loss": 1.4863,
      "step": 470
    },
    {
      "epoch": 0.11377777777777778,
      "grad_norm": 0.5321051478385925,
      "learning_rate": 4.8e-05,
      "loss": 1.353,
      "step": 480
    },
    {
      "epoch": 0.11614814814814815,
      "grad_norm": 0.658074140548706,
      "learning_rate": 4.9e-05,
      "loss": 1.563,
      "step": 490
    },
    {
      "epoch": 0.11851851851851852,
      "grad_norm": 0.4817732870578766,
      "learning_rate": 5e-05,
      "loss": 1.5347,
      "step": 500
    },
    {
      "epoch": 0.12088888888888889,
      "grad_norm": 0.6876205801963806,
      "learning_rate": 4.9865519096288324e-05,
      "loss": 1.6524,
      "step": 510
    },
    {
      "epoch": 0.12325925925925926,
      "grad_norm": 0.5238626003265381,
      "learning_rate": 4.973103819257665e-05,
      "loss": 1.5766,
      "step": 520
    },
    {
      "epoch": 0.12562962962962962,
      "grad_norm": 0.4588116705417633,
      "learning_rate": 4.959655728886498e-05,
      "loss": 1.4258,
      "step": 530
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.529692530632019,
      "learning_rate": 4.946207638515331e-05,
      "loss": 1.5574,
      "step": 540
    },
    {
      "epoch": 0.13037037037037036,
      "grad_norm": 0.475524365901947,
      "learning_rate": 4.932759548144163e-05,
      "loss": 1.377,
      "step": 550
    },
    {
      "epoch": 0.13274074074074074,
      "grad_norm": 0.48722413182258606,
      "learning_rate": 4.919311457772996e-05,
      "loss": 1.3156,
      "step": 560
    },
    {
      "epoch": 0.1351111111111111,
      "grad_norm": 0.6309683322906494,
      "learning_rate": 4.905863367401829e-05,
      "loss": 1.5581,
      "step": 570
    },
    {
      "epoch": 0.13748148148148148,
      "grad_norm": 0.5029247999191284,
      "learning_rate": 4.892415277030662e-05,
      "loss": 1.5968,
      "step": 580
    },
    {
      "epoch": 0.13985185185185184,
      "grad_norm": 0.421310156583786,
      "learning_rate": 4.878967186659494e-05,
      "loss": 1.4881,
      "step": 590
    },
    {
      "epoch": 0.14222222222222222,
      "grad_norm": 0.5082572102546692,
      "learning_rate": 4.865519096288327e-05,
      "loss": 1.6574,
      "step": 600
    },
    {
      "epoch": 0.1445925925925926,
      "grad_norm": 0.5082793235778809,
      "learning_rate": 4.85207100591716e-05,
      "loss": 1.3606,
      "step": 610
    },
    {
      "epoch": 0.14696296296296296,
      "grad_norm": 0.5169036388397217,
      "learning_rate": 4.838622915545993e-05,
      "loss": 1.4457,
      "step": 620
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 0.5509771704673767,
      "learning_rate": 4.825174825174825e-05,
      "loss": 1.4754,
      "step": 630
    },
    {
      "epoch": 0.1517037037037037,
      "grad_norm": 0.630851149559021,
      "learning_rate": 4.811726734803658e-05,
      "loss": 1.5453,
      "step": 640
    },
    {
      "epoch": 0.15407407407407409,
      "grad_norm": 0.5343595147132874,
      "learning_rate": 4.798278644432491e-05,
      "loss": 1.4822,
      "step": 650
    },
    {
      "epoch": 0.15644444444444444,
      "grad_norm": 0.5070016980171204,
      "learning_rate": 4.7848305540613237e-05,
      "loss": 1.3835,
      "step": 660
    },
    {
      "epoch": 0.15881481481481483,
      "grad_norm": 0.6097332835197449,
      "learning_rate": 4.771382463690156e-05,
      "loss": 1.546,
      "step": 670
    },
    {
      "epoch": 0.16118518518518518,
      "grad_norm": 0.5894319415092468,
      "learning_rate": 4.757934373318989e-05,
      "loss": 1.3605,
      "step": 680
    },
    {
      "epoch": 0.16355555555555557,
      "grad_norm": 0.4879942238330841,
      "learning_rate": 4.7444862829478216e-05,
      "loss": 1.4391,
      "step": 690
    },
    {
      "epoch": 0.16592592592592592,
      "grad_norm": 0.49390801787376404,
      "learning_rate": 4.7310381925766545e-05,
      "loss": 1.2228,
      "step": 700
    },
    {
      "epoch": 0.1682962962962963,
      "grad_norm": 0.6193021535873413,
      "learning_rate": 4.717590102205487e-05,
      "loss": 1.7474,
      "step": 710
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 0.4410654604434967,
      "learning_rate": 4.7041420118343196e-05,
      "loss": 1.4255,
      "step": 720
    },
    {
      "epoch": 0.17303703703703704,
      "grad_norm": 0.5690642595291138,
      "learning_rate": 4.6906939214631525e-05,
      "loss": 1.4252,
      "step": 730
    },
    {
      "epoch": 0.1754074074074074,
      "grad_norm": 0.4561966359615326,
      "learning_rate": 4.6772458310919854e-05,
      "loss": 1.4214,
      "step": 740
    },
    {
      "epoch": 0.17777777777777778,
      "grad_norm": 0.5871363282203674,
      "learning_rate": 4.6637977407208176e-05,
      "loss": 1.5272,
      "step": 750
    },
    {
      "epoch": 0.18014814814814814,
      "grad_norm": 0.5293774604797363,
      "learning_rate": 4.6503496503496505e-05,
      "loss": 1.5507,
      "step": 760
    },
    {
      "epoch": 0.18251851851851852,
      "grad_norm": 0.483826220035553,
      "learning_rate": 4.636901559978483e-05,
      "loss": 1.4058,
      "step": 770
    },
    {
      "epoch": 0.18488888888888888,
      "grad_norm": 0.551902174949646,
      "learning_rate": 4.623453469607316e-05,
      "loss": 1.3707,
      "step": 780
    },
    {
      "epoch": 0.18725925925925926,
      "grad_norm": 0.5492023825645447,
      "learning_rate": 4.6100053792361484e-05,
      "loss": 1.4901,
      "step": 790
    },
    {
      "epoch": 0.18962962962962962,
      "grad_norm": 0.5409772396087646,
      "learning_rate": 4.596557288864981e-05,
      "loss": 1.6356,
      "step": 800
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.5469648838043213,
      "learning_rate": 4.583109198493814e-05,
      "loss": 1.4574,
      "step": 810
    },
    {
      "epoch": 0.19437037037037036,
      "grad_norm": 0.5523713827133179,
      "learning_rate": 4.569661108122647e-05,
      "loss": 1.5304,
      "step": 820
    },
    {
      "epoch": 0.19674074074074074,
      "grad_norm": 0.4884456992149353,
      "learning_rate": 4.556213017751479e-05,
      "loss": 1.4173,
      "step": 830
    },
    {
      "epoch": 0.1991111111111111,
      "grad_norm": 0.5865374803543091,
      "learning_rate": 4.542764927380312e-05,
      "loss": 1.4178,
      "step": 840
    },
    {
      "epoch": 0.20148148148148148,
      "grad_norm": 0.5571750402450562,
      "learning_rate": 4.529316837009145e-05,
      "loss": 1.5356,
      "step": 850
    },
    {
      "epoch": 0.20385185185185184,
      "grad_norm": 0.567616879940033,
      "learning_rate": 4.515868746637978e-05,
      "loss": 1.4496,
      "step": 860
    },
    {
      "epoch": 0.20622222222222222,
      "grad_norm": 0.5077497959136963,
      "learning_rate": 4.50242065626681e-05,
      "loss": 1.4757,
      "step": 870
    },
    {
      "epoch": 0.20859259259259258,
      "grad_norm": 0.5118802189826965,
      "learning_rate": 4.488972565895643e-05,
      "loss": 1.3845,
      "step": 880
    },
    {
      "epoch": 0.21096296296296296,
      "grad_norm": 0.43292248249053955,
      "learning_rate": 4.475524475524476e-05,
      "loss": 1.421,
      "step": 890
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 0.5365243554115295,
      "learning_rate": 4.462076385153308e-05,
      "loss": 1.4586,
      "step": 900
    },
    {
      "epoch": 0.2157037037037037,
      "grad_norm": 0.4912022054195404,
      "learning_rate": 4.448628294782141e-05,
      "loss": 1.5385,
      "step": 910
    },
    {
      "epoch": 0.2180740740740741,
      "grad_norm": 0.5855193734169006,
      "learning_rate": 4.435180204410974e-05,
      "loss": 1.5718,
      "step": 920
    },
    {
      "epoch": 0.22044444444444444,
      "grad_norm": 0.5224360227584839,
      "learning_rate": 4.421732114039807e-05,
      "loss": 1.3853,
      "step": 930
    },
    {
      "epoch": 0.22281481481481483,
      "grad_norm": 0.4283509850502014,
      "learning_rate": 4.408284023668639e-05,
      "loss": 1.3758,
      "step": 940
    },
    {
      "epoch": 0.22518518518518518,
      "grad_norm": 0.44806018471717834,
      "learning_rate": 4.394835933297472e-05,
      "loss": 1.4089,
      "step": 950
    },
    {
      "epoch": 0.22755555555555557,
      "grad_norm": 0.4234403967857361,
      "learning_rate": 4.381387842926305e-05,
      "loss": 1.321,
      "step": 960
    },
    {
      "epoch": 0.22992592592592592,
      "grad_norm": 0.45570847392082214,
      "learning_rate": 4.3679397525551376e-05,
      "loss": 1.384,
      "step": 970
    },
    {
      "epoch": 0.2322962962962963,
      "grad_norm": 0.6098482608795166,
      "learning_rate": 4.35449166218397e-05,
      "loss": 1.5165,
      "step": 980
    },
    {
      "epoch": 0.23466666666666666,
      "grad_norm": 0.47981974482536316,
      "learning_rate": 4.341043571812803e-05,
      "loss": 1.4827,
      "step": 990
    },
    {
      "epoch": 0.23703703703703705,
      "grad_norm": 0.567845344543457,
      "learning_rate": 4.3275954814416356e-05,
      "loss": 1.4494,
      "step": 1000
    },
    {
      "epoch": 0.2394074074074074,
      "grad_norm": 0.5508958697319031,
      "learning_rate": 4.3141473910704685e-05,
      "loss": 1.5681,
      "step": 1010
    },
    {
      "epoch": 0.24177777777777779,
      "grad_norm": 0.6119508743286133,
      "learning_rate": 4.300699300699301e-05,
      "loss": 1.4522,
      "step": 1020
    },
    {
      "epoch": 0.24414814814814814,
      "grad_norm": 0.654909074306488,
      "learning_rate": 4.2872512103281336e-05,
      "loss": 1.6317,
      "step": 1030
    },
    {
      "epoch": 0.24651851851851853,
      "grad_norm": 0.5818801522254944,
      "learning_rate": 4.2738031199569664e-05,
      "loss": 1.4917,
      "step": 1040
    },
    {
      "epoch": 0.24888888888888888,
      "grad_norm": 0.5295186638832092,
      "learning_rate": 4.260355029585799e-05,
      "loss": 1.6393,
      "step": 1050
    },
    {
      "epoch": 0.25125925925925924,
      "grad_norm": 0.5558478832244873,
      "learning_rate": 4.2469069392146315e-05,
      "loss": 1.5607,
      "step": 1060
    },
    {
      "epoch": 0.25362962962962965,
      "grad_norm": 0.5266067385673523,
      "learning_rate": 4.2334588488434644e-05,
      "loss": 1.4366,
      "step": 1070
    },
    {
      "epoch": 0.256,
      "grad_norm": 0.4949641823768616,
      "learning_rate": 4.220010758472297e-05,
      "loss": 1.4392,
      "step": 1080
    },
    {
      "epoch": 0.25837037037037036,
      "grad_norm": 0.48148399591445923,
      "learning_rate": 4.20656266810113e-05,
      "loss": 1.5301,
      "step": 1090
    },
    {
      "epoch": 0.2607407407407407,
      "grad_norm": 0.5564059615135193,
      "learning_rate": 4.1931145777299624e-05,
      "loss": 1.3645,
      "step": 1100
    },
    {
      "epoch": 0.26311111111111113,
      "grad_norm": 0.6419994235038757,
      "learning_rate": 4.179666487358795e-05,
      "loss": 1.4543,
      "step": 1110
    },
    {
      "epoch": 0.2654814814814815,
      "grad_norm": 0.5205827355384827,
      "learning_rate": 4.166218396987628e-05,
      "loss": 1.5358,
      "step": 1120
    },
    {
      "epoch": 0.26785185185185184,
      "grad_norm": 0.45430988073349,
      "learning_rate": 4.152770306616461e-05,
      "loss": 1.5483,
      "step": 1130
    },
    {
      "epoch": 0.2702222222222222,
      "grad_norm": 0.5467645525932312,
      "learning_rate": 4.139322216245293e-05,
      "loss": 1.4702,
      "step": 1140
    },
    {
      "epoch": 0.2725925925925926,
      "grad_norm": 0.47259363532066345,
      "learning_rate": 4.125874125874126e-05,
      "loss": 1.451,
      "step": 1150
    },
    {
      "epoch": 0.27496296296296296,
      "grad_norm": 0.48951438069343567,
      "learning_rate": 4.112426035502959e-05,
      "loss": 1.4095,
      "step": 1160
    },
    {
      "epoch": 0.2773333333333333,
      "grad_norm": 0.601701021194458,
      "learning_rate": 4.098977945131792e-05,
      "loss": 1.6848,
      "step": 1170
    },
    {
      "epoch": 0.2797037037037037,
      "grad_norm": 0.5379857420921326,
      "learning_rate": 4.085529854760624e-05,
      "loss": 1.3598,
      "step": 1180
    },
    {
      "epoch": 0.2820740740740741,
      "grad_norm": 0.6498066186904907,
      "learning_rate": 4.072081764389457e-05,
      "loss": 1.4655,
      "step": 1190
    },
    {
      "epoch": 0.28444444444444444,
      "grad_norm": 0.5294344425201416,
      "learning_rate": 4.05863367401829e-05,
      "loss": 1.3851,
      "step": 1200
    },
    {
      "epoch": 0.2868148148148148,
      "grad_norm": 0.5410310626029968,
      "learning_rate": 4.045185583647123e-05,
      "loss": 1.5091,
      "step": 1210
    },
    {
      "epoch": 0.2891851851851852,
      "grad_norm": 0.5395278334617615,
      "learning_rate": 4.031737493275955e-05,
      "loss": 1.3487,
      "step": 1220
    },
    {
      "epoch": 0.29155555555555557,
      "grad_norm": 0.637909471988678,
      "learning_rate": 4.018289402904788e-05,
      "loss": 1.5848,
      "step": 1230
    },
    {
      "epoch": 0.2939259259259259,
      "grad_norm": 0.4254130721092224,
      "learning_rate": 4.004841312533621e-05,
      "loss": 1.4186,
      "step": 1240
    },
    {
      "epoch": 0.2962962962962963,
      "grad_norm": 0.5799821019172668,
      "learning_rate": 3.9913932221624536e-05,
      "loss": 1.4289,
      "step": 1250
    },
    {
      "epoch": 0.2986666666666667,
      "grad_norm": 0.43250229954719543,
      "learning_rate": 3.977945131791286e-05,
      "loss": 1.5458,
      "step": 1260
    },
    {
      "epoch": 0.30103703703703705,
      "grad_norm": 0.4722803831100464,
      "learning_rate": 3.964497041420119e-05,
      "loss": 1.4716,
      "step": 1270
    },
    {
      "epoch": 0.3034074074074074,
      "grad_norm": 0.5686700940132141,
      "learning_rate": 3.9510489510489516e-05,
      "loss": 1.6452,
      "step": 1280
    },
    {
      "epoch": 0.30577777777777776,
      "grad_norm": 0.493028461933136,
      "learning_rate": 3.9376008606777844e-05,
      "loss": 1.4516,
      "step": 1290
    },
    {
      "epoch": 0.30814814814814817,
      "grad_norm": 0.5100602507591248,
      "learning_rate": 3.9241527703066166e-05,
      "loss": 1.3366,
      "step": 1300
    },
    {
      "epoch": 0.3105185185185185,
      "grad_norm": 0.6535771489143372,
      "learning_rate": 3.910704679935449e-05,
      "loss": 1.4312,
      "step": 1310
    },
    {
      "epoch": 0.3128888888888889,
      "grad_norm": 0.48823079466819763,
      "learning_rate": 3.8972565895642824e-05,
      "loss": 1.4888,
      "step": 1320
    },
    {
      "epoch": 0.31525925925925924,
      "grad_norm": 0.4459994435310364,
      "learning_rate": 3.8838084991931146e-05,
      "loss": 1.4637,
      "step": 1330
    },
    {
      "epoch": 0.31762962962962965,
      "grad_norm": 0.5344628691673279,
      "learning_rate": 3.8703604088219475e-05,
      "loss": 1.6118,
      "step": 1340
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.44893643260002136,
      "learning_rate": 3.85691231845078e-05,
      "loss": 1.4521,
      "step": 1350
    },
    {
      "epoch": 0.32237037037037036,
      "grad_norm": 0.4381811022758484,
      "learning_rate": 3.8434642280796126e-05,
      "loss": 1.5751,
      "step": 1360
    },
    {
      "epoch": 0.3247407407407407,
      "grad_norm": 0.5791207551956177,
      "learning_rate": 3.8300161377084455e-05,
      "loss": 1.5563,
      "step": 1370
    },
    {
      "epoch": 0.32711111111111113,
      "grad_norm": 0.5584151148796082,
      "learning_rate": 3.8165680473372784e-05,
      "loss": 1.3673,
      "step": 1380
    },
    {
      "epoch": 0.3294814814814815,
      "grad_norm": 0.6110686659812927,
      "learning_rate": 3.8031199569661106e-05,
      "loss": 1.5949,
      "step": 1390
    },
    {
      "epoch": 0.33185185185185184,
      "grad_norm": 0.5519852638244629,
      "learning_rate": 3.7896718665949434e-05,
      "loss": 1.5133,
      "step": 1400
    },
    {
      "epoch": 0.3342222222222222,
      "grad_norm": 0.5732788443565369,
      "learning_rate": 3.776223776223776e-05,
      "loss": 1.4601,
      "step": 1410
    },
    {
      "epoch": 0.3365925925925926,
      "grad_norm": 0.5789920091629028,
      "learning_rate": 3.762775685852609e-05,
      "loss": 1.6461,
      "step": 1420
    },
    {
      "epoch": 0.33896296296296297,
      "grad_norm": 0.592776358127594,
      "learning_rate": 3.7493275954814414e-05,
      "loss": 1.5558,
      "step": 1430
    },
    {
      "epoch": 0.3413333333333333,
      "grad_norm": 0.5435842871665955,
      "learning_rate": 3.735879505110274e-05,
      "loss": 1.5095,
      "step": 1440
    },
    {
      "epoch": 0.3437037037037037,
      "grad_norm": 0.6474444270133972,
      "learning_rate": 3.722431414739107e-05,
      "loss": 1.429,
      "step": 1450
    },
    {
      "epoch": 0.3460740740740741,
      "grad_norm": 0.4926964342594147,
      "learning_rate": 3.70898332436794e-05,
      "loss": 1.4543,
      "step": 1460
    },
    {
      "epoch": 0.34844444444444445,
      "grad_norm": 0.5748719573020935,
      "learning_rate": 3.695535233996772e-05,
      "loss": 1.5844,
      "step": 1470
    },
    {
      "epoch": 0.3508148148148148,
      "grad_norm": 0.5535377264022827,
      "learning_rate": 3.682087143625605e-05,
      "loss": 1.5348,
      "step": 1480
    },
    {
      "epoch": 0.35318518518518516,
      "grad_norm": 0.4644632339477539,
      "learning_rate": 3.668639053254438e-05,
      "loss": 1.3157,
      "step": 1490
    },
    {
      "epoch": 0.35555555555555557,
      "grad_norm": 0.5858569145202637,
      "learning_rate": 3.655190962883271e-05,
      "loss": 1.4678,
      "step": 1500
    },
    {
      "epoch": 0.3579259259259259,
      "grad_norm": 0.5428529381752014,
      "learning_rate": 3.641742872512103e-05,
      "loss": 1.5561,
      "step": 1510
    },
    {
      "epoch": 0.3602962962962963,
      "grad_norm": 0.5255948901176453,
      "learning_rate": 3.628294782140936e-05,
      "loss": 1.5802,
      "step": 1520
    },
    {
      "epoch": 0.3626666666666667,
      "grad_norm": 0.534137487411499,
      "learning_rate": 3.614846691769769e-05,
      "loss": 1.5142,
      "step": 1530
    },
    {
      "epoch": 0.36503703703703705,
      "grad_norm": 0.5558648705482483,
      "learning_rate": 3.601398601398602e-05,
      "loss": 1.5613,
      "step": 1540
    },
    {
      "epoch": 0.3674074074074074,
      "grad_norm": 0.5890410542488098,
      "learning_rate": 3.587950511027434e-05,
      "loss": 1.4679,
      "step": 1550
    },
    {
      "epoch": 0.36977777777777776,
      "grad_norm": 0.4830753803253174,
      "learning_rate": 3.574502420656267e-05,
      "loss": 1.4698,
      "step": 1560
    },
    {
      "epoch": 0.3721481481481482,
      "grad_norm": 0.5191047787666321,
      "learning_rate": 3.5610543302851e-05,
      "loss": 1.528,
      "step": 1570
    },
    {
      "epoch": 0.37451851851851853,
      "grad_norm": 0.5316727161407471,
      "learning_rate": 3.5476062399139326e-05,
      "loss": 1.4427,
      "step": 1580
    },
    {
      "epoch": 0.3768888888888889,
      "grad_norm": 0.553815484046936,
      "learning_rate": 3.534158149542765e-05,
      "loss": 1.548,
      "step": 1590
    },
    {
      "epoch": 0.37925925925925924,
      "grad_norm": 0.47779569029808044,
      "learning_rate": 3.520710059171598e-05,
      "loss": 1.4533,
      "step": 1600
    },
    {
      "epoch": 0.38162962962962965,
      "grad_norm": 0.5595371127128601,
      "learning_rate": 3.5072619688004306e-05,
      "loss": 1.4503,
      "step": 1610
    },
    {
      "epoch": 0.384,
      "grad_norm": 0.5166143774986267,
      "learning_rate": 3.4938138784292635e-05,
      "loss": 1.3783,
      "step": 1620
    },
    {
      "epoch": 0.38637037037037036,
      "grad_norm": 0.6249716877937317,
      "learning_rate": 3.480365788058096e-05,
      "loss": 1.4494,
      "step": 1630
    },
    {
      "epoch": 0.3887407407407407,
      "grad_norm": 0.484937846660614,
      "learning_rate": 3.4669176976869286e-05,
      "loss": 1.421,
      "step": 1640
    },
    {
      "epoch": 0.39111111111111113,
      "grad_norm": 0.5464750528335571,
      "learning_rate": 3.4534696073157615e-05,
      "loss": 1.266,
      "step": 1650
    },
    {
      "epoch": 0.3934814814814815,
      "grad_norm": 0.48874956369400024,
      "learning_rate": 3.440021516944594e-05,
      "loss": 1.5355,
      "step": 1660
    },
    {
      "epoch": 0.39585185185185184,
      "grad_norm": 0.47555652260780334,
      "learning_rate": 3.4265734265734265e-05,
      "loss": 1.5799,
      "step": 1670
    },
    {
      "epoch": 0.3982222222222222,
      "grad_norm": 0.49769505858421326,
      "learning_rate": 3.4131253362022594e-05,
      "loss": 1.3748,
      "step": 1680
    },
    {
      "epoch": 0.4005925925925926,
      "grad_norm": 0.4664982259273529,
      "learning_rate": 3.399677245831092e-05,
      "loss": 1.4894,
      "step": 1690
    },
    {
      "epoch": 0.40296296296296297,
      "grad_norm": 0.5216518044471741,
      "learning_rate": 3.3862291554599245e-05,
      "loss": 1.4645,
      "step": 1700
    },
    {
      "epoch": 0.4053333333333333,
      "grad_norm": 0.6157680749893188,
      "learning_rate": 3.3727810650887574e-05,
      "loss": 1.4002,
      "step": 1710
    },
    {
      "epoch": 0.4077037037037037,
      "grad_norm": 0.5828937888145447,
      "learning_rate": 3.35933297471759e-05,
      "loss": 1.4816,
      "step": 1720
    },
    {
      "epoch": 0.4100740740740741,
      "grad_norm": 0.5792407989501953,
      "learning_rate": 3.345884884346423e-05,
      "loss": 1.3557,
      "step": 1730
    },
    {
      "epoch": 0.41244444444444445,
      "grad_norm": 0.4985092580318451,
      "learning_rate": 3.3324367939752554e-05,
      "loss": 1.4572,
      "step": 1740
    },
    {
      "epoch": 0.4148148148148148,
      "grad_norm": 0.5901199579238892,
      "learning_rate": 3.318988703604088e-05,
      "loss": 1.5292,
      "step": 1750
    },
    {
      "epoch": 0.41718518518518516,
      "grad_norm": 0.5087295174598694,
      "learning_rate": 3.305540613232921e-05,
      "loss": 1.3405,
      "step": 1760
    },
    {
      "epoch": 0.41955555555555557,
      "grad_norm": 0.5455463528633118,
      "learning_rate": 3.292092522861754e-05,
      "loss": 1.4262,
      "step": 1770
    },
    {
      "epoch": 0.4219259259259259,
      "grad_norm": 0.46563345193862915,
      "learning_rate": 3.278644432490586e-05,
      "loss": 1.4328,
      "step": 1780
    },
    {
      "epoch": 0.4242962962962963,
      "grad_norm": 0.545524537563324,
      "learning_rate": 3.265196342119419e-05,
      "loss": 1.4826,
      "step": 1790
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 0.4182009994983673,
      "learning_rate": 3.251748251748252e-05,
      "loss": 1.4909,
      "step": 1800
    },
    {
      "epoch": 0.42903703703703705,
      "grad_norm": 0.39127054810523987,
      "learning_rate": 3.238300161377085e-05,
      "loss": 1.4389,
      "step": 1810
    },
    {
      "epoch": 0.4314074074074074,
      "grad_norm": 0.46866652369499207,
      "learning_rate": 3.224852071005917e-05,
      "loss": 1.3992,
      "step": 1820
    },
    {
      "epoch": 0.43377777777777776,
      "grad_norm": 0.5216823816299438,
      "learning_rate": 3.21140398063475e-05,
      "loss": 1.3525,
      "step": 1830
    },
    {
      "epoch": 0.4361481481481482,
      "grad_norm": 0.49909713864326477,
      "learning_rate": 3.197955890263583e-05,
      "loss": 1.5491,
      "step": 1840
    },
    {
      "epoch": 0.43851851851851853,
      "grad_norm": 0.4957892596721649,
      "learning_rate": 3.184507799892416e-05,
      "loss": 1.4723,
      "step": 1850
    },
    {
      "epoch": 0.4408888888888889,
      "grad_norm": 0.518822431564331,
      "learning_rate": 3.171059709521248e-05,
      "loss": 1.535,
      "step": 1860
    },
    {
      "epoch": 0.44325925925925924,
      "grad_norm": 0.6380564570426941,
      "learning_rate": 3.157611619150081e-05,
      "loss": 1.5652,
      "step": 1870
    },
    {
      "epoch": 0.44562962962962965,
      "grad_norm": 0.49906617403030396,
      "learning_rate": 3.144163528778914e-05,
      "loss": 1.3624,
      "step": 1880
    },
    {
      "epoch": 0.448,
      "grad_norm": 0.5234742760658264,
      "learning_rate": 3.1307154384077466e-05,
      "loss": 1.4192,
      "step": 1890
    },
    {
      "epoch": 0.45037037037037037,
      "grad_norm": 0.5430870056152344,
      "learning_rate": 3.117267348036579e-05,
      "loss": 1.4674,
      "step": 1900
    },
    {
      "epoch": 0.4527407407407407,
      "grad_norm": 0.5488291382789612,
      "learning_rate": 3.103819257665412e-05,
      "loss": 1.4759,
      "step": 1910
    },
    {
      "epoch": 0.45511111111111113,
      "grad_norm": 0.4655541181564331,
      "learning_rate": 3.0903711672942446e-05,
      "loss": 1.4559,
      "step": 1920
    },
    {
      "epoch": 0.4574814814814815,
      "grad_norm": 0.442128449678421,
      "learning_rate": 3.0769230769230774e-05,
      "loss": 1.3129,
      "step": 1930
    },
    {
      "epoch": 0.45985185185185184,
      "grad_norm": 0.5909174084663391,
      "learning_rate": 3.0634749865519096e-05,
      "loss": 1.5915,
      "step": 1940
    },
    {
      "epoch": 0.4622222222222222,
      "grad_norm": 0.41102078557014465,
      "learning_rate": 3.0500268961807425e-05,
      "loss": 1.3717,
      "step": 1950
    },
    {
      "epoch": 0.4645925925925926,
      "grad_norm": 0.5467662811279297,
      "learning_rate": 3.036578805809575e-05,
      "loss": 1.4838,
      "step": 1960
    },
    {
      "epoch": 0.46696296296296297,
      "grad_norm": 0.6555057764053345,
      "learning_rate": 3.023130715438408e-05,
      "loss": 1.4289,
      "step": 1970
    },
    {
      "epoch": 0.4693333333333333,
      "grad_norm": 0.4430755078792572,
      "learning_rate": 3.0096826250672405e-05,
      "loss": 1.5556,
      "step": 1980
    },
    {
      "epoch": 0.4717037037037037,
      "grad_norm": 0.48016276955604553,
      "learning_rate": 2.9962345346960734e-05,
      "loss": 1.5461,
      "step": 1990
    },
    {
      "epoch": 0.4740740740740741,
      "grad_norm": 0.5283887982368469,
      "learning_rate": 2.982786444324906e-05,
      "loss": 1.4598,
      "step": 2000
    },
    {
      "epoch": 0.47644444444444445,
      "grad_norm": 0.5336430668830872,
      "learning_rate": 2.9693383539537388e-05,
      "loss": 1.5837,
      "step": 2010
    },
    {
      "epoch": 0.4788148148148148,
      "grad_norm": 0.39814135432243347,
      "learning_rate": 2.9558902635825713e-05,
      "loss": 1.3496,
      "step": 2020
    },
    {
      "epoch": 0.48118518518518516,
      "grad_norm": 0.6095125079154968,
      "learning_rate": 2.9424421732114042e-05,
      "loss": 1.5925,
      "step": 2030
    },
    {
      "epoch": 0.48355555555555557,
      "grad_norm": 0.5880560874938965,
      "learning_rate": 2.9289940828402368e-05,
      "loss": 1.3603,
      "step": 2040
    },
    {
      "epoch": 0.48592592592592593,
      "grad_norm": 0.5470516085624695,
      "learning_rate": 2.9155459924690697e-05,
      "loss": 1.5022,
      "step": 2050
    },
    {
      "epoch": 0.4882962962962963,
      "grad_norm": 0.45742228627204895,
      "learning_rate": 2.9020979020979022e-05,
      "loss": 1.4699,
      "step": 2060
    },
    {
      "epoch": 0.49066666666666664,
      "grad_norm": 0.5314275622367859,
      "learning_rate": 2.888649811726735e-05,
      "loss": 1.5043,
      "step": 2070
    },
    {
      "epoch": 0.49303703703703705,
      "grad_norm": 0.5969755053520203,
      "learning_rate": 2.8752017213555676e-05,
      "loss": 1.4709,
      "step": 2080
    },
    {
      "epoch": 0.4954074074074074,
      "grad_norm": 0.5115885138511658,
      "learning_rate": 2.8617536309844002e-05,
      "loss": 1.4031,
      "step": 2090
    },
    {
      "epoch": 0.49777777777777776,
      "grad_norm": 0.5907914042472839,
      "learning_rate": 2.848305540613233e-05,
      "loss": 1.3509,
      "step": 2100
    },
    {
      "epoch": 0.5001481481481481,
      "grad_norm": 0.48430949449539185,
      "learning_rate": 2.8348574502420656e-05,
      "loss": 1.4393,
      "step": 2110
    },
    {
      "epoch": 0.5025185185185185,
      "grad_norm": 0.5502893328666687,
      "learning_rate": 2.8214093598708985e-05,
      "loss": 1.5571,
      "step": 2120
    },
    {
      "epoch": 0.5048888888888889,
      "grad_norm": 0.48268720507621765,
      "learning_rate": 2.807961269499731e-05,
      "loss": 1.3895,
      "step": 2130
    },
    {
      "epoch": 0.5072592592592593,
      "grad_norm": 0.6141895651817322,
      "learning_rate": 2.794513179128564e-05,
      "loss": 1.5278,
      "step": 2140
    },
    {
      "epoch": 0.5096296296296297,
      "grad_norm": 0.48447638750076294,
      "learning_rate": 2.7810650887573965e-05,
      "loss": 1.456,
      "step": 2150
    },
    {
      "epoch": 0.512,
      "grad_norm": 0.4536721408367157,
      "learning_rate": 2.7676169983862293e-05,
      "loss": 1.4259,
      "step": 2160
    },
    {
      "epoch": 0.5143703703703704,
      "grad_norm": 0.5519189238548279,
      "learning_rate": 2.754168908015062e-05,
      "loss": 1.508,
      "step": 2170
    },
    {
      "epoch": 0.5167407407407407,
      "grad_norm": 0.4641801416873932,
      "learning_rate": 2.7407208176438948e-05,
      "loss": 1.5087,
      "step": 2180
    },
    {
      "epoch": 0.5191111111111111,
      "grad_norm": 0.5566359162330627,
      "learning_rate": 2.7272727272727273e-05,
      "loss": 1.4994,
      "step": 2190
    },
    {
      "epoch": 0.5214814814814814,
      "grad_norm": 0.5316601991653442,
      "learning_rate": 2.7138246369015602e-05,
      "loss": 1.375,
      "step": 2200
    },
    {
      "epoch": 0.5238518518518519,
      "grad_norm": 0.545514702796936,
      "learning_rate": 2.7003765465303927e-05,
      "loss": 1.4449,
      "step": 2210
    },
    {
      "epoch": 0.5262222222222223,
      "grad_norm": 0.5452851057052612,
      "learning_rate": 2.6869284561592256e-05,
      "loss": 1.639,
      "step": 2220
    },
    {
      "epoch": 0.5285925925925926,
      "grad_norm": 0.5291896462440491,
      "learning_rate": 2.673480365788058e-05,
      "loss": 1.3638,
      "step": 2230
    },
    {
      "epoch": 0.530962962962963,
      "grad_norm": 0.4708302319049835,
      "learning_rate": 2.660032275416891e-05,
      "loss": 1.1973,
      "step": 2240
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.4936722218990326,
      "learning_rate": 2.6465841850457236e-05,
      "loss": 1.543,
      "step": 2250
    },
    {
      "epoch": 0.5357037037037037,
      "grad_norm": 0.5722488760948181,
      "learning_rate": 2.6331360946745565e-05,
      "loss": 1.531,
      "step": 2260
    },
    {
      "epoch": 0.538074074074074,
      "grad_norm": 0.5386027097702026,
      "learning_rate": 2.619688004303389e-05,
      "loss": 1.4335,
      "step": 2270
    },
    {
      "epoch": 0.5404444444444444,
      "grad_norm": 0.5803340673446655,
      "learning_rate": 2.606239913932222e-05,
      "loss": 1.4049,
      "step": 2280
    },
    {
      "epoch": 0.5428148148148149,
      "grad_norm": 0.3970150053501129,
      "learning_rate": 2.5927918235610544e-05,
      "loss": 1.3923,
      "step": 2290
    },
    {
      "epoch": 0.5451851851851852,
      "grad_norm": 0.45682525634765625,
      "learning_rate": 2.5793437331898873e-05,
      "loss": 1.4838,
      "step": 2300
    },
    {
      "epoch": 0.5475555555555556,
      "grad_norm": 0.5088069438934326,
      "learning_rate": 2.56589564281872e-05,
      "loss": 1.4416,
      "step": 2310
    },
    {
      "epoch": 0.5499259259259259,
      "grad_norm": 0.5557109713554382,
      "learning_rate": 2.5524475524475528e-05,
      "loss": 1.4099,
      "step": 2320
    },
    {
      "epoch": 0.5522962962962963,
      "grad_norm": 0.4954288601875305,
      "learning_rate": 2.5389994620763853e-05,
      "loss": 1.3828,
      "step": 2330
    },
    {
      "epoch": 0.5546666666666666,
      "grad_norm": 0.5320334434509277,
      "learning_rate": 2.5255513717052182e-05,
      "loss": 1.3686,
      "step": 2340
    },
    {
      "epoch": 0.557037037037037,
      "grad_norm": 0.511646032333374,
      "learning_rate": 2.5121032813340507e-05,
      "loss": 1.4752,
      "step": 2350
    },
    {
      "epoch": 0.5594074074074074,
      "grad_norm": 0.4852311909198761,
      "learning_rate": 2.4986551909628833e-05,
      "loss": 1.5352,
      "step": 2360
    },
    {
      "epoch": 0.5617777777777778,
      "grad_norm": 0.5558280944824219,
      "learning_rate": 2.485207100591716e-05,
      "loss": 1.3955,
      "step": 2370
    },
    {
      "epoch": 0.5641481481481482,
      "grad_norm": 0.5369210243225098,
      "learning_rate": 2.4717590102205487e-05,
      "loss": 1.4265,
      "step": 2380
    },
    {
      "epoch": 0.5665185185185185,
      "grad_norm": 0.5134137868881226,
      "learning_rate": 2.4583109198493816e-05,
      "loss": 1.3688,
      "step": 2390
    },
    {
      "epoch": 0.5688888888888889,
      "grad_norm": 0.47109952569007874,
      "learning_rate": 2.444862829478214e-05,
      "loss": 1.4207,
      "step": 2400
    },
    {
      "epoch": 0.5712592592592592,
      "grad_norm": 0.4982026517391205,
      "learning_rate": 2.431414739107047e-05,
      "loss": 1.4249,
      "step": 2410
    },
    {
      "epoch": 0.5736296296296296,
      "grad_norm": 0.5209967494010925,
      "learning_rate": 2.4179666487358796e-05,
      "loss": 1.4708,
      "step": 2420
    },
    {
      "epoch": 0.576,
      "grad_norm": 0.5762905478477478,
      "learning_rate": 2.4045185583647124e-05,
      "loss": 1.4194,
      "step": 2430
    },
    {
      "epoch": 0.5783703703703704,
      "grad_norm": 0.4918428659439087,
      "learning_rate": 2.391070467993545e-05,
      "loss": 1.6279,
      "step": 2440
    },
    {
      "epoch": 0.5807407407407408,
      "grad_norm": 0.5050658583641052,
      "learning_rate": 2.377622377622378e-05,
      "loss": 1.5029,
      "step": 2450
    },
    {
      "epoch": 0.5831111111111111,
      "grad_norm": 0.49715667963027954,
      "learning_rate": 2.3641742872512104e-05,
      "loss": 1.4228,
      "step": 2460
    },
    {
      "epoch": 0.5854814814814815,
      "grad_norm": 0.4800516664981842,
      "learning_rate": 2.3507261968800433e-05,
      "loss": 1.3595,
      "step": 2470
    },
    {
      "epoch": 0.5878518518518518,
      "grad_norm": 0.5617285966873169,
      "learning_rate": 2.337278106508876e-05,
      "loss": 1.5974,
      "step": 2480
    },
    {
      "epoch": 0.5902222222222222,
      "grad_norm": 0.5133258700370789,
      "learning_rate": 2.3238300161377087e-05,
      "loss": 1.4437,
      "step": 2490
    },
    {
      "epoch": 0.5925925925925926,
      "grad_norm": 0.5644205212593079,
      "learning_rate": 2.3103819257665413e-05,
      "loss": 1.4633,
      "step": 2500
    },
    {
      "epoch": 0.5949629629629629,
      "grad_norm": 0.5411229133605957,
      "learning_rate": 2.296933835395374e-05,
      "loss": 1.3376,
      "step": 2510
    },
    {
      "epoch": 0.5973333333333334,
      "grad_norm": 0.5555963516235352,
      "learning_rate": 2.2834857450242067e-05,
      "loss": 1.5361,
      "step": 2520
    },
    {
      "epoch": 0.5997037037037037,
      "grad_norm": 0.48606014251708984,
      "learning_rate": 2.2700376546530396e-05,
      "loss": 1.4386,
      "step": 2530
    },
    {
      "epoch": 0.6020740740740741,
      "grad_norm": 0.4902474582195282,
      "learning_rate": 2.256589564281872e-05,
      "loss": 1.4536,
      "step": 2540
    },
    {
      "epoch": 0.6044444444444445,
      "grad_norm": 0.5565341114997864,
      "learning_rate": 2.243141473910705e-05,
      "loss": 1.4801,
      "step": 2550
    },
    {
      "epoch": 0.6068148148148148,
      "grad_norm": 0.5383167862892151,
      "learning_rate": 2.2296933835395375e-05,
      "loss": 1.3528,
      "step": 2560
    },
    {
      "epoch": 0.6091851851851852,
      "grad_norm": 0.4610041379928589,
      "learning_rate": 2.2162452931683704e-05,
      "loss": 1.5063,
      "step": 2570
    },
    {
      "epoch": 0.6115555555555555,
      "grad_norm": 0.5119171142578125,
      "learning_rate": 2.202797202797203e-05,
      "loss": 1.4559,
      "step": 2580
    },
    {
      "epoch": 0.6139259259259259,
      "grad_norm": 0.46622559428215027,
      "learning_rate": 2.189349112426036e-05,
      "loss": 1.485,
      "step": 2590
    },
    {
      "epoch": 0.6162962962962963,
      "grad_norm": 0.5610603094100952,
      "learning_rate": 2.1759010220548684e-05,
      "loss": 1.3863,
      "step": 2600
    },
    {
      "epoch": 0.6186666666666667,
      "grad_norm": 0.5185586214065552,
      "learning_rate": 2.162452931683701e-05,
      "loss": 1.4574,
      "step": 2610
    },
    {
      "epoch": 0.621037037037037,
      "grad_norm": 0.5091121196746826,
      "learning_rate": 2.1490048413125338e-05,
      "loss": 1.3745,
      "step": 2620
    },
    {
      "epoch": 0.6234074074074074,
      "grad_norm": 0.39684295654296875,
      "learning_rate": 2.1355567509413664e-05,
      "loss": 1.5785,
      "step": 2630
    },
    {
      "epoch": 0.6257777777777778,
      "grad_norm": 0.5499323606491089,
      "learning_rate": 2.1221086605701993e-05,
      "loss": 1.4926,
      "step": 2640
    },
    {
      "epoch": 0.6281481481481481,
      "grad_norm": 0.448824942111969,
      "learning_rate": 2.1086605701990318e-05,
      "loss": 1.5199,
      "step": 2650
    },
    {
      "epoch": 0.6305185185185185,
      "grad_norm": 0.5647756457328796,
      "learning_rate": 2.0952124798278647e-05,
      "loss": 1.493,
      "step": 2660
    },
    {
      "epoch": 0.6328888888888888,
      "grad_norm": 0.5426878929138184,
      "learning_rate": 2.0817643894566972e-05,
      "loss": 1.4232,
      "step": 2670
    },
    {
      "epoch": 0.6352592592592593,
      "grad_norm": 0.5105384588241577,
      "learning_rate": 2.0683162990855298e-05,
      "loss": 1.5136,
      "step": 2680
    },
    {
      "epoch": 0.6376296296296297,
      "grad_norm": 0.5488259792327881,
      "learning_rate": 2.0548682087143627e-05,
      "loss": 1.4877,
      "step": 2690
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.47102248668670654,
      "learning_rate": 2.0414201183431952e-05,
      "loss": 1.2976,
      "step": 2700
    },
    {
      "epoch": 0.6423703703703704,
      "grad_norm": 0.4708435535430908,
      "learning_rate": 2.027972027972028e-05,
      "loss": 1.4773,
      "step": 2710
    },
    {
      "epoch": 0.6447407407407407,
      "grad_norm": 0.5073569416999817,
      "learning_rate": 2.0145239376008606e-05,
      "loss": 1.3551,
      "step": 2720
    },
    {
      "epoch": 0.6471111111111111,
      "grad_norm": 0.4934346377849579,
      "learning_rate": 2.0010758472296935e-05,
      "loss": 1.2423,
      "step": 2730
    },
    {
      "epoch": 0.6494814814814814,
      "grad_norm": 0.5030198097229004,
      "learning_rate": 1.987627756858526e-05,
      "loss": 1.4272,
      "step": 2740
    },
    {
      "epoch": 0.6518518518518519,
      "grad_norm": 0.4713825583457947,
      "learning_rate": 1.974179666487359e-05,
      "loss": 1.4898,
      "step": 2750
    },
    {
      "epoch": 0.6542222222222223,
      "grad_norm": 0.430649995803833,
      "learning_rate": 1.9607315761161915e-05,
      "loss": 1.3365,
      "step": 2760
    },
    {
      "epoch": 0.6565925925925926,
      "grad_norm": 0.58051598072052,
      "learning_rate": 1.9472834857450244e-05,
      "loss": 1.4567,
      "step": 2770
    },
    {
      "epoch": 0.658962962962963,
      "grad_norm": 0.46255138516426086,
      "learning_rate": 1.933835395373857e-05,
      "loss": 1.5205,
      "step": 2780
    },
    {
      "epoch": 0.6613333333333333,
      "grad_norm": 0.5674681663513184,
      "learning_rate": 1.9203873050026898e-05,
      "loss": 1.3594,
      "step": 2790
    },
    {
      "epoch": 0.6637037037037037,
      "grad_norm": 0.5063351392745972,
      "learning_rate": 1.9069392146315223e-05,
      "loss": 1.2901,
      "step": 2800
    },
    {
      "epoch": 0.666074074074074,
      "grad_norm": 0.4963226914405823,
      "learning_rate": 1.8934911242603552e-05,
      "loss": 1.4437,
      "step": 2810
    },
    {
      "epoch": 0.6684444444444444,
      "grad_norm": 0.5070900917053223,
      "learning_rate": 1.8800430338891878e-05,
      "loss": 1.376,
      "step": 2820
    },
    {
      "epoch": 0.6708148148148149,
      "grad_norm": 0.5724377036094666,
      "learning_rate": 1.8665949435180206e-05,
      "loss": 1.5226,
      "step": 2830
    },
    {
      "epoch": 0.6731851851851852,
      "grad_norm": 0.5261855125427246,
      "learning_rate": 1.8531468531468532e-05,
      "loss": 1.438,
      "step": 2840
    },
    {
      "epoch": 0.6755555555555556,
      "grad_norm": 0.5292350053787231,
      "learning_rate": 1.839698762775686e-05,
      "loss": 1.4071,
      "step": 2850
    },
    {
      "epoch": 0.6779259259259259,
      "grad_norm": 0.4596816301345825,
      "learning_rate": 1.8262506724045186e-05,
      "loss": 1.337,
      "step": 2860
    },
    {
      "epoch": 0.6802962962962963,
      "grad_norm": 0.5225928425788879,
      "learning_rate": 1.8128025820333515e-05,
      "loss": 1.4363,
      "step": 2870
    },
    {
      "epoch": 0.6826666666666666,
      "grad_norm": 0.49359938502311707,
      "learning_rate": 1.799354491662184e-05,
      "loss": 1.3388,
      "step": 2880
    },
    {
      "epoch": 0.685037037037037,
      "grad_norm": 0.5156022906303406,
      "learning_rate": 1.785906401291017e-05,
      "loss": 1.4515,
      "step": 2890
    },
    {
      "epoch": 0.6874074074074074,
      "grad_norm": 0.5047289133071899,
      "learning_rate": 1.7724583109198495e-05,
      "loss": 1.4584,
      "step": 2900
    },
    {
      "epoch": 0.6897777777777778,
      "grad_norm": 0.4975475072860718,
      "learning_rate": 1.7590102205486824e-05,
      "loss": 1.5042,
      "step": 2910
    },
    {
      "epoch": 0.6921481481481482,
      "grad_norm": 0.5997641086578369,
      "learning_rate": 1.745562130177515e-05,
      "loss": 1.5658,
      "step": 2920
    },
    {
      "epoch": 0.6945185185185185,
      "grad_norm": 0.5376483201980591,
      "learning_rate": 1.7321140398063478e-05,
      "loss": 1.3429,
      "step": 2930
    },
    {
      "epoch": 0.6968888888888889,
      "grad_norm": 0.4973870813846588,
      "learning_rate": 1.7186659494351803e-05,
      "loss": 1.4287,
      "step": 2940
    },
    {
      "epoch": 0.6992592592592592,
      "grad_norm": 0.5504077076911926,
      "learning_rate": 1.7052178590640132e-05,
      "loss": 1.5161,
      "step": 2950
    },
    {
      "epoch": 0.7016296296296296,
      "grad_norm": 0.4603710174560547,
      "learning_rate": 1.6917697686928457e-05,
      "loss": 1.463,
      "step": 2960
    },
    {
      "epoch": 0.704,
      "grad_norm": 0.5116856694221497,
      "learning_rate": 1.6783216783216786e-05,
      "loss": 1.3862,
      "step": 2970
    },
    {
      "epoch": 0.7063703703703703,
      "grad_norm": 0.49981990456581116,
      "learning_rate": 1.6648735879505112e-05,
      "loss": 1.4209,
      "step": 2980
    },
    {
      "epoch": 0.7087407407407408,
      "grad_norm": 0.5085658431053162,
      "learning_rate": 1.651425497579344e-05,
      "loss": 1.4031,
      "step": 2990
    },
    {
      "epoch": 0.7111111111111111,
      "grad_norm": 0.5499709844589233,
      "learning_rate": 1.6379774072081766e-05,
      "loss": 1.5093,
      "step": 3000
    },
    {
      "epoch": 0.7134814814814815,
      "grad_norm": 0.5997831225395203,
      "learning_rate": 1.6245293168370095e-05,
      "loss": 1.517,
      "step": 3010
    },
    {
      "epoch": 0.7158518518518519,
      "grad_norm": 0.5795171856880188,
      "learning_rate": 1.611081226465842e-05,
      "loss": 1.4279,
      "step": 3020
    },
    {
      "epoch": 0.7182222222222222,
      "grad_norm": 0.5227158069610596,
      "learning_rate": 1.5976331360946746e-05,
      "loss": 1.5101,
      "step": 3030
    },
    {
      "epoch": 0.7205925925925926,
      "grad_norm": 0.6352266669273376,
      "learning_rate": 1.5841850457235075e-05,
      "loss": 1.4849,
      "step": 3040
    },
    {
      "epoch": 0.7229629629629629,
      "grad_norm": 0.6044921278953552,
      "learning_rate": 1.57073695535234e-05,
      "loss": 1.5239,
      "step": 3050
    },
    {
      "epoch": 0.7253333333333334,
      "grad_norm": 0.4992562532424927,
      "learning_rate": 1.557288864981173e-05,
      "loss": 1.37,
      "step": 3060
    },
    {
      "epoch": 0.7277037037037037,
      "grad_norm": 0.5439409017562866,
      "learning_rate": 1.5438407746100054e-05,
      "loss": 1.3724,
      "step": 3070
    },
    {
      "epoch": 0.7300740740740741,
      "grad_norm": 0.5415698289871216,
      "learning_rate": 1.530392684238838e-05,
      "loss": 1.4562,
      "step": 3080
    },
    {
      "epoch": 0.7324444444444445,
      "grad_norm": 0.4034167230129242,
      "learning_rate": 1.5169445938676707e-05,
      "loss": 1.3212,
      "step": 3090
    },
    {
      "epoch": 0.7348148148148148,
      "grad_norm": 0.5307872891426086,
      "learning_rate": 1.5034965034965034e-05,
      "loss": 1.4165,
      "step": 3100
    },
    {
      "epoch": 0.7371851851851852,
      "grad_norm": 0.5271874666213989,
      "learning_rate": 1.4900484131253361e-05,
      "loss": 1.4077,
      "step": 3110
    },
    {
      "epoch": 0.7395555555555555,
      "grad_norm": 0.5995745658874512,
      "learning_rate": 1.4766003227541688e-05,
      "loss": 1.4732,
      "step": 3120
    },
    {
      "epoch": 0.7419259259259259,
      "grad_norm": 0.45358097553253174,
      "learning_rate": 1.4631522323830015e-05,
      "loss": 1.4083,
      "step": 3130
    },
    {
      "epoch": 0.7442962962962963,
      "grad_norm": 0.47864630818367004,
      "learning_rate": 1.4497041420118343e-05,
      "loss": 1.4363,
      "step": 3140
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 0.46107572317123413,
      "learning_rate": 1.436256051640667e-05,
      "loss": 1.5163,
      "step": 3150
    },
    {
      "epoch": 0.7490370370370371,
      "grad_norm": 0.5413241386413574,
      "learning_rate": 1.4228079612694997e-05,
      "loss": 1.3225,
      "step": 3160
    },
    {
      "epoch": 0.7514074074074074,
      "grad_norm": 0.4649742841720581,
      "learning_rate": 1.4093598708983324e-05,
      "loss": 1.4101,
      "step": 3170
    },
    {
      "epoch": 0.7537777777777778,
      "grad_norm": 0.5219136476516724,
      "learning_rate": 1.3959117805271651e-05,
      "loss": 1.4523,
      "step": 3180
    },
    {
      "epoch": 0.7561481481481481,
      "grad_norm": 0.5591155886650085,
      "learning_rate": 1.3824636901559978e-05,
      "loss": 1.5966,
      "step": 3190
    },
    {
      "epoch": 0.7585185185185185,
      "grad_norm": 0.5293004512786865,
      "learning_rate": 1.3690155997848305e-05,
      "loss": 1.4613,
      "step": 3200
    },
    {
      "epoch": 0.7608888888888888,
      "grad_norm": 0.46828821301460266,
      "learning_rate": 1.3555675094136632e-05,
      "loss": 1.5187,
      "step": 3210
    },
    {
      "epoch": 0.7632592592592593,
      "grad_norm": 0.4590572416782379,
      "learning_rate": 1.342119419042496e-05,
      "loss": 1.4418,
      "step": 3220
    },
    {
      "epoch": 0.7656296296296297,
      "grad_norm": 0.6020212769508362,
      "learning_rate": 1.3286713286713287e-05,
      "loss": 1.5557,
      "step": 3230
    },
    {
      "epoch": 0.768,
      "grad_norm": 0.542536199092865,
      "learning_rate": 1.3152232383001614e-05,
      "loss": 1.3689,
      "step": 3240
    },
    {
      "epoch": 0.7703703703703704,
      "grad_norm": 0.5394562482833862,
      "learning_rate": 1.3017751479289941e-05,
      "loss": 1.4272,
      "step": 3250
    },
    {
      "epoch": 0.7727407407407407,
      "grad_norm": 0.38109496235847473,
      "learning_rate": 1.2883270575578268e-05,
      "loss": 1.419,
      "step": 3260
    },
    {
      "epoch": 0.7751111111111111,
      "grad_norm": 0.4617583155632019,
      "learning_rate": 1.2748789671866595e-05,
      "loss": 1.3547,
      "step": 3270
    },
    {
      "epoch": 0.7774814814814814,
      "grad_norm": 0.5739762783050537,
      "learning_rate": 1.2614308768154922e-05,
      "loss": 1.5191,
      "step": 3280
    },
    {
      "epoch": 0.7798518518518519,
      "grad_norm": 0.42539921402931213,
      "learning_rate": 1.247982786444325e-05,
      "loss": 1.3347,
      "step": 3290
    },
    {
      "epoch": 0.7822222222222223,
      "grad_norm": 0.5273600816726685,
      "learning_rate": 1.2345346960731577e-05,
      "loss": 1.3758,
      "step": 3300
    },
    {
      "epoch": 0.7845925925925926,
      "grad_norm": 0.4796091616153717,
      "learning_rate": 1.2210866057019904e-05,
      "loss": 1.3903,
      "step": 3310
    },
    {
      "epoch": 0.786962962962963,
      "grad_norm": 0.46542009711265564,
      "learning_rate": 1.2076385153308231e-05,
      "loss": 1.406,
      "step": 3320
    },
    {
      "epoch": 0.7893333333333333,
      "grad_norm": 0.47980108857154846,
      "learning_rate": 1.1941904249596558e-05,
      "loss": 1.3991,
      "step": 3330
    },
    {
      "epoch": 0.7917037037037037,
      "grad_norm": 0.507736086845398,
      "learning_rate": 1.1807423345884885e-05,
      "loss": 1.4583,
      "step": 3340
    },
    {
      "epoch": 0.794074074074074,
      "grad_norm": 0.5380430817604065,
      "learning_rate": 1.1672942442173212e-05,
      "loss": 1.2621,
      "step": 3350
    },
    {
      "epoch": 0.7964444444444444,
      "grad_norm": 0.6689913272857666,
      "learning_rate": 1.153846153846154e-05,
      "loss": 1.5355,
      "step": 3360
    },
    {
      "epoch": 0.7988148148148149,
      "grad_norm": 0.5129537582397461,
      "learning_rate": 1.1403980634749865e-05,
      "loss": 1.5895,
      "step": 3370
    },
    {
      "epoch": 0.8011851851851852,
      "grad_norm": 0.5240408182144165,
      "learning_rate": 1.1269499731038192e-05,
      "loss": 1.4896,
      "step": 3380
    },
    {
      "epoch": 0.8035555555555556,
      "grad_norm": 0.5004174709320068,
      "learning_rate": 1.113501882732652e-05,
      "loss": 1.4303,
      "step": 3390
    },
    {
      "epoch": 0.8059259259259259,
      "grad_norm": 0.46890896558761597,
      "learning_rate": 1.1000537923614846e-05,
      "loss": 1.3536,
      "step": 3400
    },
    {
      "epoch": 0.8082962962962963,
      "grad_norm": 0.5150523781776428,
      "learning_rate": 1.0866057019903174e-05,
      "loss": 1.3952,
      "step": 3410
    },
    {
      "epoch": 0.8106666666666666,
      "grad_norm": 0.4322206676006317,
      "learning_rate": 1.07315761161915e-05,
      "loss": 1.2252,
      "step": 3420
    },
    {
      "epoch": 0.813037037037037,
      "grad_norm": 0.5782944560050964,
      "learning_rate": 1.0597095212479828e-05,
      "loss": 1.4982,
      "step": 3430
    },
    {
      "epoch": 0.8154074074074074,
      "grad_norm": 0.6032952666282654,
      "learning_rate": 1.0462614308768155e-05,
      "loss": 1.4614,
      "step": 3440
    },
    {
      "epoch": 0.8177777777777778,
      "grad_norm": 0.453756183385849,
      "learning_rate": 1.0328133405056482e-05,
      "loss": 1.5017,
      "step": 3450
    },
    {
      "epoch": 0.8201481481481482,
      "grad_norm": 0.5315883159637451,
      "learning_rate": 1.019365250134481e-05,
      "loss": 1.5354,
      "step": 3460
    },
    {
      "epoch": 0.8225185185185185,
      "grad_norm": 0.5065041184425354,
      "learning_rate": 1.0059171597633136e-05,
      "loss": 1.4245,
      "step": 3470
    },
    {
      "epoch": 0.8248888888888889,
      "grad_norm": 0.542103111743927,
      "learning_rate": 9.924690693921463e-06,
      "loss": 1.3599,
      "step": 3480
    },
    {
      "epoch": 0.8272592592592592,
      "grad_norm": 0.5330160856246948,
      "learning_rate": 9.79020979020979e-06,
      "loss": 1.3502,
      "step": 3490
    },
    {
      "epoch": 0.8296296296296296,
      "grad_norm": 0.4731038212776184,
      "learning_rate": 9.655728886498118e-06,
      "loss": 1.2931,
      "step": 3500
    },
    {
      "epoch": 0.832,
      "grad_norm": 0.4719734787940979,
      "learning_rate": 9.521247982786445e-06,
      "loss": 1.3185,
      "step": 3510
    },
    {
      "epoch": 0.8343703703703703,
      "grad_norm": 0.5551607012748718,
      "learning_rate": 9.386767079074772e-06,
      "loss": 1.4045,
      "step": 3520
    },
    {
      "epoch": 0.8367407407407408,
      "grad_norm": 0.5661736130714417,
      "learning_rate": 9.252286175363099e-06,
      "loss": 1.6005,
      "step": 3530
    },
    {
      "epoch": 0.8391111111111111,
      "grad_norm": 0.5772873759269714,
      "learning_rate": 9.117805271651426e-06,
      "loss": 1.3975,
      "step": 3540
    },
    {
      "epoch": 0.8414814814814815,
      "grad_norm": 0.5180752873420715,
      "learning_rate": 8.983324367939753e-06,
      "loss": 1.5147,
      "step": 3550
    },
    {
      "epoch": 0.8438518518518519,
      "grad_norm": 0.5256723165512085,
      "learning_rate": 8.84884346422808e-06,
      "loss": 1.4673,
      "step": 3560
    },
    {
      "epoch": 0.8462222222222222,
      "grad_norm": 0.4829583168029785,
      "learning_rate": 8.714362560516406e-06,
      "loss": 1.5102,
      "step": 3570
    },
    {
      "epoch": 0.8485925925925926,
      "grad_norm": 0.5027347207069397,
      "learning_rate": 8.579881656804733e-06,
      "loss": 1.6514,
      "step": 3580
    },
    {
      "epoch": 0.8509629629629629,
      "grad_norm": 0.5117186903953552,
      "learning_rate": 8.44540075309306e-06,
      "loss": 1.4451,
      "step": 3590
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 0.4994155466556549,
      "learning_rate": 8.310919849381387e-06,
      "loss": 1.3408,
      "step": 3600
    },
    {
      "epoch": 0.8557037037037037,
      "grad_norm": 0.4399481415748596,
      "learning_rate": 8.176438945669715e-06,
      "loss": 1.4044,
      "step": 3610
    },
    {
      "epoch": 0.8580740740740741,
      "grad_norm": 0.49395203590393066,
      "learning_rate": 8.041958041958042e-06,
      "loss": 1.3895,
      "step": 3620
    },
    {
      "epoch": 0.8604444444444445,
      "grad_norm": 0.4922611713409424,
      "learning_rate": 7.907477138246369e-06,
      "loss": 1.5503,
      "step": 3630
    },
    {
      "epoch": 0.8628148148148148,
      "grad_norm": 0.5255241990089417,
      "learning_rate": 7.772996234534696e-06,
      "loss": 1.4736,
      "step": 3640
    },
    {
      "epoch": 0.8651851851851852,
      "grad_norm": 0.4713379442691803,
      "learning_rate": 7.638515330823023e-06,
      "loss": 1.4395,
      "step": 3650
    },
    {
      "epoch": 0.8675555555555555,
      "grad_norm": 0.4290190637111664,
      "learning_rate": 7.50403442711135e-06,
      "loss": 1.4265,
      "step": 3660
    },
    {
      "epoch": 0.8699259259259259,
      "grad_norm": 0.5157113075256348,
      "learning_rate": 7.369553523399677e-06,
      "loss": 1.4363,
      "step": 3670
    },
    {
      "epoch": 0.8722962962962963,
      "grad_norm": 0.5694654583930969,
      "learning_rate": 7.2350726196880045e-06,
      "loss": 1.4602,
      "step": 3680
    },
    {
      "epoch": 0.8746666666666667,
      "grad_norm": 0.47969937324523926,
      "learning_rate": 7.100591715976332e-06,
      "loss": 1.2716,
      "step": 3690
    },
    {
      "epoch": 0.8770370370370371,
      "grad_norm": 0.4939590096473694,
      "learning_rate": 6.966110812264659e-06,
      "loss": 1.4356,
      "step": 3700
    },
    {
      "epoch": 0.8794074074074074,
      "grad_norm": 0.4829910695552826,
      "learning_rate": 6.831629908552986e-06,
      "loss": 1.4482,
      "step": 3710
    },
    {
      "epoch": 0.8817777777777778,
      "grad_norm": 0.473178505897522,
      "learning_rate": 6.697149004841313e-06,
      "loss": 1.3772,
      "step": 3720
    },
    {
      "epoch": 0.8841481481481481,
      "grad_norm": 0.5327422618865967,
      "learning_rate": 6.56266810112964e-06,
      "loss": 1.5707,
      "step": 3730
    },
    {
      "epoch": 0.8865185185185185,
      "grad_norm": 0.4069652259349823,
      "learning_rate": 6.428187197417967e-06,
      "loss": 1.3501,
      "step": 3740
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.5368005037307739,
      "learning_rate": 6.2937062937062944e-06,
      "loss": 1.6791,
      "step": 3750
    },
    {
      "epoch": 0.8912592592592593,
      "grad_norm": 0.5622044801712036,
      "learning_rate": 6.159225389994621e-06,
      "loss": 1.2727,
      "step": 3760
    },
    {
      "epoch": 0.8936296296296297,
      "grad_norm": 0.5526837110519409,
      "learning_rate": 6.024744486282948e-06,
      "loss": 1.478,
      "step": 3770
    },
    {
      "epoch": 0.896,
      "grad_norm": 0.5442282557487488,
      "learning_rate": 5.890263582571275e-06,
      "loss": 1.3917,
      "step": 3780
    },
    {
      "epoch": 0.8983703703703704,
      "grad_norm": 0.5711065530776978,
      "learning_rate": 5.755782678859602e-06,
      "loss": 1.4748,
      "step": 3790
    },
    {
      "epoch": 0.9007407407407407,
      "grad_norm": 0.5068963766098022,
      "learning_rate": 5.621301775147929e-06,
      "loss": 1.3375,
      "step": 3800
    },
    {
      "epoch": 0.9031111111111111,
      "grad_norm": 0.6032804846763611,
      "learning_rate": 5.486820871436256e-06,
      "loss": 1.553,
      "step": 3810
    },
    {
      "epoch": 0.9054814814814814,
      "grad_norm": 0.4718996286392212,
      "learning_rate": 5.352339967724583e-06,
      "loss": 1.4586,
      "step": 3820
    },
    {
      "epoch": 0.9078518518518518,
      "grad_norm": 0.583185076713562,
      "learning_rate": 5.21785906401291e-06,
      "loss": 1.4294,
      "step": 3830
    },
    {
      "epoch": 0.9102222222222223,
      "grad_norm": 0.5688157677650452,
      "learning_rate": 5.083378160301237e-06,
      "loss": 1.3434,
      "step": 3840
    },
    {
      "epoch": 0.9125925925925926,
      "grad_norm": 0.43667495250701904,
      "learning_rate": 4.948897256589564e-06,
      "loss": 1.5107,
      "step": 3850
    },
    {
      "epoch": 0.914962962962963,
      "grad_norm": 0.5924187302589417,
      "learning_rate": 4.814416352877891e-06,
      "loss": 1.3558,
      "step": 3860
    },
    {
      "epoch": 0.9173333333333333,
      "grad_norm": 0.538318932056427,
      "learning_rate": 4.679935449166218e-06,
      "loss": 1.379,
      "step": 3870
    },
    {
      "epoch": 0.9197037037037037,
      "grad_norm": 0.4840611219406128,
      "learning_rate": 4.5454545454545455e-06,
      "loss": 1.2776,
      "step": 3880
    },
    {
      "epoch": 0.922074074074074,
      "grad_norm": 0.5927128195762634,
      "learning_rate": 4.410973641742873e-06,
      "loss": 1.4598,
      "step": 3890
    },
    {
      "epoch": 0.9244444444444444,
      "grad_norm": 0.5672274827957153,
      "learning_rate": 4.2764927380312e-06,
      "loss": 1.467,
      "step": 3900
    },
    {
      "epoch": 0.9268148148148149,
      "grad_norm": 0.5424569249153137,
      "learning_rate": 4.142011834319527e-06,
      "loss": 1.532,
      "step": 3910
    },
    {
      "epoch": 0.9291851851851852,
      "grad_norm": 0.5921524167060852,
      "learning_rate": 4.007530930607853e-06,
      "loss": 1.5244,
      "step": 3920
    },
    {
      "epoch": 0.9315555555555556,
      "grad_norm": 0.4295691251754761,
      "learning_rate": 3.87305002689618e-06,
      "loss": 1.4358,
      "step": 3930
    },
    {
      "epoch": 0.9339259259259259,
      "grad_norm": 0.5117975473403931,
      "learning_rate": 3.738569123184508e-06,
      "loss": 1.4241,
      "step": 3940
    },
    {
      "epoch": 0.9362962962962963,
      "grad_norm": 0.5273323655128479,
      "learning_rate": 3.604088219472835e-06,
      "loss": 1.3188,
      "step": 3950
    },
    {
      "epoch": 0.9386666666666666,
      "grad_norm": 0.4947817325592041,
      "learning_rate": 3.469607315761162e-06,
      "loss": 1.444,
      "step": 3960
    },
    {
      "epoch": 0.941037037037037,
      "grad_norm": 0.5852746367454529,
      "learning_rate": 3.3351264120494893e-06,
      "loss": 1.4334,
      "step": 3970
    },
    {
      "epoch": 0.9434074074074074,
      "grad_norm": 0.5183681845664978,
      "learning_rate": 3.2006455083378165e-06,
      "loss": 1.4422,
      "step": 3980
    },
    {
      "epoch": 0.9457777777777778,
      "grad_norm": 0.5193647146224976,
      "learning_rate": 3.066164604626143e-06,
      "loss": 1.3769,
      "step": 3990
    },
    {
      "epoch": 0.9481481481481482,
      "grad_norm": 0.5597278475761414,
      "learning_rate": 2.9316837009144703e-06,
      "loss": 1.5406,
      "step": 4000
    },
    {
      "epoch": 0.9505185185185185,
      "grad_norm": 0.5173184275627136,
      "learning_rate": 2.7972027972027974e-06,
      "loss": 1.5082,
      "step": 4010
    },
    {
      "epoch": 0.9528888888888889,
      "grad_norm": 0.5205141305923462,
      "learning_rate": 2.6627218934911246e-06,
      "loss": 1.4971,
      "step": 4020
    },
    {
      "epoch": 0.9552592592592593,
      "grad_norm": 0.48843199014663696,
      "learning_rate": 2.5282409897794517e-06,
      "loss": 1.4113,
      "step": 4030
    },
    {
      "epoch": 0.9576296296296296,
      "grad_norm": 0.5854997634887695,
      "learning_rate": 2.3937600860677784e-06,
      "loss": 1.5666,
      "step": 4040
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5264609456062317,
      "learning_rate": 2.2592791823561056e-06,
      "loss": 1.3334,
      "step": 4050
    },
    {
      "epoch": 0.9623703703703703,
      "grad_norm": 0.5044777989387512,
      "learning_rate": 2.1247982786444327e-06,
      "loss": 1.4251,
      "step": 4060
    },
    {
      "epoch": 0.9647407407407408,
      "grad_norm": 0.5678290128707886,
      "learning_rate": 1.99031737493276e-06,
      "loss": 1.4359,
      "step": 4070
    },
    {
      "epoch": 0.9671111111111111,
      "grad_norm": 0.5562720894813538,
      "learning_rate": 1.8558364712210868e-06,
      "loss": 1.4333,
      "step": 4080
    },
    {
      "epoch": 0.9694814814814815,
      "grad_norm": 0.5118197798728943,
      "learning_rate": 1.7213555675094137e-06,
      "loss": 1.4257,
      "step": 4090
    },
    {
      "epoch": 0.9718518518518519,
      "grad_norm": 0.4556100070476532,
      "learning_rate": 1.5868746637977408e-06,
      "loss": 1.4414,
      "step": 4100
    },
    {
      "epoch": 0.9742222222222222,
      "grad_norm": 0.5370482802391052,
      "learning_rate": 1.452393760086068e-06,
      "loss": 1.6166,
      "step": 4110
    },
    {
      "epoch": 0.9765925925925926,
      "grad_norm": 0.5851370096206665,
      "learning_rate": 1.3179128563743949e-06,
      "loss": 1.5649,
      "step": 4120
    },
    {
      "epoch": 0.9789629629629629,
      "grad_norm": 0.5804405212402344,
      "learning_rate": 1.183431952662722e-06,
      "loss": 1.3898,
      "step": 4130
    },
    {
      "epoch": 0.9813333333333333,
      "grad_norm": 0.5411353707313538,
      "learning_rate": 1.0489510489510491e-06,
      "loss": 1.4885,
      "step": 4140
    },
    {
      "epoch": 0.9837037037037037,
      "grad_norm": 0.5271933078765869,
      "learning_rate": 9.14470145239376e-07,
      "loss": 1.3816,
      "step": 4150
    },
    {
      "epoch": 0.9860740740740741,
      "grad_norm": 0.5039179921150208,
      "learning_rate": 7.799892415277031e-07,
      "loss": 1.2985,
      "step": 4160
    },
    {
      "epoch": 0.9884444444444445,
      "grad_norm": 0.47758767008781433,
      "learning_rate": 6.455083378160301e-07,
      "loss": 1.4848,
      "step": 4170
    },
    {
      "epoch": 0.9908148148148148,
      "grad_norm": 0.5355851054191589,
      "learning_rate": 5.110274341043572e-07,
      "loss": 1.5264,
      "step": 4180
    },
    {
      "epoch": 0.9931851851851852,
      "grad_norm": 0.5918956398963928,
      "learning_rate": 3.7654653039268424e-07,
      "loss": 1.4337,
      "step": 4190
    },
    {
      "epoch": 0.9955555555555555,
      "grad_norm": 0.4990881085395813,
      "learning_rate": 2.4206562668101127e-07,
      "loss": 1.3851,
      "step": 4200
    },
    {
      "epoch": 0.9979259259259259,
      "grad_norm": 0.49343588948249817,
      "learning_rate": 1.0758472296933835e-07,
      "loss": 1.5421,
      "step": 4210
    }
  ],
  "logging_steps": 10,
  "max_steps": 4218,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.660058442305372e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}