{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.12825994014536127,
  "eval_steps": 25,
  "global_step": 75,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0017101325352714834,
      "grad_norm": 0.2051043063402176,
      "learning_rate": 6.666666666666667e-05,
      "loss": 11.7618,
      "step": 1
    },
    {
      "epoch": 0.0017101325352714834,
      "eval_loss": 11.763699531555176,
      "eval_runtime": 4.6068,
      "eval_samples_per_second": 107.016,
      "eval_steps_per_second": 53.617,
      "step": 1
    },
    {
      "epoch": 0.003420265070542967,
      "grad_norm": 0.18185454607009888,
      "learning_rate": 0.00013333333333333334,
      "loss": 11.7687,
      "step": 2
    },
    {
      "epoch": 0.005130397605814451,
      "grad_norm": 0.16814525425434113,
      "learning_rate": 0.0002,
      "loss": 11.7789,
      "step": 3
    },
    {
      "epoch": 0.006840530141085934,
      "grad_norm": 0.25783631205558777,
      "learning_rate": 0.0001999048221581858,
      "loss": 11.7795,
      "step": 4
    },
    {
      "epoch": 0.008550662676357419,
      "grad_norm": 0.1776418536901474,
      "learning_rate": 0.00019961946980917456,
      "loss": 11.7533,
      "step": 5
    },
    {
      "epoch": 0.010260795211628902,
      "grad_norm": 0.24929629266262054,
      "learning_rate": 0.00019914448613738106,
      "loss": 11.7616,
      "step": 6
    },
    {
      "epoch": 0.011970927746900385,
      "grad_norm": 0.17629550397396088,
      "learning_rate": 0.00019848077530122083,
      "loss": 11.7522,
      "step": 7
    },
    {
      "epoch": 0.013681060282171868,
      "grad_norm": 0.2442123293876648,
      "learning_rate": 0.00019762960071199333,
      "loss": 11.7546,
      "step": 8
    },
    {
      "epoch": 0.015391192817443352,
      "grad_norm": 0.21340608596801758,
      "learning_rate": 0.00019659258262890683,
      "loss": 11.7616,
      "step": 9
    },
    {
      "epoch": 0.017101325352714837,
      "grad_norm": 0.29718083143234253,
      "learning_rate": 0.0001953716950748227,
      "loss": 11.7452,
      "step": 10
    },
    {
      "epoch": 0.01881145788798632,
      "grad_norm": 0.1933533400297165,
      "learning_rate": 0.00019396926207859084,
      "loss": 11.7455,
      "step": 11
    },
    {
      "epoch": 0.020521590423257803,
      "grad_norm": 0.2363787740468979,
      "learning_rate": 0.0001923879532511287,
      "loss": 11.7627,
      "step": 12
    },
    {
      "epoch": 0.022231722958529286,
      "grad_norm": 0.2820514738559723,
      "learning_rate": 0.000190630778703665,
      "loss": 11.7686,
      "step": 13
    },
    {
      "epoch": 0.02394185549380077,
      "grad_norm": 0.2623695433139801,
      "learning_rate": 0.00018870108331782217,
      "loss": 11.7488,
      "step": 14
    },
    {
      "epoch": 0.025651988029072252,
      "grad_norm": 0.339016318321228,
      "learning_rate": 0.00018660254037844388,
      "loss": 11.7418,
      "step": 15
    },
    {
      "epoch": 0.027362120564343735,
      "grad_norm": 0.30536124110221863,
      "learning_rate": 0.0001843391445812886,
      "loss": 11.7337,
      "step": 16
    },
    {
      "epoch": 0.02907225309961522,
      "grad_norm": 0.3421179950237274,
      "learning_rate": 0.0001819152044288992,
      "loss": 11.7446,
      "step": 17
    },
    {
      "epoch": 0.030782385634886705,
      "grad_norm": 0.30247148871421814,
      "learning_rate": 0.00017933533402912354,
      "loss": 11.7353,
      "step": 18
    },
    {
      "epoch": 0.032492518170158184,
      "grad_norm": 0.25921571254730225,
      "learning_rate": 0.0001766044443118978,
      "loss": 11.7538,
      "step": 19
    },
    {
      "epoch": 0.034202650705429674,
      "grad_norm": 0.3485511541366577,
      "learning_rate": 0.0001737277336810124,
      "loss": 11.7319,
      "step": 20
    },
    {
      "epoch": 0.03591278324070116,
      "grad_norm": 0.29430219531059265,
      "learning_rate": 0.00017071067811865476,
      "loss": 11.7399,
      "step": 21
    },
    {
      "epoch": 0.03762291577597264,
      "grad_norm": 0.4098990857601166,
      "learning_rate": 0.00016755902076156604,
      "loss": 11.723,
      "step": 22
    },
    {
      "epoch": 0.03933304831124412,
      "grad_norm": 0.33324581384658813,
      "learning_rate": 0.00016427876096865394,
      "loss": 11.7571,
      "step": 23
    },
    {
      "epoch": 0.041043180846515606,
      "grad_norm": 0.3646618127822876,
      "learning_rate": 0.00016087614290087208,
      "loss": 11.7497,
      "step": 24
    },
    {
      "epoch": 0.04275331338178709,
      "grad_norm": 0.4130246937274933,
      "learning_rate": 0.0001573576436351046,
      "loss": 11.7426,
      "step": 25
    },
    {
      "epoch": 0.04275331338178709,
      "eval_loss": 11.732379913330078,
      "eval_runtime": 4.6023,
      "eval_samples_per_second": 107.121,
      "eval_steps_per_second": 53.669,
      "step": 25
    },
    {
      "epoch": 0.04446344591705857,
      "grad_norm": 0.4815286695957184,
      "learning_rate": 0.0001537299608346824,
      "loss": 11.7504,
      "step": 26
    },
    {
      "epoch": 0.046173578452330055,
      "grad_norm": 0.37317267060279846,
      "learning_rate": 0.00015000000000000001,
      "loss": 11.7155,
      "step": 27
    },
    {
      "epoch": 0.04788371098760154,
      "grad_norm": 0.3640599250793457,
      "learning_rate": 0.00014617486132350343,
      "loss": 11.7254,
      "step": 28
    },
    {
      "epoch": 0.04959384352287302,
      "grad_norm": 0.4062868654727936,
      "learning_rate": 0.00014226182617406996,
      "loss": 11.7314,
      "step": 29
    },
    {
      "epoch": 0.051303976058144504,
      "grad_norm": 0.4325522780418396,
      "learning_rate": 0.000138268343236509,
      "loss": 11.7079,
      "step": 30
    },
    {
      "epoch": 0.05301410859341599,
      "grad_norm": 0.49432137608528137,
      "learning_rate": 0.00013420201433256689,
      "loss": 11.7088,
      "step": 31
    },
    {
      "epoch": 0.05472424112868747,
      "grad_norm": 0.43299344182014465,
      "learning_rate": 0.00013007057995042732,
      "loss": 11.727,
      "step": 32
    },
    {
      "epoch": 0.05643437366395896,
      "grad_norm": 0.4424952268600464,
      "learning_rate": 0.00012588190451025207,
      "loss": 11.7251,
      "step": 33
    },
    {
      "epoch": 0.05814450619923044,
      "grad_norm": 0.4398050010204315,
      "learning_rate": 0.00012164396139381029,
      "loss": 11.6897,
      "step": 34
    },
    {
      "epoch": 0.059854638734501926,
      "grad_norm": 0.4945911169052124,
      "learning_rate": 0.00011736481776669306,
      "loss": 11.7299,
      "step": 35
    },
    {
      "epoch": 0.06156477126977341,
      "grad_norm": 0.47827664017677307,
      "learning_rate": 0.00011305261922200519,
      "loss": 11.703,
      "step": 36
    },
    {
      "epoch": 0.06327490380504489,
      "grad_norm": 0.5927487015724182,
      "learning_rate": 0.00010871557427476583,
      "loss": 11.7047,
      "step": 37
    },
    {
      "epoch": 0.06498503634031637,
      "grad_norm": 0.5181644558906555,
      "learning_rate": 0.00010436193873653361,
      "loss": 11.7056,
      "step": 38
    },
    {
      "epoch": 0.06669516887558785,
      "grad_norm": 0.5688263773918152,
      "learning_rate": 0.0001,
      "loss": 11.7118,
      "step": 39
    },
    {
      "epoch": 0.06840530141085935,
      "grad_norm": 0.5544004440307617,
      "learning_rate": 9.563806126346642e-05,
      "loss": 11.6992,
      "step": 40
    },
    {
      "epoch": 0.07011543394613083,
      "grad_norm": 0.5114273428916931,
      "learning_rate": 9.128442572523417e-05,
      "loss": 11.6945,
      "step": 41
    },
    {
      "epoch": 0.07182556648140231,
      "grad_norm": 0.4657485783100128,
      "learning_rate": 8.694738077799488e-05,
      "loss": 11.71,
      "step": 42
    },
    {
      "epoch": 0.0735356990166738,
      "grad_norm": 0.5855689644813538,
      "learning_rate": 8.263518223330697e-05,
      "loss": 11.7026,
      "step": 43
    },
    {
      "epoch": 0.07524583155194528,
      "grad_norm": 0.4478150010108948,
      "learning_rate": 7.835603860618972e-05,
      "loss": 11.6696,
      "step": 44
    },
    {
      "epoch": 0.07695596408721676,
      "grad_norm": 0.4879034757614136,
      "learning_rate": 7.411809548974792e-05,
      "loss": 11.6795,
      "step": 45
    },
    {
      "epoch": 0.07866609662248825,
      "grad_norm": 0.5917394161224365,
      "learning_rate": 6.992942004957271e-05,
      "loss": 11.6855,
      "step": 46
    },
    {
      "epoch": 0.08037622915775973,
      "grad_norm": 0.5265892148017883,
      "learning_rate": 6.579798566743314e-05,
      "loss": 11.6899,
      "step": 47
    },
    {
      "epoch": 0.08208636169303121,
      "grad_norm": 0.43607938289642334,
      "learning_rate": 6.173165676349103e-05,
      "loss": 11.7189,
      "step": 48
    },
    {
      "epoch": 0.0837964942283027,
      "grad_norm": 0.6106020212173462,
      "learning_rate": 5.773817382593008e-05,
      "loss": 11.6766,
      "step": 49
    },
    {
      "epoch": 0.08550662676357418,
      "grad_norm": 0.5216354727745056,
      "learning_rate": 5.382513867649663e-05,
      "loss": 11.6732,
      "step": 50
    },
    {
      "epoch": 0.08550662676357418,
      "eval_loss": 11.687090873718262,
      "eval_runtime": 4.5956,
      "eval_samples_per_second": 107.276,
      "eval_steps_per_second": 53.747,
      "step": 50
    },
    {
      "epoch": 0.08721675929884566,
      "grad_norm": 0.4610964059829712,
      "learning_rate": 5.000000000000002e-05,
      "loss": 11.6814,
      "step": 51
    },
    {
      "epoch": 0.08892689183411714,
      "grad_norm": 0.5062606930732727,
      "learning_rate": 4.6270039165317605e-05,
      "loss": 11.6945,
      "step": 52
    },
    {
      "epoch": 0.09063702436938863,
      "grad_norm": 0.553134560585022,
      "learning_rate": 4.264235636489542e-05,
      "loss": 11.6966,
      "step": 53
    },
    {
      "epoch": 0.09234715690466011,
      "grad_norm": 0.5532500743865967,
      "learning_rate": 3.9123857099127936e-05,
      "loss": 11.6781,
      "step": 54
    },
    {
      "epoch": 0.0940572894399316,
      "grad_norm": 0.4720168113708496,
      "learning_rate": 3.5721239031346066e-05,
      "loss": 11.7091,
      "step": 55
    },
    {
      "epoch": 0.09576742197520308,
      "grad_norm": 0.5194851160049438,
      "learning_rate": 3.244097923843398e-05,
      "loss": 11.6756,
      "step": 56
    },
    {
      "epoch": 0.09747755451047456,
      "grad_norm": 0.5085152387619019,
      "learning_rate": 2.9289321881345254e-05,
      "loss": 11.6755,
      "step": 57
    },
    {
      "epoch": 0.09918768704574604,
      "grad_norm": 0.5678163766860962,
      "learning_rate": 2.6272266318987603e-05,
      "loss": 11.6762,
      "step": 58
    },
    {
      "epoch": 0.10089781958101753,
      "grad_norm": 0.5167517066001892,
      "learning_rate": 2.339555568810221e-05,
      "loss": 11.663,
      "step": 59
    },
    {
      "epoch": 0.10260795211628901,
      "grad_norm": 0.4949297606945038,
      "learning_rate": 2.0664665970876496e-05,
      "loss": 11.6847,
      "step": 60
    },
    {
      "epoch": 0.10431808465156049,
      "grad_norm": 0.5668756365776062,
      "learning_rate": 1.808479557110081e-05,
      "loss": 11.7024,
      "step": 61
    },
    {
      "epoch": 0.10602821718683197,
      "grad_norm": 0.4657188355922699,
      "learning_rate": 1.566085541871145e-05,
      "loss": 11.6674,
      "step": 62
    },
    {
      "epoch": 0.10773834972210346,
      "grad_norm": 0.5483532547950745,
      "learning_rate": 1.339745962155613e-05,
      "loss": 11.7355,
      "step": 63
    },
    {
      "epoch": 0.10944848225737494,
      "grad_norm": 0.49865320324897766,
      "learning_rate": 1.129891668217783e-05,
      "loss": 11.6913,
      "step": 64
    },
    {
      "epoch": 0.11115861479264642,
      "grad_norm": 0.4193071126937866,
      "learning_rate": 9.369221296335006e-06,
      "loss": 11.6589,
      "step": 65
    },
    {
      "epoch": 0.11286874732791792,
      "grad_norm": 0.4931492209434509,
      "learning_rate": 7.612046748871327e-06,
      "loss": 11.684,
      "step": 66
    },
    {
      "epoch": 0.1145788798631894,
      "grad_norm": 0.6170268058776855,
      "learning_rate": 6.030737921409169e-06,
      "loss": 11.678,
      "step": 67
    },
    {
      "epoch": 0.11628901239846089,
      "grad_norm": 0.6914024353027344,
      "learning_rate": 4.628304925177318e-06,
      "loss": 11.6887,
      "step": 68
    },
    {
      "epoch": 0.11799914493373237,
      "grad_norm": 0.538939356803894,
      "learning_rate": 3.40741737109318e-06,
      "loss": 11.7033,
      "step": 69
    },
    {
      "epoch": 0.11970927746900385,
      "grad_norm": 0.5526518225669861,
      "learning_rate": 2.3703992880066638e-06,
      "loss": 11.6602,
      "step": 70
    },
    {
      "epoch": 0.12141941000427534,
      "grad_norm": 0.4771535396575928,
      "learning_rate": 1.5192246987791981e-06,
      "loss": 11.6992,
      "step": 71
    },
    {
      "epoch": 0.12312954253954682,
      "grad_norm": 0.5311975479125977,
      "learning_rate": 8.555138626189618e-07,
      "loss": 11.6501,
      "step": 72
    },
    {
      "epoch": 0.1248396750748183,
      "grad_norm": 0.6137779951095581,
      "learning_rate": 3.805301908254455e-07,
      "loss": 11.6742,
      "step": 73
    },
    {
      "epoch": 0.12654980761008977,
      "grad_norm": 0.4921776056289673,
      "learning_rate": 9.517784181422019e-08,
      "loss": 11.679,
      "step": 74
    },
    {
      "epoch": 0.12825994014536127,
      "grad_norm": 0.4617028832435608,
      "learning_rate": 0.0,
      "loss": 11.6971,
      "step": 75
    },
    {
      "epoch": 0.12825994014536127,
      "eval_loss": 11.677390098571777,
      "eval_runtime": 4.5987,
      "eval_samples_per_second": 107.204,
      "eval_steps_per_second": 53.711,
      "step": 75
    }
  ],
  "logging_steps": 1,
  "max_steps": 75,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 30555006566400.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}