{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.02955519432540269,
  "eval_steps": 5,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0005911038865080538,
      "grad_norm": 0.15661871433258057,
      "learning_rate": 2e-05,
      "loss": 10.3604,
      "step": 1
    },
    {
      "epoch": 0.0005911038865080538,
      "eval_loss": 10.362295150756836,
      "eval_runtime": 4.0028,
      "eval_samples_per_second": 178.125,
      "eval_steps_per_second": 89.187,
      "step": 1
    },
    {
      "epoch": 0.0011822077730161075,
      "grad_norm": 0.16044344007968903,
      "learning_rate": 4e-05,
      "loss": 10.3612,
      "step": 2
    },
    {
      "epoch": 0.0017733116595241613,
      "grad_norm": 0.15393942594528198,
      "learning_rate": 6e-05,
      "loss": 10.3593,
      "step": 3
    },
    {
      "epoch": 0.002364415546032215,
      "grad_norm": 0.14409151673316956,
      "learning_rate": 8e-05,
      "loss": 10.3599,
      "step": 4
    },
    {
      "epoch": 0.002955519432540269,
      "grad_norm": 0.16407230496406555,
      "learning_rate": 0.0001,
      "loss": 10.3614,
      "step": 5
    },
    {
      "epoch": 0.002955519432540269,
      "eval_loss": 10.361710548400879,
      "eval_runtime": 4.0004,
      "eval_samples_per_second": 178.234,
      "eval_steps_per_second": 89.242,
      "step": 5
    },
    {
      "epoch": 0.0035466233190483225,
      "grad_norm": 0.1505228877067566,
      "learning_rate": 0.00012,
      "loss": 10.3619,
      "step": 6
    },
    {
      "epoch": 0.0041377272055563765,
      "grad_norm": 0.1555595099925995,
      "learning_rate": 0.00014,
      "loss": 10.3614,
      "step": 7
    },
    {
      "epoch": 0.00472883109206443,
      "grad_norm": 0.15852026641368866,
      "learning_rate": 0.00016,
      "loss": 10.3617,
      "step": 8
    },
    {
      "epoch": 0.0053199349785724845,
      "grad_norm": 0.149593785405159,
      "learning_rate": 0.00018,
      "loss": 10.3586,
      "step": 9
    },
    {
      "epoch": 0.005911038865080538,
      "grad_norm": 0.14975175261497498,
      "learning_rate": 0.0002,
      "loss": 10.3592,
      "step": 10
    },
    {
      "epoch": 0.005911038865080538,
      "eval_loss": 10.359604835510254,
      "eval_runtime": 4.0002,
      "eval_samples_per_second": 178.239,
      "eval_steps_per_second": 89.245,
      "step": 10
    },
    {
      "epoch": 0.0065021427515885915,
      "grad_norm": 0.1567012220621109,
      "learning_rate": 0.0001996917333733128,
      "loss": 10.3583,
      "step": 11
    },
    {
      "epoch": 0.007093246638096645,
      "grad_norm": 0.15135857462882996,
      "learning_rate": 0.00019876883405951377,
      "loss": 10.3559,
      "step": 12
    },
    {
      "epoch": 0.0076843505246046995,
      "grad_norm": 0.1511201560497284,
      "learning_rate": 0.00019723699203976766,
      "loss": 10.3575,
      "step": 13
    },
    {
      "epoch": 0.008275454411112753,
      "grad_norm": 0.14522290229797363,
      "learning_rate": 0.00019510565162951537,
      "loss": 10.3563,
      "step": 14
    },
    {
      "epoch": 0.008866558297620807,
      "grad_norm": 0.15903539955615997,
      "learning_rate": 0.0001923879532511287,
      "loss": 10.3556,
      "step": 15
    },
    {
      "epoch": 0.008866558297620807,
      "eval_loss": 10.356510162353516,
      "eval_runtime": 3.9998,
      "eval_samples_per_second": 178.26,
      "eval_steps_per_second": 89.255,
      "step": 15
    },
    {
      "epoch": 0.00945766218412886,
      "grad_norm": 0.16535066068172455,
      "learning_rate": 0.0001891006524188368,
      "loss": 10.3548,
      "step": 16
    },
    {
      "epoch": 0.010048766070636914,
      "grad_norm": 0.16114529967308044,
      "learning_rate": 0.00018526401643540922,
      "loss": 10.3554,
      "step": 17
    },
    {
      "epoch": 0.010639869957144969,
      "grad_norm": 0.15465590357780457,
      "learning_rate": 0.00018090169943749476,
      "loss": 10.3566,
      "step": 18
    },
    {
      "epoch": 0.011230973843653022,
      "grad_norm": 0.16208234429359436,
      "learning_rate": 0.0001760405965600031,
      "loss": 10.3541,
      "step": 19
    },
    {
      "epoch": 0.011822077730161076,
      "grad_norm": 0.172252357006073,
      "learning_rate": 0.00017071067811865476,
      "loss": 10.353,
      "step": 20
    },
    {
      "epoch": 0.011822077730161076,
      "eval_loss": 10.353378295898438,
      "eval_runtime": 3.9939,
      "eval_samples_per_second": 178.521,
      "eval_steps_per_second": 89.385,
      "step": 20
    },
    {
      "epoch": 0.01241318161666913,
      "grad_norm": 0.1557922214269638,
      "learning_rate": 0.00016494480483301836,
      "loss": 10.352,
      "step": 21
    },
    {
      "epoch": 0.013004285503177183,
      "grad_norm": 0.17281433939933777,
      "learning_rate": 0.00015877852522924732,
      "loss": 10.3525,
      "step": 22
    },
    {
      "epoch": 0.013595389389685237,
      "grad_norm": 0.17401234805583954,
      "learning_rate": 0.0001522498564715949,
      "loss": 10.3508,
      "step": 23
    },
    {
      "epoch": 0.01418649327619329,
      "grad_norm": 0.17237161099910736,
      "learning_rate": 0.00014539904997395468,
      "loss": 10.3516,
      "step": 24
    },
    {
      "epoch": 0.014777597162701345,
      "grad_norm": 0.17611266672611237,
      "learning_rate": 0.000138268343236509,
      "loss": 10.3498,
      "step": 25
    },
    {
      "epoch": 0.014777597162701345,
      "eval_loss": 10.350451469421387,
      "eval_runtime": 3.9969,
      "eval_samples_per_second": 178.387,
      "eval_steps_per_second": 89.319,
      "step": 25
    },
    {
      "epoch": 0.015368701049209399,
      "grad_norm": 0.1744377762079239,
      "learning_rate": 0.00013090169943749476,
      "loss": 10.3518,
      "step": 26
    },
    {
      "epoch": 0.015959804935717452,
      "grad_norm": 0.1758396029472351,
      "learning_rate": 0.00012334453638559057,
      "loss": 10.3507,
      "step": 27
    },
    {
      "epoch": 0.016550908822225506,
      "grad_norm": 0.18169379234313965,
      "learning_rate": 0.0001156434465040231,
      "loss": 10.349,
      "step": 28
    },
    {
      "epoch": 0.01714201270873356,
      "grad_norm": 0.18990303575992584,
      "learning_rate": 0.0001078459095727845,
      "loss": 10.3471,
      "step": 29
    },
    {
      "epoch": 0.017733116595241613,
      "grad_norm": 0.1820976436138153,
      "learning_rate": 0.0001,
      "loss": 10.3487,
      "step": 30
    },
    {
      "epoch": 0.017733116595241613,
      "eval_loss": 10.347879409790039,
      "eval_runtime": 3.9886,
      "eval_samples_per_second": 178.762,
      "eval_steps_per_second": 89.506,
      "step": 30
    },
    {
      "epoch": 0.018324220481749667,
      "grad_norm": 0.18979790806770325,
      "learning_rate": 9.215409042721552e-05,
      "loss": 10.3469,
      "step": 31
    },
    {
      "epoch": 0.01891532436825772,
      "grad_norm": 0.18608276546001434,
      "learning_rate": 8.435655349597689e-05,
      "loss": 10.346,
      "step": 32
    },
    {
      "epoch": 0.019506428254765774,
      "grad_norm": 0.19618307054042816,
      "learning_rate": 7.66554636144095e-05,
      "loss": 10.3469,
      "step": 33
    },
    {
      "epoch": 0.020097532141273827,
      "grad_norm": 0.18454183638095856,
      "learning_rate": 6.909830056250527e-05,
      "loss": 10.3485,
      "step": 34
    },
    {
      "epoch": 0.020688636027781884,
      "grad_norm": 0.19035643339157104,
      "learning_rate": 6.173165676349103e-05,
      "loss": 10.3453,
      "step": 35
    },
    {
      "epoch": 0.020688636027781884,
      "eval_loss": 10.346055030822754,
      "eval_runtime": 3.9915,
      "eval_samples_per_second": 178.63,
      "eval_steps_per_second": 89.44,
      "step": 35
    },
    {
      "epoch": 0.021279739914289938,
      "grad_norm": 0.19107680022716522,
      "learning_rate": 5.4600950026045326e-05,
      "loss": 10.3465,
      "step": 36
    },
    {
      "epoch": 0.02187084380079799,
      "grad_norm": 0.1938958615064621,
      "learning_rate": 4.7750143528405126e-05,
      "loss": 10.3415,
      "step": 37
    },
    {
      "epoch": 0.022461947687306045,
      "grad_norm": 0.1923970729112625,
      "learning_rate": 4.12214747707527e-05,
      "loss": 10.3449,
      "step": 38
    },
    {
      "epoch": 0.0230530515738141,
      "grad_norm": 0.21158799529075623,
      "learning_rate": 3.5055195166981645e-05,
      "loss": 10.34,
      "step": 39
    },
    {
      "epoch": 0.023644155460322152,
      "grad_norm": 0.18855807185173035,
      "learning_rate": 2.9289321881345254e-05,
      "loss": 10.3454,
      "step": 40
    },
    {
      "epoch": 0.023644155460322152,
      "eval_loss": 10.344962120056152,
      "eval_runtime": 3.9854,
      "eval_samples_per_second": 178.901,
      "eval_steps_per_second": 89.576,
      "step": 40
    },
    {
      "epoch": 0.024235259346830205,
      "grad_norm": 0.19881662726402283,
      "learning_rate": 2.3959403439996907e-05,
      "loss": 10.3457,
      "step": 41
    },
    {
      "epoch": 0.02482636323333826,
      "grad_norm": 0.19861969351768494,
      "learning_rate": 1.9098300562505266e-05,
      "loss": 10.3436,
      "step": 42
    },
    {
      "epoch": 0.025417467119846313,
      "grad_norm": 0.20725977420806885,
      "learning_rate": 1.4735983564590783e-05,
      "loss": 10.3418,
      "step": 43
    },
    {
      "epoch": 0.026008571006354366,
      "grad_norm": 0.19543062150478363,
      "learning_rate": 1.0899347581163221e-05,
      "loss": 10.3452,
      "step": 44
    },
    {
      "epoch": 0.02659967489286242,
      "grad_norm": 0.2122054100036621,
      "learning_rate": 7.612046748871327e-06,
      "loss": 10.3431,
      "step": 45
    },
    {
      "epoch": 0.02659967489286242,
      "eval_loss": 10.344385147094727,
      "eval_runtime": 3.9986,
      "eval_samples_per_second": 178.311,
      "eval_steps_per_second": 89.28,
      "step": 45
    },
    {
      "epoch": 0.027190778779370473,
      "grad_norm": 0.2073322981595993,
      "learning_rate": 4.8943483704846475e-06,
      "loss": 10.3429,
      "step": 46
    },
    {
      "epoch": 0.027781882665878527,
      "grad_norm": 0.2062305361032486,
      "learning_rate": 2.7630079602323442e-06,
      "loss": 10.3425,
      "step": 47
    },
    {
      "epoch": 0.02837298655238658,
      "grad_norm": 0.20373278856277466,
      "learning_rate": 1.231165940486234e-06,
      "loss": 10.3455,
      "step": 48
    },
    {
      "epoch": 0.028964090438894637,
      "grad_norm": 0.1971660852432251,
      "learning_rate": 3.0826662668720364e-07,
      "loss": 10.3441,
      "step": 49
    },
    {
      "epoch": 0.02955519432540269,
      "grad_norm": 0.20324334502220154,
      "learning_rate": 0.0,
      "loss": 10.3428,
      "step": 50
    },
    {
      "epoch": 0.02955519432540269,
      "eval_loss": 10.344304084777832,
      "eval_runtime": 3.987,
      "eval_samples_per_second": 178.832,
      "eval_steps_per_second": 89.541,
      "step": 50
    }
  ],
  "logging_steps": 1,
  "max_steps": 50,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 70,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2586181632000.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}