{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.22695035460992907,
  "eval_steps": 250,
  "global_step": 2000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00011347517730496454,
      "grad_norm": 222.25140380859375,
      "learning_rate": 5e-05,
      "loss": 9.3221,
      "num_input_tokens_seen": 69176,
      "step": 1
    },
    {
      "epoch": 0.00011347517730496454,
      "loss": 8.958884239196777,
      "loss_ce": 5.329977989196777,
      "loss_iou": 1.0859375,
      "loss_num": 0.2890625,
      "loss_xval": 3.625,
      "num_input_tokens_seen": 69176,
      "step": 1
    },
    {
      "epoch": 0.00022695035460992908,
      "grad_norm": 142.4429931640625,
      "learning_rate": 5e-05,
      "loss": 7.7703,
      "num_input_tokens_seen": 137056,
      "step": 2
    },
    {
      "epoch": 0.00022695035460992908,
      "loss": 7.860512733459473,
      "loss_ce": 4.180825233459473,
      "loss_iou": 1.1875,
      "loss_num": 0.26171875,
      "loss_xval": 3.6875,
      "num_input_tokens_seen": 137056,
      "step": 2
    },
    {
      "epoch": 0.00034042553191489364,
      "grad_norm": 76.73808288574219,
      "learning_rate": 5e-05,
      "loss": 9.0393,
      "num_input_tokens_seen": 203328,
      "step": 3
    },
    {
      "epoch": 0.00034042553191489364,
      "loss": 9.056465148925781,
      "loss_ce": 5.140450477600098,
      "loss_iou": 1.15625,
      "loss_num": 0.322265625,
      "loss_xval": 3.921875,
      "num_input_tokens_seen": 203328,
      "step": 3
    },
    {
      "epoch": 0.00045390070921985816,
      "grad_norm": 243.05899047851562,
      "learning_rate": 5e-05,
      "loss": 8.8022,
      "num_input_tokens_seen": 270400,
      "step": 4
    },
    {
      "epoch": 0.00045390070921985816,
      "loss": 8.83285140991211,
      "loss_ce": 3.6726953983306885,
      "loss_iou": 1.828125,
      "loss_num": 0.30078125,
      "loss_xval": 5.15625,
      "num_input_tokens_seen": 270400,
      "step": 4
    },
    {
      "epoch": 0.0005673758865248227,
      "grad_norm": 73.95763397216797,
      "learning_rate": 5e-05,
      "loss": 6.5675,
      "num_input_tokens_seen": 337136,
      "step": 5
    },
    {
      "epoch": 0.0005673758865248227,
      "loss": 6.288815021514893,
      "loss_ce": 2.3376431465148926,
      "loss_iou": 1.453125,
      "loss_num": 0.208984375,
      "loss_xval": 3.953125,
      "num_input_tokens_seen": 337136,
      "step": 5
    },
    {
      "epoch": 0.0006808510638297873,
      "grad_norm": 37.85482406616211,
      "learning_rate": 5e-05,
      "loss": 4.0247,
      "num_input_tokens_seen": 402768,
      "step": 6
    },
    {
      "epoch": 0.0006808510638297873,
      "loss": 4.009507656097412,
      "loss_ce": 0.5973982810974121,
      "loss_iou": 1.0703125,
      "loss_num": 0.255859375,
      "loss_xval": 3.40625,
      "num_input_tokens_seen": 402768,
      "step": 6
    },
    {
      "epoch": 0.0007943262411347517,
      "grad_norm": 37.323097229003906,
      "learning_rate": 5e-05,
      "loss": 6.469,
      "num_input_tokens_seen": 469856,
      "step": 7
    },
    {
      "epoch": 0.0007943262411347517,
      "loss": 6.318854331970215,
      "loss_ce": 1.248542070388794,
      "loss_iou": 1.2734375,
      "loss_num": 0.50390625,
      "loss_xval": 5.0625,
      "num_input_tokens_seen": 469856,
      "step": 7
    },
    {
      "epoch": 0.0009078014184397163,
      "grad_norm": 32.47523498535156,
      "learning_rate": 5e-05,
      "loss": 5.172,
      "num_input_tokens_seen": 537604,
      "step": 8
    },
    {
      "epoch": 0.0009078014184397163,
      "loss": 5.1776628494262695,
      "loss_ce": 1.287037968635559,
      "loss_iou": 1.2734375,
      "loss_num": 0.267578125,
      "loss_xval": 3.890625,
      "num_input_tokens_seen": 537604,
      "step": 8
    },
    {
      "epoch": 0.0010212765957446808,
      "grad_norm": 42.399105072021484,
      "learning_rate": 5e-05,
      "loss": 5.0763,
      "num_input_tokens_seen": 604672,
      "step": 9
    },
    {
      "epoch": 0.0010212765957446808,
      "loss": 5.011593341827393,
      "loss_ce": 0.8319055438041687,
      "loss_iou": 1.15625,
      "loss_num": 0.375,
      "loss_xval": 4.1875,
      "num_input_tokens_seen": 604672,
      "step": 9
    },
    {
      "epoch": 0.0011347517730496454,
      "grad_norm": 48.990455627441406,
      "learning_rate": 5e-05,
      "loss": 5.9159,
      "num_input_tokens_seen": 671196,
      "step": 10
    },
    {
      "epoch": 0.0011347517730496454,
      "loss": 5.86712121963501,
      "loss_ce": 0.6874336004257202,
      "loss_iou": 1.515625,
      "loss_num": 0.427734375,
      "loss_xval": 5.1875,
      "num_input_tokens_seen": 671196,
      "step": 10
    },
    {
      "epoch": 0.00124822695035461,
      "grad_norm": 23.478656768798828,
      "learning_rate": 5e-05,
      "loss": 5.839,
      "num_input_tokens_seen": 738388,
      "step": 11
    },
    {
      "epoch": 0.00124822695035461,
      "loss": 5.903538703918457,
      "loss_ce": 0.6496323347091675,
      "loss_iou": 1.4375,
      "loss_num": 0.4765625,
      "loss_xval": 5.25,
      "num_input_tokens_seen": 738388,
      "step": 11
    },
    {
      "epoch": 0.0013617021276595745,
      "grad_norm": 54.89214324951172,
      "learning_rate": 5e-05,
      "loss": 4.0538,
      "num_input_tokens_seen": 805812,
      "step": 12
    },
    {
      "epoch": 0.0013617021276595745,
      "loss": 3.9477899074554443,
      "loss_ce": 0.16263368725776672,
      "loss_iou": 1.234375,
      "loss_num": 0.263671875,
      "loss_xval": 3.78125,
      "num_input_tokens_seen": 805812,
      "step": 12
    },
    {
      "epoch": 0.001475177304964539,
      "grad_norm": 17.273975372314453,
      "learning_rate": 5e-05,
      "loss": 3.6613,
      "num_input_tokens_seen": 872632,
      "step": 13
    },
    {
      "epoch": 0.001475177304964539,
      "loss": 3.5799789428710938,
      "loss_ce": 0.14443226158618927,
      "loss_iou": 1.1015625,
      "loss_num": 0.24609375,
      "loss_xval": 3.4375,
      "num_input_tokens_seen": 872632,
      "step": 13
    },
    {
      "epoch": 0.0015886524822695035,
      "grad_norm": 40.27149200439453,
      "learning_rate": 5e-05,
      "loss": 3.6933,
      "num_input_tokens_seen": 939204,
      "step": 14
    },
    {
      "epoch": 0.0015886524822695035,
      "loss": 3.819655656814575,
      "loss_ce": 0.15559318661689758,
      "loss_iou": 1.234375,
      "loss_num": 0.240234375,
      "loss_xval": 3.65625,
      "num_input_tokens_seen": 939204,
      "step": 14
    },
    {
      "epoch": 0.001702127659574468,
      "grad_norm": 26.6628475189209,
      "learning_rate": 5e-05,
      "loss": 4.7121,
      "num_input_tokens_seen": 1006720,
      "step": 15
    },
    {
      "epoch": 0.001702127659574468,
      "loss": 4.738797187805176,
      "loss_ce": 0.08254717290401459,
      "loss_iou": 1.3671875,
      "loss_num": 0.38671875,
      "loss_xval": 4.65625,
      "num_input_tokens_seen": 1006720,
      "step": 15
    },
    {
      "epoch": 0.0018156028368794327,
      "grad_norm": 20.154598236083984,
      "learning_rate": 5e-05,
      "loss": 3.029,
      "num_input_tokens_seen": 1072148,
      "step": 16
    },
    {
      "epoch": 0.0018156028368794327,
      "loss": 3.2630178928375244,
      "loss_ce": 0.12825225293636322,
      "loss_iou": 0.94921875,
      "loss_num": 0.2470703125,
      "loss_xval": 3.140625,
      "num_input_tokens_seen": 1072148,
      "step": 16
    },
    {
      "epoch": 0.0019290780141843972,
      "grad_norm": 8.0260009765625,
      "learning_rate": 5e-05,
      "loss": 3.9622,
      "num_input_tokens_seen": 1138416,
      "step": 17
    },
    {
      "epoch": 0.0019290780141843972,
      "loss": 3.8744075298309326,
      "loss_ce": 0.07557933777570724,
      "loss_iou": 1.0703125,
      "loss_num": 0.33203125,
      "loss_xval": 3.796875,
      "num_input_tokens_seen": 1138416,
      "step": 17
    },
    {
      "epoch": 0.0020425531914893616,
      "grad_norm": 8.05984115600586,
      "learning_rate": 5e-05,
      "loss": 3.5434,
      "num_input_tokens_seen": 1205508,
      "step": 18
    },
    {
      "epoch": 0.0020425531914893616,
      "loss": 3.2992680072784424,
      "loss_ce": 0.06293987482786179,
      "loss_iou": 0.99609375,
      "loss_num": 0.2490234375,
      "loss_xval": 3.234375,
      "num_input_tokens_seen": 1205508,
      "step": 18
    },
    {
      "epoch": 0.002156028368794326,
      "grad_norm": 13.72277545928955,
      "learning_rate": 5e-05,
      "loss": 3.4637,
      "num_input_tokens_seen": 1272936,
      "step": 19
    },
    {
      "epoch": 0.002156028368794326,
      "loss": 3.4166293144226074,
      "loss_ce": 0.07873876392841339,
      "loss_iou": 1.125,
      "loss_num": 0.2177734375,
      "loss_xval": 3.34375,
      "num_input_tokens_seen": 1272936,
      "step": 19
    },
    {
      "epoch": 0.0022695035460992908,
      "grad_norm": 6.822542190551758,
      "learning_rate": 5e-05,
      "loss": 3.3882,
      "num_input_tokens_seen": 1339480,
      "step": 20
    },
    {
      "epoch": 0.0022695035460992908,
      "loss": 3.159705638885498,
      "loss_ce": 0.044471219182014465,
      "loss_iou": 1.0234375,
      "loss_num": 0.2138671875,
      "loss_xval": 3.109375,
      "num_input_tokens_seen": 1339480,
      "step": 20
    },
    {
      "epoch": 0.0023829787234042553,
      "grad_norm": 11.810273170471191,
      "learning_rate": 5e-05,
      "loss": 3.1299,
      "num_input_tokens_seen": 1405856,
      "step": 21
    },
    {
      "epoch": 0.0023829787234042553,
      "loss": 3.358290433883667,
      "loss_ce": 0.03016539290547371,
      "loss_iou": 1.0703125,
      "loss_num": 0.23828125,
      "loss_xval": 3.328125,
      "num_input_tokens_seen": 1405856,
      "step": 21
    },
    {
      "epoch": 0.00249645390070922,
      "grad_norm": 18.69114112854004,
      "learning_rate": 5e-05,
      "loss": 3.3255,
      "num_input_tokens_seen": 1471756,
      "step": 22
    },
    {
      "epoch": 0.00249645390070922,
      "loss": 3.4490432739257812,
      "loss_ce": 0.033027712255716324,
      "loss_iou": 1.203125,
      "loss_num": 0.201171875,
      "loss_xval": 3.421875,
      "num_input_tokens_seen": 1471756,
      "step": 22
    },
    {
      "epoch": 0.0026099290780141845,
      "grad_norm": 7.76539421081543,
      "learning_rate": 5e-05,
      "loss": 3.8542,
      "num_input_tokens_seen": 1538712,
      "step": 23
    },
    {
      "epoch": 0.0026099290780141845,
      "loss": 4.036083221435547,
      "loss_ce": 0.03803623467683792,
      "loss_iou": 1.2109375,
      "loss_num": 0.31640625,
      "loss_xval": 4.0,
      "num_input_tokens_seen": 1538712,
      "step": 23
    },
    {
      "epoch": 0.002723404255319149,
      "grad_norm": 4.051932334899902,
      "learning_rate": 5e-05,
      "loss": 3.2971,
      "num_input_tokens_seen": 1603208,
      "step": 24
    },
    {
      "epoch": 0.002723404255319149,
      "loss": 3.379236936569214,
      "loss_ce": 0.03939324617385864,
      "loss_iou": 1.0625,
      "loss_num": 0.2431640625,
      "loss_xval": 3.34375,
      "num_input_tokens_seen": 1603208,
      "step": 24
    },
    {
      "epoch": 0.0028368794326241137,
      "grad_norm": 12.87353229522705,
      "learning_rate": 5e-05,
      "loss": 3.3651,
      "num_input_tokens_seen": 1669552,
      "step": 25
    },
    {
      "epoch": 0.0028368794326241137,
      "loss": 3.3153810501098633,
      "loss_ce": 0.03803734481334686,
      "loss_iou": 1.0234375,
      "loss_num": 0.244140625,
      "loss_xval": 3.28125,
      "num_input_tokens_seen": 1669552,
      "step": 25
    },
    {
      "epoch": 0.002950354609929078,
      "grad_norm": 9.244980812072754,
      "learning_rate": 5e-05,
      "loss": 3.4991,
      "num_input_tokens_seen": 1737208,
      "step": 26
    },
    {
      "epoch": 0.002950354609929078,
      "loss": 3.429594039916992,
      "loss_ce": 0.02529716119170189,
      "loss_iou": 1.140625,
      "loss_num": 0.2236328125,
      "loss_xval": 3.40625,
      "num_input_tokens_seen": 1737208,
      "step": 26
    },
    {
      "epoch": 0.0030638297872340424,
      "grad_norm": 7.093266487121582,
      "learning_rate": 5e-05,
      "loss": 3.0684,
      "num_input_tokens_seen": 1803880,
      "step": 27
    },
    {
      "epoch": 0.0030638297872340424,
      "loss": 3.25417160987854,
      "loss_ce": 0.025655925273895264,
      "loss_iou": 1.0390625,
      "loss_num": 0.23046875,
      "loss_xval": 3.234375,
      "num_input_tokens_seen": 1803880,
      "step": 27
    },
    {
      "epoch": 0.003177304964539007,
      "grad_norm": 10.340949058532715,
      "learning_rate": 5e-05,
      "loss": 2.9377,
      "num_input_tokens_seen": 1869692,
      "step": 28
    },
    {
      "epoch": 0.003177304964539007,
      "loss": 2.9330005645751953,
      "loss_ce": 0.036516107618808746,
      "loss_iou": 0.9609375,
      "loss_num": 0.1962890625,
      "loss_xval": 2.890625,
      "num_input_tokens_seen": 1869692,
      "step": 28
    },
    {
      "epoch": 0.0032907801418439716,
      "grad_norm": 5.65693998336792,
      "learning_rate": 5e-05,
      "loss": 3.2179,
      "num_input_tokens_seen": 1937360,
      "step": 29
    },
    {
      "epoch": 0.0032907801418439716,
      "loss": 3.2453060150146484,
      "loss_ce": 0.01874341443181038,
      "loss_iou": 1.0703125,
      "loss_num": 0.216796875,
      "loss_xval": 3.21875,
      "num_input_tokens_seen": 1937360,
      "step": 29
    },
    {
      "epoch": 0.003404255319148936,
      "grad_norm": 5.087376117706299,
      "learning_rate": 5e-05,
      "loss": 3.3049,
      "num_input_tokens_seen": 2005148,
      "step": 30
    },
    {
      "epoch": 0.003404255319148936,
      "loss": 3.2136824131011963,
      "loss_ce": 0.026182418689131737,
      "loss_iou": 1.09375,
      "loss_num": 0.19921875,
      "loss_xval": 3.1875,
      "num_input_tokens_seen": 2005148,
      "step": 30
    },
    {
      "epoch": 0.0035177304964539007,
      "grad_norm": 15.077629089355469,
      "learning_rate": 5e-05,
      "loss": 3.0822,
      "num_input_tokens_seen": 2071596,
      "step": 31
    },
    {
      "epoch": 0.0035177304964539007,
      "loss": 2.9823036193847656,
      "loss_ce": 0.021366115659475327,
      "loss_iou": 0.9765625,
      "loss_num": 0.201171875,
      "loss_xval": 2.96875,
      "num_input_tokens_seen": 2071596,
      "step": 31
    },
    {
      "epoch": 0.0036312056737588653,
      "grad_norm": 25.745956420898438,
      "learning_rate": 5e-05,
      "loss": 3.1973,
      "num_input_tokens_seen": 2138968,
      "step": 32
    },
    {
      "epoch": 0.0036312056737588653,
      "loss": 3.5173840522766113,
      "loss_ce": 0.013477664440870285,
      "loss_iou": 1.2109375,
      "loss_num": 0.2158203125,
      "loss_xval": 3.5,
      "num_input_tokens_seen": 2138968,
      "step": 32
    },
    {
      "epoch": 0.00374468085106383,
      "grad_norm": 5.166385173797607,
      "learning_rate": 5e-05,
      "loss": 3.2357,
      "num_input_tokens_seen": 2205960,
      "step": 33
    },
    {
      "epoch": 0.00374468085106383,
      "loss": 3.4416770935058594,
      "loss_ce": 0.01589583419263363,
      "loss_iou": 1.125,
      "loss_num": 0.234375,
      "loss_xval": 3.421875,
      "num_input_tokens_seen": 2205960,
      "step": 33
    },
    {
      "epoch": 0.0038581560283687945,
      "grad_norm": 6.271339416503906,
      "learning_rate": 5e-05,
      "loss": 3.2122,
      "num_input_tokens_seen": 2273236,
      "step": 34
    },
    {
      "epoch": 0.0038581560283687945,
      "loss": 3.2290549278259277,
      "loss_ce": 0.014211117289960384,
      "loss_iou": 1.1015625,
      "loss_num": 0.2041015625,
      "loss_xval": 3.21875,
      "num_input_tokens_seen": 2273236,
      "step": 34
    },
    {
      "epoch": 0.003971631205673759,
      "grad_norm": 7.2820658683776855,
      "learning_rate": 5e-05,
      "loss": 3.2987,
      "num_input_tokens_seen": 2340140,
      "step": 35
    },
    {
      "epoch": 0.003971631205673759,
      "loss": 3.244724988937378,
      "loss_ce": 0.016209453344345093,
      "loss_iou": 1.1484375,
      "loss_num": 0.185546875,
      "loss_xval": 3.234375,
      "num_input_tokens_seen": 2340140,
      "step": 35
    },
    {
      "epoch": 0.004085106382978723,
      "grad_norm": 14.640467643737793,
      "learning_rate": 5e-05,
      "loss": 3.1227,
      "num_input_tokens_seen": 2407428,
      "step": 36
    },
    {
      "epoch": 0.004085106382978723,
      "loss": 2.951874017715454,
      "loss_ce": 0.02658107876777649,
      "loss_iou": 0.94140625,
      "loss_num": 0.208984375,
      "loss_xval": 2.921875,
      "num_input_tokens_seen": 2407428,
      "step": 36
    },
    {
      "epoch": 0.004198581560283688,
      "grad_norm": 5.092796325683594,
      "learning_rate": 5e-05,
      "loss": 3.2103,
      "num_input_tokens_seen": 2474252,
      "step": 37
    },
    {
      "epoch": 0.004198581560283688,
      "loss": 3.226686477661133,
      "loss_ce": 0.011842579580843449,
      "loss_iou": 1.09375,
      "loss_num": 0.2060546875,
      "loss_xval": 3.21875,
      "num_input_tokens_seen": 2474252,
      "step": 37
    },
    {
      "epoch": 0.004312056737588652,
      "grad_norm": 5.036368370056152,
      "learning_rate": 5e-05,
      "loss": 3.296,
      "num_input_tokens_seen": 2541620,
      "step": 38
    },
    {
      "epoch": 0.004312056737588652,
      "loss": 3.1863226890563965,
      "loss_ce": 0.014447560533881187,
      "loss_iou": 1.03125,
      "loss_num": 0.220703125,
      "loss_xval": 3.171875,
      "num_input_tokens_seen": 2541620,
      "step": 38
    },
    {
      "epoch": 0.004425531914893617,
      "grad_norm": 3.7073731422424316,
      "learning_rate": 5e-05,
      "loss": 3.2552,
      "num_input_tokens_seen": 2608004,
      "step": 39
    },
    {
      "epoch": 0.004425531914893617,
      "loss": 3.2353901863098145,
      "loss_ce": 0.016640380024909973,
      "loss_iou": 1.0703125,
      "loss_num": 0.2158203125,
      "loss_xval": 3.21875,
      "num_input_tokens_seen": 2608004,
      "step": 39
    },
    {
      "epoch": 0.0045390070921985815,
      "grad_norm": 6.209971904754639,
      "learning_rate": 5e-05,
      "loss": 3.2094,
      "num_input_tokens_seen": 2675836,
      "step": 40
    },
    {
      "epoch": 0.0045390070921985815,
      "loss": 3.2232232093811035,
      "loss_ce": 0.008379506878554821,
      "loss_iou": 1.109375,
      "loss_num": 0.19921875,
      "loss_xval": 3.21875,
      "num_input_tokens_seen": 2675836,
      "step": 40
    },
    {
      "epoch": 0.004652482269503546,
      "grad_norm": 8.342676162719727,
      "learning_rate": 5e-05,
      "loss": 2.8873,
      "num_input_tokens_seen": 2741768,
      "step": 41
    },
    {
      "epoch": 0.004652482269503546,
      "loss": 2.893777847290039,
      "loss_ce": 0.012918546795845032,
      "loss_iou": 0.95703125,
      "loss_num": 0.193359375,
      "loss_xval": 2.875,
      "num_input_tokens_seen": 2741768,
      "step": 41
    },
    {
      "epoch": 0.004765957446808511,
      "grad_norm": 43.74870300292969,
      "learning_rate": 5e-05,
      "loss": 3.3865,
      "num_input_tokens_seen": 2808552,
      "step": 42
    },
    {
      "epoch": 0.004765957446808511,
      "loss": 3.3300743103027344,
      "loss_ce": 0.008785326033830643,
      "loss_iou": 1.15625,
      "loss_num": 0.2001953125,
      "loss_xval": 3.328125,
      "num_input_tokens_seen": 2808552,
      "step": 42
    },
    {
      "epoch": 0.004879432624113475,
      "grad_norm": 6.899226188659668,
      "learning_rate": 5e-05,
      "loss": 3.0575,
      "num_input_tokens_seen": 2874368,
      "step": 43
    },
    {
      "epoch": 0.004879432624113475,
      "loss": 3.160278797149658,
      "loss_ce": 0.013794245198369026,
      "loss_iou": 1.0,
      "loss_num": 0.2294921875,
      "loss_xval": 3.140625,
      "num_input_tokens_seen": 2874368,
      "step": 43
    },
    {
      "epoch": 0.00499290780141844,
      "grad_norm": 8.76381778717041,
      "learning_rate": 5e-05,
      "loss": 3.098,
      "num_input_tokens_seen": 2942280,
      "step": 44
    },
    {
      "epoch": 0.00499290780141844,
      "loss": 3.042665958404541,
      "loss_ce": 0.013369287364184856,
      "loss_iou": 1.0078125,
      "loss_num": 0.203125,
      "loss_xval": 3.03125,
      "num_input_tokens_seen": 2942280,
      "step": 44
    },
    {
      "epoch": 0.005106382978723404,
      "grad_norm": 11.44902515411377,
      "learning_rate": 5e-05,
      "loss": 2.7743,
      "num_input_tokens_seen": 3008932,
      "step": 45
    },
    {
      "epoch": 0.005106382978723404,
      "loss": 2.9786813259124756,
      "loss_ce": 0.02360326424241066,
      "loss_iou": 1.0625,
      "loss_num": 0.1669921875,
      "loss_xval": 2.953125,
      "num_input_tokens_seen": 3008932,
      "step": 45
    },
    {
      "epoch": 0.005219858156028369,
      "grad_norm": 10.107078552246094,
      "learning_rate": 5e-05,
      "loss": 3.2513,
      "num_input_tokens_seen": 3075160,
      "step": 46
    },
    {
      "epoch": 0.005219858156028369,
      "loss": 3.5152783393859863,
      "loss_ce": 0.013325048610568047,
      "loss_iou": 1.15625,
      "loss_num": 0.236328125,
      "loss_xval": 3.5,
      "num_input_tokens_seen": 3075160,
      "step": 46
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 10.514970779418945,
      "learning_rate": 5e-05,
      "loss": 2.917,
      "num_input_tokens_seen": 3142912,
      "step": 47
    },
    {
      "epoch": 0.005333333333333333,
      "loss": 3.0092010498046875,
      "loss_ce": 0.009201235137879848,
      "loss_iou": 1.0078125,
      "loss_num": 0.197265625,
      "loss_xval": 3.0,
      "num_input_tokens_seen": 3142912,
      "step": 47
    },
    {
      "epoch": 0.005446808510638298,
      "grad_norm": 12.588556289672852,
      "learning_rate": 5e-05,
      "loss": 2.8572,
      "num_input_tokens_seen": 3209908,
      "step": 48
    },
    {
      "epoch": 0.005446808510638298,
      "loss": 2.809335947036743,
      "loss_ce": 0.00757807120680809,
      "loss_iou": 0.8984375,
      "loss_num": 0.201171875,
      "loss_xval": 2.796875,
      "num_input_tokens_seen": 3209908,
      "step": 48
    },
    {
      "epoch": 0.005560283687943262,
      "grad_norm": 6.559781074523926,
      "learning_rate": 5e-05,
      "loss": 2.998,
      "num_input_tokens_seen": 3276672,
      "step": 49
    },
    {
      "epoch": 0.005560283687943262,
      "loss": 2.8995463848114014,
      "loss_ce": 0.005015142727643251,
      "loss_iou": 1.015625,
      "loss_num": 0.173828125,
      "loss_xval": 2.890625,
      "num_input_tokens_seen": 3276672,
      "step": 49
    },
    {
      "epoch": 0.005673758865248227,
      "grad_norm": 7.066703796386719,
      "learning_rate": 5e-05,
      "loss": 2.8101,
      "num_input_tokens_seen": 3343792,
      "step": 50
    },
    {
      "epoch": 0.005673758865248227,
      "loss": 2.908329486846924,
      "loss_ce": 0.011844993568956852,
      "loss_iou": 1.015625,
      "loss_num": 0.171875,
      "loss_xval": 2.890625,
      "num_input_tokens_seen": 3343792,
      "step": 50
    },
    {
      "epoch": 0.0057872340425531915,
      "grad_norm": 6.118130207061768,
      "learning_rate": 5e-05,
      "loss": 2.8412,
      "num_input_tokens_seen": 3411448,
      "step": 51
    },
    {
      "epoch": 0.0057872340425531915,
      "loss": 2.87723445892334,
      "loss_ce": 0.010047070682048798,
      "loss_iou": 1.046875,
      "loss_num": 0.1533203125,
      "loss_xval": 2.875,
      "num_input_tokens_seen": 3411448,
      "step": 51
    },
    {
      "epoch": 0.005900709219858156,
      "grad_norm": 15.521916389465332,
      "learning_rate": 5e-05,
      "loss": 2.6772,
      "num_input_tokens_seen": 3479236,
      "step": 52
    },
    {
      "epoch": 0.005900709219858156,
      "loss": 2.4944512844085693,
      "loss_ce": 0.010076284408569336,
      "loss_iou": 0.86328125,
      "loss_num": 0.1513671875,
      "loss_xval": 2.484375,
      "num_input_tokens_seen": 3479236,
      "step": 52
    },
    {
      "epoch": 0.006014184397163121,
      "grad_norm": 9.27701187133789,
      "learning_rate": 5e-05,
      "loss": 3.1116,
      "num_input_tokens_seen": 3547500,
      "step": 53
    },
    {
      "epoch": 0.006014184397163121,
      "loss": 2.907122850418091,
      "loss_ce": 0.0077086505480110645,
      "loss_iou": 1.046875,
      "loss_num": 0.16015625,
      "loss_xval": 2.90625,
      "num_input_tokens_seen": 3547500,
      "step": 53
    },
    {
      "epoch": 0.006127659574468085,
      "grad_norm": 9.394679069519043,
      "learning_rate": 5e-05,
      "loss": 2.9559,
      "num_input_tokens_seen": 3613844,
      "step": 54
    },
    {
      "epoch": 0.006127659574468085,
      "loss": 3.4242916107177734,
      "loss_ce": 0.006322690285742283,
      "loss_iou": 1.140625,
      "loss_num": 0.2265625,
      "loss_xval": 3.421875,
      "num_input_tokens_seen": 3613844,
      "step": 54
    },
    {
      "epoch": 0.00624113475177305,
      "grad_norm": 5.836346626281738,
      "learning_rate": 5e-05,
      "loss": 2.9457,
      "num_input_tokens_seen": 3680948,
      "step": 55
    },
    {
      "epoch": 0.00624113475177305,
      "loss": 2.863321542739868,
      "loss_ce": 0.00980587862432003,
      "loss_iou": 0.95703125,
      "loss_num": 0.189453125,
      "loss_xval": 2.859375,
      "num_input_tokens_seen": 3680948,
      "step": 55
    },
    {
      "epoch": 0.006354609929078014,
      "grad_norm": 15.87983226776123,
      "learning_rate": 5e-05,
      "loss": 2.7969,
      "num_input_tokens_seen": 3748508,
      "step": 56
    },
    {
      "epoch": 0.006354609929078014,
      "loss": 2.678032159805298,
      "loss_ce": 0.010063438676297665,
      "loss_iou": 0.9375,
      "loss_num": 0.158203125,
      "loss_xval": 2.671875,
      "num_input_tokens_seen": 3748508,
      "step": 56
    },
    {
      "epoch": 0.006468085106382979,
      "grad_norm": 5.530770778656006,
      "learning_rate": 5e-05,
      "loss": 2.6417,
      "num_input_tokens_seen": 3815268,
      "step": 57
    },
    {
      "epoch": 0.006468085106382979,
      "loss": 2.2829160690307617,
      "loss_ce": 0.009478483349084854,
      "loss_iou": 0.6875,
      "loss_num": 0.1806640625,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 3815268,
      "step": 57
    },
    {
      "epoch": 0.006581560283687943,
      "grad_norm": 4.315315246582031,
      "learning_rate": 5e-05,
      "loss": 3.2414,
      "num_input_tokens_seen": 3882760,
      "step": 58
    },
    {
      "epoch": 0.006581560283687943,
      "loss": 3.4431710243225098,
      "loss_ce": 0.00762423500418663,
      "loss_iou": 1.140625,
      "loss_num": 0.23046875,
      "loss_xval": 3.4375,
      "num_input_tokens_seen": 3882760,
      "step": 58
    },
    {
      "epoch": 0.006695035460992908,
      "grad_norm": 4.099777698516846,
      "learning_rate": 5e-05,
      "loss": 2.82,
      "num_input_tokens_seen": 3950132,
      "step": 59
    },
    {
      "epoch": 0.006695035460992908,
      "loss": 2.961738109588623,
      "loss_ce": 0.014472629874944687,
      "loss_iou": 1.0078125,
      "loss_num": 0.1875,
      "loss_xval": 2.953125,
      "num_input_tokens_seen": 3950132,
      "step": 59
    },
    {
      "epoch": 0.006808510638297872,
      "grad_norm": 4.737869739532471,
      "learning_rate": 5e-05,
      "loss": 3.057,
      "num_input_tokens_seen": 4017968,
      "step": 60
    },
    {
      "epoch": 0.006808510638297872,
      "loss": 2.9915292263031006,
      "loss_ce": 0.009107226505875587,
      "loss_iou": 1.0,
      "loss_num": 0.197265625,
      "loss_xval": 2.984375,
      "num_input_tokens_seen": 4017968,
      "step": 60
    },
    {
      "epoch": 0.006921985815602837,
      "grad_norm": 5.336755275726318,
      "learning_rate": 5e-05,
      "loss": 2.9503,
      "num_input_tokens_seen": 4085844,
      "step": 61
    },
    {
      "epoch": 0.006921985815602837,
      "loss": 2.772848129272461,
      "loss_ce": 0.011129356920719147,
      "loss_iou": 0.9921875,
      "loss_num": 0.1552734375,
      "loss_xval": 2.765625,
      "num_input_tokens_seen": 4085844,
      "step": 61
    },
    {
      "epoch": 0.0070354609929078014,
      "grad_norm": 9.922431945800781,
      "learning_rate": 5e-05,
      "loss": 2.8124,
      "num_input_tokens_seen": 4153360,
      "step": 62
    },
    {
      "epoch": 0.0070354609929078014,
      "loss": 2.9901256561279297,
      "loss_ce": 0.009656917303800583,
      "loss_iou": 1.0859375,
      "loss_num": 0.1611328125,
      "loss_xval": 2.984375,
      "num_input_tokens_seen": 4153360,
      "step": 62
    },
    {
      "epoch": 0.007148936170212766,
      "grad_norm": 7.688083171844482,
      "learning_rate": 5e-05,
      "loss": 2.88,
      "num_input_tokens_seen": 4221308,
      "step": 63
    },
    {
      "epoch": 0.007148936170212766,
      "loss": 2.963686466217041,
      "loss_ce": 0.0066553205251693726,
      "loss_iou": 1.1015625,
      "loss_num": 0.1494140625,
      "loss_xval": 2.953125,
      "num_input_tokens_seen": 4221308,
      "step": 63
    },
    {
      "epoch": 0.007262411347517731,
      "grad_norm": 13.970093727111816,
      "learning_rate": 5e-05,
      "loss": 2.6531,
      "num_input_tokens_seen": 4288120,
      "step": 64
    },
    {
      "epoch": 0.007262411347517731,
      "loss": 2.7535057067871094,
      "loss_ce": 0.013271292671561241,
      "loss_iou": 1.0078125,
      "loss_num": 0.14453125,
      "loss_xval": 2.734375,
      "num_input_tokens_seen": 4288120,
      "step": 64
    },
    {
      "epoch": 0.007375886524822695,
      "grad_norm": 13.527824401855469,
      "learning_rate": 5e-05,
      "loss": 2.3448,
      "num_input_tokens_seen": 4353588,
      "step": 65
    },
    {
      "epoch": 0.007375886524822695,
      "loss": 2.502791404724121,
      "loss_ce": 0.00865076668560505,
      "loss_iou": 0.87890625,
      "loss_num": 0.1474609375,
      "loss_xval": 2.5,
      "num_input_tokens_seen": 4353588,
      "step": 65
    },
    {
      "epoch": 0.00748936170212766,
      "grad_norm": 6.346640110015869,
      "learning_rate": 5e-05,
      "loss": 2.8598,
      "num_input_tokens_seen": 4422112,
      "step": 66
    },
    {
      "epoch": 0.00748936170212766,
      "loss": 2.9442861080169678,
      "loss_ce": 0.010692392475903034,
      "loss_iou": 1.046875,
      "loss_num": 0.1669921875,
      "loss_xval": 2.9375,
      "num_input_tokens_seen": 4422112,
      "step": 66
    },
    {
      "epoch": 0.007602836879432624,
      "grad_norm": 5.829154968261719,
      "learning_rate": 5e-05,
      "loss": 2.5974,
      "num_input_tokens_seen": 4488708,
      "step": 67
    },
    {
      "epoch": 0.007602836879432624,
      "loss": 2.5774426460266113,
      "loss_ce": 0.011036482639610767,
      "loss_iou": 0.93359375,
      "loss_num": 0.140625,
      "loss_xval": 2.5625,
      "num_input_tokens_seen": 4488708,
      "step": 67
    },
    {
      "epoch": 0.007716312056737589,
      "grad_norm": 7.213119029998779,
      "learning_rate": 5e-05,
      "loss": 2.5424,
      "num_input_tokens_seen": 4555500,
      "step": 68
    },
    {
      "epoch": 0.007716312056737589,
      "loss": 2.508157968521118,
      "loss_ce": 0.017923396080732346,
      "loss_iou": 0.921875,
      "loss_num": 0.1279296875,
      "loss_xval": 2.484375,
      "num_input_tokens_seen": 4555500,
      "step": 68
    },
    {
      "epoch": 0.007829787234042554,
      "grad_norm": 10.547880172729492,
      "learning_rate": 5e-05,
      "loss": 2.6073,
      "num_input_tokens_seen": 4622996,
      "step": 69
    },
    {
      "epoch": 0.007829787234042554,
      "loss": 2.542689085006714,
      "loss_ce": 0.008509552106261253,
      "loss_iou": 0.92578125,
      "loss_num": 0.13671875,
      "loss_xval": 2.53125,
      "num_input_tokens_seen": 4622996,
      "step": 69
    },
    {
      "epoch": 0.007943262411347518,
      "grad_norm": 8.269576072692871,
      "learning_rate": 5e-05,
      "loss": 2.5454,
      "num_input_tokens_seen": 4690404,
      "step": 70
    },
    {
      "epoch": 0.007943262411347518,
      "loss": 2.38620662689209,
      "loss_ce": 0.0073004839941859245,
      "loss_iou": 0.87890625,
      "loss_num": 0.125,
      "loss_xval": 2.375,
      "num_input_tokens_seen": 4690404,
      "step": 70
    },
    {
      "epoch": 0.008056737588652482,
      "grad_norm": 14.860235214233398,
      "learning_rate": 5e-05,
      "loss": 2.5019,
      "num_input_tokens_seen": 4757200,
      "step": 71
    },
    {
      "epoch": 0.008056737588652482,
      "loss": 2.4089126586914062,
      "loss_ce": 0.011451826430857182,
      "loss_iou": 0.921875,
      "loss_num": 0.11181640625,
      "loss_xval": 2.390625,
      "num_input_tokens_seen": 4757200,
      "step": 71
    },
    {
      "epoch": 0.008170212765957446,
      "grad_norm": 16.253028869628906,
      "learning_rate": 5e-05,
      "loss": 3.3619,
      "num_input_tokens_seen": 4823852,
      "step": 72
    },
    {
      "epoch": 0.008170212765957446,
      "loss": 3.507723331451416,
      "loss_ce": 0.00967651791870594,
      "loss_iou": 1.234375,
      "loss_num": 0.2060546875,
      "loss_xval": 3.5,
      "num_input_tokens_seen": 4823852,
      "step": 72
    },
    {
      "epoch": 0.00828368794326241,
      "grad_norm": 6.981881618499756,
      "learning_rate": 5e-05,
      "loss": 2.697,
      "num_input_tokens_seen": 4890864,
      "step": 73
    },
    {
      "epoch": 0.00828368794326241,
      "loss": 2.653503894805908,
      "loss_ce": 0.007019517943263054,
      "loss_iou": 0.98828125,
      "loss_num": 0.1337890625,
      "loss_xval": 2.640625,
      "num_input_tokens_seen": 4890864,
      "step": 73
    },
    {
      "epoch": 0.008397163120567376,
      "grad_norm": 8.24846363067627,
      "learning_rate": 5e-05,
      "loss": 2.5443,
      "num_input_tokens_seen": 4957524,
      "step": 74
    },
    {
      "epoch": 0.008397163120567376,
      "loss": 2.709878921508789,
      "loss_ce": 0.014566643163561821,
      "loss_iou": 0.9453125,
      "loss_num": 0.16015625,
      "loss_xval": 2.6875,
      "num_input_tokens_seen": 4957524,
      "step": 74
    },
    {
      "epoch": 0.00851063829787234,
      "grad_norm": 6.173079967498779,
      "learning_rate": 5e-05,
      "loss": 2.5735,
      "num_input_tokens_seen": 5025836,
      "step": 75
    },
    {
      "epoch": 0.00851063829787234,
      "loss": 2.4874625205993652,
      "loss_ce": 0.0069938162341713905,
      "loss_iou": 0.94921875,
      "loss_num": 0.11669921875,
      "loss_xval": 2.484375,
      "num_input_tokens_seen": 5025836,
      "step": 75
    },
    {
      "epoch": 0.008624113475177305,
      "grad_norm": 4.975887298583984,
      "learning_rate": 5e-05,
      "loss": 2.1259,
      "num_input_tokens_seen": 5093444,
      "step": 76
    },
    {
      "epoch": 0.008624113475177305,
      "loss": 2.509462356567383,
      "loss_ce": 0.0055563305504620075,
      "loss_iou": 0.97265625,
      "loss_num": 0.11181640625,
      "loss_xval": 2.5,
      "num_input_tokens_seen": 5093444,
      "step": 76
    },
    {
      "epoch": 0.008737588652482269,
      "grad_norm": 15.282363891601562,
      "learning_rate": 5e-05,
      "loss": 2.4884,
      "num_input_tokens_seen": 5161120,
      "step": 77
    },
    {
      "epoch": 0.008737588652482269,
      "loss": 2.3355939388275146,
      "loss_ce": 0.00844564288854599,
      "loss_iou": 0.9453125,
      "loss_num": 0.08642578125,
      "loss_xval": 2.328125,
      "num_input_tokens_seen": 5161120,
      "step": 77
    },
    {
      "epoch": 0.008851063829787235,
      "grad_norm": 7.125483989715576,
      "learning_rate": 5e-05,
      "loss": 3.0042,
      "num_input_tokens_seen": 5228308,
      "step": 78
    },
    {
      "epoch": 0.008851063829787235,
      "loss": 2.919025421142578,
      "loss_ce": 0.008869275450706482,
      "loss_iou": 1.0625,
      "loss_num": 0.15625,
      "loss_xval": 2.90625,
      "num_input_tokens_seen": 5228308,
      "step": 78
    },
    {
      "epoch": 0.008964539007092199,
      "grad_norm": 4.547830104827881,
      "learning_rate": 5e-05,
      "loss": 2.6491,
      "num_input_tokens_seen": 5295820,
      "step": 79
    },
    {
      "epoch": 0.008964539007092199,
      "loss": 2.454040288925171,
      "loss_ce": 0.007751175202429295,
      "loss_iou": 0.89453125,
      "loss_num": 0.130859375,
      "loss_xval": 2.453125,
      "num_input_tokens_seen": 5295820,
      "step": 79
    },
    {
      "epoch": 0.009078014184397163,
      "grad_norm": 8.89479923248291,
      "learning_rate": 5e-05,
      "loss": 2.7545,
      "num_input_tokens_seen": 5363560,
      "step": 80
    },
    {
      "epoch": 0.009078014184397163,
      "loss": 2.7286581993103027,
      "loss_ce": 0.009908217005431652,
      "loss_iou": 1.03125,
      "loss_num": 0.130859375,
      "loss_xval": 2.71875,
      "num_input_tokens_seen": 5363560,
      "step": 80
    },
    {
      "epoch": 0.009191489361702127,
      "grad_norm": 4.9615654945373535,
      "learning_rate": 5e-05,
      "loss": 2.3426,
      "num_input_tokens_seen": 5430148,
      "step": 81
    },
    {
      "epoch": 0.009191489361702127,
      "loss": 2.3363571166992188,
      "loss_ce": 0.01018520351499319,
      "loss_iou": 0.91015625,
      "loss_num": 0.10107421875,
      "loss_xval": 2.328125,
      "num_input_tokens_seen": 5430148,
      "step": 81
    },
    {
      "epoch": 0.009304964539007091,
      "grad_norm": 19.4980411529541,
      "learning_rate": 5e-05,
      "loss": 2.5623,
      "num_input_tokens_seen": 5497960,
      "step": 82
    },
    {
      "epoch": 0.009304964539007091,
      "loss": 2.5096840858459473,
      "loss_ce": 0.007730994839221239,
      "loss_iou": 1.015625,
      "loss_num": 0.09521484375,
      "loss_xval": 2.5,
      "num_input_tokens_seen": 5497960,
      "step": 82
    },
    {
      "epoch": 0.009418439716312057,
      "grad_norm": 9.245756149291992,
      "learning_rate": 5e-05,
      "loss": 2.8978,
      "num_input_tokens_seen": 5566124,
      "step": 83
    },
    {
      "epoch": 0.009418439716312057,
      "loss": 2.7621731758117676,
      "loss_ce": 0.0102202408015728,
      "loss_iou": 1.0,
      "loss_num": 0.1494140625,
      "loss_xval": 2.75,
      "num_input_tokens_seen": 5566124,
      "step": 83
    },
    {
      "epoch": 0.009531914893617021,
      "grad_norm": 13.256793022155762,
      "learning_rate": 5e-05,
      "loss": 2.4489,
      "num_input_tokens_seen": 5632716,
      "step": 84
    },
    {
      "epoch": 0.009531914893617021,
      "loss": 2.329174757003784,
      "loss_ce": 0.01032694336026907,
      "loss_iou": 0.859375,
      "loss_num": 0.11962890625,
      "loss_xval": 2.3125,
      "num_input_tokens_seen": 5632716,
      "step": 84
    },
    {
      "epoch": 0.009645390070921986,
      "grad_norm": 8.832173347473145,
      "learning_rate": 5e-05,
      "loss": 2.4769,
      "num_input_tokens_seen": 5700172,
      "step": 85
    },
    {
      "epoch": 0.009645390070921986,
      "loss": 2.4586641788482666,
      "loss_ce": 0.007492384873330593,
      "loss_iou": 0.96484375,
      "loss_num": 0.1044921875,
      "loss_xval": 2.453125,
      "num_input_tokens_seen": 5700172,
      "step": 85
    },
    {
      "epoch": 0.00975886524822695,
      "grad_norm": 14.928328514099121,
      "learning_rate": 5e-05,
      "loss": 2.5181,
      "num_input_tokens_seen": 5767504,
      "step": 86
    },
    {
      "epoch": 0.00975886524822695,
      "loss": 2.45053768157959,
      "loss_ce": 0.005225052125751972,
      "loss_iou": 1.0078125,
      "loss_num": 0.0859375,
      "loss_xval": 2.4375,
      "num_input_tokens_seen": 5767504,
      "step": 86
    },
    {
      "epoch": 0.009872340425531916,
      "grad_norm": 8.891000747680664,
      "learning_rate": 5e-05,
      "loss": 2.7561,
      "num_input_tokens_seen": 5833684,
      "step": 87
    },
    {
      "epoch": 0.009872340425531916,
      "loss": 2.5763773918151855,
      "loss_ce": 0.008994570933282375,
      "loss_iou": 0.921875,
      "loss_num": 0.1455078125,
      "loss_xval": 2.5625,
      "num_input_tokens_seen": 5833684,
      "step": 87
    },
    {
      "epoch": 0.00998581560283688,
      "grad_norm": 7.094668865203857,
      "learning_rate": 5e-05,
      "loss": 2.2992,
      "num_input_tokens_seen": 5900448,
      "step": 88
    },
    {
      "epoch": 0.00998581560283688,
      "loss": 2.3508455753326416,
      "loss_ce": 0.007095618639141321,
      "loss_iou": 0.85546875,
      "loss_num": 0.126953125,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 5900448,
      "step": 88
    },
    {
      "epoch": 0.010099290780141844,
      "grad_norm": 8.261618614196777,
      "learning_rate": 5e-05,
      "loss": 2.438,
      "num_input_tokens_seen": 5967972,
      "step": 89
    },
    {
      "epoch": 0.010099290780141844,
      "loss": 2.429459571838379,
      "loss_ce": 0.01637376844882965,
      "loss_iou": 0.953125,
      "loss_num": 0.10205078125,
      "loss_xval": 2.40625,
      "num_input_tokens_seen": 5967972,
      "step": 89
    },
    {
      "epoch": 0.010212765957446808,
      "grad_norm": 5.496701240539551,
      "learning_rate": 5e-05,
      "loss": 2.1694,
      "num_input_tokens_seen": 6034580,
      "step": 90
    },
    {
      "epoch": 0.010212765957446808,
      "loss": 2.3620972633361816,
      "loss_ce": 0.007605152204632759,
      "loss_iou": 0.93359375,
      "loss_num": 0.09716796875,
      "loss_xval": 2.359375,
      "num_input_tokens_seen": 6034580,
      "step": 90
    },
    {
      "epoch": 0.010326241134751774,
      "grad_norm": 13.890410423278809,
      "learning_rate": 5e-05,
      "loss": 2.4451,
      "num_input_tokens_seen": 6101588,
      "step": 91
    },
    {
      "epoch": 0.010326241134751774,
      "loss": 2.378817319869995,
      "loss_ce": 0.005770448129624128,
      "loss_iou": 0.98828125,
      "loss_num": 0.080078125,
      "loss_xval": 2.375,
      "num_input_tokens_seen": 6101588,
      "step": 91
    },
    {
      "epoch": 0.010439716312056738,
      "grad_norm": 8.135549545288086,
      "learning_rate": 5e-05,
      "loss": 2.2326,
      "num_input_tokens_seen": 6168472,
      "step": 92
    },
    {
      "epoch": 0.010439716312056738,
      "loss": 2.184131622314453,
      "loss_ce": 0.007373795844614506,
      "loss_iou": 0.82421875,
      "loss_num": 0.10546875,
      "loss_xval": 2.171875,
      "num_input_tokens_seen": 6168472,
      "step": 92
    },
    {
      "epoch": 0.010553191489361702,
      "grad_norm": 12.356173515319824,
      "learning_rate": 5e-05,
      "loss": 2.2381,
      "num_input_tokens_seen": 6235012,
      "step": 93
    },
    {
      "epoch": 0.010553191489361702,
      "loss": 2.1557703018188477,
      "loss_ce": 0.013192327693104744,
      "loss_iou": 0.88671875,
      "loss_num": 0.07373046875,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 6235012,
      "step": 93
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 15.420221328735352,
      "learning_rate": 5e-05,
      "loss": 2.6241,
      "num_input_tokens_seen": 6302420,
      "step": 94
    },
    {
      "epoch": 0.010666666666666666,
      "loss": 2.5621769428253174,
      "loss_ce": 0.006512865889817476,
      "loss_iou": 0.953125,
      "loss_num": 0.12890625,
      "loss_xval": 2.5625,
      "num_input_tokens_seen": 6302420,
      "step": 94
    },
    {
      "epoch": 0.01078014184397163,
      "grad_norm": 8.200180053710938,
      "learning_rate": 5e-05,
      "loss": 2.4262,
      "num_input_tokens_seen": 6368384,
      "step": 95
    },
    {
      "epoch": 0.01078014184397163,
      "loss": 2.390294075012207,
      "loss_ce": 0.003819576930254698,
      "loss_iou": 0.9375,
      "loss_num": 0.1025390625,
      "loss_xval": 2.390625,
      "num_input_tokens_seen": 6368384,
      "step": 95
    },
    {
      "epoch": 0.010893617021276596,
      "grad_norm": 6.346100330352783,
      "learning_rate": 5e-05,
      "loss": 2.0011,
      "num_input_tokens_seen": 6434860,
      "step": 96
    },
    {
      "epoch": 0.010893617021276596,
      "loss": 1.6163570880889893,
      "loss_ce": 0.0113766985014081,
      "loss_iou": 0.60546875,
      "loss_num": 0.07861328125,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 6434860,
      "step": 96
    },
    {
      "epoch": 0.01100709219858156,
      "grad_norm": 12.341034889221191,
      "learning_rate": 5e-05,
      "loss": 2.2999,
      "num_input_tokens_seen": 6501180,
      "step": 97
    },
    {
      "epoch": 0.01100709219858156,
      "loss": 2.2006490230560303,
      "loss_ce": 0.009242893196642399,
      "loss_iou": 0.890625,
      "loss_num": 0.08203125,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 6501180,
      "step": 97
    },
    {
      "epoch": 0.011120567375886525,
      "grad_norm": 15.006393432617188,
      "learning_rate": 5e-05,
      "loss": 2.6,
      "num_input_tokens_seen": 6568532,
      "step": 98
    },
    {
      "epoch": 0.011120567375886525,
      "loss": 2.6630752086639404,
      "loss_ce": 0.0068252249620854855,
      "loss_iou": 1.03125,
      "loss_num": 0.1171875,
      "loss_xval": 2.65625,
      "num_input_tokens_seen": 6568532,
      "step": 98
    },
    {
      "epoch": 0.011234042553191489,
      "grad_norm": 7.266084671020508,
      "learning_rate": 5e-05,
      "loss": 2.3615,
      "num_input_tokens_seen": 6635724,
      "step": 99
    },
    {
      "epoch": 0.011234042553191489,
      "loss": 2.269615650177002,
      "loss_ce": 0.00985008291900158,
      "loss_iou": 0.8828125,
      "loss_num": 0.09814453125,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 6635724,
      "step": 99
    },
    {
      "epoch": 0.011347517730496455,
      "grad_norm": 7.857276916503906,
      "learning_rate": 5e-05,
      "loss": 2.1606,
      "num_input_tokens_seen": 6701788,
      "step": 100
    },
    {
      "epoch": 0.011347517730496455,
      "loss": 2.1348352432250977,
      "loss_ce": 0.026436766609549522,
      "loss_iou": 0.84375,
      "loss_num": 0.083984375,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 6701788,
      "step": 100
    },
    {
      "epoch": 0.011460992907801419,
      "grad_norm": 22.383508682250977,
      "learning_rate": 5e-05,
      "loss": 2.3089,
      "num_input_tokens_seen": 6768528,
      "step": 101
    },
    {
      "epoch": 0.011460992907801419,
      "loss": 2.395995616912842,
      "loss_ce": 0.005370710976421833,
      "loss_iou": 1.0078125,
      "loss_num": 0.0751953125,
      "loss_xval": 2.390625,
      "num_input_tokens_seen": 6768528,
      "step": 101
    },
    {
      "epoch": 0.011574468085106383,
      "grad_norm": 6.705496788024902,
      "learning_rate": 5e-05,
      "loss": 2.7172,
      "num_input_tokens_seen": 6835084,
      "step": 102
    },
    {
      "epoch": 0.011574468085106383,
      "loss": 2.7393996715545654,
      "loss_ce": 0.006977814249694347,
      "loss_iou": 1.046875,
      "loss_num": 0.126953125,
      "loss_xval": 2.734375,
      "num_input_tokens_seen": 6835084,
      "step": 102
    },
    {
      "epoch": 0.011687943262411347,
      "grad_norm": 5.885056495666504,
      "learning_rate": 5e-05,
      "loss": 2.2992,
      "num_input_tokens_seen": 6901256,
      "step": 103
    },
    {
      "epoch": 0.011687943262411347,
      "loss": 2.5100631713867188,
      "loss_ce": 0.006156673654913902,
      "loss_iou": 0.9609375,
      "loss_num": 0.11669921875,
      "loss_xval": 2.5,
      "num_input_tokens_seen": 6901256,
      "step": 103
    },
    {
      "epoch": 0.011801418439716311,
      "grad_norm": 11.500906944274902,
      "learning_rate": 5e-05,
      "loss": 2.5529,
      "num_input_tokens_seen": 6968988,
      "step": 104
    },
    {
      "epoch": 0.011801418439716311,
      "loss": 2.523526430130005,
      "loss_ce": 0.005948411300778389,
      "loss_iou": 0.97265625,
      "loss_num": 0.1142578125,
      "loss_xval": 2.515625,
      "num_input_tokens_seen": 6968988,
      "step": 104
    },
    {
      "epoch": 0.011914893617021277,
      "grad_norm": 7.016684055328369,
      "learning_rate": 5e-05,
      "loss": 2.2374,
      "num_input_tokens_seen": 7034432,
      "step": 105
    },
    {
      "epoch": 0.011914893617021277,
      "loss": 2.069047451019287,
      "loss_ce": 0.008378518745303154,
      "loss_iou": 0.828125,
      "loss_num": 0.0810546875,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 7034432,
      "step": 105
    },
    {
      "epoch": 0.012028368794326241,
      "grad_norm": 6.853860855102539,
      "learning_rate": 5e-05,
      "loss": 2.4052,
      "num_input_tokens_seen": 7100940,
      "step": 106
    },
    {
      "epoch": 0.012028368794326241,
      "loss": 2.4445393085479736,
      "loss_ce": 0.007039299234747887,
      "loss_iou": 0.97265625,
      "loss_num": 0.09765625,
      "loss_xval": 2.4375,
      "num_input_tokens_seen": 7100940,
      "step": 106
    },
    {
      "epoch": 0.012141843971631205,
      "grad_norm": 6.6647233963012695,
      "learning_rate": 5e-05,
      "loss": 2.118,
      "num_input_tokens_seen": 7168092,
      "step": 107
    },
    {
      "epoch": 0.012141843971631205,
      "loss": 2.1395249366760254,
      "loss_ce": 0.0076890611089766026,
      "loss_iou": 0.8671875,
      "loss_num": 0.07861328125,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 7168092,
      "step": 107
    },
    {
      "epoch": 0.01225531914893617,
      "grad_norm": 8.401189804077148,
      "learning_rate": 5e-05,
      "loss": 2.0011,
      "num_input_tokens_seen": 7234272,
      "step": 108
    },
    {
      "epoch": 0.01225531914893617,
      "loss": 2.109403133392334,
      "loss_ce": 0.008817239664494991,
      "loss_iou": 0.89453125,
      "loss_num": 0.06201171875,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 7234272,
      "step": 108
    },
    {
      "epoch": 0.012368794326241135,
      "grad_norm": 12.822834014892578,
      "learning_rate": 5e-05,
      "loss": 2.3338,
      "num_input_tokens_seen": 7302280,
      "step": 109
    },
    {
      "epoch": 0.012368794326241135,
      "loss": 2.1939897537231445,
      "loss_ce": 0.0025834678672254086,
      "loss_iou": 0.9453125,
      "loss_num": 0.060546875,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 7302280,
      "step": 109
    },
    {
      "epoch": 0.0124822695035461,
      "grad_norm": 10.221464157104492,
      "learning_rate": 5e-05,
      "loss": 2.5866,
      "num_input_tokens_seen": 7368832,
      "step": 110
    },
    {
      "epoch": 0.0124822695035461,
      "loss": 2.6264071464538574,
      "loss_ce": 0.007999110966920853,
      "loss_iou": 1.03125,
      "loss_num": 0.1123046875,
      "loss_xval": 2.625,
      "num_input_tokens_seen": 7368832,
      "step": 110
    },
    {
      "epoch": 0.012595744680851064,
      "grad_norm": 6.275496482849121,
      "learning_rate": 5e-05,
      "loss": 2.2867,
      "num_input_tokens_seen": 7435608,
      "step": 111
    },
    {
      "epoch": 0.012595744680851064,
      "loss": 2.2281928062438965,
      "loss_ce": 0.004559905268251896,
      "loss_iou": 0.94921875,
      "loss_num": 0.06494140625,
      "loss_xval": 2.21875,
      "num_input_tokens_seen": 7435608,
      "step": 111
    },
    {
      "epoch": 0.012709219858156028,
      "grad_norm": 8.003825187683105,
      "learning_rate": 5e-05,
      "loss": 2.1328,
      "num_input_tokens_seen": 7502392,
      "step": 112
    },
    {
      "epoch": 0.012709219858156028,
      "loss": 2.1886227130889893,
      "loss_ce": 0.006005409639328718,
      "loss_iou": 0.91015625,
      "loss_num": 0.07373046875,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 7502392,
      "step": 112
    },
    {
      "epoch": 0.012822695035460992,
      "grad_norm": 22.55009651184082,
      "learning_rate": 5e-05,
      "loss": 2.187,
      "num_input_tokens_seen": 7569144,
      "step": 113
    },
    {
      "epoch": 0.012822695035460992,
      "loss": 2.0371811389923096,
      "loss_ce": 0.005930976010859013,
      "loss_iou": 0.86328125,
      "loss_num": 0.06103515625,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 7569144,
      "step": 113
    },
    {
      "epoch": 0.012936170212765958,
      "grad_norm": 17.697906494140625,
      "learning_rate": 5e-05,
      "loss": 2.4775,
      "num_input_tokens_seen": 7635108,
      "step": 114
    },
    {
      "epoch": 0.012936170212765958,
      "loss": 2.494511842727661,
      "loss_ce": 0.008183738216757774,
      "loss_iou": 0.94140625,
      "loss_num": 0.12060546875,
      "loss_xval": 2.484375,
      "num_input_tokens_seen": 7635108,
      "step": 114
    },
    {
      "epoch": 0.013049645390070922,
      "grad_norm": 6.8557658195495605,
      "learning_rate": 5e-05,
      "loss": 2.3522,
      "num_input_tokens_seen": 7701996,
      "step": 115
    },
    {
      "epoch": 0.013049645390070922,
      "loss": 2.2799246311187744,
      "loss_ce": 0.005510510876774788,
      "loss_iou": 0.890625,
      "loss_num": 0.099609375,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 7701996,
      "step": 115
    },
    {
      "epoch": 0.013163120567375886,
      "grad_norm": 6.234302043914795,
      "learning_rate": 5e-05,
      "loss": 2.2255,
      "num_input_tokens_seen": 7768852,
      "step": 116
    },
    {
      "epoch": 0.013163120567375886,
      "loss": 2.2983884811401367,
      "loss_ce": 0.007372837048023939,
      "loss_iou": 0.90234375,
      "loss_num": 0.0966796875,
      "loss_xval": 2.296875,
      "num_input_tokens_seen": 7768852,
      "step": 116
    },
    {
      "epoch": 0.01327659574468085,
      "grad_norm": 5.3360161781311035,
      "learning_rate": 5e-05,
      "loss": 2.1883,
      "num_input_tokens_seen": 7835960,
      "step": 117
    },
    {
      "epoch": 0.01327659574468085,
      "loss": 2.348278045654297,
      "loss_ce": 0.007457704283297062,
      "loss_iou": 0.96875,
      "loss_num": 0.08154296875,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 7835960,
      "step": 117
    },
    {
      "epoch": 0.013390070921985816,
      "grad_norm": 12.232817649841309,
      "learning_rate": 5e-05,
      "loss": 2.1497,
      "num_input_tokens_seen": 7903368,
      "step": 118
    },
    {
      "epoch": 0.013390070921985816,
      "loss": 2.2192249298095703,
      "loss_ce": 0.007310905493795872,
      "loss_iou": 0.94921875,
      "loss_num": 0.06298828125,
      "loss_xval": 2.21875,
      "num_input_tokens_seen": 7903368,
      "step": 118
    },
    {
      "epoch": 0.01350354609929078,
      "grad_norm": 12.197134017944336,
      "learning_rate": 5e-05,
      "loss": 2.1752,
      "num_input_tokens_seen": 7970920,
      "step": 119
    },
    {
      "epoch": 0.01350354609929078,
      "loss": 2.038750171661377,
      "loss_ce": 0.007011989131569862,
      "loss_iou": 0.8359375,
      "loss_num": 0.07177734375,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 7970920,
      "step": 119
    },
    {
      "epoch": 0.013617021276595745,
      "grad_norm": 12.790624618530273,
      "learning_rate": 5e-05,
      "loss": 2.5136,
      "num_input_tokens_seen": 8037808,
      "step": 120
    },
    {
      "epoch": 0.013617021276595745,
      "loss": 2.509969711303711,
      "loss_ce": 0.010946135967969894,
      "loss_iou": 0.98046875,
      "loss_num": 0.10693359375,
      "loss_xval": 2.5,
      "num_input_tokens_seen": 8037808,
      "step": 120
    },
    {
      "epoch": 0.013730496453900709,
      "grad_norm": 6.9641947746276855,
      "learning_rate": 5e-05,
      "loss": 1.9721,
      "num_input_tokens_seen": 8104224,
      "step": 121
    },
    {
      "epoch": 0.013730496453900709,
      "loss": 2.0398435592651367,
      "loss_ce": 0.013476386666297913,
      "loss_iou": 0.8203125,
      "loss_num": 0.07666015625,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 8104224,
      "step": 121
    },
    {
      "epoch": 0.013843971631205675,
      "grad_norm": 9.213266372680664,
      "learning_rate": 5e-05,
      "loss": 2.1392,
      "num_input_tokens_seen": 8170476,
      "step": 122
    },
    {
      "epoch": 0.013843971631205675,
      "loss": 2.240814685821533,
      "loss_ce": 0.0044866399839520454,
      "loss_iou": 0.9453125,
      "loss_num": 0.0703125,
      "loss_xval": 2.234375,
      "num_input_tokens_seen": 8170476,
      "step": 122
    },
    {
      "epoch": 0.013957446808510639,
      "grad_norm": 12.194575309753418,
      "learning_rate": 5e-05,
      "loss": 2.4394,
      "num_input_tokens_seen": 8237780,
      "step": 123
    },
    {
      "epoch": 0.013957446808510639,
      "loss": 2.3535616397857666,
      "loss_ce": 0.006882030516862869,
      "loss_iou": 0.96875,
      "loss_num": 0.0810546875,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 8237780,
      "step": 123
    },
    {
      "epoch": 0.014070921985815603,
      "grad_norm": 15.362043380737305,
      "learning_rate": 5e-05,
      "loss": 2.1494,
      "num_input_tokens_seen": 8303140,
      "step": 124
    },
    {
      "epoch": 0.014070921985815603,
      "loss": 2.1054959297180176,
      "loss_ce": 0.004910024348646402,
      "loss_iou": 0.87890625,
      "loss_num": 0.0693359375,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 8303140,
      "step": 124
    },
    {
      "epoch": 0.014184397163120567,
      "grad_norm": 12.784941673278809,
      "learning_rate": 5e-05,
      "loss": 2.2564,
      "num_input_tokens_seen": 8370704,
      "step": 125
    },
    {
      "epoch": 0.014184397163120567,
      "loss": 2.3708155155181885,
      "loss_ce": 0.0055811041966080666,
      "loss_iou": 0.96875,
      "loss_num": 0.08544921875,
      "loss_xval": 2.359375,
      "num_input_tokens_seen": 8370704,
      "step": 125
    },
    {
      "epoch": 0.014297872340425531,
      "grad_norm": 16.25169563293457,
      "learning_rate": 5e-05,
      "loss": 2.1361,
      "num_input_tokens_seen": 8438380,
      "step": 126
    },
    {
      "epoch": 0.014297872340425531,
      "loss": 2.0187735557556152,
      "loss_ce": 0.007054814137518406,
      "loss_iou": 0.859375,
      "loss_num": 0.058349609375,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 8438380,
      "step": 126
    },
    {
      "epoch": 0.014411347517730497,
      "grad_norm": 11.809917449951172,
      "learning_rate": 5e-05,
      "loss": 2.1176,
      "num_input_tokens_seen": 8504892,
      "step": 127
    },
    {
      "epoch": 0.014411347517730497,
      "loss": 2.2388806343078613,
      "loss_ce": 0.004505771212279797,
      "loss_iou": 0.9140625,
      "loss_num": 0.08203125,
      "loss_xval": 2.234375,
      "num_input_tokens_seen": 8504892,
      "step": 127
    },
    {
      "epoch": 0.014524822695035461,
      "grad_norm": 12.321290016174316,
      "learning_rate": 5e-05,
      "loss": 2.0912,
      "num_input_tokens_seen": 8572220,
      "step": 128
    },
    {
      "epoch": 0.014524822695035461,
      "loss": 2.112661361694336,
      "loss_ce": 0.0062158918008208275,
      "loss_iou": 0.8828125,
      "loss_num": 0.068359375,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 8572220,
      "step": 128
    },
    {
      "epoch": 0.014638297872340425,
      "grad_norm": 14.406109809875488,
      "learning_rate": 5e-05,
      "loss": 2.0787,
      "num_input_tokens_seen": 8638560,
      "step": 129
    },
    {
      "epoch": 0.014638297872340425,
      "loss": 1.856787919998169,
      "loss_ce": 0.008887585252523422,
      "loss_iou": 0.76171875,
      "loss_num": 0.064453125,
      "loss_xval": 1.8515625,
      "num_input_tokens_seen": 8638560,
      "step": 129
    },
    {
      "epoch": 0.01475177304964539,
      "grad_norm": 6.562401294708252,
      "learning_rate": 5e-05,
      "loss": 2.3808,
      "num_input_tokens_seen": 8705604,
      "step": 130
    },
    {
      "epoch": 0.01475177304964539,
      "loss": 2.5770153999328613,
      "loss_ce": 0.008656064048409462,
      "loss_iou": 0.99609375,
      "loss_num": 0.11572265625,
      "loss_xval": 2.5625,
      "num_input_tokens_seen": 8705604,
      "step": 130
    },
    {
      "epoch": 0.014865248226950355,
      "grad_norm": 4.94053316116333,
      "learning_rate": 5e-05,
      "loss": 2.3938,
      "num_input_tokens_seen": 8772272,
      "step": 131
    },
    {
      "epoch": 0.014865248226950355,
      "loss": 2.318000555038452,
      "loss_ce": 0.01819600537419319,
      "loss_iou": 0.91796875,
      "loss_num": 0.0927734375,
      "loss_xval": 2.296875,
      "num_input_tokens_seen": 8772272,
      "step": 131
    },
    {
      "epoch": 0.01497872340425532,
      "grad_norm": 22.736454010009766,
      "learning_rate": 5e-05,
      "loss": 2.0079,
      "num_input_tokens_seen": 8838028,
      "step": 132
    },
    {
      "epoch": 0.01497872340425532,
      "loss": 2.1422386169433594,
      "loss_ce": 0.0074729458428919315,
      "loss_iou": 0.8828125,
      "loss_num": 0.0732421875,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 8838028,
      "step": 132
    },
    {
      "epoch": 0.015092198581560284,
      "grad_norm": 7.30534553527832,
      "learning_rate": 5e-05,
      "loss": 1.9911,
      "num_input_tokens_seen": 8904724,
      "step": 133
    },
    {
      "epoch": 0.015092198581560284,
      "loss": 1.9542663097381592,
      "loss_ce": 0.0050475443713366985,
      "loss_iou": 0.83203125,
      "loss_num": 0.056884765625,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 8904724,
      "step": 133
    },
    {
      "epoch": 0.015205673758865248,
      "grad_norm": 9.956156730651855,
      "learning_rate": 5e-05,
      "loss": 1.9191,
      "num_input_tokens_seen": 8971468,
      "step": 134
    },
    {
      "epoch": 0.015205673758865248,
      "loss": 1.921532392501831,
      "loss_ce": 0.010399581864476204,
      "loss_iou": 0.7890625,
      "loss_num": 0.06591796875,
      "loss_xval": 1.9140625,
      "num_input_tokens_seen": 8971468,
      "step": 134
    },
    {
      "epoch": 0.015319148936170212,
      "grad_norm": 29.47026252746582,
      "learning_rate": 5e-05,
      "loss": 2.5518,
      "num_input_tokens_seen": 9039488,
      "step": 135
    },
    {
      "epoch": 0.015319148936170212,
      "loss": 2.7123215198516846,
      "loss_ce": 0.003337159752845764,
      "loss_iou": 1.1953125,
      "loss_num": 0.06396484375,
      "loss_xval": 2.703125,
      "num_input_tokens_seen": 9039488,
      "step": 135
    },
    {
      "epoch": 0.015432624113475178,
      "grad_norm": 10.196844100952148,
      "learning_rate": 5e-05,
      "loss": 2.7875,
      "num_input_tokens_seen": 9106428,
      "step": 136
    },
    {
      "epoch": 0.015432624113475178,
      "loss": 2.6521592140197754,
      "loss_ce": 0.005674743093550205,
      "loss_iou": 0.99609375,
      "loss_num": 0.130859375,
      "loss_xval": 2.640625,
      "num_input_tokens_seen": 9106428,
      "step": 136
    },
    {
      "epoch": 0.015546099290780142,
      "grad_norm": 29.745086669921875,
      "learning_rate": 5e-05,
      "loss": 2.4006,
      "num_input_tokens_seen": 9173744,
      "step": 137
    },
    {
      "epoch": 0.015546099290780142,
      "loss": 2.2764477729797363,
      "loss_ce": 0.006428296212106943,
      "loss_iou": 0.82421875,
      "loss_num": 0.1240234375,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 9173744,
      "step": 137
    },
    {
      "epoch": 0.015659574468085108,
      "grad_norm": 25.51694107055664,
      "learning_rate": 5e-05,
      "loss": 2.4039,
      "num_input_tokens_seen": 9240964,
      "step": 138
    },
    {
      "epoch": 0.015659574468085108,
      "loss": 2.2703304290771484,
      "loss_ce": 0.006414351519197226,
      "loss_iou": 0.8515625,
      "loss_num": 0.11279296875,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 9240964,
      "step": 138
    },
    {
      "epoch": 0.015773049645390072,
      "grad_norm": 12.235136985778809,
      "learning_rate": 5e-05,
      "loss": 2.545,
      "num_input_tokens_seen": 9307924,
      "step": 139
    },
    {
      "epoch": 0.015773049645390072,
      "loss": 2.6014609336853027,
      "loss_ce": 0.00966403167694807,
      "loss_iou": 1.0078125,
      "loss_num": 0.11474609375,
      "loss_xval": 2.59375,
      "num_input_tokens_seen": 9307924,
      "step": 139
    },
    {
      "epoch": 0.015886524822695036,
      "grad_norm": 42.16759490966797,
      "learning_rate": 5e-05,
      "loss": 2.2865,
      "num_input_tokens_seen": 9374864,
      "step": 140
    },
    {
      "epoch": 0.015886524822695036,
      "loss": 2.1588194370269775,
      "loss_ce": 0.011358466930687428,
      "loss_iou": 0.859375,
      "loss_num": 0.08544921875,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 9374864,
      "step": 140
    },
    {
      "epoch": 0.016,
      "grad_norm": 8.680595397949219,
      "learning_rate": 5e-05,
      "loss": 2.1502,
      "num_input_tokens_seen": 9440960,
      "step": 141
    },
    {
      "epoch": 0.016,
      "loss": 2.175830364227295,
      "loss_ce": 0.008838284760713577,
      "loss_iou": 0.87109375,
      "loss_num": 0.083984375,
      "loss_xval": 2.171875,
      "num_input_tokens_seen": 9440960,
      "step": 141
    },
    {
      "epoch": 0.016113475177304964,
      "grad_norm": 6.871549129486084,
      "learning_rate": 5e-05,
      "loss": 2.0695,
      "num_input_tokens_seen": 9506864,
      "step": 142
    },
    {
      "epoch": 0.016113475177304964,
      "loss": 2.319141387939453,
      "loss_ce": 0.005664990749210119,
      "loss_iou": 0.96875,
      "loss_num": 0.0751953125,
      "loss_xval": 2.3125,
      "num_input_tokens_seen": 9506864,
      "step": 142
    },
    {
      "epoch": 0.01622695035460993,
      "grad_norm": 6.916198253631592,
      "learning_rate": 5e-05,
      "loss": 2.1694,
      "num_input_tokens_seen": 9573368,
      "step": 143
    },
    {
      "epoch": 0.01622695035460993,
      "loss": 2.1988120079040527,
      "loss_ce": 0.0054527828469872475,
      "loss_iou": 0.89453125,
      "loss_num": 0.0810546875,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 9573368,
      "step": 143
    },
    {
      "epoch": 0.016340425531914893,
      "grad_norm": 6.963949203491211,
      "learning_rate": 5e-05,
      "loss": 1.935,
      "num_input_tokens_seen": 9639816,
      "step": 144
    },
    {
      "epoch": 0.016340425531914893,
      "loss": 2.0749735832214355,
      "loss_ce": 0.014915084466338158,
      "loss_iou": 0.859375,
      "loss_num": 0.0693359375,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 9639816,
      "step": 144
    },
    {
      "epoch": 0.016453900709219857,
      "grad_norm": 6.407719612121582,
      "learning_rate": 5e-05,
      "loss": 2.1297,
      "num_input_tokens_seen": 9707104,
      "step": 145
    },
    {
      "epoch": 0.016453900709219857,
      "loss": 2.08766508102417,
      "loss_ce": 0.004657255485653877,
      "loss_iou": 0.8671875,
      "loss_num": 0.0693359375,
      "loss_xval": 2.078125,
      "num_input_tokens_seen": 9707104,
      "step": 145
    },
    {
      "epoch": 0.01656737588652482,
      "grad_norm": 13.147780418395996,
      "learning_rate": 5e-05,
      "loss": 1.9917,
      "num_input_tokens_seen": 9773768,
      "step": 146
    },
    {
      "epoch": 0.01656737588652482,
      "loss": 2.2370288372039795,
      "loss_ce": 0.009489677846431732,
      "loss_iou": 0.94921875,
      "loss_num": 0.0654296875,
      "loss_xval": 2.234375,
      "num_input_tokens_seen": 9773768,
      "step": 146
    },
    {
      "epoch": 0.01668085106382979,
      "grad_norm": 11.329253196716309,
      "learning_rate": 5e-05,
      "loss": 2.4895,
      "num_input_tokens_seen": 9842060,
      "step": 147
    },
    {
      "epoch": 0.01668085106382979,
      "loss": 2.4212751388549805,
      "loss_ce": 0.009165897965431213,
      "loss_iou": 0.98828125,
      "loss_num": 0.08740234375,
      "loss_xval": 2.40625,
      "num_input_tokens_seen": 9842060,
      "step": 147
    },
    {
      "epoch": 0.016794326241134753,
      "grad_norm": 9.245875358581543,
      "learning_rate": 5e-05,
      "loss": 2.0888,
      "num_input_tokens_seen": 9908944,
      "step": 148
    },
    {
      "epoch": 0.016794326241134753,
      "loss": 2.179837226867676,
      "loss_ce": 0.009915400296449661,
      "loss_iou": 0.90625,
      "loss_num": 0.0712890625,
      "loss_xval": 2.171875,
      "num_input_tokens_seen": 9908944,
      "step": 148
    },
    {
      "epoch": 0.016907801418439717,
      "grad_norm": 14.502352714538574,
      "learning_rate": 5e-05,
      "loss": 2.1206,
      "num_input_tokens_seen": 9976060,
      "step": 149
    },
    {
      "epoch": 0.016907801418439717,
      "loss": 2.013526439666748,
      "loss_ce": 0.005713882856070995,
      "loss_iou": 0.84765625,
      "loss_num": 0.06201171875,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 9976060,
      "step": 149
    },
    {
      "epoch": 0.01702127659574468,
      "grad_norm": 9.800984382629395,
      "learning_rate": 5e-05,
      "loss": 2.1082,
      "num_input_tokens_seen": 10043132,
      "step": 150
    },
    {
      "epoch": 0.01702127659574468,
      "loss": 2.0764214992523193,
      "loss_ce": 0.006108810193836689,
      "loss_iou": 0.875,
      "loss_num": 0.06396484375,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 10043132,
      "step": 150
    },
    {
      "epoch": 0.017134751773049645,
      "grad_norm": 10.995059967041016,
      "learning_rate": 5e-05,
      "loss": 2.1903,
      "num_input_tokens_seen": 10110356,
      "step": 151
    },
    {
      "epoch": 0.017134751773049645,
      "loss": 2.249887466430664,
      "loss_ce": 0.011606423184275627,
      "loss_iou": 0.9296875,
      "loss_num": 0.0751953125,
      "loss_xval": 2.234375,
      "num_input_tokens_seen": 10110356,
      "step": 151
    },
    {
      "epoch": 0.01724822695035461,
      "grad_norm": 17.799421310424805,
      "learning_rate": 5e-05,
      "loss": 2.2931,
      "num_input_tokens_seen": 10177884,
      "step": 152
    },
    {
      "epoch": 0.01724822695035461,
      "loss": 2.2070534229278564,
      "loss_ce": 0.007834823802113533,
      "loss_iou": 0.90234375,
      "loss_num": 0.07861328125,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 10177884,
      "step": 152
    },
    {
      "epoch": 0.017361702127659574,
      "grad_norm": 14.23829460144043,
      "learning_rate": 5e-05,
      "loss": 2.0481,
      "num_input_tokens_seen": 10245060,
      "step": 153
    },
    {
      "epoch": 0.017361702127659574,
      "loss": 2.0472183227539062,
      "loss_ce": 0.009132294915616512,
      "loss_iou": 0.859375,
      "loss_num": 0.064453125,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 10245060,
      "step": 153
    },
    {
      "epoch": 0.017475177304964538,
      "grad_norm": 20.32743263244629,
      "learning_rate": 5e-05,
      "loss": 2.3133,
      "num_input_tokens_seen": 10311044,
      "step": 154
    },
    {
      "epoch": 0.017475177304964538,
      "loss": 2.117232322692871,
      "loss_ce": 0.005904346704483032,
      "loss_iou": 0.875,
      "loss_num": 0.07275390625,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 10311044,
      "step": 154
    },
    {
      "epoch": 0.017588652482269502,
      "grad_norm": 14.002534866333008,
      "learning_rate": 5e-05,
      "loss": 1.9815,
      "num_input_tokens_seen": 10377956,
      "step": 155
    },
    {
      "epoch": 0.017588652482269502,
      "loss": 1.972330093383789,
      "loss_ce": 0.0113926250487566,
      "loss_iou": 0.84375,
      "loss_num": 0.054931640625,
      "loss_xval": 1.9609375,
      "num_input_tokens_seen": 10377956,
      "step": 155
    },
    {
      "epoch": 0.01770212765957447,
      "grad_norm": 7.721695899963379,
      "learning_rate": 5e-05,
      "loss": 2.129,
      "num_input_tokens_seen": 10445664,
      "step": 156
    },
    {
      "epoch": 0.01770212765957447,
      "loss": 2.10532808303833,
      "loss_ce": 0.005718799773603678,
      "loss_iou": 0.84375,
      "loss_num": 0.0830078125,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 10445664,
      "step": 156
    },
    {
      "epoch": 0.017815602836879434,
      "grad_norm": 6.595480918884277,
      "learning_rate": 5e-05,
      "loss": 2.1374,
      "num_input_tokens_seen": 10513332,
      "step": 157
    },
    {
      "epoch": 0.017815602836879434,
      "loss": 2.0671145915985107,
      "loss_ce": 0.005591138731688261,
      "loss_iou": 0.8671875,
      "loss_num": 0.06494140625,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 10513332,
      "step": 157
    },
    {
      "epoch": 0.017929078014184398,
      "grad_norm": 7.210752964019775,
      "learning_rate": 5e-05,
      "loss": 1.8807,
      "num_input_tokens_seen": 10581312,
      "step": 158
    },
    {
      "epoch": 0.017929078014184398,
      "loss": 1.972535252571106,
      "loss_ce": 0.0018321406096220016,
      "loss_iou": 0.875,
      "loss_num": 0.04443359375,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 10581312,
      "step": 158
    },
    {
      "epoch": 0.018042553191489362,
      "grad_norm": 11.62630558013916,
      "learning_rate": 5e-05,
      "loss": 1.976,
      "num_input_tokens_seen": 10649264,
      "step": 159
    },
    {
      "epoch": 0.018042553191489362,
      "loss": 2.0205798149108887,
      "loss_ce": 0.004954989068210125,
      "loss_iou": 0.87890625,
      "loss_num": 0.051513671875,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 10649264,
      "step": 159
    },
    {
      "epoch": 0.018156028368794326,
      "grad_norm": 20.895753860473633,
      "learning_rate": 5e-05,
      "loss": 2.1779,
      "num_input_tokens_seen": 10715788,
      "step": 160
    },
    {
      "epoch": 0.018156028368794326,
      "loss": 2.1001739501953125,
      "loss_ce": 0.007888882420957088,
      "loss_iou": 0.9140625,
      "loss_num": 0.053955078125,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 10715788,
      "step": 160
    },
    {
      "epoch": 0.01826950354609929,
      "grad_norm": 10.239327430725098,
      "learning_rate": 5e-05,
      "loss": 2.4307,
      "num_input_tokens_seen": 10781820,
      "step": 161
    },
    {
      "epoch": 0.01826950354609929,
      "loss": 2.679542064666748,
      "loss_ce": 0.007666919380426407,
      "loss_iou": 1.0625,
      "loss_num": 0.111328125,
      "loss_xval": 2.671875,
      "num_input_tokens_seen": 10781820,
      "step": 161
    },
    {
      "epoch": 0.018382978723404254,
      "grad_norm": 5.37607479095459,
      "learning_rate": 5e-05,
      "loss": 2.1448,
      "num_input_tokens_seen": 10848548,
      "step": 162
    },
    {
      "epoch": 0.018382978723404254,
      "loss": 2.053016185760498,
      "loss_ce": 0.006141177844256163,
      "loss_iou": 0.8203125,
      "loss_num": 0.08056640625,
      "loss_xval": 2.046875,
      "num_input_tokens_seen": 10848548,
      "step": 162
    },
    {
      "epoch": 0.01849645390070922,
      "grad_norm": 9.895554542541504,
      "learning_rate": 5e-05,
      "loss": 2.2391,
      "num_input_tokens_seen": 10915544,
      "step": 163
    },
    {
      "epoch": 0.01849645390070922,
      "loss": 2.232118844985962,
      "loss_ce": 0.004579797387123108,
      "loss_iou": 0.91796875,
      "loss_num": 0.07763671875,
      "loss_xval": 2.234375,
      "num_input_tokens_seen": 10915544,
      "step": 163
    },
    {
      "epoch": 0.018609929078014183,
      "grad_norm": 6.554913520812988,
      "learning_rate": 5e-05,
      "loss": 2.1919,
      "num_input_tokens_seen": 10981988,
      "step": 164
    },
    {
      "epoch": 0.018609929078014183,
      "loss": 2.1023061275482178,
      "loss_ce": 0.0075795408338308334,
      "loss_iou": 0.87109375,
      "loss_num": 0.06982421875,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 10981988,
      "step": 164
    },
    {
      "epoch": 0.01872340425531915,
      "grad_norm": 4.684902667999268,
      "learning_rate": 5e-05,
      "loss": 2.057,
      "num_input_tokens_seen": 11050144,
      "step": 165
    },
    {
      "epoch": 0.01872340425531915,
      "loss": 2.0983126163482666,
      "loss_ce": 0.004562585614621639,
      "loss_iou": 0.890625,
      "loss_num": 0.0634765625,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 11050144,
      "step": 165
    },
    {
      "epoch": 0.018836879432624114,
      "grad_norm": 7.288349151611328,
      "learning_rate": 5e-05,
      "loss": 1.7897,
      "num_input_tokens_seen": 11117224,
      "step": 166
    },
    {
      "epoch": 0.018836879432624114,
      "loss": 2.144489049911499,
      "loss_ce": 0.004840689245611429,
      "loss_iou": 0.921875,
      "loss_num": 0.05859375,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 11117224,
      "step": 166
    },
    {
      "epoch": 0.01895035460992908,
      "grad_norm": 14.505410194396973,
      "learning_rate": 5e-05,
      "loss": 2.0729,
      "num_input_tokens_seen": 11185232,
      "step": 167
    },
    {
      "epoch": 0.01895035460992908,
      "loss": 2.1007578372955322,
      "loss_ce": 0.010914083570241928,
      "loss_iou": 0.890625,
      "loss_num": 0.06298828125,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 11185232,
      "step": 167
    },
    {
      "epoch": 0.019063829787234043,
      "grad_norm": 15.511157989501953,
      "learning_rate": 5e-05,
      "loss": 2.2796,
      "num_input_tokens_seen": 11252868,
      "step": 168
    },
    {
      "epoch": 0.019063829787234043,
      "loss": 2.4447717666625977,
      "loss_ce": 0.007271725218743086,
      "loss_iou": 1.0390625,
      "loss_num": 0.0732421875,
      "loss_xval": 2.4375,
      "num_input_tokens_seen": 11252868,
      "step": 168
    },
    {
      "epoch": 0.019177304964539007,
      "grad_norm": 21.523365020751953,
      "learning_rate": 5e-05,
      "loss": 1.8754,
      "num_input_tokens_seen": 11319432,
      "step": 169
    },
    {
      "epoch": 0.019177304964539007,
      "loss": 1.714557409286499,
      "loss_ce": 0.009479202330112457,
      "loss_iou": 0.71484375,
      "loss_num": 0.0556640625,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 11319432,
      "step": 169
    },
    {
      "epoch": 0.01929078014184397,
      "grad_norm": 11.713565826416016,
      "learning_rate": 5e-05,
      "loss": 2.2067,
      "num_input_tokens_seen": 11386176,
      "step": 170
    },
    {
      "epoch": 0.01929078014184397,
      "loss": 2.0645790100097656,
      "loss_ce": 0.005985494237393141,
      "loss_iou": 0.87109375,
      "loss_num": 0.06396484375,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 11386176,
      "step": 170
    },
    {
      "epoch": 0.019404255319148935,
      "grad_norm": 6.413303375244141,
      "learning_rate": 5e-05,
      "loss": 1.7934,
      "num_input_tokens_seen": 11452888,
      "step": 171
    },
    {
      "epoch": 0.019404255319148935,
      "loss": 2.129868984222412,
      "loss_ce": 0.0038923395331948996,
      "loss_iou": 0.87890625,
      "loss_num": 0.07275390625,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 11452888,
      "step": 171
    },
    {
      "epoch": 0.0195177304964539,
      "grad_norm": 10.297121047973633,
      "learning_rate": 5e-05,
      "loss": 2.1472,
      "num_input_tokens_seen": 11520084,
      "step": 172
    },
    {
      "epoch": 0.0195177304964539,
      "loss": 2.1867380142211914,
      "loss_ce": 0.005097436718642712,
      "loss_iou": 0.9296875,
      "loss_num": 0.064453125,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 11520084,
      "step": 172
    },
    {
      "epoch": 0.019631205673758867,
      "grad_norm": 13.15897274017334,
      "learning_rate": 5e-05,
      "loss": 2.1869,
      "num_input_tokens_seen": 11587508,
      "step": 173
    },
    {
      "epoch": 0.019631205673758867,
      "loss": 2.2017617225646973,
      "loss_ce": 0.004496140405535698,
      "loss_iou": 0.9375,
      "loss_num": 0.06494140625,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 11587508,
      "step": 173
    },
    {
      "epoch": 0.01974468085106383,
      "grad_norm": 18.043651580810547,
      "learning_rate": 5e-05,
      "loss": 2.0039,
      "num_input_tokens_seen": 11654740,
      "step": 174
    },
    {
      "epoch": 0.01974468085106383,
      "loss": 2.0289225578308105,
      "loss_ce": 0.007438153959810734,
      "loss_iou": 0.84375,
      "loss_num": 0.0673828125,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 11654740,
      "step": 174
    },
    {
      "epoch": 0.019858156028368795,
      "grad_norm": 8.9551362991333,
      "learning_rate": 5e-05,
      "loss": 2.3258,
      "num_input_tokens_seen": 11721948,
      "step": 175
    },
    {
      "epoch": 0.019858156028368795,
      "loss": 2.3980326652526855,
      "loss_ce": 0.005454649683088064,
      "loss_iou": 0.97265625,
      "loss_num": 0.09033203125,
      "loss_xval": 2.390625,
      "num_input_tokens_seen": 11721948,
      "step": 175
    },
    {
      "epoch": 0.01997163120567376,
      "grad_norm": 15.234247207641602,
      "learning_rate": 5e-05,
      "loss": 1.9745,
      "num_input_tokens_seen": 11788640,
      "step": 176
    },
    {
      "epoch": 0.01997163120567376,
      "loss": 1.8583756685256958,
      "loss_ce": 0.003883439116179943,
      "loss_iou": 0.75,
      "loss_num": 0.07177734375,
      "loss_xval": 1.8515625,
      "num_input_tokens_seen": 11788640,
      "step": 176
    },
    {
      "epoch": 0.020085106382978724,
      "grad_norm": 8.206887245178223,
      "learning_rate": 5e-05,
      "loss": 2.0264,
      "num_input_tokens_seen": 11855280,
      "step": 177
    },
    {
      "epoch": 0.020085106382978724,
      "loss": 2.0714941024780273,
      "loss_ce": 0.005087755620479584,
      "loss_iou": 0.88671875,
      "loss_num": 0.058837890625,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 11855280,
      "step": 177
    },
    {
      "epoch": 0.020198581560283688,
      "grad_norm": 8.391995429992676,
      "learning_rate": 5e-05,
      "loss": 1.9338,
      "num_input_tokens_seen": 11921020,
      "step": 178
    },
    {
      "epoch": 0.020198581560283688,
      "loss": 2.115783452987671,
      "loss_ce": 0.005431798752397299,
      "loss_iou": 0.88671875,
      "loss_num": 0.06787109375,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 11921020,
      "step": 178
    },
    {
      "epoch": 0.020312056737588652,
      "grad_norm": 16.816198348999023,
      "learning_rate": 5e-05,
      "loss": 1.7977,
      "num_input_tokens_seen": 11987484,
      "step": 179
    },
    {
      "epoch": 0.020312056737588652,
      "loss": 1.8177316188812256,
      "loss_ce": 0.011274066753685474,
      "loss_iou": 0.74609375,
      "loss_num": 0.06298828125,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 11987484,
      "step": 179
    },
    {
      "epoch": 0.020425531914893616,
      "grad_norm": 11.143610954284668,
      "learning_rate": 5e-05,
      "loss": 2.2588,
      "num_input_tokens_seen": 12054356,
      "step": 180
    },
    {
      "epoch": 0.020425531914893616,
      "loss": 2.0969033241271973,
      "loss_ce": 0.005106516182422638,
      "loss_iou": 0.8359375,
      "loss_num": 0.0830078125,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 12054356,
      "step": 180
    },
    {
      "epoch": 0.02053900709219858,
      "grad_norm": 7.683772087097168,
      "learning_rate": 5e-05,
      "loss": 1.8281,
      "num_input_tokens_seen": 12121596,
      "step": 181
    },
    {
      "epoch": 0.02053900709219858,
      "loss": 1.7267190217971802,
      "loss_ce": 0.0033913746010512114,
      "loss_iou": 0.72265625,
      "loss_num": 0.05615234375,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 12121596,
      "step": 181
    },
    {
      "epoch": 0.020652482269503548,
      "grad_norm": 5.897102355957031,
      "learning_rate": 5e-05,
      "loss": 1.8288,
      "num_input_tokens_seen": 12188028,
      "step": 182
    },
    {
      "epoch": 0.020652482269503548,
      "loss": 1.7557545900344849,
      "loss_ce": 0.004778011702001095,
      "loss_iou": 0.7578125,
      "loss_num": 0.047119140625,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 12188028,
      "step": 182
    },
    {
      "epoch": 0.020765957446808512,
      "grad_norm": 18.289026260375977,
      "learning_rate": 5e-05,
      "loss": 2.0184,
      "num_input_tokens_seen": 12256120,
      "step": 183
    },
    {
      "epoch": 0.020765957446808512,
      "loss": 2.0074892044067383,
      "loss_ce": 0.0035829287953674793,
      "loss_iou": 0.8671875,
      "loss_num": 0.0537109375,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 12256120,
      "step": 183
    },
    {
      "epoch": 0.020879432624113476,
      "grad_norm": 10.63756275177002,
      "learning_rate": 5e-05,
      "loss": 2.4465,
      "num_input_tokens_seen": 12323072,
      "step": 184
    },
    {
      "epoch": 0.020879432624113476,
      "loss": 2.5225167274475098,
      "loss_ce": 0.010797925293445587,
      "loss_iou": 1.03125,
      "loss_num": 0.09130859375,
      "loss_xval": 2.515625,
      "num_input_tokens_seen": 12323072,
      "step": 184
    },
    {
      "epoch": 0.02099290780141844,
      "grad_norm": 15.792268753051758,
      "learning_rate": 5e-05,
      "loss": 2.0406,
      "num_input_tokens_seen": 12390932,
      "step": 185
    },
    {
      "epoch": 0.02099290780141844,
      "loss": 2.002182960510254,
      "loss_ce": 0.006089063361287117,
      "loss_iou": 0.83203125,
      "loss_num": 0.06689453125,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 12390932,
      "step": 185
    },
    {
      "epoch": 0.021106382978723404,
      "grad_norm": 9.769947052001953,
      "learning_rate": 5e-05,
      "loss": 1.9699,
      "num_input_tokens_seen": 12457060,
      "step": 186
    },
    {
      "epoch": 0.021106382978723404,
      "loss": 2.137543201446533,
      "loss_ce": 0.005707207135856152,
      "loss_iou": 0.8984375,
      "loss_num": 0.06640625,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 12457060,
      "step": 186
    },
    {
      "epoch": 0.02121985815602837,
      "grad_norm": 12.414726257324219,
      "learning_rate": 5e-05,
      "loss": 1.8747,
      "num_input_tokens_seen": 12524292,
      "step": 187
    },
    {
      "epoch": 0.02121985815602837,
      "loss": 1.887376308441162,
      "loss_ce": 0.008469948545098305,
      "loss_iou": 0.79296875,
      "loss_num": 0.058349609375,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 12524292,
      "step": 187
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 18.689924240112305,
      "learning_rate": 5e-05,
      "loss": 1.956,
      "num_input_tokens_seen": 12592216,
      "step": 188
    },
    {
      "epoch": 0.021333333333333333,
      "loss": 1.9208396673202515,
      "loss_ce": 0.006777132395654917,
      "loss_iou": 0.828125,
      "loss_num": 0.051025390625,
      "loss_xval": 1.9140625,
      "num_input_tokens_seen": 12592216,
      "step": 188
    },
    {
      "epoch": 0.021446808510638297,
      "grad_norm": 10.395491600036621,
      "learning_rate": 5e-05,
      "loss": 2.2509,
      "num_input_tokens_seen": 12658856,
      "step": 189
    },
    {
      "epoch": 0.021446808510638297,
      "loss": 2.479851722717285,
      "loss_ce": 0.0032893484458327293,
      "loss_iou": 1.046875,
      "loss_num": 0.07568359375,
      "loss_xval": 2.46875,
      "num_input_tokens_seen": 12658856,
      "step": 189
    },
    {
      "epoch": 0.02156028368794326,
      "grad_norm": 8.688201904296875,
      "learning_rate": 5e-05,
      "loss": 2.1738,
      "num_input_tokens_seen": 12725960,
      "step": 190
    },
    {
      "epoch": 0.02156028368794326,
      "loss": 2.297262191772461,
      "loss_ce": 0.003316767979413271,
      "loss_iou": 0.9453125,
      "loss_num": 0.07958984375,
      "loss_xval": 2.296875,
      "num_input_tokens_seen": 12725960,
      "step": 190
    },
    {
      "epoch": 0.02167375886524823,
      "grad_norm": 8.923436164855957,
      "learning_rate": 5e-05,
      "loss": 2.2158,
      "num_input_tokens_seen": 12793232,
      "step": 191
    },
    {
      "epoch": 0.02167375886524823,
      "loss": 2.19097900390625,
      "loss_ce": 0.00836208090186119,
      "loss_iou": 0.9296875,
      "loss_num": 0.06591796875,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 12793232,
      "step": 191
    },
    {
      "epoch": 0.021787234042553193,
      "grad_norm": 14.103479385375977,
      "learning_rate": 5e-05,
      "loss": 1.8773,
      "num_input_tokens_seen": 12861116,
      "step": 192
    },
    {
      "epoch": 0.021787234042553193,
      "loss": 1.6925561428070068,
      "loss_ce": 0.008107979781925678,
      "loss_iou": 0.73046875,
      "loss_num": 0.0439453125,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 12861116,
      "step": 192
    },
    {
      "epoch": 0.021900709219858157,
      "grad_norm": 12.850323677062988,
      "learning_rate": 5e-05,
      "loss": 2.3857,
      "num_input_tokens_seen": 12928584,
      "step": 193
    },
    {
      "epoch": 0.021900709219858157,
      "loss": 2.231609344482422,
      "loss_ce": 0.011882544495165348,
      "loss_iou": 0.9375,
      "loss_num": 0.0693359375,
      "loss_xval": 2.21875,
      "num_input_tokens_seen": 12928584,
      "step": 193
    },
    {
      "epoch": 0.02201418439716312,
      "grad_norm": 8.2175874710083,
      "learning_rate": 5e-05,
      "loss": 2.0268,
      "num_input_tokens_seen": 12996036,
      "step": 194
    },
    {
      "epoch": 0.02201418439716312,
      "loss": 2.0937411785125732,
      "loss_ce": 0.0038974424824118614,
      "loss_iou": 0.88671875,
      "loss_num": 0.06298828125,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 12996036,
      "step": 194
    },
    {
      "epoch": 0.022127659574468085,
      "grad_norm": 16.11580467224121,
      "learning_rate": 5e-05,
      "loss": 2.0091,
      "num_input_tokens_seen": 13063452,
      "step": 195
    },
    {
      "epoch": 0.022127659574468085,
      "loss": 2.2548656463623047,
      "loss_ce": 0.012678229250013828,
      "loss_iou": 0.96484375,
      "loss_num": 0.062255859375,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 13063452,
      "step": 195
    },
    {
      "epoch": 0.02224113475177305,
      "grad_norm": 10.386853218078613,
      "learning_rate": 5e-05,
      "loss": 2.5054,
      "num_input_tokens_seen": 13130384,
      "step": 196
    },
    {
      "epoch": 0.02224113475177305,
      "loss": 2.683547019958496,
      "loss_ce": 0.0058126612566411495,
      "loss_iou": 1.1171875,
      "loss_num": 0.08935546875,
      "loss_xval": 2.671875,
      "num_input_tokens_seen": 13130384,
      "step": 196
    },
    {
      "epoch": 0.022354609929078013,
      "grad_norm": 6.850124359130859,
      "learning_rate": 5e-05,
      "loss": 2.1688,
      "num_input_tokens_seen": 13197876,
      "step": 197
    },
    {
      "epoch": 0.022354609929078013,
      "loss": 2.192511796951294,
      "loss_ce": 0.006964861880987883,
      "loss_iou": 0.89453125,
      "loss_num": 0.0791015625,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 13197876,
      "step": 197
    },
    {
      "epoch": 0.022468085106382978,
      "grad_norm": 8.613906860351562,
      "learning_rate": 5e-05,
      "loss": 1.9687,
      "num_input_tokens_seen": 13265676,
      "step": 198
    },
    {
      "epoch": 0.022468085106382978,
      "loss": 1.8966697454452515,
      "loss_ce": 0.0021384970750659704,
      "loss_iou": 0.8359375,
      "loss_num": 0.0439453125,
      "loss_xval": 1.890625,
      "num_input_tokens_seen": 13265676,
      "step": 198
    },
    {
      "epoch": 0.02258156028368794,
      "grad_norm": 13.233860969543457,
      "learning_rate": 5e-05,
      "loss": 1.8894,
      "num_input_tokens_seen": 13332200,
      "step": 199
    },
    {
      "epoch": 0.02258156028368794,
      "loss": 1.972056269645691,
      "loss_ce": 0.010142125189304352,
      "loss_iou": 0.84765625,
      "loss_num": 0.05419921875,
      "loss_xval": 1.9609375,
      "num_input_tokens_seen": 13332200,
      "step": 199
    },
    {
      "epoch": 0.02269503546099291,
      "grad_norm": 15.5687837600708,
      "learning_rate": 5e-05,
      "loss": 1.9572,
      "num_input_tokens_seen": 13399360,
      "step": 200
    },
    {
      "epoch": 0.02269503546099291,
      "loss": 2.1776905059814453,
      "loss_ce": 0.0038625504821538925,
      "loss_iou": 0.921875,
      "loss_num": 0.06640625,
      "loss_xval": 2.171875,
      "num_input_tokens_seen": 13399360,
      "step": 200
    },
    {
      "epoch": 0.022808510638297873,
      "grad_norm": 9.495620727539062,
      "learning_rate": 5e-05,
      "loss": 1.9932,
      "num_input_tokens_seen": 13466580,
      "step": 201
    },
    {
      "epoch": 0.022808510638297873,
      "loss": 1.8232104778289795,
      "loss_ce": 0.007780859246850014,
      "loss_iou": 0.7578125,
      "loss_num": 0.060302734375,
      "loss_xval": 1.8125,
      "num_input_tokens_seen": 13466580,
      "step": 201
    },
    {
      "epoch": 0.022921985815602838,
      "grad_norm": 11.255311965942383,
      "learning_rate": 5e-05,
      "loss": 2.0325,
      "num_input_tokens_seen": 13534640,
      "step": 202
    },
    {
      "epoch": 0.022921985815602838,
      "loss": 2.071322441101074,
      "loss_ce": 0.013705231249332428,
      "loss_iou": 0.86328125,
      "loss_num": 0.06689453125,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 13534640,
      "step": 202
    },
    {
      "epoch": 0.023035460992907802,
      "grad_norm": 17.184673309326172,
      "learning_rate": 5e-05,
      "loss": 2.0097,
      "num_input_tokens_seen": 13602264,
      "step": 203
    },
    {
      "epoch": 0.023035460992907802,
      "loss": 2.0403683185577393,
      "loss_ce": 0.005212023854255676,
      "loss_iou": 0.87890625,
      "loss_num": 0.055908203125,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 13602264,
      "step": 203
    },
    {
      "epoch": 0.023148936170212766,
      "grad_norm": 9.038235664367676,
      "learning_rate": 5e-05,
      "loss": 1.8224,
      "num_input_tokens_seen": 13669172,
      "step": 204
    },
    {
      "epoch": 0.023148936170212766,
      "loss": 1.8609318733215332,
      "loss_ce": 0.005463005043566227,
      "loss_iou": 0.8125,
      "loss_num": 0.04638671875,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 13669172,
      "step": 204
    },
    {
      "epoch": 0.02326241134751773,
      "grad_norm": 29.803781509399414,
      "learning_rate": 5e-05,
      "loss": 2.1233,
      "num_input_tokens_seen": 13736592,
      "step": 205
    },
    {
      "epoch": 0.02326241134751773,
      "loss": 2.1409409046173096,
      "loss_ce": 0.004222125746309757,
      "loss_iou": 0.97265625,
      "loss_num": 0.037841796875,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 13736592,
      "step": 205
    },
    {
      "epoch": 0.023375886524822694,
      "grad_norm": 6.92973518371582,
      "learning_rate": 5e-05,
      "loss": 2.6926,
      "num_input_tokens_seen": 13803796,
      "step": 206
    },
    {
      "epoch": 0.023375886524822694,
      "loss": 2.7092819213867188,
      "loss_ce": 0.006157130002975464,
      "loss_iou": 1.1171875,
      "loss_num": 0.0927734375,
      "loss_xval": 2.703125,
      "num_input_tokens_seen": 13803796,
      "step": 206
    },
    {
      "epoch": 0.02348936170212766,
      "grad_norm": 11.407899856567383,
      "learning_rate": 5e-05,
      "loss": 2.4872,
      "num_input_tokens_seen": 13871220,
      "step": 207
    },
    {
      "epoch": 0.02348936170212766,
      "loss": 2.3033008575439453,
      "loss_ce": 0.006425830069929361,
      "loss_iou": 0.921875,
      "loss_num": 0.09033203125,
      "loss_xval": 2.296875,
      "num_input_tokens_seen": 13871220,
      "step": 207
    },
    {
      "epoch": 0.023602836879432623,
      "grad_norm": 8.470863342285156,
      "learning_rate": 5e-05,
      "loss": 2.4444,
      "num_input_tokens_seen": 13938352,
      "step": 208
    },
    {
      "epoch": 0.023602836879432623,
      "loss": 2.387639045715332,
      "loss_ce": 0.009709497913718224,
      "loss_iou": 0.9296875,
      "loss_num": 0.1044921875,
      "loss_xval": 2.375,
      "num_input_tokens_seen": 13938352,
      "step": 208
    },
    {
      "epoch": 0.02371631205673759,
      "grad_norm": 5.836038589477539,
      "learning_rate": 5e-05,
      "loss": 2.1128,
      "num_input_tokens_seen": 14006028,
      "step": 209
    },
    {
      "epoch": 0.02371631205673759,
      "loss": 2.1263089179992676,
      "loss_ce": 0.005215306766331196,
      "loss_iou": 0.8515625,
      "loss_num": 0.0830078125,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 14006028,
      "step": 209
    },
    {
      "epoch": 0.023829787234042554,
      "grad_norm": 4.35966157913208,
      "learning_rate": 5e-05,
      "loss": 1.9961,
      "num_input_tokens_seen": 14072896,
      "step": 210
    },
    {
      "epoch": 0.023829787234042554,
      "loss": 2.21309232711792,
      "loss_ce": 0.007037497125566006,
      "loss_iou": 0.9140625,
      "loss_num": 0.07470703125,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 14072896,
      "step": 210
    },
    {
      "epoch": 0.02394326241134752,
      "grad_norm": 4.257979869842529,
      "learning_rate": 5e-05,
      "loss": 2.0431,
      "num_input_tokens_seen": 14139440,
      "step": 211
    },
    {
      "epoch": 0.02394326241134752,
      "loss": 1.9492368698120117,
      "loss_ce": 0.00917320791631937,
      "loss_iou": 0.8046875,
      "loss_num": 0.0654296875,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 14139440,
      "step": 211
    },
    {
      "epoch": 0.024056737588652483,
      "grad_norm": 8.190642356872559,
      "learning_rate": 5e-05,
      "loss": 2.2006,
      "num_input_tokens_seen": 14204532,
      "step": 212
    },
    {
      "epoch": 0.024056737588652483,
      "loss": 2.2021408081054688,
      "loss_ce": 0.0058517190627753735,
      "loss_iou": 0.9140625,
      "loss_num": 0.0732421875,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 14204532,
      "step": 212
    },
    {
      "epoch": 0.024170212765957447,
      "grad_norm": 6.30721378326416,
      "learning_rate": 5e-05,
      "loss": 2.0438,
      "num_input_tokens_seen": 14271332,
      "step": 213
    },
    {
      "epoch": 0.024170212765957447,
      "loss": 2.0705764293670654,
      "loss_ce": 0.005146675743162632,
      "loss_iou": 0.8828125,
      "loss_num": 0.0595703125,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 14271332,
      "step": 213
    },
    {
      "epoch": 0.02428368794326241,
      "grad_norm": 9.529452323913574,
      "learning_rate": 5e-05,
      "loss": 2.0553,
      "num_input_tokens_seen": 14338092,
      "step": 214
    },
    {
      "epoch": 0.02428368794326241,
      "loss": 2.0166282653808594,
      "loss_ce": 0.004909462295472622,
      "loss_iou": 0.8671875,
      "loss_num": 0.0556640625,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 14338092,
      "step": 214
    },
    {
      "epoch": 0.024397163120567375,
      "grad_norm": 7.940709590911865,
      "learning_rate": 5e-05,
      "loss": 2.2718,
      "num_input_tokens_seen": 14404636,
      "step": 215
    },
    {
      "epoch": 0.024397163120567375,
      "loss": 2.2077107429504395,
      "loss_ce": 0.0045858109369874,
      "loss_iou": 0.91796875,
      "loss_num": 0.07275390625,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 14404636,
      "step": 215
    },
    {
      "epoch": 0.02451063829787234,
      "grad_norm": 13.937631607055664,
      "learning_rate": 5e-05,
      "loss": 1.7767,
      "num_input_tokens_seen": 14472160,
      "step": 216
    },
    {
      "epoch": 0.02451063829787234,
      "loss": 1.670730710029602,
      "loss_ce": 0.002761953044682741,
      "loss_iou": 0.6875,
      "loss_num": 0.059326171875,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 14472160,
      "step": 216
    },
    {
      "epoch": 0.024624113475177303,
      "grad_norm": 11.08409595489502,
      "learning_rate": 5e-05,
      "loss": 1.8674,
      "num_input_tokens_seen": 14539320,
      "step": 217
    },
    {
      "epoch": 0.024624113475177303,
      "loss": 1.9403023719787598,
      "loss_ce": 0.004755446687340736,
      "loss_iou": 0.8359375,
      "loss_num": 0.052001953125,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 14539320,
      "step": 217
    },
    {
      "epoch": 0.02473758865248227,
      "grad_norm": 8.899972915649414,
      "learning_rate": 5e-05,
      "loss": 2.1453,
      "num_input_tokens_seen": 14606816,
      "step": 218
    },
    {
      "epoch": 0.02473758865248227,
      "loss": 2.190887689590454,
      "loss_ce": 0.004364242777228355,
      "loss_iou": 0.9296875,
      "loss_num": 0.06640625,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 14606816,
      "step": 218
    },
    {
      "epoch": 0.024851063829787235,
      "grad_norm": 23.090269088745117,
      "learning_rate": 5e-05,
      "loss": 2.0252,
      "num_input_tokens_seen": 14674460,
      "step": 219
    },
    {
      "epoch": 0.024851063829787235,
      "loss": 2.092092514038086,
      "loss_ce": 0.007131747901439667,
      "loss_iou": 0.9140625,
      "loss_num": 0.051513671875,
      "loss_xval": 2.078125,
      "num_input_tokens_seen": 14674460,
      "step": 219
    },
    {
      "epoch": 0.0249645390070922,
      "grad_norm": 10.872124671936035,
      "learning_rate": 5e-05,
      "loss": 2.6037,
      "num_input_tokens_seen": 14741572,
      "step": 220
    },
    {
      "epoch": 0.0249645390070922,
      "loss": 2.4498233795166016,
      "loss_ce": 0.006464020814746618,
      "loss_iou": 1.03125,
      "loss_num": 0.0751953125,
      "loss_xval": 2.4375,
      "num_input_tokens_seen": 14741572,
      "step": 220
    },
    {
      "epoch": 0.025078014184397163,
      "grad_norm": 7.035999774932861,
      "learning_rate": 5e-05,
      "loss": 2.0878,
      "num_input_tokens_seen": 14809340,
      "step": 221
    },
    {
      "epoch": 0.025078014184397163,
      "loss": 1.9501760005950928,
      "loss_ce": 0.004863569512963295,
      "loss_iou": 0.81640625,
      "loss_num": 0.062255859375,
      "loss_xval": 1.9453125,
      "num_input_tokens_seen": 14809340,
      "step": 221
    },
    {
      "epoch": 0.025191489361702128,
      "grad_norm": 6.450222015380859,
      "learning_rate": 5e-05,
      "loss": 2.1093,
      "num_input_tokens_seen": 14876796,
      "step": 222
    },
    {
      "epoch": 0.025191489361702128,
      "loss": 2.0551483631134033,
      "loss_ce": 0.0033905613236129284,
      "loss_iou": 0.86328125,
      "loss_num": 0.06494140625,
      "loss_xval": 2.046875,
      "num_input_tokens_seen": 14876796,
      "step": 222
    },
    {
      "epoch": 0.02530496453900709,
      "grad_norm": 9.484565734863281,
      "learning_rate": 5e-05,
      "loss": 2.0603,
      "num_input_tokens_seen": 14944300,
      "step": 223
    },
    {
      "epoch": 0.02530496453900709,
      "loss": 2.122736930847168,
      "loss_ce": 0.00847923569381237,
      "loss_iou": 0.921875,
      "loss_num": 0.053955078125,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 14944300,
      "step": 223
    },
    {
      "epoch": 0.025418439716312056,
      "grad_norm": 8.723320007324219,
      "learning_rate": 5e-05,
      "loss": 2.0587,
      "num_input_tokens_seen": 15011092,
      "step": 224
    },
    {
      "epoch": 0.025418439716312056,
      "loss": 2.0069522857666016,
      "loss_ce": 0.00988200306892395,
      "loss_iou": 0.83984375,
      "loss_num": 0.06298828125,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 15011092,
      "step": 224
    },
    {
      "epoch": 0.02553191489361702,
      "grad_norm": 14.41429328918457,
      "learning_rate": 5e-05,
      "loss": 2.0016,
      "num_input_tokens_seen": 15078840,
      "step": 225
    },
    {
      "epoch": 0.02553191489361702,
      "loss": 1.976339340209961,
      "loss_ce": 0.006612763740122318,
      "loss_iou": 0.8671875,
      "loss_num": 0.04638671875,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 15078840,
      "step": 225
    },
    {
      "epoch": 0.025645390070921984,
      "grad_norm": 10.499007225036621,
      "learning_rate": 5e-05,
      "loss": 2.3049,
      "num_input_tokens_seen": 15146060,
      "step": 226
    },
    {
      "epoch": 0.025645390070921984,
      "loss": 2.4666666984558105,
      "loss_ce": 0.0067058103159070015,
      "loss_iou": 1.015625,
      "loss_num": 0.08642578125,
      "loss_xval": 2.453125,
      "num_input_tokens_seen": 15146060,
      "step": 226
    },
    {
      "epoch": 0.02575886524822695,
      "grad_norm": 9.163516998291016,
      "learning_rate": 5e-05,
      "loss": 1.8218,
      "num_input_tokens_seen": 15212944,
      "step": 227
    },
    {
      "epoch": 0.02575886524822695,
      "loss": 1.6543978452682495,
      "loss_ce": 0.005960362032055855,
      "loss_iou": 0.70703125,
      "loss_num": 0.046630859375,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 15212944,
      "step": 227
    },
    {
      "epoch": 0.025872340425531916,
      "grad_norm": 21.593477249145508,
      "learning_rate": 5e-05,
      "loss": 2.226,
      "num_input_tokens_seen": 15280364,
      "step": 228
    },
    {
      "epoch": 0.025872340425531916,
      "loss": 2.2882308959960938,
      "loss_ce": 0.00698102917522192,
      "loss_iou": 1.0234375,
      "loss_num": 0.046630859375,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 15280364,
      "step": 228
    },
    {
      "epoch": 0.02598581560283688,
      "grad_norm": 9.316983222961426,
      "learning_rate": 5e-05,
      "loss": 2.2976,
      "num_input_tokens_seen": 15346740,
      "step": 229
    },
    {
      "epoch": 0.02598581560283688,
      "loss": 2.3553099632263184,
      "loss_ce": 0.0027708965353667736,
      "loss_iou": 0.96484375,
      "loss_num": 0.083984375,
      "loss_xval": 2.359375,
      "num_input_tokens_seen": 15346740,
      "step": 229
    },
    {
      "epoch": 0.026099290780141844,
      "grad_norm": 6.595977783203125,
      "learning_rate": 5e-05,
      "loss": 2.1237,
      "num_input_tokens_seen": 15413028,
      "step": 230
    },
    {
      "epoch": 0.026099290780141844,
      "loss": 2.1145944595336914,
      "loss_ce": 0.006195922382175922,
      "loss_iou": 0.87109375,
      "loss_num": 0.07373046875,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 15413028,
      "step": 230
    },
    {
      "epoch": 0.02621276595744681,
      "grad_norm": 6.657295227050781,
      "learning_rate": 5e-05,
      "loss": 1.9598,
      "num_input_tokens_seen": 15480472,
      "step": 231
    },
    {
      "epoch": 0.02621276595744681,
      "loss": 1.8962490558624268,
      "loss_ce": 0.0036708766128867865,
      "loss_iou": 0.79296875,
      "loss_num": 0.06201171875,
      "loss_xval": 1.890625,
      "num_input_tokens_seen": 15480472,
      "step": 231
    },
    {
      "epoch": 0.026326241134751772,
      "grad_norm": 6.500355243682861,
      "learning_rate": 5e-05,
      "loss": 2.0266,
      "num_input_tokens_seen": 15547348,
      "step": 232
    },
    {
      "epoch": 0.026326241134751772,
      "loss": 1.9612205028533936,
      "loss_ce": 0.008095450699329376,
      "loss_iou": 0.81640625,
      "loss_num": 0.06396484375,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 15547348,
      "step": 232
    },
    {
      "epoch": 0.026439716312056737,
      "grad_norm": 5.617609977722168,
      "learning_rate": 5e-05,
      "loss": 1.7771,
      "num_input_tokens_seen": 15614976,
      "step": 233
    },
    {
      "epoch": 0.026439716312056737,
      "loss": 1.7157471179962158,
      "loss_ce": 0.004321325104683638,
      "loss_iou": 0.73828125,
      "loss_num": 0.04736328125,
      "loss_xval": 1.7109375,
      "num_input_tokens_seen": 15614976,
      "step": 233
    },
    {
      "epoch": 0.0265531914893617,
      "grad_norm": 13.88807201385498,
      "learning_rate": 5e-05,
      "loss": 2.0225,
      "num_input_tokens_seen": 15680832,
      "step": 234
    },
    {
      "epoch": 0.0265531914893617,
      "loss": 2.129987955093384,
      "loss_ce": 0.004987928085029125,
      "loss_iou": 0.91015625,
      "loss_num": 0.06103515625,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 15680832,
      "step": 234
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 11.478364944458008,
      "learning_rate": 5e-05,
      "loss": 2.1561,
      "num_input_tokens_seen": 15748660,
      "step": 235
    },
    {
      "epoch": 0.02666666666666667,
      "loss": 1.8349120616912842,
      "loss_ce": 0.002880866639316082,
      "loss_iou": 0.7890625,
      "loss_num": 0.051513671875,
      "loss_xval": 1.828125,
      "num_input_tokens_seen": 15748660,
      "step": 235
    },
    {
      "epoch": 0.026780141843971633,
      "grad_norm": 8.200387001037598,
      "learning_rate": 5e-05,
      "loss": 2.0111,
      "num_input_tokens_seen": 15815892,
      "step": 236
    },
    {
      "epoch": 0.026780141843971633,
      "loss": 2.0589356422424316,
      "loss_ce": 0.005224656779319048,
      "loss_iou": 0.88671875,
      "loss_num": 0.056396484375,
      "loss_xval": 2.046875,
      "num_input_tokens_seen": 15815892,
      "step": 236
    },
    {
      "epoch": 0.026893617021276597,
      "grad_norm": 9.882049560546875,
      "learning_rate": 5e-05,
      "loss": 1.9111,
      "num_input_tokens_seen": 15884008,
      "step": 237
    },
    {
      "epoch": 0.026893617021276597,
      "loss": 2.0084316730499268,
      "loss_ce": 0.005502074025571346,
      "loss_iou": 0.875,
      "loss_num": 0.05078125,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 15884008,
      "step": 237
    },
    {
      "epoch": 0.02700709219858156,
      "grad_norm": 21.637062072753906,
      "learning_rate": 5e-05,
      "loss": 2.1668,
      "num_input_tokens_seen": 15951012,
      "step": 238
    },
    {
      "epoch": 0.02700709219858156,
      "loss": 2.265460968017578,
      "loss_ce": 0.0017892224714159966,
      "loss_iou": 1.0078125,
      "loss_num": 0.050048828125,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 15951012,
      "step": 238
    },
    {
      "epoch": 0.027120567375886525,
      "grad_norm": 8.70104694366455,
      "learning_rate": 5e-05,
      "loss": 2.4823,
      "num_input_tokens_seen": 16019368,
      "step": 239
    },
    {
      "epoch": 0.027120567375886525,
      "loss": 2.527390956878662,
      "loss_ce": 0.007859820500016212,
      "loss_iou": 1.0,
      "loss_num": 0.1025390625,
      "loss_xval": 2.515625,
      "num_input_tokens_seen": 16019368,
      "step": 239
    },
    {
      "epoch": 0.02723404255319149,
      "grad_norm": 6.527158260345459,
      "learning_rate": 5e-05,
      "loss": 2.0784,
      "num_input_tokens_seen": 16086544,
      "step": 240
    },
    {
      "epoch": 0.02723404255319149,
      "loss": 2.026237964630127,
      "loss_ce": 0.0037769549526274204,
      "loss_iou": 0.8359375,
      "loss_num": 0.0703125,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 16086544,
      "step": 240
    },
    {
      "epoch": 0.027347517730496453,
      "grad_norm": 4.500314712524414,
      "learning_rate": 5e-05,
      "loss": 2.0514,
      "num_input_tokens_seen": 16152976,
      "step": 241
    },
    {
      "epoch": 0.027347517730496453,
      "loss": 2.2074923515319824,
      "loss_ce": 0.006320300977677107,
      "loss_iou": 0.94140625,
      "loss_num": 0.06396484375,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 16152976,
      "step": 241
    },
    {
      "epoch": 0.027460992907801417,
      "grad_norm": 5.301125526428223,
      "learning_rate": 5e-05,
      "loss": 1.9567,
      "num_input_tokens_seen": 16220000,
      "step": 242
    },
    {
      "epoch": 0.027460992907801417,
      "loss": 1.9801630973815918,
      "loss_ce": 0.007506945636123419,
      "loss_iou": 0.8125,
      "loss_num": 0.06884765625,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 16220000,
      "step": 242
    },
    {
      "epoch": 0.02757446808510638,
      "grad_norm": 10.77995491027832,
      "learning_rate": 5e-05,
      "loss": 1.8699,
      "num_input_tokens_seen": 16288040,
      "step": 243
    },
    {
      "epoch": 0.02757446808510638,
      "loss": 1.854286551475525,
      "loss_ce": 0.008583463728427887,
      "loss_iou": 0.8125,
      "loss_num": 0.044677734375,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 16288040,
      "step": 243
    },
    {
      "epoch": 0.02768794326241135,
      "grad_norm": 11.072083473205566,
      "learning_rate": 5e-05,
      "loss": 1.9057,
      "num_input_tokens_seen": 16355756,
      "step": 244
    },
    {
      "epoch": 0.02768794326241135,
      "loss": 1.9159419536590576,
      "loss_ce": 0.00578565476462245,
      "loss_iou": 0.828125,
      "loss_num": 0.0498046875,
      "loss_xval": 1.90625,
      "num_input_tokens_seen": 16355756,
      "step": 244
    },
    {
      "epoch": 0.027801418439716313,
      "grad_norm": 18.18165397644043,
      "learning_rate": 5e-05,
      "loss": 2.1477,
      "num_input_tokens_seen": 16423600,
      "step": 245
    },
    {
      "epoch": 0.027801418439716313,
      "loss": 2.3565266132354736,
      "loss_ce": 0.00789375975728035,
      "loss_iou": 1.0,
      "loss_num": 0.06884765625,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 16423600,
      "step": 245
    },
    {
      "epoch": 0.027914893617021277,
      "grad_norm": 14.856623649597168,
      "learning_rate": 5e-05,
      "loss": 2.311,
      "num_input_tokens_seen": 16491436,
      "step": 246
    },
    {
      "epoch": 0.027914893617021277,
      "loss": 2.2698912620544434,
      "loss_ce": 0.0013363787438720465,
      "loss_iou": 0.96484375,
      "loss_num": 0.06787109375,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 16491436,
      "step": 246
    },
    {
      "epoch": 0.02802836879432624,
      "grad_norm": 12.985085487365723,
      "learning_rate": 5e-05,
      "loss": 2.0406,
      "num_input_tokens_seen": 16558608,
      "step": 247
    },
    {
      "epoch": 0.02802836879432624,
      "loss": 2.098839044570923,
      "loss_ce": 0.004112400114536285,
      "loss_iou": 0.8984375,
      "loss_num": 0.05908203125,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 16558608,
      "step": 247
    },
    {
      "epoch": 0.028141843971631206,
      "grad_norm": 19.290481567382812,
      "learning_rate": 5e-05,
      "loss": 1.7284,
      "num_input_tokens_seen": 16624592,
      "step": 248
    },
    {
      "epoch": 0.028141843971631206,
      "loss": 1.82149338722229,
      "loss_ce": 0.007040337193757296,
      "loss_iou": 0.8046875,
      "loss_num": 0.039794921875,
      "loss_xval": 1.8125,
      "num_input_tokens_seen": 16624592,
      "step": 248
    },
    {
      "epoch": 0.02825531914893617,
      "grad_norm": 7.165848731994629,
      "learning_rate": 5e-05,
      "loss": 2.1835,
      "num_input_tokens_seen": 16692536,
      "step": 249
    },
    {
      "epoch": 0.02825531914893617,
      "loss": 2.477263927459717,
      "loss_ce": 0.004607734270393848,
      "loss_iou": 1.03125,
      "loss_num": 0.0830078125,
      "loss_xval": 2.46875,
      "num_input_tokens_seen": 16692536,
      "step": 249
    },
    {
      "epoch": 0.028368794326241134,
      "grad_norm": 8.973677635192871,
      "learning_rate": 5e-05,
      "loss": 2.1983,
      "num_input_tokens_seen": 16758864,
      "step": 250
    },
    {
      "epoch": 0.028368794326241134,
      "eval_seeclick_CIoU": 0.2600785121321678,
      "eval_seeclick_GIoU": 0.20877815783023834,
      "eval_seeclick_IoU": 0.35782723128795624,
      "eval_seeclick_MAE_all": 0.13735485821962357,
      "eval_seeclick_MAE_h": 0.14090866968035698,
      "eval_seeclick_MAE_w": 0.18719150125980377,
      "eval_seeclick_MAE_x_boxes": 0.20731865614652634,
      "eval_seeclick_MAE_y_boxes": 0.13050348684191704,
      "eval_seeclick_NUM_probability": 0.998981237411499,
      "eval_seeclick_inside_bbox": 0.643750011920929,
      "eval_seeclick_loss": 3.0572867393493652,
      "eval_seeclick_loss_ce": 0.017635338008403778,
      "eval_seeclick_loss_iou": 1.166015625,
      "eval_seeclick_loss_num": 0.1401519775390625,
      "eval_seeclick_loss_xval": 3.0322265625,
      "eval_seeclick_runtime": 64.249,
      "eval_seeclick_samples_per_second": 0.732,
      "eval_seeclick_steps_per_second": 0.031,
      "num_input_tokens_seen": 16758864,
      "step": 250
    },
    {
      "epoch": 0.028368794326241134,
      "eval_icons_CIoU": 0.24009275436401367,
      "eval_icons_GIoU": 0.20836042612791061,
      "eval_icons_IoU": 0.29359768331050873,
      "eval_icons_MAE_all": 0.17572681605815887,
      "eval_icons_MAE_h": 0.1575198769569397,
      "eval_icons_MAE_w": 0.1687658280134201,
      "eval_icons_MAE_x_boxes": 0.14030620455741882,
      "eval_icons_MAE_y_boxes": 0.144181989133358,
      "eval_icons_NUM_probability": 0.9993697702884674,
      "eval_icons_inside_bbox": 0.5868055522441864,
      "eval_icons_loss": 3.022897720336914,
      "eval_icons_loss_ce": 0.0009537407895550132,
      "eval_icons_loss_iou": 1.081298828125,
      "eval_icons_loss_num": 0.167388916015625,
      "eval_icons_loss_xval": 3.0,
      "eval_icons_runtime": 71.695,
      "eval_icons_samples_per_second": 0.697,
      "eval_icons_steps_per_second": 0.028,
      "num_input_tokens_seen": 16758864,
      "step": 250
    },
    {
      "epoch": 0.028368794326241134,
      "eval_screenspot_CIoU": 0.31592753032843274,
      "eval_screenspot_GIoU": 0.26400816440582275,
      "eval_screenspot_IoU": 0.3875846366087596,
      "eval_screenspot_MAE_all": 0.14102947215239206,
      "eval_screenspot_MAE_h": 0.09044597794612248,
      "eval_screenspot_MAE_w": 0.17981172601381937,
      "eval_screenspot_MAE_x_boxes": 0.1978214979171753,
      "eval_screenspot_MAE_y_boxes": 0.10155592362085979,
      "eval_screenspot_NUM_probability": 0.9993345936139425,
      "eval_screenspot_inside_bbox": 0.690833330154419,
      "eval_screenspot_loss": 2.920102834701538,
      "eval_screenspot_loss_ce": 0.010277957655489445,
      "eval_screenspot_loss_iou": 1.1121419270833333,
      "eval_screenspot_loss_num": 0.14841715494791666,
      "eval_screenspot_loss_xval": 2.9677734375,
      "eval_screenspot_runtime": 119.4626,
      "eval_screenspot_samples_per_second": 0.745,
      "eval_screenspot_steps_per_second": 0.025,
      "num_input_tokens_seen": 16758864,
      "step": 250
    },
    {
      "epoch": 0.028368794326241134,
      "eval_compot_CIoU": 0.2687198519706726,
      "eval_compot_GIoU": 0.23791081458330154,
      "eval_compot_IoU": 0.3446352630853653,
      "eval_compot_MAE_all": 0.1301594153046608,
      "eval_compot_MAE_h": 0.0944719985127449,
      "eval_compot_MAE_w": 0.19169770181179047,
      "eval_compot_MAE_x_boxes": 0.1606287732720375,
      "eval_compot_MAE_y_boxes": 0.11573309078812599,
      "eval_compot_NUM_probability": 0.9993273019790649,
      "eval_compot_inside_bbox": 0.5833333432674408,
      "eval_compot_loss": 3.003568410873413,
      "eval_compot_loss_ce": 0.012178975157439709,
      "eval_compot_loss_iou": 1.188720703125,
      "eval_compot_loss_num": 0.133087158203125,
      "eval_compot_loss_xval": 3.044921875,
      "eval_compot_runtime": 68.4848,
      "eval_compot_samples_per_second": 0.73,
      "eval_compot_steps_per_second": 0.029,
      "num_input_tokens_seen": 16758864,
      "step": 250
    },
    {
      "epoch": 0.028368794326241134,
      "loss": 3.1121039390563965,
      "loss_ce": 0.012494347058236599,
      "loss_iou": 1.203125,
      "loss_num": 0.1376953125,
      "loss_xval": 3.09375,
      "num_input_tokens_seen": 16758864,
      "step": 250
    },
    {
      "epoch": 0.028482269503546098,
      "grad_norm": 5.460168838500977,
      "learning_rate": 5e-05,
      "loss": 1.8511,
      "num_input_tokens_seen": 16825536,
      "step": 251
    },
    {
      "epoch": 0.028482269503546098,
      "loss": 1.7926883697509766,
      "loss_ce": 0.004968694411218166,
      "loss_iou": 0.76953125,
      "loss_num": 0.050048828125,
      "loss_xval": 1.7890625,
      "num_input_tokens_seen": 16825536,
      "step": 251
    },
    {
      "epoch": 0.028595744680851062,
      "grad_norm": 6.790811061859131,
      "learning_rate": 5e-05,
      "loss": 1.8416,
      "num_input_tokens_seen": 16894148,
      "step": 252
    },
    {
      "epoch": 0.028595744680851062,
      "loss": 1.9579490423202515,
      "loss_ce": 0.008730348199605942,
      "loss_iou": 0.828125,
      "loss_num": 0.05810546875,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 16894148,
      "step": 252
    },
    {
      "epoch": 0.02870921985815603,
      "grad_norm": 9.910442352294922,
      "learning_rate": 5e-05,
      "loss": 1.8727,
      "num_input_tokens_seen": 16961344,
      "step": 253
    },
    {
      "epoch": 0.02870921985815603,
      "loss": 1.8506033420562744,
      "loss_ce": 0.006853396072983742,
      "loss_iou": 0.81640625,
      "loss_num": 0.041748046875,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 16961344,
      "step": 253
    },
    {
      "epoch": 0.028822695035460994,
      "grad_norm": 20.543609619140625,
      "learning_rate": 5e-05,
      "loss": 2.2085,
      "num_input_tokens_seen": 17028952,
      "step": 254
    },
    {
      "epoch": 0.028822695035460994,
      "loss": 2.1194276809692383,
      "loss_ce": 0.0032167374156415462,
      "loss_iou": 0.9296875,
      "loss_num": 0.052001953125,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 17028952,
      "step": 254
    },
    {
      "epoch": 0.02893617021276596,
      "grad_norm": 7.346212387084961,
      "learning_rate": 5e-05,
      "loss": 2.1764,
      "num_input_tokens_seen": 17095452,
      "step": 255
    },
    {
      "epoch": 0.02893617021276596,
      "loss": 2.0313618183135986,
      "loss_ce": 0.006947667337954044,
      "loss_iou": 0.8515625,
      "loss_num": 0.06396484375,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 17095452,
      "step": 255
    },
    {
      "epoch": 0.029049645390070922,
      "grad_norm": 7.899528503417969,
      "learning_rate": 5e-05,
      "loss": 2.1251,
      "num_input_tokens_seen": 17162304,
      "step": 256
    },
    {
      "epoch": 0.029049645390070922,
      "loss": 2.2551076412200928,
      "loss_ce": 0.0051076821982860565,
      "loss_iou": 0.95703125,
      "loss_num": 0.06640625,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 17162304,
      "step": 256
    },
    {
      "epoch": 0.029163120567375887,
      "grad_norm": 6.282658100128174,
      "learning_rate": 5e-05,
      "loss": 1.7434,
      "num_input_tokens_seen": 17229120,
      "step": 257
    },
    {
      "epoch": 0.029163120567375887,
      "loss": 1.672173023223877,
      "loss_ce": 0.006157414987683296,
      "loss_iou": 0.72265625,
      "loss_num": 0.0439453125,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 17229120,
      "step": 257
    },
    {
      "epoch": 0.02927659574468085,
      "grad_norm": 12.389342308044434,
      "learning_rate": 5e-05,
      "loss": 1.9134,
      "num_input_tokens_seen": 17297560,
      "step": 258
    },
    {
      "epoch": 0.02927659574468085,
      "loss": 1.8115240335464478,
      "loss_ce": 0.008789611980319023,
      "loss_iou": 0.79296875,
      "loss_num": 0.042724609375,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 17297560,
      "step": 258
    },
    {
      "epoch": 0.029390070921985815,
      "grad_norm": 16.15822982788086,
      "learning_rate": 5e-05,
      "loss": 2.1639,
      "num_input_tokens_seen": 17363528,
      "step": 259
    },
    {
      "epoch": 0.029390070921985815,
      "loss": 2.338066816329956,
      "loss_ce": 0.0040824878960847855,
      "loss_iou": 0.984375,
      "loss_num": 0.07373046875,
      "loss_xval": 2.328125,
      "num_input_tokens_seen": 17363528,
      "step": 259
    },
    {
      "epoch": 0.02950354609929078,
      "grad_norm": 12.859108924865723,
      "learning_rate": 5e-05,
      "loss": 1.966,
      "num_input_tokens_seen": 17430836,
      "step": 260
    },
    {
      "epoch": 0.02950354609929078,
      "loss": 1.9111645221710205,
      "loss_ce": 0.004914441145956516,
      "loss_iou": 0.83203125,
      "loss_num": 0.048828125,
      "loss_xval": 1.90625,
      "num_input_tokens_seen": 17430836,
      "step": 260
    },
    {
      "epoch": 0.029617021276595743,
      "grad_norm": 11.305160522460938,
      "learning_rate": 5e-05,
      "loss": 2.0049,
      "num_input_tokens_seen": 17499416,
      "step": 261
    },
    {
      "epoch": 0.029617021276595743,
      "loss": 1.9315319061279297,
      "loss_ce": 0.0037975353188812733,
      "loss_iou": 0.83984375,
      "loss_num": 0.0498046875,
      "loss_xval": 1.9296875,
      "num_input_tokens_seen": 17499416,
      "step": 261
    },
    {
      "epoch": 0.02973049645390071,
      "grad_norm": 13.384404182434082,
      "learning_rate": 5e-05,
      "loss": 2.0216,
      "num_input_tokens_seen": 17566112,
      "step": 262
    },
    {
      "epoch": 0.02973049645390071,
      "loss": 2.041735887527466,
      "loss_ce": 0.0056030466221272945,
      "loss_iou": 0.9140625,
      "loss_num": 0.041748046875,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 17566112,
      "step": 262
    },
    {
      "epoch": 0.029843971631205675,
      "grad_norm": 9.206878662109375,
      "learning_rate": 5e-05,
      "loss": 1.6667,
      "num_input_tokens_seen": 17632844,
      "step": 263
    },
    {
      "epoch": 0.029843971631205675,
      "loss": 1.3018920421600342,
      "loss_ce": 0.00941151101142168,
      "loss_iou": 0.51953125,
      "loss_num": 0.05126953125,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 17632844,
      "step": 263
    },
    {
      "epoch": 0.02995744680851064,
      "grad_norm": 6.433008670806885,
      "learning_rate": 5e-05,
      "loss": 1.5656,
      "num_input_tokens_seen": 17698800,
      "step": 264
    },
    {
      "epoch": 0.02995744680851064,
      "loss": 1.2904703617095947,
      "loss_ce": 0.006656893528997898,
      "loss_iou": 0.5,
      "loss_num": 0.056640625,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 17698800,
      "step": 264
    },
    {
      "epoch": 0.030070921985815603,
      "grad_norm": 8.935543060302734,
      "learning_rate": 5e-05,
      "loss": 2.0157,
      "num_input_tokens_seen": 17766264,
      "step": 265
    },
    {
      "epoch": 0.030070921985815603,
      "loss": 2.0029244422912598,
      "loss_ce": 0.004877553787082434,
      "loss_iou": 0.875,
      "loss_num": 0.05029296875,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 17766264,
      "step": 265
    },
    {
      "epoch": 0.030184397163120567,
      "grad_norm": 13.26976490020752,
      "learning_rate": 5e-05,
      "loss": 2.0772,
      "num_input_tokens_seen": 17833584,
      "step": 266
    },
    {
      "epoch": 0.030184397163120567,
      "loss": 2.1903786659240723,
      "loss_ce": 0.0077615841291844845,
      "loss_iou": 0.9296875,
      "loss_num": 0.064453125,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 17833584,
      "step": 266
    },
    {
      "epoch": 0.03029787234042553,
      "grad_norm": 15.633513450622559,
      "learning_rate": 5e-05,
      "loss": 1.9299,
      "num_input_tokens_seen": 17900460,
      "step": 267
    },
    {
      "epoch": 0.03029787234042553,
      "loss": 1.7634007930755615,
      "loss_ce": 0.005099976435303688,
      "loss_iou": 0.76953125,
      "loss_num": 0.044189453125,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 17900460,
      "step": 267
    },
    {
      "epoch": 0.030411347517730496,
      "grad_norm": 22.159420013427734,
      "learning_rate": 5e-05,
      "loss": 2.1978,
      "num_input_tokens_seen": 17967116,
      "step": 268
    },
    {
      "epoch": 0.030411347517730496,
      "loss": 2.263099431991577,
      "loss_ce": 0.003333885921165347,
      "loss_iou": 1.0078125,
      "loss_num": 0.04833984375,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 17967116,
      "step": 268
    },
    {
      "epoch": 0.03052482269503546,
      "grad_norm": 10.844381332397461,
      "learning_rate": 5e-05,
      "loss": 2.2087,
      "num_input_tokens_seen": 18034372,
      "step": 269
    },
    {
      "epoch": 0.03052482269503546,
      "loss": 2.3244190216064453,
      "loss_ce": 0.0060597313567996025,
      "loss_iou": 0.953125,
      "loss_num": 0.0830078125,
      "loss_xval": 2.3125,
      "num_input_tokens_seen": 18034372,
      "step": 269
    },
    {
      "epoch": 0.030638297872340424,
      "grad_norm": 6.925060272216797,
      "learning_rate": 5e-05,
      "loss": 1.8899,
      "num_input_tokens_seen": 18101104,
      "step": 270
    },
    {
      "epoch": 0.030638297872340424,
      "loss": 1.867739200592041,
      "loss_ce": 0.004457914270460606,
      "loss_iou": 0.80859375,
      "loss_num": 0.049072265625,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 18101104,
      "step": 270
    },
    {
      "epoch": 0.03075177304964539,
      "grad_norm": 161.00608825683594,
      "learning_rate": 5e-05,
      "loss": 1.9141,
      "num_input_tokens_seen": 18168156,
      "step": 271
    },
    {
      "epoch": 0.03075177304964539,
      "loss": 1.7850086688995361,
      "loss_ce": 0.006688364781439304,
      "loss_iou": 0.75,
      "loss_num": 0.054931640625,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 18168156,
      "step": 271
    },
    {
      "epoch": 0.030865248226950356,
      "grad_norm": 6.867938995361328,
      "learning_rate": 5e-05,
      "loss": 2.0123,
      "num_input_tokens_seen": 18235008,
      "step": 272
    },
    {
      "epoch": 0.030865248226950356,
      "loss": 1.9921396970748901,
      "loss_ce": 0.007764625363051891,
      "loss_iou": 0.828125,
      "loss_num": 0.06591796875,
      "loss_xval": 1.984375,
      "num_input_tokens_seen": 18235008,
      "step": 272
    },
    {
      "epoch": 0.03097872340425532,
      "grad_norm": 15.63873291015625,
      "learning_rate": 5e-05,
      "loss": 1.675,
      "num_input_tokens_seen": 18302988,
      "step": 273
    },
    {
      "epoch": 0.03097872340425532,
      "loss": 1.5078907012939453,
      "loss_ce": 0.008623176254332066,
      "loss_iou": 0.64453125,
      "loss_num": 0.0419921875,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 18302988,
      "step": 273
    },
    {
      "epoch": 0.031092198581560284,
      "grad_norm": 11.333196640014648,
      "learning_rate": 5e-05,
      "loss": 2.3521,
      "num_input_tokens_seen": 18369904,
      "step": 274
    },
    {
      "epoch": 0.031092198581560284,
      "loss": 2.3601491451263428,
      "loss_ce": 0.004680343437939882,
      "loss_iou": 1.015625,
      "loss_num": 0.06591796875,
      "loss_xval": 2.359375,
      "num_input_tokens_seen": 18369904,
      "step": 274
    },
    {
      "epoch": 0.031205673758865248,
      "grad_norm": 13.15666389465332,
      "learning_rate": 5e-05,
      "loss": 1.9118,
      "num_input_tokens_seen": 18436608,
      "step": 275
    },
    {
      "epoch": 0.031205673758865248,
      "loss": 1.8120490312576294,
      "loss_ce": 0.0073614707216620445,
      "loss_iou": 0.77734375,
      "loss_num": 0.05029296875,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 18436608,
      "step": 275
    },
    {
      "epoch": 0.031319148936170216,
      "grad_norm": 12.694738388061523,
      "learning_rate": 5e-05,
      "loss": 1.7447,
      "num_input_tokens_seen": 18503848,
      "step": 276
    },
    {
      "epoch": 0.031319148936170216,
      "loss": 1.5381172895431519,
      "loss_ce": 0.010285252705216408,
      "loss_iou": 0.671875,
      "loss_num": 0.03759765625,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 18503848,
      "step": 276
    },
    {
      "epoch": 0.03143262411347518,
      "grad_norm": 10.742746353149414,
      "learning_rate": 5e-05,
      "loss": 1.8848,
      "num_input_tokens_seen": 18571136,
      "step": 277
    },
    {
      "epoch": 0.03143262411347518,
      "loss": 1.7825450897216797,
      "loss_ce": 0.009107710793614388,
      "loss_iou": 0.7734375,
      "loss_num": 0.04443359375,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 18571136,
      "step": 277
    },
    {
      "epoch": 0.031546099290780144,
      "grad_norm": 15.429614067077637,
      "learning_rate": 5e-05,
      "loss": 1.8763,
      "num_input_tokens_seen": 18638072,
      "step": 278
    },
    {
      "epoch": 0.031546099290780144,
      "loss": 1.9720700979232788,
      "loss_ce": 0.007226407527923584,
      "loss_iou": 0.86328125,
      "loss_num": 0.046875,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 18638072,
      "step": 278
    },
    {
      "epoch": 0.03165957446808511,
      "grad_norm": 8.569972038269043,
      "learning_rate": 5e-05,
      "loss": 2.0069,
      "num_input_tokens_seen": 18705376,
      "step": 279
    },
    {
      "epoch": 0.03165957446808511,
      "loss": 2.059032917022705,
      "loss_ce": 0.009228149428963661,
      "loss_iou": 0.859375,
      "loss_num": 0.0654296875,
      "loss_xval": 2.046875,
      "num_input_tokens_seen": 18705376,
      "step": 279
    },
    {
      "epoch": 0.03177304964539007,
      "grad_norm": 7.8481268882751465,
      "learning_rate": 5e-05,
      "loss": 1.8557,
      "num_input_tokens_seen": 18772304,
      "step": 280
    },
    {
      "epoch": 0.03177304964539007,
      "loss": 1.719026803970337,
      "loss_ce": 0.006136110983788967,
      "loss_iou": 0.703125,
      "loss_num": 0.061279296875,
      "loss_xval": 1.7109375,
      "num_input_tokens_seen": 18772304,
      "step": 280
    },
    {
      "epoch": 0.031886524822695037,
      "grad_norm": 9.859753608703613,
      "learning_rate": 5e-05,
      "loss": 1.622,
      "num_input_tokens_seen": 18837972,
      "step": 281
    },
    {
      "epoch": 0.031886524822695037,
      "loss": 1.3393020629882812,
      "loss_ce": 0.004157942719757557,
      "loss_iou": 0.59375,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 18837972,
      "step": 281
    },
    {
      "epoch": 0.032,
      "grad_norm": 11.190667152404785,
      "learning_rate": 5e-05,
      "loss": 1.9279,
      "num_input_tokens_seen": 18904472,
      "step": 282
    },
    {
      "epoch": 0.032,
      "loss": 1.9282174110412598,
      "loss_ce": 0.0063423700630664825,
      "loss_iou": 0.81640625,
      "loss_num": 0.05810546875,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 18904472,
      "step": 282
    },
    {
      "epoch": 0.032113475177304965,
      "grad_norm": 20.114343643188477,
      "learning_rate": 5e-05,
      "loss": 2.019,
      "num_input_tokens_seen": 18970744,
      "step": 283
    },
    {
      "epoch": 0.032113475177304965,
      "loss": 1.9409167766571045,
      "loss_ce": 0.005369936116039753,
      "loss_iou": 0.86328125,
      "loss_num": 0.041259765625,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 18970744,
      "step": 283
    },
    {
      "epoch": 0.03222695035460993,
      "grad_norm": 15.047739028930664,
      "learning_rate": 5e-05,
      "loss": 2.313,
      "num_input_tokens_seen": 19037956,
      "step": 284
    },
    {
      "epoch": 0.03222695035460993,
      "loss": 2.3897476196289062,
      "loss_ce": 0.00400524353608489,
      "loss_iou": 1.0078125,
      "loss_num": 0.072265625,
      "loss_xval": 2.390625,
      "num_input_tokens_seen": 19037956,
      "step": 284
    },
    {
      "epoch": 0.03234042553191489,
      "grad_norm": 6.943511962890625,
      "learning_rate": 5e-05,
      "loss": 2.1334,
      "num_input_tokens_seen": 19104744,
      "step": 285
    },
    {
      "epoch": 0.03234042553191489,
      "loss": 2.0633130073547363,
      "loss_ce": 0.004719087854027748,
      "loss_iou": 0.8671875,
      "loss_num": 0.0654296875,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 19104744,
      "step": 285
    },
    {
      "epoch": 0.03245390070921986,
      "grad_norm": 6.821163654327393,
      "learning_rate": 5e-05,
      "loss": 1.8214,
      "num_input_tokens_seen": 19172424,
      "step": 286
    },
    {
      "epoch": 0.03245390070921986,
      "loss": 1.7625958919525146,
      "loss_ce": 0.0038069370202720165,
      "loss_iou": 0.78125,
      "loss_num": 0.038330078125,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 19172424,
      "step": 286
    },
    {
      "epoch": 0.03256737588652482,
      "grad_norm": 8.497527122497559,
      "learning_rate": 5e-05,
      "loss": 1.5624,
      "num_input_tokens_seen": 19239204,
      "step": 287
    },
    {
      "epoch": 0.03256737588652482,
      "loss": 1.4482800960540771,
      "loss_ce": 0.005408936180174351,
      "loss_iou": 0.62109375,
      "loss_num": 0.04052734375,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 19239204,
      "step": 287
    },
    {
      "epoch": 0.032680851063829786,
      "grad_norm": 12.623098373413086,
      "learning_rate": 5e-05,
      "loss": 1.8728,
      "num_input_tokens_seen": 19306444,
      "step": 288
    },
    {
      "epoch": 0.032680851063829786,
      "loss": 1.8080207109451294,
      "loss_ce": 0.003333227476105094,
      "loss_iou": 0.80859375,
      "loss_num": 0.037109375,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 19306444,
      "step": 288
    },
    {
      "epoch": 0.03279432624113475,
      "grad_norm": 8.989241600036621,
      "learning_rate": 5e-05,
      "loss": 1.9127,
      "num_input_tokens_seen": 19373696,
      "step": 289
    },
    {
      "epoch": 0.03279432624113475,
      "loss": 1.8455727100372314,
      "loss_ce": 0.007682140450924635,
      "loss_iou": 0.796875,
      "loss_num": 0.048583984375,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 19373696,
      "step": 289
    },
    {
      "epoch": 0.032907801418439714,
      "grad_norm": 10.816082954406738,
      "learning_rate": 5e-05,
      "loss": 1.8388,
      "num_input_tokens_seen": 19440960,
      "step": 290
    },
    {
      "epoch": 0.032907801418439714,
      "loss": 1.7573647499084473,
      "loss_ce": 0.006449204869568348,
      "loss_iou": 0.7265625,
      "loss_num": 0.059814453125,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 19440960,
      "step": 290
    },
    {
      "epoch": 0.03302127659574468,
      "grad_norm": 14.113431930541992,
      "learning_rate": 5e-05,
      "loss": 1.8441,
      "num_input_tokens_seen": 19508696,
      "step": 291
    },
    {
      "epoch": 0.03302127659574468,
      "loss": 1.5646504163742065,
      "loss_ce": 0.006544953212141991,
      "loss_iou": 0.66796875,
      "loss_num": 0.044921875,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 19508696,
      "step": 291
    },
    {
      "epoch": 0.03313475177304964,
      "grad_norm": 15.188502311706543,
      "learning_rate": 5e-05,
      "loss": 2.011,
      "num_input_tokens_seen": 19575760,
      "step": 292
    },
    {
      "epoch": 0.03313475177304964,
      "loss": 2.0527005195617676,
      "loss_ce": 0.005703392438590527,
      "loss_iou": 0.88671875,
      "loss_num": 0.054443359375,
      "loss_xval": 2.046875,
      "num_input_tokens_seen": 19575760,
      "step": 292
    },
    {
      "epoch": 0.03324822695035461,
      "grad_norm": 13.581162452697754,
      "learning_rate": 5e-05,
      "loss": 2.1418,
      "num_input_tokens_seen": 19643032,
      "step": 293
    },
    {
      "epoch": 0.03324822695035461,
      "loss": 2.056790351867676,
      "loss_ce": 0.004055805504322052,
      "loss_iou": 0.859375,
      "loss_num": 0.0673828125,
      "loss_xval": 2.046875,
      "num_input_tokens_seen": 19643032,
      "step": 293
    },
    {
      "epoch": 0.03336170212765958,
      "grad_norm": 9.861833572387695,
      "learning_rate": 5e-05,
      "loss": 1.8314,
      "num_input_tokens_seen": 19709972,
      "step": 294
    },
    {
      "epoch": 0.03336170212765958,
      "loss": 1.639631748199463,
      "loss_ce": 0.0058426205068826675,
      "loss_iou": 0.73046875,
      "loss_num": 0.034423828125,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 19709972,
      "step": 294
    },
    {
      "epoch": 0.03347517730496454,
      "grad_norm": 12.28863525390625,
      "learning_rate": 5e-05,
      "loss": 1.8767,
      "num_input_tokens_seen": 19778056,
      "step": 295
    },
    {
      "epoch": 0.03347517730496454,
      "loss": 1.844092845916748,
      "loss_ce": 0.00620223255828023,
      "loss_iou": 0.828125,
      "loss_num": 0.037109375,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 19778056,
      "step": 295
    },
    {
      "epoch": 0.033588652482269506,
      "grad_norm": 12.59624195098877,
      "learning_rate": 5e-05,
      "loss": 1.8226,
      "num_input_tokens_seen": 19844996,
      "step": 296
    },
    {
      "epoch": 0.033588652482269506,
      "loss": 2.0350990295410156,
      "loss_ce": 0.00189600873272866,
      "loss_iou": 0.89453125,
      "loss_num": 0.048583984375,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 19844996,
      "step": 296
    },
    {
      "epoch": 0.03370212765957447,
      "grad_norm": 10.43272876739502,
      "learning_rate": 5e-05,
      "loss": 1.7135,
      "num_input_tokens_seen": 19912312,
      "step": 297
    },
    {
      "epoch": 0.03370212765957447,
      "loss": 1.7965657711029053,
      "loss_ce": 0.00555016566067934,
      "loss_iou": 0.8046875,
      "loss_num": 0.03564453125,
      "loss_xval": 1.7890625,
      "num_input_tokens_seen": 19912312,
      "step": 297
    },
    {
      "epoch": 0.033815602836879434,
      "grad_norm": 9.22323989868164,
      "learning_rate": 5e-05,
      "loss": 1.7673,
      "num_input_tokens_seen": 19979436,
      "step": 298
    },
    {
      "epoch": 0.033815602836879434,
      "loss": 1.6282013654708862,
      "loss_ce": 0.0061309668235480785,
      "loss_iou": 0.69921875,
      "loss_num": 0.04443359375,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 19979436,
      "step": 298
    },
    {
      "epoch": 0.0339290780141844,
      "grad_norm": 16.668603897094727,
      "learning_rate": 5e-05,
      "loss": 1.7389,
      "num_input_tokens_seen": 20046952,
      "step": 299
    },
    {
      "epoch": 0.0339290780141844,
      "loss": 1.683901309967041,
      "loss_ce": 0.006166987121105194,
      "loss_iou": 0.73828125,
      "loss_num": 0.040283203125,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 20046952,
      "step": 299
    },
    {
      "epoch": 0.03404255319148936,
      "grad_norm": 11.400404930114746,
      "learning_rate": 5e-05,
      "loss": 2.083,
      "num_input_tokens_seen": 20113752,
      "step": 300
    },
    {
      "epoch": 0.03404255319148936,
      "loss": 2.1611223220825195,
      "loss_ce": 0.005848799832165241,
      "loss_iou": 0.8828125,
      "loss_num": 0.07763671875,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 20113752,
      "step": 300
    },
    {
      "epoch": 0.034156028368794326,
      "grad_norm": 8.308260917663574,
      "learning_rate": 5e-05,
      "loss": 1.8843,
      "num_input_tokens_seen": 20181188,
      "step": 301
    },
    {
      "epoch": 0.034156028368794326,
      "loss": 1.7061738967895508,
      "loss_ce": 0.0030488448683172464,
      "loss_iou": 0.74609375,
      "loss_num": 0.0419921875,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 20181188,
      "step": 301
    },
    {
      "epoch": 0.03426950354609929,
      "grad_norm": 65.70999908447266,
      "learning_rate": 5e-05,
      "loss": 1.7068,
      "num_input_tokens_seen": 20248736,
      "step": 302
    },
    {
      "epoch": 0.03426950354609929,
      "loss": 1.5653730630874634,
      "loss_ce": 0.0067793577909469604,
      "loss_iou": 0.6640625,
      "loss_num": 0.046630859375,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 20248736,
      "step": 302
    },
    {
      "epoch": 0.034382978723404255,
      "grad_norm": 11.202934265136719,
      "learning_rate": 5e-05,
      "loss": 1.5844,
      "num_input_tokens_seen": 20315308,
      "step": 303
    },
    {
      "epoch": 0.034382978723404255,
      "loss": 1.5782370567321777,
      "loss_ce": 0.007436252664774656,
      "loss_iou": 0.6640625,
      "loss_num": 0.04931640625,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 20315308,
      "step": 303
    },
    {
      "epoch": 0.03449645390070922,
      "grad_norm": 5.915576934814453,
      "learning_rate": 5e-05,
      "loss": 1.8794,
      "num_input_tokens_seen": 20383084,
      "step": 304
    },
    {
      "epoch": 0.03449645390070922,
      "loss": 1.9599313735961914,
      "loss_ce": 0.006806384306401014,
      "loss_iou": 0.86328125,
      "loss_num": 0.046142578125,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 20383084,
      "step": 304
    },
    {
      "epoch": 0.03460992907801418,
      "grad_norm": 9.87212085723877,
      "learning_rate": 5e-05,
      "loss": 1.7838,
      "num_input_tokens_seen": 20449340,
      "step": 305
    },
    {
      "epoch": 0.03460992907801418,
      "loss": 1.8135701417922974,
      "loss_ce": 0.003999822773039341,
      "loss_iou": 0.81640625,
      "loss_num": 0.034912109375,
      "loss_xval": 1.8125,
      "num_input_tokens_seen": 20449340,
      "step": 305
    },
    {
      "epoch": 0.03472340425531915,
      "grad_norm": 19.46306610107422,
      "learning_rate": 5e-05,
      "loss": 1.8606,
      "num_input_tokens_seen": 20516316,
      "step": 306
    },
    {
      "epoch": 0.03472340425531915,
      "loss": 1.7291628122329712,
      "loss_ce": 0.007483146619051695,
      "loss_iou": 0.76171875,
      "loss_num": 0.0400390625,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 20516316,
      "step": 306
    },
    {
      "epoch": 0.03483687943262411,
      "grad_norm": 10.960990905761719,
      "learning_rate": 5e-05,
      "loss": 2.3545,
      "num_input_tokens_seen": 20583924,
      "step": 307
    },
    {
      "epoch": 0.03483687943262411,
      "loss": 2.3911118507385254,
      "loss_ce": 0.005369510501623154,
      "loss_iou": 1.0078125,
      "loss_num": 0.072265625,
      "loss_xval": 2.390625,
      "num_input_tokens_seen": 20583924,
      "step": 307
    },
    {
      "epoch": 0.034950354609929075,
      "grad_norm": 10.204492568969727,
      "learning_rate": 5e-05,
      "loss": 1.7587,
      "num_input_tokens_seen": 20649724,
      "step": 308
    },
    {
      "epoch": 0.034950354609929075,
      "loss": 1.8348736763000488,
      "loss_ce": 0.006412984803318977,
      "loss_iou": 0.79296875,
      "loss_num": 0.0478515625,
      "loss_xval": 1.828125,
      "num_input_tokens_seen": 20649724,
      "step": 308
    },
    {
      "epoch": 0.03506382978723404,
      "grad_norm": 10.062225341796875,
      "learning_rate": 5e-05,
      "loss": 1.8237,
      "num_input_tokens_seen": 20717048,
      "step": 309
    },
    {
      "epoch": 0.03506382978723404,
      "loss": 1.9135606288909912,
      "loss_ce": 0.0024278739001601934,
      "loss_iou": 0.8515625,
      "loss_num": 0.041015625,
      "loss_xval": 1.9140625,
      "num_input_tokens_seen": 20717048,
      "step": 309
    },
    {
      "epoch": 0.035177304964539004,
      "grad_norm": 11.57259464263916,
      "learning_rate": 5e-05,
      "loss": 1.6695,
      "num_input_tokens_seen": 20784472,
      "step": 310
    },
    {
      "epoch": 0.035177304964539004,
      "loss": 1.770615816116333,
      "loss_ce": 0.005967391654849052,
      "loss_iou": 0.78125,
      "loss_num": 0.04052734375,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 20784472,
      "step": 310
    },
    {
      "epoch": 0.035290780141843975,
      "grad_norm": 27.006113052368164,
      "learning_rate": 5e-05,
      "loss": 1.8904,
      "num_input_tokens_seen": 20851756,
      "step": 311
    },
    {
      "epoch": 0.035290780141843975,
      "loss": 1.8200178146362305,
      "loss_ce": 0.0036115958355367184,
      "loss_iou": 0.81640625,
      "loss_num": 0.0361328125,
      "loss_xval": 1.8125,
      "num_input_tokens_seen": 20851756,
      "step": 311
    },
    {
      "epoch": 0.03540425531914894,
      "grad_norm": 11.53738021850586,
      "learning_rate": 5e-05,
      "loss": 2.3406,
      "num_input_tokens_seen": 20918924,
      "step": 312
    },
    {
      "epoch": 0.03540425531914894,
      "loss": 2.4691262245178223,
      "loss_ce": 0.006235548760741949,
      "loss_iou": 1.0078125,
      "loss_num": 0.0888671875,
      "loss_xval": 2.46875,
      "num_input_tokens_seen": 20918924,
      "step": 312
    },
    {
      "epoch": 0.0355177304964539,
      "grad_norm": 7.687313079833984,
      "learning_rate": 5e-05,
      "loss": 1.9144,
      "num_input_tokens_seen": 20986488,
      "step": 313
    },
    {
      "epoch": 0.0355177304964539,
      "loss": 2.0699260234832764,
      "loss_ce": 0.003519809804856777,
      "loss_iou": 0.890625,
      "loss_num": 0.057861328125,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 20986488,
      "step": 313
    },
    {
      "epoch": 0.03563120567375887,
      "grad_norm": 9.105737686157227,
      "learning_rate": 5e-05,
      "loss": 1.8399,
      "num_input_tokens_seen": 21054084,
      "step": 314
    },
    {
      "epoch": 0.03563120567375887,
      "loss": 1.6271653175354004,
      "loss_ce": 0.0070482161827385426,
      "loss_iou": 0.71875,
      "loss_num": 0.036865234375,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 21054084,
      "step": 314
    },
    {
      "epoch": 0.03574468085106383,
      "grad_norm": 9.15229606628418,
      "learning_rate": 5e-05,
      "loss": 1.4933,
      "num_input_tokens_seen": 21120152,
      "step": 315
    },
    {
      "epoch": 0.03574468085106383,
      "loss": 1.5604159832000732,
      "loss_ce": 0.00377525482326746,
      "loss_iou": 0.69921875,
      "loss_num": 0.0322265625,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 21120152,
      "step": 315
    },
    {
      "epoch": 0.035858156028368796,
      "grad_norm": 14.197229385375977,
      "learning_rate": 5e-05,
      "loss": 1.822,
      "num_input_tokens_seen": 21187560,
      "step": 316
    },
    {
      "epoch": 0.035858156028368796,
      "loss": 1.9277466535568237,
      "loss_ce": 0.0029419383499771357,
      "loss_iou": 0.84375,
      "loss_num": 0.04736328125,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 21187560,
      "step": 316
    },
    {
      "epoch": 0.03597163120567376,
      "grad_norm": 11.363560676574707,
      "learning_rate": 5e-05,
      "loss": 1.6916,
      "num_input_tokens_seen": 21254048,
      "step": 317
    },
    {
      "epoch": 0.03597163120567376,
      "loss": 1.5744434595108032,
      "loss_ce": 0.005351661704480648,
      "loss_iou": 0.68359375,
      "loss_num": 0.039794921875,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 21254048,
      "step": 317
    },
    {
      "epoch": 0.036085106382978724,
      "grad_norm": 13.152106285095215,
      "learning_rate": 5e-05,
      "loss": 1.7571,
      "num_input_tokens_seen": 21321540,
      "step": 318
    },
    {
      "epoch": 0.036085106382978724,
      "loss": 1.7704094648361206,
      "loss_ce": 0.004784464370459318,
      "loss_iou": 0.7578125,
      "loss_num": 0.0498046875,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 21321540,
      "step": 318
    },
    {
      "epoch": 0.03619858156028369,
      "grad_norm": 18.271629333496094,
      "learning_rate": 5e-05,
      "loss": 1.9908,
      "num_input_tokens_seen": 21388784,
      "step": 319
    },
    {
      "epoch": 0.03619858156028369,
      "loss": 2.0441243648529053,
      "loss_ce": 0.006038379389792681,
      "loss_iou": 0.90234375,
      "loss_num": 0.045654296875,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 21388784,
      "step": 319
    },
    {
      "epoch": 0.03631205673758865,
      "grad_norm": 11.79103946685791,
      "learning_rate": 5e-05,
      "loss": 1.881,
      "num_input_tokens_seen": 21455720,
      "step": 320
    },
    {
      "epoch": 0.03631205673758865,
      "loss": 1.8369628190994263,
      "loss_ce": 0.006396282464265823,
      "loss_iou": 0.77734375,
      "loss_num": 0.0546875,
      "loss_xval": 1.828125,
      "num_input_tokens_seen": 21455720,
      "step": 320
    },
    {
      "epoch": 0.036425531914893616,
      "grad_norm": 9.16121768951416,
      "learning_rate": 5e-05,
      "loss": 1.7337,
      "num_input_tokens_seen": 21523632,
      "step": 321
    },
    {
      "epoch": 0.036425531914893616,
      "loss": 1.6132855415344238,
      "loss_ce": 0.004887003917247057,
      "loss_iou": 0.703125,
      "loss_num": 0.041259765625,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 21523632,
      "step": 321
    },
    {
      "epoch": 0.03653900709219858,
      "grad_norm": 18.61342430114746,
      "learning_rate": 5e-05,
      "loss": 1.7599,
      "num_input_tokens_seen": 21590768,
      "step": 322
    },
    {
      "epoch": 0.03653900709219858,
      "loss": 1.7776464223861694,
      "loss_ce": 0.014462875202298164,
      "loss_iou": 0.765625,
      "loss_num": 0.045654296875,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 21590768,
      "step": 322
    },
    {
      "epoch": 0.036652482269503545,
      "grad_norm": 15.850141525268555,
      "learning_rate": 5e-05,
      "loss": 2.1834,
      "num_input_tokens_seen": 21656848,
      "step": 323
    },
    {
      "epoch": 0.036652482269503545,
      "loss": 2.2282731533050537,
      "loss_ce": 0.00854656845331192,
      "loss_iou": 0.9453125,
      "loss_num": 0.06591796875,
      "loss_xval": 2.21875,
      "num_input_tokens_seen": 21656848,
      "step": 323
    },
    {
      "epoch": 0.03676595744680851,
      "grad_norm": 11.996734619140625,
      "learning_rate": 5e-05,
      "loss": 2.0107,
      "num_input_tokens_seen": 21725200,
      "step": 324
    },
    {
      "epoch": 0.03676595744680851,
      "loss": 2.0538389682769775,
      "loss_ce": 0.00696394219994545,
      "loss_iou": 0.87890625,
      "loss_num": 0.05810546875,
      "loss_xval": 2.046875,
      "num_input_tokens_seen": 21725200,
      "step": 324
    },
    {
      "epoch": 0.03687943262411347,
      "grad_norm": 10.135830879211426,
      "learning_rate": 5e-05,
      "loss": 1.6325,
      "num_input_tokens_seen": 21793200,
      "step": 325
    },
    {
      "epoch": 0.03687943262411347,
      "loss": 1.8590407371520996,
      "loss_ce": 0.003571954555809498,
      "loss_iou": 0.796875,
      "loss_num": 0.05126953125,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 21793200,
      "step": 325
    },
    {
      "epoch": 0.03699290780141844,
      "grad_norm": 17.991735458374023,
      "learning_rate": 5e-05,
      "loss": 1.6858,
      "num_input_tokens_seen": 21860708,
      "step": 326
    },
    {
      "epoch": 0.03699290780141844,
      "loss": 1.6767836809158325,
      "loss_ce": 0.003932127729058266,
      "loss_iou": 0.7578125,
      "loss_num": 0.0308837890625,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 21860708,
      "step": 326
    },
    {
      "epoch": 0.0371063829787234,
      "grad_norm": 14.526854515075684,
      "learning_rate": 5e-05,
      "loss": 2.0247,
      "num_input_tokens_seen": 21927680,
      "step": 327
    },
    {
      "epoch": 0.0371063829787234,
      "loss": 1.8798165321350098,
      "loss_ce": 0.007746191695332527,
      "loss_iou": 0.8203125,
      "loss_num": 0.046875,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 21927680,
      "step": 327
    },
    {
      "epoch": 0.037219858156028365,
      "grad_norm": 28.746919631958008,
      "learning_rate": 5e-05,
      "loss": 1.974,
      "num_input_tokens_seen": 21994312,
      "step": 328
    },
    {
      "epoch": 0.037219858156028365,
      "loss": 2.034322500228882,
      "loss_ce": 0.008931776508688927,
      "loss_iou": 0.8984375,
      "loss_num": 0.046630859375,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 21994312,
      "step": 328
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 10.732256889343262,
      "learning_rate": 5e-05,
      "loss": 1.7311,
      "num_input_tokens_seen": 22061144,
      "step": 329
    },
    {
      "epoch": 0.037333333333333336,
      "loss": 1.718879222869873,
      "loss_ce": 0.007453521713614464,
      "loss_iou": 0.72265625,
      "loss_num": 0.052490234375,
      "loss_xval": 1.7109375,
      "num_input_tokens_seen": 22061144,
      "step": 329
    },
    {
      "epoch": 0.0374468085106383,
      "grad_norm": 19.15789031982422,
      "learning_rate": 5e-05,
      "loss": 1.7632,
      "num_input_tokens_seen": 22128296,
      "step": 330
    },
    {
      "epoch": 0.0374468085106383,
      "loss": 1.4962890148162842,
      "loss_ce": 0.010204942896962166,
      "loss_iou": 0.61328125,
      "loss_num": 0.0517578125,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 22128296,
      "step": 330
    },
    {
      "epoch": 0.037560283687943265,
      "grad_norm": 7.280378341674805,
      "learning_rate": 5e-05,
      "loss": 1.7901,
      "num_input_tokens_seen": 22195484,
      "step": 331
    },
    {
      "epoch": 0.037560283687943265,
      "loss": 1.7912237644195557,
      "loss_ce": 0.005090933293104172,
      "loss_iou": 0.7734375,
      "loss_num": 0.04736328125,
      "loss_xval": 1.7890625,
      "num_input_tokens_seen": 22195484,
      "step": 331
    },
    {
      "epoch": 0.03767375886524823,
      "grad_norm": 36.30406951904297,
      "learning_rate": 5e-05,
      "loss": 1.8706,
      "num_input_tokens_seen": 22263364,
      "step": 332
    },
    {
      "epoch": 0.03767375886524823,
      "loss": 1.8649563789367676,
      "loss_ce": 0.006557925138622522,
      "loss_iou": 0.80859375,
      "loss_num": 0.04833984375,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 22263364,
      "step": 332
    },
    {
      "epoch": 0.03778723404255319,
      "grad_norm": 8.53650951385498,
      "learning_rate": 5e-05,
      "loss": 1.7131,
      "num_input_tokens_seen": 22330388,
      "step": 333
    },
    {
      "epoch": 0.03778723404255319,
      "loss": 1.742357611656189,
      "loss_ce": 0.004076333716511726,
      "loss_iou": 0.765625,
      "loss_num": 0.041259765625,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 22330388,
      "step": 333
    },
    {
      "epoch": 0.03790070921985816,
      "grad_norm": 13.311731338500977,
      "learning_rate": 5e-05,
      "loss": 1.8607,
      "num_input_tokens_seen": 22398288,
      "step": 334
    },
    {
      "epoch": 0.03790070921985816,
      "loss": 1.9420421123504639,
      "loss_ce": 0.009424794465303421,
      "loss_iou": 0.8359375,
      "loss_num": 0.051513671875,
      "loss_xval": 1.9296875,
      "num_input_tokens_seen": 22398288,
      "step": 334
    },
    {
      "epoch": 0.03801418439716312,
      "grad_norm": 14.665520668029785,
      "learning_rate": 5e-05,
      "loss": 1.8946,
      "num_input_tokens_seen": 22466300,
      "step": 335
    },
    {
      "epoch": 0.03801418439716312,
      "loss": 1.954387903213501,
      "loss_ce": 0.003215963486582041,
      "loss_iou": 0.86328125,
      "loss_num": 0.045166015625,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 22466300,
      "step": 335
    },
    {
      "epoch": 0.038127659574468085,
      "grad_norm": 9.485793113708496,
      "learning_rate": 5e-05,
      "loss": 1.8768,
      "num_input_tokens_seen": 22534524,
      "step": 336
    },
    {
      "epoch": 0.038127659574468085,
      "loss": 2.10499906539917,
      "loss_ce": 0.008319545537233353,
      "loss_iou": 0.890625,
      "loss_num": 0.0634765625,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 22534524,
      "step": 336
    },
    {
      "epoch": 0.03824113475177305,
      "grad_norm": 9.837711334228516,
      "learning_rate": 5e-05,
      "loss": 1.745,
      "num_input_tokens_seen": 22601412,
      "step": 337
    },
    {
      "epoch": 0.03824113475177305,
      "loss": 1.6147350072860718,
      "loss_ce": 0.0053599514067173,
      "loss_iou": 0.6875,
      "loss_num": 0.046630859375,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 22601412,
      "step": 337
    },
    {
      "epoch": 0.038354609929078014,
      "grad_norm": 8.057740211486816,
      "learning_rate": 5e-05,
      "loss": 1.8417,
      "num_input_tokens_seen": 22668056,
      "step": 338
    },
    {
      "epoch": 0.038354609929078014,
      "loss": 1.7793132066726685,
      "loss_ce": 0.006852380931377411,
      "loss_iou": 0.7421875,
      "loss_num": 0.05712890625,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 22668056,
      "step": 338
    },
    {
      "epoch": 0.03846808510638298,
      "grad_norm": 14.87540340423584,
      "learning_rate": 5e-05,
      "loss": 1.6721,
      "num_input_tokens_seen": 22734940,
      "step": 339
    },
    {
      "epoch": 0.03846808510638298,
      "loss": 1.5698710680007935,
      "loss_ce": 0.007371098734438419,
      "loss_iou": 0.703125,
      "loss_num": 0.0308837890625,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 22734940,
      "step": 339
    },
    {
      "epoch": 0.03858156028368794,
      "grad_norm": 14.085060119628906,
      "learning_rate": 5e-05,
      "loss": 2.0993,
      "num_input_tokens_seen": 22801856,
      "step": 340
    },
    {
      "epoch": 0.03858156028368794,
      "loss": 2.096773624420166,
      "loss_ce": 0.006929907016456127,
      "loss_iou": 0.91015625,
      "loss_num": 0.05322265625,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 22801856,
      "step": 340
    },
    {
      "epoch": 0.038695035460992906,
      "grad_norm": 13.027799606323242,
      "learning_rate": 5e-05,
      "loss": 1.8008,
      "num_input_tokens_seen": 22868748,
      "step": 341
    },
    {
      "epoch": 0.038695035460992906,
      "loss": 1.7504373788833618,
      "loss_ce": 0.004831954371184111,
      "loss_iou": 0.78515625,
      "loss_num": 0.035888671875,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 22868748,
      "step": 341
    },
    {
      "epoch": 0.03880851063829787,
      "grad_norm": 9.26049518585205,
      "learning_rate": 5e-05,
      "loss": 1.7002,
      "num_input_tokens_seen": 22934992,
      "step": 342
    },
    {
      "epoch": 0.03880851063829787,
      "loss": 1.615633249282837,
      "loss_ce": 0.00540362810716033,
      "loss_iou": 0.68359375,
      "loss_num": 0.048583984375,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 22934992,
      "step": 342
    },
    {
      "epoch": 0.038921985815602834,
      "grad_norm": 9.297807693481445,
      "learning_rate": 5e-05,
      "loss": 1.8052,
      "num_input_tokens_seen": 23002012,
      "step": 343
    },
    {
      "epoch": 0.038921985815602834,
      "loss": 1.626907229423523,
      "loss_ce": 0.0028837849386036396,
      "loss_iou": 0.703125,
      "loss_num": 0.043701171875,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 23002012,
      "step": 343
    },
    {
      "epoch": 0.0390354609929078,
      "grad_norm": 8.945372581481934,
      "learning_rate": 5e-05,
      "loss": 1.8324,
      "num_input_tokens_seen": 23069692,
      "step": 344
    },
    {
      "epoch": 0.0390354609929078,
      "loss": 1.8078868389129639,
      "loss_ce": 0.006129118613898754,
      "loss_iou": 0.78125,
      "loss_num": 0.0478515625,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 23069692,
      "step": 344
    },
    {
      "epoch": 0.03914893617021276,
      "grad_norm": 23.199546813964844,
      "learning_rate": 5e-05,
      "loss": 1.7023,
      "num_input_tokens_seen": 23134628,
      "step": 345
    },
    {
      "epoch": 0.03914893617021276,
      "loss": 1.6502742767333984,
      "loss_ce": 0.0076961517333984375,
      "loss_iou": 0.75,
      "loss_num": 0.02880859375,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 23134628,
      "step": 345
    },
    {
      "epoch": 0.039262411347517734,
      "grad_norm": 9.21031665802002,
      "learning_rate": 5e-05,
      "loss": 1.9456,
      "num_input_tokens_seen": 23200784,
      "step": 346
    },
    {
      "epoch": 0.039262411347517734,
      "loss": 1.9581053256988525,
      "loss_ce": 0.010351352393627167,
      "loss_iou": 0.77734375,
      "loss_num": 0.07861328125,
      "loss_xval": 1.9453125,
      "num_input_tokens_seen": 23200784,
      "step": 346
    },
    {
      "epoch": 0.0393758865248227,
      "grad_norm": 17.361915588378906,
      "learning_rate": 5e-05,
      "loss": 2.1841,
      "num_input_tokens_seen": 23268200,
      "step": 347
    },
    {
      "epoch": 0.0393758865248227,
      "loss": 2.175938129425049,
      "loss_ce": 0.01089904922991991,
      "loss_iou": 0.90625,
      "loss_num": 0.0703125,
      "loss_xval": 2.171875,
      "num_input_tokens_seen": 23268200,
      "step": 347
    },
    {
      "epoch": 0.03948936170212766,
      "grad_norm": 7.063631057739258,
      "learning_rate": 5e-05,
      "loss": 2.0208,
      "num_input_tokens_seen": 23335256,
      "step": 348
    },
    {
      "epoch": 0.03948936170212766,
      "loss": 2.06843900680542,
      "loss_ce": 0.005938874091953039,
      "loss_iou": 0.8984375,
      "loss_num": 0.054443359375,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 23335256,
      "step": 348
    },
    {
      "epoch": 0.039602836879432626,
      "grad_norm": 6.618181228637695,
      "learning_rate": 5e-05,
      "loss": 1.2979,
      "num_input_tokens_seen": 23400964,
      "step": 349
    },
    {
      "epoch": 0.039602836879432626,
      "loss": 1.3136639595031738,
      "loss_ce": 0.009708911180496216,
      "loss_iou": 0.546875,
      "loss_num": 0.04248046875,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 23400964,
      "step": 349
    },
    {
      "epoch": 0.03971631205673759,
      "grad_norm": 20.612577438354492,
      "learning_rate": 5e-05,
      "loss": 1.6106,
      "num_input_tokens_seen": 23467656,
      "step": 350
    },
    {
      "epoch": 0.03971631205673759,
      "loss": 1.4416754245758057,
      "loss_ce": 0.00625066552311182,
      "loss_iou": 0.609375,
      "loss_num": 0.0439453125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 23467656,
      "step": 350
    },
    {
      "epoch": 0.039829787234042555,
      "grad_norm": 8.938033103942871,
      "learning_rate": 5e-05,
      "loss": 2.3297,
      "num_input_tokens_seen": 23535160,
      "step": 351
    },
    {
      "epoch": 0.039829787234042555,
      "loss": 2.5216450691223145,
      "loss_ce": 0.007973408326506615,
      "loss_iou": 1.078125,
      "loss_num": 0.07275390625,
      "loss_xval": 2.515625,
      "num_input_tokens_seen": 23535160,
      "step": 351
    },
    {
      "epoch": 0.03994326241134752,
      "grad_norm": 10.802734375,
      "learning_rate": 5e-05,
      "loss": 1.9522,
      "num_input_tokens_seen": 23602144,
      "step": 352
    },
    {
      "epoch": 0.03994326241134752,
      "loss": 2.038917064666748,
      "loss_ce": 0.005714117549359798,
      "loss_iou": 0.87109375,
      "loss_num": 0.05810546875,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 23602144,
      "step": 352
    },
    {
      "epoch": 0.04005673758865248,
      "grad_norm": 5.5683512687683105,
      "learning_rate": 5e-05,
      "loss": 1.7502,
      "num_input_tokens_seen": 23669464,
      "step": 353
    },
    {
      "epoch": 0.04005673758865248,
      "loss": 1.8316184282302856,
      "loss_ce": 0.009352825582027435,
      "loss_iou": 0.78125,
      "loss_num": 0.052490234375,
      "loss_xval": 1.8203125,
      "num_input_tokens_seen": 23669464,
      "step": 353
    },
    {
      "epoch": 0.04017021276595745,
      "grad_norm": 9.748205184936523,
      "learning_rate": 5e-05,
      "loss": 1.8643,
      "num_input_tokens_seen": 23736112,
      "step": 354
    },
    {
      "epoch": 0.04017021276595745,
      "loss": 1.8307163715362549,
      "loss_ce": 0.004544502589851618,
      "loss_iou": 0.765625,
      "loss_num": 0.059326171875,
      "loss_xval": 1.828125,
      "num_input_tokens_seen": 23736112,
      "step": 354
    },
    {
      "epoch": 0.04028368794326241,
      "grad_norm": 13.45147705078125,
      "learning_rate": 5e-05,
      "loss": 1.6008,
      "num_input_tokens_seen": 23802736,
      "step": 355
    },
    {
      "epoch": 0.04028368794326241,
      "loss": 1.5305674076080322,
      "loss_ce": 0.007160322740674019,
      "loss_iou": 0.6171875,
      "loss_num": 0.057373046875,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 23802736,
      "step": 355
    },
    {
      "epoch": 0.040397163120567375,
      "grad_norm": 14.283074378967285,
      "learning_rate": 5e-05,
      "loss": 1.8395,
      "num_input_tokens_seen": 23869836,
      "step": 356
    },
    {
      "epoch": 0.040397163120567375,
      "loss": 1.9126441478729248,
      "loss_ce": 0.006394117139279842,
      "loss_iou": 0.8203125,
      "loss_num": 0.052734375,
      "loss_xval": 1.90625,
      "num_input_tokens_seen": 23869836,
      "step": 356
    },
    {
      "epoch": 0.04051063829787234,
      "grad_norm": 14.506884574890137,
      "learning_rate": 5e-05,
      "loss": 1.7545,
      "num_input_tokens_seen": 23937984,
      "step": 357
    },
    {
      "epoch": 0.04051063829787234,
      "loss": 1.799316167831421,
      "loss_ce": 0.005370842292904854,
      "loss_iou": 0.80859375,
      "loss_num": 0.03466796875,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 23937984,
      "step": 357
    },
    {
      "epoch": 0.040624113475177304,
      "grad_norm": 13.331757545471191,
      "learning_rate": 5e-05,
      "loss": 2.0891,
      "num_input_tokens_seen": 24006360,
      "step": 358
    },
    {
      "epoch": 0.040624113475177304,
      "loss": 2.0679564476013184,
      "loss_ce": 0.0035034313332289457,
      "loss_iou": 0.87109375,
      "loss_num": 0.064453125,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 24006360,
      "step": 358
    },
    {
      "epoch": 0.04073758865248227,
      "grad_norm": 9.24000072479248,
      "learning_rate": 5e-05,
      "loss": 1.8633,
      "num_input_tokens_seen": 24073196,
      "step": 359
    },
    {
      "epoch": 0.04073758865248227,
      "loss": 1.73261559009552,
      "loss_ce": 0.0026351111009716988,
      "loss_iou": 0.7578125,
      "loss_num": 0.043701171875,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 24073196,
      "step": 359
    },
    {
      "epoch": 0.04085106382978723,
      "grad_norm": 8.014318466186523,
      "learning_rate": 5e-05,
      "loss": 1.6998,
      "num_input_tokens_seen": 24139812,
      "step": 360
    },
    {
      "epoch": 0.04085106382978723,
      "loss": 1.6567741632461548,
      "loss_ce": 0.006383546162396669,
      "loss_iou": 0.734375,
      "loss_num": 0.035888671875,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 24139812,
      "step": 360
    },
    {
      "epoch": 0.040964539007092196,
      "grad_norm": 20.476974487304688,
      "learning_rate": 5e-05,
      "loss": 1.6479,
      "num_input_tokens_seen": 24206120,
      "step": 361
    },
    {
      "epoch": 0.040964539007092196,
      "loss": 1.4891489744186401,
      "loss_ce": 0.004285700153559446,
      "loss_iou": 0.6640625,
      "loss_num": 0.031982421875,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 24206120,
      "step": 361
    },
    {
      "epoch": 0.04107801418439716,
      "grad_norm": 8.155142784118652,
      "learning_rate": 5e-05,
      "loss": 2.0784,
      "num_input_tokens_seen": 24273124,
      "step": 362
    },
    {
      "epoch": 0.04107801418439716,
      "loss": 1.924838900566101,
      "loss_ce": 0.0058935414999723434,
      "loss_iou": 0.79296875,
      "loss_num": 0.06689453125,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 24273124,
      "step": 362
    },
    {
      "epoch": 0.041191489361702124,
      "grad_norm": 6.372441291809082,
      "learning_rate": 5e-05,
      "loss": 1.9024,
      "num_input_tokens_seen": 24340224,
      "step": 363
    },
    {
      "epoch": 0.041191489361702124,
      "loss": 1.8963903188705444,
      "loss_ce": 0.007718536537140608,
      "loss_iou": 0.8203125,
      "loss_num": 0.05029296875,
      "loss_xval": 1.890625,
      "num_input_tokens_seen": 24340224,
      "step": 363
    },
    {
      "epoch": 0.041304964539007095,
      "grad_norm": 15.702291488647461,
      "learning_rate": 5e-05,
      "loss": 1.8488,
      "num_input_tokens_seen": 24407828,
      "step": 364
    },
    {
      "epoch": 0.041304964539007095,
      "loss": 1.9788827896118164,
      "loss_ce": 0.0023203797172755003,
      "loss_iou": 0.875,
      "loss_num": 0.044921875,
      "loss_xval": 1.9765625,
      "num_input_tokens_seen": 24407828,
      "step": 364
    },
    {
      "epoch": 0.04141843971631206,
      "grad_norm": 21.70964813232422,
      "learning_rate": 5e-05,
      "loss": 2.0756,
      "num_input_tokens_seen": 24474044,
      "step": 365
    },
    {
      "epoch": 0.04141843971631206,
      "loss": 2.2820191383361816,
      "loss_ce": 0.006628553383052349,
      "loss_iou": 0.98046875,
      "loss_num": 0.06298828125,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 24474044,
      "step": 365
    },
    {
      "epoch": 0.041531914893617024,
      "grad_norm": 10.6577787399292,
      "learning_rate": 5e-05,
      "loss": 2.0656,
      "num_input_tokens_seen": 24541052,
      "step": 366
    },
    {
      "epoch": 0.041531914893617024,
      "loss": 2.0730795860290527,
      "loss_ce": 0.004720219410955906,
      "loss_iou": 0.875,
      "loss_num": 0.06298828125,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 24541052,
      "step": 366
    },
    {
      "epoch": 0.04164539007092199,
      "grad_norm": 5.599886417388916,
      "learning_rate": 5e-05,
      "loss": 1.6824,
      "num_input_tokens_seen": 24608356,
      "step": 367
    },
    {
      "epoch": 0.04164539007092199,
      "loss": 1.570767879486084,
      "loss_ce": 0.00405639735981822,
      "loss_iou": 0.6875,
      "loss_num": 0.038330078125,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 24608356,
      "step": 367
    },
    {
      "epoch": 0.04175886524822695,
      "grad_norm": 7.578250885009766,
      "learning_rate": 5e-05,
      "loss": 1.7863,
      "num_input_tokens_seen": 24675956,
      "step": 368
    },
    {
      "epoch": 0.04175886524822695,
      "loss": 1.84307861328125,
      "loss_ce": 0.0071410806849598885,
      "loss_iou": 0.765625,
      "loss_num": 0.0615234375,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 24675956,
      "step": 368
    },
    {
      "epoch": 0.041872340425531916,
      "grad_norm": 19.423490524291992,
      "learning_rate": 5e-05,
      "loss": 1.6714,
      "num_input_tokens_seen": 24744068,
      "step": 369
    },
    {
      "epoch": 0.041872340425531916,
      "loss": 1.7347580194473267,
      "loss_ce": 0.009172121062874794,
      "loss_iou": 0.79296875,
      "loss_num": 0.027587890625,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 24744068,
      "step": 369
    },
    {
      "epoch": 0.04198581560283688,
      "grad_norm": 10.66460132598877,
      "learning_rate": 5e-05,
      "loss": 2.0245,
      "num_input_tokens_seen": 24810936,
      "step": 370
    },
    {
      "epoch": 0.04198581560283688,
      "loss": 2.326857089996338,
      "loss_ce": 0.006544522475451231,
      "loss_iou": 0.984375,
      "loss_num": 0.07177734375,
      "loss_xval": 2.3125,
      "num_input_tokens_seen": 24810936,
      "step": 370
    },
    {
      "epoch": 0.042099290780141845,
      "grad_norm": 10.194830894470215,
      "learning_rate": 5e-05,
      "loss": 1.6635,
      "num_input_tokens_seen": 24877540,
      "step": 371
    },
    {
      "epoch": 0.042099290780141845,
      "loss": 1.5662899017333984,
      "loss_ce": 0.0047664949670434,
      "loss_iou": 0.68359375,
      "loss_num": 0.038818359375,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 24877540,
      "step": 371
    },
    {
      "epoch": 0.04221276595744681,
      "grad_norm": 11.885354995727539,
      "learning_rate": 5e-05,
      "loss": 1.7226,
      "num_input_tokens_seen": 24944392,
      "step": 372
    },
    {
      "epoch": 0.04221276595744681,
      "loss": 1.6853244304656982,
      "loss_ce": 0.0036838846281170845,
      "loss_iou": 0.7578125,
      "loss_num": 0.03369140625,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 24944392,
      "step": 372
    },
    {
      "epoch": 0.04232624113475177,
      "grad_norm": 8.856010437011719,
      "learning_rate": 5e-05,
      "loss": 1.8756,
      "num_input_tokens_seen": 25011328,
      "step": 373
    },
    {
      "epoch": 0.04232624113475177,
      "loss": 1.9972258806228638,
      "loss_ce": 0.0011321594938635826,
      "loss_iou": 0.875,
      "loss_num": 0.049560546875,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 25011328,
      "step": 373
    },
    {
      "epoch": 0.04243971631205674,
      "grad_norm": 10.784789085388184,
      "learning_rate": 5e-05,
      "loss": 1.831,
      "num_input_tokens_seen": 25079096,
      "step": 374
    },
    {
      "epoch": 0.04243971631205674,
      "loss": 1.8047897815704346,
      "loss_ce": 0.0020554119255393744,
      "loss_iou": 0.78515625,
      "loss_num": 0.04638671875,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 25079096,
      "step": 374
    },
    {
      "epoch": 0.0425531914893617,
      "grad_norm": 26.170074462890625,
      "learning_rate": 5e-05,
      "loss": 1.8419,
      "num_input_tokens_seen": 25147084,
      "step": 375
    },
    {
      "epoch": 0.0425531914893617,
      "loss": 1.7834932804107666,
      "loss_ce": 0.004684723448008299,
      "loss_iou": 0.8203125,
      "loss_num": 0.0274658203125,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 25147084,
      "step": 375
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 9.186128616333008,
      "learning_rate": 5e-05,
      "loss": 1.9932,
      "num_input_tokens_seen": 25213860,
      "step": 376
    },
    {
      "epoch": 0.042666666666666665,
      "loss": 1.9065356254577637,
      "loss_ce": 0.007121581118553877,
      "loss_iou": 0.8046875,
      "loss_num": 0.05859375,
      "loss_xval": 1.8984375,
      "num_input_tokens_seen": 25213860,
      "step": 376
    },
    {
      "epoch": 0.04278014184397163,
      "grad_norm": 54.05340576171875,
      "learning_rate": 5e-05,
      "loss": 1.9324,
      "num_input_tokens_seen": 25280848,
      "step": 377
    },
    {
      "epoch": 0.04278014184397163,
      "loss": 2.1024069786071777,
      "loss_ce": 0.005727292038500309,
      "loss_iou": 0.87890625,
      "loss_num": 0.06787109375,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 25280848,
      "step": 377
    },
    {
      "epoch": 0.042893617021276594,
      "grad_norm": 7.200591564178467,
      "learning_rate": 5e-05,
      "loss": 1.8507,
      "num_input_tokens_seen": 25347812,
      "step": 378
    },
    {
      "epoch": 0.042893617021276594,
      "loss": 1.8386974334716797,
      "loss_ce": 0.004224690608680248,
      "loss_iou": 0.78125,
      "loss_num": 0.053955078125,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 25347812,
      "step": 378
    },
    {
      "epoch": 0.04300709219858156,
      "grad_norm": 26.286785125732422,
      "learning_rate": 5e-05,
      "loss": 1.6675,
      "num_input_tokens_seen": 25414724,
      "step": 379
    },
    {
      "epoch": 0.04300709219858156,
      "loss": 1.6013360023498535,
      "loss_ce": 0.003130500204861164,
      "loss_iou": 0.70703125,
      "loss_num": 0.037353515625,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 25414724,
      "step": 379
    },
    {
      "epoch": 0.04312056737588652,
      "grad_norm": 14.2239351272583,
      "learning_rate": 5e-05,
      "loss": 1.5861,
      "num_input_tokens_seen": 25481876,
      "step": 380
    },
    {
      "epoch": 0.04312056737588652,
      "loss": 1.6314011812210083,
      "loss_ce": 0.0027390564791858196,
      "loss_iou": 0.73046875,
      "loss_num": 0.03369140625,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 25481876,
      "step": 380
    },
    {
      "epoch": 0.043234042553191486,
      "grad_norm": 11.216201782226562,
      "learning_rate": 5e-05,
      "loss": 1.9841,
      "num_input_tokens_seen": 25549792,
      "step": 381
    },
    {
      "epoch": 0.043234042553191486,
      "loss": 1.9786845445632935,
      "loss_ce": 0.007188059855252504,
      "loss_iou": 0.80859375,
      "loss_num": 0.0712890625,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 25549792,
      "step": 381
    },
    {
      "epoch": 0.04334751773049646,
      "grad_norm": 12.522164344787598,
      "learning_rate": 5e-05,
      "loss": 1.8146,
      "num_input_tokens_seen": 25616888,
      "step": 382
    },
    {
      "epoch": 0.04334751773049646,
      "loss": 1.8329905271530151,
      "loss_ce": 0.0038889795541763306,
      "loss_iou": 0.81640625,
      "loss_num": 0.038818359375,
      "loss_xval": 1.828125,
      "num_input_tokens_seen": 25616888,
      "step": 382
    },
    {
      "epoch": 0.04346099290780142,
      "grad_norm": 9.7744779586792,
      "learning_rate": 5e-05,
      "loss": 1.8679,
      "num_input_tokens_seen": 25683988,
      "step": 383
    },
    {
      "epoch": 0.04346099290780142,
      "loss": 1.7494938373565674,
      "loss_ce": 0.0073064216412603855,
      "loss_iou": 0.71875,
      "loss_num": 0.060302734375,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 25683988,
      "step": 383
    },
    {
      "epoch": 0.043574468085106385,
      "grad_norm": 6.787555694580078,
      "learning_rate": 5e-05,
      "loss": 1.6996,
      "num_input_tokens_seen": 25749920,
      "step": 384
    },
    {
      "epoch": 0.043574468085106385,
      "loss": 1.6695765256881714,
      "loss_ce": 0.005025653634220362,
      "loss_iou": 0.7265625,
      "loss_num": 0.041748046875,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 25749920,
      "step": 384
    },
    {
      "epoch": 0.04368794326241135,
      "grad_norm": 21.40035057067871,
      "learning_rate": 5e-05,
      "loss": 1.9349,
      "num_input_tokens_seen": 25816256,
      "step": 385
    },
    {
      "epoch": 0.04368794326241135,
      "loss": 2.017331123352051,
      "loss_ce": 0.005612209439277649,
      "loss_iou": 0.875,
      "loss_num": 0.052734375,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 25816256,
      "step": 385
    },
    {
      "epoch": 0.043801418439716314,
      "grad_norm": 21.66626739501953,
      "learning_rate": 5e-05,
      "loss": 1.9793,
      "num_input_tokens_seen": 25884340,
      "step": 386
    },
    {
      "epoch": 0.043801418439716314,
      "loss": 1.8686704635620117,
      "loss_ce": 0.0073424531146883965,
      "loss_iou": 0.8125,
      "loss_num": 0.0478515625,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 25884340,
      "step": 386
    },
    {
      "epoch": 0.04391489361702128,
      "grad_norm": 10.16074275970459,
      "learning_rate": 5e-05,
      "loss": 2.0703,
      "num_input_tokens_seen": 25951256,
      "step": 387
    },
    {
      "epoch": 0.04391489361702128,
      "loss": 1.9003788232803345,
      "loss_ce": 0.005847586784511805,
      "loss_iou": 0.83984375,
      "loss_num": 0.04345703125,
      "loss_xval": 1.890625,
      "num_input_tokens_seen": 25951256,
      "step": 387
    },
    {
      "epoch": 0.04402836879432624,
      "grad_norm": 10.200786590576172,
      "learning_rate": 5e-05,
      "loss": 1.8387,
      "num_input_tokens_seen": 26017976,
      "step": 388
    },
    {
      "epoch": 0.04402836879432624,
      "loss": 1.8681058883666992,
      "loss_ce": 0.007754340302199125,
      "loss_iou": 0.81640625,
      "loss_num": 0.045166015625,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 26017976,
      "step": 388
    },
    {
      "epoch": 0.044141843971631206,
      "grad_norm": 18.311485290527344,
      "learning_rate": 5e-05,
      "loss": 2.0142,
      "num_input_tokens_seen": 26085604,
      "step": 389
    },
    {
      "epoch": 0.044141843971631206,
      "loss": 2.0443437099456787,
      "loss_ce": 0.01016412116587162,
      "loss_iou": 0.859375,
      "loss_num": 0.0634765625,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 26085604,
      "step": 389
    },
    {
      "epoch": 0.04425531914893617,
      "grad_norm": 13.342364311218262,
      "learning_rate": 5e-05,
      "loss": 1.8815,
      "num_input_tokens_seen": 26152760,
      "step": 390
    },
    {
      "epoch": 0.04425531914893617,
      "loss": 2.154147148132324,
      "loss_ce": 0.01059243269264698,
      "loss_iou": 0.9140625,
      "loss_num": 0.0625,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 26152760,
      "step": 390
    },
    {
      "epoch": 0.044368794326241134,
      "grad_norm": 9.661938667297363,
      "learning_rate": 5e-05,
      "loss": 1.7444,
      "num_input_tokens_seen": 26219084,
      "step": 391
    },
    {
      "epoch": 0.044368794326241134,
      "loss": 1.8428707122802734,
      "loss_ce": 0.004980060737580061,
      "loss_iou": 0.75390625,
      "loss_num": 0.06591796875,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 26219084,
      "step": 391
    },
    {
      "epoch": 0.0444822695035461,
      "grad_norm": 14.219289779663086,
      "learning_rate": 5e-05,
      "loss": 1.7498,
      "num_input_tokens_seen": 26286136,
      "step": 392
    },
    {
      "epoch": 0.0444822695035461,
      "loss": 1.6856697797775269,
      "loss_ce": 0.0037849247455596924,
      "loss_iou": 0.71875,
      "loss_num": 0.04931640625,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 26286136,
      "step": 392
    },
    {
      "epoch": 0.04459574468085106,
      "grad_norm": 9.705796241760254,
      "learning_rate": 5e-05,
      "loss": 1.7453,
      "num_input_tokens_seen": 26352936,
      "step": 393
    },
    {
      "epoch": 0.04459574468085106,
      "loss": 1.673147439956665,
      "loss_ce": 0.009573237039148808,
      "loss_iou": 0.73046875,
      "loss_num": 0.040283203125,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 26352936,
      "step": 393
    },
    {
      "epoch": 0.04470921985815603,
      "grad_norm": 13.958419799804688,
      "learning_rate": 5e-05,
      "loss": 1.6611,
      "num_input_tokens_seen": 26419976,
      "step": 394
    },
    {
      "epoch": 0.04470921985815603,
      "loss": 1.747013807296753,
      "loss_ce": 0.0038496984634548426,
      "loss_iou": 0.7734375,
      "loss_num": 0.03955078125,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 26419976,
      "step": 394
    },
    {
      "epoch": 0.04482269503546099,
      "grad_norm": 12.72314167022705,
      "learning_rate": 5e-05,
      "loss": 1.7449,
      "num_input_tokens_seen": 26486344,
      "step": 395
    },
    {
      "epoch": 0.04482269503546099,
      "loss": 1.682115077972412,
      "loss_ce": 0.0029159376863390207,
      "loss_iou": 0.74609375,
      "loss_num": 0.037353515625,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 26486344,
      "step": 395
    },
    {
      "epoch": 0.044936170212765955,
      "grad_norm": 28.55290985107422,
      "learning_rate": 5e-05,
      "loss": 1.9479,
      "num_input_tokens_seen": 26553124,
      "step": 396
    },
    {
      "epoch": 0.044936170212765955,
      "loss": 2.034684181213379,
      "loss_ce": 0.004410655703395605,
      "loss_iou": 0.890625,
      "loss_num": 0.049560546875,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 26553124,
      "step": 396
    },
    {
      "epoch": 0.04504964539007092,
      "grad_norm": 8.331352233886719,
      "learning_rate": 5e-05,
      "loss": 2.0707,
      "num_input_tokens_seen": 26619788,
      "step": 397
    },
    {
      "epoch": 0.04504964539007092,
      "loss": 1.937195897102356,
      "loss_ce": 0.004578679334372282,
      "loss_iou": 0.83203125,
      "loss_num": 0.054443359375,
      "loss_xval": 1.9296875,
      "num_input_tokens_seen": 26619788,
      "step": 397
    },
    {
      "epoch": 0.04516312056737588,
      "grad_norm": 17.64197540283203,
      "learning_rate": 5e-05,
      "loss": 2.0908,
      "num_input_tokens_seen": 26685684,
      "step": 398
    },
    {
      "epoch": 0.04516312056737588,
      "loss": 2.0555686950683594,
      "loss_ce": 0.004787401296198368,
      "loss_iou": 0.88671875,
      "loss_num": 0.05615234375,
      "loss_xval": 2.046875,
      "num_input_tokens_seen": 26685684,
      "step": 398
    },
    {
      "epoch": 0.045276595744680855,
      "grad_norm": 9.855813980102539,
      "learning_rate": 5e-05,
      "loss": 1.7887,
      "num_input_tokens_seen": 26752424,
      "step": 399
    },
    {
      "epoch": 0.045276595744680855,
      "loss": 1.6943262815475464,
      "loss_ce": 0.00877943355590105,
      "loss_iou": 0.70703125,
      "loss_num": 0.05419921875,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 26752424,
      "step": 399
    },
    {
      "epoch": 0.04539007092198582,
      "grad_norm": 8.555607795715332,
      "learning_rate": 5e-05,
      "loss": 1.6738,
      "num_input_tokens_seen": 26820224,
      "step": 400
    },
    {
      "epoch": 0.04539007092198582,
      "loss": 1.4963042736053467,
      "loss_ce": 0.0016142574604600668,
      "loss_iou": 0.63671875,
      "loss_num": 0.044677734375,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 26820224,
      "step": 400
    },
    {
      "epoch": 0.04550354609929078,
      "grad_norm": 15.136322021484375,
      "learning_rate": 5e-05,
      "loss": 1.7693,
      "num_input_tokens_seen": 26887708,
      "step": 401
    },
    {
      "epoch": 0.04550354609929078,
      "loss": 1.8226022720336914,
      "loss_ce": 0.005219410173594952,
      "loss_iou": 0.7734375,
      "loss_num": 0.054443359375,
      "loss_xval": 1.8203125,
      "num_input_tokens_seen": 26887708,
      "step": 401
    },
    {
      "epoch": 0.04561702127659575,
      "grad_norm": 9.493563652038574,
      "learning_rate": 5e-05,
      "loss": 1.8878,
      "num_input_tokens_seen": 26955240,
      "step": 402
    },
    {
      "epoch": 0.04561702127659575,
      "loss": 1.8833236694335938,
      "loss_ce": 0.006370495539158583,
      "loss_iou": 0.8359375,
      "loss_num": 0.041015625,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 26955240,
      "step": 402
    },
    {
      "epoch": 0.04573049645390071,
      "grad_norm": 9.985963821411133,
      "learning_rate": 5e-05,
      "loss": 1.7197,
      "num_input_tokens_seen": 27022200,
      "step": 403
    },
    {
      "epoch": 0.04573049645390071,
      "loss": 1.6651661396026611,
      "loss_ce": 0.007939524948596954,
      "loss_iou": 0.703125,
      "loss_num": 0.0498046875,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 27022200,
      "step": 403
    },
    {
      "epoch": 0.045843971631205675,
      "grad_norm": 18.031963348388672,
      "learning_rate": 5e-05,
      "loss": 1.719,
      "num_input_tokens_seen": 27089440,
      "step": 404
    },
    {
      "epoch": 0.045843971631205675,
      "loss": 1.8179819583892822,
      "loss_ce": 0.002552347257733345,
      "loss_iou": 0.796875,
      "loss_num": 0.044189453125,
      "loss_xval": 1.8125,
      "num_input_tokens_seen": 27089440,
      "step": 404
    },
    {
      "epoch": 0.04595744680851064,
      "grad_norm": 14.159711837768555,
      "learning_rate": 5e-05,
      "loss": 1.678,
      "num_input_tokens_seen": 27156892,
      "step": 405
    },
    {
      "epoch": 0.04595744680851064,
      "loss": 1.6373507976531982,
      "loss_ce": 0.0020967689342796803,
      "loss_iou": 0.75,
      "loss_num": 0.02783203125,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 27156892,
      "step": 405
    },
    {
      "epoch": 0.046070921985815604,
      "grad_norm": 11.201212882995605,
      "learning_rate": 5e-05,
      "loss": 1.8974,
      "num_input_tokens_seen": 27223340,
      "step": 406
    },
    {
      "epoch": 0.046070921985815604,
      "loss": 1.985936164855957,
      "loss_ce": 0.0035142935812473297,
      "loss_iou": 0.8515625,
      "loss_num": 0.05615234375,
      "loss_xval": 1.984375,
      "num_input_tokens_seen": 27223340,
      "step": 406
    },
    {
      "epoch": 0.04618439716312057,
      "grad_norm": 11.02221965789795,
      "learning_rate": 5e-05,
      "loss": 1.6029,
      "num_input_tokens_seen": 27290444,
      "step": 407
    },
    {
      "epoch": 0.04618439716312057,
      "loss": 1.4555737972259521,
      "loss_ce": 0.0024488489143550396,
      "loss_iou": 0.59765625,
      "loss_num": 0.051513671875,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 27290444,
      "step": 407
    },
    {
      "epoch": 0.04629787234042553,
      "grad_norm": 16.60700798034668,
      "learning_rate": 5e-05,
      "loss": 1.7447,
      "num_input_tokens_seen": 27358476,
      "step": 408
    },
    {
      "epoch": 0.04629787234042553,
      "loss": 1.7170668840408325,
      "loss_ce": 0.0071059223264455795,
      "loss_iou": 0.7421875,
      "loss_num": 0.044921875,
      "loss_xval": 1.7109375,
      "num_input_tokens_seen": 27358476,
      "step": 408
    },
    {
      "epoch": 0.046411347517730496,
      "grad_norm": 15.425002098083496,
      "learning_rate": 5e-05,
      "loss": 1.6921,
      "num_input_tokens_seen": 27425616,
      "step": 409
    },
    {
      "epoch": 0.046411347517730496,
      "loss": 1.7029142379760742,
      "loss_ce": 0.002718869596719742,
      "loss_iou": 0.734375,
      "loss_num": 0.046142578125,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 27425616,
      "step": 409
    },
    {
      "epoch": 0.04652482269503546,
      "grad_norm": 17.47706413269043,
      "learning_rate": 5e-05,
      "loss": 1.7857,
      "num_input_tokens_seen": 27493112,
      "step": 410
    },
    {
      "epoch": 0.04652482269503546,
      "loss": 1.7623136043548584,
      "loss_ce": 0.0015714536421000957,
      "loss_iou": 0.79296875,
      "loss_num": 0.03515625,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 27493112,
      "step": 410
    },
    {
      "epoch": 0.046638297872340424,
      "grad_norm": 15.315189361572266,
      "learning_rate": 5e-05,
      "loss": 1.6568,
      "num_input_tokens_seen": 27560612,
      "step": 411
    },
    {
      "epoch": 0.046638297872340424,
      "loss": 1.6578896045684814,
      "loss_ce": 0.0035927838180214167,
      "loss_iou": 0.74609375,
      "loss_num": 0.032958984375,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 27560612,
      "step": 411
    },
    {
      "epoch": 0.04675177304964539,
      "grad_norm": 21.28705596923828,
      "learning_rate": 5e-05,
      "loss": 1.758,
      "num_input_tokens_seen": 27628220,
      "step": 412
    },
    {
      "epoch": 0.04675177304964539,
      "loss": 1.5026050806045532,
      "loss_ce": 0.002605114132165909,
      "loss_iou": 0.68359375,
      "loss_num": 0.02587890625,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 27628220,
      "step": 412
    },
    {
      "epoch": 0.04686524822695035,
      "grad_norm": 12.378642082214355,
      "learning_rate": 5e-05,
      "loss": 2.0714,
      "num_input_tokens_seen": 27695968,
      "step": 413
    },
    {
      "epoch": 0.04686524822695035,
      "loss": 1.9819145202636719,
      "loss_ce": 0.007793579250574112,
      "loss_iou": 0.8125,
      "loss_num": 0.0693359375,
      "loss_xval": 1.9765625,
      "num_input_tokens_seen": 27695968,
      "step": 413
    },
    {
      "epoch": 0.04697872340425532,
      "grad_norm": 8.18589973449707,
      "learning_rate": 5e-05,
      "loss": 1.5918,
      "num_input_tokens_seen": 27762272,
      "step": 414
    },
    {
      "epoch": 0.04697872340425532,
      "loss": 1.5862188339233398,
      "loss_ce": 0.003577155526727438,
      "loss_iou": 0.69140625,
      "loss_num": 0.038818359375,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 27762272,
      "step": 414
    },
    {
      "epoch": 0.04709219858156028,
      "grad_norm": 13.11660385131836,
      "learning_rate": 5e-05,
      "loss": 1.6574,
      "num_input_tokens_seen": 27829200,
      "step": 415
    },
    {
      "epoch": 0.04709219858156028,
      "loss": 1.6973521709442139,
      "loss_ce": 0.0030161880422383547,
      "loss_iou": 0.7578125,
      "loss_num": 0.03662109375,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 27829200,
      "step": 415
    },
    {
      "epoch": 0.047205673758865245,
      "grad_norm": 9.739727020263672,
      "learning_rate": 5e-05,
      "loss": 1.6669,
      "num_input_tokens_seen": 27896976,
      "step": 416
    },
    {
      "epoch": 0.047205673758865245,
      "loss": 1.708034873008728,
      "loss_ce": 0.0032008143607527018,
      "loss_iou": 0.75390625,
      "loss_num": 0.039306640625,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 27896976,
      "step": 416
    },
    {
      "epoch": 0.047319148936170216,
      "grad_norm": 10.47775936126709,
      "learning_rate": 5e-05,
      "loss": 1.5982,
      "num_input_tokens_seen": 27963628,
      "step": 417
    },
    {
      "epoch": 0.047319148936170216,
      "loss": 1.5620965957641602,
      "loss_ce": 0.006920798681676388,
      "loss_iou": 0.69140625,
      "loss_num": 0.033935546875,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 27963628,
      "step": 417
    },
    {
      "epoch": 0.04743262411347518,
      "grad_norm": 14.477313995361328,
      "learning_rate": 5e-05,
      "loss": 1.6191,
      "num_input_tokens_seen": 28030032,
      "step": 418
    },
    {
      "epoch": 0.04743262411347518,
      "loss": 1.5738130807876587,
      "loss_ce": 0.006918549537658691,
      "loss_iou": 0.671875,
      "loss_num": 0.044921875,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 28030032,
      "step": 418
    },
    {
      "epoch": 0.047546099290780144,
      "grad_norm": 28.428003311157227,
      "learning_rate": 5e-05,
      "loss": 2.2216,
      "num_input_tokens_seen": 28097436,
      "step": 419
    },
    {
      "epoch": 0.047546099290780144,
      "loss": 2.250434398651123,
      "loss_ce": 0.007270370610058308,
      "loss_iou": 1.015625,
      "loss_num": 0.0419921875,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 28097436,
      "step": 419
    },
    {
      "epoch": 0.04765957446808511,
      "grad_norm": 8.847582817077637,
      "learning_rate": 5e-05,
      "loss": 2.2225,
      "num_input_tokens_seen": 28164088,
      "step": 420
    },
    {
      "epoch": 0.04765957446808511,
      "loss": 2.1913602352142334,
      "loss_ce": 0.001907047932036221,
      "loss_iou": 0.92578125,
      "loss_num": 0.06787109375,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 28164088,
      "step": 420
    },
    {
      "epoch": 0.04777304964539007,
      "grad_norm": 8.226493835449219,
      "learning_rate": 5e-05,
      "loss": 2.0014,
      "num_input_tokens_seen": 28231608,
      "step": 421
    },
    {
      "epoch": 0.04777304964539007,
      "loss": 1.940591812133789,
      "loss_ce": 0.004068329930305481,
      "loss_iou": 0.87109375,
      "loss_num": 0.039306640625,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 28231608,
      "step": 421
    },
    {
      "epoch": 0.04788652482269504,
      "grad_norm": 6.64329719543457,
      "learning_rate": 5e-05,
      "loss": 1.6723,
      "num_input_tokens_seen": 28297784,
      "step": 422
    },
    {
      "epoch": 0.04788652482269504,
      "loss": 1.6594305038452148,
      "loss_ce": 0.003668863559141755,
      "loss_iou": 0.72265625,
      "loss_num": 0.0419921875,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 28297784,
      "step": 422
    },
    {
      "epoch": 0.048,
      "grad_norm": 14.779619216918945,
      "learning_rate": 5e-05,
      "loss": 1.5221,
      "num_input_tokens_seen": 28364448,
      "step": 423
    },
    {
      "epoch": 0.048,
      "loss": 1.5271121263504028,
      "loss_ce": 0.0026980326510965824,
      "loss_iou": 0.67578125,
      "loss_num": 0.034912109375,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 28364448,
      "step": 423
    },
    {
      "epoch": 0.048113475177304965,
      "grad_norm": 12.01998519897461,
      "learning_rate": 5e-05,
      "loss": 1.6822,
      "num_input_tokens_seen": 28431148,
      "step": 424
    },
    {
      "epoch": 0.048113475177304965,
      "loss": 1.6268080472946167,
      "loss_ce": 0.0037611783482134342,
      "loss_iou": 0.72265625,
      "loss_num": 0.03564453125,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 28431148,
      "step": 424
    },
    {
      "epoch": 0.04822695035460993,
      "grad_norm": 14.012192726135254,
      "learning_rate": 5e-05,
      "loss": 2.0572,
      "num_input_tokens_seen": 28498584,
      "step": 425
    },
    {
      "epoch": 0.04822695035460993,
      "loss": 2.0165600776672363,
      "loss_ce": 0.00288815563544631,
      "loss_iou": 0.921875,
      "loss_num": 0.03466796875,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 28498584,
      "step": 425
    },
    {
      "epoch": 0.04834042553191489,
      "grad_norm": 10.536532402038574,
      "learning_rate": 5e-05,
      "loss": 1.5614,
      "num_input_tokens_seen": 28565004,
      "step": 426
    },
    {
      "epoch": 0.04834042553191489,
      "loss": 1.6462912559509277,
      "loss_ce": 0.002736468333750963,
      "loss_iou": 0.71875,
      "loss_num": 0.041259765625,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 28565004,
      "step": 426
    },
    {
      "epoch": 0.04845390070921986,
      "grad_norm": 7.110044479370117,
      "learning_rate": 5e-05,
      "loss": 1.7317,
      "num_input_tokens_seen": 28632324,
      "step": 427
    },
    {
      "epoch": 0.04845390070921986,
      "loss": 1.7577524185180664,
      "loss_ce": 0.0037239156663417816,
      "loss_iou": 0.74609375,
      "loss_num": 0.052001953125,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 28632324,
      "step": 427
    },
    {
      "epoch": 0.04856737588652482,
      "grad_norm": 17.5834903717041,
      "learning_rate": 5e-05,
      "loss": 1.758,
      "num_input_tokens_seen": 28698460,
      "step": 428
    },
    {
      "epoch": 0.04856737588652482,
      "loss": 1.7105411291122437,
      "loss_ce": 0.008392689749598503,
      "loss_iou": 0.73828125,
      "loss_num": 0.045654296875,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 28698460,
      "step": 428
    },
    {
      "epoch": 0.048680851063829786,
      "grad_norm": 20.91794776916504,
      "learning_rate": 5e-05,
      "loss": 1.9668,
      "num_input_tokens_seen": 28766684,
      "step": 429
    },
    {
      "epoch": 0.048680851063829786,
      "loss": 2.004378080368042,
      "loss_ce": 0.0034016151912510395,
      "loss_iou": 0.87890625,
      "loss_num": 0.048095703125,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 28766684,
      "step": 429
    },
    {
      "epoch": 0.04879432624113475,
      "grad_norm": 12.153911590576172,
      "learning_rate": 5e-05,
      "loss": 1.878,
      "num_input_tokens_seen": 28833488,
      "step": 430
    },
    {
      "epoch": 0.04879432624113475,
      "loss": 1.9106525182724,
      "loss_ce": 0.007332245819270611,
      "loss_iou": 0.8125,
      "loss_num": 0.05615234375,
      "loss_xval": 1.90625,
      "num_input_tokens_seen": 28833488,
      "step": 430
    },
    {
      "epoch": 0.048907801418439714,
      "grad_norm": 10.305598258972168,
      "learning_rate": 5e-05,
      "loss": 1.9732,
      "num_input_tokens_seen": 28900240,
      "step": 431
    },
    {
      "epoch": 0.048907801418439714,
      "loss": 2.0367162227630615,
      "loss_ce": 0.004489634186029434,
      "loss_iou": 0.8828125,
      "loss_num": 0.052734375,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 28900240,
      "step": 431
    },
    {
      "epoch": 0.04902127659574468,
      "grad_norm": 14.126545906066895,
      "learning_rate": 5e-05,
      "loss": 1.8796,
      "num_input_tokens_seen": 28967952,
      "step": 432
    },
    {
      "epoch": 0.04902127659574468,
      "loss": 1.855229139328003,
      "loss_ce": 0.0026901187375187874,
      "loss_iou": 0.828125,
      "loss_num": 0.039306640625,
      "loss_xval": 1.8515625,
      "num_input_tokens_seen": 28967952,
      "step": 432
    },
    {
      "epoch": 0.04913475177304964,
      "grad_norm": 14.21810245513916,
      "learning_rate": 5e-05,
      "loss": 1.8795,
      "num_input_tokens_seen": 29034060,
      "step": 433
    },
    {
      "epoch": 0.04913475177304964,
      "loss": 1.8390451669692993,
      "loss_ce": 0.009638464078307152,
      "loss_iou": 0.7734375,
      "loss_num": 0.057373046875,
      "loss_xval": 1.828125,
      "num_input_tokens_seen": 29034060,
      "step": 433
    },
    {
      "epoch": 0.04924822695035461,
      "grad_norm": 9.071810722351074,
      "learning_rate": 5e-05,
      "loss": 1.52,
      "num_input_tokens_seen": 29101156,
      "step": 434
    },
    {
      "epoch": 0.04924822695035461,
      "loss": 1.3890810012817383,
      "loss_ce": 0.007245121523737907,
      "loss_iou": 0.6328125,
      "loss_num": 0.02392578125,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 29101156,
      "step": 434
    },
    {
      "epoch": 0.04936170212765958,
      "grad_norm": 9.097739219665527,
      "learning_rate": 5e-05,
      "loss": 1.6712,
      "num_input_tokens_seen": 29168452,
      "step": 435
    },
    {
      "epoch": 0.04936170212765958,
      "loss": 1.5410916805267334,
      "loss_ce": 0.005935417953878641,
      "loss_iou": 0.703125,
      "loss_num": 0.0263671875,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 29168452,
      "step": 435
    },
    {
      "epoch": 0.04947517730496454,
      "grad_norm": 16.720399856567383,
      "learning_rate": 5e-05,
      "loss": 1.6047,
      "num_input_tokens_seen": 29235388,
      "step": 436
    },
    {
      "epoch": 0.04947517730496454,
      "loss": 1.5953727960586548,
      "loss_ce": 0.00650560948997736,
      "loss_iou": 0.69921875,
      "loss_num": 0.038330078125,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 29235388,
      "step": 436
    },
    {
      "epoch": 0.049588652482269506,
      "grad_norm": 9.481345176696777,
      "learning_rate": 5e-05,
      "loss": 1.7704,
      "num_input_tokens_seen": 29301616,
      "step": 437
    },
    {
      "epoch": 0.049588652482269506,
      "loss": 1.623755931854248,
      "loss_ce": 0.004615426529198885,
      "loss_iou": 0.69921875,
      "loss_num": 0.04345703125,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 29301616,
      "step": 437
    },
    {
      "epoch": 0.04970212765957447,
      "grad_norm": 13.490450859069824,
      "learning_rate": 5e-05,
      "loss": 1.5383,
      "num_input_tokens_seen": 29367932,
      "step": 438
    },
    {
      "epoch": 0.04970212765957447,
      "loss": 1.5935801267623901,
      "loss_ce": 0.005689489189535379,
      "loss_iou": 0.71484375,
      "loss_num": 0.0311279296875,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 29367932,
      "step": 438
    },
    {
      "epoch": 0.049815602836879434,
      "grad_norm": 13.83316707611084,
      "learning_rate": 5e-05,
      "loss": 1.7799,
      "num_input_tokens_seen": 29434548,
      "step": 439
    },
    {
      "epoch": 0.049815602836879434,
      "loss": 1.8199539184570312,
      "loss_ce": 0.00843057781457901,
      "loss_iou": 0.8046875,
      "loss_num": 0.040771484375,
      "loss_xval": 1.8125,
      "num_input_tokens_seen": 29434548,
      "step": 439
    },
    {
      "epoch": 0.0499290780141844,
      "grad_norm": 10.18213939666748,
      "learning_rate": 5e-05,
      "loss": 1.7837,
      "num_input_tokens_seen": 29502716,
      "step": 440
    },
    {
      "epoch": 0.0499290780141844,
      "loss": 1.7792288064956665,
      "loss_ce": 0.006767858285456896,
      "loss_iou": 0.7734375,
      "loss_num": 0.04443359375,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 29502716,
      "step": 440
    },
    {
      "epoch": 0.05004255319148936,
      "grad_norm": 11.677144050598145,
      "learning_rate": 5e-05,
      "loss": 1.8197,
      "num_input_tokens_seen": 29569732,
      "step": 441
    },
    {
      "epoch": 0.05004255319148936,
      "loss": 1.5947829484939575,
      "loss_ce": 0.003962657414376736,
      "loss_iou": 0.69921875,
      "loss_num": 0.0390625,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 29569732,
      "step": 441
    },
    {
      "epoch": 0.05015602836879433,
      "grad_norm": 10.013887405395508,
      "learning_rate": 5e-05,
      "loss": 1.4373,
      "num_input_tokens_seen": 29636276,
      "step": 442
    },
    {
      "epoch": 0.05015602836879433,
      "loss": 1.5356440544128418,
      "loss_ce": 0.006835361942648888,
      "loss_iou": 0.6640625,
      "loss_num": 0.039794921875,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 29636276,
      "step": 442
    },
    {
      "epoch": 0.05026950354609929,
      "grad_norm": 12.141727447509766,
      "learning_rate": 5e-05,
      "loss": 1.6053,
      "num_input_tokens_seen": 29702948,
      "step": 443
    },
    {
      "epoch": 0.05026950354609929,
      "loss": 1.6467288732528687,
      "loss_ce": 0.00805698987096548,
      "loss_iou": 0.71484375,
      "loss_num": 0.041259765625,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 29702948,
      "step": 443
    },
    {
      "epoch": 0.050382978723404255,
      "grad_norm": 23.7348690032959,
      "learning_rate": 5e-05,
      "loss": 1.8854,
      "num_input_tokens_seen": 29770128,
      "step": 444
    },
    {
      "epoch": 0.050382978723404255,
      "loss": 1.878288745880127,
      "loss_ce": 0.005241822451353073,
      "loss_iou": 0.80859375,
      "loss_num": 0.051513671875,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 29770128,
      "step": 444
    },
    {
      "epoch": 0.05049645390070922,
      "grad_norm": 11.345733642578125,
      "learning_rate": 5e-05,
      "loss": 1.9248,
      "num_input_tokens_seen": 29836476,
      "step": 445
    },
    {
      "epoch": 0.05049645390070922,
      "loss": 1.8503384590148926,
      "loss_ce": 0.0026822295039892197,
      "loss_iou": 0.82421875,
      "loss_num": 0.039794921875,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 29836476,
      "step": 445
    },
    {
      "epoch": 0.05060992907801418,
      "grad_norm": 8.526289939880371,
      "learning_rate": 5e-05,
      "loss": 2.0231,
      "num_input_tokens_seen": 29903536,
      "step": 446
    },
    {
      "epoch": 0.05060992907801418,
      "loss": 1.8850727081298828,
      "loss_ce": 0.006166540551930666,
      "loss_iou": 0.796875,
      "loss_num": 0.056884765625,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 29903536,
      "step": 446
    },
    {
      "epoch": 0.05072340425531915,
      "grad_norm": 60.0148811340332,
      "learning_rate": 5e-05,
      "loss": 1.6752,
      "num_input_tokens_seen": 29970684,
      "step": 447
    },
    {
      "epoch": 0.05072340425531915,
      "loss": 1.6609934568405151,
      "loss_ce": 0.0052316137589514256,
      "loss_iou": 0.71484375,
      "loss_num": 0.04443359375,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 29970684,
      "step": 447
    },
    {
      "epoch": 0.05083687943262411,
      "grad_norm": 13.41279411315918,
      "learning_rate": 5e-05,
      "loss": 1.5621,
      "num_input_tokens_seen": 30038548,
      "step": 448
    },
    {
      "epoch": 0.05083687943262411,
      "loss": 1.4305193424224854,
      "loss_ce": 0.004738137125968933,
      "loss_iou": 0.65625,
      "loss_num": 0.022216796875,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 30038548,
      "step": 448
    },
    {
      "epoch": 0.050950354609929076,
      "grad_norm": 13.550237655639648,
      "learning_rate": 5e-05,
      "loss": 1.8941,
      "num_input_tokens_seen": 30106476,
      "step": 449
    },
    {
      "epoch": 0.050950354609929076,
      "loss": 2.113741874694824,
      "loss_ce": 0.008273286744952202,
      "loss_iou": 0.90625,
      "loss_num": 0.05810546875,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 30106476,
      "step": 449
    },
    {
      "epoch": 0.05106382978723404,
      "grad_norm": 15.36405086517334,
      "learning_rate": 5e-05,
      "loss": 1.632,
      "num_input_tokens_seen": 30173920,
      "step": 450
    },
    {
      "epoch": 0.05106382978723404,
      "loss": 1.5737190246582031,
      "loss_ce": 0.0053596654906868935,
      "loss_iou": 0.70703125,
      "loss_num": 0.031005859375,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 30173920,
      "step": 450
    },
    {
      "epoch": 0.051177304964539004,
      "grad_norm": 11.033195495605469,
      "learning_rate": 5e-05,
      "loss": 1.7524,
      "num_input_tokens_seen": 30240376,
      "step": 451
    },
    {
      "epoch": 0.051177304964539004,
      "loss": 1.848682165145874,
      "loss_ce": 0.00395563431084156,
      "loss_iou": 0.84375,
      "loss_num": 0.0311279296875,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 30240376,
      "step": 451
    },
    {
      "epoch": 0.05129078014184397,
      "grad_norm": 25.431400299072266,
      "learning_rate": 5e-05,
      "loss": 1.6404,
      "num_input_tokens_seen": 30307332,
      "step": 452
    },
    {
      "epoch": 0.05129078014184397,
      "loss": 1.768418550491333,
      "loss_ce": 0.005723276641219854,
      "loss_iou": 0.7890625,
      "loss_num": 0.037109375,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 30307332,
      "step": 452
    },
    {
      "epoch": 0.05140425531914894,
      "grad_norm": 11.803557395935059,
      "learning_rate": 5e-05,
      "loss": 2.1945,
      "num_input_tokens_seen": 30374244,
      "step": 453
    },
    {
      "epoch": 0.05140425531914894,
      "loss": 2.1790623664855957,
      "loss_ce": 0.008163739927113056,
      "loss_iou": 0.92578125,
      "loss_num": 0.064453125,
      "loss_xval": 2.171875,
      "num_input_tokens_seen": 30374244,
      "step": 453
    },
    {
      "epoch": 0.0515177304964539,
      "grad_norm": 10.105679512023926,
      "learning_rate": 5e-05,
      "loss": 1.7376,
      "num_input_tokens_seen": 30442172,
      "step": 454
    },
    {
      "epoch": 0.0515177304964539,
      "loss": 1.670215129852295,
      "loss_ce": 0.0041995570063591,
      "loss_iou": 0.72265625,
      "loss_num": 0.044189453125,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 30442172,
      "step": 454
    },
    {
      "epoch": 0.05163120567375887,
      "grad_norm": 8.547913551330566,
      "learning_rate": 5e-05,
      "loss": 1.4571,
      "num_input_tokens_seen": 30508412,
      "step": 455
    },
    {
      "epoch": 0.05163120567375887,
      "loss": 1.5092867612838745,
      "loss_ce": 0.004648094065487385,
      "loss_iou": 0.67578125,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 30508412,
      "step": 455
    },
    {
      "epoch": 0.05174468085106383,
      "grad_norm": 14.980960845947266,
      "learning_rate": 5e-05,
      "loss": 1.6625,
      "num_input_tokens_seen": 30576560,
      "step": 456
    },
    {
      "epoch": 0.05174468085106383,
      "loss": 1.5760869979858398,
      "loss_ce": 0.00382138229906559,
      "loss_iou": 0.703125,
      "loss_num": 0.032958984375,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 30576560,
      "step": 456
    },
    {
      "epoch": 0.051858156028368796,
      "grad_norm": 14.780572891235352,
      "learning_rate": 5e-05,
      "loss": 2.0435,
      "num_input_tokens_seen": 30643884,
      "step": 457
    },
    {
      "epoch": 0.051858156028368796,
      "loss": 2.1006698608398438,
      "loss_ce": 0.003990170080214739,
      "loss_iou": 0.91796875,
      "loss_num": 0.05224609375,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 30643884,
      "step": 457
    },
    {
      "epoch": 0.05197163120567376,
      "grad_norm": 14.964486122131348,
      "learning_rate": 5e-05,
      "loss": 1.72,
      "num_input_tokens_seen": 30711080,
      "step": 458
    },
    {
      "epoch": 0.05197163120567376,
      "loss": 1.546765923500061,
      "loss_ce": 0.00184405199252069,
      "loss_iou": 0.7109375,
      "loss_num": 0.024169921875,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 30711080,
      "step": 458
    },
    {
      "epoch": 0.052085106382978724,
      "grad_norm": 11.375679969787598,
      "learning_rate": 5e-05,
      "loss": 1.8314,
      "num_input_tokens_seen": 30777968,
      "step": 459
    },
    {
      "epoch": 0.052085106382978724,
      "loss": 1.9157757759094238,
      "loss_ce": 0.007572657894343138,
      "loss_iou": 0.828125,
      "loss_num": 0.05078125,
      "loss_xval": 1.90625,
      "num_input_tokens_seen": 30777968,
      "step": 459
    },
    {
      "epoch": 0.05219858156028369,
      "grad_norm": 10.271461486816406,
      "learning_rate": 5e-05,
      "loss": 1.6242,
      "num_input_tokens_seen": 30845436,
      "step": 460
    },
    {
      "epoch": 0.05219858156028369,
      "loss": 1.4270431995391846,
      "loss_ce": 0.004679937846958637,
      "loss_iou": 0.62890625,
      "loss_num": 0.03271484375,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 30845436,
      "step": 460
    },
    {
      "epoch": 0.05231205673758865,
      "grad_norm": 8.746208190917969,
      "learning_rate": 5e-05,
      "loss": 1.3308,
      "num_input_tokens_seen": 30911784,
      "step": 461
    },
    {
      "epoch": 0.05231205673758865,
      "loss": 1.3152458667755127,
      "loss_ce": 0.006163829937577248,
      "loss_iou": 0.58203125,
      "loss_num": 0.02880859375,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 30911784,
      "step": 461
    },
    {
      "epoch": 0.05242553191489362,
      "grad_norm": 16.982954025268555,
      "learning_rate": 5e-05,
      "loss": 1.9196,
      "num_input_tokens_seen": 30978836,
      "step": 462
    },
    {
      "epoch": 0.05242553191489362,
      "loss": 1.817836880683899,
      "loss_ce": 0.006313398480415344,
      "loss_iou": 0.81640625,
      "loss_num": 0.03515625,
      "loss_xval": 1.8125,
      "num_input_tokens_seen": 30978836,
      "step": 462
    },
    {
      "epoch": 0.05253900709219858,
      "grad_norm": 11.462373733520508,
      "learning_rate": 5e-05,
      "loss": 2.0098,
      "num_input_tokens_seen": 31046620,
      "step": 463
    },
    {
      "epoch": 0.05253900709219858,
      "loss": 1.9722681045532227,
      "loss_ce": 0.005471125245094299,
      "loss_iou": 0.859375,
      "loss_num": 0.048828125,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 31046620,
      "step": 463
    },
    {
      "epoch": 0.052652482269503545,
      "grad_norm": 10.073640823364258,
      "learning_rate": 5e-05,
      "loss": 2.0471,
      "num_input_tokens_seen": 31113356,
      "step": 464
    },
    {
      "epoch": 0.052652482269503545,
      "loss": 2.030076503753662,
      "loss_ce": 0.01054501160979271,
      "loss_iou": 0.82421875,
      "loss_num": 0.07421875,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 31113356,
      "step": 464
    },
    {
      "epoch": 0.05276595744680851,
      "grad_norm": 9.354783058166504,
      "learning_rate": 5e-05,
      "loss": 1.6735,
      "num_input_tokens_seen": 31180940,
      "step": 465
    },
    {
      "epoch": 0.05276595744680851,
      "loss": 1.6984522342681885,
      "loss_ce": 0.009975637309253216,
      "loss_iou": 0.74609375,
      "loss_num": 0.039306640625,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 31180940,
      "step": 465
    },
    {
      "epoch": 0.05287943262411347,
      "grad_norm": 19.06043815612793,
      "learning_rate": 5e-05,
      "loss": 1.5418,
      "num_input_tokens_seen": 31248100,
      "step": 466
    },
    {
      "epoch": 0.05287943262411347,
      "loss": 1.6590075492858887,
      "loss_ce": 0.002757579553872347,
      "loss_iou": 0.73828125,
      "loss_num": 0.037109375,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 31248100,
      "step": 466
    },
    {
      "epoch": 0.05299290780141844,
      "grad_norm": 27.568492889404297,
      "learning_rate": 5e-05,
      "loss": 1.9711,
      "num_input_tokens_seen": 31315800,
      "step": 467
    },
    {
      "epoch": 0.05299290780141844,
      "loss": 1.844290018081665,
      "loss_ce": 0.0044461507350206375,
      "loss_iou": 0.8125,
      "loss_num": 0.043212890625,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 31315800,
      "step": 467
    },
    {
      "epoch": 0.0531063829787234,
      "grad_norm": 9.035659790039062,
      "learning_rate": 5e-05,
      "loss": 1.5835,
      "num_input_tokens_seen": 31382560,
      "step": 468
    },
    {
      "epoch": 0.0531063829787234,
      "loss": 1.7059109210968018,
      "loss_ce": 0.002785969991236925,
      "loss_iou": 0.75,
      "loss_num": 0.040283203125,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 31382560,
      "step": 468
    },
    {
      "epoch": 0.053219858156028366,
      "grad_norm": 17.24903678894043,
      "learning_rate": 5e-05,
      "loss": 1.7525,
      "num_input_tokens_seen": 31449652,
      "step": 469
    },
    {
      "epoch": 0.053219858156028366,
      "loss": 1.740788459777832,
      "loss_ce": 0.002507244935259223,
      "loss_iou": 0.76953125,
      "loss_num": 0.03955078125,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 31449652,
      "step": 469
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 16.96027374267578,
      "learning_rate": 5e-05,
      "loss": 1.7915,
      "num_input_tokens_seen": 31516852,
      "step": 470
    },
    {
      "epoch": 0.05333333333333334,
      "loss": 1.946861982345581,
      "loss_ce": 0.0035024916287511587,
      "loss_iou": 0.859375,
      "loss_num": 0.04443359375,
      "loss_xval": 1.9453125,
      "num_input_tokens_seen": 31516852,
      "step": 470
    },
    {
      "epoch": 0.0534468085106383,
      "grad_norm": 13.304049491882324,
      "learning_rate": 5e-05,
      "loss": 1.8564,
      "num_input_tokens_seen": 31584456,
      "step": 471
    },
    {
      "epoch": 0.0534468085106383,
      "loss": 1.8259954452514648,
      "loss_ce": 0.005682970862835646,
      "loss_iou": 0.8203125,
      "loss_num": 0.036376953125,
      "loss_xval": 1.8203125,
      "num_input_tokens_seen": 31584456,
      "step": 471
    },
    {
      "epoch": 0.053560283687943265,
      "grad_norm": 13.629117012023926,
      "learning_rate": 5e-05,
      "loss": 2.0685,
      "num_input_tokens_seen": 31651212,
      "step": 472
    },
    {
      "epoch": 0.053560283687943265,
      "loss": 2.2823195457458496,
      "loss_ce": 0.003022704739123583,
      "loss_iou": 0.9765625,
      "loss_num": 0.064453125,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 31651212,
      "step": 472
    },
    {
      "epoch": 0.05367375886524823,
      "grad_norm": 16.980173110961914,
      "learning_rate": 5e-05,
      "loss": 1.6557,
      "num_input_tokens_seen": 31717196,
      "step": 473
    },
    {
      "epoch": 0.05367375886524823,
      "loss": 1.6421427726745605,
      "loss_ce": 0.006400606129318476,
      "loss_iou": 0.72265625,
      "loss_num": 0.03759765625,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 31717196,
      "step": 473
    },
    {
      "epoch": 0.05378723404255319,
      "grad_norm": 13.915139198303223,
      "learning_rate": 5e-05,
      "loss": 2.1087,
      "num_input_tokens_seen": 31784304,
      "step": 474
    },
    {
      "epoch": 0.05378723404255319,
      "loss": 1.9409961700439453,
      "loss_ce": 0.005449179094284773,
      "loss_iou": 0.87890625,
      "loss_num": 0.03515625,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 31784304,
      "step": 474
    },
    {
      "epoch": 0.05390070921985816,
      "grad_norm": 16.12648582458496,
      "learning_rate": 5e-05,
      "loss": 1.6667,
      "num_input_tokens_seen": 31851420,
      "step": 475
    },
    {
      "epoch": 0.05390070921985816,
      "loss": 1.671912670135498,
      "loss_ce": 0.005897020921111107,
      "loss_iou": 0.734375,
      "loss_num": 0.040283203125,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 31851420,
      "step": 475
    },
    {
      "epoch": 0.05401418439716312,
      "grad_norm": 67.4769058227539,
      "learning_rate": 5e-05,
      "loss": 1.6345,
      "num_input_tokens_seen": 31917576,
      "step": 476
    },
    {
      "epoch": 0.05401418439716312,
      "loss": 1.6131553649902344,
      "loss_ce": 0.005245191045105457,
      "loss_iou": 0.7109375,
      "loss_num": 0.037109375,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 31917576,
      "step": 476
    },
    {
      "epoch": 0.054127659574468086,
      "grad_norm": 56.50305938720703,
      "learning_rate": 5e-05,
      "loss": 1.9318,
      "num_input_tokens_seen": 31985192,
      "step": 477
    },
    {
      "epoch": 0.054127659574468086,
      "loss": 1.794689416885376,
      "loss_ce": 0.006603415124118328,
      "loss_iou": 0.8046875,
      "loss_num": 0.03515625,
      "loss_xval": 1.7890625,
      "num_input_tokens_seen": 31985192,
      "step": 477
    },
    {
      "epoch": 0.05424113475177305,
      "grad_norm": 7.824763298034668,
      "learning_rate": 5e-05,
      "loss": 1.5264,
      "num_input_tokens_seen": 32050760,
      "step": 478
    },
    {
      "epoch": 0.05424113475177305,
      "loss": 1.5128117799758911,
      "loss_ce": 0.00402277335524559,
      "loss_iou": 0.65234375,
      "loss_num": 0.041015625,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 32050760,
      "step": 478
    },
    {
      "epoch": 0.054354609929078014,
      "grad_norm": 9.660032272338867,
      "learning_rate": 5e-05,
      "loss": 1.5824,
      "num_input_tokens_seen": 32117760,
      "step": 479
    },
    {
      "epoch": 0.054354609929078014,
      "loss": 1.5936634540557861,
      "loss_ce": 0.010655606165528297,
      "loss_iou": 0.703125,
      "loss_num": 0.0361328125,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 32117760,
      "step": 479
    },
    {
      "epoch": 0.05446808510638298,
      "grad_norm": 14.12692642211914,
      "learning_rate": 5e-05,
      "loss": 1.6793,
      "num_input_tokens_seen": 32185148,
      "step": 480
    },
    {
      "epoch": 0.05446808510638298,
      "loss": 1.7046395540237427,
      "loss_ce": 0.005909104365855455,
      "loss_iou": 0.76171875,
      "loss_num": 0.03515625,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 32185148,
      "step": 480
    },
    {
      "epoch": 0.05458156028368794,
      "grad_norm": 18.479450225830078,
      "learning_rate": 5e-05,
      "loss": 1.8404,
      "num_input_tokens_seen": 32252800,
      "step": 481
    },
    {
      "epoch": 0.05458156028368794,
      "loss": 1.8595865964889526,
      "loss_ce": 0.0031413156539201736,
      "loss_iou": 0.84765625,
      "loss_num": 0.03271484375,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 32252800,
      "step": 481
    },
    {
      "epoch": 0.054695035460992907,
      "grad_norm": 16.14809226989746,
      "learning_rate": 5e-05,
      "loss": 1.9868,
      "num_input_tokens_seen": 32320712,
      "step": 482
    },
    {
      "epoch": 0.054695035460992907,
      "loss": 2.015028953552246,
      "loss_ce": 0.004286588169634342,
      "loss_iou": 0.88671875,
      "loss_num": 0.0478515625,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 32320712,
      "step": 482
    },
    {
      "epoch": 0.05480851063829787,
      "grad_norm": 20.887493133544922,
      "learning_rate": 5e-05,
      "loss": 1.5885,
      "num_input_tokens_seen": 32387420,
      "step": 483
    },
    {
      "epoch": 0.05480851063829787,
      "loss": 1.628995656967163,
      "loss_ce": 0.004606031347066164,
      "loss_iou": 0.6796875,
      "loss_num": 0.052734375,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 32387420,
      "step": 483
    },
    {
      "epoch": 0.054921985815602835,
      "grad_norm": 8.601786613464355,
      "learning_rate": 5e-05,
      "loss": 1.6298,
      "num_input_tokens_seen": 32454988,
      "step": 484
    },
    {
      "epoch": 0.054921985815602835,
      "loss": 1.6276466846466064,
      "loss_ce": 0.005576428025960922,
      "loss_iou": 0.71484375,
      "loss_num": 0.037841796875,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 32454988,
      "step": 484
    },
    {
      "epoch": 0.0550354609929078,
      "grad_norm": 14.735821723937988,
      "learning_rate": 5e-05,
      "loss": 1.7025,
      "num_input_tokens_seen": 32521984,
      "step": 485
    },
    {
      "epoch": 0.0550354609929078,
      "loss": 1.8135385513305664,
      "loss_ce": 0.0068979631178081036,
      "loss_iou": 0.765625,
      "loss_num": 0.055419921875,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 32521984,
      "step": 485
    },
    {
      "epoch": 0.05514893617021276,
      "grad_norm": 12.194646835327148,
      "learning_rate": 5e-05,
      "loss": 1.687,
      "num_input_tokens_seen": 32589792,
      "step": 486
    },
    {
      "epoch": 0.05514893617021276,
      "loss": 1.6432322263717651,
      "loss_ce": 0.004560337867587805,
      "loss_iou": 0.7265625,
      "loss_num": 0.03662109375,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 32589792,
      "step": 486
    },
    {
      "epoch": 0.05526241134751773,
      "grad_norm": 31.862470626831055,
      "learning_rate": 5e-05,
      "loss": 1.8527,
      "num_input_tokens_seen": 32656180,
      "step": 487
    },
    {
      "epoch": 0.05526241134751773,
      "loss": 1.7900629043579102,
      "loss_ce": 0.002953547053039074,
      "loss_iou": 0.8125,
      "loss_num": 0.032958984375,
      "loss_xval": 1.7890625,
      "num_input_tokens_seen": 32656180,
      "step": 487
    },
    {
      "epoch": 0.0553758865248227,
      "grad_norm": 10.69858169555664,
      "learning_rate": 5e-05,
      "loss": 2.1188,
      "num_input_tokens_seen": 32723028,
      "step": 488
    },
    {
      "epoch": 0.0553758865248227,
      "loss": 2.121615409851074,
      "loss_ce": 0.004427896346896887,
      "loss_iou": 0.91015625,
      "loss_num": 0.059814453125,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 32723028,
      "step": 488
    },
    {
      "epoch": 0.05548936170212766,
      "grad_norm": 18.69563102722168,
      "learning_rate": 5e-05,
      "loss": 1.5268,
      "num_input_tokens_seen": 32789072,
      "step": 489
    },
    {
      "epoch": 0.05548936170212766,
      "loss": 1.525944709777832,
      "loss_ce": 0.0023852542508393526,
      "loss_iou": 0.67578125,
      "loss_num": 0.03466796875,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 32789072,
      "step": 489
    },
    {
      "epoch": 0.05560283687943263,
      "grad_norm": 10.472079277038574,
      "learning_rate": 5e-05,
      "loss": 1.8204,
      "num_input_tokens_seen": 32856688,
      "step": 490
    },
    {
      "epoch": 0.05560283687943263,
      "loss": 1.6846034526824951,
      "loss_ce": 0.004915957804769278,
      "loss_iou": 0.71875,
      "loss_num": 0.048828125,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 32856688,
      "step": 490
    },
    {
      "epoch": 0.05571631205673759,
      "grad_norm": 15.615226745605469,
      "learning_rate": 5e-05,
      "loss": 1.9154,
      "num_input_tokens_seen": 32923472,
      "step": 491
    },
    {
      "epoch": 0.05571631205673759,
      "loss": 2.082096576690674,
      "loss_ce": 0.009831024333834648,
      "loss_iou": 0.86328125,
      "loss_num": 0.06884765625,
      "loss_xval": 2.078125,
      "num_input_tokens_seen": 32923472,
      "step": 491
    },
    {
      "epoch": 0.055829787234042555,
      "grad_norm": 11.765887260437012,
      "learning_rate": 5e-05,
      "loss": 1.5086,
      "num_input_tokens_seen": 32989088,
      "step": 492
    },
    {
      "epoch": 0.055829787234042555,
      "loss": 1.4689253568649292,
      "loss_ce": 0.007987810298800468,
      "loss_iou": 0.65234375,
      "loss_num": 0.031982421875,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 32989088,
      "step": 492
    },
    {
      "epoch": 0.05594326241134752,
      "grad_norm": 16.599376678466797,
      "learning_rate": 5e-05,
      "loss": 1.5792,
      "num_input_tokens_seen": 33055428,
      "step": 493
    },
    {
      "epoch": 0.05594326241134752,
      "loss": 1.5029101371765137,
      "loss_ce": 0.003886782331392169,
      "loss_iou": 0.66796875,
      "loss_num": 0.033203125,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 33055428,
      "step": 493
    },
    {
      "epoch": 0.05605673758865248,
      "grad_norm": 24.752094268798828,
      "learning_rate": 5e-05,
      "loss": 1.8481,
      "num_input_tokens_seen": 33121948,
      "step": 494
    },
    {
      "epoch": 0.05605673758865248,
      "loss": 2.043149471282959,
      "loss_ce": 0.007016750518232584,
      "loss_iou": 0.8984375,
      "loss_num": 0.048583984375,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 33121948,
      "step": 494
    },
    {
      "epoch": 0.05617021276595745,
      "grad_norm": 11.334644317626953,
      "learning_rate": 5e-05,
      "loss": 1.9299,
      "num_input_tokens_seen": 33188636,
      "step": 495
    },
    {
      "epoch": 0.05617021276595745,
      "loss": 1.8933110237121582,
      "loss_ce": 0.005615793168544769,
      "loss_iou": 0.8359375,
      "loss_num": 0.04345703125,
      "loss_xval": 1.890625,
      "num_input_tokens_seen": 33188636,
      "step": 495
    },
    {
      "epoch": 0.05628368794326241,
      "grad_norm": 8.659011840820312,
      "learning_rate": 5e-05,
      "loss": 1.7437,
      "num_input_tokens_seen": 33256576,
      "step": 496
    },
    {
      "epoch": 0.05628368794326241,
      "loss": 1.7476310729980469,
      "loss_ce": 0.013256165198981762,
      "loss_iou": 0.73828125,
      "loss_num": 0.05224609375,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 33256576,
      "step": 496
    },
    {
      "epoch": 0.056397163120567376,
      "grad_norm": 9.436800956726074,
      "learning_rate": 5e-05,
      "loss": 1.5421,
      "num_input_tokens_seen": 33323352,
      "step": 497
    },
    {
      "epoch": 0.056397163120567376,
      "loss": 1.5853424072265625,
      "loss_ce": 0.006240863353013992,
      "loss_iou": 0.6796875,
      "loss_num": 0.043701171875,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 33323352,
      "step": 497
    },
    {
      "epoch": 0.05651063829787234,
      "grad_norm": 14.507112503051758,
      "learning_rate": 5e-05,
      "loss": 1.7447,
      "num_input_tokens_seen": 33390692,
      "step": 498
    },
    {
      "epoch": 0.05651063829787234,
      "loss": 1.9431045055389404,
      "loss_ce": 0.007557523902505636,
      "loss_iou": 0.8359375,
      "loss_num": 0.052734375,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 33390692,
      "step": 498
    },
    {
      "epoch": 0.056624113475177304,
      "grad_norm": 10.750730514526367,
      "learning_rate": 5e-05,
      "loss": 1.6885,
      "num_input_tokens_seen": 33457316,
      "step": 499
    },
    {
      "epoch": 0.056624113475177304,
      "loss": 1.5874857902526855,
      "loss_ce": 0.008384224027395248,
      "loss_iou": 0.6953125,
      "loss_num": 0.03759765625,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 33457316,
      "step": 499
    },
    {
      "epoch": 0.05673758865248227,
      "grad_norm": 20.730939865112305,
      "learning_rate": 5e-05,
      "loss": 1.6899,
      "num_input_tokens_seen": 33522004,
      "step": 500
    },
    {
      "epoch": 0.05673758865248227,
      "eval_seeclick_CIoU": 0.29219552874565125,
      "eval_seeclick_GIoU": 0.25606806576251984,
      "eval_seeclick_IoU": 0.3867049664258957,
      "eval_seeclick_MAE_all": 0.14793522655963898,
      "eval_seeclick_MAE_h": 0.16114399954676628,
      "eval_seeclick_MAE_w": 0.16232655197381973,
      "eval_seeclick_MAE_x_boxes": 0.1962938904762268,
      "eval_seeclick_MAE_y_boxes": 0.15079650282859802,
      "eval_seeclick_NUM_probability": 0.9996314942836761,
      "eval_seeclick_inside_bbox": 0.596875011920929,
      "eval_seeclick_loss": 2.8794944286346436,
      "eval_seeclick_loss_ce": 0.01391039602458477,
      "eval_seeclick_loss_iou": 1.066650390625,
      "eval_seeclick_loss_num": 0.146575927734375,
      "eval_seeclick_loss_xval": 2.865234375,
      "eval_seeclick_runtime": 67.6235,
      "eval_seeclick_samples_per_second": 0.695,
      "eval_seeclick_steps_per_second": 0.03,
      "num_input_tokens_seen": 33522004,
      "step": 500
    },
    {
      "epoch": 0.05673758865248227,
      "eval_icons_CIoU": 0.348525732755661,
      "eval_icons_GIoU": 0.319418340921402,
      "eval_icons_IoU": 0.3922770172357559,
      "eval_icons_MAE_all": 0.1510475128889084,
      "eval_icons_MAE_h": 0.13765038549900055,
      "eval_icons_MAE_w": 0.13757546246051788,
      "eval_icons_MAE_x_boxes": 0.10845634341239929,
      "eval_icons_MAE_y_boxes": 0.136268962174654,
      "eval_icons_NUM_probability": 0.9998047053813934,
      "eval_icons_inside_bbox": 0.7829861044883728,
      "eval_icons_loss": 2.8307127952575684,
      "eval_icons_loss_ce": 0.0012242005323059857,
      "eval_icons_loss_iou": 1.050537109375,
      "eval_icons_loss_num": 0.1422882080078125,
      "eval_icons_loss_xval": 2.81005859375,
      "eval_icons_runtime": 71.0106,
      "eval_icons_samples_per_second": 0.704,
      "eval_icons_steps_per_second": 0.028,
      "num_input_tokens_seen": 33522004,
      "step": 500
    },
    {
      "epoch": 0.05673758865248227,
      "eval_screenspot_CIoU": 0.33665693799654645,
      "eval_screenspot_GIoU": 0.3035794099171956,
      "eval_screenspot_IoU": 0.42288729548454285,
      "eval_screenspot_MAE_all": 0.14079866309960684,
      "eval_screenspot_MAE_h": 0.14788744350274405,
      "eval_screenspot_MAE_w": 0.18494480351607004,
      "eval_screenspot_MAE_x_boxes": 0.2099404533704122,
      "eval_screenspot_MAE_y_boxes": 0.10230349004268646,
      "eval_screenspot_NUM_probability": 0.9996667504310608,
      "eval_screenspot_inside_bbox": 0.6745833357175192,
      "eval_screenspot_loss": 3.0264391899108887,
      "eval_screenspot_loss_ce": 0.010482010431587696,
      "eval_screenspot_loss_iou": 1.1565755208333333,
      "eval_screenspot_loss_num": 0.14892578125,
      "eval_screenspot_loss_xval": 3.0556640625,
      "eval_screenspot_runtime": 116.4734,
      "eval_screenspot_samples_per_second": 0.764,
      "eval_screenspot_steps_per_second": 0.026,
      "num_input_tokens_seen": 33522004,
      "step": 500
    },
    {
      "epoch": 0.05673758865248227,
      "eval_compot_CIoU": 0.40241043269634247,
      "eval_compot_GIoU": 0.39028899371623993,
      "eval_compot_IoU": 0.4565282315015793,
      "eval_compot_MAE_all": 0.10105303674936295,
      "eval_compot_MAE_h": 0.08910340070724487,
      "eval_compot_MAE_w": 0.1472388505935669,
      "eval_compot_MAE_x_boxes": 0.13240968063473701,
      "eval_compot_MAE_y_boxes": 0.07332845777273178,
      "eval_compot_NUM_probability": 0.9996548295021057,
      "eval_compot_inside_bbox": 0.7638888955116272,
      "eval_compot_loss": 2.7962584495544434,
      "eval_compot_loss_ce": 0.012338215950876474,
      "eval_compot_loss_iou": 1.153564453125,
      "eval_compot_loss_num": 0.109619140625,
      "eval_compot_loss_xval": 2.85546875,
      "eval_compot_runtime": 67.8715,
      "eval_compot_samples_per_second": 0.737,
      "eval_compot_steps_per_second": 0.029,
      "num_input_tokens_seen": 33522004,
      "step": 500
    },
    {
      "epoch": 0.05673758865248227,
      "loss": 2.8295979499816895,
      "loss_ce": 0.011238452978432178,
      "loss_iou": 1.1484375,
      "loss_num": 0.1044921875,
      "loss_xval": 2.8125,
      "num_input_tokens_seen": 33522004,
      "step": 500
    },
    {
      "epoch": 0.05685106382978723,
      "grad_norm": 14.015764236450195,
      "learning_rate": 5e-05,
      "loss": 1.857,
      "num_input_tokens_seen": 33588804,
      "step": 501
    },
    {
      "epoch": 0.05685106382978723,
      "loss": 1.8504482507705688,
      "loss_ce": 0.005721666384488344,
      "loss_iou": 0.796875,
      "loss_num": 0.0498046875,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 33588804,
      "step": 501
    },
    {
      "epoch": 0.056964539007092196,
      "grad_norm": 14.415027618408203,
      "learning_rate": 5e-05,
      "loss": 1.6353,
      "num_input_tokens_seen": 33655900,
      "step": 502
    },
    {
      "epoch": 0.056964539007092196,
      "loss": 1.489330530166626,
      "loss_ce": 0.0030024561565369368,
      "loss_iou": 0.6796875,
      "loss_num": 0.02490234375,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 33655900,
      "step": 502
    },
    {
      "epoch": 0.05707801418439716,
      "grad_norm": 14.706720352172852,
      "learning_rate": 5e-05,
      "loss": 1.7316,
      "num_input_tokens_seen": 33722576,
      "step": 503
    },
    {
      "epoch": 0.05707801418439716,
      "loss": 1.7307908535003662,
      "loss_ce": 0.004106338135898113,
      "loss_iou": 0.765625,
      "loss_num": 0.039306640625,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 33722576,
      "step": 503
    },
    {
      "epoch": 0.057191489361702125,
      "grad_norm": 25.071971893310547,
      "learning_rate": 5e-05,
      "loss": 1.9709,
      "num_input_tokens_seen": 33790324,
      "step": 504
    },
    {
      "epoch": 0.057191489361702125,
      "loss": 2.0171966552734375,
      "loss_ce": 0.004501478746533394,
      "loss_iou": 0.90234375,
      "loss_num": 0.0419921875,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 33790324,
      "step": 504
    },
    {
      "epoch": 0.05730496453900709,
      "grad_norm": 8.556700706481934,
      "learning_rate": 5e-05,
      "loss": 1.8241,
      "num_input_tokens_seen": 33857432,
      "step": 505
    },
    {
      "epoch": 0.05730496453900709,
      "loss": 2.1130809783935547,
      "loss_ce": 0.005659072194248438,
      "loss_iou": 0.87890625,
      "loss_num": 0.0693359375,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 33857432,
      "step": 505
    },
    {
      "epoch": 0.05741843971631206,
      "grad_norm": 9.679902076721191,
      "learning_rate": 5e-05,
      "loss": 1.6875,
      "num_input_tokens_seen": 33924508,
      "step": 506
    },
    {
      "epoch": 0.05741843971631206,
      "loss": 1.6327261924743652,
      "loss_ce": 0.003820015350356698,
      "loss_iou": 0.72265625,
      "loss_num": 0.036376953125,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 33924508,
      "step": 506
    },
    {
      "epoch": 0.057531914893617024,
      "grad_norm": 12.305419921875,
      "learning_rate": 5e-05,
      "loss": 1.6332,
      "num_input_tokens_seen": 33991072,
      "step": 507
    },
    {
      "epoch": 0.057531914893617024,
      "loss": 1.5209671258926392,
      "loss_ce": 0.003999399021267891,
      "loss_iou": 0.66015625,
      "loss_num": 0.0390625,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 33991072,
      "step": 507
    },
    {
      "epoch": 0.05764539007092199,
      "grad_norm": 12.30997371673584,
      "learning_rate": 5e-05,
      "loss": 1.7342,
      "num_input_tokens_seen": 34058080,
      "step": 508
    },
    {
      "epoch": 0.05764539007092199,
      "loss": 1.7702158689498901,
      "loss_ce": 0.010938522405922413,
      "loss_iou": 0.7578125,
      "loss_num": 0.048583984375,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 34058080,
      "step": 508
    },
    {
      "epoch": 0.05775886524822695,
      "grad_norm": 20.811847686767578,
      "learning_rate": 5e-05,
      "loss": 1.7243,
      "num_input_tokens_seen": 34125856,
      "step": 509
    },
    {
      "epoch": 0.05775886524822695,
      "loss": 1.6799724102020264,
      "loss_ce": 0.007120730355381966,
      "loss_iou": 0.7578125,
      "loss_num": 0.0311279296875,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 34125856,
      "step": 509
    },
    {
      "epoch": 0.05787234042553192,
      "grad_norm": 11.555800437927246,
      "learning_rate": 5e-05,
      "loss": 1.8096,
      "num_input_tokens_seen": 34194172,
      "step": 510
    },
    {
      "epoch": 0.05787234042553192,
      "loss": 1.7817659378051758,
      "loss_ce": 0.003445614594966173,
      "loss_iou": 0.78515625,
      "loss_num": 0.041748046875,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 34194172,
      "step": 510
    },
    {
      "epoch": 0.05798581560283688,
      "grad_norm": 7.829906940460205,
      "learning_rate": 5e-05,
      "loss": 1.4431,
      "num_input_tokens_seen": 34261400,
      "step": 511
    },
    {
      "epoch": 0.05798581560283688,
      "loss": 1.4850854873657227,
      "loss_ce": 0.003151864279061556,
      "loss_iou": 0.6484375,
      "loss_num": 0.03662109375,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 34261400,
      "step": 511
    },
    {
      "epoch": 0.058099290780141845,
      "grad_norm": 16.43125343322754,
      "learning_rate": 5e-05,
      "loss": 1.3183,
      "num_input_tokens_seen": 34328352,
      "step": 512
    },
    {
      "epoch": 0.058099290780141845,
      "loss": 1.3863213062286377,
      "loss_ce": 0.003020535223186016,
      "loss_iou": 0.63671875,
      "loss_num": 0.02197265625,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 34328352,
      "step": 512
    },
    {
      "epoch": 0.05821276595744681,
      "grad_norm": 21.310998916625977,
      "learning_rate": 5e-05,
      "loss": 1.9153,
      "num_input_tokens_seen": 34395512,
      "step": 513
    },
    {
      "epoch": 0.05821276595744681,
      "loss": 1.994011402130127,
      "loss_ce": 0.008659729734063148,
      "loss_iou": 0.859375,
      "loss_num": 0.052734375,
      "loss_xval": 1.984375,
      "num_input_tokens_seen": 34395512,
      "step": 513
    },
    {
      "epoch": 0.05832624113475177,
      "grad_norm": 12.803187370300293,
      "learning_rate": 5e-05,
      "loss": 1.9598,
      "num_input_tokens_seen": 34462808,
      "step": 514
    },
    {
      "epoch": 0.05832624113475177,
      "loss": 2.102764368057251,
      "loss_ce": 0.0041315872222185135,
      "loss_iou": 0.90625,
      "loss_num": 0.056884765625,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 34462808,
      "step": 514
    },
    {
      "epoch": 0.05843971631205674,
      "grad_norm": 10.898555755615234,
      "learning_rate": 5e-05,
      "loss": 1.7528,
      "num_input_tokens_seen": 34529688,
      "step": 515
    },
    {
      "epoch": 0.05843971631205674,
      "loss": 1.7827413082122803,
      "loss_ce": 0.0034444499760866165,
      "loss_iou": 0.80078125,
      "loss_num": 0.0361328125,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 34529688,
      "step": 515
    },
    {
      "epoch": 0.0585531914893617,
      "grad_norm": 9.945085525512695,
      "learning_rate": 5e-05,
      "loss": 1.805,
      "num_input_tokens_seen": 34597208,
      "step": 516
    },
    {
      "epoch": 0.0585531914893617,
      "loss": 1.6272852420806885,
      "loss_ce": 0.0061915162950754166,
      "loss_iou": 0.72265625,
      "loss_num": 0.035888671875,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 34597208,
      "step": 516
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 11.113462448120117,
      "learning_rate": 5e-05,
      "loss": 1.9555,
      "num_input_tokens_seen": 34664756,
      "step": 517
    },
    {
      "epoch": 0.058666666666666666,
      "loss": 2.0715720653533936,
      "loss_ce": 0.00907205231487751,
      "loss_iou": 0.859375,
      "loss_num": 0.0693359375,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 34664756,
      "step": 517
    },
    {
      "epoch": 0.05878014184397163,
      "grad_norm": 14.443204879760742,
      "learning_rate": 5e-05,
      "loss": 1.471,
      "num_input_tokens_seen": 34731804,
      "step": 518
    },
    {
      "epoch": 0.05878014184397163,
      "loss": 1.4389071464538574,
      "loss_ce": 0.008243151009082794,
      "loss_iou": 0.625,
      "loss_num": 0.0361328125,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 34731804,
      "step": 518
    },
    {
      "epoch": 0.058893617021276594,
      "grad_norm": 20.592561721801758,
      "learning_rate": 5e-05,
      "loss": 1.7667,
      "num_input_tokens_seen": 34799080,
      "step": 519
    },
    {
      "epoch": 0.058893617021276594,
      "loss": 1.753445029258728,
      "loss_ce": 0.0044216313399374485,
      "loss_iou": 0.79296875,
      "loss_num": 0.03271484375,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 34799080,
      "step": 519
    },
    {
      "epoch": 0.05900709219858156,
      "grad_norm": 9.667679786682129,
      "learning_rate": 5e-05,
      "loss": 2.0339,
      "num_input_tokens_seen": 34866012,
      "step": 520
    },
    {
      "epoch": 0.05900709219858156,
      "loss": 2.081223487854004,
      "loss_ce": 0.007981311529874802,
      "loss_iou": 0.8984375,
      "loss_num": 0.054931640625,
      "loss_xval": 2.078125,
      "num_input_tokens_seen": 34866012,
      "step": 520
    },
    {
      "epoch": 0.05912056737588652,
      "grad_norm": 10.015427589416504,
      "learning_rate": 5e-05,
      "loss": 1.6357,
      "num_input_tokens_seen": 34932832,
      "step": 521
    },
    {
      "epoch": 0.05912056737588652,
      "loss": 1.6848543882369995,
      "loss_ce": 0.006509673781692982,
      "loss_iou": 0.71875,
      "loss_num": 0.048828125,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 34932832,
      "step": 521
    },
    {
      "epoch": 0.059234042553191486,
      "grad_norm": 11.750214576721191,
      "learning_rate": 5e-05,
      "loss": 1.7335,
      "num_input_tokens_seen": 34999568,
      "step": 522
    },
    {
      "epoch": 0.059234042553191486,
      "loss": 1.7541385889053345,
      "loss_ce": 0.030505787581205368,
      "loss_iou": 0.76953125,
      "loss_num": 0.036376953125,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 34999568,
      "step": 522
    },
    {
      "epoch": 0.05934751773049645,
      "grad_norm": 16.577800750732422,
      "learning_rate": 5e-05,
      "loss": 1.6431,
      "num_input_tokens_seen": 35066820,
      "step": 523
    },
    {
      "epoch": 0.05934751773049645,
      "loss": 1.6004958152770996,
      "loss_ce": 0.0028395336121320724,
      "loss_iou": 0.7265625,
      "loss_num": 0.02783203125,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 35066820,
      "step": 523
    },
    {
      "epoch": 0.05946099290780142,
      "grad_norm": 15.862115859985352,
      "learning_rate": 5e-05,
      "loss": 2.1348,
      "num_input_tokens_seen": 35133660,
      "step": 524
    },
    {
      "epoch": 0.05946099290780142,
      "loss": 2.2738757133483887,
      "loss_ce": 0.0072740535251796246,
      "loss_iou": 0.9921875,
      "loss_num": 0.0556640625,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 35133660,
      "step": 524
    },
    {
      "epoch": 0.059574468085106386,
      "grad_norm": 9.896979331970215,
      "learning_rate": 5e-05,
      "loss": 1.6665,
      "num_input_tokens_seen": 35200976,
      "step": 525
    },
    {
      "epoch": 0.059574468085106386,
      "loss": 1.769718885421753,
      "loss_ce": 0.005070351995527744,
      "loss_iou": 0.8046875,
      "loss_num": 0.030517578125,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 35200976,
      "step": 525
    },
    {
      "epoch": 0.05968794326241135,
      "grad_norm": 7.724094390869141,
      "learning_rate": 5e-05,
      "loss": 1.5357,
      "num_input_tokens_seen": 35267656,
      "step": 526
    },
    {
      "epoch": 0.05968794326241135,
      "loss": 1.2810187339782715,
      "loss_ce": 0.0052619436755776405,
      "loss_iou": 0.52734375,
      "loss_num": 0.04443359375,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 35267656,
      "step": 526
    },
    {
      "epoch": 0.059801418439716314,
      "grad_norm": 15.545083999633789,
      "learning_rate": 5e-05,
      "loss": 1.4321,
      "num_input_tokens_seen": 35333860,
      "step": 527
    },
    {
      "epoch": 0.059801418439716314,
      "loss": 1.4504213333129883,
      "loss_ce": 0.00791636761277914,
      "loss_iou": 0.625,
      "loss_num": 0.038818359375,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 35333860,
      "step": 527
    },
    {
      "epoch": 0.05991489361702128,
      "grad_norm": 11.417981147766113,
      "learning_rate": 5e-05,
      "loss": 1.6416,
      "num_input_tokens_seen": 35400304,
      "step": 528
    },
    {
      "epoch": 0.05991489361702128,
      "loss": 1.5134968757629395,
      "loss_ce": 0.009590729139745235,
      "loss_iou": 0.66015625,
      "loss_num": 0.037109375,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 35400304,
      "step": 528
    },
    {
      "epoch": 0.06002836879432624,
      "grad_norm": 13.734426498413086,
      "learning_rate": 5e-05,
      "loss": 1.5757,
      "num_input_tokens_seen": 35467308,
      "step": 529
    },
    {
      "epoch": 0.06002836879432624,
      "loss": 1.4605355262756348,
      "loss_ce": 0.0025277137756347656,
      "loss_iou": 0.65625,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 35467308,
      "step": 529
    },
    {
      "epoch": 0.060141843971631206,
      "grad_norm": 18.989473342895508,
      "learning_rate": 5e-05,
      "loss": 1.3456,
      "num_input_tokens_seen": 35532988,
      "step": 530
    },
    {
      "epoch": 0.060141843971631206,
      "loss": 1.4213204383850098,
      "loss_ce": 0.00872274860739708,
      "loss_iou": 0.6171875,
      "loss_num": 0.035400390625,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 35532988,
      "step": 530
    },
    {
      "epoch": 0.06025531914893617,
      "grad_norm": 17.0202579498291,
      "learning_rate": 5e-05,
      "loss": 1.762,
      "num_input_tokens_seen": 35600344,
      "step": 531
    },
    {
      "epoch": 0.06025531914893617,
      "loss": 1.7800743579864502,
      "loss_ce": 0.0027305898256599903,
      "loss_iou": 0.77734375,
      "loss_num": 0.04443359375,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 35600344,
      "step": 531
    },
    {
      "epoch": 0.060368794326241135,
      "grad_norm": 36.94358825683594,
      "learning_rate": 5e-05,
      "loss": 1.8089,
      "num_input_tokens_seen": 35666964,
      "step": 532
    },
    {
      "epoch": 0.060368794326241135,
      "loss": 1.8534932136535645,
      "loss_ce": 0.005836944095790386,
      "loss_iou": 0.8359375,
      "loss_num": 0.035888671875,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 35666964,
      "step": 532
    },
    {
      "epoch": 0.0604822695035461,
      "grad_norm": 19.969192504882812,
      "learning_rate": 5e-05,
      "loss": 1.6974,
      "num_input_tokens_seen": 35732908,
      "step": 533
    },
    {
      "epoch": 0.0604822695035461,
      "loss": 1.546442985534668,
      "loss_ce": 0.00780786108225584,
      "loss_iou": 0.6640625,
      "loss_num": 0.0419921875,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 35732908,
      "step": 533
    },
    {
      "epoch": 0.06059574468085106,
      "grad_norm": 7.093611717224121,
      "learning_rate": 5e-05,
      "loss": 1.7483,
      "num_input_tokens_seen": 35800428,
      "step": 534
    },
    {
      "epoch": 0.06059574468085106,
      "loss": 1.6540725231170654,
      "loss_ce": 0.003681855509057641,
      "loss_iou": 0.74609375,
      "loss_num": 0.031005859375,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 35800428,
      "step": 534
    },
    {
      "epoch": 0.06070921985815603,
      "grad_norm": 27.002878189086914,
      "learning_rate": 5e-05,
      "loss": 1.3072,
      "num_input_tokens_seen": 35866944,
      "step": 535
    },
    {
      "epoch": 0.06070921985815603,
      "loss": 1.3125475645065308,
      "loss_ce": 0.005906937178224325,
      "loss_iou": 0.5625,
      "loss_num": 0.035888671875,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 35866944,
      "step": 535
    },
    {
      "epoch": 0.06082269503546099,
      "grad_norm": 12.135601043701172,
      "learning_rate": 5e-05,
      "loss": 1.7861,
      "num_input_tokens_seen": 35934172,
      "step": 536
    },
    {
      "epoch": 0.06082269503546099,
      "loss": 1.6323490142822266,
      "loss_ce": 0.002588177565485239,
      "loss_iou": 0.7265625,
      "loss_num": 0.03515625,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 35934172,
      "step": 536
    },
    {
      "epoch": 0.060936170212765955,
      "grad_norm": 12.734077453613281,
      "learning_rate": 5e-05,
      "loss": 1.8721,
      "num_input_tokens_seen": 36001524,
      "step": 537
    },
    {
      "epoch": 0.060936170212765955,
      "loss": 1.832740068435669,
      "loss_ce": 0.003638442140072584,
      "loss_iou": 0.78515625,
      "loss_num": 0.051025390625,
      "loss_xval": 1.828125,
      "num_input_tokens_seen": 36001524,
      "step": 537
    },
    {
      "epoch": 0.06104964539007092,
      "grad_norm": 14.328346252441406,
      "learning_rate": 5e-05,
      "loss": 1.7437,
      "num_input_tokens_seen": 36068388,
      "step": 538
    },
    {
      "epoch": 0.06104964539007092,
      "loss": 1.67255699634552,
      "loss_ce": 0.0026351413689553738,
      "loss_iou": 0.73046875,
      "loss_num": 0.042236328125,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 36068388,
      "step": 538
    },
    {
      "epoch": 0.061163120567375884,
      "grad_norm": 22.24535369873047,
      "learning_rate": 5e-05,
      "loss": 1.7832,
      "num_input_tokens_seen": 36136740,
      "step": 539
    },
    {
      "epoch": 0.061163120567375884,
      "loss": 1.7820180654525757,
      "loss_ce": 0.0017446232959628105,
      "loss_iou": 0.796875,
      "loss_num": 0.03662109375,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 36136740,
      "step": 539
    },
    {
      "epoch": 0.06127659574468085,
      "grad_norm": 10.937163352966309,
      "learning_rate": 5e-05,
      "loss": 1.9558,
      "num_input_tokens_seen": 36204176,
      "step": 540
    },
    {
      "epoch": 0.06127659574468085,
      "loss": 1.9294724464416504,
      "loss_ce": 0.0036912113428115845,
      "loss_iou": 0.87109375,
      "loss_num": 0.036376953125,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 36204176,
      "step": 540
    },
    {
      "epoch": 0.06139007092198582,
      "grad_norm": 6.797571182250977,
      "learning_rate": 5e-05,
      "loss": 1.6411,
      "num_input_tokens_seen": 36270784,
      "step": 541
    },
    {
      "epoch": 0.06139007092198582,
      "loss": 1.668053388595581,
      "loss_ce": 0.004967389162629843,
      "loss_iou": 0.7265625,
      "loss_num": 0.042724609375,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 36270784,
      "step": 541
    },
    {
      "epoch": 0.06150354609929078,
      "grad_norm": 13.178131103515625,
      "learning_rate": 5e-05,
      "loss": 1.3245,
      "num_input_tokens_seen": 36338256,
      "step": 542
    },
    {
      "epoch": 0.06150354609929078,
      "loss": 1.3124828338623047,
      "loss_ce": 0.002912564668804407,
      "loss_iou": 0.56640625,
      "loss_num": 0.03515625,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 36338256,
      "step": 542
    },
    {
      "epoch": 0.06161702127659575,
      "grad_norm": 16.36110496520996,
      "learning_rate": 5e-05,
      "loss": 1.6387,
      "num_input_tokens_seen": 36404576,
      "step": 543
    },
    {
      "epoch": 0.06161702127659575,
      "loss": 1.6126899719238281,
      "loss_ce": 0.00429155258461833,
      "loss_iou": 0.7109375,
      "loss_num": 0.03759765625,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 36404576,
      "step": 543
    },
    {
      "epoch": 0.06173049645390071,
      "grad_norm": 22.967493057250977,
      "learning_rate": 5e-05,
      "loss": 1.8999,
      "num_input_tokens_seen": 36471312,
      "step": 544
    },
    {
      "epoch": 0.06173049645390071,
      "loss": 2.0092978477478027,
      "loss_ce": 0.003438591957092285,
      "loss_iou": 0.8671875,
      "loss_num": 0.0537109375,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 36471312,
      "step": 544
    },
    {
      "epoch": 0.061843971631205676,
      "grad_norm": 13.802454948425293,
      "learning_rate": 5e-05,
      "loss": 1.8991,
      "num_input_tokens_seen": 36538004,
      "step": 545
    },
    {
      "epoch": 0.061843971631205676,
      "loss": 1.828541874885559,
      "loss_ce": 0.006276316940784454,
      "loss_iou": 0.79296875,
      "loss_num": 0.048095703125,
      "loss_xval": 1.8203125,
      "num_input_tokens_seen": 36538004,
      "step": 545
    },
    {
      "epoch": 0.06195744680851064,
      "grad_norm": 7.857250690460205,
      "learning_rate": 5e-05,
      "loss": 1.8981,
      "num_input_tokens_seen": 36604208,
      "step": 546
    },
    {
      "epoch": 0.06195744680851064,
      "loss": 1.863797664642334,
      "loss_ce": 0.0053992620669305325,
      "loss_iou": 0.81640625,
      "loss_num": 0.04443359375,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 36604208,
      "step": 546
    },
    {
      "epoch": 0.062070921985815604,
      "grad_norm": 33.32029342651367,
      "learning_rate": 5e-05,
      "loss": 1.5681,
      "num_input_tokens_seen": 36671672,
      "step": 547
    },
    {
      "epoch": 0.062070921985815604,
      "loss": 1.529719591140747,
      "loss_ce": 0.002864100271835923,
      "loss_iou": 0.6875,
      "loss_num": 0.030029296875,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 36671672,
      "step": 547
    },
    {
      "epoch": 0.06218439716312057,
      "grad_norm": 51.53211975097656,
      "learning_rate": 5e-05,
      "loss": 1.7375,
      "num_input_tokens_seen": 36739084,
      "step": 548
    },
    {
      "epoch": 0.06218439716312057,
      "loss": 1.7793118953704834,
      "loss_ce": 0.003921303432434797,
      "loss_iou": 0.80078125,
      "loss_num": 0.0341796875,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 36739084,
      "step": 548
    },
    {
      "epoch": 0.06229787234042553,
      "grad_norm": 20.01019287109375,
      "learning_rate": 5e-05,
      "loss": 1.6651,
      "num_input_tokens_seen": 36806660,
      "step": 549
    },
    {
      "epoch": 0.06229787234042553,
      "loss": 1.657332181930542,
      "loss_ce": 0.007918087765574455,
      "loss_iou": 0.74609375,
      "loss_num": 0.03173828125,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 36806660,
      "step": 549
    },
    {
      "epoch": 0.062411347517730496,
      "grad_norm": 12.173332214355469,
      "learning_rate": 5e-05,
      "loss": 2.0591,
      "num_input_tokens_seen": 36874356,
      "step": 550
    },
    {
      "epoch": 0.062411347517730496,
      "loss": 2.1653237342834473,
      "loss_ce": 0.010050379671156406,
      "loss_iou": 0.9453125,
      "loss_num": 0.052978515625,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 36874356,
      "step": 550
    },
    {
      "epoch": 0.06252482269503547,
      "grad_norm": 20.317838668823242,
      "learning_rate": 5e-05,
      "loss": 1.7837,
      "num_input_tokens_seen": 36941704,
      "step": 551
    },
    {
      "epoch": 0.06252482269503547,
      "loss": 1.9296106100082397,
      "loss_ce": 0.008712241426110268,
      "loss_iou": 0.84765625,
      "loss_num": 0.045654296875,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 36941704,
      "step": 551
    },
    {
      "epoch": 0.06263829787234043,
      "grad_norm": 14.886127471923828,
      "learning_rate": 5e-05,
      "loss": 1.8287,
      "num_input_tokens_seen": 37009528,
      "step": 552
    },
    {
      "epoch": 0.06263829787234043,
      "loss": 1.826319694519043,
      "loss_ce": 0.01284320279955864,
      "loss_iou": 0.765625,
      "loss_num": 0.056884765625,
      "loss_xval": 1.8125,
      "num_input_tokens_seen": 37009528,
      "step": 552
    },
    {
      "epoch": 0.0627517730496454,
      "grad_norm": 10.400922775268555,
      "learning_rate": 5e-05,
      "loss": 1.6718,
      "num_input_tokens_seen": 37077300,
      "step": 553
    },
    {
      "epoch": 0.0627517730496454,
      "loss": 1.733833909034729,
      "loss_ce": 0.0053182244300842285,
      "loss_iou": 0.77734375,
      "loss_num": 0.03515625,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 37077300,
      "step": 553
    },
    {
      "epoch": 0.06286524822695036,
      "grad_norm": 14.174692153930664,
      "learning_rate": 5e-05,
      "loss": 1.6271,
      "num_input_tokens_seen": 37144528,
      "step": 554
    },
    {
      "epoch": 0.06286524822695036,
      "loss": 1.5537364482879639,
      "loss_ce": 0.003931785002350807,
      "loss_iou": 0.6875,
      "loss_num": 0.03515625,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 37144528,
      "step": 554
    },
    {
      "epoch": 0.06297872340425532,
      "grad_norm": 18.779556274414062,
      "learning_rate": 5e-05,
      "loss": 1.8906,
      "num_input_tokens_seen": 37211448,
      "step": 555
    },
    {
      "epoch": 0.06297872340425532,
      "loss": 1.9687750339508057,
      "loss_ce": 0.005884422920644283,
      "loss_iou": 0.859375,
      "loss_num": 0.04833984375,
      "loss_xval": 1.9609375,
      "num_input_tokens_seen": 37211448,
      "step": 555
    },
    {
      "epoch": 0.06309219858156029,
      "grad_norm": 15.271688461303711,
      "learning_rate": 5e-05,
      "loss": 1.5371,
      "num_input_tokens_seen": 37278264,
      "step": 556
    },
    {
      "epoch": 0.06309219858156029,
      "loss": 1.7148194313049316,
      "loss_ce": 0.00974127184599638,
      "loss_iou": 0.73046875,
      "loss_num": 0.049560546875,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 37278264,
      "step": 556
    },
    {
      "epoch": 0.06320567375886525,
      "grad_norm": 13.999577522277832,
      "learning_rate": 5e-05,
      "loss": 1.6454,
      "num_input_tokens_seen": 37344912,
      "step": 557
    },
    {
      "epoch": 0.06320567375886525,
      "loss": 1.579252004623413,
      "loss_ce": 0.00600980082526803,
      "loss_iou": 0.703125,
      "loss_num": 0.033935546875,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 37344912,
      "step": 557
    },
    {
      "epoch": 0.06331914893617022,
      "grad_norm": 9.058708190917969,
      "learning_rate": 5e-05,
      "loss": 1.5582,
      "num_input_tokens_seen": 37412976,
      "step": 558
    },
    {
      "epoch": 0.06331914893617022,
      "loss": 1.7537223100662231,
      "loss_ce": 0.005675435531884432,
      "loss_iou": 0.7890625,
      "loss_num": 0.033935546875,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 37412976,
      "step": 558
    },
    {
      "epoch": 0.06343262411347518,
      "grad_norm": 18.23493766784668,
      "learning_rate": 5e-05,
      "loss": 1.6051,
      "num_input_tokens_seen": 37480300,
      "step": 559
    },
    {
      "epoch": 0.06343262411347518,
      "loss": 1.6473695039749146,
      "loss_ce": 0.0028382171876728535,
      "loss_iou": 0.7265625,
      "loss_num": 0.0380859375,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 37480300,
      "step": 559
    },
    {
      "epoch": 0.06354609929078014,
      "grad_norm": 13.681474685668945,
      "learning_rate": 5e-05,
      "loss": 1.9477,
      "num_input_tokens_seen": 37546880,
      "step": 560
    },
    {
      "epoch": 0.06354609929078014,
      "loss": 1.9089293479919434,
      "loss_ce": 0.006585512310266495,
      "loss_iou": 0.84375,
      "loss_num": 0.04345703125,
      "loss_xval": 1.90625,
      "num_input_tokens_seen": 37546880,
      "step": 560
    },
    {
      "epoch": 0.06365957446808511,
      "grad_norm": 9.339192390441895,
      "learning_rate": 5e-05,
      "loss": 1.2359,
      "num_input_tokens_seen": 37613532,
      "step": 561
    },
    {
      "epoch": 0.06365957446808511,
      "loss": 1.2028334140777588,
      "loss_ce": 0.008253268897533417,
      "loss_iou": 0.51171875,
      "loss_num": 0.0341796875,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 37613532,
      "step": 561
    },
    {
      "epoch": 0.06377304964539007,
      "grad_norm": 12.338150978088379,
      "learning_rate": 5e-05,
      "loss": 1.4316,
      "num_input_tokens_seen": 37681088,
      "step": 562
    },
    {
      "epoch": 0.06377304964539007,
      "loss": 1.2346725463867188,
      "loss_ce": 0.0037154448218643665,
      "loss_iou": 0.55859375,
      "loss_num": 0.0223388671875,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 37681088,
      "step": 562
    },
    {
      "epoch": 0.06388652482269504,
      "grad_norm": 239.47618103027344,
      "learning_rate": 5e-05,
      "loss": 1.7395,
      "num_input_tokens_seen": 37748796,
      "step": 563
    },
    {
      "epoch": 0.06388652482269504,
      "loss": 1.7364814281463623,
      "loss_ce": 0.0030829962342977524,
      "loss_iou": 0.79296875,
      "loss_num": 0.030029296875,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 37748796,
      "step": 563
    },
    {
      "epoch": 0.064,
      "grad_norm": 16.534961700439453,
      "learning_rate": 5e-05,
      "loss": 1.4779,
      "num_input_tokens_seen": 37816456,
      "step": 564
    },
    {
      "epoch": 0.064,
      "loss": 1.5469310283660889,
      "loss_ce": 0.008845086209475994,
      "loss_iou": 0.70703125,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 37816456,
      "step": 564
    },
    {
      "epoch": 0.06411347517730497,
      "grad_norm": 13.801701545715332,
      "learning_rate": 5e-05,
      "loss": 1.9542,
      "num_input_tokens_seen": 37883344,
      "step": 565
    },
    {
      "epoch": 0.06411347517730497,
      "loss": 1.9403448104858398,
      "loss_ce": 0.005774541758000851,
      "loss_iou": 0.84375,
      "loss_num": 0.050048828125,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 37883344,
      "step": 565
    },
    {
      "epoch": 0.06422695035460993,
      "grad_norm": 12.617462158203125,
      "learning_rate": 5e-05,
      "loss": 1.7328,
      "num_input_tokens_seen": 37951032,
      "step": 566
    },
    {
      "epoch": 0.06422695035460993,
      "loss": 1.7875568866729736,
      "loss_ce": 0.007771709468215704,
      "loss_iou": 0.78125,
      "loss_num": 0.044189453125,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 37951032,
      "step": 566
    },
    {
      "epoch": 0.0643404255319149,
      "grad_norm": 9.162867546081543,
      "learning_rate": 5e-05,
      "loss": 1.3204,
      "num_input_tokens_seen": 38017428,
      "step": 567
    },
    {
      "epoch": 0.0643404255319149,
      "loss": 1.1104978322982788,
      "loss_ce": 0.00893535278737545,
      "loss_iou": 0.4375,
      "loss_num": 0.045654296875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 38017428,
      "step": 567
    },
    {
      "epoch": 0.06445390070921986,
      "grad_norm": 13.23531723022461,
      "learning_rate": 5e-05,
      "loss": 1.7313,
      "num_input_tokens_seen": 38085176,
      "step": 568
    },
    {
      "epoch": 0.06445390070921986,
      "loss": 1.7642033100128174,
      "loss_ce": 0.004437605384737253,
      "loss_iou": 0.78515625,
      "loss_num": 0.03759765625,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 38085176,
      "step": 568
    },
    {
      "epoch": 0.06456737588652482,
      "grad_norm": 14.243779182434082,
      "learning_rate": 5e-05,
      "loss": 1.4657,
      "num_input_tokens_seen": 38151724,
      "step": 569
    },
    {
      "epoch": 0.06456737588652482,
      "loss": 1.533082127571106,
      "loss_ce": 0.0037852609530091286,
      "loss_iou": 0.68359375,
      "loss_num": 0.03271484375,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 38151724,
      "step": 569
    },
    {
      "epoch": 0.06468085106382979,
      "grad_norm": 17.36090850830078,
      "learning_rate": 5e-05,
      "loss": 1.4465,
      "num_input_tokens_seen": 38218472,
      "step": 570
    },
    {
      "epoch": 0.06468085106382979,
      "loss": 1.4144272804260254,
      "loss_ce": 0.005247501656413078,
      "loss_iou": 0.6640625,
      "loss_num": 0.016845703125,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 38218472,
      "step": 570
    },
    {
      "epoch": 0.06479432624113475,
      "grad_norm": 13.800596237182617,
      "learning_rate": 5e-05,
      "loss": 1.7323,
      "num_input_tokens_seen": 38286172,
      "step": 571
    },
    {
      "epoch": 0.06479432624113475,
      "loss": 1.8950093984603882,
      "loss_ce": 0.0034078452736139297,
      "loss_iou": 0.828125,
      "loss_num": 0.046875,
      "loss_xval": 1.890625,
      "num_input_tokens_seen": 38286172,
      "step": 571
    },
    {
      "epoch": 0.06490780141843971,
      "grad_norm": 13.585702896118164,
      "learning_rate": 5e-05,
      "loss": 1.5579,
      "num_input_tokens_seen": 38354776,
      "step": 572
    },
    {
      "epoch": 0.06490780141843971,
      "loss": 1.642638921737671,
      "loss_ce": 0.0068967388942837715,
      "loss_iou": 0.72265625,
      "loss_num": 0.03759765625,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 38354776,
      "step": 572
    },
    {
      "epoch": 0.06502127659574468,
      "grad_norm": 14.475237846374512,
      "learning_rate": 5e-05,
      "loss": 1.68,
      "num_input_tokens_seen": 38422320,
      "step": 573
    },
    {
      "epoch": 0.06502127659574468,
      "loss": 1.7292536497116089,
      "loss_ce": 0.003667705925181508,
      "loss_iou": 0.765625,
      "loss_num": 0.039306640625,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 38422320,
      "step": 573
    },
    {
      "epoch": 0.06513475177304964,
      "grad_norm": 11.443117141723633,
      "learning_rate": 5e-05,
      "loss": 1.7781,
      "num_input_tokens_seen": 38489920,
      "step": 574
    },
    {
      "epoch": 0.06513475177304964,
      "loss": 1.8917436599731445,
      "loss_ce": 0.0060015106573700905,
      "loss_iou": 0.78125,
      "loss_num": 0.064453125,
      "loss_xval": 1.8828125,
      "num_input_tokens_seen": 38489920,
      "step": 574
    },
    {
      "epoch": 0.06524822695035461,
      "grad_norm": 21.121551513671875,
      "learning_rate": 5e-05,
      "loss": 1.7825,
      "num_input_tokens_seen": 38557348,
      "step": 575
    },
    {
      "epoch": 0.06524822695035461,
      "loss": 1.679371953010559,
      "loss_ce": 0.004567304626107216,
      "loss_iou": 0.765625,
      "loss_num": 0.0283203125,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 38557348,
      "step": 575
    },
    {
      "epoch": 0.06536170212765957,
      "grad_norm": 13.54088306427002,
      "learning_rate": 5e-05,
      "loss": 1.9468,
      "num_input_tokens_seen": 38623396,
      "step": 576
    },
    {
      "epoch": 0.06536170212765957,
      "loss": 1.7884941101074219,
      "loss_ce": 0.004314460791647434,
      "loss_iou": 0.78515625,
      "loss_num": 0.043701171875,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 38623396,
      "step": 576
    },
    {
      "epoch": 0.06547517730496454,
      "grad_norm": 10.240639686584473,
      "learning_rate": 5e-05,
      "loss": 1.5252,
      "num_input_tokens_seen": 38691420,
      "step": 577
    },
    {
      "epoch": 0.06547517730496454,
      "loss": 1.5179507732391357,
      "loss_ce": 0.005255457945168018,
      "loss_iou": 0.69140625,
      "loss_num": 0.02587890625,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 38691420,
      "step": 577
    },
    {
      "epoch": 0.0655886524822695,
      "grad_norm": 11.184880256652832,
      "learning_rate": 5e-05,
      "loss": 1.4406,
      "num_input_tokens_seen": 38758000,
      "step": 578
    },
    {
      "epoch": 0.0655886524822695,
      "loss": 1.365419864654541,
      "loss_ce": 0.005190436728298664,
      "loss_iou": 0.58984375,
      "loss_num": 0.036376953125,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 38758000,
      "step": 578
    },
    {
      "epoch": 0.06570212765957446,
      "grad_norm": 14.79788875579834,
      "learning_rate": 5e-05,
      "loss": 1.5065,
      "num_input_tokens_seen": 38824836,
      "step": 579
    },
    {
      "epoch": 0.06570212765957446,
      "loss": 1.441551923751831,
      "loss_ce": 0.005028463900089264,
      "loss_iou": 0.62109375,
      "loss_num": 0.039306640625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 38824836,
      "step": 579
    },
    {
      "epoch": 0.06581560283687943,
      "grad_norm": 18.550535202026367,
      "learning_rate": 5e-05,
      "loss": 1.5242,
      "num_input_tokens_seen": 38891188,
      "step": 580
    },
    {
      "epoch": 0.06581560283687943,
      "loss": 1.4175258874893188,
      "loss_ce": 0.009078655391931534,
      "loss_iou": 0.609375,
      "loss_num": 0.038818359375,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 38891188,
      "step": 580
    },
    {
      "epoch": 0.06592907801418439,
      "grad_norm": 14.642451286315918,
      "learning_rate": 5e-05,
      "loss": 1.6682,
      "num_input_tokens_seen": 38958592,
      "step": 581
    },
    {
      "epoch": 0.06592907801418439,
      "loss": 1.6812658309936523,
      "loss_ce": 0.005850901361554861,
      "loss_iou": 0.72265625,
      "loss_num": 0.046142578125,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 38958592,
      "step": 581
    },
    {
      "epoch": 0.06604255319148936,
      "grad_norm": 25.0528564453125,
      "learning_rate": 5e-05,
      "loss": 1.5188,
      "num_input_tokens_seen": 39026064,
      "step": 582
    },
    {
      "epoch": 0.06604255319148936,
      "loss": 1.31465482711792,
      "loss_ce": 0.005084621254354715,
      "loss_iou": 0.578125,
      "loss_num": 0.0302734375,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 39026064,
      "step": 582
    },
    {
      "epoch": 0.06615602836879432,
      "grad_norm": 19.193309783935547,
      "learning_rate": 5e-05,
      "loss": 1.7117,
      "num_input_tokens_seen": 39093392,
      "step": 583
    },
    {
      "epoch": 0.06615602836879432,
      "loss": 1.8545947074890137,
      "loss_ce": 0.006938415113836527,
      "loss_iou": 0.75390625,
      "loss_num": 0.068359375,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 39093392,
      "step": 583
    },
    {
      "epoch": 0.06626950354609928,
      "grad_norm": 13.194448471069336,
      "learning_rate": 5e-05,
      "loss": 1.6425,
      "num_input_tokens_seen": 39160616,
      "step": 584
    },
    {
      "epoch": 0.06626950354609928,
      "loss": 1.6521096229553223,
      "loss_ce": 0.007578403223305941,
      "loss_iou": 0.71484375,
      "loss_num": 0.0439453125,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 39160616,
      "step": 584
    },
    {
      "epoch": 0.06638297872340425,
      "grad_norm": 16.43494415283203,
      "learning_rate": 5e-05,
      "loss": 1.714,
      "num_input_tokens_seen": 39227980,
      "step": 585
    },
    {
      "epoch": 0.06638297872340425,
      "loss": 1.6191003322601318,
      "loss_ce": 0.0063074198551476,
      "loss_iou": 0.69921875,
      "loss_num": 0.04296875,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 39227980,
      "step": 585
    },
    {
      "epoch": 0.06649645390070923,
      "grad_norm": 13.03972339630127,
      "learning_rate": 5e-05,
      "loss": 1.6555,
      "num_input_tokens_seen": 39294764,
      "step": 586
    },
    {
      "epoch": 0.06649645390070923,
      "loss": 1.447479009628296,
      "loss_ce": 0.005096069537103176,
      "loss_iou": 0.62890625,
      "loss_num": 0.03759765625,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 39294764,
      "step": 586
    },
    {
      "epoch": 0.06660992907801419,
      "grad_norm": 9.18184757232666,
      "learning_rate": 5e-05,
      "loss": 1.5876,
      "num_input_tokens_seen": 39361380,
      "step": 587
    },
    {
      "epoch": 0.06660992907801419,
      "loss": 1.7839922904968262,
      "loss_ce": 0.0071367500349879265,
      "loss_iou": 0.7421875,
      "loss_num": 0.058837890625,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 39361380,
      "step": 587
    },
    {
      "epoch": 0.06672340425531915,
      "grad_norm": 12.816557884216309,
      "learning_rate": 5e-05,
      "loss": 1.686,
      "num_input_tokens_seen": 39428544,
      "step": 588
    },
    {
      "epoch": 0.06672340425531915,
      "loss": 1.5959019660949707,
      "loss_ce": 0.007523109670728445,
      "loss_iou": 0.66015625,
      "loss_num": 0.054443359375,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 39428544,
      "step": 588
    },
    {
      "epoch": 0.06683687943262412,
      "grad_norm": 24.375642776489258,
      "learning_rate": 5e-05,
      "loss": 1.734,
      "num_input_tokens_seen": 39495908,
      "step": 589
    },
    {
      "epoch": 0.06683687943262412,
      "loss": 1.7154037952423096,
      "loss_ce": 0.004466421902179718,
      "loss_iou": 0.76953125,
      "loss_num": 0.034912109375,
      "loss_xval": 1.7109375,
      "num_input_tokens_seen": 39495908,
      "step": 589
    },
    {
      "epoch": 0.06695035460992908,
      "grad_norm": 11.822457313537598,
      "learning_rate": 5e-05,
      "loss": 1.7998,
      "num_input_tokens_seen": 39563328,
      "step": 590
    },
    {
      "epoch": 0.06695035460992908,
      "loss": 1.8986316919326782,
      "loss_ce": 0.005076967645436525,
      "loss_iou": 0.8125,
      "loss_num": 0.0537109375,
      "loss_xval": 1.890625,
      "num_input_tokens_seen": 39563328,
      "step": 590
    },
    {
      "epoch": 0.06706382978723405,
      "grad_norm": 30.535146713256836,
      "learning_rate": 5e-05,
      "loss": 1.6533,
      "num_input_tokens_seen": 39630004,
      "step": 591
    },
    {
      "epoch": 0.06706382978723405,
      "loss": 1.6419222354888916,
      "loss_ce": 0.00325029157102108,
      "loss_iou": 0.7109375,
      "loss_num": 0.04296875,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 39630004,
      "step": 591
    },
    {
      "epoch": 0.06717730496453901,
      "grad_norm": 19.080432891845703,
      "learning_rate": 5e-05,
      "loss": 1.7316,
      "num_input_tokens_seen": 39697588,
      "step": 592
    },
    {
      "epoch": 0.06717730496453901,
      "loss": 1.7394661903381348,
      "loss_ce": 0.0024056220427155495,
      "loss_iou": 0.765625,
      "loss_num": 0.041259765625,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 39697588,
      "step": 592
    },
    {
      "epoch": 0.06729078014184398,
      "grad_norm": 61.27464294433594,
      "learning_rate": 5e-05,
      "loss": 1.7663,
      "num_input_tokens_seen": 39765444,
      "step": 593
    },
    {
      "epoch": 0.06729078014184398,
      "loss": 1.8608486652374268,
      "loss_ce": 0.008309650234878063,
      "loss_iou": 0.8125,
      "loss_num": 0.046630859375,
      "loss_xval": 1.8515625,
      "num_input_tokens_seen": 39765444,
      "step": 593
    },
    {
      "epoch": 0.06740425531914894,
      "grad_norm": 47.89439010620117,
      "learning_rate": 5e-05,
      "loss": 1.6912,
      "num_input_tokens_seen": 39833104,
      "step": 594
    },
    {
      "epoch": 0.06740425531914894,
      "loss": 1.700279951095581,
      "loss_ce": 0.003990940283983946,
      "loss_iou": 0.75,
      "loss_num": 0.038818359375,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 39833104,
      "step": 594
    },
    {
      "epoch": 0.0675177304964539,
      "grad_norm": 16.31778907775879,
      "learning_rate": 5e-05,
      "loss": 1.5808,
      "num_input_tokens_seen": 39900716,
      "step": 595
    },
    {
      "epoch": 0.0675177304964539,
      "loss": 1.7022480964660645,
      "loss_ce": 0.004006018862128258,
      "loss_iou": 0.7421875,
      "loss_num": 0.0419921875,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 39900716,
      "step": 595
    },
    {
      "epoch": 0.06763120567375887,
      "grad_norm": 19.696365356445312,
      "learning_rate": 5e-05,
      "loss": 1.9176,
      "num_input_tokens_seen": 39968932,
      "step": 596
    },
    {
      "epoch": 0.06763120567375887,
      "loss": 1.905343770980835,
      "loss_ce": 0.003976611886173487,
      "loss_iou": 0.828125,
      "loss_num": 0.049560546875,
      "loss_xval": 1.8984375,
      "num_input_tokens_seen": 39968932,
      "step": 596
    },
    {
      "epoch": 0.06774468085106383,
      "grad_norm": 22.918214797973633,
      "learning_rate": 5e-05,
      "loss": 1.5508,
      "num_input_tokens_seen": 40035776,
      "step": 597
    },
    {
      "epoch": 0.06774468085106383,
      "loss": 1.68677818775177,
      "loss_ce": 0.0061140526086091995,
      "loss_iou": 0.75,
      "loss_num": 0.03662109375,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 40035776,
      "step": 597
    },
    {
      "epoch": 0.0678581560283688,
      "grad_norm": 23.469324111938477,
      "learning_rate": 5e-05,
      "loss": 1.7312,
      "num_input_tokens_seen": 40102388,
      "step": 598
    },
    {
      "epoch": 0.0678581560283688,
      "loss": 1.7322649955749512,
      "loss_ce": 0.003749422961845994,
      "loss_iou": 0.78125,
      "loss_num": 0.032958984375,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 40102388,
      "step": 598
    },
    {
      "epoch": 0.06797163120567376,
      "grad_norm": 12.114113807678223,
      "learning_rate": 5e-05,
      "loss": 1.6943,
      "num_input_tokens_seen": 40168436,
      "step": 599
    },
    {
      "epoch": 0.06797163120567376,
      "loss": 1.7520256042480469,
      "loss_ce": 0.0030019863042980433,
      "loss_iou": 0.77734375,
      "loss_num": 0.0390625,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 40168436,
      "step": 599
    },
    {
      "epoch": 0.06808510638297872,
      "grad_norm": 8.469372749328613,
      "learning_rate": 5e-05,
      "loss": 1.5956,
      "num_input_tokens_seen": 40235376,
      "step": 600
    },
    {
      "epoch": 0.06808510638297872,
      "loss": 1.6929725408554077,
      "loss_ce": 0.0025427723303437233,
      "loss_iou": 0.73046875,
      "loss_num": 0.04541015625,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 40235376,
      "step": 600
    },
    {
      "epoch": 0.06819858156028369,
      "grad_norm": 17.035051345825195,
      "learning_rate": 5e-05,
      "loss": 1.6566,
      "num_input_tokens_seen": 40303100,
      "step": 601
    },
    {
      "epoch": 0.06819858156028369,
      "loss": 1.5391404628753662,
      "loss_ce": 0.0030076811090111732,
      "loss_iou": 0.67578125,
      "loss_num": 0.037353515625,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 40303100,
      "step": 601
    },
    {
      "epoch": 0.06831205673758865,
      "grad_norm": 12.863085746765137,
      "learning_rate": 5e-05,
      "loss": 1.7202,
      "num_input_tokens_seen": 40371372,
      "step": 602
    },
    {
      "epoch": 0.06831205673758865,
      "loss": 1.7616617679595947,
      "loss_ce": 0.00482575036585331,
      "loss_iou": 0.77734375,
      "loss_num": 0.041015625,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 40371372,
      "step": 602
    },
    {
      "epoch": 0.06842553191489362,
      "grad_norm": 15.37893295288086,
      "learning_rate": 5e-05,
      "loss": 1.7073,
      "num_input_tokens_seen": 40438016,
      "step": 603
    },
    {
      "epoch": 0.06842553191489362,
      "loss": 1.7985458374023438,
      "loss_ce": 0.004600600339472294,
      "loss_iou": 0.7890625,
      "loss_num": 0.04345703125,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 40438016,
      "step": 603
    },
    {
      "epoch": 0.06853900709219858,
      "grad_norm": 21.42563819885254,
      "learning_rate": 5e-05,
      "loss": 1.6255,
      "num_input_tokens_seen": 40505428,
      "step": 604
    },
    {
      "epoch": 0.06853900709219858,
      "loss": 1.438305139541626,
      "loss_ce": 0.009624776430428028,
      "loss_iou": 0.6171875,
      "loss_num": 0.038330078125,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 40505428,
      "step": 604
    },
    {
      "epoch": 0.06865248226950355,
      "grad_norm": 11.856708526611328,
      "learning_rate": 5e-05,
      "loss": 1.7376,
      "num_input_tokens_seen": 40572272,
      "step": 605
    },
    {
      "epoch": 0.06865248226950355,
      "loss": 1.6726996898651123,
      "loss_ce": 0.00863720290362835,
      "loss_iou": 0.734375,
      "loss_num": 0.039306640625,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 40572272,
      "step": 605
    },
    {
      "epoch": 0.06876595744680851,
      "grad_norm": 11.436641693115234,
      "learning_rate": 5e-05,
      "loss": 1.4946,
      "num_input_tokens_seen": 40639664,
      "step": 606
    },
    {
      "epoch": 0.06876595744680851,
      "loss": 1.4023882150650024,
      "loss_ce": 0.008833540603518486,
      "loss_iou": 0.6171875,
      "loss_num": 0.032470703125,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 40639664,
      "step": 606
    },
    {
      "epoch": 0.06887943262411347,
      "grad_norm": 13.354765892028809,
      "learning_rate": 5e-05,
      "loss": 1.6059,
      "num_input_tokens_seen": 40706740,
      "step": 607
    },
    {
      "epoch": 0.06887943262411347,
      "loss": 1.6690137386322021,
      "loss_ce": 0.0020214777905493975,
      "loss_iou": 0.72265625,
      "loss_num": 0.044921875,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 40706740,
      "step": 607
    },
    {
      "epoch": 0.06899290780141844,
      "grad_norm": 26.592649459838867,
      "learning_rate": 5e-05,
      "loss": 1.7695,
      "num_input_tokens_seen": 40773344,
      "step": 608
    },
    {
      "epoch": 0.06899290780141844,
      "loss": 1.6725742816925049,
      "loss_ce": 0.008511788211762905,
      "loss_iou": 0.75,
      "loss_num": 0.032958984375,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 40773344,
      "step": 608
    },
    {
      "epoch": 0.0691063829787234,
      "grad_norm": 12.267297744750977,
      "learning_rate": 5e-05,
      "loss": 1.8355,
      "num_input_tokens_seen": 40840936,
      "step": 609
    },
    {
      "epoch": 0.0691063829787234,
      "loss": 2.0851526260375977,
      "loss_ce": 0.005074462853372097,
      "loss_iou": 0.9140625,
      "loss_num": 0.05029296875,
      "loss_xval": 2.078125,
      "num_input_tokens_seen": 40840936,
      "step": 609
    },
    {
      "epoch": 0.06921985815602837,
      "grad_norm": 9.499537467956543,
      "learning_rate": 5e-05,
      "loss": 1.6306,
      "num_input_tokens_seen": 40907628,
      "step": 610
    },
    {
      "epoch": 0.06921985815602837,
      "loss": 1.867681860923767,
      "loss_ce": 0.00635373592376709,
      "loss_iou": 0.8046875,
      "loss_num": 0.050048828125,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 40907628,
      "step": 610
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 10.702787399291992,
      "learning_rate": 5e-05,
      "loss": 1.495,
      "num_input_tokens_seen": 40975348,
      "step": 611
    },
    {
      "epoch": 0.06933333333333333,
      "loss": 1.5581626892089844,
      "loss_ce": 0.004451824817806482,
      "loss_iou": 0.703125,
      "loss_num": 0.029541015625,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 40975348,
      "step": 611
    },
    {
      "epoch": 0.0694468085106383,
      "grad_norm": 11.875656127929688,
      "learning_rate": 5e-05,
      "loss": 1.529,
      "num_input_tokens_seen": 41042912,
      "step": 612
    },
    {
      "epoch": 0.0694468085106383,
      "loss": 1.5776652097702026,
      "loss_ce": 0.002469973638653755,
      "loss_iou": 0.671875,
      "loss_num": 0.046630859375,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 41042912,
      "step": 612
    },
    {
      "epoch": 0.06956028368794326,
      "grad_norm": 15.256458282470703,
      "learning_rate": 5e-05,
      "loss": 1.7476,
      "num_input_tokens_seen": 41109728,
      "step": 613
    },
    {
      "epoch": 0.06956028368794326,
      "loss": 1.8372433185577393,
      "loss_ce": 0.0032589510083198547,
      "loss_iou": 0.81640625,
      "loss_num": 0.040771484375,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 41109728,
      "step": 613
    },
    {
      "epoch": 0.06967375886524822,
      "grad_norm": 14.864063262939453,
      "learning_rate": 5e-05,
      "loss": 1.7396,
      "num_input_tokens_seen": 41176608,
      "step": 614
    },
    {
      "epoch": 0.06967375886524822,
      "loss": 1.8414528369903564,
      "loss_ce": 0.0074685486033558846,
      "loss_iou": 0.79296875,
      "loss_num": 0.049560546875,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 41176608,
      "step": 614
    },
    {
      "epoch": 0.06978723404255319,
      "grad_norm": 16.613487243652344,
      "learning_rate": 5e-05,
      "loss": 1.7819,
      "num_input_tokens_seen": 41242968,
      "step": 615
    },
    {
      "epoch": 0.06978723404255319,
      "loss": 1.8254992961883545,
      "loss_ce": 0.007139821536839008,
      "loss_iou": 0.78515625,
      "loss_num": 0.0498046875,
      "loss_xval": 1.8203125,
      "num_input_tokens_seen": 41242968,
      "step": 615
    },
    {
      "epoch": 0.06990070921985815,
      "grad_norm": 15.120101928710938,
      "learning_rate": 5e-05,
      "loss": 1.7117,
      "num_input_tokens_seen": 41310336,
      "step": 616
    },
    {
      "epoch": 0.06990070921985815,
      "loss": 1.6401642560958862,
      "loss_ce": 0.004910377785563469,
      "loss_iou": 0.69140625,
      "loss_num": 0.0498046875,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 41310336,
      "step": 616
    },
    {
      "epoch": 0.07001418439716312,
      "grad_norm": 10.062188148498535,
      "learning_rate": 5e-05,
      "loss": 1.6825,
      "num_input_tokens_seen": 41376764,
      "step": 617
    },
    {
      "epoch": 0.07001418439716312,
      "loss": 1.5886540412902832,
      "loss_ce": 0.00808771327137947,
      "loss_iou": 0.703125,
      "loss_num": 0.03466796875,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 41376764,
      "step": 617
    },
    {
      "epoch": 0.07012765957446808,
      "grad_norm": 27.313852310180664,
      "learning_rate": 5e-05,
      "loss": 1.6277,
      "num_input_tokens_seen": 41444324,
      "step": 618
    },
    {
      "epoch": 0.07012765957446808,
      "loss": 1.4927529096603394,
      "loss_ce": 0.003495156764984131,
      "loss_iou": 0.671875,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 41444324,
      "step": 618
    },
    {
      "epoch": 0.07024113475177304,
      "grad_norm": 14.82986068725586,
      "learning_rate": 5e-05,
      "loss": 1.5339,
      "num_input_tokens_seen": 41511076,
      "step": 619
    },
    {
      "epoch": 0.07024113475177304,
      "loss": 1.6679481267929077,
      "loss_ce": 0.0038856188766658306,
      "loss_iou": 0.75,
      "loss_num": 0.0322265625,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 41511076,
      "step": 619
    },
    {
      "epoch": 0.07035460992907801,
      "grad_norm": 13.29826831817627,
      "learning_rate": 5e-05,
      "loss": 1.4437,
      "num_input_tokens_seen": 41578076,
      "step": 620
    },
    {
      "epoch": 0.07035460992907801,
      "loss": 1.2912373542785645,
      "loss_ce": 0.006355702877044678,
      "loss_iou": 0.55078125,
      "loss_num": 0.036865234375,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 41578076,
      "step": 620
    },
    {
      "epoch": 0.07046808510638299,
      "grad_norm": 40.74147033691406,
      "learning_rate": 5e-05,
      "loss": 1.6404,
      "num_input_tokens_seen": 41644732,
      "step": 621
    },
    {
      "epoch": 0.07046808510638299,
      "loss": 1.522871732711792,
      "loss_ce": 0.004317113198339939,
      "loss_iou": 0.6796875,
      "loss_num": 0.031982421875,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 41644732,
      "step": 621
    },
    {
      "epoch": 0.07058156028368795,
      "grad_norm": 18.18470001220703,
      "learning_rate": 5e-05,
      "loss": 1.9872,
      "num_input_tokens_seen": 41711480,
      "step": 622
    },
    {
      "epoch": 0.07058156028368795,
      "loss": 1.9387474060058594,
      "loss_ce": 0.005153754726052284,
      "loss_iou": 0.8125,
      "loss_num": 0.062255859375,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 41711480,
      "step": 622
    },
    {
      "epoch": 0.07069503546099291,
      "grad_norm": 10.645265579223633,
      "learning_rate": 5e-05,
      "loss": 1.7261,
      "num_input_tokens_seen": 41778808,
      "step": 623
    },
    {
      "epoch": 0.07069503546099291,
      "loss": 1.6018850803375244,
      "loss_ce": 0.010088244453072548,
      "loss_iou": 0.71875,
      "loss_num": 0.0311279296875,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 41778808,
      "step": 623
    },
    {
      "epoch": 0.07080851063829788,
      "grad_norm": 13.437520027160645,
      "learning_rate": 5e-05,
      "loss": 1.5101,
      "num_input_tokens_seen": 41845172,
      "step": 624
    },
    {
      "epoch": 0.07080851063829788,
      "loss": 1.392655372619629,
      "loss_ce": 0.004593745805323124,
      "loss_iou": 0.60546875,
      "loss_num": 0.03564453125,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 41845172,
      "step": 624
    },
    {
      "epoch": 0.07092198581560284,
      "grad_norm": 8.5799560546875,
      "learning_rate": 5e-05,
      "loss": 1.4294,
      "num_input_tokens_seen": 41912496,
      "step": 625
    },
    {
      "epoch": 0.07092198581560284,
      "loss": 1.4702131748199463,
      "loss_ce": 0.0029279952868819237,
      "loss_iou": 0.64453125,
      "loss_num": 0.0361328125,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 41912496,
      "step": 625
    },
    {
      "epoch": 0.0710354609929078,
      "grad_norm": 11.216195106506348,
      "learning_rate": 5e-05,
      "loss": 1.5613,
      "num_input_tokens_seen": 41980320,
      "step": 626
    },
    {
      "epoch": 0.0710354609929078,
      "loss": 1.4818336963653564,
      "loss_ce": 0.004782917909324169,
      "loss_iou": 0.63671875,
      "loss_num": 0.0400390625,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 41980320,
      "step": 626
    },
    {
      "epoch": 0.07114893617021277,
      "grad_norm": 17.92701530456543,
      "learning_rate": 5e-05,
      "loss": 1.5916,
      "num_input_tokens_seen": 42047132,
      "step": 627
    },
    {
      "epoch": 0.07114893617021277,
      "loss": 1.582153081893921,
      "loss_ce": 0.005492820870131254,
      "loss_iou": 0.6640625,
      "loss_num": 0.04931640625,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 42047132,
      "step": 627
    },
    {
      "epoch": 0.07126241134751773,
      "grad_norm": 26.600383758544922,
      "learning_rate": 5e-05,
      "loss": 1.8195,
      "num_input_tokens_seen": 42114184,
      "step": 628
    },
    {
      "epoch": 0.07126241134751773,
      "loss": 1.7600274085998535,
      "loss_ce": 0.0031915048602968454,
      "loss_iou": 0.78125,
      "loss_num": 0.0400390625,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 42114184,
      "step": 628
    },
    {
      "epoch": 0.0713758865248227,
      "grad_norm": 19.538057327270508,
      "learning_rate": 5e-05,
      "loss": 1.6798,
      "num_input_tokens_seen": 42180840,
      "step": 629
    },
    {
      "epoch": 0.0713758865248227,
      "loss": 1.7401928901672363,
      "loss_ce": 0.005817870143800974,
      "loss_iou": 0.73828125,
      "loss_num": 0.05126953125,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 42180840,
      "step": 629
    },
    {
      "epoch": 0.07148936170212766,
      "grad_norm": 8.597428321838379,
      "learning_rate": 5e-05,
      "loss": 1.4679,
      "num_input_tokens_seen": 42247848,
      "step": 630
    },
    {
      "epoch": 0.07148936170212766,
      "loss": 1.4414799213409424,
      "loss_ce": 0.005444699432700872,
      "loss_iou": 0.625,
      "loss_num": 0.037841796875,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 42247848,
      "step": 630
    },
    {
      "epoch": 0.07160283687943263,
      "grad_norm": 16.47123146057129,
      "learning_rate": 5e-05,
      "loss": 1.3216,
      "num_input_tokens_seen": 42311428,
      "step": 631
    },
    {
      "epoch": 0.07160283687943263,
      "loss": 1.4758776426315308,
      "loss_ce": 0.007860058918595314,
      "loss_iou": 0.6484375,
      "loss_num": 0.03466796875,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 42311428,
      "step": 631
    },
    {
      "epoch": 0.07171631205673759,
      "grad_norm": 12.044193267822266,
      "learning_rate": 5e-05,
      "loss": 1.4985,
      "num_input_tokens_seen": 42378400,
      "step": 632
    },
    {
      "epoch": 0.07171631205673759,
      "loss": 1.4272652864456177,
      "loss_ce": 0.008319983258843422,
      "loss_iou": 0.625,
      "loss_num": 0.033935546875,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 42378400,
      "step": 632
    },
    {
      "epoch": 0.07182978723404256,
      "grad_norm": 17.26784324645996,
      "learning_rate": 5e-05,
      "loss": 1.5213,
      "num_input_tokens_seen": 42444612,
      "step": 633
    },
    {
      "epoch": 0.07182978723404256,
      "loss": 1.5052692890167236,
      "loss_ce": 0.011617014184594154,
      "loss_iou": 0.66015625,
      "loss_num": 0.03515625,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 42444612,
      "step": 633
    },
    {
      "epoch": 0.07194326241134752,
      "grad_norm": 17.808950424194336,
      "learning_rate": 5e-05,
      "loss": 1.7574,
      "num_input_tokens_seen": 42512340,
      "step": 634
    },
    {
      "epoch": 0.07194326241134752,
      "loss": 1.7437098026275635,
      "loss_ce": 0.002498768735677004,
      "loss_iou": 0.765625,
      "loss_num": 0.04150390625,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 42512340,
      "step": 634
    },
    {
      "epoch": 0.07205673758865248,
      "grad_norm": 6.940192699432373,
      "learning_rate": 5e-05,
      "loss": 1.4901,
      "num_input_tokens_seen": 42579836,
      "step": 635
    },
    {
      "epoch": 0.07205673758865248,
      "loss": 1.623945951461792,
      "loss_ce": 0.003828797023743391,
      "loss_iou": 0.703125,
      "loss_num": 0.041748046875,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 42579836,
      "step": 635
    },
    {
      "epoch": 0.07217021276595745,
      "grad_norm": 21.313861846923828,
      "learning_rate": 5e-05,
      "loss": 1.4859,
      "num_input_tokens_seen": 42646960,
      "step": 636
    },
    {
      "epoch": 0.07217021276595745,
      "loss": 1.4644558429718018,
      "loss_ce": 0.005471533164381981,
      "loss_iou": 0.640625,
      "loss_num": 0.035888671875,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 42646960,
      "step": 636
    },
    {
      "epoch": 0.07228368794326241,
      "grad_norm": 16.914676666259766,
      "learning_rate": 5e-05,
      "loss": 1.7819,
      "num_input_tokens_seen": 42714476,
      "step": 637
    },
    {
      "epoch": 0.07228368794326241,
      "loss": 1.7361235618591309,
      "loss_ce": 0.004678203258663416,
      "loss_iou": 0.78515625,
      "loss_num": 0.03271484375,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 42714476,
      "step": 637
    },
    {
      "epoch": 0.07239716312056738,
      "grad_norm": 30.55215835571289,
      "learning_rate": 5e-05,
      "loss": 1.7161,
      "num_input_tokens_seen": 42781896,
      "step": 638
    },
    {
      "epoch": 0.07239716312056738,
      "loss": 1.6909279823303223,
      "loss_ce": 0.0017190376529470086,
      "loss_iou": 0.75,
      "loss_num": 0.0380859375,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 42781896,
      "step": 638
    },
    {
      "epoch": 0.07251063829787234,
      "grad_norm": 19.1087589263916,
      "learning_rate": 5e-05,
      "loss": 1.8465,
      "num_input_tokens_seen": 42849144,
      "step": 639
    },
    {
      "epoch": 0.07251063829787234,
      "loss": 1.6435670852661133,
      "loss_ce": 0.0048952060751616955,
      "loss_iou": 0.71484375,
      "loss_num": 0.042724609375,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 42849144,
      "step": 639
    },
    {
      "epoch": 0.0726241134751773,
      "grad_norm": 11.22459888458252,
      "learning_rate": 5e-05,
      "loss": 1.495,
      "num_input_tokens_seen": 42915832,
      "step": 640
    },
    {
      "epoch": 0.0726241134751773,
      "loss": 1.5873806476593018,
      "loss_ce": 0.006325889378786087,
      "loss_iou": 0.6953125,
      "loss_num": 0.03857421875,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 42915832,
      "step": 640
    },
    {
      "epoch": 0.07273758865248227,
      "grad_norm": 26.234981536865234,
      "learning_rate": 5e-05,
      "loss": 1.7002,
      "num_input_tokens_seen": 42983248,
      "step": 641
    },
    {
      "epoch": 0.07273758865248227,
      "loss": 1.8290462493896484,
      "loss_ce": 0.006780659314244986,
      "loss_iou": 0.79296875,
      "loss_num": 0.04736328125,
      "loss_xval": 1.8203125,
      "num_input_tokens_seen": 42983248,
      "step": 641
    },
    {
      "epoch": 0.07285106382978723,
      "grad_norm": 18.586654663085938,
      "learning_rate": 5e-05,
      "loss": 1.6234,
      "num_input_tokens_seen": 43050952,
      "step": 642
    },
    {
      "epoch": 0.07285106382978723,
      "loss": 1.4149465560913086,
      "loss_ce": 0.0023488635197281837,
      "loss_iou": 0.625,
      "loss_num": 0.03271484375,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 43050952,
      "step": 642
    },
    {
      "epoch": 0.0729645390070922,
      "grad_norm": 12.29041862487793,
      "learning_rate": 5e-05,
      "loss": 1.8925,
      "num_input_tokens_seen": 43117912,
      "step": 643
    },
    {
      "epoch": 0.0729645390070922,
      "loss": 1.8017938137054443,
      "loss_ce": 0.005895419977605343,
      "loss_iou": 0.796875,
      "loss_num": 0.039306640625,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 43117912,
      "step": 643
    },
    {
      "epoch": 0.07307801418439716,
      "grad_norm": 7.641237258911133,
      "learning_rate": 5e-05,
      "loss": 1.478,
      "num_input_tokens_seen": 43184108,
      "step": 644
    },
    {
      "epoch": 0.07307801418439716,
      "loss": 1.504695177078247,
      "loss_ce": 0.009211795404553413,
      "loss_iou": 0.66015625,
      "loss_num": 0.03564453125,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 43184108,
      "step": 644
    },
    {
      "epoch": 0.07319148936170213,
      "grad_norm": 12.40697193145752,
      "learning_rate": 5e-05,
      "loss": 1.4873,
      "num_input_tokens_seen": 43250708,
      "step": 645
    },
    {
      "epoch": 0.07319148936170213,
      "loss": 1.7582125663757324,
      "loss_ce": 0.003329713363200426,
      "loss_iou": 0.78125,
      "loss_num": 0.03857421875,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 43250708,
      "step": 645
    },
    {
      "epoch": 0.07330496453900709,
      "grad_norm": 25.52475929260254,
      "learning_rate": 5e-05,
      "loss": 1.5023,
      "num_input_tokens_seen": 43316932,
      "step": 646
    },
    {
      "epoch": 0.07330496453900709,
      "loss": 1.677306056022644,
      "loss_ce": 0.003477961989119649,
      "loss_iou": 0.74609375,
      "loss_num": 0.035400390625,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 43316932,
      "step": 646
    },
    {
      "epoch": 0.07341843971631205,
      "grad_norm": 24.833086013793945,
      "learning_rate": 5e-05,
      "loss": 1.4524,
      "num_input_tokens_seen": 43383452,
      "step": 647
    },
    {
      "epoch": 0.07341843971631205,
      "loss": 1.3342078924179077,
      "loss_ce": 0.004740125499665737,
      "loss_iou": 0.6015625,
      "loss_num": 0.025390625,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 43383452,
      "step": 647
    },
    {
      "epoch": 0.07353191489361702,
      "grad_norm": 8.975929260253906,
      "learning_rate": 5e-05,
      "loss": 1.6526,
      "num_input_tokens_seen": 43451064,
      "step": 648
    },
    {
      "epoch": 0.07353191489361702,
      "loss": 1.9132208824157715,
      "loss_ce": 0.005017767660319805,
      "loss_iou": 0.859375,
      "loss_num": 0.038330078125,
      "loss_xval": 1.90625,
      "num_input_tokens_seen": 43451064,
      "step": 648
    },
    {
      "epoch": 0.07364539007092198,
      "grad_norm": 23.51095962524414,
      "learning_rate": 5e-05,
      "loss": 1.6901,
      "num_input_tokens_seen": 43517720,
      "step": 649
    },
    {
      "epoch": 0.07364539007092198,
      "loss": 1.734648585319519,
      "loss_ce": 0.007109524682164192,
      "loss_iou": 0.75,
      "loss_num": 0.044921875,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 43517720,
      "step": 649
    },
    {
      "epoch": 0.07375886524822695,
      "grad_norm": 14.346301078796387,
      "learning_rate": 5e-05,
      "loss": 1.5583,
      "num_input_tokens_seen": 43584648,
      "step": 650
    },
    {
      "epoch": 0.07375886524822695,
      "loss": 1.5281853675842285,
      "loss_ce": 0.005297242663800716,
      "loss_iou": 0.671875,
      "loss_num": 0.036376953125,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 43584648,
      "step": 650
    },
    {
      "epoch": 0.07387234042553191,
      "grad_norm": 9.958303451538086,
      "learning_rate": 5e-05,
      "loss": 1.5837,
      "num_input_tokens_seen": 43652136,
      "step": 651
    },
    {
      "epoch": 0.07387234042553191,
      "loss": 1.642749547958374,
      "loss_ce": 0.007983945310115814,
      "loss_iou": 0.71875,
      "loss_num": 0.0390625,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 43652136,
      "step": 651
    },
    {
      "epoch": 0.07398581560283687,
      "grad_norm": 18.192472457885742,
      "learning_rate": 5e-05,
      "loss": 1.6757,
      "num_input_tokens_seen": 43718636,
      "step": 652
    },
    {
      "epoch": 0.07398581560283687,
      "loss": 1.7465564012527466,
      "loss_ce": 0.005345480516552925,
      "loss_iou": 0.7578125,
      "loss_num": 0.044921875,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 43718636,
      "step": 652
    },
    {
      "epoch": 0.07409929078014184,
      "grad_norm": 20.170747756958008,
      "learning_rate": 5e-05,
      "loss": 1.8681,
      "num_input_tokens_seen": 43785008,
      "step": 653
    },
    {
      "epoch": 0.07409929078014184,
      "loss": 1.928735613822937,
      "loss_ce": 0.004907514434307814,
      "loss_iou": 0.83203125,
      "loss_num": 0.052001953125,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 43785008,
      "step": 653
    },
    {
      "epoch": 0.0742127659574468,
      "grad_norm": 11.765104293823242,
      "learning_rate": 5e-05,
      "loss": 1.4676,
      "num_input_tokens_seen": 43851188,
      "step": 654
    },
    {
      "epoch": 0.0742127659574468,
      "loss": 1.7286748886108398,
      "loss_ce": 0.0030889688059687614,
      "loss_iou": 0.7578125,
      "loss_num": 0.041748046875,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 43851188,
      "step": 654
    },
    {
      "epoch": 0.07432624113475177,
      "grad_norm": 12.591913223266602,
      "learning_rate": 5e-05,
      "loss": 1.5313,
      "num_input_tokens_seen": 43917680,
      "step": 655
    },
    {
      "epoch": 0.07432624113475177,
      "loss": 1.4613118171691895,
      "loss_ce": 0.002327550668269396,
      "loss_iou": 0.65234375,
      "loss_num": 0.0302734375,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 43917680,
      "step": 655
    },
    {
      "epoch": 0.07443971631205673,
      "grad_norm": 19.324426651000977,
      "learning_rate": 5e-05,
      "loss": 1.5822,
      "num_input_tokens_seen": 43984376,
      "step": 656
    },
    {
      "epoch": 0.07443971631205673,
      "loss": 1.5540683269500732,
      "loss_ce": 0.0032871030271053314,
      "loss_iou": 0.69921875,
      "loss_num": 0.03076171875,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 43984376,
      "step": 656
    },
    {
      "epoch": 0.07455319148936171,
      "grad_norm": 11.395309448242188,
      "learning_rate": 5e-05,
      "loss": 1.4889,
      "num_input_tokens_seen": 44051104,
      "step": 657
    },
    {
      "epoch": 0.07455319148936171,
      "loss": 1.5636024475097656,
      "loss_ce": 0.004642436280846596,
      "loss_iou": 0.69140625,
      "loss_num": 0.035888671875,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 44051104,
      "step": 657
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 10.899036407470703,
      "learning_rate": 5e-05,
      "loss": 1.5519,
      "num_input_tokens_seen": 44118680,
      "step": 658
    },
    {
      "epoch": 0.07466666666666667,
      "loss": 1.6407983303070068,
      "loss_ce": 0.0021264473907649517,
      "loss_iou": 0.7109375,
      "loss_num": 0.042724609375,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 44118680,
      "step": 658
    },
    {
      "epoch": 0.07478014184397164,
      "grad_norm": 13.136756896972656,
      "learning_rate": 5e-05,
      "loss": 1.5555,
      "num_input_tokens_seen": 44186092,
      "step": 659
    },
    {
      "epoch": 0.07478014184397164,
      "loss": 1.5914504528045654,
      "loss_ce": 0.005512809846550226,
      "loss_iou": 0.6875,
      "loss_num": 0.042236328125,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 44186092,
      "step": 659
    },
    {
      "epoch": 0.0748936170212766,
      "grad_norm": 22.88226318359375,
      "learning_rate": 5e-05,
      "loss": 1.7405,
      "num_input_tokens_seen": 44253864,
      "step": 660
    },
    {
      "epoch": 0.0748936170212766,
      "loss": 1.579939603805542,
      "loss_ce": 0.0023028382565826178,
      "loss_iou": 0.69921875,
      "loss_num": 0.035888671875,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 44253864,
      "step": 660
    },
    {
      "epoch": 0.07500709219858157,
      "grad_norm": 11.12128734588623,
      "learning_rate": 5e-05,
      "loss": 1.8759,
      "num_input_tokens_seen": 44320296,
      "step": 661
    },
    {
      "epoch": 0.07500709219858157,
      "loss": 1.8837225437164307,
      "loss_ce": 0.00383963854983449,
      "loss_iou": 0.8359375,
      "loss_num": 0.0419921875,
      "loss_xval": 1.8828125,
      "num_input_tokens_seen": 44320296,
      "step": 661
    },
    {
      "epoch": 0.07512056737588653,
      "grad_norm": 11.10883617401123,
      "learning_rate": 5e-05,
      "loss": 1.6605,
      "num_input_tokens_seen": 44387248,
      "step": 662
    },
    {
      "epoch": 0.07512056737588653,
      "loss": 1.4818692207336426,
      "loss_ce": 0.0018887449987232685,
      "loss_iou": 0.66015625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 44387248,
      "step": 662
    },
    {
      "epoch": 0.0752340425531915,
      "grad_norm": 14.491146087646484,
      "learning_rate": 5e-05,
      "loss": 1.548,
      "num_input_tokens_seen": 44454460,
      "step": 663
    },
    {
      "epoch": 0.0752340425531915,
      "loss": 1.524956226348877,
      "loss_ce": 0.0039602285251021385,
      "loss_iou": 0.69140625,
      "loss_num": 0.02783203125,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 44454460,
      "step": 663
    },
    {
      "epoch": 0.07534751773049646,
      "grad_norm": 39.81186294555664,
      "learning_rate": 5e-05,
      "loss": 1.8428,
      "num_input_tokens_seen": 44521132,
      "step": 664
    },
    {
      "epoch": 0.07534751773049646,
      "loss": 1.8716161251068115,
      "loss_ce": 0.0032078581862151623,
      "loss_iou": 0.80078125,
      "loss_num": 0.0537109375,
      "loss_xval": 1.8671875,
      "num_input_tokens_seen": 44521132,
      "step": 664
    },
    {
      "epoch": 0.07546099290780142,
      "grad_norm": 12.334014892578125,
      "learning_rate": 5e-05,
      "loss": 1.3499,
      "num_input_tokens_seen": 44587920,
      "step": 665
    },
    {
      "epoch": 0.07546099290780142,
      "loss": 1.4636422395706177,
      "loss_ce": 0.00612266780808568,
      "loss_iou": 0.6484375,
      "loss_num": 0.03271484375,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 44587920,
      "step": 665
    },
    {
      "epoch": 0.07557446808510639,
      "grad_norm": 18.773853302001953,
      "learning_rate": 5e-05,
      "loss": 1.6899,
      "num_input_tokens_seen": 44655368,
      "step": 666
    },
    {
      "epoch": 0.07557446808510639,
      "loss": 1.7101855278015137,
      "loss_ce": 0.00608404353260994,
      "loss_iou": 0.734375,
      "loss_num": 0.047607421875,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 44655368,
      "step": 666
    },
    {
      "epoch": 0.07568794326241135,
      "grad_norm": 25.416990280151367,
      "learning_rate": 5e-05,
      "loss": 1.6845,
      "num_input_tokens_seen": 44723444,
      "step": 667
    },
    {
      "epoch": 0.07568794326241135,
      "loss": 1.6282155513763428,
      "loss_ce": 0.0017507148440927267,
      "loss_iou": 0.72265625,
      "loss_num": 0.0361328125,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 44723444,
      "step": 667
    },
    {
      "epoch": 0.07580141843971631,
      "grad_norm": 14.438676834106445,
      "learning_rate": 5e-05,
      "loss": 1.9548,
      "num_input_tokens_seen": 44790596,
      "step": 668
    },
    {
      "epoch": 0.07580141843971631,
      "loss": 1.8760159015655518,
      "loss_ce": 0.003945528529584408,
      "loss_iou": 0.828125,
      "loss_num": 0.0439453125,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 44790596,
      "step": 668
    },
    {
      "epoch": 0.07591489361702128,
      "grad_norm": 10.003439903259277,
      "learning_rate": 5e-05,
      "loss": 1.5392,
      "num_input_tokens_seen": 44856744,
      "step": 669
    },
    {
      "epoch": 0.07591489361702128,
      "loss": 1.8371387720108032,
      "loss_ce": 0.009013805538415909,
      "loss_iou": 0.80078125,
      "loss_num": 0.0458984375,
      "loss_xval": 1.828125,
      "num_input_tokens_seen": 44856744,
      "step": 669
    },
    {
      "epoch": 0.07602836879432624,
      "grad_norm": 15.990428924560547,
      "learning_rate": 5e-05,
      "loss": 1.5785,
      "num_input_tokens_seen": 44923784,
      "step": 670
    },
    {
      "epoch": 0.07602836879432624,
      "loss": 1.4424560070037842,
      "loss_ce": 0.005444289650768042,
      "loss_iou": 0.6484375,
      "loss_num": 0.0283203125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 44923784,
      "step": 670
    },
    {
      "epoch": 0.0761418439716312,
      "grad_norm": 34.91865158081055,
      "learning_rate": 5e-05,
      "loss": 1.7387,
      "num_input_tokens_seen": 44991356,
      "step": 671
    },
    {
      "epoch": 0.0761418439716312,
      "loss": 1.7784062623977661,
      "loss_ce": 0.004968749359250069,
      "loss_iou": 0.8046875,
      "loss_num": 0.03271484375,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 44991356,
      "step": 671
    },
    {
      "epoch": 0.07625531914893617,
      "grad_norm": 21.34457015991211,
      "learning_rate": 5e-05,
      "loss": 1.7445,
      "num_input_tokens_seen": 45059320,
      "step": 672
    },
    {
      "epoch": 0.07625531914893617,
      "loss": 1.7075307369232178,
      "loss_ce": 0.001475984463468194,
      "loss_iou": 0.76953125,
      "loss_num": 0.03271484375,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 45059320,
      "step": 672
    },
    {
      "epoch": 0.07636879432624114,
      "grad_norm": 12.492789268493652,
      "learning_rate": 5e-05,
      "loss": 1.7505,
      "num_input_tokens_seen": 45126388,
      "step": 673
    },
    {
      "epoch": 0.07636879432624114,
      "loss": 1.8711109161376953,
      "loss_ce": 0.003923371434211731,
      "loss_iou": 0.8359375,
      "loss_num": 0.038818359375,
      "loss_xval": 1.8671875,
      "num_input_tokens_seen": 45126388,
      "step": 673
    },
    {
      "epoch": 0.0764822695035461,
      "grad_norm": 5.936753749847412,
      "learning_rate": 5e-05,
      "loss": 1.3704,
      "num_input_tokens_seen": 45193252,
      "step": 674
    },
    {
      "epoch": 0.0764822695035461,
      "loss": 1.5086431503295898,
      "loss_ce": 0.006201708689332008,
      "loss_iou": 0.65625,
      "loss_num": 0.037841796875,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 45193252,
      "step": 674
    },
    {
      "epoch": 0.07659574468085106,
      "grad_norm": 17.588741302490234,
      "learning_rate": 5e-05,
      "loss": 1.4523,
      "num_input_tokens_seen": 45260420,
      "step": 675
    },
    {
      "epoch": 0.07659574468085106,
      "loss": 1.4075729846954346,
      "loss_ce": 0.016581829637289047,
      "loss_iou": 0.59375,
      "loss_num": 0.0400390625,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 45260420,
      "step": 675
    },
    {
      "epoch": 0.07670921985815603,
      "grad_norm": 19.897855758666992,
      "learning_rate": 5e-05,
      "loss": 1.4954,
      "num_input_tokens_seen": 45327824,
      "step": 676
    },
    {
      "epoch": 0.07670921985815603,
      "loss": 1.3951053619384766,
      "loss_ce": 0.0025272520724684,
      "loss_iou": 0.6171875,
      "loss_num": 0.03173828125,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 45327824,
      "step": 676
    },
    {
      "epoch": 0.07682269503546099,
      "grad_norm": 16.07324981689453,
      "learning_rate": 5e-05,
      "loss": 1.3654,
      "num_input_tokens_seen": 45395500,
      "step": 677
    },
    {
      "epoch": 0.07682269503546099,
      "loss": 1.3205182552337646,
      "loss_ce": 0.0016705861780792475,
      "loss_iou": 0.5703125,
      "loss_num": 0.03662109375,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 45395500,
      "step": 677
    },
    {
      "epoch": 0.07693617021276596,
      "grad_norm": 28.279375076293945,
      "learning_rate": 5e-05,
      "loss": 1.7941,
      "num_input_tokens_seen": 45462116,
      "step": 678
    },
    {
      "epoch": 0.07693617021276596,
      "loss": 1.912041187286377,
      "loss_ce": 0.007256157696247101,
      "loss_iou": 0.8046875,
      "loss_num": 0.058349609375,
      "loss_xval": 1.90625,
      "num_input_tokens_seen": 45462116,
      "step": 678
    },
    {
      "epoch": 0.07704964539007092,
      "grad_norm": 11.956164360046387,
      "learning_rate": 5e-05,
      "loss": 1.5933,
      "num_input_tokens_seen": 45530400,
      "step": 679
    },
    {
      "epoch": 0.07704964539007092,
      "loss": 1.6426968574523926,
      "loss_ce": 0.005978093948215246,
      "loss_iou": 0.71875,
      "loss_num": 0.040283203125,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 45530400,
      "step": 679
    },
    {
      "epoch": 0.07716312056737588,
      "grad_norm": 13.091056823730469,
      "learning_rate": 5e-05,
      "loss": 1.5963,
      "num_input_tokens_seen": 45597708,
      "step": 680
    },
    {
      "epoch": 0.07716312056737588,
      "loss": 1.447427749633789,
      "loss_ce": 0.003580093150958419,
      "loss_iou": 0.640625,
      "loss_num": 0.0322265625,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 45597708,
      "step": 680
    },
    {
      "epoch": 0.07727659574468085,
      "grad_norm": 13.716497421264648,
      "learning_rate": 5e-05,
      "loss": 1.3871,
      "num_input_tokens_seen": 45665604,
      "step": 681
    },
    {
      "epoch": 0.07727659574468085,
      "loss": 1.416398286819458,
      "loss_ce": 0.0033123488537967205,
      "loss_iou": 0.6484375,
      "loss_num": 0.023681640625,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 45665604,
      "step": 681
    },
    {
      "epoch": 0.07739007092198581,
      "grad_norm": 9.970067024230957,
      "learning_rate": 5e-05,
      "loss": 1.766,
      "num_input_tokens_seen": 45733300,
      "step": 682
    },
    {
      "epoch": 0.07739007092198581,
      "loss": 1.7197134494781494,
      "loss_ce": 0.003893120214343071,
      "loss_iou": 0.75390625,
      "loss_num": 0.041015625,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 45733300,
      "step": 682
    },
    {
      "epoch": 0.07750354609929078,
      "grad_norm": 9.310493469238281,
      "learning_rate": 5e-05,
      "loss": 1.5182,
      "num_input_tokens_seen": 45799792,
      "step": 683
    },
    {
      "epoch": 0.07750354609929078,
      "loss": 1.4181184768676758,
      "loss_ce": 0.004055927973240614,
      "loss_iou": 0.6171875,
      "loss_num": 0.03515625,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 45799792,
      "step": 683
    },
    {
      "epoch": 0.07761702127659574,
      "grad_norm": 12.098533630371094,
      "learning_rate": 5e-05,
      "loss": 1.4958,
      "num_input_tokens_seen": 45867876,
      "step": 684
    },
    {
      "epoch": 0.07761702127659574,
      "loss": 1.422905445098877,
      "loss_ce": 0.004448486026376486,
      "loss_iou": 0.64453125,
      "loss_num": 0.0264892578125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 45867876,
      "step": 684
    },
    {
      "epoch": 0.0777304964539007,
      "grad_norm": 14.3718900680542,
      "learning_rate": 5e-05,
      "loss": 1.462,
      "num_input_tokens_seen": 45934360,
      "step": 685
    },
    {
      "epoch": 0.0777304964539007,
      "loss": 1.5576115846633911,
      "loss_ce": 0.006342027336359024,
      "loss_iou": 0.6875,
      "loss_num": 0.03466796875,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 45934360,
      "step": 685
    },
    {
      "epoch": 0.07784397163120567,
      "grad_norm": 13.396466255187988,
      "learning_rate": 5e-05,
      "loss": 1.4529,
      "num_input_tokens_seen": 46002020,
      "step": 686
    },
    {
      "epoch": 0.07784397163120567,
      "loss": 1.4050195217132568,
      "loss_ce": 0.003652332816272974,
      "loss_iou": 0.62109375,
      "loss_num": 0.031982421875,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 46002020,
      "step": 686
    },
    {
      "epoch": 0.07795744680851063,
      "grad_norm": 17.699432373046875,
      "learning_rate": 5e-05,
      "loss": 1.4491,
      "num_input_tokens_seen": 46069680,
      "step": 687
    },
    {
      "epoch": 0.07795744680851063,
      "loss": 1.5735394954681396,
      "loss_ce": 0.005180200561881065,
      "loss_iou": 0.703125,
      "loss_num": 0.032958984375,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 46069680,
      "step": 687
    },
    {
      "epoch": 0.0780709219858156,
      "grad_norm": 12.027914047241211,
      "learning_rate": 5e-05,
      "loss": 1.7747,
      "num_input_tokens_seen": 46137452,
      "step": 688
    },
    {
      "epoch": 0.0780709219858156,
      "loss": 1.9142427444458008,
      "loss_ce": 0.0031098262406885624,
      "loss_iou": 0.8125,
      "loss_num": 0.056640625,
      "loss_xval": 1.9140625,
      "num_input_tokens_seen": 46137452,
      "step": 688
    },
    {
      "epoch": 0.07818439716312056,
      "grad_norm": 20.459117889404297,
      "learning_rate": 5e-05,
      "loss": 1.4816,
      "num_input_tokens_seen": 46204512,
      "step": 689
    },
    {
      "epoch": 0.07818439716312056,
      "loss": 1.3941700458526611,
      "loss_ce": 0.003545051906257868,
      "loss_iou": 0.64453125,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 46204512,
      "step": 689
    },
    {
      "epoch": 0.07829787234042553,
      "grad_norm": 33.333282470703125,
      "learning_rate": 5e-05,
      "loss": 1.9455,
      "num_input_tokens_seen": 46271888,
      "step": 690
    },
    {
      "epoch": 0.07829787234042553,
      "loss": 2.154035806655884,
      "loss_ce": 0.004621661268174648,
      "loss_iou": 0.9375,
      "loss_num": 0.055419921875,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 46271888,
      "step": 690
    },
    {
      "epoch": 0.07841134751773049,
      "grad_norm": 14.568066596984863,
      "learning_rate": 5e-05,
      "loss": 1.5853,
      "num_input_tokens_seen": 46338164,
      "step": 691
    },
    {
      "epoch": 0.07841134751773049,
      "loss": 1.7262120246887207,
      "loss_ce": 0.006485472433269024,
      "loss_iou": 0.734375,
      "loss_num": 0.05078125,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 46338164,
      "step": 691
    },
    {
      "epoch": 0.07852482269503547,
      "grad_norm": 28.192771911621094,
      "learning_rate": 5e-05,
      "loss": 1.8024,
      "num_input_tokens_seen": 46405352,
      "step": 692
    },
    {
      "epoch": 0.07852482269503547,
      "loss": 1.78556489944458,
      "loss_ce": 0.006268071010708809,
      "loss_iou": 0.8046875,
      "loss_num": 0.034912109375,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 46405352,
      "step": 692
    },
    {
      "epoch": 0.07863829787234043,
      "grad_norm": 19.122426986694336,
      "learning_rate": 5e-05,
      "loss": 1.9689,
      "num_input_tokens_seen": 46471784,
      "step": 693
    },
    {
      "epoch": 0.07863829787234043,
      "loss": 1.6327757835388184,
      "loss_ce": 0.0014281795592978597,
      "loss_iou": 0.73828125,
      "loss_num": 0.03173828125,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 46471784,
      "step": 693
    },
    {
      "epoch": 0.0787517730496454,
      "grad_norm": 11.136819839477539,
      "learning_rate": 5e-05,
      "loss": 1.6646,
      "num_input_tokens_seen": 46538492,
      "step": 694
    },
    {
      "epoch": 0.0787517730496454,
      "loss": 1.5791325569152832,
      "loss_ce": 0.0058903321623802185,
      "loss_iou": 0.68359375,
      "loss_num": 0.040771484375,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 46538492,
      "step": 694
    },
    {
      "epoch": 0.07886524822695036,
      "grad_norm": 20.744314193725586,
      "learning_rate": 5e-05,
      "loss": 1.427,
      "num_input_tokens_seen": 46605424,
      "step": 695
    },
    {
      "epoch": 0.07886524822695036,
      "loss": 1.4132899045944214,
      "loss_ce": 0.008016487583518028,
      "loss_iou": 0.6328125,
      "loss_num": 0.028564453125,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 46605424,
      "step": 695
    },
    {
      "epoch": 0.07897872340425532,
      "grad_norm": 60.198486328125,
      "learning_rate": 5e-05,
      "loss": 1.6653,
      "num_input_tokens_seen": 46673104,
      "step": 696
    },
    {
      "epoch": 0.07897872340425532,
      "loss": 1.7507610321044922,
      "loss_ce": 0.004667290020734072,
      "loss_iou": 0.765625,
      "loss_num": 0.043212890625,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 46673104,
      "step": 696
    },
    {
      "epoch": 0.07909219858156029,
      "grad_norm": 22.84889793395996,
      "learning_rate": 5e-05,
      "loss": 1.6211,
      "num_input_tokens_seen": 46740116,
      "step": 697
    },
    {
      "epoch": 0.07909219858156029,
      "loss": 1.7777302265167236,
      "loss_ce": 0.006734139285981655,
      "loss_iou": 0.76953125,
      "loss_num": 0.046630859375,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 46740116,
      "step": 697
    },
    {
      "epoch": 0.07920567375886525,
      "grad_norm": 11.912978172302246,
      "learning_rate": 5e-05,
      "loss": 1.7087,
      "num_input_tokens_seen": 46807188,
      "step": 698
    },
    {
      "epoch": 0.07920567375886525,
      "loss": 1.8392093181610107,
      "loss_ce": 0.005224959459155798,
      "loss_iou": 0.82421875,
      "loss_num": 0.037841796875,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 46807188,
      "step": 698
    },
    {
      "epoch": 0.07931914893617022,
      "grad_norm": 11.7517671585083,
      "learning_rate": 5e-05,
      "loss": 1.5679,
      "num_input_tokens_seen": 46874256,
      "step": 699
    },
    {
      "epoch": 0.07931914893617022,
      "loss": 1.492881417274475,
      "loss_ce": 0.002647058106958866,
      "loss_iou": 0.65625,
      "loss_num": 0.035888671875,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 46874256,
      "step": 699
    },
    {
      "epoch": 0.07943262411347518,
      "grad_norm": 18.137245178222656,
      "learning_rate": 5e-05,
      "loss": 1.5571,
      "num_input_tokens_seen": 46942272,
      "step": 700
    },
    {
      "epoch": 0.07943262411347518,
      "loss": 1.6206119060516357,
      "loss_ce": 0.004400904290378094,
      "loss_iou": 0.72265625,
      "loss_num": 0.034912109375,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 46942272,
      "step": 700
    },
    {
      "epoch": 0.07954609929078015,
      "grad_norm": 11.47879695892334,
      "learning_rate": 5e-05,
      "loss": 1.529,
      "num_input_tokens_seen": 47008436,
      "step": 701
    },
    {
      "epoch": 0.07954609929078015,
      "loss": 1.6389660835266113,
      "loss_ce": 0.005054911598563194,
      "loss_iou": 0.71484375,
      "loss_num": 0.041015625,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 47008436,
      "step": 701
    },
    {
      "epoch": 0.07965957446808511,
      "grad_norm": 7.4133148193359375,
      "learning_rate": 5e-05,
      "loss": 1.5788,
      "num_input_tokens_seen": 47075268,
      "step": 702
    },
    {
      "epoch": 0.07965957446808511,
      "loss": 1.6790987253189087,
      "loss_ce": 0.008200292475521564,
      "loss_iou": 0.71484375,
      "loss_num": 0.0478515625,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 47075268,
      "step": 702
    },
    {
      "epoch": 0.07977304964539007,
      "grad_norm": 14.809983253479004,
      "learning_rate": 5e-05,
      "loss": 1.6041,
      "num_input_tokens_seen": 47142636,
      "step": 703
    },
    {
      "epoch": 0.07977304964539007,
      "loss": 1.594787836074829,
      "loss_ce": 0.012756649404764175,
      "loss_iou": 0.71875,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 47142636,
      "step": 703
    },
    {
      "epoch": 0.07988652482269504,
      "grad_norm": 24.51981544494629,
      "learning_rate": 5e-05,
      "loss": 1.5237,
      "num_input_tokens_seen": 47209780,
      "step": 704
    },
    {
      "epoch": 0.07988652482269504,
      "loss": 1.6223078966140747,
      "loss_ce": 0.00707352627068758,
      "loss_iou": 0.71484375,
      "loss_num": 0.03662109375,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 47209780,
      "step": 704
    },
    {
      "epoch": 0.08,
      "grad_norm": 15.620758056640625,
      "learning_rate": 5e-05,
      "loss": 1.7868,
      "num_input_tokens_seen": 47276216,
      "step": 705
    },
    {
      "epoch": 0.08,
      "loss": 1.9251587390899658,
      "loss_ce": 0.007190071977674961,
      "loss_iou": 0.82421875,
      "loss_num": 0.053466796875,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 47276216,
      "step": 705
    },
    {
      "epoch": 0.08011347517730497,
      "grad_norm": 12.152331352233887,
      "learning_rate": 5e-05,
      "loss": 1.4511,
      "num_input_tokens_seen": 47343600,
      "step": 706
    },
    {
      "epoch": 0.08011347517730497,
      "loss": 1.4819644689559937,
      "loss_ce": 0.005401944741606712,
      "loss_iou": 0.65234375,
      "loss_num": 0.03369140625,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 47343600,
      "step": 706
    },
    {
      "epoch": 0.08022695035460993,
      "grad_norm": 21.598268508911133,
      "learning_rate": 5e-05,
      "loss": 1.6345,
      "num_input_tokens_seen": 47410432,
      "step": 707
    },
    {
      "epoch": 0.08022695035460993,
      "loss": 1.5075562000274658,
      "loss_ce": 0.007067879196256399,
      "loss_iou": 0.67578125,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 47410432,
      "step": 707
    },
    {
      "epoch": 0.0803404255319149,
      "grad_norm": 13.405433654785156,
      "learning_rate": 5e-05,
      "loss": 2.0783,
      "num_input_tokens_seen": 47477192,
      "step": 708
    },
    {
      "epoch": 0.0803404255319149,
      "loss": 2.2036585807800293,
      "loss_ce": 0.007369374856352806,
      "loss_iou": 0.921875,
      "loss_num": 0.0712890625,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 47477192,
      "step": 708
    },
    {
      "epoch": 0.08045390070921986,
      "grad_norm": 25.721664428710938,
      "learning_rate": 5e-05,
      "loss": 1.3104,
      "num_input_tokens_seen": 47542800,
      "step": 709
    },
    {
      "epoch": 0.08045390070921986,
      "loss": 1.2832766771316528,
      "loss_ce": 0.007062088698148727,
      "loss_iou": 0.52734375,
      "loss_num": 0.044921875,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 47542800,
      "step": 709
    },
    {
      "epoch": 0.08056737588652482,
      "grad_norm": 25.742366790771484,
      "learning_rate": 5e-05,
      "loss": 1.629,
      "num_input_tokens_seen": 47610372,
      "step": 710
    },
    {
      "epoch": 0.08056737588652482,
      "loss": 1.543778896331787,
      "loss_ce": 0.00422808900475502,
      "loss_iou": 0.6875,
      "loss_num": 0.03271484375,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 47610372,
      "step": 710
    },
    {
      "epoch": 0.08068085106382979,
      "grad_norm": 11.390335083007812,
      "learning_rate": 5e-05,
      "loss": 1.8948,
      "num_input_tokens_seen": 47677080,
      "step": 711
    },
    {
      "epoch": 0.08068085106382979,
      "loss": 1.9527952671051025,
      "loss_ce": 0.0065061794593930244,
      "loss_iou": 0.84765625,
      "loss_num": 0.0498046875,
      "loss_xval": 1.9453125,
      "num_input_tokens_seen": 47677080,
      "step": 711
    },
    {
      "epoch": 0.08079432624113475,
      "grad_norm": 10.467896461486816,
      "learning_rate": 5e-05,
      "loss": 1.5229,
      "num_input_tokens_seen": 47743604,
      "step": 712
    },
    {
      "epoch": 0.08079432624113475,
      "loss": 1.526737928390503,
      "loss_ce": 0.003331058192998171,
      "loss_iou": 0.68359375,
      "loss_num": 0.031494140625,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 47743604,
      "step": 712
    },
    {
      "epoch": 0.08090780141843971,
      "grad_norm": 9.34058666229248,
      "learning_rate": 5e-05,
      "loss": 1.7155,
      "num_input_tokens_seen": 47811596,
      "step": 713
    },
    {
      "epoch": 0.08090780141843971,
      "loss": 1.7202764749526978,
      "loss_ce": 0.00347959715873003,
      "loss_iou": 0.78125,
      "loss_num": 0.0301513671875,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 47811596,
      "step": 713
    },
    {
      "epoch": 0.08102127659574468,
      "grad_norm": 14.743341445922852,
      "learning_rate": 5e-05,
      "loss": 1.3837,
      "num_input_tokens_seen": 47878396,
      "step": 714
    },
    {
      "epoch": 0.08102127659574468,
      "loss": 1.1134188175201416,
      "loss_ce": 0.003921790048480034,
      "loss_iou": 0.48046875,
      "loss_num": 0.029541015625,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 47878396,
      "step": 714
    },
    {
      "epoch": 0.08113475177304964,
      "grad_norm": 29.390377044677734,
      "learning_rate": 5e-05,
      "loss": 1.5515,
      "num_input_tokens_seen": 47945736,
      "step": 715
    },
    {
      "epoch": 0.08113475177304964,
      "loss": 1.6098777055740356,
      "loss_ce": 0.004897305276244879,
      "loss_iou": 0.7109375,
      "loss_num": 0.0361328125,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 47945736,
      "step": 715
    },
    {
      "epoch": 0.08124822695035461,
      "grad_norm": 10.842575073242188,
      "learning_rate": 5e-05,
      "loss": 1.638,
      "num_input_tokens_seen": 48012664,
      "step": 716
    },
    {
      "epoch": 0.08124822695035461,
      "loss": 1.4719949960708618,
      "loss_ce": 0.008616138249635696,
      "loss_iou": 0.63671875,
      "loss_num": 0.03759765625,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 48012664,
      "step": 716
    },
    {
      "epoch": 0.08136170212765957,
      "grad_norm": 17.265106201171875,
      "learning_rate": 5e-05,
      "loss": 1.4055,
      "num_input_tokens_seen": 48078980,
      "step": 717
    },
    {
      "epoch": 0.08136170212765957,
      "loss": 1.4744371175765991,
      "loss_ce": 0.0071519711054861546,
      "loss_iou": 0.6484375,
      "loss_num": 0.03466796875,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 48078980,
      "step": 717
    },
    {
      "epoch": 0.08147517730496454,
      "grad_norm": 15.152531623840332,
      "learning_rate": 5e-05,
      "loss": 1.5487,
      "num_input_tokens_seen": 48145936,
      "step": 718
    },
    {
      "epoch": 0.08147517730496454,
      "loss": 1.5006837844848633,
      "loss_ce": 0.0045900046825408936,
      "loss_iou": 0.671875,
      "loss_num": 0.02978515625,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 48145936,
      "step": 718
    },
    {
      "epoch": 0.0815886524822695,
      "grad_norm": 14.069485664367676,
      "learning_rate": 5e-05,
      "loss": 1.6641,
      "num_input_tokens_seen": 48212684,
      "step": 719
    },
    {
      "epoch": 0.0815886524822695,
      "loss": 1.535768747329712,
      "loss_ce": 0.00744843203574419,
      "loss_iou": 0.66796875,
      "loss_num": 0.03857421875,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 48212684,
      "step": 719
    },
    {
      "epoch": 0.08170212765957446,
      "grad_norm": 17.028060913085938,
      "learning_rate": 5e-05,
      "loss": 1.571,
      "num_input_tokens_seen": 48279072,
      "step": 720
    },
    {
      "epoch": 0.08170212765957446,
      "loss": 1.5140219926834106,
      "loss_ce": 0.004256384912878275,
      "loss_iou": 0.671875,
      "loss_num": 0.03369140625,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 48279072,
      "step": 720
    },
    {
      "epoch": 0.08181560283687943,
      "grad_norm": 18.85211753845215,
      "learning_rate": 5e-05,
      "loss": 1.717,
      "num_input_tokens_seen": 48346884,
      "step": 721
    },
    {
      "epoch": 0.08181560283687943,
      "loss": 1.8699342012405396,
      "loss_ce": 0.008606089279055595,
      "loss_iou": 0.81640625,
      "loss_num": 0.04541015625,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 48346884,
      "step": 721
    },
    {
      "epoch": 0.08192907801418439,
      "grad_norm": 11.798727989196777,
      "learning_rate": 5e-05,
      "loss": 1.6568,
      "num_input_tokens_seen": 48414392,
      "step": 722
    },
    {
      "epoch": 0.08192907801418439,
      "loss": 1.6613893508911133,
      "loss_ce": 0.005139401648193598,
      "loss_iou": 0.73828125,
      "loss_num": 0.0361328125,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 48414392,
      "step": 722
    },
    {
      "epoch": 0.08204255319148936,
      "grad_norm": 11.866010665893555,
      "learning_rate": 5e-05,
      "loss": 1.5656,
      "num_input_tokens_seen": 48481676,
      "step": 723
    },
    {
      "epoch": 0.08204255319148936,
      "loss": 1.723063588142395,
      "loss_ce": 0.006266755983233452,
      "loss_iou": 0.72265625,
      "loss_num": 0.053955078125,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 48481676,
      "step": 723
    },
    {
      "epoch": 0.08215602836879432,
      "grad_norm": 26.118675231933594,
      "learning_rate": 5e-05,
      "loss": 1.6334,
      "num_input_tokens_seen": 48549036,
      "step": 724
    },
    {
      "epoch": 0.08215602836879432,
      "loss": 1.8498916625976562,
      "loss_ce": 0.004188515245914459,
      "loss_iou": 0.8515625,
      "loss_num": 0.02880859375,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 48549036,
      "step": 724
    },
    {
      "epoch": 0.08226950354609928,
      "grad_norm": 11.578498840332031,
      "learning_rate": 5e-05,
      "loss": 1.8348,
      "num_input_tokens_seen": 48615732,
      "step": 725
    },
    {
      "epoch": 0.08226950354609928,
      "loss": 1.8608179092407227,
      "loss_ce": 0.00437254598364234,
      "loss_iou": 0.82421875,
      "loss_num": 0.04150390625,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 48615732,
      "step": 725
    },
    {
      "epoch": 0.08238297872340425,
      "grad_norm": 9.386500358581543,
      "learning_rate": 5e-05,
      "loss": 1.4802,
      "num_input_tokens_seen": 48683196,
      "step": 726
    },
    {
      "epoch": 0.08238297872340425,
      "loss": 1.4082589149475098,
      "loss_ce": 0.0044502513483166695,
      "loss_iou": 0.6328125,
      "loss_num": 0.028564453125,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 48683196,
      "step": 726
    },
    {
      "epoch": 0.08249645390070923,
      "grad_norm": 27.30660057067871,
      "learning_rate": 5e-05,
      "loss": 1.4991,
      "num_input_tokens_seen": 48750272,
      "step": 727
    },
    {
      "epoch": 0.08249645390070923,
      "loss": 1.4487528800964355,
      "loss_ce": 0.004416835494339466,
      "loss_iou": 0.640625,
      "loss_num": 0.032958984375,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 48750272,
      "step": 727
    },
    {
      "epoch": 0.08260992907801419,
      "grad_norm": 12.595529556274414,
      "learning_rate": 5e-05,
      "loss": 1.5649,
      "num_input_tokens_seen": 48816948,
      "step": 728
    },
    {
      "epoch": 0.08260992907801419,
      "loss": 1.651604413986206,
      "loss_ce": 0.005119995214045048,
      "loss_iou": 0.734375,
      "loss_num": 0.03515625,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 48816948,
      "step": 728
    },
    {
      "epoch": 0.08272340425531916,
      "grad_norm": 25.457801818847656,
      "learning_rate": 5e-05,
      "loss": 1.7132,
      "num_input_tokens_seen": 48883436,
      "step": 729
    },
    {
      "epoch": 0.08272340425531916,
      "loss": 1.5159251689910889,
      "loss_ce": 0.008112721145153046,
      "loss_iou": 0.6640625,
      "loss_num": 0.0361328125,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 48883436,
      "step": 729
    },
    {
      "epoch": 0.08283687943262412,
      "grad_norm": 14.121732711791992,
      "learning_rate": 5e-05,
      "loss": 1.8115,
      "num_input_tokens_seen": 48950612,
      "step": 730
    },
    {
      "epoch": 0.08283687943262412,
      "loss": 1.7656192779541016,
      "loss_ce": 0.005853615701198578,
      "loss_iou": 0.76171875,
      "loss_num": 0.047607421875,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 48950612,
      "step": 730
    },
    {
      "epoch": 0.08295035460992908,
      "grad_norm": 16.911954879760742,
      "learning_rate": 5e-05,
      "loss": 1.4516,
      "num_input_tokens_seen": 49016512,
      "step": 731
    },
    {
      "epoch": 0.08295035460992908,
      "loss": 1.3784327507019043,
      "loss_ce": 0.002822511363774538,
      "loss_iou": 0.60546875,
      "loss_num": 0.03271484375,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 49016512,
      "step": 731
    },
    {
      "epoch": 0.08306382978723405,
      "grad_norm": 11.17080307006836,
      "learning_rate": 5e-05,
      "loss": 1.4576,
      "num_input_tokens_seen": 49083180,
      "step": 732
    },
    {
      "epoch": 0.08306382978723405,
      "loss": 1.5395472049713135,
      "loss_ce": 0.00439104437828064,
      "loss_iou": 0.6796875,
      "loss_num": 0.034912109375,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 49083180,
      "step": 732
    },
    {
      "epoch": 0.08317730496453901,
      "grad_norm": 20.125032424926758,
      "learning_rate": 5e-05,
      "loss": 1.6426,
      "num_input_tokens_seen": 49150324,
      "step": 733
    },
    {
      "epoch": 0.08317730496453901,
      "loss": 1.664355754852295,
      "loss_ce": 0.005176078528165817,
      "loss_iou": 0.73828125,
      "loss_num": 0.037109375,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 49150324,
      "step": 733
    },
    {
      "epoch": 0.08329078014184398,
      "grad_norm": 13.0222749710083,
      "learning_rate": 5e-05,
      "loss": 1.4698,
      "num_input_tokens_seen": 49216568,
      "step": 734
    },
    {
      "epoch": 0.08329078014184398,
      "loss": 1.3898134231567383,
      "loss_ce": 0.0045594945549964905,
      "loss_iou": 0.6328125,
      "loss_num": 0.0244140625,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 49216568,
      "step": 734
    },
    {
      "epoch": 0.08340425531914894,
      "grad_norm": 12.064723014831543,
      "learning_rate": 5e-05,
      "loss": 1.3568,
      "num_input_tokens_seen": 49284096,
      "step": 735
    },
    {
      "epoch": 0.08340425531914894,
      "loss": 1.554612159729004,
      "loss_ce": 0.005784062203019857,
      "loss_iou": 0.66796875,
      "loss_num": 0.04296875,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 49284096,
      "step": 735
    },
    {
      "epoch": 0.0835177304964539,
      "grad_norm": 11.40029239654541,
      "learning_rate": 5e-05,
      "loss": 1.5803,
      "num_input_tokens_seen": 49351564,
      "step": 736
    },
    {
      "epoch": 0.0835177304964539,
      "loss": 1.615615963935852,
      "loss_ce": 0.008194082416594028,
      "loss_iou": 0.6875,
      "loss_num": 0.046875,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 49351564,
      "step": 736
    },
    {
      "epoch": 0.08363120567375887,
      "grad_norm": 21.458040237426758,
      "learning_rate": 5e-05,
      "loss": 1.5334,
      "num_input_tokens_seen": 49418920,
      "step": 737
    },
    {
      "epoch": 0.08363120567375887,
      "loss": 1.6648823022842407,
      "loss_ce": 0.004726015031337738,
      "loss_iou": 0.75,
      "loss_num": 0.03173828125,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 49418920,
      "step": 737
    },
    {
      "epoch": 0.08374468085106383,
      "grad_norm": 12.317455291748047,
      "learning_rate": 5e-05,
      "loss": 1.8083,
      "num_input_tokens_seen": 49486292,
      "step": 738
    },
    {
      "epoch": 0.08374468085106383,
      "loss": 1.805571436882019,
      "loss_ce": 0.00479021854698658,
      "loss_iou": 0.80078125,
      "loss_num": 0.0400390625,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 49486292,
      "step": 738
    },
    {
      "epoch": 0.0838581560283688,
      "grad_norm": 13.50339126586914,
      "learning_rate": 5e-05,
      "loss": 1.6193,
      "num_input_tokens_seen": 49553556,
      "step": 739
    },
    {
      "epoch": 0.0838581560283688,
      "loss": 1.5391016006469727,
      "loss_ce": 0.0049220481887459755,
      "loss_iou": 0.6875,
      "loss_num": 0.031982421875,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 49553556,
      "step": 739
    },
    {
      "epoch": 0.08397163120567376,
      "grad_norm": 12.885083198547363,
      "learning_rate": 5e-05,
      "loss": 1.2574,
      "num_input_tokens_seen": 49619952,
      "step": 740
    },
    {
      "epoch": 0.08397163120567376,
      "loss": 1.2813259363174438,
      "loss_ce": 0.004073746502399445,
      "loss_iou": 0.55859375,
      "loss_num": 0.032470703125,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 49619952,
      "step": 740
    },
    {
      "epoch": 0.08408510638297872,
      "grad_norm": 9.47404670715332,
      "learning_rate": 5e-05,
      "loss": 1.4747,
      "num_input_tokens_seen": 49687336,
      "step": 741
    },
    {
      "epoch": 0.08408510638297872,
      "loss": 1.5508896112442017,
      "loss_ce": 0.006944306194782257,
      "loss_iou": 0.68359375,
      "loss_num": 0.03564453125,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 49687336,
      "step": 741
    },
    {
      "epoch": 0.08419858156028369,
      "grad_norm": 13.337078094482422,
      "learning_rate": 5e-05,
      "loss": 1.2892,
      "num_input_tokens_seen": 49754712,
      "step": 742
    },
    {
      "epoch": 0.08419858156028369,
      "loss": 1.2122482061386108,
      "loss_ce": 0.004484560806304216,
      "loss_iou": 0.51953125,
      "loss_num": 0.03369140625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 49754712,
      "step": 742
    },
    {
      "epoch": 0.08431205673758865,
      "grad_norm": 16.085548400878906,
      "learning_rate": 5e-05,
      "loss": 1.5631,
      "num_input_tokens_seen": 49821720,
      "step": 743
    },
    {
      "epoch": 0.08431205673758865,
      "loss": 1.6784064769744873,
      "loss_ce": 0.006531517021358013,
      "loss_iou": 0.74609375,
      "loss_num": 0.03564453125,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 49821720,
      "step": 743
    },
    {
      "epoch": 0.08442553191489362,
      "grad_norm": 14.227605819702148,
      "learning_rate": 5e-05,
      "loss": 1.6617,
      "num_input_tokens_seen": 49888380,
      "step": 744
    },
    {
      "epoch": 0.08442553191489362,
      "loss": 1.630517840385437,
      "loss_ce": 0.005029499530792236,
      "loss_iou": 0.72265625,
      "loss_num": 0.035888671875,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 49888380,
      "step": 744
    },
    {
      "epoch": 0.08453900709219858,
      "grad_norm": 12.846379280090332,
      "learning_rate": 5e-05,
      "loss": 1.6163,
      "num_input_tokens_seen": 49955456,
      "step": 745
    },
    {
      "epoch": 0.08453900709219858,
      "loss": 1.7268964052200317,
      "loss_ce": 0.004240226000547409,
      "loss_iou": 0.765625,
      "loss_num": 0.0380859375,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 49955456,
      "step": 745
    },
    {
      "epoch": 0.08465248226950355,
      "grad_norm": 24.992456436157227,
      "learning_rate": 5e-05,
      "loss": 1.6627,
      "num_input_tokens_seen": 50021384,
      "step": 746
    },
    {
      "epoch": 0.08465248226950355,
      "loss": 1.4316089153289795,
      "loss_ce": 0.0019214230123907328,
      "loss_iou": 0.65234375,
      "loss_num": 0.025390625,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 50021384,
      "step": 746
    },
    {
      "epoch": 0.08476595744680851,
      "grad_norm": 15.89525032043457,
      "learning_rate": 5e-05,
      "loss": 1.9759,
      "num_input_tokens_seen": 50089352,
      "step": 747
    },
    {
      "epoch": 0.08476595744680851,
      "loss": 2.0839579105377197,
      "loss_ce": 0.0058329724706709385,
      "loss_iou": 0.8984375,
      "loss_num": 0.0556640625,
      "loss_xval": 2.078125,
      "num_input_tokens_seen": 50089352,
      "step": 747
    },
    {
      "epoch": 0.08487943262411347,
      "grad_norm": 12.192442893981934,
      "learning_rate": 5e-05,
      "loss": 1.431,
      "num_input_tokens_seen": 50155920,
      "step": 748
    },
    {
      "epoch": 0.08487943262411347,
      "loss": 1.5857715606689453,
      "loss_ce": 0.005693398881703615,
      "loss_iou": 0.69921875,
      "loss_num": 0.036376953125,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 50155920,
      "step": 748
    },
    {
      "epoch": 0.08499290780141844,
      "grad_norm": 11.53955364227295,
      "learning_rate": 5e-05,
      "loss": 1.3668,
      "num_input_tokens_seen": 50222156,
      "step": 749
    },
    {
      "epoch": 0.08499290780141844,
      "loss": 1.0826115608215332,
      "loss_ce": 0.005157885141670704,
      "loss_iou": 0.4609375,
      "loss_num": 0.0308837890625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 50222156,
      "step": 749
    },
    {
      "epoch": 0.0851063829787234,
      "grad_norm": 13.692381858825684,
      "learning_rate": 5e-05,
      "loss": 1.5896,
      "num_input_tokens_seen": 50288816,
      "step": 750
    },
    {
      "epoch": 0.0851063829787234,
      "eval_seeclick_CIoU": 0.32601311802864075,
      "eval_seeclick_GIoU": 0.29576393961906433,
      "eval_seeclick_IoU": 0.40465207397937775,
      "eval_seeclick_MAE_all": 0.15177083015441895,
      "eval_seeclick_MAE_h": 0.139244694262743,
      "eval_seeclick_MAE_w": 0.14617795124650002,
      "eval_seeclick_MAE_x_boxes": 0.2062232941389084,
      "eval_seeclick_MAE_y_boxes": 0.11658233031630516,
      "eval_seeclick_NUM_probability": 0.99918332695961,
      "eval_seeclick_inside_bbox": 0.643750011920929,
      "eval_seeclick_loss": 2.718205451965332,
      "eval_seeclick_loss_ce": 0.01373484032228589,
      "eval_seeclick_loss_iou": 0.99169921875,
      "eval_seeclick_loss_num": 0.151397705078125,
      "eval_seeclick_loss_xval": 2.73828125,
      "eval_seeclick_runtime": 63.0341,
      "eval_seeclick_samples_per_second": 0.746,
      "eval_seeclick_steps_per_second": 0.032,
      "num_input_tokens_seen": 50288816,
      "step": 750
    },
    {
      "epoch": 0.0851063829787234,
      "eval_icons_CIoU": 0.4398431330919266,
      "eval_icons_GIoU": 0.4189579039812088,
      "eval_icons_IoU": 0.4761458933353424,
      "eval_icons_MAE_all": 0.11689982190728188,
      "eval_icons_MAE_h": 0.11212345585227013,
      "eval_icons_MAE_w": 0.10873095318675041,
      "eval_icons_MAE_x_boxes": 0.1072545126080513,
      "eval_icons_MAE_y_boxes": 0.0855602752417326,
      "eval_icons_NUM_probability": 0.9998070895671844,
      "eval_icons_inside_bbox": 0.8350694477558136,
      "eval_icons_loss": 2.5988454818725586,
      "eval_icons_loss_ce": 0.0006889756332384422,
      "eval_icons_loss_iou": 1.002197265625,
      "eval_icons_loss_num": 0.114227294921875,
      "eval_icons_loss_xval": 2.5771484375,
      "eval_icons_runtime": 66.1545,
      "eval_icons_samples_per_second": 0.756,
      "eval_icons_steps_per_second": 0.03,
      "num_input_tokens_seen": 50288816,
      "step": 750
    },
    {
      "epoch": 0.0851063829787234,
      "eval_screenspot_CIoU": 0.3141031265258789,
      "eval_screenspot_GIoU": 0.27373849352200824,
      "eval_screenspot_IoU": 0.4070620834827423,
      "eval_screenspot_MAE_all": 0.16089770942926407,
      "eval_screenspot_MAE_h": 0.15530735750993094,
      "eval_screenspot_MAE_w": 0.19373379151026407,
      "eval_screenspot_MAE_x_boxes": 0.24480952819188437,
      "eval_screenspot_MAE_y_boxes": 0.08700533459583919,
      "eval_screenspot_NUM_probability": 0.9993371764818827,
      "eval_screenspot_inside_bbox": 0.6329166690508524,
      "eval_screenspot_loss": 3.0044844150543213,
      "eval_screenspot_loss_ce": 0.008995034421483675,
      "eval_screenspot_loss_iou": 1.09375,
      "eval_screenspot_loss_num": 0.171234130859375,
      "eval_screenspot_loss_xval": 3.0423177083333335,
      "eval_screenspot_runtime": 122.0851,
      "eval_screenspot_samples_per_second": 0.729,
      "eval_screenspot_steps_per_second": 0.025,
      "num_input_tokens_seen": 50288816,
      "step": 750
    },
    {
      "epoch": 0.0851063829787234,
      "eval_compot_CIoU": 0.37282103300094604,
      "eval_compot_GIoU": 0.3363606333732605,
      "eval_compot_IoU": 0.43503421545028687,
      "eval_compot_MAE_all": 0.10612989217042923,
      "eval_compot_MAE_h": 0.09382803738117218,
      "eval_compot_MAE_w": 0.08850445598363876,
      "eval_compot_MAE_x_boxes": 0.13908327743411064,
      "eval_compot_MAE_y_boxes": 0.09473245590925217,
      "eval_compot_NUM_probability": 0.9995202124118805,
      "eval_compot_inside_bbox": 0.6805555522441864,
      "eval_compot_loss": 2.645725727081299,
      "eval_compot_loss_ce": 0.0027844373835250735,
      "eval_compot_loss_iou": 1.06201171875,
      "eval_compot_loss_num": 0.1063690185546875,
      "eval_compot_loss_xval": 2.65625,
      "eval_compot_runtime": 67.1114,
      "eval_compot_samples_per_second": 0.745,
      "eval_compot_steps_per_second": 0.03,
      "num_input_tokens_seen": 50288816,
      "step": 750
    },
    {
      "epoch": 0.0851063829787234,
      "loss": 2.7231245040893555,
      "loss_ce": 0.0024211877025663853,
      "loss_iou": 1.078125,
      "loss_num": 0.1142578125,
      "loss_xval": 2.71875,
      "num_input_tokens_seen": 50288816,
      "step": 750
    },
    {
      "epoch": 0.08521985815602837,
      "grad_norm": 65.52222442626953,
      "learning_rate": 5e-05,
      "loss": 1.4294,
      "num_input_tokens_seen": 50356376,
      "step": 751
    },
    {
      "epoch": 0.08521985815602837,
      "loss": 1.5654921531677246,
      "loss_ce": 0.006410026457160711,
      "loss_iou": 0.6640625,
      "loss_num": 0.046630859375,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 50356376,
      "step": 751
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 14.186589241027832,
      "learning_rate": 5e-05,
      "loss": 1.5536,
      "num_input_tokens_seen": 50422832,
      "step": 752
    },
    {
      "epoch": 0.08533333333333333,
      "loss": 1.7556408643722534,
      "loss_ce": 0.007594005670398474,
      "loss_iou": 0.75390625,
      "loss_num": 0.0478515625,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 50422832,
      "step": 752
    },
    {
      "epoch": 0.0854468085106383,
      "grad_norm": 12.469969749450684,
      "learning_rate": 5e-05,
      "loss": 1.4486,
      "num_input_tokens_seen": 50488928,
      "step": 753
    },
    {
      "epoch": 0.0854468085106383,
      "loss": 1.1365623474121094,
      "loss_ce": 0.0047263698652386665,
      "loss_iou": 0.51953125,
      "loss_num": 0.01953125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 50488928,
      "step": 753
    },
    {
      "epoch": 0.08556028368794326,
      "grad_norm": 15.887701034545898,
      "learning_rate": 5e-05,
      "loss": 1.4034,
      "num_input_tokens_seen": 50555328,
      "step": 754
    },
    {
      "epoch": 0.08556028368794326,
      "loss": 1.0947332382202148,
      "loss_ce": 0.009650195017457008,
      "loss_iou": 0.45703125,
      "loss_num": 0.034423828125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 50555328,
      "step": 754
    },
    {
      "epoch": 0.08567375886524822,
      "grad_norm": 18.704559326171875,
      "learning_rate": 5e-05,
      "loss": 1.6911,
      "num_input_tokens_seen": 50623204,
      "step": 755
    },
    {
      "epoch": 0.08567375886524822,
      "loss": 1.7505478858947754,
      "loss_ce": 0.0054307011887431145,
      "loss_iou": 0.78125,
      "loss_num": 0.03564453125,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 50623204,
      "step": 755
    },
    {
      "epoch": 0.08578723404255319,
      "grad_norm": 10.76703929901123,
      "learning_rate": 5e-05,
      "loss": 1.6451,
      "num_input_tokens_seen": 50690344,
      "step": 756
    },
    {
      "epoch": 0.08578723404255319,
      "loss": 1.6866490840911865,
      "loss_ce": 0.0069615887477993965,
      "loss_iou": 0.7421875,
      "loss_num": 0.038330078125,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 50690344,
      "step": 756
    },
    {
      "epoch": 0.08590070921985815,
      "grad_norm": 13.205765724182129,
      "learning_rate": 5e-05,
      "loss": 1.5412,
      "num_input_tokens_seen": 50758112,
      "step": 757
    },
    {
      "epoch": 0.08590070921985815,
      "loss": 1.4031901359558105,
      "loss_ce": 0.010611975565552711,
      "loss_iou": 0.61328125,
      "loss_num": 0.032470703125,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 50758112,
      "step": 757
    },
    {
      "epoch": 0.08601418439716312,
      "grad_norm": 14.129036903381348,
      "learning_rate": 5e-05,
      "loss": 1.3122,
      "num_input_tokens_seen": 50825172,
      "step": 758
    },
    {
      "epoch": 0.08601418439716312,
      "loss": 1.3020343780517578,
      "loss_ce": 0.004671110305935144,
      "loss_iou": 0.5546875,
      "loss_num": 0.038330078125,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 50825172,
      "step": 758
    },
    {
      "epoch": 0.08612765957446808,
      "grad_norm": 12.998141288757324,
      "learning_rate": 5e-05,
      "loss": 1.6736,
      "num_input_tokens_seen": 50892652,
      "step": 759
    },
    {
      "epoch": 0.08612765957446808,
      "loss": 1.6156251430511475,
      "loss_ce": 0.0023438630159944296,
      "loss_iou": 0.734375,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 50892652,
      "step": 759
    },
    {
      "epoch": 0.08624113475177304,
      "grad_norm": 18.721195220947266,
      "learning_rate": 5e-05,
      "loss": 1.3962,
      "num_input_tokens_seen": 50959184,
      "step": 760
    },
    {
      "epoch": 0.08624113475177304,
      "loss": 1.4619420766830444,
      "loss_ce": 0.007840415462851524,
      "loss_iou": 0.64453125,
      "loss_num": 0.032958984375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 50959184,
      "step": 760
    },
    {
      "epoch": 0.08635460992907801,
      "grad_norm": 12.872273445129395,
      "learning_rate": 5e-05,
      "loss": 1.3364,
      "num_input_tokens_seen": 51025860,
      "step": 761
    },
    {
      "epoch": 0.08635460992907801,
      "loss": 1.463571548461914,
      "loss_ce": 0.007516889367252588,
      "loss_iou": 0.6328125,
      "loss_num": 0.0380859375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 51025860,
      "step": 761
    },
    {
      "epoch": 0.08646808510638297,
      "grad_norm": 10.621088981628418,
      "learning_rate": 5e-05,
      "loss": 1.3698,
      "num_input_tokens_seen": 51093040,
      "step": 762
    },
    {
      "epoch": 0.08646808510638297,
      "loss": 1.3975872993469238,
      "loss_ce": 0.005009213462471962,
      "loss_iou": 0.625,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 51093040,
      "step": 762
    },
    {
      "epoch": 0.08658156028368795,
      "grad_norm": 13.972744941711426,
      "learning_rate": 5e-05,
      "loss": 1.5321,
      "num_input_tokens_seen": 51159908,
      "step": 763
    },
    {
      "epoch": 0.08658156028368795,
      "loss": 1.5895090103149414,
      "loss_ce": 0.003571463981643319,
      "loss_iou": 0.69921875,
      "loss_num": 0.037109375,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 51159908,
      "step": 763
    },
    {
      "epoch": 0.08669503546099291,
      "grad_norm": 50.270172119140625,
      "learning_rate": 5e-05,
      "loss": 1.5991,
      "num_input_tokens_seen": 51227408,
      "step": 764
    },
    {
      "epoch": 0.08669503546099291,
      "loss": 1.708332896232605,
      "loss_ce": 0.004231314640492201,
      "loss_iou": 0.75390625,
      "loss_num": 0.038818359375,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 51227408,
      "step": 764
    },
    {
      "epoch": 0.08680851063829788,
      "grad_norm": 13.556437492370605,
      "learning_rate": 5e-05,
      "loss": 1.8797,
      "num_input_tokens_seen": 51294668,
      "step": 765
    },
    {
      "epoch": 0.08680851063829788,
      "loss": 1.832763671875,
      "loss_ce": 0.007568294648081064,
      "loss_iou": 0.80078125,
      "loss_num": 0.044189453125,
      "loss_xval": 1.828125,
      "num_input_tokens_seen": 51294668,
      "step": 765
    },
    {
      "epoch": 0.08692198581560284,
      "grad_norm": 9.960589408874512,
      "learning_rate": 5e-05,
      "loss": 1.5768,
      "num_input_tokens_seen": 51360628,
      "step": 766
    },
    {
      "epoch": 0.08692198581560284,
      "loss": 1.494102954864502,
      "loss_ce": 0.006538825109601021,
      "loss_iou": 0.62109375,
      "loss_num": 0.04931640625,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 51360628,
      "step": 766
    },
    {
      "epoch": 0.0870354609929078,
      "grad_norm": 16.353012084960938,
      "learning_rate": 5e-05,
      "loss": 1.3171,
      "num_input_tokens_seen": 51428568,
      "step": 767
    },
    {
      "epoch": 0.0870354609929078,
      "loss": 1.1964470148086548,
      "loss_ce": 0.005040750838816166,
      "loss_iou": 0.53125,
      "loss_num": 0.0255126953125,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 51428568,
      "step": 767
    },
    {
      "epoch": 0.08714893617021277,
      "grad_norm": 15.951010704040527,
      "learning_rate": 5e-05,
      "loss": 1.6162,
      "num_input_tokens_seen": 51495824,
      "step": 768
    },
    {
      "epoch": 0.08714893617021277,
      "loss": 1.7489745616912842,
      "loss_ce": 0.0038574605714529753,
      "loss_iou": 0.75,
      "loss_num": 0.04833984375,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 51495824,
      "step": 768
    },
    {
      "epoch": 0.08726241134751773,
      "grad_norm": 16.178890228271484,
      "learning_rate": 5e-05,
      "loss": 1.4125,
      "num_input_tokens_seen": 51563440,
      "step": 769
    },
    {
      "epoch": 0.08726241134751773,
      "loss": 1.4896503686904907,
      "loss_ce": 0.005275406409054995,
      "loss_iou": 0.65625,
      "loss_num": 0.03466796875,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 51563440,
      "step": 769
    },
    {
      "epoch": 0.0873758865248227,
      "grad_norm": 37.463199615478516,
      "learning_rate": 5e-05,
      "loss": 1.7908,
      "num_input_tokens_seen": 51631100,
      "step": 770
    },
    {
      "epoch": 0.0873758865248227,
      "loss": 1.8046870231628418,
      "loss_ce": 0.006835421547293663,
      "loss_iou": 0.796875,
      "loss_num": 0.040771484375,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 51631100,
      "step": 770
    },
    {
      "epoch": 0.08748936170212766,
      "grad_norm": 14.20647144317627,
      "learning_rate": 5e-05,
      "loss": 1.7447,
      "num_input_tokens_seen": 51698232,
      "step": 771
    },
    {
      "epoch": 0.08748936170212766,
      "loss": 1.6568975448608398,
      "loss_ce": 0.005530398339033127,
      "loss_iou": 0.72265625,
      "loss_num": 0.041259765625,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 51698232,
      "step": 771
    },
    {
      "epoch": 0.08760283687943263,
      "grad_norm": 16.9213924407959,
      "learning_rate": 5e-05,
      "loss": 1.5202,
      "num_input_tokens_seen": 51764512,
      "step": 772
    },
    {
      "epoch": 0.08760283687943263,
      "loss": 1.7913906574249268,
      "loss_ce": 0.005257737822830677,
      "loss_iou": 0.7421875,
      "loss_num": 0.059814453125,
      "loss_xval": 1.7890625,
      "num_input_tokens_seen": 51764512,
      "step": 772
    },
    {
      "epoch": 0.08771631205673759,
      "grad_norm": 28.331031799316406,
      "learning_rate": 5e-05,
      "loss": 1.7257,
      "num_input_tokens_seen": 51831364,
      "step": 773
    },
    {
      "epoch": 0.08771631205673759,
      "loss": 1.6981921195983887,
      "loss_ce": 0.003856181399896741,
      "loss_iou": 0.75,
      "loss_num": 0.038330078125,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 51831364,
      "step": 773
    },
    {
      "epoch": 0.08782978723404256,
      "grad_norm": 11.4474458694458,
      "learning_rate": 5e-05,
      "loss": 1.6206,
      "num_input_tokens_seen": 51898308,
      "step": 774
    },
    {
      "epoch": 0.08782978723404256,
      "loss": 1.4968717098236084,
      "loss_ce": 0.005416644737124443,
      "loss_iou": 0.63671875,
      "loss_num": 0.04345703125,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 51898308,
      "step": 774
    },
    {
      "epoch": 0.08794326241134752,
      "grad_norm": 8.620348930358887,
      "learning_rate": 5e-05,
      "loss": 1.3805,
      "num_input_tokens_seen": 51964580,
      "step": 775
    },
    {
      "epoch": 0.08794326241134752,
      "loss": 1.2961394786834717,
      "loss_ce": 0.0041167279705405235,
      "loss_iou": 0.55859375,
      "loss_num": 0.035400390625,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 51964580,
      "step": 775
    },
    {
      "epoch": 0.08805673758865248,
      "grad_norm": 20.437963485717773,
      "learning_rate": 5e-05,
      "loss": 1.2747,
      "num_input_tokens_seen": 52029748,
      "step": 776
    },
    {
      "epoch": 0.08805673758865248,
      "loss": 1.2327377796173096,
      "loss_ce": 0.004710446111857891,
      "loss_iou": 0.546875,
      "loss_num": 0.02685546875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 52029748,
      "step": 776
    },
    {
      "epoch": 0.08817021276595745,
      "grad_norm": 12.831459045410156,
      "learning_rate": 5e-05,
      "loss": 1.4654,
      "num_input_tokens_seen": 52094384,
      "step": 777
    },
    {
      "epoch": 0.08817021276595745,
      "loss": 1.4688947200775146,
      "loss_ce": 0.0035627740435302258,
      "loss_iou": 0.640625,
      "loss_num": 0.03662109375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 52094384,
      "step": 777
    },
    {
      "epoch": 0.08828368794326241,
      "grad_norm": 11.901507377624512,
      "learning_rate": 5e-05,
      "loss": 1.4501,
      "num_input_tokens_seen": 52161116,
      "step": 778
    },
    {
      "epoch": 0.08828368794326241,
      "loss": 1.1959786415100098,
      "loss_ce": 0.0040840343572199345,
      "loss_iou": 0.53515625,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 52161116,
      "step": 778
    },
    {
      "epoch": 0.08839716312056738,
      "grad_norm": 13.864886283874512,
      "learning_rate": 5e-05,
      "loss": 1.7094,
      "num_input_tokens_seen": 52227736,
      "step": 779
    },
    {
      "epoch": 0.08839716312056738,
      "loss": 1.5262174606323242,
      "loss_ce": 0.004611012525856495,
      "loss_iou": 0.6484375,
      "loss_num": 0.04443359375,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 52227736,
      "step": 779
    },
    {
      "epoch": 0.08851063829787234,
      "grad_norm": 18.077898025512695,
      "learning_rate": 5e-05,
      "loss": 1.4621,
      "num_input_tokens_seen": 52294740,
      "step": 780
    },
    {
      "epoch": 0.08851063829787234,
      "loss": 1.1713056564331055,
      "loss_ce": 0.006754837930202484,
      "loss_iou": 0.53125,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 52294740,
      "step": 780
    },
    {
      "epoch": 0.0886241134751773,
      "grad_norm": 13.603555679321289,
      "learning_rate": 5e-05,
      "loss": 1.6344,
      "num_input_tokens_seen": 52361224,
      "step": 781
    },
    {
      "epoch": 0.0886241134751773,
      "loss": 1.530433177947998,
      "loss_ce": 0.004066037014126778,
      "loss_iou": 0.69140625,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 52361224,
      "step": 781
    },
    {
      "epoch": 0.08873758865248227,
      "grad_norm": 16.498327255249023,
      "learning_rate": 5e-05,
      "loss": 1.4852,
      "num_input_tokens_seen": 52428340,
      "step": 782
    },
    {
      "epoch": 0.08873758865248227,
      "loss": 1.5042715072631836,
      "loss_ce": 0.009154347702860832,
      "loss_iou": 0.65234375,
      "loss_num": 0.03857421875,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 52428340,
      "step": 782
    },
    {
      "epoch": 0.08885106382978723,
      "grad_norm": 20.489728927612305,
      "learning_rate": 5e-05,
      "loss": 1.573,
      "num_input_tokens_seen": 52495724,
      "step": 783
    },
    {
      "epoch": 0.08885106382978723,
      "loss": 1.381723165512085,
      "loss_ce": 0.007699629757553339,
      "loss_iou": 0.60546875,
      "loss_num": 0.033203125,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 52495724,
      "step": 783
    },
    {
      "epoch": 0.0889645390070922,
      "grad_norm": 45.90974807739258,
      "learning_rate": 5e-05,
      "loss": 1.5029,
      "num_input_tokens_seen": 52562224,
      "step": 784
    },
    {
      "epoch": 0.0889645390070922,
      "loss": 1.302905559539795,
      "loss_ce": 0.0038028419949114323,
      "loss_iou": 0.5703125,
      "loss_num": 0.0322265625,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 52562224,
      "step": 784
    },
    {
      "epoch": 0.08907801418439716,
      "grad_norm": 19.05950355529785,
      "learning_rate": 5e-05,
      "loss": 2.0053,
      "num_input_tokens_seen": 52629272,
      "step": 785
    },
    {
      "epoch": 0.08907801418439716,
      "loss": 1.9482029676437378,
      "loss_ce": 0.005820125341415405,
      "loss_iou": 0.828125,
      "loss_num": 0.05712890625,
      "loss_xval": 1.9453125,
      "num_input_tokens_seen": 52629272,
      "step": 785
    },
    {
      "epoch": 0.08919148936170213,
      "grad_norm": 64.89583587646484,
      "learning_rate": 5e-05,
      "loss": 1.6462,
      "num_input_tokens_seen": 52696200,
      "step": 786
    },
    {
      "epoch": 0.08919148936170213,
      "loss": 1.5641977787017822,
      "loss_ce": 0.003650936298072338,
      "loss_iou": 0.6953125,
      "loss_num": 0.033935546875,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 52696200,
      "step": 786
    },
    {
      "epoch": 0.08930496453900709,
      "grad_norm": 8.065857887268066,
      "learning_rate": 5e-05,
      "loss": 1.365,
      "num_input_tokens_seen": 52763012,
      "step": 787
    },
    {
      "epoch": 0.08930496453900709,
      "loss": 1.6223137378692627,
      "loss_ce": 0.004149778746068478,
      "loss_iou": 0.70703125,
      "loss_num": 0.041259765625,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 52763012,
      "step": 787
    },
    {
      "epoch": 0.08941843971631205,
      "grad_norm": 13.294658660888672,
      "learning_rate": 5e-05,
      "loss": 1.4418,
      "num_input_tokens_seen": 52830088,
      "step": 788
    },
    {
      "epoch": 0.08941843971631205,
      "loss": 1.3774795532226562,
      "loss_ce": 0.00443270755931735,
      "loss_iou": 0.609375,
      "loss_num": 0.0301513671875,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 52830088,
      "step": 788
    },
    {
      "epoch": 0.08953191489361702,
      "grad_norm": 13.201037406921387,
      "learning_rate": 5e-05,
      "loss": 1.6413,
      "num_input_tokens_seen": 52897320,
      "step": 789
    },
    {
      "epoch": 0.08953191489361702,
      "loss": 1.703667163848877,
      "loss_ce": 0.0054249814711511135,
      "loss_iou": 0.73828125,
      "loss_num": 0.044677734375,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 52897320,
      "step": 789
    },
    {
      "epoch": 0.08964539007092198,
      "grad_norm": 19.17852210998535,
      "learning_rate": 5e-05,
      "loss": 1.5975,
      "num_input_tokens_seen": 52963988,
      "step": 790
    },
    {
      "epoch": 0.08964539007092198,
      "loss": 1.659435510635376,
      "loss_ce": 0.006115158088505268,
      "loss_iou": 0.73046875,
      "loss_num": 0.037841796875,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 52963988,
      "step": 790
    },
    {
      "epoch": 0.08975886524822695,
      "grad_norm": 15.659488677978516,
      "learning_rate": 5e-05,
      "loss": 1.5472,
      "num_input_tokens_seen": 53030980,
      "step": 791
    },
    {
      "epoch": 0.08975886524822695,
      "loss": 1.4362249374389648,
      "loss_ce": 0.004584247246384621,
      "loss_iou": 0.640625,
      "loss_num": 0.0308837890625,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 53030980,
      "step": 791
    },
    {
      "epoch": 0.08987234042553191,
      "grad_norm": 18.13237762451172,
      "learning_rate": 5e-05,
      "loss": 1.4939,
      "num_input_tokens_seen": 53098220,
      "step": 792
    },
    {
      "epoch": 0.08987234042553191,
      "loss": 1.3909308910369873,
      "loss_ce": 0.0032355564180761576,
      "loss_iou": 0.6484375,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 53098220,
      "step": 792
    },
    {
      "epoch": 0.08998581560283687,
      "grad_norm": 15.771984100341797,
      "learning_rate": 5e-05,
      "loss": 1.4884,
      "num_input_tokens_seen": 53164640,
      "step": 793
    },
    {
      "epoch": 0.08998581560283687,
      "loss": 1.6662135124206543,
      "loss_ce": 0.0021509791258722544,
      "loss_iou": 0.7421875,
      "loss_num": 0.0361328125,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 53164640,
      "step": 793
    },
    {
      "epoch": 0.09009929078014184,
      "grad_norm": 11.307710647583008,
      "learning_rate": 5e-05,
      "loss": 1.5215,
      "num_input_tokens_seen": 53232732,
      "step": 794
    },
    {
      "epoch": 0.09009929078014184,
      "loss": 1.3689861297607422,
      "loss_ce": 0.0027752406895160675,
      "loss_iou": 0.6171875,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 53232732,
      "step": 794
    },
    {
      "epoch": 0.0902127659574468,
      "grad_norm": 19.517234802246094,
      "learning_rate": 5e-05,
      "loss": 1.4279,
      "num_input_tokens_seen": 53300156,
      "step": 795
    },
    {
      "epoch": 0.0902127659574468,
      "loss": 1.3613572120666504,
      "loss_ce": 0.0014939545653760433,
      "loss_iou": 0.6015625,
      "loss_num": 0.031982421875,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 53300156,
      "step": 795
    },
    {
      "epoch": 0.09032624113475177,
      "grad_norm": 14.932097434997559,
      "learning_rate": 5e-05,
      "loss": 1.7834,
      "num_input_tokens_seen": 53366772,
      "step": 796
    },
    {
      "epoch": 0.09032624113475177,
      "loss": 1.784220576286316,
      "loss_ce": 0.004923626780509949,
      "loss_iou": 0.765625,
      "loss_num": 0.049560546875,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 53366772,
      "step": 796
    },
    {
      "epoch": 0.09043971631205673,
      "grad_norm": 11.65230655670166,
      "learning_rate": 5e-05,
      "loss": 1.4239,
      "num_input_tokens_seen": 53434168,
      "step": 797
    },
    {
      "epoch": 0.09043971631205673,
      "loss": 1.4932762384414673,
      "loss_ce": 0.004018482752144337,
      "loss_iou": 0.64453125,
      "loss_num": 0.04052734375,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 53434168,
      "step": 797
    },
    {
      "epoch": 0.09055319148936171,
      "grad_norm": 19.776771545410156,
      "learning_rate": 5e-05,
      "loss": 1.4351,
      "num_input_tokens_seen": 53501012,
      "step": 798
    },
    {
      "epoch": 0.09055319148936171,
      "loss": 1.3469651937484741,
      "loss_ce": 0.002726888284087181,
      "loss_iou": 0.5859375,
      "loss_num": 0.03466796875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 53501012,
      "step": 798
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 15.424235343933105,
      "learning_rate": 5e-05,
      "loss": 1.7249,
      "num_input_tokens_seen": 53568600,
      "step": 799
    },
    {
      "epoch": 0.09066666666666667,
      "loss": 1.661592721939087,
      "loss_ce": 0.007295865099877119,
      "loss_iou": 0.703125,
      "loss_num": 0.048828125,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 53568600,
      "step": 799
    },
    {
      "epoch": 0.09078014184397164,
      "grad_norm": 20.04143524169922,
      "learning_rate": 5e-05,
      "loss": 1.5637,
      "num_input_tokens_seen": 53635224,
      "step": 800
    },
    {
      "epoch": 0.09078014184397164,
      "loss": 1.5903100967407227,
      "loss_ce": 0.0033959296997636557,
      "loss_iou": 0.6875,
      "loss_num": 0.042724609375,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 53635224,
      "step": 800
    },
    {
      "epoch": 0.0908936170212766,
      "grad_norm": 16.381845474243164,
      "learning_rate": 5e-05,
      "loss": 1.367,
      "num_input_tokens_seen": 53703124,
      "step": 801
    },
    {
      "epoch": 0.0908936170212766,
      "loss": 1.5981223583221436,
      "loss_ce": 0.004372341558337212,
      "loss_iou": 0.70703125,
      "loss_num": 0.035400390625,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 53703124,
      "step": 801
    },
    {
      "epoch": 0.09100709219858157,
      "grad_norm": 31.907346725463867,
      "learning_rate": 5e-05,
      "loss": 1.8824,
      "num_input_tokens_seen": 53769740,
      "step": 802
    },
    {
      "epoch": 0.09100709219858157,
      "loss": 1.980954885482788,
      "loss_ce": 0.0024392111226916313,
      "loss_iou": 0.8671875,
      "loss_num": 0.048828125,
      "loss_xval": 1.9765625,
      "num_input_tokens_seen": 53769740,
      "step": 802
    },
    {
      "epoch": 0.09112056737588653,
      "grad_norm": 12.484557151794434,
      "learning_rate": 5e-05,
      "loss": 1.8552,
      "num_input_tokens_seen": 53837140,
      "step": 803
    },
    {
      "epoch": 0.09112056737588653,
      "loss": 1.8912270069122314,
      "loss_ce": 0.006461413577198982,
      "loss_iou": 0.7890625,
      "loss_num": 0.060546875,
      "loss_xval": 1.8828125,
      "num_input_tokens_seen": 53837140,
      "step": 803
    },
    {
      "epoch": 0.0912340425531915,
      "grad_norm": 10.671472549438477,
      "learning_rate": 5e-05,
      "loss": 1.5809,
      "num_input_tokens_seen": 53904412,
      "step": 804
    },
    {
      "epoch": 0.0912340425531915,
      "loss": 1.6954618692398071,
      "loss_ce": 0.006008694879710674,
      "loss_iou": 0.734375,
      "loss_num": 0.04296875,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 53904412,
      "step": 804
    },
    {
      "epoch": 0.09134751773049646,
      "grad_norm": 8.661947250366211,
      "learning_rate": 5e-05,
      "loss": 1.3843,
      "num_input_tokens_seen": 53971020,
      "step": 805
    },
    {
      "epoch": 0.09134751773049646,
      "loss": 1.3044239282608032,
      "loss_ce": 0.0038868682458996773,
      "loss_iou": 0.58203125,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 53971020,
      "step": 805
    },
    {
      "epoch": 0.09146099290780142,
      "grad_norm": 18.572105407714844,
      "learning_rate": 5e-05,
      "loss": 1.3861,
      "num_input_tokens_seen": 54038412,
      "step": 806
    },
    {
      "epoch": 0.09146099290780142,
      "loss": 1.4494059085845947,
      "loss_ce": 0.004093434661626816,
      "loss_iou": 0.65234375,
      "loss_num": 0.028076171875,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 54038412,
      "step": 806
    },
    {
      "epoch": 0.09157446808510639,
      "grad_norm": 17.38019561767578,
      "learning_rate": 5e-05,
      "loss": 1.5227,
      "num_input_tokens_seen": 54106224,
      "step": 807
    },
    {
      "epoch": 0.09157446808510639,
      "loss": 1.5421810150146484,
      "loss_ce": 0.005071601830422878,
      "loss_iou": 0.69921875,
      "loss_num": 0.028076171875,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 54106224,
      "step": 807
    },
    {
      "epoch": 0.09168794326241135,
      "grad_norm": 12.067858695983887,
      "learning_rate": 5e-05,
      "loss": 1.5039,
      "num_input_tokens_seen": 54173588,
      "step": 808
    },
    {
      "epoch": 0.09168794326241135,
      "loss": 1.3955841064453125,
      "loss_ce": 0.007888696156442165,
      "loss_iou": 0.609375,
      "loss_num": 0.033203125,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 54173588,
      "step": 808
    },
    {
      "epoch": 0.09180141843971631,
      "grad_norm": 13.748851776123047,
      "learning_rate": 5e-05,
      "loss": 1.5923,
      "num_input_tokens_seen": 54240372,
      "step": 809
    },
    {
      "epoch": 0.09180141843971631,
      "loss": 1.4854423999786377,
      "loss_ce": 0.003997083753347397,
      "loss_iou": 0.67578125,
      "loss_num": 0.025634765625,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 54240372,
      "step": 809
    },
    {
      "epoch": 0.09191489361702128,
      "grad_norm": 380.9027404785156,
      "learning_rate": 5e-05,
      "loss": 1.5552,
      "num_input_tokens_seen": 54307900,
      "step": 810
    },
    {
      "epoch": 0.09191489361702128,
      "loss": 1.5874499082565308,
      "loss_ce": 0.002977212890982628,
      "loss_iou": 0.69140625,
      "loss_num": 0.040283203125,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 54307900,
      "step": 810
    },
    {
      "epoch": 0.09202836879432624,
      "grad_norm": 15.267178535461426,
      "learning_rate": 5e-05,
      "loss": 1.3347,
      "num_input_tokens_seen": 54374784,
      "step": 811
    },
    {
      "epoch": 0.09202836879432624,
      "loss": 1.1953778266906738,
      "loss_ce": 0.0029950719326734543,
      "loss_iou": 0.5390625,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 54374784,
      "step": 811
    },
    {
      "epoch": 0.09214184397163121,
      "grad_norm": 15.18451976776123,
      "learning_rate": 5e-05,
      "loss": 1.6145,
      "num_input_tokens_seen": 54442324,
      "step": 812
    },
    {
      "epoch": 0.09214184397163121,
      "loss": 1.543281078338623,
      "loss_ce": 0.005195124074816704,
      "loss_iou": 0.68359375,
      "loss_num": 0.033935546875,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 54442324,
      "step": 812
    },
    {
      "epoch": 0.09225531914893617,
      "grad_norm": 28.553449630737305,
      "learning_rate": 5e-05,
      "loss": 1.694,
      "num_input_tokens_seen": 54509032,
      "step": 813
    },
    {
      "epoch": 0.09225531914893617,
      "loss": 1.655529499053955,
      "loss_ce": 0.005138866603374481,
      "loss_iou": 0.73828125,
      "loss_num": 0.035400390625,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 54509032,
      "step": 813
    },
    {
      "epoch": 0.09236879432624114,
      "grad_norm": 14.54708480834961,
      "learning_rate": 5e-05,
      "loss": 1.8967,
      "num_input_tokens_seen": 54575500,
      "step": 814
    },
    {
      "epoch": 0.09236879432624114,
      "loss": 1.6748682260513306,
      "loss_ce": 0.01129393745213747,
      "loss_iou": 0.734375,
      "loss_num": 0.038330078125,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 54575500,
      "step": 814
    },
    {
      "epoch": 0.0924822695035461,
      "grad_norm": 12.070721626281738,
      "learning_rate": 5e-05,
      "loss": 1.5272,
      "num_input_tokens_seen": 54643956,
      "step": 815
    },
    {
      "epoch": 0.0924822695035461,
      "loss": 1.5301568508148193,
      "loss_ce": 0.0037897247821092606,
      "loss_iou": 0.6875,
      "loss_num": 0.02978515625,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 54643956,
      "step": 815
    },
    {
      "epoch": 0.09259574468085106,
      "grad_norm": 12.548880577087402,
      "learning_rate": 5e-05,
      "loss": 1.3255,
      "num_input_tokens_seen": 54710276,
      "step": 816
    },
    {
      "epoch": 0.09259574468085106,
      "loss": 1.289239525794983,
      "loss_ce": 0.005059878341853619,
      "loss_iou": 0.56640625,
      "loss_num": 0.02978515625,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 54710276,
      "step": 816
    },
    {
      "epoch": 0.09270921985815603,
      "grad_norm": 11.730923652648926,
      "learning_rate": 5e-05,
      "loss": 1.5542,
      "num_input_tokens_seen": 54775668,
      "step": 817
    },
    {
      "epoch": 0.09270921985815603,
      "loss": 1.519740343093872,
      "loss_ce": 0.00606841966509819,
      "loss_iou": 0.65625,
      "loss_num": 0.040283203125,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 54775668,
      "step": 817
    },
    {
      "epoch": 0.09282269503546099,
      "grad_norm": 10.914003372192383,
      "learning_rate": 5e-05,
      "loss": 1.4578,
      "num_input_tokens_seen": 54843672,
      "step": 818
    },
    {
      "epoch": 0.09282269503546099,
      "loss": 1.4191893339157104,
      "loss_ce": 0.004638588055968285,
      "loss_iou": 0.63671875,
      "loss_num": 0.028076171875,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 54843672,
      "step": 818
    },
    {
      "epoch": 0.09293617021276596,
      "grad_norm": 17.992687225341797,
      "learning_rate": 5e-05,
      "loss": 1.2679,
      "num_input_tokens_seen": 54909848,
      "step": 819
    },
    {
      "epoch": 0.09293617021276596,
      "loss": 1.2664217948913574,
      "loss_ce": 0.0047029838897287846,
      "loss_iou": 0.53515625,
      "loss_num": 0.03857421875,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 54909848,
      "step": 819
    },
    {
      "epoch": 0.09304964539007092,
      "grad_norm": 14.202993392944336,
      "learning_rate": 5e-05,
      "loss": 1.5475,
      "num_input_tokens_seen": 54976868,
      "step": 820
    },
    {
      "epoch": 0.09304964539007092,
      "loss": 1.5251567363739014,
      "loss_ce": 0.005625544115900993,
      "loss_iou": 0.6640625,
      "loss_num": 0.038818359375,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 54976868,
      "step": 820
    },
    {
      "epoch": 0.09316312056737588,
      "grad_norm": 9.318476676940918,
      "learning_rate": 5e-05,
      "loss": 1.57,
      "num_input_tokens_seen": 55043896,
      "step": 821
    },
    {
      "epoch": 0.09316312056737588,
      "loss": 1.7009713649749756,
      "loss_ce": 0.00956512801349163,
      "loss_iou": 0.7265625,
      "loss_num": 0.047607421875,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 55043896,
      "step": 821
    },
    {
      "epoch": 0.09327659574468085,
      "grad_norm": 10.025309562683105,
      "learning_rate": 5e-05,
      "loss": 1.329,
      "num_input_tokens_seen": 55111688,
      "step": 822
    },
    {
      "epoch": 0.09327659574468085,
      "loss": 1.3281363248825073,
      "loss_ce": 0.0031851795502007008,
      "loss_iou": 0.57421875,
      "loss_num": 0.03466796875,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 55111688,
      "step": 822
    },
    {
      "epoch": 0.09339007092198581,
      "grad_norm": 14.732958793640137,
      "learning_rate": 5e-05,
      "loss": 1.4077,
      "num_input_tokens_seen": 55178904,
      "step": 823
    },
    {
      "epoch": 0.09339007092198581,
      "loss": 1.2339019775390625,
      "loss_ce": 0.004287688992917538,
      "loss_iou": 0.515625,
      "loss_num": 0.039306640625,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 55178904,
      "step": 823
    },
    {
      "epoch": 0.09350354609929078,
      "grad_norm": 52.04681396484375,
      "learning_rate": 5e-05,
      "loss": 1.6756,
      "num_input_tokens_seen": 55246128,
      "step": 824
    },
    {
      "epoch": 0.09350354609929078,
      "loss": 1.85117769241333,
      "loss_ce": 0.008404276333749294,
      "loss_iou": 0.80078125,
      "loss_num": 0.047607421875,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 55246128,
      "step": 824
    },
    {
      "epoch": 0.09361702127659574,
      "grad_norm": 12.291485786437988,
      "learning_rate": 5e-05,
      "loss": 1.9481,
      "num_input_tokens_seen": 55313360,
      "step": 825
    },
    {
      "epoch": 0.09361702127659574,
      "loss": 2.083256244659424,
      "loss_ce": 0.00610777921974659,
      "loss_iou": 0.890625,
      "loss_num": 0.05859375,
      "loss_xval": 2.078125,
      "num_input_tokens_seen": 55313360,
      "step": 825
    },
    {
      "epoch": 0.0937304964539007,
      "grad_norm": 12.726339340209961,
      "learning_rate": 5e-05,
      "loss": 1.8452,
      "num_input_tokens_seen": 55380940,
      "step": 826
    },
    {
      "epoch": 0.0937304964539007,
      "loss": 1.994403600692749,
      "loss_ce": 0.003192610340192914,
      "loss_iou": 0.859375,
      "loss_num": 0.054443359375,
      "loss_xval": 1.9921875,
      "num_input_tokens_seen": 55380940,
      "step": 826
    },
    {
      "epoch": 0.09384397163120567,
      "grad_norm": 10.29378890991211,
      "learning_rate": 5e-05,
      "loss": 1.6143,
      "num_input_tokens_seen": 55447676,
      "step": 827
    },
    {
      "epoch": 0.09384397163120567,
      "loss": 1.602121353149414,
      "loss_ce": 0.007394798099994659,
      "loss_iou": 0.66796875,
      "loss_num": 0.0517578125,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 55447676,
      "step": 827
    },
    {
      "epoch": 0.09395744680851063,
      "grad_norm": 15.89420223236084,
      "learning_rate": 5e-05,
      "loss": 1.5208,
      "num_input_tokens_seen": 55513980,
      "step": 828
    },
    {
      "epoch": 0.09395744680851063,
      "loss": 1.5031977891921997,
      "loss_ce": 0.005150963086634874,
      "loss_iou": 0.67578125,
      "loss_num": 0.02978515625,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 55513980,
      "step": 828
    },
    {
      "epoch": 0.0940709219858156,
      "grad_norm": 16.62685203552246,
      "learning_rate": 5e-05,
      "loss": 1.6307,
      "num_input_tokens_seen": 55580032,
      "step": 829
    },
    {
      "epoch": 0.0940709219858156,
      "loss": 1.7387150526046753,
      "loss_ce": 0.003363494062796235,
      "loss_iou": 0.72265625,
      "loss_num": 0.05712890625,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 55580032,
      "step": 829
    },
    {
      "epoch": 0.09418439716312056,
      "grad_norm": 24.807971954345703,
      "learning_rate": 5e-05,
      "loss": 1.4932,
      "num_input_tokens_seen": 55646868,
      "step": 830
    },
    {
      "epoch": 0.09418439716312056,
      "loss": 1.4462214708328247,
      "loss_ce": 0.006768354214727879,
      "loss_iou": 0.65234375,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 55646868,
      "step": 830
    },
    {
      "epoch": 0.09429787234042553,
      "grad_norm": 14.105827331542969,
      "learning_rate": 5e-05,
      "loss": 1.7413,
      "num_input_tokens_seen": 55714576,
      "step": 831
    },
    {
      "epoch": 0.09429787234042553,
      "loss": 1.719688057899475,
      "loss_ce": 0.004844316281378269,
      "loss_iou": 0.73828125,
      "loss_num": 0.0478515625,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 55714576,
      "step": 831
    },
    {
      "epoch": 0.09441134751773049,
      "grad_norm": 47.37888717651367,
      "learning_rate": 5e-05,
      "loss": 1.3326,
      "num_input_tokens_seen": 55781512,
      "step": 832
    },
    {
      "epoch": 0.09441134751773049,
      "loss": 1.3204468488693237,
      "loss_ce": 0.008984504267573357,
      "loss_iou": 0.55078125,
      "loss_num": 0.041748046875,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 55781512,
      "step": 832
    },
    {
      "epoch": 0.09452482269503545,
      "grad_norm": 25.7675724029541,
      "learning_rate": 5e-05,
      "loss": 1.3519,
      "num_input_tokens_seen": 55848888,
      "step": 833
    },
    {
      "epoch": 0.09452482269503545,
      "loss": 1.44124174118042,
      "loss_ce": 0.005694915074855089,
      "loss_iou": 0.65234375,
      "loss_num": 0.026123046875,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 55848888,
      "step": 833
    },
    {
      "epoch": 0.09463829787234043,
      "grad_norm": 22.724254608154297,
      "learning_rate": 5e-05,
      "loss": 1.8922,
      "num_input_tokens_seen": 55916044,
      "step": 834
    },
    {
      "epoch": 0.09463829787234043,
      "loss": 1.9705291986465454,
      "loss_ce": 0.005685476586222649,
      "loss_iou": 0.8671875,
      "loss_num": 0.046630859375,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 55916044,
      "step": 834
    },
    {
      "epoch": 0.0947517730496454,
      "grad_norm": 17.825613021850586,
      "learning_rate": 5e-05,
      "loss": 1.6852,
      "num_input_tokens_seen": 55983528,
      "step": 835
    },
    {
      "epoch": 0.0947517730496454,
      "loss": 1.8006342649459839,
      "loss_ce": 0.007665444165468216,
      "loss_iou": 0.7421875,
      "loss_num": 0.06103515625,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 55983528,
      "step": 835
    },
    {
      "epoch": 0.09486524822695036,
      "grad_norm": 9.322111129760742,
      "learning_rate": 5e-05,
      "loss": 1.3606,
      "num_input_tokens_seen": 56047800,
      "step": 836
    },
    {
      "epoch": 0.09486524822695036,
      "loss": 1.4540553092956543,
      "loss_ce": 0.003860075492411852,
      "loss_iou": 0.61328125,
      "loss_num": 0.04443359375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 56047800,
      "step": 836
    },
    {
      "epoch": 0.09497872340425532,
      "grad_norm": 22.738935470581055,
      "learning_rate": 5e-05,
      "loss": 1.2816,
      "num_input_tokens_seen": 56114824,
      "step": 837
    },
    {
      "epoch": 0.09497872340425532,
      "loss": 1.3281960487365723,
      "loss_ce": 0.009836691431701183,
      "loss_iou": 0.546875,
      "loss_num": 0.044189453125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 56114824,
      "step": 837
    },
    {
      "epoch": 0.09509219858156029,
      "grad_norm": 15.268716812133789,
      "learning_rate": 5e-05,
      "loss": 1.6018,
      "num_input_tokens_seen": 56181720,
      "step": 838
    },
    {
      "epoch": 0.09509219858156029,
      "loss": 1.5255711078643799,
      "loss_ce": 0.003110166871920228,
      "loss_iou": 0.671875,
      "loss_num": 0.035400390625,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 56181720,
      "step": 838
    },
    {
      "epoch": 0.09520567375886525,
      "grad_norm": 15.144120216369629,
      "learning_rate": 5e-05,
      "loss": 1.7033,
      "num_input_tokens_seen": 56249352,
      "step": 839
    },
    {
      "epoch": 0.09520567375886525,
      "loss": 1.6758770942687988,
      "loss_ce": 0.0037578961346298456,
      "loss_iou": 0.67578125,
      "loss_num": 0.06396484375,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 56249352,
      "step": 839
    },
    {
      "epoch": 0.09531914893617022,
      "grad_norm": 28.020246505737305,
      "learning_rate": 5e-05,
      "loss": 1.3746,
      "num_input_tokens_seen": 56316112,
      "step": 840
    },
    {
      "epoch": 0.09531914893617022,
      "loss": 1.5005817413330078,
      "loss_ce": 0.00741760665550828,
      "loss_iou": 0.64453125,
      "loss_num": 0.041015625,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 56316112,
      "step": 840
    },
    {
      "epoch": 0.09543262411347518,
      "grad_norm": 24.6956787109375,
      "learning_rate": 5e-05,
      "loss": 1.5997,
      "num_input_tokens_seen": 56383716,
      "step": 841
    },
    {
      "epoch": 0.09543262411347518,
      "loss": 1.412609577178955,
      "loss_ce": 0.003918137401342392,
      "loss_iou": 0.625,
      "loss_num": 0.031005859375,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 56383716,
      "step": 841
    },
    {
      "epoch": 0.09554609929078015,
      "grad_norm": 21.29444122314453,
      "learning_rate": 5e-05,
      "loss": 1.6386,
      "num_input_tokens_seen": 56450820,
      "step": 842
    },
    {
      "epoch": 0.09554609929078015,
      "loss": 1.7463972568511963,
      "loss_ce": 0.007139498367905617,
      "loss_iou": 0.76953125,
      "loss_num": 0.039794921875,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 56450820,
      "step": 842
    },
    {
      "epoch": 0.09565957446808511,
      "grad_norm": 14.855281829833984,
      "learning_rate": 5e-05,
      "loss": 1.5776,
      "num_input_tokens_seen": 56517516,
      "step": 843
    },
    {
      "epoch": 0.09565957446808511,
      "loss": 1.413118600845337,
      "loss_ce": 0.0029624844901263714,
      "loss_iou": 0.6171875,
      "loss_num": 0.035888671875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 56517516,
      "step": 843
    },
    {
      "epoch": 0.09577304964539007,
      "grad_norm": 15.9175443649292,
      "learning_rate": 5e-05,
      "loss": 1.6307,
      "num_input_tokens_seen": 56583884,
      "step": 844
    },
    {
      "epoch": 0.09577304964539007,
      "loss": 1.693429946899414,
      "loss_ce": 0.007882962003350258,
      "loss_iou": 0.75,
      "loss_num": 0.038330078125,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 56583884,
      "step": 844
    },
    {
      "epoch": 0.09588652482269504,
      "grad_norm": 17.317169189453125,
      "learning_rate": 5e-05,
      "loss": 1.5582,
      "num_input_tokens_seen": 56650836,
      "step": 845
    },
    {
      "epoch": 0.09588652482269504,
      "loss": 1.477543830871582,
      "loss_ce": 0.0052538407035171986,
      "loss_iou": 0.609375,
      "loss_num": 0.05029296875,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 56650836,
      "step": 845
    },
    {
      "epoch": 0.096,
      "grad_norm": 40.59067916870117,
      "learning_rate": 5e-05,
      "loss": 1.699,
      "num_input_tokens_seen": 56717900,
      "step": 846
    },
    {
      "epoch": 0.096,
      "loss": 1.658452033996582,
      "loss_ce": 0.004155115224421024,
      "loss_iou": 0.703125,
      "loss_num": 0.049560546875,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 56717900,
      "step": 846
    },
    {
      "epoch": 0.09611347517730497,
      "grad_norm": 13.031639099121094,
      "learning_rate": 5e-05,
      "loss": 1.5689,
      "num_input_tokens_seen": 56784216,
      "step": 847
    },
    {
      "epoch": 0.09611347517730497,
      "loss": 1.6058634519577026,
      "loss_ce": 0.004300982691347599,
      "loss_iou": 0.66796875,
      "loss_num": 0.052978515625,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 56784216,
      "step": 847
    },
    {
      "epoch": 0.09622695035460993,
      "grad_norm": 12.524463653564453,
      "learning_rate": 5e-05,
      "loss": 1.6681,
      "num_input_tokens_seen": 56851252,
      "step": 848
    },
    {
      "epoch": 0.09622695035460993,
      "loss": 2.152531623840332,
      "loss_ce": 0.010930212214589119,
      "loss_iou": 0.90234375,
      "loss_num": 0.06689453125,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 56851252,
      "step": 848
    },
    {
      "epoch": 0.0963404255319149,
      "grad_norm": 11.779953956604004,
      "learning_rate": 5e-05,
      "loss": 1.5637,
      "num_input_tokens_seen": 56918076,
      "step": 849
    },
    {
      "epoch": 0.0963404255319149,
      "loss": 1.527219533920288,
      "loss_ce": 0.003782002255320549,
      "loss_iou": 0.65234375,
      "loss_num": 0.043212890625,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 56918076,
      "step": 849
    },
    {
      "epoch": 0.09645390070921986,
      "grad_norm": 9.932882308959961,
      "learning_rate": 5e-05,
      "loss": 1.5221,
      "num_input_tokens_seen": 56985676,
      "step": 850
    },
    {
      "epoch": 0.09645390070921986,
      "loss": 1.5331764221191406,
      "loss_ce": 0.0029031243175268173,
      "loss_iou": 0.6484375,
      "loss_num": 0.0458984375,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 56985676,
      "step": 850
    },
    {
      "epoch": 0.09656737588652482,
      "grad_norm": 15.018572807312012,
      "learning_rate": 5e-05,
      "loss": 1.3988,
      "num_input_tokens_seen": 57053276,
      "step": 851
    },
    {
      "epoch": 0.09656737588652482,
      "loss": 1.3162267208099365,
      "loss_ce": 0.0032383939251303673,
      "loss_iou": 0.57421875,
      "loss_num": 0.032470703125,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 57053276,
      "step": 851
    },
    {
      "epoch": 0.09668085106382979,
      "grad_norm": 42.00596237182617,
      "learning_rate": 5e-05,
      "loss": 1.5165,
      "num_input_tokens_seen": 57121204,
      "step": 852
    },
    {
      "epoch": 0.09668085106382979,
      "loss": 1.2585817575454712,
      "loss_ce": 0.004675484262406826,
      "loss_iou": 0.5625,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 57121204,
      "step": 852
    },
    {
      "epoch": 0.09679432624113475,
      "grad_norm": 27.998653411865234,
      "learning_rate": 5e-05,
      "loss": 1.606,
      "num_input_tokens_seen": 57187900,
      "step": 853
    },
    {
      "epoch": 0.09679432624113475,
      "loss": 1.76949143409729,
      "loss_ce": 0.00465982872992754,
      "loss_iou": 0.765625,
      "loss_num": 0.046630859375,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 57187900,
      "step": 853
    },
    {
      "epoch": 0.09690780141843972,
      "grad_norm": 12.118827819824219,
      "learning_rate": 5e-05,
      "loss": 1.7247,
      "num_input_tokens_seen": 57253864,
      "step": 854
    },
    {
      "epoch": 0.09690780141843972,
      "loss": 1.7601617574691772,
      "loss_ce": 0.005278883036226034,
      "loss_iou": 0.76953125,
      "loss_num": 0.04296875,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 57253864,
      "step": 854
    },
    {
      "epoch": 0.09702127659574468,
      "grad_norm": 12.05221939086914,
      "learning_rate": 5e-05,
      "loss": 1.2929,
      "num_input_tokens_seen": 57319716,
      "step": 855
    },
    {
      "epoch": 0.09702127659574468,
      "loss": 1.1412334442138672,
      "loss_ce": 0.00433154683560133,
      "loss_iou": 0.5,
      "loss_num": 0.027099609375,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 57319716,
      "step": 855
    },
    {
      "epoch": 0.09713475177304964,
      "grad_norm": 89.58324432373047,
      "learning_rate": 5e-05,
      "loss": 1.4627,
      "num_input_tokens_seen": 57386696,
      "step": 856
    },
    {
      "epoch": 0.09713475177304964,
      "loss": 1.4258949756622314,
      "loss_ce": 0.0035316634457558393,
      "loss_iou": 0.60546875,
      "loss_num": 0.042236328125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 57386696,
      "step": 856
    },
    {
      "epoch": 0.09724822695035461,
      "grad_norm": 18.06460952758789,
      "learning_rate": 5e-05,
      "loss": 1.5331,
      "num_input_tokens_seen": 57454124,
      "step": 857
    },
    {
      "epoch": 0.09724822695035461,
      "loss": 1.4501630067825317,
      "loss_ce": 0.0038739757146686316,
      "loss_iou": 0.671875,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 57454124,
      "step": 857
    },
    {
      "epoch": 0.09736170212765957,
      "grad_norm": 27.14204216003418,
      "learning_rate": 5e-05,
      "loss": 1.6478,
      "num_input_tokens_seen": 57520852,
      "step": 858
    },
    {
      "epoch": 0.09736170212765957,
      "loss": 1.7887036800384521,
      "loss_ce": 0.0050123101100325584,
      "loss_iou": 0.796875,
      "loss_num": 0.038330078125,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 57520852,
      "step": 858
    },
    {
      "epoch": 0.09747517730496454,
      "grad_norm": 15.254204750061035,
      "learning_rate": 5e-05,
      "loss": 1.633,
      "num_input_tokens_seen": 57588016,
      "step": 859
    },
    {
      "epoch": 0.09747517730496454,
      "loss": 1.416933298110962,
      "loss_ce": 0.007265183143317699,
      "loss_iou": 0.58203125,
      "loss_num": 0.048828125,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 57588016,
      "step": 859
    },
    {
      "epoch": 0.0975886524822695,
      "grad_norm": 16.424407958984375,
      "learning_rate": 5e-05,
      "loss": 1.622,
      "num_input_tokens_seen": 57656388,
      "step": 860
    },
    {
      "epoch": 0.0975886524822695,
      "loss": 1.6506870985031128,
      "loss_ce": 0.004691001959145069,
      "loss_iou": 0.71484375,
      "loss_num": 0.04296875,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 57656388,
      "step": 860
    },
    {
      "epoch": 0.09770212765957446,
      "grad_norm": 17.656030654907227,
      "learning_rate": 5e-05,
      "loss": 1.4462,
      "num_input_tokens_seen": 57724012,
      "step": 861
    },
    {
      "epoch": 0.09770212765957446,
      "loss": 1.3903841972351074,
      "loss_ce": 0.00415370799601078,
      "loss_iou": 0.5859375,
      "loss_num": 0.042236328125,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 57724012,
      "step": 861
    },
    {
      "epoch": 0.09781560283687943,
      "grad_norm": 19.136232376098633,
      "learning_rate": 5e-05,
      "loss": 1.5664,
      "num_input_tokens_seen": 57791352,
      "step": 862
    },
    {
      "epoch": 0.09781560283687943,
      "loss": 1.5357394218444824,
      "loss_ce": 0.006442476063966751,
      "loss_iou": 0.69921875,
      "loss_num": 0.0255126953125,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 57791352,
      "step": 862
    },
    {
      "epoch": 0.09792907801418439,
      "grad_norm": 19.460739135742188,
      "learning_rate": 5e-05,
      "loss": 1.4165,
      "num_input_tokens_seen": 57858776,
      "step": 863
    },
    {
      "epoch": 0.09792907801418439,
      "loss": 1.442923903465271,
      "loss_ce": 0.007377034984529018,
      "loss_iou": 0.625,
      "loss_num": 0.037109375,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 57858776,
      "step": 863
    },
    {
      "epoch": 0.09804255319148936,
      "grad_norm": 12.283036231994629,
      "learning_rate": 5e-05,
      "loss": 1.327,
      "num_input_tokens_seen": 57926532,
      "step": 864
    },
    {
      "epoch": 0.09804255319148936,
      "loss": 1.3825165033340454,
      "loss_ce": 0.003869678359478712,
      "loss_iou": 0.59765625,
      "loss_num": 0.037109375,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 57926532,
      "step": 864
    },
    {
      "epoch": 0.09815602836879432,
      "grad_norm": 29.517168045043945,
      "learning_rate": 5e-05,
      "loss": 1.671,
      "num_input_tokens_seen": 57994476,
      "step": 865
    },
    {
      "epoch": 0.09815602836879432,
      "loss": 1.6969177722930908,
      "loss_ce": 0.004534885287284851,
      "loss_iou": 0.71875,
      "loss_num": 0.051513671875,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 57994476,
      "step": 865
    },
    {
      "epoch": 0.09826950354609928,
      "grad_norm": 24.452152252197266,
      "learning_rate": 5e-05,
      "loss": 1.5945,
      "num_input_tokens_seen": 58061544,
      "step": 866
    },
    {
      "epoch": 0.09826950354609928,
      "loss": 1.6567769050598145,
      "loss_ce": 0.0024799692910164595,
      "loss_iou": 0.7421875,
      "loss_num": 0.03369140625,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 58061544,
      "step": 866
    },
    {
      "epoch": 0.09838297872340425,
      "grad_norm": 17.773183822631836,
      "learning_rate": 5e-05,
      "loss": 1.3475,
      "num_input_tokens_seen": 58128692,
      "step": 867
    },
    {
      "epoch": 0.09838297872340425,
      "loss": 1.2777776718139648,
      "loss_ce": 0.009039822965860367,
      "loss_iou": 0.5546875,
      "loss_num": 0.031494140625,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 58128692,
      "step": 867
    },
    {
      "epoch": 0.09849645390070921,
      "grad_norm": 14.259747505187988,
      "learning_rate": 5e-05,
      "loss": 1.7358,
      "num_input_tokens_seen": 58196100,
      "step": 868
    },
    {
      "epoch": 0.09849645390070921,
      "loss": 1.9765307903289795,
      "loss_ce": 0.007780767977237701,
      "loss_iou": 0.81640625,
      "loss_num": 0.06640625,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 58196100,
      "step": 868
    },
    {
      "epoch": 0.09860992907801419,
      "grad_norm": 19.130264282226562,
      "learning_rate": 5e-05,
      "loss": 1.3924,
      "num_input_tokens_seen": 58261616,
      "step": 869
    },
    {
      "epoch": 0.09860992907801419,
      "loss": 1.2323887348175049,
      "loss_ce": 0.0038731747772544622,
      "loss_iou": 0.53515625,
      "loss_num": 0.031494140625,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 58261616,
      "step": 869
    },
    {
      "epoch": 0.09872340425531916,
      "grad_norm": 16.30156707763672,
      "learning_rate": 5e-05,
      "loss": 1.6797,
      "num_input_tokens_seen": 58329800,
      "step": 870
    },
    {
      "epoch": 0.09872340425531916,
      "loss": 1.5361130237579346,
      "loss_ce": 0.003886510618031025,
      "loss_iou": 0.68359375,
      "loss_num": 0.03271484375,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 58329800,
      "step": 870
    },
    {
      "epoch": 0.09883687943262412,
      "grad_norm": 23.45389175415039,
      "learning_rate": 5e-05,
      "loss": 1.5194,
      "num_input_tokens_seen": 58397788,
      "step": 871
    },
    {
      "epoch": 0.09883687943262412,
      "loss": 1.443747878074646,
      "loss_ce": 0.006736176088452339,
      "loss_iou": 0.62890625,
      "loss_num": 0.03515625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 58397788,
      "step": 871
    },
    {
      "epoch": 0.09895035460992908,
      "grad_norm": 18.9941349029541,
      "learning_rate": 5e-05,
      "loss": 1.5357,
      "num_input_tokens_seen": 58463788,
      "step": 872
    },
    {
      "epoch": 0.09895035460992908,
      "loss": 1.6467543840408325,
      "loss_ce": 0.0016432839911431074,
      "loss_iou": 0.73046875,
      "loss_num": 0.037353515625,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 58463788,
      "step": 872
    },
    {
      "epoch": 0.09906382978723405,
      "grad_norm": 8.443438529968262,
      "learning_rate": 5e-05,
      "loss": 1.5142,
      "num_input_tokens_seen": 58531384,
      "step": 873
    },
    {
      "epoch": 0.09906382978723405,
      "loss": 1.7016189098358154,
      "loss_ce": 0.005329814739525318,
      "loss_iou": 0.7421875,
      "loss_num": 0.04248046875,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 58531384,
      "step": 873
    },
    {
      "epoch": 0.09917730496453901,
      "grad_norm": 10.900008201599121,
      "learning_rate": 5e-05,
      "loss": 1.4049,
      "num_input_tokens_seen": 58599700,
      "step": 874
    },
    {
      "epoch": 0.09917730496453901,
      "loss": 1.358246088027954,
      "loss_ce": 0.0027772269677370787,
      "loss_iou": 0.58984375,
      "loss_num": 0.034912109375,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 58599700,
      "step": 874
    },
    {
      "epoch": 0.09929078014184398,
      "grad_norm": 17.986614227294922,
      "learning_rate": 5e-05,
      "loss": 1.5375,
      "num_input_tokens_seen": 58666972,
      "step": 875
    },
    {
      "epoch": 0.09929078014184398,
      "loss": 1.4489095211029053,
      "loss_ce": 0.004085327498614788,
      "loss_iou": 0.66015625,
      "loss_num": 0.025390625,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 58666972,
      "step": 875
    },
    {
      "epoch": 0.09940425531914894,
      "grad_norm": 22.120697021484375,
      "learning_rate": 5e-05,
      "loss": 1.5668,
      "num_input_tokens_seen": 58734180,
      "step": 876
    },
    {
      "epoch": 0.09940425531914894,
      "loss": 1.6812915802001953,
      "loss_ce": 0.004533727187663317,
      "loss_iou": 0.76171875,
      "loss_num": 0.03076171875,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 58734180,
      "step": 876
    },
    {
      "epoch": 0.0995177304964539,
      "grad_norm": 16.74956703186035,
      "learning_rate": 5e-05,
      "loss": 1.6915,
      "num_input_tokens_seen": 58801360,
      "step": 877
    },
    {
      "epoch": 0.0995177304964539,
      "loss": 1.5229655504226685,
      "loss_ce": 0.008317109197378159,
      "loss_iou": 0.71875,
      "loss_num": 0.0146484375,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 58801360,
      "step": 877
    },
    {
      "epoch": 0.09963120567375887,
      "grad_norm": 46.79178237915039,
      "learning_rate": 5e-05,
      "loss": 1.4727,
      "num_input_tokens_seen": 58868240,
      "step": 878
    },
    {
      "epoch": 0.09963120567375887,
      "loss": 1.201711893081665,
      "loss_ce": 0.01079382374882698,
      "loss_iou": 0.53515625,
      "loss_num": 0.02392578125,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 58868240,
      "step": 878
    },
    {
      "epoch": 0.09974468085106383,
      "grad_norm": 14.738409042358398,
      "learning_rate": 5e-05,
      "loss": 1.6587,
      "num_input_tokens_seen": 58935448,
      "step": 879
    },
    {
      "epoch": 0.09974468085106383,
      "loss": 1.8216681480407715,
      "loss_ce": 0.003308888291940093,
      "loss_iou": 0.79296875,
      "loss_num": 0.047119140625,
      "loss_xval": 1.8203125,
      "num_input_tokens_seen": 58935448,
      "step": 879
    },
    {
      "epoch": 0.0998581560283688,
      "grad_norm": 12.96946907043457,
      "learning_rate": 5e-05,
      "loss": 1.2499,
      "num_input_tokens_seen": 59001864,
      "step": 880
    },
    {
      "epoch": 0.0998581560283688,
      "loss": 1.224035620689392,
      "loss_ce": 0.00723876990377903,
      "loss_iou": 0.5625,
      "loss_num": 0.018798828125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 59001864,
      "step": 880
    },
    {
      "epoch": 0.09997163120567376,
      "grad_norm": 23.521617889404297,
      "learning_rate": 5e-05,
      "loss": 1.3144,
      "num_input_tokens_seen": 59068564,
      "step": 881
    },
    {
      "epoch": 0.09997163120567376,
      "loss": 1.2136961221694946,
      "loss_ce": 0.003735119942575693,
      "loss_iou": 0.515625,
      "loss_num": 0.0361328125,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 59068564,
      "step": 881
    },
    {
      "epoch": 0.10008510638297873,
      "grad_norm": 16.0693359375,
      "learning_rate": 5e-05,
      "loss": 1.8565,
      "num_input_tokens_seen": 59136020,
      "step": 882
    },
    {
      "epoch": 0.10008510638297873,
      "loss": 1.7528002262115479,
      "loss_ce": 0.0018236164469271898,
      "loss_iou": 0.7734375,
      "loss_num": 0.040283203125,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 59136020,
      "step": 882
    },
    {
      "epoch": 0.10019858156028369,
      "grad_norm": 43.36454391479492,
      "learning_rate": 5e-05,
      "loss": 1.2634,
      "num_input_tokens_seen": 59202864,
      "step": 883
    },
    {
      "epoch": 0.10019858156028369,
      "loss": 1.1557819843292236,
      "loss_ce": 0.006001701578497887,
      "loss_iou": 0.498046875,
      "loss_num": 0.030517578125,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 59202864,
      "step": 883
    },
    {
      "epoch": 0.10031205673758865,
      "grad_norm": 13.936368942260742,
      "learning_rate": 5e-05,
      "loss": 1.3562,
      "num_input_tokens_seen": 59269204,
      "step": 884
    },
    {
      "epoch": 0.10031205673758865,
      "loss": 1.5136878490447998,
      "loss_ce": 0.004898850806057453,
      "loss_iou": 0.671875,
      "loss_num": 0.032470703125,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 59269204,
      "step": 884
    },
    {
      "epoch": 0.10042553191489362,
      "grad_norm": 12.324028015136719,
      "learning_rate": 5e-05,
      "loss": 1.5213,
      "num_input_tokens_seen": 59335632,
      "step": 885
    },
    {
      "epoch": 0.10042553191489362,
      "loss": 1.7249538898468018,
      "loss_ce": 0.008156989701092243,
      "loss_iou": 0.73046875,
      "loss_num": 0.050537109375,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 59335632,
      "step": 885
    },
    {
      "epoch": 0.10053900709219858,
      "grad_norm": 15.272307395935059,
      "learning_rate": 5e-05,
      "loss": 1.3925,
      "num_input_tokens_seen": 59402880,
      "step": 886
    },
    {
      "epoch": 0.10053900709219858,
      "loss": 1.6896393299102783,
      "loss_ce": 0.004580694250762463,
      "loss_iou": 0.734375,
      "loss_num": 0.04296875,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 59402880,
      "step": 886
    },
    {
      "epoch": 0.10065248226950355,
      "grad_norm": 13.944900512695312,
      "learning_rate": 5e-05,
      "loss": 1.4003,
      "num_input_tokens_seen": 59469924,
      "step": 887
    },
    {
      "epoch": 0.10065248226950355,
      "loss": 1.3892476558685303,
      "loss_ce": 0.00820518471300602,
      "loss_iou": 0.546875,
      "loss_num": 0.05859375,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 59469924,
      "step": 887
    },
    {
      "epoch": 0.10076595744680851,
      "grad_norm": 10.619343757629395,
      "learning_rate": 5e-05,
      "loss": 1.3265,
      "num_input_tokens_seen": 59536108,
      "step": 888
    },
    {
      "epoch": 0.10076595744680851,
      "loss": 1.2604514360427856,
      "loss_ce": 0.00630109803751111,
      "loss_iou": 0.56640625,
      "loss_num": 0.024169921875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 59536108,
      "step": 888
    },
    {
      "epoch": 0.10087943262411347,
      "grad_norm": 13.80830192565918,
      "learning_rate": 5e-05,
      "loss": 1.5438,
      "num_input_tokens_seen": 59603216,
      "step": 889
    },
    {
      "epoch": 0.10087943262411347,
      "loss": 1.6050089597702026,
      "loss_ce": 0.006864422932267189,
      "loss_iou": 0.6875,
      "loss_num": 0.044189453125,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 59603216,
      "step": 889
    },
    {
      "epoch": 0.10099290780141844,
      "grad_norm": 8.394454002380371,
      "learning_rate": 5e-05,
      "loss": 1.1084,
      "num_input_tokens_seen": 59669292,
      "step": 890
    },
    {
      "epoch": 0.10099290780141844,
      "loss": 1.1877381801605225,
      "loss_ce": 0.005121041089296341,
      "loss_iou": 0.5078125,
      "loss_num": 0.03369140625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 59669292,
      "step": 890
    },
    {
      "epoch": 0.1011063829787234,
      "grad_norm": 11.073942184448242,
      "learning_rate": 5e-05,
      "loss": 1.2476,
      "num_input_tokens_seen": 59735540,
      "step": 891
    },
    {
      "epoch": 0.1011063829787234,
      "loss": 1.1424715518951416,
      "loss_ce": 0.009201315231621265,
      "loss_iou": 0.453125,
      "loss_num": 0.045654296875,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 59735540,
      "step": 891
    },
    {
      "epoch": 0.10121985815602837,
      "grad_norm": 15.15954303741455,
      "learning_rate": 5e-05,
      "loss": 1.4659,
      "num_input_tokens_seen": 59802712,
      "step": 892
    },
    {
      "epoch": 0.10121985815602837,
      "loss": 1.5877282619476318,
      "loss_ce": 0.004964692518115044,
      "loss_iou": 0.66796875,
      "loss_num": 0.050048828125,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 59802712,
      "step": 892
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 40.70849609375,
      "learning_rate": 5e-05,
      "loss": 1.5917,
      "num_input_tokens_seen": 59870872,
      "step": 893
    },
    {
      "epoch": 0.10133333333333333,
      "loss": 1.6079113483428955,
      "loss_ce": 0.0034191138111054897,
      "loss_iou": 0.71484375,
      "loss_num": 0.03515625,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 59870872,
      "step": 893
    },
    {
      "epoch": 0.1014468085106383,
      "grad_norm": 13.822884559631348,
      "learning_rate": 5e-05,
      "loss": 1.8852,
      "num_input_tokens_seen": 59938260,
      "step": 894
    },
    {
      "epoch": 0.1014468085106383,
      "loss": 1.9356586933135986,
      "loss_ce": 0.004018066450953484,
      "loss_iou": 0.828125,
      "loss_num": 0.0546875,
      "loss_xval": 1.9296875,
      "num_input_tokens_seen": 59938260,
      "step": 894
    },
    {
      "epoch": 0.10156028368794326,
      "grad_norm": 14.38967514038086,
      "learning_rate": 5e-05,
      "loss": 1.4693,
      "num_input_tokens_seen": 60006020,
      "step": 895
    },
    {
      "epoch": 0.10156028368794326,
      "loss": 1.5277798175811768,
      "loss_ce": 0.006295415572822094,
      "loss_iou": 0.66015625,
      "loss_num": 0.040771484375,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 60006020,
      "step": 895
    },
    {
      "epoch": 0.10167375886524822,
      "grad_norm": 16.272043228149414,
      "learning_rate": 5e-05,
      "loss": 1.4581,
      "num_input_tokens_seen": 60073140,
      "step": 896
    },
    {
      "epoch": 0.10167375886524822,
      "loss": 1.3270472288131714,
      "loss_ce": 0.006734709721058607,
      "loss_iou": 0.609375,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 60073140,
      "step": 896
    },
    {
      "epoch": 0.10178723404255319,
      "grad_norm": 68.5086898803711,
      "learning_rate": 5e-05,
      "loss": 1.4759,
      "num_input_tokens_seen": 60139764,
      "step": 897
    },
    {
      "epoch": 0.10178723404255319,
      "loss": 1.4944535493850708,
      "loss_ce": 0.0100785493850708,
      "loss_iou": 0.6640625,
      "loss_num": 0.03125,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 60139764,
      "step": 897
    },
    {
      "epoch": 0.10190070921985815,
      "grad_norm": 17.546106338500977,
      "learning_rate": 5e-05,
      "loss": 1.4878,
      "num_input_tokens_seen": 60207200,
      "step": 898
    },
    {
      "epoch": 0.10190070921985815,
      "loss": 1.484826922416687,
      "loss_ce": 0.006799562368541956,
      "loss_iou": 0.65625,
      "loss_num": 0.03271484375,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 60207200,
      "step": 898
    },
    {
      "epoch": 0.10201418439716312,
      "grad_norm": 17.613052368164062,
      "learning_rate": 5e-05,
      "loss": 1.5302,
      "num_input_tokens_seen": 60275176,
      "step": 899
    },
    {
      "epoch": 0.10201418439716312,
      "loss": 1.2771282196044922,
      "loss_ce": 0.005155508406460285,
      "loss_iou": 0.55859375,
      "loss_num": 0.03076171875,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 60275176,
      "step": 899
    },
    {
      "epoch": 0.10212765957446808,
      "grad_norm": 11.98598575592041,
      "learning_rate": 5e-05,
      "loss": 1.4838,
      "num_input_tokens_seen": 60342172,
      "step": 900
    },
    {
      "epoch": 0.10212765957446808,
      "loss": 1.3135193586349487,
      "loss_ce": 0.006878729909658432,
      "loss_iou": 0.5859375,
      "loss_num": 0.02734375,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 60342172,
      "step": 900
    },
    {
      "epoch": 0.10224113475177304,
      "grad_norm": 16.081127166748047,
      "learning_rate": 5e-05,
      "loss": 1.4256,
      "num_input_tokens_seen": 60409020,
      "step": 901
    },
    {
      "epoch": 0.10224113475177304,
      "loss": 1.3493714332580566,
      "loss_ce": 0.005133205093443394,
      "loss_iou": 0.59375,
      "loss_num": 0.03125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 60409020,
      "step": 901
    },
    {
      "epoch": 0.10235460992907801,
      "grad_norm": 10.60008430480957,
      "learning_rate": 5e-05,
      "loss": 1.3854,
      "num_input_tokens_seen": 60474836,
      "step": 902
    },
    {
      "epoch": 0.10235460992907801,
      "loss": 1.4031951427459717,
      "loss_ce": 0.008907980285584927,
      "loss_iou": 0.6015625,
      "loss_num": 0.037841796875,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 60474836,
      "step": 902
    },
    {
      "epoch": 0.10246808510638297,
      "grad_norm": 10.624584197998047,
      "learning_rate": 5e-05,
      "loss": 1.3411,
      "num_input_tokens_seen": 60543156,
      "step": 903
    },
    {
      "epoch": 0.10246808510638297,
      "loss": 1.2701570987701416,
      "loss_ce": 0.0035555714275687933,
      "loss_iou": 0.58203125,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 60543156,
      "step": 903
    },
    {
      "epoch": 0.10258156028368794,
      "grad_norm": 30.231441497802734,
      "learning_rate": 5e-05,
      "loss": 1.2676,
      "num_input_tokens_seen": 60609152,
      "step": 904
    },
    {
      "epoch": 0.10258156028368794,
      "loss": 1.451985478401184,
      "loss_ce": 0.007222282700240612,
      "loss_iou": 0.609375,
      "loss_num": 0.04638671875,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 60609152,
      "step": 904
    },
    {
      "epoch": 0.10269503546099291,
      "grad_norm": 26.850444793701172,
      "learning_rate": 5e-05,
      "loss": 1.5855,
      "num_input_tokens_seen": 60676060,
      "step": 905
    },
    {
      "epoch": 0.10269503546099291,
      "loss": 1.3574804067611694,
      "loss_ce": 0.005917911883443594,
      "loss_iou": 0.6171875,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 60676060,
      "step": 905
    },
    {
      "epoch": 0.10280851063829788,
      "grad_norm": 14.780821800231934,
      "learning_rate": 5e-05,
      "loss": 1.6912,
      "num_input_tokens_seen": 60743508,
      "step": 906
    },
    {
      "epoch": 0.10280851063829788,
      "loss": 1.5846028327941895,
      "loss_ce": 0.005501170642673969,
      "loss_iou": 0.70703125,
      "loss_num": 0.032470703125,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 60743508,
      "step": 906
    },
    {
      "epoch": 0.10292198581560284,
      "grad_norm": 10.777795791625977,
      "learning_rate": 5e-05,
      "loss": 1.4484,
      "num_input_tokens_seen": 60811680,
      "step": 907
    },
    {
      "epoch": 0.10292198581560284,
      "loss": 1.570359706878662,
      "loss_ce": 0.0054183099418878555,
      "loss_iou": 0.6875,
      "loss_num": 0.03857421875,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 60811680,
      "step": 907
    },
    {
      "epoch": 0.1030354609929078,
      "grad_norm": 13.615240097045898,
      "learning_rate": 5e-05,
      "loss": 1.4804,
      "num_input_tokens_seen": 60879900,
      "step": 908
    },
    {
      "epoch": 0.1030354609929078,
      "loss": 1.3811423778533936,
      "loss_ce": 0.0037009939551353455,
      "loss_iou": 0.60546875,
      "loss_num": 0.03271484375,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 60879900,
      "step": 908
    },
    {
      "epoch": 0.10314893617021277,
      "grad_norm": 15.59101676940918,
      "learning_rate": 5e-05,
      "loss": 1.6342,
      "num_input_tokens_seen": 60948200,
      "step": 909
    },
    {
      "epoch": 0.10314893617021277,
      "loss": 1.645521640777588,
      "loss_ce": 0.004896697122603655,
      "loss_iou": 0.7265625,
      "loss_num": 0.037353515625,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 60948200,
      "step": 909
    },
    {
      "epoch": 0.10326241134751774,
      "grad_norm": 17.23638153076172,
      "learning_rate": 5e-05,
      "loss": 1.5351,
      "num_input_tokens_seen": 61014920,
      "step": 910
    },
    {
      "epoch": 0.10326241134751774,
      "loss": 1.5923680067062378,
      "loss_ce": 0.0015476472908630967,
      "loss_iou": 0.6875,
      "loss_num": 0.043701171875,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 61014920,
      "step": 910
    },
    {
      "epoch": 0.1033758865248227,
      "grad_norm": 26.594728469848633,
      "learning_rate": 5e-05,
      "loss": 1.718,
      "num_input_tokens_seen": 61082028,
      "step": 911
    },
    {
      "epoch": 0.1033758865248227,
      "loss": 1.5955853462219238,
      "loss_ce": 0.0067181834019720554,
      "loss_iou": 0.71484375,
      "loss_num": 0.031982421875,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 61082028,
      "step": 911
    },
    {
      "epoch": 0.10348936170212766,
      "grad_norm": 17.128799438476562,
      "learning_rate": 5e-05,
      "loss": 1.819,
      "num_input_tokens_seen": 61149328,
      "step": 912
    },
    {
      "epoch": 0.10348936170212766,
      "loss": 1.7498406171798706,
      "loss_ce": 0.010094503872096539,
      "loss_iou": 0.73046875,
      "loss_num": 0.0556640625,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 61149328,
      "step": 912
    },
    {
      "epoch": 0.10360283687943263,
      "grad_norm": 18.606033325195312,
      "learning_rate": 5e-05,
      "loss": 1.5124,
      "num_input_tokens_seen": 61216476,
      "step": 913
    },
    {
      "epoch": 0.10360283687943263,
      "loss": 1.7357450723648071,
      "loss_ce": 0.0033231452107429504,
      "loss_iou": 0.77734375,
      "loss_num": 0.035888671875,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 61216476,
      "step": 913
    },
    {
      "epoch": 0.10371631205673759,
      "grad_norm": 29.48665428161621,
      "learning_rate": 5e-05,
      "loss": 1.4085,
      "num_input_tokens_seen": 61283400,
      "step": 914
    },
    {
      "epoch": 0.10371631205673759,
      "loss": 1.5772786140441895,
      "loss_ce": 0.005013028159737587,
      "loss_iou": 0.67578125,
      "loss_num": 0.043701171875,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 61283400,
      "step": 914
    },
    {
      "epoch": 0.10382978723404256,
      "grad_norm": 14.375650405883789,
      "learning_rate": 5e-05,
      "loss": 1.6777,
      "num_input_tokens_seen": 61350288,
      "step": 915
    },
    {
      "epoch": 0.10382978723404256,
      "loss": 1.7756428718566895,
      "loss_ce": 0.006111694499850273,
      "loss_iou": 0.78125,
      "loss_num": 0.041015625,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 61350288,
      "step": 915
    },
    {
      "epoch": 0.10394326241134752,
      "grad_norm": 11.363842964172363,
      "learning_rate": 5e-05,
      "loss": 1.4024,
      "num_input_tokens_seen": 61416956,
      "step": 916
    },
    {
      "epoch": 0.10394326241134752,
      "loss": 1.3771331310272217,
      "loss_ce": 0.007015952840447426,
      "loss_iou": 0.59765625,
      "loss_num": 0.035400390625,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 61416956,
      "step": 916
    },
    {
      "epoch": 0.10405673758865248,
      "grad_norm": 19.05840301513672,
      "learning_rate": 5e-05,
      "loss": 1.4286,
      "num_input_tokens_seen": 61483500,
      "step": 917
    },
    {
      "epoch": 0.10405673758865248,
      "loss": 1.3966184854507446,
      "loss_ce": 0.005993490107357502,
      "loss_iou": 0.625,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 61483500,
      "step": 917
    },
    {
      "epoch": 0.10417021276595745,
      "grad_norm": 13.86368465423584,
      "learning_rate": 5e-05,
      "loss": 1.5475,
      "num_input_tokens_seen": 61549628,
      "step": 918
    },
    {
      "epoch": 0.10417021276595745,
      "loss": 1.4476361274719238,
      "loss_ce": 0.0037122219800949097,
      "loss_iou": 0.59375,
      "loss_num": 0.05078125,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 61549628,
      "step": 918
    },
    {
      "epoch": 0.10428368794326241,
      "grad_norm": 11.694560050964355,
      "learning_rate": 5e-05,
      "loss": 1.5921,
      "num_input_tokens_seen": 61616324,
      "step": 919
    },
    {
      "epoch": 0.10428368794326241,
      "loss": 1.6398975849151611,
      "loss_ce": 0.010014714673161507,
      "loss_iou": 0.67578125,
      "loss_num": 0.055419921875,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 61616324,
      "step": 919
    },
    {
      "epoch": 0.10439716312056738,
      "grad_norm": 32.517494201660156,
      "learning_rate": 5e-05,
      "loss": 1.379,
      "num_input_tokens_seen": 61683356,
      "step": 920
    },
    {
      "epoch": 0.10439716312056738,
      "loss": 1.221071720123291,
      "loss_ce": 0.0037254621274769306,
      "loss_iou": 0.51953125,
      "loss_num": 0.03564453125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 61683356,
      "step": 920
    },
    {
      "epoch": 0.10451063829787234,
      "grad_norm": 13.46182918548584,
      "learning_rate": 5e-05,
      "loss": 2.0275,
      "num_input_tokens_seen": 61750692,
      "step": 921
    },
    {
      "epoch": 0.10451063829787234,
      "loss": 2.070539951324463,
      "loss_ce": 0.0031569756101816893,
      "loss_iou": 0.91015625,
      "loss_num": 0.049072265625,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 61750692,
      "step": 921
    },
    {
      "epoch": 0.1046241134751773,
      "grad_norm": 12.713729858398438,
      "learning_rate": 5e-05,
      "loss": 1.6067,
      "num_input_tokens_seen": 61817068,
      "step": 922
    },
    {
      "epoch": 0.1046241134751773,
      "loss": 1.6801750659942627,
      "loss_ce": 0.005370344966650009,
      "loss_iou": 0.6953125,
      "loss_num": 0.056884765625,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 61817068,
      "step": 922
    },
    {
      "epoch": 0.10473758865248227,
      "grad_norm": 12.693114280700684,
      "learning_rate": 5e-05,
      "loss": 1.2506,
      "num_input_tokens_seen": 61883420,
      "step": 923
    },
    {
      "epoch": 0.10473758865248227,
      "loss": 1.1802600622177124,
      "loss_ce": 0.006431903690099716,
      "loss_iou": 0.515625,
      "loss_num": 0.02783203125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 61883420,
      "step": 923
    },
    {
      "epoch": 0.10485106382978723,
      "grad_norm": 16.66534996032715,
      "learning_rate": 5e-05,
      "loss": 1.5204,
      "num_input_tokens_seen": 61950632,
      "step": 924
    },
    {
      "epoch": 0.10485106382978723,
      "loss": 1.694839596748352,
      "loss_ce": 0.004409903660416603,
      "loss_iou": 0.75390625,
      "loss_num": 0.036376953125,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 61950632,
      "step": 924
    },
    {
      "epoch": 0.1049645390070922,
      "grad_norm": 246.1214599609375,
      "learning_rate": 5e-05,
      "loss": 1.5563,
      "num_input_tokens_seen": 62016908,
      "step": 925
    },
    {
      "epoch": 0.1049645390070922,
      "loss": 1.8908047676086426,
      "loss_ce": 0.006039051804691553,
      "loss_iou": 0.79296875,
      "loss_num": 0.059814453125,
      "loss_xval": 1.8828125,
      "num_input_tokens_seen": 62016908,
      "step": 925
    },
    {
      "epoch": 0.10507801418439716,
      "grad_norm": 16.2606201171875,
      "learning_rate": 5e-05,
      "loss": 1.5046,
      "num_input_tokens_seen": 62082608,
      "step": 926
    },
    {
      "epoch": 0.10507801418439716,
      "loss": 1.4270930290222168,
      "loss_ce": 0.006682908162474632,
      "loss_iou": 0.6171875,
      "loss_num": 0.037109375,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 62082608,
      "step": 926
    },
    {
      "epoch": 0.10519148936170213,
      "grad_norm": 26.57394027709961,
      "learning_rate": 5e-05,
      "loss": 1.5003,
      "num_input_tokens_seen": 62150244,
      "step": 927
    },
    {
      "epoch": 0.10519148936170213,
      "loss": 1.460977554321289,
      "loss_ce": 0.007852528244256973,
      "loss_iou": 0.640625,
      "loss_num": 0.03515625,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 62150244,
      "step": 927
    },
    {
      "epoch": 0.10530496453900709,
      "grad_norm": 20.039384841918945,
      "learning_rate": 5e-05,
      "loss": 1.4406,
      "num_input_tokens_seen": 62216280,
      "step": 928
    },
    {
      "epoch": 0.10530496453900709,
      "loss": 1.2380131483078003,
      "loss_ce": 0.008826128207147121,
      "loss_iou": 0.54296875,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 62216280,
      "step": 928
    },
    {
      "epoch": 0.10541843971631205,
      "grad_norm": 15.307531356811523,
      "learning_rate": 5e-05,
      "loss": 1.4911,
      "num_input_tokens_seen": 62282208,
      "step": 929
    },
    {
      "epoch": 0.10541843971631205,
      "loss": 1.6052632331848145,
      "loss_ce": 0.005653770640492439,
      "loss_iou": 0.68359375,
      "loss_num": 0.04638671875,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 62282208,
      "step": 929
    },
    {
      "epoch": 0.10553191489361702,
      "grad_norm": 21.493083953857422,
      "learning_rate": 5e-05,
      "loss": 1.6013,
      "num_input_tokens_seen": 62349416,
      "step": 930
    },
    {
      "epoch": 0.10553191489361702,
      "loss": 1.5165774822235107,
      "loss_ce": 0.002905663102865219,
      "loss_iou": 0.65625,
      "loss_num": 0.040771484375,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 62349416,
      "step": 930
    },
    {
      "epoch": 0.10564539007092198,
      "grad_norm": 16.07266616821289,
      "learning_rate": 5e-05,
      "loss": 1.5706,
      "num_input_tokens_seen": 62417352,
      "step": 931
    },
    {
      "epoch": 0.10564539007092198,
      "loss": 1.4206618070602417,
      "loss_ce": 0.008552437648177147,
      "loss_iou": 0.62109375,
      "loss_num": 0.033203125,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 62417352,
      "step": 931
    },
    {
      "epoch": 0.10575886524822695,
      "grad_norm": 22.451068878173828,
      "learning_rate": 5e-05,
      "loss": 1.3297,
      "num_input_tokens_seen": 62484240,
      "step": 932
    },
    {
      "epoch": 0.10575886524822695,
      "loss": 1.6425141096115112,
      "loss_ce": 0.004818825516849756,
      "loss_iou": 0.73828125,
      "loss_num": 0.03173828125,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 62484240,
      "step": 932
    },
    {
      "epoch": 0.10587234042553191,
      "grad_norm": 34.6796875,
      "learning_rate": 5e-05,
      "loss": 1.8206,
      "num_input_tokens_seen": 62550792,
      "step": 933
    },
    {
      "epoch": 0.10587234042553191,
      "loss": 1.915454387664795,
      "loss_ce": 0.007251362316310406,
      "loss_iou": 0.8203125,
      "loss_num": 0.052734375,
      "loss_xval": 1.90625,
      "num_input_tokens_seen": 62550792,
      "step": 933
    },
    {
      "epoch": 0.10598581560283687,
      "grad_norm": 9.299405097961426,
      "learning_rate": 5e-05,
      "loss": 1.2569,
      "num_input_tokens_seen": 62617592,
      "step": 934
    },
    {
      "epoch": 0.10598581560283687,
      "loss": 1.2417550086975098,
      "loss_ce": 0.0034738066606223583,
      "loss_iou": 0.5546875,
      "loss_num": 0.025634765625,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 62617592,
      "step": 934
    },
    {
      "epoch": 0.10609929078014184,
      "grad_norm": 42.851806640625,
      "learning_rate": 5e-05,
      "loss": 1.6279,
      "num_input_tokens_seen": 62684360,
      "step": 935
    },
    {
      "epoch": 0.10609929078014184,
      "loss": 1.6662331819534302,
      "loss_ce": 0.008518308401107788,
      "loss_iou": 0.6875,
      "loss_num": 0.05615234375,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 62684360,
      "step": 935
    },
    {
      "epoch": 0.1062127659574468,
      "grad_norm": 16.41546058654785,
      "learning_rate": 5e-05,
      "loss": 1.4125,
      "num_input_tokens_seen": 62750396,
      "step": 936
    },
    {
      "epoch": 0.1062127659574468,
      "loss": 1.1786975860595703,
      "loss_ce": 0.003404686227440834,
      "loss_iou": 0.515625,
      "loss_num": 0.0296630859375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 62750396,
      "step": 936
    },
    {
      "epoch": 0.10632624113475177,
      "grad_norm": 33.547847747802734,
      "learning_rate": 5e-05,
      "loss": 1.7673,
      "num_input_tokens_seen": 62817400,
      "step": 937
    },
    {
      "epoch": 0.10632624113475177,
      "loss": 1.914048194885254,
      "loss_ce": 0.0029154540970921516,
      "loss_iou": 0.87890625,
      "loss_num": 0.03125,
      "loss_xval": 1.9140625,
      "num_input_tokens_seen": 62817400,
      "step": 937
    },
    {
      "epoch": 0.10643971631205673,
      "grad_norm": 13.90211296081543,
      "learning_rate": 5e-05,
      "loss": 1.7766,
      "num_input_tokens_seen": 62884080,
      "step": 938
    },
    {
      "epoch": 0.10643971631205673,
      "loss": 1.6243202686309814,
      "loss_ce": 0.009238401427865028,
      "loss_iou": 0.68359375,
      "loss_num": 0.05029296875,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 62884080,
      "step": 938
    },
    {
      "epoch": 0.1065531914893617,
      "grad_norm": 14.574687957763672,
      "learning_rate": 5e-05,
      "loss": 1.4334,
      "num_input_tokens_seen": 62950208,
      "step": 939
    },
    {
      "epoch": 0.1065531914893617,
      "loss": 1.3239017724990845,
      "loss_ce": 0.00603071041405201,
      "loss_iou": 0.57421875,
      "loss_num": 0.033935546875,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 62950208,
      "step": 939
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 11.991952896118164,
      "learning_rate": 5e-05,
      "loss": 1.3529,
      "num_input_tokens_seen": 63017196,
      "step": 940
    },
    {
      "epoch": 0.10666666666666667,
      "loss": 1.3224284648895264,
      "loss_ce": 0.0030925292521715164,
      "loss_iou": 0.609375,
      "loss_num": 0.0205078125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 63017196,
      "step": 940
    },
    {
      "epoch": 0.10678014184397164,
      "grad_norm": 15.265552520751953,
      "learning_rate": 5e-05,
      "loss": 1.3855,
      "num_input_tokens_seen": 63084064,
      "step": 941
    },
    {
      "epoch": 0.10678014184397164,
      "loss": 1.4658516645431519,
      "loss_ce": 0.005402461625635624,
      "loss_iou": 0.65625,
      "loss_num": 0.0299072265625,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 63084064,
      "step": 941
    },
    {
      "epoch": 0.1068936170212766,
      "grad_norm": 28.540714263916016,
      "learning_rate": 5e-05,
      "loss": 1.3564,
      "num_input_tokens_seen": 63151324,
      "step": 942
    },
    {
      "epoch": 0.1068936170212766,
      "loss": 1.2612767219543457,
      "loss_ce": 0.006027740426361561,
      "loss_iou": 0.578125,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 63151324,
      "step": 942
    },
    {
      "epoch": 0.10700709219858157,
      "grad_norm": 11.195137023925781,
      "learning_rate": 5e-05,
      "loss": 1.7361,
      "num_input_tokens_seen": 63217372,
      "step": 943
    },
    {
      "epoch": 0.10700709219858157,
      "loss": 1.5639796257019043,
      "loss_ce": 0.0034327711910009384,
      "loss_iou": 0.67578125,
      "loss_num": 0.041748046875,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 63217372,
      "step": 943
    },
    {
      "epoch": 0.10712056737588653,
      "grad_norm": 17.216211318969727,
      "learning_rate": 5e-05,
      "loss": 1.6728,
      "num_input_tokens_seen": 63283460,
      "step": 944
    },
    {
      "epoch": 0.10712056737588653,
      "loss": 1.8647735118865967,
      "loss_ce": 0.004421831574290991,
      "loss_iou": 0.80078125,
      "loss_num": 0.05126953125,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 63283460,
      "step": 944
    },
    {
      "epoch": 0.1072340425531915,
      "grad_norm": 57.431663513183594,
      "learning_rate": 5e-05,
      "loss": 1.6243,
      "num_input_tokens_seen": 63350684,
      "step": 945
    },
    {
      "epoch": 0.1072340425531915,
      "loss": 1.5408565998077393,
      "loss_ce": 0.0027706504333764315,
      "loss_iou": 0.671875,
      "loss_num": 0.0380859375,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 63350684,
      "step": 945
    },
    {
      "epoch": 0.10734751773049646,
      "grad_norm": 18.972734451293945,
      "learning_rate": 5e-05,
      "loss": 1.8127,
      "num_input_tokens_seen": 63418012,
      "step": 946
    },
    {
      "epoch": 0.10734751773049646,
      "loss": 1.7279764413833618,
      "loss_ce": 0.008249854668974876,
      "loss_iou": 0.7578125,
      "loss_num": 0.0419921875,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 63418012,
      "step": 946
    },
    {
      "epoch": 0.10746099290780142,
      "grad_norm": 15.366636276245117,
      "learning_rate": 5e-05,
      "loss": 1.568,
      "num_input_tokens_seen": 63486108,
      "step": 947
    },
    {
      "epoch": 0.10746099290780142,
      "loss": 1.6253840923309326,
      "loss_ce": 0.007219987455755472,
      "loss_iou": 0.703125,
      "loss_num": 0.043212890625,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 63486108,
      "step": 947
    },
    {
      "epoch": 0.10757446808510639,
      "grad_norm": 25.659927368164062,
      "learning_rate": 5e-05,
      "loss": 1.5366,
      "num_input_tokens_seen": 63553588,
      "step": 948
    },
    {
      "epoch": 0.10757446808510639,
      "loss": 1.5383609533309937,
      "loss_ce": 0.005157780833542347,
      "loss_iou": 0.67578125,
      "loss_num": 0.0361328125,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 63553588,
      "step": 948
    },
    {
      "epoch": 0.10768794326241135,
      "grad_norm": 14.570561408996582,
      "learning_rate": 5e-05,
      "loss": 1.7631,
      "num_input_tokens_seen": 63620160,
      "step": 949
    },
    {
      "epoch": 0.10768794326241135,
      "loss": 1.9330693483352661,
      "loss_ce": 0.006311558187007904,
      "loss_iou": 0.83984375,
      "loss_num": 0.04931640625,
      "loss_xval": 1.9296875,
      "num_input_tokens_seen": 63620160,
      "step": 949
    },
    {
      "epoch": 0.10780141843971631,
      "grad_norm": 63.538536071777344,
      "learning_rate": 5e-05,
      "loss": 1.4086,
      "num_input_tokens_seen": 63687136,
      "step": 950
    },
    {
      "epoch": 0.10780141843971631,
      "loss": 1.6441888809204102,
      "loss_ce": 0.004540459718555212,
      "loss_iou": 0.71875,
      "loss_num": 0.040771484375,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 63687136,
      "step": 950
    },
    {
      "epoch": 0.10791489361702128,
      "grad_norm": 11.046993255615234,
      "learning_rate": 5e-05,
      "loss": 1.4343,
      "num_input_tokens_seen": 63754556,
      "step": 951
    },
    {
      "epoch": 0.10791489361702128,
      "loss": 1.2943164110183716,
      "loss_ce": 0.005253940355032682,
      "loss_iou": 0.578125,
      "loss_num": 0.0272216796875,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 63754556,
      "step": 951
    },
    {
      "epoch": 0.10802836879432624,
      "grad_norm": 12.657176971435547,
      "learning_rate": 5e-05,
      "loss": 1.552,
      "num_input_tokens_seen": 63821300,
      "step": 952
    },
    {
      "epoch": 0.10802836879432624,
      "loss": 1.5790119171142578,
      "loss_ce": 0.004793160129338503,
      "loss_iou": 0.671875,
      "loss_num": 0.046142578125,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 63821300,
      "step": 952
    },
    {
      "epoch": 0.10814184397163121,
      "grad_norm": 19.87540054321289,
      "learning_rate": 5e-05,
      "loss": 1.6014,
      "num_input_tokens_seen": 63887828,
      "step": 953
    },
    {
      "epoch": 0.10814184397163121,
      "loss": 1.6878269910812378,
      "loss_ce": 0.004233268089592457,
      "loss_iou": 0.734375,
      "loss_num": 0.042724609375,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 63887828,
      "step": 953
    },
    {
      "epoch": 0.10825531914893617,
      "grad_norm": 14.992488861083984,
      "learning_rate": 5e-05,
      "loss": 1.2375,
      "num_input_tokens_seen": 63954956,
      "step": 954
    },
    {
      "epoch": 0.10825531914893617,
      "loss": 1.239400863647461,
      "loss_ce": 0.01161759439855814,
      "loss_iou": 0.54296875,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 63954956,
      "step": 954
    },
    {
      "epoch": 0.10836879432624114,
      "grad_norm": 19.133058547973633,
      "learning_rate": 5e-05,
      "loss": 1.5683,
      "num_input_tokens_seen": 64021952,
      "step": 955
    },
    {
      "epoch": 0.10836879432624114,
      "loss": 1.5264644622802734,
      "loss_ce": 0.0049801478162407875,
      "loss_iou": 0.6796875,
      "loss_num": 0.03271484375,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 64021952,
      "step": 955
    },
    {
      "epoch": 0.1084822695035461,
      "grad_norm": 36.8128547668457,
      "learning_rate": 5e-05,
      "loss": 1.4607,
      "num_input_tokens_seen": 64089080,
      "step": 956
    },
    {
      "epoch": 0.1084822695035461,
      "loss": 1.4084193706512451,
      "loss_ce": 0.003145914524793625,
      "loss_iou": 0.63671875,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 64089080,
      "step": 956
    },
    {
      "epoch": 0.10859574468085106,
      "grad_norm": 22.245452880859375,
      "learning_rate": 5e-05,
      "loss": 1.2496,
      "num_input_tokens_seen": 64155008,
      "step": 957
    },
    {
      "epoch": 0.10859574468085106,
      "loss": 1.3244725465774536,
      "loss_ce": 0.006845621392130852,
      "loss_iou": 0.56640625,
      "loss_num": 0.03662109375,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 64155008,
      "step": 957
    },
    {
      "epoch": 0.10870921985815603,
      "grad_norm": 15.290785789489746,
      "learning_rate": 5e-05,
      "loss": 1.4599,
      "num_input_tokens_seen": 64221836,
      "step": 958
    },
    {
      "epoch": 0.10870921985815603,
      "loss": 1.528706431388855,
      "loss_ce": 0.003315875306725502,
      "loss_iou": 0.671875,
      "loss_num": 0.036376953125,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 64221836,
      "step": 958
    },
    {
      "epoch": 0.10882269503546099,
      "grad_norm": 20.736326217651367,
      "learning_rate": 5e-05,
      "loss": 1.3431,
      "num_input_tokens_seen": 64289352,
      "step": 959
    },
    {
      "epoch": 0.10882269503546099,
      "loss": 1.2197582721710205,
      "loss_ce": 0.00338856247253716,
      "loss_iou": 0.5234375,
      "loss_num": 0.033935546875,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 64289352,
      "step": 959
    },
    {
      "epoch": 0.10893617021276596,
      "grad_norm": 15.957615852355957,
      "learning_rate": 5e-05,
      "loss": 1.3073,
      "num_input_tokens_seen": 64354636,
      "step": 960
    },
    {
      "epoch": 0.10893617021276596,
      "loss": 1.22891366481781,
      "loss_ce": 0.007234056945890188,
      "loss_iou": 0.5390625,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 64354636,
      "step": 960
    },
    {
      "epoch": 0.10904964539007092,
      "grad_norm": 13.758082389831543,
      "learning_rate": 5e-05,
      "loss": 1.3321,
      "num_input_tokens_seen": 64420748,
      "step": 961
    },
    {
      "epoch": 0.10904964539007092,
      "loss": 1.3697288036346436,
      "loss_ce": 0.00620333943516016,
      "loss_iou": 0.62109375,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 64420748,
      "step": 961
    },
    {
      "epoch": 0.10916312056737588,
      "grad_norm": 15.741905212402344,
      "learning_rate": 5e-05,
      "loss": 1.4805,
      "num_input_tokens_seen": 64487428,
      "step": 962
    },
    {
      "epoch": 0.10916312056737588,
      "loss": 1.286651611328125,
      "loss_ce": 0.0057678320445120335,
      "loss_iou": 0.5625,
      "loss_num": 0.03173828125,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 64487428,
      "step": 962
    },
    {
      "epoch": 0.10927659574468085,
      "grad_norm": 15.968091011047363,
      "learning_rate": 5e-05,
      "loss": 1.5233,
      "num_input_tokens_seen": 64554764,
      "step": 963
    },
    {
      "epoch": 0.10927659574468085,
      "loss": 1.4878642559051514,
      "loss_ce": 0.00934868399053812,
      "loss_iou": 0.6484375,
      "loss_num": 0.036376953125,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 64554764,
      "step": 963
    },
    {
      "epoch": 0.10939007092198581,
      "grad_norm": 14.891185760498047,
      "learning_rate": 5e-05,
      "loss": 1.482,
      "num_input_tokens_seen": 64621936,
      "step": 964
    },
    {
      "epoch": 0.10939007092198581,
      "loss": 1.3301444053649902,
      "loss_ce": 0.002996047493070364,
      "loss_iou": 0.61328125,
      "loss_num": 0.020751953125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 64621936,
      "step": 964
    },
    {
      "epoch": 0.10950354609929078,
      "grad_norm": 20.31937026977539,
      "learning_rate": 5e-05,
      "loss": 1.3685,
      "num_input_tokens_seen": 64689868,
      "step": 965
    },
    {
      "epoch": 0.10950354609929078,
      "loss": 1.2005324363708496,
      "loss_ce": 0.003266717307269573,
      "loss_iou": 0.52734375,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 64689868,
      "step": 965
    },
    {
      "epoch": 0.10961702127659574,
      "grad_norm": 14.007426261901855,
      "learning_rate": 5e-05,
      "loss": 1.4605,
      "num_input_tokens_seen": 64757148,
      "step": 966
    },
    {
      "epoch": 0.10961702127659574,
      "loss": 1.5451890230178833,
      "loss_ce": 0.006614792626351118,
      "loss_iou": 0.6875,
      "loss_num": 0.032958984375,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 64757148,
      "step": 966
    },
    {
      "epoch": 0.1097304964539007,
      "grad_norm": 11.184341430664062,
      "learning_rate": 5e-05,
      "loss": 1.5364,
      "num_input_tokens_seen": 64824248,
      "step": 967
    },
    {
      "epoch": 0.1097304964539007,
      "loss": 1.5457918643951416,
      "loss_ce": 0.0052645085379481316,
      "loss_iou": 0.66015625,
      "loss_num": 0.044677734375,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 64824248,
      "step": 967
    },
    {
      "epoch": 0.10984397163120567,
      "grad_norm": 14.228864669799805,
      "learning_rate": 5e-05,
      "loss": 1.0103,
      "num_input_tokens_seen": 64890084,
      "step": 968
    },
    {
      "epoch": 0.10984397163120567,
      "loss": 1.2009048461914062,
      "loss_ce": 0.010719284415245056,
      "loss_iou": 0.5234375,
      "loss_num": 0.029296875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 64890084,
      "step": 968
    },
    {
      "epoch": 0.10995744680851063,
      "grad_norm": 68.74620056152344,
      "learning_rate": 5e-05,
      "loss": 1.3728,
      "num_input_tokens_seen": 64957028,
      "step": 969
    },
    {
      "epoch": 0.10995744680851063,
      "loss": 1.5406994819641113,
      "loss_ce": 0.004078333266079426,
      "loss_iou": 0.671875,
      "loss_num": 0.0380859375,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 64957028,
      "step": 969
    },
    {
      "epoch": 0.1100709219858156,
      "grad_norm": 18.827287673950195,
      "learning_rate": 5e-05,
      "loss": 1.6825,
      "num_input_tokens_seen": 65023372,
      "step": 970
    },
    {
      "epoch": 0.1100709219858156,
      "loss": 1.7351129055023193,
      "loss_ce": 0.007573896087706089,
      "loss_iou": 0.734375,
      "loss_num": 0.051025390625,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 65023372,
      "step": 970
    },
    {
      "epoch": 0.11018439716312056,
      "grad_norm": 20.00784683227539,
      "learning_rate": 5e-05,
      "loss": 1.3474,
      "num_input_tokens_seen": 65089872,
      "step": 971
    },
    {
      "epoch": 0.11018439716312056,
      "loss": 1.3662328720092773,
      "loss_ce": 0.005881370045244694,
      "loss_iou": 0.58203125,
      "loss_num": 0.038818359375,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 65089872,
      "step": 971
    },
    {
      "epoch": 0.11029787234042553,
      "grad_norm": 21.030601501464844,
      "learning_rate": 5e-05,
      "loss": 1.5478,
      "num_input_tokens_seen": 65157424,
      "step": 972
    },
    {
      "epoch": 0.11029787234042553,
      "loss": 1.4301601648330688,
      "loss_ce": 0.00877340603619814,
      "loss_iou": 0.6171875,
      "loss_num": 0.038330078125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 65157424,
      "step": 972
    },
    {
      "epoch": 0.11041134751773049,
      "grad_norm": 14.70236873626709,
      "learning_rate": 5e-05,
      "loss": 1.6762,
      "num_input_tokens_seen": 65225848,
      "step": 973
    },
    {
      "epoch": 0.11041134751773049,
      "loss": 1.8885016441345215,
      "loss_ce": 0.009595299139618874,
      "loss_iou": 0.80859375,
      "loss_num": 0.052734375,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 65225848,
      "step": 973
    },
    {
      "epoch": 0.11052482269503545,
      "grad_norm": 17.87016487121582,
      "learning_rate": 5e-05,
      "loss": 1.368,
      "num_input_tokens_seen": 65292520,
      "step": 974
    },
    {
      "epoch": 0.11052482269503545,
      "loss": 1.3558647632598877,
      "loss_ce": 0.0038139568641781807,
      "loss_iou": 0.56640625,
      "loss_num": 0.044189453125,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 65292520,
      "step": 974
    },
    {
      "epoch": 0.11063829787234042,
      "grad_norm": 17.895694732666016,
      "learning_rate": 5e-05,
      "loss": 1.5801,
      "num_input_tokens_seen": 65360304,
      "step": 975
    },
    {
      "epoch": 0.11063829787234042,
      "loss": 1.623396396636963,
      "loss_ce": 0.003767440328374505,
      "loss_iou": 0.71484375,
      "loss_num": 0.037841796875,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 65360304,
      "step": 975
    },
    {
      "epoch": 0.1107517730496454,
      "grad_norm": 14.484524726867676,
      "learning_rate": 5e-05,
      "loss": 1.4944,
      "num_input_tokens_seen": 65426472,
      "step": 976
    },
    {
      "epoch": 0.1107517730496454,
      "loss": 1.4936306476593018,
      "loss_ce": 0.0033962889574468136,
      "loss_iou": 0.609375,
      "loss_num": 0.05322265625,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 65426472,
      "step": 976
    },
    {
      "epoch": 0.11086524822695036,
      "grad_norm": 15.868840217590332,
      "learning_rate": 5e-05,
      "loss": 1.4131,
      "num_input_tokens_seen": 65493776,
      "step": 977
    },
    {
      "epoch": 0.11086524822695036,
      "loss": 1.3500218391418457,
      "loss_ce": 0.005295240320265293,
      "loss_iou": 0.60546875,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 65493776,
      "step": 977
    },
    {
      "epoch": 0.11097872340425533,
      "grad_norm": 26.361995697021484,
      "learning_rate": 5e-05,
      "loss": 1.2838,
      "num_input_tokens_seen": 65560756,
      "step": 978
    },
    {
      "epoch": 0.11097872340425533,
      "loss": 1.3191721439361572,
      "loss_ce": 0.004719063173979521,
      "loss_iou": 0.60546875,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 65560756,
      "step": 978
    },
    {
      "epoch": 0.11109219858156029,
      "grad_norm": 14.115988731384277,
      "learning_rate": 5e-05,
      "loss": 1.7587,
      "num_input_tokens_seen": 65628896,
      "step": 979
    },
    {
      "epoch": 0.11109219858156029,
      "loss": 1.7950315475463867,
      "loss_ce": 0.005969037301838398,
      "loss_iou": 0.77734375,
      "loss_num": 0.046142578125,
      "loss_xval": 1.7890625,
      "num_input_tokens_seen": 65628896,
      "step": 979
    },
    {
      "epoch": 0.11120567375886525,
      "grad_norm": 11.40146255493164,
      "learning_rate": 5e-05,
      "loss": 1.3578,
      "num_input_tokens_seen": 65694876,
      "step": 980
    },
    {
      "epoch": 0.11120567375886525,
      "loss": 1.382280707359314,
      "loss_ce": 0.005815825425088406,
      "loss_iou": 0.59765625,
      "loss_num": 0.036865234375,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 65694876,
      "step": 980
    },
    {
      "epoch": 0.11131914893617022,
      "grad_norm": 21.55059051513672,
      "learning_rate": 5e-05,
      "loss": 1.4071,
      "num_input_tokens_seen": 65761588,
      "step": 981
    },
    {
      "epoch": 0.11131914893617022,
      "loss": 1.2116539478302002,
      "loss_ce": 0.006575772538781166,
      "loss_iou": 0.52734375,
      "loss_num": 0.029541015625,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 65761588,
      "step": 981
    },
    {
      "epoch": 0.11143262411347518,
      "grad_norm": 19.086326599121094,
      "learning_rate": 5e-05,
      "loss": 1.5786,
      "num_input_tokens_seen": 65828288,
      "step": 982
    },
    {
      "epoch": 0.11143262411347518,
      "loss": 1.6298341751098633,
      "loss_ce": 0.012158376164734364,
      "loss_iou": 0.69921875,
      "loss_num": 0.044189453125,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 65828288,
      "step": 982
    },
    {
      "epoch": 0.11154609929078015,
      "grad_norm": 92.74337768554688,
      "learning_rate": 5e-05,
      "loss": 1.549,
      "num_input_tokens_seen": 65894424,
      "step": 983
    },
    {
      "epoch": 0.11154609929078015,
      "loss": 1.6283279657363892,
      "loss_ce": 0.00332793896086514,
      "loss_iou": 0.65625,
      "loss_num": 0.0625,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 65894424,
      "step": 983
    },
    {
      "epoch": 0.11165957446808511,
      "grad_norm": 17.5354061126709,
      "learning_rate": 5e-05,
      "loss": 1.5372,
      "num_input_tokens_seen": 65960980,
      "step": 984
    },
    {
      "epoch": 0.11165957446808511,
      "loss": 1.4927852153778076,
      "loss_ce": 0.004503942560404539,
      "loss_iou": 0.66015625,
      "loss_num": 0.033447265625,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 65960980,
      "step": 984
    },
    {
      "epoch": 0.11177304964539007,
      "grad_norm": 9.80254077911377,
      "learning_rate": 5e-05,
      "loss": 1.3342,
      "num_input_tokens_seen": 66027464,
      "step": 985
    },
    {
      "epoch": 0.11177304964539007,
      "loss": 1.2947173118591309,
      "loss_ce": 0.004189986269921064,
      "loss_iou": 0.5859375,
      "loss_num": 0.023193359375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 66027464,
      "step": 985
    },
    {
      "epoch": 0.11188652482269504,
      "grad_norm": 32.375587463378906,
      "learning_rate": 5e-05,
      "loss": 1.2864,
      "num_input_tokens_seen": 66094084,
      "step": 986
    },
    {
      "epoch": 0.11188652482269504,
      "loss": 1.4447559118270874,
      "loss_ce": 0.005302879959344864,
      "loss_iou": 0.63671875,
      "loss_num": 0.03271484375,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 66094084,
      "step": 986
    },
    {
      "epoch": 0.112,
      "grad_norm": 19.045663833618164,
      "learning_rate": 5e-05,
      "loss": 1.5498,
      "num_input_tokens_seen": 66161120,
      "step": 987
    },
    {
      "epoch": 0.112,
      "loss": 1.4636303186416626,
      "loss_ce": 0.0026927590370178223,
      "loss_iou": 0.625,
      "loss_num": 0.042236328125,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 66161120,
      "step": 987
    },
    {
      "epoch": 0.11211347517730497,
      "grad_norm": 34.29425048828125,
      "learning_rate": 5e-05,
      "loss": 1.6681,
      "num_input_tokens_seen": 66228896,
      "step": 988
    },
    {
      "epoch": 0.11211347517730497,
      "loss": 1.83657705783844,
      "loss_ce": 0.0025926907546818256,
      "loss_iou": 0.8046875,
      "loss_num": 0.044921875,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 66228896,
      "step": 988
    },
    {
      "epoch": 0.11222695035460993,
      "grad_norm": 11.830446243286133,
      "learning_rate": 5e-05,
      "loss": 1.7252,
      "num_input_tokens_seen": 66296260,
      "step": 989
    },
    {
      "epoch": 0.11222695035460993,
      "loss": 1.7124073505401611,
      "loss_ce": 0.0043995557352900505,
      "loss_iou": 0.74609375,
      "loss_num": 0.04296875,
      "loss_xval": 1.7109375,
      "num_input_tokens_seen": 66296260,
      "step": 989
    },
    {
      "epoch": 0.1123404255319149,
      "grad_norm": 21.384552001953125,
      "learning_rate": 5e-05,
      "loss": 1.3587,
      "num_input_tokens_seen": 66363592,
      "step": 990
    },
    {
      "epoch": 0.1123404255319149,
      "loss": 1.4830265045166016,
      "loss_ce": 0.0045109642669558525,
      "loss_iou": 0.64453125,
      "loss_num": 0.037841796875,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 66363592,
      "step": 990
    },
    {
      "epoch": 0.11245390070921986,
      "grad_norm": 15.959084510803223,
      "learning_rate": 5e-05,
      "loss": 1.3184,
      "num_input_tokens_seen": 66430436,
      "step": 991
    },
    {
      "epoch": 0.11245390070921986,
      "loss": 1.0733495950698853,
      "loss_ce": 0.008896488696336746,
      "loss_iou": 0.48046875,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 66430436,
      "step": 991
    },
    {
      "epoch": 0.11256737588652482,
      "grad_norm": 19.144786834716797,
      "learning_rate": 5e-05,
      "loss": 1.6701,
      "num_input_tokens_seen": 66498904,
      "step": 992
    },
    {
      "epoch": 0.11256737588652482,
      "loss": 1.5246195793151855,
      "loss_ce": 0.007041462697088718,
      "loss_iou": 0.66015625,
      "loss_num": 0.039794921875,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 66498904,
      "step": 992
    },
    {
      "epoch": 0.11268085106382979,
      "grad_norm": 15.428542137145996,
      "learning_rate": 5e-05,
      "loss": 1.548,
      "num_input_tokens_seen": 66566820,
      "step": 993
    },
    {
      "epoch": 0.11268085106382979,
      "loss": 1.5778855085372925,
      "loss_ce": 0.004643336404114962,
      "loss_iou": 0.68359375,
      "loss_num": 0.0400390625,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 66566820,
      "step": 993
    },
    {
      "epoch": 0.11279432624113475,
      "grad_norm": 14.721258163452148,
      "learning_rate": 5e-05,
      "loss": 1.2524,
      "num_input_tokens_seen": 66634576,
      "step": 994
    },
    {
      "epoch": 0.11279432624113475,
      "loss": 1.0971331596374512,
      "loss_ce": 0.0038713705725967884,
      "loss_iou": 0.5,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 66634576,
      "step": 994
    },
    {
      "epoch": 0.11290780141843972,
      "grad_norm": 28.017528533935547,
      "learning_rate": 5e-05,
      "loss": 1.3608,
      "num_input_tokens_seen": 66701840,
      "step": 995
    },
    {
      "epoch": 0.11290780141843972,
      "loss": 1.417433500289917,
      "loss_ce": 0.004835774656385183,
      "loss_iou": 0.62890625,
      "loss_num": 0.031494140625,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 66701840,
      "step": 995
    },
    {
      "epoch": 0.11302127659574468,
      "grad_norm": 15.321089744567871,
      "learning_rate": 5e-05,
      "loss": 1.7565,
      "num_input_tokens_seen": 66768276,
      "step": 996
    },
    {
      "epoch": 0.11302127659574468,
      "loss": 1.7685356140136719,
      "loss_ce": 0.004863745532929897,
      "loss_iou": 0.7734375,
      "loss_num": 0.0439453125,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 66768276,
      "step": 996
    },
    {
      "epoch": 0.11313475177304964,
      "grad_norm": 11.470878601074219,
      "learning_rate": 5e-05,
      "loss": 1.2043,
      "num_input_tokens_seen": 66834016,
      "step": 997
    },
    {
      "epoch": 0.11313475177304964,
      "loss": 0.9174437522888184,
      "loss_ce": 0.003198132151737809,
      "loss_iou": 0.408203125,
      "loss_num": 0.01953125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 66834016,
      "step": 997
    },
    {
      "epoch": 0.11324822695035461,
      "grad_norm": 17.27836036682129,
      "learning_rate": 5e-05,
      "loss": 1.3359,
      "num_input_tokens_seen": 66900680,
      "step": 998
    },
    {
      "epoch": 0.11324822695035461,
      "loss": 1.1904075145721436,
      "loss_ce": 0.0019310412462800741,
      "loss_iou": 0.5,
      "loss_num": 0.0380859375,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 66900680,
      "step": 998
    },
    {
      "epoch": 0.11336170212765957,
      "grad_norm": 19.665170669555664,
      "learning_rate": 5e-05,
      "loss": 1.5855,
      "num_input_tokens_seen": 66968196,
      "step": 999
    },
    {
      "epoch": 0.11336170212765957,
      "loss": 1.3887639045715332,
      "loss_ce": 0.008392905816435814,
      "loss_iou": 0.57421875,
      "loss_num": 0.04638671875,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 66968196,
      "step": 999
    },
    {
      "epoch": 0.11347517730496454,
      "grad_norm": 19.7962646484375,
      "learning_rate": 5e-05,
      "loss": 1.4129,
      "num_input_tokens_seen": 67034472,
      "step": 1000
    },
    {
      "epoch": 0.11347517730496454,
      "eval_seeclick_CIoU": 0.3506756126880646,
      "eval_seeclick_GIoU": 0.3242814987897873,
      "eval_seeclick_IoU": 0.4288327544927597,
      "eval_seeclick_MAE_all": 0.12995322793722153,
      "eval_seeclick_MAE_h": 0.10295451804995537,
      "eval_seeclick_MAE_w": 0.11684112250804901,
      "eval_seeclick_MAE_x_boxes": 0.19296716898679733,
      "eval_seeclick_MAE_y_boxes": 0.12985391169786453,
      "eval_seeclick_NUM_probability": 0.9919601678848267,
      "eval_seeclick_inside_bbox": 0.6614583432674408,
      "eval_seeclick_loss": 2.6207821369171143,
      "eval_seeclick_loss_ce": 0.015404899138957262,
      "eval_seeclick_loss_iou": 0.96826171875,
      "eval_seeclick_loss_num": 0.1333770751953125,
      "eval_seeclick_loss_xval": 2.60205078125,
      "eval_seeclick_runtime": 61.8159,
      "eval_seeclick_samples_per_second": 0.76,
      "eval_seeclick_steps_per_second": 0.032,
      "num_input_tokens_seen": 67034472,
      "step": 1000
    },
    {
      "epoch": 0.11347517730496454,
      "eval_icons_CIoU": 0.4072587490081787,
      "eval_icons_GIoU": 0.3793249726295471,
      "eval_icons_IoU": 0.4518762677907944,
      "eval_icons_MAE_all": 0.13540678471326828,
      "eval_icons_MAE_h": 0.14167074114084244,
      "eval_icons_MAE_w": 0.1096336804330349,
      "eval_icons_MAE_x_boxes": 0.12061654403805733,
      "eval_icons_MAE_y_boxes": 0.104042898863554,
      "eval_icons_NUM_probability": 0.9996003210544586,
      "eval_icons_inside_bbox": 0.7673611044883728,
      "eval_icons_loss": 2.7257087230682373,
      "eval_icons_loss_ce": 8.868803706718609e-05,
      "eval_icons_loss_iou": 1.0185546875,
      "eval_icons_loss_num": 0.11573028564453125,
      "eval_icons_loss_xval": 2.61669921875,
      "eval_icons_runtime": 74.0625,
      "eval_icons_samples_per_second": 0.675,
      "eval_icons_steps_per_second": 0.027,
      "num_input_tokens_seen": 67034472,
      "step": 1000
    },
    {
      "epoch": 0.11347517730496454,
      "eval_screenspot_CIoU": 0.2923935155073802,
      "eval_screenspot_GIoU": 0.2604906956354777,
      "eval_screenspot_IoU": 0.3945591350396474,
      "eval_screenspot_MAE_all": 0.16387979686260223,
      "eval_screenspot_MAE_h": 0.13888796170552573,
      "eval_screenspot_MAE_w": 0.2167801558971405,
      "eval_screenspot_MAE_x_boxes": 0.2536039352416992,
      "eval_screenspot_MAE_y_boxes": 0.10625316947698593,
      "eval_screenspot_NUM_probability": 0.9990843931833903,
      "eval_screenspot_inside_bbox": 0.609166661898295,
      "eval_screenspot_loss": 3.126180648803711,
      "eval_screenspot_loss_ce": 0.01891323986152808,
      "eval_screenspot_loss_iou": 1.15966796875,
      "eval_screenspot_loss_num": 0.16729227701822916,
      "eval_screenspot_loss_xval": 3.1539713541666665,
      "eval_screenspot_runtime": 127.9296,
      "eval_screenspot_samples_per_second": 0.696,
      "eval_screenspot_steps_per_second": 0.023,
      "num_input_tokens_seen": 67034472,
      "step": 1000
    },
    {
      "epoch": 0.11347517730496454,
      "eval_compot_CIoU": 0.2894267737865448,
      "eval_compot_GIoU": 0.23484723269939423,
      "eval_compot_IoU": 0.40066203474998474,
      "eval_compot_MAE_all": 0.14530342817306519,
      "eval_compot_MAE_h": 0.09642401337623596,
      "eval_compot_MAE_w": 0.14895052462816238,
      "eval_compot_MAE_x_boxes": 0.17443878203630447,
      "eval_compot_MAE_y_boxes": 0.19245605915784836,
      "eval_compot_NUM_probability": 0.9996006190776825,
      "eval_compot_inside_bbox": 0.546875,
      "eval_compot_loss": 3.086815118789673,
      "eval_compot_loss_ce": 0.004211211809888482,
      "eval_compot_loss_iou": 1.16455078125,
      "eval_compot_loss_num": 0.156280517578125,
      "eval_compot_loss_xval": 3.1123046875,
      "eval_compot_runtime": 70.8029,
      "eval_compot_samples_per_second": 0.706,
      "eval_compot_steps_per_second": 0.028,
      "num_input_tokens_seen": 67034472,
      "step": 1000
    },
    {
      "epoch": 0.11347517730496454,
      "loss": 3.0944747924804688,
      "loss_ce": 0.002678056713193655,
      "loss_iou": 1.1484375,
      "loss_num": 0.158203125,
      "loss_xval": 3.09375,
      "num_input_tokens_seen": 67034472,
      "step": 1000
    },
    {
      "epoch": 0.1135886524822695,
      "grad_norm": 19.34188461303711,
      "learning_rate": 5e-05,
      "loss": 1.5541,
      "num_input_tokens_seen": 67101144,
      "step": 1001
    },
    {
      "epoch": 0.1135886524822695,
      "loss": 1.4124486446380615,
      "loss_ce": 0.00894526019692421,
      "loss_iou": 0.59375,
      "loss_num": 0.043212890625,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 67101144,
      "step": 1001
    },
    {
      "epoch": 0.11370212765957446,
      "grad_norm": 19.057567596435547,
      "learning_rate": 5e-05,
      "loss": 1.3398,
      "num_input_tokens_seen": 67168296,
      "step": 1002
    },
    {
      "epoch": 0.11370212765957446,
      "loss": 1.210938811302185,
      "loss_ce": 0.006837222725152969,
      "loss_iou": 0.5234375,
      "loss_num": 0.03076171875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 67168296,
      "step": 1002
    },
    {
      "epoch": 0.11381560283687943,
      "grad_norm": 13.28617000579834,
      "learning_rate": 5e-05,
      "loss": 1.3376,
      "num_input_tokens_seen": 67235236,
      "step": 1003
    },
    {
      "epoch": 0.11381560283687943,
      "loss": 1.4825501441955566,
      "loss_ce": 0.007940679788589478,
      "loss_iou": 0.65625,
      "loss_num": 0.032958984375,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 67235236,
      "step": 1003
    },
    {
      "epoch": 0.11392907801418439,
      "grad_norm": 24.486040115356445,
      "learning_rate": 5e-05,
      "loss": 1.466,
      "num_input_tokens_seen": 67302464,
      "step": 1004
    },
    {
      "epoch": 0.11392907801418439,
      "loss": 1.4526262283325195,
      "loss_ce": 0.0034075218718498945,
      "loss_iou": 0.64453125,
      "loss_num": 0.031982421875,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 67302464,
      "step": 1004
    },
    {
      "epoch": 0.11404255319148936,
      "grad_norm": 20.273157119750977,
      "learning_rate": 5e-05,
      "loss": 1.5364,
      "num_input_tokens_seen": 67368880,
      "step": 1005
    },
    {
      "epoch": 0.11404255319148936,
      "loss": 1.4713321924209595,
      "loss_ce": 0.002582127694040537,
      "loss_iou": 0.67578125,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 67368880,
      "step": 1005
    },
    {
      "epoch": 0.11415602836879432,
      "grad_norm": 13.107511520385742,
      "learning_rate": 5e-05,
      "loss": 1.1768,
      "num_input_tokens_seen": 67435896,
      "step": 1006
    },
    {
      "epoch": 0.11415602836879432,
      "loss": 1.2463774681091309,
      "loss_ce": 0.005715955514460802,
      "loss_iou": 0.54296875,
      "loss_num": 0.031494140625,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 67435896,
      "step": 1006
    },
    {
      "epoch": 0.11426950354609929,
      "grad_norm": 13.523991584777832,
      "learning_rate": 5e-05,
      "loss": 1.4196,
      "num_input_tokens_seen": 67502048,
      "step": 1007
    },
    {
      "epoch": 0.11426950354609929,
      "loss": 1.4527231454849243,
      "loss_ce": 0.009363670833408833,
      "loss_iou": 0.61328125,
      "loss_num": 0.04248046875,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 67502048,
      "step": 1007
    },
    {
      "epoch": 0.11438297872340425,
      "grad_norm": 19.223087310791016,
      "learning_rate": 5e-05,
      "loss": 1.3468,
      "num_input_tokens_seen": 67569268,
      "step": 1008
    },
    {
      "epoch": 0.11438297872340425,
      "loss": 1.2001770734786987,
      "loss_ce": 0.005352899432182312,
      "loss_iou": 0.53125,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 67569268,
      "step": 1008
    },
    {
      "epoch": 0.11449645390070921,
      "grad_norm": 41.53339767456055,
      "learning_rate": 5e-05,
      "loss": 1.4341,
      "num_input_tokens_seen": 67636012,
      "step": 1009
    },
    {
      "epoch": 0.11449645390070921,
      "loss": 1.3554282188415527,
      "loss_ce": 0.009481001645326614,
      "loss_iou": 0.546875,
      "loss_num": 0.051513671875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 67636012,
      "step": 1009
    },
    {
      "epoch": 0.11460992907801418,
      "grad_norm": 17.457548141479492,
      "learning_rate": 5e-05,
      "loss": 1.8138,
      "num_input_tokens_seen": 67703384,
      "step": 1010
    },
    {
      "epoch": 0.11460992907801418,
      "loss": 1.7765491008758545,
      "loss_ce": 0.003111580852419138,
      "loss_iou": 0.78125,
      "loss_num": 0.042724609375,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 67703384,
      "step": 1010
    },
    {
      "epoch": 0.11472340425531916,
      "grad_norm": 19.79994010925293,
      "learning_rate": 5e-05,
      "loss": 1.7233,
      "num_input_tokens_seen": 67769156,
      "step": 1011
    },
    {
      "epoch": 0.11472340425531916,
      "loss": 1.556344985961914,
      "loss_ce": 0.004587091039866209,
      "loss_iou": 0.67578125,
      "loss_num": 0.040771484375,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 67769156,
      "step": 1011
    },
    {
      "epoch": 0.11483687943262412,
      "grad_norm": 20.834590911865234,
      "learning_rate": 5e-05,
      "loss": 1.4177,
      "num_input_tokens_seen": 67835680,
      "step": 1012
    },
    {
      "epoch": 0.11483687943262412,
      "loss": 1.188765287399292,
      "loss_ce": 0.008101275190711021,
      "loss_iou": 0.51953125,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 67835680,
      "step": 1012
    },
    {
      "epoch": 0.11495035460992908,
      "grad_norm": 15.710380554199219,
      "learning_rate": 5e-05,
      "loss": 1.4426,
      "num_input_tokens_seen": 67902932,
      "step": 1013
    },
    {
      "epoch": 0.11495035460992908,
      "loss": 1.3291728496551514,
      "loss_ce": 0.0034893008414655924,
      "loss_iou": 0.58203125,
      "loss_num": 0.03173828125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 67902932,
      "step": 1013
    },
    {
      "epoch": 0.11506382978723405,
      "grad_norm": 30.505908966064453,
      "learning_rate": 5e-05,
      "loss": 1.4531,
      "num_input_tokens_seen": 67970476,
      "step": 1014
    },
    {
      "epoch": 0.11506382978723405,
      "loss": 1.4326212406158447,
      "loss_ce": 0.007816646248102188,
      "loss_iou": 0.62890625,
      "loss_num": 0.033203125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 67970476,
      "step": 1014
    },
    {
      "epoch": 0.11517730496453901,
      "grad_norm": 13.770541191101074,
      "learning_rate": 5e-05,
      "loss": 1.847,
      "num_input_tokens_seen": 68037892,
      "step": 1015
    },
    {
      "epoch": 0.11517730496453901,
      "loss": 1.7243192195892334,
      "loss_ce": 0.006545755080878735,
      "loss_iou": 0.73828125,
      "loss_num": 0.047607421875,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 68037892,
      "step": 1015
    },
    {
      "epoch": 0.11529078014184398,
      "grad_norm": 13.116555213928223,
      "learning_rate": 5e-05,
      "loss": 1.5451,
      "num_input_tokens_seen": 68105120,
      "step": 1016
    },
    {
      "epoch": 0.11529078014184398,
      "loss": 1.4179078340530396,
      "loss_ce": 0.00775160500779748,
      "loss_iou": 0.62890625,
      "loss_num": 0.0301513671875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 68105120,
      "step": 1016
    },
    {
      "epoch": 0.11540425531914894,
      "grad_norm": 13.53272819519043,
      "learning_rate": 5e-05,
      "loss": 1.2548,
      "num_input_tokens_seen": 68171688,
      "step": 1017
    },
    {
      "epoch": 0.11540425531914894,
      "loss": 1.0878499746322632,
      "loss_ce": 0.00838217232376337,
      "loss_iou": 0.4609375,
      "loss_num": 0.03173828125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 68171688,
      "step": 1017
    },
    {
      "epoch": 0.1155177304964539,
      "grad_norm": 20.188953399658203,
      "learning_rate": 5e-05,
      "loss": 1.28,
      "num_input_tokens_seen": 68238968,
      "step": 1018
    },
    {
      "epoch": 0.1155177304964539,
      "loss": 0.9684951305389404,
      "loss_ce": 0.003407243639230728,
      "loss_iou": 0.435546875,
      "loss_num": 0.0185546875,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 68238968,
      "step": 1018
    },
    {
      "epoch": 0.11563120567375887,
      "grad_norm": 17.91206169128418,
      "learning_rate": 5e-05,
      "loss": 1.523,
      "num_input_tokens_seen": 68305272,
      "step": 1019
    },
    {
      "epoch": 0.11563120567375887,
      "loss": 1.3085918426513672,
      "loss_ce": 0.005857458338141441,
      "loss_iou": 0.5859375,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 68305272,
      "step": 1019
    },
    {
      "epoch": 0.11574468085106383,
      "grad_norm": 14.344551086425781,
      "learning_rate": 5e-05,
      "loss": 1.6186,
      "num_input_tokens_seen": 68372808,
      "step": 1020
    },
    {
      "epoch": 0.11574468085106383,
      "loss": 1.5772480964660645,
      "loss_ce": 0.007423854433000088,
      "loss_iou": 0.6796875,
      "loss_num": 0.04248046875,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 68372808,
      "step": 1020
    },
    {
      "epoch": 0.1158581560283688,
      "grad_norm": 13.053572654724121,
      "learning_rate": 5e-05,
      "loss": 1.115,
      "num_input_tokens_seen": 68436696,
      "step": 1021
    },
    {
      "epoch": 0.1158581560283688,
      "loss": 1.1122615337371826,
      "loss_ce": 0.009722555056214333,
      "loss_iou": 0.494140625,
      "loss_num": 0.02294921875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 68436696,
      "step": 1021
    },
    {
      "epoch": 0.11597163120567376,
      "grad_norm": 17.471473693847656,
      "learning_rate": 5e-05,
      "loss": 1.365,
      "num_input_tokens_seen": 68503140,
      "step": 1022
    },
    {
      "epoch": 0.11597163120567376,
      "loss": 1.2948455810546875,
      "loss_ce": 0.003341627772897482,
      "loss_iou": 0.578125,
      "loss_num": 0.026611328125,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 68503140,
      "step": 1022
    },
    {
      "epoch": 0.11608510638297873,
      "grad_norm": 29.86195182800293,
      "learning_rate": 5e-05,
      "loss": 1.4951,
      "num_input_tokens_seen": 68570812,
      "step": 1023
    },
    {
      "epoch": 0.11608510638297873,
      "loss": 1.5183323621749878,
      "loss_ce": 0.004660451784729958,
      "loss_iou": 0.65234375,
      "loss_num": 0.042236328125,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 68570812,
      "step": 1023
    },
    {
      "epoch": 0.11619858156028369,
      "grad_norm": 11.738382339477539,
      "learning_rate": 5e-05,
      "loss": 1.4876,
      "num_input_tokens_seen": 68637244,
      "step": 1024
    },
    {
      "epoch": 0.11619858156028369,
      "loss": 1.7196483612060547,
      "loss_ce": 0.0077343410812318325,
      "loss_iou": 0.70703125,
      "loss_num": 0.0595703125,
      "loss_xval": 1.7109375,
      "num_input_tokens_seen": 68637244,
      "step": 1024
    },
    {
      "epoch": 0.11631205673758865,
      "grad_norm": 27.298480987548828,
      "learning_rate": 5e-05,
      "loss": 1.5865,
      "num_input_tokens_seen": 68704432,
      "step": 1025
    },
    {
      "epoch": 0.11631205673758865,
      "loss": 1.579698085784912,
      "loss_ce": 0.0020614871755242348,
      "loss_iou": 0.671875,
      "loss_num": 0.046875,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 68704432,
      "step": 1025
    },
    {
      "epoch": 0.11642553191489362,
      "grad_norm": 15.01574420928955,
      "learning_rate": 5e-05,
      "loss": 1.6432,
      "num_input_tokens_seen": 68771844,
      "step": 1026
    },
    {
      "epoch": 0.11642553191489362,
      "loss": 1.9117283821105957,
      "loss_ce": 0.00547843798995018,
      "loss_iou": 0.83984375,
      "loss_num": 0.04541015625,
      "loss_xval": 1.90625,
      "num_input_tokens_seen": 68771844,
      "step": 1026
    },
    {
      "epoch": 0.11653900709219858,
      "grad_norm": 17.412784576416016,
      "learning_rate": 5e-05,
      "loss": 1.5159,
      "num_input_tokens_seen": 68838484,
      "step": 1027
    },
    {
      "epoch": 0.11653900709219858,
      "loss": 1.6285068988800049,
      "loss_ce": 0.0064365495927631855,
      "loss_iou": 0.69921875,
      "loss_num": 0.044921875,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 68838484,
      "step": 1027
    },
    {
      "epoch": 0.11665248226950355,
      "grad_norm": 14.389791488647461,
      "learning_rate": 5e-05,
      "loss": 1.4626,
      "num_input_tokens_seen": 68906712,
      "step": 1028
    },
    {
      "epoch": 0.11665248226950355,
      "loss": 1.5572466850280762,
      "loss_ce": 0.0035357098095119,
      "loss_iou": 0.6484375,
      "loss_num": 0.05224609375,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 68906712,
      "step": 1028
    },
    {
      "epoch": 0.11676595744680851,
      "grad_norm": 17.097789764404297,
      "learning_rate": 5e-05,
      "loss": 1.2844,
      "num_input_tokens_seen": 68972992,
      "step": 1029
    },
    {
      "epoch": 0.11676595744680851,
      "loss": 1.216427206993103,
      "loss_ce": 0.00451307650655508,
      "loss_iou": 0.51953125,
      "loss_num": 0.03466796875,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 68972992,
      "step": 1029
    },
    {
      "epoch": 0.11687943262411347,
      "grad_norm": 19.564626693725586,
      "learning_rate": 5e-05,
      "loss": 1.5572,
      "num_input_tokens_seen": 69038224,
      "step": 1030
    },
    {
      "epoch": 0.11687943262411347,
      "loss": 1.467279076576233,
      "loss_ce": 0.00438843946903944,
      "loss_iou": 0.62109375,
      "loss_num": 0.043701171875,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 69038224,
      "step": 1030
    },
    {
      "epoch": 0.11699290780141844,
      "grad_norm": 16.86522102355957,
      "learning_rate": 5e-05,
      "loss": 1.3308,
      "num_input_tokens_seen": 69105196,
      "step": 1031
    },
    {
      "epoch": 0.11699290780141844,
      "loss": 1.5294526815414429,
      "loss_ce": 0.010409732349216938,
      "loss_iou": 0.63671875,
      "loss_num": 0.048828125,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 69105196,
      "step": 1031
    },
    {
      "epoch": 0.1171063829787234,
      "grad_norm": 23.61640739440918,
      "learning_rate": 5e-05,
      "loss": 1.4797,
      "num_input_tokens_seen": 69172872,
      "step": 1032
    },
    {
      "epoch": 0.1171063829787234,
      "loss": 1.3886678218841553,
      "loss_ce": 0.00732022849842906,
      "loss_iou": 0.59765625,
      "loss_num": 0.037109375,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 69172872,
      "step": 1032
    },
    {
      "epoch": 0.11721985815602837,
      "grad_norm": 16.777481079101562,
      "learning_rate": 5e-05,
      "loss": 1.6598,
      "num_input_tokens_seen": 69240388,
      "step": 1033
    },
    {
      "epoch": 0.11721985815602837,
      "loss": 1.5858761072158813,
      "loss_ce": 0.0038448728155344725,
      "loss_iou": 0.6953125,
      "loss_num": 0.0390625,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 69240388,
      "step": 1033
    },
    {
      "epoch": 0.11733333333333333,
      "grad_norm": 14.904406547546387,
      "learning_rate": 5e-05,
      "loss": 1.3122,
      "num_input_tokens_seen": 69307252,
      "step": 1034
    },
    {
      "epoch": 0.11733333333333333,
      "loss": 1.242713212966919,
      "loss_ce": 0.004920320585370064,
      "loss_iou": 0.5546875,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 69307252,
      "step": 1034
    },
    {
      "epoch": 0.1174468085106383,
      "grad_norm": 24.46836280822754,
      "learning_rate": 5e-05,
      "loss": 1.2703,
      "num_input_tokens_seen": 69373420,
      "step": 1035
    },
    {
      "epoch": 0.1174468085106383,
      "loss": 1.449381947517395,
      "loss_ce": 0.004374644719064236,
      "loss_iou": 0.6484375,
      "loss_num": 0.030029296875,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 69373420,
      "step": 1035
    },
    {
      "epoch": 0.11756028368794326,
      "grad_norm": 12.840106964111328,
      "learning_rate": 5e-05,
      "loss": 1.1915,
      "num_input_tokens_seen": 69439312,
      "step": 1036
    },
    {
      "epoch": 0.11756028368794326,
      "loss": 1.271708607673645,
      "loss_ce": 0.002970803529024124,
      "loss_iou": 0.5546875,
      "loss_num": 0.032470703125,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 69439312,
      "step": 1036
    },
    {
      "epoch": 0.11767375886524822,
      "grad_norm": 24.188453674316406,
      "learning_rate": 5e-05,
      "loss": 1.5373,
      "num_input_tokens_seen": 69505872,
      "step": 1037
    },
    {
      "epoch": 0.11767375886524822,
      "loss": 1.582000732421875,
      "loss_ce": 0.0024108756333589554,
      "loss_iou": 0.7109375,
      "loss_num": 0.0322265625,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 69505872,
      "step": 1037
    },
    {
      "epoch": 0.11778723404255319,
      "grad_norm": 14.103658676147461,
      "learning_rate": 5e-05,
      "loss": 1.4275,
      "num_input_tokens_seen": 69571784,
      "step": 1038
    },
    {
      "epoch": 0.11778723404255319,
      "loss": 1.193167805671692,
      "loss_ce": 0.0022193207405507565,
      "loss_iou": 0.52734375,
      "loss_num": 0.027099609375,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 69571784,
      "step": 1038
    },
    {
      "epoch": 0.11790070921985815,
      "grad_norm": 26.610240936279297,
      "learning_rate": 5e-05,
      "loss": 1.5725,
      "num_input_tokens_seen": 69639196,
      "step": 1039
    },
    {
      "epoch": 0.11790070921985815,
      "loss": 1.5255444049835205,
      "loss_ce": 0.004060028120875359,
      "loss_iou": 0.65625,
      "loss_num": 0.04150390625,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 69639196,
      "step": 1039
    },
    {
      "epoch": 0.11801418439716312,
      "grad_norm": 16.48139190673828,
      "learning_rate": 5e-05,
      "loss": 1.2536,
      "num_input_tokens_seen": 69706048,
      "step": 1040
    },
    {
      "epoch": 0.11801418439716312,
      "loss": 1.032655119895935,
      "loss_ce": 0.004670487716794014,
      "loss_iou": 0.451171875,
      "loss_num": 0.0250244140625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 69706048,
      "step": 1040
    },
    {
      "epoch": 0.11812765957446808,
      "grad_norm": 19.137109756469727,
      "learning_rate": 5e-05,
      "loss": 1.2242,
      "num_input_tokens_seen": 69773504,
      "step": 1041
    },
    {
      "epoch": 0.11812765957446808,
      "loss": 1.206458330154419,
      "loss_ce": 0.00394371896982193,
      "loss_iou": 0.53125,
      "loss_num": 0.02783203125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 69773504,
      "step": 1041
    },
    {
      "epoch": 0.11824113475177304,
      "grad_norm": 16.15424156188965,
      "learning_rate": 5e-05,
      "loss": 1.4705,
      "num_input_tokens_seen": 69840488,
      "step": 1042
    },
    {
      "epoch": 0.11824113475177304,
      "loss": 1.4742599725723267,
      "loss_ce": 0.003556865267455578,
      "loss_iou": 0.65234375,
      "loss_num": 0.033935546875,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 69840488,
      "step": 1042
    },
    {
      "epoch": 0.11835460992907801,
      "grad_norm": 19.374990463256836,
      "learning_rate": 5e-05,
      "loss": 1.2436,
      "num_input_tokens_seen": 69907388,
      "step": 1043
    },
    {
      "epoch": 0.11835460992907801,
      "loss": 1.409982681274414,
      "loss_ce": 0.006662363652139902,
      "loss_iou": 0.6328125,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 69907388,
      "step": 1043
    },
    {
      "epoch": 0.11846808510638297,
      "grad_norm": 16.627504348754883,
      "learning_rate": 5e-05,
      "loss": 1.6374,
      "num_input_tokens_seen": 69974948,
      "step": 1044
    },
    {
      "epoch": 0.11846808510638297,
      "loss": 1.6477034091949463,
      "loss_ce": 0.005125279538333416,
      "loss_iou": 0.73828125,
      "loss_num": 0.03271484375,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 69974948,
      "step": 1044
    },
    {
      "epoch": 0.11858156028368794,
      "grad_norm": 13.610039710998535,
      "learning_rate": 5e-05,
      "loss": 1.4494,
      "num_input_tokens_seen": 70041928,
      "step": 1045
    },
    {
      "epoch": 0.11858156028368794,
      "loss": 1.3055109977722168,
      "loss_ce": 0.008147635497152805,
      "loss_iou": 0.6015625,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 70041928,
      "step": 1045
    },
    {
      "epoch": 0.1186950354609929,
      "grad_norm": 28.547529220581055,
      "learning_rate": 5e-05,
      "loss": 1.4743,
      "num_input_tokens_seen": 70109036,
      "step": 1046
    },
    {
      "epoch": 0.1186950354609929,
      "loss": 1.4185583591461182,
      "loss_ce": 0.006448929198086262,
      "loss_iou": 0.6328125,
      "loss_num": 0.0286865234375,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 70109036,
      "step": 1046
    },
    {
      "epoch": 0.11880851063829788,
      "grad_norm": 14.144730567932129,
      "learning_rate": 5e-05,
      "loss": 1.5656,
      "num_input_tokens_seen": 70175004,
      "step": 1047
    },
    {
      "epoch": 0.11880851063829788,
      "loss": 1.6163084506988525,
      "loss_ce": 0.004980379715561867,
      "loss_iou": 0.6796875,
      "loss_num": 0.05078125,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 70175004,
      "step": 1047
    },
    {
      "epoch": 0.11892198581560284,
      "grad_norm": 39.717838287353516,
      "learning_rate": 5e-05,
      "loss": 1.4714,
      "num_input_tokens_seen": 70242880,
      "step": 1048
    },
    {
      "epoch": 0.11892198581560284,
      "loss": 1.3203113079071045,
      "loss_ce": 0.00878784991800785,
      "loss_iou": 0.56640625,
      "loss_num": 0.03515625,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 70242880,
      "step": 1048
    },
    {
      "epoch": 0.11903546099290781,
      "grad_norm": 28.939226150512695,
      "learning_rate": 5e-05,
      "loss": 1.3681,
      "num_input_tokens_seen": 70310284,
      "step": 1049
    },
    {
      "epoch": 0.11903546099290781,
      "loss": 1.4542312622070312,
      "loss_ce": 0.004036009311676025,
      "loss_iou": 0.64453125,
      "loss_num": 0.032470703125,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 70310284,
      "step": 1049
    },
    {
      "epoch": 0.11914893617021277,
      "grad_norm": 10.49290943145752,
      "learning_rate": 5e-05,
      "loss": 1.6638,
      "num_input_tokens_seen": 70375940,
      "step": 1050
    },
    {
      "epoch": 0.11914893617021277,
      "loss": 1.5412583351135254,
      "loss_ce": 0.008055277168750763,
      "loss_iou": 0.69140625,
      "loss_num": 0.029541015625,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 70375940,
      "step": 1050
    },
    {
      "epoch": 0.11926241134751774,
      "grad_norm": 22.316059112548828,
      "learning_rate": 5e-05,
      "loss": 1.4991,
      "num_input_tokens_seen": 70442676,
      "step": 1051
    },
    {
      "epoch": 0.11926241134751774,
      "loss": 1.3358206748962402,
      "loss_ce": 0.00671918410807848,
      "loss_iou": 0.57421875,
      "loss_num": 0.035888671875,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 70442676,
      "step": 1051
    },
    {
      "epoch": 0.1193758865248227,
      "grad_norm": 13.508291244506836,
      "learning_rate": 5e-05,
      "loss": 1.3224,
      "num_input_tokens_seen": 70509996,
      "step": 1052
    },
    {
      "epoch": 0.1193758865248227,
      "loss": 1.2274062633514404,
      "loss_ce": 0.004200642928481102,
      "loss_iou": 0.546875,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 70509996,
      "step": 1052
    },
    {
      "epoch": 0.11948936170212766,
      "grad_norm": 21.553627014160156,
      "learning_rate": 5e-05,
      "loss": 1.5955,
      "num_input_tokens_seen": 70576348,
      "step": 1053
    },
    {
      "epoch": 0.11948936170212766,
      "loss": 1.5320079326629639,
      "loss_ce": 0.006129130721092224,
      "loss_iou": 0.67578125,
      "loss_num": 0.0341796875,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 70576348,
      "step": 1053
    },
    {
      "epoch": 0.11960283687943263,
      "grad_norm": 32.655601501464844,
      "learning_rate": 5e-05,
      "loss": 1.8297,
      "num_input_tokens_seen": 70643124,
      "step": 1054
    },
    {
      "epoch": 0.11960283687943263,
      "loss": 1.9281353950500488,
      "loss_ce": 0.005283853970468044,
      "loss_iou": 0.8359375,
      "loss_num": 0.05126953125,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 70643124,
      "step": 1054
    },
    {
      "epoch": 0.11971631205673759,
      "grad_norm": 16.049514770507812,
      "learning_rate": 5e-05,
      "loss": 1.6467,
      "num_input_tokens_seen": 70710956,
      "step": 1055
    },
    {
      "epoch": 0.11971631205673759,
      "loss": 1.5366573333740234,
      "loss_ce": 0.005163060501217842,
      "loss_iou": 0.640625,
      "loss_num": 0.05029296875,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 70710956,
      "step": 1055
    },
    {
      "epoch": 0.11982978723404256,
      "grad_norm": 11.821962356567383,
      "learning_rate": 5e-05,
      "loss": 1.4398,
      "num_input_tokens_seen": 70777908,
      "step": 1056
    },
    {
      "epoch": 0.11982978723404256,
      "loss": 1.5478748083114624,
      "loss_ce": 0.008812312968075275,
      "loss_iou": 0.66796875,
      "loss_num": 0.041015625,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 70777908,
      "step": 1056
    },
    {
      "epoch": 0.11994326241134752,
      "grad_norm": 16.486576080322266,
      "learning_rate": 5e-05,
      "loss": 1.5151,
      "num_input_tokens_seen": 70845116,
      "step": 1057
    },
    {
      "epoch": 0.11994326241134752,
      "loss": 1.4082708358764648,
      "loss_ce": 0.0029973334167152643,
      "loss_iou": 0.61328125,
      "loss_num": 0.034912109375,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 70845116,
      "step": 1057
    },
    {
      "epoch": 0.12005673758865248,
      "grad_norm": 61.912200927734375,
      "learning_rate": 5e-05,
      "loss": 1.5311,
      "num_input_tokens_seen": 70910916,
      "step": 1058
    },
    {
      "epoch": 0.12005673758865248,
      "loss": 1.5913959741592407,
      "loss_ce": 0.003505382686853409,
      "loss_iou": 0.67578125,
      "loss_num": 0.046875,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 70910916,
      "step": 1058
    },
    {
      "epoch": 0.12017021276595745,
      "grad_norm": 31.356689453125,
      "learning_rate": 5e-05,
      "loss": 1.4782,
      "num_input_tokens_seen": 70977192,
      "step": 1059
    },
    {
      "epoch": 0.12017021276595745,
      "loss": 1.4874951839447021,
      "loss_ce": 0.008002997376024723,
      "loss_iou": 0.6171875,
      "loss_num": 0.04931640625,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 70977192,
      "step": 1059
    },
    {
      "epoch": 0.12028368794326241,
      "grad_norm": 48.12385559082031,
      "learning_rate": 5e-05,
      "loss": 1.4279,
      "num_input_tokens_seen": 71043524,
      "step": 1060
    },
    {
      "epoch": 0.12028368794326241,
      "loss": 1.2814786434173584,
      "loss_ce": 0.002647107932716608,
      "loss_iou": 0.5859375,
      "loss_num": 0.020751953125,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 71043524,
      "step": 1060
    },
    {
      "epoch": 0.12039716312056738,
      "grad_norm": 24.471221923828125,
      "learning_rate": 5e-05,
      "loss": 1.5024,
      "num_input_tokens_seen": 71108568,
      "step": 1061
    },
    {
      "epoch": 0.12039716312056738,
      "loss": 1.4628771543502808,
      "loss_ce": 0.005357629619538784,
      "loss_iou": 0.65234375,
      "loss_num": 0.030029296875,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 71108568,
      "step": 1061
    },
    {
      "epoch": 0.12051063829787234,
      "grad_norm": 15.742324829101562,
      "learning_rate": 5e-05,
      "loss": 1.7266,
      "num_input_tokens_seen": 71175240,
      "step": 1062
    },
    {
      "epoch": 0.12051063829787234,
      "loss": 1.7625842094421387,
      "loss_ce": 0.003795105963945389,
      "loss_iou": 0.765625,
      "loss_num": 0.0458984375,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 71175240,
      "step": 1062
    },
    {
      "epoch": 0.1206241134751773,
      "grad_norm": 12.01459789276123,
      "learning_rate": 5e-05,
      "loss": 1.1732,
      "num_input_tokens_seen": 71242264,
      "step": 1063
    },
    {
      "epoch": 0.1206241134751773,
      "loss": 1.3404265642166138,
      "loss_ce": 0.004488982260227203,
      "loss_iou": 0.59375,
      "loss_num": 0.0302734375,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 71242264,
      "step": 1063
    },
    {
      "epoch": 0.12073758865248227,
      "grad_norm": 26.07240867614746,
      "learning_rate": 5e-05,
      "loss": 1.3974,
      "num_input_tokens_seen": 71309692,
      "step": 1064
    },
    {
      "epoch": 0.12073758865248227,
      "loss": 1.2552149295806885,
      "loss_ce": 0.006191513501107693,
      "loss_iou": 0.56640625,
      "loss_num": 0.02294921875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 71309692,
      "step": 1064
    },
    {
      "epoch": 0.12085106382978723,
      "grad_norm": 19.238128662109375,
      "learning_rate": 5e-05,
      "loss": 1.8619,
      "num_input_tokens_seen": 71377948,
      "step": 1065
    },
    {
      "epoch": 0.12085106382978723,
      "loss": 1.9408305883407593,
      "loss_ce": 0.00528370076790452,
      "loss_iou": 0.8125,
      "loss_num": 0.0615234375,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 71377948,
      "step": 1065
    },
    {
      "epoch": 0.1209645390070922,
      "grad_norm": 11.9927978515625,
      "learning_rate": 5e-05,
      "loss": 1.2945,
      "num_input_tokens_seen": 71444980,
      "step": 1066
    },
    {
      "epoch": 0.1209645390070922,
      "loss": 1.3248462677001953,
      "loss_ce": 0.005998637527227402,
      "loss_iou": 0.52734375,
      "loss_num": 0.052734375,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 71444980,
      "step": 1066
    },
    {
      "epoch": 0.12107801418439716,
      "grad_norm": 14.352130889892578,
      "learning_rate": 5e-05,
      "loss": 1.238,
      "num_input_tokens_seen": 71512244,
      "step": 1067
    },
    {
      "epoch": 0.12107801418439716,
      "loss": 1.1919546127319336,
      "loss_ce": 0.007872644811868668,
      "loss_iou": 0.515625,
      "loss_num": 0.0302734375,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 71512244,
      "step": 1067
    },
    {
      "epoch": 0.12119148936170213,
      "grad_norm": 23.990266799926758,
      "learning_rate": 5e-05,
      "loss": 1.2702,
      "num_input_tokens_seen": 71579256,
      "step": 1068
    },
    {
      "epoch": 0.12119148936170213,
      "loss": 1.3242146968841553,
      "loss_ce": 0.00634357612580061,
      "loss_iou": 0.5859375,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 71579256,
      "step": 1068
    },
    {
      "epoch": 0.12130496453900709,
      "grad_norm": 11.070265769958496,
      "learning_rate": 5e-05,
      "loss": 1.3757,
      "num_input_tokens_seen": 71645568,
      "step": 1069
    },
    {
      "epoch": 0.12130496453900709,
      "loss": 1.187281847000122,
      "loss_ce": 0.005336037836968899,
      "loss_iou": 0.51953125,
      "loss_num": 0.029296875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 71645568,
      "step": 1069
    },
    {
      "epoch": 0.12141843971631205,
      "grad_norm": 16.34152603149414,
      "learning_rate": 5e-05,
      "loss": 1.4741,
      "num_input_tokens_seen": 71712536,
      "step": 1070
    },
    {
      "epoch": 0.12141843971631205,
      "loss": 1.4662914276123047,
      "loss_ce": 0.005353899206966162,
      "loss_iou": 0.6484375,
      "loss_num": 0.033203125,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 71712536,
      "step": 1070
    },
    {
      "epoch": 0.12153191489361702,
      "grad_norm": 14.094411849975586,
      "learning_rate": 5e-05,
      "loss": 1.4033,
      "num_input_tokens_seen": 71779992,
      "step": 1071
    },
    {
      "epoch": 0.12153191489361702,
      "loss": 1.3541332483291626,
      "loss_ce": 0.004523841664195061,
      "loss_iou": 0.5859375,
      "loss_num": 0.03564453125,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 71779992,
      "step": 1071
    },
    {
      "epoch": 0.12164539007092198,
      "grad_norm": 20.470008850097656,
      "learning_rate": 5e-05,
      "loss": 1.5625,
      "num_input_tokens_seen": 71847260,
      "step": 1072
    },
    {
      "epoch": 0.12164539007092198,
      "loss": 1.3887884616851807,
      "loss_ce": 0.004999379627406597,
      "loss_iou": 0.6171875,
      "loss_num": 0.029296875,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 71847260,
      "step": 1072
    },
    {
      "epoch": 0.12175886524822695,
      "grad_norm": 16.764354705810547,
      "learning_rate": 5e-05,
      "loss": 1.4617,
      "num_input_tokens_seen": 71914736,
      "step": 1073
    },
    {
      "epoch": 0.12175886524822695,
      "loss": 1.3373421430587769,
      "loss_ce": 0.004822596441954374,
      "loss_iou": 0.56640625,
      "loss_num": 0.03955078125,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 71914736,
      "step": 1073
    },
    {
      "epoch": 0.12187234042553191,
      "grad_norm": 23.62459373474121,
      "learning_rate": 5e-05,
      "loss": 1.4682,
      "num_input_tokens_seen": 71980832,
      "step": 1074
    },
    {
      "epoch": 0.12187234042553191,
      "loss": 1.4992836713790894,
      "loss_ce": 0.004166465252637863,
      "loss_iou": 0.6484375,
      "loss_num": 0.040283203125,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 71980832,
      "step": 1074
    },
    {
      "epoch": 0.12198581560283688,
      "grad_norm": 14.250699043273926,
      "learning_rate": 5e-05,
      "loss": 1.2938,
      "num_input_tokens_seen": 72048664,
      "step": 1075
    },
    {
      "epoch": 0.12198581560283688,
      "loss": 1.5337258577346802,
      "loss_ce": 0.008335193619132042,
      "loss_iou": 0.6640625,
      "loss_num": 0.0390625,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 72048664,
      "step": 1075
    },
    {
      "epoch": 0.12209929078014184,
      "grad_norm": 12.937056541442871,
      "learning_rate": 5e-05,
      "loss": 1.365,
      "num_input_tokens_seen": 72115680,
      "step": 1076
    },
    {
      "epoch": 0.12209929078014184,
      "loss": 1.4091527462005615,
      "loss_ce": 0.004367539193481207,
      "loss_iou": 0.59765625,
      "loss_num": 0.041748046875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 72115680,
      "step": 1076
    },
    {
      "epoch": 0.1222127659574468,
      "grad_norm": 9.927428245544434,
      "learning_rate": 5e-05,
      "loss": 1.2021,
      "num_input_tokens_seen": 72182540,
      "step": 1077
    },
    {
      "epoch": 0.1222127659574468,
      "loss": 1.1402181386947632,
      "loss_ce": 0.002400756813585758,
      "loss_iou": 0.48828125,
      "loss_num": 0.0322265625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 72182540,
      "step": 1077
    },
    {
      "epoch": 0.12232624113475177,
      "grad_norm": 10.22027587890625,
      "learning_rate": 5e-05,
      "loss": 1.1983,
      "num_input_tokens_seen": 72249440,
      "step": 1078
    },
    {
      "epoch": 0.12232624113475177,
      "loss": 1.2350586652755737,
      "loss_ce": 0.00507820351049304,
      "loss_iou": 0.515625,
      "loss_num": 0.039306640625,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 72249440,
      "step": 1078
    },
    {
      "epoch": 0.12243971631205673,
      "grad_norm": 19.866661071777344,
      "learning_rate": 5e-05,
      "loss": 1.3437,
      "num_input_tokens_seen": 72316276,
      "step": 1079
    },
    {
      "epoch": 0.12243971631205673,
      "loss": 1.435272216796875,
      "loss_ce": 0.003875733818858862,
      "loss_iou": 0.61328125,
      "loss_num": 0.040771484375,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 72316276,
      "step": 1079
    },
    {
      "epoch": 0.1225531914893617,
      "grad_norm": 12.339482307434082,
      "learning_rate": 5e-05,
      "loss": 1.5026,
      "num_input_tokens_seen": 72382360,
      "step": 1080
    },
    {
      "epoch": 0.1225531914893617,
      "loss": 1.5479702949523926,
      "loss_ce": 0.005978205241262913,
      "loss_iou": 0.6875,
      "loss_num": 0.03369140625,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 72382360,
      "step": 1080
    },
    {
      "epoch": 0.12266666666666666,
      "grad_norm": 21.42098045349121,
      "learning_rate": 5e-05,
      "loss": 1.3642,
      "num_input_tokens_seen": 72450316,
      "step": 1081
    },
    {
      "epoch": 0.12266666666666666,
      "loss": 1.2759737968444824,
      "loss_ce": 0.003512938041239977,
      "loss_iou": 0.56640625,
      "loss_num": 0.02734375,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 72450316,
      "step": 1081
    },
    {
      "epoch": 0.12278014184397164,
      "grad_norm": 27.24690818786621,
      "learning_rate": 5e-05,
      "loss": 1.5441,
      "num_input_tokens_seen": 72517344,
      "step": 1082
    },
    {
      "epoch": 0.12278014184397164,
      "loss": 1.5515015125274658,
      "loss_ce": 0.008532783947885036,
      "loss_iou": 0.66015625,
      "loss_num": 0.044189453125,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 72517344,
      "step": 1082
    },
    {
      "epoch": 0.1228936170212766,
      "grad_norm": 12.81740951538086,
      "learning_rate": 5e-05,
      "loss": 1.6303,
      "num_input_tokens_seen": 72584788,
      "step": 1083
    },
    {
      "epoch": 0.1228936170212766,
      "loss": 1.7046754360198975,
      "loss_ce": 0.005456648766994476,
      "loss_iou": 0.7421875,
      "loss_num": 0.043212890625,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 72584788,
      "step": 1083
    },
    {
      "epoch": 0.12300709219858157,
      "grad_norm": 14.752189636230469,
      "learning_rate": 5e-05,
      "loss": 1.4064,
      "num_input_tokens_seen": 72652128,
      "step": 1084
    },
    {
      "epoch": 0.12300709219858157,
      "loss": 1.1055099964141846,
      "loss_ce": 0.002970957662910223,
      "loss_iou": 0.5078125,
      "loss_num": 0.018310546875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 72652128,
      "step": 1084
    },
    {
      "epoch": 0.12312056737588653,
      "grad_norm": 19.054798126220703,
      "learning_rate": 5e-05,
      "loss": 1.3949,
      "num_input_tokens_seen": 72719720,
      "step": 1085
    },
    {
      "epoch": 0.12312056737588653,
      "loss": 1.2568482160568237,
      "loss_ce": 0.0034303138963878155,
      "loss_iou": 0.55859375,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 72719720,
      "step": 1085
    },
    {
      "epoch": 0.1232340425531915,
      "grad_norm": 18.649765014648438,
      "learning_rate": 5e-05,
      "loss": 1.5737,
      "num_input_tokens_seen": 72786772,
      "step": 1086
    },
    {
      "epoch": 0.1232340425531915,
      "loss": 1.5615489482879639,
      "loss_ce": 0.002955141942948103,
      "loss_iou": 0.6953125,
      "loss_num": 0.03369140625,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 72786772,
      "step": 1086
    },
    {
      "epoch": 0.12334751773049646,
      "grad_norm": 20.85711097717285,
      "learning_rate": 5e-05,
      "loss": 1.5728,
      "num_input_tokens_seen": 72853328,
      "step": 1087
    },
    {
      "epoch": 0.12334751773049646,
      "loss": 1.4349998235702515,
      "loss_ce": 0.006777177099138498,
      "loss_iou": 0.6171875,
      "loss_num": 0.03955078125,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 72853328,
      "step": 1087
    },
    {
      "epoch": 0.12346099290780142,
      "grad_norm": 14.158562660217285,
      "learning_rate": 5e-05,
      "loss": 1.4625,
      "num_input_tokens_seen": 72919588,
      "step": 1088
    },
    {
      "epoch": 0.12346099290780142,
      "loss": 1.6077170372009277,
      "loss_ce": 0.004201514646410942,
      "loss_iou": 0.66796875,
      "loss_num": 0.053466796875,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 72919588,
      "step": 1088
    },
    {
      "epoch": 0.12357446808510639,
      "grad_norm": 11.142814636230469,
      "learning_rate": 5e-05,
      "loss": 1.6528,
      "num_input_tokens_seen": 72987428,
      "step": 1089
    },
    {
      "epoch": 0.12357446808510639,
      "loss": 1.8168776035308838,
      "loss_ce": 0.007307261694222689,
      "loss_iou": 0.75390625,
      "loss_num": 0.06005859375,
      "loss_xval": 1.8125,
      "num_input_tokens_seen": 72987428,
      "step": 1089
    },
    {
      "epoch": 0.12368794326241135,
      "grad_norm": 25.334918975830078,
      "learning_rate": 5e-05,
      "loss": 1.2262,
      "num_input_tokens_seen": 73053916,
      "step": 1090
    },
    {
      "epoch": 0.12368794326241135,
      "loss": 1.473127841949463,
      "loss_ce": 0.004377889446914196,
      "loss_iou": 0.625,
      "loss_num": 0.04345703125,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 73053916,
      "step": 1090
    },
    {
      "epoch": 0.12380141843971632,
      "grad_norm": 37.9592170715332,
      "learning_rate": 5e-05,
      "loss": 1.598,
      "num_input_tokens_seen": 73120832,
      "step": 1091
    },
    {
      "epoch": 0.12380141843971632,
      "loss": 1.6195530891418457,
      "loss_ce": 0.005295414011925459,
      "loss_iou": 0.703125,
      "loss_num": 0.0419921875,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 73120832,
      "step": 1091
    },
    {
      "epoch": 0.12391489361702128,
      "grad_norm": 11.964619636535645,
      "learning_rate": 5e-05,
      "loss": 1.3687,
      "num_input_tokens_seen": 73188484,
      "step": 1092
    },
    {
      "epoch": 0.12391489361702128,
      "loss": 1.6179141998291016,
      "loss_ce": 0.005609460175037384,
      "loss_iou": 0.671875,
      "loss_num": 0.05419921875,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 73188484,
      "step": 1092
    },
    {
      "epoch": 0.12402836879432624,
      "grad_norm": 52.765716552734375,
      "learning_rate": 5e-05,
      "loss": 1.3056,
      "num_input_tokens_seen": 73254424,
      "step": 1093
    },
    {
      "epoch": 0.12402836879432624,
      "loss": 1.3027966022491455,
      "loss_ce": 0.004456775728613138,
      "loss_iou": 0.56640625,
      "loss_num": 0.032958984375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 73254424,
      "step": 1093
    },
    {
      "epoch": 0.12414184397163121,
      "grad_norm": 14.988643646240234,
      "learning_rate": 5e-05,
      "loss": 1.5743,
      "num_input_tokens_seen": 73322104,
      "step": 1094
    },
    {
      "epoch": 0.12414184397163121,
      "loss": 1.6012805700302124,
      "loss_ce": 0.006554009858518839,
      "loss_iou": 0.73046875,
      "loss_num": 0.0263671875,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 73322104,
      "step": 1094
    },
    {
      "epoch": 0.12425531914893617,
      "grad_norm": 21.721969604492188,
      "learning_rate": 5e-05,
      "loss": 1.4909,
      "num_input_tokens_seen": 73387976,
      "step": 1095
    },
    {
      "epoch": 0.12425531914893617,
      "loss": 1.4511128664016724,
      "loss_ce": 0.0057393573224544525,
      "loss_iou": 0.58984375,
      "loss_num": 0.053466796875,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 73387976,
      "step": 1095
    },
    {
      "epoch": 0.12436879432624114,
      "grad_norm": 15.24219799041748,
      "learning_rate": 5e-05,
      "loss": 1.4892,
      "num_input_tokens_seen": 73454792,
      "step": 1096
    },
    {
      "epoch": 0.12436879432624114,
      "loss": 1.5808621644973755,
      "loss_ce": 0.004690209403634071,
      "loss_iou": 0.6640625,
      "loss_num": 0.05029296875,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 73454792,
      "step": 1096
    },
    {
      "epoch": 0.1244822695035461,
      "grad_norm": 17.05913734436035,
      "learning_rate": 5e-05,
      "loss": 1.2765,
      "num_input_tokens_seen": 73522140,
      "step": 1097
    },
    {
      "epoch": 0.1244822695035461,
      "loss": 1.2608767747879028,
      "loss_ce": 0.002576007042080164,
      "loss_iou": 0.5625,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 73522140,
      "step": 1097
    },
    {
      "epoch": 0.12459574468085106,
      "grad_norm": 14.122727394104004,
      "learning_rate": 5e-05,
      "loss": 1.5818,
      "num_input_tokens_seen": 73589660,
      "step": 1098
    },
    {
      "epoch": 0.12459574468085106,
      "loss": 1.909680724143982,
      "loss_ce": 0.006360350176692009,
      "loss_iou": 0.78125,
      "loss_num": 0.06787109375,
      "loss_xval": 1.90625,
      "num_input_tokens_seen": 73589660,
      "step": 1098
    },
    {
      "epoch": 0.12470921985815603,
      "grad_norm": 15.523308753967285,
      "learning_rate": 5e-05,
      "loss": 1.277,
      "num_input_tokens_seen": 73654996,
      "step": 1099
    },
    {
      "epoch": 0.12470921985815603,
      "loss": 1.2030695676803589,
      "loss_ce": 0.004827410448342562,
      "loss_iou": 0.51171875,
      "loss_num": 0.03564453125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 73654996,
      "step": 1099
    },
    {
      "epoch": 0.12482269503546099,
      "grad_norm": 14.217398643493652,
      "learning_rate": 5e-05,
      "loss": 1.2834,
      "num_input_tokens_seen": 73721680,
      "step": 1100
    },
    {
      "epoch": 0.12482269503546099,
      "loss": 1.300025224685669,
      "loss_ce": 0.004859252367168665,
      "loss_iou": 0.53515625,
      "loss_num": 0.0439453125,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 73721680,
      "step": 1100
    },
    {
      "epoch": 0.12493617021276596,
      "grad_norm": 22.076522827148438,
      "learning_rate": 5e-05,
      "loss": 1.5388,
      "num_input_tokens_seen": 73787784,
      "step": 1101
    },
    {
      "epoch": 0.12493617021276596,
      "loss": 1.6913785934448242,
      "loss_ce": 0.0009488550131209195,
      "loss_iou": 0.7265625,
      "loss_num": 0.04736328125,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 73787784,
      "step": 1101
    },
    {
      "epoch": 0.12504964539007093,
      "grad_norm": 35.140586853027344,
      "learning_rate": 5e-05,
      "loss": 1.592,
      "num_input_tokens_seen": 73854508,
      "step": 1102
    },
    {
      "epoch": 0.12504964539007093,
      "loss": 1.579390525817871,
      "loss_ce": 0.007124776020646095,
      "loss_iou": 0.70703125,
      "loss_num": 0.03125,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 73854508,
      "step": 1102
    },
    {
      "epoch": 0.12516312056737589,
      "grad_norm": 14.242776870727539,
      "learning_rate": 5e-05,
      "loss": 1.8362,
      "num_input_tokens_seen": 73920700,
      "step": 1103
    },
    {
      "epoch": 0.12516312056737589,
      "loss": 1.5518789291381836,
      "loss_ce": 0.007933691143989563,
      "loss_iou": 0.6640625,
      "loss_num": 0.0439453125,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 73920700,
      "step": 1103
    },
    {
      "epoch": 0.12527659574468086,
      "grad_norm": 18.642404556274414,
      "learning_rate": 5e-05,
      "loss": 1.5334,
      "num_input_tokens_seen": 73987912,
      "step": 1104
    },
    {
      "epoch": 0.12527659574468086,
      "loss": 1.589501142501831,
      "loss_ce": 0.002587060211226344,
      "loss_iou": 0.6875,
      "loss_num": 0.04248046875,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 73987912,
      "step": 1104
    },
    {
      "epoch": 0.1253900709219858,
      "grad_norm": 18.919374465942383,
      "learning_rate": 5e-05,
      "loss": 1.4734,
      "num_input_tokens_seen": 74055140,
      "step": 1105
    },
    {
      "epoch": 0.1253900709219858,
      "loss": 1.6522530317306519,
      "loss_ce": 0.004792133346199989,
      "loss_iou": 0.703125,
      "loss_num": 0.0478515625,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 74055140,
      "step": 1105
    },
    {
      "epoch": 0.1255035460992908,
      "grad_norm": 22.083538055419922,
      "learning_rate": 5e-05,
      "loss": 1.4131,
      "num_input_tokens_seen": 74121656,
      "step": 1106
    },
    {
      "epoch": 0.1255035460992908,
      "loss": 1.5006892681121826,
      "loss_ce": 0.00703685125336051,
      "loss_iou": 0.65234375,
      "loss_num": 0.037109375,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 74121656,
      "step": 1106
    },
    {
      "epoch": 0.12561702127659574,
      "grad_norm": 13.012514114379883,
      "learning_rate": 5e-05,
      "loss": 1.3427,
      "num_input_tokens_seen": 74189108,
      "step": 1107
    },
    {
      "epoch": 0.12561702127659574,
      "loss": 1.1711145639419556,
      "loss_ce": 0.0031457238364964724,
      "loss_iou": 0.5390625,
      "loss_num": 0.018310546875,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 74189108,
      "step": 1107
    },
    {
      "epoch": 0.12573049645390072,
      "grad_norm": 23.209197998046875,
      "learning_rate": 5e-05,
      "loss": 1.3343,
      "num_input_tokens_seen": 74257224,
      "step": 1108
    },
    {
      "epoch": 0.12573049645390072,
      "loss": 1.2303061485290527,
      "loss_ce": 0.006673479452729225,
      "loss_iou": 0.55078125,
      "loss_num": 0.024658203125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 74257224,
      "step": 1108
    },
    {
      "epoch": 0.12584397163120567,
      "grad_norm": 30.637859344482422,
      "learning_rate": 5e-05,
      "loss": 1.3574,
      "num_input_tokens_seen": 74324972,
      "step": 1109
    },
    {
      "epoch": 0.12584397163120567,
      "loss": 1.2653034925460815,
      "loss_ce": 0.003584716934710741,
      "loss_iou": 0.578125,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 74324972,
      "step": 1109
    },
    {
      "epoch": 0.12595744680851065,
      "grad_norm": 12.576900482177734,
      "learning_rate": 5e-05,
      "loss": 1.5625,
      "num_input_tokens_seen": 74392020,
      "step": 1110
    },
    {
      "epoch": 0.12595744680851065,
      "loss": 1.4455629587173462,
      "loss_ce": 0.007818829268217087,
      "loss_iou": 0.625,
      "loss_num": 0.038330078125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 74392020,
      "step": 1110
    },
    {
      "epoch": 0.1260709219858156,
      "grad_norm": 68.51750946044922,
      "learning_rate": 5e-05,
      "loss": 1.6553,
      "num_input_tokens_seen": 74458756,
      "step": 1111
    },
    {
      "epoch": 0.1260709219858156,
      "loss": 1.5946094989776611,
      "loss_ce": 0.0028126430697739124,
      "loss_iou": 0.7109375,
      "loss_num": 0.0341796875,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 74458756,
      "step": 1111
    },
    {
      "epoch": 0.12618439716312058,
      "grad_norm": 20.522132873535156,
      "learning_rate": 5e-05,
      "loss": 1.2483,
      "num_input_tokens_seen": 74525060,
      "step": 1112
    },
    {
      "epoch": 0.12618439716312058,
      "loss": 1.3781776428222656,
      "loss_ce": 0.0031775720417499542,
      "loss_iou": 0.59765625,
      "loss_num": 0.03515625,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 74525060,
      "step": 1112
    },
    {
      "epoch": 0.12629787234042553,
      "grad_norm": 18.49102020263672,
      "learning_rate": 5e-05,
      "loss": 1.4674,
      "num_input_tokens_seen": 74592504,
      "step": 1113
    },
    {
      "epoch": 0.12629787234042553,
      "loss": 1.6568654775619507,
      "loss_ce": 0.006474924739450216,
      "loss_iou": 0.69921875,
      "loss_num": 0.051025390625,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 74592504,
      "step": 1113
    },
    {
      "epoch": 0.1264113475177305,
      "grad_norm": 14.457284927368164,
      "learning_rate": 5e-05,
      "loss": 1.4405,
      "num_input_tokens_seen": 74659772,
      "step": 1114
    },
    {
      "epoch": 0.1264113475177305,
      "loss": 1.6256788969039917,
      "loss_ce": 0.008491473272442818,
      "loss_iou": 0.73046875,
      "loss_num": 0.03125,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 74659772,
      "step": 1114
    },
    {
      "epoch": 0.12652482269503545,
      "grad_norm": 12.754348754882812,
      "learning_rate": 5e-05,
      "loss": 1.4161,
      "num_input_tokens_seen": 74727344,
      "step": 1115
    },
    {
      "epoch": 0.12652482269503545,
      "loss": 1.250258445739746,
      "loss_ce": 0.0046530114486813545,
      "loss_iou": 0.55078125,
      "loss_num": 0.0296630859375,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 74727344,
      "step": 1115
    },
    {
      "epoch": 0.12663829787234043,
      "grad_norm": 16.969022750854492,
      "learning_rate": 5e-05,
      "loss": 1.5318,
      "num_input_tokens_seen": 74795604,
      "step": 1116
    },
    {
      "epoch": 0.12663829787234043,
      "loss": 1.7467793226242065,
      "loss_ce": 0.004591743461787701,
      "loss_iou": 0.73046875,
      "loss_num": 0.056884765625,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 74795604,
      "step": 1116
    },
    {
      "epoch": 0.12675177304964538,
      "grad_norm": 23.503421783447266,
      "learning_rate": 5e-05,
      "loss": 1.3392,
      "num_input_tokens_seen": 74861748,
      "step": 1117
    },
    {
      "epoch": 0.12675177304964538,
      "loss": 1.4704997539520264,
      "loss_ce": 0.009562181308865547,
      "loss_iou": 0.640625,
      "loss_num": 0.035888671875,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 74861748,
      "step": 1117
    },
    {
      "epoch": 0.12686524822695036,
      "grad_norm": 15.029842376708984,
      "learning_rate": 5e-05,
      "loss": 1.6437,
      "num_input_tokens_seen": 74930308,
      "step": 1118
    },
    {
      "epoch": 0.12686524822695036,
      "loss": 1.6316534280776978,
      "loss_ce": 0.0066533139906823635,
      "loss_iou": 0.7421875,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 74930308,
      "step": 1118
    },
    {
      "epoch": 0.1269787234042553,
      "grad_norm": 36.43433380126953,
      "learning_rate": 5e-05,
      "loss": 1.2885,
      "num_input_tokens_seen": 74997228,
      "step": 1119
    },
    {
      "epoch": 0.1269787234042553,
      "loss": 1.2012546062469482,
      "loss_ce": 0.006918643601238728,
      "loss_iou": 0.5078125,
      "loss_num": 0.03564453125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 74997228,
      "step": 1119
    },
    {
      "epoch": 0.1270921985815603,
      "grad_norm": 21.26824378967285,
      "learning_rate": 5e-05,
      "loss": 1.4178,
      "num_input_tokens_seen": 75065024,
      "step": 1120
    },
    {
      "epoch": 0.1270921985815603,
      "loss": 1.4980409145355225,
      "loss_ce": 0.0048768348060548306,
      "loss_iou": 0.67578125,
      "loss_num": 0.0283203125,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 75065024,
      "step": 1120
    },
    {
      "epoch": 0.12720567375886524,
      "grad_norm": 13.807463645935059,
      "learning_rate": 5e-05,
      "loss": 1.3106,
      "num_input_tokens_seen": 75132028,
      "step": 1121
    },
    {
      "epoch": 0.12720567375886524,
      "loss": 1.319490909576416,
      "loss_ce": 0.0021081888116896152,
      "loss_iou": 0.5703125,
      "loss_num": 0.035400390625,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 75132028,
      "step": 1121
    },
    {
      "epoch": 0.12731914893617022,
      "grad_norm": 37.330162048339844,
      "learning_rate": 5e-05,
      "loss": 1.5152,
      "num_input_tokens_seen": 75199100,
      "step": 1122
    },
    {
      "epoch": 0.12731914893617022,
      "loss": 1.4912385940551758,
      "loss_ce": 0.005398813169449568,
      "loss_iou": 0.63671875,
      "loss_num": 0.042724609375,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 75199100,
      "step": 1122
    },
    {
      "epoch": 0.12743262411347517,
      "grad_norm": 25.777639389038086,
      "learning_rate": 5e-05,
      "loss": 1.4044,
      "num_input_tokens_seen": 75265168,
      "step": 1123
    },
    {
      "epoch": 0.12743262411347517,
      "loss": 1.086531639099121,
      "loss_ce": 0.004500383511185646,
      "loss_iou": 0.46484375,
      "loss_num": 0.0302734375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 75265168,
      "step": 1123
    },
    {
      "epoch": 0.12754609929078015,
      "grad_norm": 15.267592430114746,
      "learning_rate": 5e-05,
      "loss": 1.8494,
      "num_input_tokens_seen": 75332460,
      "step": 1124
    },
    {
      "epoch": 0.12754609929078015,
      "loss": 1.7858924865722656,
      "loss_ce": 0.008548814803361893,
      "loss_iou": 0.78125,
      "loss_num": 0.04345703125,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 75332460,
      "step": 1124
    },
    {
      "epoch": 0.1276595744680851,
      "grad_norm": 71.88085174560547,
      "learning_rate": 5e-05,
      "loss": 1.3516,
      "num_input_tokens_seen": 75399760,
      "step": 1125
    },
    {
      "epoch": 0.1276595744680851,
      "loss": 1.1320741176605225,
      "loss_ce": 0.006952100433409214,
      "loss_iou": 0.478515625,
      "loss_num": 0.033447265625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 75399760,
      "step": 1125
    },
    {
      "epoch": 0.12777304964539007,
      "grad_norm": 14.485893249511719,
      "learning_rate": 5e-05,
      "loss": 1.273,
      "num_input_tokens_seen": 75465952,
      "step": 1126
    },
    {
      "epoch": 0.12777304964539007,
      "loss": 1.100037693977356,
      "loss_ce": 0.005311185494065285,
      "loss_iou": 0.4609375,
      "loss_num": 0.033935546875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 75465952,
      "step": 1126
    },
    {
      "epoch": 0.12788652482269502,
      "grad_norm": 19.329116821289062,
      "learning_rate": 5e-05,
      "loss": 1.5811,
      "num_input_tokens_seen": 75533408,
      "step": 1127
    },
    {
      "epoch": 0.12788652482269502,
      "loss": 1.8092882633209229,
      "loss_ce": 0.0046008434146642685,
      "loss_iou": 0.7578125,
      "loss_num": 0.0576171875,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 75533408,
      "step": 1127
    },
    {
      "epoch": 0.128,
      "grad_norm": 27.539154052734375,
      "learning_rate": 5e-05,
      "loss": 1.6134,
      "num_input_tokens_seen": 75601228,
      "step": 1128
    },
    {
      "epoch": 0.128,
      "loss": 1.730322003364563,
      "loss_ce": 0.0027829399332404137,
      "loss_iou": 0.7421875,
      "loss_num": 0.0498046875,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 75601228,
      "step": 1128
    },
    {
      "epoch": 0.12811347517730495,
      "grad_norm": 20.80767250061035,
      "learning_rate": 5e-05,
      "loss": 1.775,
      "num_input_tokens_seen": 75668172,
      "step": 1129
    },
    {
      "epoch": 0.12811347517730495,
      "loss": 1.602219820022583,
      "loss_ce": 0.007615262642502785,
      "loss_iou": 0.69140625,
      "loss_num": 0.041748046875,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 75668172,
      "step": 1129
    },
    {
      "epoch": 0.12822695035460993,
      "grad_norm": 12.458230972290039,
      "learning_rate": 5e-05,
      "loss": 1.3515,
      "num_input_tokens_seen": 75735104,
      "step": 1130
    },
    {
      "epoch": 0.12822695035460993,
      "loss": 1.2810941934585571,
      "loss_ce": 0.005215282551944256,
      "loss_iou": 0.546875,
      "loss_num": 0.03564453125,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 75735104,
      "step": 1130
    },
    {
      "epoch": 0.12834042553191488,
      "grad_norm": 40.70143127441406,
      "learning_rate": 5e-05,
      "loss": 1.4289,
      "num_input_tokens_seen": 75802232,
      "step": 1131
    },
    {
      "epoch": 0.12834042553191488,
      "loss": 1.349175214767456,
      "loss_ce": 0.007576717063784599,
      "loss_iou": 0.578125,
      "loss_num": 0.037109375,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 75802232,
      "step": 1131
    },
    {
      "epoch": 0.12845390070921986,
      "grad_norm": 18.72675895690918,
      "learning_rate": 5e-05,
      "loss": 1.6946,
      "num_input_tokens_seen": 75869332,
      "step": 1132
    },
    {
      "epoch": 0.12845390070921986,
      "loss": 1.6510608196258545,
      "loss_ce": 0.005552905611693859,
      "loss_iou": 0.71875,
      "loss_num": 0.0419921875,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 75869332,
      "step": 1132
    },
    {
      "epoch": 0.1285673758865248,
      "grad_norm": 11.492302894592285,
      "learning_rate": 5e-05,
      "loss": 1.2635,
      "num_input_tokens_seen": 75935068,
      "step": 1133
    },
    {
      "epoch": 0.1285673758865248,
      "loss": 1.4094891548156738,
      "loss_ce": 0.007633569650352001,
      "loss_iou": 0.6171875,
      "loss_num": 0.033447265625,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 75935068,
      "step": 1133
    },
    {
      "epoch": 0.1286808510638298,
      "grad_norm": 91.81471252441406,
      "learning_rate": 5e-05,
      "loss": 1.3424,
      "num_input_tokens_seen": 76002400,
      "step": 1134
    },
    {
      "epoch": 0.1286808510638298,
      "loss": 1.349210500717163,
      "loss_ce": 0.005460458807647228,
      "loss_iou": 0.578125,
      "loss_num": 0.038330078125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 76002400,
      "step": 1134
    },
    {
      "epoch": 0.12879432624113477,
      "grad_norm": 26.488759994506836,
      "learning_rate": 5e-05,
      "loss": 1.4103,
      "num_input_tokens_seen": 76069796,
      "step": 1135
    },
    {
      "epoch": 0.12879432624113477,
      "loss": 1.5066912174224854,
      "loss_ce": 0.004249802324920893,
      "loss_iou": 0.6640625,
      "loss_num": 0.03466796875,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 76069796,
      "step": 1135
    },
    {
      "epoch": 0.12890780141843972,
      "grad_norm": 20.233173370361328,
      "learning_rate": 5e-05,
      "loss": 1.7198,
      "num_input_tokens_seen": 76137364,
      "step": 1136
    },
    {
      "epoch": 0.12890780141843972,
      "loss": 1.6160402297973633,
      "loss_ce": 0.0017824178794398904,
      "loss_iou": 0.72265625,
      "loss_num": 0.03369140625,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 76137364,
      "step": 1136
    },
    {
      "epoch": 0.1290212765957447,
      "grad_norm": 17.45326805114746,
      "learning_rate": 5e-05,
      "loss": 1.1241,
      "num_input_tokens_seen": 76203452,
      "step": 1137
    },
    {
      "epoch": 0.1290212765957447,
      "loss": 0.9382519721984863,
      "loss_ce": 0.004383598454296589,
      "loss_iou": 0.40625,
      "loss_num": 0.024169921875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 76203452,
      "step": 1137
    },
    {
      "epoch": 0.12913475177304964,
      "grad_norm": 16.670848846435547,
      "learning_rate": 5e-05,
      "loss": 1.2301,
      "num_input_tokens_seen": 76270524,
      "step": 1138
    },
    {
      "epoch": 0.12913475177304964,
      "loss": 1.2744457721710205,
      "loss_ce": 0.004945048131048679,
      "loss_iou": 0.57421875,
      "loss_num": 0.02490234375,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 76270524,
      "step": 1138
    },
    {
      "epoch": 0.12924822695035462,
      "grad_norm": 21.136247634887695,
      "learning_rate": 5e-05,
      "loss": 1.5152,
      "num_input_tokens_seen": 76336924,
      "step": 1139
    },
    {
      "epoch": 0.12924822695035462,
      "loss": 1.405812382698059,
      "loss_ce": 0.004445202648639679,
      "loss_iou": 0.6015625,
      "loss_num": 0.03955078125,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 76336924,
      "step": 1139
    },
    {
      "epoch": 0.12936170212765957,
      "grad_norm": 27.54804229736328,
      "learning_rate": 5e-05,
      "loss": 1.522,
      "num_input_tokens_seen": 76403620,
      "step": 1140
    },
    {
      "epoch": 0.12936170212765957,
      "loss": 1.3340072631835938,
      "loss_ce": 0.00466156704351306,
      "loss_iou": 0.56640625,
      "loss_num": 0.03955078125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 76403620,
      "step": 1140
    },
    {
      "epoch": 0.12947517730496455,
      "grad_norm": 21.283164978027344,
      "learning_rate": 5e-05,
      "loss": 1.4847,
      "num_input_tokens_seen": 76472352,
      "step": 1141
    },
    {
      "epoch": 0.12947517730496455,
      "loss": 1.5716078281402588,
      "loss_ce": 0.006178110372275114,
      "loss_iou": 0.671875,
      "loss_num": 0.044189453125,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 76472352,
      "step": 1141
    },
    {
      "epoch": 0.1295886524822695,
      "grad_norm": 19.8046932220459,
      "learning_rate": 5e-05,
      "loss": 1.4742,
      "num_input_tokens_seen": 76539068,
      "step": 1142
    },
    {
      "epoch": 0.1295886524822695,
      "loss": 1.7336244583129883,
      "loss_ce": 0.0041321744211018085,
      "loss_iou": 0.7265625,
      "loss_num": 0.055908203125,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 76539068,
      "step": 1142
    },
    {
      "epoch": 0.12970212765957448,
      "grad_norm": 16.718793869018555,
      "learning_rate": 5e-05,
      "loss": 1.4637,
      "num_input_tokens_seen": 76606064,
      "step": 1143
    },
    {
      "epoch": 0.12970212765957448,
      "loss": 1.4748179912567139,
      "loss_ce": 0.006067954935133457,
      "loss_iou": 0.6015625,
      "loss_num": 0.0537109375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 76606064,
      "step": 1143
    },
    {
      "epoch": 0.12981560283687943,
      "grad_norm": 14.150735855102539,
      "learning_rate": 5e-05,
      "loss": 1.1392,
      "num_input_tokens_seen": 76671544,
      "step": 1144
    },
    {
      "epoch": 0.12981560283687943,
      "loss": 0.9482450485229492,
      "loss_ce": 0.002200145274400711,
      "loss_iou": 0.43359375,
      "loss_num": 0.015869140625,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 76671544,
      "step": 1144
    },
    {
      "epoch": 0.1299290780141844,
      "grad_norm": 20.401649475097656,
      "learning_rate": 5e-05,
      "loss": 1.329,
      "num_input_tokens_seen": 76738668,
      "step": 1145
    },
    {
      "epoch": 0.1299290780141844,
      "loss": 1.3421425819396973,
      "loss_ce": 0.006205044221132994,
      "loss_iou": 0.59375,
      "loss_num": 0.030517578125,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 76738668,
      "step": 1145
    },
    {
      "epoch": 0.13004255319148936,
      "grad_norm": 24.991687774658203,
      "learning_rate": 5e-05,
      "loss": 1.5113,
      "num_input_tokens_seen": 76805668,
      "step": 1146
    },
    {
      "epoch": 0.13004255319148936,
      "loss": 1.4251682758331299,
      "loss_ce": 0.004269872792065144,
      "loss_iou": 0.640625,
      "loss_num": 0.0274658203125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 76805668,
      "step": 1146
    },
    {
      "epoch": 0.13015602836879434,
      "grad_norm": 11.900650024414062,
      "learning_rate": 5e-05,
      "loss": 1.2139,
      "num_input_tokens_seen": 76872408,
      "step": 1147
    },
    {
      "epoch": 0.13015602836879434,
      "loss": 1.3838597536087036,
      "loss_ce": 0.0015355106443166733,
      "loss_iou": 0.6015625,
      "loss_num": 0.0361328125,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 76872408,
      "step": 1147
    },
    {
      "epoch": 0.13026950354609929,
      "grad_norm": 21.694204330444336,
      "learning_rate": 5e-05,
      "loss": 1.4439,
      "num_input_tokens_seen": 76939696,
      "step": 1148
    },
    {
      "epoch": 0.13026950354609929,
      "loss": 1.6136717796325684,
      "loss_ce": 0.0042967414483428,
      "loss_iou": 0.6875,
      "loss_num": 0.04638671875,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 76939696,
      "step": 1148
    },
    {
      "epoch": 0.13038297872340426,
      "grad_norm": 25.114635467529297,
      "learning_rate": 5e-05,
      "loss": 1.7231,
      "num_input_tokens_seen": 77006932,
      "step": 1149
    },
    {
      "epoch": 0.13038297872340426,
      "loss": 1.7204447984695435,
      "loss_ce": 0.00853079091757536,
      "loss_iou": 0.7265625,
      "loss_num": 0.051025390625,
      "loss_xval": 1.7109375,
      "num_input_tokens_seen": 77006932,
      "step": 1149
    },
    {
      "epoch": 0.13049645390070921,
      "grad_norm": 16.619672775268555,
      "learning_rate": 5e-05,
      "loss": 1.3696,
      "num_input_tokens_seen": 77073888,
      "step": 1150
    },
    {
      "epoch": 0.13049645390070921,
      "loss": 1.5364930629730225,
      "loss_ce": 0.004754733294248581,
      "loss_iou": 0.67578125,
      "loss_num": 0.03564453125,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 77073888,
      "step": 1150
    },
    {
      "epoch": 0.1306099290780142,
      "grad_norm": 20.282154083251953,
      "learning_rate": 5e-05,
      "loss": 1.4275,
      "num_input_tokens_seen": 77140192,
      "step": 1151
    },
    {
      "epoch": 0.1306099290780142,
      "loss": 1.2972394227981567,
      "loss_ce": 0.008787321858108044,
      "loss_iou": 0.54296875,
      "loss_num": 0.040771484375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 77140192,
      "step": 1151
    },
    {
      "epoch": 0.13072340425531914,
      "grad_norm": 14.315779685974121,
      "learning_rate": 5e-05,
      "loss": 1.2742,
      "num_input_tokens_seen": 77206672,
      "step": 1152
    },
    {
      "epoch": 0.13072340425531914,
      "loss": 1.2512953281402588,
      "loss_ce": 0.0027601923793554306,
      "loss_iou": 0.5546875,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 77206672,
      "step": 1152
    },
    {
      "epoch": 0.13083687943262412,
      "grad_norm": 13.221717834472656,
      "learning_rate": 5e-05,
      "loss": 1.2872,
      "num_input_tokens_seen": 77273856,
      "step": 1153
    },
    {
      "epoch": 0.13083687943262412,
      "loss": 1.3252487182617188,
      "loss_ce": 0.005424421280622482,
      "loss_iou": 0.5546875,
      "loss_num": 0.042236328125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 77273856,
      "step": 1153
    },
    {
      "epoch": 0.13095035460992907,
      "grad_norm": 29.172407150268555,
      "learning_rate": 5e-05,
      "loss": 1.193,
      "num_input_tokens_seen": 77340708,
      "step": 1154
    },
    {
      "epoch": 0.13095035460992907,
      "loss": 1.3062329292297363,
      "loss_ce": 0.003010281128808856,
      "loss_iou": 0.59765625,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 77340708,
      "step": 1154
    },
    {
      "epoch": 0.13106382978723405,
      "grad_norm": 14.620027542114258,
      "learning_rate": 5e-05,
      "loss": 1.5829,
      "num_input_tokens_seen": 77407792,
      "step": 1155
    },
    {
      "epoch": 0.13106382978723405,
      "loss": 1.6250364780426025,
      "loss_ce": 0.003942827694118023,
      "loss_iou": 0.6875,
      "loss_num": 0.049072265625,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 77407792,
      "step": 1155
    },
    {
      "epoch": 0.131177304964539,
      "grad_norm": 19.86765480041504,
      "learning_rate": 5e-05,
      "loss": 1.2815,
      "num_input_tokens_seen": 77474172,
      "step": 1156
    },
    {
      "epoch": 0.131177304964539,
      "loss": 1.3643497228622437,
      "loss_ce": 0.004974752198904753,
      "loss_iou": 0.5859375,
      "loss_num": 0.038330078125,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 77474172,
      "step": 1156
    },
    {
      "epoch": 0.13129078014184398,
      "grad_norm": 35.77491760253906,
      "learning_rate": 5e-05,
      "loss": 1.4521,
      "num_input_tokens_seen": 77541056,
      "step": 1157
    },
    {
      "epoch": 0.13129078014184398,
      "loss": 1.4565763473510742,
      "loss_ce": 0.005892746150493622,
      "loss_iou": 0.6484375,
      "loss_num": 0.0306396484375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 77541056,
      "step": 1157
    },
    {
      "epoch": 0.13140425531914893,
      "grad_norm": 12.528764724731445,
      "learning_rate": 5e-05,
      "loss": 1.7126,
      "num_input_tokens_seen": 77608388,
      "step": 1158
    },
    {
      "epoch": 0.13140425531914893,
      "loss": 1.6667511463165283,
      "loss_ce": 0.003665210446342826,
      "loss_iou": 0.7109375,
      "loss_num": 0.048828125,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 77608388,
      "step": 1158
    },
    {
      "epoch": 0.1315177304964539,
      "grad_norm": 36.27714157104492,
      "learning_rate": 5e-05,
      "loss": 1.3071,
      "num_input_tokens_seen": 77675424,
      "step": 1159
    },
    {
      "epoch": 0.1315177304964539,
      "loss": 1.3150861263275146,
      "loss_ce": 0.0016095710452646017,
      "loss_iou": 0.546875,
      "loss_num": 0.043212890625,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 77675424,
      "step": 1159
    },
    {
      "epoch": 0.13163120567375886,
      "grad_norm": 12.567350387573242,
      "learning_rate": 5e-05,
      "loss": 1.25,
      "num_input_tokens_seen": 77742124,
      "step": 1160
    },
    {
      "epoch": 0.13163120567375886,
      "loss": 1.2860698699951172,
      "loss_ce": 0.009702677838504314,
      "loss_iou": 0.53125,
      "loss_num": 0.043212890625,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 77742124,
      "step": 1160
    },
    {
      "epoch": 0.13174468085106383,
      "grad_norm": 12.811811447143555,
      "learning_rate": 5e-05,
      "loss": 1.3285,
      "num_input_tokens_seen": 77809636,
      "step": 1161
    },
    {
      "epoch": 0.13174468085106383,
      "loss": 1.3074134588241577,
      "loss_ce": 0.005655622109770775,
      "loss_iou": 0.57421875,
      "loss_num": 0.031005859375,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 77809636,
      "step": 1161
    },
    {
      "epoch": 0.13185815602836878,
      "grad_norm": 19.34149932861328,
      "learning_rate": 5e-05,
      "loss": 1.3645,
      "num_input_tokens_seen": 77876528,
      "step": 1162
    },
    {
      "epoch": 0.13185815602836878,
      "loss": 1.4059791564941406,
      "loss_ce": 0.00461191963404417,
      "loss_iou": 0.59375,
      "loss_num": 0.04248046875,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 77876528,
      "step": 1162
    },
    {
      "epoch": 0.13197163120567376,
      "grad_norm": 51.63111877441406,
      "learning_rate": 5e-05,
      "loss": 1.6672,
      "num_input_tokens_seen": 77943792,
      "step": 1163
    },
    {
      "epoch": 0.13197163120567376,
      "loss": 1.6709957122802734,
      "loss_ce": 0.005956615321338177,
      "loss_iou": 0.6875,
      "loss_num": 0.05859375,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 77943792,
      "step": 1163
    },
    {
      "epoch": 0.1320851063829787,
      "grad_norm": 13.507346153259277,
      "learning_rate": 5e-05,
      "loss": 1.8347,
      "num_input_tokens_seen": 78010996,
      "step": 1164
    },
    {
      "epoch": 0.1320851063829787,
      "loss": 1.7484910488128662,
      "loss_ce": 0.005326881073415279,
      "loss_iou": 0.73828125,
      "loss_num": 0.052978515625,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 78010996,
      "step": 1164
    },
    {
      "epoch": 0.1321985815602837,
      "grad_norm": 12.01240062713623,
      "learning_rate": 5e-05,
      "loss": 1.2841,
      "num_input_tokens_seen": 78078284,
      "step": 1165
    },
    {
      "epoch": 0.1321985815602837,
      "loss": 1.3755825757980347,
      "loss_ce": 0.002535679377615452,
      "loss_iou": 0.58984375,
      "loss_num": 0.0380859375,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 78078284,
      "step": 1165
    },
    {
      "epoch": 0.13231205673758864,
      "grad_norm": 19.65365982055664,
      "learning_rate": 5e-05,
      "loss": 1.2246,
      "num_input_tokens_seen": 78144864,
      "step": 1166
    },
    {
      "epoch": 0.13231205673758864,
      "loss": 1.224616527557373,
      "loss_ce": 0.01123768836259842,
      "loss_iou": 0.51953125,
      "loss_num": 0.034912109375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 78144864,
      "step": 1166
    },
    {
      "epoch": 0.13242553191489362,
      "grad_norm": 14.808646202087402,
      "learning_rate": 5e-05,
      "loss": 1.522,
      "num_input_tokens_seen": 78211644,
      "step": 1167
    },
    {
      "epoch": 0.13242553191489362,
      "loss": 1.6263952255249023,
      "loss_ce": 0.002860089298337698,
      "loss_iou": 0.6953125,
      "loss_num": 0.0458984375,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 78211644,
      "step": 1167
    },
    {
      "epoch": 0.13253900709219857,
      "grad_norm": 21.682493209838867,
      "learning_rate": 5e-05,
      "loss": 1.2748,
      "num_input_tokens_seen": 78277696,
      "step": 1168
    },
    {
      "epoch": 0.13253900709219857,
      "loss": 1.0514471530914307,
      "loss_ce": 0.004816296044737101,
      "loss_iou": 0.43359375,
      "loss_num": 0.0361328125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 78277696,
      "step": 1168
    },
    {
      "epoch": 0.13265248226950355,
      "grad_norm": 13.884369850158691,
      "learning_rate": 5e-05,
      "loss": 1.4632,
      "num_input_tokens_seen": 78345028,
      "step": 1169
    },
    {
      "epoch": 0.13265248226950355,
      "loss": 1.5203499794006348,
      "loss_ce": 0.0060677556321024895,
      "loss_iou": 0.64453125,
      "loss_num": 0.044921875,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 78345028,
      "step": 1169
    },
    {
      "epoch": 0.1327659574468085,
      "grad_norm": 20.0582332611084,
      "learning_rate": 5e-05,
      "loss": 1.3644,
      "num_input_tokens_seen": 78411636,
      "step": 1170
    },
    {
      "epoch": 0.1327659574468085,
      "loss": 1.3973186016082764,
      "loss_ce": 0.00620527658611536,
      "loss_iou": 0.61328125,
      "loss_num": 0.032470703125,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 78411636,
      "step": 1170
    },
    {
      "epoch": 0.13287943262411347,
      "grad_norm": 26.011573791503906,
      "learning_rate": 5e-05,
      "loss": 1.491,
      "num_input_tokens_seen": 78479048,
      "step": 1171
    },
    {
      "epoch": 0.13287943262411347,
      "loss": 1.4582397937774658,
      "loss_ce": 0.004626512061804533,
      "loss_iou": 0.6328125,
      "loss_num": 0.03759765625,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 78479048,
      "step": 1171
    },
    {
      "epoch": 0.13299290780141845,
      "grad_norm": 16.170536041259766,
      "learning_rate": 5e-05,
      "loss": 1.5577,
      "num_input_tokens_seen": 78545836,
      "step": 1172
    },
    {
      "epoch": 0.13299290780141845,
      "loss": 1.4470938444137573,
      "loss_ce": 0.0025747399777173996,
      "loss_iou": 0.63671875,
      "loss_num": 0.03466796875,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 78545836,
      "step": 1172
    },
    {
      "epoch": 0.1331063829787234,
      "grad_norm": 13.796488761901855,
      "learning_rate": 5e-05,
      "loss": 1.22,
      "num_input_tokens_seen": 78612616,
      "step": 1173
    },
    {
      "epoch": 0.1331063829787234,
      "loss": 1.1435229778289795,
      "loss_ce": 0.005827690940350294,
      "loss_iou": 0.51953125,
      "loss_num": 0.01953125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 78612616,
      "step": 1173
    },
    {
      "epoch": 0.13321985815602838,
      "grad_norm": 203.9684295654297,
      "learning_rate": 5e-05,
      "loss": 1.4122,
      "num_input_tokens_seen": 78680236,
      "step": 1174
    },
    {
      "epoch": 0.13321985815602838,
      "loss": 1.3679676055908203,
      "loss_ce": 0.004686327185481787,
      "loss_iou": 0.58203125,
      "loss_num": 0.039306640625,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 78680236,
      "step": 1174
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 13.070964813232422,
      "learning_rate": 5e-05,
      "loss": 1.4249,
      "num_input_tokens_seen": 78747040,
      "step": 1175
    },
    {
      "epoch": 0.13333333333333333,
      "loss": 1.33045494556427,
      "loss_ce": 0.0018416143720969558,
      "loss_iou": 0.55859375,
      "loss_num": 0.041748046875,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 78747040,
      "step": 1175
    },
    {
      "epoch": 0.1334468085106383,
      "grad_norm": 24.33806610107422,
      "learning_rate": 5e-05,
      "loss": 1.3606,
      "num_input_tokens_seen": 78813728,
      "step": 1176
    },
    {
      "epoch": 0.1334468085106383,
      "loss": 1.4113030433654785,
      "loss_ce": 0.006517879664897919,
      "loss_iou": 0.60546875,
      "loss_num": 0.038330078125,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 78813728,
      "step": 1176
    },
    {
      "epoch": 0.13356028368794326,
      "grad_norm": 19.341794967651367,
      "learning_rate": 5e-05,
      "loss": 1.4119,
      "num_input_tokens_seen": 78881868,
      "step": 1177
    },
    {
      "epoch": 0.13356028368794326,
      "loss": 1.4252464771270752,
      "loss_ce": 0.0014182787854224443,
      "loss_iou": 0.63671875,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 78881868,
      "step": 1177
    },
    {
      "epoch": 0.13367375886524824,
      "grad_norm": 22.03459358215332,
      "learning_rate": 5e-05,
      "loss": 1.6076,
      "num_input_tokens_seen": 78949476,
      "step": 1178
    },
    {
      "epoch": 0.13367375886524824,
      "loss": 1.8512752056121826,
      "loss_ce": 0.004595625214278698,
      "loss_iou": 0.7890625,
      "loss_num": 0.052978515625,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 78949476,
      "step": 1178
    },
    {
      "epoch": 0.1337872340425532,
      "grad_norm": 17.435379028320312,
      "learning_rate": 5e-05,
      "loss": 1.5157,
      "num_input_tokens_seen": 79016972,
      "step": 1179
    },
    {
      "epoch": 0.1337872340425532,
      "loss": 1.3414185047149658,
      "loss_ce": 0.00352791091427207,
      "loss_iou": 0.59765625,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 79016972,
      "step": 1179
    },
    {
      "epoch": 0.13390070921985817,
      "grad_norm": 18.116914749145508,
      "learning_rate": 5e-05,
      "loss": 1.3051,
      "num_input_tokens_seen": 79084008,
      "step": 1180
    },
    {
      "epoch": 0.13390070921985817,
      "loss": 1.2811720371246338,
      "loss_ce": 0.007246186025440693,
      "loss_iou": 0.56640625,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 79084008,
      "step": 1180
    },
    {
      "epoch": 0.13401418439716312,
      "grad_norm": 18.351959228515625,
      "learning_rate": 5e-05,
      "loss": 1.5243,
      "num_input_tokens_seen": 79151660,
      "step": 1181
    },
    {
      "epoch": 0.13401418439716312,
      "loss": 1.6221954822540283,
      "loss_ce": 0.009402603842318058,
      "loss_iou": 0.66796875,
      "loss_num": 0.055908203125,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 79151660,
      "step": 1181
    },
    {
      "epoch": 0.1341276595744681,
      "grad_norm": 20.138063430786133,
      "learning_rate": 5e-05,
      "loss": 1.5546,
      "num_input_tokens_seen": 79218612,
      "step": 1182
    },
    {
      "epoch": 0.1341276595744681,
      "loss": 1.7148826122283936,
      "loss_ce": 0.004921565763652325,
      "loss_iou": 0.71875,
      "loss_num": 0.0546875,
      "loss_xval": 1.7109375,
      "num_input_tokens_seen": 79218612,
      "step": 1182
    },
    {
      "epoch": 0.13424113475177304,
      "grad_norm": 19.960302352905273,
      "learning_rate": 5e-05,
      "loss": 1.4021,
      "num_input_tokens_seen": 79285840,
      "step": 1183
    },
    {
      "epoch": 0.13424113475177304,
      "loss": 1.5216853618621826,
      "loss_ce": 0.008013542741537094,
      "loss_iou": 0.65625,
      "loss_num": 0.041015625,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 79285840,
      "step": 1183
    },
    {
      "epoch": 0.13435460992907802,
      "grad_norm": 14.286540985107422,
      "learning_rate": 5e-05,
      "loss": 1.6028,
      "num_input_tokens_seen": 79352284,
      "step": 1184
    },
    {
      "epoch": 0.13435460992907802,
      "loss": 1.4896786212921143,
      "loss_ce": 0.006280123721808195,
      "loss_iou": 0.64453125,
      "loss_num": 0.038818359375,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 79352284,
      "step": 1184
    },
    {
      "epoch": 0.13446808510638297,
      "grad_norm": 20.508068084716797,
      "learning_rate": 5e-05,
      "loss": 1.4597,
      "num_input_tokens_seen": 79420624,
      "step": 1185
    },
    {
      "epoch": 0.13446808510638297,
      "loss": 1.5935930013656616,
      "loss_ce": 0.002772705629467964,
      "loss_iou": 0.7109375,
      "loss_num": 0.03369140625,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 79420624,
      "step": 1185
    },
    {
      "epoch": 0.13458156028368795,
      "grad_norm": 42.60745620727539,
      "learning_rate": 5e-05,
      "loss": 1.3846,
      "num_input_tokens_seen": 79487780,
      "step": 1186
    },
    {
      "epoch": 0.13458156028368795,
      "loss": 1.4126975536346436,
      "loss_ce": 0.007302022539079189,
      "loss_iou": 0.6171875,
      "loss_num": 0.03466796875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 79487780,
      "step": 1186
    },
    {
      "epoch": 0.1346950354609929,
      "grad_norm": 33.9418830871582,
      "learning_rate": 5e-05,
      "loss": 1.3337,
      "num_input_tokens_seen": 79553332,
      "step": 1187
    },
    {
      "epoch": 0.1346950354609929,
      "loss": 1.4166948795318604,
      "loss_ce": 0.005073880311101675,
      "loss_iou": 0.6015625,
      "loss_num": 0.042236328125,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 79553332,
      "step": 1187
    },
    {
      "epoch": 0.13480851063829788,
      "grad_norm": 26.491804122924805,
      "learning_rate": 5e-05,
      "loss": 1.2737,
      "num_input_tokens_seen": 79620060,
      "step": 1188
    },
    {
      "epoch": 0.13480851063829788,
      "loss": 1.3004709482192993,
      "loss_ce": 0.005060815252363682,
      "loss_iou": 0.55859375,
      "loss_num": 0.03564453125,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 79620060,
      "step": 1188
    },
    {
      "epoch": 0.13492198581560283,
      "grad_norm": 19.20313835144043,
      "learning_rate": 5e-05,
      "loss": 1.5785,
      "num_input_tokens_seen": 79687176,
      "step": 1189
    },
    {
      "epoch": 0.13492198581560283,
      "loss": 1.8417302370071411,
      "loss_ce": 0.004816151689738035,
      "loss_iou": 0.78515625,
      "loss_num": 0.05224609375,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 79687176,
      "step": 1189
    },
    {
      "epoch": 0.1350354609929078,
      "grad_norm": 17.249469757080078,
      "learning_rate": 5e-05,
      "loss": 1.3577,
      "num_input_tokens_seen": 79753512,
      "step": 1190
    },
    {
      "epoch": 0.1350354609929078,
      "loss": 1.3473159074783325,
      "loss_ce": 0.0016127335838973522,
      "loss_iou": 0.578125,
      "loss_num": 0.03759765625,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 79753512,
      "step": 1190
    },
    {
      "epoch": 0.13514893617021276,
      "grad_norm": 29.569231033325195,
      "learning_rate": 5e-05,
      "loss": 1.5472,
      "num_input_tokens_seen": 79820676,
      "step": 1191
    },
    {
      "epoch": 0.13514893617021276,
      "loss": 1.7807246446609497,
      "loss_ce": 0.006310607306659222,
      "loss_iou": 0.75,
      "loss_num": 0.054931640625,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 79820676,
      "step": 1191
    },
    {
      "epoch": 0.13526241134751774,
      "grad_norm": 16.110219955444336,
      "learning_rate": 5e-05,
      "loss": 1.4938,
      "num_input_tokens_seen": 79887304,
      "step": 1192
    },
    {
      "epoch": 0.13526241134751774,
      "loss": 1.634830117225647,
      "loss_ce": 0.004947308450937271,
      "loss_iou": 0.73046875,
      "loss_num": 0.033935546875,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 79887304,
      "step": 1192
    },
    {
      "epoch": 0.1353758865248227,
      "grad_norm": 14.844939231872559,
      "learning_rate": 5e-05,
      "loss": 1.4067,
      "num_input_tokens_seen": 79954116,
      "step": 1193
    },
    {
      "epoch": 0.1353758865248227,
      "loss": 1.5018459558486938,
      "loss_ce": 0.008193613961338997,
      "loss_iou": 0.6484375,
      "loss_num": 0.0400390625,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 79954116,
      "step": 1193
    },
    {
      "epoch": 0.13548936170212766,
      "grad_norm": 19.750829696655273,
      "learning_rate": 5e-05,
      "loss": 1.3105,
      "num_input_tokens_seen": 80021188,
      "step": 1194
    },
    {
      "epoch": 0.13548936170212766,
      "loss": 1.433347463607788,
      "loss_ce": 0.004636494908481836,
      "loss_iou": 0.609375,
      "loss_num": 0.041748046875,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 80021188,
      "step": 1194
    },
    {
      "epoch": 0.13560283687943261,
      "grad_norm": 21.268081665039062,
      "learning_rate": 5e-05,
      "loss": 1.5551,
      "num_input_tokens_seen": 80087960,
      "step": 1195
    },
    {
      "epoch": 0.13560283687943261,
      "loss": 1.544223427772522,
      "loss_ce": 0.004916775040328503,
      "loss_iou": 0.69140625,
      "loss_num": 0.03076171875,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 80087960,
      "step": 1195
    },
    {
      "epoch": 0.1357163120567376,
      "grad_norm": 11.92896556854248,
      "learning_rate": 5e-05,
      "loss": 1.253,
      "num_input_tokens_seen": 80155508,
      "step": 1196
    },
    {
      "epoch": 0.1357163120567376,
      "loss": 1.1922409534454346,
      "loss_ce": 0.003276115283370018,
      "loss_iou": 0.53125,
      "loss_num": 0.02490234375,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 80155508,
      "step": 1196
    },
    {
      "epoch": 0.13582978723404254,
      "grad_norm": 18.776880264282227,
      "learning_rate": 5e-05,
      "loss": 1.0803,
      "num_input_tokens_seen": 80222728,
      "step": 1197
    },
    {
      "epoch": 0.13582978723404254,
      "loss": 1.1414967775344849,
      "loss_ce": 0.004533954430371523,
      "loss_iou": 0.53125,
      "loss_num": 0.014892578125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 80222728,
      "step": 1197
    },
    {
      "epoch": 0.13594326241134752,
      "grad_norm": 18.33090591430664,
      "learning_rate": 5e-05,
      "loss": 1.5192,
      "num_input_tokens_seen": 80289600,
      "step": 1198
    },
    {
      "epoch": 0.13594326241134752,
      "loss": 1.6744014024734497,
      "loss_ce": 0.006432707421481609,
      "loss_iou": 0.71875,
      "loss_num": 0.046630859375,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 80289600,
      "step": 1198
    },
    {
      "epoch": 0.13605673758865247,
      "grad_norm": 13.3956880569458,
      "learning_rate": 5e-05,
      "loss": 1.2302,
      "num_input_tokens_seen": 80357268,
      "step": 1199
    },
    {
      "epoch": 0.13605673758865247,
      "loss": 1.3242141008377075,
      "loss_ce": 0.00463401572778821,
      "loss_iou": 0.53515625,
      "loss_num": 0.049072265625,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 80357268,
      "step": 1199
    },
    {
      "epoch": 0.13617021276595745,
      "grad_norm": 17.757732391357422,
      "learning_rate": 5e-05,
      "loss": 1.6541,
      "num_input_tokens_seen": 80425044,
      "step": 1200
    },
    {
      "epoch": 0.13617021276595745,
      "loss": 1.7035375833511353,
      "loss_ce": 0.007248522713780403,
      "loss_iou": 0.69140625,
      "loss_num": 0.0625,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 80425044,
      "step": 1200
    },
    {
      "epoch": 0.1362836879432624,
      "grad_norm": 48.0842170715332,
      "learning_rate": 5e-05,
      "loss": 1.3433,
      "num_input_tokens_seen": 80491852,
      "step": 1201
    },
    {
      "epoch": 0.1362836879432624,
      "loss": 1.2507827281951904,
      "loss_ce": 0.002247594064101577,
      "loss_iou": 0.54296875,
      "loss_num": 0.031982421875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 80491852,
      "step": 1201
    },
    {
      "epoch": 0.13639716312056738,
      "grad_norm": 13.503174781799316,
      "learning_rate": 5e-05,
      "loss": 1.6669,
      "num_input_tokens_seen": 80559084,
      "step": 1202
    },
    {
      "epoch": 0.13639716312056738,
      "loss": 1.7825931310653687,
      "loss_ce": 0.005249439738690853,
      "loss_iou": 0.74609375,
      "loss_num": 0.057373046875,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 80559084,
      "step": 1202
    },
    {
      "epoch": 0.13651063829787233,
      "grad_norm": 12.946229934692383,
      "learning_rate": 5e-05,
      "loss": 1.3984,
      "num_input_tokens_seen": 80626624,
      "step": 1203
    },
    {
      "epoch": 0.13651063829787233,
      "loss": 1.2962584495544434,
      "loss_ce": 0.007684261072427034,
      "loss_iou": 0.5703125,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 80626624,
      "step": 1203
    },
    {
      "epoch": 0.1366241134751773,
      "grad_norm": 13.30033016204834,
      "learning_rate": 5e-05,
      "loss": 1.25,
      "num_input_tokens_seen": 80695100,
      "step": 1204
    },
    {
      "epoch": 0.1366241134751773,
      "loss": 1.1170748472213745,
      "loss_ce": 0.0037936491426080465,
      "loss_iou": 0.5078125,
      "loss_num": 0.019775390625,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 80695100,
      "step": 1204
    },
    {
      "epoch": 0.13673758865248226,
      "grad_norm": 17.4713077545166,
      "learning_rate": 5e-05,
      "loss": 1.4888,
      "num_input_tokens_seen": 80762468,
      "step": 1205
    },
    {
      "epoch": 0.13673758865248226,
      "loss": 1.5786856412887573,
      "loss_ce": 0.004466902930289507,
      "loss_iou": 0.6640625,
      "loss_num": 0.048828125,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 80762468,
      "step": 1205
    },
    {
      "epoch": 0.13685106382978723,
      "grad_norm": 17.773836135864258,
      "learning_rate": 5e-05,
      "loss": 1.3832,
      "num_input_tokens_seen": 80829256,
      "step": 1206
    },
    {
      "epoch": 0.13685106382978723,
      "loss": 1.197727918624878,
      "loss_ce": 0.005451903212815523,
      "loss_iou": 0.515625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 80829256,
      "step": 1206
    },
    {
      "epoch": 0.1369645390070922,
      "grad_norm": 22.934757232666016,
      "learning_rate": 5e-05,
      "loss": 1.3348,
      "num_input_tokens_seen": 80897848,
      "step": 1207
    },
    {
      "epoch": 0.1369645390070922,
      "loss": 1.2955787181854248,
      "loss_ce": 0.001633389969356358,
      "loss_iou": 0.5703125,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 80897848,
      "step": 1207
    },
    {
      "epoch": 0.13707801418439716,
      "grad_norm": 19.871112823486328,
      "learning_rate": 5e-05,
      "loss": 1.387,
      "num_input_tokens_seen": 80965584,
      "step": 1208
    },
    {
      "epoch": 0.13707801418439716,
      "loss": 1.3751899003982544,
      "loss_ce": 0.005561016499996185,
      "loss_iou": 0.578125,
      "loss_num": 0.042236328125,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 80965584,
      "step": 1208
    },
    {
      "epoch": 0.13719148936170214,
      "grad_norm": 13.847763061523438,
      "learning_rate": 5e-05,
      "loss": 1.4343,
      "num_input_tokens_seen": 81032352,
      "step": 1209
    },
    {
      "epoch": 0.13719148936170214,
      "loss": 1.4414236545562744,
      "loss_ce": 0.00880647823214531,
      "loss_iou": 0.6328125,
      "loss_num": 0.0341796875,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 81032352,
      "step": 1209
    },
    {
      "epoch": 0.1373049645390071,
      "grad_norm": 13.204728126525879,
      "learning_rate": 5e-05,
      "loss": 1.3614,
      "num_input_tokens_seen": 81099524,
      "step": 1210
    },
    {
      "epoch": 0.1373049645390071,
      "loss": 1.4706835746765137,
      "loss_ce": 0.0029101709369570017,
      "loss_iou": 0.640625,
      "loss_num": 0.036865234375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 81099524,
      "step": 1210
    },
    {
      "epoch": 0.13741843971631207,
      "grad_norm": 16.602100372314453,
      "learning_rate": 5e-05,
      "loss": 1.2592,
      "num_input_tokens_seen": 81166436,
      "step": 1211
    },
    {
      "epoch": 0.13741843971631207,
      "loss": 1.1459693908691406,
      "loss_ce": 0.0038795373402535915,
      "loss_iou": 0.515625,
      "loss_num": 0.02197265625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 81166436,
      "step": 1211
    },
    {
      "epoch": 0.13753191489361702,
      "grad_norm": 17.327669143676758,
      "learning_rate": 5e-05,
      "loss": 1.5079,
      "num_input_tokens_seen": 81233908,
      "step": 1212
    },
    {
      "epoch": 0.13753191489361702,
      "loss": 1.5094804763793945,
      "loss_ce": 0.0065507846884429455,
      "loss_iou": 0.6171875,
      "loss_num": 0.05419921875,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 81233908,
      "step": 1212
    },
    {
      "epoch": 0.137645390070922,
      "grad_norm": 23.74726676940918,
      "learning_rate": 5e-05,
      "loss": 1.3801,
      "num_input_tokens_seen": 81300644,
      "step": 1213
    },
    {
      "epoch": 0.137645390070922,
      "loss": 1.4552576541900635,
      "loss_ce": 0.002132553607225418,
      "loss_iou": 0.68359375,
      "loss_num": 0.017822265625,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 81300644,
      "step": 1213
    },
    {
      "epoch": 0.13775886524822695,
      "grad_norm": 23.431612014770508,
      "learning_rate": 5e-05,
      "loss": 1.4331,
      "num_input_tokens_seen": 81367100,
      "step": 1214
    },
    {
      "epoch": 0.13775886524822695,
      "loss": 1.5028157234191895,
      "loss_ce": 0.001961321569979191,
      "loss_iou": 0.640625,
      "loss_num": 0.043212890625,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 81367100,
      "step": 1214
    },
    {
      "epoch": 0.13787234042553193,
      "grad_norm": 10.43228530883789,
      "learning_rate": 5e-05,
      "loss": 1.3274,
      "num_input_tokens_seen": 81434776,
      "step": 1215
    },
    {
      "epoch": 0.13787234042553193,
      "loss": 1.1998100280761719,
      "loss_ce": 0.0020560671109706163,
      "loss_iou": 0.5546875,
      "loss_num": 0.01806640625,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 81434776,
      "step": 1215
    },
    {
      "epoch": 0.13798581560283688,
      "grad_norm": 17.308177947998047,
      "learning_rate": 5e-05,
      "loss": 1.4422,
      "num_input_tokens_seen": 81501676,
      "step": 1216
    },
    {
      "epoch": 0.13798581560283688,
      "loss": 1.256709337234497,
      "loss_ce": 0.004756220616400242,
      "loss_iou": 0.5625,
      "loss_num": 0.026123046875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 81501676,
      "step": 1216
    },
    {
      "epoch": 0.13809929078014185,
      "grad_norm": 32.82693099975586,
      "learning_rate": 5e-05,
      "loss": 1.5491,
      "num_input_tokens_seen": 81568144,
      "step": 1217
    },
    {
      "epoch": 0.13809929078014185,
      "loss": 1.4821460247039795,
      "loss_ce": 0.005095237400382757,
      "loss_iou": 0.67578125,
      "loss_num": 0.02490234375,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 81568144,
      "step": 1217
    },
    {
      "epoch": 0.1382127659574468,
      "grad_norm": 11.986791610717773,
      "learning_rate": 5e-05,
      "loss": 1.729,
      "num_input_tokens_seen": 81635284,
      "step": 1218
    },
    {
      "epoch": 0.1382127659574468,
      "loss": 1.8994214534759521,
      "loss_ce": 0.0029370575211942196,
      "loss_iou": 0.82421875,
      "loss_num": 0.050537109375,
      "loss_xval": 1.8984375,
      "num_input_tokens_seen": 81635284,
      "step": 1218
    },
    {
      "epoch": 0.13832624113475178,
      "grad_norm": 17.408231735229492,
      "learning_rate": 5e-05,
      "loss": 1.3224,
      "num_input_tokens_seen": 81701380,
      "step": 1219
    },
    {
      "epoch": 0.13832624113475178,
      "loss": 1.1883726119995117,
      "loss_ce": 0.004900926724076271,
      "loss_iou": 0.484375,
      "loss_num": 0.04296875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 81701380,
      "step": 1219
    },
    {
      "epoch": 0.13843971631205673,
      "grad_norm": 21.631038665771484,
      "learning_rate": 5e-05,
      "loss": 1.2373,
      "num_input_tokens_seen": 81767384,
      "step": 1220
    },
    {
      "epoch": 0.13843971631205673,
      "loss": 1.176244854927063,
      "loss_ce": 0.006323006935417652,
      "loss_iou": 0.50390625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 81767384,
      "step": 1220
    },
    {
      "epoch": 0.1385531914893617,
      "grad_norm": 15.244778633117676,
      "learning_rate": 5e-05,
      "loss": 1.4241,
      "num_input_tokens_seen": 81834344,
      "step": 1221
    },
    {
      "epoch": 0.1385531914893617,
      "loss": 1.465195894241333,
      "loss_ce": 0.0062116049230098724,
      "loss_iou": 0.6484375,
      "loss_num": 0.033203125,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 81834344,
      "step": 1221
    },
    {
      "epoch": 0.13866666666666666,
      "grad_norm": 17.225452423095703,
      "learning_rate": 5e-05,
      "loss": 1.2573,
      "num_input_tokens_seen": 81900616,
      "step": 1222
    },
    {
      "epoch": 0.13866666666666666,
      "loss": 1.1053555011749268,
      "loss_ce": 0.0026942999102175236,
      "loss_iou": 0.494140625,
      "loss_num": 0.02294921875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 81900616,
      "step": 1222
    },
    {
      "epoch": 0.13878014184397164,
      "grad_norm": 14.02621841430664,
      "learning_rate": 5e-05,
      "loss": 1.4054,
      "num_input_tokens_seen": 81967632,
      "step": 1223
    },
    {
      "epoch": 0.13878014184397164,
      "loss": 1.4403891563415527,
      "loss_ce": 0.005086397752165794,
      "loss_iou": 0.60546875,
      "loss_num": 0.04541015625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 81967632,
      "step": 1223
    },
    {
      "epoch": 0.1388936170212766,
      "grad_norm": 20.07157325744629,
      "learning_rate": 5e-05,
      "loss": 1.1561,
      "num_input_tokens_seen": 82033272,
      "step": 1224
    },
    {
      "epoch": 0.1388936170212766,
      "loss": 1.0766009092330933,
      "loss_ce": 0.007509145885705948,
      "loss_iou": 0.43359375,
      "loss_num": 0.040283203125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 82033272,
      "step": 1224
    },
    {
      "epoch": 0.13900709219858157,
      "grad_norm": 19.580297470092773,
      "learning_rate": 5e-05,
      "loss": 1.3044,
      "num_input_tokens_seen": 82100244,
      "step": 1225
    },
    {
      "epoch": 0.13900709219858157,
      "loss": 1.2426300048828125,
      "loss_ce": 0.007278389297425747,
      "loss_iou": 0.546875,
      "loss_num": 0.0277099609375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 82100244,
      "step": 1225
    },
    {
      "epoch": 0.13912056737588652,
      "grad_norm": 29.8209171295166,
      "learning_rate": 5e-05,
      "loss": 1.4672,
      "num_input_tokens_seen": 82167016,
      "step": 1226
    },
    {
      "epoch": 0.13912056737588652,
      "loss": 1.6803843975067139,
      "loss_ce": 0.005579822231084108,
      "loss_iou": 0.734375,
      "loss_num": 0.0419921875,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 82167016,
      "step": 1226
    },
    {
      "epoch": 0.1392340425531915,
      "grad_norm": 27.23816680908203,
      "learning_rate": 5e-05,
      "loss": 1.9012,
      "num_input_tokens_seen": 82233604,
      "step": 1227
    },
    {
      "epoch": 0.1392340425531915,
      "loss": 1.8531150817871094,
      "loss_ce": 0.007411974482238293,
      "loss_iou": 0.8125,
      "loss_num": 0.043701171875,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 82233604,
      "step": 1227
    },
    {
      "epoch": 0.13934751773049645,
      "grad_norm": 13.34329891204834,
      "learning_rate": 5e-05,
      "loss": 1.4316,
      "num_input_tokens_seen": 82301308,
      "step": 1228
    },
    {
      "epoch": 0.13934751773049645,
      "loss": 1.3269635438919067,
      "loss_ce": 0.006162748672068119,
      "loss_iou": 0.5859375,
      "loss_num": 0.029541015625,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 82301308,
      "step": 1228
    },
    {
      "epoch": 0.13946099290780142,
      "grad_norm": 10.730019569396973,
      "learning_rate": 5e-05,
      "loss": 1.3627,
      "num_input_tokens_seen": 82367864,
      "step": 1229
    },
    {
      "epoch": 0.13946099290780142,
      "loss": 1.0481525659561157,
      "loss_ce": 0.007381114177405834,
      "loss_iou": 0.447265625,
      "loss_num": 0.029296875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 82367864,
      "step": 1229
    },
    {
      "epoch": 0.13957446808510637,
      "grad_norm": 16.412723541259766,
      "learning_rate": 5e-05,
      "loss": 1.4921,
      "num_input_tokens_seen": 82435460,
      "step": 1230
    },
    {
      "epoch": 0.13957446808510637,
      "loss": 1.3900974988937378,
      "loss_ce": 0.005331886932253838,
      "loss_iou": 0.59765625,
      "loss_num": 0.037353515625,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 82435460,
      "step": 1230
    },
    {
      "epoch": 0.13968794326241135,
      "grad_norm": 25.373302459716797,
      "learning_rate": 5e-05,
      "loss": 1.5001,
      "num_input_tokens_seen": 82503144,
      "step": 1231
    },
    {
      "epoch": 0.13968794326241135,
      "loss": 1.5412216186523438,
      "loss_ce": 0.0026474876794964075,
      "loss_iou": 0.69140625,
      "loss_num": 0.031494140625,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 82503144,
      "step": 1231
    },
    {
      "epoch": 0.1398014184397163,
      "grad_norm": 15.536279678344727,
      "learning_rate": 5e-05,
      "loss": 1.5836,
      "num_input_tokens_seen": 82570372,
      "step": 1232
    },
    {
      "epoch": 0.1398014184397163,
      "loss": 1.580923318862915,
      "loss_ce": 0.004751547239720821,
      "loss_iou": 0.6796875,
      "loss_num": 0.0439453125,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 82570372,
      "step": 1232
    },
    {
      "epoch": 0.13991489361702128,
      "grad_norm": 18.182998657226562,
      "learning_rate": 5e-05,
      "loss": 1.4528,
      "num_input_tokens_seen": 82637864,
      "step": 1233
    },
    {
      "epoch": 0.13991489361702128,
      "loss": 1.3121258020401,
      "loss_ce": 0.0020672057289630175,
      "loss_iou": 0.58984375,
      "loss_num": 0.02685546875,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 82637864,
      "step": 1233
    },
    {
      "epoch": 0.14002836879432623,
      "grad_norm": 16.361186981201172,
      "learning_rate": 5e-05,
      "loss": 1.3479,
      "num_input_tokens_seen": 82703616,
      "step": 1234
    },
    {
      "epoch": 0.14002836879432623,
      "loss": 1.1171889305114746,
      "loss_ce": 0.006349137984216213,
      "loss_iou": 0.5078125,
      "loss_num": 0.0185546875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 82703616,
      "step": 1234
    },
    {
      "epoch": 0.1401418439716312,
      "grad_norm": 17.316606521606445,
      "learning_rate": 5e-05,
      "loss": 1.5186,
      "num_input_tokens_seen": 82770360,
      "step": 1235
    },
    {
      "epoch": 0.1401418439716312,
      "loss": 1.6875972747802734,
      "loss_ce": 0.005956537555903196,
      "loss_iou": 0.71484375,
      "loss_num": 0.05029296875,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 82770360,
      "step": 1235
    },
    {
      "epoch": 0.14025531914893616,
      "grad_norm": 22.08639144897461,
      "learning_rate": 5e-05,
      "loss": 1.464,
      "num_input_tokens_seen": 82836360,
      "step": 1236
    },
    {
      "epoch": 0.14025531914893616,
      "loss": 1.3401520252227783,
      "loss_ce": 0.0032380307093262672,
      "loss_iou": 0.5625,
      "loss_num": 0.041748046875,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 82836360,
      "step": 1236
    },
    {
      "epoch": 0.14036879432624114,
      "grad_norm": 17.669635772705078,
      "learning_rate": 5e-05,
      "loss": 1.4207,
      "num_input_tokens_seen": 82904472,
      "step": 1237
    },
    {
      "epoch": 0.14036879432624114,
      "loss": 1.3553740978240967,
      "loss_ce": 0.002834946382790804,
      "loss_iou": 0.59375,
      "loss_num": 0.033447265625,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 82904472,
      "step": 1237
    },
    {
      "epoch": 0.1404822695035461,
      "grad_norm": 27.484052658081055,
      "learning_rate": 5e-05,
      "loss": 1.5317,
      "num_input_tokens_seen": 82972008,
      "step": 1238
    },
    {
      "epoch": 0.1404822695035461,
      "loss": 1.6182928085327148,
      "loss_ce": 0.009894474409520626,
      "loss_iou": 0.68359375,
      "loss_num": 0.048095703125,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 82972008,
      "step": 1238
    },
    {
      "epoch": 0.14059574468085106,
      "grad_norm": 16.095361709594727,
      "learning_rate": 5e-05,
      "loss": 1.4745,
      "num_input_tokens_seen": 83038572,
      "step": 1239
    },
    {
      "epoch": 0.14059574468085106,
      "loss": 1.4388668537139893,
      "loss_ce": 0.005273028742522001,
      "loss_iou": 0.61328125,
      "loss_num": 0.041259765625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 83038572,
      "step": 1239
    },
    {
      "epoch": 0.14070921985815601,
      "grad_norm": 15.152174949645996,
      "learning_rate": 5e-05,
      "loss": 1.2012,
      "num_input_tokens_seen": 83104668,
      "step": 1240
    },
    {
      "epoch": 0.14070921985815601,
      "loss": 1.1150555610656738,
      "loss_ce": 0.005680554546415806,
      "loss_iou": 0.498046875,
      "loss_num": 0.02294921875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 83104668,
      "step": 1240
    },
    {
      "epoch": 0.140822695035461,
      "grad_norm": 16.460620880126953,
      "learning_rate": 5e-05,
      "loss": 1.1541,
      "num_input_tokens_seen": 83170660,
      "step": 1241
    },
    {
      "epoch": 0.140822695035461,
      "loss": 1.1305724382400513,
      "loss_ce": 0.0036192969419062138,
      "loss_iou": 0.5078125,
      "loss_num": 0.021728515625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 83170660,
      "step": 1241
    },
    {
      "epoch": 0.14093617021276597,
      "grad_norm": 18.653858184814453,
      "learning_rate": 5e-05,
      "loss": 1.4595,
      "num_input_tokens_seen": 83237220,
      "step": 1242
    },
    {
      "epoch": 0.14093617021276597,
      "loss": 1.6586531400680542,
      "loss_ce": 0.007285963743925095,
      "loss_iou": 0.6640625,
      "loss_num": 0.064453125,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 83237220,
      "step": 1242
    },
    {
      "epoch": 0.14104964539007092,
      "grad_norm": 27.19620704650879,
      "learning_rate": 5e-05,
      "loss": 1.3975,
      "num_input_tokens_seen": 83303372,
      "step": 1243
    },
    {
      "epoch": 0.14104964539007092,
      "loss": 1.4561407566070557,
      "loss_ce": 0.006922001950442791,
      "loss_iou": 0.62890625,
      "loss_num": 0.0380859375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 83303372,
      "step": 1243
    },
    {
      "epoch": 0.1411631205673759,
      "grad_norm": 13.831743240356445,
      "learning_rate": 5e-05,
      "loss": 1.5403,
      "num_input_tokens_seen": 83370048,
      "step": 1244
    },
    {
      "epoch": 0.1411631205673759,
      "loss": 1.4736227989196777,
      "loss_ce": 0.0048728385008871555,
      "loss_iou": 0.65625,
      "loss_num": 0.03076171875,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 83370048,
      "step": 1244
    },
    {
      "epoch": 0.14127659574468085,
      "grad_norm": 76.67430877685547,
      "learning_rate": 5e-05,
      "loss": 1.3982,
      "num_input_tokens_seen": 83436372,
      "step": 1245
    },
    {
      "epoch": 0.14127659574468085,
      "loss": 1.473318099975586,
      "loss_ce": 0.001638335408642888,
      "loss_iou": 0.6328125,
      "loss_num": 0.040771484375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 83436372,
      "step": 1245
    },
    {
      "epoch": 0.14139007092198583,
      "grad_norm": 17.284603118896484,
      "learning_rate": 5e-05,
      "loss": 1.2778,
      "num_input_tokens_seen": 83502348,
      "step": 1246
    },
    {
      "epoch": 0.14139007092198583,
      "loss": 1.2237286567687988,
      "loss_ce": 0.004002095200121403,
      "loss_iou": 0.46875,
      "loss_num": 0.05615234375,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 83502348,
      "step": 1246
    },
    {
      "epoch": 0.14150354609929078,
      "grad_norm": 15.544962882995605,
      "learning_rate": 5e-05,
      "loss": 1.368,
      "num_input_tokens_seen": 83568428,
      "step": 1247
    },
    {
      "epoch": 0.14150354609929078,
      "loss": 1.2888984680175781,
      "loss_ce": 0.0022773928940296173,
      "loss_iou": 0.578125,
      "loss_num": 0.0264892578125,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 83568428,
      "step": 1247
    },
    {
      "epoch": 0.14161702127659576,
      "grad_norm": 43.452266693115234,
      "learning_rate": 5e-05,
      "loss": 1.4203,
      "num_input_tokens_seen": 83635048,
      "step": 1248
    },
    {
      "epoch": 0.14161702127659576,
      "loss": 1.4291545152664185,
      "loss_ce": 0.004349814727902412,
      "loss_iou": 0.63671875,
      "loss_num": 0.0308837890625,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 83635048,
      "step": 1248
    },
    {
      "epoch": 0.1417304964539007,
      "grad_norm": 27.807889938354492,
      "learning_rate": 5e-05,
      "loss": 1.5275,
      "num_input_tokens_seen": 83701564,
      "step": 1249
    },
    {
      "epoch": 0.1417304964539007,
      "loss": 1.6169630289077759,
      "loss_ce": 0.006611459888517857,
      "loss_iou": 0.71875,
      "loss_num": 0.0341796875,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 83701564,
      "step": 1249
    },
    {
      "epoch": 0.14184397163120568,
      "grad_norm": 14.546996116638184,
      "learning_rate": 5e-05,
      "loss": 1.4125,
      "num_input_tokens_seen": 83768172,
      "step": 1250
    },
    {
      "epoch": 0.14184397163120568,
      "eval_seeclick_CIoU": 0.3353864699602127,
      "eval_seeclick_GIoU": 0.3111625015735626,
      "eval_seeclick_IoU": 0.4272088408470154,
      "eval_seeclick_MAE_all": 0.15912393480539322,
      "eval_seeclick_MAE_h": 0.08618626371026039,
      "eval_seeclick_MAE_w": 0.14694295823574066,
      "eval_seeclick_MAE_x_boxes": 0.23992229253053665,
      "eval_seeclick_MAE_y_boxes": 0.13187871128320694,
      "eval_seeclick_NUM_probability": 0.9996756315231323,
      "eval_seeclick_inside_bbox": 0.612500011920929,
      "eval_seeclick_loss": 2.6670620441436768,
      "eval_seeclick_loss_ce": 0.01649992261081934,
      "eval_seeclick_loss_iou": 0.92431640625,
      "eval_seeclick_loss_num": 0.153106689453125,
      "eval_seeclick_loss_xval": 2.61474609375,
      "eval_seeclick_runtime": 61.8914,
      "eval_seeclick_samples_per_second": 0.759,
      "eval_seeclick_steps_per_second": 0.032,
      "num_input_tokens_seen": 83768172,
      "step": 1250
    },
    {
      "epoch": 0.14184397163120568,
      "eval_icons_CIoU": 0.39675983786582947,
      "eval_icons_GIoU": 0.37042444944381714,
      "eval_icons_IoU": 0.4393104761838913,
      "eval_icons_MAE_all": 0.17739646136760712,
      "eval_icons_MAE_h": 0.17847155034542084,
      "eval_icons_MAE_w": 0.17306214570999146,
      "eval_icons_MAE_x_boxes": 0.12693790718913078,
      "eval_icons_MAE_y_boxes": 0.10490282066166401,
      "eval_icons_NUM_probability": 0.9995423257350922,
      "eval_icons_inside_bbox": 0.6527777910232544,
      "eval_icons_loss": 2.8268308639526367,
      "eval_icons_loss_ce": 0.0007087751000653952,
      "eval_icons_loss_iou": 1.001708984375,
      "eval_icons_loss_num": 0.1594696044921875,
      "eval_icons_loss_xval": 2.80224609375,
      "eval_icons_runtime": 71.1568,
      "eval_icons_samples_per_second": 0.703,
      "eval_icons_steps_per_second": 0.028,
      "num_input_tokens_seen": 83768172,
      "step": 1250
    },
    {
      "epoch": 0.14184397163120568,
      "eval_screenspot_CIoU": 0.40056201815605164,
      "eval_screenspot_GIoU": 0.37939612567424774,
      "eval_screenspot_IoU": 0.4631301164627075,
      "eval_screenspot_MAE_all": 0.14955979337294897,
      "eval_screenspot_MAE_h": 0.11608265837033589,
      "eval_screenspot_MAE_w": 0.1607415775458018,
      "eval_screenspot_MAE_x_boxes": 0.19287559390068054,
      "eval_screenspot_MAE_y_boxes": 0.09611169248819351,
      "eval_screenspot_NUM_probability": 0.9993009169896444,
      "eval_screenspot_inside_bbox": 0.7012499968210856,
      "eval_screenspot_loss": 2.7305781841278076,
      "eval_screenspot_loss_ce": 0.012191054100791613,
      "eval_screenspot_loss_iou": 0.98681640625,
      "eval_screenspot_loss_num": 0.160430908203125,
      "eval_screenspot_loss_xval": 2.7750651041666665,
      "eval_screenspot_runtime": 116.9358,
      "eval_screenspot_samples_per_second": 0.761,
      "eval_screenspot_steps_per_second": 0.026,
      "num_input_tokens_seen": 83768172,
      "step": 1250
    },
    {
      "epoch": 0.14184397163120568,
      "eval_compot_CIoU": 0.39119283854961395,
      "eval_compot_GIoU": 0.35619740188121796,
      "eval_compot_IoU": 0.4576375484466553,
      "eval_compot_MAE_all": 0.1285797692835331,
      "eval_compot_MAE_h": 0.0673644058406353,
      "eval_compot_MAE_w": 0.1014402024447918,
      "eval_compot_MAE_x_boxes": 0.15993472188711166,
      "eval_compot_MAE_y_boxes": 0.11401563882827759,
      "eval_compot_NUM_probability": 0.9993905127048492,
      "eval_compot_inside_bbox": 0.6145833432674408,
      "eval_compot_loss": 2.7063262462615967,
      "eval_compot_loss_ce": 0.011203872505575418,
      "eval_compot_loss_iou": 1.02392578125,
      "eval_compot_loss_num": 0.1237945556640625,
      "eval_compot_loss_xval": 2.6669921875,
      "eval_compot_runtime": 70.4409,
      "eval_compot_samples_per_second": 0.71,
      "eval_compot_steps_per_second": 0.028,
      "num_input_tokens_seen": 83768172,
      "step": 1250
    },
    {
      "epoch": 0.14184397163120568,
      "loss": 2.506436824798584,
      "loss_ce": 0.008389951661229134,
      "loss_iou": 0.9921875,
      "loss_num": 0.10302734375,
      "loss_xval": 2.5,
      "num_input_tokens_seen": 83768172,
      "step": 1250
    },
    {
      "epoch": 0.14195744680851063,
      "grad_norm": 17.808589935302734,
      "learning_rate": 5e-05,
      "loss": 1.3467,
      "num_input_tokens_seen": 83835044,
      "step": 1251
    },
    {
      "epoch": 0.14195744680851063,
      "loss": 1.3527281284332275,
      "loss_ce": 0.00848983321338892,
      "loss_iou": 0.578125,
      "loss_num": 0.038330078125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 83835044,
      "step": 1251
    },
    {
      "epoch": 0.1420709219858156,
      "grad_norm": 26.660921096801758,
      "learning_rate": 5e-05,
      "loss": 1.4349,
      "num_input_tokens_seen": 83902116,
      "step": 1252
    },
    {
      "epoch": 0.1420709219858156,
      "loss": 1.4632405042648315,
      "loss_ce": 0.011824451386928558,
      "loss_iou": 0.61328125,
      "loss_num": 0.044677734375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 83902116,
      "step": 1252
    },
    {
      "epoch": 0.14218439716312056,
      "grad_norm": 13.560127258300781,
      "learning_rate": 5e-05,
      "loss": 1.541,
      "num_input_tokens_seen": 83969580,
      "step": 1253
    },
    {
      "epoch": 0.14218439716312056,
      "loss": 1.661506175994873,
      "loss_ce": 0.005744480527937412,
      "loss_iou": 0.703125,
      "loss_num": 0.050048828125,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 83969580,
      "step": 1253
    },
    {
      "epoch": 0.14229787234042554,
      "grad_norm": 12.433732986450195,
      "learning_rate": 5e-05,
      "loss": 1.3054,
      "num_input_tokens_seen": 84036180,
      "step": 1254
    },
    {
      "epoch": 0.14229787234042554,
      "loss": 1.0543323755264282,
      "loss_ce": 0.0040394519455730915,
      "loss_iou": 0.453125,
      "loss_num": 0.02880859375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 84036180,
      "step": 1254
    },
    {
      "epoch": 0.1424113475177305,
      "grad_norm": 20.690332412719727,
      "learning_rate": 5e-05,
      "loss": 1.5392,
      "num_input_tokens_seen": 84103808,
      "step": 1255
    },
    {
      "epoch": 0.1424113475177305,
      "loss": 1.4472066164016724,
      "loss_ce": 0.006288610864430666,
      "loss_iou": 0.609375,
      "loss_num": 0.044189453125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 84103808,
      "step": 1255
    },
    {
      "epoch": 0.14252482269503547,
      "grad_norm": 14.345595359802246,
      "learning_rate": 5e-05,
      "loss": 1.1312,
      "num_input_tokens_seen": 84170872,
      "step": 1256
    },
    {
      "epoch": 0.14252482269503547,
      "loss": 1.1039687395095825,
      "loss_ce": 0.004359329119324684,
      "loss_iou": 0.48828125,
      "loss_num": 0.0244140625,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 84170872,
      "step": 1256
    },
    {
      "epoch": 0.14263829787234042,
      "grad_norm": 13.93295955657959,
      "learning_rate": 5e-05,
      "loss": 1.3355,
      "num_input_tokens_seen": 84237680,
      "step": 1257
    },
    {
      "epoch": 0.14263829787234042,
      "loss": 1.3656816482543945,
      "loss_ce": 0.005330054089426994,
      "loss_iou": 0.57421875,
      "loss_num": 0.04150390625,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 84237680,
      "step": 1257
    },
    {
      "epoch": 0.1427517730496454,
      "grad_norm": 13.512181282043457,
      "learning_rate": 5e-05,
      "loss": 1.2308,
      "num_input_tokens_seen": 84303588,
      "step": 1258
    },
    {
      "epoch": 0.1427517730496454,
      "loss": 1.1740487813949585,
      "loss_ce": 0.006812475621700287,
      "loss_iou": 0.51953125,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 84303588,
      "step": 1258
    },
    {
      "epoch": 0.14286524822695035,
      "grad_norm": 28.74961280822754,
      "learning_rate": 5e-05,
      "loss": 1.3386,
      "num_input_tokens_seen": 84369988,
      "step": 1259
    },
    {
      "epoch": 0.14286524822695035,
      "loss": 1.4127222299575806,
      "loss_ce": 0.002077678218483925,
      "loss_iou": 0.625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 84369988,
      "step": 1259
    },
    {
      "epoch": 0.14297872340425533,
      "grad_norm": 22.244577407836914,
      "learning_rate": 5e-05,
      "loss": 1.4687,
      "num_input_tokens_seen": 84435980,
      "step": 1260
    },
    {
      "epoch": 0.14297872340425533,
      "loss": 1.5691463947296143,
      "loss_ce": 0.00444901455193758,
      "loss_iou": 0.66796875,
      "loss_num": 0.04541015625,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 84435980,
      "step": 1260
    },
    {
      "epoch": 0.14309219858156028,
      "grad_norm": 12.287200927734375,
      "learning_rate": 5e-05,
      "loss": 1.2908,
      "num_input_tokens_seen": 84502612,
      "step": 1261
    },
    {
      "epoch": 0.14309219858156028,
      "loss": 1.1208704710006714,
      "loss_ce": 0.003927174955606461,
      "loss_iou": 0.498046875,
      "loss_num": 0.0244140625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 84502612,
      "step": 1261
    },
    {
      "epoch": 0.14320567375886525,
      "grad_norm": 15.013192176818848,
      "learning_rate": 5e-05,
      "loss": 1.4636,
      "num_input_tokens_seen": 84570188,
      "step": 1262
    },
    {
      "epoch": 0.14320567375886525,
      "loss": 1.5495734214782715,
      "loss_ce": 0.006604687310755253,
      "loss_iou": 0.66015625,
      "loss_num": 0.04541015625,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 84570188,
      "step": 1262
    },
    {
      "epoch": 0.1433191489361702,
      "grad_norm": 16.507461547851562,
      "learning_rate": 5e-05,
      "loss": 1.1843,
      "num_input_tokens_seen": 84636988,
      "step": 1263
    },
    {
      "epoch": 0.1433191489361702,
      "loss": 1.2125639915466309,
      "loss_ce": 0.005044409539550543,
      "loss_iou": 0.5546875,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 84636988,
      "step": 1263
    },
    {
      "epoch": 0.14343262411347518,
      "grad_norm": 17.889907836914062,
      "learning_rate": 5e-05,
      "loss": 1.4531,
      "num_input_tokens_seen": 84704928,
      "step": 1264
    },
    {
      "epoch": 0.14343262411347518,
      "loss": 1.3898732662200928,
      "loss_ce": 0.004131019115447998,
      "loss_iou": 0.59375,
      "loss_num": 0.039794921875,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 84704928,
      "step": 1264
    },
    {
      "epoch": 0.14354609929078013,
      "grad_norm": 24.32044219970703,
      "learning_rate": 5e-05,
      "loss": 1.3384,
      "num_input_tokens_seen": 84771468,
      "step": 1265
    },
    {
      "epoch": 0.14354609929078013,
      "loss": 1.348625659942627,
      "loss_ce": 0.005363995209336281,
      "loss_iou": 0.58984375,
      "loss_num": 0.0322265625,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 84771468,
      "step": 1265
    },
    {
      "epoch": 0.1436595744680851,
      "grad_norm": 25.374250411987305,
      "learning_rate": 5e-05,
      "loss": 1.6016,
      "num_input_tokens_seen": 84838428,
      "step": 1266
    },
    {
      "epoch": 0.1436595744680851,
      "loss": 1.7505971193313599,
      "loss_ce": 0.006456512957811356,
      "loss_iou": 0.7734375,
      "loss_num": 0.039794921875,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 84838428,
      "step": 1266
    },
    {
      "epoch": 0.14377304964539006,
      "grad_norm": 28.625957489013672,
      "learning_rate": 5e-05,
      "loss": 1.4295,
      "num_input_tokens_seen": 84905484,
      "step": 1267
    },
    {
      "epoch": 0.14377304964539006,
      "loss": 1.5714988708496094,
      "loss_ce": 0.006069246679544449,
      "loss_iou": 0.66015625,
      "loss_num": 0.0498046875,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 84905484,
      "step": 1267
    },
    {
      "epoch": 0.14388652482269504,
      "grad_norm": 29.322439193725586,
      "learning_rate": 5e-05,
      "loss": 1.5617,
      "num_input_tokens_seen": 84972884,
      "step": 1268
    },
    {
      "epoch": 0.14388652482269504,
      "loss": 1.4563171863555908,
      "loss_ce": 0.004901097156107426,
      "loss_iou": 0.64453125,
      "loss_num": 0.033203125,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 84972884,
      "step": 1268
    },
    {
      "epoch": 0.144,
      "grad_norm": 15.257195472717285,
      "learning_rate": 5e-05,
      "loss": 1.4288,
      "num_input_tokens_seen": 85040292,
      "step": 1269
    },
    {
      "epoch": 0.144,
      "loss": 1.3271769285202026,
      "loss_ce": 0.004911316093057394,
      "loss_iou": 0.578125,
      "loss_num": 0.033203125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 85040292,
      "step": 1269
    },
    {
      "epoch": 0.14411347517730497,
      "grad_norm": 24.799211502075195,
      "learning_rate": 5e-05,
      "loss": 1.1301,
      "num_input_tokens_seen": 85106564,
      "step": 1270
    },
    {
      "epoch": 0.14411347517730497,
      "loss": 0.8575615882873535,
      "loss_ce": 0.008043816313147545,
      "loss_iou": 0.376953125,
      "loss_num": 0.0194091796875,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 85106564,
      "step": 1270
    },
    {
      "epoch": 0.14422695035460992,
      "grad_norm": 16.648540496826172,
      "learning_rate": 5e-05,
      "loss": 1.4568,
      "num_input_tokens_seen": 85173104,
      "step": 1271
    },
    {
      "epoch": 0.14422695035460992,
      "loss": 1.495368242263794,
      "loss_ce": 0.01196978334337473,
      "loss_iou": 0.68359375,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 85173104,
      "step": 1271
    },
    {
      "epoch": 0.1443404255319149,
      "grad_norm": 19.981891632080078,
      "learning_rate": 5e-05,
      "loss": 1.2892,
      "num_input_tokens_seen": 85240212,
      "step": 1272
    },
    {
      "epoch": 0.1443404255319149,
      "loss": 1.104026436805725,
      "loss_ce": 0.003928825259208679,
      "loss_iou": 0.46875,
      "loss_num": 0.03271484375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 85240212,
      "step": 1272
    },
    {
      "epoch": 0.14445390070921985,
      "grad_norm": 20.45812225341797,
      "learning_rate": 5e-05,
      "loss": 1.3997,
      "num_input_tokens_seen": 85307324,
      "step": 1273
    },
    {
      "epoch": 0.14445390070921985,
      "loss": 1.4619483947753906,
      "loss_ce": 0.003940569702535868,
      "loss_iou": 0.66015625,
      "loss_num": 0.02734375,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 85307324,
      "step": 1273
    },
    {
      "epoch": 0.14456737588652482,
      "grad_norm": 17.124984741210938,
      "learning_rate": 5e-05,
      "loss": 1.3991,
      "num_input_tokens_seen": 85373192,
      "step": 1274
    },
    {
      "epoch": 0.14456737588652482,
      "loss": 1.2859952449798584,
      "loss_ce": 0.007186746224761009,
      "loss_iou": 0.5703125,
      "loss_num": 0.0277099609375,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 85373192,
      "step": 1274
    },
    {
      "epoch": 0.14468085106382977,
      "grad_norm": 34.846473693847656,
      "learning_rate": 5e-05,
      "loss": 1.2202,
      "num_input_tokens_seen": 85440152,
      "step": 1275
    },
    {
      "epoch": 0.14468085106382977,
      "loss": 1.260441541671753,
      "loss_ce": 0.005070485174655914,
      "loss_iou": 0.58203125,
      "loss_num": 0.018310546875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 85440152,
      "step": 1275
    },
    {
      "epoch": 0.14479432624113475,
      "grad_norm": 16.862062454223633,
      "learning_rate": 5e-05,
      "loss": 1.2937,
      "num_input_tokens_seen": 85507092,
      "step": 1276
    },
    {
      "epoch": 0.14479432624113475,
      "loss": 1.367180585861206,
      "loss_ce": 0.01171188522130251,
      "loss_iou": 0.59765625,
      "loss_num": 0.03173828125,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 85507092,
      "step": 1276
    },
    {
      "epoch": 0.14490780141843973,
      "grad_norm": 47.59189224243164,
      "learning_rate": 5e-05,
      "loss": 1.5389,
      "num_input_tokens_seen": 85574256,
      "step": 1277
    },
    {
      "epoch": 0.14490780141843973,
      "loss": 1.4173139333724976,
      "loss_ce": 0.007157688494771719,
      "loss_iou": 0.625,
      "loss_num": 0.031982421875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 85574256,
      "step": 1277
    },
    {
      "epoch": 0.14502127659574468,
      "grad_norm": 14.655741691589355,
      "learning_rate": 5e-05,
      "loss": 1.7372,
      "num_input_tokens_seen": 85641972,
      "step": 1278
    },
    {
      "epoch": 0.14502127659574468,
      "loss": 1.8383402824401855,
      "loss_ce": 0.0033793034963309765,
      "loss_iou": 0.80078125,
      "loss_num": 0.046630859375,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 85641972,
      "step": 1278
    },
    {
      "epoch": 0.14513475177304966,
      "grad_norm": 11.174899101257324,
      "learning_rate": 5e-05,
      "loss": 1.4438,
      "num_input_tokens_seen": 85708924,
      "step": 1279
    },
    {
      "epoch": 0.14513475177304966,
      "loss": 1.653449535369873,
      "loss_ce": 0.005011981353163719,
      "loss_iou": 0.71484375,
      "loss_num": 0.043701171875,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 85708924,
      "step": 1279
    },
    {
      "epoch": 0.1452482269503546,
      "grad_norm": 10.711860656738281,
      "learning_rate": 5e-05,
      "loss": 1.4808,
      "num_input_tokens_seen": 85776740,
      "step": 1280
    },
    {
      "epoch": 0.1452482269503546,
      "loss": 1.5579787492752075,
      "loss_ce": 0.0052444301545619965,
      "loss_iou": 0.6796875,
      "loss_num": 0.039306640625,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 85776740,
      "step": 1280
    },
    {
      "epoch": 0.1453617021276596,
      "grad_norm": 10.543944358825684,
      "learning_rate": 5e-05,
      "loss": 1.209,
      "num_input_tokens_seen": 85843608,
      "step": 1281
    },
    {
      "epoch": 0.1453617021276596,
      "loss": 1.3946003913879395,
      "loss_ce": 0.006416789256036282,
      "loss_iou": 0.58984375,
      "loss_num": 0.041748046875,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 85843608,
      "step": 1281
    },
    {
      "epoch": 0.14547517730496454,
      "grad_norm": 10.535927772521973,
      "learning_rate": 5e-05,
      "loss": 1.1391,
      "num_input_tokens_seen": 85909968,
      "step": 1282
    },
    {
      "epoch": 0.14547517730496454,
      "loss": 0.8527224063873291,
      "loss_ce": 0.008117889985442162,
      "loss_iou": 0.34765625,
      "loss_num": 0.02978515625,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 85909968,
      "step": 1282
    },
    {
      "epoch": 0.14558865248226951,
      "grad_norm": 20.705013275146484,
      "learning_rate": 5e-05,
      "loss": 1.4019,
      "num_input_tokens_seen": 85977508,
      "step": 1283
    },
    {
      "epoch": 0.14558865248226951,
      "loss": 1.3980600833892822,
      "loss_ce": 0.004505435936152935,
      "loss_iou": 0.60546875,
      "loss_num": 0.0361328125,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 85977508,
      "step": 1283
    },
    {
      "epoch": 0.14570212765957447,
      "grad_norm": 52.693477630615234,
      "learning_rate": 5e-05,
      "loss": 1.8541,
      "num_input_tokens_seen": 86046108,
      "step": 1284
    },
    {
      "epoch": 0.14570212765957447,
      "loss": 2.0465996265411377,
      "loss_ce": 0.013396448455750942,
      "loss_iou": 0.89453125,
      "loss_num": 0.04931640625,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 86046108,
      "step": 1284
    },
    {
      "epoch": 0.14581560283687944,
      "grad_norm": 14.627435684204102,
      "learning_rate": 5e-05,
      "loss": 1.6573,
      "num_input_tokens_seen": 86113540,
      "step": 1285
    },
    {
      "epoch": 0.14581560283687944,
      "loss": 1.7562226057052612,
      "loss_ce": 0.007199123967438936,
      "loss_iou": 0.75390625,
      "loss_num": 0.048583984375,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 86113540,
      "step": 1285
    },
    {
      "epoch": 0.1459290780141844,
      "grad_norm": 40.93667221069336,
      "learning_rate": 5e-05,
      "loss": 1.5,
      "num_input_tokens_seen": 86180192,
      "step": 1286
    },
    {
      "epoch": 0.1459290780141844,
      "loss": 1.4699562788009644,
      "loss_ce": 0.005112528335303068,
      "loss_iou": 0.625,
      "loss_num": 0.042724609375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 86180192,
      "step": 1286
    },
    {
      "epoch": 0.14604255319148937,
      "grad_norm": 23.005788803100586,
      "learning_rate": 5e-05,
      "loss": 1.2297,
      "num_input_tokens_seen": 86247216,
      "step": 1287
    },
    {
      "epoch": 0.14604255319148937,
      "loss": 1.2482185363769531,
      "loss_ce": 0.007007581181824207,
      "loss_iou": 0.5546875,
      "loss_num": 0.02587890625,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 86247216,
      "step": 1287
    },
    {
      "epoch": 0.14615602836879432,
      "grad_norm": 18.85481071472168,
      "learning_rate": 5e-05,
      "loss": 1.4958,
      "num_input_tokens_seen": 86314588,
      "step": 1288
    },
    {
      "epoch": 0.14615602836879432,
      "loss": 1.4251002073287964,
      "loss_ce": 0.007131415884941816,
      "loss_iou": 0.6015625,
      "loss_num": 0.042236328125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 86314588,
      "step": 1288
    },
    {
      "epoch": 0.1462695035460993,
      "grad_norm": 9.55914306640625,
      "learning_rate": 5e-05,
      "loss": 1.3299,
      "num_input_tokens_seen": 86381700,
      "step": 1289
    },
    {
      "epoch": 0.1462695035460993,
      "loss": 1.2635200023651123,
      "loss_ce": 0.007172458805143833,
      "loss_iou": 0.5703125,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 86381700,
      "step": 1289
    },
    {
      "epoch": 0.14638297872340425,
      "grad_norm": 35.2156982421875,
      "learning_rate": 5e-05,
      "loss": 1.2779,
      "num_input_tokens_seen": 86449056,
      "step": 1290
    },
    {
      "epoch": 0.14638297872340425,
      "loss": 1.3519901037216187,
      "loss_ce": 0.00677528465166688,
      "loss_iou": 0.5546875,
      "loss_num": 0.047607421875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 86449056,
      "step": 1290
    },
    {
      "epoch": 0.14649645390070923,
      "grad_norm": 26.319059371948242,
      "learning_rate": 5e-05,
      "loss": 1.4769,
      "num_input_tokens_seen": 86515900,
      "step": 1291
    },
    {
      "epoch": 0.14649645390070923,
      "loss": 1.3507460355758667,
      "loss_ce": 0.00894919503480196,
      "loss_iou": 0.6015625,
      "loss_num": 0.02783203125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 86515900,
      "step": 1291
    },
    {
      "epoch": 0.14660992907801418,
      "grad_norm": 18.673683166503906,
      "learning_rate": 5e-05,
      "loss": 1.2671,
      "num_input_tokens_seen": 86582472,
      "step": 1292
    },
    {
      "epoch": 0.14660992907801418,
      "loss": 1.2845275402069092,
      "loss_ce": 0.0018127292860299349,
      "loss_iou": 0.57421875,
      "loss_num": 0.0263671875,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 86582472,
      "step": 1292
    },
    {
      "epoch": 0.14672340425531916,
      "grad_norm": 21.613834381103516,
      "learning_rate": 5e-05,
      "loss": 1.4948,
      "num_input_tokens_seen": 86649344,
      "step": 1293
    },
    {
      "epoch": 0.14672340425531916,
      "loss": 1.5046061277389526,
      "loss_ce": 0.004606160335242748,
      "loss_iou": 0.6484375,
      "loss_num": 0.041015625,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 86649344,
      "step": 1293
    },
    {
      "epoch": 0.1468368794326241,
      "grad_norm": 23.664804458618164,
      "learning_rate": 5e-05,
      "loss": 1.3027,
      "num_input_tokens_seen": 86715368,
      "step": 1294
    },
    {
      "epoch": 0.1468368794326241,
      "loss": 1.4055547714233398,
      "loss_ce": 0.0032109536696225405,
      "loss_iou": 0.609375,
      "loss_num": 0.037109375,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 86715368,
      "step": 1294
    },
    {
      "epoch": 0.14695035460992908,
      "grad_norm": 14.839118003845215,
      "learning_rate": 5e-05,
      "loss": 1.5968,
      "num_input_tokens_seen": 86782276,
      "step": 1295
    },
    {
      "epoch": 0.14695035460992908,
      "loss": 1.8340623378753662,
      "loss_ce": 0.005449116230010986,
      "loss_iou": 0.765625,
      "loss_num": 0.05908203125,
      "loss_xval": 1.828125,
      "num_input_tokens_seen": 86782276,
      "step": 1295
    },
    {
      "epoch": 0.14706382978723403,
      "grad_norm": 9.704665184020996,
      "learning_rate": 5e-05,
      "loss": 1.0584,
      "num_input_tokens_seen": 86848656,
      "step": 1296
    },
    {
      "epoch": 0.14706382978723403,
      "loss": 1.1175810098648071,
      "loss_ce": 0.0047881146892905235,
      "loss_iou": 0.4921875,
      "loss_num": 0.025390625,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 86848656,
      "step": 1296
    },
    {
      "epoch": 0.147177304964539,
      "grad_norm": 16.925682067871094,
      "learning_rate": 5e-05,
      "loss": 1.4925,
      "num_input_tokens_seen": 86916456,
      "step": 1297
    },
    {
      "epoch": 0.147177304964539,
      "loss": 1.5346300601959229,
      "loss_ce": 0.005821467377245426,
      "loss_iou": 0.63671875,
      "loss_num": 0.0517578125,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 86916456,
      "step": 1297
    },
    {
      "epoch": 0.14729078014184396,
      "grad_norm": 20.502586364746094,
      "learning_rate": 5e-05,
      "loss": 1.2601,
      "num_input_tokens_seen": 86982844,
      "step": 1298
    },
    {
      "epoch": 0.14729078014184396,
      "loss": 1.506643533706665,
      "loss_ce": 0.0032255477271974087,
      "loss_iou": 0.65234375,
      "loss_num": 0.039794921875,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 86982844,
      "step": 1298
    },
    {
      "epoch": 0.14740425531914894,
      "grad_norm": 29.451618194580078,
      "learning_rate": 5e-05,
      "loss": 1.4435,
      "num_input_tokens_seen": 87050568,
      "step": 1299
    },
    {
      "epoch": 0.14740425531914894,
      "loss": 1.383396863937378,
      "loss_ce": 0.004979000426828861,
      "loss_iou": 0.59375,
      "loss_num": 0.03759765625,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 87050568,
      "step": 1299
    },
    {
      "epoch": 0.1475177304964539,
      "grad_norm": 14.388023376464844,
      "learning_rate": 5e-05,
      "loss": 1.4551,
      "num_input_tokens_seen": 87116736,
      "step": 1300
    },
    {
      "epoch": 0.1475177304964539,
      "loss": 1.4911330938339233,
      "loss_ce": 0.006269857753068209,
      "loss_iou": 0.6640625,
      "loss_num": 0.03173828125,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 87116736,
      "step": 1300
    },
    {
      "epoch": 0.14763120567375887,
      "grad_norm": 17.344228744506836,
      "learning_rate": 5e-05,
      "loss": 1.2759,
      "num_input_tokens_seen": 87183384,
      "step": 1301
    },
    {
      "epoch": 0.14763120567375887,
      "loss": 1.223819613456726,
      "loss_ce": 0.005557871889322996,
      "loss_iou": 0.51953125,
      "loss_num": 0.0361328125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 87183384,
      "step": 1301
    },
    {
      "epoch": 0.14774468085106382,
      "grad_norm": 16.64693832397461,
      "learning_rate": 5e-05,
      "loss": 1.1998,
      "num_input_tokens_seen": 87250060,
      "step": 1302
    },
    {
      "epoch": 0.14774468085106382,
      "loss": 1.1746652126312256,
      "loss_ce": 0.007795052137225866,
      "loss_iou": 0.50390625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 87250060,
      "step": 1302
    },
    {
      "epoch": 0.1478581560283688,
      "grad_norm": 30.92535972595215,
      "learning_rate": 5e-05,
      "loss": 1.2259,
      "num_input_tokens_seen": 87317652,
      "step": 1303
    },
    {
      "epoch": 0.1478581560283688,
      "loss": 1.4377672672271729,
      "loss_ce": 0.0036852979101240635,
      "loss_iou": 0.6015625,
      "loss_num": 0.046142578125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 87317652,
      "step": 1303
    },
    {
      "epoch": 0.14797163120567375,
      "grad_norm": 15.32628059387207,
      "learning_rate": 5e-05,
      "loss": 1.2341,
      "num_input_tokens_seen": 87385436,
      "step": 1304
    },
    {
      "epoch": 0.14797163120567375,
      "loss": 1.1100937128067017,
      "loss_ce": 0.008317587897181511,
      "loss_iou": 0.5,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 87385436,
      "step": 1304
    },
    {
      "epoch": 0.14808510638297873,
      "grad_norm": 16.321868896484375,
      "learning_rate": 5e-05,
      "loss": 1.2449,
      "num_input_tokens_seen": 87452988,
      "step": 1305
    },
    {
      "epoch": 0.14808510638297873,
      "loss": 1.1120771169662476,
      "loss_ce": 0.004655266646295786,
      "loss_iou": 0.48046875,
      "loss_num": 0.029296875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 87452988,
      "step": 1305
    },
    {
      "epoch": 0.14819858156028368,
      "grad_norm": 18.37700843811035,
      "learning_rate": 5e-05,
      "loss": 1.4184,
      "num_input_tokens_seen": 87519636,
      "step": 1306
    },
    {
      "epoch": 0.14819858156028368,
      "loss": 1.563320517539978,
      "loss_ce": 0.0032618746627122164,
      "loss_iou": 0.71875,
      "loss_num": 0.024658203125,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 87519636,
      "step": 1306
    },
    {
      "epoch": 0.14831205673758865,
      "grad_norm": 26.423978805541992,
      "learning_rate": 5e-05,
      "loss": 1.2652,
      "num_input_tokens_seen": 87586540,
      "step": 1307
    },
    {
      "epoch": 0.14831205673758865,
      "loss": 1.1867221593856812,
      "loss_ce": 0.006546398624777794,
      "loss_iou": 0.5,
      "loss_num": 0.036376953125,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 87586540,
      "step": 1307
    },
    {
      "epoch": 0.1484255319148936,
      "grad_norm": 32.096553802490234,
      "learning_rate": 5e-05,
      "loss": 1.757,
      "num_input_tokens_seen": 87651384,
      "step": 1308
    },
    {
      "epoch": 0.1484255319148936,
      "loss": 1.6525050401687622,
      "loss_ce": 0.003274075221270323,
      "loss_iou": 0.68359375,
      "loss_num": 0.056884765625,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 87651384,
      "step": 1308
    },
    {
      "epoch": 0.14853900709219858,
      "grad_norm": 16.745399475097656,
      "learning_rate": 5e-05,
      "loss": 1.5071,
      "num_input_tokens_seen": 87719052,
      "step": 1309
    },
    {
      "epoch": 0.14853900709219858,
      "loss": 1.5659947395324707,
      "loss_ce": 0.009354143403470516,
      "loss_iou": 0.67578125,
      "loss_num": 0.04052734375,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 87719052,
      "step": 1309
    },
    {
      "epoch": 0.14865248226950353,
      "grad_norm": 32.792667388916016,
      "learning_rate": 5e-05,
      "loss": 1.5705,
      "num_input_tokens_seen": 87787164,
      "step": 1310
    },
    {
      "epoch": 0.14865248226950353,
      "loss": 1.670172095298767,
      "loss_ce": 0.004156484268605709,
      "loss_iou": 0.734375,
      "loss_num": 0.03955078125,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 87787164,
      "step": 1310
    },
    {
      "epoch": 0.1487659574468085,
      "grad_norm": 15.872554779052734,
      "learning_rate": 5e-05,
      "loss": 1.4918,
      "num_input_tokens_seen": 87854460,
      "step": 1311
    },
    {
      "epoch": 0.1487659574468085,
      "loss": 1.3540968894958496,
      "loss_ce": 0.004243375733494759,
      "loss_iou": 0.5859375,
      "loss_num": 0.03515625,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 87854460,
      "step": 1311
    },
    {
      "epoch": 0.14887943262411346,
      "grad_norm": 24.81410026550293,
      "learning_rate": 5e-05,
      "loss": 1.2672,
      "num_input_tokens_seen": 87922396,
      "step": 1312
    },
    {
      "epoch": 0.14887943262411346,
      "loss": 1.0936204195022583,
      "loss_ce": 0.005485681351274252,
      "loss_iou": 0.50390625,
      "loss_num": 0.016357421875,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 87922396,
      "step": 1312
    },
    {
      "epoch": 0.14899290780141844,
      "grad_norm": 15.573942184448242,
      "learning_rate": 5e-05,
      "loss": 1.4013,
      "num_input_tokens_seen": 87990000,
      "step": 1313
    },
    {
      "epoch": 0.14899290780141844,
      "loss": 1.4709858894348145,
      "loss_ce": 0.005165550857782364,
      "loss_iou": 0.62109375,
      "loss_num": 0.044677734375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 87990000,
      "step": 1313
    },
    {
      "epoch": 0.14910638297872342,
      "grad_norm": 19.637557983398438,
      "learning_rate": 5e-05,
      "loss": 1.4847,
      "num_input_tokens_seen": 88057752,
      "step": 1314
    },
    {
      "epoch": 0.14910638297872342,
      "loss": 1.544313907623291,
      "loss_ce": 0.00573964836075902,
      "loss_iou": 0.64453125,
      "loss_num": 0.0498046875,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 88057752,
      "step": 1314
    },
    {
      "epoch": 0.14921985815602837,
      "grad_norm": 22.23966407775879,
      "learning_rate": 5e-05,
      "loss": 1.3223,
      "num_input_tokens_seen": 88125048,
      "step": 1315
    },
    {
      "epoch": 0.14921985815602837,
      "loss": 1.4499163627624512,
      "loss_ce": 0.0065569342114031315,
      "loss_iou": 0.62109375,
      "loss_num": 0.0400390625,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 88125048,
      "step": 1315
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 19.797733306884766,
      "learning_rate": 5e-05,
      "loss": 1.4642,
      "num_input_tokens_seen": 88192372,
      "step": 1316
    },
    {
      "epoch": 0.14933333333333335,
      "loss": 1.5422580242156982,
      "loss_ce": 0.006125149317085743,
      "loss_iou": 0.66015625,
      "loss_num": 0.042724609375,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 88192372,
      "step": 1316
    },
    {
      "epoch": 0.1494468085106383,
      "grad_norm": 20.559297561645508,
      "learning_rate": 5e-05,
      "loss": 1.3734,
      "num_input_tokens_seen": 88257712,
      "step": 1317
    },
    {
      "epoch": 0.1494468085106383,
      "loss": 1.3899033069610596,
      "loss_ce": 0.006602530833333731,
      "loss_iou": 0.55078125,
      "loss_num": 0.05615234375,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 88257712,
      "step": 1317
    },
    {
      "epoch": 0.14956028368794327,
      "grad_norm": 21.764026641845703,
      "learning_rate": 5e-05,
      "loss": 1.3089,
      "num_input_tokens_seen": 88324988,
      "step": 1318
    },
    {
      "epoch": 0.14956028368794327,
      "loss": 1.316497802734375,
      "loss_ce": 0.004486016929149628,
      "loss_iou": 0.57421875,
      "loss_num": 0.03271484375,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 88324988,
      "step": 1318
    },
    {
      "epoch": 0.14967375886524822,
      "grad_norm": 36.178497314453125,
      "learning_rate": 5e-05,
      "loss": 1.3672,
      "num_input_tokens_seen": 88393248,
      "step": 1319
    },
    {
      "epoch": 0.14967375886524822,
      "loss": 1.4694194793701172,
      "loss_ce": 0.004087516106665134,
      "loss_iou": 0.64453125,
      "loss_num": 0.034912109375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 88393248,
      "step": 1319
    },
    {
      "epoch": 0.1497872340425532,
      "grad_norm": 15.744132995605469,
      "learning_rate": 5e-05,
      "loss": 1.5527,
      "num_input_tokens_seen": 88460616,
      "step": 1320
    },
    {
      "epoch": 0.1497872340425532,
      "loss": 1.5208395719528198,
      "loss_ce": 0.001308256178162992,
      "loss_iou": 0.68359375,
      "loss_num": 0.031005859375,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 88460616,
      "step": 1320
    },
    {
      "epoch": 0.14990070921985815,
      "grad_norm": 20.70033073425293,
      "learning_rate": 5e-05,
      "loss": 1.3005,
      "num_input_tokens_seen": 88527944,
      "step": 1321
    },
    {
      "epoch": 0.14990070921985815,
      "loss": 1.4064254760742188,
      "loss_ce": 0.004081731662154198,
      "loss_iou": 0.59375,
      "loss_num": 0.0419921875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 88527944,
      "step": 1321
    },
    {
      "epoch": 0.15001418439716313,
      "grad_norm": 30.447683334350586,
      "learning_rate": 5e-05,
      "loss": 1.4479,
      "num_input_tokens_seen": 88594840,
      "step": 1322
    },
    {
      "epoch": 0.15001418439716313,
      "loss": 1.4044771194458008,
      "loss_ce": 0.004086555913090706,
      "loss_iou": 0.59765625,
      "loss_num": 0.04150390625,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 88594840,
      "step": 1322
    },
    {
      "epoch": 0.15012765957446808,
      "grad_norm": 17.97012710571289,
      "learning_rate": 5e-05,
      "loss": 1.3958,
      "num_input_tokens_seen": 88661636,
      "step": 1323
    },
    {
      "epoch": 0.15012765957446808,
      "loss": 1.3255913257598877,
      "loss_ce": 0.006255433429032564,
      "loss_iou": 0.578125,
      "loss_num": 0.032470703125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 88661636,
      "step": 1323
    },
    {
      "epoch": 0.15024113475177306,
      "grad_norm": 14.682576179504395,
      "learning_rate": 5e-05,
      "loss": 1.2401,
      "num_input_tokens_seen": 88729408,
      "step": 1324
    },
    {
      "epoch": 0.15024113475177306,
      "loss": 1.3119947910308838,
      "loss_ce": 0.0053541273809969425,
      "loss_iou": 0.58984375,
      "loss_num": 0.024658203125,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 88729408,
      "step": 1324
    },
    {
      "epoch": 0.150354609929078,
      "grad_norm": 15.46031665802002,
      "learning_rate": 5e-05,
      "loss": 1.4022,
      "num_input_tokens_seen": 88796816,
      "step": 1325
    },
    {
      "epoch": 0.150354609929078,
      "loss": 1.374168872833252,
      "loss_ce": 0.005028171464800835,
      "loss_iou": 0.58984375,
      "loss_num": 0.0380859375,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 88796816,
      "step": 1325
    },
    {
      "epoch": 0.150468085106383,
      "grad_norm": 12.363245010375977,
      "learning_rate": 5e-05,
      "loss": 1.3345,
      "num_input_tokens_seen": 88863308,
      "step": 1326
    },
    {
      "epoch": 0.150468085106383,
      "loss": 1.279557704925537,
      "loss_ce": 0.005875979550182819,
      "loss_iou": 0.53125,
      "loss_num": 0.04248046875,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 88863308,
      "step": 1326
    },
    {
      "epoch": 0.15058156028368794,
      "grad_norm": 9.496679306030273,
      "learning_rate": 5e-05,
      "loss": 1.3264,
      "num_input_tokens_seen": 88930272,
      "step": 1327
    },
    {
      "epoch": 0.15058156028368794,
      "loss": 1.531362771987915,
      "loss_ce": 0.005972219631075859,
      "loss_iou": 0.63671875,
      "loss_num": 0.050048828125,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 88930272,
      "step": 1327
    },
    {
      "epoch": 0.15069503546099292,
      "grad_norm": 79.23873138427734,
      "learning_rate": 5e-05,
      "loss": 1.3711,
      "num_input_tokens_seen": 88997892,
      "step": 1328
    },
    {
      "epoch": 0.15069503546099292,
      "loss": 1.3017288446426392,
      "loss_ce": 0.005342074669897556,
      "loss_iou": 0.55859375,
      "loss_num": 0.03564453125,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 88997892,
      "step": 1328
    },
    {
      "epoch": 0.15080851063829787,
      "grad_norm": 29.823484420776367,
      "learning_rate": 5e-05,
      "loss": 1.4581,
      "num_input_tokens_seen": 89065020,
      "step": 1329
    },
    {
      "epoch": 0.15080851063829787,
      "loss": 1.454702377319336,
      "loss_ce": 0.004507098812609911,
      "loss_iou": 0.62109375,
      "loss_num": 0.04150390625,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 89065020,
      "step": 1329
    },
    {
      "epoch": 0.15092198581560284,
      "grad_norm": 57.48710632324219,
      "learning_rate": 5e-05,
      "loss": 1.5421,
      "num_input_tokens_seen": 89131968,
      "step": 1330
    },
    {
      "epoch": 0.15092198581560284,
      "loss": 1.5557239055633545,
      "loss_ce": 0.0039660148322582245,
      "loss_iou": 0.7109375,
      "loss_num": 0.02587890625,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 89131968,
      "step": 1330
    },
    {
      "epoch": 0.1510354609929078,
      "grad_norm": 12.290452003479004,
      "learning_rate": 5e-05,
      "loss": 1.3252,
      "num_input_tokens_seen": 89198780,
      "step": 1331
    },
    {
      "epoch": 0.1510354609929078,
      "loss": 1.3286689519882202,
      "loss_ce": 0.003473638091236353,
      "loss_iou": 0.55078125,
      "loss_num": 0.044189453125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 89198780,
      "step": 1331
    },
    {
      "epoch": 0.15114893617021277,
      "grad_norm": 14.668834686279297,
      "learning_rate": 5e-05,
      "loss": 1.328,
      "num_input_tokens_seen": 89265780,
      "step": 1332
    },
    {
      "epoch": 0.15114893617021277,
      "loss": 1.4545162916183472,
      "loss_ce": 0.0033444080036133528,
      "loss_iou": 0.6171875,
      "loss_num": 0.042724609375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 89265780,
      "step": 1332
    },
    {
      "epoch": 0.15126241134751772,
      "grad_norm": 40.80778121948242,
      "learning_rate": 5e-05,
      "loss": 1.2263,
      "num_input_tokens_seen": 89331008,
      "step": 1333
    },
    {
      "epoch": 0.15126241134751772,
      "loss": 1.1737194061279297,
      "loss_ce": 0.007215429097414017,
      "loss_iou": 0.49609375,
      "loss_num": 0.034423828125,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 89331008,
      "step": 1333
    },
    {
      "epoch": 0.1513758865248227,
      "grad_norm": 21.397184371948242,
      "learning_rate": 5e-05,
      "loss": 1.2447,
      "num_input_tokens_seen": 89397832,
      "step": 1334
    },
    {
      "epoch": 0.1513758865248227,
      "loss": 1.1548539400100708,
      "loss_ce": 0.006202877499163151,
      "loss_iou": 0.494140625,
      "loss_num": 0.0322265625,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 89397832,
      "step": 1334
    },
    {
      "epoch": 0.15148936170212765,
      "grad_norm": 18.55613899230957,
      "learning_rate": 5e-05,
      "loss": 1.6062,
      "num_input_tokens_seen": 89464976,
      "step": 1335
    },
    {
      "epoch": 0.15148936170212765,
      "loss": 1.561180830001831,
      "loss_ce": 0.006493276916444302,
      "loss_iou": 0.67578125,
      "loss_num": 0.041015625,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 89464976,
      "step": 1335
    },
    {
      "epoch": 0.15160283687943263,
      "grad_norm": 14.465527534484863,
      "learning_rate": 5e-05,
      "loss": 1.0291,
      "num_input_tokens_seen": 89531252,
      "step": 1336
    },
    {
      "epoch": 0.15160283687943263,
      "loss": 1.1455111503601074,
      "loss_ce": 0.010806544683873653,
      "loss_iou": 0.455078125,
      "loss_num": 0.04541015625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 89531252,
      "step": 1336
    },
    {
      "epoch": 0.15171631205673758,
      "grad_norm": 16.49089241027832,
      "learning_rate": 5e-05,
      "loss": 1.3671,
      "num_input_tokens_seen": 89598940,
      "step": 1337
    },
    {
      "epoch": 0.15171631205673758,
      "loss": 1.32124924659729,
      "loss_ce": 0.013998246751725674,
      "loss_iou": 0.53515625,
      "loss_num": 0.046630859375,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 89598940,
      "step": 1337
    },
    {
      "epoch": 0.15182978723404256,
      "grad_norm": 19.077457427978516,
      "learning_rate": 5e-05,
      "loss": 1.3871,
      "num_input_tokens_seen": 89665420,
      "step": 1338
    },
    {
      "epoch": 0.15182978723404256,
      "loss": 1.4838601350784302,
      "loss_ce": 0.0068093398585915565,
      "loss_iou": 0.64453125,
      "loss_num": 0.037353515625,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 89665420,
      "step": 1338
    },
    {
      "epoch": 0.1519432624113475,
      "grad_norm": 27.619632720947266,
      "learning_rate": 5e-05,
      "loss": 1.5612,
      "num_input_tokens_seen": 89732268,
      "step": 1339
    },
    {
      "epoch": 0.1519432624113475,
      "loss": 1.6165688037872314,
      "loss_ce": 0.007193795405328274,
      "loss_iou": 0.734375,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 89732268,
      "step": 1339
    },
    {
      "epoch": 0.15205673758865249,
      "grad_norm": 28.303789138793945,
      "learning_rate": 5e-05,
      "loss": 1.5483,
      "num_input_tokens_seen": 89799696,
      "step": 1340
    },
    {
      "epoch": 0.15205673758865249,
      "loss": 1.3365613222122192,
      "loss_ce": 0.006971562281250954,
      "loss_iou": 0.56640625,
      "loss_num": 0.03955078125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 89799696,
      "step": 1340
    },
    {
      "epoch": 0.15217021276595744,
      "grad_norm": 34.20594787597656,
      "learning_rate": 5e-05,
      "loss": 1.9354,
      "num_input_tokens_seen": 89866284,
      "step": 1341
    },
    {
      "epoch": 0.15217021276595744,
      "loss": 2.04726243019104,
      "loss_ce": 0.003317067166790366,
      "loss_iou": 0.86328125,
      "loss_num": 0.0625,
      "loss_xval": 2.046875,
      "num_input_tokens_seen": 89866284,
      "step": 1341
    },
    {
      "epoch": 0.1522836879432624,
      "grad_norm": 13.066715240478516,
      "learning_rate": 5e-05,
      "loss": 1.4264,
      "num_input_tokens_seen": 89933144,
      "step": 1342
    },
    {
      "epoch": 0.1522836879432624,
      "loss": 1.5843183994293213,
      "loss_ce": 0.005216754507273436,
      "loss_iou": 0.6796875,
      "loss_num": 0.044677734375,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 89933144,
      "step": 1342
    },
    {
      "epoch": 0.15239716312056736,
      "grad_norm": 16.446800231933594,
      "learning_rate": 5e-05,
      "loss": 1.224,
      "num_input_tokens_seen": 89999900,
      "step": 1343
    },
    {
      "epoch": 0.15239716312056736,
      "loss": 1.2403959035873413,
      "loss_ce": 0.0055326418951153755,
      "loss_iou": 0.55859375,
      "loss_num": 0.023681640625,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 89999900,
      "step": 1343
    },
    {
      "epoch": 0.15251063829787234,
      "grad_norm": 16.61918830871582,
      "learning_rate": 5e-05,
      "loss": 1.2353,
      "num_input_tokens_seen": 90067024,
      "step": 1344
    },
    {
      "epoch": 0.15251063829787234,
      "loss": 1.3210753202438354,
      "loss_ce": 0.005157284438610077,
      "loss_iou": 0.57421875,
      "loss_num": 0.03369140625,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 90067024,
      "step": 1344
    },
    {
      "epoch": 0.1526241134751773,
      "grad_norm": 19.49215316772461,
      "learning_rate": 5e-05,
      "loss": 1.2462,
      "num_input_tokens_seen": 90133792,
      "step": 1345
    },
    {
      "epoch": 0.1526241134751773,
      "loss": 1.2322766780853271,
      "loss_ce": 0.0013196934014558792,
      "loss_iou": 0.546875,
      "loss_num": 0.0274658203125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 90133792,
      "step": 1345
    },
    {
      "epoch": 0.15273758865248227,
      "grad_norm": 19.361530303955078,
      "learning_rate": 5e-05,
      "loss": 1.3745,
      "num_input_tokens_seen": 90200048,
      "step": 1346
    },
    {
      "epoch": 0.15273758865248227,
      "loss": 1.4452307224273682,
      "loss_ce": 0.0018712372984737158,
      "loss_iou": 0.6484375,
      "loss_num": 0.02978515625,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 90200048,
      "step": 1346
    },
    {
      "epoch": 0.15285106382978722,
      "grad_norm": 38.61143112182617,
      "learning_rate": 5e-05,
      "loss": 1.3137,
      "num_input_tokens_seen": 90267172,
      "step": 1347
    },
    {
      "epoch": 0.15285106382978722,
      "loss": 1.1651296615600586,
      "loss_ce": 0.004683495499193668,
      "loss_iou": 0.498046875,
      "loss_num": 0.03271484375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 90267172,
      "step": 1347
    },
    {
      "epoch": 0.1529645390070922,
      "grad_norm": 16.63735008239746,
      "learning_rate": 5e-05,
      "loss": 1.5869,
      "num_input_tokens_seen": 90333844,
      "step": 1348
    },
    {
      "epoch": 0.1529645390070922,
      "loss": 1.565779209136963,
      "loss_ce": 0.004255810286849737,
      "loss_iou": 0.6953125,
      "loss_num": 0.0341796875,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 90333844,
      "step": 1348
    },
    {
      "epoch": 0.15307801418439718,
      "grad_norm": 13.89306640625,
      "learning_rate": 5e-05,
      "loss": 1.2663,
      "num_input_tokens_seen": 90401348,
      "step": 1349
    },
    {
      "epoch": 0.15307801418439718,
      "loss": 1.0103399753570557,
      "loss_ce": 0.005457097664475441,
      "loss_iou": 0.451171875,
      "loss_num": 0.020751953125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 90401348,
      "step": 1349
    },
    {
      "epoch": 0.15319148936170213,
      "grad_norm": 18.35934829711914,
      "learning_rate": 5e-05,
      "loss": 1.3558,
      "num_input_tokens_seen": 90468900,
      "step": 1350
    },
    {
      "epoch": 0.15319148936170213,
      "loss": 1.358177900314331,
      "loss_ce": 0.005150636658072472,
      "loss_iou": 0.59375,
      "loss_num": 0.032958984375,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 90468900,
      "step": 1350
    },
    {
      "epoch": 0.1533049645390071,
      "grad_norm": 35.09288024902344,
      "learning_rate": 5e-05,
      "loss": 1.4751,
      "num_input_tokens_seen": 90535876,
      "step": 1351
    },
    {
      "epoch": 0.1533049645390071,
      "loss": 1.751255750656128,
      "loss_ce": 0.00711502879858017,
      "loss_iou": 0.73828125,
      "loss_num": 0.053466796875,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 90535876,
      "step": 1351
    },
    {
      "epoch": 0.15341843971631206,
      "grad_norm": 12.908790588378906,
      "learning_rate": 5e-05,
      "loss": 1.7221,
      "num_input_tokens_seen": 90604032,
      "step": 1352
    },
    {
      "epoch": 0.15341843971631206,
      "loss": 1.8279951810836792,
      "loss_ce": 0.004752982407808304,
      "loss_iou": 0.79296875,
      "loss_num": 0.047607421875,
      "loss_xval": 1.8203125,
      "num_input_tokens_seen": 90604032,
      "step": 1352
    },
    {
      "epoch": 0.15353191489361703,
      "grad_norm": 18.497846603393555,
      "learning_rate": 5e-05,
      "loss": 1.4739,
      "num_input_tokens_seen": 90672024,
      "step": 1353
    },
    {
      "epoch": 0.15353191489361703,
      "loss": 1.3988330364227295,
      "loss_ce": 0.0052784341387450695,
      "loss_iou": 0.61328125,
      "loss_num": 0.03271484375,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 90672024,
      "step": 1353
    },
    {
      "epoch": 0.15364539007092198,
      "grad_norm": 31.61751937866211,
      "learning_rate": 5e-05,
      "loss": 1.164,
      "num_input_tokens_seen": 90738760,
      "step": 1354
    },
    {
      "epoch": 0.15364539007092198,
      "loss": 1.2193152904510498,
      "loss_ce": 0.005448042880743742,
      "loss_iou": 0.5234375,
      "loss_num": 0.033203125,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 90738760,
      "step": 1354
    },
    {
      "epoch": 0.15375886524822696,
      "grad_norm": 10.998298645019531,
      "learning_rate": 5e-05,
      "loss": 1.1078,
      "num_input_tokens_seen": 90805136,
      "step": 1355
    },
    {
      "epoch": 0.15375886524822696,
      "loss": 0.8676247000694275,
      "loss_ce": 0.0017799963243305683,
      "loss_iou": 0.380859375,
      "loss_num": 0.020751953125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 90805136,
      "step": 1355
    },
    {
      "epoch": 0.1538723404255319,
      "grad_norm": 29.964902877807617,
      "learning_rate": 5e-05,
      "loss": 1.342,
      "num_input_tokens_seen": 90872228,
      "step": 1356
    },
    {
      "epoch": 0.1538723404255319,
      "loss": 1.2009001970291138,
      "loss_ce": 0.004122886341065168,
      "loss_iou": 0.55078125,
      "loss_num": 0.018310546875,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 90872228,
      "step": 1356
    },
    {
      "epoch": 0.1539858156028369,
      "grad_norm": 16.712236404418945,
      "learning_rate": 5e-05,
      "loss": 1.3142,
      "num_input_tokens_seen": 90939376,
      "step": 1357
    },
    {
      "epoch": 0.1539858156028369,
      "loss": 1.2154532670974731,
      "loss_ce": 0.004515781998634338,
      "loss_iou": 0.5546875,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 90939376,
      "step": 1357
    },
    {
      "epoch": 0.15409929078014184,
      "grad_norm": 43.324005126953125,
      "learning_rate": 5e-05,
      "loss": 1.242,
      "num_input_tokens_seen": 91005704,
      "step": 1358
    },
    {
      "epoch": 0.15409929078014184,
      "loss": 1.2463490962982178,
      "loss_ce": 0.0022084121592342854,
      "loss_iou": 0.5546875,
      "loss_num": 0.0277099609375,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 91005704,
      "step": 1358
    },
    {
      "epoch": 0.15421276595744682,
      "grad_norm": 16.062381744384766,
      "learning_rate": 5e-05,
      "loss": 1.406,
      "num_input_tokens_seen": 91072636,
      "step": 1359
    },
    {
      "epoch": 0.15421276595744682,
      "loss": 1.5241272449493408,
      "loss_ce": 0.005572561640292406,
      "loss_iou": 0.66015625,
      "loss_num": 0.03955078125,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 91072636,
      "step": 1359
    },
    {
      "epoch": 0.15432624113475177,
      "grad_norm": 10.41702651977539,
      "learning_rate": 5e-05,
      "loss": 1.332,
      "num_input_tokens_seen": 91138872,
      "step": 1360
    },
    {
      "epoch": 0.15432624113475177,
      "loss": 1.232688546180725,
      "loss_ce": 0.0046612052246928215,
      "loss_iou": 0.51953125,
      "loss_num": 0.037841796875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 91138872,
      "step": 1360
    },
    {
      "epoch": 0.15443971631205675,
      "grad_norm": 33.659202575683594,
      "learning_rate": 5e-05,
      "loss": 1.3391,
      "num_input_tokens_seen": 91206416,
      "step": 1361
    },
    {
      "epoch": 0.15443971631205675,
      "loss": 1.4321084022521973,
      "loss_ce": 0.0033974454272538424,
      "loss_iou": 0.62109375,
      "loss_num": 0.036865234375,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 91206416,
      "step": 1361
    },
    {
      "epoch": 0.1545531914893617,
      "grad_norm": 18.672992706298828,
      "learning_rate": 5e-05,
      "loss": 1.5579,
      "num_input_tokens_seen": 91273592,
      "step": 1362
    },
    {
      "epoch": 0.1545531914893617,
      "loss": 1.5279507637023926,
      "loss_ce": 0.006466366350650787,
      "loss_iou": 0.64453125,
      "loss_num": 0.046875,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 91273592,
      "step": 1362
    },
    {
      "epoch": 0.15466666666666667,
      "grad_norm": 19.718448638916016,
      "learning_rate": 5e-05,
      "loss": 1.2145,
      "num_input_tokens_seen": 91340760,
      "step": 1363
    },
    {
      "epoch": 0.15466666666666667,
      "loss": 1.1465331315994263,
      "loss_ce": 0.009814406745135784,
      "loss_iou": 0.5234375,
      "loss_num": 0.017822265625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 91340760,
      "step": 1363
    },
    {
      "epoch": 0.15478014184397162,
      "grad_norm": 18.861642837524414,
      "learning_rate": 5e-05,
      "loss": 1.587,
      "num_input_tokens_seen": 91408024,
      "step": 1364
    },
    {
      "epoch": 0.15478014184397162,
      "loss": 1.5098010301589966,
      "loss_ce": 0.008824501186609268,
      "loss_iou": 0.6484375,
      "loss_num": 0.041259765625,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 91408024,
      "step": 1364
    },
    {
      "epoch": 0.1548936170212766,
      "grad_norm": 18.40229034423828,
      "learning_rate": 5e-05,
      "loss": 1.2083,
      "num_input_tokens_seen": 91475588,
      "step": 1365
    },
    {
      "epoch": 0.1548936170212766,
      "loss": 1.1830233335494995,
      "loss_ce": 0.005533051677048206,
      "loss_iou": 0.50390625,
      "loss_num": 0.03466796875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 91475588,
      "step": 1365
    },
    {
      "epoch": 0.15500709219858155,
      "grad_norm": 28.963783264160156,
      "learning_rate": 5e-05,
      "loss": 1.5989,
      "num_input_tokens_seen": 91542656,
      "step": 1366
    },
    {
      "epoch": 0.15500709219858155,
      "loss": 1.6777194738388062,
      "loss_ce": 0.008774124085903168,
      "loss_iou": 0.72265625,
      "loss_num": 0.044677734375,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 91542656,
      "step": 1366
    },
    {
      "epoch": 0.15512056737588653,
      "grad_norm": 9.986455917358398,
      "learning_rate": 5e-05,
      "loss": 1.2123,
      "num_input_tokens_seen": 91609416,
      "step": 1367
    },
    {
      "epoch": 0.15512056737588653,
      "loss": 1.3599210977554321,
      "loss_ce": 0.010006530210375786,
      "loss_iou": 0.59765625,
      "loss_num": 0.031005859375,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 91609416,
      "step": 1367
    },
    {
      "epoch": 0.15523404255319148,
      "grad_norm": 25.516908645629883,
      "learning_rate": 5e-05,
      "loss": 1.2326,
      "num_input_tokens_seen": 91676068,
      "step": 1368
    },
    {
      "epoch": 0.15523404255319148,
      "loss": 1.0554711818695068,
      "loss_ce": 0.004201741889119148,
      "loss_iou": 0.458984375,
      "loss_num": 0.027099609375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 91676068,
      "step": 1368
    },
    {
      "epoch": 0.15534751773049646,
      "grad_norm": 14.877541542053223,
      "learning_rate": 5e-05,
      "loss": 1.7962,
      "num_input_tokens_seen": 91743180,
      "step": 1369
    },
    {
      "epoch": 0.15534751773049646,
      "loss": 1.6994633674621582,
      "loss_ce": 0.007080418989062309,
      "loss_iou": 0.73828125,
      "loss_num": 0.042724609375,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 91743180,
      "step": 1369
    },
    {
      "epoch": 0.1554609929078014,
      "grad_norm": 19.19390296936035,
      "learning_rate": 5e-05,
      "loss": 1.3017,
      "num_input_tokens_seen": 91809884,
      "step": 1370
    },
    {
      "epoch": 0.1554609929078014,
      "loss": 1.0824153423309326,
      "loss_ce": 0.005755199119448662,
      "loss_iou": 0.494140625,
      "loss_num": 0.017578125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 91809884,
      "step": 1370
    },
    {
      "epoch": 0.1555744680851064,
      "grad_norm": 18.14911460876465,
      "learning_rate": 5e-05,
      "loss": 1.2802,
      "num_input_tokens_seen": 91878300,
      "step": 1371
    },
    {
      "epoch": 0.1555744680851064,
      "loss": 1.2990074157714844,
      "loss_ce": 0.00408549141138792,
      "loss_iou": 0.5546875,
      "loss_num": 0.037109375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 91878300,
      "step": 1371
    },
    {
      "epoch": 0.15568794326241134,
      "grad_norm": 18.159334182739258,
      "learning_rate": 5e-05,
      "loss": 1.5343,
      "num_input_tokens_seen": 91945656,
      "step": 1372
    },
    {
      "epoch": 0.15568794326241134,
      "loss": 1.4508352279663086,
      "loss_ce": 0.004057783633470535,
      "loss_iou": 0.61328125,
      "loss_num": 0.04443359375,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 91945656,
      "step": 1372
    },
    {
      "epoch": 0.15580141843971632,
      "grad_norm": 20.006235122680664,
      "learning_rate": 5e-05,
      "loss": 1.1799,
      "num_input_tokens_seen": 92013284,
      "step": 1373
    },
    {
      "epoch": 0.15580141843971632,
      "loss": 1.2553822994232178,
      "loss_ce": 0.00928850844502449,
      "loss_iou": 0.53515625,
      "loss_num": 0.03466796875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 92013284,
      "step": 1373
    },
    {
      "epoch": 0.15591489361702127,
      "grad_norm": 19.639785766601562,
      "learning_rate": 5e-05,
      "loss": 1.3181,
      "num_input_tokens_seen": 92080328,
      "step": 1374
    },
    {
      "epoch": 0.15591489361702127,
      "loss": 1.3329384326934814,
      "loss_ce": 0.0013954611495137215,
      "loss_iou": 0.53125,
      "loss_num": 0.05419921875,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 92080328,
      "step": 1374
    },
    {
      "epoch": 0.15602836879432624,
      "grad_norm": 26.188671112060547,
      "learning_rate": 5e-05,
      "loss": 1.2785,
      "num_input_tokens_seen": 92146656,
      "step": 1375
    },
    {
      "epoch": 0.15602836879432624,
      "loss": 1.4496264457702637,
      "loss_ce": 0.008098180405795574,
      "loss_iou": 0.609375,
      "loss_num": 0.044921875,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 92146656,
      "step": 1375
    },
    {
      "epoch": 0.1561418439716312,
      "grad_norm": 14.712747573852539,
      "learning_rate": 5e-05,
      "loss": 1.5212,
      "num_input_tokens_seen": 92214344,
      "step": 1376
    },
    {
      "epoch": 0.1561418439716312,
      "loss": 1.3546552658081055,
      "loss_ce": 0.007975501008331776,
      "loss_iou": 0.59765625,
      "loss_num": 0.0311279296875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 92214344,
      "step": 1376
    },
    {
      "epoch": 0.15625531914893617,
      "grad_norm": 18.07341194152832,
      "learning_rate": 5e-05,
      "loss": 1.2187,
      "num_input_tokens_seen": 92280896,
      "step": 1377
    },
    {
      "epoch": 0.15625531914893617,
      "loss": 1.1591284275054932,
      "loss_ce": 0.00239018676802516,
      "loss_iou": 0.486328125,
      "loss_num": 0.03662109375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 92280896,
      "step": 1377
    },
    {
      "epoch": 0.15636879432624112,
      "grad_norm": 34.35765838623047,
      "learning_rate": 5e-05,
      "loss": 1.3821,
      "num_input_tokens_seen": 92348936,
      "step": 1378
    },
    {
      "epoch": 0.15636879432624112,
      "loss": 1.3835110664367676,
      "loss_ce": 0.003628263482823968,
      "loss_iou": 0.609375,
      "loss_num": 0.0322265625,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 92348936,
      "step": 1378
    },
    {
      "epoch": 0.1564822695035461,
      "grad_norm": 11.089142799377441,
      "learning_rate": 5e-05,
      "loss": 1.42,
      "num_input_tokens_seen": 92415748,
      "step": 1379
    },
    {
      "epoch": 0.1564822695035461,
      "loss": 1.6023786067962646,
      "loss_ce": 0.0032574397046118975,
      "loss_iou": 0.671875,
      "loss_num": 0.05029296875,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 92415748,
      "step": 1379
    },
    {
      "epoch": 0.15659574468085105,
      "grad_norm": 11.840475082397461,
      "learning_rate": 5e-05,
      "loss": 1.3749,
      "num_input_tokens_seen": 92483288,
      "step": 1380
    },
    {
      "epoch": 0.15659574468085105,
      "loss": 1.3048253059387207,
      "loss_ce": 0.005997187457978725,
      "loss_iou": 0.5703125,
      "loss_num": 0.0322265625,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 92483288,
      "step": 1380
    },
    {
      "epoch": 0.15670921985815603,
      "grad_norm": 23.08006477355957,
      "learning_rate": 5e-05,
      "loss": 1.1343,
      "num_input_tokens_seen": 92549360,
      "step": 1381
    },
    {
      "epoch": 0.15670921985815603,
      "loss": 1.1581999063491821,
      "loss_ce": 0.007809336297214031,
      "loss_iou": 0.45703125,
      "loss_num": 0.04736328125,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 92549360,
      "step": 1381
    },
    {
      "epoch": 0.15682269503546098,
      "grad_norm": 16.588321685791016,
      "learning_rate": 5e-05,
      "loss": 1.222,
      "num_input_tokens_seen": 92616300,
      "step": 1382
    },
    {
      "epoch": 0.15682269503546098,
      "loss": 1.324182391166687,
      "loss_ce": 0.0058840615674853325,
      "loss_iou": 0.55859375,
      "loss_num": 0.039794921875,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 92616300,
      "step": 1382
    },
    {
      "epoch": 0.15693617021276596,
      "grad_norm": 14.938834190368652,
      "learning_rate": 5e-05,
      "loss": 1.1942,
      "num_input_tokens_seen": 92683976,
      "step": 1383
    },
    {
      "epoch": 0.15693617021276596,
      "loss": 1.2403219938278198,
      "loss_ce": 0.0015524555929005146,
      "loss_iou": 0.5546875,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 92683976,
      "step": 1383
    },
    {
      "epoch": 0.15704964539007094,
      "grad_norm": 19.671188354492188,
      "learning_rate": 5e-05,
      "loss": 1.4342,
      "num_input_tokens_seen": 92750192,
      "step": 1384
    },
    {
      "epoch": 0.15704964539007094,
      "loss": 1.442495584487915,
      "loss_ce": 0.007437075022608042,
      "loss_iou": 0.58203125,
      "loss_num": 0.054443359375,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 92750192,
      "step": 1384
    },
    {
      "epoch": 0.15716312056737589,
      "grad_norm": 17.620176315307617,
      "learning_rate": 5e-05,
      "loss": 1.3693,
      "num_input_tokens_seen": 92817648,
      "step": 1385
    },
    {
      "epoch": 0.15716312056737589,
      "loss": 1.3312146663665771,
      "loss_ce": 0.003089634468778968,
      "loss_iou": 0.59375,
      "loss_num": 0.028564453125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 92817648,
      "step": 1385
    },
    {
      "epoch": 0.15727659574468086,
      "grad_norm": 21.316814422607422,
      "learning_rate": 5e-05,
      "loss": 1.4789,
      "num_input_tokens_seen": 92883692,
      "step": 1386
    },
    {
      "epoch": 0.15727659574468086,
      "loss": 1.3903119564056396,
      "loss_ce": 0.003959364257752895,
      "loss_iou": 0.59375,
      "loss_num": 0.040283203125,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 92883692,
      "step": 1386
    },
    {
      "epoch": 0.15739007092198581,
      "grad_norm": 18.147756576538086,
      "learning_rate": 5e-05,
      "loss": 1.5723,
      "num_input_tokens_seen": 92949864,
      "step": 1387
    },
    {
      "epoch": 0.15739007092198581,
      "loss": 1.6259403228759766,
      "loss_ce": 0.00679961359128356,
      "loss_iou": 0.66796875,
      "loss_num": 0.05712890625,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 92949864,
      "step": 1387
    },
    {
      "epoch": 0.1575035460992908,
      "grad_norm": 14.206294059753418,
      "learning_rate": 5e-05,
      "loss": 1.1915,
      "num_input_tokens_seen": 93016204,
      "step": 1388
    },
    {
      "epoch": 0.1575035460992908,
      "loss": 0.9454077482223511,
      "loss_ce": 0.004306672140955925,
      "loss_iou": 0.439453125,
      "loss_num": 0.01220703125,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 93016204,
      "step": 1388
    },
    {
      "epoch": 0.15761702127659574,
      "grad_norm": 22.752370834350586,
      "learning_rate": 5e-05,
      "loss": 1.2138,
      "num_input_tokens_seen": 93083008,
      "step": 1389
    },
    {
      "epoch": 0.15761702127659574,
      "loss": 1.1260321140289307,
      "loss_ce": 0.005823332816362381,
      "loss_iou": 0.46875,
      "loss_num": 0.036376953125,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 93083008,
      "step": 1389
    },
    {
      "epoch": 0.15773049645390072,
      "grad_norm": 16.772693634033203,
      "learning_rate": 5e-05,
      "loss": 1.5513,
      "num_input_tokens_seen": 93149820,
      "step": 1390
    },
    {
      "epoch": 0.15773049645390072,
      "loss": 1.589714765548706,
      "loss_ce": 0.005242121871560812,
      "loss_iou": 0.68359375,
      "loss_num": 0.0439453125,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 93149820,
      "step": 1390
    },
    {
      "epoch": 0.15784397163120567,
      "grad_norm": 14.857436180114746,
      "learning_rate": 5e-05,
      "loss": 1.334,
      "num_input_tokens_seen": 93216320,
      "step": 1391
    },
    {
      "epoch": 0.15784397163120567,
      "loss": 1.284875512123108,
      "loss_ce": 0.004602124914526939,
      "loss_iou": 0.56640625,
      "loss_num": 0.0299072265625,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 93216320,
      "step": 1391
    },
    {
      "epoch": 0.15795744680851065,
      "grad_norm": 15.686078071594238,
      "learning_rate": 5e-05,
      "loss": 1.1451,
      "num_input_tokens_seen": 93282708,
      "step": 1392
    },
    {
      "epoch": 0.15795744680851065,
      "loss": 1.219374179840088,
      "loss_ce": 0.009901589713990688,
      "loss_iou": 0.53125,
      "loss_num": 0.02978515625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 93282708,
      "step": 1392
    },
    {
      "epoch": 0.1580709219858156,
      "grad_norm": 26.60395050048828,
      "learning_rate": 5e-05,
      "loss": 1.6799,
      "num_input_tokens_seen": 93349940,
      "step": 1393
    },
    {
      "epoch": 0.1580709219858156,
      "loss": 1.627439260482788,
      "loss_ce": 0.003904157318174839,
      "loss_iou": 0.75,
      "loss_num": 0.024169921875,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 93349940,
      "step": 1393
    },
    {
      "epoch": 0.15818439716312058,
      "grad_norm": 26.28853416442871,
      "learning_rate": 5e-05,
      "loss": 1.6417,
      "num_input_tokens_seen": 93416040,
      "step": 1394
    },
    {
      "epoch": 0.15818439716312058,
      "loss": 1.496312141418457,
      "loss_ce": 0.004124597646296024,
      "loss_iou": 0.66796875,
      "loss_num": 0.031005859375,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 93416040,
      "step": 1394
    },
    {
      "epoch": 0.15829787234042553,
      "grad_norm": 10.752248764038086,
      "learning_rate": 5e-05,
      "loss": 1.2159,
      "num_input_tokens_seen": 93482228,
      "step": 1395
    },
    {
      "epoch": 0.15829787234042553,
      "loss": 1.2856169939041138,
      "loss_ce": 0.008639397099614143,
      "loss_iou": 0.53125,
      "loss_num": 0.042724609375,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 93482228,
      "step": 1395
    },
    {
      "epoch": 0.1584113475177305,
      "grad_norm": 20.73605728149414,
      "learning_rate": 5e-05,
      "loss": 1.1055,
      "num_input_tokens_seen": 93549336,
      "step": 1396
    },
    {
      "epoch": 0.1584113475177305,
      "loss": 1.137338399887085,
      "loss_ce": 0.006967363879084587,
      "loss_iou": 0.51171875,
      "loss_num": 0.021728515625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 93549336,
      "step": 1396
    },
    {
      "epoch": 0.15852482269503546,
      "grad_norm": 16.57515525817871,
      "learning_rate": 5e-05,
      "loss": 1.1455,
      "num_input_tokens_seen": 93617116,
      "step": 1397
    },
    {
      "epoch": 0.15852482269503546,
      "loss": 1.1166443824768066,
      "loss_ce": 0.0023865853436291218,
      "loss_iou": 0.5,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 93617116,
      "step": 1397
    },
    {
      "epoch": 0.15863829787234043,
      "grad_norm": 31.38118553161621,
      "learning_rate": 5e-05,
      "loss": 1.4478,
      "num_input_tokens_seen": 93683828,
      "step": 1398
    },
    {
      "epoch": 0.15863829787234043,
      "loss": 1.5594902038574219,
      "loss_ce": 0.005290964152663946,
      "loss_iou": 0.66015625,
      "loss_num": 0.047607421875,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 93683828,
      "step": 1398
    },
    {
      "epoch": 0.15875177304964538,
      "grad_norm": 12.136615753173828,
      "learning_rate": 5e-05,
      "loss": 1.1125,
      "num_input_tokens_seen": 93749184,
      "step": 1399
    },
    {
      "epoch": 0.15875177304964538,
      "loss": 1.2547158002853394,
      "loss_ce": 0.005204048473387957,
      "loss_iou": 0.51953125,
      "loss_num": 0.041748046875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 93749184,
      "step": 1399
    },
    {
      "epoch": 0.15886524822695036,
      "grad_norm": 15.9155912399292,
      "learning_rate": 5e-05,
      "loss": 1.2516,
      "num_input_tokens_seen": 93817112,
      "step": 1400
    },
    {
      "epoch": 0.15886524822695036,
      "loss": 1.4224334955215454,
      "loss_ce": 0.0029999325051903725,
      "loss_iou": 0.625,
      "loss_num": 0.033203125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 93817112,
      "step": 1400
    },
    {
      "epoch": 0.1589787234042553,
      "grad_norm": 17.871843338012695,
      "learning_rate": 5e-05,
      "loss": 1.4385,
      "num_input_tokens_seen": 93884700,
      "step": 1401
    },
    {
      "epoch": 0.1589787234042553,
      "loss": 1.7161035537719727,
      "loss_ce": 0.00956062413752079,
      "loss_iou": 0.70703125,
      "loss_num": 0.058349609375,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 93884700,
      "step": 1401
    },
    {
      "epoch": 0.1590921985815603,
      "grad_norm": 20.769681930541992,
      "learning_rate": 5e-05,
      "loss": 1.2018,
      "num_input_tokens_seen": 93952540,
      "step": 1402
    },
    {
      "epoch": 0.1590921985815603,
      "loss": 1.1846328973770142,
      "loss_ce": 0.002503922674804926,
      "loss_iou": 0.51953125,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 93952540,
      "step": 1402
    },
    {
      "epoch": 0.15920567375886524,
      "grad_norm": 19.289125442504883,
      "learning_rate": 5e-05,
      "loss": 1.411,
      "num_input_tokens_seen": 94020192,
      "step": 1403
    },
    {
      "epoch": 0.15920567375886524,
      "loss": 1.4174389839172363,
      "loss_ce": 0.004353099502623081,
      "loss_iou": 0.6015625,
      "loss_num": 0.042236328125,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 94020192,
      "step": 1403
    },
    {
      "epoch": 0.15931914893617022,
      "grad_norm": 27.2392520904541,
      "learning_rate": 5e-05,
      "loss": 1.3418,
      "num_input_tokens_seen": 94087420,
      "step": 1404
    },
    {
      "epoch": 0.15931914893617022,
      "loss": 1.3898735046386719,
      "loss_ce": 0.0070611098781228065,
      "loss_iou": 0.5859375,
      "loss_num": 0.04150390625,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 94087420,
      "step": 1404
    },
    {
      "epoch": 0.15943262411347517,
      "grad_norm": 18.51461410522461,
      "learning_rate": 5e-05,
      "loss": 1.6732,
      "num_input_tokens_seen": 94155840,
      "step": 1405
    },
    {
      "epoch": 0.15943262411347517,
      "loss": 1.6452672481536865,
      "loss_ce": 0.0026890593580901623,
      "loss_iou": 0.7265625,
      "loss_num": 0.03857421875,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 94155840,
      "step": 1405
    },
    {
      "epoch": 0.15954609929078015,
      "grad_norm": 17.569604873657227,
      "learning_rate": 5e-05,
      "loss": 1.1518,
      "num_input_tokens_seen": 94222208,
      "step": 1406
    },
    {
      "epoch": 0.15954609929078015,
      "loss": 1.053662896156311,
      "loss_ce": 0.0030342466197907925,
      "loss_iou": 0.474609375,
      "loss_num": 0.020263671875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 94222208,
      "step": 1406
    },
    {
      "epoch": 0.1596595744680851,
      "grad_norm": 30.028684616088867,
      "learning_rate": 5e-05,
      "loss": 1.2899,
      "num_input_tokens_seen": 94290500,
      "step": 1407
    },
    {
      "epoch": 0.1596595744680851,
      "loss": 1.2707563638687134,
      "loss_ce": 0.001713376841507852,
      "loss_iou": 0.56640625,
      "loss_num": 0.02783203125,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 94290500,
      "step": 1407
    },
    {
      "epoch": 0.15977304964539008,
      "grad_norm": 17.000749588012695,
      "learning_rate": 5e-05,
      "loss": 1.3371,
      "num_input_tokens_seen": 94357204,
      "step": 1408
    },
    {
      "epoch": 0.15977304964539008,
      "loss": 1.6016963720321655,
      "loss_ce": 0.008922933600842953,
      "loss_iou": 0.6953125,
      "loss_num": 0.03955078125,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 94357204,
      "step": 1408
    },
    {
      "epoch": 0.15988652482269503,
      "grad_norm": 34.32468795776367,
      "learning_rate": 5e-05,
      "loss": 1.4618,
      "num_input_tokens_seen": 94423756,
      "step": 1409
    },
    {
      "epoch": 0.15988652482269503,
      "loss": 1.3509376049041748,
      "loss_ce": 0.0032813381403684616,
      "loss_iou": 0.5390625,
      "loss_num": 0.0546875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 94423756,
      "step": 1409
    },
    {
      "epoch": 0.16,
      "grad_norm": 24.75742530822754,
      "learning_rate": 5e-05,
      "loss": 1.4335,
      "num_input_tokens_seen": 94490772,
      "step": 1410
    },
    {
      "epoch": 0.16,
      "loss": 1.5351426601409912,
      "loss_ce": 0.009263787418603897,
      "loss_iou": 0.609375,
      "loss_num": 0.061767578125,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 94490772,
      "step": 1410
    },
    {
      "epoch": 0.16011347517730495,
      "grad_norm": 16.400827407836914,
      "learning_rate": 5e-05,
      "loss": 1.5519,
      "num_input_tokens_seen": 94557916,
      "step": 1411
    },
    {
      "epoch": 0.16011347517730495,
      "loss": 1.4997339248657227,
      "loss_ce": 0.006569834891706705,
      "loss_iou": 0.65625,
      "loss_num": 0.037109375,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 94557916,
      "step": 1411
    },
    {
      "epoch": 0.16022695035460993,
      "grad_norm": 61.40585708618164,
      "learning_rate": 5e-05,
      "loss": 1.3046,
      "num_input_tokens_seen": 94625000,
      "step": 1412
    },
    {
      "epoch": 0.16022695035460993,
      "loss": 1.2632663249969482,
      "loss_ce": 0.003989003133028746,
      "loss_iou": 0.5234375,
      "loss_num": 0.0419921875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 94625000,
      "step": 1412
    },
    {
      "epoch": 0.16034042553191488,
      "grad_norm": 10.753541946411133,
      "learning_rate": 5e-05,
      "loss": 1.0388,
      "num_input_tokens_seen": 94691504,
      "step": 1413
    },
    {
      "epoch": 0.16034042553191488,
      "loss": 1.103747010231018,
      "loss_ce": 0.0051142750307917595,
      "loss_iou": 0.48828125,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 94691504,
      "step": 1413
    },
    {
      "epoch": 0.16045390070921986,
      "grad_norm": 32.121395111083984,
      "learning_rate": 5e-05,
      "loss": 1.435,
      "num_input_tokens_seen": 94758704,
      "step": 1414
    },
    {
      "epoch": 0.16045390070921986,
      "loss": 1.530470371246338,
      "loss_ce": 0.004103103652596474,
      "loss_iou": 0.62890625,
      "loss_num": 0.053955078125,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 94758704,
      "step": 1414
    },
    {
      "epoch": 0.1605673758865248,
      "grad_norm": 15.940327644348145,
      "learning_rate": 5e-05,
      "loss": 1.3885,
      "num_input_tokens_seen": 94825588,
      "step": 1415
    },
    {
      "epoch": 0.1605673758865248,
      "loss": 1.5763317346572876,
      "loss_ce": 0.004066114779561758,
      "loss_iou": 0.67578125,
      "loss_num": 0.044921875,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 94825588,
      "step": 1415
    },
    {
      "epoch": 0.1606808510638298,
      "grad_norm": 25.922134399414062,
      "learning_rate": 5e-05,
      "loss": 1.2484,
      "num_input_tokens_seen": 94892028,
      "step": 1416
    },
    {
      "epoch": 0.1606808510638298,
      "loss": 1.268430233001709,
      "loss_ce": 0.007199613843113184,
      "loss_iou": 0.5390625,
      "loss_num": 0.035888671875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 94892028,
      "step": 1416
    },
    {
      "epoch": 0.16079432624113474,
      "grad_norm": 17.129972457885742,
      "learning_rate": 5e-05,
      "loss": 1.8074,
      "num_input_tokens_seen": 94958520,
      "step": 1417
    },
    {
      "epoch": 0.16079432624113474,
      "loss": 1.9678558111190796,
      "loss_ce": 0.004965286236256361,
      "loss_iou": 0.85546875,
      "loss_num": 0.049560546875,
      "loss_xval": 1.9609375,
      "num_input_tokens_seen": 94958520,
      "step": 1417
    },
    {
      "epoch": 0.16090780141843972,
      "grad_norm": 54.86358642578125,
      "learning_rate": 5e-05,
      "loss": 1.2914,
      "num_input_tokens_seen": 95025744,
      "step": 1418
    },
    {
      "epoch": 0.16090780141843972,
      "loss": 1.260587215423584,
      "loss_ce": 0.0027747403364628553,
      "loss_iou": 0.55859375,
      "loss_num": 0.0286865234375,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 95025744,
      "step": 1418
    },
    {
      "epoch": 0.1610212765957447,
      "grad_norm": 40.0391960144043,
      "learning_rate": 5e-05,
      "loss": 1.4009,
      "num_input_tokens_seen": 95091404,
      "step": 1419
    },
    {
      "epoch": 0.1610212765957447,
      "loss": 1.3705706596374512,
      "loss_ce": 0.0053362371399998665,
      "loss_iou": 0.625,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 95091404,
      "step": 1419
    },
    {
      "epoch": 0.16113475177304964,
      "grad_norm": 22.566387176513672,
      "learning_rate": 5e-05,
      "loss": 1.3816,
      "num_input_tokens_seen": 95157540,
      "step": 1420
    },
    {
      "epoch": 0.16113475177304964,
      "loss": 1.498154878616333,
      "loss_ce": 0.006455656141042709,
      "loss_iou": 0.6640625,
      "loss_num": 0.033203125,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 95157540,
      "step": 1420
    },
    {
      "epoch": 0.16124822695035462,
      "grad_norm": 14.89160442352295,
      "learning_rate": 5e-05,
      "loss": 1.2089,
      "num_input_tokens_seen": 95224716,
      "step": 1421
    },
    {
      "epoch": 0.16124822695035462,
      "loss": 1.2412796020507812,
      "loss_ce": 0.007881129160523415,
      "loss_iou": 0.546875,
      "loss_num": 0.0283203125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 95224716,
      "step": 1421
    },
    {
      "epoch": 0.16136170212765957,
      "grad_norm": 30.733980178833008,
      "learning_rate": 5e-05,
      "loss": 1.3866,
      "num_input_tokens_seen": 95291116,
      "step": 1422
    },
    {
      "epoch": 0.16136170212765957,
      "loss": 1.452451467514038,
      "loss_ce": 0.00274447537958622,
      "loss_iou": 0.59375,
      "loss_num": 0.052734375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 95291116,
      "step": 1422
    },
    {
      "epoch": 0.16147517730496455,
      "grad_norm": 13.736315727233887,
      "learning_rate": 5e-05,
      "loss": 1.4677,
      "num_input_tokens_seen": 95358560,
      "step": 1423
    },
    {
      "epoch": 0.16147517730496455,
      "loss": 1.4336001873016357,
      "loss_ce": 0.0029361569322645664,
      "loss_iou": 0.60546875,
      "loss_num": 0.04443359375,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 95358560,
      "step": 1423
    },
    {
      "epoch": 0.1615886524822695,
      "grad_norm": 9.7744140625,
      "learning_rate": 5e-05,
      "loss": 1.0474,
      "num_input_tokens_seen": 95424692,
      "step": 1424
    },
    {
      "epoch": 0.1615886524822695,
      "loss": 1.0071666240692139,
      "loss_ce": 0.004725193604826927,
      "loss_iou": 0.41015625,
      "loss_num": 0.035888671875,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 95424692,
      "step": 1424
    },
    {
      "epoch": 0.16170212765957448,
      "grad_norm": 13.354975700378418,
      "learning_rate": 5e-05,
      "loss": 1.3284,
      "num_input_tokens_seen": 95491524,
      "step": 1425
    },
    {
      "epoch": 0.16170212765957448,
      "loss": 1.2706464529037476,
      "loss_ce": 0.004533177707344294,
      "loss_iou": 0.5078125,
      "loss_num": 0.050537109375,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 95491524,
      "step": 1425
    },
    {
      "epoch": 0.16181560283687943,
      "grad_norm": 26.45122528076172,
      "learning_rate": 5e-05,
      "loss": 1.3451,
      "num_input_tokens_seen": 95558368,
      "step": 1426
    },
    {
      "epoch": 0.16181560283687943,
      "loss": 1.2021114826202393,
      "loss_ce": 0.008263811469078064,
      "loss_iou": 0.515625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 95558368,
      "step": 1426
    },
    {
      "epoch": 0.1619290780141844,
      "grad_norm": 31.041908264160156,
      "learning_rate": 5e-05,
      "loss": 1.294,
      "num_input_tokens_seen": 95623912,
      "step": 1427
    },
    {
      "epoch": 0.1619290780141844,
      "loss": 1.1290757656097412,
      "loss_ce": 0.007127612363547087,
      "loss_iou": 0.490234375,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 95623912,
      "step": 1427
    },
    {
      "epoch": 0.16204255319148936,
      "grad_norm": 14.412130355834961,
      "learning_rate": 5e-05,
      "loss": 1.5002,
      "num_input_tokens_seen": 95691300,
      "step": 1428
    },
    {
      "epoch": 0.16204255319148936,
      "loss": 1.5407295227050781,
      "loss_ce": 0.005084983538836241,
      "loss_iou": 0.640625,
      "loss_num": 0.05078125,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 95691300,
      "step": 1428
    },
    {
      "epoch": 0.16215602836879434,
      "grad_norm": 12.37614917755127,
      "learning_rate": 5e-05,
      "loss": 1.1974,
      "num_input_tokens_seen": 95758608,
      "step": 1429
    },
    {
      "epoch": 0.16215602836879434,
      "loss": 1.1853976249694824,
      "loss_ce": 0.006686711683869362,
      "loss_iou": 0.50390625,
      "loss_num": 0.03369140625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 95758608,
      "step": 1429
    },
    {
      "epoch": 0.1622695035460993,
      "grad_norm": 22.559720993041992,
      "learning_rate": 5e-05,
      "loss": 1.3689,
      "num_input_tokens_seen": 95825788,
      "step": 1430
    },
    {
      "epoch": 0.1622695035460993,
      "loss": 1.3140531778335571,
      "loss_ce": 0.0035063696559518576,
      "loss_iou": 0.5625,
      "loss_num": 0.037353515625,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 95825788,
      "step": 1430
    },
    {
      "epoch": 0.16238297872340426,
      "grad_norm": 15.687910079956055,
      "learning_rate": 5e-05,
      "loss": 1.5894,
      "num_input_tokens_seen": 95893176,
      "step": 1431
    },
    {
      "epoch": 0.16238297872340426,
      "loss": 1.6236411333084106,
      "loss_ce": 0.0025473926216363907,
      "loss_iou": 0.67578125,
      "loss_num": 0.053466796875,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 95893176,
      "step": 1431
    },
    {
      "epoch": 0.16249645390070921,
      "grad_norm": 24.506118774414062,
      "learning_rate": 5e-05,
      "loss": 1.2621,
      "num_input_tokens_seen": 95959672,
      "step": 1432
    },
    {
      "epoch": 0.16249645390070921,
      "loss": 1.1925188302993774,
      "loss_ce": 0.006483600474894047,
      "loss_iou": 0.515625,
      "loss_num": 0.03173828125,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 95959672,
      "step": 1432
    },
    {
      "epoch": 0.1626099290780142,
      "grad_norm": 19.37227439880371,
      "learning_rate": 5e-05,
      "loss": 1.2545,
      "num_input_tokens_seen": 96026628,
      "step": 1433
    },
    {
      "epoch": 0.1626099290780142,
      "loss": 1.2389745712280273,
      "loss_ce": 0.005087926983833313,
      "loss_iou": 0.515625,
      "loss_num": 0.040771484375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 96026628,
      "step": 1433
    },
    {
      "epoch": 0.16272340425531914,
      "grad_norm": 20.726699829101562,
      "learning_rate": 5e-05,
      "loss": 1.4999,
      "num_input_tokens_seen": 96094104,
      "step": 1434
    },
    {
      "epoch": 0.16272340425531914,
      "loss": 1.4464881420135498,
      "loss_ce": 0.002152242697775364,
      "loss_iou": 0.62109375,
      "loss_num": 0.039794921875,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 96094104,
      "step": 1434
    },
    {
      "epoch": 0.16283687943262412,
      "grad_norm": 33.8291130065918,
      "learning_rate": 5e-05,
      "loss": 1.5106,
      "num_input_tokens_seen": 96161252,
      "step": 1435
    },
    {
      "epoch": 0.16283687943262412,
      "loss": 1.6497230529785156,
      "loss_ce": 0.005680115893483162,
      "loss_iou": 0.7421875,
      "loss_num": 0.03173828125,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 96161252,
      "step": 1435
    },
    {
      "epoch": 0.16295035460992907,
      "grad_norm": 14.188899993896484,
      "learning_rate": 5e-05,
      "loss": 1.7352,
      "num_input_tokens_seen": 96229356,
      "step": 1436
    },
    {
      "epoch": 0.16295035460992907,
      "loss": 1.8911244869232178,
      "loss_ce": 0.003429120872169733,
      "loss_iou": 0.79296875,
      "loss_num": 0.06005859375,
      "loss_xval": 1.890625,
      "num_input_tokens_seen": 96229356,
      "step": 1436
    },
    {
      "epoch": 0.16306382978723405,
      "grad_norm": 17.86625862121582,
      "learning_rate": 5e-05,
      "loss": 1.6965,
      "num_input_tokens_seen": 96296924,
      "step": 1437
    },
    {
      "epoch": 0.16306382978723405,
      "loss": 1.883541226387024,
      "loss_ce": 0.003658394794911146,
      "loss_iou": 0.78125,
      "loss_num": 0.06396484375,
      "loss_xval": 1.8828125,
      "num_input_tokens_seen": 96296924,
      "step": 1437
    },
    {
      "epoch": 0.163177304964539,
      "grad_norm": 20.105905532836914,
      "learning_rate": 5e-05,
      "loss": 1.2785,
      "num_input_tokens_seen": 96364536,
      "step": 1438
    },
    {
      "epoch": 0.163177304964539,
      "loss": 1.2731661796569824,
      "loss_ce": 0.004611503798514605,
      "loss_iou": 0.5390625,
      "loss_num": 0.037353515625,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 96364536,
      "step": 1438
    },
    {
      "epoch": 0.16329078014184398,
      "grad_norm": 16.66951560974121,
      "learning_rate": 5e-05,
      "loss": 1.5734,
      "num_input_tokens_seen": 96431192,
      "step": 1439
    },
    {
      "epoch": 0.16329078014184398,
      "loss": 1.576650619506836,
      "loss_ce": 0.007314649410545826,
      "loss_iou": 0.65625,
      "loss_num": 0.051025390625,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 96431192,
      "step": 1439
    },
    {
      "epoch": 0.16340425531914893,
      "grad_norm": 10.098895072937012,
      "learning_rate": 5e-05,
      "loss": 1.2665,
      "num_input_tokens_seen": 96498156,
      "step": 1440
    },
    {
      "epoch": 0.16340425531914893,
      "loss": 1.4060771465301514,
      "loss_ce": 0.005198277533054352,
      "loss_iou": 0.58203125,
      "loss_num": 0.047119140625,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 96498156,
      "step": 1440
    },
    {
      "epoch": 0.1635177304964539,
      "grad_norm": 13.219636917114258,
      "learning_rate": 5e-05,
      "loss": 1.2877,
      "num_input_tokens_seen": 96565104,
      "step": 1441
    },
    {
      "epoch": 0.1635177304964539,
      "loss": 1.1756784915924072,
      "loss_ce": 0.0060922750271856785,
      "loss_iou": 0.474609375,
      "loss_num": 0.0439453125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 96565104,
      "step": 1441
    },
    {
      "epoch": 0.16363120567375886,
      "grad_norm": 16.984651565551758,
      "learning_rate": 5e-05,
      "loss": 1.2994,
      "num_input_tokens_seen": 96631852,
      "step": 1442
    },
    {
      "epoch": 0.16363120567375886,
      "loss": 1.2165372371673584,
      "loss_ce": 0.008529363200068474,
      "loss_iou": 0.49609375,
      "loss_num": 0.04296875,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 96631852,
      "step": 1442
    },
    {
      "epoch": 0.16374468085106383,
      "grad_norm": 14.26941204071045,
      "learning_rate": 5e-05,
      "loss": 1.3352,
      "num_input_tokens_seen": 96697156,
      "step": 1443
    },
    {
      "epoch": 0.16374468085106383,
      "loss": 1.3761414289474487,
      "loss_ce": 0.01188368909060955,
      "loss_iou": 0.5625,
      "loss_num": 0.047607421875,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 96697156,
      "step": 1443
    },
    {
      "epoch": 0.16385815602836878,
      "grad_norm": 19.029678344726562,
      "learning_rate": 5e-05,
      "loss": 1.3907,
      "num_input_tokens_seen": 96764556,
      "step": 1444
    },
    {
      "epoch": 0.16385815602836878,
      "loss": 1.5001344680786133,
      "loss_ce": 0.003552427515387535,
      "loss_iou": 0.640625,
      "loss_num": 0.043212890625,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 96764556,
      "step": 1444
    },
    {
      "epoch": 0.16397163120567376,
      "grad_norm": 25.422569274902344,
      "learning_rate": 5e-05,
      "loss": 1.4921,
      "num_input_tokens_seen": 96831656,
      "step": 1445
    },
    {
      "epoch": 0.16397163120567376,
      "loss": 1.4943593740463257,
      "loss_ce": 0.00363669591024518,
      "loss_iou": 0.64453125,
      "loss_num": 0.0400390625,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 96831656,
      "step": 1445
    },
    {
      "epoch": 0.1640851063829787,
      "grad_norm": 21.243831634521484,
      "learning_rate": 5e-05,
      "loss": 1.4327,
      "num_input_tokens_seen": 96899084,
      "step": 1446
    },
    {
      "epoch": 0.1640851063829787,
      "loss": 1.488850712776184,
      "loss_ce": 0.007405384909361601,
      "loss_iou": 0.671875,
      "loss_num": 0.027587890625,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 96899084,
      "step": 1446
    },
    {
      "epoch": 0.1641985815602837,
      "grad_norm": 13.792860984802246,
      "learning_rate": 5e-05,
      "loss": 1.3304,
      "num_input_tokens_seen": 96966396,
      "step": 1447
    },
    {
      "epoch": 0.1641985815602837,
      "loss": 1.1866569519042969,
      "loss_ce": 0.004528007935732603,
      "loss_iou": 0.5234375,
      "loss_num": 0.027099609375,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 96966396,
      "step": 1447
    },
    {
      "epoch": 0.16431205673758864,
      "grad_norm": 63.12279510498047,
      "learning_rate": 5e-05,
      "loss": 1.1852,
      "num_input_tokens_seen": 97033360,
      "step": 1448
    },
    {
      "epoch": 0.16431205673758864,
      "loss": 1.2041950225830078,
      "loss_ce": 0.0015583197819069028,
      "loss_iou": 0.5078125,
      "loss_num": 0.037841796875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 97033360,
      "step": 1448
    },
    {
      "epoch": 0.16442553191489362,
      "grad_norm": 28.737754821777344,
      "learning_rate": 5e-05,
      "loss": 1.2687,
      "num_input_tokens_seen": 97100176,
      "step": 1449
    },
    {
      "epoch": 0.16442553191489362,
      "loss": 1.2381857633590698,
      "loss_ce": 0.005519775673747063,
      "loss_iou": 0.50390625,
      "loss_num": 0.04443359375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 97100176,
      "step": 1449
    },
    {
      "epoch": 0.16453900709219857,
      "grad_norm": 24.32100486755371,
      "learning_rate": 5e-05,
      "loss": 1.3049,
      "num_input_tokens_seen": 97167636,
      "step": 1450
    },
    {
      "epoch": 0.16453900709219857,
      "loss": 1.3204926252365112,
      "loss_ce": 0.003109813667833805,
      "loss_iou": 0.55859375,
      "loss_num": 0.039794921875,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 97167636,
      "step": 1450
    },
    {
      "epoch": 0.16465248226950355,
      "grad_norm": 28.714326858520508,
      "learning_rate": 5e-05,
      "loss": 1.5993,
      "num_input_tokens_seen": 97235280,
      "step": 1451
    },
    {
      "epoch": 0.16465248226950355,
      "loss": 1.6872103214263916,
      "loss_ce": 0.009475857019424438,
      "loss_iou": 0.7265625,
      "loss_num": 0.044677734375,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 97235280,
      "step": 1451
    },
    {
      "epoch": 0.1647659574468085,
      "grad_norm": 13.895309448242188,
      "learning_rate": 5e-05,
      "loss": 1.4315,
      "num_input_tokens_seen": 97302500,
      "step": 1452
    },
    {
      "epoch": 0.1647659574468085,
      "loss": 1.2284355163574219,
      "loss_ce": 0.0028495099395513535,
      "loss_iou": 0.52734375,
      "loss_num": 0.03466796875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 97302500,
      "step": 1452
    },
    {
      "epoch": 0.16487943262411348,
      "grad_norm": 31.462446212768555,
      "learning_rate": 5e-05,
      "loss": 1.3661,
      "num_input_tokens_seen": 97369568,
      "step": 1453
    },
    {
      "epoch": 0.16487943262411348,
      "loss": 1.4065186977386475,
      "loss_ce": 0.007104746997356415,
      "loss_iou": 0.5859375,
      "loss_num": 0.045166015625,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 97369568,
      "step": 1453
    },
    {
      "epoch": 0.16499290780141845,
      "grad_norm": 40.13467788696289,
      "learning_rate": 5e-05,
      "loss": 1.8776,
      "num_input_tokens_seen": 97436104,
      "step": 1454
    },
    {
      "epoch": 0.16499290780141845,
      "loss": 1.8881125450134277,
      "loss_ce": 0.005300075747072697,
      "loss_iou": 0.81640625,
      "loss_num": 0.05029296875,
      "loss_xval": 1.8828125,
      "num_input_tokens_seen": 97436104,
      "step": 1454
    },
    {
      "epoch": 0.1651063829787234,
      "grad_norm": 11.084531784057617,
      "learning_rate": 5e-05,
      "loss": 1.3568,
      "num_input_tokens_seen": 97501716,
      "step": 1455
    },
    {
      "epoch": 0.1651063829787234,
      "loss": 1.4829566478729248,
      "loss_ce": 0.004441058728843927,
      "loss_iou": 0.64453125,
      "loss_num": 0.038818359375,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 97501716,
      "step": 1455
    },
    {
      "epoch": 0.16521985815602838,
      "grad_norm": 17.533510208129883,
      "learning_rate": 5e-05,
      "loss": 1.6308,
      "num_input_tokens_seen": 97568628,
      "step": 1456
    },
    {
      "epoch": 0.16521985815602838,
      "loss": 1.5355507135391235,
      "loss_ce": 0.0033241051714867353,
      "loss_iou": 0.67578125,
      "loss_num": 0.036376953125,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 97568628,
      "step": 1456
    },
    {
      "epoch": 0.16533333333333333,
      "grad_norm": 17.227102279663086,
      "learning_rate": 5e-05,
      "loss": 1.388,
      "num_input_tokens_seen": 97635220,
      "step": 1457
    },
    {
      "epoch": 0.16533333333333333,
      "loss": 1.2867319583892822,
      "loss_ce": 0.00658064428716898,
      "loss_iou": 0.53515625,
      "loss_num": 0.042236328125,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 97635220,
      "step": 1457
    },
    {
      "epoch": 0.1654468085106383,
      "grad_norm": 22.438447952270508,
      "learning_rate": 5e-05,
      "loss": 1.4959,
      "num_input_tokens_seen": 97702340,
      "step": 1458
    },
    {
      "epoch": 0.1654468085106383,
      "loss": 1.529867172241211,
      "loss_ce": 0.004476548172533512,
      "loss_iou": 0.66796875,
      "loss_num": 0.03857421875,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 97702340,
      "step": 1458
    },
    {
      "epoch": 0.16556028368794326,
      "grad_norm": 35.93250274658203,
      "learning_rate": 5e-05,
      "loss": 1.5107,
      "num_input_tokens_seen": 97768552,
      "step": 1459
    },
    {
      "epoch": 0.16556028368794326,
      "loss": 1.5345041751861572,
      "loss_ce": 0.0056955283507704735,
      "loss_iou": 0.66015625,
      "loss_num": 0.041748046875,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 97768552,
      "step": 1459
    },
    {
      "epoch": 0.16567375886524824,
      "grad_norm": 17.320167541503906,
      "learning_rate": 5e-05,
      "loss": 1.7007,
      "num_input_tokens_seen": 97835056,
      "step": 1460
    },
    {
      "epoch": 0.16567375886524824,
      "loss": 1.881109595298767,
      "loss_ce": 0.004156381823122501,
      "loss_iou": 0.7734375,
      "loss_num": 0.06591796875,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 97835056,
      "step": 1460
    },
    {
      "epoch": 0.1657872340425532,
      "grad_norm": 11.973856925964355,
      "learning_rate": 5e-05,
      "loss": 1.1093,
      "num_input_tokens_seen": 97901248,
      "step": 1461
    },
    {
      "epoch": 0.1657872340425532,
      "loss": 1.1226108074188232,
      "loss_ce": 0.003958428278565407,
      "loss_iou": 0.48828125,
      "loss_num": 0.02880859375,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 97901248,
      "step": 1461
    },
    {
      "epoch": 0.16590070921985817,
      "grad_norm": 27.026330947875977,
      "learning_rate": 5e-05,
      "loss": 1.3447,
      "num_input_tokens_seen": 97968504,
      "step": 1462
    },
    {
      "epoch": 0.16590070921985817,
      "loss": 1.376833438873291,
      "loss_ce": 0.006716328207403421,
      "loss_iou": 0.59375,
      "loss_num": 0.037109375,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 97968504,
      "step": 1462
    },
    {
      "epoch": 0.16601418439716312,
      "grad_norm": 15.239781379699707,
      "learning_rate": 5e-05,
      "loss": 1.489,
      "num_input_tokens_seen": 98035692,
      "step": 1463
    },
    {
      "epoch": 0.16601418439716312,
      "loss": 1.4463496208190918,
      "loss_ce": 0.006408373825252056,
      "loss_iou": 0.61328125,
      "loss_num": 0.04248046875,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 98035692,
      "step": 1463
    },
    {
      "epoch": 0.1661276595744681,
      "grad_norm": 14.466866493225098,
      "learning_rate": 5e-05,
      "loss": 1.4274,
      "num_input_tokens_seen": 98102388,
      "step": 1464
    },
    {
      "epoch": 0.1661276595744681,
      "loss": 1.576582908630371,
      "loss_ce": 0.003340632189065218,
      "loss_iou": 0.6796875,
      "loss_num": 0.042724609375,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 98102388,
      "step": 1464
    },
    {
      "epoch": 0.16624113475177305,
      "grad_norm": 26.01786231994629,
      "learning_rate": 5e-05,
      "loss": 1.38,
      "num_input_tokens_seen": 98169632,
      "step": 1465
    },
    {
      "epoch": 0.16624113475177305,
      "loss": 1.3245362043380737,
      "loss_ce": 0.00520028080791235,
      "loss_iou": 0.57421875,
      "loss_num": 0.034423828125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 98169632,
      "step": 1465
    },
    {
      "epoch": 0.16635460992907802,
      "grad_norm": 17.209911346435547,
      "learning_rate": 5e-05,
      "loss": 1.7255,
      "num_input_tokens_seen": 98237056,
      "step": 1466
    },
    {
      "epoch": 0.16635460992907802,
      "loss": 1.586981177330017,
      "loss_ce": 0.006414755247533321,
      "loss_iou": 0.66796875,
      "loss_num": 0.048828125,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 98237056,
      "step": 1466
    },
    {
      "epoch": 0.16646808510638297,
      "grad_norm": 11.417698860168457,
      "learning_rate": 5e-05,
      "loss": 1.1999,
      "num_input_tokens_seen": 98303412,
      "step": 1467
    },
    {
      "epoch": 0.16646808510638297,
      "loss": 1.1559944152832031,
      "loss_ce": 0.0036506722681224346,
      "loss_iou": 0.50390625,
      "loss_num": 0.0296630859375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 98303412,
      "step": 1467
    },
    {
      "epoch": 0.16658156028368795,
      "grad_norm": 18.675567626953125,
      "learning_rate": 5e-05,
      "loss": 1.3348,
      "num_input_tokens_seen": 98369300,
      "step": 1468
    },
    {
      "epoch": 0.16658156028368795,
      "loss": 1.293863296508789,
      "loss_ce": 0.002847693394869566,
      "loss_iou": 0.51953125,
      "loss_num": 0.0498046875,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 98369300,
      "step": 1468
    },
    {
      "epoch": 0.1666950354609929,
      "grad_norm": 17.03792381286621,
      "learning_rate": 5e-05,
      "loss": 1.0867,
      "num_input_tokens_seen": 98435256,
      "step": 1469
    },
    {
      "epoch": 0.1666950354609929,
      "loss": 0.91262286901474,
      "loss_ce": 0.004175601527094841,
      "loss_iou": 0.40625,
      "loss_num": 0.01904296875,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 98435256,
      "step": 1469
    },
    {
      "epoch": 0.16680851063829788,
      "grad_norm": 18.66535186767578,
      "learning_rate": 5e-05,
      "loss": 1.2537,
      "num_input_tokens_seen": 98502304,
      "step": 1470
    },
    {
      "epoch": 0.16680851063829788,
      "loss": 1.380770206451416,
      "loss_ce": 0.004793571308255196,
      "loss_iou": 0.58984375,
      "loss_num": 0.040283203125,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 98502304,
      "step": 1470
    },
    {
      "epoch": 0.16692198581560283,
      "grad_norm": 20.888521194458008,
      "learning_rate": 5e-05,
      "loss": 1.3498,
      "num_input_tokens_seen": 98569956,
      "step": 1471
    },
    {
      "epoch": 0.16692198581560283,
      "loss": 1.376345157623291,
      "loss_ce": 0.009645868092775345,
      "loss_iou": 0.5859375,
      "loss_num": 0.0390625,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 98569956,
      "step": 1471
    },
    {
      "epoch": 0.1670354609929078,
      "grad_norm": 32.98647689819336,
      "learning_rate": 5e-05,
      "loss": 1.2995,
      "num_input_tokens_seen": 98637904,
      "step": 1472
    },
    {
      "epoch": 0.1670354609929078,
      "loss": 1.2074494361877441,
      "loss_ce": 0.0033478732220828533,
      "loss_iou": 0.52734375,
      "loss_num": 0.0291748046875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 98637904,
      "step": 1472
    },
    {
      "epoch": 0.16714893617021276,
      "grad_norm": 36.25370407104492,
      "learning_rate": 5e-05,
      "loss": 1.6975,
      "num_input_tokens_seen": 98704756,
      "step": 1473
    },
    {
      "epoch": 0.16714893617021276,
      "loss": 1.8602184057235718,
      "loss_ce": 0.003773060394451022,
      "loss_iou": 0.82421875,
      "loss_num": 0.041015625,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 98704756,
      "step": 1473
    },
    {
      "epoch": 0.16726241134751774,
      "grad_norm": 16.253244400024414,
      "learning_rate": 5e-05,
      "loss": 1.2035,
      "num_input_tokens_seen": 98771808,
      "step": 1474
    },
    {
      "epoch": 0.16726241134751774,
      "loss": 1.3550959825515747,
      "loss_ce": 0.0015804462600499392,
      "loss_iou": 0.62890625,
      "loss_num": 0.01953125,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 98771808,
      "step": 1474
    },
    {
      "epoch": 0.1673758865248227,
      "grad_norm": 21.493595123291016,
      "learning_rate": 5e-05,
      "loss": 1.2916,
      "num_input_tokens_seen": 98838392,
      "step": 1475
    },
    {
      "epoch": 0.1673758865248227,
      "loss": 1.2263047695159912,
      "loss_ce": 0.006089937873184681,
      "loss_iou": 0.55078125,
      "loss_num": 0.024169921875,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 98838392,
      "step": 1475
    },
    {
      "epoch": 0.16748936170212766,
      "grad_norm": 19.313724517822266,
      "learning_rate": 5e-05,
      "loss": 1.5112,
      "num_input_tokens_seen": 98906000,
      "step": 1476
    },
    {
      "epoch": 0.16748936170212766,
      "loss": 1.5240681171417236,
      "loss_ce": 0.006490062922239304,
      "loss_iou": 0.65234375,
      "loss_num": 0.04248046875,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 98906000,
      "step": 1476
    },
    {
      "epoch": 0.16760283687943262,
      "grad_norm": 24.795005798339844,
      "learning_rate": 5e-05,
      "loss": 1.1527,
      "num_input_tokens_seen": 98973824,
      "step": 1477
    },
    {
      "epoch": 0.16760283687943262,
      "loss": 1.2206496000289917,
      "loss_ce": 0.005805875174701214,
      "loss_iou": 0.53515625,
      "loss_num": 0.02880859375,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 98973824,
      "step": 1477
    },
    {
      "epoch": 0.1677163120567376,
      "grad_norm": 28.355886459350586,
      "learning_rate": 5e-05,
      "loss": 1.6557,
      "num_input_tokens_seen": 99041596,
      "step": 1478
    },
    {
      "epoch": 0.1677163120567376,
      "loss": 1.7249877452850342,
      "loss_ce": 0.0052612703293561935,
      "loss_iou": 0.734375,
      "loss_num": 0.05078125,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 99041596,
      "step": 1478
    },
    {
      "epoch": 0.16782978723404254,
      "grad_norm": 14.74396800994873,
      "learning_rate": 5e-05,
      "loss": 1.4645,
      "num_input_tokens_seen": 99108784,
      "step": 1479
    },
    {
      "epoch": 0.16782978723404254,
      "loss": 1.4869754314422607,
      "loss_ce": 0.0026004186365753412,
      "loss_iou": 0.6171875,
      "loss_num": 0.050537109375,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 99108784,
      "step": 1479
    },
    {
      "epoch": 0.16794326241134752,
      "grad_norm": 22.539440155029297,
      "learning_rate": 5e-05,
      "loss": 1.4445,
      "num_input_tokens_seen": 99174808,
      "step": 1480
    },
    {
      "epoch": 0.16794326241134752,
      "loss": 1.2497546672821045,
      "loss_ce": 0.006590645294636488,
      "loss_iou": 0.54296875,
      "loss_num": 0.0311279296875,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 99174808,
      "step": 1480
    },
    {
      "epoch": 0.16805673758865247,
      "grad_norm": 31.099035263061523,
      "learning_rate": 5e-05,
      "loss": 1.7817,
      "num_input_tokens_seen": 99242616,
      "step": 1481
    },
    {
      "epoch": 0.16805673758865247,
      "loss": 1.8579416275024414,
      "loss_ce": 0.008332288824021816,
      "loss_iou": 0.77734375,
      "loss_num": 0.05859375,
      "loss_xval": 1.8515625,
      "num_input_tokens_seen": 99242616,
      "step": 1481
    },
    {
      "epoch": 0.16817021276595745,
      "grad_norm": 14.677935600280762,
      "learning_rate": 5e-05,
      "loss": 1.3418,
      "num_input_tokens_seen": 99309048,
      "step": 1482
    },
    {
      "epoch": 0.16817021276595745,
      "loss": 1.3103388547897339,
      "loss_ce": 0.001745090470649302,
      "loss_iou": 0.58984375,
      "loss_num": 0.0257568359375,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 99309048,
      "step": 1482
    },
    {
      "epoch": 0.1682836879432624,
      "grad_norm": 10.12209415435791,
      "learning_rate": 5e-05,
      "loss": 1.2114,
      "num_input_tokens_seen": 99375056,
      "step": 1483
    },
    {
      "epoch": 0.1682836879432624,
      "loss": 1.1973506212234497,
      "loss_ce": 0.009362338110804558,
      "loss_iou": 0.515625,
      "loss_num": 0.03076171875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 99375056,
      "step": 1483
    },
    {
      "epoch": 0.16839716312056738,
      "grad_norm": 17.3353214263916,
      "learning_rate": 5e-05,
      "loss": 1.1906,
      "num_input_tokens_seen": 99442728,
      "step": 1484
    },
    {
      "epoch": 0.16839716312056738,
      "loss": 1.163243055343628,
      "loss_ce": 0.0050399890169501305,
      "loss_iou": 0.5078125,
      "loss_num": 0.029296875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 99442728,
      "step": 1484
    },
    {
      "epoch": 0.16851063829787233,
      "grad_norm": 14.504582405090332,
      "learning_rate": 5e-05,
      "loss": 1.5338,
      "num_input_tokens_seen": 99510612,
      "step": 1485
    },
    {
      "epoch": 0.16851063829787233,
      "loss": 1.7719444036483765,
      "loss_ce": 0.005342825315892696,
      "loss_iou": 0.703125,
      "loss_num": 0.07177734375,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 99510612,
      "step": 1485
    },
    {
      "epoch": 0.1686241134751773,
      "grad_norm": 11.047306060791016,
      "learning_rate": 5e-05,
      "loss": 0.9981,
      "num_input_tokens_seen": 99577300,
      "step": 1486
    },
    {
      "epoch": 0.1686241134751773,
      "loss": 0.7483296394348145,
      "loss_ce": 0.0019002165645360947,
      "loss_iou": 0.3359375,
      "loss_num": 0.0150146484375,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 99577300,
      "step": 1486
    },
    {
      "epoch": 0.16873758865248226,
      "grad_norm": 18.455673217773438,
      "learning_rate": 5e-05,
      "loss": 1.2665,
      "num_input_tokens_seen": 99644668,
      "step": 1487
    },
    {
      "epoch": 0.16873758865248226,
      "loss": 1.016526222229004,
      "loss_ce": 0.004807363264262676,
      "loss_iou": 0.447265625,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 99644668,
      "step": 1487
    },
    {
      "epoch": 0.16885106382978723,
      "grad_norm": 35.313316345214844,
      "learning_rate": 5e-05,
      "loss": 1.3132,
      "num_input_tokens_seen": 99710600,
      "step": 1488
    },
    {
      "epoch": 0.16885106382978723,
      "loss": 1.3164253234863281,
      "loss_ce": 0.0021553882397711277,
      "loss_iou": 0.5703125,
      "loss_num": 0.034423828125,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 99710600,
      "step": 1488
    },
    {
      "epoch": 0.16896453900709218,
      "grad_norm": 15.967300415039062,
      "learning_rate": 5e-05,
      "loss": 1.6587,
      "num_input_tokens_seen": 99777496,
      "step": 1489
    },
    {
      "epoch": 0.16896453900709218,
      "loss": 1.6854811906814575,
      "loss_ce": 0.001887438353151083,
      "loss_iou": 0.7265625,
      "loss_num": 0.045654296875,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 99777496,
      "step": 1489
    },
    {
      "epoch": 0.16907801418439716,
      "grad_norm": 18.59393882751465,
      "learning_rate": 5e-05,
      "loss": 1.3164,
      "num_input_tokens_seen": 99844952,
      "step": 1490
    },
    {
      "epoch": 0.16907801418439716,
      "loss": 1.2942874431610107,
      "loss_ce": 0.0037600265350192785,
      "loss_iou": 0.5625,
      "loss_num": 0.03271484375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 99844952,
      "step": 1490
    },
    {
      "epoch": 0.16919148936170214,
      "grad_norm": 22.914527893066406,
      "learning_rate": 5e-05,
      "loss": 1.141,
      "num_input_tokens_seen": 99911660,
      "step": 1491
    },
    {
      "epoch": 0.16919148936170214,
      "loss": 1.142003059387207,
      "loss_ce": 0.006260966882109642,
      "loss_iou": 0.478515625,
      "loss_num": 0.03564453125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 99911660,
      "step": 1491
    },
    {
      "epoch": 0.1693049645390071,
      "grad_norm": 13.679899215698242,
      "learning_rate": 5e-05,
      "loss": 1.264,
      "num_input_tokens_seen": 99979832,
      "step": 1492
    },
    {
      "epoch": 0.1693049645390071,
      "loss": 1.2132840156555176,
      "loss_ce": 0.0057645319029688835,
      "loss_iou": 0.546875,
      "loss_num": 0.0234375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 99979832,
      "step": 1492
    },
    {
      "epoch": 0.16941843971631207,
      "grad_norm": 21.505605697631836,
      "learning_rate": 5e-05,
      "loss": 1.167,
      "num_input_tokens_seen": 100047112,
      "step": 1493
    },
    {
      "epoch": 0.16941843971631207,
      "loss": 1.3139448165893555,
      "loss_ce": 0.00339790852740407,
      "loss_iou": 0.5546875,
      "loss_num": 0.040771484375,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 100047112,
      "step": 1493
    },
    {
      "epoch": 0.16953191489361702,
      "grad_norm": 14.680890083312988,
      "learning_rate": 5e-05,
      "loss": 1.4749,
      "num_input_tokens_seen": 100114056,
      "step": 1494
    },
    {
      "epoch": 0.16953191489361702,
      "loss": 1.4032843112945557,
      "loss_ce": 0.008905612863600254,
      "loss_iou": 0.57421875,
      "loss_num": 0.04931640625,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 100114056,
      "step": 1494
    },
    {
      "epoch": 0.169645390070922,
      "grad_norm": 19.527135848999023,
      "learning_rate": 5e-05,
      "loss": 1.2865,
      "num_input_tokens_seen": 100180744,
      "step": 1495
    },
    {
      "epoch": 0.169645390070922,
      "loss": 1.2184540033340454,
      "loss_ce": 0.00556335411965847,
      "loss_iou": 0.5234375,
      "loss_num": 0.032470703125,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 100180744,
      "step": 1495
    },
    {
      "epoch": 0.16975886524822695,
      "grad_norm": 15.796995162963867,
      "learning_rate": 5e-05,
      "loss": 1.1747,
      "num_input_tokens_seen": 100247824,
      "step": 1496
    },
    {
      "epoch": 0.16975886524822695,
      "loss": 1.2022711038589478,
      "loss_ce": 0.003052336862310767,
      "loss_iou": 0.54296875,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 100247824,
      "step": 1496
    },
    {
      "epoch": 0.16987234042553193,
      "grad_norm": 90.7313003540039,
      "learning_rate": 5e-05,
      "loss": 1.2733,
      "num_input_tokens_seen": 100314492,
      "step": 1497
    },
    {
      "epoch": 0.16987234042553193,
      "loss": 1.305506944656372,
      "loss_ce": 0.0037491137627512217,
      "loss_iou": 0.58984375,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 100314492,
      "step": 1497
    },
    {
      "epoch": 0.16998581560283688,
      "grad_norm": 17.287885665893555,
      "learning_rate": 5e-05,
      "loss": 1.1838,
      "num_input_tokens_seen": 100382168,
      "step": 1498
    },
    {
      "epoch": 0.16998581560283688,
      "loss": 1.2670577764511108,
      "loss_ce": 0.003874273272231221,
      "loss_iou": 0.53515625,
      "loss_num": 0.038818359375,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 100382168,
      "step": 1498
    },
    {
      "epoch": 0.17009929078014185,
      "grad_norm": 18.504810333251953,
      "learning_rate": 5e-05,
      "loss": 1.4678,
      "num_input_tokens_seen": 100449308,
      "step": 1499
    },
    {
      "epoch": 0.17009929078014185,
      "loss": 1.2199692726135254,
      "loss_ce": 0.0026842118240892887,
      "loss_iou": 0.498046875,
      "loss_num": 0.0439453125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 100449308,
      "step": 1499
    },
    {
      "epoch": 0.1702127659574468,
      "grad_norm": 22.569541931152344,
      "learning_rate": 5e-05,
      "loss": 1.2201,
      "num_input_tokens_seen": 100517300,
      "step": 1500
    },
    {
      "epoch": 0.1702127659574468,
      "eval_seeclick_CIoU": 0.3310028314590454,
      "eval_seeclick_GIoU": 0.3009640872478485,
      "eval_seeclick_IoU": 0.4217641353607178,
      "eval_seeclick_MAE_all": 0.16300762444734573,
      "eval_seeclick_MAE_h": 0.09390676021575928,
      "eval_seeclick_MAE_w": 0.1350940316915512,
      "eval_seeclick_MAE_x_boxes": 0.25817304849624634,
      "eval_seeclick_MAE_y_boxes": 0.11175627820193768,
      "eval_seeclick_NUM_probability": 0.9985569715499878,
      "eval_seeclick_inside_bbox": 0.6614583432674408,
      "eval_seeclick_loss": 2.647401809692383,
      "eval_seeclick_loss_ce": 0.014394660480320454,
      "eval_seeclick_loss_iou": 0.9207763671875,
      "eval_seeclick_loss_num": 0.15567779541015625,
      "eval_seeclick_loss_xval": 2.62060546875,
      "eval_seeclick_runtime": 69.1493,
      "eval_seeclick_samples_per_second": 0.68,
      "eval_seeclick_steps_per_second": 0.029,
      "num_input_tokens_seen": 100517300,
      "step": 1500
    },
    {
      "epoch": 0.1702127659574468,
      "eval_icons_CIoU": 0.45371872186660767,
      "eval_icons_GIoU": 0.42328765988349915,
      "eval_icons_IoU": 0.49061185121536255,
      "eval_icons_MAE_all": 0.13703583925962448,
      "eval_icons_MAE_h": 0.09867842122912407,
      "eval_icons_MAE_w": 0.1388731300830841,
      "eval_icons_MAE_x_boxes": 0.10106896981596947,
      "eval_icons_MAE_y_boxes": 0.10973121225833893,
      "eval_icons_NUM_probability": 0.9998483657836914,
      "eval_icons_inside_bbox": 0.8229166567325592,
      "eval_icons_loss": 2.6088058948516846,
      "eval_icons_loss_ce": 5.606673948932439e-05,
      "eval_icons_loss_iou": 0.97509765625,
      "eval_icons_loss_num": 0.13202667236328125,
      "eval_icons_loss_xval": 2.60888671875,
      "eval_icons_runtime": 70.4471,
      "eval_icons_samples_per_second": 0.71,
      "eval_icons_steps_per_second": 0.028,
      "num_input_tokens_seen": 100517300,
      "step": 1500
    },
    {
      "epoch": 0.1702127659574468,
      "eval_screenspot_CIoU": 0.3578619708617528,
      "eval_screenspot_GIoU": 0.33194812138875324,
      "eval_screenspot_IoU": 0.4325968027114868,
      "eval_screenspot_MAE_all": 0.1463086431225141,
      "eval_screenspot_MAE_h": 0.10806035002072652,
      "eval_screenspot_MAE_w": 0.1486592541138331,
      "eval_screenspot_MAE_x_boxes": 0.21497276922067007,
      "eval_screenspot_MAE_y_boxes": 0.10071871678034465,
      "eval_screenspot_NUM_probability": 0.9959205389022827,
      "eval_screenspot_inside_bbox": 0.6699999968210856,
      "eval_screenspot_loss": 2.790637731552124,
      "eval_screenspot_loss_ce": 0.01538129368176063,
      "eval_screenspot_loss_iou": 1.0211588541666667,
      "eval_screenspot_loss_num": 0.15656534830729166,
      "eval_screenspot_loss_xval": 2.8248697916666665,
      "eval_screenspot_runtime": 119.0552,
      "eval_screenspot_samples_per_second": 0.748,
      "eval_screenspot_steps_per_second": 0.025,
      "num_input_tokens_seen": 100517300,
      "step": 1500
    },
    {
      "epoch": 0.1702127659574468,
      "eval_compot_CIoU": 0.4414146840572357,
      "eval_compot_GIoU": 0.41949811577796936,
      "eval_compot_IoU": 0.4979342371225357,
      "eval_compot_MAE_all": 0.12221289426088333,
      "eval_compot_MAE_h": 0.06067886762320995,
      "eval_compot_MAE_w": 0.13116489723324776,
      "eval_compot_MAE_x_boxes": 0.13491889834403992,
      "eval_compot_MAE_y_boxes": 0.10205630213022232,
      "eval_compot_NUM_probability": 0.9996143877506256,
      "eval_compot_inside_bbox": 0.7170138955116272,
      "eval_compot_loss": 2.731513738632202,
      "eval_compot_loss_ce": 0.004757255082949996,
      "eval_compot_loss_iou": 1.075439453125,
      "eval_compot_loss_num": 0.136627197265625,
      "eval_compot_loss_xval": 2.83349609375,
      "eval_compot_runtime": 68.236,
      "eval_compot_samples_per_second": 0.733,
      "eval_compot_steps_per_second": 0.029,
      "num_input_tokens_seen": 100517300,
      "step": 1500
    },
    {
      "epoch": 0.1702127659574468,
      "loss": 2.821432113647461,
      "loss_ce": 0.0040491605177521706,
      "loss_iou": 1.0625,
      "loss_num": 0.1396484375,
      "loss_xval": 2.8125,
      "num_input_tokens_seen": 100517300,
      "step": 1500
    },
    {
      "epoch": 0.17032624113475178,
      "grad_norm": 13.91650104522705,
      "learning_rate": 5e-05,
      "loss": 1.5459,
      "num_input_tokens_seen": 100583512,
      "step": 1501
    },
    {
      "epoch": 0.17032624113475178,
      "loss": 1.5211045742034912,
      "loss_ce": 0.004014734644442797,
      "loss_iou": 0.64453125,
      "loss_num": 0.0458984375,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 100583512,
      "step": 1501
    },
    {
      "epoch": 0.17043971631205673,
      "grad_norm": 13.9342041015625,
      "learning_rate": 5e-05,
      "loss": 1.1223,
      "num_input_tokens_seen": 100650568,
      "step": 1502
    },
    {
      "epoch": 0.17043971631205673,
      "loss": 1.247269868850708,
      "loss_ce": 0.004105737898498774,
      "loss_iou": 0.53515625,
      "loss_num": 0.03466796875,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 100650568,
      "step": 1502
    },
    {
      "epoch": 0.1705531914893617,
      "grad_norm": 21.516395568847656,
      "learning_rate": 5e-05,
      "loss": 1.3263,
      "num_input_tokens_seen": 100718364,
      "step": 1503
    },
    {
      "epoch": 0.1705531914893617,
      "loss": 1.528326153755188,
      "loss_ce": 0.003912022802978754,
      "loss_iou": 0.6484375,
      "loss_num": 0.046142578125,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 100718364,
      "step": 1503
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 26.459556579589844,
      "learning_rate": 5e-05,
      "loss": 1.3721,
      "num_input_tokens_seen": 100785988,
      "step": 1504
    },
    {
      "epoch": 0.17066666666666666,
      "loss": 1.2111642360687256,
      "loss_ce": 0.003644685260951519,
      "loss_iou": 0.515625,
      "loss_num": 0.034912109375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 100785988,
      "step": 1504
    },
    {
      "epoch": 0.17078014184397164,
      "grad_norm": 26.238983154296875,
      "learning_rate": 5e-05,
      "loss": 1.5116,
      "num_input_tokens_seen": 100853052,
      "step": 1505
    },
    {
      "epoch": 0.17078014184397164,
      "loss": 1.6944067478179932,
      "loss_ce": 0.005930200219154358,
      "loss_iou": 0.66796875,
      "loss_num": 0.0712890625,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 100853052,
      "step": 1505
    },
    {
      "epoch": 0.1708936170212766,
      "grad_norm": 16.000890731811523,
      "learning_rate": 5e-05,
      "loss": 1.3601,
      "num_input_tokens_seen": 100918880,
      "step": 1506
    },
    {
      "epoch": 0.1708936170212766,
      "loss": 1.5505956411361694,
      "loss_ce": 0.0027440604753792286,
      "loss_iou": 0.65625,
      "loss_num": 0.04736328125,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 100918880,
      "step": 1506
    },
    {
      "epoch": 0.17100709219858157,
      "grad_norm": 10.811003684997559,
      "learning_rate": 5e-05,
      "loss": 1.1405,
      "num_input_tokens_seen": 100985944,
      "step": 1507
    },
    {
      "epoch": 0.17100709219858157,
      "loss": 1.0942461490631104,
      "loss_ce": 0.005867166444659233,
      "loss_iou": 0.484375,
      "loss_num": 0.02392578125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 100985944,
      "step": 1507
    },
    {
      "epoch": 0.17112056737588652,
      "grad_norm": 20.903797149658203,
      "learning_rate": 5e-05,
      "loss": 1.1365,
      "num_input_tokens_seen": 101053216,
      "step": 1508
    },
    {
      "epoch": 0.17112056737588652,
      "loss": 1.1884158849716187,
      "loss_ce": 0.00238064699806273,
      "loss_iou": 0.5,
      "loss_num": 0.037353515625,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 101053216,
      "step": 1508
    },
    {
      "epoch": 0.1712340425531915,
      "grad_norm": 28.16326332092285,
      "learning_rate": 5e-05,
      "loss": 1.4008,
      "num_input_tokens_seen": 101119784,
      "step": 1509
    },
    {
      "epoch": 0.1712340425531915,
      "loss": 1.5040409564971924,
      "loss_ce": 0.004529163707047701,
      "loss_iou": 0.6484375,
      "loss_num": 0.039794921875,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 101119784,
      "step": 1509
    },
    {
      "epoch": 0.17134751773049645,
      "grad_norm": 14.119460105895996,
      "learning_rate": 5e-05,
      "loss": 1.1251,
      "num_input_tokens_seen": 101186184,
      "step": 1510
    },
    {
      "epoch": 0.17134751773049645,
      "loss": 1.1945405006408691,
      "loss_ce": 0.0016694302903488278,
      "loss_iou": 0.515625,
      "loss_num": 0.031982421875,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 101186184,
      "step": 1510
    },
    {
      "epoch": 0.17146099290780142,
      "grad_norm": 17.23388671875,
      "learning_rate": 5e-05,
      "loss": 1.0874,
      "num_input_tokens_seen": 101252540,
      "step": 1511
    },
    {
      "epoch": 0.17146099290780142,
      "loss": 1.1653075218200684,
      "loss_ce": 0.005151199642568827,
      "loss_iou": 0.51171875,
      "loss_num": 0.0274658203125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 101252540,
      "step": 1511
    },
    {
      "epoch": 0.17157446808510637,
      "grad_norm": 32.058353424072266,
      "learning_rate": 5e-05,
      "loss": 1.5307,
      "num_input_tokens_seen": 101319776,
      "step": 1512
    },
    {
      "epoch": 0.17157446808510637,
      "loss": 1.6734075546264648,
      "loss_ce": 0.003485715016722679,
      "loss_iou": 0.73828125,
      "loss_num": 0.038330078125,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 101319776,
      "step": 1512
    },
    {
      "epoch": 0.17168794326241135,
      "grad_norm": 13.156717300415039,
      "learning_rate": 5e-05,
      "loss": 1.5434,
      "num_input_tokens_seen": 101385788,
      "step": 1513
    },
    {
      "epoch": 0.17168794326241135,
      "loss": 1.5916342735290527,
      "loss_ce": 0.007161553017795086,
      "loss_iou": 0.703125,
      "loss_num": 0.035888671875,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 101385788,
      "step": 1513
    },
    {
      "epoch": 0.1718014184397163,
      "grad_norm": 19.91151237487793,
      "learning_rate": 5e-05,
      "loss": 1.2946,
      "num_input_tokens_seen": 101453216,
      "step": 1514
    },
    {
      "epoch": 0.1718014184397163,
      "loss": 1.3563714027404785,
      "loss_ce": 0.002855835948139429,
      "loss_iou": 0.58203125,
      "loss_num": 0.037353515625,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 101453216,
      "step": 1514
    },
    {
      "epoch": 0.17191489361702128,
      "grad_norm": 31.462051391601562,
      "learning_rate": 5e-05,
      "loss": 1.3471,
      "num_input_tokens_seen": 101520256,
      "step": 1515
    },
    {
      "epoch": 0.17191489361702128,
      "loss": 1.145772933959961,
      "loss_ce": 0.0027066152542829514,
      "loss_iou": 0.515625,
      "loss_num": 0.02197265625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 101520256,
      "step": 1515
    },
    {
      "epoch": 0.17202836879432623,
      "grad_norm": 14.391209602355957,
      "learning_rate": 5e-05,
      "loss": 1.5428,
      "num_input_tokens_seen": 101585088,
      "step": 1516
    },
    {
      "epoch": 0.17202836879432623,
      "loss": 1.625760555267334,
      "loss_ce": 0.004666850436478853,
      "loss_iou": 0.69921875,
      "loss_num": 0.04443359375,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 101585088,
      "step": 1516
    },
    {
      "epoch": 0.1721418439716312,
      "grad_norm": 18.049442291259766,
      "learning_rate": 5e-05,
      "loss": 1.4229,
      "num_input_tokens_seen": 101652044,
      "step": 1517
    },
    {
      "epoch": 0.1721418439716312,
      "loss": 1.5061744451522827,
      "loss_ce": 0.0032447725534439087,
      "loss_iou": 0.66015625,
      "loss_num": 0.03662109375,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 101652044,
      "step": 1517
    },
    {
      "epoch": 0.17225531914893616,
      "grad_norm": 21.613393783569336,
      "learning_rate": 5e-05,
      "loss": 1.3259,
      "num_input_tokens_seen": 101719096,
      "step": 1518
    },
    {
      "epoch": 0.17225531914893616,
      "loss": 1.2739934921264648,
      "loss_ce": 0.0015326747670769691,
      "loss_iou": 0.546875,
      "loss_num": 0.035400390625,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 101719096,
      "step": 1518
    },
    {
      "epoch": 0.17236879432624114,
      "grad_norm": 25.2455997467041,
      "learning_rate": 5e-05,
      "loss": 1.3095,
      "num_input_tokens_seen": 101785284,
      "step": 1519
    },
    {
      "epoch": 0.17236879432624114,
      "loss": 1.2284352779388428,
      "loss_ce": 0.001628704136237502,
      "loss_iou": 0.5390625,
      "loss_num": 0.0302734375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 101785284,
      "step": 1519
    },
    {
      "epoch": 0.1724822695035461,
      "grad_norm": 21.650571823120117,
      "learning_rate": 5e-05,
      "loss": 1.4404,
      "num_input_tokens_seen": 101852412,
      "step": 1520
    },
    {
      "epoch": 0.1724822695035461,
      "loss": 1.387437343597412,
      "loss_ce": 0.004136490635573864,
      "loss_iou": 0.625,
      "loss_num": 0.02685546875,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 101852412,
      "step": 1520
    },
    {
      "epoch": 0.17259574468085107,
      "grad_norm": 16.27129554748535,
      "learning_rate": 5e-05,
      "loss": 1.2132,
      "num_input_tokens_seen": 101919924,
      "step": 1521
    },
    {
      "epoch": 0.17259574468085107,
      "loss": 1.1817753314971924,
      "loss_ce": 0.0025761458091437817,
      "loss_iou": 0.53515625,
      "loss_num": 0.02197265625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 101919924,
      "step": 1521
    },
    {
      "epoch": 0.17270921985815602,
      "grad_norm": 18.845123291015625,
      "learning_rate": 5e-05,
      "loss": 1.3159,
      "num_input_tokens_seen": 101987584,
      "step": 1522
    },
    {
      "epoch": 0.17270921985815602,
      "loss": 1.3375909328460693,
      "loss_ce": 0.004583076573908329,
      "loss_iou": 0.578125,
      "loss_num": 0.03564453125,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 101987584,
      "step": 1522
    },
    {
      "epoch": 0.172822695035461,
      "grad_norm": 18.041053771972656,
      "learning_rate": 5e-05,
      "loss": 1.3562,
      "num_input_tokens_seen": 102054304,
      "step": 1523
    },
    {
      "epoch": 0.172822695035461,
      "loss": 1.3541908264160156,
      "loss_ce": 0.0026283685583621264,
      "loss_iou": 0.60546875,
      "loss_num": 0.028076171875,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 102054304,
      "step": 1523
    },
    {
      "epoch": 0.17293617021276594,
      "grad_norm": 13.640836715698242,
      "learning_rate": 5e-05,
      "loss": 1.4251,
      "num_input_tokens_seen": 102121940,
      "step": 1524
    },
    {
      "epoch": 0.17293617021276594,
      "loss": 1.4274072647094727,
      "loss_ce": 0.005044008605182171,
      "loss_iou": 0.640625,
      "loss_num": 0.0286865234375,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 102121940,
      "step": 1524
    },
    {
      "epoch": 0.17304964539007092,
      "grad_norm": 22.69546127319336,
      "learning_rate": 5e-05,
      "loss": 1.121,
      "num_input_tokens_seen": 102189048,
      "step": 1525
    },
    {
      "epoch": 0.17304964539007092,
      "loss": 0.9132229089736938,
      "loss_ce": 0.0022121581714600325,
      "loss_iou": 0.404296875,
      "loss_num": 0.02001953125,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 102189048,
      "step": 1525
    },
    {
      "epoch": 0.1731631205673759,
      "grad_norm": 18.719728469848633,
      "learning_rate": 5e-05,
      "loss": 1.4103,
      "num_input_tokens_seen": 102256344,
      "step": 1526
    },
    {
      "epoch": 0.1731631205673759,
      "loss": 1.4396542310714722,
      "loss_ce": 0.008013694547116756,
      "loss_iou": 0.61328125,
      "loss_num": 0.041259765625,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 102256344,
      "step": 1526
    },
    {
      "epoch": 0.17327659574468085,
      "grad_norm": 25.562589645385742,
      "learning_rate": 5e-05,
      "loss": 1.271,
      "num_input_tokens_seen": 102323032,
      "step": 1527
    },
    {
      "epoch": 0.17327659574468085,
      "loss": 1.4137896299362183,
      "loss_ce": 0.0036334265023469925,
      "loss_iou": 0.64453125,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 102323032,
      "step": 1527
    },
    {
      "epoch": 0.17339007092198583,
      "grad_norm": 20.536516189575195,
      "learning_rate": 5e-05,
      "loss": 1.5632,
      "num_input_tokens_seen": 102390492,
      "step": 1528
    },
    {
      "epoch": 0.17339007092198583,
      "loss": 1.4587821960449219,
      "loss_ce": 0.006633702665567398,
      "loss_iou": 0.62890625,
      "loss_num": 0.0390625,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 102390492,
      "step": 1528
    },
    {
      "epoch": 0.17350354609929078,
      "grad_norm": 13.829619407653809,
      "learning_rate": 5e-05,
      "loss": 1.3079,
      "num_input_tokens_seen": 102458412,
      "step": 1529
    },
    {
      "epoch": 0.17350354609929078,
      "loss": 1.3415195941925049,
      "loss_ce": 0.0031407433561980724,
      "loss_iou": 0.55859375,
      "loss_num": 0.044921875,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 102458412,
      "step": 1529
    },
    {
      "epoch": 0.17361702127659576,
      "grad_norm": 16.368877410888672,
      "learning_rate": 5e-05,
      "loss": 1.1993,
      "num_input_tokens_seen": 102525624,
      "step": 1530
    },
    {
      "epoch": 0.17361702127659576,
      "loss": 1.2204947471618652,
      "loss_ce": 0.004186108708381653,
      "loss_iou": 0.53515625,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 102525624,
      "step": 1530
    },
    {
      "epoch": 0.1737304964539007,
      "grad_norm": 18.897171020507812,
      "learning_rate": 5e-05,
      "loss": 1.3199,
      "num_input_tokens_seen": 102592576,
      "step": 1531
    },
    {
      "epoch": 0.1737304964539007,
      "loss": 1.4150199890136719,
      "loss_ce": 0.002910588402301073,
      "loss_iou": 0.625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 102592576,
      "step": 1531
    },
    {
      "epoch": 0.17384397163120568,
      "grad_norm": 24.38062858581543,
      "learning_rate": 5e-05,
      "loss": 1.2658,
      "num_input_tokens_seen": 102659496,
      "step": 1532
    },
    {
      "epoch": 0.17384397163120568,
      "loss": 1.3072636127471924,
      "loss_ce": 0.0030643781647086143,
      "loss_iou": 0.5625,
      "loss_num": 0.0361328125,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 102659496,
      "step": 1532
    },
    {
      "epoch": 0.17395744680851064,
      "grad_norm": 15.210075378417969,
      "learning_rate": 5e-05,
      "loss": 1.2448,
      "num_input_tokens_seen": 102725580,
      "step": 1533
    },
    {
      "epoch": 0.17395744680851064,
      "loss": 1.4071071147918701,
      "loss_ce": 0.0023219920694828033,
      "loss_iou": 0.58203125,
      "loss_num": 0.048828125,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 102725580,
      "step": 1533
    },
    {
      "epoch": 0.1740709219858156,
      "grad_norm": 25.741920471191406,
      "learning_rate": 5e-05,
      "loss": 0.9994,
      "num_input_tokens_seen": 102792784,
      "step": 1534
    },
    {
      "epoch": 0.1740709219858156,
      "loss": 0.9025254249572754,
      "loss_ce": 0.004026852082461119,
      "loss_iou": 0.37890625,
      "loss_num": 0.0279541015625,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 102792784,
      "step": 1534
    },
    {
      "epoch": 0.17418439716312056,
      "grad_norm": 19.77267837524414,
      "learning_rate": 5e-05,
      "loss": 1.445,
      "num_input_tokens_seen": 102860212,
      "step": 1535
    },
    {
      "epoch": 0.17418439716312056,
      "loss": 1.447282314300537,
      "loss_ce": 0.005387690383940935,
      "loss_iou": 0.609375,
      "loss_num": 0.045166015625,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 102860212,
      "step": 1535
    },
    {
      "epoch": 0.17429787234042554,
      "grad_norm": 31.629459381103516,
      "learning_rate": 5e-05,
      "loss": 1.3156,
      "num_input_tokens_seen": 102927284,
      "step": 1536
    },
    {
      "epoch": 0.17429787234042554,
      "loss": 1.312732458114624,
      "loss_ce": 0.005359287839382887,
      "loss_iou": 0.5859375,
      "loss_num": 0.027099609375,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 102927284,
      "step": 1536
    },
    {
      "epoch": 0.1744113475177305,
      "grad_norm": 35.05924606323242,
      "learning_rate": 5e-05,
      "loss": 1.5582,
      "num_input_tokens_seen": 102994328,
      "step": 1537
    },
    {
      "epoch": 0.1744113475177305,
      "loss": 1.625399112701416,
      "loss_ce": 0.006258400622755289,
      "loss_iou": 0.6796875,
      "loss_num": 0.052490234375,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 102994328,
      "step": 1537
    },
    {
      "epoch": 0.17452482269503547,
      "grad_norm": 13.615815162658691,
      "learning_rate": 5e-05,
      "loss": 1.1219,
      "num_input_tokens_seen": 103061180,
      "step": 1538
    },
    {
      "epoch": 0.17452482269503547,
      "loss": 1.0912988185882568,
      "loss_ce": 0.003713473677635193,
      "loss_iou": 0.470703125,
      "loss_num": 0.0291748046875,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 103061180,
      "step": 1538
    },
    {
      "epoch": 0.17463829787234042,
      "grad_norm": 9.743141174316406,
      "learning_rate": 5e-05,
      "loss": 1.3176,
      "num_input_tokens_seen": 103126524,
      "step": 1539
    },
    {
      "epoch": 0.17463829787234042,
      "loss": 1.3664488792419434,
      "loss_ce": 0.008050458505749702,
      "loss_iou": 0.6171875,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 103126524,
      "step": 1539
    },
    {
      "epoch": 0.1747517730496454,
      "grad_norm": 12.511873245239258,
      "learning_rate": 5e-05,
      "loss": 1.1391,
      "num_input_tokens_seen": 103193336,
      "step": 1540
    },
    {
      "epoch": 0.1747517730496454,
      "loss": 1.15118408203125,
      "loss_ce": 0.0037231650203466415,
      "loss_iou": 0.5078125,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 103193336,
      "step": 1540
    },
    {
      "epoch": 0.17486524822695035,
      "grad_norm": 25.60230827331543,
      "learning_rate": 5e-05,
      "loss": 1.2993,
      "num_input_tokens_seen": 103260560,
      "step": 1541
    },
    {
      "epoch": 0.17486524822695035,
      "loss": 1.4590210914611816,
      "loss_ce": 0.007849181070923805,
      "loss_iou": 0.65234375,
      "loss_num": 0.028564453125,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 103260560,
      "step": 1541
    },
    {
      "epoch": 0.17497872340425533,
      "grad_norm": 15.863445281982422,
      "learning_rate": 5e-05,
      "loss": 1.1999,
      "num_input_tokens_seen": 103327872,
      "step": 1542
    },
    {
      "epoch": 0.17497872340425533,
      "loss": 1.133754014968872,
      "loss_ce": 0.0031388476490974426,
      "loss_iou": 0.5078125,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 103327872,
      "step": 1542
    },
    {
      "epoch": 0.17509219858156028,
      "grad_norm": 7.572589874267578,
      "learning_rate": 5e-05,
      "loss": 1.0913,
      "num_input_tokens_seen": 103394352,
      "step": 1543
    },
    {
      "epoch": 0.17509219858156028,
      "loss": 0.9917269945144653,
      "loss_ce": 0.0025912332348525524,
      "loss_iou": 0.427734375,
      "loss_num": 0.0264892578125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 103394352,
      "step": 1543
    },
    {
      "epoch": 0.17520567375886525,
      "grad_norm": 21.466869354248047,
      "learning_rate": 5e-05,
      "loss": 1.416,
      "num_input_tokens_seen": 103462068,
      "step": 1544
    },
    {
      "epoch": 0.17520567375886525,
      "loss": 1.439115047454834,
      "loss_ce": 0.0074744680896401405,
      "loss_iou": 0.60546875,
      "loss_num": 0.044677734375,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 103462068,
      "step": 1544
    },
    {
      "epoch": 0.1753191489361702,
      "grad_norm": 16.703786849975586,
      "learning_rate": 5e-05,
      "loss": 1.2358,
      "num_input_tokens_seen": 103527760,
      "step": 1545
    },
    {
      "epoch": 0.1753191489361702,
      "loss": 1.2666499614715576,
      "loss_ce": 0.005907787010073662,
      "loss_iou": 0.56640625,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 103527760,
      "step": 1545
    },
    {
      "epoch": 0.17543262411347518,
      "grad_norm": 14.391465187072754,
      "learning_rate": 5e-05,
      "loss": 1.1577,
      "num_input_tokens_seen": 103594792,
      "step": 1546
    },
    {
      "epoch": 0.17543262411347518,
      "loss": 1.1557012796401978,
      "loss_ce": 0.005310604348778725,
      "loss_iou": 0.51953125,
      "loss_num": 0.022216796875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 103594792,
      "step": 1546
    },
    {
      "epoch": 0.17554609929078013,
      "grad_norm": 19.79413414001465,
      "learning_rate": 5e-05,
      "loss": 1.4047,
      "num_input_tokens_seen": 103661648,
      "step": 1547
    },
    {
      "epoch": 0.17554609929078013,
      "loss": 1.5521972179412842,
      "loss_ce": 0.006787087768316269,
      "loss_iou": 0.6796875,
      "loss_num": 0.036376953125,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 103661648,
      "step": 1547
    },
    {
      "epoch": 0.1756595744680851,
      "grad_norm": 26.993928909301758,
      "learning_rate": 5e-05,
      "loss": 1.2345,
      "num_input_tokens_seen": 103728460,
      "step": 1548
    },
    {
      "epoch": 0.1756595744680851,
      "loss": 1.2656340599060059,
      "loss_ce": 0.00196227990090847,
      "loss_iou": 0.56640625,
      "loss_num": 0.026123046875,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 103728460,
      "step": 1548
    },
    {
      "epoch": 0.17577304964539006,
      "grad_norm": 21.936237335205078,
      "learning_rate": 5e-05,
      "loss": 1.2839,
      "num_input_tokens_seen": 103795768,
      "step": 1549
    },
    {
      "epoch": 0.17577304964539006,
      "loss": 1.3695333003997803,
      "loss_ce": 0.0052754441276192665,
      "loss_iou": 0.6171875,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 103795768,
      "step": 1549
    },
    {
      "epoch": 0.17588652482269504,
      "grad_norm": 19.79302978515625,
      "learning_rate": 5e-05,
      "loss": 1.4008,
      "num_input_tokens_seen": 103862756,
      "step": 1550
    },
    {
      "epoch": 0.17588652482269504,
      "loss": 1.2711727619171143,
      "loss_ce": 0.004815352149307728,
      "loss_iou": 0.53125,
      "loss_num": 0.041259765625,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 103862756,
      "step": 1550
    },
    {
      "epoch": 0.176,
      "grad_norm": 18.854145050048828,
      "learning_rate": 5e-05,
      "loss": 1.2994,
      "num_input_tokens_seen": 103930508,
      "step": 1551
    },
    {
      "epoch": 0.176,
      "loss": 1.2260712385177612,
      "loss_ce": 0.005856390111148357,
      "loss_iou": 0.53515625,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 103930508,
      "step": 1551
    },
    {
      "epoch": 0.17611347517730497,
      "grad_norm": 320.85650634765625,
      "learning_rate": 5e-05,
      "loss": 1.4566,
      "num_input_tokens_seen": 103997600,
      "step": 1552
    },
    {
      "epoch": 0.17611347517730497,
      "loss": 1.4338765144348145,
      "loss_ce": 0.004677259363234043,
      "loss_iou": 0.6015625,
      "loss_num": 0.044921875,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 103997600,
      "step": 1552
    },
    {
      "epoch": 0.17622695035460992,
      "grad_norm": 12.972931861877441,
      "learning_rate": 5e-05,
      "loss": 1.6436,
      "num_input_tokens_seen": 104064024,
      "step": 1553
    },
    {
      "epoch": 0.17622695035460992,
      "loss": 1.590606689453125,
      "loss_ce": 0.00711064413189888,
      "loss_iou": 0.65625,
      "loss_num": 0.05419921875,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 104064024,
      "step": 1553
    },
    {
      "epoch": 0.1763404255319149,
      "grad_norm": 16.75246238708496,
      "learning_rate": 5e-05,
      "loss": 1.508,
      "num_input_tokens_seen": 104130812,
      "step": 1554
    },
    {
      "epoch": 0.1763404255319149,
      "loss": 1.3272576332092285,
      "loss_ce": 0.0035271490924060345,
      "loss_iou": 0.6015625,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 104130812,
      "step": 1554
    },
    {
      "epoch": 0.17645390070921985,
      "grad_norm": 13.059517860412598,
      "learning_rate": 5e-05,
      "loss": 1.2381,
      "num_input_tokens_seen": 104197600,
      "step": 1555
    },
    {
      "epoch": 0.17645390070921985,
      "loss": 1.1654043197631836,
      "loss_ce": 0.007689516060054302,
      "loss_iou": 0.5234375,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 104197600,
      "step": 1555
    },
    {
      "epoch": 0.17656737588652482,
      "grad_norm": 18.76825523376465,
      "learning_rate": 5e-05,
      "loss": 1.3578,
      "num_input_tokens_seen": 104265084,
      "step": 1556
    },
    {
      "epoch": 0.17656737588652482,
      "loss": 1.3108453750610352,
      "loss_ce": 0.0046930452808737755,
      "loss_iou": 0.5546875,
      "loss_num": 0.039794921875,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 104265084,
      "step": 1556
    },
    {
      "epoch": 0.17668085106382977,
      "grad_norm": 17.129899978637695,
      "learning_rate": 5e-05,
      "loss": 1.3336,
      "num_input_tokens_seen": 104332372,
      "step": 1557
    },
    {
      "epoch": 0.17668085106382977,
      "loss": 1.3674343824386597,
      "loss_ce": 0.003176606260240078,
      "loss_iou": 0.59765625,
      "loss_num": 0.033935546875,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 104332372,
      "step": 1557
    },
    {
      "epoch": 0.17679432624113475,
      "grad_norm": 17.9095458984375,
      "learning_rate": 5e-05,
      "loss": 1.2214,
      "num_input_tokens_seen": 104399364,
      "step": 1558
    },
    {
      "epoch": 0.17679432624113475,
      "loss": 1.2062819004058838,
      "loss_ce": 0.003889258485287428,
      "loss_iou": 0.4921875,
      "loss_num": 0.043701171875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 104399364,
      "step": 1558
    },
    {
      "epoch": 0.1769078014184397,
      "grad_norm": 18.47919273376465,
      "learning_rate": 5e-05,
      "loss": 1.4267,
      "num_input_tokens_seen": 104465640,
      "step": 1559
    },
    {
      "epoch": 0.1769078014184397,
      "loss": 1.4808096885681152,
      "loss_ce": 0.0069327205419540405,
      "loss_iou": 0.62890625,
      "loss_num": 0.043212890625,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 104465640,
      "step": 1559
    },
    {
      "epoch": 0.17702127659574468,
      "grad_norm": 17.440874099731445,
      "learning_rate": 5e-05,
      "loss": 1.206,
      "num_input_tokens_seen": 104533908,
      "step": 1560
    },
    {
      "epoch": 0.17702127659574468,
      "loss": 1.3776805400848389,
      "loss_ce": 0.00853994581848383,
      "loss_iou": 0.5859375,
      "loss_num": 0.039306640625,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 104533908,
      "step": 1560
    },
    {
      "epoch": 0.17713475177304966,
      "grad_norm": 19.769630432128906,
      "learning_rate": 5e-05,
      "loss": 1.3572,
      "num_input_tokens_seen": 104601328,
      "step": 1561
    },
    {
      "epoch": 0.17713475177304966,
      "loss": 1.2501643896102905,
      "loss_ce": 0.005047189071774483,
      "loss_iou": 0.5078125,
      "loss_num": 0.046142578125,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 104601328,
      "step": 1561
    },
    {
      "epoch": 0.1772482269503546,
      "grad_norm": 19.729684829711914,
      "learning_rate": 5e-05,
      "loss": 1.236,
      "num_input_tokens_seen": 104667540,
      "step": 1562
    },
    {
      "epoch": 0.1772482269503546,
      "loss": 1.2193357944488525,
      "loss_ce": 0.00156229583080858,
      "loss_iou": 0.53515625,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 104667540,
      "step": 1562
    },
    {
      "epoch": 0.1773617021276596,
      "grad_norm": 14.875299453735352,
      "learning_rate": 5e-05,
      "loss": 1.1991,
      "num_input_tokens_seen": 104732320,
      "step": 1563
    },
    {
      "epoch": 0.1773617021276596,
      "loss": 0.8164292573928833,
      "loss_ce": 0.0035325270146131516,
      "loss_iou": 0.36328125,
      "loss_num": 0.017333984375,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 104732320,
      "step": 1563
    },
    {
      "epoch": 0.17747517730496454,
      "grad_norm": 14.802924156188965,
      "learning_rate": 5e-05,
      "loss": 1.3467,
      "num_input_tokens_seen": 104799208,
      "step": 1564
    },
    {
      "epoch": 0.17747517730496454,
      "loss": 1.214813470840454,
      "loss_ce": 0.005585034843534231,
      "loss_iou": 0.546875,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 104799208,
      "step": 1564
    },
    {
      "epoch": 0.17758865248226952,
      "grad_norm": 22.666109085083008,
      "learning_rate": 5e-05,
      "loss": 1.4266,
      "num_input_tokens_seen": 104866584,
      "step": 1565
    },
    {
      "epoch": 0.17758865248226952,
      "loss": 1.3310467004776,
      "loss_ce": 0.0058513968251645565,
      "loss_iou": 0.58203125,
      "loss_num": 0.0322265625,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 104866584,
      "step": 1565
    },
    {
      "epoch": 0.17770212765957447,
      "grad_norm": 18.973283767700195,
      "learning_rate": 5e-05,
      "loss": 1.1869,
      "num_input_tokens_seen": 104932036,
      "step": 1566
    },
    {
      "epoch": 0.17770212765957447,
      "loss": 1.021225094795227,
      "loss_ce": 0.0034027965739369392,
      "loss_iou": 0.423828125,
      "loss_num": 0.0341796875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 104932036,
      "step": 1566
    },
    {
      "epoch": 0.17781560283687944,
      "grad_norm": 15.268390655517578,
      "learning_rate": 5e-05,
      "loss": 1.1747,
      "num_input_tokens_seen": 104999680,
      "step": 1567
    },
    {
      "epoch": 0.17781560283687944,
      "loss": 1.077268123626709,
      "loss_ce": 0.005979079753160477,
      "loss_iou": 0.474609375,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 104999680,
      "step": 1567
    },
    {
      "epoch": 0.1779290780141844,
      "grad_norm": 14.439071655273438,
      "learning_rate": 5e-05,
      "loss": 1.2926,
      "num_input_tokens_seen": 105065884,
      "step": 1568
    },
    {
      "epoch": 0.1779290780141844,
      "loss": 1.2801257371902466,
      "loss_ce": 0.006688254419714212,
      "loss_iou": 0.5234375,
      "loss_num": 0.0458984375,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 105065884,
      "step": 1568
    },
    {
      "epoch": 0.17804255319148937,
      "grad_norm": 19.862712860107422,
      "learning_rate": 5e-05,
      "loss": 1.4793,
      "num_input_tokens_seen": 105132776,
      "step": 1569
    },
    {
      "epoch": 0.17804255319148937,
      "loss": 1.7416352033615112,
      "loss_ce": 0.0062836636789143085,
      "loss_iou": 0.71484375,
      "loss_num": 0.060791015625,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 105132776,
      "step": 1569
    },
    {
      "epoch": 0.17815602836879432,
      "grad_norm": 30.929290771484375,
      "learning_rate": 5e-05,
      "loss": 1.3345,
      "num_input_tokens_seen": 105198956,
      "step": 1570
    },
    {
      "epoch": 0.17815602836879432,
      "loss": 1.4149419069290161,
      "loss_ce": 0.003320850431919098,
      "loss_iou": 0.61328125,
      "loss_num": 0.037841796875,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 105198956,
      "step": 1570
    },
    {
      "epoch": 0.1782695035460993,
      "grad_norm": 15.873931884765625,
      "learning_rate": 5e-05,
      "loss": 1.523,
      "num_input_tokens_seen": 105266320,
      "step": 1571
    },
    {
      "epoch": 0.1782695035460993,
      "loss": 1.5998504161834717,
      "loss_ce": 0.008053610101342201,
      "loss_iou": 0.68359375,
      "loss_num": 0.044189453125,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 105266320,
      "step": 1571
    },
    {
      "epoch": 0.17838297872340425,
      "grad_norm": 26.611190795898438,
      "learning_rate": 5e-05,
      "loss": 1.3683,
      "num_input_tokens_seen": 105333360,
      "step": 1572
    },
    {
      "epoch": 0.17838297872340425,
      "loss": 1.3508658409118652,
      "loss_ce": 0.004674380645155907,
      "loss_iou": 0.5859375,
      "loss_num": 0.035888671875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 105333360,
      "step": 1572
    },
    {
      "epoch": 0.17849645390070923,
      "grad_norm": 18.477500915527344,
      "learning_rate": 5e-05,
      "loss": 1.2128,
      "num_input_tokens_seen": 105399984,
      "step": 1573
    },
    {
      "epoch": 0.17849645390070923,
      "loss": 1.2120141983032227,
      "loss_ce": 0.004006427712738514,
      "loss_iou": 0.5390625,
      "loss_num": 0.0257568359375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 105399984,
      "step": 1573
    },
    {
      "epoch": 0.17860992907801418,
      "grad_norm": 19.7851619720459,
      "learning_rate": 5e-05,
      "loss": 1.3972,
      "num_input_tokens_seen": 105466944,
      "step": 1574
    },
    {
      "epoch": 0.17860992907801418,
      "loss": 1.4521607160568237,
      "loss_ce": 0.00831300113350153,
      "loss_iou": 0.59765625,
      "loss_num": 0.05029296875,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 105466944,
      "step": 1574
    },
    {
      "epoch": 0.17872340425531916,
      "grad_norm": 16.884798049926758,
      "learning_rate": 5e-05,
      "loss": 1.2353,
      "num_input_tokens_seen": 105533968,
      "step": 1575
    },
    {
      "epoch": 0.17872340425531916,
      "loss": 1.286696434020996,
      "loss_ce": 0.003981578629463911,
      "loss_iou": 0.58203125,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 105533968,
      "step": 1575
    },
    {
      "epoch": 0.1788368794326241,
      "grad_norm": 19.82958221435547,
      "learning_rate": 5e-05,
      "loss": 1.4062,
      "num_input_tokens_seen": 105601248,
      "step": 1576
    },
    {
      "epoch": 0.1788368794326241,
      "loss": 1.5037307739257812,
      "loss_ce": 0.003730803495272994,
      "loss_iou": 0.65234375,
      "loss_num": 0.039306640625,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 105601248,
      "step": 1576
    },
    {
      "epoch": 0.17895035460992909,
      "grad_norm": 42.58151626586914,
      "learning_rate": 5e-05,
      "loss": 1.4061,
      "num_input_tokens_seen": 105667736,
      "step": 1577
    },
    {
      "epoch": 0.17895035460992909,
      "loss": 1.5457652807235718,
      "loss_ce": 0.005726244300603867,
      "loss_iou": 0.6640625,
      "loss_num": 0.04296875,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 105667736,
      "step": 1577
    },
    {
      "epoch": 0.17906382978723404,
      "grad_norm": 15.998205184936523,
      "learning_rate": 5e-05,
      "loss": 1.6248,
      "num_input_tokens_seen": 105733664,
      "step": 1578
    },
    {
      "epoch": 0.17906382978723404,
      "loss": 1.5830085277557373,
      "loss_ce": 0.0034796707332134247,
      "loss_iou": 0.671875,
      "loss_num": 0.046630859375,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 105733664,
      "step": 1578
    },
    {
      "epoch": 0.179177304964539,
      "grad_norm": 17.11980628967285,
      "learning_rate": 5e-05,
      "loss": 1.4958,
      "num_input_tokens_seen": 105801048,
      "step": 1579
    },
    {
      "epoch": 0.179177304964539,
      "loss": 1.3217146396636963,
      "loss_ce": 0.002378657693043351,
      "loss_iou": 0.59765625,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 105801048,
      "step": 1579
    },
    {
      "epoch": 0.17929078014184396,
      "grad_norm": 12.64819622039795,
      "learning_rate": 5e-05,
      "loss": 1.4019,
      "num_input_tokens_seen": 105868828,
      "step": 1580
    },
    {
      "epoch": 0.17929078014184396,
      "loss": 1.4037352800369263,
      "loss_ce": 0.006274296902120113,
      "loss_iou": 0.6171875,
      "loss_num": 0.033203125,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 105868828,
      "step": 1580
    },
    {
      "epoch": 0.17940425531914894,
      "grad_norm": 15.513893127441406,
      "learning_rate": 5e-05,
      "loss": 1.2476,
      "num_input_tokens_seen": 105935804,
      "step": 1581
    },
    {
      "epoch": 0.17940425531914894,
      "loss": 1.337143898010254,
      "loss_ce": 0.004136030562222004,
      "loss_iou": 0.55859375,
      "loss_num": 0.04296875,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 105935804,
      "step": 1581
    },
    {
      "epoch": 0.1795177304964539,
      "grad_norm": 14.465913772583008,
      "learning_rate": 5e-05,
      "loss": 1.1309,
      "num_input_tokens_seen": 106001568,
      "step": 1582
    },
    {
      "epoch": 0.1795177304964539,
      "loss": 1.133636713027954,
      "loss_ce": 0.006195254623889923,
      "loss_iou": 0.49609375,
      "loss_num": 0.026611328125,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 106001568,
      "step": 1582
    },
    {
      "epoch": 0.17963120567375887,
      "grad_norm": 23.481746673583984,
      "learning_rate": 5e-05,
      "loss": 1.3365,
      "num_input_tokens_seen": 106069736,
      "step": 1583
    },
    {
      "epoch": 0.17963120567375887,
      "loss": 1.3307702541351318,
      "loss_ce": 0.0016686703311279416,
      "loss_iou": 0.60546875,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 106069736,
      "step": 1583
    },
    {
      "epoch": 0.17974468085106382,
      "grad_norm": 25.25382423400879,
      "learning_rate": 5e-05,
      "loss": 1.4911,
      "num_input_tokens_seen": 106136684,
      "step": 1584
    },
    {
      "epoch": 0.17974468085106382,
      "loss": 1.5028479099273682,
      "loss_ce": 0.007730717770755291,
      "loss_iou": 0.64453125,
      "loss_num": 0.040771484375,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 106136684,
      "step": 1584
    },
    {
      "epoch": 0.1798581560283688,
      "grad_norm": 17.58775520324707,
      "learning_rate": 5e-05,
      "loss": 1.3656,
      "num_input_tokens_seen": 106203624,
      "step": 1585
    },
    {
      "epoch": 0.1798581560283688,
      "loss": 1.491109848022461,
      "loss_ce": 0.006734827533364296,
      "loss_iou": 0.66015625,
      "loss_num": 0.033203125,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 106203624,
      "step": 1585
    },
    {
      "epoch": 0.17997163120567375,
      "grad_norm": 20.251277923583984,
      "learning_rate": 5e-05,
      "loss": 1.4487,
      "num_input_tokens_seen": 106271628,
      "step": 1586
    },
    {
      "epoch": 0.17997163120567375,
      "loss": 1.5203802585601807,
      "loss_ce": 0.005731835961341858,
      "loss_iou": 0.6328125,
      "loss_num": 0.049560546875,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 106271628,
      "step": 1586
    },
    {
      "epoch": 0.18008510638297873,
      "grad_norm": 24.829071044921875,
      "learning_rate": 5e-05,
      "loss": 1.3495,
      "num_input_tokens_seen": 106338744,
      "step": 1587
    },
    {
      "epoch": 0.18008510638297873,
      "loss": 1.43417489528656,
      "loss_ce": 0.0025342791341245174,
      "loss_iou": 0.6328125,
      "loss_num": 0.033447265625,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 106338744,
      "step": 1587
    },
    {
      "epoch": 0.18019858156028368,
      "grad_norm": 15.661810874938965,
      "learning_rate": 5e-05,
      "loss": 1.281,
      "num_input_tokens_seen": 106405560,
      "step": 1588
    },
    {
      "epoch": 0.18019858156028368,
      "loss": 1.3692196607589722,
      "loss_ce": 0.0059384191408753395,
      "loss_iou": 0.609375,
      "loss_num": 0.029541015625,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 106405560,
      "step": 1588
    },
    {
      "epoch": 0.18031205673758866,
      "grad_norm": 10.978633880615234,
      "learning_rate": 5e-05,
      "loss": 1.1727,
      "num_input_tokens_seen": 106472920,
      "step": 1589
    },
    {
      "epoch": 0.18031205673758866,
      "loss": 1.0400874614715576,
      "loss_ce": 0.0029781125485897064,
      "loss_iou": 0.46484375,
      "loss_num": 0.021240234375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 106472920,
      "step": 1589
    },
    {
      "epoch": 0.1804255319148936,
      "grad_norm": 17.05441665649414,
      "learning_rate": 5e-05,
      "loss": 1.2179,
      "num_input_tokens_seen": 106540928,
      "step": 1590
    },
    {
      "epoch": 0.1804255319148936,
      "loss": 1.247285008430481,
      "loss_ce": 0.005097492132335901,
      "loss_iou": 0.5390625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 106540928,
      "step": 1590
    },
    {
      "epoch": 0.18053900709219858,
      "grad_norm": 14.98641586303711,
      "learning_rate": 5e-05,
      "loss": 1.1233,
      "num_input_tokens_seen": 106607712,
      "step": 1591
    },
    {
      "epoch": 0.18053900709219858,
      "loss": 1.1429890394210815,
      "loss_ce": 0.0038288929499685764,
      "loss_iou": 0.5078125,
      "loss_num": 0.025390625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 106607712,
      "step": 1591
    },
    {
      "epoch": 0.18065248226950353,
      "grad_norm": 40.75148010253906,
      "learning_rate": 5e-05,
      "loss": 1.3466,
      "num_input_tokens_seen": 106674068,
      "step": 1592
    },
    {
      "epoch": 0.18065248226950353,
      "loss": 1.4840174913406372,
      "loss_ce": 0.006478412076830864,
      "loss_iou": 0.62109375,
      "loss_num": 0.046630859375,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 106674068,
      "step": 1592
    },
    {
      "epoch": 0.1807659574468085,
      "grad_norm": 22.44344711303711,
      "learning_rate": 5e-05,
      "loss": 1.4041,
      "num_input_tokens_seen": 106741832,
      "step": 1593
    },
    {
      "epoch": 0.1807659574468085,
      "loss": 1.3827178478240967,
      "loss_ce": 0.006741395220160484,
      "loss_iou": 0.609375,
      "loss_num": 0.03076171875,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 106741832,
      "step": 1593
    },
    {
      "epoch": 0.18087943262411346,
      "grad_norm": 18.00585174560547,
      "learning_rate": 5e-05,
      "loss": 1.3634,
      "num_input_tokens_seen": 106808488,
      "step": 1594
    },
    {
      "epoch": 0.18087943262411346,
      "loss": 1.1884641647338867,
      "loss_ce": 0.0053586894646286964,
      "loss_iou": 0.50390625,
      "loss_num": 0.035400390625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 106808488,
      "step": 1594
    },
    {
      "epoch": 0.18099290780141844,
      "grad_norm": 20.38815689086914,
      "learning_rate": 5e-05,
      "loss": 1.1587,
      "num_input_tokens_seen": 106875876,
      "step": 1595
    },
    {
      "epoch": 0.18099290780141844,
      "loss": 1.114257574081421,
      "loss_ce": 0.008788757026195526,
      "loss_iou": 0.443359375,
      "loss_num": 0.043701171875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 106875876,
      "step": 1595
    },
    {
      "epoch": 0.18110638297872342,
      "grad_norm": 17.01255989074707,
      "learning_rate": 5e-05,
      "loss": 1.4054,
      "num_input_tokens_seen": 106942616,
      "step": 1596
    },
    {
      "epoch": 0.18110638297872342,
      "loss": 1.4234941005706787,
      "loss_ce": 0.007478456012904644,
      "loss_iou": 0.63671875,
      "loss_num": 0.028564453125,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 106942616,
      "step": 1596
    },
    {
      "epoch": 0.18121985815602837,
      "grad_norm": 17.368452072143555,
      "learning_rate": 5e-05,
      "loss": 1.0681,
      "num_input_tokens_seen": 107010940,
      "step": 1597
    },
    {
      "epoch": 0.18121985815602837,
      "loss": 1.202514410018921,
      "loss_ce": 0.007201847620308399,
      "loss_iou": 0.51953125,
      "loss_num": 0.031494140625,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 107010940,
      "step": 1597
    },
    {
      "epoch": 0.18133333333333335,
      "grad_norm": 21.717683792114258,
      "learning_rate": 5e-05,
      "loss": 1.2746,
      "num_input_tokens_seen": 107077376,
      "step": 1598
    },
    {
      "epoch": 0.18133333333333335,
      "loss": 1.1278598308563232,
      "loss_ce": 0.004812960512936115,
      "loss_iou": 0.482421875,
      "loss_num": 0.03173828125,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 107077376,
      "step": 1598
    },
    {
      "epoch": 0.1814468085106383,
      "grad_norm": 23.534692764282227,
      "learning_rate": 5e-05,
      "loss": 1.6861,
      "num_input_tokens_seen": 107144464,
      "step": 1599
    },
    {
      "epoch": 0.1814468085106383,
      "loss": 1.7583630084991455,
      "loss_ce": 0.004456729162484407,
      "loss_iou": 0.75,
      "loss_num": 0.051513671875,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 107144464,
      "step": 1599
    },
    {
      "epoch": 0.18156028368794327,
      "grad_norm": 16.016281127929688,
      "learning_rate": 5e-05,
      "loss": 1.2685,
      "num_input_tokens_seen": 107211272,
      "step": 1600
    },
    {
      "epoch": 0.18156028368794327,
      "loss": 1.4034488201141357,
      "loss_ce": 0.005011378787457943,
      "loss_iou": 0.55078125,
      "loss_num": 0.05908203125,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 107211272,
      "step": 1600
    },
    {
      "epoch": 0.18167375886524822,
      "grad_norm": 34.1852912902832,
      "learning_rate": 5e-05,
      "loss": 1.3817,
      "num_input_tokens_seen": 107278316,
      "step": 1601
    },
    {
      "epoch": 0.18167375886524822,
      "loss": 1.4687556028366089,
      "loss_ce": 0.003911855164915323,
      "loss_iou": 0.63671875,
      "loss_num": 0.037841796875,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 107278316,
      "step": 1601
    },
    {
      "epoch": 0.1817872340425532,
      "grad_norm": 17.81940269470215,
      "learning_rate": 5e-05,
      "loss": 1.4103,
      "num_input_tokens_seen": 107344568,
      "step": 1602
    },
    {
      "epoch": 0.1817872340425532,
      "loss": 1.604984164237976,
      "loss_ce": 0.0053747715428471565,
      "loss_iou": 0.69921875,
      "loss_num": 0.039794921875,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 107344568,
      "step": 1602
    },
    {
      "epoch": 0.18190070921985815,
      "grad_norm": 11.276632308959961,
      "learning_rate": 5e-05,
      "loss": 1.0929,
      "num_input_tokens_seen": 107411384,
      "step": 1603
    },
    {
      "epoch": 0.18190070921985815,
      "loss": 0.9373658299446106,
      "loss_ce": 0.006373676937073469,
      "loss_iou": 0.396484375,
      "loss_num": 0.0279541015625,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 107411384,
      "step": 1603
    },
    {
      "epoch": 0.18201418439716313,
      "grad_norm": 15.881842613220215,
      "learning_rate": 5e-05,
      "loss": 1.2945,
      "num_input_tokens_seen": 107479060,
      "step": 1604
    },
    {
      "epoch": 0.18201418439716313,
      "loss": 1.3510959148406982,
      "loss_ce": 0.00392792047932744,
      "loss_iou": 0.58203125,
      "loss_num": 0.036376953125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 107479060,
      "step": 1604
    },
    {
      "epoch": 0.18212765957446808,
      "grad_norm": 13.914645195007324,
      "learning_rate": 5e-05,
      "loss": 1.113,
      "num_input_tokens_seen": 107545984,
      "step": 1605
    },
    {
      "epoch": 0.18212765957446808,
      "loss": 1.201268196105957,
      "loss_ce": 0.009862018749117851,
      "loss_iou": 0.5078125,
      "loss_num": 0.03466796875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 107545984,
      "step": 1605
    },
    {
      "epoch": 0.18224113475177306,
      "grad_norm": 15.864131927490234,
      "learning_rate": 5e-05,
      "loss": 1.3063,
      "num_input_tokens_seen": 107613616,
      "step": 1606
    },
    {
      "epoch": 0.18224113475177306,
      "loss": 1.5000500679016113,
      "loss_ce": 0.0015148120000958443,
      "loss_iou": 0.62109375,
      "loss_num": 0.05078125,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 107613616,
      "step": 1606
    },
    {
      "epoch": 0.182354609929078,
      "grad_norm": 30.383628845214844,
      "learning_rate": 5e-05,
      "loss": 1.3562,
      "num_input_tokens_seen": 107680576,
      "step": 1607
    },
    {
      "epoch": 0.182354609929078,
      "loss": 1.2923035621643066,
      "loss_ce": 0.004217631183564663,
      "loss_iou": 0.56640625,
      "loss_num": 0.03173828125,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 107680576,
      "step": 1607
    },
    {
      "epoch": 0.182468085106383,
      "grad_norm": 19.375930786132812,
      "learning_rate": 5e-05,
      "loss": 1.3536,
      "num_input_tokens_seen": 107747080,
      "step": 1608
    },
    {
      "epoch": 0.182468085106383,
      "loss": 1.288414716720581,
      "loss_ce": 0.002770261373370886,
      "loss_iou": 0.5703125,
      "loss_num": 0.02880859375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 107747080,
      "step": 1608
    },
    {
      "epoch": 0.18258156028368794,
      "grad_norm": 13.083520889282227,
      "learning_rate": 5e-05,
      "loss": 1.1816,
      "num_input_tokens_seen": 107814532,
      "step": 1609
    },
    {
      "epoch": 0.18258156028368794,
      "loss": 1.1861649751663208,
      "loss_ce": 0.006965829059481621,
      "loss_iou": 0.5078125,
      "loss_num": 0.031982421875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 107814532,
      "step": 1609
    },
    {
      "epoch": 0.18269503546099292,
      "grad_norm": 17.747116088867188,
      "learning_rate": 5e-05,
      "loss": 1.3649,
      "num_input_tokens_seen": 107882652,
      "step": 1610
    },
    {
      "epoch": 0.18269503546099292,
      "loss": 1.2811121940612793,
      "loss_ce": 0.0037684915587306023,
      "loss_iou": 0.58203125,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 107882652,
      "step": 1610
    },
    {
      "epoch": 0.18280851063829787,
      "grad_norm": 16.037614822387695,
      "learning_rate": 5e-05,
      "loss": 1.3059,
      "num_input_tokens_seen": 107949752,
      "step": 1611
    },
    {
      "epoch": 0.18280851063829787,
      "loss": 1.213348627090454,
      "loss_ce": 0.0038761061150580645,
      "loss_iou": 0.52734375,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 107949752,
      "step": 1611
    },
    {
      "epoch": 0.18292198581560284,
      "grad_norm": 18.381332397460938,
      "learning_rate": 5e-05,
      "loss": 1.1802,
      "num_input_tokens_seen": 108016844,
      "step": 1612
    },
    {
      "epoch": 0.18292198581560284,
      "loss": 0.9849023818969727,
      "loss_ce": 0.0015040303114801645,
      "loss_iou": 0.4140625,
      "loss_num": 0.0311279296875,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 108016844,
      "step": 1612
    },
    {
      "epoch": 0.1830354609929078,
      "grad_norm": 28.17657470703125,
      "learning_rate": 5e-05,
      "loss": 1.4134,
      "num_input_tokens_seen": 108083728,
      "step": 1613
    },
    {
      "epoch": 0.1830354609929078,
      "loss": 1.4145421981811523,
      "loss_ce": 0.010245351120829582,
      "loss_iou": 0.61328125,
      "loss_num": 0.035888671875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 108083728,
      "step": 1613
    },
    {
      "epoch": 0.18314893617021277,
      "grad_norm": 22.180830001831055,
      "learning_rate": 5e-05,
      "loss": 1.4856,
      "num_input_tokens_seen": 108151332,
      "step": 1614
    },
    {
      "epoch": 0.18314893617021277,
      "loss": 1.5095570087432861,
      "loss_ce": 0.0054066916927695274,
      "loss_iou": 0.64453125,
      "loss_num": 0.043212890625,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 108151332,
      "step": 1614
    },
    {
      "epoch": 0.18326241134751772,
      "grad_norm": 13.531027793884277,
      "learning_rate": 5e-05,
      "loss": 1.1189,
      "num_input_tokens_seen": 108218052,
      "step": 1615
    },
    {
      "epoch": 0.18326241134751772,
      "loss": 1.0338151454925537,
      "loss_ce": 0.0011003398103639483,
      "loss_iou": 0.447265625,
      "loss_num": 0.0277099609375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 108218052,
      "step": 1615
    },
    {
      "epoch": 0.1833758865248227,
      "grad_norm": 13.35876178741455,
      "learning_rate": 5e-05,
      "loss": 1.3216,
      "num_input_tokens_seen": 108285428,
      "step": 1616
    },
    {
      "epoch": 0.1833758865248227,
      "loss": 1.1882145404815674,
      "loss_ce": 0.004132547415792942,
      "loss_iou": 0.53125,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 108285428,
      "step": 1616
    },
    {
      "epoch": 0.18348936170212765,
      "grad_norm": 17.402292251586914,
      "learning_rate": 5e-05,
      "loss": 1.2851,
      "num_input_tokens_seen": 108352380,
      "step": 1617
    },
    {
      "epoch": 0.18348936170212765,
      "loss": 1.2299349308013916,
      "loss_ce": 0.008743482641875744,
      "loss_iou": 0.50390625,
      "loss_num": 0.04296875,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 108352380,
      "step": 1617
    },
    {
      "epoch": 0.18360283687943263,
      "grad_norm": 12.811561584472656,
      "learning_rate": 5e-05,
      "loss": 1.3935,
      "num_input_tokens_seen": 108420580,
      "step": 1618
    },
    {
      "epoch": 0.18360283687943263,
      "loss": 1.3634653091430664,
      "loss_ce": 0.004090409725904465,
      "loss_iou": 0.59375,
      "loss_num": 0.03515625,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 108420580,
      "step": 1618
    },
    {
      "epoch": 0.18371631205673758,
      "grad_norm": 11.383648872375488,
      "learning_rate": 5e-05,
      "loss": 1.0899,
      "num_input_tokens_seen": 108487456,
      "step": 1619
    },
    {
      "epoch": 0.18371631205673758,
      "loss": 1.0142929553985596,
      "loss_ce": 0.00953218899667263,
      "loss_iou": 0.431640625,
      "loss_num": 0.028564453125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 108487456,
      "step": 1619
    },
    {
      "epoch": 0.18382978723404256,
      "grad_norm": 20.565174102783203,
      "learning_rate": 5e-05,
      "loss": 1.121,
      "num_input_tokens_seen": 108554168,
      "step": 1620
    },
    {
      "epoch": 0.18382978723404256,
      "loss": 1.239801049232483,
      "loss_ce": 0.0034728783648461103,
      "loss_iou": 0.5234375,
      "loss_num": 0.037109375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 108554168,
      "step": 1620
    },
    {
      "epoch": 0.1839432624113475,
      "grad_norm": 17.05046844482422,
      "learning_rate": 5e-05,
      "loss": 1.3423,
      "num_input_tokens_seen": 108620468,
      "step": 1621
    },
    {
      "epoch": 0.1839432624113475,
      "loss": 1.262082815170288,
      "loss_ce": 0.00347684184089303,
      "loss_iou": 0.53125,
      "loss_num": 0.038818359375,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 108620468,
      "step": 1621
    },
    {
      "epoch": 0.18405673758865249,
      "grad_norm": 27.508460998535156,
      "learning_rate": 5e-05,
      "loss": 1.1463,
      "num_input_tokens_seen": 108686856,
      "step": 1622
    },
    {
      "epoch": 0.18405673758865249,
      "loss": 0.977378249168396,
      "loss_ce": 0.0019753798842430115,
      "loss_iou": 0.439453125,
      "loss_num": 0.01953125,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 108686856,
      "step": 1622
    },
    {
      "epoch": 0.18417021276595744,
      "grad_norm": 35.287025451660156,
      "learning_rate": 5e-05,
      "loss": 1.1317,
      "num_input_tokens_seen": 108752884,
      "step": 1623
    },
    {
      "epoch": 0.18417021276595744,
      "loss": 1.108989953994751,
      "loss_ce": 0.008892316371202469,
      "loss_iou": 0.47265625,
      "loss_num": 0.031005859375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 108752884,
      "step": 1623
    },
    {
      "epoch": 0.18428368794326241,
      "grad_norm": 15.300013542175293,
      "learning_rate": 5e-05,
      "loss": 1.2259,
      "num_input_tokens_seen": 108818816,
      "step": 1624
    },
    {
      "epoch": 0.18428368794326241,
      "loss": 1.406662940979004,
      "loss_ce": 0.005295751616358757,
      "loss_iou": 0.58203125,
      "loss_num": 0.046875,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 108818816,
      "step": 1624
    },
    {
      "epoch": 0.18439716312056736,
      "grad_norm": 20.585519790649414,
      "learning_rate": 5e-05,
      "loss": 1.2382,
      "num_input_tokens_seen": 108886800,
      "step": 1625
    },
    {
      "epoch": 0.18439716312056736,
      "loss": 1.2503730058670044,
      "loss_ce": 0.006232366431504488,
      "loss_iou": 0.5546875,
      "loss_num": 0.0277099609375,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 108886800,
      "step": 1625
    },
    {
      "epoch": 0.18451063829787234,
      "grad_norm": 29.26666831970215,
      "learning_rate": 5e-05,
      "loss": 1.5027,
      "num_input_tokens_seen": 108953988,
      "step": 1626
    },
    {
      "epoch": 0.18451063829787234,
      "loss": 1.3807567358016968,
      "loss_ce": 0.004291948862373829,
      "loss_iou": 0.57421875,
      "loss_num": 0.04541015625,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 108953988,
      "step": 1626
    },
    {
      "epoch": 0.1846241134751773,
      "grad_norm": 19.23426628112793,
      "learning_rate": 5e-05,
      "loss": 1.5622,
      "num_input_tokens_seen": 109021336,
      "step": 1627
    },
    {
      "epoch": 0.1846241134751773,
      "loss": 1.6081266403198242,
      "loss_ce": 0.006564149633049965,
      "loss_iou": 0.7265625,
      "loss_num": 0.02978515625,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 109021336,
      "step": 1627
    },
    {
      "epoch": 0.18473758865248227,
      "grad_norm": 11.037571907043457,
      "learning_rate": 5e-05,
      "loss": 1.1018,
      "num_input_tokens_seen": 109087312,
      "step": 1628
    },
    {
      "epoch": 0.18473758865248227,
      "loss": 0.8290767073631287,
      "loss_ce": 0.005346264690160751,
      "loss_iou": 0.349609375,
      "loss_num": 0.0247802734375,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 109087312,
      "step": 1628
    },
    {
      "epoch": 0.18485106382978722,
      "grad_norm": 21.077878952026367,
      "learning_rate": 5e-05,
      "loss": 1.0276,
      "num_input_tokens_seen": 109153640,
      "step": 1629
    },
    {
      "epoch": 0.18485106382978722,
      "loss": 1.2092170715332031,
      "loss_ce": 0.0036201688926666975,
      "loss_iou": 0.5234375,
      "loss_num": 0.0311279296875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 109153640,
      "step": 1629
    },
    {
      "epoch": 0.1849645390070922,
      "grad_norm": 18.93941879272461,
      "learning_rate": 5e-05,
      "loss": 1.5336,
      "num_input_tokens_seen": 109219788,
      "step": 1630
    },
    {
      "epoch": 0.1849645390070922,
      "loss": 1.4332259893417358,
      "loss_ce": 0.006956484634429216,
      "loss_iou": 0.59765625,
      "loss_num": 0.045654296875,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 109219788,
      "step": 1630
    },
    {
      "epoch": 0.18507801418439715,
      "grad_norm": 24.635669708251953,
      "learning_rate": 5e-05,
      "loss": 1.2493,
      "num_input_tokens_seen": 109287360,
      "step": 1631
    },
    {
      "epoch": 0.18507801418439715,
      "loss": 1.2972691059112549,
      "loss_ce": 0.0008823263924568892,
      "loss_iou": 0.5625,
      "loss_num": 0.03369140625,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 109287360,
      "step": 1631
    },
    {
      "epoch": 0.18519148936170213,
      "grad_norm": 17.506877899169922,
      "learning_rate": 5e-05,
      "loss": 1.5662,
      "num_input_tokens_seen": 109354540,
      "step": 1632
    },
    {
      "epoch": 0.18519148936170213,
      "loss": 1.6265220642089844,
      "loss_ce": 0.009334590286016464,
      "loss_iou": 0.64453125,
      "loss_num": 0.06494140625,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 109354540,
      "step": 1632
    },
    {
      "epoch": 0.1853049645390071,
      "grad_norm": 14.900285720825195,
      "learning_rate": 5e-05,
      "loss": 0.99,
      "num_input_tokens_seen": 109420612,
      "step": 1633
    },
    {
      "epoch": 0.1853049645390071,
      "loss": 1.0839365720748901,
      "loss_ce": 0.004346773028373718,
      "loss_iou": 0.435546875,
      "loss_num": 0.041748046875,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 109420612,
      "step": 1633
    },
    {
      "epoch": 0.18541843971631206,
      "grad_norm": 23.702669143676758,
      "learning_rate": 5e-05,
      "loss": 1.2578,
      "num_input_tokens_seen": 109488804,
      "step": 1634
    },
    {
      "epoch": 0.18541843971631206,
      "loss": 1.2387924194335938,
      "loss_ce": 0.004905710928142071,
      "loss_iou": 0.52734375,
      "loss_num": 0.03564453125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 109488804,
      "step": 1634
    },
    {
      "epoch": 0.18553191489361703,
      "grad_norm": 20.898670196533203,
      "learning_rate": 5e-05,
      "loss": 1.2556,
      "num_input_tokens_seen": 109555292,
      "step": 1635
    },
    {
      "epoch": 0.18553191489361703,
      "loss": 1.2540702819824219,
      "loss_ce": 0.005535012111067772,
      "loss_iou": 0.53125,
      "loss_num": 0.037353515625,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 109555292,
      "step": 1635
    },
    {
      "epoch": 0.18564539007092198,
      "grad_norm": 18.626014709472656,
      "learning_rate": 5e-05,
      "loss": 1.3715,
      "num_input_tokens_seen": 109622712,
      "step": 1636
    },
    {
      "epoch": 0.18564539007092198,
      "loss": 1.4549720287322998,
      "loss_ce": 0.003311872947961092,
      "loss_iou": 0.6328125,
      "loss_num": 0.03662109375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 109622712,
      "step": 1636
    },
    {
      "epoch": 0.18575886524822696,
      "grad_norm": 20.599397659301758,
      "learning_rate": 5e-05,
      "loss": 1.1684,
      "num_input_tokens_seen": 109689928,
      "step": 1637
    },
    {
      "epoch": 0.18575886524822696,
      "loss": 1.2156239748001099,
      "loss_ce": 0.006883732974529266,
      "loss_iou": 0.51171875,
      "loss_num": 0.03662109375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 109689928,
      "step": 1637
    },
    {
      "epoch": 0.1858723404255319,
      "grad_norm": 18.661998748779297,
      "learning_rate": 5e-05,
      "loss": 1.1376,
      "num_input_tokens_seen": 109756832,
      "step": 1638
    },
    {
      "epoch": 0.1858723404255319,
      "loss": 1.2948896884918213,
      "loss_ce": 0.0032637924887239933,
      "loss_iou": 0.57421875,
      "loss_num": 0.02880859375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 109756832,
      "step": 1638
    },
    {
      "epoch": 0.1859858156028369,
      "grad_norm": 25.419279098510742,
      "learning_rate": 5e-05,
      "loss": 1.2996,
      "num_input_tokens_seen": 109823364,
      "step": 1639
    },
    {
      "epoch": 0.1859858156028369,
      "loss": 1.2005786895751953,
      "loss_ce": 0.005754538346081972,
      "loss_iou": 0.5078125,
      "loss_num": 0.0361328125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 109823364,
      "step": 1639
    },
    {
      "epoch": 0.18609929078014184,
      "grad_norm": 20.073354721069336,
      "learning_rate": 5e-05,
      "loss": 1.5091,
      "num_input_tokens_seen": 109890800,
      "step": 1640
    },
    {
      "epoch": 0.18609929078014184,
      "loss": 1.5907877683639526,
      "loss_ce": 0.0019205792341381311,
      "loss_iou": 0.66796875,
      "loss_num": 0.050537109375,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 109890800,
      "step": 1640
    },
    {
      "epoch": 0.18621276595744682,
      "grad_norm": 13.761063575744629,
      "learning_rate": 5e-05,
      "loss": 1.1252,
      "num_input_tokens_seen": 109958156,
      "step": 1641
    },
    {
      "epoch": 0.18621276595744682,
      "loss": 1.0883026123046875,
      "loss_ce": 0.006759644020348787,
      "loss_iou": 0.486328125,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 109958156,
      "step": 1641
    },
    {
      "epoch": 0.18632624113475177,
      "grad_norm": 34.43982696533203,
      "learning_rate": 5e-05,
      "loss": 1.3524,
      "num_input_tokens_seen": 110025144,
      "step": 1642
    },
    {
      "epoch": 0.18632624113475177,
      "loss": 1.404420256614685,
      "loss_ce": 0.012818708084523678,
      "loss_iou": 0.578125,
      "loss_num": 0.04736328125,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 110025144,
      "step": 1642
    },
    {
      "epoch": 0.18643971631205675,
      "grad_norm": 12.8724946975708,
      "learning_rate": 5e-05,
      "loss": 1.6577,
      "num_input_tokens_seen": 110092736,
      "step": 1643
    },
    {
      "epoch": 0.18643971631205675,
      "loss": 1.6808761358261108,
      "loss_ce": 0.00411835266277194,
      "loss_iou": 0.734375,
      "loss_num": 0.04150390625,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 110092736,
      "step": 1643
    },
    {
      "epoch": 0.1865531914893617,
      "grad_norm": 14.577681541442871,
      "learning_rate": 5e-05,
      "loss": 1.5167,
      "num_input_tokens_seen": 110160248,
      "step": 1644
    },
    {
      "epoch": 0.1865531914893617,
      "loss": 1.7106404304504395,
      "loss_ce": 0.0026326351799070835,
      "loss_iou": 0.765625,
      "loss_num": 0.0361328125,
      "loss_xval": 1.7109375,
      "num_input_tokens_seen": 110160248,
      "step": 1644
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 10.538854598999023,
      "learning_rate": 5e-05,
      "loss": 1.0986,
      "num_input_tokens_seen": 110228476,
      "step": 1645
    },
    {
      "epoch": 0.18666666666666668,
      "loss": 1.2154713869094849,
      "loss_ce": 0.0069752465933561325,
      "loss_iou": 0.546875,
      "loss_num": 0.0234375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 110228476,
      "step": 1645
    },
    {
      "epoch": 0.18678014184397163,
      "grad_norm": 14.77678108215332,
      "learning_rate": 5e-05,
      "loss": 1.1078,
      "num_input_tokens_seen": 110295800,
      "step": 1646
    },
    {
      "epoch": 0.18678014184397163,
      "loss": 1.0257633924484253,
      "loss_ce": 0.007696910761296749,
      "loss_iou": 0.44140625,
      "loss_num": 0.0272216796875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 110295800,
      "step": 1646
    },
    {
      "epoch": 0.1868936170212766,
      "grad_norm": 22.722545623779297,
      "learning_rate": 5e-05,
      "loss": 1.4386,
      "num_input_tokens_seen": 110363340,
      "step": 1647
    },
    {
      "epoch": 0.1868936170212766,
      "loss": 1.3323941230773926,
      "loss_ce": 0.0062222289852797985,
      "loss_iou": 0.59375,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 110363340,
      "step": 1647
    },
    {
      "epoch": 0.18700709219858155,
      "grad_norm": 28.227848052978516,
      "learning_rate": 5e-05,
      "loss": 1.3619,
      "num_input_tokens_seen": 110429576,
      "step": 1648
    },
    {
      "epoch": 0.18700709219858155,
      "loss": 1.2489652633666992,
      "loss_ce": 0.004397368524223566,
      "loss_iou": 0.5234375,
      "loss_num": 0.039306640625,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 110429576,
      "step": 1648
    },
    {
      "epoch": 0.18712056737588653,
      "grad_norm": 17.580652236938477,
      "learning_rate": 5e-05,
      "loss": 1.1096,
      "num_input_tokens_seen": 110496348,
      "step": 1649
    },
    {
      "epoch": 0.18712056737588653,
      "loss": 1.1184566020965576,
      "loss_ce": 0.0022457074373960495,
      "loss_iou": 0.484375,
      "loss_num": 0.029296875,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 110496348,
      "step": 1649
    },
    {
      "epoch": 0.18723404255319148,
      "grad_norm": 17.233606338500977,
      "learning_rate": 5e-05,
      "loss": 1.4307,
      "num_input_tokens_seen": 110563136,
      "step": 1650
    },
    {
      "epoch": 0.18723404255319148,
      "loss": 1.426419734954834,
      "loss_ce": 0.006497839465737343,
      "loss_iou": 0.625,
      "loss_num": 0.033203125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 110563136,
      "step": 1650
    },
    {
      "epoch": 0.18734751773049646,
      "grad_norm": 11.442927360534668,
      "learning_rate": 5e-05,
      "loss": 1.0463,
      "num_input_tokens_seen": 110629620,
      "step": 1651
    },
    {
      "epoch": 0.18734751773049646,
      "loss": 1.1278212070465088,
      "loss_ce": 0.005934061482548714,
      "loss_iou": 0.478515625,
      "loss_num": 0.032958984375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 110629620,
      "step": 1651
    },
    {
      "epoch": 0.1874609929078014,
      "grad_norm": 21.423107147216797,
      "learning_rate": 5e-05,
      "loss": 1.2342,
      "num_input_tokens_seen": 110695576,
      "step": 1652
    },
    {
      "epoch": 0.1874609929078014,
      "loss": 1.5022265911102295,
      "loss_ce": 0.008085997775197029,
      "loss_iou": 0.64453125,
      "loss_num": 0.04052734375,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 110695576,
      "step": 1652
    },
    {
      "epoch": 0.1875744680851064,
      "grad_norm": 22.562877655029297,
      "learning_rate": 5e-05,
      "loss": 1.4862,
      "num_input_tokens_seen": 110762920,
      "step": 1653
    },
    {
      "epoch": 0.1875744680851064,
      "loss": 1.4415228366851807,
      "loss_ce": 0.004022891167551279,
      "loss_iou": 0.6484375,
      "loss_num": 0.0283203125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 110762920,
      "step": 1653
    },
    {
      "epoch": 0.18768794326241134,
      "grad_norm": 16.337570190429688,
      "learning_rate": 5e-05,
      "loss": 1.2361,
      "num_input_tokens_seen": 110830784,
      "step": 1654
    },
    {
      "epoch": 0.18768794326241134,
      "loss": 1.2852712869644165,
      "loss_ce": 0.0035329891834408045,
      "loss_iou": 0.5703125,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 110830784,
      "step": 1654
    },
    {
      "epoch": 0.18780141843971632,
      "grad_norm": 26.764375686645508,
      "learning_rate": 5e-05,
      "loss": 1.1844,
      "num_input_tokens_seen": 110896744,
      "step": 1655
    },
    {
      "epoch": 0.18780141843971632,
      "loss": 1.0933258533477783,
      "loss_ce": 0.008853113278746605,
      "loss_iou": 0.4765625,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 110896744,
      "step": 1655
    },
    {
      "epoch": 0.18791489361702127,
      "grad_norm": 16.850025177001953,
      "learning_rate": 5e-05,
      "loss": 1.4322,
      "num_input_tokens_seen": 110963876,
      "step": 1656
    },
    {
      "epoch": 0.18791489361702127,
      "loss": 1.5121724605560303,
      "loss_ce": 0.006313122343271971,
      "loss_iou": 0.64453125,
      "loss_num": 0.043212890625,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 110963876,
      "step": 1656
    },
    {
      "epoch": 0.18802836879432624,
      "grad_norm": 33.735992431640625,
      "learning_rate": 5e-05,
      "loss": 1.3157,
      "num_input_tokens_seen": 111031420,
      "step": 1657
    },
    {
      "epoch": 0.18802836879432624,
      "loss": 1.2254691123962402,
      "loss_ce": 0.003301165997982025,
      "loss_iou": 0.53125,
      "loss_num": 0.031494140625,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 111031420,
      "step": 1657
    },
    {
      "epoch": 0.1881418439716312,
      "grad_norm": 14.95097827911377,
      "learning_rate": 5e-05,
      "loss": 1.3702,
      "num_input_tokens_seen": 111097732,
      "step": 1658
    },
    {
      "epoch": 0.1881418439716312,
      "loss": 1.3492581844329834,
      "loss_ce": 0.003799297846853733,
      "loss_iou": 0.578125,
      "loss_num": 0.03857421875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 111097732,
      "step": 1658
    },
    {
      "epoch": 0.18825531914893617,
      "grad_norm": 22.6412296295166,
      "learning_rate": 5e-05,
      "loss": 1.2949,
      "num_input_tokens_seen": 111164500,
      "step": 1659
    },
    {
      "epoch": 0.18825531914893617,
      "loss": 1.360837697982788,
      "loss_ce": 0.008298736065626144,
      "loss_iou": 0.6015625,
      "loss_num": 0.0291748046875,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 111164500,
      "step": 1659
    },
    {
      "epoch": 0.18836879432624112,
      "grad_norm": 23.46202278137207,
      "learning_rate": 5e-05,
      "loss": 1.3362,
      "num_input_tokens_seen": 111231224,
      "step": 1660
    },
    {
      "epoch": 0.18836879432624112,
      "loss": 1.3119336366653442,
      "loss_ce": 0.005293040536344051,
      "loss_iou": 0.5625,
      "loss_num": 0.036376953125,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 111231224,
      "step": 1660
    },
    {
      "epoch": 0.1884822695035461,
      "grad_norm": 21.336225509643555,
      "learning_rate": 5e-05,
      "loss": 1.3919,
      "num_input_tokens_seen": 111298228,
      "step": 1661
    },
    {
      "epoch": 0.1884822695035461,
      "loss": 1.3461365699768066,
      "loss_ce": 0.0077577270567417145,
      "loss_iou": 0.57421875,
      "loss_num": 0.037841796875,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 111298228,
      "step": 1661
    },
    {
      "epoch": 0.18859574468085105,
      "grad_norm": 22.136409759521484,
      "learning_rate": 5e-05,
      "loss": 1.1467,
      "num_input_tokens_seen": 111364936,
      "step": 1662
    },
    {
      "epoch": 0.18859574468085105,
      "loss": 1.1325156688690186,
      "loss_ce": 0.00898041669279337,
      "loss_iou": 0.455078125,
      "loss_num": 0.04248046875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 111364936,
      "step": 1662
    },
    {
      "epoch": 0.18870921985815603,
      "grad_norm": 15.929706573486328,
      "learning_rate": 5e-05,
      "loss": 1.2353,
      "num_input_tokens_seen": 111431436,
      "step": 1663
    },
    {
      "epoch": 0.18870921985815603,
      "loss": 1.1875219345092773,
      "loss_ce": 0.006125442683696747,
      "loss_iou": 0.515625,
      "loss_num": 0.029296875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 111431436,
      "step": 1663
    },
    {
      "epoch": 0.18882269503546098,
      "grad_norm": 21.34540557861328,
      "learning_rate": 5e-05,
      "loss": 1.2481,
      "num_input_tokens_seen": 111496616,
      "step": 1664
    },
    {
      "epoch": 0.18882269503546098,
      "loss": 1.1187171936035156,
      "loss_ce": 0.0034828404895961285,
      "loss_iou": 0.4609375,
      "loss_num": 0.039306640625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 111496616,
      "step": 1664
    },
    {
      "epoch": 0.18893617021276596,
      "grad_norm": 19.283220291137695,
      "learning_rate": 5e-05,
      "loss": 1.2773,
      "num_input_tokens_seen": 111563564,
      "step": 1665
    },
    {
      "epoch": 0.18893617021276596,
      "loss": 1.1571986675262451,
      "loss_ce": 0.004366612061858177,
      "loss_iou": 0.494140625,
      "loss_num": 0.032958984375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 111563564,
      "step": 1665
    },
    {
      "epoch": 0.1890496453900709,
      "grad_norm": 15.66767692565918,
      "learning_rate": 5e-05,
      "loss": 1.442,
      "num_input_tokens_seen": 111631216,
      "step": 1666
    },
    {
      "epoch": 0.1890496453900709,
      "loss": 1.5394831895828247,
      "loss_ce": 0.004326934460550547,
      "loss_iou": 0.67578125,
      "loss_num": 0.036376953125,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 111631216,
      "step": 1666
    },
    {
      "epoch": 0.1891631205673759,
      "grad_norm": 14.676895141601562,
      "learning_rate": 5e-05,
      "loss": 1.0812,
      "num_input_tokens_seen": 111697812,
      "step": 1667
    },
    {
      "epoch": 0.1891631205673759,
      "loss": 1.1796607971191406,
      "loss_ce": 0.0014382248045876622,
      "loss_iou": 0.50390625,
      "loss_num": 0.0341796875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 111697812,
      "step": 1667
    },
    {
      "epoch": 0.18927659574468086,
      "grad_norm": 18.990928649902344,
      "learning_rate": 5e-05,
      "loss": 1.2285,
      "num_input_tokens_seen": 111764588,
      "step": 1668
    },
    {
      "epoch": 0.18927659574468086,
      "loss": 1.4197485446929932,
      "loss_ce": 0.009592396207153797,
      "loss_iou": 0.6015625,
      "loss_num": 0.04150390625,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 111764588,
      "step": 1668
    },
    {
      "epoch": 0.18939007092198581,
      "grad_norm": 15.479034423828125,
      "learning_rate": 5e-05,
      "loss": 1.2349,
      "num_input_tokens_seen": 111832488,
      "step": 1669
    },
    {
      "epoch": 0.18939007092198581,
      "loss": 1.4886137247085571,
      "loss_ce": 0.006191832013428211,
      "loss_iou": 0.61328125,
      "loss_num": 0.0517578125,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 111832488,
      "step": 1669
    },
    {
      "epoch": 0.1895035460992908,
      "grad_norm": 18.85551643371582,
      "learning_rate": 5e-05,
      "loss": 1.1675,
      "num_input_tokens_seen": 111900300,
      "step": 1670
    },
    {
      "epoch": 0.1895035460992908,
      "loss": 1.223719835281372,
      "loss_ce": 0.002528457436710596,
      "loss_iou": 0.53515625,
      "loss_num": 0.0306396484375,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 111900300,
      "step": 1670
    },
    {
      "epoch": 0.18961702127659574,
      "grad_norm": 29.183124542236328,
      "learning_rate": 5e-05,
      "loss": 1.3815,
      "num_input_tokens_seen": 111966832,
      "step": 1671
    },
    {
      "epoch": 0.18961702127659574,
      "loss": 1.504401445388794,
      "loss_ce": 0.004401517566293478,
      "loss_iou": 0.6328125,
      "loss_num": 0.04638671875,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 111966832,
      "step": 1671
    },
    {
      "epoch": 0.18973049645390072,
      "grad_norm": 18.514461517333984,
      "learning_rate": 5e-05,
      "loss": 1.4771,
      "num_input_tokens_seen": 112034020,
      "step": 1672
    },
    {
      "epoch": 0.18973049645390072,
      "loss": 1.5167720317840576,
      "loss_ce": 0.003588535822927952,
      "loss_iou": 0.671875,
      "loss_num": 0.03369140625,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 112034020,
      "step": 1672
    },
    {
      "epoch": 0.18984397163120567,
      "grad_norm": 15.223777770996094,
      "learning_rate": 5e-05,
      "loss": 1.2425,
      "num_input_tokens_seen": 112101508,
      "step": 1673
    },
    {
      "epoch": 0.18984397163120567,
      "loss": 1.1865041255950928,
      "loss_ce": 0.006816571578383446,
      "loss_iou": 0.51953125,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 112101508,
      "step": 1673
    },
    {
      "epoch": 0.18995744680851065,
      "grad_norm": 16.0474796295166,
      "learning_rate": 5e-05,
      "loss": 1.2679,
      "num_input_tokens_seen": 112167748,
      "step": 1674
    },
    {
      "epoch": 0.18995744680851065,
      "loss": 1.2454192638397217,
      "loss_ce": 0.007137962616980076,
      "loss_iou": 0.51953125,
      "loss_num": 0.03955078125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 112167748,
      "step": 1674
    },
    {
      "epoch": 0.1900709219858156,
      "grad_norm": 19.417695999145508,
      "learning_rate": 5e-05,
      "loss": 1.3355,
      "num_input_tokens_seen": 112234756,
      "step": 1675
    },
    {
      "epoch": 0.1900709219858156,
      "loss": 1.4162635803222656,
      "loss_ce": 0.0061072856187820435,
      "loss_iou": 0.6015625,
      "loss_num": 0.0419921875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 112234756,
      "step": 1675
    },
    {
      "epoch": 0.19018439716312058,
      "grad_norm": 28.804231643676758,
      "learning_rate": 5e-05,
      "loss": 1.3527,
      "num_input_tokens_seen": 112301980,
      "step": 1676
    },
    {
      "epoch": 0.19018439716312058,
      "loss": 1.2331308126449585,
      "loss_ce": 0.005835899617522955,
      "loss_iou": 0.51953125,
      "loss_num": 0.037353515625,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 112301980,
      "step": 1676
    },
    {
      "epoch": 0.19029787234042553,
      "grad_norm": 19.96610450744629,
      "learning_rate": 5e-05,
      "loss": 1.4948,
      "num_input_tokens_seen": 112369232,
      "step": 1677
    },
    {
      "epoch": 0.19029787234042553,
      "loss": 1.4436976909637451,
      "loss_ce": 0.005221179686486721,
      "loss_iou": 0.609375,
      "loss_num": 0.043701171875,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 112369232,
      "step": 1677
    },
    {
      "epoch": 0.1904113475177305,
      "grad_norm": 11.972900390625,
      "learning_rate": 5e-05,
      "loss": 1.3387,
      "num_input_tokens_seen": 112436352,
      "step": 1678
    },
    {
      "epoch": 0.1904113475177305,
      "loss": 1.4411060810089111,
      "loss_ce": 0.0055591147392988205,
      "loss_iou": 0.578125,
      "loss_num": 0.056396484375,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 112436352,
      "step": 1678
    },
    {
      "epoch": 0.19052482269503546,
      "grad_norm": 19.853042602539062,
      "learning_rate": 5e-05,
      "loss": 1.281,
      "num_input_tokens_seen": 112503256,
      "step": 1679
    },
    {
      "epoch": 0.19052482269503546,
      "loss": 1.1645005941390991,
      "loss_ce": 0.006328014191240072,
      "loss_iou": 0.48828125,
      "loss_num": 0.0361328125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 112503256,
      "step": 1679
    },
    {
      "epoch": 0.19063829787234043,
      "grad_norm": 18.484529495239258,
      "learning_rate": 5e-05,
      "loss": 1.3236,
      "num_input_tokens_seen": 112570000,
      "step": 1680
    },
    {
      "epoch": 0.19063829787234043,
      "loss": 1.3886326551437378,
      "loss_ce": 0.005820186343044043,
      "loss_iou": 0.62109375,
      "loss_num": 0.0277099609375,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 112570000,
      "step": 1680
    },
    {
      "epoch": 0.19075177304964538,
      "grad_norm": 29.202592849731445,
      "learning_rate": 5e-05,
      "loss": 1.3274,
      "num_input_tokens_seen": 112638396,
      "step": 1681
    },
    {
      "epoch": 0.19075177304964538,
      "loss": 1.428154706954956,
      "loss_ce": 0.0033500685822218657,
      "loss_iou": 0.60546875,
      "loss_num": 0.042236328125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 112638396,
      "step": 1681
    },
    {
      "epoch": 0.19086524822695036,
      "grad_norm": 40.17573928833008,
      "learning_rate": 5e-05,
      "loss": 1.2996,
      "num_input_tokens_seen": 112704828,
      "step": 1682
    },
    {
      "epoch": 0.19086524822695036,
      "loss": 1.3461945056915283,
      "loss_ce": 0.005374235101044178,
      "loss_iou": 0.5703125,
      "loss_num": 0.039306640625,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 112704828,
      "step": 1682
    },
    {
      "epoch": 0.1909787234042553,
      "grad_norm": 18.19953155517578,
      "learning_rate": 5e-05,
      "loss": 1.3253,
      "num_input_tokens_seen": 112771744,
      "step": 1683
    },
    {
      "epoch": 0.1909787234042553,
      "loss": 1.5235543251037598,
      "loss_ce": 0.006464508827775717,
      "loss_iou": 0.640625,
      "loss_num": 0.04736328125,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 112771744,
      "step": 1683
    },
    {
      "epoch": 0.1910921985815603,
      "grad_norm": 29.713281631469727,
      "learning_rate": 5e-05,
      "loss": 1.1494,
      "num_input_tokens_seen": 112837912,
      "step": 1684
    },
    {
      "epoch": 0.1910921985815603,
      "loss": 1.1366233825683594,
      "loss_ce": 0.007717113941907883,
      "loss_iou": 0.51953125,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 112837912,
      "step": 1684
    },
    {
      "epoch": 0.19120567375886524,
      "grad_norm": 15.36131477355957,
      "learning_rate": 5e-05,
      "loss": 1.4514,
      "num_input_tokens_seen": 112904412,
      "step": 1685
    },
    {
      "epoch": 0.19120567375886524,
      "loss": 1.3292608261108398,
      "loss_ce": 0.011389661580324173,
      "loss_iou": 0.54296875,
      "loss_num": 0.046630859375,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 112904412,
      "step": 1685
    },
    {
      "epoch": 0.19131914893617022,
      "grad_norm": 15.591888427734375,
      "learning_rate": 5e-05,
      "loss": 1.2111,
      "num_input_tokens_seen": 112971252,
      "step": 1686
    },
    {
      "epoch": 0.19131914893617022,
      "loss": 1.3056919574737549,
      "loss_ce": 0.0019810586236417294,
      "loss_iou": 0.5546875,
      "loss_num": 0.0380859375,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 112971252,
      "step": 1686
    },
    {
      "epoch": 0.19143262411347517,
      "grad_norm": 24.945621490478516,
      "learning_rate": 5e-05,
      "loss": 1.234,
      "num_input_tokens_seen": 113037980,
      "step": 1687
    },
    {
      "epoch": 0.19143262411347517,
      "loss": 1.2535665035247803,
      "loss_ce": 0.0033224422950297594,
      "loss_iou": 0.55859375,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 113037980,
      "step": 1687
    },
    {
      "epoch": 0.19154609929078015,
      "grad_norm": 16.14949607849121,
      "learning_rate": 5e-05,
      "loss": 1.4235,
      "num_input_tokens_seen": 113104156,
      "step": 1688
    },
    {
      "epoch": 0.19154609929078015,
      "loss": 1.587717890739441,
      "loss_ce": 0.014780894853174686,
      "loss_iou": 0.61328125,
      "loss_num": 0.06884765625,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 113104156,
      "step": 1688
    },
    {
      "epoch": 0.1916595744680851,
      "grad_norm": 11.250288009643555,
      "learning_rate": 5e-05,
      "loss": 1.203,
      "num_input_tokens_seen": 113170892,
      "step": 1689
    },
    {
      "epoch": 0.1916595744680851,
      "loss": 1.1405432224273682,
      "loss_ce": 0.008219091221690178,
      "loss_iou": 0.435546875,
      "loss_num": 0.052001953125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 113170892,
      "step": 1689
    },
    {
      "epoch": 0.19177304964539008,
      "grad_norm": 16.416149139404297,
      "learning_rate": 5e-05,
      "loss": 1.1228,
      "num_input_tokens_seen": 113237608,
      "step": 1690
    },
    {
      "epoch": 0.19177304964539008,
      "loss": 1.146996021270752,
      "loss_ce": 0.004906164016574621,
      "loss_iou": 0.5,
      "loss_num": 0.028076171875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 113237608,
      "step": 1690
    },
    {
      "epoch": 0.19188652482269503,
      "grad_norm": 12.46465015411377,
      "learning_rate": 5e-05,
      "loss": 1.2723,
      "num_input_tokens_seen": 113304124,
      "step": 1691
    },
    {
      "epoch": 0.19188652482269503,
      "loss": 1.2159466743469238,
      "loss_ce": 0.005283824168145657,
      "loss_iou": 0.52734375,
      "loss_num": 0.03076171875,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 113304124,
      "step": 1691
    },
    {
      "epoch": 0.192,
      "grad_norm": 15.647456169128418,
      "learning_rate": 5e-05,
      "loss": 1.1078,
      "num_input_tokens_seen": 113371184,
      "step": 1692
    },
    {
      "epoch": 0.192,
      "loss": 1.1851398944854736,
      "loss_ce": 0.005452383309602737,
      "loss_iou": 0.49609375,
      "loss_num": 0.03759765625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 113371184,
      "step": 1692
    },
    {
      "epoch": 0.19211347517730495,
      "grad_norm": 25.9409122467041,
      "learning_rate": 5e-05,
      "loss": 1.3153,
      "num_input_tokens_seen": 113438196,
      "step": 1693
    },
    {
      "epoch": 0.19211347517730495,
      "loss": 1.2012083530426025,
      "loss_ce": 0.006872487720102072,
      "loss_iou": 0.515625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 113438196,
      "step": 1693
    },
    {
      "epoch": 0.19222695035460993,
      "grad_norm": 16.526025772094727,
      "learning_rate": 5e-05,
      "loss": 1.5445,
      "num_input_tokens_seen": 113505708,
      "step": 1694
    },
    {
      "epoch": 0.19222695035460993,
      "loss": 1.4755330085754395,
      "loss_ce": 0.007759610190987587,
      "loss_iou": 0.64453125,
      "loss_num": 0.035400390625,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 113505708,
      "step": 1694
    },
    {
      "epoch": 0.19234042553191488,
      "grad_norm": 16.354116439819336,
      "learning_rate": 5e-05,
      "loss": 1.1204,
      "num_input_tokens_seen": 113572128,
      "step": 1695
    },
    {
      "epoch": 0.19234042553191488,
      "loss": 1.0528149604797363,
      "loss_ce": 0.0020336846355348825,
      "loss_iou": 0.44921875,
      "loss_num": 0.030517578125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 113572128,
      "step": 1695
    },
    {
      "epoch": 0.19245390070921986,
      "grad_norm": 35.42127990722656,
      "learning_rate": 5e-05,
      "loss": 1.2341,
      "num_input_tokens_seen": 113637996,
      "step": 1696
    },
    {
      "epoch": 0.19245390070921986,
      "loss": 1.1106289625167847,
      "loss_ce": 0.009341118857264519,
      "loss_iou": 0.46484375,
      "loss_num": 0.034423828125,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 113637996,
      "step": 1696
    },
    {
      "epoch": 0.1925673758865248,
      "grad_norm": 25.483407974243164,
      "learning_rate": 5e-05,
      "loss": 1.4541,
      "num_input_tokens_seen": 113704828,
      "step": 1697
    },
    {
      "epoch": 0.1925673758865248,
      "loss": 1.4527971744537354,
      "loss_ce": 0.003090152284130454,
      "loss_iou": 0.64453125,
      "loss_num": 0.03173828125,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 113704828,
      "step": 1697
    },
    {
      "epoch": 0.1926808510638298,
      "grad_norm": 18.90192413330078,
      "learning_rate": 5e-05,
      "loss": 1.1186,
      "num_input_tokens_seen": 113772476,
      "step": 1698
    },
    {
      "epoch": 0.1926808510638298,
      "loss": 1.1777981519699097,
      "loss_ce": 0.004458302166312933,
      "loss_iou": 0.5,
      "loss_num": 0.034423828125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 113772476,
      "step": 1698
    },
    {
      "epoch": 0.19279432624113474,
      "grad_norm": 19.725160598754883,
      "learning_rate": 5e-05,
      "loss": 1.156,
      "num_input_tokens_seen": 113839272,
      "step": 1699
    },
    {
      "epoch": 0.19279432624113474,
      "loss": 1.35038423538208,
      "loss_ce": 0.0027280161157250404,
      "loss_iou": 0.61328125,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 113839272,
      "step": 1699
    },
    {
      "epoch": 0.19290780141843972,
      "grad_norm": 22.01080894470215,
      "learning_rate": 5e-05,
      "loss": 1.3807,
      "num_input_tokens_seen": 113906792,
      "step": 1700
    },
    {
      "epoch": 0.19290780141843972,
      "loss": 1.3796665668487549,
      "loss_ce": 0.005643029231578112,
      "loss_iou": 0.58203125,
      "loss_num": 0.041748046875,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 113906792,
      "step": 1700
    },
    {
      "epoch": 0.19302127659574467,
      "grad_norm": 25.651865005493164,
      "learning_rate": 5e-05,
      "loss": 1.2162,
      "num_input_tokens_seen": 113973192,
      "step": 1701
    },
    {
      "epoch": 0.19302127659574467,
      "loss": 1.156400203704834,
      "loss_ce": 0.005399174056947231,
      "loss_iou": 0.50390625,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 113973192,
      "step": 1701
    },
    {
      "epoch": 0.19313475177304965,
      "grad_norm": 18.555200576782227,
      "learning_rate": 5e-05,
      "loss": 1.5292,
      "num_input_tokens_seen": 114040180,
      "step": 1702
    },
    {
      "epoch": 0.19313475177304965,
      "loss": 1.5176868438720703,
      "loss_ce": 0.005479834973812103,
      "loss_iou": 0.64453125,
      "loss_num": 0.04443359375,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 114040180,
      "step": 1702
    },
    {
      "epoch": 0.19324822695035462,
      "grad_norm": 13.770088195800781,
      "learning_rate": 5e-05,
      "loss": 1.028,
      "num_input_tokens_seen": 114106648,
      "step": 1703
    },
    {
      "epoch": 0.19324822695035462,
      "loss": 1.0677156448364258,
      "loss_ce": 0.007168763782829046,
      "loss_iou": 0.412109375,
      "loss_num": 0.046875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 114106648,
      "step": 1703
    },
    {
      "epoch": 0.19336170212765957,
      "grad_norm": 21.260021209716797,
      "learning_rate": 5e-05,
      "loss": 1.2874,
      "num_input_tokens_seen": 114173840,
      "step": 1704
    },
    {
      "epoch": 0.19336170212765957,
      "loss": 1.301670789718628,
      "loss_ce": 0.005284109152853489,
      "loss_iou": 0.546875,
      "loss_num": 0.039794921875,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 114173840,
      "step": 1704
    },
    {
      "epoch": 0.19347517730496455,
      "grad_norm": 26.535350799560547,
      "learning_rate": 5e-05,
      "loss": 1.411,
      "num_input_tokens_seen": 114240864,
      "step": 1705
    },
    {
      "epoch": 0.19347517730496455,
      "loss": 1.2286016941070557,
      "loss_ce": 0.00448064599186182,
      "loss_iou": 0.53515625,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 114240864,
      "step": 1705
    },
    {
      "epoch": 0.1935886524822695,
      "grad_norm": 20.842607498168945,
      "learning_rate": 5e-05,
      "loss": 1.2102,
      "num_input_tokens_seen": 114308572,
      "step": 1706
    },
    {
      "epoch": 0.1935886524822695,
      "loss": 1.182447910308838,
      "loss_ce": 0.007887464947998524,
      "loss_iou": 0.51171875,
      "loss_num": 0.0308837890625,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 114308572,
      "step": 1706
    },
    {
      "epoch": 0.19370212765957448,
      "grad_norm": 119.2452621459961,
      "learning_rate": 5e-05,
      "loss": 1.4014,
      "num_input_tokens_seen": 114375568,
      "step": 1707
    },
    {
      "epoch": 0.19370212765957448,
      "loss": 1.3544578552246094,
      "loss_ce": 0.003139426466077566,
      "loss_iou": 0.57421875,
      "loss_num": 0.040283203125,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 114375568,
      "step": 1707
    },
    {
      "epoch": 0.19381560283687943,
      "grad_norm": 20.209753036499023,
      "learning_rate": 5e-05,
      "loss": 1.5316,
      "num_input_tokens_seen": 114442512,
      "step": 1708
    },
    {
      "epoch": 0.19381560283687943,
      "loss": 1.3954676389694214,
      "loss_ce": 0.0028895512223243713,
      "loss_iou": 0.59375,
      "loss_num": 0.040771484375,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 114442512,
      "step": 1708
    },
    {
      "epoch": 0.1939290780141844,
      "grad_norm": 22.67782974243164,
      "learning_rate": 5e-05,
      "loss": 1.1327,
      "num_input_tokens_seen": 114509272,
      "step": 1709
    },
    {
      "epoch": 0.1939290780141844,
      "loss": 1.2031066417694092,
      "loss_ce": 0.0033995145931839943,
      "loss_iou": 0.515625,
      "loss_num": 0.033203125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 114509272,
      "step": 1709
    },
    {
      "epoch": 0.19404255319148936,
      "grad_norm": 22.164840698242188,
      "learning_rate": 5e-05,
      "loss": 1.292,
      "num_input_tokens_seen": 114576120,
      "step": 1710
    },
    {
      "epoch": 0.19404255319148936,
      "loss": 1.3279893398284912,
      "loss_ce": 0.0032823323272168636,
      "loss_iou": 0.609375,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 114576120,
      "step": 1710
    },
    {
      "epoch": 0.19415602836879434,
      "grad_norm": 25.800228118896484,
      "learning_rate": 5e-05,
      "loss": 1.1665,
      "num_input_tokens_seen": 114642468,
      "step": 1711
    },
    {
      "epoch": 0.19415602836879434,
      "loss": 1.0129923820495605,
      "loss_ce": 0.004935837350785732,
      "loss_iou": 0.43359375,
      "loss_num": 0.027587890625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 114642468,
      "step": 1711
    },
    {
      "epoch": 0.1942695035460993,
      "grad_norm": 15.754319190979004,
      "learning_rate": 5e-05,
      "loss": 1.4231,
      "num_input_tokens_seen": 114709228,
      "step": 1712
    },
    {
      "epoch": 0.1942695035460993,
      "loss": 1.344604730606079,
      "loss_ce": 0.0032960677053779364,
      "loss_iou": 0.578125,
      "loss_num": 0.03662109375,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 114709228,
      "step": 1712
    },
    {
      "epoch": 0.19438297872340426,
      "grad_norm": 16.612823486328125,
      "learning_rate": 5e-05,
      "loss": 1.171,
      "num_input_tokens_seen": 114776200,
      "step": 1713
    },
    {
      "epoch": 0.19438297872340426,
      "loss": 1.357651710510254,
      "loss_ce": 0.004380137659609318,
      "loss_iou": 0.5234375,
      "loss_num": 0.06103515625,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 114776200,
      "step": 1713
    },
    {
      "epoch": 0.19449645390070922,
      "grad_norm": 28.861591339111328,
      "learning_rate": 5e-05,
      "loss": 1.2444,
      "num_input_tokens_seen": 114843212,
      "step": 1714
    },
    {
      "epoch": 0.19449645390070922,
      "loss": 1.3477126359939575,
      "loss_ce": 0.004939191043376923,
      "loss_iou": 0.5703125,
      "loss_num": 0.040283203125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 114843212,
      "step": 1714
    },
    {
      "epoch": 0.1946099290780142,
      "grad_norm": 16.676233291625977,
      "learning_rate": 5e-05,
      "loss": 1.4155,
      "num_input_tokens_seen": 114908968,
      "step": 1715
    },
    {
      "epoch": 0.1946099290780142,
      "loss": 1.3873295783996582,
      "loss_ce": 0.005493633449077606,
      "loss_iou": 0.59375,
      "loss_num": 0.03955078125,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 114908968,
      "step": 1715
    },
    {
      "epoch": 0.19472340425531914,
      "grad_norm": 8.656182289123535,
      "learning_rate": 5e-05,
      "loss": 1.0927,
      "num_input_tokens_seen": 114975920,
      "step": 1716
    },
    {
      "epoch": 0.19472340425531914,
      "loss": 1.2646894454956055,
      "loss_ce": 0.005900482647120953,
      "loss_iou": 0.5625,
      "loss_num": 0.0263671875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 114975920,
      "step": 1716
    },
    {
      "epoch": 0.19483687943262412,
      "grad_norm": 21.567890167236328,
      "learning_rate": 5e-05,
      "loss": 1.1757,
      "num_input_tokens_seen": 115043192,
      "step": 1717
    },
    {
      "epoch": 0.19483687943262412,
      "loss": 1.2738053798675537,
      "loss_ce": 0.0023209196515381336,
      "loss_iou": 0.5390625,
      "loss_num": 0.0380859375,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 115043192,
      "step": 1717
    },
    {
      "epoch": 0.19495035460992907,
      "grad_norm": 88.20745086669922,
      "learning_rate": 5e-05,
      "loss": 1.3768,
      "num_input_tokens_seen": 115110924,
      "step": 1718
    },
    {
      "epoch": 0.19495035460992907,
      "loss": 1.4456751346588135,
      "loss_ce": 0.0057336678728461266,
      "loss_iou": 0.5859375,
      "loss_num": 0.053955078125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 115110924,
      "step": 1718
    },
    {
      "epoch": 0.19506382978723405,
      "grad_norm": 40.55772018432617,
      "learning_rate": 5e-05,
      "loss": 1.4054,
      "num_input_tokens_seen": 115179268,
      "step": 1719
    },
    {
      "epoch": 0.19506382978723405,
      "loss": 1.302008867263794,
      "loss_ce": 0.004157250747084618,
      "loss_iou": 0.578125,
      "loss_num": 0.0277099609375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 115179268,
      "step": 1719
    },
    {
      "epoch": 0.195177304964539,
      "grad_norm": 16.33257293701172,
      "learning_rate": 5e-05,
      "loss": 1.7202,
      "num_input_tokens_seen": 115245116,
      "step": 1720
    },
    {
      "epoch": 0.195177304964539,
      "loss": 1.7581450939178467,
      "loss_ce": 0.005215449258685112,
      "loss_iou": 0.75390625,
      "loss_num": 0.049072265625,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 115245116,
      "step": 1720
    },
    {
      "epoch": 0.19529078014184398,
      "grad_norm": 16.068077087402344,
      "learning_rate": 5e-05,
      "loss": 1.0174,
      "num_input_tokens_seen": 115311196,
      "step": 1721
    },
    {
      "epoch": 0.19529078014184398,
      "loss": 1.0103051662445068,
      "loss_ce": 0.004934010095894337,
      "loss_iou": 0.45703125,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 115311196,
      "step": 1721
    },
    {
      "epoch": 0.19540425531914893,
      "grad_norm": 25.55165672302246,
      "learning_rate": 5e-05,
      "loss": 1.1954,
      "num_input_tokens_seen": 115377708,
      "step": 1722
    },
    {
      "epoch": 0.19540425531914893,
      "loss": 1.2224678993225098,
      "loss_ce": 0.0027413417119532824,
      "loss_iou": 0.5546875,
      "loss_num": 0.021728515625,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 115377708,
      "step": 1722
    },
    {
      "epoch": 0.1955177304964539,
      "grad_norm": 20.652374267578125,
      "learning_rate": 5e-05,
      "loss": 1.4728,
      "num_input_tokens_seen": 115444136,
      "step": 1723
    },
    {
      "epoch": 0.1955177304964539,
      "loss": 1.3578202724456787,
      "loss_ce": 0.007722592446953058,
      "loss_iou": 0.60546875,
      "loss_num": 0.0274658203125,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 115444136,
      "step": 1723
    },
    {
      "epoch": 0.19563120567375886,
      "grad_norm": 15.003658294677734,
      "learning_rate": 5e-05,
      "loss": 1.1971,
      "num_input_tokens_seen": 115511488,
      "step": 1724
    },
    {
      "epoch": 0.19563120567375886,
      "loss": 1.0364189147949219,
      "loss_ce": 0.0029717572033405304,
      "loss_iou": 0.458984375,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 115511488,
      "step": 1724
    },
    {
      "epoch": 0.19574468085106383,
      "grad_norm": 19.27846908569336,
      "learning_rate": 5e-05,
      "loss": 1.2844,
      "num_input_tokens_seen": 115578780,
      "step": 1725
    },
    {
      "epoch": 0.19574468085106383,
      "loss": 1.1226074695587158,
      "loss_ce": 0.003955148160457611,
      "loss_iou": 0.4609375,
      "loss_num": 0.039794921875,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 115578780,
      "step": 1725
    },
    {
      "epoch": 0.19585815602836879,
      "grad_norm": 18.280553817749023,
      "learning_rate": 5e-05,
      "loss": 1.3653,
      "num_input_tokens_seen": 115645756,
      "step": 1726
    },
    {
      "epoch": 0.19585815602836879,
      "loss": 1.3727915287017822,
      "loss_ce": 0.004627493675798178,
      "loss_iou": 0.62890625,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 115645756,
      "step": 1726
    },
    {
      "epoch": 0.19597163120567376,
      "grad_norm": 22.016294479370117,
      "learning_rate": 5e-05,
      "loss": 1.354,
      "num_input_tokens_seen": 115712748,
      "step": 1727
    },
    {
      "epoch": 0.19597163120567376,
      "loss": 1.3386815786361694,
      "loss_ce": 0.005673801526427269,
      "loss_iou": 0.58984375,
      "loss_num": 0.0308837890625,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 115712748,
      "step": 1727
    },
    {
      "epoch": 0.1960851063829787,
      "grad_norm": 66.15734100341797,
      "learning_rate": 5e-05,
      "loss": 1.039,
      "num_input_tokens_seen": 115778588,
      "step": 1728
    },
    {
      "epoch": 0.1960851063829787,
      "loss": 1.0334794521331787,
      "loss_ce": 0.005159086547791958,
      "loss_iou": 0.43359375,
      "loss_num": 0.032470703125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 115778588,
      "step": 1728
    },
    {
      "epoch": 0.1961985815602837,
      "grad_norm": 21.07693862915039,
      "learning_rate": 5e-05,
      "loss": 1.3242,
      "num_input_tokens_seen": 115846652,
      "step": 1729
    },
    {
      "epoch": 0.1961985815602837,
      "loss": 1.3563997745513916,
      "loss_ce": 0.003372433828189969,
      "loss_iou": 0.578125,
      "loss_num": 0.039306640625,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 115846652,
      "step": 1729
    },
    {
      "epoch": 0.19631205673758864,
      "grad_norm": 27.560728073120117,
      "learning_rate": 5e-05,
      "loss": 1.4708,
      "num_input_tokens_seen": 115913060,
      "step": 1730
    },
    {
      "epoch": 0.19631205673758864,
      "loss": 1.6418298482894897,
      "loss_ce": 0.006392790004611015,
      "loss_iou": 0.6875,
      "loss_num": 0.0517578125,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 115913060,
      "step": 1730
    },
    {
      "epoch": 0.19642553191489362,
      "grad_norm": 32.298885345458984,
      "learning_rate": 5e-05,
      "loss": 1.4156,
      "num_input_tokens_seen": 115980248,
      "step": 1731
    },
    {
      "epoch": 0.19642553191489362,
      "loss": 1.593042016029358,
      "loss_ce": 0.005151314195245504,
      "loss_iou": 0.6796875,
      "loss_num": 0.046142578125,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 115980248,
      "step": 1731
    },
    {
      "epoch": 0.19653900709219857,
      "grad_norm": 128.346435546875,
      "learning_rate": 5e-05,
      "loss": 0.8785,
      "num_input_tokens_seen": 116047260,
      "step": 1732
    },
    {
      "epoch": 0.19653900709219857,
      "loss": 0.8335472941398621,
      "loss_ce": 0.004445720463991165,
      "loss_iou": 0.365234375,
      "loss_num": 0.0196533203125,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 116047260,
      "step": 1732
    },
    {
      "epoch": 0.19665248226950355,
      "grad_norm": 29.716793060302734,
      "learning_rate": 5e-05,
      "loss": 1.2517,
      "num_input_tokens_seen": 116114220,
      "step": 1733
    },
    {
      "epoch": 0.19665248226950355,
      "loss": 1.1885557174682617,
      "loss_ce": 0.006915074773132801,
      "loss_iou": 0.5078125,
      "loss_num": 0.032958984375,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 116114220,
      "step": 1733
    },
    {
      "epoch": 0.1967659574468085,
      "grad_norm": 17.696186065673828,
      "learning_rate": 5e-05,
      "loss": 1.4123,
      "num_input_tokens_seen": 116180900,
      "step": 1734
    },
    {
      "epoch": 0.1967659574468085,
      "loss": 1.4630959033966064,
      "loss_ce": 0.0041115605272352695,
      "loss_iou": 0.66015625,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 116180900,
      "step": 1734
    },
    {
      "epoch": 0.19687943262411348,
      "grad_norm": 11.903861045837402,
      "learning_rate": 5e-05,
      "loss": 1.0934,
      "num_input_tokens_seen": 116247464,
      "step": 1735
    },
    {
      "epoch": 0.19687943262411348,
      "loss": 1.044004201889038,
      "loss_ce": 0.004453391768038273,
      "loss_iou": 0.48828125,
      "loss_num": 0.0128173828125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 116247464,
      "step": 1735
    },
    {
      "epoch": 0.19699290780141843,
      "grad_norm": 13.31932544708252,
      "learning_rate": 5e-05,
      "loss": 1.3653,
      "num_input_tokens_seen": 116315076,
      "step": 1736
    },
    {
      "epoch": 0.19699290780141843,
      "loss": 1.5809226036071777,
      "loss_ce": 0.003774172393605113,
      "loss_iou": 0.64453125,
      "loss_num": 0.0576171875,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 116315076,
      "step": 1736
    },
    {
      "epoch": 0.1971063829787234,
      "grad_norm": 17.473899841308594,
      "learning_rate": 5e-05,
      "loss": 1.3138,
      "num_input_tokens_seen": 116381528,
      "step": 1737
    },
    {
      "epoch": 0.1971063829787234,
      "loss": 1.322992205619812,
      "loss_ce": 0.010980471968650818,
      "loss_iou": 0.51953125,
      "loss_num": 0.054443359375,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 116381528,
      "step": 1737
    },
    {
      "epoch": 0.19721985815602838,
      "grad_norm": 18.33104705810547,
      "learning_rate": 5e-05,
      "loss": 1.2221,
      "num_input_tokens_seen": 116448000,
      "step": 1738
    },
    {
      "epoch": 0.19721985815602838,
      "loss": 1.4808933734893799,
      "loss_ce": 0.006284126080572605,
      "loss_iou": 0.6171875,
      "loss_num": 0.047119140625,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 116448000,
      "step": 1738
    },
    {
      "epoch": 0.19733333333333333,
      "grad_norm": 22.25560760498047,
      "learning_rate": 5e-05,
      "loss": 1.2039,
      "num_input_tokens_seen": 116513564,
      "step": 1739
    },
    {
      "epoch": 0.19733333333333333,
      "loss": 1.2830965518951416,
      "loss_ce": 0.004776197951287031,
      "loss_iou": 0.53515625,
      "loss_num": 0.04150390625,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 116513564,
      "step": 1739
    },
    {
      "epoch": 0.1974468085106383,
      "grad_norm": 19.841951370239258,
      "learning_rate": 5e-05,
      "loss": 1.4124,
      "num_input_tokens_seen": 116581292,
      "step": 1740
    },
    {
      "epoch": 0.1974468085106383,
      "loss": 1.3526756763458252,
      "loss_ce": 0.005995872896164656,
      "loss_iou": 0.5625,
      "loss_num": 0.043701171875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 116581292,
      "step": 1740
    },
    {
      "epoch": 0.19756028368794326,
      "grad_norm": 20.232147216796875,
      "learning_rate": 5e-05,
      "loss": 1.0458,
      "num_input_tokens_seen": 116646684,
      "step": 1741
    },
    {
      "epoch": 0.19756028368794326,
      "loss": 1.1420024633407593,
      "loss_ce": 0.0036662505008280277,
      "loss_iou": 0.48046875,
      "loss_num": 0.03564453125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 116646684,
      "step": 1741
    },
    {
      "epoch": 0.19767375886524824,
      "grad_norm": 17.434062957763672,
      "learning_rate": 5e-05,
      "loss": 1.3846,
      "num_input_tokens_seen": 116714008,
      "step": 1742
    },
    {
      "epoch": 0.19767375886524824,
      "loss": 1.452038288116455,
      "loss_ce": 0.0033077204134315252,
      "loss_iou": 0.62890625,
      "loss_num": 0.037841796875,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 116714008,
      "step": 1742
    },
    {
      "epoch": 0.1977872340425532,
      "grad_norm": 25.967548370361328,
      "learning_rate": 5e-05,
      "loss": 1.393,
      "num_input_tokens_seen": 116781716,
      "step": 1743
    },
    {
      "epoch": 0.1977872340425532,
      "loss": 1.383180022239685,
      "loss_ce": 0.0047620427794754505,
      "loss_iou": 0.56640625,
      "loss_num": 0.049560546875,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 116781716,
      "step": 1743
    },
    {
      "epoch": 0.19790070921985817,
      "grad_norm": 16.74950408935547,
      "learning_rate": 5e-05,
      "loss": 1.1474,
      "num_input_tokens_seen": 116847944,
      "step": 1744
    },
    {
      "epoch": 0.19790070921985817,
      "loss": 1.2415571212768555,
      "loss_ce": 0.006693962030112743,
      "loss_iou": 0.55859375,
      "loss_num": 0.02392578125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 116847944,
      "step": 1744
    },
    {
      "epoch": 0.19801418439716312,
      "grad_norm": 15.714592933654785,
      "learning_rate": 5e-05,
      "loss": 1.0848,
      "num_input_tokens_seen": 116914084,
      "step": 1745
    },
    {
      "epoch": 0.19801418439716312,
      "loss": 1.2406278848648071,
      "loss_ce": 0.00967083964496851,
      "loss_iou": 0.515625,
      "loss_num": 0.03955078125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 116914084,
      "step": 1745
    },
    {
      "epoch": 0.1981276595744681,
      "grad_norm": 20.423141479492188,
      "learning_rate": 5e-05,
      "loss": 1.5052,
      "num_input_tokens_seen": 116981780,
      "step": 1746
    },
    {
      "epoch": 0.1981276595744681,
      "loss": 1.7014684677124023,
      "loss_ce": 0.007132485508918762,
      "loss_iou": 0.71484375,
      "loss_num": 0.052734375,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 116981780,
      "step": 1746
    },
    {
      "epoch": 0.19824113475177305,
      "grad_norm": 31.569839477539062,
      "learning_rate": 5e-05,
      "loss": 1.1947,
      "num_input_tokens_seen": 117049368,
      "step": 1747
    },
    {
      "epoch": 0.19824113475177305,
      "loss": 1.2534644603729248,
      "loss_ce": 0.005417568609118462,
      "loss_iou": 0.55859375,
      "loss_num": 0.0264892578125,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 117049368,
      "step": 1747
    },
    {
      "epoch": 0.19835460992907802,
      "grad_norm": 15.614721298217773,
      "learning_rate": 5e-05,
      "loss": 1.4639,
      "num_input_tokens_seen": 117115872,
      "step": 1748
    },
    {
      "epoch": 0.19835460992907802,
      "loss": 1.4461586475372314,
      "loss_ce": 0.007193735335022211,
      "loss_iou": 0.6171875,
      "loss_num": 0.041259765625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 117115872,
      "step": 1748
    },
    {
      "epoch": 0.19846808510638297,
      "grad_norm": 18.371938705444336,
      "learning_rate": 5e-05,
      "loss": 1.1827,
      "num_input_tokens_seen": 117182736,
      "step": 1749
    },
    {
      "epoch": 0.19846808510638297,
      "loss": 1.2605276107788086,
      "loss_ce": 0.009062789380550385,
      "loss_iou": 0.51953125,
      "loss_num": 0.04248046875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 117182736,
      "step": 1749
    },
    {
      "epoch": 0.19858156028368795,
      "grad_norm": 32.867008209228516,
      "learning_rate": 5e-05,
      "loss": 1.5277,
      "num_input_tokens_seen": 117249676,
      "step": 1750
    },
    {
      "epoch": 0.19858156028368795,
      "eval_seeclick_CIoU": 0.3530767112970352,
      "eval_seeclick_GIoU": 0.33150814473629,
      "eval_seeclick_IoU": 0.4367484599351883,
      "eval_seeclick_MAE_all": 0.15597125887870789,
      "eval_seeclick_MAE_h": 0.09907115623354912,
      "eval_seeclick_MAE_w": 0.10889381915330887,
      "eval_seeclick_MAE_x_boxes": 0.221473790705204,
      "eval_seeclick_MAE_y_boxes": 0.12292592972517014,
      "eval_seeclick_NUM_probability": 0.9987908005714417,
      "eval_seeclick_inside_bbox": 0.6614583432674408,
      "eval_seeclick_loss": 2.6169049739837646,
      "eval_seeclick_loss_ce": 0.014663743320852518,
      "eval_seeclick_loss_iou": 0.9075927734375,
      "eval_seeclick_loss_num": 0.1532440185546875,
      "eval_seeclick_loss_xval": 2.58154296875,
      "eval_seeclick_runtime": 70.1905,
      "eval_seeclick_samples_per_second": 0.67,
      "eval_seeclick_steps_per_second": 0.028,
      "num_input_tokens_seen": 117249676,
      "step": 1750
    },
    {
      "epoch": 0.19858156028368795,
      "eval_icons_CIoU": 0.49073725938796997,
      "eval_icons_GIoU": 0.4607696384191513,
      "eval_icons_IoU": 0.5336291491985321,
      "eval_icons_MAE_all": 0.12691829726099968,
      "eval_icons_MAE_h": 0.08062812313437462,
      "eval_icons_MAE_w": 0.08229191973805428,
      "eval_icons_MAE_x_boxes": 0.11998208612203598,
      "eval_icons_MAE_y_boxes": 0.11360609158873558,
      "eval_icons_NUM_probability": 0.9986009001731873,
      "eval_icons_inside_bbox": 0.7361111044883728,
      "eval_icons_loss": 2.464879274368286,
      "eval_icons_loss_ce": 0.00018829397595254704,
      "eval_icons_loss_iou": 0.927978515625,
      "eval_icons_loss_num": 0.1312103271484375,
      "eval_icons_loss_xval": 2.51171875,
      "eval_icons_runtime": 70.7213,
      "eval_icons_samples_per_second": 0.707,
      "eval_icons_steps_per_second": 0.028,
      "num_input_tokens_seen": 117249676,
      "step": 1750
    },
    {
      "epoch": 0.19858156028368795,
      "eval_screenspot_CIoU": 0.3233241339524587,
      "eval_screenspot_GIoU": 0.29400426149368286,
      "eval_screenspot_IoU": 0.4046551485856374,
      "eval_screenspot_MAE_all": 0.17004844546318054,
      "eval_screenspot_MAE_h": 0.10500628501176834,
      "eval_screenspot_MAE_w": 0.13976589838663736,
      "eval_screenspot_MAE_x_boxes": 0.23644735415776572,
      "eval_screenspot_MAE_y_boxes": 0.12220305949449539,
      "eval_screenspot_NUM_probability": 0.998523990313212,
      "eval_screenspot_inside_bbox": 0.6045833428700765,
      "eval_screenspot_loss": 2.779581308364868,
      "eval_screenspot_loss_ce": 0.008416418296595415,
      "eval_screenspot_loss_iou": 0.9562174479166666,
      "eval_screenspot_loss_num": 0.17766316731770834,
      "eval_screenspot_loss_xval": 2.8001302083333335,
      "eval_screenspot_runtime": 130.2024,
      "eval_screenspot_samples_per_second": 0.684,
      "eval_screenspot_steps_per_second": 0.023,
      "num_input_tokens_seen": 117249676,
      "step": 1750
    },
    {
      "epoch": 0.19858156028368795,
      "eval_compot_CIoU": 0.3636249303817749,
      "eval_compot_GIoU": 0.3114032745361328,
      "eval_compot_IoU": 0.442078173160553,
      "eval_compot_MAE_all": 0.1577867716550827,
      "eval_compot_MAE_h": 0.05256580654531717,
      "eval_compot_MAE_w": 0.12616567313671112,
      "eval_compot_MAE_x_boxes": 0.16955459862947464,
      "eval_compot_MAE_y_boxes": 0.16697460412979126,
      "eval_compot_NUM_probability": 0.9995663166046143,
      "eval_compot_inside_bbox": 0.5677083432674408,
      "eval_compot_loss": 2.782580614089966,
      "eval_compot_loss_ce": 0.0011126335593871772,
      "eval_compot_loss_iou": 1.0078125,
      "eval_compot_loss_num": 0.15335845947265625,
      "eval_compot_loss_xval": 2.7802734375,
      "eval_compot_runtime": 81.2035,
      "eval_compot_samples_per_second": 0.616,
      "eval_compot_steps_per_second": 0.025,
      "num_input_tokens_seen": 117249676,
      "step": 1750
    },
    {
      "epoch": 0.19858156028368795,
      "loss": 2.6882224082946777,
      "loss_ce": 0.0007223135326057673,
      "loss_iou": 0.98046875,
      "loss_num": 0.146484375,
      "loss_xval": 2.6875,
      "num_input_tokens_seen": 117249676,
      "step": 1750
    },
    {
      "epoch": 0.1986950354609929,
      "grad_norm": 12.850829124450684,
      "learning_rate": 5e-05,
      "loss": 1.348,
      "num_input_tokens_seen": 117316736,
      "step": 1751
    },
    {
      "epoch": 0.1986950354609929,
      "loss": 1.3610479831695557,
      "loss_ce": 0.006555880419909954,
      "loss_iou": 0.5703125,
      "loss_num": 0.042236328125,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 117316736,
      "step": 1751
    },
    {
      "epoch": 0.19880851063829788,
      "grad_norm": 17.208280563354492,
      "learning_rate": 5e-05,
      "loss": 1.3114,
      "num_input_tokens_seen": 117383864,
      "step": 1752
    },
    {
      "epoch": 0.19880851063829788,
      "loss": 1.491480827331543,
      "loss_ce": 0.005152598954737186,
      "loss_iou": 0.65625,
      "loss_num": 0.03515625,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 117383864,
      "step": 1752
    },
    {
      "epoch": 0.19892198581560283,
      "grad_norm": 26.060726165771484,
      "learning_rate": 5e-05,
      "loss": 1.23,
      "num_input_tokens_seen": 117450704,
      "step": 1753
    },
    {
      "epoch": 0.19892198581560283,
      "loss": 1.1928365230560303,
      "loss_ce": 0.0024068932980298996,
      "loss_iou": 0.5390625,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 117450704,
      "step": 1753
    },
    {
      "epoch": 0.1990354609929078,
      "grad_norm": 21.04366683959961,
      "learning_rate": 5e-05,
      "loss": 1.3385,
      "num_input_tokens_seen": 117516888,
      "step": 1754
    },
    {
      "epoch": 0.1990354609929078,
      "loss": 1.1726109981536865,
      "loss_ce": 0.0053747063502669334,
      "loss_iou": 0.48046875,
      "loss_num": 0.04150390625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 117516888,
      "step": 1754
    },
    {
      "epoch": 0.19914893617021276,
      "grad_norm": 18.169673919677734,
      "learning_rate": 5e-05,
      "loss": 1.3026,
      "num_input_tokens_seen": 117583108,
      "step": 1755
    },
    {
      "epoch": 0.19914893617021276,
      "loss": 1.4968953132629395,
      "loss_ce": 0.004219508729875088,
      "loss_iou": 0.6640625,
      "loss_num": 0.033447265625,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 117583108,
      "step": 1755
    },
    {
      "epoch": 0.19926241134751774,
      "grad_norm": 17.23750114440918,
      "learning_rate": 5e-05,
      "loss": 1.2361,
      "num_input_tokens_seen": 117651176,
      "step": 1756
    },
    {
      "epoch": 0.19926241134751774,
      "loss": 1.1336095333099365,
      "loss_ce": 0.006168209481984377,
      "loss_iou": 0.515625,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 117651176,
      "step": 1756
    },
    {
      "epoch": 0.1993758865248227,
      "grad_norm": 16.168106079101562,
      "learning_rate": 5e-05,
      "loss": 1.1145,
      "num_input_tokens_seen": 117717896,
      "step": 1757
    },
    {
      "epoch": 0.1993758865248227,
      "loss": 1.2213071584701538,
      "loss_ce": 0.005975173786282539,
      "loss_iou": 0.48828125,
      "loss_num": 0.048095703125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 117717896,
      "step": 1757
    },
    {
      "epoch": 0.19948936170212767,
      "grad_norm": 26.46060562133789,
      "learning_rate": 5e-05,
      "loss": 1.3336,
      "num_input_tokens_seen": 117784576,
      "step": 1758
    },
    {
      "epoch": 0.19948936170212767,
      "loss": 1.3025435209274292,
      "loss_ce": 0.0032271521631628275,
      "loss_iou": 0.55859375,
      "loss_num": 0.036376953125,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 117784576,
      "step": 1758
    },
    {
      "epoch": 0.19960283687943262,
      "grad_norm": 35.39845657348633,
      "learning_rate": 5e-05,
      "loss": 1.3251,
      "num_input_tokens_seen": 117851844,
      "step": 1759
    },
    {
      "epoch": 0.19960283687943262,
      "loss": 1.2849223613739014,
      "loss_ce": 0.006113709881901741,
      "loss_iou": 0.53515625,
      "loss_num": 0.0419921875,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 117851844,
      "step": 1759
    },
    {
      "epoch": 0.1997163120567376,
      "grad_norm": 17.44502067565918,
      "learning_rate": 5e-05,
      "loss": 1.4851,
      "num_input_tokens_seen": 117918404,
      "step": 1760
    },
    {
      "epoch": 0.1997163120567376,
      "loss": 1.4169734716415405,
      "loss_ce": 0.008892452344298363,
      "loss_iou": 0.58984375,
      "loss_num": 0.0458984375,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 117918404,
      "step": 1760
    },
    {
      "epoch": 0.19982978723404254,
      "grad_norm": 15.565629959106445,
      "learning_rate": 5e-05,
      "loss": 1.3311,
      "num_input_tokens_seen": 117985512,
      "step": 1761
    },
    {
      "epoch": 0.19982978723404254,
      "loss": 1.372063159942627,
      "loss_ce": 0.006340432912111282,
      "loss_iou": 0.578125,
      "loss_num": 0.042724609375,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 117985512,
      "step": 1761
    },
    {
      "epoch": 0.19994326241134752,
      "grad_norm": 21.586463928222656,
      "learning_rate": 5e-05,
      "loss": 1.207,
      "num_input_tokens_seen": 118051648,
      "step": 1762
    },
    {
      "epoch": 0.19994326241134752,
      "loss": 1.2598261833190918,
      "loss_ce": 0.006896603852510452,
      "loss_iou": 0.5,
      "loss_num": 0.050048828125,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 118051648,
      "step": 1762
    },
    {
      "epoch": 0.20005673758865247,
      "grad_norm": 20.32430076599121,
      "learning_rate": 5e-05,
      "loss": 1.4992,
      "num_input_tokens_seen": 118119084,
      "step": 1763
    },
    {
      "epoch": 0.20005673758865247,
      "loss": 1.4017605781555176,
      "loss_ce": 0.010159004479646683,
      "loss_iou": 0.6015625,
      "loss_num": 0.037353515625,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 118119084,
      "step": 1763
    },
    {
      "epoch": 0.20017021276595745,
      "grad_norm": 36.223453521728516,
      "learning_rate": 5e-05,
      "loss": 1.1617,
      "num_input_tokens_seen": 118185036,
      "step": 1764
    },
    {
      "epoch": 0.20017021276595745,
      "loss": 1.2019011974334717,
      "loss_ce": 0.002316205995157361,
      "loss_iou": 0.5078125,
      "loss_num": 0.036376953125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 118185036,
      "step": 1764
    },
    {
      "epoch": 0.2002836879432624,
      "grad_norm": 68.42044830322266,
      "learning_rate": 5e-05,
      "loss": 1.4907,
      "num_input_tokens_seen": 118251148,
      "step": 1765
    },
    {
      "epoch": 0.2002836879432624,
      "loss": 1.5361645221710205,
      "loss_ce": 0.006867559161037207,
      "loss_iou": 0.59765625,
      "loss_num": 0.0673828125,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 118251148,
      "step": 1765
    },
    {
      "epoch": 0.20039716312056738,
      "grad_norm": 15.49189281463623,
      "learning_rate": 5e-05,
      "loss": 1.2259,
      "num_input_tokens_seen": 118318688,
      "step": 1766
    },
    {
      "epoch": 0.20039716312056738,
      "loss": 1.3547165393829346,
      "loss_ce": 0.010478362441062927,
      "loss_iou": 0.5390625,
      "loss_num": 0.052734375,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 118318688,
      "step": 1766
    },
    {
      "epoch": 0.20051063829787233,
      "grad_norm": 23.07997703552246,
      "learning_rate": 5e-05,
      "loss": 1.2731,
      "num_input_tokens_seen": 118385712,
      "step": 1767
    },
    {
      "epoch": 0.20051063829787233,
      "loss": 1.1765071153640747,
      "loss_ce": 0.0046321554109454155,
      "loss_iou": 0.49609375,
      "loss_num": 0.03564453125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 118385712,
      "step": 1767
    },
    {
      "epoch": 0.2006241134751773,
      "grad_norm": 27.13667869567871,
      "learning_rate": 5e-05,
      "loss": 1.5087,
      "num_input_tokens_seen": 118452816,
      "step": 1768
    },
    {
      "epoch": 0.2006241134751773,
      "loss": 1.5493762493133545,
      "loss_ce": 0.005919141694903374,
      "loss_iou": 0.62890625,
      "loss_num": 0.057861328125,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 118452816,
      "step": 1768
    },
    {
      "epoch": 0.20073758865248226,
      "grad_norm": 16.942678451538086,
      "learning_rate": 5e-05,
      "loss": 1.3436,
      "num_input_tokens_seen": 118519088,
      "step": 1769
    },
    {
      "epoch": 0.20073758865248226,
      "loss": 1.6011242866516113,
      "loss_ce": 0.0024914578534662724,
      "loss_iou": 0.66796875,
      "loss_num": 0.05224609375,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 118519088,
      "step": 1769
    },
    {
      "epoch": 0.20085106382978724,
      "grad_norm": 15.073058128356934,
      "learning_rate": 5e-05,
      "loss": 1.3233,
      "num_input_tokens_seen": 118585696,
      "step": 1770
    },
    {
      "epoch": 0.20085106382978724,
      "loss": 1.2977616786956787,
      "loss_ce": 0.003816499374806881,
      "loss_iou": 0.5546875,
      "loss_num": 0.03759765625,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 118585696,
      "step": 1770
    },
    {
      "epoch": 0.20096453900709219,
      "grad_norm": 16.570980072021484,
      "learning_rate": 5e-05,
      "loss": 1.1369,
      "num_input_tokens_seen": 118652476,
      "step": 1771
    },
    {
      "epoch": 0.20096453900709219,
      "loss": 1.2208855152130127,
      "loss_ce": 0.009459706023335457,
      "loss_iou": 0.5,
      "loss_num": 0.04150390625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 118652476,
      "step": 1771
    },
    {
      "epoch": 0.20107801418439716,
      "grad_norm": 18.593114852905273,
      "learning_rate": 5e-05,
      "loss": 1.33,
      "num_input_tokens_seen": 118719360,
      "step": 1772
    },
    {
      "epoch": 0.20107801418439716,
      "loss": 1.31923246383667,
      "loss_ce": 0.006244178861379623,
      "loss_iou": 0.5703125,
      "loss_num": 0.033935546875,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 118719360,
      "step": 1772
    },
    {
      "epoch": 0.2011914893617021,
      "grad_norm": 18.215890884399414,
      "learning_rate": 5e-05,
      "loss": 1.1921,
      "num_input_tokens_seen": 118786392,
      "step": 1773
    },
    {
      "epoch": 0.2011914893617021,
      "loss": 1.2104883193969727,
      "loss_ce": 0.0068750702776014805,
      "loss_iou": 0.484375,
      "loss_num": 0.046875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 118786392,
      "step": 1773
    },
    {
      "epoch": 0.2013049645390071,
      "grad_norm": 18.66290283203125,
      "learning_rate": 5e-05,
      "loss": 1.0875,
      "num_input_tokens_seen": 118853080,
      "step": 1774
    },
    {
      "epoch": 0.2013049645390071,
      "loss": 1.2949764728546143,
      "loss_ce": 0.006646464578807354,
      "loss_iou": 0.52734375,
      "loss_num": 0.047119140625,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 118853080,
      "step": 1774
    },
    {
      "epoch": 0.20141843971631207,
      "grad_norm": 26.312171936035156,
      "learning_rate": 5e-05,
      "loss": 1.455,
      "num_input_tokens_seen": 118919088,
      "step": 1775
    },
    {
      "epoch": 0.20141843971631207,
      "loss": 1.2959983348846436,
      "loss_ce": 0.0025412607938051224,
      "loss_iou": 0.578125,
      "loss_num": 0.02734375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 118919088,
      "step": 1775
    },
    {
      "epoch": 0.20153191489361702,
      "grad_norm": 18.26552963256836,
      "learning_rate": 5e-05,
      "loss": 1.4959,
      "num_input_tokens_seen": 118986336,
      "step": 1776
    },
    {
      "epoch": 0.20153191489361702,
      "loss": 1.5146057605743408,
      "loss_ce": 0.005328420549631119,
      "loss_iou": 0.6484375,
      "loss_num": 0.043212890625,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 118986336,
      "step": 1776
    },
    {
      "epoch": 0.201645390070922,
      "grad_norm": 13.875212669372559,
      "learning_rate": 5e-05,
      "loss": 1.2644,
      "num_input_tokens_seen": 119053384,
      "step": 1777
    },
    {
      "epoch": 0.201645390070922,
      "loss": 1.3931807279586792,
      "loss_ce": 0.00548538938164711,
      "loss_iou": 0.59375,
      "loss_num": 0.040771484375,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 119053384,
      "step": 1777
    },
    {
      "epoch": 0.20175886524822695,
      "grad_norm": 27.12213134765625,
      "learning_rate": 5e-05,
      "loss": 1.1979,
      "num_input_tokens_seen": 119120516,
      "step": 1778
    },
    {
      "epoch": 0.20175886524822695,
      "loss": 1.283490777015686,
      "loss_ce": 0.0032173253130167723,
      "loss_iou": 0.546875,
      "loss_num": 0.03662109375,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 119120516,
      "step": 1778
    },
    {
      "epoch": 0.20187234042553193,
      "grad_norm": 31.582094192504883,
      "learning_rate": 5e-05,
      "loss": 1.2962,
      "num_input_tokens_seen": 119186504,
      "step": 1779
    },
    {
      "epoch": 0.20187234042553193,
      "loss": 1.3356420993804932,
      "loss_ce": 0.0045875245705246925,
      "loss_iou": 0.59765625,
      "loss_num": 0.027587890625,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 119186504,
      "step": 1779
    },
    {
      "epoch": 0.20198581560283688,
      "grad_norm": 17.919784545898438,
      "learning_rate": 5e-05,
      "loss": 1.3977,
      "num_input_tokens_seen": 119253020,
      "step": 1780
    },
    {
      "epoch": 0.20198581560283688,
      "loss": 1.302873134613037,
      "loss_ce": 0.008805790916085243,
      "loss_iou": 0.5546875,
      "loss_num": 0.037353515625,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 119253020,
      "step": 1780
    },
    {
      "epoch": 0.20209929078014185,
      "grad_norm": 18.775175094604492,
      "learning_rate": 5e-05,
      "loss": 1.2355,
      "num_input_tokens_seen": 119319504,
      "step": 1781
    },
    {
      "epoch": 0.20209929078014185,
      "loss": 1.0911784172058105,
      "loss_ce": 0.002311241114512086,
      "loss_iou": 0.50390625,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 119319504,
      "step": 1781
    },
    {
      "epoch": 0.2022127659574468,
      "grad_norm": 28.40308380126953,
      "learning_rate": 5e-05,
      "loss": 1.3352,
      "num_input_tokens_seen": 119385704,
      "step": 1782
    },
    {
      "epoch": 0.2022127659574468,
      "loss": 1.3039135932922363,
      "loss_ce": 0.0031324042938649654,
      "loss_iou": 0.5546875,
      "loss_num": 0.03857421875,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 119385704,
      "step": 1782
    },
    {
      "epoch": 0.20232624113475178,
      "grad_norm": 22.790393829345703,
      "learning_rate": 5e-05,
      "loss": 1.4102,
      "num_input_tokens_seen": 119452288,
      "step": 1783
    },
    {
      "epoch": 0.20232624113475178,
      "loss": 1.3554763793945312,
      "loss_ce": 0.007331750821322203,
      "loss_iou": 0.58203125,
      "loss_num": 0.037353515625,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 119452288,
      "step": 1783
    },
    {
      "epoch": 0.20243971631205673,
      "grad_norm": 29.590065002441406,
      "learning_rate": 5e-05,
      "loss": 1.1959,
      "num_input_tokens_seen": 119519112,
      "step": 1784
    },
    {
      "epoch": 0.20243971631205673,
      "loss": 1.2949689626693726,
      "loss_ce": 0.004929898306727409,
      "loss_iou": 0.515625,
      "loss_num": 0.0517578125,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 119519112,
      "step": 1784
    },
    {
      "epoch": 0.2025531914893617,
      "grad_norm": 15.6984224319458,
      "learning_rate": 5e-05,
      "loss": 1.2272,
      "num_input_tokens_seen": 119586300,
      "step": 1785
    },
    {
      "epoch": 0.2025531914893617,
      "loss": 1.2612404823303223,
      "loss_ce": 0.005869358777999878,
      "loss_iou": 0.5390625,
      "loss_num": 0.0361328125,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 119586300,
      "step": 1785
    },
    {
      "epoch": 0.20266666666666666,
      "grad_norm": 22.559141159057617,
      "learning_rate": 5e-05,
      "loss": 1.3985,
      "num_input_tokens_seen": 119653804,
      "step": 1786
    },
    {
      "epoch": 0.20266666666666666,
      "loss": 1.4726396799087524,
      "loss_ce": 0.006331007927656174,
      "loss_iou": 0.6484375,
      "loss_num": 0.03369140625,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 119653804,
      "step": 1786
    },
    {
      "epoch": 0.20278014184397164,
      "grad_norm": 23.445261001586914,
      "learning_rate": 5e-05,
      "loss": 1.1116,
      "num_input_tokens_seen": 119720064,
      "step": 1787
    },
    {
      "epoch": 0.20278014184397164,
      "loss": 1.0853662490844727,
      "loss_ce": 0.0028467224910855293,
      "loss_iou": 0.4921875,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 119720064,
      "step": 1787
    },
    {
      "epoch": 0.2028936170212766,
      "grad_norm": 35.37595748901367,
      "learning_rate": 5e-05,
      "loss": 1.4472,
      "num_input_tokens_seen": 119787660,
      "step": 1788
    },
    {
      "epoch": 0.2028936170212766,
      "loss": 1.3328018188476562,
      "loss_ce": 0.004921013489365578,
      "loss_iou": 0.546875,
      "loss_num": 0.04736328125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 119787660,
      "step": 1788
    },
    {
      "epoch": 0.20300709219858157,
      "grad_norm": 20.59061050415039,
      "learning_rate": 5e-05,
      "loss": 1.0679,
      "num_input_tokens_seen": 119853392,
      "step": 1789
    },
    {
      "epoch": 0.20300709219858157,
      "loss": 1.1210637092590332,
      "loss_ce": 0.005646229721605778,
      "loss_iou": 0.458984375,
      "loss_num": 0.039306640625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 119853392,
      "step": 1789
    },
    {
      "epoch": 0.20312056737588652,
      "grad_norm": 18.520450592041016,
      "learning_rate": 5e-05,
      "loss": 1.3144,
      "num_input_tokens_seen": 119920300,
      "step": 1790
    },
    {
      "epoch": 0.20312056737588652,
      "loss": 1.1998772621154785,
      "loss_ce": 0.004564793314784765,
      "loss_iou": 0.5078125,
      "loss_num": 0.03515625,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 119920300,
      "step": 1790
    },
    {
      "epoch": 0.2032340425531915,
      "grad_norm": 15.109456062316895,
      "learning_rate": 5e-05,
      "loss": 1.1092,
      "num_input_tokens_seen": 119987924,
      "step": 1791
    },
    {
      "epoch": 0.2032340425531915,
      "loss": 1.1644997596740723,
      "loss_ce": 0.011179512366652489,
      "loss_iou": 0.482421875,
      "loss_num": 0.037353515625,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 119987924,
      "step": 1791
    },
    {
      "epoch": 0.20334751773049645,
      "grad_norm": 17.569175720214844,
      "learning_rate": 5e-05,
      "loss": 1.2931,
      "num_input_tokens_seen": 120054788,
      "step": 1792
    },
    {
      "epoch": 0.20334751773049645,
      "loss": 1.6656029224395752,
      "loss_ce": 0.002028679009526968,
      "loss_iou": 0.671875,
      "loss_num": 0.0634765625,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 120054788,
      "step": 1792
    },
    {
      "epoch": 0.20346099290780142,
      "grad_norm": 31.782854080200195,
      "learning_rate": 5e-05,
      "loss": 1.1339,
      "num_input_tokens_seen": 120121312,
      "step": 1793
    },
    {
      "epoch": 0.20346099290780142,
      "loss": 1.07566499710083,
      "loss_ce": 0.001934581552632153,
      "loss_iou": 0.50390625,
      "loss_num": 0.01397705078125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 120121312,
      "step": 1793
    },
    {
      "epoch": 0.20357446808510637,
      "grad_norm": 16.29954719543457,
      "learning_rate": 5e-05,
      "loss": 1.632,
      "num_input_tokens_seen": 120188832,
      "step": 1794
    },
    {
      "epoch": 0.20357446808510637,
      "loss": 1.5681222677230835,
      "loss_ce": 0.005622248165309429,
      "loss_iou": 0.65625,
      "loss_num": 0.05078125,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 120188832,
      "step": 1794
    },
    {
      "epoch": 0.20368794326241135,
      "grad_norm": 19.534408569335938,
      "learning_rate": 5e-05,
      "loss": 1.1749,
      "num_input_tokens_seen": 120256648,
      "step": 1795
    },
    {
      "epoch": 0.20368794326241135,
      "loss": 1.0970730781555176,
      "loss_ce": 0.002834702841937542,
      "loss_iou": 0.453125,
      "loss_num": 0.03759765625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 120256648,
      "step": 1795
    },
    {
      "epoch": 0.2038014184397163,
      "grad_norm": 21.867387771606445,
      "learning_rate": 5e-05,
      "loss": 1.3229,
      "num_input_tokens_seen": 120323800,
      "step": 1796
    },
    {
      "epoch": 0.2038014184397163,
      "loss": 1.5464318990707397,
      "loss_ce": 0.005416282452642918,
      "loss_iou": 0.6796875,
      "loss_num": 0.037109375,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 120323800,
      "step": 1796
    },
    {
      "epoch": 0.20391489361702128,
      "grad_norm": 17.72822380065918,
      "learning_rate": 5e-05,
      "loss": 1.3329,
      "num_input_tokens_seen": 120389996,
      "step": 1797
    },
    {
      "epoch": 0.20391489361702128,
      "loss": 1.21043860912323,
      "loss_ce": 0.007313608657568693,
      "loss_iou": 0.490234375,
      "loss_num": 0.044189453125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 120389996,
      "step": 1797
    },
    {
      "epoch": 0.20402836879432623,
      "grad_norm": 37.374446868896484,
      "learning_rate": 5e-05,
      "loss": 1.1663,
      "num_input_tokens_seen": 120456668,
      "step": 1798
    },
    {
      "epoch": 0.20402836879432623,
      "loss": 1.16843581199646,
      "loss_ce": 0.009744429960846901,
      "loss_iou": 0.50390625,
      "loss_num": 0.0296630859375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 120456668,
      "step": 1798
    },
    {
      "epoch": 0.2041418439716312,
      "grad_norm": 19.72430419921875,
      "learning_rate": 5e-05,
      "loss": 1.3237,
      "num_input_tokens_seen": 120524628,
      "step": 1799
    },
    {
      "epoch": 0.2041418439716312,
      "loss": 1.225040078163147,
      "loss_ce": 0.004336989484727383,
      "loss_iou": 0.515625,
      "loss_num": 0.037353515625,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 120524628,
      "step": 1799
    },
    {
      "epoch": 0.20425531914893616,
      "grad_norm": 20.67596435546875,
      "learning_rate": 5e-05,
      "loss": 1.4419,
      "num_input_tokens_seen": 120591604,
      "step": 1800
    },
    {
      "epoch": 0.20425531914893616,
      "loss": 1.413989543914795,
      "loss_ce": 0.004809876903891563,
      "loss_iou": 0.64453125,
      "loss_num": 0.023681640625,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 120591604,
      "step": 1800
    },
    {
      "epoch": 0.20436879432624114,
      "grad_norm": 27.594829559326172,
      "learning_rate": 5e-05,
      "loss": 1.2655,
      "num_input_tokens_seen": 120659224,
      "step": 1801
    },
    {
      "epoch": 0.20436879432624114,
      "loss": 1.222307801246643,
      "loss_ce": 0.004046072252094746,
      "loss_iou": 0.54296875,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 120659224,
      "step": 1801
    },
    {
      "epoch": 0.2044822695035461,
      "grad_norm": 18.717147827148438,
      "learning_rate": 5e-05,
      "loss": 1.2841,
      "num_input_tokens_seen": 120726572,
      "step": 1802
    },
    {
      "epoch": 0.2044822695035461,
      "loss": 1.3162412643432617,
      "loss_ce": 0.005450201686471701,
      "loss_iou": 0.5859375,
      "loss_num": 0.027099609375,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 120726572,
      "step": 1802
    },
    {
      "epoch": 0.20459574468085107,
      "grad_norm": 13.653714179992676,
      "learning_rate": 5e-05,
      "loss": 1.2757,
      "num_input_tokens_seen": 120794268,
      "step": 1803
    },
    {
      "epoch": 0.20459574468085107,
      "loss": 1.3766411542892456,
      "loss_ce": 0.005547416862100363,
      "loss_iou": 0.578125,
      "loss_num": 0.043212890625,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 120794268,
      "step": 1803
    },
    {
      "epoch": 0.20470921985815602,
      "grad_norm": 18.7590389251709,
      "learning_rate": 5e-05,
      "loss": 1.3621,
      "num_input_tokens_seen": 120860968,
      "step": 1804
    },
    {
      "epoch": 0.20470921985815602,
      "loss": 1.378587245941162,
      "loss_ce": 0.005540391430258751,
      "loss_iou": 0.59765625,
      "loss_num": 0.034912109375,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 120860968,
      "step": 1804
    },
    {
      "epoch": 0.204822695035461,
      "grad_norm": 17.899120330810547,
      "learning_rate": 5e-05,
      "loss": 1.2282,
      "num_input_tokens_seen": 120928172,
      "step": 1805
    },
    {
      "epoch": 0.204822695035461,
      "loss": 1.3500667810440063,
      "loss_ce": 0.012176213786005974,
      "loss_iou": 0.5625,
      "loss_num": 0.0419921875,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 120928172,
      "step": 1805
    },
    {
      "epoch": 0.20493617021276594,
      "grad_norm": 13.430891990661621,
      "learning_rate": 5e-05,
      "loss": 1.2114,
      "num_input_tokens_seen": 120994640,
      "step": 1806
    },
    {
      "epoch": 0.20493617021276594,
      "loss": 1.3671225309371948,
      "loss_ce": 0.006770964711904526,
      "loss_iou": 0.6171875,
      "loss_num": 0.02587890625,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 120994640,
      "step": 1806
    },
    {
      "epoch": 0.20504964539007092,
      "grad_norm": 17.32770347595215,
      "learning_rate": 5e-05,
      "loss": 1.3722,
      "num_input_tokens_seen": 121062004,
      "step": 1807
    },
    {
      "epoch": 0.20504964539007092,
      "loss": 1.425689458847046,
      "loss_ce": 0.005767484195530415,
      "loss_iou": 0.5859375,
      "loss_num": 0.04931640625,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 121062004,
      "step": 1807
    },
    {
      "epoch": 0.20516312056737587,
      "grad_norm": 28.946088790893555,
      "learning_rate": 5e-05,
      "loss": 1.0904,
      "num_input_tokens_seen": 121128952,
      "step": 1808
    },
    {
      "epoch": 0.20516312056737587,
      "loss": 1.262865662574768,
      "loss_ce": 0.006518002133816481,
      "loss_iou": 0.5625,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 121128952,
      "step": 1808
    },
    {
      "epoch": 0.20527659574468085,
      "grad_norm": 27.45631980895996,
      "learning_rate": 5e-05,
      "loss": 1.3408,
      "num_input_tokens_seen": 121196548,
      "step": 1809
    },
    {
      "epoch": 0.20527659574468085,
      "loss": 1.3555128574371338,
      "loss_ce": 0.003950403071939945,
      "loss_iou": 0.6015625,
      "loss_num": 0.030517578125,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 121196548,
      "step": 1809
    },
    {
      "epoch": 0.20539007092198583,
      "grad_norm": 19.384279251098633,
      "learning_rate": 5e-05,
      "loss": 1.4626,
      "num_input_tokens_seen": 121263204,
      "step": 1810
    },
    {
      "epoch": 0.20539007092198583,
      "loss": 1.65300452709198,
      "loss_ce": 0.005543573293834925,
      "loss_iou": 0.69921875,
      "loss_num": 0.049560546875,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 121263204,
      "step": 1810
    },
    {
      "epoch": 0.20550354609929078,
      "grad_norm": 12.638678550720215,
      "learning_rate": 5e-05,
      "loss": 1.1333,
      "num_input_tokens_seen": 121329792,
      "step": 1811
    },
    {
      "epoch": 0.20550354609929078,
      "loss": 1.1087418794631958,
      "loss_ce": 0.0022965918760746717,
      "loss_iou": 0.4921875,
      "loss_num": 0.024658203125,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 121329792,
      "step": 1811
    },
    {
      "epoch": 0.20561702127659576,
      "grad_norm": 15.394709587097168,
      "learning_rate": 5e-05,
      "loss": 1.1678,
      "num_input_tokens_seen": 121397488,
      "step": 1812
    },
    {
      "epoch": 0.20561702127659576,
      "loss": 1.2063612937927246,
      "loss_ce": 0.010804705321788788,
      "loss_iou": 0.51953125,
      "loss_num": 0.03173828125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 121397488,
      "step": 1812
    },
    {
      "epoch": 0.2057304964539007,
      "grad_norm": 17.034711837768555,
      "learning_rate": 5e-05,
      "loss": 1.2587,
      "num_input_tokens_seen": 121465720,
      "step": 1813
    },
    {
      "epoch": 0.2057304964539007,
      "loss": 1.2937874794006348,
      "loss_ce": 0.004236777778714895,
      "loss_iou": 0.56640625,
      "loss_num": 0.031005859375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 121465720,
      "step": 1813
    },
    {
      "epoch": 0.20584397163120569,
      "grad_norm": 33.317413330078125,
      "learning_rate": 5e-05,
      "loss": 1.4367,
      "num_input_tokens_seen": 121532208,
      "step": 1814
    },
    {
      "epoch": 0.20584397163120569,
      "loss": 1.4045617580413818,
      "loss_ce": 0.004171142820268869,
      "loss_iou": 0.61328125,
      "loss_num": 0.03515625,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 121532208,
      "step": 1814
    },
    {
      "epoch": 0.20595744680851064,
      "grad_norm": 18.269243240356445,
      "learning_rate": 5e-05,
      "loss": 1.6164,
      "num_input_tokens_seen": 121599408,
      "step": 1815
    },
    {
      "epoch": 0.20595744680851064,
      "loss": 1.4171693325042725,
      "loss_ce": 0.006036530248820782,
      "loss_iou": 0.6015625,
      "loss_num": 0.04150390625,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 121599408,
      "step": 1815
    },
    {
      "epoch": 0.2060709219858156,
      "grad_norm": 16.021480560302734,
      "learning_rate": 5e-05,
      "loss": 1.1227,
      "num_input_tokens_seen": 121666524,
      "step": 1816
    },
    {
      "epoch": 0.2060709219858156,
      "loss": 0.9898864030838013,
      "loss_ce": 0.005511341616511345,
      "loss_iou": 0.4140625,
      "loss_num": 0.0308837890625,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 121666524,
      "step": 1816
    },
    {
      "epoch": 0.20618439716312056,
      "grad_norm": 20.075313568115234,
      "learning_rate": 5e-05,
      "loss": 1.1035,
      "num_input_tokens_seen": 121733576,
      "step": 1817
    },
    {
      "epoch": 0.20618439716312056,
      "loss": 1.1826074123382568,
      "loss_ce": 0.004872987046837807,
      "loss_iou": 0.52734375,
      "loss_num": 0.02392578125,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 121733576,
      "step": 1817
    },
    {
      "epoch": 0.20629787234042554,
      "grad_norm": 23.570886611938477,
      "learning_rate": 5e-05,
      "loss": 1.1741,
      "num_input_tokens_seen": 121799232,
      "step": 1818
    },
    {
      "epoch": 0.20629787234042554,
      "loss": 1.0745409727096558,
      "loss_ce": 0.002824670635163784,
      "loss_iou": 0.462890625,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 121799232,
      "step": 1818
    },
    {
      "epoch": 0.2064113475177305,
      "grad_norm": 29.59339714050293,
      "learning_rate": 5e-05,
      "loss": 1.3339,
      "num_input_tokens_seen": 121866076,
      "step": 1819
    },
    {
      "epoch": 0.2064113475177305,
      "loss": 1.5578657388687134,
      "loss_ce": 0.004154838155955076,
      "loss_iou": 0.625,
      "loss_num": 0.060302734375,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 121866076,
      "step": 1819
    },
    {
      "epoch": 0.20652482269503547,
      "grad_norm": 16.306238174438477,
      "learning_rate": 5e-05,
      "loss": 1.6052,
      "num_input_tokens_seen": 121932196,
      "step": 1820
    },
    {
      "epoch": 0.20652482269503547,
      "loss": 1.3546745777130127,
      "loss_ce": 0.0031121650245040655,
      "loss_iou": 0.6171875,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 121932196,
      "step": 1820
    },
    {
      "epoch": 0.20663829787234042,
      "grad_norm": 17.239013671875,
      "learning_rate": 5e-05,
      "loss": 1.137,
      "num_input_tokens_seen": 121998340,
      "step": 1821
    },
    {
      "epoch": 0.20663829787234042,
      "loss": 1.189420223236084,
      "loss_ce": 0.0038733412511646748,
      "loss_iou": 0.48828125,
      "loss_num": 0.04150390625,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 121998340,
      "step": 1821
    },
    {
      "epoch": 0.2067517730496454,
      "grad_norm": 20.943809509277344,
      "learning_rate": 5e-05,
      "loss": 1.2949,
      "num_input_tokens_seen": 122064932,
      "step": 1822
    },
    {
      "epoch": 0.2067517730496454,
      "loss": 0.9589167833328247,
      "loss_ce": 0.004449053667485714,
      "loss_iou": 0.40234375,
      "loss_num": 0.0302734375,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 122064932,
      "step": 1822
    },
    {
      "epoch": 0.20686524822695035,
      "grad_norm": 23.24212646484375,
      "learning_rate": 5e-05,
      "loss": 1.3833,
      "num_input_tokens_seen": 122131236,
      "step": 1823
    },
    {
      "epoch": 0.20686524822695035,
      "loss": 1.1848186254501343,
      "loss_ce": 0.0035442085936665535,
      "loss_iou": 0.515625,
      "loss_num": 0.02978515625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 122131236,
      "step": 1823
    },
    {
      "epoch": 0.20697872340425533,
      "grad_norm": 24.152809143066406,
      "learning_rate": 5e-05,
      "loss": 1.1828,
      "num_input_tokens_seen": 122198912,
      "step": 1824
    },
    {
      "epoch": 0.20697872340425533,
      "loss": 1.2847237586975098,
      "loss_ce": 0.0024971498642116785,
      "loss_iou": 0.58984375,
      "loss_num": 0.0205078125,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 122198912,
      "step": 1824
    },
    {
      "epoch": 0.20709219858156028,
      "grad_norm": 18.422035217285156,
      "learning_rate": 5e-05,
      "loss": 1.3925,
      "num_input_tokens_seen": 122265796,
      "step": 1825
    },
    {
      "epoch": 0.20709219858156028,
      "loss": 1.389754295349121,
      "loss_ce": 0.009383167140185833,
      "loss_iou": 0.59765625,
      "loss_num": 0.036865234375,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 122265796,
      "step": 1825
    },
    {
      "epoch": 0.20720567375886526,
      "grad_norm": 21.206947326660156,
      "learning_rate": 5e-05,
      "loss": 1.3363,
      "num_input_tokens_seen": 122333060,
      "step": 1826
    },
    {
      "epoch": 0.20720567375886526,
      "loss": 1.285573959350586,
      "loss_ce": 0.009206871502101421,
      "loss_iou": 0.57421875,
      "loss_num": 0.025634765625,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 122333060,
      "step": 1826
    },
    {
      "epoch": 0.2073191489361702,
      "grad_norm": 33.886573791503906,
      "learning_rate": 5e-05,
      "loss": 1.3285,
      "num_input_tokens_seen": 122400244,
      "step": 1827
    },
    {
      "epoch": 0.2073191489361702,
      "loss": 1.3267345428466797,
      "loss_ce": 0.005445512011647224,
      "loss_iou": 0.60546875,
      "loss_num": 0.022216796875,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 122400244,
      "step": 1827
    },
    {
      "epoch": 0.20743262411347518,
      "grad_norm": 22.222864151000977,
      "learning_rate": 5e-05,
      "loss": 1.4728,
      "num_input_tokens_seen": 122466968,
      "step": 1828
    },
    {
      "epoch": 0.20743262411347518,
      "loss": 1.5973999500274658,
      "loss_ce": 0.00560303870588541,
      "loss_iou": 0.6484375,
      "loss_num": 0.05810546875,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 122466968,
      "step": 1828
    },
    {
      "epoch": 0.20754609929078013,
      "grad_norm": 23.173412322998047,
      "learning_rate": 5e-05,
      "loss": 1.2715,
      "num_input_tokens_seen": 122534028,
      "step": 1829
    },
    {
      "epoch": 0.20754609929078013,
      "loss": 1.0669846534729004,
      "loss_ce": 0.009855775162577629,
      "loss_iou": 0.455078125,
      "loss_num": 0.02978515625,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 122534028,
      "step": 1829
    },
    {
      "epoch": 0.2076595744680851,
      "grad_norm": 27.699626922607422,
      "learning_rate": 5e-05,
      "loss": 1.5773,
      "num_input_tokens_seen": 122600508,
      "step": 1830
    },
    {
      "epoch": 0.2076595744680851,
      "loss": 1.6315021514892578,
      "loss_ce": 0.004549035802483559,
      "loss_iou": 0.6796875,
      "loss_num": 0.0537109375,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 122600508,
      "step": 1830
    },
    {
      "epoch": 0.20777304964539006,
      "grad_norm": 9.812524795532227,
      "learning_rate": 5e-05,
      "loss": 1.049,
      "num_input_tokens_seen": 122667240,
      "step": 1831
    },
    {
      "epoch": 0.20777304964539006,
      "loss": 0.8567880392074585,
      "loss_ce": 0.005713858176022768,
      "loss_iou": 0.34765625,
      "loss_num": 0.0308837890625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 122667240,
      "step": 1831
    },
    {
      "epoch": 0.20788652482269504,
      "grad_norm": 18.86322593688965,
      "learning_rate": 5e-05,
      "loss": 1.233,
      "num_input_tokens_seen": 122733832,
      "step": 1832
    },
    {
      "epoch": 0.20788652482269504,
      "loss": 1.179984450340271,
      "loss_ce": 0.0012734894407913089,
      "loss_iou": 0.4921875,
      "loss_num": 0.03857421875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 122733832,
      "step": 1832
    },
    {
      "epoch": 0.208,
      "grad_norm": 40.41435623168945,
      "learning_rate": 5e-05,
      "loss": 1.4036,
      "num_input_tokens_seen": 122800956,
      "step": 1833
    },
    {
      "epoch": 0.208,
      "loss": 1.473649501800537,
      "loss_ce": 0.003922905772924423,
      "loss_iou": 0.65234375,
      "loss_num": 0.032958984375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 122800956,
      "step": 1833
    },
    {
      "epoch": 0.20811347517730497,
      "grad_norm": 15.267801284790039,
      "learning_rate": 5e-05,
      "loss": 1.5302,
      "num_input_tokens_seen": 122868156,
      "step": 1834
    },
    {
      "epoch": 0.20811347517730497,
      "loss": 1.3640048503875732,
      "loss_ce": 0.004629891365766525,
      "loss_iou": 0.6171875,
      "loss_num": 0.025634765625,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 122868156,
      "step": 1834
    },
    {
      "epoch": 0.20822695035460992,
      "grad_norm": 18.711641311645508,
      "learning_rate": 5e-05,
      "loss": 1.2027,
      "num_input_tokens_seen": 122935276,
      "step": 1835
    },
    {
      "epoch": 0.20822695035460992,
      "loss": 0.9631818532943726,
      "loss_ce": 0.002244356321170926,
      "loss_iou": 0.421875,
      "loss_num": 0.0233154296875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 122935276,
      "step": 1835
    },
    {
      "epoch": 0.2083404255319149,
      "grad_norm": 17.98491096496582,
      "learning_rate": 5e-05,
      "loss": 1.3036,
      "num_input_tokens_seen": 123002192,
      "step": 1836
    },
    {
      "epoch": 0.2083404255319149,
      "loss": 1.2178010940551758,
      "loss_ce": 0.005398747511208057,
      "loss_iou": 0.53125,
      "loss_num": 0.0302734375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 123002192,
      "step": 1836
    },
    {
      "epoch": 0.20845390070921985,
      "grad_norm": 11.598880767822266,
      "learning_rate": 5e-05,
      "loss": 1.2252,
      "num_input_tokens_seen": 123067596,
      "step": 1837
    },
    {
      "epoch": 0.20845390070921985,
      "loss": 1.3812241554260254,
      "loss_ce": 0.008177314884960651,
      "loss_iou": 0.6015625,
      "loss_num": 0.034912109375,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 123067596,
      "step": 1837
    },
    {
      "epoch": 0.20856737588652483,
      "grad_norm": 20.43689727783203,
      "learning_rate": 5e-05,
      "loss": 1.3843,
      "num_input_tokens_seen": 123134272,
      "step": 1838
    },
    {
      "epoch": 0.20856737588652483,
      "loss": 1.2835667133331299,
      "loss_ce": 0.007199530489742756,
      "loss_iou": 0.55078125,
      "loss_num": 0.035888671875,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 123134272,
      "step": 1838
    },
    {
      "epoch": 0.20868085106382978,
      "grad_norm": 23.888286590576172,
      "learning_rate": 5e-05,
      "loss": 1.4046,
      "num_input_tokens_seen": 123201840,
      "step": 1839
    },
    {
      "epoch": 0.20868085106382978,
      "loss": 1.3667850494384766,
      "loss_ce": 0.003503731917589903,
      "loss_iou": 0.58203125,
      "loss_num": 0.039794921875,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 123201840,
      "step": 1839
    },
    {
      "epoch": 0.20879432624113475,
      "grad_norm": 30.201942443847656,
      "learning_rate": 5e-05,
      "loss": 1.1914,
      "num_input_tokens_seen": 123269400,
      "step": 1840
    },
    {
      "epoch": 0.20879432624113475,
      "loss": 1.0982863903045654,
      "loss_ce": 0.004048027563840151,
      "loss_iou": 0.490234375,
      "loss_num": 0.0223388671875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 123269400,
      "step": 1840
    },
    {
      "epoch": 0.2089078014184397,
      "grad_norm": 29.92564582824707,
      "learning_rate": 5e-05,
      "loss": 1.3792,
      "num_input_tokens_seen": 123337364,
      "step": 1841
    },
    {
      "epoch": 0.2089078014184397,
      "loss": 1.399599552154541,
      "loss_ce": 0.006044876761734486,
      "loss_iou": 0.6171875,
      "loss_num": 0.03173828125,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 123337364,
      "step": 1841
    },
    {
      "epoch": 0.20902127659574468,
      "grad_norm": 12.983236312866211,
      "learning_rate": 5e-05,
      "loss": 1.1515,
      "num_input_tokens_seen": 123404488,
      "step": 1842
    },
    {
      "epoch": 0.20902127659574468,
      "loss": 1.138959288597107,
      "loss_ce": 0.003949547652155161,
      "loss_iou": 0.48046875,
      "loss_num": 0.034912109375,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 123404488,
      "step": 1842
    },
    {
      "epoch": 0.20913475177304963,
      "grad_norm": 17.982728958129883,
      "learning_rate": 5e-05,
      "loss": 1.3623,
      "num_input_tokens_seen": 123471344,
      "step": 1843
    },
    {
      "epoch": 0.20913475177304963,
      "loss": 1.3241157531738281,
      "loss_ce": 0.0038032170850783587,
      "loss_iou": 0.57421875,
      "loss_num": 0.0341796875,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 123471344,
      "step": 1843
    },
    {
      "epoch": 0.2092482269503546,
      "grad_norm": 75.95913696289062,
      "learning_rate": 5e-05,
      "loss": 1.3728,
      "num_input_tokens_seen": 123539564,
      "step": 1844
    },
    {
      "epoch": 0.2092482269503546,
      "loss": 1.3730337619781494,
      "loss_ce": 0.006334573961794376,
      "loss_iou": 0.609375,
      "loss_num": 0.0301513671875,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 123539564,
      "step": 1844
    },
    {
      "epoch": 0.2093617021276596,
      "grad_norm": 18.590147018432617,
      "learning_rate": 5e-05,
      "loss": 1.4001,
      "num_input_tokens_seen": 123606256,
      "step": 1845
    },
    {
      "epoch": 0.2093617021276596,
      "loss": 1.3517367839813232,
      "loss_ce": 0.0079867634922266,
      "loss_iou": 0.58984375,
      "loss_num": 0.03271484375,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 123606256,
      "step": 1845
    },
    {
      "epoch": 0.20947517730496454,
      "grad_norm": 9.967201232910156,
      "learning_rate": 5e-05,
      "loss": 1.1906,
      "num_input_tokens_seen": 123672828,
      "step": 1846
    },
    {
      "epoch": 0.20947517730496454,
      "loss": 1.2076363563537598,
      "loss_ce": 0.003534717485308647,
      "loss_iou": 0.49609375,
      "loss_num": 0.0419921875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 123672828,
      "step": 1846
    },
    {
      "epoch": 0.20958865248226952,
      "grad_norm": 13.124445915222168,
      "learning_rate": 5e-05,
      "loss": 1.1036,
      "num_input_tokens_seen": 123740076,
      "step": 1847
    },
    {
      "epoch": 0.20958865248226952,
      "loss": 0.9558366537094116,
      "loss_ce": 0.0017351035494357347,
      "loss_iou": 0.431640625,
      "loss_num": 0.0184326171875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 123740076,
      "step": 1847
    },
    {
      "epoch": 0.20970212765957447,
      "grad_norm": 14.296500205993652,
      "learning_rate": 5e-05,
      "loss": 1.038,
      "num_input_tokens_seen": 123806312,
      "step": 1848
    },
    {
      "epoch": 0.20970212765957447,
      "loss": 1.1535863876342773,
      "loss_ce": 0.004172424785792828,
      "loss_iou": 0.494140625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 123806312,
      "step": 1848
    },
    {
      "epoch": 0.20981560283687944,
      "grad_norm": 27.629638671875,
      "learning_rate": 5e-05,
      "loss": 1.1172,
      "num_input_tokens_seen": 123873076,
      "step": 1849
    },
    {
      "epoch": 0.20981560283687944,
      "loss": 1.0464540719985962,
      "loss_ce": 0.0048280805349349976,
      "loss_iou": 0.455078125,
      "loss_num": 0.0263671875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 123873076,
      "step": 1849
    },
    {
      "epoch": 0.2099290780141844,
      "grad_norm": 16.90260124206543,
      "learning_rate": 5e-05,
      "loss": 1.3067,
      "num_input_tokens_seen": 123940000,
      "step": 1850
    },
    {
      "epoch": 0.2099290780141844,
      "loss": 1.2202856540679932,
      "loss_ce": 0.006174388341605663,
      "loss_iou": 0.53515625,
      "loss_num": 0.029296875,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 123940000,
      "step": 1850
    },
    {
      "epoch": 0.21004255319148937,
      "grad_norm": 29.346086502075195,
      "learning_rate": 5e-05,
      "loss": 1.1001,
      "num_input_tokens_seen": 124006584,
      "step": 1851
    },
    {
      "epoch": 0.21004255319148937,
      "loss": 1.1482007503509521,
      "loss_ce": 0.005622688215225935,
      "loss_iou": 0.5078125,
      "loss_num": 0.0263671875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 124006584,
      "step": 1851
    },
    {
      "epoch": 0.21015602836879432,
      "grad_norm": 22.51994514465332,
      "learning_rate": 5e-05,
      "loss": 1.0694,
      "num_input_tokens_seen": 124073460,
      "step": 1852
    },
    {
      "epoch": 0.21015602836879432,
      "loss": 1.048064947128296,
      "loss_ce": 0.005828629247844219,
      "loss_iou": 0.466796875,
      "loss_num": 0.022216796875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 124073460,
      "step": 1852
    },
    {
      "epoch": 0.2102695035460993,
      "grad_norm": 14.846151351928711,
      "learning_rate": 5e-05,
      "loss": 1.4136,
      "num_input_tokens_seen": 124139144,
      "step": 1853
    },
    {
      "epoch": 0.2102695035460993,
      "loss": 1.5196726322174072,
      "loss_ce": 0.005024236161261797,
      "loss_iou": 0.6328125,
      "loss_num": 0.050048828125,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 124139144,
      "step": 1853
    },
    {
      "epoch": 0.21038297872340425,
      "grad_norm": 11.056437492370605,
      "learning_rate": 5e-05,
      "loss": 1.2291,
      "num_input_tokens_seen": 124206112,
      "step": 1854
    },
    {
      "epoch": 0.21038297872340425,
      "loss": 1.4215956926345825,
      "loss_ce": 0.006556541658937931,
      "loss_iou": 0.625,
      "loss_num": 0.03369140625,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 124206112,
      "step": 1854
    },
    {
      "epoch": 0.21049645390070923,
      "grad_norm": 15.43193531036377,
      "learning_rate": 5e-05,
      "loss": 1.1276,
      "num_input_tokens_seen": 124272528,
      "step": 1855
    },
    {
      "epoch": 0.21049645390070923,
      "loss": 1.149515151977539,
      "loss_ce": 0.006326672155410051,
      "loss_iou": 0.48828125,
      "loss_num": 0.033447265625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 124272528,
      "step": 1855
    },
    {
      "epoch": 0.21060992907801418,
      "grad_norm": 14.611534118652344,
      "learning_rate": 5e-05,
      "loss": 1.1436,
      "num_input_tokens_seen": 124339484,
      "step": 1856
    },
    {
      "epoch": 0.21060992907801418,
      "loss": 1.0413738489151,
      "loss_ce": 0.0032879244536161423,
      "loss_iou": 0.453125,
      "loss_num": 0.02587890625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 124339484,
      "step": 1856
    },
    {
      "epoch": 0.21072340425531916,
      "grad_norm": 36.19819259643555,
      "learning_rate": 5e-05,
      "loss": 1.2566,
      "num_input_tokens_seen": 124407368,
      "step": 1857
    },
    {
      "epoch": 0.21072340425531916,
      "loss": 1.3727803230285645,
      "loss_ce": 0.0021748871076852083,
      "loss_iou": 0.58984375,
      "loss_num": 0.0380859375,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 124407368,
      "step": 1857
    },
    {
      "epoch": 0.2108368794326241,
      "grad_norm": 18.319290161132812,
      "learning_rate": 5e-05,
      "loss": 1.3485,
      "num_input_tokens_seen": 124474304,
      "step": 1858
    },
    {
      "epoch": 0.2108368794326241,
      "loss": 1.304770588874817,
      "loss_ce": 0.006430739536881447,
      "loss_iou": 0.5546875,
      "loss_num": 0.038330078125,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 124474304,
      "step": 1858
    },
    {
      "epoch": 0.21095035460992909,
      "grad_norm": 17.894315719604492,
      "learning_rate": 5e-05,
      "loss": 1.2493,
      "num_input_tokens_seen": 124541376,
      "step": 1859
    },
    {
      "epoch": 0.21095035460992909,
      "loss": 1.3934838771820068,
      "loss_ce": 0.008718248456716537,
      "loss_iou": 0.60546875,
      "loss_num": 0.034912109375,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 124541376,
      "step": 1859
    },
    {
      "epoch": 0.21106382978723404,
      "grad_norm": 16.984350204467773,
      "learning_rate": 5e-05,
      "loss": 1.3544,
      "num_input_tokens_seen": 124608824,
      "step": 1860
    },
    {
      "epoch": 0.21106382978723404,
      "loss": 1.1580804586410522,
      "loss_ce": 0.0057366942055523396,
      "loss_iou": 0.515625,
      "loss_num": 0.02392578125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 124608824,
      "step": 1860
    },
    {
      "epoch": 0.21117730496453901,
      "grad_norm": 15.972076416015625,
      "learning_rate": 5e-05,
      "loss": 1.2603,
      "num_input_tokens_seen": 124675804,
      "step": 1861
    },
    {
      "epoch": 0.21117730496453901,
      "loss": 1.0815949440002441,
      "loss_ce": 0.00884108617901802,
      "loss_iou": 0.4453125,
      "loss_num": 0.036376953125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 124675804,
      "step": 1861
    },
    {
      "epoch": 0.21129078014184396,
      "grad_norm": 18.366708755493164,
      "learning_rate": 5e-05,
      "loss": 1.1696,
      "num_input_tokens_seen": 124742744,
      "step": 1862
    },
    {
      "epoch": 0.21129078014184396,
      "loss": 1.1917150020599365,
      "loss_ce": 0.004215031862258911,
      "loss_iou": 0.5078125,
      "loss_num": 0.03466796875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 124742744,
      "step": 1862
    },
    {
      "epoch": 0.21140425531914894,
      "grad_norm": 35.188514709472656,
      "learning_rate": 5e-05,
      "loss": 1.2394,
      "num_input_tokens_seen": 124809040,
      "step": 1863
    },
    {
      "epoch": 0.21140425531914894,
      "loss": 1.306964635848999,
      "loss_ce": 0.009113083593547344,
      "loss_iou": 0.5703125,
      "loss_num": 0.031005859375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 124809040,
      "step": 1863
    },
    {
      "epoch": 0.2115177304964539,
      "grad_norm": 20.427593231201172,
      "learning_rate": 5e-05,
      "loss": 1.2702,
      "num_input_tokens_seen": 124877012,
      "step": 1864
    },
    {
      "epoch": 0.2115177304964539,
      "loss": 1.3944742679595947,
      "loss_ce": 0.0028726691380143166,
      "loss_iou": 0.6015625,
      "loss_num": 0.03857421875,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 124877012,
      "step": 1864
    },
    {
      "epoch": 0.21163120567375887,
      "grad_norm": 17.55365753173828,
      "learning_rate": 5e-05,
      "loss": 1.229,
      "num_input_tokens_seen": 124943560,
      "step": 1865
    },
    {
      "epoch": 0.21163120567375887,
      "loss": 1.1457499265670776,
      "loss_ce": 0.006925485096871853,
      "loss_iou": 0.48828125,
      "loss_num": 0.032470703125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 124943560,
      "step": 1865
    },
    {
      "epoch": 0.21174468085106382,
      "grad_norm": 15.473758697509766,
      "learning_rate": 5e-05,
      "loss": 1.2111,
      "num_input_tokens_seen": 125010192,
      "step": 1866
    },
    {
      "epoch": 0.21174468085106382,
      "loss": 1.2225686311721802,
      "loss_ce": 0.009189720265567303,
      "loss_iou": 0.498046875,
      "loss_num": 0.04345703125,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 125010192,
      "step": 1866
    },
    {
      "epoch": 0.2118581560283688,
      "grad_norm": 20.736665725708008,
      "learning_rate": 5e-05,
      "loss": 1.307,
      "num_input_tokens_seen": 125077180,
      "step": 1867
    },
    {
      "epoch": 0.2118581560283688,
      "loss": 1.0415046215057373,
      "loss_ce": 0.0034186444245278835,
      "loss_iou": 0.4375,
      "loss_num": 0.0322265625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 125077180,
      "step": 1867
    },
    {
      "epoch": 0.21197163120567375,
      "grad_norm": 35.34907913208008,
      "learning_rate": 5e-05,
      "loss": 1.4793,
      "num_input_tokens_seen": 125144548,
      "step": 1868
    },
    {
      "epoch": 0.21197163120567375,
      "loss": 1.5038517713546753,
      "loss_ce": 0.003851804882287979,
      "loss_iou": 0.65234375,
      "loss_num": 0.039306640625,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 125144548,
      "step": 1868
    },
    {
      "epoch": 0.21208510638297873,
      "grad_norm": 16.47572135925293,
      "learning_rate": 5e-05,
      "loss": 1.6312,
      "num_input_tokens_seen": 125211628,
      "step": 1869
    },
    {
      "epoch": 0.21208510638297873,
      "loss": 1.5527294874191284,
      "loss_ce": 0.00585439195856452,
      "loss_iou": 0.69140625,
      "loss_num": 0.033203125,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 125211628,
      "step": 1869
    },
    {
      "epoch": 0.21219858156028368,
      "grad_norm": 24.58997917175293,
      "learning_rate": 5e-05,
      "loss": 1.3325,
      "num_input_tokens_seen": 125279248,
      "step": 1870
    },
    {
      "epoch": 0.21219858156028368,
      "loss": 0.9838624596595764,
      "loss_ce": 0.007299971301108599,
      "loss_iou": 0.419921875,
      "loss_num": 0.027099609375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 125279248,
      "step": 1870
    },
    {
      "epoch": 0.21231205673758866,
      "grad_norm": 17.910123825073242,
      "learning_rate": 5e-05,
      "loss": 1.1803,
      "num_input_tokens_seen": 125346496,
      "step": 1871
    },
    {
      "epoch": 0.21231205673758866,
      "loss": 1.02842378616333,
      "loss_ce": 0.004009679425507784,
      "loss_iou": 0.45703125,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 125346496,
      "step": 1871
    },
    {
      "epoch": 0.2124255319148936,
      "grad_norm": 23.492198944091797,
      "learning_rate": 5e-05,
      "loss": 1.2447,
      "num_input_tokens_seen": 125413816,
      "step": 1872
    },
    {
      "epoch": 0.2124255319148936,
      "loss": 1.296708106994629,
      "loss_ce": 0.002762814983725548,
      "loss_iou": 0.5625,
      "loss_num": 0.033935546875,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 125413816,
      "step": 1872
    },
    {
      "epoch": 0.21253900709219858,
      "grad_norm": 33.89380645751953,
      "learning_rate": 5e-05,
      "loss": 1.1543,
      "num_input_tokens_seen": 125480524,
      "step": 1873
    },
    {
      "epoch": 0.21253900709219858,
      "loss": 1.029667854309082,
      "loss_ce": 0.009160028770565987,
      "loss_iou": 0.451171875,
      "loss_num": 0.0234375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 125480524,
      "step": 1873
    },
    {
      "epoch": 0.21265248226950353,
      "grad_norm": 14.85552978515625,
      "learning_rate": 5e-05,
      "loss": 1.355,
      "num_input_tokens_seen": 125548000,
      "step": 1874
    },
    {
      "epoch": 0.21265248226950353,
      "loss": 1.3145185708999634,
      "loss_ce": 0.00787794217467308,
      "loss_iou": 0.578125,
      "loss_num": 0.0306396484375,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 125548000,
      "step": 1874
    },
    {
      "epoch": 0.2127659574468085,
      "grad_norm": 19.009658813476562,
      "learning_rate": 5e-05,
      "loss": 1.2089,
      "num_input_tokens_seen": 125615148,
      "step": 1875
    },
    {
      "epoch": 0.2127659574468085,
      "loss": 1.3560734987258911,
      "loss_ce": 0.006952426861971617,
      "loss_iou": 0.57421875,
      "loss_num": 0.039794921875,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 125615148,
      "step": 1875
    },
    {
      "epoch": 0.21287943262411346,
      "grad_norm": 17.360889434814453,
      "learning_rate": 5e-05,
      "loss": 1.125,
      "num_input_tokens_seen": 125682320,
      "step": 1876
    },
    {
      "epoch": 0.21287943262411346,
      "loss": 1.152443528175354,
      "loss_ce": 0.007424047216773033,
      "loss_iou": 0.48828125,
      "loss_num": 0.033447265625,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 125682320,
      "step": 1876
    },
    {
      "epoch": 0.21299290780141844,
      "grad_norm": 15.180671691894531,
      "learning_rate": 5e-05,
      "loss": 1.1819,
      "num_input_tokens_seen": 125749232,
      "step": 1877
    },
    {
      "epoch": 0.21299290780141844,
      "loss": 1.2758742570877075,
      "loss_ce": 0.010249227285385132,
      "loss_iou": 0.5390625,
      "loss_num": 0.037109375,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 125749232,
      "step": 1877
    },
    {
      "epoch": 0.2131063829787234,
      "grad_norm": 23.000774383544922,
      "learning_rate": 5e-05,
      "loss": 1.1168,
      "num_input_tokens_seen": 125816132,
      "step": 1878
    },
    {
      "epoch": 0.2131063829787234,
      "loss": 1.2129292488098145,
      "loss_ce": 0.005592798348516226,
      "loss_iou": 0.4921875,
      "loss_num": 0.044677734375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 125816132,
      "step": 1878
    },
    {
      "epoch": 0.21321985815602837,
      "grad_norm": 21.52040672302246,
      "learning_rate": 5e-05,
      "loss": 1.4116,
      "num_input_tokens_seen": 125881864,
      "step": 1879
    },
    {
      "epoch": 0.21321985815602837,
      "loss": 1.2561662197113037,
      "loss_ce": 0.0076310476288199425,
      "loss_iou": 0.5078125,
      "loss_num": 0.046875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 125881864,
      "step": 1879
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 15.390854835510254,
      "learning_rate": 5e-05,
      "loss": 1.2756,
      "num_input_tokens_seen": 125949136,
      "step": 1880
    },
    {
      "epoch": 0.21333333333333335,
      "loss": 1.4634363651275635,
      "loss_ce": 0.006405138410627842,
      "loss_iou": 0.62109375,
      "loss_num": 0.04248046875,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 125949136,
      "step": 1880
    },
    {
      "epoch": 0.2134468085106383,
      "grad_norm": 20.474212646484375,
      "learning_rate": 5e-05,
      "loss": 1.1328,
      "num_input_tokens_seen": 126015812,
      "step": 1881
    },
    {
      "epoch": 0.2134468085106383,
      "loss": 1.174877405166626,
      "loss_ce": 0.005443745292723179,
      "loss_iou": 0.4921875,
      "loss_num": 0.036376953125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 126015812,
      "step": 1881
    },
    {
      "epoch": 0.21356028368794328,
      "grad_norm": 28.811914443969727,
      "learning_rate": 5e-05,
      "loss": 1.2344,
      "num_input_tokens_seen": 126081696,
      "step": 1882
    },
    {
      "epoch": 0.21356028368794328,
      "loss": 1.0406532287597656,
      "loss_ce": 0.0025672432966530323,
      "loss_iou": 0.4609375,
      "loss_num": 0.023681640625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 126081696,
      "step": 1882
    },
    {
      "epoch": 0.21367375886524823,
      "grad_norm": 16.66796112060547,
      "learning_rate": 5e-05,
      "loss": 1.7577,
      "num_input_tokens_seen": 126149024,
      "step": 1883
    },
    {
      "epoch": 0.21367375886524823,
      "loss": 1.7010974884033203,
      "loss_ce": 0.006761505734175444,
      "loss_iou": 0.7265625,
      "loss_num": 0.047607421875,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 126149024,
      "step": 1883
    },
    {
      "epoch": 0.2137872340425532,
      "grad_norm": 20.399494171142578,
      "learning_rate": 5e-05,
      "loss": 1.3335,
      "num_input_tokens_seen": 126216316,
      "step": 1884
    },
    {
      "epoch": 0.2137872340425532,
      "loss": 1.1342570781707764,
      "loss_ce": 0.005350803025066853,
      "loss_iou": 0.50390625,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 126216316,
      "step": 1884
    },
    {
      "epoch": 0.21390070921985815,
      "grad_norm": 24.58563995361328,
      "learning_rate": 5e-05,
      "loss": 1.2663,
      "num_input_tokens_seen": 126283932,
      "step": 1885
    },
    {
      "epoch": 0.21390070921985815,
      "loss": 1.0896177291870117,
      "loss_ce": 0.004168529994785786,
      "loss_iou": 0.4765625,
      "loss_num": 0.026123046875,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 126283932,
      "step": 1885
    },
    {
      "epoch": 0.21401418439716313,
      "grad_norm": 17.15545082092285,
      "learning_rate": 5e-05,
      "loss": 1.2627,
      "num_input_tokens_seen": 126350668,
      "step": 1886
    },
    {
      "epoch": 0.21401418439716313,
      "loss": 1.3763362169265747,
      "loss_ce": 0.0047540972009301186,
      "loss_iou": 0.58203125,
      "loss_num": 0.041259765625,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 126350668,
      "step": 1886
    },
    {
      "epoch": 0.21412765957446808,
      "grad_norm": 11.006558418273926,
      "learning_rate": 5e-05,
      "loss": 1.1395,
      "num_input_tokens_seen": 126418296,
      "step": 1887
    },
    {
      "epoch": 0.21412765957446808,
      "loss": 1.1505649089813232,
      "loss_ce": 0.005057076923549175,
      "loss_iou": 0.4921875,
      "loss_num": 0.0322265625,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 126418296,
      "step": 1887
    },
    {
      "epoch": 0.21424113475177306,
      "grad_norm": 16.101526260375977,
      "learning_rate": 5e-05,
      "loss": 1.3199,
      "num_input_tokens_seen": 126485488,
      "step": 1888
    },
    {
      "epoch": 0.21424113475177306,
      "loss": 1.346386194229126,
      "loss_ce": 0.005565824918448925,
      "loss_iou": 0.625,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 126485488,
      "step": 1888
    },
    {
      "epoch": 0.214354609929078,
      "grad_norm": 90.86451721191406,
      "learning_rate": 5e-05,
      "loss": 1.2635,
      "num_input_tokens_seen": 126552732,
      "step": 1889
    },
    {
      "epoch": 0.214354609929078,
      "loss": 1.389404058456421,
      "loss_ce": 0.006103256717324257,
      "loss_iou": 0.5859375,
      "loss_num": 0.04150390625,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 126552732,
      "step": 1889
    },
    {
      "epoch": 0.214468085106383,
      "grad_norm": 16.190536499023438,
      "learning_rate": 5e-05,
      "loss": 1.4687,
      "num_input_tokens_seen": 126619368,
      "step": 1890
    },
    {
      "epoch": 0.214468085106383,
      "loss": 1.498673915863037,
      "loss_ce": 0.002580135827884078,
      "loss_iou": 0.625,
      "loss_num": 0.049072265625,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 126619368,
      "step": 1890
    },
    {
      "epoch": 0.21458156028368794,
      "grad_norm": 12.144180297851562,
      "learning_rate": 5e-05,
      "loss": 1.0831,
      "num_input_tokens_seen": 126686936,
      "step": 1891
    },
    {
      "epoch": 0.21458156028368794,
      "loss": 1.0194411277770996,
      "loss_ce": 0.00601346418261528,
      "loss_iou": 0.451171875,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 126686936,
      "step": 1891
    },
    {
      "epoch": 0.21469503546099292,
      "grad_norm": 20.594289779663086,
      "learning_rate": 5e-05,
      "loss": 1.1862,
      "num_input_tokens_seen": 126753796,
      "step": 1892
    },
    {
      "epoch": 0.21469503546099292,
      "loss": 1.1638994216918945,
      "loss_ce": 0.0037431828677654266,
      "loss_iou": 0.490234375,
      "loss_num": 0.03564453125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 126753796,
      "step": 1892
    },
    {
      "epoch": 0.21480851063829787,
      "grad_norm": 19.79926300048828,
      "learning_rate": 5e-05,
      "loss": 1.4243,
      "num_input_tokens_seen": 126822032,
      "step": 1893
    },
    {
      "epoch": 0.21480851063829787,
      "loss": 1.3334345817565918,
      "loss_ce": 0.00482130004093051,
      "loss_iou": 0.56640625,
      "loss_num": 0.039306640625,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 126822032,
      "step": 1893
    },
    {
      "epoch": 0.21492198581560285,
      "grad_norm": 23.141708374023438,
      "learning_rate": 5e-05,
      "loss": 1.2682,
      "num_input_tokens_seen": 126889044,
      "step": 1894
    },
    {
      "epoch": 0.21492198581560285,
      "loss": 1.4110209941864014,
      "loss_ce": 0.00232967222109437,
      "loss_iou": 0.5859375,
      "loss_num": 0.04736328125,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 126889044,
      "step": 1894
    },
    {
      "epoch": 0.2150354609929078,
      "grad_norm": 17.343564987182617,
      "learning_rate": 5e-05,
      "loss": 1.4242,
      "num_input_tokens_seen": 126955528,
      "step": 1895
    },
    {
      "epoch": 0.2150354609929078,
      "loss": 1.539219856262207,
      "loss_ce": 0.011235177516937256,
      "loss_iou": 0.6328125,
      "loss_num": 0.052734375,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 126955528,
      "step": 1895
    },
    {
      "epoch": 0.21514893617021277,
      "grad_norm": 12.391722679138184,
      "learning_rate": 5e-05,
      "loss": 1.2019,
      "num_input_tokens_seen": 127021964,
      "step": 1896
    },
    {
      "epoch": 0.21514893617021277,
      "loss": 1.1622378826141357,
      "loss_ce": 0.004034816287457943,
      "loss_iou": 0.50390625,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 127021964,
      "step": 1896
    },
    {
      "epoch": 0.21526241134751772,
      "grad_norm": 19.35228157043457,
      "learning_rate": 5e-05,
      "loss": 1.1531,
      "num_input_tokens_seen": 127089648,
      "step": 1897
    },
    {
      "epoch": 0.21526241134751772,
      "loss": 1.1124154329299927,
      "loss_ce": 0.007434967905282974,
      "loss_iou": 0.470703125,
      "loss_num": 0.03271484375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 127089648,
      "step": 1897
    },
    {
      "epoch": 0.2153758865248227,
      "grad_norm": 21.77369499206543,
      "learning_rate": 5e-05,
      "loss": 1.1891,
      "num_input_tokens_seen": 127156336,
      "step": 1898
    },
    {
      "epoch": 0.2153758865248227,
      "loss": 1.3066097497940063,
      "loss_ce": 0.004851939622312784,
      "loss_iou": 0.57421875,
      "loss_num": 0.03076171875,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 127156336,
      "step": 1898
    },
    {
      "epoch": 0.21548936170212765,
      "grad_norm": 39.485538482666016,
      "learning_rate": 5e-05,
      "loss": 1.3259,
      "num_input_tokens_seen": 127223196,
      "step": 1899
    },
    {
      "epoch": 0.21548936170212765,
      "loss": 1.4411871433258057,
      "loss_ce": 0.005152066703885794,
      "loss_iou": 0.6015625,
      "loss_num": 0.0458984375,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 127223196,
      "step": 1899
    },
    {
      "epoch": 0.21560283687943263,
      "grad_norm": 14.987837791442871,
      "learning_rate": 5e-05,
      "loss": 1.2296,
      "num_input_tokens_seen": 127289484,
      "step": 1900
    },
    {
      "epoch": 0.21560283687943263,
      "loss": 1.216583490371704,
      "loss_ce": 0.00857577659189701,
      "loss_iou": 0.5390625,
      "loss_num": 0.025390625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 127289484,
      "step": 1900
    },
    {
      "epoch": 0.21571631205673758,
      "grad_norm": 13.729730606079102,
      "learning_rate": 5e-05,
      "loss": 1.0619,
      "num_input_tokens_seen": 127357408,
      "step": 1901
    },
    {
      "epoch": 0.21571631205673758,
      "loss": 1.0219721794128418,
      "loss_ce": 0.0024408982135355473,
      "loss_iou": 0.474609375,
      "loss_num": 0.014404296875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 127357408,
      "step": 1901
    },
    {
      "epoch": 0.21582978723404256,
      "grad_norm": 32.7650146484375,
      "learning_rate": 5e-05,
      "loss": 1.1936,
      "num_input_tokens_seen": 127423888,
      "step": 1902
    },
    {
      "epoch": 0.21582978723404256,
      "loss": 1.2327700853347778,
      "loss_ce": 0.006695891730487347,
      "loss_iou": 0.515625,
      "loss_num": 0.03955078125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 127423888,
      "step": 1902
    },
    {
      "epoch": 0.2159432624113475,
      "grad_norm": 15.58436107635498,
      "learning_rate": 5e-05,
      "loss": 1.4213,
      "num_input_tokens_seen": 127490348,
      "step": 1903
    },
    {
      "epoch": 0.2159432624113475,
      "loss": 1.4293392896652222,
      "loss_ce": 0.007464270573109388,
      "loss_iou": 0.58203125,
      "loss_num": 0.0517578125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 127490348,
      "step": 1903
    },
    {
      "epoch": 0.2160567375886525,
      "grad_norm": 14.475404739379883,
      "learning_rate": 5e-05,
      "loss": 1.1757,
      "num_input_tokens_seen": 127558392,
      "step": 1904
    },
    {
      "epoch": 0.2160567375886525,
      "loss": 1.0421723127365112,
      "loss_ce": 0.006527807097882032,
      "loss_iou": 0.46484375,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 127558392,
      "step": 1904
    },
    {
      "epoch": 0.21617021276595744,
      "grad_norm": 12.838871955871582,
      "learning_rate": 5e-05,
      "loss": 0.9359,
      "num_input_tokens_seen": 127625168,
      "step": 1905
    },
    {
      "epoch": 0.21617021276595744,
      "loss": 0.8431668877601624,
      "loss_ce": 0.004314960911870003,
      "loss_iou": 0.341796875,
      "loss_num": 0.03125,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 127625168,
      "step": 1905
    },
    {
      "epoch": 0.21628368794326241,
      "grad_norm": 18.21084976196289,
      "learning_rate": 5e-05,
      "loss": 1.1389,
      "num_input_tokens_seen": 127691964,
      "step": 1906
    },
    {
      "epoch": 0.21628368794326241,
      "loss": 1.0987191200256348,
      "loss_ce": 0.0022835559211671352,
      "loss_iou": 0.48046875,
      "loss_num": 0.027587890625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 127691964,
      "step": 1906
    },
    {
      "epoch": 0.21639716312056737,
      "grad_norm": 40.68177795410156,
      "learning_rate": 5e-05,
      "loss": 1.3853,
      "num_input_tokens_seen": 127759828,
      "step": 1907
    },
    {
      "epoch": 0.21639716312056737,
      "loss": 1.448237657546997,
      "loss_ce": 0.006343066226691008,
      "loss_iou": 0.65234375,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 127759828,
      "step": 1907
    },
    {
      "epoch": 0.21651063829787234,
      "grad_norm": 20.13042449951172,
      "learning_rate": 5e-05,
      "loss": 1.6258,
      "num_input_tokens_seen": 127826524,
      "step": 1908
    },
    {
      "epoch": 0.21651063829787234,
      "loss": 1.5832399129867554,
      "loss_ce": 0.0031617849599570036,
      "loss_iou": 0.6640625,
      "loss_num": 0.05029296875,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 127826524,
      "step": 1908
    },
    {
      "epoch": 0.2166241134751773,
      "grad_norm": 12.978533744812012,
      "learning_rate": 5e-05,
      "loss": 1.3397,
      "num_input_tokens_seen": 127894284,
      "step": 1909
    },
    {
      "epoch": 0.2166241134751773,
      "loss": 1.3290386199951172,
      "loss_ce": 0.004819798283278942,
      "loss_iou": 0.578125,
      "loss_num": 0.033203125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 127894284,
      "step": 1909
    },
    {
      "epoch": 0.21673758865248227,
      "grad_norm": 26.004255294799805,
      "learning_rate": 5e-05,
      "loss": 0.9869,
      "num_input_tokens_seen": 127960388,
      "step": 1910
    },
    {
      "epoch": 0.21673758865248227,
      "loss": 0.9414920210838318,
      "loss_ce": 0.001794770359992981,
      "loss_iou": 0.419921875,
      "loss_num": 0.0198974609375,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 127960388,
      "step": 1910
    },
    {
      "epoch": 0.21685106382978722,
      "grad_norm": 16.558094024658203,
      "learning_rate": 5e-05,
      "loss": 1.417,
      "num_input_tokens_seen": 128027956,
      "step": 1911
    },
    {
      "epoch": 0.21685106382978722,
      "loss": 1.5778393745422363,
      "loss_ce": 0.003620696719735861,
      "loss_iou": 0.71484375,
      "loss_num": 0.0291748046875,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 128027956,
      "step": 1911
    },
    {
      "epoch": 0.2169645390070922,
      "grad_norm": 21.67347526550293,
      "learning_rate": 5e-05,
      "loss": 1.2036,
      "num_input_tokens_seen": 128095736,
      "step": 1912
    },
    {
      "epoch": 0.2169645390070922,
      "loss": 1.073371410369873,
      "loss_ce": 0.005012003239244223,
      "loss_iou": 0.46484375,
      "loss_num": 0.0274658203125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 128095736,
      "step": 1912
    },
    {
      "epoch": 0.21707801418439715,
      "grad_norm": 33.758392333984375,
      "learning_rate": 5e-05,
      "loss": 1.2757,
      "num_input_tokens_seen": 128162060,
      "step": 1913
    },
    {
      "epoch": 0.21707801418439715,
      "loss": 1.3960217237472534,
      "loss_ce": 0.007349816616624594,
      "loss_iou": 0.59765625,
      "loss_num": 0.0390625,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 128162060,
      "step": 1913
    },
    {
      "epoch": 0.21719148936170213,
      "grad_norm": 23.339563369750977,
      "learning_rate": 5e-05,
      "loss": 1.3632,
      "num_input_tokens_seen": 128229184,
      "step": 1914
    },
    {
      "epoch": 0.21719148936170213,
      "loss": 1.1872773170471191,
      "loss_ce": 0.0036835898645222187,
      "loss_iou": 0.51953125,
      "loss_num": 0.029296875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 128229184,
      "step": 1914
    },
    {
      "epoch": 0.2173049645390071,
      "grad_norm": 25.260820388793945,
      "learning_rate": 5e-05,
      "loss": 1.125,
      "num_input_tokens_seen": 128296432,
      "step": 1915
    },
    {
      "epoch": 0.2173049645390071,
      "loss": 1.0051424503326416,
      "loss_ce": 0.005630830768495798,
      "loss_iou": 0.44921875,
      "loss_num": 0.02099609375,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 128296432,
      "step": 1915
    },
    {
      "epoch": 0.21741843971631206,
      "grad_norm": 21.0361385345459,
      "learning_rate": 5e-05,
      "loss": 1.4985,
      "num_input_tokens_seen": 128364028,
      "step": 1916
    },
    {
      "epoch": 0.21741843971631206,
      "loss": 1.5884170532226562,
      "loss_ce": 0.0015030299546197057,
      "loss_iou": 0.68359375,
      "loss_num": 0.04345703125,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 128364028,
      "step": 1916
    },
    {
      "epoch": 0.21753191489361703,
      "grad_norm": 19.092248916625977,
      "learning_rate": 5e-05,
      "loss": 1.2215,
      "num_input_tokens_seen": 128429980,
      "step": 1917
    },
    {
      "epoch": 0.21753191489361703,
      "loss": 1.1022708415985107,
      "loss_ce": 0.006811857223510742,
      "loss_iou": 0.50390625,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 128429980,
      "step": 1917
    },
    {
      "epoch": 0.21764539007092198,
      "grad_norm": 17.273597717285156,
      "learning_rate": 5e-05,
      "loss": 1.3186,
      "num_input_tokens_seen": 128496304,
      "step": 1918
    },
    {
      "epoch": 0.21764539007092198,
      "loss": 1.4400603771209717,
      "loss_ce": 0.005978279281407595,
      "loss_iou": 0.60546875,
      "loss_num": 0.044677734375,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 128496304,
      "step": 1918
    },
    {
      "epoch": 0.21775886524822696,
      "grad_norm": 19.958454132080078,
      "learning_rate": 5e-05,
      "loss": 1.1909,
      "num_input_tokens_seen": 128563104,
      "step": 1919
    },
    {
      "epoch": 0.21775886524822696,
      "loss": 1.2859907150268555,
      "loss_ce": 0.0018110431265085936,
      "loss_iou": 0.578125,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 128563104,
      "step": 1919
    },
    {
      "epoch": 0.2178723404255319,
      "grad_norm": 28.79715919494629,
      "learning_rate": 5e-05,
      "loss": 1.2718,
      "num_input_tokens_seen": 128629504,
      "step": 1920
    },
    {
      "epoch": 0.2178723404255319,
      "loss": 1.3212403059005737,
      "loss_ce": 0.004834091290831566,
      "loss_iou": 0.57421875,
      "loss_num": 0.033203125,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 128629504,
      "step": 1920
    },
    {
      "epoch": 0.2179858156028369,
      "grad_norm": 14.830925941467285,
      "learning_rate": 5e-05,
      "loss": 1.0151,
      "num_input_tokens_seen": 128696520,
      "step": 1921
    },
    {
      "epoch": 0.2179858156028369,
      "loss": 1.0095868110656738,
      "loss_ce": 0.010807577520608902,
      "loss_iou": 0.421875,
      "loss_num": 0.031494140625,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 128696520,
      "step": 1921
    },
    {
      "epoch": 0.21809929078014184,
      "grad_norm": 23.214582443237305,
      "learning_rate": 5e-05,
      "loss": 1.3727,
      "num_input_tokens_seen": 128763512,
      "step": 1922
    },
    {
      "epoch": 0.21809929078014184,
      "loss": 1.4661664962768555,
      "loss_ce": 0.006205464713275433,
      "loss_iou": 0.62109375,
      "loss_num": 0.043212890625,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 128763512,
      "step": 1922
    },
    {
      "epoch": 0.21821276595744682,
      "grad_norm": 21.769195556640625,
      "learning_rate": 5e-05,
      "loss": 1.3061,
      "num_input_tokens_seen": 128829208,
      "step": 1923
    },
    {
      "epoch": 0.21821276595744682,
      "loss": 1.2060211896896362,
      "loss_ce": 0.00484930444508791,
      "loss_iou": 0.5234375,
      "loss_num": 0.03173828125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 128829208,
      "step": 1923
    },
    {
      "epoch": 0.21832624113475177,
      "grad_norm": 21.575632095336914,
      "learning_rate": 5e-05,
      "loss": 1.3213,
      "num_input_tokens_seen": 128896388,
      "step": 1924
    },
    {
      "epoch": 0.21832624113475177,
      "loss": 1.1378943920135498,
      "loss_ce": 0.00605848990380764,
      "loss_iou": 0.48046875,
      "loss_num": 0.0341796875,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 128896388,
      "step": 1924
    },
    {
      "epoch": 0.21843971631205675,
      "grad_norm": 34.43570327758789,
      "learning_rate": 5e-05,
      "loss": 1.3324,
      "num_input_tokens_seen": 128963312,
      "step": 1925
    },
    {
      "epoch": 0.21843971631205675,
      "loss": 1.0827298164367676,
      "loss_ce": 0.003139910288155079,
      "loss_iou": 0.46875,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 128963312,
      "step": 1925
    },
    {
      "epoch": 0.2185531914893617,
      "grad_norm": 37.63343048095703,
      "learning_rate": 5e-05,
      "loss": 1.5297,
      "num_input_tokens_seen": 129030188,
      "step": 1926
    },
    {
      "epoch": 0.2185531914893617,
      "loss": 1.6165194511413574,
      "loss_ce": 0.0032381252385675907,
      "loss_iou": 0.703125,
      "loss_num": 0.04052734375,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 129030188,
      "step": 1926
    },
    {
      "epoch": 0.21866666666666668,
      "grad_norm": 28.619964599609375,
      "learning_rate": 5e-05,
      "loss": 1.1829,
      "num_input_tokens_seen": 129097684,
      "step": 1927
    },
    {
      "epoch": 0.21866666666666668,
      "loss": 1.0853354930877686,
      "loss_ce": 0.005257416516542435,
      "loss_iou": 0.48046875,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 129097684,
      "step": 1927
    },
    {
      "epoch": 0.21878014184397163,
      "grad_norm": 33.493873596191406,
      "learning_rate": 5e-05,
      "loss": 1.4487,
      "num_input_tokens_seen": 129165092,
      "step": 1928
    },
    {
      "epoch": 0.21878014184397163,
      "loss": 1.264936923980713,
      "loss_ce": 0.005171304568648338,
      "loss_iou": 0.5859375,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 129165092,
      "step": 1928
    },
    {
      "epoch": 0.2188936170212766,
      "grad_norm": 17.968524932861328,
      "learning_rate": 5e-05,
      "loss": 1.3908,
      "num_input_tokens_seen": 129232668,
      "step": 1929
    },
    {
      "epoch": 0.2188936170212766,
      "loss": 1.4895329475402832,
      "loss_ce": 0.00906427763402462,
      "loss_iou": 0.65625,
      "loss_num": 0.033447265625,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 129232668,
      "step": 1929
    },
    {
      "epoch": 0.21900709219858155,
      "grad_norm": 14.629753112792969,
      "learning_rate": 5e-05,
      "loss": 1.2436,
      "num_input_tokens_seen": 129299800,
      "step": 1930
    },
    {
      "epoch": 0.21900709219858155,
      "loss": 1.1798979043960571,
      "loss_ce": 0.00460495101287961,
      "loss_iou": 0.46484375,
      "loss_num": 0.049560546875,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 129299800,
      "step": 1930
    },
    {
      "epoch": 0.21912056737588653,
      "grad_norm": 28.31855010986328,
      "learning_rate": 5e-05,
      "loss": 1.1684,
      "num_input_tokens_seen": 129366744,
      "step": 1931
    },
    {
      "epoch": 0.21912056737588653,
      "loss": 1.0934102535247803,
      "loss_ce": 0.002834034152328968,
      "loss_iou": 0.470703125,
      "loss_num": 0.0302734375,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 129366744,
      "step": 1931
    },
    {
      "epoch": 0.21923404255319148,
      "grad_norm": 30.716222763061523,
      "learning_rate": 5e-05,
      "loss": 1.2992,
      "num_input_tokens_seen": 129432852,
      "step": 1932
    },
    {
      "epoch": 0.21923404255319148,
      "loss": 1.201281189918518,
      "loss_ce": 0.0020624296739697456,
      "loss_iou": 0.5390625,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 129432852,
      "step": 1932
    },
    {
      "epoch": 0.21934751773049646,
      "grad_norm": 11.595818519592285,
      "learning_rate": 5e-05,
      "loss": 0.9617,
      "num_input_tokens_seen": 129499568,
      "step": 1933
    },
    {
      "epoch": 0.21934751773049646,
      "loss": 0.9874556064605713,
      "loss_ce": 0.004057138226926327,
      "loss_iou": 0.44140625,
      "loss_num": 0.0201416015625,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 129499568,
      "step": 1933
    },
    {
      "epoch": 0.2194609929078014,
      "grad_norm": 24.952829360961914,
      "learning_rate": 5e-05,
      "loss": 1.2844,
      "num_input_tokens_seen": 129566960,
      "step": 1934
    },
    {
      "epoch": 0.2194609929078014,
      "loss": 1.3494725227355957,
      "loss_ce": 0.0032811255659908056,
      "loss_iou": 0.578125,
      "loss_num": 0.03759765625,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 129566960,
      "step": 1934
    },
    {
      "epoch": 0.2195744680851064,
      "grad_norm": 17.98565673828125,
      "learning_rate": 5e-05,
      "loss": 1.0663,
      "num_input_tokens_seen": 129635088,
      "step": 1935
    },
    {
      "epoch": 0.2195744680851064,
      "loss": 1.076432228088379,
      "loss_ce": 0.002701779827475548,
      "loss_iou": 0.462890625,
      "loss_num": 0.0301513671875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 129635088,
      "step": 1935
    },
    {
      "epoch": 0.21968794326241134,
      "grad_norm": 28.911176681518555,
      "learning_rate": 5e-05,
      "loss": 1.4875,
      "num_input_tokens_seen": 129701480,
      "step": 1936
    },
    {
      "epoch": 0.21968794326241134,
      "loss": 1.4617376327514648,
      "loss_ce": 0.008368423208594322,
      "loss_iou": 0.625,
      "loss_num": 0.04052734375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 129701480,
      "step": 1936
    },
    {
      "epoch": 0.21980141843971632,
      "grad_norm": 21.733901977539062,
      "learning_rate": 5e-05,
      "loss": 1.3331,
      "num_input_tokens_seen": 129767540,
      "step": 1937
    },
    {
      "epoch": 0.21980141843971632,
      "loss": 1.097226858139038,
      "loss_ce": 0.004453470930457115,
      "loss_iou": 0.4765625,
      "loss_num": 0.0277099609375,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 129767540,
      "step": 1937
    },
    {
      "epoch": 0.21991489361702127,
      "grad_norm": 26.20784568786621,
      "learning_rate": 5e-05,
      "loss": 1.1496,
      "num_input_tokens_seen": 129834592,
      "step": 1938
    },
    {
      "epoch": 0.21991489361702127,
      "loss": 0.9560290575027466,
      "loss_ce": 0.008397174067795277,
      "loss_iou": 0.408203125,
      "loss_num": 0.0263671875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 129834592,
      "step": 1938
    },
    {
      "epoch": 0.22002836879432625,
      "grad_norm": 17.706884384155273,
      "learning_rate": 5e-05,
      "loss": 1.3621,
      "num_input_tokens_seen": 129902036,
      "step": 1939
    },
    {
      "epoch": 0.22002836879432625,
      "loss": 1.293846607208252,
      "loss_ce": 0.005455579608678818,
      "loss_iou": 0.5390625,
      "loss_num": 0.04150390625,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 129902036,
      "step": 1939
    },
    {
      "epoch": 0.2201418439716312,
      "grad_norm": 19.886478424072266,
      "learning_rate": 5e-05,
      "loss": 1.2311,
      "num_input_tokens_seen": 129968496,
      "step": 1940
    },
    {
      "epoch": 0.2201418439716312,
      "loss": 1.1245896816253662,
      "loss_ce": 0.00740218348801136,
      "loss_iou": 0.474609375,
      "loss_num": 0.03369140625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 129968496,
      "step": 1940
    },
    {
      "epoch": 0.22025531914893617,
      "grad_norm": 21.535409927368164,
      "learning_rate": 5e-05,
      "loss": 1.4237,
      "num_input_tokens_seen": 130036272,
      "step": 1941
    },
    {
      "epoch": 0.22025531914893617,
      "loss": 1.4732619524002075,
      "loss_ce": 0.0025588497519493103,
      "loss_iou": 0.63671875,
      "loss_num": 0.03955078125,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 130036272,
      "step": 1941
    },
    {
      "epoch": 0.22036879432624112,
      "grad_norm": 19.96759033203125,
      "learning_rate": 5e-05,
      "loss": 1.2256,
      "num_input_tokens_seen": 130102540,
      "step": 1942
    },
    {
      "epoch": 0.22036879432624112,
      "loss": 1.1521625518798828,
      "loss_ce": 0.007143068592995405,
      "loss_iou": 0.50390625,
      "loss_num": 0.0264892578125,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 130102540,
      "step": 1942
    },
    {
      "epoch": 0.2204822695035461,
      "grad_norm": 29.916536331176758,
      "learning_rate": 5e-05,
      "loss": 1.2121,
      "num_input_tokens_seen": 130169928,
      "step": 1943
    },
    {
      "epoch": 0.2204822695035461,
      "loss": 1.4069666862487793,
      "loss_ce": 0.006576129700988531,
      "loss_iou": 0.578125,
      "loss_num": 0.048583984375,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 130169928,
      "step": 1943
    },
    {
      "epoch": 0.22059574468085105,
      "grad_norm": 30.380428314208984,
      "learning_rate": 5e-05,
      "loss": 1.3247,
      "num_input_tokens_seen": 130237312,
      "step": 1944
    },
    {
      "epoch": 0.22059574468085105,
      "loss": 1.3525798320770264,
      "loss_ce": 0.006388486362993717,
      "loss_iou": 0.57421875,
      "loss_num": 0.03955078125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 130237312,
      "step": 1944
    },
    {
      "epoch": 0.22070921985815603,
      "grad_norm": 15.373396873474121,
      "learning_rate": 5e-05,
      "loss": 1.3848,
      "num_input_tokens_seen": 130303632,
      "step": 1945
    },
    {
      "epoch": 0.22070921985815603,
      "loss": 1.1116504669189453,
      "loss_ce": 0.0032520091626793146,
      "loss_iou": 0.4765625,
      "loss_num": 0.03125,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 130303632,
      "step": 1945
    },
    {
      "epoch": 0.22082269503546098,
      "grad_norm": 10.608590126037598,
      "learning_rate": 5e-05,
      "loss": 1.0785,
      "num_input_tokens_seen": 130370640,
      "step": 1946
    },
    {
      "epoch": 0.22082269503546098,
      "loss": 1.0079599618911743,
      "loss_ce": 0.005518494173884392,
      "loss_iou": 0.45703125,
      "loss_num": 0.017333984375,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 130370640,
      "step": 1946
    },
    {
      "epoch": 0.22093617021276596,
      "grad_norm": 24.078638076782227,
      "learning_rate": 5e-05,
      "loss": 1.1708,
      "num_input_tokens_seen": 130438012,
      "step": 1947
    },
    {
      "epoch": 0.22093617021276596,
      "loss": 1.2103781700134277,
      "loss_ce": 0.01067117415368557,
      "loss_iou": 0.498046875,
      "loss_num": 0.040771484375,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 130438012,
      "step": 1947
    },
    {
      "epoch": 0.2210496453900709,
      "grad_norm": 25.922269821166992,
      "learning_rate": 5e-05,
      "loss": 1.256,
      "num_input_tokens_seen": 130505988,
      "step": 1948
    },
    {
      "epoch": 0.2210496453900709,
      "loss": 1.433996558189392,
      "loss_ce": 0.00772704416885972,
      "loss_iou": 0.61328125,
      "loss_num": 0.039794921875,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 130505988,
      "step": 1948
    },
    {
      "epoch": 0.2211631205673759,
      "grad_norm": 48.13007354736328,
      "learning_rate": 5e-05,
      "loss": 1.4133,
      "num_input_tokens_seen": 130572736,
      "step": 1949
    },
    {
      "epoch": 0.2211631205673759,
      "loss": 1.6035196781158447,
      "loss_ce": 0.00293368985876441,
      "loss_iou": 0.66796875,
      "loss_num": 0.052978515625,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 130572736,
      "step": 1949
    },
    {
      "epoch": 0.22127659574468084,
      "grad_norm": 16.627016067504883,
      "learning_rate": 5e-05,
      "loss": 1.1787,
      "num_input_tokens_seen": 130640476,
      "step": 1950
    },
    {
      "epoch": 0.22127659574468084,
      "loss": 1.13850736618042,
      "loss_ce": 0.00569477304816246,
      "loss_iou": 0.51953125,
      "loss_num": 0.018798828125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 130640476,
      "step": 1950
    },
    {
      "epoch": 0.22139007092198582,
      "grad_norm": 47.210296630859375,
      "learning_rate": 5e-05,
      "loss": 1.1916,
      "num_input_tokens_seen": 130707376,
      "step": 1951
    },
    {
      "epoch": 0.22139007092198582,
      "loss": 0.9793844223022461,
      "loss_ce": 0.004286797251552343,
      "loss_iou": 0.435546875,
      "loss_num": 0.0203857421875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 130707376,
      "step": 1951
    },
    {
      "epoch": 0.2215035460992908,
      "grad_norm": 15.11020278930664,
      "learning_rate": 5e-05,
      "loss": 1.18,
      "num_input_tokens_seen": 130774556,
      "step": 1952
    },
    {
      "epoch": 0.2215035460992908,
      "loss": 1.212371587753296,
      "loss_ce": 0.0053403619676828384,
      "loss_iou": 0.50390625,
      "loss_num": 0.040283203125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 130774556,
      "step": 1952
    },
    {
      "epoch": 0.22161702127659574,
      "grad_norm": 23.44253921508789,
      "learning_rate": 5e-05,
      "loss": 1.3102,
      "num_input_tokens_seen": 130842072,
      "step": 1953
    },
    {
      "epoch": 0.22161702127659574,
      "loss": 1.1929755210876465,
      "loss_ce": 0.003034125780686736,
      "loss_iou": 0.54296875,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 130842072,
      "step": 1953
    },
    {
      "epoch": 0.22173049645390072,
      "grad_norm": 23.770536422729492,
      "learning_rate": 5e-05,
      "loss": 1.284,
      "num_input_tokens_seen": 130909332,
      "step": 1954
    },
    {
      "epoch": 0.22173049645390072,
      "loss": 1.1795459985733032,
      "loss_ce": 0.004253040999174118,
      "loss_iou": 0.52734375,
      "loss_num": 0.024658203125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 130909332,
      "step": 1954
    },
    {
      "epoch": 0.22184397163120567,
      "grad_norm": 22.631380081176758,
      "learning_rate": 5e-05,
      "loss": 1.1858,
      "num_input_tokens_seen": 130974880,
      "step": 1955
    },
    {
      "epoch": 0.22184397163120567,
      "loss": 1.134850025177002,
      "loss_ce": 0.006798324175179005,
      "loss_iou": 0.4609375,
      "loss_num": 0.041748046875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 130974880,
      "step": 1955
    },
    {
      "epoch": 0.22195744680851065,
      "grad_norm": 18.269336700439453,
      "learning_rate": 5e-05,
      "loss": 1.1455,
      "num_input_tokens_seen": 131042468,
      "step": 1956
    },
    {
      "epoch": 0.22195744680851065,
      "loss": 1.074877381324768,
      "loss_ce": 0.007372540421783924,
      "loss_iou": 0.44921875,
      "loss_num": 0.033935546875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 131042468,
      "step": 1956
    },
    {
      "epoch": 0.2220709219858156,
      "grad_norm": 13.482096672058105,
      "learning_rate": 5e-05,
      "loss": 1.0088,
      "num_input_tokens_seen": 131108648,
      "step": 1957
    },
    {
      "epoch": 0.2220709219858156,
      "loss": 0.929209291934967,
      "loss_ce": 0.003794238902628422,
      "loss_iou": 0.408203125,
      "loss_num": 0.02197265625,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 131108648,
      "step": 1957
    },
    {
      "epoch": 0.22218439716312058,
      "grad_norm": 15.835927963256836,
      "learning_rate": 5e-05,
      "loss": 0.9653,
      "num_input_tokens_seen": 131174752,
      "step": 1958
    },
    {
      "epoch": 0.22218439716312058,
      "loss": 0.9370720386505127,
      "loss_ce": 0.004637968726456165,
      "loss_iou": 0.4140625,
      "loss_num": 0.021240234375,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 131174752,
      "step": 1958
    },
    {
      "epoch": 0.22229787234042553,
      "grad_norm": 15.699392318725586,
      "learning_rate": 5e-05,
      "loss": 1.3881,
      "num_input_tokens_seen": 131240936,
      "step": 1959
    },
    {
      "epoch": 0.22229787234042553,
      "loss": 1.5764856338500977,
      "loss_ce": 0.010079375468194485,
      "loss_iou": 0.66796875,
      "loss_num": 0.045166015625,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 131240936,
      "step": 1959
    },
    {
      "epoch": 0.2224113475177305,
      "grad_norm": 23.9986515045166,
      "learning_rate": 5e-05,
      "loss": 1.0845,
      "num_input_tokens_seen": 131307544,
      "step": 1960
    },
    {
      "epoch": 0.2224113475177305,
      "loss": 1.2363088130950928,
      "loss_ce": 0.0033986622001975775,
      "loss_iou": 0.51171875,
      "loss_num": 0.042236328125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 131307544,
      "step": 1960
    },
    {
      "epoch": 0.22252482269503546,
      "grad_norm": 19.002544403076172,
      "learning_rate": 5e-05,
      "loss": 1.0742,
      "num_input_tokens_seen": 131373712,
      "step": 1961
    },
    {
      "epoch": 0.22252482269503546,
      "loss": 1.0290706157684326,
      "loss_ce": 0.006121371872723103,
      "loss_iou": 0.419921875,
      "loss_num": 0.03662109375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 131373712,
      "step": 1961
    },
    {
      "epoch": 0.22263829787234043,
      "grad_norm": 27.5932674407959,
      "learning_rate": 5e-05,
      "loss": 1.1045,
      "num_input_tokens_seen": 131440292,
      "step": 1962
    },
    {
      "epoch": 0.22263829787234043,
      "loss": 1.1293491125106812,
      "loss_ce": 0.004349037539213896,
      "loss_iou": 0.490234375,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 131440292,
      "step": 1962
    },
    {
      "epoch": 0.22275177304964539,
      "grad_norm": 18.099149703979492,
      "learning_rate": 5e-05,
      "loss": 1.4925,
      "num_input_tokens_seen": 131506760,
      "step": 1963
    },
    {
      "epoch": 0.22275177304964539,
      "loss": 1.5954216718673706,
      "loss_ce": 0.005577929317951202,
      "loss_iou": 0.70703125,
      "loss_num": 0.03564453125,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 131506760,
      "step": 1963
    },
    {
      "epoch": 0.22286524822695036,
      "grad_norm": 13.500372886657715,
      "learning_rate": 5e-05,
      "loss": 1.0719,
      "num_input_tokens_seen": 131573336,
      "step": 1964
    },
    {
      "epoch": 0.22286524822695036,
      "loss": 1.0482194423675537,
      "loss_ce": 0.007936256006360054,
      "loss_iou": 0.455078125,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 131573336,
      "step": 1964
    },
    {
      "epoch": 0.2229787234042553,
      "grad_norm": 24.570171356201172,
      "learning_rate": 5e-05,
      "loss": 1.3797,
      "num_input_tokens_seen": 131640556,
      "step": 1965
    },
    {
      "epoch": 0.2229787234042553,
      "loss": 1.3533287048339844,
      "loss_ce": 0.0056723784655332565,
      "loss_iou": 0.54296875,
      "loss_num": 0.052978515625,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 131640556,
      "step": 1965
    },
    {
      "epoch": 0.2230921985815603,
      "grad_norm": 19.61014175415039,
      "learning_rate": 5e-05,
      "loss": 1.2391,
      "num_input_tokens_seen": 131706616,
      "step": 1966
    },
    {
      "epoch": 0.2230921985815603,
      "loss": 1.1363894939422607,
      "loss_ce": 0.008459752425551414,
      "loss_iou": 0.4765625,
      "loss_num": 0.034912109375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 131706616,
      "step": 1966
    },
    {
      "epoch": 0.22320567375886524,
      "grad_norm": 18.814594268798828,
      "learning_rate": 5e-05,
      "loss": 1.062,
      "num_input_tokens_seen": 131773724,
      "step": 1967
    },
    {
      "epoch": 0.22320567375886524,
      "loss": 0.9819464683532715,
      "loss_ce": 0.004895658697932959,
      "loss_iou": 0.431640625,
      "loss_num": 0.022705078125,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 131773724,
      "step": 1967
    },
    {
      "epoch": 0.22331914893617022,
      "grad_norm": 27.89354133605957,
      "learning_rate": 5e-05,
      "loss": 1.2259,
      "num_input_tokens_seen": 131840220,
      "step": 1968
    },
    {
      "epoch": 0.22331914893617022,
      "loss": 1.128563404083252,
      "loss_ce": 0.004906151443719864,
      "loss_iou": 0.4921875,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 131840220,
      "step": 1968
    },
    {
      "epoch": 0.22343262411347517,
      "grad_norm": 21.993358612060547,
      "learning_rate": 5e-05,
      "loss": 1.4104,
      "num_input_tokens_seen": 131907228,
      "step": 1969
    },
    {
      "epoch": 0.22343262411347517,
      "loss": 1.4728727340698242,
      "loss_ce": 0.008029041811823845,
      "loss_iou": 0.62109375,
      "loss_num": 0.04443359375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 131907228,
      "step": 1969
    },
    {
      "epoch": 0.22354609929078015,
      "grad_norm": 57.108768463134766,
      "learning_rate": 5e-05,
      "loss": 1.2797,
      "num_input_tokens_seen": 131974224,
      "step": 1970
    },
    {
      "epoch": 0.22354609929078015,
      "loss": 1.2650564908981323,
      "loss_ce": 0.005534977652132511,
      "loss_iou": 0.53515625,
      "loss_num": 0.03759765625,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 131974224,
      "step": 1970
    },
    {
      "epoch": 0.2236595744680851,
      "grad_norm": 27.141796112060547,
      "learning_rate": 5e-05,
      "loss": 1.2731,
      "num_input_tokens_seen": 132041884,
      "step": 1971
    },
    {
      "epoch": 0.2236595744680851,
      "loss": 1.3981382846832275,
      "loss_ce": 0.0070250267162919044,
      "loss_iou": 0.58203125,
      "loss_num": 0.04541015625,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 132041884,
      "step": 1971
    },
    {
      "epoch": 0.22377304964539008,
      "grad_norm": 17.83359146118164,
      "learning_rate": 5e-05,
      "loss": 1.262,
      "num_input_tokens_seen": 132108724,
      "step": 1972
    },
    {
      "epoch": 0.22377304964539008,
      "loss": 1.1665019989013672,
      "loss_ce": 0.002439443953335285,
      "loss_iou": 0.5234375,
      "loss_num": 0.024169921875,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 132108724,
      "step": 1972
    },
    {
      "epoch": 0.22388652482269503,
      "grad_norm": 19.513818740844727,
      "learning_rate": 5e-05,
      "loss": 1.2142,
      "num_input_tokens_seen": 132175632,
      "step": 1973
    },
    {
      "epoch": 0.22388652482269503,
      "loss": 1.2440705299377441,
      "loss_ce": 0.005300968885421753,
      "loss_iou": 0.55078125,
      "loss_num": 0.0272216796875,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 132175632,
      "step": 1973
    },
    {
      "epoch": 0.224,
      "grad_norm": 29.295066833496094,
      "learning_rate": 5e-05,
      "loss": 1.3332,
      "num_input_tokens_seen": 132243032,
      "step": 1974
    },
    {
      "epoch": 0.224,
      "loss": 1.0826536417007446,
      "loss_ce": 0.011364614591002464,
      "loss_iou": 0.458984375,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 132243032,
      "step": 1974
    },
    {
      "epoch": 0.22411347517730495,
      "grad_norm": 14.178926467895508,
      "learning_rate": 5e-05,
      "loss": 1.0633,
      "num_input_tokens_seen": 132308784,
      "step": 1975
    },
    {
      "epoch": 0.22411347517730495,
      "loss": 1.0369741916656494,
      "loss_ce": 0.0042593395337462425,
      "loss_iou": 0.4453125,
      "loss_num": 0.0286865234375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 132308784,
      "step": 1975
    },
    {
      "epoch": 0.22422695035460993,
      "grad_norm": 27.113439559936523,
      "learning_rate": 5e-05,
      "loss": 1.3433,
      "num_input_tokens_seen": 132375924,
      "step": 1976
    },
    {
      "epoch": 0.22422695035460993,
      "loss": 1.4277619123458862,
      "loss_ce": 0.007839996367692947,
      "loss_iou": 0.58984375,
      "loss_num": 0.047607421875,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 132375924,
      "step": 1976
    },
    {
      "epoch": 0.22434042553191488,
      "grad_norm": 19.950550079345703,
      "learning_rate": 5e-05,
      "loss": 1.519,
      "num_input_tokens_seen": 132442904,
      "step": 1977
    },
    {
      "epoch": 0.22434042553191488,
      "loss": 1.2921104431152344,
      "loss_ce": 0.003536221571266651,
      "loss_iou": 0.55859375,
      "loss_num": 0.034912109375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 132442904,
      "step": 1977
    },
    {
      "epoch": 0.22445390070921986,
      "grad_norm": 26.792221069335938,
      "learning_rate": 5e-05,
      "loss": 1.1504,
      "num_input_tokens_seen": 132510104,
      "step": 1978
    },
    {
      "epoch": 0.22445390070921986,
      "loss": 1.1462821960449219,
      "loss_ce": 0.006145555526018143,
      "loss_iou": 0.51171875,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 132510104,
      "step": 1978
    },
    {
      "epoch": 0.2245673758865248,
      "grad_norm": 29.771137237548828,
      "learning_rate": 5e-05,
      "loss": 1.5467,
      "num_input_tokens_seen": 132576912,
      "step": 1979
    },
    {
      "epoch": 0.2245673758865248,
      "loss": 1.5563950538635254,
      "loss_ce": 0.004637253470718861,
      "loss_iou": 0.703125,
      "loss_num": 0.02978515625,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 132576912,
      "step": 1979
    },
    {
      "epoch": 0.2246808510638298,
      "grad_norm": 18.491741180419922,
      "learning_rate": 5e-05,
      "loss": 1.1515,
      "num_input_tokens_seen": 132645108,
      "step": 1980
    },
    {
      "epoch": 0.2246808510638298,
      "loss": 1.2788537740707397,
      "loss_ce": 0.004927982576191425,
      "loss_iou": 0.54296875,
      "loss_num": 0.037109375,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 132645108,
      "step": 1980
    },
    {
      "epoch": 0.22479432624113474,
      "grad_norm": 21.46426010131836,
      "learning_rate": 5e-05,
      "loss": 1.2144,
      "num_input_tokens_seen": 132711460,
      "step": 1981
    },
    {
      "epoch": 0.22479432624113474,
      "loss": 1.460904598236084,
      "loss_ce": 0.005338197574019432,
      "loss_iou": 0.61328125,
      "loss_num": 0.046142578125,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 132711460,
      "step": 1981
    },
    {
      "epoch": 0.22490780141843972,
      "grad_norm": 49.0661506652832,
      "learning_rate": 5e-05,
      "loss": 1.2167,
      "num_input_tokens_seen": 132778252,
      "step": 1982
    },
    {
      "epoch": 0.22490780141843972,
      "loss": 1.2269161939620972,
      "loss_ce": 0.0037716422230005264,
      "loss_iou": 0.53515625,
      "loss_num": 0.03125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 132778252,
      "step": 1982
    },
    {
      "epoch": 0.22502127659574467,
      "grad_norm": 23.314661026000977,
      "learning_rate": 5e-05,
      "loss": 1.6545,
      "num_input_tokens_seen": 132845532,
      "step": 1983
    },
    {
      "epoch": 0.22502127659574467,
      "loss": 1.6855719089508057,
      "loss_ce": 0.007349305786192417,
      "loss_iou": 0.69921875,
      "loss_num": 0.055908203125,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 132845532,
      "step": 1983
    },
    {
      "epoch": 0.22513475177304965,
      "grad_norm": 16.33574104309082,
      "learning_rate": 5e-05,
      "loss": 1.1677,
      "num_input_tokens_seen": 132912072,
      "step": 1984
    },
    {
      "epoch": 0.22513475177304965,
      "loss": 1.4055722951889038,
      "loss_ce": 0.011529358103871346,
      "loss_iou": 0.57421875,
      "loss_num": 0.048828125,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 132912072,
      "step": 1984
    },
    {
      "epoch": 0.2252482269503546,
      "grad_norm": 17.547388076782227,
      "learning_rate": 5e-05,
      "loss": 1.1235,
      "num_input_tokens_seen": 132979396,
      "step": 1985
    },
    {
      "epoch": 0.2252482269503546,
      "loss": 1.0345690250396729,
      "loss_ce": 0.005760319996625185,
      "loss_iou": 0.45703125,
      "loss_num": 0.023193359375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 132979396,
      "step": 1985
    },
    {
      "epoch": 0.22536170212765957,
      "grad_norm": 24.636655807495117,
      "learning_rate": 5e-05,
      "loss": 1.0905,
      "num_input_tokens_seen": 133046104,
      "step": 1986
    },
    {
      "epoch": 0.22536170212765957,
      "loss": 1.1056318283081055,
      "loss_ce": 0.005290043540298939,
      "loss_iou": 0.45703125,
      "loss_num": 0.037109375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 133046104,
      "step": 1986
    },
    {
      "epoch": 0.22547517730496455,
      "grad_norm": 26.14801025390625,
      "learning_rate": 5e-05,
      "loss": 1.4346,
      "num_input_tokens_seen": 133113432,
      "step": 1987
    },
    {
      "epoch": 0.22547517730496455,
      "loss": 1.373854160308838,
      "loss_ce": 0.004713652655482292,
      "loss_iou": 0.59765625,
      "loss_num": 0.035400390625,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 133113432,
      "step": 1987
    },
    {
      "epoch": 0.2255886524822695,
      "grad_norm": 29.259307861328125,
      "learning_rate": 5e-05,
      "loss": 1.3391,
      "num_input_tokens_seen": 133180132,
      "step": 1988
    },
    {
      "epoch": 0.2255886524822695,
      "loss": 1.3007264137268066,
      "loss_ce": 0.002874753437936306,
      "loss_iou": 0.5703125,
      "loss_num": 0.0322265625,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 133180132,
      "step": 1988
    },
    {
      "epoch": 0.22570212765957448,
      "grad_norm": 16.48854637145996,
      "learning_rate": 5e-05,
      "loss": 1.1448,
      "num_input_tokens_seen": 133246956,
      "step": 1989
    },
    {
      "epoch": 0.22570212765957448,
      "loss": 1.4604984521865845,
      "loss_ce": 0.007861711084842682,
      "loss_iou": 0.58984375,
      "loss_num": 0.0546875,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 133246956,
      "step": 1989
    },
    {
      "epoch": 0.22581560283687943,
      "grad_norm": 21.332185745239258,
      "learning_rate": 5e-05,
      "loss": 1.2591,
      "num_input_tokens_seen": 133314988,
      "step": 1990
    },
    {
      "epoch": 0.22581560283687943,
      "loss": 1.217221736907959,
      "loss_ce": 0.0048193857073783875,
      "loss_iou": 0.53515625,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 133314988,
      "step": 1990
    },
    {
      "epoch": 0.2259290780141844,
      "grad_norm": 22.469541549682617,
      "learning_rate": 5e-05,
      "loss": 1.1634,
      "num_input_tokens_seen": 133382484,
      "step": 1991
    },
    {
      "epoch": 0.2259290780141844,
      "loss": 1.1148759126663208,
      "loss_ce": 0.004036122467368841,
      "loss_iou": 0.490234375,
      "loss_num": 0.0257568359375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 133382484,
      "step": 1991
    },
    {
      "epoch": 0.22604255319148936,
      "grad_norm": 20.473228454589844,
      "learning_rate": 5e-05,
      "loss": 1.4227,
      "num_input_tokens_seen": 133449884,
      "step": 1992
    },
    {
      "epoch": 0.22604255319148936,
      "loss": 1.522756576538086,
      "loss_ce": 0.006155080161988735,
      "loss_iou": 0.61328125,
      "loss_num": 0.057861328125,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 133449884,
      "step": 1992
    },
    {
      "epoch": 0.22615602836879434,
      "grad_norm": 23.567367553710938,
      "learning_rate": 5e-05,
      "loss": 1.1793,
      "num_input_tokens_seen": 133516612,
      "step": 1993
    },
    {
      "epoch": 0.22615602836879434,
      "loss": 1.3643498420715332,
      "loss_ce": 0.0035100022796541452,
      "loss_iou": 0.56640625,
      "loss_num": 0.04541015625,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 133516612,
      "step": 1993
    },
    {
      "epoch": 0.2262695035460993,
      "grad_norm": 22.2605037689209,
      "learning_rate": 5e-05,
      "loss": 1.3232,
      "num_input_tokens_seen": 133583876,
      "step": 1994
    },
    {
      "epoch": 0.2262695035460993,
      "loss": 1.4088274240493774,
      "loss_ce": 0.004530542530119419,
      "loss_iou": 0.56640625,
      "loss_num": 0.0546875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 133583876,
      "step": 1994
    },
    {
      "epoch": 0.22638297872340427,
      "grad_norm": 41.46281051635742,
      "learning_rate": 5e-05,
      "loss": 1.0717,
      "num_input_tokens_seen": 133650704,
      "step": 1995
    },
    {
      "epoch": 0.22638297872340427,
      "loss": 0.9675758481025696,
      "loss_ce": 0.0054785991087555885,
      "loss_iou": 0.427734375,
      "loss_num": 0.021484375,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 133650704,
      "step": 1995
    },
    {
      "epoch": 0.22649645390070922,
      "grad_norm": 18.47388458251953,
      "learning_rate": 5e-05,
      "loss": 1.0867,
      "num_input_tokens_seen": 133718248,
      "step": 1996
    },
    {
      "epoch": 0.22649645390070922,
      "loss": 1.2088537216186523,
      "loss_ce": 0.006705299951136112,
      "loss_iou": 0.52734375,
      "loss_num": 0.029541015625,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 133718248,
      "step": 1996
    },
    {
      "epoch": 0.2266099290780142,
      "grad_norm": 21.58560562133789,
      "learning_rate": 5e-05,
      "loss": 1.2081,
      "num_input_tokens_seen": 133785404,
      "step": 1997
    },
    {
      "epoch": 0.2266099290780142,
      "loss": 1.2022695541381836,
      "loss_ce": 0.008543988689780235,
      "loss_iou": 0.51171875,
      "loss_num": 0.034423828125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 133785404,
      "step": 1997
    },
    {
      "epoch": 0.22672340425531914,
      "grad_norm": 25.44778823852539,
      "learning_rate": 5e-05,
      "loss": 1.2983,
      "num_input_tokens_seen": 133851384,
      "step": 1998
    },
    {
      "epoch": 0.22672340425531914,
      "loss": 1.2129664421081543,
      "loss_ce": 0.005935205612331629,
      "loss_iou": 0.54296875,
      "loss_num": 0.02392578125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 133851384,
      "step": 1998
    },
    {
      "epoch": 0.22683687943262412,
      "grad_norm": 27.140459060668945,
      "learning_rate": 5e-05,
      "loss": 1.3123,
      "num_input_tokens_seen": 133919168,
      "step": 1999
    },
    {
      "epoch": 0.22683687943262412,
      "loss": 1.1419579982757568,
      "loss_ce": 0.0032861672807484865,
      "loss_iou": 0.53515625,
      "loss_num": 0.01312255859375,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 133919168,
      "step": 1999
    },
    {
      "epoch": 0.22695035460992907,
      "grad_norm": 22.775564193725586,
      "learning_rate": 5e-05,
      "loss": 1.224,
      "num_input_tokens_seen": 133985792,
      "step": 2000
    },
    {
      "epoch": 0.22695035460992907,
      "eval_seeclick_CIoU": 0.37706658244132996,
      "eval_seeclick_GIoU": 0.3496941477060318,
      "eval_seeclick_IoU": 0.45865122973918915,
      "eval_seeclick_MAE_all": 0.1448824405670166,
      "eval_seeclick_MAE_h": 0.08500084280967712,
      "eval_seeclick_MAE_w": 0.13195423409342766,
      "eval_seeclick_MAE_x_boxes": 0.19378460943698883,
      "eval_seeclick_MAE_y_boxes": 0.13868853449821472,
      "eval_seeclick_NUM_probability": 0.9994931817054749,
      "eval_seeclick_inside_bbox": 0.643750011920929,
      "eval_seeclick_loss": 2.49678635597229,
      "eval_seeclick_loss_ce": 0.013893999624997377,
      "eval_seeclick_loss_iou": 0.8961181640625,
      "eval_seeclick_loss_num": 0.1364898681640625,
      "eval_seeclick_loss_xval": 2.4736328125,
      "eval_seeclick_runtime": 73.0488,
      "eval_seeclick_samples_per_second": 0.643,
      "eval_seeclick_steps_per_second": 0.027,
      "num_input_tokens_seen": 133985792,
      "step": 2000
    },
    {
      "epoch": 0.22695035460992907,
      "eval_icons_CIoU": 0.593090146780014,
      "eval_icons_GIoU": 0.5807305872440338,
      "eval_icons_IoU": 0.6195858418941498,
      "eval_icons_MAE_all": 0.09425602480769157,
      "eval_icons_MAE_h": 0.07805976271629333,
      "eval_icons_MAE_w": 0.08070500008761883,
      "eval_icons_MAE_x_boxes": 0.09136401116847992,
      "eval_icons_MAE_y_boxes": 0.05172302946448326,
      "eval_icons_NUM_probability": 0.9997132420539856,
      "eval_icons_inside_bbox": 0.8663194477558136,
      "eval_icons_loss": 2.289607048034668,
      "eval_icons_loss_ce": 0.0003099545974691864,
      "eval_icons_loss_iou": 0.90478515625,
      "eval_icons_loss_num": 0.10321807861328125,
      "eval_icons_loss_xval": 2.32421875,
      "eval_icons_runtime": 89.5632,
      "eval_icons_samples_per_second": 0.558,
      "eval_icons_steps_per_second": 0.022,
      "num_input_tokens_seen": 133985792,
      "step": 2000
    },
    {
      "epoch": 0.22695035460992907,
      "eval_screenspot_CIoU": 0.2609965403874715,
      "eval_screenspot_GIoU": 0.23795525605479875,
      "eval_screenspot_IoU": 0.37847547233104706,
      "eval_screenspot_MAE_all": 0.19295933842658997,
      "eval_screenspot_MAE_h": 0.1002817948659261,
      "eval_screenspot_MAE_w": 0.15324184546868005,
      "eval_screenspot_MAE_x_boxes": 0.35777145624160767,
      "eval_screenspot_MAE_y_boxes": 0.10120853284994762,
      "eval_screenspot_NUM_probability": 0.9996356765429179,
      "eval_screenspot_inside_bbox": 0.5704166690508524,
      "eval_screenspot_loss": 2.9113409519195557,
      "eval_screenspot_loss_ce": 0.015476666080454985,
      "eval_screenspot_loss_iou": 0.966796875,
      "eval_screenspot_loss_num": 0.20100911458333334,
      "eval_screenspot_loss_xval": 2.9378255208333335,
      "eval_screenspot_runtime": 122.6839,
      "eval_screenspot_samples_per_second": 0.725,
      "eval_screenspot_steps_per_second": 0.024,
      "num_input_tokens_seen": 133985792,
      "step": 2000
    },
    {
      "epoch": 0.22695035460992907,
      "eval_compot_CIoU": 0.30942122638225555,
      "eval_compot_GIoU": 0.26473769545555115,
      "eval_compot_IoU": 0.41131871938705444,
      "eval_compot_MAE_all": 0.16006701439619064,
      "eval_compot_MAE_h": 0.040328810922801495,
      "eval_compot_MAE_w": 0.10128830000758171,
      "eval_compot_MAE_x_boxes": 0.21388402581214905,
      "eval_compot_MAE_y_boxes": 0.17151472717523575,
      "eval_compot_NUM_probability": 0.9999132752418518,
      "eval_compot_inside_bbox": 0.5434027910232544,
      "eval_compot_loss": 2.771914482116699,
      "eval_compot_loss_ce": 0.005090362974442542,
      "eval_compot_loss_iou": 0.9853515625,
      "eval_compot_loss_num": 0.15582275390625,
      "eval_compot_loss_xval": 2.7509765625,
      "eval_compot_runtime": 67.2836,
      "eval_compot_samples_per_second": 0.743,
      "eval_compot_steps_per_second": 0.03,
      "num_input_tokens_seen": 133985792,
      "step": 2000
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 8812,
  "num_input_tokens_seen": 133985792,
  "num_train_epochs": 1,
  "save_steps": 250,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.233272726044279e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}