{
  "best_metric": 0.1611548811197281,
  "best_model_checkpoint": "mit-b0-finetuned-human-parsing-dataset/checkpoint-1600",
  "epoch": 10.0,
  "eval_steps": 20,
  "global_step": 2000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01,
      "grad_norm": 3.070268154144287,
      "learning_rate": 6.9965e-05,
      "loss": 0.2292,
      "step": 1
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.229420781135559,
      "learning_rate": 6.992999999999999e-05,
      "loss": 0.2312,
      "step": 2
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.4421486854553223,
      "learning_rate": 6.9895e-05,
      "loss": 0.2444,
      "step": 3
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.311007022857666,
      "learning_rate": 6.986e-05,
      "loss": 0.2377,
      "step": 4
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.6157374382019043,
      "learning_rate": 6.9825e-05,
      "loss": 0.2738,
      "step": 5
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0888311862945557,
      "learning_rate": 6.979e-05,
      "loss": 0.2166,
      "step": 6
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0963581800460815,
      "learning_rate": 6.9755e-05,
      "loss": 0.1903,
      "step": 7
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.0139029026031494,
      "learning_rate": 6.971999999999999e-05,
      "loss": 0.218,
      "step": 8
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.104515314102173,
      "learning_rate": 6.9685e-05,
      "loss": 0.2938,
      "step": 9
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.226982593536377,
      "learning_rate": 6.965e-05,
      "loss": 0.2615,
      "step": 10
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.0407190322875977,
      "learning_rate": 6.9615e-05,
      "loss": 0.27,
      "step": 11
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.5752339363098145,
      "learning_rate": 6.958e-05,
      "loss": 0.3068,
      "step": 12
    },
    {
      "epoch": 0.07,
      "grad_norm": 6.737016201019287,
      "learning_rate": 6.9545e-05,
      "loss": 0.2822,
      "step": 13
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.8517236709594727,
      "learning_rate": 6.950999999999999e-05,
      "loss": 0.2365,
      "step": 14
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4653888940811157,
      "learning_rate": 6.9475e-05,
      "loss": 0.2612,
      "step": 15
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.400242805480957,
      "learning_rate": 6.944e-05,
      "loss": 0.2279,
      "step": 16
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.7791129350662231,
      "learning_rate": 6.9405e-05,
      "loss": 0.2968,
      "step": 17
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.383790135383606,
      "learning_rate": 6.937e-05,
      "loss": 0.2442,
      "step": 18
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.7834372520446777,
      "learning_rate": 6.9335e-05,
      "loss": 0.2439,
      "step": 19
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.506438732147217,
      "learning_rate": 6.929999999999999e-05,
      "loss": 0.2783,
      "step": 20
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.333986759185791,
      "learning_rate": 6.9265e-05,
      "loss": 0.2319,
      "step": 21
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.3784250020980835,
      "learning_rate": 6.923e-05,
      "loss": 0.22,
      "step": 22
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.505906820297241,
      "learning_rate": 6.919499999999999e-05,
      "loss": 0.3228,
      "step": 23
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.1774065494537354,
      "learning_rate": 6.916e-05,
      "loss": 0.2331,
      "step": 24
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.9505807161331177,
      "learning_rate": 6.9125e-05,
      "loss": 0.2038,
      "step": 25
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.0988566875457764,
      "learning_rate": 6.908999999999999e-05,
      "loss": 0.243,
      "step": 26
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6360141038894653,
      "learning_rate": 6.9055e-05,
      "loss": 0.2667,
      "step": 27
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.1613214015960693,
      "learning_rate": 6.901999999999999e-05,
      "loss": 0.2219,
      "step": 28
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.1379624605178833,
      "learning_rate": 6.898499999999999e-05,
      "loss": 0.2448,
      "step": 29
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2939624786376953,
      "learning_rate": 6.895e-05,
      "loss": 0.2138,
      "step": 30
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3713279962539673,
      "learning_rate": 6.8915e-05,
      "loss": 0.2165,
      "step": 31
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1224076747894287,
      "learning_rate": 6.887999999999999e-05,
      "loss": 0.1954,
      "step": 32
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.912129282951355,
      "learning_rate": 6.8845e-05,
      "loss": 0.2553,
      "step": 33
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8417519330978394,
      "learning_rate": 6.880999999999999e-05,
      "loss": 0.237,
      "step": 34
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.3431768417358398,
      "learning_rate": 6.877499999999999e-05,
      "loss": 0.2119,
      "step": 35
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.2344021797180176,
      "learning_rate": 6.874e-05,
      "loss": 0.2791,
      "step": 36
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.1508878469467163,
      "learning_rate": 6.8705e-05,
      "loss": 0.2222,
      "step": 37
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.7018190622329712,
      "learning_rate": 6.866999999999999e-05,
      "loss": 0.2774,
      "step": 38
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5138379335403442,
      "learning_rate": 6.8635e-05,
      "loss": 0.2429,
      "step": 39
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.203242063522339,
      "learning_rate": 6.859999999999999e-05,
      "loss": 0.22,
      "step": 40
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.6810797452926636,
      "learning_rate": 6.856499999999999e-05,
      "loss": 0.2461,
      "step": 41
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.437978506088257,
      "learning_rate": 6.853e-05,
      "loss": 0.2123,
      "step": 42
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.1685335636138916,
      "learning_rate": 6.8495e-05,
      "loss": 0.2419,
      "step": 43
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5778000354766846,
      "learning_rate": 6.845999999999999e-05,
      "loss": 0.2149,
      "step": 44
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.9005279541015625,
      "learning_rate": 6.8425e-05,
      "loss": 0.2864,
      "step": 45
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.118957996368408,
      "learning_rate": 6.838999999999999e-05,
      "loss": 0.281,
      "step": 46
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2520105838775635,
      "learning_rate": 6.835499999999999e-05,
      "loss": 0.2264,
      "step": 47
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.0350983142852783,
      "learning_rate": 6.832e-05,
      "loss": 0.2493,
      "step": 48
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.9111266136169434,
      "learning_rate": 6.8285e-05,
      "loss": 0.2492,
      "step": 49
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1173186302185059,
      "learning_rate": 6.824999999999999e-05,
      "loss": 0.222,
      "step": 50
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.771155834197998,
      "learning_rate": 6.8215e-05,
      "loss": 0.2133,
      "step": 51
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1902949810028076,
      "learning_rate": 6.817999999999999e-05,
      "loss": 0.206,
      "step": 52
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.48472261428833,
      "learning_rate": 6.814499999999999e-05,
      "loss": 0.2108,
      "step": 53
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4100197553634644,
      "learning_rate": 6.811e-05,
      "loss": 0.2375,
      "step": 54
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.0854086875915527,
      "learning_rate": 6.8075e-05,
      "loss": 0.203,
      "step": 55
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.0405049324035645,
      "learning_rate": 6.803999999999999e-05,
      "loss": 0.2054,
      "step": 56
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.9426233768463135,
      "learning_rate": 6.8005e-05,
      "loss": 0.201,
      "step": 57
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1999002695083618,
      "learning_rate": 6.796999999999999e-05,
      "loss": 0.198,
      "step": 58
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.316667914390564,
      "learning_rate": 6.793499999999999e-05,
      "loss": 0.2667,
      "step": 59
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.133380651473999,
      "learning_rate": 6.79e-05,
      "loss": 0.2276,
      "step": 60
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.2452011108398438,
      "learning_rate": 6.7865e-05,
      "loss": 0.2085,
      "step": 61
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3146759271621704,
      "learning_rate": 6.782999999999999e-05,
      "loss": 0.1978,
      "step": 62
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.787600517272949,
      "learning_rate": 6.7795e-05,
      "loss": 0.2471,
      "step": 63
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2981899976730347,
      "learning_rate": 6.775999999999999e-05,
      "loss": 0.2461,
      "step": 64
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8689925670623779,
      "learning_rate": 6.772499999999999e-05,
      "loss": 0.1612,
      "step": 65
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7901625037193298,
      "learning_rate": 6.769e-05,
      "loss": 0.219,
      "step": 66
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7495667338371277,
      "learning_rate": 6.7655e-05,
      "loss": 0.1825,
      "step": 67
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.9377972483634949,
      "learning_rate": 6.761999999999999e-05,
      "loss": 0.1955,
      "step": 68
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.2049120664596558,
      "learning_rate": 6.7585e-05,
      "loss": 0.2503,
      "step": 69
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.495638847351074,
      "learning_rate": 6.754999999999999e-05,
      "loss": 0.2028,
      "step": 70
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.082969307899475,
      "learning_rate": 6.751499999999999e-05,
      "loss": 0.2148,
      "step": 71
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.229455590248108,
      "learning_rate": 6.748e-05,
      "loss": 0.2188,
      "step": 72
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0720711946487427,
      "learning_rate": 6.7445e-05,
      "loss": 0.2063,
      "step": 73
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7613570094108582,
      "learning_rate": 6.741e-05,
      "loss": 0.1814,
      "step": 74
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9431899189949036,
      "learning_rate": 6.7375e-05,
      "loss": 0.2543,
      "step": 75
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4072132110595703,
      "learning_rate": 6.733999999999999e-05,
      "loss": 0.2026,
      "step": 76
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0744996070861816,
      "learning_rate": 6.7305e-05,
      "loss": 0.2101,
      "step": 77
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7395614385604858,
      "learning_rate": 6.727e-05,
      "loss": 0.1778,
      "step": 78
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.034329652786255,
      "learning_rate": 6.723499999999999e-05,
      "loss": 0.2091,
      "step": 79
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9653995037078857,
      "learning_rate": 6.72e-05,
      "loss": 0.179,
      "step": 80
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.392471194267273,
      "learning_rate": 6.7165e-05,
      "loss": 0.1911,
      "step": 81
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8440988063812256,
      "learning_rate": 6.712999999999999e-05,
      "loss": 0.2936,
      "step": 82
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3590888977050781,
      "learning_rate": 6.7095e-05,
      "loss": 0.2622,
      "step": 83
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.8320873975753784,
      "learning_rate": 6.705999999999998e-05,
      "loss": 0.1943,
      "step": 84
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.5718203783035278,
      "learning_rate": 6.702499999999999e-05,
      "loss": 0.2475,
      "step": 85
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1021870374679565,
      "learning_rate": 6.699e-05,
      "loss": 0.2061,
      "step": 86
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.1796281337738037,
      "learning_rate": 6.6955e-05,
      "loss": 0.2228,
      "step": 87
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.8757225275039673,
      "learning_rate": 6.691999999999999e-05,
      "loss": 0.29,
      "step": 88
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.8010659217834473,
      "learning_rate": 6.6885e-05,
      "loss": 0.2526,
      "step": 89
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2265565395355225,
      "learning_rate": 6.684999999999999e-05,
      "loss": 0.2286,
      "step": 90
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.5489985942840576,
      "learning_rate": 6.681499999999999e-05,
      "loss": 0.2342,
      "step": 91
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2508314847946167,
      "learning_rate": 6.678e-05,
      "loss": 0.2529,
      "step": 92
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3596633672714233,
      "learning_rate": 6.6745e-05,
      "loss": 0.2237,
      "step": 93
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0165728330612183,
      "learning_rate": 6.670999999999999e-05,
      "loss": 0.191,
      "step": 94
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3375585079193115,
      "learning_rate": 6.6675e-05,
      "loss": 0.2178,
      "step": 95
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3000231981277466,
      "learning_rate": 6.663999999999999e-05,
      "loss": 0.1821,
      "step": 96
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2853413820266724,
      "learning_rate": 6.660499999999999e-05,
      "loss": 0.1856,
      "step": 97
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9065844416618347,
      "learning_rate": 6.657e-05,
      "loss": 0.2287,
      "step": 98
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4475117921829224,
      "learning_rate": 6.6535e-05,
      "loss": 0.1682,
      "step": 99
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9653840661048889,
      "learning_rate": 6.649999999999999e-05,
      "loss": 0.1788,
      "step": 100
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9087286591529846,
      "learning_rate": 6.6465e-05,
      "loss": 0.176,
      "step": 101
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2784597873687744,
      "learning_rate": 6.642999999999999e-05,
      "loss": 0.2051,
      "step": 102
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0388720035552979,
      "learning_rate": 6.639499999999999e-05,
      "loss": 0.1728,
      "step": 103
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5552699565887451,
      "learning_rate": 6.636e-05,
      "loss": 0.2346,
      "step": 104
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5874886512756348,
      "learning_rate": 6.6325e-05,
      "loss": 0.2152,
      "step": 105
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0255357027053833,
      "learning_rate": 6.628999999999999e-05,
      "loss": 0.1663,
      "step": 106
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.1139566898345947,
      "learning_rate": 6.6255e-05,
      "loss": 0.2582,
      "step": 107
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.7984399199485779,
      "learning_rate": 6.621999999999999e-05,
      "loss": 0.1647,
      "step": 108
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4463423490524292,
      "learning_rate": 6.618499999999999e-05,
      "loss": 0.1767,
      "step": 109
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8999559879302979,
      "learning_rate": 6.615e-05,
      "loss": 0.2177,
      "step": 110
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8533095121383667,
      "learning_rate": 6.6115e-05,
      "loss": 0.2161,
      "step": 111
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.206916093826294,
      "learning_rate": 6.607999999999999e-05,
      "loss": 0.2159,
      "step": 112
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.8397806882858276,
      "learning_rate": 6.6045e-05,
      "loss": 0.2188,
      "step": 113
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9386008977890015,
      "learning_rate": 6.600999999999999e-05,
      "loss": 0.1948,
      "step": 114
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.6978187561035156,
      "learning_rate": 6.597499999999999e-05,
      "loss": 0.1911,
      "step": 115
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.683176279067993,
      "learning_rate": 6.594e-05,
      "loss": 0.1925,
      "step": 116
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9519920945167542,
      "learning_rate": 6.5905e-05,
      "loss": 0.2269,
      "step": 117
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2916641235351562,
      "learning_rate": 6.586999999999999e-05,
      "loss": 0.199,
      "step": 118
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9500232338905334,
      "learning_rate": 6.5835e-05,
      "loss": 0.2249,
      "step": 119
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5792616605758667,
      "learning_rate": 6.579999999999999e-05,
      "loss": 0.1301,
      "step": 120
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.2596802711486816,
      "learning_rate": 6.576499999999999e-05,
      "loss": 0.271,
      "step": 121
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1902624368667603,
      "learning_rate": 6.573e-05,
      "loss": 0.204,
      "step": 122
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4709079265594482,
      "learning_rate": 6.5695e-05,
      "loss": 0.1868,
      "step": 123
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8932620882987976,
      "learning_rate": 6.565999999999999e-05,
      "loss": 0.2126,
      "step": 124
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.7108666300773621,
      "learning_rate": 6.5625e-05,
      "loss": 0.1766,
      "step": 125
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.8449645042419434,
      "learning_rate": 6.559e-05,
      "loss": 0.1709,
      "step": 126
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0913549661636353,
      "learning_rate": 6.555499999999999e-05,
      "loss": 0.1892,
      "step": 127
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.8204833269119263,
      "learning_rate": 6.552e-05,
      "loss": 0.2188,
      "step": 128
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.7728193402290344,
      "learning_rate": 6.5485e-05,
      "loss": 0.1854,
      "step": 129
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.6900036334991455,
      "learning_rate": 6.544999999999999e-05,
      "loss": 0.2156,
      "step": 130
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.9481841325759888,
      "learning_rate": 6.5415e-05,
      "loss": 0.2287,
      "step": 131
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2257412672042847,
      "learning_rate": 6.538e-05,
      "loss": 0.1721,
      "step": 132
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2365885972976685,
      "learning_rate": 6.534499999999999e-05,
      "loss": 0.1982,
      "step": 133
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.9647663235664368,
      "learning_rate": 6.531e-05,
      "loss": 0.2283,
      "step": 134
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8653398752212524,
      "learning_rate": 6.527499999999999e-05,
      "loss": 0.2077,
      "step": 135
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.148627996444702,
      "learning_rate": 6.523999999999999e-05,
      "loss": 0.2068,
      "step": 136
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5677087306976318,
      "learning_rate": 6.5205e-05,
      "loss": 0.2714,
      "step": 137
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2041999101638794,
      "learning_rate": 6.517e-05,
      "loss": 0.1863,
      "step": 138
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3411710262298584,
      "learning_rate": 6.513499999999999e-05,
      "loss": 0.2238,
      "step": 139
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.6074564456939697,
      "learning_rate": 6.51e-05,
      "loss": 0.2675,
      "step": 140
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.741121530532837,
      "learning_rate": 6.506499999999999e-05,
      "loss": 0.1693,
      "step": 141
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.9505782127380371,
      "learning_rate": 6.502999999999999e-05,
      "loss": 0.207,
      "step": 142
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.633215069770813,
      "learning_rate": 6.4995e-05,
      "loss": 0.1909,
      "step": 143
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1035183668136597,
      "learning_rate": 6.496e-05,
      "loss": 0.1803,
      "step": 144
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8952852487564087,
      "learning_rate": 6.492499999999999e-05,
      "loss": 0.2008,
      "step": 145
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.24984872341156,
      "learning_rate": 6.489e-05,
      "loss": 0.254,
      "step": 146
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3149755001068115,
      "learning_rate": 6.485499999999999e-05,
      "loss": 0.1824,
      "step": 147
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3575761318206787,
      "learning_rate": 6.481999999999999e-05,
      "loss": 0.2065,
      "step": 148
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.033939838409424,
      "learning_rate": 6.4785e-05,
      "loss": 0.2043,
      "step": 149
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7555228471755981,
      "learning_rate": 6.475e-05,
      "loss": 0.1843,
      "step": 150
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3215147256851196,
      "learning_rate": 6.471499999999999e-05,
      "loss": 0.2044,
      "step": 151
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.553032636642456,
      "learning_rate": 6.468e-05,
      "loss": 0.1857,
      "step": 152
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4473955631256104,
      "learning_rate": 6.464499999999999e-05,
      "loss": 0.2006,
      "step": 153
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.9931578636169434,
      "learning_rate": 6.460999999999999e-05,
      "loss": 0.1827,
      "step": 154
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3726153373718262,
      "learning_rate": 6.4575e-05,
      "loss": 0.1805,
      "step": 155
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.9985641241073608,
      "learning_rate": 6.454e-05,
      "loss": 0.2275,
      "step": 156
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.5427618026733398,
      "learning_rate": 6.450499999999999e-05,
      "loss": 0.2238,
      "step": 157
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.604541301727295,
      "learning_rate": 6.447e-05,
      "loss": 0.2201,
      "step": 158
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2192268371582031,
      "learning_rate": 6.443499999999999e-05,
      "loss": 0.1873,
      "step": 159
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2695930004119873,
      "learning_rate": 6.44e-05,
      "loss": 0.211,
      "step": 160
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.095765471458435,
      "learning_rate": 6.4365e-05,
      "loss": 0.148,
      "step": 161
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.7366209030151367,
      "learning_rate": 6.433e-05,
      "loss": 0.2078,
      "step": 162
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.1941885948181152,
      "learning_rate": 6.4295e-05,
      "loss": 0.3068,
      "step": 163
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.9396957159042358,
      "learning_rate": 6.426e-05,
      "loss": 0.1989,
      "step": 164
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.1988611221313477,
      "learning_rate": 6.422499999999999e-05,
      "loss": 0.2291,
      "step": 165
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.0953367948532104,
      "learning_rate": 6.419e-05,
      "loss": 0.2293,
      "step": 166
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.3129029273986816,
      "learning_rate": 6.4155e-05,
      "loss": 0.2067,
      "step": 167
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3830842971801758,
      "learning_rate": 6.412e-05,
      "loss": 0.1906,
      "step": 168
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3829437494277954,
      "learning_rate": 6.4085e-05,
      "loss": 0.176,
      "step": 169
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.9953858852386475,
      "learning_rate": 6.405e-05,
      "loss": 0.1822,
      "step": 170
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.8989721536636353,
      "learning_rate": 6.401499999999999e-05,
      "loss": 0.2091,
      "step": 171
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3087221384048462,
      "learning_rate": 6.398e-05,
      "loss": 0.2297,
      "step": 172
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.8444478511810303,
      "learning_rate": 6.3945e-05,
      "loss": 0.2198,
      "step": 173
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3987281322479248,
      "learning_rate": 6.391e-05,
      "loss": 0.2249,
      "step": 174
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8450464010238647,
      "learning_rate": 6.3875e-05,
      "loss": 0.2086,
      "step": 175
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.179177761077881,
      "learning_rate": 6.384e-05,
      "loss": 0.1855,
      "step": 176
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.9840394854545593,
      "learning_rate": 6.380499999999999e-05,
      "loss": 0.1954,
      "step": 177
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.8004879355430603,
      "learning_rate": 6.377e-05,
      "loss": 0.1641,
      "step": 178
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.0722063779830933,
      "learning_rate": 6.3735e-05,
      "loss": 0.1717,
      "step": 179
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8671901226043701,
      "learning_rate": 6.37e-05,
      "loss": 0.2146,
      "step": 180
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1043798923492432,
      "learning_rate": 6.3665e-05,
      "loss": 0.2008,
      "step": 181
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.9938931465148926,
      "learning_rate": 6.363e-05,
      "loss": 0.3189,
      "step": 182
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2030264139175415,
      "learning_rate": 6.359499999999999e-05,
      "loss": 0.2175,
      "step": 183
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4315550327301025,
      "learning_rate": 6.356e-05,
      "loss": 0.2372,
      "step": 184
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.9076809883117676,
      "learning_rate": 6.3525e-05,
      "loss": 0.1954,
      "step": 185
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.950890302658081,
      "learning_rate": 6.348999999999999e-05,
      "loss": 0.1729,
      "step": 186
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2854413986206055,
      "learning_rate": 6.3455e-05,
      "loss": 0.1718,
      "step": 187
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.8130903244018555,
      "learning_rate": 6.342e-05,
      "loss": 0.1694,
      "step": 188
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.8957116603851318,
      "learning_rate": 6.338499999999999e-05,
      "loss": 0.155,
      "step": 189
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.826136827468872,
      "learning_rate": 6.335e-05,
      "loss": 0.2084,
      "step": 190
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5556910037994385,
      "learning_rate": 6.331499999999999e-05,
      "loss": 0.1997,
      "step": 191
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2315294742584229,
      "learning_rate": 6.327999999999999e-05,
      "loss": 0.1814,
      "step": 192
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9849111437797546,
      "learning_rate": 6.3245e-05,
      "loss": 0.1706,
      "step": 193
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.844111680984497,
      "learning_rate": 6.321e-05,
      "loss": 0.219,
      "step": 194
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2728404998779297,
      "learning_rate": 6.317499999999999e-05,
      "loss": 0.1878,
      "step": 195
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.008361339569092,
      "learning_rate": 6.314e-05,
      "loss": 0.2199,
      "step": 196
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.7600116729736328,
      "learning_rate": 6.310499999999999e-05,
      "loss": 0.1479,
      "step": 197
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.9167490601539612,
      "learning_rate": 6.306999999999999e-05,
      "loss": 0.137,
      "step": 198
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0549778938293457,
      "learning_rate": 6.3035e-05,
      "loss": 0.1497,
      "step": 199
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.8130908012390137,
      "learning_rate": 6.3e-05,
      "loss": 0.1738,
      "step": 200
    },
    {
      "epoch": 1.0,
      "eval_accuracy_Background": NaN,
      "eval_accuracy_Bag": 0.7112255427315767,
      "eval_accuracy_Belt": 0.0,
      "eval_accuracy_Dress": 0.8264186381057688,
      "eval_accuracy_Face": 0.8657317323767508,
      "eval_accuracy_Hair": 0.8366280039960573,
      "eval_accuracy_Hat": 0.23530792018223948,
      "eval_accuracy_Left-arm": 0.7737616986371767,
      "eval_accuracy_Left-leg": 0.8419344315098758,
      "eval_accuracy_Left-shoe": 0.5317192315258016,
      "eval_accuracy_Pants": 0.797190721913075,
      "eval_accuracy_Right-arm": 0.7692391175409062,
      "eval_accuracy_Right-leg": 0.7916368846681446,
      "eval_accuracy_Right-shoe": 0.4733969788080553,
      "eval_accuracy_Scarf": 0.0,
      "eval_accuracy_Skirt": 0.6697754981423722,
      "eval_accuracy_Sunglasses": 0.0,
      "eval_accuracy_Upper-clothes": 0.8116420730271805,
      "eval_iou_Background": 0.0,
      "eval_iou_Bag": 0.5890616190646443,
      "eval_iou_Belt": 0.0,
      "eval_iou_Dress": 0.5624679999640702,
      "eval_iou_Face": 0.7651943509116798,
      "eval_iou_Hair": 0.7278612200273787,
      "eval_iou_Hat": 0.2283036586638336,
      "eval_iou_Left-arm": 0.6786540836890805,
      "eval_iou_Left-leg": 0.6935158199516163,
      "eval_iou_Left-shoe": 0.41599704745307203,
      "eval_iou_Pants": 0.7042626830522973,
      "eval_iou_Right-arm": 0.6674367778838658,
      "eval_iou_Right-leg": 0.6937891694202203,
      "eval_iou_Right-shoe": 0.378617021122023,
      "eval_iou_Scarf": 0.0,
      "eval_iou_Skirt": 0.5857534493037354,
      "eval_iou_Sunglasses": 0.0,
      "eval_iou_Upper-clothes": 0.7127256049281114,
      "eval_loss": 0.20363005995750427,
      "eval_mean_accuracy": 0.5844475572449987,
      "eval_mean_iou": 0.466868916968646,
      "eval_overall_accuracy": 0.7641024288106395,
      "eval_runtime": 28.1089,
      "eval_samples_per_second": 14.23,
      "eval_steps_per_second": 7.115,
      "step": 200
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.8318067789077759,
      "learning_rate": 6.296499999999999e-05,
      "loss": 0.1913,
      "step": 201
    },
    {
      "epoch": 1.01,
      "grad_norm": 2.528653621673584,
      "learning_rate": 6.293e-05,
      "loss": 0.1728,
      "step": 202
    },
    {
      "epoch": 1.01,
      "grad_norm": 2.0403010845184326,
      "learning_rate": 6.289499999999999e-05,
      "loss": 0.2354,
      "step": 203
    },
    {
      "epoch": 1.02,
      "grad_norm": 1.3325356245040894,
      "learning_rate": 6.285999999999999e-05,
      "loss": 0.1706,
      "step": 204
    },
    {
      "epoch": 1.02,
      "grad_norm": 1.151275396347046,
      "learning_rate": 6.2825e-05,
      "loss": 0.1696,
      "step": 205
    },
    {
      "epoch": 1.03,
      "grad_norm": 1.317453384399414,
      "learning_rate": 6.279e-05,
      "loss": 0.1616,
      "step": 206
    },
    {
      "epoch": 1.03,
      "grad_norm": 1.2482434511184692,
      "learning_rate": 6.275499999999999e-05,
      "loss": 0.1797,
      "step": 207
    },
    {
      "epoch": 1.04,
      "grad_norm": 1.9239369630813599,
      "learning_rate": 6.272e-05,
      "loss": 0.19,
      "step": 208
    },
    {
      "epoch": 1.04,
      "grad_norm": 4.967020034790039,
      "learning_rate": 6.268499999999999e-05,
      "loss": 0.2169,
      "step": 209
    },
    {
      "epoch": 1.05,
      "grad_norm": 2.4348020553588867,
      "learning_rate": 6.264999999999999e-05,
      "loss": 0.2349,
      "step": 210
    },
    {
      "epoch": 1.05,
      "grad_norm": 2.8906569480895996,
      "learning_rate": 6.2615e-05,
      "loss": 0.1788,
      "step": 211
    },
    {
      "epoch": 1.06,
      "grad_norm": 1.7572237253189087,
      "learning_rate": 6.258e-05,
      "loss": 0.2033,
      "step": 212
    },
    {
      "epoch": 1.06,
      "grad_norm": 1.743886947631836,
      "learning_rate": 6.254499999999999e-05,
      "loss": 0.1884,
      "step": 213
    },
    {
      "epoch": 1.07,
      "grad_norm": 1.485923171043396,
      "learning_rate": 6.251e-05,
      "loss": 0.1665,
      "step": 214
    },
    {
      "epoch": 1.07,
      "grad_norm": 2.136035919189453,
      "learning_rate": 6.247499999999999e-05,
      "loss": 0.1989,
      "step": 215
    },
    {
      "epoch": 1.08,
      "grad_norm": 1.073002576828003,
      "learning_rate": 6.243999999999999e-05,
      "loss": 0.1541,
      "step": 216
    },
    {
      "epoch": 1.08,
      "grad_norm": 1.1862950325012207,
      "learning_rate": 6.2405e-05,
      "loss": 0.1823,
      "step": 217
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.7649312019348145,
      "learning_rate": 6.237e-05,
      "loss": 0.1792,
      "step": 218
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.9375494718551636,
      "learning_rate": 6.233499999999999e-05,
      "loss": 0.1858,
      "step": 219
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.5874878168106079,
      "learning_rate": 6.23e-05,
      "loss": 0.1287,
      "step": 220
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.9368737936019897,
      "learning_rate": 6.226499999999999e-05,
      "loss": 0.1581,
      "step": 221
    },
    {
      "epoch": 1.11,
      "grad_norm": 2.085153818130493,
      "learning_rate": 6.222999999999999e-05,
      "loss": 0.2112,
      "step": 222
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.9055127501487732,
      "learning_rate": 6.2195e-05,
      "loss": 0.1959,
      "step": 223
    },
    {
      "epoch": 1.12,
      "grad_norm": 1.0949773788452148,
      "learning_rate": 6.216e-05,
      "loss": 0.1543,
      "step": 224
    },
    {
      "epoch": 1.12,
      "grad_norm": 1.723525881767273,
      "learning_rate": 6.212499999999999e-05,
      "loss": 0.2053,
      "step": 225
    },
    {
      "epoch": 1.13,
      "grad_norm": 1.4915224313735962,
      "learning_rate": 6.209e-05,
      "loss": 0.2605,
      "step": 226
    },
    {
      "epoch": 1.14,
      "grad_norm": 1.3001792430877686,
      "learning_rate": 6.205499999999999e-05,
      "loss": 0.174,
      "step": 227
    },
    {
      "epoch": 1.14,
      "grad_norm": 1.4275290966033936,
      "learning_rate": 6.201999999999999e-05,
      "loss": 0.1981,
      "step": 228
    },
    {
      "epoch": 1.15,
      "grad_norm": 1.7999427318572998,
      "learning_rate": 6.1985e-05,
      "loss": 0.2124,
      "step": 229
    },
    {
      "epoch": 1.15,
      "grad_norm": 1.947431206703186,
      "learning_rate": 6.195e-05,
      "loss": 0.2066,
      "step": 230
    },
    {
      "epoch": 1.16,
      "grad_norm": 2.4990673065185547,
      "learning_rate": 6.191499999999999e-05,
      "loss": 0.193,
      "step": 231
    },
    {
      "epoch": 1.16,
      "grad_norm": 2.1700825691223145,
      "learning_rate": 6.188e-05,
      "loss": 0.1569,
      "step": 232
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.7762773036956787,
      "learning_rate": 6.184499999999999e-05,
      "loss": 0.1461,
      "step": 233
    },
    {
      "epoch": 1.17,
      "grad_norm": 2.61972713470459,
      "learning_rate": 6.180999999999999e-05,
      "loss": 0.1886,
      "step": 234
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.9270007014274597,
      "learning_rate": 6.1775e-05,
      "loss": 0.1813,
      "step": 235
    },
    {
      "epoch": 1.18,
      "grad_norm": 1.0687036514282227,
      "learning_rate": 6.174e-05,
      "loss": 0.192,
      "step": 236
    },
    {
      "epoch": 1.19,
      "grad_norm": 4.437431335449219,
      "learning_rate": 6.170499999999999e-05,
      "loss": 0.2634,
      "step": 237
    },
    {
      "epoch": 1.19,
      "grad_norm": 1.127016305923462,
      "learning_rate": 6.167e-05,
      "loss": 0.1961,
      "step": 238
    },
    {
      "epoch": 1.2,
      "grad_norm": 1.432263970375061,
      "learning_rate": 6.163499999999999e-05,
      "loss": 0.2234,
      "step": 239
    },
    {
      "epoch": 1.2,
      "grad_norm": 1.0149760246276855,
      "learning_rate": 6.159999999999999e-05,
      "loss": 0.172,
      "step": 240
    },
    {
      "epoch": 1.21,
      "grad_norm": 1.036842703819275,
      "learning_rate": 6.1565e-05,
      "loss": 0.1977,
      "step": 241
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.9743266105651855,
      "learning_rate": 6.152999999999999e-05,
      "loss": 0.1581,
      "step": 242
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.9901948571205139,
      "learning_rate": 6.149499999999999e-05,
      "loss": 0.1957,
      "step": 243
    },
    {
      "epoch": 1.22,
      "grad_norm": 1.1263710260391235,
      "learning_rate": 6.146e-05,
      "loss": 0.2438,
      "step": 244
    },
    {
      "epoch": 1.23,
      "grad_norm": 2.2297937870025635,
      "learning_rate": 6.142499999999999e-05,
      "loss": 0.1722,
      "step": 245
    },
    {
      "epoch": 1.23,
      "grad_norm": 1.4601504802703857,
      "learning_rate": 6.139e-05,
      "loss": 0.1948,
      "step": 246
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.9687156081199646,
      "learning_rate": 6.135499999999998e-05,
      "loss": 0.1723,
      "step": 247
    },
    {
      "epoch": 1.24,
      "grad_norm": 2.007101058959961,
      "learning_rate": 6.131999999999999e-05,
      "loss": 0.2214,
      "step": 248
    },
    {
      "epoch": 1.25,
      "grad_norm": 1.7990381717681885,
      "learning_rate": 6.1285e-05,
      "loss": 0.1986,
      "step": 249
    },
    {
      "epoch": 1.25,
      "grad_norm": 1.1361477375030518,
      "learning_rate": 6.125e-05,
      "loss": 0.1257,
      "step": 250
    },
    {
      "epoch": 1.25,
      "grad_norm": 2.928436279296875,
      "learning_rate": 6.1215e-05,
      "loss": 0.1723,
      "step": 251
    },
    {
      "epoch": 1.26,
      "grad_norm": 2.0096096992492676,
      "learning_rate": 6.118e-05,
      "loss": 0.206,
      "step": 252
    },
    {
      "epoch": 1.27,
      "grad_norm": 1.9972493648529053,
      "learning_rate": 6.1145e-05,
      "loss": 0.1853,
      "step": 253
    },
    {
      "epoch": 1.27,
      "grad_norm": 1.27361261844635,
      "learning_rate": 6.110999999999999e-05,
      "loss": 0.1714,
      "step": 254
    },
    {
      "epoch": 1.27,
      "grad_norm": 1.6349388360977173,
      "learning_rate": 6.1075e-05,
      "loss": 0.1976,
      "step": 255
    },
    {
      "epoch": 1.28,
      "grad_norm": 2.077481746673584,
      "learning_rate": 6.104e-05,
      "loss": 0.1987,
      "step": 256
    },
    {
      "epoch": 1.28,
      "grad_norm": 1.998721957206726,
      "learning_rate": 6.1004999999999996e-05,
      "loss": 0.1667,
      "step": 257
    },
    {
      "epoch": 1.29,
      "grad_norm": 3.0722436904907227,
      "learning_rate": 6.0969999999999994e-05,
      "loss": 0.2,
      "step": 258
    },
    {
      "epoch": 1.29,
      "grad_norm": 1.776492714881897,
      "learning_rate": 6.0935e-05,
      "loss": 0.2059,
      "step": 259
    },
    {
      "epoch": 1.3,
      "grad_norm": 1.0614681243896484,
      "learning_rate": 6.0899999999999996e-05,
      "loss": 0.182,
      "step": 260
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.9203061461448669,
      "learning_rate": 6.0865e-05,
      "loss": 0.1406,
      "step": 261
    },
    {
      "epoch": 1.31,
      "grad_norm": 1.9129353761672974,
      "learning_rate": 6.082999999999999e-05,
      "loss": 0.1554,
      "step": 262
    },
    {
      "epoch": 1.31,
      "grad_norm": 1.3353112936019897,
      "learning_rate": 6.0794999999999996e-05,
      "loss": 0.2313,
      "step": 263
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.8445853590965271,
      "learning_rate": 6.0759999999999994e-05,
      "loss": 0.1785,
      "step": 264
    },
    {
      "epoch": 1.32,
      "grad_norm": 2.295835494995117,
      "learning_rate": 6.0725e-05,
      "loss": 0.1624,
      "step": 265
    },
    {
      "epoch": 1.33,
      "grad_norm": 2.3404531478881836,
      "learning_rate": 6.0689999999999997e-05,
      "loss": 0.1517,
      "step": 266
    },
    {
      "epoch": 1.33,
      "grad_norm": 1.5329418182373047,
      "learning_rate": 6.0655e-05,
      "loss": 0.232,
      "step": 267
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.6987010836601257,
      "learning_rate": 6.061999999999999e-05,
      "loss": 0.1214,
      "step": 268
    },
    {
      "epoch": 1.34,
      "grad_norm": 1.7689907550811768,
      "learning_rate": 6.0585e-05,
      "loss": 0.1906,
      "step": 269
    },
    {
      "epoch": 1.35,
      "grad_norm": 1.6360946893692017,
      "learning_rate": 6.0549999999999995e-05,
      "loss": 0.192,
      "step": 270
    },
    {
      "epoch": 1.35,
      "grad_norm": 5.920486927032471,
      "learning_rate": 6.0515e-05,
      "loss": 0.2084,
      "step": 271
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.8563205599784851,
      "learning_rate": 6.048e-05,
      "loss": 0.1434,
      "step": 272
    },
    {
      "epoch": 1.36,
      "grad_norm": 1.0825902223587036,
      "learning_rate": 6.0444999999999995e-05,
      "loss": 0.1751,
      "step": 273
    },
    {
      "epoch": 1.37,
      "grad_norm": 2.4778645038604736,
      "learning_rate": 6.040999999999999e-05,
      "loss": 0.1776,
      "step": 274
    },
    {
      "epoch": 1.38,
      "grad_norm": 1.9240566492080688,
      "learning_rate": 6.0375e-05,
      "loss": 0.2497,
      "step": 275
    },
    {
      "epoch": 1.38,
      "grad_norm": 1.5093743801116943,
      "learning_rate": 6.0339999999999995e-05,
      "loss": 0.1916,
      "step": 276
    },
    {
      "epoch": 1.39,
      "grad_norm": 1.9166580438613892,
      "learning_rate": 6.0305e-05,
      "loss": 0.2164,
      "step": 277
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.7287777066230774,
      "learning_rate": 6.026999999999999e-05,
      "loss": 0.1777,
      "step": 278
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.8718000054359436,
      "learning_rate": 6.0234999999999995e-05,
      "loss": 0.1497,
      "step": 279
    },
    {
      "epoch": 1.4,
      "grad_norm": 2.5152697563171387,
      "learning_rate": 6.019999999999999e-05,
      "loss": 0.1757,
      "step": 280
    },
    {
      "epoch": 1.41,
      "grad_norm": 1.6634294986724854,
      "learning_rate": 6.0165e-05,
      "loss": 0.2109,
      "step": 281
    },
    {
      "epoch": 1.41,
      "grad_norm": 1.4099165201187134,
      "learning_rate": 6.0129999999999995e-05,
      "loss": 0.1945,
      "step": 282
    },
    {
      "epoch": 1.42,
      "grad_norm": 3.2613472938537598,
      "learning_rate": 6.0095e-05,
      "loss": 0.2271,
      "step": 283
    },
    {
      "epoch": 1.42,
      "grad_norm": 1.7522412538528442,
      "learning_rate": 6.005999999999999e-05,
      "loss": 0.1764,
      "step": 284
    },
    {
      "epoch": 1.43,
      "grad_norm": 1.7249534130096436,
      "learning_rate": 6.0024999999999995e-05,
      "loss": 0.2271,
      "step": 285
    },
    {
      "epoch": 1.43,
      "grad_norm": 1.5453661680221558,
      "learning_rate": 5.998999999999999e-05,
      "loss": 0.1799,
      "step": 286
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.8609773516654968,
      "learning_rate": 5.9955e-05,
      "loss": 0.1481,
      "step": 287
    },
    {
      "epoch": 1.44,
      "grad_norm": 1.853775143623352,
      "learning_rate": 5.9919999999999996e-05,
      "loss": 0.2083,
      "step": 288
    },
    {
      "epoch": 1.45,
      "grad_norm": 1.6037849187850952,
      "learning_rate": 5.9885e-05,
      "loss": 0.2045,
      "step": 289
    },
    {
      "epoch": 1.45,
      "grad_norm": 2.2357447147369385,
      "learning_rate": 5.984999999999999e-05,
      "loss": 0.2424,
      "step": 290
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.7464407682418823,
      "learning_rate": 5.9814999999999996e-05,
      "loss": 0.1434,
      "step": 291
    },
    {
      "epoch": 1.46,
      "grad_norm": 1.345069169998169,
      "learning_rate": 5.9779999999999993e-05,
      "loss": 0.1948,
      "step": 292
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.9084047079086304,
      "learning_rate": 5.9745e-05,
      "loss": 0.1879,
      "step": 293
    },
    {
      "epoch": 1.47,
      "grad_norm": 1.4173179864883423,
      "learning_rate": 5.9709999999999996e-05,
      "loss": 0.2168,
      "step": 294
    },
    {
      "epoch": 1.48,
      "grad_norm": 1.3125916719436646,
      "learning_rate": 5.9675e-05,
      "loss": 0.2018,
      "step": 295
    },
    {
      "epoch": 1.48,
      "grad_norm": 1.1630128622055054,
      "learning_rate": 5.963999999999999e-05,
      "loss": 0.1672,
      "step": 296
    },
    {
      "epoch": 1.48,
      "grad_norm": 1.0105764865875244,
      "learning_rate": 5.9604999999999996e-05,
      "loss": 0.1562,
      "step": 297
    },
    {
      "epoch": 1.49,
      "grad_norm": 3.463763475418091,
      "learning_rate": 5.9569999999999994e-05,
      "loss": 0.242,
      "step": 298
    },
    {
      "epoch": 1.5,
      "grad_norm": 1.8967562913894653,
      "learning_rate": 5.9535e-05,
      "loss": 0.1647,
      "step": 299
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.8196576237678528,
      "learning_rate": 5.9499999999999996e-05,
      "loss": 0.1792,
      "step": 300
    },
    {
      "epoch": 1.5,
      "grad_norm": 1.1195136308670044,
      "learning_rate": 5.9464999999999994e-05,
      "loss": 0.1984,
      "step": 301
    },
    {
      "epoch": 1.51,
      "grad_norm": 1.058217167854309,
      "learning_rate": 5.942999999999999e-05,
      "loss": 0.1779,
      "step": 302
    },
    {
      "epoch": 1.52,
      "grad_norm": 1.129051923751831,
      "learning_rate": 5.9394999999999996e-05,
      "loss": 0.1884,
      "step": 303
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.7328073382377625,
      "learning_rate": 5.9359999999999994e-05,
      "loss": 0.1323,
      "step": 304
    },
    {
      "epoch": 1.52,
      "grad_norm": 1.2558687925338745,
      "learning_rate": 5.9325e-05,
      "loss": 0.1857,
      "step": 305
    },
    {
      "epoch": 1.53,
      "grad_norm": 1.645362377166748,
      "learning_rate": 5.928999999999999e-05,
      "loss": 0.2191,
      "step": 306
    },
    {
      "epoch": 1.54,
      "grad_norm": 1.5436639785766602,
      "learning_rate": 5.9254999999999994e-05,
      "loss": 0.1883,
      "step": 307
    },
    {
      "epoch": 1.54,
      "grad_norm": 1.4340800046920776,
      "learning_rate": 5.921999999999999e-05,
      "loss": 0.1992,
      "step": 308
    },
    {
      "epoch": 1.54,
      "grad_norm": 1.4623637199401855,
      "learning_rate": 5.9185e-05,
      "loss": 0.2013,
      "step": 309
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.6687906980514526,
      "learning_rate": 5.9149999999999994e-05,
      "loss": 0.1333,
      "step": 310
    },
    {
      "epoch": 1.56,
      "grad_norm": 2.5739219188690186,
      "learning_rate": 5.9115e-05,
      "loss": 0.2014,
      "step": 311
    },
    {
      "epoch": 1.56,
      "grad_norm": 1.0744019746780396,
      "learning_rate": 5.907999999999999e-05,
      "loss": 0.2022,
      "step": 312
    },
    {
      "epoch": 1.56,
      "grad_norm": 1.7507551908493042,
      "learning_rate": 5.9044999999999995e-05,
      "loss": 0.2251,
      "step": 313
    },
    {
      "epoch": 1.57,
      "grad_norm": 1.982343077659607,
      "learning_rate": 5.900999999999999e-05,
      "loss": 0.1552,
      "step": 314
    },
    {
      "epoch": 1.57,
      "grad_norm": 1.8171601295471191,
      "learning_rate": 5.8975e-05,
      "loss": 0.2191,
      "step": 315
    },
    {
      "epoch": 1.58,
      "grad_norm": 1.2831217050552368,
      "learning_rate": 5.8939999999999995e-05,
      "loss": 0.1801,
      "step": 316
    },
    {
      "epoch": 1.58,
      "grad_norm": 1.0813206434249878,
      "learning_rate": 5.8905e-05,
      "loss": 0.1802,
      "step": 317
    },
    {
      "epoch": 1.59,
      "grad_norm": 1.351401925086975,
      "learning_rate": 5.886999999999999e-05,
      "loss": 0.1604,
      "step": 318
    },
    {
      "epoch": 1.59,
      "grad_norm": 1.0478380918502808,
      "learning_rate": 5.8834999999999995e-05,
      "loss": 0.173,
      "step": 319
    },
    {
      "epoch": 1.6,
      "grad_norm": 1.413682460784912,
      "learning_rate": 5.879999999999999e-05,
      "loss": 0.1604,
      "step": 320
    },
    {
      "epoch": 1.6,
      "grad_norm": 3.0116515159606934,
      "learning_rate": 5.8765e-05,
      "loss": 0.1582,
      "step": 321
    },
    {
      "epoch": 1.61,
      "grad_norm": 4.147116184234619,
      "learning_rate": 5.8729999999999995e-05,
      "loss": 0.3137,
      "step": 322
    },
    {
      "epoch": 1.61,
      "grad_norm": 1.177325963973999,
      "learning_rate": 5.8695e-05,
      "loss": 0.1658,
      "step": 323
    },
    {
      "epoch": 1.62,
      "grad_norm": 2.1498117446899414,
      "learning_rate": 5.865999999999999e-05,
      "loss": 0.2196,
      "step": 324
    },
    {
      "epoch": 1.62,
      "grad_norm": 1.3954087495803833,
      "learning_rate": 5.8624999999999995e-05,
      "loss": 0.1723,
      "step": 325
    },
    {
      "epoch": 1.63,
      "grad_norm": 1.9196521043777466,
      "learning_rate": 5.858999999999999e-05,
      "loss": 0.1593,
      "step": 326
    },
    {
      "epoch": 1.64,
      "grad_norm": 1.6062179803848267,
      "learning_rate": 5.8555e-05,
      "loss": 0.1642,
      "step": 327
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.8046324849128723,
      "learning_rate": 5.8519999999999995e-05,
      "loss": 0.1919,
      "step": 328
    },
    {
      "epoch": 1.65,
      "grad_norm": 2.175039529800415,
      "learning_rate": 5.848499999999999e-05,
      "loss": 0.2028,
      "step": 329
    },
    {
      "epoch": 1.65,
      "grad_norm": 4.1242356300354,
      "learning_rate": 5.844999999999999e-05,
      "loss": 0.1735,
      "step": 330
    },
    {
      "epoch": 1.66,
      "grad_norm": 1.1621804237365723,
      "learning_rate": 5.8414999999999996e-05,
      "loss": 0.1424,
      "step": 331
    },
    {
      "epoch": 1.66,
      "grad_norm": 1.357529640197754,
      "learning_rate": 5.837999999999999e-05,
      "loss": 0.1856,
      "step": 332
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.9470440745353699,
      "learning_rate": 5.8345e-05,
      "loss": 0.1886,
      "step": 333
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5465031862258911,
      "learning_rate": 5.830999999999999e-05,
      "loss": 0.1646,
      "step": 334
    },
    {
      "epoch": 1.68,
      "grad_norm": 1.0955657958984375,
      "learning_rate": 5.8274999999999993e-05,
      "loss": 0.2256,
      "step": 335
    },
    {
      "epoch": 1.68,
      "grad_norm": 2.2441914081573486,
      "learning_rate": 5.823999999999999e-05,
      "loss": 0.2107,
      "step": 336
    },
    {
      "epoch": 1.69,
      "grad_norm": 1.0367214679718018,
      "learning_rate": 5.8204999999999996e-05,
      "loss": 0.1358,
      "step": 337
    },
    {
      "epoch": 1.69,
      "grad_norm": 3.731870412826538,
      "learning_rate": 5.8169999999999994e-05,
      "loss": 0.2203,
      "step": 338
    },
    {
      "epoch": 1.69,
      "grad_norm": 1.9562960863113403,
      "learning_rate": 5.8135e-05,
      "loss": 0.16,
      "step": 339
    },
    {
      "epoch": 1.7,
      "grad_norm": 1.9868402481079102,
      "learning_rate": 5.809999999999999e-05,
      "loss": 0.1727,
      "step": 340
    },
    {
      "epoch": 1.71,
      "grad_norm": 1.367915153503418,
      "learning_rate": 5.8064999999999994e-05,
      "loss": 0.1609,
      "step": 341
    },
    {
      "epoch": 1.71,
      "grad_norm": 1.037172555923462,
      "learning_rate": 5.802999999999999e-05,
      "loss": 0.1668,
      "step": 342
    },
    {
      "epoch": 1.71,
      "grad_norm": 1.2927069664001465,
      "learning_rate": 5.7994999999999996e-05,
      "loss": 0.1747,
      "step": 343
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.8264719247817993,
      "learning_rate": 5.7959999999999994e-05,
      "loss": 0.1555,
      "step": 344
    },
    {
      "epoch": 1.73,
      "grad_norm": 1.221350073814392,
      "learning_rate": 5.7925e-05,
      "loss": 0.159,
      "step": 345
    },
    {
      "epoch": 1.73,
      "grad_norm": 1.6397851705551147,
      "learning_rate": 5.788999999999999e-05,
      "loss": 0.1832,
      "step": 346
    },
    {
      "epoch": 1.73,
      "grad_norm": 1.1626536846160889,
      "learning_rate": 5.7854999999999994e-05,
      "loss": 0.2188,
      "step": 347
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.8969086408615112,
      "learning_rate": 5.781999999999999e-05,
      "loss": 0.1712,
      "step": 348
    },
    {
      "epoch": 1.75,
      "grad_norm": 1.3086333274841309,
      "learning_rate": 5.7784999999999996e-05,
      "loss": 0.1801,
      "step": 349
    },
    {
      "epoch": 1.75,
      "grad_norm": 1.2277417182922363,
      "learning_rate": 5.7749999999999994e-05,
      "loss": 0.2013,
      "step": 350
    },
    {
      "epoch": 1.75,
      "grad_norm": 1.1411445140838623,
      "learning_rate": 5.7715e-05,
      "loss": 0.154,
      "step": 351
    },
    {
      "epoch": 1.76,
      "grad_norm": 1.7645584344863892,
      "learning_rate": 5.767999999999999e-05,
      "loss": 0.2191,
      "step": 352
    },
    {
      "epoch": 1.77,
      "grad_norm": 1.4966391324996948,
      "learning_rate": 5.7644999999999994e-05,
      "loss": 0.1306,
      "step": 353
    },
    {
      "epoch": 1.77,
      "grad_norm": 1.6128565073013306,
      "learning_rate": 5.760999999999999e-05,
      "loss": 0.1685,
      "step": 354
    },
    {
      "epoch": 1.77,
      "grad_norm": 1.5031787157058716,
      "learning_rate": 5.7575e-05,
      "loss": 0.1949,
      "step": 355
    },
    {
      "epoch": 1.78,
      "grad_norm": 1.74382483959198,
      "learning_rate": 5.7539999999999995e-05,
      "loss": 0.2413,
      "step": 356
    },
    {
      "epoch": 1.79,
      "grad_norm": 1.6321369409561157,
      "learning_rate": 5.750499999999999e-05,
      "loss": 0.1831,
      "step": 357
    },
    {
      "epoch": 1.79,
      "grad_norm": 1.7231870889663696,
      "learning_rate": 5.746999999999999e-05,
      "loss": 0.1613,
      "step": 358
    },
    {
      "epoch": 1.79,
      "grad_norm": 3.4675939083099365,
      "learning_rate": 5.7434999999999995e-05,
      "loss": 0.2766,
      "step": 359
    },
    {
      "epoch": 1.8,
      "grad_norm": 1.1886773109436035,
      "learning_rate": 5.739999999999999e-05,
      "loss": 0.1862,
      "step": 360
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.8662118315696716,
      "learning_rate": 5.7365e-05,
      "loss": 0.1535,
      "step": 361
    },
    {
      "epoch": 1.81,
      "grad_norm": 1.2581828832626343,
      "learning_rate": 5.732999999999999e-05,
      "loss": 0.1597,
      "step": 362
    },
    {
      "epoch": 1.81,
      "grad_norm": 1.4861966371536255,
      "learning_rate": 5.729499999999999e-05,
      "loss": 0.168,
      "step": 363
    },
    {
      "epoch": 1.82,
      "grad_norm": 1.2844576835632324,
      "learning_rate": 5.725999999999999e-05,
      "loss": 0.1742,
      "step": 364
    },
    {
      "epoch": 1.82,
      "grad_norm": 1.633208990097046,
      "learning_rate": 5.7224999999999995e-05,
      "loss": 0.1865,
      "step": 365
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.7051111459732056,
      "learning_rate": 5.718999999999999e-05,
      "loss": 0.1308,
      "step": 366
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.6217337250709534,
      "learning_rate": 5.7155e-05,
      "loss": 0.1226,
      "step": 367
    },
    {
      "epoch": 1.84,
      "grad_norm": 1.6408542394638062,
      "learning_rate": 5.711999999999999e-05,
      "loss": 0.1559,
      "step": 368
    },
    {
      "epoch": 1.84,
      "grad_norm": 1.0866777896881104,
      "learning_rate": 5.708499999999999e-05,
      "loss": 0.1499,
      "step": 369
    },
    {
      "epoch": 1.85,
      "grad_norm": 2.1328213214874268,
      "learning_rate": 5.704999999999999e-05,
      "loss": 0.2417,
      "step": 370
    },
    {
      "epoch": 1.85,
      "grad_norm": 1.6645933389663696,
      "learning_rate": 5.7014999999999995e-05,
      "loss": 0.18,
      "step": 371
    },
    {
      "epoch": 1.86,
      "grad_norm": 2.037970781326294,
      "learning_rate": 5.697999999999999e-05,
      "loss": 0.1925,
      "step": 372
    },
    {
      "epoch": 1.86,
      "grad_norm": 1.6585825681686401,
      "learning_rate": 5.6945e-05,
      "loss": 0.1569,
      "step": 373
    },
    {
      "epoch": 1.87,
      "grad_norm": 1.2431669235229492,
      "learning_rate": 5.690999999999999e-05,
      "loss": 0.1771,
      "step": 374
    },
    {
      "epoch": 1.88,
      "grad_norm": 1.3959766626358032,
      "learning_rate": 5.687499999999999e-05,
      "loss": 0.1745,
      "step": 375
    },
    {
      "epoch": 1.88,
      "grad_norm": 1.7367819547653198,
      "learning_rate": 5.684e-05,
      "loss": 0.2504,
      "step": 376
    },
    {
      "epoch": 1.89,
      "grad_norm": 4.034266471862793,
      "learning_rate": 5.6804999999999996e-05,
      "loss": 0.215,
      "step": 377
    },
    {
      "epoch": 1.89,
      "grad_norm": 1.655532717704773,
      "learning_rate": 5.677e-05,
      "loss": 0.1722,
      "step": 378
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.6817905902862549,
      "learning_rate": 5.6735e-05,
      "loss": 0.1546,
      "step": 379
    },
    {
      "epoch": 1.9,
      "grad_norm": 2.4257867336273193,
      "learning_rate": 5.6699999999999996e-05,
      "loss": 0.1936,
      "step": 380
    },
    {
      "epoch": 1.91,
      "grad_norm": 1.248033881187439,
      "learning_rate": 5.6664999999999994e-05,
      "loss": 0.1711,
      "step": 381
    },
    {
      "epoch": 1.91,
      "grad_norm": 1.6004737615585327,
      "learning_rate": 5.663e-05,
      "loss": 0.1826,
      "step": 382
    },
    {
      "epoch": 1.92,
      "grad_norm": 2.0053672790527344,
      "learning_rate": 5.6594999999999996e-05,
      "loss": 0.1962,
      "step": 383
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.9450353384017944,
      "learning_rate": 5.656e-05,
      "loss": 0.1465,
      "step": 384
    },
    {
      "epoch": 1.93,
      "grad_norm": 2.8143436908721924,
      "learning_rate": 5.652499999999999e-05,
      "loss": 0.1704,
      "step": 385
    },
    {
      "epoch": 1.93,
      "grad_norm": 2.9037396907806396,
      "learning_rate": 5.6489999999999996e-05,
      "loss": 0.2597,
      "step": 386
    },
    {
      "epoch": 1.94,
      "grad_norm": 1.584021806716919,
      "learning_rate": 5.6454999999999994e-05,
      "loss": 0.1942,
      "step": 387
    },
    {
      "epoch": 1.94,
      "grad_norm": 1.813195824623108,
      "learning_rate": 5.642e-05,
      "loss": 0.1407,
      "step": 388
    },
    {
      "epoch": 1.94,
      "grad_norm": 2.656825304031372,
      "learning_rate": 5.6384999999999996e-05,
      "loss": 0.1751,
      "step": 389
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.984368085861206,
      "learning_rate": 5.635e-05,
      "loss": 0.1642,
      "step": 390
    },
    {
      "epoch": 1.96,
      "grad_norm": 1.007109522819519,
      "learning_rate": 5.631499999999999e-05,
      "loss": 0.1589,
      "step": 391
    },
    {
      "epoch": 1.96,
      "grad_norm": 1.191197156906128,
      "learning_rate": 5.6279999999999996e-05,
      "loss": 0.1427,
      "step": 392
    },
    {
      "epoch": 1.96,
      "grad_norm": 2.2193009853363037,
      "learning_rate": 5.6244999999999994e-05,
      "loss": 0.196,
      "step": 393
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5777041912078857,
      "learning_rate": 5.621e-05,
      "loss": 0.1158,
      "step": 394
    },
    {
      "epoch": 1.98,
      "grad_norm": 1.318231463432312,
      "learning_rate": 5.6175e-05,
      "loss": 0.1712,
      "step": 395
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.9211145639419556,
      "learning_rate": 5.614e-05,
      "loss": 0.3203,
      "step": 396
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.7977105379104614,
      "learning_rate": 5.610499999999999e-05,
      "loss": 0.1691,
      "step": 397
    },
    {
      "epoch": 1.99,
      "grad_norm": 2.4286673069000244,
      "learning_rate": 5.607e-05,
      "loss": 0.1955,
      "step": 398
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.0678982734680176,
      "learning_rate": 5.6034999999999995e-05,
      "loss": 0.1515,
      "step": 399
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.9125381708145142,
      "learning_rate": 5.6e-05,
      "loss": 0.184,
      "step": 400
    },
    {
      "epoch": 2.0,
      "eval_accuracy_Background": NaN,
      "eval_accuracy_Bag": 0.6971378904716168,
      "eval_accuracy_Belt": 0.0,
      "eval_accuracy_Dress": 0.720106307381591,
      "eval_accuracy_Face": 0.9053590440263061,
      "eval_accuracy_Hair": 0.8606826672125275,
      "eval_accuracy_Hat": 0.4452939393643127,
      "eval_accuracy_Left-arm": 0.824850277209523,
      "eval_accuracy_Left-leg": 0.8440214900127602,
      "eval_accuracy_Left-shoe": 0.5756234563853736,
      "eval_accuracy_Pants": 0.815979286720757,
      "eval_accuracy_Right-arm": 0.8241681831145526,
      "eval_accuracy_Right-leg": 0.8553345955948504,
      "eval_accuracy_Right-shoe": 0.5385315517444976,
      "eval_accuracy_Scarf": 0.0,
      "eval_accuracy_Skirt": 0.7568822014676219,
      "eval_accuracy_Sunglasses": 0.0,
      "eval_accuracy_Upper-clothes": 0.8744547266093068,
      "eval_iou_Background": 0.0,
      "eval_iou_Bag": 0.6182720808565089,
      "eval_iou_Belt": 0.0,
      "eval_iou_Dress": 0.577711867687479,
      "eval_iou_Face": 0.7710410746205023,
      "eval_iou_Hair": 0.7599216873292362,
      "eval_iou_Hat": 0.41525879596283766,
      "eval_iou_Left-arm": 0.7096452268067862,
      "eval_iou_Left-leg": 0.7024606886463807,
      "eval_iou_Left-shoe": 0.451744869166974,
      "eval_iou_Pants": 0.7161889108766395,
      "eval_iou_Right-arm": 0.7059818674945599,
      "eval_iou_Right-leg": 0.7142858127514508,
      "eval_iou_Right-shoe": 0.4228653595964668,
      "eval_iou_Scarf": 0.0,
      "eval_iou_Skirt": 0.6347675676307957,
      "eval_iou_Sunglasses": 0.0,
      "eval_iou_Upper-clothes": 0.74668684518671,
      "eval_loss": 0.18410640954971313,
      "eval_mean_accuracy": 0.6199073892538586,
      "eval_mean_iou": 0.4970462585896292,
      "eval_overall_accuracy": 0.7940102627786559,
      "eval_runtime": 27.9275,
      "eval_samples_per_second": 14.323,
      "eval_steps_per_second": 7.161,
      "step": 400
    },
    {
      "epoch": 2.0,
      "grad_norm": 2.408320903778076,
      "learning_rate": 5.5965e-05,
      "loss": 0.194,
      "step": 401
    },
    {
      "epoch": 2.01,
      "grad_norm": 1.2833545207977295,
      "learning_rate": 5.593e-05,
      "loss": 0.1917,
      "step": 402
    },
    {
      "epoch": 2.02,
      "grad_norm": 1.0624080896377563,
      "learning_rate": 5.589499999999999e-05,
      "loss": 0.22,
      "step": 403
    },
    {
      "epoch": 2.02,
      "grad_norm": 1.2535752058029175,
      "learning_rate": 5.586e-05,
      "loss": 0.2187,
      "step": 404
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.9103966951370239,
      "learning_rate": 5.5824999999999995e-05,
      "loss": 0.1298,
      "step": 405
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.8673450350761414,
      "learning_rate": 5.579e-05,
      "loss": 0.1702,
      "step": 406
    },
    {
      "epoch": 2.04,
      "grad_norm": 1.5600277185440063,
      "learning_rate": 5.5755e-05,
      "loss": 0.1634,
      "step": 407
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.9058090448379517,
      "learning_rate": 5.5719999999999995e-05,
      "loss": 0.161,
      "step": 408
    },
    {
      "epoch": 2.04,
      "grad_norm": 1.5131325721740723,
      "learning_rate": 5.568499999999999e-05,
      "loss": 0.1684,
      "step": 409
    },
    {
      "epoch": 2.05,
      "grad_norm": 1.587011456489563,
      "learning_rate": 5.565e-05,
      "loss": 0.153,
      "step": 410
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.7268534898757935,
      "learning_rate": 5.5614999999999995e-05,
      "loss": 0.1094,
      "step": 411
    },
    {
      "epoch": 2.06,
      "grad_norm": 1.1489702463150024,
      "learning_rate": 5.558e-05,
      "loss": 0.1545,
      "step": 412
    },
    {
      "epoch": 2.06,
      "grad_norm": 1.0423336029052734,
      "learning_rate": 5.554499999999999e-05,
      "loss": 0.2014,
      "step": 413
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.9269284009933472,
      "learning_rate": 5.5509999999999995e-05,
      "loss": 0.2313,
      "step": 414
    },
    {
      "epoch": 2.08,
      "grad_norm": 1.2321912050247192,
      "learning_rate": 5.547499999999999e-05,
      "loss": 0.1763,
      "step": 415
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.765286922454834,
      "learning_rate": 5.544e-05,
      "loss": 0.1464,
      "step": 416
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.9053062200546265,
      "learning_rate": 5.5404999999999996e-05,
      "loss": 0.1608,
      "step": 417
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.7354797720909119,
      "learning_rate": 5.537e-05,
      "loss": 0.153,
      "step": 418
    },
    {
      "epoch": 2.1,
      "grad_norm": 1.6420387029647827,
      "learning_rate": 5.533499999999999e-05,
      "loss": 0.1919,
      "step": 419
    },
    {
      "epoch": 2.1,
      "grad_norm": 1.0766208171844482,
      "learning_rate": 5.5299999999999996e-05,
      "loss": 0.139,
      "step": 420
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6970477104187012,
      "learning_rate": 5.5264999999999993e-05,
      "loss": 0.1505,
      "step": 421
    },
    {
      "epoch": 2.11,
      "grad_norm": 1.6570799350738525,
      "learning_rate": 5.523e-05,
      "loss": 0.1597,
      "step": 422
    },
    {
      "epoch": 2.12,
      "grad_norm": 1.3664238452911377,
      "learning_rate": 5.5194999999999996e-05,
      "loss": 0.2022,
      "step": 423
    },
    {
      "epoch": 2.12,
      "grad_norm": 1.5208606719970703,
      "learning_rate": 5.516e-05,
      "loss": 0.1609,
      "step": 424
    },
    {
      "epoch": 2.12,
      "grad_norm": 1.252049446105957,
      "learning_rate": 5.512499999999999e-05,
      "loss": 0.1541,
      "step": 425
    },
    {
      "epoch": 2.13,
      "grad_norm": 1.6465731859207153,
      "learning_rate": 5.5089999999999996e-05,
      "loss": 0.1924,
      "step": 426
    },
    {
      "epoch": 2.13,
      "grad_norm": 1.0617198944091797,
      "learning_rate": 5.5054999999999994e-05,
      "loss": 0.1422,
      "step": 427
    },
    {
      "epoch": 2.14,
      "grad_norm": 1.9616140127182007,
      "learning_rate": 5.502e-05,
      "loss": 0.2878,
      "step": 428
    },
    {
      "epoch": 2.15,
      "grad_norm": 2.386265277862549,
      "learning_rate": 5.4984999999999996e-05,
      "loss": 0.1493,
      "step": 429
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6849926114082336,
      "learning_rate": 5.495e-05,
      "loss": 0.1402,
      "step": 430
    },
    {
      "epoch": 2.15,
      "grad_norm": 1.1881041526794434,
      "learning_rate": 5.491499999999999e-05,
      "loss": 0.1973,
      "step": 431
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.7749435305595398,
      "learning_rate": 5.4879999999999996e-05,
      "loss": 0.1544,
      "step": 432
    },
    {
      "epoch": 2.17,
      "grad_norm": 1.8107545375823975,
      "learning_rate": 5.4844999999999994e-05,
      "loss": 0.1755,
      "step": 433
    },
    {
      "epoch": 2.17,
      "grad_norm": 1.9916960000991821,
      "learning_rate": 5.481e-05,
      "loss": 0.179,
      "step": 434
    },
    {
      "epoch": 2.17,
      "grad_norm": 1.2154059410095215,
      "learning_rate": 5.4774999999999996e-05,
      "loss": 0.1558,
      "step": 435
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.8961373567581177,
      "learning_rate": 5.4739999999999994e-05,
      "loss": 0.1647,
      "step": 436
    },
    {
      "epoch": 2.19,
      "grad_norm": 1.081119179725647,
      "learning_rate": 5.470499999999999e-05,
      "loss": 0.1602,
      "step": 437
    },
    {
      "epoch": 2.19,
      "grad_norm": 1.238559603691101,
      "learning_rate": 5.467e-05,
      "loss": 0.1762,
      "step": 438
    },
    {
      "epoch": 2.19,
      "grad_norm": 1.4409369230270386,
      "learning_rate": 5.4634999999999994e-05,
      "loss": 0.1548,
      "step": 439
    },
    {
      "epoch": 2.2,
      "grad_norm": 1.3769776821136475,
      "learning_rate": 5.46e-05,
      "loss": 0.162,
      "step": 440
    },
    {
      "epoch": 2.21,
      "grad_norm": 1.4029701948165894,
      "learning_rate": 5.456499999999999e-05,
      "loss": 0.1604,
      "step": 441
    },
    {
      "epoch": 2.21,
      "grad_norm": 1.1054757833480835,
      "learning_rate": 5.4529999999999995e-05,
      "loss": 0.1368,
      "step": 442
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.7867599129676819,
      "learning_rate": 5.449499999999999e-05,
      "loss": 0.1565,
      "step": 443
    },
    {
      "epoch": 2.22,
      "grad_norm": 3.1307318210601807,
      "learning_rate": 5.446e-05,
      "loss": 0.1785,
      "step": 444
    },
    {
      "epoch": 2.23,
      "grad_norm": 2.722465753555298,
      "learning_rate": 5.4424999999999995e-05,
      "loss": 0.1771,
      "step": 445
    },
    {
      "epoch": 2.23,
      "grad_norm": 2.3299450874328613,
      "learning_rate": 5.439e-05,
      "loss": 0.2129,
      "step": 446
    },
    {
      "epoch": 2.23,
      "grad_norm": 1.9497706890106201,
      "learning_rate": 5.435499999999999e-05,
      "loss": 0.1556,
      "step": 447
    },
    {
      "epoch": 2.24,
      "grad_norm": 1.3850336074829102,
      "learning_rate": 5.4319999999999995e-05,
      "loss": 0.1573,
      "step": 448
    },
    {
      "epoch": 2.25,
      "grad_norm": 1.8556268215179443,
      "learning_rate": 5.428499999999999e-05,
      "loss": 0.176,
      "step": 449
    },
    {
      "epoch": 2.25,
      "grad_norm": 1.4106707572937012,
      "learning_rate": 5.425e-05,
      "loss": 0.1465,
      "step": 450
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.9892725348472595,
      "learning_rate": 5.4214999999999995e-05,
      "loss": 0.1497,
      "step": 451
    },
    {
      "epoch": 2.26,
      "grad_norm": 1.6454665660858154,
      "learning_rate": 5.418e-05,
      "loss": 0.1618,
      "step": 452
    },
    {
      "epoch": 2.27,
      "grad_norm": 1.412439227104187,
      "learning_rate": 5.414499999999999e-05,
      "loss": 0.2045,
      "step": 453
    },
    {
      "epoch": 2.27,
      "grad_norm": 1.2778650522232056,
      "learning_rate": 5.4109999999999995e-05,
      "loss": 0.1774,
      "step": 454
    },
    {
      "epoch": 2.27,
      "grad_norm": 1.9533883333206177,
      "learning_rate": 5.407499999999999e-05,
      "loss": 0.1673,
      "step": 455
    },
    {
      "epoch": 2.28,
      "grad_norm": 1.4317160844802856,
      "learning_rate": 5.404e-05,
      "loss": 0.1954,
      "step": 456
    },
    {
      "epoch": 2.29,
      "grad_norm": 4.208489418029785,
      "learning_rate": 5.4004999999999995e-05,
      "loss": 0.1424,
      "step": 457
    },
    {
      "epoch": 2.29,
      "grad_norm": 1.240633249282837,
      "learning_rate": 5.397e-05,
      "loss": 0.1771,
      "step": 458
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6378664970397949,
      "learning_rate": 5.393499999999999e-05,
      "loss": 0.1486,
      "step": 459
    },
    {
      "epoch": 2.3,
      "grad_norm": 1.06327486038208,
      "learning_rate": 5.3899999999999996e-05,
      "loss": 0.142,
      "step": 460
    },
    {
      "epoch": 2.31,
      "grad_norm": 2.7315595149993896,
      "learning_rate": 5.386499999999999e-05,
      "loss": 0.1837,
      "step": 461
    },
    {
      "epoch": 2.31,
      "grad_norm": 1.3533438444137573,
      "learning_rate": 5.383e-05,
      "loss": 0.1453,
      "step": 462
    },
    {
      "epoch": 2.31,
      "grad_norm": 3.4670028686523438,
      "learning_rate": 5.3794999999999996e-05,
      "loss": 0.167,
      "step": 463
    },
    {
      "epoch": 2.32,
      "grad_norm": 1.4511170387268066,
      "learning_rate": 5.3759999999999994e-05,
      "loss": 0.2106,
      "step": 464
    },
    {
      "epoch": 2.33,
      "grad_norm": 2.141331195831299,
      "learning_rate": 5.372499999999999e-05,
      "loss": 0.2412,
      "step": 465
    },
    {
      "epoch": 2.33,
      "grad_norm": 1.3849934339523315,
      "learning_rate": 5.3689999999999996e-05,
      "loss": 0.1837,
      "step": 466
    },
    {
      "epoch": 2.33,
      "grad_norm": 1.2250187397003174,
      "learning_rate": 5.3654999999999994e-05,
      "loss": 0.1704,
      "step": 467
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.7262275218963623,
      "learning_rate": 5.362e-05,
      "loss": 0.1731,
      "step": 468
    },
    {
      "epoch": 2.34,
      "grad_norm": 1.1254647970199585,
      "learning_rate": 5.358499999999999e-05,
      "loss": 0.1897,
      "step": 469
    },
    {
      "epoch": 2.35,
      "grad_norm": 1.1144139766693115,
      "learning_rate": 5.3549999999999994e-05,
      "loss": 0.1484,
      "step": 470
    },
    {
      "epoch": 2.35,
      "grad_norm": 1.6846247911453247,
      "learning_rate": 5.351499999999999e-05,
      "loss": 0.2187,
      "step": 471
    },
    {
      "epoch": 2.36,
      "grad_norm": 1.2295016050338745,
      "learning_rate": 5.3479999999999996e-05,
      "loss": 0.1674,
      "step": 472
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.9101796746253967,
      "learning_rate": 5.3444999999999994e-05,
      "loss": 0.106,
      "step": 473
    },
    {
      "epoch": 2.37,
      "grad_norm": 1.1429316997528076,
      "learning_rate": 5.341e-05,
      "loss": 0.155,
      "step": 474
    },
    {
      "epoch": 2.38,
      "grad_norm": 1.6120693683624268,
      "learning_rate": 5.337499999999999e-05,
      "loss": 0.1941,
      "step": 475
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.7843664884567261,
      "learning_rate": 5.3339999999999994e-05,
      "loss": 0.1642,
      "step": 476
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.7846060395240784,
      "learning_rate": 5.330499999999999e-05,
      "loss": 0.1418,
      "step": 477
    },
    {
      "epoch": 2.39,
      "grad_norm": 2.6529359817504883,
      "learning_rate": 5.3269999999999996e-05,
      "loss": 0.1607,
      "step": 478
    },
    {
      "epoch": 2.4,
      "grad_norm": 2.368326425552368,
      "learning_rate": 5.3234999999999994e-05,
      "loss": 0.2335,
      "step": 479
    },
    {
      "epoch": 2.4,
      "grad_norm": 1.3739984035491943,
      "learning_rate": 5.32e-05,
      "loss": 0.1711,
      "step": 480
    },
    {
      "epoch": 2.41,
      "grad_norm": 1.058760643005371,
      "learning_rate": 5.316499999999999e-05,
      "loss": 0.1374,
      "step": 481
    },
    {
      "epoch": 2.41,
      "grad_norm": 1.228008508682251,
      "learning_rate": 5.3129999999999994e-05,
      "loss": 0.1822,
      "step": 482
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.923970639705658,
      "learning_rate": 5.309499999999999e-05,
      "loss": 0.1525,
      "step": 483
    },
    {
      "epoch": 2.42,
      "grad_norm": 1.8057209253311157,
      "learning_rate": 5.306e-05,
      "loss": 0.1639,
      "step": 484
    },
    {
      "epoch": 2.42,
      "grad_norm": 1.9789667129516602,
      "learning_rate": 5.3024999999999995e-05,
      "loss": 0.1748,
      "step": 485
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.8940370678901672,
      "learning_rate": 5.299e-05,
      "loss": 0.1642,
      "step": 486
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.8439290523529053,
      "learning_rate": 5.295499999999999e-05,
      "loss": 0.1599,
      "step": 487
    },
    {
      "epoch": 2.44,
      "grad_norm": 3.0013256072998047,
      "learning_rate": 5.2919999999999995e-05,
      "loss": 0.1755,
      "step": 488
    },
    {
      "epoch": 2.44,
      "grad_norm": 1.7129384279251099,
      "learning_rate": 5.288499999999999e-05,
      "loss": 0.1662,
      "step": 489
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.7640933394432068,
      "learning_rate": 5.285e-05,
      "loss": 0.129,
      "step": 490
    },
    {
      "epoch": 2.46,
      "grad_norm": 1.5896633863449097,
      "learning_rate": 5.2814999999999995e-05,
      "loss": 0.1797,
      "step": 491
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.963613748550415,
      "learning_rate": 5.277999999999999e-05,
      "loss": 0.1286,
      "step": 492
    },
    {
      "epoch": 2.46,
      "grad_norm": 3.0091021060943604,
      "learning_rate": 5.274499999999999e-05,
      "loss": 0.2091,
      "step": 493
    },
    {
      "epoch": 2.47,
      "grad_norm": 3.4745497703552246,
      "learning_rate": 5.2709999999999995e-05,
      "loss": 0.1308,
      "step": 494
    },
    {
      "epoch": 2.48,
      "grad_norm": 2.9354076385498047,
      "learning_rate": 5.267499999999999e-05,
      "loss": 0.2055,
      "step": 495
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.8058292865753174,
      "learning_rate": 5.264e-05,
      "loss": 0.1586,
      "step": 496
    },
    {
      "epoch": 2.48,
      "grad_norm": 1.301105260848999,
      "learning_rate": 5.260499999999999e-05,
      "loss": 0.1821,
      "step": 497
    },
    {
      "epoch": 2.49,
      "grad_norm": 2.522507905960083,
      "learning_rate": 5.256999999999999e-05,
      "loss": 0.1726,
      "step": 498
    },
    {
      "epoch": 2.5,
      "grad_norm": 1.6242989301681519,
      "learning_rate": 5.253499999999999e-05,
      "loss": 0.1656,
      "step": 499
    },
    {
      "epoch": 2.5,
      "grad_norm": 2.7403526306152344,
      "learning_rate": 5.2499999999999995e-05,
      "loss": 0.2393,
      "step": 500
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.9446516633033752,
      "learning_rate": 5.2465e-05,
      "loss": 0.147,
      "step": 501
    },
    {
      "epoch": 2.51,
      "grad_norm": 2.2192916870117188,
      "learning_rate": 5.243e-05,
      "loss": 0.2033,
      "step": 502
    },
    {
      "epoch": 2.52,
      "grad_norm": 1.5646706819534302,
      "learning_rate": 5.2395e-05,
      "loss": 0.1468,
      "step": 503
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.8806977272033691,
      "learning_rate": 5.235999999999999e-05,
      "loss": 0.141,
      "step": 504
    },
    {
      "epoch": 2.52,
      "grad_norm": 1.538948893547058,
      "learning_rate": 5.2325e-05,
      "loss": 0.1802,
      "step": 505
    },
    {
      "epoch": 2.53,
      "grad_norm": 1.1757892370224,
      "learning_rate": 5.2289999999999996e-05,
      "loss": 0.1718,
      "step": 506
    },
    {
      "epoch": 2.54,
      "grad_norm": 1.5350327491760254,
      "learning_rate": 5.2255e-05,
      "loss": 0.1785,
      "step": 507
    },
    {
      "epoch": 2.54,
      "grad_norm": 2.1062815189361572,
      "learning_rate": 5.222e-05,
      "loss": 0.1735,
      "step": 508
    },
    {
      "epoch": 2.54,
      "grad_norm": 1.62965726852417,
      "learning_rate": 5.2184999999999996e-05,
      "loss": 0.1774,
      "step": 509
    },
    {
      "epoch": 2.55,
      "grad_norm": 1.0228055715560913,
      "learning_rate": 5.2149999999999994e-05,
      "loss": 0.198,
      "step": 510
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.5685497522354126,
      "learning_rate": 5.2115e-05,
      "loss": 0.1486,
      "step": 511
    },
    {
      "epoch": 2.56,
      "grad_norm": 1.6774667501449585,
      "learning_rate": 5.2079999999999996e-05,
      "loss": 0.1508,
      "step": 512
    },
    {
      "epoch": 2.56,
      "grad_norm": 1.3349775075912476,
      "learning_rate": 5.2045e-05,
      "loss": 0.1498,
      "step": 513
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.665203869342804,
      "learning_rate": 5.200999999999999e-05,
      "loss": 0.1333,
      "step": 514
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.733709454536438,
      "learning_rate": 5.1974999999999996e-05,
      "loss": 0.1715,
      "step": 515
    },
    {
      "epoch": 2.58,
      "grad_norm": 1.6169962882995605,
      "learning_rate": 5.1939999999999994e-05,
      "loss": 0.1796,
      "step": 516
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.8765468001365662,
      "learning_rate": 5.1905e-05,
      "loss": 0.1212,
      "step": 517
    },
    {
      "epoch": 2.59,
      "grad_norm": 1.639855980873108,
      "learning_rate": 5.1869999999999996e-05,
      "loss": 0.1852,
      "step": 518
    },
    {
      "epoch": 2.59,
      "grad_norm": 1.2989236116409302,
      "learning_rate": 5.1835e-05,
      "loss": 0.1343,
      "step": 519
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.9722715020179749,
      "learning_rate": 5.179999999999999e-05,
      "loss": 0.1827,
      "step": 520
    },
    {
      "epoch": 2.6,
      "grad_norm": 1.905045509338379,
      "learning_rate": 5.1764999999999997e-05,
      "loss": 0.1584,
      "step": 521
    },
    {
      "epoch": 2.61,
      "grad_norm": 1.7585903406143188,
      "learning_rate": 5.1729999999999994e-05,
      "loss": 0.2228,
      "step": 522
    },
    {
      "epoch": 2.62,
      "grad_norm": 1.189900279045105,
      "learning_rate": 5.1695e-05,
      "loss": 0.1647,
      "step": 523
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.5763005614280701,
      "learning_rate": 5.166e-05,
      "loss": 0.1184,
      "step": 524
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.8196718096733093,
      "learning_rate": 5.1625e-05,
      "loss": 0.146,
      "step": 525
    },
    {
      "epoch": 2.63,
      "grad_norm": 1.1193519830703735,
      "learning_rate": 5.158999999999999e-05,
      "loss": 0.1354,
      "step": 526
    },
    {
      "epoch": 2.63,
      "grad_norm": 2.473423719406128,
      "learning_rate": 5.1555e-05,
      "loss": 0.1311,
      "step": 527
    },
    {
      "epoch": 2.64,
      "grad_norm": 1.233250617980957,
      "learning_rate": 5.1519999999999995e-05,
      "loss": 0.1166,
      "step": 528
    },
    {
      "epoch": 2.65,
      "grad_norm": 2.569645643234253,
      "learning_rate": 5.1485e-05,
      "loss": 0.1873,
      "step": 529
    },
    {
      "epoch": 2.65,
      "grad_norm": 1.6925779581069946,
      "learning_rate": 5.145e-05,
      "loss": 0.1719,
      "step": 530
    },
    {
      "epoch": 2.66,
      "grad_norm": 5.673698902130127,
      "learning_rate": 5.1415e-05,
      "loss": 0.224,
      "step": 531
    },
    {
      "epoch": 2.66,
      "grad_norm": 1.085080623626709,
      "learning_rate": 5.137999999999999e-05,
      "loss": 0.1774,
      "step": 532
    },
    {
      "epoch": 2.67,
      "grad_norm": 1.2712584733963013,
      "learning_rate": 5.1345e-05,
      "loss": 0.155,
      "step": 533
    },
    {
      "epoch": 2.67,
      "grad_norm": 1.48015296459198,
      "learning_rate": 5.1309999999999995e-05,
      "loss": 0.1357,
      "step": 534
    },
    {
      "epoch": 2.67,
      "grad_norm": 1.9833729267120361,
      "learning_rate": 5.1275e-05,
      "loss": 0.1415,
      "step": 535
    },
    {
      "epoch": 2.68,
      "grad_norm": 1.2852935791015625,
      "learning_rate": 5.124e-05,
      "loss": 0.1359,
      "step": 536
    },
    {
      "epoch": 2.69,
      "grad_norm": 1.2454904317855835,
      "learning_rate": 5.1204999999999995e-05,
      "loss": 0.168,
      "step": 537
    },
    {
      "epoch": 2.69,
      "grad_norm": 1.8721424341201782,
      "learning_rate": 5.116999999999999e-05,
      "loss": 0.217,
      "step": 538
    },
    {
      "epoch": 2.69,
      "grad_norm": 1.6053768396377563,
      "learning_rate": 5.1135e-05,
      "loss": 0.1556,
      "step": 539
    },
    {
      "epoch": 2.7,
      "grad_norm": 1.4426512718200684,
      "learning_rate": 5.1099999999999995e-05,
      "loss": 0.1542,
      "step": 540
    },
    {
      "epoch": 2.71,
      "grad_norm": 4.469021320343018,
      "learning_rate": 5.1065e-05,
      "loss": 0.2178,
      "step": 541
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.9615486860275269,
      "learning_rate": 5.102999999999999e-05,
      "loss": 0.1532,
      "step": 542
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7536624073982239,
      "learning_rate": 5.0994999999999995e-05,
      "loss": 0.1562,
      "step": 543
    },
    {
      "epoch": 2.72,
      "grad_norm": 1.1620252132415771,
      "learning_rate": 5.095999999999999e-05,
      "loss": 0.1436,
      "step": 544
    },
    {
      "epoch": 2.73,
      "grad_norm": 1.0976612567901611,
      "learning_rate": 5.0925e-05,
      "loss": 0.17,
      "step": 545
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.9390272498130798,
      "learning_rate": 5.0889999999999996e-05,
      "loss": 0.1508,
      "step": 546
    },
    {
      "epoch": 2.73,
      "grad_norm": 1.0190150737762451,
      "learning_rate": 5.0855e-05,
      "loss": 0.1519,
      "step": 547
    },
    {
      "epoch": 2.74,
      "grad_norm": 1.8229461908340454,
      "learning_rate": 5.081999999999999e-05,
      "loss": 0.1614,
      "step": 548
    },
    {
      "epoch": 2.75,
      "grad_norm": 1.063486933708191,
      "learning_rate": 5.0784999999999996e-05,
      "loss": 0.1381,
      "step": 549
    },
    {
      "epoch": 2.75,
      "grad_norm": 1.1865394115447998,
      "learning_rate": 5.0749999999999994e-05,
      "loss": 0.174,
      "step": 550
    },
    {
      "epoch": 2.75,
      "grad_norm": 4.002470970153809,
      "learning_rate": 5.0715e-05,
      "loss": 0.2521,
      "step": 551
    },
    {
      "epoch": 2.76,
      "grad_norm": 1.6774487495422363,
      "learning_rate": 5.0679999999999996e-05,
      "loss": 0.1545,
      "step": 552
    },
    {
      "epoch": 2.77,
      "grad_norm": 2.8342766761779785,
      "learning_rate": 5.0645e-05,
      "loss": 0.1356,
      "step": 553
    },
    {
      "epoch": 2.77,
      "grad_norm": 1.6485298871994019,
      "learning_rate": 5.060999999999999e-05,
      "loss": 0.21,
      "step": 554
    },
    {
      "epoch": 2.77,
      "grad_norm": 1.6960856914520264,
      "learning_rate": 5.0574999999999996e-05,
      "loss": 0.1714,
      "step": 555
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.720020055770874,
      "learning_rate": 5.0539999999999994e-05,
      "loss": 0.1164,
      "step": 556
    },
    {
      "epoch": 2.79,
      "grad_norm": 1.277211308479309,
      "learning_rate": 5.0505e-05,
      "loss": 0.1262,
      "step": 557
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.8341324925422668,
      "learning_rate": 5.0469999999999996e-05,
      "loss": 0.1406,
      "step": 558
    },
    {
      "epoch": 2.79,
      "grad_norm": 1.0813578367233276,
      "learning_rate": 5.0435e-05,
      "loss": 0.1457,
      "step": 559
    },
    {
      "epoch": 2.8,
      "grad_norm": 1.100595474243164,
      "learning_rate": 5.039999999999999e-05,
      "loss": 0.15,
      "step": 560
    },
    {
      "epoch": 2.81,
      "grad_norm": 1.2923612594604492,
      "learning_rate": 5.0364999999999996e-05,
      "loss": 0.209,
      "step": 561
    },
    {
      "epoch": 2.81,
      "grad_norm": 1.8738999366760254,
      "learning_rate": 5.0329999999999994e-05,
      "loss": 0.178,
      "step": 562
    },
    {
      "epoch": 2.81,
      "grad_norm": 3.531717300415039,
      "learning_rate": 5.0295e-05,
      "loss": 0.2093,
      "step": 563
    },
    {
      "epoch": 2.82,
      "grad_norm": 1.8808720111846924,
      "learning_rate": 5.0259999999999997e-05,
      "loss": 0.2251,
      "step": 564
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.8423910737037659,
      "learning_rate": 5.0224999999999994e-05,
      "loss": 0.1336,
      "step": 565
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.5171326398849487,
      "learning_rate": 5.018999999999999e-05,
      "loss": 0.1254,
      "step": 566
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.974952220916748,
      "learning_rate": 5.0155e-05,
      "loss": 0.1695,
      "step": 567
    },
    {
      "epoch": 2.84,
      "grad_norm": 1.2894536256790161,
      "learning_rate": 5.0119999999999994e-05,
      "loss": 0.1537,
      "step": 568
    },
    {
      "epoch": 2.84,
      "grad_norm": 1.1368293762207031,
      "learning_rate": 5.0085e-05,
      "loss": 0.1172,
      "step": 569
    },
    {
      "epoch": 2.85,
      "grad_norm": 1.7526473999023438,
      "learning_rate": 5.004999999999999e-05,
      "loss": 0.2285,
      "step": 570
    },
    {
      "epoch": 2.85,
      "grad_norm": 1.7403571605682373,
      "learning_rate": 5.0014999999999995e-05,
      "loss": 0.138,
      "step": 571
    },
    {
      "epoch": 2.86,
      "grad_norm": 1.1039683818817139,
      "learning_rate": 4.997999999999999e-05,
      "loss": 0.1307,
      "step": 572
    },
    {
      "epoch": 2.87,
      "grad_norm": 1.7934800386428833,
      "learning_rate": 4.9945e-05,
      "loss": 0.1666,
      "step": 573
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7066649794578552,
      "learning_rate": 4.9909999999999995e-05,
      "loss": 0.1378,
      "step": 574
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.5041195154190063,
      "learning_rate": 4.9875e-05,
      "loss": 0.1271,
      "step": 575
    },
    {
      "epoch": 2.88,
      "grad_norm": 1.56471586227417,
      "learning_rate": 4.983999999999999e-05,
      "loss": 0.1847,
      "step": 576
    },
    {
      "epoch": 2.88,
      "grad_norm": 1.1504805088043213,
      "learning_rate": 4.9804999999999995e-05,
      "loss": 0.1605,
      "step": 577
    },
    {
      "epoch": 2.89,
      "grad_norm": 1.116142749786377,
      "learning_rate": 4.976999999999999e-05,
      "loss": 0.1797,
      "step": 578
    },
    {
      "epoch": 2.9,
      "grad_norm": 1.1266084909439087,
      "learning_rate": 4.9735e-05,
      "loss": 0.1205,
      "step": 579
    },
    {
      "epoch": 2.9,
      "grad_norm": 1.2179417610168457,
      "learning_rate": 4.9699999999999995e-05,
      "loss": 0.1453,
      "step": 580
    },
    {
      "epoch": 2.91,
      "grad_norm": 2.3796513080596924,
      "learning_rate": 4.9665e-05,
      "loss": 0.1743,
      "step": 581
    },
    {
      "epoch": 2.91,
      "grad_norm": 1.1969720125198364,
      "learning_rate": 4.962999999999999e-05,
      "loss": 0.1298,
      "step": 582
    },
    {
      "epoch": 2.92,
      "grad_norm": 1.3728474378585815,
      "learning_rate": 4.9594999999999995e-05,
      "loss": 0.187,
      "step": 583
    },
    {
      "epoch": 2.92,
      "grad_norm": 1.0421583652496338,
      "learning_rate": 4.955999999999999e-05,
      "loss": 0.1532,
      "step": 584
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.734329104423523,
      "learning_rate": 4.9525e-05,
      "loss": 0.1599,
      "step": 585
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.5819607973098755,
      "learning_rate": 4.9489999999999995e-05,
      "loss": 0.1401,
      "step": 586
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7137534618377686,
      "learning_rate": 4.9455e-05,
      "loss": 0.1875,
      "step": 587
    },
    {
      "epoch": 2.94,
      "grad_norm": 1.3051036596298218,
      "learning_rate": 4.941999999999999e-05,
      "loss": 0.1708,
      "step": 588
    },
    {
      "epoch": 2.94,
      "grad_norm": 2.091078042984009,
      "learning_rate": 4.9384999999999996e-05,
      "loss": 0.1304,
      "step": 589
    },
    {
      "epoch": 2.95,
      "grad_norm": 1.22944974899292,
      "learning_rate": 4.934999999999999e-05,
      "loss": 0.2084,
      "step": 590
    },
    {
      "epoch": 2.96,
      "grad_norm": 1.668599009513855,
      "learning_rate": 4.9315e-05,
      "loss": 0.1545,
      "step": 591
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.9585400223731995,
      "learning_rate": 4.9279999999999996e-05,
      "loss": 0.1247,
      "step": 592
    },
    {
      "epoch": 2.96,
      "grad_norm": 1.0609244108200073,
      "learning_rate": 4.9244999999999994e-05,
      "loss": 0.1417,
      "step": 593
    },
    {
      "epoch": 2.97,
      "grad_norm": 3.44690203666687,
      "learning_rate": 4.920999999999999e-05,
      "loss": 0.1788,
      "step": 594
    },
    {
      "epoch": 2.98,
      "grad_norm": 3.005429744720459,
      "learning_rate": 4.9174999999999996e-05,
      "loss": 0.2463,
      "step": 595
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.9066584706306458,
      "learning_rate": 4.9139999999999994e-05,
      "loss": 0.1781,
      "step": 596
    },
    {
      "epoch": 2.98,
      "grad_norm": 1.1472892761230469,
      "learning_rate": 4.9105e-05,
      "loss": 0.1444,
      "step": 597
    },
    {
      "epoch": 2.99,
      "grad_norm": 2.089284896850586,
      "learning_rate": 4.906999999999999e-05,
      "loss": 0.1587,
      "step": 598
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.9170276522636414,
      "learning_rate": 4.9034999999999994e-05,
      "loss": 0.1623,
      "step": 599
    },
    {
      "epoch": 3.0,
      "grad_norm": 2.7017662525177,
      "learning_rate": 4.899999999999999e-05,
      "loss": 0.1793,
      "step": 600
    },
    {
      "epoch": 3.0,
      "eval_accuracy_Background": NaN,
      "eval_accuracy_Bag": 0.7170440668735955,
      "eval_accuracy_Belt": 0.0,
      "eval_accuracy_Dress": 0.7207472201337338,
      "eval_accuracy_Face": 0.8696250368908361,
      "eval_accuracy_Hair": 0.8591193989004168,
      "eval_accuracy_Hat": 0.56475660666973,
      "eval_accuracy_Left-arm": 0.7866573769357724,
      "eval_accuracy_Left-leg": 0.8117104877373956,
      "eval_accuracy_Left-shoe": 0.617822875002732,
      "eval_accuracy_Pants": 0.8757064681820026,
      "eval_accuracy_Right-arm": 0.7884334357198564,
      "eval_accuracy_Right-leg": 0.8442408355356881,
      "eval_accuracy_Right-shoe": 0.5797145945553144,
      "eval_accuracy_Scarf": 0.0,
      "eval_accuracy_Skirt": 0.7414271044542968,
      "eval_accuracy_Sunglasses": 0.0,
      "eval_accuracy_Upper-clothes": 0.8919829891852198,
      "eval_iou_Background": 0.0,
      "eval_iou_Bag": 0.6269171280983787,
      "eval_iou_Belt": 0.0,
      "eval_iou_Dress": 0.5969586593697811,
      "eval_iou_Face": 0.7821486157590508,
      "eval_iou_Hair": 0.7622235022723083,
      "eval_iou_Hat": 0.480460123847507,
      "eval_iou_Left-arm": 0.7074874372417593,
      "eval_iou_Left-leg": 0.728997147252506,
      "eval_iou_Left-shoe": 0.4792724590747633,
      "eval_iou_Pants": 0.7450282155242222,
      "eval_iou_Right-arm": 0.7070267896851847,
      "eval_iou_Right-leg": 0.7401792291583148,
      "eval_iou_Right-shoe": 0.4537912282473133,
      "eval_iou_Scarf": 0.0,
      "eval_iou_Skirt": 0.6575716213557292,
      "eval_iou_Sunglasses": 0.0,
      "eval_iou_Upper-clothes": 0.7496645163976756,
      "eval_loss": 0.17166350781917572,
      "eval_mean_accuracy": 0.627587558633917,
      "eval_mean_iou": 0.512095926293583,
      "eval_overall_accuracy": 0.8017698622867694,
      "eval_runtime": 27.9503,
      "eval_samples_per_second": 14.311,
      "eval_steps_per_second": 7.156,
      "step": 600
    },
    {
      "epoch": 3.0,
      "grad_norm": 5.894598007202148,
      "learning_rate": 4.8964999999999996e-05,
      "loss": 0.1983,
      "step": 601
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.484029084444046,
      "learning_rate": 4.8929999999999994e-05,
      "loss": 0.122,
      "step": 602
    },
    {
      "epoch": 3.02,
      "grad_norm": 1.3974157571792603,
      "learning_rate": 4.8895e-05,
      "loss": 0.1348,
      "step": 603
    },
    {
      "epoch": 3.02,
      "grad_norm": 1.630439043045044,
      "learning_rate": 4.885999999999999e-05,
      "loss": 0.1874,
      "step": 604
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.9853234887123108,
      "learning_rate": 4.8824999999999994e-05,
      "loss": 0.2247,
      "step": 605
    },
    {
      "epoch": 3.03,
      "grad_norm": 2.1931777000427246,
      "learning_rate": 4.878999999999999e-05,
      "loss": 0.1531,
      "step": 606
    },
    {
      "epoch": 3.04,
      "grad_norm": 1.1315193176269531,
      "learning_rate": 4.8754999999999997e-05,
      "loss": 0.1854,
      "step": 607
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.96844482421875,
      "learning_rate": 4.8719999999999994e-05,
      "loss": 0.1668,
      "step": 608
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.9087777137756348,
      "learning_rate": 4.8685e-05,
      "loss": 0.1814,
      "step": 609
    },
    {
      "epoch": 3.05,
      "grad_norm": 1.4916176795959473,
      "learning_rate": 4.864999999999999e-05,
      "loss": 0.1556,
      "step": 610
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.6674051284790039,
      "learning_rate": 4.8614999999999994e-05,
      "loss": 0.1246,
      "step": 611
    },
    {
      "epoch": 3.06,
      "grad_norm": 2.5846920013427734,
      "learning_rate": 4.857999999999999e-05,
      "loss": 0.2028,
      "step": 612
    },
    {
      "epoch": 3.06,
      "grad_norm": 1.016838550567627,
      "learning_rate": 4.8545e-05,
      "loss": 0.132,
      "step": 613
    },
    {
      "epoch": 3.07,
      "grad_norm": 1.425355315208435,
      "learning_rate": 4.8509999999999995e-05,
      "loss": 0.1426,
      "step": 614
    },
    {
      "epoch": 3.08,
      "grad_norm": 1.0821171998977661,
      "learning_rate": 4.8475e-05,
      "loss": 0.1613,
      "step": 615
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.7754635214805603,
      "learning_rate": 4.843999999999999e-05,
      "loss": 0.1521,
      "step": 616
    },
    {
      "epoch": 3.08,
      "grad_norm": 3.6427175998687744,
      "learning_rate": 4.8404999999999995e-05,
      "loss": 0.1877,
      "step": 617
    },
    {
      "epoch": 3.09,
      "grad_norm": 1.2314696311950684,
      "learning_rate": 4.836999999999999e-05,
      "loss": 0.1704,
      "step": 618
    },
    {
      "epoch": 3.1,
      "grad_norm": 2.442458152770996,
      "learning_rate": 4.8335e-05,
      "loss": 0.1603,
      "step": 619
    },
    {
      "epoch": 3.1,
      "grad_norm": 1.3881734609603882,
      "learning_rate": 4.8299999999999995e-05,
      "loss": 0.1674,
      "step": 620
    },
    {
      "epoch": 3.1,
      "grad_norm": 2.6303653717041016,
      "learning_rate": 4.826499999999999e-05,
      "loss": 0.1648,
      "step": 621
    },
    {
      "epoch": 3.11,
      "grad_norm": 1.3578661680221558,
      "learning_rate": 4.822999999999999e-05,
      "loss": 0.1354,
      "step": 622
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.9403505921363831,
      "learning_rate": 4.8194999999999995e-05,
      "loss": 0.1329,
      "step": 623
    },
    {
      "epoch": 3.12,
      "grad_norm": 1.5249576568603516,
      "learning_rate": 4.815999999999999e-05,
      "loss": 0.1364,
      "step": 624
    },
    {
      "epoch": 3.12,
      "grad_norm": 1.8462333679199219,
      "learning_rate": 4.8125e-05,
      "loss": 0.1487,
      "step": 625
    },
    {
      "epoch": 3.13,
      "grad_norm": 1.2659399509429932,
      "learning_rate": 4.809e-05,
      "loss": 0.1529,
      "step": 626
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.5822614431381226,
      "learning_rate": 4.805499999999999e-05,
      "loss": 0.1501,
      "step": 627
    },
    {
      "epoch": 3.14,
      "grad_norm": 1.1814526319503784,
      "learning_rate": 4.802e-05,
      "loss": 0.1838,
      "step": 628
    },
    {
      "epoch": 3.15,
      "grad_norm": 1.0756666660308838,
      "learning_rate": 4.7984999999999995e-05,
      "loss": 0.1613,
      "step": 629
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.8451972007751465,
      "learning_rate": 4.795e-05,
      "loss": 0.1396,
      "step": 630
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.7413097023963928,
      "learning_rate": 4.7915e-05,
      "loss": 0.126,
      "step": 631
    },
    {
      "epoch": 3.16,
      "grad_norm": 1.088716983795166,
      "learning_rate": 4.788e-05,
      "loss": 0.1696,
      "step": 632
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.6730666160583496,
      "learning_rate": 4.784499999999999e-05,
      "loss": 0.1486,
      "step": 633
    },
    {
      "epoch": 3.17,
      "grad_norm": 1.4976718425750732,
      "learning_rate": 4.781e-05,
      "loss": 0.1638,
      "step": 634
    },
    {
      "epoch": 3.17,
      "grad_norm": 1.4873638153076172,
      "learning_rate": 4.7774999999999996e-05,
      "loss": 0.1469,
      "step": 635
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.554357647895813,
      "learning_rate": 4.774e-05,
      "loss": 0.1183,
      "step": 636
    },
    {
      "epoch": 3.19,
      "grad_norm": 1.974204659461975,
      "learning_rate": 4.7705e-05,
      "loss": 0.2327,
      "step": 637
    },
    {
      "epoch": 3.19,
      "grad_norm": 1.5637094974517822,
      "learning_rate": 4.767e-05,
      "loss": 0.1432,
      "step": 638
    },
    {
      "epoch": 3.19,
      "grad_norm": 1.7932542562484741,
      "learning_rate": 4.7634999999999994e-05,
      "loss": 0.1549,
      "step": 639
    },
    {
      "epoch": 3.2,
      "grad_norm": 1.0002400875091553,
      "learning_rate": 4.76e-05,
      "loss": 0.1646,
      "step": 640
    },
    {
      "epoch": 3.21,
      "grad_norm": 1.231756329536438,
      "learning_rate": 4.7564999999999996e-05,
      "loss": 0.233,
      "step": 641
    },
    {
      "epoch": 3.21,
      "grad_norm": 1.01412832736969,
      "learning_rate": 4.753e-05,
      "loss": 0.1385,
      "step": 642
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.9989348649978638,
      "learning_rate": 4.7495e-05,
      "loss": 0.1683,
      "step": 643
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.9747808575630188,
      "learning_rate": 4.7459999999999996e-05,
      "loss": 0.1749,
      "step": 644
    },
    {
      "epoch": 3.23,
      "grad_norm": 2.1317811012268066,
      "learning_rate": 4.7424999999999994e-05,
      "loss": 0.1862,
      "step": 645
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.7908722758293152,
      "learning_rate": 4.739e-05,
      "loss": 0.1438,
      "step": 646
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.781446635723114,
      "learning_rate": 4.7354999999999996e-05,
      "loss": 0.1454,
      "step": 647
    },
    {
      "epoch": 3.24,
      "grad_norm": 1.520439863204956,
      "learning_rate": 4.732e-05,
      "loss": 0.1746,
      "step": 648
    },
    {
      "epoch": 3.25,
      "grad_norm": 2.271726131439209,
      "learning_rate": 4.728499999999999e-05,
      "loss": 0.1647,
      "step": 649
    },
    {
      "epoch": 3.25,
      "grad_norm": 1.3649139404296875,
      "learning_rate": 4.7249999999999997e-05,
      "loss": 0.1373,
      "step": 650
    },
    {
      "epoch": 3.25,
      "grad_norm": 1.496179223060608,
      "learning_rate": 4.7214999999999994e-05,
      "loss": 0.1584,
      "step": 651
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.645164430141449,
      "learning_rate": 4.718e-05,
      "loss": 0.128,
      "step": 652
    },
    {
      "epoch": 3.27,
      "grad_norm": 2.189974784851074,
      "learning_rate": 4.7145e-05,
      "loss": 0.1897,
      "step": 653
    },
    {
      "epoch": 3.27,
      "grad_norm": 1.4240797758102417,
      "learning_rate": 4.711e-05,
      "loss": 0.1254,
      "step": 654
    },
    {
      "epoch": 3.27,
      "grad_norm": 1.2055132389068604,
      "learning_rate": 4.707499999999999e-05,
      "loss": 0.1498,
      "step": 655
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.8872673511505127,
      "learning_rate": 4.704e-05,
      "loss": 0.167,
      "step": 656
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.5699864625930786,
      "learning_rate": 4.7004999999999995e-05,
      "loss": 0.1476,
      "step": 657
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.8544071316719055,
      "learning_rate": 4.697e-05,
      "loss": 0.1335,
      "step": 658
    },
    {
      "epoch": 3.29,
      "grad_norm": 2.60086727142334,
      "learning_rate": 4.6935e-05,
      "loss": 0.1744,
      "step": 659
    },
    {
      "epoch": 3.3,
      "grad_norm": 1.6137332916259766,
      "learning_rate": 4.69e-05,
      "loss": 0.15,
      "step": 660
    },
    {
      "epoch": 3.31,
      "grad_norm": 2.0939972400665283,
      "learning_rate": 4.686499999999999e-05,
      "loss": 0.1479,
      "step": 661
    },
    {
      "epoch": 3.31,
      "grad_norm": 1.5132102966308594,
      "learning_rate": 4.683e-05,
      "loss": 0.1826,
      "step": 662
    },
    {
      "epoch": 3.31,
      "grad_norm": 1.146345615386963,
      "learning_rate": 4.6794999999999995e-05,
      "loss": 0.178,
      "step": 663
    },
    {
      "epoch": 3.32,
      "grad_norm": 1.0837914943695068,
      "learning_rate": 4.676e-05,
      "loss": 0.1539,
      "step": 664
    },
    {
      "epoch": 3.33,
      "grad_norm": 1.1331897974014282,
      "learning_rate": 4.6725e-05,
      "loss": 0.186,
      "step": 665
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.9984354972839355,
      "learning_rate": 4.669e-05,
      "loss": 0.1212,
      "step": 666
    },
    {
      "epoch": 3.33,
      "grad_norm": 1.1507893800735474,
      "learning_rate": 4.665499999999999e-05,
      "loss": 0.1826,
      "step": 667
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.6811460256576538,
      "learning_rate": 4.662e-05,
      "loss": 0.128,
      "step": 668
    },
    {
      "epoch": 3.34,
      "grad_norm": 1.0946661233901978,
      "learning_rate": 4.6584999999999995e-05,
      "loss": 0.1587,
      "step": 669
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.5728778839111328,
      "learning_rate": 4.655e-05,
      "loss": 0.1121,
      "step": 670
    },
    {
      "epoch": 3.35,
      "grad_norm": 3.004066228866577,
      "learning_rate": 4.6515e-05,
      "loss": 0.1793,
      "step": 671
    },
    {
      "epoch": 3.36,
      "grad_norm": 1.9084429740905762,
      "learning_rate": 4.6479999999999995e-05,
      "loss": 0.1733,
      "step": 672
    },
    {
      "epoch": 3.37,
      "grad_norm": 1.6265321969985962,
      "learning_rate": 4.644499999999999e-05,
      "loss": 0.1689,
      "step": 673
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.5723251104354858,
      "learning_rate": 4.641e-05,
      "loss": 0.1379,
      "step": 674
    },
    {
      "epoch": 3.38,
      "grad_norm": 1.0966508388519287,
      "learning_rate": 4.6374999999999996e-05,
      "loss": 0.1492,
      "step": 675
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.8495060801506042,
      "learning_rate": 4.634e-05,
      "loss": 0.1394,
      "step": 676
    },
    {
      "epoch": 3.38,
      "grad_norm": 1.4029862880706787,
      "learning_rate": 4.630499999999999e-05,
      "loss": 0.1395,
      "step": 677
    },
    {
      "epoch": 3.39,
      "grad_norm": 1.4528101682662964,
      "learning_rate": 4.6269999999999996e-05,
      "loss": 0.154,
      "step": 678
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.7106868028640747,
      "learning_rate": 4.6234999999999994e-05,
      "loss": 0.1389,
      "step": 679
    },
    {
      "epoch": 3.4,
      "grad_norm": 1.0629733800888062,
      "learning_rate": 4.62e-05,
      "loss": 0.1323,
      "step": 680
    },
    {
      "epoch": 3.41,
      "grad_norm": 1.026303768157959,
      "learning_rate": 4.6164999999999996e-05,
      "loss": 0.1378,
      "step": 681
    },
    {
      "epoch": 3.41,
      "grad_norm": 1.3102688789367676,
      "learning_rate": 4.613e-05,
      "loss": 0.1802,
      "step": 682
    },
    {
      "epoch": 3.42,
      "grad_norm": 2.002516269683838,
      "learning_rate": 4.609499999999999e-05,
      "loss": 0.1334,
      "step": 683
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.7645897269248962,
      "learning_rate": 4.6059999999999996e-05,
      "loss": 0.1216,
      "step": 684
    },
    {
      "epoch": 3.42,
      "grad_norm": 1.1003888845443726,
      "learning_rate": 4.6024999999999994e-05,
      "loss": 0.1431,
      "step": 685
    },
    {
      "epoch": 3.43,
      "grad_norm": 1.1488415002822876,
      "learning_rate": 4.599e-05,
      "loss": 0.1233,
      "step": 686
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.6449373960494995,
      "learning_rate": 4.5954999999999996e-05,
      "loss": 0.1218,
      "step": 687
    },
    {
      "epoch": 3.44,
      "grad_norm": 1.4894216060638428,
      "learning_rate": 4.592e-05,
      "loss": 0.1478,
      "step": 688
    },
    {
      "epoch": 3.44,
      "grad_norm": 1.1864644289016724,
      "learning_rate": 4.588499999999999e-05,
      "loss": 0.1752,
      "step": 689
    },
    {
      "epoch": 3.45,
      "grad_norm": 3.0292253494262695,
      "learning_rate": 4.5849999999999996e-05,
      "loss": 0.1806,
      "step": 690
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.6568751335144043,
      "learning_rate": 4.5814999999999994e-05,
      "loss": 0.1124,
      "step": 691
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.623604416847229,
      "learning_rate": 4.578e-05,
      "loss": 0.1117,
      "step": 692
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.5199642181396484,
      "learning_rate": 4.5744999999999997e-05,
      "loss": 0.101,
      "step": 693
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.7525932192802429,
      "learning_rate": 4.571e-05,
      "loss": 0.1334,
      "step": 694
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.8144399523735046,
      "learning_rate": 4.567499999999999e-05,
      "loss": 0.1347,
      "step": 695
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.5912866592407227,
      "learning_rate": 4.564e-05,
      "loss": 0.1152,
      "step": 696
    },
    {
      "epoch": 3.48,
      "grad_norm": 2.3211514949798584,
      "learning_rate": 4.5604999999999995e-05,
      "loss": 0.1716,
      "step": 697
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.8682639598846436,
      "learning_rate": 4.557e-05,
      "loss": 0.1409,
      "step": 698
    },
    {
      "epoch": 3.5,
      "grad_norm": 2.7047369480133057,
      "learning_rate": 4.5535e-05,
      "loss": 0.155,
      "step": 699
    },
    {
      "epoch": 3.5,
      "grad_norm": 1.6041091680526733,
      "learning_rate": 4.5499999999999995e-05,
      "loss": 0.1383,
      "step": 700
    },
    {
      "epoch": 3.5,
      "grad_norm": 1.4195796251296997,
      "learning_rate": 4.546499999999999e-05,
      "loss": 0.147,
      "step": 701
    },
    {
      "epoch": 3.51,
      "grad_norm": 1.5045243501663208,
      "learning_rate": 4.543e-05,
      "loss": 0.1899,
      "step": 702
    },
    {
      "epoch": 3.52,
      "grad_norm": 1.953184962272644,
      "learning_rate": 4.5394999999999995e-05,
      "loss": 0.1296,
      "step": 703
    },
    {
      "epoch": 3.52,
      "grad_norm": 4.326098918914795,
      "learning_rate": 4.536e-05,
      "loss": 0.1544,
      "step": 704
    },
    {
      "epoch": 3.52,
      "grad_norm": 1.813725471496582,
      "learning_rate": 4.532499999999999e-05,
      "loss": 0.132,
      "step": 705
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.8627734780311584,
      "learning_rate": 4.5289999999999995e-05,
      "loss": 0.1468,
      "step": 706
    },
    {
      "epoch": 3.54,
      "grad_norm": 1.127116084098816,
      "learning_rate": 4.525499999999999e-05,
      "loss": 0.1341,
      "step": 707
    },
    {
      "epoch": 3.54,
      "grad_norm": 1.2270630598068237,
      "learning_rate": 4.522e-05,
      "loss": 0.1407,
      "step": 708
    },
    {
      "epoch": 3.54,
      "grad_norm": 1.0923629999160767,
      "learning_rate": 4.5184999999999995e-05,
      "loss": 0.1703,
      "step": 709
    },
    {
      "epoch": 3.55,
      "grad_norm": 1.8287907838821411,
      "learning_rate": 4.515e-05,
      "loss": 0.1858,
      "step": 710
    },
    {
      "epoch": 3.56,
      "grad_norm": 1.1964503526687622,
      "learning_rate": 4.511499999999999e-05,
      "loss": 0.1205,
      "step": 711
    },
    {
      "epoch": 3.56,
      "grad_norm": 1.0131624937057495,
      "learning_rate": 4.5079999999999995e-05,
      "loss": 0.1441,
      "step": 712
    },
    {
      "epoch": 3.56,
      "grad_norm": 1.0468155145645142,
      "learning_rate": 4.504499999999999e-05,
      "loss": 0.1537,
      "step": 713
    },
    {
      "epoch": 3.57,
      "grad_norm": 2.1669843196868896,
      "learning_rate": 4.501e-05,
      "loss": 0.1868,
      "step": 714
    },
    {
      "epoch": 3.58,
      "grad_norm": 2.517585039138794,
      "learning_rate": 4.4974999999999995e-05,
      "loss": 0.1832,
      "step": 715
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.8125161528587341,
      "learning_rate": 4.494e-05,
      "loss": 0.1148,
      "step": 716
    },
    {
      "epoch": 3.58,
      "grad_norm": 1.4042742252349854,
      "learning_rate": 4.490499999999999e-05,
      "loss": 0.1815,
      "step": 717
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.5651368498802185,
      "learning_rate": 4.4869999999999996e-05,
      "loss": 0.1264,
      "step": 718
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.7403331995010376,
      "learning_rate": 4.4834999999999993e-05,
      "loss": 0.1123,
      "step": 719
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.7533650398254395,
      "learning_rate": 4.48e-05,
      "loss": 0.1442,
      "step": 720
    },
    {
      "epoch": 3.6,
      "grad_norm": 1.2350023984909058,
      "learning_rate": 4.4764999999999996e-05,
      "loss": 0.1601,
      "step": 721
    },
    {
      "epoch": 3.61,
      "grad_norm": 1.3725250959396362,
      "learning_rate": 4.473e-05,
      "loss": 0.1573,
      "step": 722
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.6375295519828796,
      "learning_rate": 4.469499999999999e-05,
      "loss": 0.1054,
      "step": 723
    },
    {
      "epoch": 3.62,
      "grad_norm": 3.05053448677063,
      "learning_rate": 4.4659999999999996e-05,
      "loss": 0.1717,
      "step": 724
    },
    {
      "epoch": 3.62,
      "grad_norm": 1.2221169471740723,
      "learning_rate": 4.4624999999999994e-05,
      "loss": 0.1278,
      "step": 725
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.8294830918312073,
      "learning_rate": 4.459e-05,
      "loss": 0.1429,
      "step": 726
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.9139401316642761,
      "learning_rate": 4.4554999999999996e-05,
      "loss": 0.1592,
      "step": 727
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.7381225824356079,
      "learning_rate": 4.4519999999999994e-05,
      "loss": 0.1444,
      "step": 728
    },
    {
      "epoch": 3.65,
      "grad_norm": 1.0386778116226196,
      "learning_rate": 4.448499999999999e-05,
      "loss": 0.152,
      "step": 729
    },
    {
      "epoch": 3.65,
      "grad_norm": 1.7739335298538208,
      "learning_rate": 4.4449999999999996e-05,
      "loss": 0.1326,
      "step": 730
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.7740123867988586,
      "learning_rate": 4.4414999999999994e-05,
      "loss": 0.1347,
      "step": 731
    },
    {
      "epoch": 3.66,
      "grad_norm": 1.3309673070907593,
      "learning_rate": 4.438e-05,
      "loss": 0.1423,
      "step": 732
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.7685109376907349,
      "learning_rate": 4.434499999999999e-05,
      "loss": 0.1683,
      "step": 733
    },
    {
      "epoch": 3.67,
      "grad_norm": 1.0098308324813843,
      "learning_rate": 4.4309999999999994e-05,
      "loss": 0.1358,
      "step": 734
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.7018429040908813,
      "learning_rate": 4.427499999999999e-05,
      "loss": 0.1532,
      "step": 735
    },
    {
      "epoch": 3.68,
      "grad_norm": 1.2253954410552979,
      "learning_rate": 4.4239999999999997e-05,
      "loss": 0.202,
      "step": 736
    },
    {
      "epoch": 3.69,
      "grad_norm": 1.9349933862686157,
      "learning_rate": 4.4204999999999994e-05,
      "loss": 0.1439,
      "step": 737
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.8179346919059753,
      "learning_rate": 4.417e-05,
      "loss": 0.1489,
      "step": 738
    },
    {
      "epoch": 3.69,
      "grad_norm": 1.3805214166641235,
      "learning_rate": 4.413499999999999e-05,
      "loss": 0.1825,
      "step": 739
    },
    {
      "epoch": 3.7,
      "grad_norm": 1.291025161743164,
      "learning_rate": 4.4099999999999995e-05,
      "loss": 0.1339,
      "step": 740
    },
    {
      "epoch": 3.71,
      "grad_norm": 1.1188263893127441,
      "learning_rate": 4.406499999999999e-05,
      "loss": 0.1505,
      "step": 741
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.9138364791870117,
      "learning_rate": 4.403e-05,
      "loss": 0.1599,
      "step": 742
    },
    {
      "epoch": 3.71,
      "grad_norm": 1.4657138586044312,
      "learning_rate": 4.3994999999999995e-05,
      "loss": 0.1819,
      "step": 743
    },
    {
      "epoch": 3.72,
      "grad_norm": 1.698250651359558,
      "learning_rate": 4.396e-05,
      "loss": 0.1674,
      "step": 744
    },
    {
      "epoch": 3.73,
      "grad_norm": 1.6851249933242798,
      "learning_rate": 4.392499999999999e-05,
      "loss": 0.1517,
      "step": 745
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.7055475115776062,
      "learning_rate": 4.3889999999999995e-05,
      "loss": 0.1428,
      "step": 746
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.5814492106437683,
      "learning_rate": 4.385499999999999e-05,
      "loss": 0.1316,
      "step": 747
    },
    {
      "epoch": 3.74,
      "grad_norm": 1.031733512878418,
      "learning_rate": 4.382e-05,
      "loss": 0.1612,
      "step": 748
    },
    {
      "epoch": 3.75,
      "grad_norm": 1.0861842632293701,
      "learning_rate": 4.3784999999999995e-05,
      "loss": 0.1376,
      "step": 749
    },
    {
      "epoch": 3.75,
      "grad_norm": 1.290473222732544,
      "learning_rate": 4.374999999999999e-05,
      "loss": 0.1545,
      "step": 750
    },
    {
      "epoch": 3.75,
      "grad_norm": 1.1064043045043945,
      "learning_rate": 4.3715e-05,
      "loss": 0.1436,
      "step": 751
    },
    {
      "epoch": 3.76,
      "grad_norm": 1.1777790784835815,
      "learning_rate": 4.3679999999999995e-05,
      "loss": 0.1655,
      "step": 752
    },
    {
      "epoch": 3.77,
      "grad_norm": 1.7212042808532715,
      "learning_rate": 4.3645e-05,
      "loss": 0.1503,
      "step": 753
    },
    {
      "epoch": 3.77,
      "grad_norm": 1.016485571861267,
      "learning_rate": 4.361e-05,
      "loss": 0.129,
      "step": 754
    },
    {
      "epoch": 3.77,
      "grad_norm": 1.0562947988510132,
      "learning_rate": 4.3575e-05,
      "loss": 0.1351,
      "step": 755
    },
    {
      "epoch": 3.78,
      "grad_norm": 1.2820100784301758,
      "learning_rate": 4.353999999999999e-05,
      "loss": 0.1522,
      "step": 756
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.5468181371688843,
      "learning_rate": 4.3505e-05,
      "loss": 0.1049,
      "step": 757
    },
    {
      "epoch": 3.79,
      "grad_norm": 1.6093201637268066,
      "learning_rate": 4.3469999999999995e-05,
      "loss": 0.1572,
      "step": 758
    },
    {
      "epoch": 3.79,
      "grad_norm": 1.3046249151229858,
      "learning_rate": 4.3435e-05,
      "loss": 0.1883,
      "step": 759
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.6169909238815308,
      "learning_rate": 4.34e-05,
      "loss": 0.1158,
      "step": 760
    },
    {
      "epoch": 3.81,
      "grad_norm": 2.3591389656066895,
      "learning_rate": 4.3365e-05,
      "loss": 0.1684,
      "step": 761
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.7599402666091919,
      "learning_rate": 4.3329999999999993e-05,
      "loss": 0.1415,
      "step": 762
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.9514855742454529,
      "learning_rate": 4.3295e-05,
      "loss": 0.1368,
      "step": 763
    },
    {
      "epoch": 3.82,
      "grad_norm": 2.4174840450286865,
      "learning_rate": 4.3259999999999996e-05,
      "loss": 0.1884,
      "step": 764
    },
    {
      "epoch": 3.83,
      "grad_norm": 1.1558685302734375,
      "learning_rate": 4.3225e-05,
      "loss": 0.1583,
      "step": 765
    },
    {
      "epoch": 3.83,
      "grad_norm": 1.0935299396514893,
      "learning_rate": 4.319e-05,
      "loss": 0.1452,
      "step": 766
    },
    {
      "epoch": 3.83,
      "grad_norm": 1.032339096069336,
      "learning_rate": 4.3155e-05,
      "loss": 0.1328,
      "step": 767
    },
    {
      "epoch": 3.84,
      "grad_norm": 1.5231951475143433,
      "learning_rate": 4.3119999999999994e-05,
      "loss": 0.1843,
      "step": 768
    },
    {
      "epoch": 3.84,
      "grad_norm": 1.596691370010376,
      "learning_rate": 4.3085e-05,
      "loss": 0.1517,
      "step": 769
    },
    {
      "epoch": 3.85,
      "grad_norm": 1.8205995559692383,
      "learning_rate": 4.3049999999999996e-05,
      "loss": 0.1446,
      "step": 770
    },
    {
      "epoch": 3.85,
      "grad_norm": 1.1756954193115234,
      "learning_rate": 4.3015e-05,
      "loss": 0.1368,
      "step": 771
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.6900449395179749,
      "learning_rate": 4.298e-05,
      "loss": 0.1233,
      "step": 772
    },
    {
      "epoch": 3.87,
      "grad_norm": 1.171435832977295,
      "learning_rate": 4.2944999999999996e-05,
      "loss": 0.1409,
      "step": 773
    },
    {
      "epoch": 3.87,
      "grad_norm": 1.3441321849822998,
      "learning_rate": 4.2909999999999994e-05,
      "loss": 0.177,
      "step": 774
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.925929844379425,
      "learning_rate": 4.2875e-05,
      "loss": 0.1389,
      "step": 775
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.6535733342170715,
      "learning_rate": 4.2839999999999996e-05,
      "loss": 0.1211,
      "step": 776
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.9866921305656433,
      "learning_rate": 4.2805e-05,
      "loss": 0.1231,
      "step": 777
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.9590944051742554,
      "learning_rate": 4.276999999999999e-05,
      "loss": 0.146,
      "step": 778
    },
    {
      "epoch": 3.9,
      "grad_norm": 1.4289215803146362,
      "learning_rate": 4.2734999999999997e-05,
      "loss": 0.1533,
      "step": 779
    },
    {
      "epoch": 3.9,
      "grad_norm": 2.8175888061523438,
      "learning_rate": 4.2699999999999994e-05,
      "loss": 0.1614,
      "step": 780
    },
    {
      "epoch": 3.91,
      "grad_norm": 2.2891950607299805,
      "learning_rate": 4.2665e-05,
      "loss": 0.226,
      "step": 781
    },
    {
      "epoch": 3.91,
      "grad_norm": 1.2271376848220825,
      "learning_rate": 4.263e-05,
      "loss": 0.1353,
      "step": 782
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.9783345460891724,
      "learning_rate": 4.2595e-05,
      "loss": 0.1476,
      "step": 783
    },
    {
      "epoch": 3.92,
      "grad_norm": 1.0953876972198486,
      "learning_rate": 4.255999999999999e-05,
      "loss": 0.1418,
      "step": 784
    },
    {
      "epoch": 3.92,
      "grad_norm": 3.114365339279175,
      "learning_rate": 4.2525e-05,
      "loss": 0.1609,
      "step": 785
    },
    {
      "epoch": 3.93,
      "grad_norm": 1.298267126083374,
      "learning_rate": 4.2489999999999995e-05,
      "loss": 0.1597,
      "step": 786
    },
    {
      "epoch": 3.94,
      "grad_norm": 1.2454068660736084,
      "learning_rate": 4.2455e-05,
      "loss": 0.1495,
      "step": 787
    },
    {
      "epoch": 3.94,
      "grad_norm": 3.8362796306610107,
      "learning_rate": 4.242e-05,
      "loss": 0.1302,
      "step": 788
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.7496544718742371,
      "learning_rate": 4.2385e-05,
      "loss": 0.1261,
      "step": 789
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.6427685618400574,
      "learning_rate": 4.234999999999999e-05,
      "loss": 0.1242,
      "step": 790
    },
    {
      "epoch": 3.96,
      "grad_norm": 1.5062521696090698,
      "learning_rate": 4.2315e-05,
      "loss": 0.1434,
      "step": 791
    },
    {
      "epoch": 3.96,
      "grad_norm": 1.3122737407684326,
      "learning_rate": 4.2279999999999995e-05,
      "loss": 0.1172,
      "step": 792
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.9331848621368408,
      "learning_rate": 4.2245e-05,
      "loss": 0.1154,
      "step": 793
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.6331588625907898,
      "learning_rate": 4.221e-05,
      "loss": 0.1364,
      "step": 794
    },
    {
      "epoch": 3.98,
      "grad_norm": 1.0165555477142334,
      "learning_rate": 4.2175e-05,
      "loss": 0.153,
      "step": 795
    },
    {
      "epoch": 3.98,
      "grad_norm": 1.2305548191070557,
      "learning_rate": 4.213999999999999e-05,
      "loss": 0.1305,
      "step": 796
    },
    {
      "epoch": 3.98,
      "grad_norm": 2.231234550476074,
      "learning_rate": 4.2105e-05,
      "loss": 0.1934,
      "step": 797
    },
    {
      "epoch": 3.99,
      "grad_norm": 2.5838820934295654,
      "learning_rate": 4.2069999999999995e-05,
      "loss": 0.1912,
      "step": 798
    },
    {
      "epoch": 4.0,
      "grad_norm": 1.0626189708709717,
      "learning_rate": 4.2035e-05,
      "loss": 0.1513,
      "step": 799
    },
    {
      "epoch": 4.0,
      "grad_norm": 1.9277291297912598,
      "learning_rate": 4.2e-05,
      "loss": 0.3023,
      "step": 800
    },
    {
      "epoch": 4.0,
      "eval_accuracy_Background": NaN,
      "eval_accuracy_Bag": 0.7055248999461232,
      "eval_accuracy_Belt": 0.0,
      "eval_accuracy_Dress": 0.8467566886504415,
      "eval_accuracy_Face": 0.8958887752918921,
      "eval_accuracy_Hair": 0.8778492489592674,
      "eval_accuracy_Hat": 0.5461366991582178,
      "eval_accuracy_Left-arm": 0.8053023115617619,
      "eval_accuracy_Left-leg": 0.8537696306971866,
      "eval_accuracy_Left-shoe": 0.6061005107133229,
      "eval_accuracy_Pants": 0.8080306845800813,
      "eval_accuracy_Right-arm": 0.8009267789132558,
      "eval_accuracy_Right-leg": 0.8358831676271189,
      "eval_accuracy_Right-shoe": 0.5468030411757759,
      "eval_accuracy_Scarf": 0.0,
      "eval_accuracy_Skirt": 0.7910561019280624,
      "eval_accuracy_Sunglasses": 0.0,
      "eval_accuracy_Upper-clothes": 0.8112781099140884,
      "eval_iou_Background": 0.0,
      "eval_iou_Bag": 0.6264999491355251,
      "eval_iou_Belt": 0.0,
      "eval_iou_Dress": 0.5989126182778495,
      "eval_iou_Face": 0.7872256316629922,
      "eval_iou_Hair": 0.7588746880202868,
      "eval_iou_Hat": 0.4921087985904636,
      "eval_iou_Left-arm": 0.7114307759299012,
      "eval_iou_Left-leg": 0.7399062215710428,
      "eval_iou_Left-shoe": 0.4842622869707831,
      "eval_iou_Pants": 0.7324819086714264,
      "eval_iou_Right-arm": 0.7088923166622175,
      "eval_iou_Right-leg": 0.74171527254937,
      "eval_iou_Right-shoe": 0.455037485769921,
      "eval_iou_Scarf": 0.0,
      "eval_iou_Skirt": 0.6532867366456864,
      "eval_iou_Sunglasses": 0.0,
      "eval_iou_Upper-clothes": 0.7407909957703697,
      "eval_loss": 0.17527775466442108,
      "eval_mean_accuracy": 0.6312533323009762,
      "eval_mean_iou": 0.5128569825682131,
      "eval_overall_accuracy": 0.7952726525843109,
      "eval_runtime": 27.9465,
      "eval_samples_per_second": 14.313,
      "eval_steps_per_second": 7.157,
      "step": 800
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.7661228179931641,
      "learning_rate": 4.1964999999999995e-05,
      "loss": 0.1262,
      "step": 801
    },
    {
      "epoch": 4.01,
      "grad_norm": 3.941741704940796,
      "learning_rate": 4.192999999999999e-05,
      "loss": 0.1687,
      "step": 802
    },
    {
      "epoch": 4.01,
      "grad_norm": 0.7514887452125549,
      "learning_rate": 4.1895e-05,
      "loss": 0.1555,
      "step": 803
    },
    {
      "epoch": 4.02,
      "grad_norm": 1.1092904806137085,
      "learning_rate": 4.1859999999999996e-05,
      "loss": 0.15,
      "step": 804
    },
    {
      "epoch": 4.03,
      "grad_norm": 1.638358473777771,
      "learning_rate": 4.1825e-05,
      "loss": 0.1396,
      "step": 805
    },
    {
      "epoch": 4.03,
      "grad_norm": 1.4100580215454102,
      "learning_rate": 4.178999999999999e-05,
      "loss": 0.1756,
      "step": 806
    },
    {
      "epoch": 4.04,
      "grad_norm": 5.813992023468018,
      "learning_rate": 4.1754999999999996e-05,
      "loss": 0.1523,
      "step": 807
    },
    {
      "epoch": 4.04,
      "grad_norm": 1.1711208820343018,
      "learning_rate": 4.1719999999999994e-05,
      "loss": 0.1334,
      "step": 808
    },
    {
      "epoch": 4.04,
      "grad_norm": 1.4378888607025146,
      "learning_rate": 4.1685e-05,
      "loss": 0.1679,
      "step": 809
    },
    {
      "epoch": 4.05,
      "grad_norm": 1.523255467414856,
      "learning_rate": 4.1649999999999996e-05,
      "loss": 0.1322,
      "step": 810
    },
    {
      "epoch": 4.05,
      "grad_norm": 2.3200125694274902,
      "learning_rate": 4.1615e-05,
      "loss": 0.136,
      "step": 811
    },
    {
      "epoch": 4.06,
      "grad_norm": 0.8453027009963989,
      "learning_rate": 4.157999999999999e-05,
      "loss": 0.1438,
      "step": 812
    },
    {
      "epoch": 4.07,
      "grad_norm": 1.7887245416641235,
      "learning_rate": 4.1544999999999996e-05,
      "loss": 0.1742,
      "step": 813
    },
    {
      "epoch": 4.07,
      "grad_norm": 1.9864213466644287,
      "learning_rate": 4.1509999999999994e-05,
      "loss": 0.1515,
      "step": 814
    },
    {
      "epoch": 4.08,
      "grad_norm": 1.5030461549758911,
      "learning_rate": 4.1475e-05,
      "loss": 0.1306,
      "step": 815
    },
    {
      "epoch": 4.08,
      "grad_norm": 3.3128108978271484,
      "learning_rate": 4.1439999999999996e-05,
      "loss": 0.1851,
      "step": 816
    },
    {
      "epoch": 4.08,
      "grad_norm": 1.8306220769882202,
      "learning_rate": 4.1405e-05,
      "loss": 0.154,
      "step": 817
    },
    {
      "epoch": 4.09,
      "grad_norm": 2.3379828929901123,
      "learning_rate": 4.136999999999999e-05,
      "loss": 0.1409,
      "step": 818
    },
    {
      "epoch": 4.09,
      "grad_norm": 0.7269453406333923,
      "learning_rate": 4.1334999999999996e-05,
      "loss": 0.1249,
      "step": 819
    },
    {
      "epoch": 4.1,
      "grad_norm": 1.9134105443954468,
      "learning_rate": 4.1299999999999994e-05,
      "loss": 0.1599,
      "step": 820
    },
    {
      "epoch": 4.11,
      "grad_norm": 0.9409254789352417,
      "learning_rate": 4.1265e-05,
      "loss": 0.1321,
      "step": 821
    },
    {
      "epoch": 4.11,
      "grad_norm": 1.066268801689148,
      "learning_rate": 4.1229999999999997e-05,
      "loss": 0.1417,
      "step": 822
    },
    {
      "epoch": 4.12,
      "grad_norm": 0.8827329277992249,
      "learning_rate": 4.1195e-05,
      "loss": 0.1321,
      "step": 823
    },
    {
      "epoch": 4.12,
      "grad_norm": 0.9008498787879944,
      "learning_rate": 4.115999999999999e-05,
      "loss": 0.1398,
      "step": 824
    },
    {
      "epoch": 4.12,
      "grad_norm": 0.7323822975158691,
      "learning_rate": 4.1125e-05,
      "loss": 0.1497,
      "step": 825
    },
    {
      "epoch": 4.13,
      "grad_norm": 0.6032107472419739,
      "learning_rate": 4.1089999999999995e-05,
      "loss": 0.1108,
      "step": 826
    },
    {
      "epoch": 4.13,
      "grad_norm": 1.2931360006332397,
      "learning_rate": 4.1055e-05,
      "loss": 0.1553,
      "step": 827
    },
    {
      "epoch": 4.14,
      "grad_norm": 0.8005068898200989,
      "learning_rate": 4.102e-05,
      "loss": 0.1067,
      "step": 828
    },
    {
      "epoch": 4.14,
      "grad_norm": 0.7100474238395691,
      "learning_rate": 4.0984999999999995e-05,
      "loss": 0.1227,
      "step": 829
    },
    {
      "epoch": 4.15,
      "grad_norm": 1.2690455913543701,
      "learning_rate": 4.094999999999999e-05,
      "loss": 0.142,
      "step": 830
    },
    {
      "epoch": 4.16,
      "grad_norm": 1.6261460781097412,
      "learning_rate": 4.0915e-05,
      "loss": 0.1645,
      "step": 831
    },
    {
      "epoch": 4.16,
      "grad_norm": 1.3055850267410278,
      "learning_rate": 4.0879999999999995e-05,
      "loss": 0.1802,
      "step": 832
    },
    {
      "epoch": 4.17,
      "grad_norm": 1.2822140455245972,
      "learning_rate": 4.0845e-05,
      "loss": 0.1932,
      "step": 833
    },
    {
      "epoch": 4.17,
      "grad_norm": 1.7221490144729614,
      "learning_rate": 4.080999999999999e-05,
      "loss": 0.2116,
      "step": 834
    },
    {
      "epoch": 4.17,
      "grad_norm": 0.9244465231895447,
      "learning_rate": 4.0774999999999995e-05,
      "loss": 0.1375,
      "step": 835
    },
    {
      "epoch": 4.18,
      "grad_norm": 0.761886477470398,
      "learning_rate": 4.073999999999999e-05,
      "loss": 0.1251,
      "step": 836
    },
    {
      "epoch": 4.18,
      "grad_norm": 0.46737346053123474,
      "learning_rate": 4.0705e-05,
      "loss": 0.1165,
      "step": 837
    },
    {
      "epoch": 4.19,
      "grad_norm": 0.8687193393707275,
      "learning_rate": 4.0669999999999995e-05,
      "loss": 0.1587,
      "step": 838
    },
    {
      "epoch": 4.2,
      "grad_norm": 1.1846034526824951,
      "learning_rate": 4.0635e-05,
      "loss": 0.1759,
      "step": 839
    },
    {
      "epoch": 4.2,
      "grad_norm": 0.44671037793159485,
      "learning_rate": 4.059999999999999e-05,
      "loss": 0.1107,
      "step": 840
    },
    {
      "epoch": 4.21,
      "grad_norm": 0.8490411639213562,
      "learning_rate": 4.0564999999999995e-05,
      "loss": 0.144,
      "step": 841
    },
    {
      "epoch": 4.21,
      "grad_norm": 1.2927790880203247,
      "learning_rate": 4.052999999999999e-05,
      "loss": 0.1375,
      "step": 842
    },
    {
      "epoch": 4.21,
      "grad_norm": 0.7929092049598694,
      "learning_rate": 4.0495e-05,
      "loss": 0.1524,
      "step": 843
    },
    {
      "epoch": 4.22,
      "grad_norm": 0.5484497547149658,
      "learning_rate": 4.0459999999999995e-05,
      "loss": 0.1344,
      "step": 844
    },
    {
      "epoch": 4.22,
      "grad_norm": 1.4042353630065918,
      "learning_rate": 4.0425e-05,
      "loss": 0.1342,
      "step": 845
    },
    {
      "epoch": 4.23,
      "grad_norm": 1.0951324701309204,
      "learning_rate": 4.038999999999999e-05,
      "loss": 0.122,
      "step": 846
    },
    {
      "epoch": 4.24,
      "grad_norm": 0.9063130617141724,
      "learning_rate": 4.0354999999999996e-05,
      "loss": 0.1554,
      "step": 847
    },
    {
      "epoch": 4.24,
      "grad_norm": 2.223172903060913,
      "learning_rate": 4.0319999999999993e-05,
      "loss": 0.143,
      "step": 848
    },
    {
      "epoch": 4.25,
      "grad_norm": 0.6622200012207031,
      "learning_rate": 4.0285e-05,
      "loss": 0.1352,
      "step": 849
    },
    {
      "epoch": 4.25,
      "grad_norm": 0.6037883162498474,
      "learning_rate": 4.0249999999999996e-05,
      "loss": 0.1013,
      "step": 850
    },
    {
      "epoch": 4.25,
      "grad_norm": 1.1574149131774902,
      "learning_rate": 4.0215e-05,
      "loss": 0.1668,
      "step": 851
    },
    {
      "epoch": 4.26,
      "grad_norm": 1.309630036354065,
      "learning_rate": 4.017999999999999e-05,
      "loss": 0.1278,
      "step": 852
    },
    {
      "epoch": 4.26,
      "grad_norm": 0.7096179723739624,
      "learning_rate": 4.0144999999999996e-05,
      "loss": 0.1235,
      "step": 853
    },
    {
      "epoch": 4.27,
      "grad_norm": 0.6124833226203918,
      "learning_rate": 4.0109999999999994e-05,
      "loss": 0.1284,
      "step": 854
    },
    {
      "epoch": 4.28,
      "grad_norm": 1.1102553606033325,
      "learning_rate": 4.0075e-05,
      "loss": 0.1827,
      "step": 855
    },
    {
      "epoch": 4.28,
      "grad_norm": 0.6042667627334595,
      "learning_rate": 4.0039999999999996e-05,
      "loss": 0.1124,
      "step": 856
    },
    {
      "epoch": 4.29,
      "grad_norm": 2.183851480484009,
      "learning_rate": 4.0004999999999994e-05,
      "loss": 0.1126,
      "step": 857
    },
    {
      "epoch": 4.29,
      "grad_norm": 1.504766583442688,
      "learning_rate": 3.996999999999999e-05,
      "loss": 0.2262,
      "step": 858
    },
    {
      "epoch": 4.29,
      "grad_norm": 1.6332111358642578,
      "learning_rate": 3.9934999999999996e-05,
      "loss": 0.2116,
      "step": 859
    },
    {
      "epoch": 4.3,
      "grad_norm": 0.5642666816711426,
      "learning_rate": 3.9899999999999994e-05,
      "loss": 0.0942,
      "step": 860
    },
    {
      "epoch": 4.3,
      "grad_norm": 0.7640243172645569,
      "learning_rate": 3.9865e-05,
      "loss": 0.1073,
      "step": 861
    },
    {
      "epoch": 4.31,
      "grad_norm": 0.7771821022033691,
      "learning_rate": 3.982999999999999e-05,
      "loss": 0.1037,
      "step": 862
    },
    {
      "epoch": 4.32,
      "grad_norm": 0.9620383381843567,
      "learning_rate": 3.9794999999999994e-05,
      "loss": 0.115,
      "step": 863
    },
    {
      "epoch": 4.32,
      "grad_norm": 1.4898912906646729,
      "learning_rate": 3.975999999999999e-05,
      "loss": 0.1442,
      "step": 864
    },
    {
      "epoch": 4.33,
      "grad_norm": 0.7914923429489136,
      "learning_rate": 3.9724999999999997e-05,
      "loss": 0.1133,
      "step": 865
    },
    {
      "epoch": 4.33,
      "grad_norm": 1.109935998916626,
      "learning_rate": 3.9689999999999994e-05,
      "loss": 0.1689,
      "step": 866
    },
    {
      "epoch": 4.33,
      "grad_norm": 3.817025661468506,
      "learning_rate": 3.9655e-05,
      "loss": 0.1567,
      "step": 867
    },
    {
      "epoch": 4.34,
      "grad_norm": 1.0010273456573486,
      "learning_rate": 3.961999999999999e-05,
      "loss": 0.1148,
      "step": 868
    },
    {
      "epoch": 4.34,
      "grad_norm": 0.682083785533905,
      "learning_rate": 3.9584999999999995e-05,
      "loss": 0.1141,
      "step": 869
    },
    {
      "epoch": 4.35,
      "grad_norm": 0.7422671914100647,
      "learning_rate": 3.954999999999999e-05,
      "loss": 0.1079,
      "step": 870
    },
    {
      "epoch": 4.36,
      "grad_norm": 0.988905131816864,
      "learning_rate": 3.9515e-05,
      "loss": 0.1299,
      "step": 871
    },
    {
      "epoch": 4.36,
      "grad_norm": 0.9890068173408508,
      "learning_rate": 3.9479999999999995e-05,
      "loss": 0.137,
      "step": 872
    },
    {
      "epoch": 4.37,
      "grad_norm": 0.5808530449867249,
      "learning_rate": 3.9445e-05,
      "loss": 0.1325,
      "step": 873
    },
    {
      "epoch": 4.37,
      "grad_norm": 1.1792137622833252,
      "learning_rate": 3.940999999999999e-05,
      "loss": 0.1537,
      "step": 874
    },
    {
      "epoch": 4.38,
      "grad_norm": 2.8784971237182617,
      "learning_rate": 3.9374999999999995e-05,
      "loss": 0.2005,
      "step": 875
    },
    {
      "epoch": 4.38,
      "grad_norm": 3.683159112930298,
      "learning_rate": 3.934e-05,
      "loss": 0.2065,
      "step": 876
    },
    {
      "epoch": 4.38,
      "grad_norm": 0.569047212600708,
      "learning_rate": 3.9305e-05,
      "loss": 0.1217,
      "step": 877
    },
    {
      "epoch": 4.39,
      "grad_norm": 0.8930652141571045,
      "learning_rate": 3.927e-05,
      "loss": 0.1312,
      "step": 878
    },
    {
      "epoch": 4.39,
      "grad_norm": 1.1137924194335938,
      "learning_rate": 3.9235e-05,
      "loss": 0.1437,
      "step": 879
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.767733097076416,
      "learning_rate": 3.92e-05,
      "loss": 0.1366,
      "step": 880
    },
    {
      "epoch": 4.41,
      "grad_norm": 1.6084089279174805,
      "learning_rate": 3.9164999999999995e-05,
      "loss": 0.1267,
      "step": 881
    },
    {
      "epoch": 4.41,
      "grad_norm": 0.8330009579658508,
      "learning_rate": 3.913e-05,
      "loss": 0.104,
      "step": 882
    },
    {
      "epoch": 4.42,
      "grad_norm": 0.9981592297554016,
      "learning_rate": 3.9095e-05,
      "loss": 0.1323,
      "step": 883
    },
    {
      "epoch": 4.42,
      "grad_norm": 1.1801140308380127,
      "learning_rate": 3.906e-05,
      "loss": 0.151,
      "step": 884
    },
    {
      "epoch": 4.42,
      "grad_norm": 0.896623432636261,
      "learning_rate": 3.902499999999999e-05,
      "loss": 0.1328,
      "step": 885
    },
    {
      "epoch": 4.43,
      "grad_norm": 1.111427664756775,
      "learning_rate": 3.899e-05,
      "loss": 0.1453,
      "step": 886
    },
    {
      "epoch": 4.43,
      "grad_norm": 0.8858254551887512,
      "learning_rate": 3.8954999999999995e-05,
      "loss": 0.1101,
      "step": 887
    },
    {
      "epoch": 4.44,
      "grad_norm": 0.9680328369140625,
      "learning_rate": 3.892e-05,
      "loss": 0.1324,
      "step": 888
    },
    {
      "epoch": 4.45,
      "grad_norm": 2.0167629718780518,
      "learning_rate": 3.8885e-05,
      "loss": 0.1645,
      "step": 889
    },
    {
      "epoch": 4.45,
      "grad_norm": 0.51740962266922,
      "learning_rate": 3.885e-05,
      "loss": 0.1082,
      "step": 890
    },
    {
      "epoch": 4.46,
      "grad_norm": 1.9644975662231445,
      "learning_rate": 3.8814999999999993e-05,
      "loss": 0.1858,
      "step": 891
    },
    {
      "epoch": 4.46,
      "grad_norm": 0.5426976680755615,
      "learning_rate": 3.878e-05,
      "loss": 0.1012,
      "step": 892
    },
    {
      "epoch": 4.46,
      "grad_norm": 1.3163701295852661,
      "learning_rate": 3.8744999999999996e-05,
      "loss": 0.1352,
      "step": 893
    },
    {
      "epoch": 4.47,
      "grad_norm": 1.6144837141036987,
      "learning_rate": 3.871e-05,
      "loss": 0.1359,
      "step": 894
    },
    {
      "epoch": 4.47,
      "grad_norm": 0.6453534364700317,
      "learning_rate": 3.8675e-05,
      "loss": 0.1617,
      "step": 895
    },
    {
      "epoch": 4.48,
      "grad_norm": 1.2289505004882812,
      "learning_rate": 3.864e-05,
      "loss": 0.1339,
      "step": 896
    },
    {
      "epoch": 4.49,
      "grad_norm": 0.7999180555343628,
      "learning_rate": 3.8604999999999994e-05,
      "loss": 0.128,
      "step": 897
    },
    {
      "epoch": 4.49,
      "grad_norm": 0.6362912058830261,
      "learning_rate": 3.857e-05,
      "loss": 0.1147,
      "step": 898
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.6988582611083984,
      "learning_rate": 3.8534999999999996e-05,
      "loss": 0.1275,
      "step": 899
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.9766111373901367,
      "learning_rate": 3.85e-05,
      "loss": 0.1438,
      "step": 900
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.7333840131759644,
      "learning_rate": 3.8465e-05,
      "loss": 0.1797,
      "step": 901
    },
    {
      "epoch": 4.51,
      "grad_norm": 0.4119652509689331,
      "learning_rate": 3.843e-05,
      "loss": 0.0862,
      "step": 902
    },
    {
      "epoch": 4.51,
      "grad_norm": 0.6853509545326233,
      "learning_rate": 3.8394999999999994e-05,
      "loss": 0.137,
      "step": 903
    },
    {
      "epoch": 4.52,
      "grad_norm": 1.0875022411346436,
      "learning_rate": 3.836e-05,
      "loss": 0.1588,
      "step": 904
    },
    {
      "epoch": 4.53,
      "grad_norm": 1.0133388042449951,
      "learning_rate": 3.8324999999999996e-05,
      "loss": 0.1322,
      "step": 905
    },
    {
      "epoch": 4.53,
      "grad_norm": 1.0738788843154907,
      "learning_rate": 3.829e-05,
      "loss": 0.1338,
      "step": 906
    },
    {
      "epoch": 4.54,
      "grad_norm": 0.7950546741485596,
      "learning_rate": 3.8255e-05,
      "loss": 0.1342,
      "step": 907
    },
    {
      "epoch": 4.54,
      "grad_norm": 1.2712390422821045,
      "learning_rate": 3.8219999999999997e-05,
      "loss": 0.1501,
      "step": 908
    },
    {
      "epoch": 4.54,
      "grad_norm": 1.1604654788970947,
      "learning_rate": 3.8184999999999994e-05,
      "loss": 0.1394,
      "step": 909
    },
    {
      "epoch": 4.55,
      "grad_norm": 1.049159288406372,
      "learning_rate": 3.815e-05,
      "loss": 0.1204,
      "step": 910
    },
    {
      "epoch": 4.55,
      "grad_norm": 0.6283304691314697,
      "learning_rate": 3.8115e-05,
      "loss": 0.1252,
      "step": 911
    },
    {
      "epoch": 4.56,
      "grad_norm": 1.2284070253372192,
      "learning_rate": 3.808e-05,
      "loss": 0.1351,
      "step": 912
    },
    {
      "epoch": 4.56,
      "grad_norm": 0.7629937529563904,
      "learning_rate": 3.804499999999999e-05,
      "loss": 0.1062,
      "step": 913
    },
    {
      "epoch": 4.57,
      "grad_norm": 0.8868834972381592,
      "learning_rate": 3.801e-05,
      "loss": 0.1248,
      "step": 914
    },
    {
      "epoch": 4.58,
      "grad_norm": 1.7075270414352417,
      "learning_rate": 3.7974999999999995e-05,
      "loss": 0.1635,
      "step": 915
    },
    {
      "epoch": 4.58,
      "grad_norm": 1.2901939153671265,
      "learning_rate": 3.794e-05,
      "loss": 0.1485,
      "step": 916
    },
    {
      "epoch": 4.58,
      "grad_norm": 1.6371326446533203,
      "learning_rate": 3.7905e-05,
      "loss": 0.1361,
      "step": 917
    },
    {
      "epoch": 4.59,
      "grad_norm": 1.1166948080062866,
      "learning_rate": 3.787e-05,
      "loss": 0.1612,
      "step": 918
    },
    {
      "epoch": 4.59,
      "grad_norm": 1.2075656652450562,
      "learning_rate": 3.783499999999999e-05,
      "loss": 0.1256,
      "step": 919
    },
    {
      "epoch": 4.6,
      "grad_norm": 0.7880493998527527,
      "learning_rate": 3.78e-05,
      "loss": 0.1301,
      "step": 920
    },
    {
      "epoch": 4.61,
      "grad_norm": 1.7365834712982178,
      "learning_rate": 3.7764999999999995e-05,
      "loss": 0.1626,
      "step": 921
    },
    {
      "epoch": 4.61,
      "grad_norm": 1.1725343465805054,
      "learning_rate": 3.773e-05,
      "loss": 0.1283,
      "step": 922
    },
    {
      "epoch": 4.62,
      "grad_norm": 0.8239956498146057,
      "learning_rate": 3.7695e-05,
      "loss": 0.2837,
      "step": 923
    },
    {
      "epoch": 4.62,
      "grad_norm": 0.6308451890945435,
      "learning_rate": 3.766e-05,
      "loss": 0.1179,
      "step": 924
    },
    {
      "epoch": 4.62,
      "grad_norm": 0.5855010151863098,
      "learning_rate": 3.762499999999999e-05,
      "loss": 0.1246,
      "step": 925
    },
    {
      "epoch": 4.63,
      "grad_norm": 1.3152836561203003,
      "learning_rate": 3.759e-05,
      "loss": 0.1442,
      "step": 926
    },
    {
      "epoch": 4.63,
      "grad_norm": 1.1516830921173096,
      "learning_rate": 3.7554999999999995e-05,
      "loss": 0.1347,
      "step": 927
    },
    {
      "epoch": 4.64,
      "grad_norm": 0.8191545009613037,
      "learning_rate": 3.752e-05,
      "loss": 0.1353,
      "step": 928
    },
    {
      "epoch": 4.64,
      "grad_norm": 1.5840294361114502,
      "learning_rate": 3.7485e-05,
      "loss": 0.2108,
      "step": 929
    },
    {
      "epoch": 4.65,
      "grad_norm": 0.48266515135765076,
      "learning_rate": 3.745e-05,
      "loss": 0.115,
      "step": 930
    },
    {
      "epoch": 4.66,
      "grad_norm": 1.8336511850357056,
      "learning_rate": 3.741499999999999e-05,
      "loss": 0.1766,
      "step": 931
    },
    {
      "epoch": 4.66,
      "grad_norm": 2.565448760986328,
      "learning_rate": 3.738e-05,
      "loss": 0.138,
      "step": 932
    },
    {
      "epoch": 4.67,
      "grad_norm": 0.6631338000297546,
      "learning_rate": 3.7344999999999996e-05,
      "loss": 0.1231,
      "step": 933
    },
    {
      "epoch": 4.67,
      "grad_norm": 0.9180364608764648,
      "learning_rate": 3.731e-05,
      "loss": 0.1076,
      "step": 934
    },
    {
      "epoch": 4.67,
      "grad_norm": 1.840348482131958,
      "learning_rate": 3.7275e-05,
      "loss": 0.1565,
      "step": 935
    },
    {
      "epoch": 4.68,
      "grad_norm": 1.0092637538909912,
      "learning_rate": 3.7239999999999996e-05,
      "loss": 0.1151,
      "step": 936
    },
    {
      "epoch": 4.69,
      "grad_norm": 2.1273303031921387,
      "learning_rate": 3.7204999999999994e-05,
      "loss": 0.1661,
      "step": 937
    },
    {
      "epoch": 4.69,
      "grad_norm": 0.7771336436271667,
      "learning_rate": 3.717e-05,
      "loss": 0.1234,
      "step": 938
    },
    {
      "epoch": 4.7,
      "grad_norm": 0.8255428671836853,
      "learning_rate": 3.7134999999999996e-05,
      "loss": 0.1377,
      "step": 939
    },
    {
      "epoch": 4.7,
      "grad_norm": 1.5890142917633057,
      "learning_rate": 3.71e-05,
      "loss": 0.1478,
      "step": 940
    },
    {
      "epoch": 4.71,
      "grad_norm": 3.1822938919067383,
      "learning_rate": 3.706499999999999e-05,
      "loss": 0.1105,
      "step": 941
    },
    {
      "epoch": 4.71,
      "grad_norm": 0.9987675547599792,
      "learning_rate": 3.7029999999999996e-05,
      "loss": 0.1868,
      "step": 942
    },
    {
      "epoch": 4.71,
      "grad_norm": 0.4407428503036499,
      "learning_rate": 3.6994999999999994e-05,
      "loss": 0.0922,
      "step": 943
    },
    {
      "epoch": 4.72,
      "grad_norm": 0.6964682340621948,
      "learning_rate": 3.696e-05,
      "loss": 0.1541,
      "step": 944
    },
    {
      "epoch": 4.72,
      "grad_norm": 1.210894227027893,
      "learning_rate": 3.6924999999999996e-05,
      "loss": 0.1556,
      "step": 945
    },
    {
      "epoch": 4.73,
      "grad_norm": 1.5072715282440186,
      "learning_rate": 3.689e-05,
      "loss": 0.1437,
      "step": 946
    },
    {
      "epoch": 4.74,
      "grad_norm": 0.9811573028564453,
      "learning_rate": 3.685499999999999e-05,
      "loss": 0.1444,
      "step": 947
    },
    {
      "epoch": 4.74,
      "grad_norm": 1.165969729423523,
      "learning_rate": 3.6819999999999996e-05,
      "loss": 0.1498,
      "step": 948
    },
    {
      "epoch": 4.75,
      "grad_norm": 1.727196216583252,
      "learning_rate": 3.6784999999999994e-05,
      "loss": 0.1297,
      "step": 949
    },
    {
      "epoch": 4.75,
      "grad_norm": 1.0593940019607544,
      "learning_rate": 3.675e-05,
      "loss": 0.1495,
      "step": 950
    },
    {
      "epoch": 4.75,
      "grad_norm": 0.8607943058013916,
      "learning_rate": 3.6714999999999997e-05,
      "loss": 0.1547,
      "step": 951
    },
    {
      "epoch": 4.76,
      "grad_norm": 0.5421329736709595,
      "learning_rate": 3.668e-05,
      "loss": 0.1135,
      "step": 952
    },
    {
      "epoch": 4.76,
      "grad_norm": 1.1344468593597412,
      "learning_rate": 3.664499999999999e-05,
      "loss": 0.1284,
      "step": 953
    },
    {
      "epoch": 4.77,
      "grad_norm": 1.0204907655715942,
      "learning_rate": 3.661e-05,
      "loss": 0.1443,
      "step": 954
    },
    {
      "epoch": 4.78,
      "grad_norm": 0.89289391040802,
      "learning_rate": 3.6574999999999995e-05,
      "loss": 0.1325,
      "step": 955
    },
    {
      "epoch": 4.78,
      "grad_norm": 0.7060868740081787,
      "learning_rate": 3.654e-05,
      "loss": 0.1054,
      "step": 956
    },
    {
      "epoch": 4.79,
      "grad_norm": 1.273514986038208,
      "learning_rate": 3.6505e-05,
      "loss": 0.1438,
      "step": 957
    },
    {
      "epoch": 4.79,
      "grad_norm": 0.8140360713005066,
      "learning_rate": 3.647e-05,
      "loss": 0.135,
      "step": 958
    },
    {
      "epoch": 4.79,
      "grad_norm": 0.7668337225914001,
      "learning_rate": 3.643499999999999e-05,
      "loss": 0.1105,
      "step": 959
    },
    {
      "epoch": 4.8,
      "grad_norm": 1.875662088394165,
      "learning_rate": 3.64e-05,
      "loss": 0.1583,
      "step": 960
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.9100859761238098,
      "learning_rate": 3.6364999999999995e-05,
      "loss": 0.1373,
      "step": 961
    },
    {
      "epoch": 4.81,
      "grad_norm": 1.4462058544158936,
      "learning_rate": 3.633e-05,
      "loss": 0.1499,
      "step": 962
    },
    {
      "epoch": 4.81,
      "grad_norm": 1.575316309928894,
      "learning_rate": 3.6295e-05,
      "loss": 0.1629,
      "step": 963
    },
    {
      "epoch": 4.82,
      "grad_norm": 0.6379412412643433,
      "learning_rate": 3.6259999999999995e-05,
      "loss": 0.1222,
      "step": 964
    },
    {
      "epoch": 4.83,
      "grad_norm": 1.2446283102035522,
      "learning_rate": 3.622499999999999e-05,
      "loss": 0.1506,
      "step": 965
    },
    {
      "epoch": 4.83,
      "grad_norm": 2.1940150260925293,
      "learning_rate": 3.619e-05,
      "loss": 0.1886,
      "step": 966
    },
    {
      "epoch": 4.83,
      "grad_norm": 0.9928545355796814,
      "learning_rate": 3.6154999999999995e-05,
      "loss": 0.1785,
      "step": 967
    },
    {
      "epoch": 4.84,
      "grad_norm": 0.6967611908912659,
      "learning_rate": 3.612e-05,
      "loss": 0.1226,
      "step": 968
    },
    {
      "epoch": 4.84,
      "grad_norm": 1.764858603477478,
      "learning_rate": 3.608499999999999e-05,
      "loss": 0.2194,
      "step": 969
    },
    {
      "epoch": 4.85,
      "grad_norm": 0.8871020078659058,
      "learning_rate": 3.6049999999999995e-05,
      "loss": 0.1188,
      "step": 970
    },
    {
      "epoch": 4.86,
      "grad_norm": 1.1272509098052979,
      "learning_rate": 3.601499999999999e-05,
      "loss": 0.1406,
      "step": 971
    },
    {
      "epoch": 4.86,
      "grad_norm": 0.8555072546005249,
      "learning_rate": 3.598e-05,
      "loss": 0.1166,
      "step": 972
    },
    {
      "epoch": 4.87,
      "grad_norm": 0.6924680471420288,
      "learning_rate": 3.5944999999999996e-05,
      "loss": 0.1259,
      "step": 973
    },
    {
      "epoch": 4.87,
      "grad_norm": 1.0200608968734741,
      "learning_rate": 3.591e-05,
      "loss": 0.1502,
      "step": 974
    },
    {
      "epoch": 4.88,
      "grad_norm": 1.5680674314498901,
      "learning_rate": 3.587499999999999e-05,
      "loss": 0.1284,
      "step": 975
    },
    {
      "epoch": 4.88,
      "grad_norm": 0.8393526077270508,
      "learning_rate": 3.5839999999999996e-05,
      "loss": 0.1358,
      "step": 976
    },
    {
      "epoch": 4.88,
      "grad_norm": 1.0482409000396729,
      "learning_rate": 3.5804999999999993e-05,
      "loss": 0.1207,
      "step": 977
    },
    {
      "epoch": 4.89,
      "grad_norm": 0.833486795425415,
      "learning_rate": 3.577e-05,
      "loss": 0.1374,
      "step": 978
    },
    {
      "epoch": 4.89,
      "grad_norm": 1.0812723636627197,
      "learning_rate": 3.5734999999999996e-05,
      "loss": 0.1508,
      "step": 979
    },
    {
      "epoch": 4.9,
      "grad_norm": 1.3806428909301758,
      "learning_rate": 3.57e-05,
      "loss": 0.1733,
      "step": 980
    },
    {
      "epoch": 4.91,
      "grad_norm": 0.6413784623146057,
      "learning_rate": 3.566499999999999e-05,
      "loss": 0.1458,
      "step": 981
    },
    {
      "epoch": 4.91,
      "grad_norm": 1.725412368774414,
      "learning_rate": 3.5629999999999996e-05,
      "loss": 0.1632,
      "step": 982
    },
    {
      "epoch": 4.92,
      "grad_norm": 1.944407343864441,
      "learning_rate": 3.5594999999999994e-05,
      "loss": 0.1471,
      "step": 983
    },
    {
      "epoch": 4.92,
      "grad_norm": 3.727128028869629,
      "learning_rate": 3.556e-05,
      "loss": 0.2339,
      "step": 984
    },
    {
      "epoch": 4.92,
      "grad_norm": 0.43623045086860657,
      "learning_rate": 3.5524999999999996e-05,
      "loss": 0.1022,
      "step": 985
    },
    {
      "epoch": 4.93,
      "grad_norm": 1.2345058917999268,
      "learning_rate": 3.549e-05,
      "loss": 0.1249,
      "step": 986
    },
    {
      "epoch": 4.94,
      "grad_norm": 0.7236434817314148,
      "learning_rate": 3.545499999999999e-05,
      "loss": 0.1313,
      "step": 987
    },
    {
      "epoch": 4.94,
      "grad_norm": 0.6177738904953003,
      "learning_rate": 3.5419999999999996e-05,
      "loss": 0.1239,
      "step": 988
    },
    {
      "epoch": 4.95,
      "grad_norm": 1.0665816068649292,
      "learning_rate": 3.5384999999999994e-05,
      "loss": 0.145,
      "step": 989
    },
    {
      "epoch": 4.95,
      "grad_norm": 0.8054048418998718,
      "learning_rate": 3.535e-05,
      "loss": 0.1119,
      "step": 990
    },
    {
      "epoch": 4.96,
      "grad_norm": 1.5282824039459229,
      "learning_rate": 3.5314999999999996e-05,
      "loss": 0.1372,
      "step": 991
    },
    {
      "epoch": 4.96,
      "grad_norm": 3.4088237285614014,
      "learning_rate": 3.5279999999999994e-05,
      "loss": 0.1435,
      "step": 992
    },
    {
      "epoch": 4.96,
      "grad_norm": 1.8503791093826294,
      "learning_rate": 3.524499999999999e-05,
      "loss": 0.174,
      "step": 993
    },
    {
      "epoch": 4.97,
      "grad_norm": 0.4783015549182892,
      "learning_rate": 3.521e-05,
      "loss": 0.1241,
      "step": 994
    },
    {
      "epoch": 4.97,
      "grad_norm": 1.8121583461761475,
      "learning_rate": 3.5174999999999994e-05,
      "loss": 0.1835,
      "step": 995
    },
    {
      "epoch": 4.98,
      "grad_norm": 1.220226764678955,
      "learning_rate": 3.514e-05,
      "loss": 0.1281,
      "step": 996
    },
    {
      "epoch": 4.99,
      "grad_norm": 0.6362002491950989,
      "learning_rate": 3.510499999999999e-05,
      "loss": 0.1181,
      "step": 997
    },
    {
      "epoch": 4.99,
      "grad_norm": 2.1913676261901855,
      "learning_rate": 3.5069999999999995e-05,
      "loss": 0.1252,
      "step": 998
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.969592809677124,
      "learning_rate": 3.503499999999999e-05,
      "loss": 0.1203,
      "step": 999
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.5932644605636597,
      "learning_rate": 3.5e-05,
      "loss": 0.1041,
      "step": 1000
    },
    {
      "epoch": 5.0,
      "eval_accuracy_Background": NaN,
      "eval_accuracy_Bag": 0.6963666807515517,
      "eval_accuracy_Belt": 0.002195833186944454,
      "eval_accuracy_Dress": 0.7776750374381307,
      "eval_accuracy_Face": 0.8896192358332847,
      "eval_accuracy_Hair": 0.8666696333016645,
      "eval_accuracy_Hat": 0.6146720373864669,
      "eval_accuracy_Left-arm": 0.8238212418591321,
      "eval_accuracy_Left-leg": 0.8579776097522702,
      "eval_accuracy_Left-shoe": 0.5800639666615668,
      "eval_accuracy_Pants": 0.8536194297843785,
      "eval_accuracy_Right-arm": 0.8236141853709261,
      "eval_accuracy_Right-leg": 0.8658109810149045,
      "eval_accuracy_Right-shoe": 0.5813605355666779,
      "eval_accuracy_Scarf": 0.0,
      "eval_accuracy_Skirt": 0.7476720811881844,
      "eval_accuracy_Sunglasses": 0.0024649623212902316,
      "eval_accuracy_Upper-clothes": 0.8767925096703145,
      "eval_iou_Background": 0.0,
      "eval_iou_Bag": 0.6335660617339525,
      "eval_iou_Belt": 0.002193444233873798,
      "eval_iou_Dress": 0.6070199283527046,
      "eval_iou_Face": 0.7899881503241765,
      "eval_iou_Hair": 0.7661843050459924,
      "eval_iou_Hat": 0.5388538198149553,
      "eval_iou_Left-arm": 0.7267298356118107,
      "eval_iou_Left-leg": 0.7533724027549237,
      "eval_iou_Left-shoe": 0.48402373338845184,
      "eval_iou_Pants": 0.7580804084027986,
      "eval_iou_Right-arm": 0.7203841165595077,
      "eval_iou_Right-leg": 0.7571772976952671,
      "eval_iou_Right-shoe": 0.47669958304595433,
      "eval_iou_Scarf": 0.0,
      "eval_iou_Skirt": 0.6485233578151812,
      "eval_iou_Sunglasses": 0.0024648321273261853,
      "eval_iou_Upper-clothes": 0.7582446639176339,
      "eval_loss": 0.1654684990644455,
      "eval_mean_accuracy": 0.6388468212404523,
      "eval_mean_iou": 0.5235281078235839,
      "eval_overall_accuracy": 0.8078229412944281,
      "eval_runtime": 28.186,
      "eval_samples_per_second": 14.191,
      "eval_steps_per_second": 7.096,
      "step": 1000
    },
    {
      "epoch": 5.0,
      "grad_norm": 1.553328514099121,
      "learning_rate": 3.4964999999999995e-05,
      "loss": 0.1235,
      "step": 1001
    },
    {
      "epoch": 5.01,
      "grad_norm": 0.9981824159622192,
      "learning_rate": 3.493e-05,
      "loss": 0.1104,
      "step": 1002
    },
    {
      "epoch": 5.01,
      "grad_norm": 0.6564929485321045,
      "learning_rate": 3.4895e-05,
      "loss": 0.1327,
      "step": 1003
    },
    {
      "epoch": 5.02,
      "grad_norm": 0.8050693869590759,
      "learning_rate": 3.4859999999999995e-05,
      "loss": 0.1142,
      "step": 1004
    },
    {
      "epoch": 5.03,
      "grad_norm": 1.2770224809646606,
      "learning_rate": 3.4825e-05,
      "loss": 0.141,
      "step": 1005
    },
    {
      "epoch": 5.03,
      "grad_norm": 0.5336948037147522,
      "learning_rate": 3.479e-05,
      "loss": 0.1089,
      "step": 1006
    },
    {
      "epoch": 5.04,
      "grad_norm": 0.8421931266784668,
      "learning_rate": 3.4754999999999995e-05,
      "loss": 0.1402,
      "step": 1007
    },
    {
      "epoch": 5.04,
      "grad_norm": 1.5124523639678955,
      "learning_rate": 3.472e-05,
      "loss": 0.1358,
      "step": 1008
    },
    {
      "epoch": 5.04,
      "grad_norm": 2.9349112510681152,
      "learning_rate": 3.4685e-05,
      "loss": 0.1426,
      "step": 1009
    },
    {
      "epoch": 5.05,
      "grad_norm": 1.2939302921295166,
      "learning_rate": 3.4649999999999995e-05,
      "loss": 0.1575,
      "step": 1010
    },
    {
      "epoch": 5.05,
      "grad_norm": 2.490474224090576,
      "learning_rate": 3.4615e-05,
      "loss": 0.1655,
      "step": 1011
    },
    {
      "epoch": 5.06,
      "grad_norm": 1.334348440170288,
      "learning_rate": 3.458e-05,
      "loss": 0.1659,
      "step": 1012
    },
    {
      "epoch": 5.07,
      "grad_norm": 0.916321873664856,
      "learning_rate": 3.4544999999999995e-05,
      "loss": 0.1372,
      "step": 1013
    },
    {
      "epoch": 5.07,
      "grad_norm": 1.2439162731170654,
      "learning_rate": 3.450999999999999e-05,
      "loss": 0.1438,
      "step": 1014
    },
    {
      "epoch": 5.08,
      "grad_norm": 1.0514249801635742,
      "learning_rate": 3.4475e-05,
      "loss": 0.1293,
      "step": 1015
    },
    {
      "epoch": 5.08,
      "grad_norm": 3.597808361053467,
      "learning_rate": 3.4439999999999996e-05,
      "loss": 0.1552,
      "step": 1016
    },
    {
      "epoch": 5.08,
      "grad_norm": 0.7138985395431519,
      "learning_rate": 3.440499999999999e-05,
      "loss": 0.1418,
      "step": 1017
    },
    {
      "epoch": 5.09,
      "grad_norm": 0.9318990707397461,
      "learning_rate": 3.437e-05,
      "loss": 0.1604,
      "step": 1018
    },
    {
      "epoch": 5.09,
      "grad_norm": 0.49041038751602173,
      "learning_rate": 3.4334999999999996e-05,
      "loss": 0.1209,
      "step": 1019
    },
    {
      "epoch": 5.1,
      "grad_norm": 1.0677169561386108,
      "learning_rate": 3.4299999999999993e-05,
      "loss": 0.1563,
      "step": 1020
    },
    {
      "epoch": 5.11,
      "grad_norm": 1.1555922031402588,
      "learning_rate": 3.4265e-05,
      "loss": 0.1331,
      "step": 1021
    },
    {
      "epoch": 5.11,
      "grad_norm": 1.1475470066070557,
      "learning_rate": 3.4229999999999996e-05,
      "loss": 0.1459,
      "step": 1022
    },
    {
      "epoch": 5.12,
      "grad_norm": 0.7615036964416504,
      "learning_rate": 3.4194999999999994e-05,
      "loss": 0.1399,
      "step": 1023
    },
    {
      "epoch": 5.12,
      "grad_norm": 0.944087564945221,
      "learning_rate": 3.416e-05,
      "loss": 0.2036,
      "step": 1024
    },
    {
      "epoch": 5.12,
      "grad_norm": 0.39948296546936035,
      "learning_rate": 3.4124999999999996e-05,
      "loss": 0.1013,
      "step": 1025
    },
    {
      "epoch": 5.13,
      "grad_norm": 0.9970679879188538,
      "learning_rate": 3.4089999999999994e-05,
      "loss": 0.15,
      "step": 1026
    },
    {
      "epoch": 5.13,
      "grad_norm": 1.105507254600525,
      "learning_rate": 3.4055e-05,
      "loss": 0.0963,
      "step": 1027
    },
    {
      "epoch": 5.14,
      "grad_norm": 0.926790177822113,
      "learning_rate": 3.4019999999999996e-05,
      "loss": 0.126,
      "step": 1028
    },
    {
      "epoch": 5.14,
      "grad_norm": 2.0900661945343018,
      "learning_rate": 3.3984999999999994e-05,
      "loss": 0.1592,
      "step": 1029
    },
    {
      "epoch": 5.15,
      "grad_norm": 0.9834228754043579,
      "learning_rate": 3.395e-05,
      "loss": 0.1122,
      "step": 1030
    },
    {
      "epoch": 5.16,
      "grad_norm": 1.4909306764602661,
      "learning_rate": 3.3914999999999996e-05,
      "loss": 0.1635,
      "step": 1031
    },
    {
      "epoch": 5.16,
      "grad_norm": 2.578152894973755,
      "learning_rate": 3.3879999999999994e-05,
      "loss": 0.1496,
      "step": 1032
    },
    {
      "epoch": 5.17,
      "grad_norm": 1.926313042640686,
      "learning_rate": 3.3845e-05,
      "loss": 0.1371,
      "step": 1033
    },
    {
      "epoch": 5.17,
      "grad_norm": 0.8235352039337158,
      "learning_rate": 3.3809999999999996e-05,
      "loss": 0.1231,
      "step": 1034
    },
    {
      "epoch": 5.17,
      "grad_norm": 1.6663626432418823,
      "learning_rate": 3.3774999999999994e-05,
      "loss": 0.1481,
      "step": 1035
    },
    {
      "epoch": 5.18,
      "grad_norm": 0.7660854458808899,
      "learning_rate": 3.374e-05,
      "loss": 0.1172,
      "step": 1036
    },
    {
      "epoch": 5.18,
      "grad_norm": 0.849465012550354,
      "learning_rate": 3.3705e-05,
      "loss": 0.1181,
      "step": 1037
    },
    {
      "epoch": 5.19,
      "grad_norm": 0.6585891246795654,
      "learning_rate": 3.3669999999999994e-05,
      "loss": 0.1059,
      "step": 1038
    },
    {
      "epoch": 5.2,
      "grad_norm": 1.5706727504730225,
      "learning_rate": 3.3635e-05,
      "loss": 0.1123,
      "step": 1039
    },
    {
      "epoch": 5.2,
      "grad_norm": 3.525141477584839,
      "learning_rate": 3.36e-05,
      "loss": 0.1452,
      "step": 1040
    },
    {
      "epoch": 5.21,
      "grad_norm": 0.8784539103507996,
      "learning_rate": 3.3564999999999995e-05,
      "loss": 0.163,
      "step": 1041
    },
    {
      "epoch": 5.21,
      "grad_norm": 0.4582975506782532,
      "learning_rate": 3.352999999999999e-05,
      "loss": 0.1041,
      "step": 1042
    },
    {
      "epoch": 5.21,
      "grad_norm": 0.7342884540557861,
      "learning_rate": 3.3495e-05,
      "loss": 0.1377,
      "step": 1043
    },
    {
      "epoch": 5.22,
      "grad_norm": 0.6444647312164307,
      "learning_rate": 3.3459999999999995e-05,
      "loss": 0.1319,
      "step": 1044
    },
    {
      "epoch": 5.22,
      "grad_norm": 0.9490528702735901,
      "learning_rate": 3.342499999999999e-05,
      "loss": 0.1398,
      "step": 1045
    },
    {
      "epoch": 5.23,
      "grad_norm": 0.5923656225204468,
      "learning_rate": 3.339e-05,
      "loss": 0.097,
      "step": 1046
    },
    {
      "epoch": 5.24,
      "grad_norm": 0.756599485874176,
      "learning_rate": 3.3354999999999995e-05,
      "loss": 0.1359,
      "step": 1047
    },
    {
      "epoch": 5.24,
      "grad_norm": 0.8177524209022522,
      "learning_rate": 3.331999999999999e-05,
      "loss": 0.1332,
      "step": 1048
    },
    {
      "epoch": 5.25,
      "grad_norm": 0.9521121382713318,
      "learning_rate": 3.3285e-05,
      "loss": 0.1303,
      "step": 1049
    },
    {
      "epoch": 5.25,
      "grad_norm": 0.5316095352172852,
      "learning_rate": 3.3249999999999995e-05,
      "loss": 0.1025,
      "step": 1050
    },
    {
      "epoch": 5.25,
      "grad_norm": 0.6751612424850464,
      "learning_rate": 3.321499999999999e-05,
      "loss": 0.1417,
      "step": 1051
    },
    {
      "epoch": 5.26,
      "grad_norm": 0.9619577527046204,
      "learning_rate": 3.318e-05,
      "loss": 0.1156,
      "step": 1052
    },
    {
      "epoch": 5.26,
      "grad_norm": 0.7950999140739441,
      "learning_rate": 3.3144999999999995e-05,
      "loss": 0.1393,
      "step": 1053
    },
    {
      "epoch": 5.27,
      "grad_norm": 0.5537987947463989,
      "learning_rate": 3.310999999999999e-05,
      "loss": 0.1288,
      "step": 1054
    },
    {
      "epoch": 5.28,
      "grad_norm": 1.4245274066925049,
      "learning_rate": 3.3075e-05,
      "loss": 0.1131,
      "step": 1055
    },
    {
      "epoch": 5.28,
      "grad_norm": 0.8765031099319458,
      "learning_rate": 3.3039999999999995e-05,
      "loss": 0.1319,
      "step": 1056
    },
    {
      "epoch": 5.29,
      "grad_norm": 0.7727240324020386,
      "learning_rate": 3.300499999999999e-05,
      "loss": 0.1197,
      "step": 1057
    },
    {
      "epoch": 5.29,
      "grad_norm": 0.5659304261207581,
      "learning_rate": 3.297e-05,
      "loss": 0.1237,
      "step": 1058
    },
    {
      "epoch": 5.29,
      "grad_norm": 1.8498929738998413,
      "learning_rate": 3.2934999999999996e-05,
      "loss": 0.1701,
      "step": 1059
    },
    {
      "epoch": 5.3,
      "grad_norm": 1.390033483505249,
      "learning_rate": 3.289999999999999e-05,
      "loss": 0.1478,
      "step": 1060
    },
    {
      "epoch": 5.3,
      "grad_norm": 0.4682126045227051,
      "learning_rate": 3.2865e-05,
      "loss": 0.1103,
      "step": 1061
    },
    {
      "epoch": 5.31,
      "grad_norm": 0.7246732711791992,
      "learning_rate": 3.2829999999999996e-05,
      "loss": 0.1115,
      "step": 1062
    },
    {
      "epoch": 5.32,
      "grad_norm": 0.8428225517272949,
      "learning_rate": 3.2795e-05,
      "loss": 0.1541,
      "step": 1063
    },
    {
      "epoch": 5.32,
      "grad_norm": 1.6744451522827148,
      "learning_rate": 3.276e-05,
      "loss": 0.1342,
      "step": 1064
    },
    {
      "epoch": 5.33,
      "grad_norm": 0.43405237793922424,
      "learning_rate": 3.2724999999999996e-05,
      "loss": 0.0939,
      "step": 1065
    },
    {
      "epoch": 5.33,
      "grad_norm": 1.1312733888626099,
      "learning_rate": 3.269e-05,
      "loss": 0.1696,
      "step": 1066
    },
    {
      "epoch": 5.33,
      "grad_norm": 1.2071400880813599,
      "learning_rate": 3.2655e-05,
      "loss": 0.1758,
      "step": 1067
    },
    {
      "epoch": 5.34,
      "grad_norm": 1.7364957332611084,
      "learning_rate": 3.2619999999999996e-05,
      "loss": 0.1424,
      "step": 1068
    },
    {
      "epoch": 5.34,
      "grad_norm": 0.7681121230125427,
      "learning_rate": 3.2585e-05,
      "loss": 0.1077,
      "step": 1069
    },
    {
      "epoch": 5.35,
      "grad_norm": 1.3766236305236816,
      "learning_rate": 3.255e-05,
      "loss": 0.1327,
      "step": 1070
    },
    {
      "epoch": 5.36,
      "grad_norm": 0.6693004965782166,
      "learning_rate": 3.2514999999999996e-05,
      "loss": 0.1765,
      "step": 1071
    },
    {
      "epoch": 5.36,
      "grad_norm": 0.7223825454711914,
      "learning_rate": 3.248e-05,
      "loss": 0.1227,
      "step": 1072
    },
    {
      "epoch": 5.37,
      "grad_norm": 1.12417471408844,
      "learning_rate": 3.2445e-05,
      "loss": 0.1361,
      "step": 1073
    },
    {
      "epoch": 5.37,
      "grad_norm": 0.562328577041626,
      "learning_rate": 3.2409999999999996e-05,
      "loss": 0.12,
      "step": 1074
    },
    {
      "epoch": 5.38,
      "grad_norm": 0.5242748856544495,
      "learning_rate": 3.2375e-05,
      "loss": 0.1212,
      "step": 1075
    },
    {
      "epoch": 5.38,
      "grad_norm": 2.2268097400665283,
      "learning_rate": 3.234e-05,
      "loss": 0.152,
      "step": 1076
    },
    {
      "epoch": 5.38,
      "grad_norm": 0.5584390759468079,
      "learning_rate": 3.2304999999999996e-05,
      "loss": 0.1058,
      "step": 1077
    },
    {
      "epoch": 5.39,
      "grad_norm": 0.9659063816070557,
      "learning_rate": 3.227e-05,
      "loss": 0.1292,
      "step": 1078
    },
    {
      "epoch": 5.39,
      "grad_norm": 1.0560126304626465,
      "learning_rate": 3.2235e-05,
      "loss": 0.113,
      "step": 1079
    },
    {
      "epoch": 5.4,
      "grad_norm": 1.4249670505523682,
      "learning_rate": 3.22e-05,
      "loss": 0.1735,
      "step": 1080
    },
    {
      "epoch": 5.41,
      "grad_norm": 2.6585044860839844,
      "learning_rate": 3.2165e-05,
      "loss": 0.1671,
      "step": 1081
    },
    {
      "epoch": 5.41,
      "grad_norm": 4.27188777923584,
      "learning_rate": 3.213e-05,
      "loss": 0.1625,
      "step": 1082
    },
    {
      "epoch": 5.42,
      "grad_norm": 1.00405752658844,
      "learning_rate": 3.2095e-05,
      "loss": 0.1636,
      "step": 1083
    },
    {
      "epoch": 5.42,
      "grad_norm": 0.4826422929763794,
      "learning_rate": 3.206e-05,
      "loss": 0.0947,
      "step": 1084
    },
    {
      "epoch": 5.42,
      "grad_norm": 0.992037296295166,
      "learning_rate": 3.2025e-05,
      "loss": 0.1286,
      "step": 1085
    },
    {
      "epoch": 5.43,
      "grad_norm": 1.2320489883422852,
      "learning_rate": 3.199e-05,
      "loss": 0.1222,
      "step": 1086
    },
    {
      "epoch": 5.43,
      "grad_norm": 1.3008593320846558,
      "learning_rate": 3.1955e-05,
      "loss": 0.1581,
      "step": 1087
    },
    {
      "epoch": 5.44,
      "grad_norm": 0.4845007061958313,
      "learning_rate": 3.192e-05,
      "loss": 0.1135,
      "step": 1088
    },
    {
      "epoch": 5.45,
      "grad_norm": 0.6284997463226318,
      "learning_rate": 3.1885e-05,
      "loss": 0.1379,
      "step": 1089
    },
    {
      "epoch": 5.45,
      "grad_norm": 0.8895830512046814,
      "learning_rate": 3.185e-05,
      "loss": 0.098,
      "step": 1090
    },
    {
      "epoch": 5.46,
      "grad_norm": 1.6438578367233276,
      "learning_rate": 3.1815e-05,
      "loss": 0.1913,
      "step": 1091
    },
    {
      "epoch": 5.46,
      "grad_norm": 2.0832200050354004,
      "learning_rate": 3.178e-05,
      "loss": 0.138,
      "step": 1092
    },
    {
      "epoch": 5.46,
      "grad_norm": 0.8740715384483337,
      "learning_rate": 3.1744999999999995e-05,
      "loss": 0.128,
      "step": 1093
    },
    {
      "epoch": 5.47,
      "grad_norm": 1.9590915441513062,
      "learning_rate": 3.171e-05,
      "loss": 0.1357,
      "step": 1094
    },
    {
      "epoch": 5.47,
      "grad_norm": 0.547986626625061,
      "learning_rate": 3.1675e-05,
      "loss": 0.1048,
      "step": 1095
    },
    {
      "epoch": 5.48,
      "grad_norm": 1.4281110763549805,
      "learning_rate": 3.1639999999999995e-05,
      "loss": 0.1616,
      "step": 1096
    },
    {
      "epoch": 5.49,
      "grad_norm": 2.228332281112671,
      "learning_rate": 3.1605e-05,
      "loss": 0.1579,
      "step": 1097
    },
    {
      "epoch": 5.49,
      "grad_norm": 1.7772082090377808,
      "learning_rate": 3.157e-05,
      "loss": 0.1892,
      "step": 1098
    },
    {
      "epoch": 5.5,
      "grad_norm": 1.7964465618133545,
      "learning_rate": 3.1534999999999995e-05,
      "loss": 0.1549,
      "step": 1099
    },
    {
      "epoch": 5.5,
      "grad_norm": 1.2979546785354614,
      "learning_rate": 3.15e-05,
      "loss": 0.0968,
      "step": 1100
    },
    {
      "epoch": 5.5,
      "grad_norm": 0.406097412109375,
      "learning_rate": 3.1465e-05,
      "loss": 0.1074,
      "step": 1101
    },
    {
      "epoch": 5.51,
      "grad_norm": 1.449867606163025,
      "learning_rate": 3.1429999999999996e-05,
      "loss": 0.111,
      "step": 1102
    },
    {
      "epoch": 5.51,
      "grad_norm": 0.7444219589233398,
      "learning_rate": 3.1395e-05,
      "loss": 0.1119,
      "step": 1103
    },
    {
      "epoch": 5.52,
      "grad_norm": 0.7248870134353638,
      "learning_rate": 3.136e-05,
      "loss": 0.119,
      "step": 1104
    },
    {
      "epoch": 5.53,
      "grad_norm": 0.5122928023338318,
      "learning_rate": 3.1324999999999996e-05,
      "loss": 0.1088,
      "step": 1105
    },
    {
      "epoch": 5.53,
      "grad_norm": 1.2351957559585571,
      "learning_rate": 3.129e-05,
      "loss": 0.1347,
      "step": 1106
    },
    {
      "epoch": 5.54,
      "grad_norm": 3.243562936782837,
      "learning_rate": 3.1255e-05,
      "loss": 0.1467,
      "step": 1107
    },
    {
      "epoch": 5.54,
      "grad_norm": 0.644965648651123,
      "learning_rate": 3.1219999999999996e-05,
      "loss": 0.1074,
      "step": 1108
    },
    {
      "epoch": 5.54,
      "grad_norm": 1.682134985923767,
      "learning_rate": 3.1185e-05,
      "loss": 0.1199,
      "step": 1109
    },
    {
      "epoch": 5.55,
      "grad_norm": 1.3212730884552002,
      "learning_rate": 3.115e-05,
      "loss": 0.1296,
      "step": 1110
    },
    {
      "epoch": 5.55,
      "grad_norm": 1.4784146547317505,
      "learning_rate": 3.1114999999999996e-05,
      "loss": 0.1283,
      "step": 1111
    },
    {
      "epoch": 5.56,
      "grad_norm": 1.3894389867782593,
      "learning_rate": 3.108e-05,
      "loss": 0.1649,
      "step": 1112
    },
    {
      "epoch": 5.56,
      "grad_norm": 0.9700334072113037,
      "learning_rate": 3.1045e-05,
      "loss": 0.1256,
      "step": 1113
    },
    {
      "epoch": 5.57,
      "grad_norm": 0.903657078742981,
      "learning_rate": 3.1009999999999996e-05,
      "loss": 0.1244,
      "step": 1114
    },
    {
      "epoch": 5.58,
      "grad_norm": 1.1323513984680176,
      "learning_rate": 3.0975e-05,
      "loss": 0.1114,
      "step": 1115
    },
    {
      "epoch": 5.58,
      "grad_norm": 2.738960027694702,
      "learning_rate": 3.094e-05,
      "loss": 0.1108,
      "step": 1116
    },
    {
      "epoch": 5.58,
      "grad_norm": 0.48558881878852844,
      "learning_rate": 3.0904999999999996e-05,
      "loss": 0.0906,
      "step": 1117
    },
    {
      "epoch": 5.59,
      "grad_norm": 1.422685146331787,
      "learning_rate": 3.087e-05,
      "loss": 0.1208,
      "step": 1118
    },
    {
      "epoch": 5.59,
      "grad_norm": 0.6146149635314941,
      "learning_rate": 3.0835e-05,
      "loss": 0.1254,
      "step": 1119
    },
    {
      "epoch": 5.6,
      "grad_norm": 0.8305504322052002,
      "learning_rate": 3.0799999999999996e-05,
      "loss": 0.1414,
      "step": 1120
    },
    {
      "epoch": 5.61,
      "grad_norm": 1.2353893518447876,
      "learning_rate": 3.0764999999999994e-05,
      "loss": 0.1523,
      "step": 1121
    },
    {
      "epoch": 5.61,
      "grad_norm": 2.70063853263855,
      "learning_rate": 3.073e-05,
      "loss": 0.1445,
      "step": 1122
    },
    {
      "epoch": 5.62,
      "grad_norm": 0.7651026844978333,
      "learning_rate": 3.0695e-05,
      "loss": 0.1116,
      "step": 1123
    },
    {
      "epoch": 5.62,
      "grad_norm": 1.7170666456222534,
      "learning_rate": 3.0659999999999994e-05,
      "loss": 0.1159,
      "step": 1124
    },
    {
      "epoch": 5.62,
      "grad_norm": 0.7162619233131409,
      "learning_rate": 3.0625e-05,
      "loss": 0.1265,
      "step": 1125
    },
    {
      "epoch": 5.63,
      "grad_norm": 2.1523959636688232,
      "learning_rate": 3.059e-05,
      "loss": 0.137,
      "step": 1126
    },
    {
      "epoch": 5.63,
      "grad_norm": 1.1492725610733032,
      "learning_rate": 3.0554999999999995e-05,
      "loss": 0.1377,
      "step": 1127
    },
    {
      "epoch": 5.64,
      "grad_norm": 0.5777454972267151,
      "learning_rate": 3.052e-05,
      "loss": 0.1043,
      "step": 1128
    },
    {
      "epoch": 5.64,
      "grad_norm": 1.1596578359603882,
      "learning_rate": 3.0484999999999997e-05,
      "loss": 0.1252,
      "step": 1129
    },
    {
      "epoch": 5.65,
      "grad_norm": 1.067055106163025,
      "learning_rate": 3.0449999999999998e-05,
      "loss": 0.1517,
      "step": 1130
    },
    {
      "epoch": 5.66,
      "grad_norm": 1.4952900409698486,
      "learning_rate": 3.0414999999999996e-05,
      "loss": 0.1426,
      "step": 1131
    },
    {
      "epoch": 5.66,
      "grad_norm": 2.4876205921173096,
      "learning_rate": 3.0379999999999997e-05,
      "loss": 0.1583,
      "step": 1132
    },
    {
      "epoch": 5.67,
      "grad_norm": 1.5706032514572144,
      "learning_rate": 3.0344999999999998e-05,
      "loss": 0.1381,
      "step": 1133
    },
    {
      "epoch": 5.67,
      "grad_norm": 1.1091374158859253,
      "learning_rate": 3.0309999999999996e-05,
      "loss": 0.0934,
      "step": 1134
    },
    {
      "epoch": 5.67,
      "grad_norm": 1.1470341682434082,
      "learning_rate": 3.0274999999999997e-05,
      "loss": 0.1587,
      "step": 1135
    },
    {
      "epoch": 5.68,
      "grad_norm": 0.44688302278518677,
      "learning_rate": 3.024e-05,
      "loss": 0.1086,
      "step": 1136
    },
    {
      "epoch": 5.69,
      "grad_norm": 1.3874272108078003,
      "learning_rate": 3.0204999999999996e-05,
      "loss": 0.114,
      "step": 1137
    },
    {
      "epoch": 5.69,
      "grad_norm": 1.418339729309082,
      "learning_rate": 3.0169999999999997e-05,
      "loss": 0.1332,
      "step": 1138
    },
    {
      "epoch": 5.7,
      "grad_norm": 2.529121160507202,
      "learning_rate": 3.0134999999999995e-05,
      "loss": 0.1368,
      "step": 1139
    },
    {
      "epoch": 5.7,
      "grad_norm": 0.7567065358161926,
      "learning_rate": 3.0099999999999996e-05,
      "loss": 0.1094,
      "step": 1140
    },
    {
      "epoch": 5.71,
      "grad_norm": 0.553084671497345,
      "learning_rate": 3.0064999999999998e-05,
      "loss": 0.1112,
      "step": 1141
    },
    {
      "epoch": 5.71,
      "grad_norm": 1.5197802782058716,
      "learning_rate": 3.0029999999999995e-05,
      "loss": 0.1597,
      "step": 1142
    },
    {
      "epoch": 5.71,
      "grad_norm": 0.9059062004089355,
      "learning_rate": 2.9994999999999997e-05,
      "loss": 0.1813,
      "step": 1143
    },
    {
      "epoch": 5.72,
      "grad_norm": 1.7406635284423828,
      "learning_rate": 2.9959999999999998e-05,
      "loss": 0.1357,
      "step": 1144
    },
    {
      "epoch": 5.72,
      "grad_norm": 2.2095863819122314,
      "learning_rate": 2.9924999999999996e-05,
      "loss": 0.1573,
      "step": 1145
    },
    {
      "epoch": 5.73,
      "grad_norm": 1.9251794815063477,
      "learning_rate": 2.9889999999999997e-05,
      "loss": 0.1636,
      "step": 1146
    },
    {
      "epoch": 5.74,
      "grad_norm": 0.6755849719047546,
      "learning_rate": 2.9854999999999998e-05,
      "loss": 0.1199,
      "step": 1147
    },
    {
      "epoch": 5.74,
      "grad_norm": 1.4323080778121948,
      "learning_rate": 2.9819999999999996e-05,
      "loss": 0.1528,
      "step": 1148
    },
    {
      "epoch": 5.75,
      "grad_norm": 1.5303562879562378,
      "learning_rate": 2.9784999999999997e-05,
      "loss": 0.1466,
      "step": 1149
    },
    {
      "epoch": 5.75,
      "grad_norm": 0.6218584775924683,
      "learning_rate": 2.9749999999999998e-05,
      "loss": 0.1052,
      "step": 1150
    },
    {
      "epoch": 5.75,
      "grad_norm": 0.7908617854118347,
      "learning_rate": 2.9714999999999996e-05,
      "loss": 0.1255,
      "step": 1151
    },
    {
      "epoch": 5.76,
      "grad_norm": 0.8067721128463745,
      "learning_rate": 2.9679999999999997e-05,
      "loss": 0.1123,
      "step": 1152
    },
    {
      "epoch": 5.76,
      "grad_norm": 0.5593230128288269,
      "learning_rate": 2.9644999999999995e-05,
      "loss": 0.1187,
      "step": 1153
    },
    {
      "epoch": 5.77,
      "grad_norm": 0.8361695408821106,
      "learning_rate": 2.9609999999999996e-05,
      "loss": 0.1285,
      "step": 1154
    },
    {
      "epoch": 5.78,
      "grad_norm": 1.0830600261688232,
      "learning_rate": 2.9574999999999997e-05,
      "loss": 0.1581,
      "step": 1155
    },
    {
      "epoch": 5.78,
      "grad_norm": 1.2180681228637695,
      "learning_rate": 2.9539999999999995e-05,
      "loss": 0.1439,
      "step": 1156
    },
    {
      "epoch": 5.79,
      "grad_norm": 1.6977427005767822,
      "learning_rate": 2.9504999999999996e-05,
      "loss": 0.1911,
      "step": 1157
    },
    {
      "epoch": 5.79,
      "grad_norm": 1.3325058221817017,
      "learning_rate": 2.9469999999999997e-05,
      "loss": 0.1236,
      "step": 1158
    },
    {
      "epoch": 5.79,
      "grad_norm": 1.5543487071990967,
      "learning_rate": 2.9434999999999995e-05,
      "loss": 0.1645,
      "step": 1159
    },
    {
      "epoch": 5.8,
      "grad_norm": 0.9537949562072754,
      "learning_rate": 2.9399999999999996e-05,
      "loss": 0.1374,
      "step": 1160
    },
    {
      "epoch": 5.8,
      "grad_norm": 0.6098547577857971,
      "learning_rate": 2.9364999999999998e-05,
      "loss": 0.1058,
      "step": 1161
    },
    {
      "epoch": 5.81,
      "grad_norm": 1.0037842988967896,
      "learning_rate": 2.9329999999999995e-05,
      "loss": 0.1679,
      "step": 1162
    },
    {
      "epoch": 5.81,
      "grad_norm": 1.6747592687606812,
      "learning_rate": 2.9294999999999996e-05,
      "loss": 0.156,
      "step": 1163
    },
    {
      "epoch": 5.82,
      "grad_norm": 0.4427376091480255,
      "learning_rate": 2.9259999999999998e-05,
      "loss": 0.1214,
      "step": 1164
    },
    {
      "epoch": 5.83,
      "grad_norm": 1.0971790552139282,
      "learning_rate": 2.9224999999999995e-05,
      "loss": 0.2928,
      "step": 1165
    },
    {
      "epoch": 5.83,
      "grad_norm": 0.8752963542938232,
      "learning_rate": 2.9189999999999997e-05,
      "loss": 0.1215,
      "step": 1166
    },
    {
      "epoch": 5.83,
      "grad_norm": 1.0883800983428955,
      "learning_rate": 2.9154999999999994e-05,
      "loss": 0.127,
      "step": 1167
    },
    {
      "epoch": 5.84,
      "grad_norm": 1.063871145248413,
      "learning_rate": 2.9119999999999996e-05,
      "loss": 0.1265,
      "step": 1168
    },
    {
      "epoch": 5.84,
      "grad_norm": 0.53482586145401,
      "learning_rate": 2.9084999999999997e-05,
      "loss": 0.1248,
      "step": 1169
    },
    {
      "epoch": 5.85,
      "grad_norm": 0.6352086663246155,
      "learning_rate": 2.9049999999999995e-05,
      "loss": 0.121,
      "step": 1170
    },
    {
      "epoch": 5.86,
      "grad_norm": 0.49427083134651184,
      "learning_rate": 2.9014999999999996e-05,
      "loss": 0.1169,
      "step": 1171
    },
    {
      "epoch": 5.86,
      "grad_norm": 1.097273349761963,
      "learning_rate": 2.8979999999999997e-05,
      "loss": 0.1478,
      "step": 1172
    },
    {
      "epoch": 5.87,
      "grad_norm": 0.8284293413162231,
      "learning_rate": 2.8944999999999995e-05,
      "loss": 0.1446,
      "step": 1173
    },
    {
      "epoch": 5.87,
      "grad_norm": 0.7959915399551392,
      "learning_rate": 2.8909999999999996e-05,
      "loss": 0.1279,
      "step": 1174
    },
    {
      "epoch": 5.88,
      "grad_norm": 0.5218278169631958,
      "learning_rate": 2.8874999999999997e-05,
      "loss": 0.101,
      "step": 1175
    },
    {
      "epoch": 5.88,
      "grad_norm": 0.8315401077270508,
      "learning_rate": 2.8839999999999995e-05,
      "loss": 0.142,
      "step": 1176
    },
    {
      "epoch": 5.88,
      "grad_norm": 0.5883147120475769,
      "learning_rate": 2.8804999999999996e-05,
      "loss": 0.1141,
      "step": 1177
    },
    {
      "epoch": 5.89,
      "grad_norm": 1.8616178035736084,
      "learning_rate": 2.8769999999999997e-05,
      "loss": 0.1205,
      "step": 1178
    },
    {
      "epoch": 5.89,
      "grad_norm": 0.9191146492958069,
      "learning_rate": 2.8734999999999995e-05,
      "loss": 0.132,
      "step": 1179
    },
    {
      "epoch": 5.9,
      "grad_norm": 0.4868602454662323,
      "learning_rate": 2.8699999999999996e-05,
      "loss": 0.1031,
      "step": 1180
    },
    {
      "epoch": 5.91,
      "grad_norm": 1.1636039018630981,
      "learning_rate": 2.8664999999999994e-05,
      "loss": 0.133,
      "step": 1181
    },
    {
      "epoch": 5.91,
      "grad_norm": 0.9088273048400879,
      "learning_rate": 2.8629999999999995e-05,
      "loss": 0.1623,
      "step": 1182
    },
    {
      "epoch": 5.92,
      "grad_norm": 0.7172622084617615,
      "learning_rate": 2.8594999999999996e-05,
      "loss": 0.1112,
      "step": 1183
    },
    {
      "epoch": 5.92,
      "grad_norm": 0.6293606758117676,
      "learning_rate": 2.8559999999999994e-05,
      "loss": 0.1118,
      "step": 1184
    },
    {
      "epoch": 5.92,
      "grad_norm": 3.6874992847442627,
      "learning_rate": 2.8524999999999995e-05,
      "loss": 0.1525,
      "step": 1185
    },
    {
      "epoch": 5.93,
      "grad_norm": 1.410711407661438,
      "learning_rate": 2.8489999999999997e-05,
      "loss": 0.1815,
      "step": 1186
    },
    {
      "epoch": 5.94,
      "grad_norm": 0.44312506914138794,
      "learning_rate": 2.8454999999999994e-05,
      "loss": 0.1245,
      "step": 1187
    },
    {
      "epoch": 5.94,
      "grad_norm": 1.3479217290878296,
      "learning_rate": 2.842e-05,
      "loss": 0.1338,
      "step": 1188
    },
    {
      "epoch": 5.95,
      "grad_norm": 1.6904653310775757,
      "learning_rate": 2.8385e-05,
      "loss": 0.1586,
      "step": 1189
    },
    {
      "epoch": 5.95,
      "grad_norm": 0.811863899230957,
      "learning_rate": 2.8349999999999998e-05,
      "loss": 0.1319,
      "step": 1190
    },
    {
      "epoch": 5.96,
      "grad_norm": 0.7044633030891418,
      "learning_rate": 2.8315e-05,
      "loss": 0.1122,
      "step": 1191
    },
    {
      "epoch": 5.96,
      "grad_norm": 0.7731269598007202,
      "learning_rate": 2.828e-05,
      "loss": 0.1293,
      "step": 1192
    },
    {
      "epoch": 5.96,
      "grad_norm": 0.4832967221736908,
      "learning_rate": 2.8244999999999998e-05,
      "loss": 0.0954,
      "step": 1193
    },
    {
      "epoch": 5.97,
      "grad_norm": 1.7230300903320312,
      "learning_rate": 2.821e-05,
      "loss": 0.137,
      "step": 1194
    },
    {
      "epoch": 5.97,
      "grad_norm": 1.0553797483444214,
      "learning_rate": 2.8175e-05,
      "loss": 0.1288,
      "step": 1195
    },
    {
      "epoch": 5.98,
      "grad_norm": 1.0470861196517944,
      "learning_rate": 2.8139999999999998e-05,
      "loss": 0.1453,
      "step": 1196
    },
    {
      "epoch": 5.99,
      "grad_norm": 0.6470024585723877,
      "learning_rate": 2.8105e-05,
      "loss": 0.0977,
      "step": 1197
    },
    {
      "epoch": 5.99,
      "grad_norm": 1.7631237506866455,
      "learning_rate": 2.807e-05,
      "loss": 0.1646,
      "step": 1198
    },
    {
      "epoch": 6.0,
      "grad_norm": 1.6505855321884155,
      "learning_rate": 2.8035e-05,
      "loss": 0.1539,
      "step": 1199
    },
    {
      "epoch": 6.0,
      "grad_norm": 1.3249038457870483,
      "learning_rate": 2.8e-05,
      "loss": 0.1179,
      "step": 1200
    },
    {
      "epoch": 6.0,
      "eval_accuracy_Background": NaN,
      "eval_accuracy_Bag": 0.7141684258937192,
      "eval_accuracy_Belt": 0.02212521519165232,
      "eval_accuracy_Dress": 0.8384124500395312,
      "eval_accuracy_Face": 0.9038428200919544,
      "eval_accuracy_Hair": 0.8725128659251562,
      "eval_accuracy_Hat": 0.5886266535005817,
      "eval_accuracy_Left-arm": 0.8262807969403184,
      "eval_accuracy_Left-leg": 0.8580048645724503,
      "eval_accuracy_Left-shoe": 0.6322263021004088,
      "eval_accuracy_Pants": 0.8537916445487264,
      "eval_accuracy_Right-arm": 0.8279250197495779,
      "eval_accuracy_Right-leg": 0.8579485334050853,
      "eval_accuracy_Right-shoe": 0.5871431296496471,
      "eval_accuracy_Scarf": 0.0,
      "eval_accuracy_Skirt": 0.7352871695540821,
      "eval_accuracy_Sunglasses": 0.03259032326220156,
      "eval_accuracy_Upper-clothes": 0.8559975872069304,
      "eval_iou_Background": 0.0,
      "eval_iou_Bag": 0.6385738738511374,
      "eval_iou_Belt": 0.021735566427653095,
      "eval_iou_Dress": 0.6189312422095877,
      "eval_iou_Face": 0.7930498979781117,
      "eval_iou_Hair": 0.7663313902020061,
      "eval_iou_Hat": 0.5292739532144207,
      "eval_iou_Left-arm": 0.7293080268794753,
      "eval_iou_Left-leg": 0.7598969217704118,
      "eval_iou_Left-shoe": 0.5134738533134717,
      "eval_iou_Pants": 0.7623736767450321,
      "eval_iou_Right-arm": 0.7224203050156912,
      "eval_iou_Right-leg": 0.7641276972996497,
      "eval_iou_Right-shoe": 0.49312322053604396,
      "eval_iou_Scarf": 0.0,
      "eval_iou_Skirt": 0.6530970861270192,
      "eval_iou_Sunglasses": 0.03257999788784455,
      "eval_iou_Upper-clothes": 0.7628711051510975,
      "eval_loss": 0.16282829642295837,
      "eval_mean_accuracy": 0.6474637530371778,
      "eval_mean_iou": 0.5311759897004807,
      "eval_overall_accuracy": 0.8110574743874077,
      "eval_runtime": 28.0421,
      "eval_samples_per_second": 14.264,
      "eval_steps_per_second": 7.132,
      "step": 1200
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.859993577003479,
      "learning_rate": 2.7965e-05,
      "loss": 0.1429,
      "step": 1201
    },
    {
      "epoch": 6.01,
      "grad_norm": 0.9117684960365295,
      "learning_rate": 2.793e-05,
      "loss": 0.1339,
      "step": 1202
    },
    {
      "epoch": 6.01,
      "grad_norm": 1.7520101070404053,
      "learning_rate": 2.7895e-05,
      "loss": 0.1554,
      "step": 1203
    },
    {
      "epoch": 6.02,
      "grad_norm": 0.8077760934829712,
      "learning_rate": 2.7859999999999998e-05,
      "loss": 0.1012,
      "step": 1204
    },
    {
      "epoch": 6.03,
      "grad_norm": 0.6213881969451904,
      "learning_rate": 2.7825e-05,
      "loss": 0.1124,
      "step": 1205
    },
    {
      "epoch": 6.03,
      "grad_norm": 0.5066211223602295,
      "learning_rate": 2.779e-05,
      "loss": 0.0988,
      "step": 1206
    },
    {
      "epoch": 6.04,
      "grad_norm": 1.4199475049972534,
      "learning_rate": 2.7754999999999998e-05,
      "loss": 0.1675,
      "step": 1207
    },
    {
      "epoch": 6.04,
      "grad_norm": 1.3590515851974487,
      "learning_rate": 2.772e-05,
      "loss": 0.1505,
      "step": 1208
    },
    {
      "epoch": 6.04,
      "grad_norm": 1.0902209281921387,
      "learning_rate": 2.7685e-05,
      "loss": 0.1628,
      "step": 1209
    },
    {
      "epoch": 6.05,
      "grad_norm": 1.046099305152893,
      "learning_rate": 2.7649999999999998e-05,
      "loss": 0.1368,
      "step": 1210
    },
    {
      "epoch": 6.05,
      "grad_norm": 0.8888131380081177,
      "learning_rate": 2.7615e-05,
      "loss": 0.1396,
      "step": 1211
    },
    {
      "epoch": 6.06,
      "grad_norm": 0.5499593615531921,
      "learning_rate": 2.758e-05,
      "loss": 0.1022,
      "step": 1212
    },
    {
      "epoch": 6.07,
      "grad_norm": 0.6932412981987,
      "learning_rate": 2.7544999999999998e-05,
      "loss": 0.1048,
      "step": 1213
    },
    {
      "epoch": 6.07,
      "grad_norm": 0.5729672312736511,
      "learning_rate": 2.751e-05,
      "loss": 0.1178,
      "step": 1214
    },
    {
      "epoch": 6.08,
      "grad_norm": 0.5183896422386169,
      "learning_rate": 2.7475e-05,
      "loss": 0.0983,
      "step": 1215
    },
    {
      "epoch": 6.08,
      "grad_norm": 0.6464308500289917,
      "learning_rate": 2.7439999999999998e-05,
      "loss": 0.109,
      "step": 1216
    },
    {
      "epoch": 6.08,
      "grad_norm": 1.0982402563095093,
      "learning_rate": 2.7405e-05,
      "loss": 0.1253,
      "step": 1217
    },
    {
      "epoch": 6.09,
      "grad_norm": 0.9102519750595093,
      "learning_rate": 2.7369999999999997e-05,
      "loss": 0.1324,
      "step": 1218
    },
    {
      "epoch": 6.09,
      "grad_norm": 1.6338038444519043,
      "learning_rate": 2.7335e-05,
      "loss": 0.1458,
      "step": 1219
    },
    {
      "epoch": 6.1,
      "grad_norm": 0.8123781085014343,
      "learning_rate": 2.73e-05,
      "loss": 0.1365,
      "step": 1220
    },
    {
      "epoch": 6.11,
      "grad_norm": 1.8731932640075684,
      "learning_rate": 2.7264999999999997e-05,
      "loss": 0.1526,
      "step": 1221
    },
    {
      "epoch": 6.11,
      "grad_norm": 0.6897922158241272,
      "learning_rate": 2.723e-05,
      "loss": 0.1316,
      "step": 1222
    },
    {
      "epoch": 6.12,
      "grad_norm": 0.9152805209159851,
      "learning_rate": 2.7195e-05,
      "loss": 0.1114,
      "step": 1223
    },
    {
      "epoch": 6.12,
      "grad_norm": 0.49231037497520447,
      "learning_rate": 2.7159999999999997e-05,
      "loss": 0.1176,
      "step": 1224
    },
    {
      "epoch": 6.12,
      "grad_norm": 0.7132304906845093,
      "learning_rate": 2.7125e-05,
      "loss": 0.1307,
      "step": 1225
    },
    {
      "epoch": 6.13,
      "grad_norm": 0.9360558390617371,
      "learning_rate": 2.709e-05,
      "loss": 0.1143,
      "step": 1226
    },
    {
      "epoch": 6.13,
      "grad_norm": 0.290017306804657,
      "learning_rate": 2.7054999999999998e-05,
      "loss": 0.0768,
      "step": 1227
    },
    {
      "epoch": 6.14,
      "grad_norm": 5.87481164932251,
      "learning_rate": 2.702e-05,
      "loss": 0.1669,
      "step": 1228
    },
    {
      "epoch": 6.14,
      "grad_norm": 0.4975551962852478,
      "learning_rate": 2.6985e-05,
      "loss": 0.1105,
      "step": 1229
    },
    {
      "epoch": 6.15,
      "grad_norm": 0.584862232208252,
      "learning_rate": 2.6949999999999998e-05,
      "loss": 0.1069,
      "step": 1230
    },
    {
      "epoch": 6.16,
      "grad_norm": 0.6265487670898438,
      "learning_rate": 2.6915e-05,
      "loss": 0.1169,
      "step": 1231
    },
    {
      "epoch": 6.16,
      "grad_norm": 0.8173306584358215,
      "learning_rate": 2.6879999999999997e-05,
      "loss": 0.129,
      "step": 1232
    },
    {
      "epoch": 6.17,
      "grad_norm": 0.7634076476097107,
      "learning_rate": 2.6844999999999998e-05,
      "loss": 0.11,
      "step": 1233
    },
    {
      "epoch": 6.17,
      "grad_norm": 0.7882041931152344,
      "learning_rate": 2.681e-05,
      "loss": 0.1146,
      "step": 1234
    },
    {
      "epoch": 6.17,
      "grad_norm": 0.9339607954025269,
      "learning_rate": 2.6774999999999997e-05,
      "loss": 0.1716,
      "step": 1235
    },
    {
      "epoch": 6.18,
      "grad_norm": 0.6678203344345093,
      "learning_rate": 2.6739999999999998e-05,
      "loss": 0.1057,
      "step": 1236
    },
    {
      "epoch": 6.18,
      "grad_norm": 0.9633174538612366,
      "learning_rate": 2.6705e-05,
      "loss": 0.1579,
      "step": 1237
    },
    {
      "epoch": 6.19,
      "grad_norm": 0.7019947171211243,
      "learning_rate": 2.6669999999999997e-05,
      "loss": 0.1315,
      "step": 1238
    },
    {
      "epoch": 6.2,
      "grad_norm": 0.6012307405471802,
      "learning_rate": 2.6634999999999998e-05,
      "loss": 0.1221,
      "step": 1239
    },
    {
      "epoch": 6.2,
      "grad_norm": 1.792777419090271,
      "learning_rate": 2.66e-05,
      "loss": 0.1674,
      "step": 1240
    },
    {
      "epoch": 6.21,
      "grad_norm": 1.1855076551437378,
      "learning_rate": 2.6564999999999997e-05,
      "loss": 0.0815,
      "step": 1241
    },
    {
      "epoch": 6.21,
      "grad_norm": 0.9825676083564758,
      "learning_rate": 2.653e-05,
      "loss": 0.1171,
      "step": 1242
    },
    {
      "epoch": 6.21,
      "grad_norm": 1.3720558881759644,
      "learning_rate": 2.6495e-05,
      "loss": 0.1094,
      "step": 1243
    },
    {
      "epoch": 6.22,
      "grad_norm": 1.1422334909439087,
      "learning_rate": 2.6459999999999997e-05,
      "loss": 0.1332,
      "step": 1244
    },
    {
      "epoch": 6.22,
      "grad_norm": 0.6669630408287048,
      "learning_rate": 2.6425e-05,
      "loss": 0.114,
      "step": 1245
    },
    {
      "epoch": 6.23,
      "grad_norm": 0.8864805102348328,
      "learning_rate": 2.6389999999999996e-05,
      "loss": 0.15,
      "step": 1246
    },
    {
      "epoch": 6.24,
      "grad_norm": 1.8057215213775635,
      "learning_rate": 2.6354999999999998e-05,
      "loss": 0.1506,
      "step": 1247
    },
    {
      "epoch": 6.24,
      "grad_norm": 1.3193022012710571,
      "learning_rate": 2.632e-05,
      "loss": 0.1597,
      "step": 1248
    },
    {
      "epoch": 6.25,
      "grad_norm": 0.8797791004180908,
      "learning_rate": 2.6284999999999997e-05,
      "loss": 0.1273,
      "step": 1249
    },
    {
      "epoch": 6.25,
      "grad_norm": 0.5218932032585144,
      "learning_rate": 2.6249999999999998e-05,
      "loss": 0.1049,
      "step": 1250
    },
    {
      "epoch": 6.25,
      "grad_norm": 0.9163474440574646,
      "learning_rate": 2.6215e-05,
      "loss": 0.1176,
      "step": 1251
    },
    {
      "epoch": 6.26,
      "grad_norm": 0.4458200931549072,
      "learning_rate": 2.6179999999999997e-05,
      "loss": 0.1034,
      "step": 1252
    },
    {
      "epoch": 6.26,
      "grad_norm": 1.07246732711792,
      "learning_rate": 2.6144999999999998e-05,
      "loss": 0.1202,
      "step": 1253
    },
    {
      "epoch": 6.27,
      "grad_norm": 1.8001095056533813,
      "learning_rate": 2.611e-05,
      "loss": 0.1167,
      "step": 1254
    },
    {
      "epoch": 6.28,
      "grad_norm": 1.007840871810913,
      "learning_rate": 2.6074999999999997e-05,
      "loss": 0.1354,
      "step": 1255
    },
    {
      "epoch": 6.28,
      "grad_norm": 1.3164807558059692,
      "learning_rate": 2.6039999999999998e-05,
      "loss": 0.1123,
      "step": 1256
    },
    {
      "epoch": 6.29,
      "grad_norm": 0.5605547428131104,
      "learning_rate": 2.6004999999999996e-05,
      "loss": 0.1288,
      "step": 1257
    },
    {
      "epoch": 6.29,
      "grad_norm": 0.6189771890640259,
      "learning_rate": 2.5969999999999997e-05,
      "loss": 0.1065,
      "step": 1258
    },
    {
      "epoch": 6.29,
      "grad_norm": 0.5476231575012207,
      "learning_rate": 2.5934999999999998e-05,
      "loss": 0.1031,
      "step": 1259
    },
    {
      "epoch": 6.3,
      "grad_norm": 0.6368083357810974,
      "learning_rate": 2.5899999999999996e-05,
      "loss": 0.1089,
      "step": 1260
    },
    {
      "epoch": 6.3,
      "grad_norm": 0.8825303316116333,
      "learning_rate": 2.5864999999999997e-05,
      "loss": 0.1323,
      "step": 1261
    },
    {
      "epoch": 6.31,
      "grad_norm": 1.0662505626678467,
      "learning_rate": 2.583e-05,
      "loss": 0.1227,
      "step": 1262
    },
    {
      "epoch": 6.32,
      "grad_norm": 1.5222033262252808,
      "learning_rate": 2.5794999999999996e-05,
      "loss": 0.1553,
      "step": 1263
    },
    {
      "epoch": 6.32,
      "grad_norm": 1.2981412410736084,
      "learning_rate": 2.5759999999999997e-05,
      "loss": 0.1137,
      "step": 1264
    },
    {
      "epoch": 6.33,
      "grad_norm": 0.6056637763977051,
      "learning_rate": 2.5725e-05,
      "loss": 0.107,
      "step": 1265
    },
    {
      "epoch": 6.33,
      "grad_norm": 2.8954179286956787,
      "learning_rate": 2.5689999999999996e-05,
      "loss": 0.1483,
      "step": 1266
    },
    {
      "epoch": 6.33,
      "grad_norm": 1.5074924230575562,
      "learning_rate": 2.5654999999999997e-05,
      "loss": 0.124,
      "step": 1267
    },
    {
      "epoch": 6.34,
      "grad_norm": 1.5697588920593262,
      "learning_rate": 2.562e-05,
      "loss": 0.1666,
      "step": 1268
    },
    {
      "epoch": 6.34,
      "grad_norm": 1.104184865951538,
      "learning_rate": 2.5584999999999996e-05,
      "loss": 0.1581,
      "step": 1269
    },
    {
      "epoch": 6.35,
      "grad_norm": 0.7874647974967957,
      "learning_rate": 2.5549999999999998e-05,
      "loss": 0.109,
      "step": 1270
    },
    {
      "epoch": 6.36,
      "grad_norm": 0.6006448864936829,
      "learning_rate": 2.5514999999999995e-05,
      "loss": 0.1129,
      "step": 1271
    },
    {
      "epoch": 6.36,
      "grad_norm": 1.521863579750061,
      "learning_rate": 2.5479999999999997e-05,
      "loss": 0.1222,
      "step": 1272
    },
    {
      "epoch": 6.37,
      "grad_norm": 1.1093755960464478,
      "learning_rate": 2.5444999999999998e-05,
      "loss": 0.1608,
      "step": 1273
    },
    {
      "epoch": 6.37,
      "grad_norm": 0.8783121109008789,
      "learning_rate": 2.5409999999999996e-05,
      "loss": 0.118,
      "step": 1274
    },
    {
      "epoch": 6.38,
      "grad_norm": 0.9582569599151611,
      "learning_rate": 2.5374999999999997e-05,
      "loss": 0.1261,
      "step": 1275
    },
    {
      "epoch": 6.38,
      "grad_norm": 2.4163918495178223,
      "learning_rate": 2.5339999999999998e-05,
      "loss": 0.1432,
      "step": 1276
    },
    {
      "epoch": 6.38,
      "grad_norm": 0.5331364274024963,
      "learning_rate": 2.5304999999999996e-05,
      "loss": 0.1203,
      "step": 1277
    },
    {
      "epoch": 6.39,
      "grad_norm": 2.9132461547851562,
      "learning_rate": 2.5269999999999997e-05,
      "loss": 0.1695,
      "step": 1278
    },
    {
      "epoch": 6.39,
      "grad_norm": 0.545603334903717,
      "learning_rate": 2.5234999999999998e-05,
      "loss": 0.0979,
      "step": 1279
    },
    {
      "epoch": 6.4,
      "grad_norm": 0.6673616170883179,
      "learning_rate": 2.5199999999999996e-05,
      "loss": 0.1227,
      "step": 1280
    },
    {
      "epoch": 6.41,
      "grad_norm": 0.7059404253959656,
      "learning_rate": 2.5164999999999997e-05,
      "loss": 0.1032,
      "step": 1281
    },
    {
      "epoch": 6.41,
      "grad_norm": 0.6727462410926819,
      "learning_rate": 2.5129999999999998e-05,
      "loss": 0.1179,
      "step": 1282
    },
    {
      "epoch": 6.42,
      "grad_norm": 0.8756083250045776,
      "learning_rate": 2.5094999999999996e-05,
      "loss": 0.1191,
      "step": 1283
    },
    {
      "epoch": 6.42,
      "grad_norm": 0.5026716589927673,
      "learning_rate": 2.5059999999999997e-05,
      "loss": 0.1151,
      "step": 1284
    },
    {
      "epoch": 6.42,
      "grad_norm": 0.7158052325248718,
      "learning_rate": 2.5024999999999995e-05,
      "loss": 0.1443,
      "step": 1285
    },
    {
      "epoch": 6.43,
      "grad_norm": 1.049604058265686,
      "learning_rate": 2.4989999999999996e-05,
      "loss": 0.1237,
      "step": 1286
    },
    {
      "epoch": 6.43,
      "grad_norm": 0.44483432173728943,
      "learning_rate": 2.4954999999999997e-05,
      "loss": 0.1049,
      "step": 1287
    },
    {
      "epoch": 6.44,
      "grad_norm": 0.8284680843353271,
      "learning_rate": 2.4919999999999995e-05,
      "loss": 0.1195,
      "step": 1288
    },
    {
      "epoch": 6.45,
      "grad_norm": 1.7187128067016602,
      "learning_rate": 2.4884999999999996e-05,
      "loss": 0.1222,
      "step": 1289
    },
    {
      "epoch": 6.45,
      "grad_norm": 0.6835871338844299,
      "learning_rate": 2.4849999999999998e-05,
      "loss": 0.1256,
      "step": 1290
    },
    {
      "epoch": 6.46,
      "grad_norm": 0.5510591268539429,
      "learning_rate": 2.4814999999999995e-05,
      "loss": 0.1174,
      "step": 1291
    },
    {
      "epoch": 6.46,
      "grad_norm": 0.5995068550109863,
      "learning_rate": 2.4779999999999997e-05,
      "loss": 0.1496,
      "step": 1292
    },
    {
      "epoch": 6.46,
      "grad_norm": 1.5464987754821777,
      "learning_rate": 2.4744999999999998e-05,
      "loss": 0.1472,
      "step": 1293
    },
    {
      "epoch": 6.47,
      "grad_norm": 0.9461184740066528,
      "learning_rate": 2.4709999999999996e-05,
      "loss": 0.1191,
      "step": 1294
    },
    {
      "epoch": 6.47,
      "grad_norm": 0.5875268578529358,
      "learning_rate": 2.4674999999999997e-05,
      "loss": 0.1254,
      "step": 1295
    },
    {
      "epoch": 6.48,
      "grad_norm": 0.6695098280906677,
      "learning_rate": 2.4639999999999998e-05,
      "loss": 0.1097,
      "step": 1296
    },
    {
      "epoch": 6.49,
      "grad_norm": 1.1957318782806396,
      "learning_rate": 2.4604999999999996e-05,
      "loss": 0.1362,
      "step": 1297
    },
    {
      "epoch": 6.49,
      "grad_norm": 1.0158346891403198,
      "learning_rate": 2.4569999999999997e-05,
      "loss": 0.1163,
      "step": 1298
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.6202451586723328,
      "learning_rate": 2.4534999999999995e-05,
      "loss": 0.1083,
      "step": 1299
    },
    {
      "epoch": 6.5,
      "grad_norm": 3.422988176345825,
      "learning_rate": 2.4499999999999996e-05,
      "loss": 0.1442,
      "step": 1300
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.843226969242096,
      "learning_rate": 2.4464999999999997e-05,
      "loss": 0.1375,
      "step": 1301
    },
    {
      "epoch": 6.51,
      "grad_norm": 1.170546531677246,
      "learning_rate": 2.4429999999999995e-05,
      "loss": 0.1288,
      "step": 1302
    },
    {
      "epoch": 6.51,
      "grad_norm": 1.9717975854873657,
      "learning_rate": 2.4394999999999996e-05,
      "loss": 0.1349,
      "step": 1303
    },
    {
      "epoch": 6.52,
      "grad_norm": 1.2287663221359253,
      "learning_rate": 2.4359999999999997e-05,
      "loss": 0.1325,
      "step": 1304
    },
    {
      "epoch": 6.53,
      "grad_norm": 0.5400769710540771,
      "learning_rate": 2.4324999999999995e-05,
      "loss": 0.1031,
      "step": 1305
    },
    {
      "epoch": 6.53,
      "grad_norm": 1.8799834251403809,
      "learning_rate": 2.4289999999999996e-05,
      "loss": 0.1671,
      "step": 1306
    },
    {
      "epoch": 6.54,
      "grad_norm": 1.2480069398880005,
      "learning_rate": 2.4254999999999997e-05,
      "loss": 0.1716,
      "step": 1307
    },
    {
      "epoch": 6.54,
      "grad_norm": 0.5628470778465271,
      "learning_rate": 2.4219999999999995e-05,
      "loss": 0.0977,
      "step": 1308
    },
    {
      "epoch": 6.54,
      "grad_norm": 2.0181944370269775,
      "learning_rate": 2.4184999999999996e-05,
      "loss": 0.1426,
      "step": 1309
    },
    {
      "epoch": 6.55,
      "grad_norm": 2.0943543910980225,
      "learning_rate": 2.4149999999999997e-05,
      "loss": 0.1434,
      "step": 1310
    },
    {
      "epoch": 6.55,
      "grad_norm": 2.463038921356201,
      "learning_rate": 2.4114999999999995e-05,
      "loss": 0.1482,
      "step": 1311
    },
    {
      "epoch": 6.56,
      "grad_norm": 0.8190956115722656,
      "learning_rate": 2.4079999999999996e-05,
      "loss": 0.1348,
      "step": 1312
    },
    {
      "epoch": 6.56,
      "grad_norm": 2.245806932449341,
      "learning_rate": 2.4045e-05,
      "loss": 0.1459,
      "step": 1313
    },
    {
      "epoch": 6.57,
      "grad_norm": 0.7140634655952454,
      "learning_rate": 2.401e-05,
      "loss": 0.2734,
      "step": 1314
    },
    {
      "epoch": 6.58,
      "grad_norm": 1.015775442123413,
      "learning_rate": 2.3975e-05,
      "loss": 0.095,
      "step": 1315
    },
    {
      "epoch": 6.58,
      "grad_norm": 2.980590343475342,
      "learning_rate": 2.394e-05,
      "loss": 0.1466,
      "step": 1316
    },
    {
      "epoch": 6.58,
      "grad_norm": 1.2117855548858643,
      "learning_rate": 2.3905e-05,
      "loss": 0.1061,
      "step": 1317
    },
    {
      "epoch": 6.59,
      "grad_norm": 0.8433499932289124,
      "learning_rate": 2.387e-05,
      "loss": 0.1204,
      "step": 1318
    },
    {
      "epoch": 6.59,
      "grad_norm": 1.6883676052093506,
      "learning_rate": 2.3835e-05,
      "loss": 0.1289,
      "step": 1319
    },
    {
      "epoch": 6.6,
      "grad_norm": 1.1298391819000244,
      "learning_rate": 2.38e-05,
      "loss": 0.1375,
      "step": 1320
    },
    {
      "epoch": 6.61,
      "grad_norm": 1.0089647769927979,
      "learning_rate": 2.3765e-05,
      "loss": 0.1637,
      "step": 1321
    },
    {
      "epoch": 6.61,
      "grad_norm": 0.5942236185073853,
      "learning_rate": 2.3729999999999998e-05,
      "loss": 0.099,
      "step": 1322
    },
    {
      "epoch": 6.62,
      "grad_norm": 0.7775644659996033,
      "learning_rate": 2.3695e-05,
      "loss": 0.1207,
      "step": 1323
    },
    {
      "epoch": 6.62,
      "grad_norm": 1.361794114112854,
      "learning_rate": 2.366e-05,
      "loss": 0.1292,
      "step": 1324
    },
    {
      "epoch": 6.62,
      "grad_norm": 2.6796646118164062,
      "learning_rate": 2.3624999999999998e-05,
      "loss": 0.1309,
      "step": 1325
    },
    {
      "epoch": 6.63,
      "grad_norm": 0.41268885135650635,
      "learning_rate": 2.359e-05,
      "loss": 0.0668,
      "step": 1326
    },
    {
      "epoch": 6.63,
      "grad_norm": 0.7907247543334961,
      "learning_rate": 2.3555e-05,
      "loss": 0.1207,
      "step": 1327
    },
    {
      "epoch": 6.64,
      "grad_norm": 1.4382516145706177,
      "learning_rate": 2.352e-05,
      "loss": 0.1298,
      "step": 1328
    },
    {
      "epoch": 6.64,
      "grad_norm": 0.6779550909996033,
      "learning_rate": 2.3485e-05,
      "loss": 0.0998,
      "step": 1329
    },
    {
      "epoch": 6.65,
      "grad_norm": 0.9584717750549316,
      "learning_rate": 2.345e-05,
      "loss": 0.121,
      "step": 1330
    },
    {
      "epoch": 6.66,
      "grad_norm": 2.112131357192993,
      "learning_rate": 2.3415e-05,
      "loss": 0.1281,
      "step": 1331
    },
    {
      "epoch": 6.66,
      "grad_norm": 0.6312211155891418,
      "learning_rate": 2.338e-05,
      "loss": 0.1224,
      "step": 1332
    },
    {
      "epoch": 6.67,
      "grad_norm": 1.281613826751709,
      "learning_rate": 2.3345e-05,
      "loss": 0.1555,
      "step": 1333
    },
    {
      "epoch": 6.67,
      "grad_norm": 0.8877349495887756,
      "learning_rate": 2.331e-05,
      "loss": 0.1228,
      "step": 1334
    },
    {
      "epoch": 6.67,
      "grad_norm": 0.8628421425819397,
      "learning_rate": 2.3275e-05,
      "loss": 0.1143,
      "step": 1335
    },
    {
      "epoch": 6.68,
      "grad_norm": 0.8894287347793579,
      "learning_rate": 2.3239999999999998e-05,
      "loss": 0.1268,
      "step": 1336
    },
    {
      "epoch": 6.69,
      "grad_norm": 0.8858224749565125,
      "learning_rate": 2.3205e-05,
      "loss": 0.1136,
      "step": 1337
    },
    {
      "epoch": 6.69,
      "grad_norm": 0.606873631477356,
      "learning_rate": 2.317e-05,
      "loss": 0.1084,
      "step": 1338
    },
    {
      "epoch": 6.7,
      "grad_norm": 0.8403276205062866,
      "learning_rate": 2.3134999999999998e-05,
      "loss": 0.138,
      "step": 1339
    },
    {
      "epoch": 6.7,
      "grad_norm": 0.6891989707946777,
      "learning_rate": 2.31e-05,
      "loss": 0.1348,
      "step": 1340
    },
    {
      "epoch": 6.71,
      "grad_norm": 1.6825393438339233,
      "learning_rate": 2.3065e-05,
      "loss": 0.1543,
      "step": 1341
    },
    {
      "epoch": 6.71,
      "grad_norm": 3.3474600315093994,
      "learning_rate": 2.3029999999999998e-05,
      "loss": 0.14,
      "step": 1342
    },
    {
      "epoch": 6.71,
      "grad_norm": 0.5589163899421692,
      "learning_rate": 2.2995e-05,
      "loss": 0.1034,
      "step": 1343
    },
    {
      "epoch": 6.72,
      "grad_norm": 0.7077020406723022,
      "learning_rate": 2.296e-05,
      "loss": 0.117,
      "step": 1344
    },
    {
      "epoch": 6.72,
      "grad_norm": 1.1066166162490845,
      "learning_rate": 2.2924999999999998e-05,
      "loss": 0.1165,
      "step": 1345
    },
    {
      "epoch": 6.73,
      "grad_norm": 0.8191961646080017,
      "learning_rate": 2.289e-05,
      "loss": 0.1302,
      "step": 1346
    },
    {
      "epoch": 6.74,
      "grad_norm": 0.9145432710647583,
      "learning_rate": 2.2855e-05,
      "loss": 0.1483,
      "step": 1347
    },
    {
      "epoch": 6.74,
      "grad_norm": 1.6605671644210815,
      "learning_rate": 2.282e-05,
      "loss": 0.14,
      "step": 1348
    },
    {
      "epoch": 6.75,
      "grad_norm": 0.525940477848053,
      "learning_rate": 2.2785e-05,
      "loss": 0.1069,
      "step": 1349
    },
    {
      "epoch": 6.75,
      "grad_norm": 1.0162596702575684,
      "learning_rate": 2.2749999999999997e-05,
      "loss": 0.1236,
      "step": 1350
    },
    {
      "epoch": 6.75,
      "grad_norm": 0.5407022833824158,
      "learning_rate": 2.2715e-05,
      "loss": 0.098,
      "step": 1351
    },
    {
      "epoch": 6.76,
      "grad_norm": 1.017000436782837,
      "learning_rate": 2.268e-05,
      "loss": 0.1207,
      "step": 1352
    },
    {
      "epoch": 6.76,
      "grad_norm": 1.565625548362732,
      "learning_rate": 2.2644999999999997e-05,
      "loss": 0.1156,
      "step": 1353
    },
    {
      "epoch": 6.77,
      "grad_norm": 0.6311343908309937,
      "learning_rate": 2.261e-05,
      "loss": 0.1169,
      "step": 1354
    },
    {
      "epoch": 6.78,
      "grad_norm": 0.7878478169441223,
      "learning_rate": 2.2575e-05,
      "loss": 0.1342,
      "step": 1355
    },
    {
      "epoch": 6.78,
      "grad_norm": 0.6379416584968567,
      "learning_rate": 2.2539999999999998e-05,
      "loss": 0.1102,
      "step": 1356
    },
    {
      "epoch": 6.79,
      "grad_norm": 1.7816436290740967,
      "learning_rate": 2.2505e-05,
      "loss": 0.1109,
      "step": 1357
    },
    {
      "epoch": 6.79,
      "grad_norm": 0.6739848256111145,
      "learning_rate": 2.247e-05,
      "loss": 0.1086,
      "step": 1358
    },
    {
      "epoch": 6.79,
      "grad_norm": 1.2557997703552246,
      "learning_rate": 2.2434999999999998e-05,
      "loss": 0.1292,
      "step": 1359
    },
    {
      "epoch": 6.8,
      "grad_norm": 0.6966241598129272,
      "learning_rate": 2.24e-05,
      "loss": 0.108,
      "step": 1360
    },
    {
      "epoch": 6.8,
      "grad_norm": 0.46249696612358093,
      "learning_rate": 2.2365e-05,
      "loss": 0.1118,
      "step": 1361
    },
    {
      "epoch": 6.81,
      "grad_norm": 1.0318524837493896,
      "learning_rate": 2.2329999999999998e-05,
      "loss": 0.1223,
      "step": 1362
    },
    {
      "epoch": 6.81,
      "grad_norm": 1.2269927263259888,
      "learning_rate": 2.2295e-05,
      "loss": 0.1273,
      "step": 1363
    },
    {
      "epoch": 6.82,
      "grad_norm": 0.7349037528038025,
      "learning_rate": 2.2259999999999997e-05,
      "loss": 0.1193,
      "step": 1364
    },
    {
      "epoch": 6.83,
      "grad_norm": 1.8415005207061768,
      "learning_rate": 2.2224999999999998e-05,
      "loss": 0.1154,
      "step": 1365
    },
    {
      "epoch": 6.83,
      "grad_norm": 0.5034284591674805,
      "learning_rate": 2.219e-05,
      "loss": 0.1132,
      "step": 1366
    },
    {
      "epoch": 6.83,
      "grad_norm": 2.320376396179199,
      "learning_rate": 2.2154999999999997e-05,
      "loss": 0.1511,
      "step": 1367
    },
    {
      "epoch": 6.84,
      "grad_norm": 0.515878438949585,
      "learning_rate": 2.2119999999999998e-05,
      "loss": 0.1323,
      "step": 1368
    },
    {
      "epoch": 6.84,
      "grad_norm": 0.9029034376144409,
      "learning_rate": 2.2085e-05,
      "loss": 0.1222,
      "step": 1369
    },
    {
      "epoch": 6.85,
      "grad_norm": 1.0608978271484375,
      "learning_rate": 2.2049999999999997e-05,
      "loss": 0.1051,
      "step": 1370
    },
    {
      "epoch": 6.86,
      "grad_norm": 0.47694721817970276,
      "learning_rate": 2.2015e-05,
      "loss": 0.106,
      "step": 1371
    },
    {
      "epoch": 6.86,
      "grad_norm": 1.7340445518493652,
      "learning_rate": 2.198e-05,
      "loss": 0.1596,
      "step": 1372
    },
    {
      "epoch": 6.87,
      "grad_norm": 3.379302740097046,
      "learning_rate": 2.1944999999999997e-05,
      "loss": 0.2018,
      "step": 1373
    },
    {
      "epoch": 6.87,
      "grad_norm": 0.750320315361023,
      "learning_rate": 2.191e-05,
      "loss": 0.1579,
      "step": 1374
    },
    {
      "epoch": 6.88,
      "grad_norm": 0.9278995394706726,
      "learning_rate": 2.1874999999999996e-05,
      "loss": 0.1302,
      "step": 1375
    },
    {
      "epoch": 6.88,
      "grad_norm": 2.0239107608795166,
      "learning_rate": 2.1839999999999998e-05,
      "loss": 0.1063,
      "step": 1376
    },
    {
      "epoch": 6.88,
      "grad_norm": 0.6047641634941101,
      "learning_rate": 2.1805e-05,
      "loss": 0.1196,
      "step": 1377
    },
    {
      "epoch": 6.89,
      "grad_norm": 0.689213216304779,
      "learning_rate": 2.1769999999999997e-05,
      "loss": 0.1353,
      "step": 1378
    },
    {
      "epoch": 6.89,
      "grad_norm": 2.306786060333252,
      "learning_rate": 2.1734999999999998e-05,
      "loss": 0.164,
      "step": 1379
    },
    {
      "epoch": 6.9,
      "grad_norm": 2.0520236492156982,
      "learning_rate": 2.17e-05,
      "loss": 0.1347,
      "step": 1380
    },
    {
      "epoch": 6.91,
      "grad_norm": 1.3286192417144775,
      "learning_rate": 2.1664999999999997e-05,
      "loss": 0.1117,
      "step": 1381
    },
    {
      "epoch": 6.91,
      "grad_norm": 0.6940204501152039,
      "learning_rate": 2.1629999999999998e-05,
      "loss": 0.1144,
      "step": 1382
    },
    {
      "epoch": 6.92,
      "grad_norm": 1.429013729095459,
      "learning_rate": 2.1595e-05,
      "loss": 0.1362,
      "step": 1383
    },
    {
      "epoch": 6.92,
      "grad_norm": 1.0907790660858154,
      "learning_rate": 2.1559999999999997e-05,
      "loss": 0.098,
      "step": 1384
    },
    {
      "epoch": 6.92,
      "grad_norm": 1.4505826234817505,
      "learning_rate": 2.1524999999999998e-05,
      "loss": 0.1362,
      "step": 1385
    },
    {
      "epoch": 6.93,
      "grad_norm": 0.893785297870636,
      "learning_rate": 2.149e-05,
      "loss": 0.1293,
      "step": 1386
    },
    {
      "epoch": 6.94,
      "grad_norm": 0.6502509713172913,
      "learning_rate": 2.1454999999999997e-05,
      "loss": 0.1265,
      "step": 1387
    },
    {
      "epoch": 6.94,
      "grad_norm": 1.5265625715255737,
      "learning_rate": 2.1419999999999998e-05,
      "loss": 0.1561,
      "step": 1388
    },
    {
      "epoch": 6.95,
      "grad_norm": 0.9599230885505676,
      "learning_rate": 2.1384999999999996e-05,
      "loss": 0.1587,
      "step": 1389
    },
    {
      "epoch": 6.95,
      "grad_norm": 0.9466620683670044,
      "learning_rate": 2.1349999999999997e-05,
      "loss": 0.1109,
      "step": 1390
    },
    {
      "epoch": 6.96,
      "grad_norm": 0.8104126453399658,
      "learning_rate": 2.1315e-05,
      "loss": 0.1428,
      "step": 1391
    },
    {
      "epoch": 6.96,
      "grad_norm": 1.8010354042053223,
      "learning_rate": 2.1279999999999996e-05,
      "loss": 0.1545,
      "step": 1392
    },
    {
      "epoch": 6.96,
      "grad_norm": 0.9081329703330994,
      "learning_rate": 2.1244999999999997e-05,
      "loss": 0.1284,
      "step": 1393
    },
    {
      "epoch": 6.97,
      "grad_norm": 0.6927324533462524,
      "learning_rate": 2.121e-05,
      "loss": 0.121,
      "step": 1394
    },
    {
      "epoch": 6.97,
      "grad_norm": 0.8469588756561279,
      "learning_rate": 2.1174999999999996e-05,
      "loss": 0.1373,
      "step": 1395
    },
    {
      "epoch": 6.98,
      "grad_norm": 2.068084955215454,
      "learning_rate": 2.1139999999999997e-05,
      "loss": 0.166,
      "step": 1396
    },
    {
      "epoch": 6.99,
      "grad_norm": 0.7430608868598938,
      "learning_rate": 2.1105e-05,
      "loss": 0.143,
      "step": 1397
    },
    {
      "epoch": 6.99,
      "grad_norm": 0.7342151999473572,
      "learning_rate": 2.1069999999999996e-05,
      "loss": 0.1124,
      "step": 1398
    },
    {
      "epoch": 7.0,
      "grad_norm": 1.1295042037963867,
      "learning_rate": 2.1034999999999998e-05,
      "loss": 0.156,
      "step": 1399
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.8001151084899902,
      "learning_rate": 2.1e-05,
      "loss": 0.1323,
      "step": 1400
    },
    {
      "epoch": 7.0,
      "eval_accuracy_Background": NaN,
      "eval_accuracy_Bag": 0.7200541922180042,
      "eval_accuracy_Belt": 0.048387380107507996,
      "eval_accuracy_Dress": 0.8331280130426157,
      "eval_accuracy_Face": 0.8895515850163588,
      "eval_accuracy_Hair": 0.8845984919110988,
      "eval_accuracy_Hat": 0.6147355865588612,
      "eval_accuracy_Left-arm": 0.8095531046478303,
      "eval_accuracy_Left-leg": 0.8391602211769953,
      "eval_accuracy_Left-shoe": 0.6528333296905849,
      "eval_accuracy_Pants": 0.8671594032395511,
      "eval_accuracy_Right-arm": 0.807182284186961,
      "eval_accuracy_Right-leg": 0.8467086833577917,
      "eval_accuracy_Right-shoe": 0.6319287122237462,
      "eval_accuracy_Scarf": 0.0,
      "eval_accuracy_Skirt": 0.7142639836396254,
      "eval_accuracy_Sunglasses": 0.07539263328403409,
      "eval_accuracy_Upper-clothes": 0.8676733367829853,
      "eval_iou_Background": 0.0,
      "eval_iou_Bag": 0.6433586040084468,
      "eval_iou_Belt": 0.04683647616942409,
      "eval_iou_Dress": 0.6163217448849052,
      "eval_iou_Face": 0.7975908492608925,
      "eval_iou_Hair": 0.772581460062805,
      "eval_iou_Hat": 0.5489235765543974,
      "eval_iou_Left-arm": 0.7314457027160362,
      "eval_iou_Left-leg": 0.7612191781642952,
      "eval_iou_Left-shoe": 0.5263576034457186,
      "eval_iou_Pants": 0.7659976884084115,
      "eval_iou_Right-arm": 0.7245441220115043,
      "eval_iou_Right-leg": 0.7665597368525273,
      "eval_iou_Right-shoe": 0.5171933382598055,
      "eval_iou_Scarf": 0.0,
      "eval_iou_Skirt": 0.6392449453419754,
      "eval_iou_Sunglasses": 0.07529850352577065,
      "eval_iou_Upper-clothes": 0.7692558979317767,
      "eval_loss": 0.16190394759178162,
      "eval_mean_accuracy": 0.6530771141814443,
      "eval_mean_iou": 0.539040523755483,
      "eval_overall_accuracy": 0.8129253901955957,
      "eval_runtime": 28.0237,
      "eval_samples_per_second": 14.274,
      "eval_steps_per_second": 7.137,
      "step": 1400
    },
    {
      "epoch": 7.0,
      "grad_norm": 3.1696372032165527,
      "learning_rate": 2.0964999999999997e-05,
      "loss": 0.1295,
      "step": 1401
    },
    {
      "epoch": 7.01,
      "grad_norm": 0.5513616800308228,
      "learning_rate": 2.0929999999999998e-05,
      "loss": 0.1061,
      "step": 1402
    },
    {
      "epoch": 7.01,
      "grad_norm": 0.895321249961853,
      "learning_rate": 2.0894999999999996e-05,
      "loss": 0.1538,
      "step": 1403
    },
    {
      "epoch": 7.02,
      "grad_norm": 2.489271402359009,
      "learning_rate": 2.0859999999999997e-05,
      "loss": 0.189,
      "step": 1404
    },
    {
      "epoch": 7.03,
      "grad_norm": 1.174955129623413,
      "learning_rate": 2.0824999999999998e-05,
      "loss": 0.1207,
      "step": 1405
    },
    {
      "epoch": 7.03,
      "grad_norm": 2.119006633758545,
      "learning_rate": 2.0789999999999996e-05,
      "loss": 0.1142,
      "step": 1406
    },
    {
      "epoch": 7.04,
      "grad_norm": 0.9641976952552795,
      "learning_rate": 2.0754999999999997e-05,
      "loss": 0.1158,
      "step": 1407
    },
    {
      "epoch": 7.04,
      "grad_norm": 0.9476211667060852,
      "learning_rate": 2.0719999999999998e-05,
      "loss": 0.1187,
      "step": 1408
    },
    {
      "epoch": 7.04,
      "grad_norm": 0.697056770324707,
      "learning_rate": 2.0684999999999996e-05,
      "loss": 0.13,
      "step": 1409
    },
    {
      "epoch": 7.05,
      "grad_norm": 1.2806950807571411,
      "learning_rate": 2.0649999999999997e-05,
      "loss": 0.1218,
      "step": 1410
    },
    {
      "epoch": 7.05,
      "grad_norm": 0.569166898727417,
      "learning_rate": 2.0614999999999998e-05,
      "loss": 0.1235,
      "step": 1411
    },
    {
      "epoch": 7.06,
      "grad_norm": 0.6412906646728516,
      "learning_rate": 2.0579999999999996e-05,
      "loss": 0.1065,
      "step": 1412
    },
    {
      "epoch": 7.07,
      "grad_norm": 1.1901490688323975,
      "learning_rate": 2.0544999999999997e-05,
      "loss": 0.1398,
      "step": 1413
    },
    {
      "epoch": 7.07,
      "grad_norm": 0.8703201413154602,
      "learning_rate": 2.051e-05,
      "loss": 0.1403,
      "step": 1414
    },
    {
      "epoch": 7.08,
      "grad_norm": 1.4734994173049927,
      "learning_rate": 2.0474999999999996e-05,
      "loss": 0.1346,
      "step": 1415
    },
    {
      "epoch": 7.08,
      "grad_norm": 0.6511234045028687,
      "learning_rate": 2.0439999999999997e-05,
      "loss": 0.1172,
      "step": 1416
    },
    {
      "epoch": 7.08,
      "grad_norm": 0.5507923364639282,
      "learning_rate": 2.0404999999999995e-05,
      "loss": 0.1098,
      "step": 1417
    },
    {
      "epoch": 7.09,
      "grad_norm": 1.5429542064666748,
      "learning_rate": 2.0369999999999996e-05,
      "loss": 0.1415,
      "step": 1418
    },
    {
      "epoch": 7.09,
      "grad_norm": 0.4947185814380646,
      "learning_rate": 2.0334999999999998e-05,
      "loss": 0.1065,
      "step": 1419
    },
    {
      "epoch": 7.1,
      "grad_norm": 0.6913614869117737,
      "learning_rate": 2.0299999999999995e-05,
      "loss": 0.1123,
      "step": 1420
    },
    {
      "epoch": 7.11,
      "grad_norm": 1.2447996139526367,
      "learning_rate": 2.0264999999999997e-05,
      "loss": 0.13,
      "step": 1421
    },
    {
      "epoch": 7.11,
      "grad_norm": 0.8268054127693176,
      "learning_rate": 2.0229999999999998e-05,
      "loss": 0.1556,
      "step": 1422
    },
    {
      "epoch": 7.12,
      "grad_norm": 0.4554787576198578,
      "learning_rate": 2.0194999999999996e-05,
      "loss": 0.1034,
      "step": 1423
    },
    {
      "epoch": 7.12,
      "grad_norm": 1.5560581684112549,
      "learning_rate": 2.0159999999999997e-05,
      "loss": 0.1127,
      "step": 1424
    },
    {
      "epoch": 7.12,
      "grad_norm": 0.8296929597854614,
      "learning_rate": 2.0124999999999998e-05,
      "loss": 0.1432,
      "step": 1425
    },
    {
      "epoch": 7.13,
      "grad_norm": 0.9094312787055969,
      "learning_rate": 2.0089999999999996e-05,
      "loss": 0.1108,
      "step": 1426
    },
    {
      "epoch": 7.13,
      "grad_norm": 1.3798631429672241,
      "learning_rate": 2.0054999999999997e-05,
      "loss": 0.1188,
      "step": 1427
    },
    {
      "epoch": 7.14,
      "grad_norm": 0.6889200210571289,
      "learning_rate": 2.0019999999999998e-05,
      "loss": 0.1151,
      "step": 1428
    },
    {
      "epoch": 7.14,
      "grad_norm": 0.477656751871109,
      "learning_rate": 1.9984999999999996e-05,
      "loss": 0.0879,
      "step": 1429
    },
    {
      "epoch": 7.15,
      "grad_norm": 0.4105377495288849,
      "learning_rate": 1.9949999999999997e-05,
      "loss": 0.0984,
      "step": 1430
    },
    {
      "epoch": 7.16,
      "grad_norm": 0.6240053772926331,
      "learning_rate": 1.9914999999999995e-05,
      "loss": 0.1167,
      "step": 1431
    },
    {
      "epoch": 7.16,
      "grad_norm": 0.6876843571662903,
      "learning_rate": 1.9879999999999996e-05,
      "loss": 0.1165,
      "step": 1432
    },
    {
      "epoch": 7.17,
      "grad_norm": 0.8854386210441589,
      "learning_rate": 1.9844999999999997e-05,
      "loss": 0.1335,
      "step": 1433
    },
    {
      "epoch": 7.17,
      "grad_norm": 0.810431182384491,
      "learning_rate": 1.9809999999999995e-05,
      "loss": 0.1198,
      "step": 1434
    },
    {
      "epoch": 7.17,
      "grad_norm": 1.0691570043563843,
      "learning_rate": 1.9774999999999996e-05,
      "loss": 0.1214,
      "step": 1435
    },
    {
      "epoch": 7.18,
      "grad_norm": 0.7976857423782349,
      "learning_rate": 1.9739999999999997e-05,
      "loss": 0.1074,
      "step": 1436
    },
    {
      "epoch": 7.18,
      "grad_norm": 0.7253957986831665,
      "learning_rate": 1.9704999999999995e-05,
      "loss": 0.1181,
      "step": 1437
    },
    {
      "epoch": 7.19,
      "grad_norm": 3.2541563510894775,
      "learning_rate": 1.967e-05,
      "loss": 0.1306,
      "step": 1438
    },
    {
      "epoch": 7.2,
      "grad_norm": 0.7197895646095276,
      "learning_rate": 1.9635e-05,
      "loss": 0.114,
      "step": 1439
    },
    {
      "epoch": 7.2,
      "grad_norm": 1.4009181261062622,
      "learning_rate": 1.96e-05,
      "loss": 0.1246,
      "step": 1440
    },
    {
      "epoch": 7.21,
      "grad_norm": 1.4165775775909424,
      "learning_rate": 1.9565e-05,
      "loss": 0.1428,
      "step": 1441
    },
    {
      "epoch": 7.21,
      "grad_norm": 0.736583411693573,
      "learning_rate": 1.953e-05,
      "loss": 0.1182,
      "step": 1442
    },
    {
      "epoch": 7.21,
      "grad_norm": 3.719261884689331,
      "learning_rate": 1.9495e-05,
      "loss": 0.1849,
      "step": 1443
    },
    {
      "epoch": 7.22,
      "grad_norm": 1.8501057624816895,
      "learning_rate": 1.946e-05,
      "loss": 0.1235,
      "step": 1444
    },
    {
      "epoch": 7.22,
      "grad_norm": 1.2544504404067993,
      "learning_rate": 1.9425e-05,
      "loss": 0.1081,
      "step": 1445
    },
    {
      "epoch": 7.23,
      "grad_norm": 0.5960242748260498,
      "learning_rate": 1.939e-05,
      "loss": 0.1047,
      "step": 1446
    },
    {
      "epoch": 7.24,
      "grad_norm": 2.202291488647461,
      "learning_rate": 1.9355e-05,
      "loss": 0.133,
      "step": 1447
    },
    {
      "epoch": 7.24,
      "grad_norm": 0.901694118976593,
      "learning_rate": 1.932e-05,
      "loss": 0.1439,
      "step": 1448
    },
    {
      "epoch": 7.25,
      "grad_norm": 0.7744078040122986,
      "learning_rate": 1.9285e-05,
      "loss": 0.1401,
      "step": 1449
    },
    {
      "epoch": 7.25,
      "grad_norm": 0.6420630216598511,
      "learning_rate": 1.925e-05,
      "loss": 0.1028,
      "step": 1450
    },
    {
      "epoch": 7.25,
      "grad_norm": 2.6364803314208984,
      "learning_rate": 1.9215e-05,
      "loss": 0.1036,
      "step": 1451
    },
    {
      "epoch": 7.26,
      "grad_norm": 0.6576175689697266,
      "learning_rate": 1.918e-05,
      "loss": 0.1291,
      "step": 1452
    },
    {
      "epoch": 7.26,
      "grad_norm": 1.0927034616470337,
      "learning_rate": 1.9145e-05,
      "loss": 0.137,
      "step": 1453
    },
    {
      "epoch": 7.27,
      "grad_norm": 1.3567918539047241,
      "learning_rate": 1.9109999999999998e-05,
      "loss": 0.1279,
      "step": 1454
    },
    {
      "epoch": 7.28,
      "grad_norm": 0.74375981092453,
      "learning_rate": 1.9075e-05,
      "loss": 0.1235,
      "step": 1455
    },
    {
      "epoch": 7.28,
      "grad_norm": 0.5832923650741577,
      "learning_rate": 1.904e-05,
      "loss": 0.1122,
      "step": 1456
    },
    {
      "epoch": 7.29,
      "grad_norm": 1.3334406614303589,
      "learning_rate": 1.9005e-05,
      "loss": 0.1137,
      "step": 1457
    },
    {
      "epoch": 7.29,
      "grad_norm": 2.011885404586792,
      "learning_rate": 1.897e-05,
      "loss": 0.1787,
      "step": 1458
    },
    {
      "epoch": 7.29,
      "grad_norm": 1.1277415752410889,
      "learning_rate": 1.8935e-05,
      "loss": 0.1306,
      "step": 1459
    },
    {
      "epoch": 7.3,
      "grad_norm": 1.0283360481262207,
      "learning_rate": 1.89e-05,
      "loss": 0.1194,
      "step": 1460
    },
    {
      "epoch": 7.3,
      "grad_norm": 0.48437219858169556,
      "learning_rate": 1.8865e-05,
      "loss": 0.1254,
      "step": 1461
    },
    {
      "epoch": 7.31,
      "grad_norm": 1.203565001487732,
      "learning_rate": 1.883e-05,
      "loss": 0.1101,
      "step": 1462
    },
    {
      "epoch": 7.32,
      "grad_norm": 1.163689136505127,
      "learning_rate": 1.8795e-05,
      "loss": 0.124,
      "step": 1463
    },
    {
      "epoch": 7.32,
      "grad_norm": 0.6091556549072266,
      "learning_rate": 1.876e-05,
      "loss": 0.1212,
      "step": 1464
    },
    {
      "epoch": 7.33,
      "grad_norm": 2.464374303817749,
      "learning_rate": 1.8725e-05,
      "loss": 0.1314,
      "step": 1465
    },
    {
      "epoch": 7.33,
      "grad_norm": 0.5912104845046997,
      "learning_rate": 1.869e-05,
      "loss": 0.1519,
      "step": 1466
    },
    {
      "epoch": 7.33,
      "grad_norm": 1.1106553077697754,
      "learning_rate": 1.8655e-05,
      "loss": 0.1352,
      "step": 1467
    },
    {
      "epoch": 7.34,
      "grad_norm": 1.150430679321289,
      "learning_rate": 1.8619999999999998e-05,
      "loss": 0.1263,
      "step": 1468
    },
    {
      "epoch": 7.34,
      "grad_norm": 0.6852893233299255,
      "learning_rate": 1.8585e-05,
      "loss": 0.1072,
      "step": 1469
    },
    {
      "epoch": 7.35,
      "grad_norm": 1.2009881734848022,
      "learning_rate": 1.855e-05,
      "loss": 0.1297,
      "step": 1470
    },
    {
      "epoch": 7.36,
      "grad_norm": 1.1194370985031128,
      "learning_rate": 1.8514999999999998e-05,
      "loss": 0.1232,
      "step": 1471
    },
    {
      "epoch": 7.36,
      "grad_norm": 3.0495307445526123,
      "learning_rate": 1.848e-05,
      "loss": 0.1151,
      "step": 1472
    },
    {
      "epoch": 7.37,
      "grad_norm": 0.7089236974716187,
      "learning_rate": 1.8445e-05,
      "loss": 0.1409,
      "step": 1473
    },
    {
      "epoch": 7.37,
      "grad_norm": 1.455675721168518,
      "learning_rate": 1.8409999999999998e-05,
      "loss": 0.1157,
      "step": 1474
    },
    {
      "epoch": 7.38,
      "grad_norm": 1.4643256664276123,
      "learning_rate": 1.8375e-05,
      "loss": 0.148,
      "step": 1475
    },
    {
      "epoch": 7.38,
      "grad_norm": 1.350313425064087,
      "learning_rate": 1.834e-05,
      "loss": 0.1292,
      "step": 1476
    },
    {
      "epoch": 7.38,
      "grad_norm": 1.1272785663604736,
      "learning_rate": 1.8305e-05,
      "loss": 0.1057,
      "step": 1477
    },
    {
      "epoch": 7.39,
      "grad_norm": 0.5788482427597046,
      "learning_rate": 1.827e-05,
      "loss": 0.1181,
      "step": 1478
    },
    {
      "epoch": 7.39,
      "grad_norm": 0.4531187117099762,
      "learning_rate": 1.8235e-05,
      "loss": 0.0912,
      "step": 1479
    },
    {
      "epoch": 7.4,
      "grad_norm": 0.6032102108001709,
      "learning_rate": 1.82e-05,
      "loss": 0.1229,
      "step": 1480
    },
    {
      "epoch": 7.41,
      "grad_norm": 0.3272557258605957,
      "learning_rate": 1.8165e-05,
      "loss": 0.0911,
      "step": 1481
    },
    {
      "epoch": 7.41,
      "grad_norm": 0.5838460326194763,
      "learning_rate": 1.8129999999999998e-05,
      "loss": 0.0974,
      "step": 1482
    },
    {
      "epoch": 7.42,
      "grad_norm": 1.1387443542480469,
      "learning_rate": 1.8095e-05,
      "loss": 0.1183,
      "step": 1483
    },
    {
      "epoch": 7.42,
      "grad_norm": 0.37128058075904846,
      "learning_rate": 1.806e-05,
      "loss": 0.109,
      "step": 1484
    },
    {
      "epoch": 7.42,
      "grad_norm": 1.1207736730575562,
      "learning_rate": 1.8024999999999998e-05,
      "loss": 0.1142,
      "step": 1485
    },
    {
      "epoch": 7.43,
      "grad_norm": 2.1204962730407715,
      "learning_rate": 1.799e-05,
      "loss": 0.1386,
      "step": 1486
    },
    {
      "epoch": 7.43,
      "grad_norm": 0.7089582085609436,
      "learning_rate": 1.7955e-05,
      "loss": 0.1229,
      "step": 1487
    },
    {
      "epoch": 7.44,
      "grad_norm": 0.5803414583206177,
      "learning_rate": 1.7919999999999998e-05,
      "loss": 0.0836,
      "step": 1488
    },
    {
      "epoch": 7.45,
      "grad_norm": 0.6702739000320435,
      "learning_rate": 1.7885e-05,
      "loss": 0.1102,
      "step": 1489
    },
    {
      "epoch": 7.45,
      "grad_norm": 0.9415079951286316,
      "learning_rate": 1.785e-05,
      "loss": 0.1248,
      "step": 1490
    },
    {
      "epoch": 7.46,
      "grad_norm": 2.3695731163024902,
      "learning_rate": 1.7814999999999998e-05,
      "loss": 0.1616,
      "step": 1491
    },
    {
      "epoch": 7.46,
      "grad_norm": 0.9406353831291199,
      "learning_rate": 1.778e-05,
      "loss": 0.1149,
      "step": 1492
    },
    {
      "epoch": 7.46,
      "grad_norm": 0.565085232257843,
      "learning_rate": 1.7745e-05,
      "loss": 0.1029,
      "step": 1493
    },
    {
      "epoch": 7.47,
      "grad_norm": 1.671873688697815,
      "learning_rate": 1.7709999999999998e-05,
      "loss": 0.139,
      "step": 1494
    },
    {
      "epoch": 7.47,
      "grad_norm": 0.48598340153694153,
      "learning_rate": 1.7675e-05,
      "loss": 0.1041,
      "step": 1495
    },
    {
      "epoch": 7.48,
      "grad_norm": 0.6491216421127319,
      "learning_rate": 1.7639999999999997e-05,
      "loss": 0.1251,
      "step": 1496
    },
    {
      "epoch": 7.49,
      "grad_norm": 0.5888466835021973,
      "learning_rate": 1.7605e-05,
      "loss": 0.0998,
      "step": 1497
    },
    {
      "epoch": 7.49,
      "grad_norm": 1.215665578842163,
      "learning_rate": 1.757e-05,
      "loss": 0.1128,
      "step": 1498
    },
    {
      "epoch": 7.5,
      "grad_norm": 0.7572053074836731,
      "learning_rate": 1.7534999999999997e-05,
      "loss": 0.1036,
      "step": 1499
    },
    {
      "epoch": 7.5,
      "grad_norm": 1.195788025856018,
      "learning_rate": 1.75e-05,
      "loss": 0.1296,
      "step": 1500
    },
    {
      "epoch": 7.5,
      "grad_norm": 0.7038269639015198,
      "learning_rate": 1.7465e-05,
      "loss": 0.0912,
      "step": 1501
    },
    {
      "epoch": 7.51,
      "grad_norm": 0.6462914347648621,
      "learning_rate": 1.7429999999999997e-05,
      "loss": 0.1024,
      "step": 1502
    },
    {
      "epoch": 7.51,
      "grad_norm": 1.4026955366134644,
      "learning_rate": 1.7395e-05,
      "loss": 0.1419,
      "step": 1503
    },
    {
      "epoch": 7.52,
      "grad_norm": 0.488861083984375,
      "learning_rate": 1.736e-05,
      "loss": 0.0915,
      "step": 1504
    },
    {
      "epoch": 7.53,
      "grad_norm": 0.6349617838859558,
      "learning_rate": 1.7324999999999998e-05,
      "loss": 0.1118,
      "step": 1505
    },
    {
      "epoch": 7.53,
      "grad_norm": 0.4590386748313904,
      "learning_rate": 1.729e-05,
      "loss": 0.0963,
      "step": 1506
    },
    {
      "epoch": 7.54,
      "grad_norm": 1.8530049324035645,
      "learning_rate": 1.7254999999999997e-05,
      "loss": 0.1347,
      "step": 1507
    },
    {
      "epoch": 7.54,
      "grad_norm": 0.980964183807373,
      "learning_rate": 1.7219999999999998e-05,
      "loss": 0.1336,
      "step": 1508
    },
    {
      "epoch": 7.54,
      "grad_norm": 1.422286033630371,
      "learning_rate": 1.7185e-05,
      "loss": 0.1152,
      "step": 1509
    },
    {
      "epoch": 7.55,
      "grad_norm": 1.2307177782058716,
      "learning_rate": 1.7149999999999997e-05,
      "loss": 0.103,
      "step": 1510
    },
    {
      "epoch": 7.55,
      "grad_norm": 0.7817375659942627,
      "learning_rate": 1.7114999999999998e-05,
      "loss": 0.0881,
      "step": 1511
    },
    {
      "epoch": 7.56,
      "grad_norm": 0.6957846283912659,
      "learning_rate": 1.708e-05,
      "loss": 0.1181,
      "step": 1512
    },
    {
      "epoch": 7.56,
      "grad_norm": 1.513075828552246,
      "learning_rate": 1.7044999999999997e-05,
      "loss": 0.1073,
      "step": 1513
    },
    {
      "epoch": 7.57,
      "grad_norm": 0.8393251299858093,
      "learning_rate": 1.7009999999999998e-05,
      "loss": 0.2604,
      "step": 1514
    },
    {
      "epoch": 7.58,
      "grad_norm": 0.7090579867362976,
      "learning_rate": 1.6975e-05,
      "loss": 0.1306,
      "step": 1515
    },
    {
      "epoch": 7.58,
      "grad_norm": 2.5312347412109375,
      "learning_rate": 1.6939999999999997e-05,
      "loss": 0.1512,
      "step": 1516
    },
    {
      "epoch": 7.58,
      "grad_norm": 0.8674631714820862,
      "learning_rate": 1.6904999999999998e-05,
      "loss": 0.1285,
      "step": 1517
    },
    {
      "epoch": 7.59,
      "grad_norm": 0.7696776390075684,
      "learning_rate": 1.687e-05,
      "loss": 0.1253,
      "step": 1518
    },
    {
      "epoch": 7.59,
      "grad_norm": 0.776680052280426,
      "learning_rate": 1.6834999999999997e-05,
      "loss": 0.113,
      "step": 1519
    },
    {
      "epoch": 7.6,
      "grad_norm": 2.188297748565674,
      "learning_rate": 1.68e-05,
      "loss": 0.1194,
      "step": 1520
    },
    {
      "epoch": 7.61,
      "grad_norm": 1.2076174020767212,
      "learning_rate": 1.6764999999999996e-05,
      "loss": 0.1318,
      "step": 1521
    },
    {
      "epoch": 7.61,
      "grad_norm": 0.9913622736930847,
      "learning_rate": 1.6729999999999997e-05,
      "loss": 0.1149,
      "step": 1522
    },
    {
      "epoch": 7.62,
      "grad_norm": 1.6241940259933472,
      "learning_rate": 1.6695e-05,
      "loss": 0.118,
      "step": 1523
    },
    {
      "epoch": 7.62,
      "grad_norm": 0.5804155468940735,
      "learning_rate": 1.6659999999999996e-05,
      "loss": 0.1067,
      "step": 1524
    },
    {
      "epoch": 7.62,
      "grad_norm": 0.455125093460083,
      "learning_rate": 1.6624999999999998e-05,
      "loss": 0.0992,
      "step": 1525
    },
    {
      "epoch": 7.63,
      "grad_norm": 0.7507973909378052,
      "learning_rate": 1.659e-05,
      "loss": 0.1414,
      "step": 1526
    },
    {
      "epoch": 7.63,
      "grad_norm": 0.9232019186019897,
      "learning_rate": 1.6554999999999997e-05,
      "loss": 0.1275,
      "step": 1527
    },
    {
      "epoch": 7.64,
      "grad_norm": 0.8296252489089966,
      "learning_rate": 1.6519999999999998e-05,
      "loss": 0.1317,
      "step": 1528
    },
    {
      "epoch": 7.64,
      "grad_norm": 0.5009075403213501,
      "learning_rate": 1.6485e-05,
      "loss": 0.1142,
      "step": 1529
    },
    {
      "epoch": 7.65,
      "grad_norm": 2.2318031787872314,
      "learning_rate": 1.6449999999999997e-05,
      "loss": 0.1347,
      "step": 1530
    },
    {
      "epoch": 7.66,
      "grad_norm": 0.7351543307304382,
      "learning_rate": 1.6414999999999998e-05,
      "loss": 0.0899,
      "step": 1531
    },
    {
      "epoch": 7.66,
      "grad_norm": 1.2535442113876343,
      "learning_rate": 1.638e-05,
      "loss": 0.1289,
      "step": 1532
    },
    {
      "epoch": 7.67,
      "grad_norm": 0.8737400770187378,
      "learning_rate": 1.6345e-05,
      "loss": 0.1373,
      "step": 1533
    },
    {
      "epoch": 7.67,
      "grad_norm": 0.5814316868782043,
      "learning_rate": 1.6309999999999998e-05,
      "loss": 0.1398,
      "step": 1534
    },
    {
      "epoch": 7.67,
      "grad_norm": 1.176063895225525,
      "learning_rate": 1.6275e-05,
      "loss": 0.1381,
      "step": 1535
    },
    {
      "epoch": 7.68,
      "grad_norm": 1.0854872465133667,
      "learning_rate": 1.624e-05,
      "loss": 0.1466,
      "step": 1536
    },
    {
      "epoch": 7.69,
      "grad_norm": 1.3033900260925293,
      "learning_rate": 1.6204999999999998e-05,
      "loss": 0.1175,
      "step": 1537
    },
    {
      "epoch": 7.69,
      "grad_norm": 1.182752251625061,
      "learning_rate": 1.617e-05,
      "loss": 0.133,
      "step": 1538
    },
    {
      "epoch": 7.7,
      "grad_norm": 1.3097907304763794,
      "learning_rate": 1.6135e-05,
      "loss": 0.1464,
      "step": 1539
    },
    {
      "epoch": 7.7,
      "grad_norm": 1.1213853359222412,
      "learning_rate": 1.61e-05,
      "loss": 0.1206,
      "step": 1540
    },
    {
      "epoch": 7.71,
      "grad_norm": 0.9442890286445618,
      "learning_rate": 1.6065e-05,
      "loss": 0.144,
      "step": 1541
    },
    {
      "epoch": 7.71,
      "grad_norm": 0.5762352347373962,
      "learning_rate": 1.603e-05,
      "loss": 0.1017,
      "step": 1542
    },
    {
      "epoch": 7.71,
      "grad_norm": 1.3699320554733276,
      "learning_rate": 1.5995e-05,
      "loss": 0.1619,
      "step": 1543
    },
    {
      "epoch": 7.72,
      "grad_norm": 0.7344129681587219,
      "learning_rate": 1.596e-05,
      "loss": 0.143,
      "step": 1544
    },
    {
      "epoch": 7.72,
      "grad_norm": 2.065129518508911,
      "learning_rate": 1.5925e-05,
      "loss": 0.1506,
      "step": 1545
    },
    {
      "epoch": 7.73,
      "grad_norm": 0.9830597639083862,
      "learning_rate": 1.589e-05,
      "loss": 0.1275,
      "step": 1546
    },
    {
      "epoch": 7.74,
      "grad_norm": 0.521365225315094,
      "learning_rate": 1.5855e-05,
      "loss": 0.1185,
      "step": 1547
    },
    {
      "epoch": 7.74,
      "grad_norm": 0.5746738910675049,
      "learning_rate": 1.5819999999999998e-05,
      "loss": 0.1341,
      "step": 1548
    },
    {
      "epoch": 7.75,
      "grad_norm": 1.3512948751449585,
      "learning_rate": 1.5785e-05,
      "loss": 0.1324,
      "step": 1549
    },
    {
      "epoch": 7.75,
      "grad_norm": 0.8143852949142456,
      "learning_rate": 1.575e-05,
      "loss": 0.1414,
      "step": 1550
    },
    {
      "epoch": 7.75,
      "grad_norm": 1.8382889032363892,
      "learning_rate": 1.5714999999999998e-05,
      "loss": 0.1597,
      "step": 1551
    },
    {
      "epoch": 7.76,
      "grad_norm": 0.4740062952041626,
      "learning_rate": 1.568e-05,
      "loss": 0.09,
      "step": 1552
    },
    {
      "epoch": 7.76,
      "grad_norm": 1.3731943368911743,
      "learning_rate": 1.5645e-05,
      "loss": 0.1497,
      "step": 1553
    },
    {
      "epoch": 7.77,
      "grad_norm": 0.6358129382133484,
      "learning_rate": 1.5609999999999998e-05,
      "loss": 0.1121,
      "step": 1554
    },
    {
      "epoch": 7.78,
      "grad_norm": 1.479042410850525,
      "learning_rate": 1.5575e-05,
      "loss": 0.1276,
      "step": 1555
    },
    {
      "epoch": 7.78,
      "grad_norm": 0.9384174346923828,
      "learning_rate": 1.554e-05,
      "loss": 0.1282,
      "step": 1556
    },
    {
      "epoch": 7.79,
      "grad_norm": 0.357231080532074,
      "learning_rate": 1.5504999999999998e-05,
      "loss": 0.0945,
      "step": 1557
    },
    {
      "epoch": 7.79,
      "grad_norm": 0.5777512192726135,
      "learning_rate": 1.547e-05,
      "loss": 0.0979,
      "step": 1558
    },
    {
      "epoch": 7.79,
      "grad_norm": 0.4476894736289978,
      "learning_rate": 1.5435e-05,
      "loss": 0.0888,
      "step": 1559
    },
    {
      "epoch": 7.8,
      "grad_norm": 1.1921660900115967,
      "learning_rate": 1.5399999999999998e-05,
      "loss": 0.124,
      "step": 1560
    },
    {
      "epoch": 7.8,
      "grad_norm": 0.9988597631454468,
      "learning_rate": 1.5365e-05,
      "loss": 0.1255,
      "step": 1561
    },
    {
      "epoch": 7.81,
      "grad_norm": 0.8926056623458862,
      "learning_rate": 1.5329999999999997e-05,
      "loss": 0.1294,
      "step": 1562
    },
    {
      "epoch": 7.81,
      "grad_norm": 3.5886616706848145,
      "learning_rate": 1.5295e-05,
      "loss": 0.1421,
      "step": 1563
    },
    {
      "epoch": 7.82,
      "grad_norm": 1.6366732120513916,
      "learning_rate": 1.526e-05,
      "loss": 0.1173,
      "step": 1564
    },
    {
      "epoch": 7.83,
      "grad_norm": 0.527549147605896,
      "learning_rate": 1.5224999999999999e-05,
      "loss": 0.0968,
      "step": 1565
    },
    {
      "epoch": 7.83,
      "grad_norm": 0.5487447381019592,
      "learning_rate": 1.5189999999999999e-05,
      "loss": 0.1057,
      "step": 1566
    },
    {
      "epoch": 7.83,
      "grad_norm": 2.1450912952423096,
      "learning_rate": 1.5154999999999998e-05,
      "loss": 0.1435,
      "step": 1567
    },
    {
      "epoch": 7.84,
      "grad_norm": 0.6070044636726379,
      "learning_rate": 1.512e-05,
      "loss": 0.0993,
      "step": 1568
    },
    {
      "epoch": 7.84,
      "grad_norm": 0.9147946834564209,
      "learning_rate": 1.5084999999999999e-05,
      "loss": 0.1181,
      "step": 1569
    },
    {
      "epoch": 7.85,
      "grad_norm": 1.3824383020401,
      "learning_rate": 1.5049999999999998e-05,
      "loss": 0.1378,
      "step": 1570
    },
    {
      "epoch": 7.86,
      "grad_norm": 1.2923099994659424,
      "learning_rate": 1.5014999999999998e-05,
      "loss": 0.1547,
      "step": 1571
    },
    {
      "epoch": 7.86,
      "grad_norm": 1.327723741531372,
      "learning_rate": 1.4979999999999999e-05,
      "loss": 0.2177,
      "step": 1572
    },
    {
      "epoch": 7.87,
      "grad_norm": 1.4056190252304077,
      "learning_rate": 1.4944999999999998e-05,
      "loss": 0.094,
      "step": 1573
    },
    {
      "epoch": 7.87,
      "grad_norm": 0.43649452924728394,
      "learning_rate": 1.4909999999999998e-05,
      "loss": 0.1001,
      "step": 1574
    },
    {
      "epoch": 7.88,
      "grad_norm": 0.7152238488197327,
      "learning_rate": 1.4874999999999999e-05,
      "loss": 0.1445,
      "step": 1575
    },
    {
      "epoch": 7.88,
      "grad_norm": 0.8804264068603516,
      "learning_rate": 1.4839999999999999e-05,
      "loss": 0.1406,
      "step": 1576
    },
    {
      "epoch": 7.88,
      "grad_norm": 0.7131468653678894,
      "learning_rate": 1.4804999999999998e-05,
      "loss": 0.1176,
      "step": 1577
    },
    {
      "epoch": 7.89,
      "grad_norm": 1.293209433555603,
      "learning_rate": 1.4769999999999997e-05,
      "loss": 0.1477,
      "step": 1578
    },
    {
      "epoch": 7.89,
      "grad_norm": 0.8001533150672913,
      "learning_rate": 1.4734999999999999e-05,
      "loss": 0.1099,
      "step": 1579
    },
    {
      "epoch": 7.9,
      "grad_norm": 0.5505072474479675,
      "learning_rate": 1.4699999999999998e-05,
      "loss": 0.1137,
      "step": 1580
    },
    {
      "epoch": 7.91,
      "grad_norm": 0.5562361478805542,
      "learning_rate": 1.4664999999999998e-05,
      "loss": 0.112,
      "step": 1581
    },
    {
      "epoch": 7.91,
      "grad_norm": 0.9655894041061401,
      "learning_rate": 1.4629999999999999e-05,
      "loss": 0.1287,
      "step": 1582
    },
    {
      "epoch": 7.92,
      "grad_norm": 0.842542290687561,
      "learning_rate": 1.4594999999999998e-05,
      "loss": 0.1428,
      "step": 1583
    },
    {
      "epoch": 7.92,
      "grad_norm": 1.9354616403579712,
      "learning_rate": 1.4559999999999998e-05,
      "loss": 0.1629,
      "step": 1584
    },
    {
      "epoch": 7.92,
      "grad_norm": 0.5008474588394165,
      "learning_rate": 1.4524999999999997e-05,
      "loss": 0.1004,
      "step": 1585
    },
    {
      "epoch": 7.93,
      "grad_norm": 0.8600739240646362,
      "learning_rate": 1.4489999999999998e-05,
      "loss": 0.116,
      "step": 1586
    },
    {
      "epoch": 7.94,
      "grad_norm": 0.46326151490211487,
      "learning_rate": 1.4454999999999998e-05,
      "loss": 0.1051,
      "step": 1587
    },
    {
      "epoch": 7.94,
      "grad_norm": 0.42241016030311584,
      "learning_rate": 1.4419999999999997e-05,
      "loss": 0.1007,
      "step": 1588
    },
    {
      "epoch": 7.95,
      "grad_norm": 0.45802247524261475,
      "learning_rate": 1.4384999999999999e-05,
      "loss": 0.1072,
      "step": 1589
    },
    {
      "epoch": 7.95,
      "grad_norm": 0.6363283395767212,
      "learning_rate": 1.4349999999999998e-05,
      "loss": 0.1075,
      "step": 1590
    },
    {
      "epoch": 7.96,
      "grad_norm": 0.6944412589073181,
      "learning_rate": 1.4314999999999998e-05,
      "loss": 0.0852,
      "step": 1591
    },
    {
      "epoch": 7.96,
      "grad_norm": 0.6331358551979065,
      "learning_rate": 1.4279999999999997e-05,
      "loss": 0.1307,
      "step": 1592
    },
    {
      "epoch": 7.96,
      "grad_norm": 1.4380499124526978,
      "learning_rate": 1.4244999999999998e-05,
      "loss": 0.1705,
      "step": 1593
    },
    {
      "epoch": 7.97,
      "grad_norm": 0.9958057999610901,
      "learning_rate": 1.421e-05,
      "loss": 0.1293,
      "step": 1594
    },
    {
      "epoch": 7.97,
      "grad_norm": 1.9259883165359497,
      "learning_rate": 1.4174999999999999e-05,
      "loss": 0.1277,
      "step": 1595
    },
    {
      "epoch": 7.98,
      "grad_norm": 1.5490411520004272,
      "learning_rate": 1.414e-05,
      "loss": 0.1813,
      "step": 1596
    },
    {
      "epoch": 7.99,
      "grad_norm": 1.161142349243164,
      "learning_rate": 1.4105e-05,
      "loss": 0.1145,
      "step": 1597
    },
    {
      "epoch": 7.99,
      "grad_norm": 2.1490519046783447,
      "learning_rate": 1.4069999999999999e-05,
      "loss": 0.1201,
      "step": 1598
    },
    {
      "epoch": 8.0,
      "grad_norm": 2.423523426055908,
      "learning_rate": 1.4035e-05,
      "loss": 0.1091,
      "step": 1599
    },
    {
      "epoch": 8.0,
      "grad_norm": 1.4451016187667847,
      "learning_rate": 1.4e-05,
      "loss": 0.1235,
      "step": 1600
    },
    {
      "epoch": 8.0,
      "eval_accuracy_Background": NaN,
      "eval_accuracy_Bag": 0.7409291541348546,
      "eval_accuracy_Belt": 0.08174647788356815,
      "eval_accuracy_Dress": 0.8185924087720087,
      "eval_accuracy_Face": 0.8987334921436261,
      "eval_accuracy_Hair": 0.8675146792807987,
      "eval_accuracy_Hat": 0.5935394933664441,
      "eval_accuracy_Left-arm": 0.8192826153557276,
      "eval_accuracy_Left-leg": 0.8838118756684658,
      "eval_accuracy_Left-shoe": 0.6562392994266314,
      "eval_accuracy_Pants": 0.8528655777986797,
      "eval_accuracy_Right-arm": 0.8201640035233752,
      "eval_accuracy_Right-leg": 0.8541213058629131,
      "eval_accuracy_Right-shoe": 0.6193352651036889,
      "eval_accuracy_Scarf": 0.0011822935419902299,
      "eval_accuracy_Skirt": 0.7150045067741087,
      "eval_accuracy_Sunglasses": 0.1278082963588985,
      "eval_accuracy_Upper-clothes": 0.8806244297377093,
      "eval_iou_Background": 0.0,
      "eval_iou_Bag": 0.6577563043417382,
      "eval_iou_Belt": 0.07726857617268576,
      "eval_iou_Dress": 0.6191855060202326,
      "eval_iou_Face": 0.8001636780736883,
      "eval_iou_Hair": 0.7745026099593618,
      "eval_iou_Hat": 0.5417133271168972,
      "eval_iou_Left-arm": 0.7325256331948631,
      "eval_iou_Left-leg": 0.7577178009852105,
      "eval_iou_Left-shoe": 0.5306841764945879,
      "eval_iou_Pants": 0.7596048827544786,
      "eval_iou_Right-arm": 0.7314639949398659,
      "eval_iou_Right-leg": 0.7632218461649658,
      "eval_iou_Right-shoe": 0.5155959806169427,
      "eval_iou_Scarf": 0.0011817029413660487,
      "eval_iou_Skirt": 0.6469169492862213,
      "eval_iou_Sunglasses": 0.12728834958266114,
      "eval_iou_Upper-clothes": 0.7732510675542456,
      "eval_loss": 0.1611548811197281,
      "eval_mean_accuracy": 0.6606761867490287,
      "eval_mean_iou": 0.5450023547888896,
      "eval_overall_accuracy": 0.8160420644489883,
      "eval_runtime": 28.125,
      "eval_samples_per_second": 14.222,
      "eval_steps_per_second": 7.111,
      "step": 1600
    },
    {
      "epoch": 8.01,
      "grad_norm": 0.621443510055542,
      "learning_rate": 1.3965e-05,
      "loss": 0.0864,
      "step": 1601
    },
    {
      "epoch": 8.01,
      "grad_norm": 0.6300277709960938,
      "learning_rate": 1.3929999999999999e-05,
      "loss": 0.1294,
      "step": 1602
    },
    {
      "epoch": 8.02,
      "grad_norm": 0.7789126634597778,
      "learning_rate": 1.3895e-05,
      "loss": 0.1027,
      "step": 1603
    },
    {
      "epoch": 8.02,
      "grad_norm": 0.8362064957618713,
      "learning_rate": 1.386e-05,
      "loss": 0.1154,
      "step": 1604
    },
    {
      "epoch": 8.03,
      "grad_norm": 0.939181387424469,
      "learning_rate": 1.3824999999999999e-05,
      "loss": 0.1405,
      "step": 1605
    },
    {
      "epoch": 8.03,
      "grad_norm": 0.5488255620002747,
      "learning_rate": 1.379e-05,
      "loss": 0.0934,
      "step": 1606
    },
    {
      "epoch": 8.04,
      "grad_norm": 1.1438226699829102,
      "learning_rate": 1.3755e-05,
      "loss": 0.1182,
      "step": 1607
    },
    {
      "epoch": 8.04,
      "grad_norm": 2.486715316772461,
      "learning_rate": 1.3719999999999999e-05,
      "loss": 0.1371,
      "step": 1608
    },
    {
      "epoch": 8.04,
      "grad_norm": 0.44397369027137756,
      "learning_rate": 1.3684999999999999e-05,
      "loss": 0.1133,
      "step": 1609
    },
    {
      "epoch": 8.05,
      "grad_norm": 0.6337971091270447,
      "learning_rate": 1.365e-05,
      "loss": 0.1148,
      "step": 1610
    },
    {
      "epoch": 8.05,
      "grad_norm": 1.597836971282959,
      "learning_rate": 1.3615e-05,
      "loss": 0.0974,
      "step": 1611
    },
    {
      "epoch": 8.06,
      "grad_norm": 0.6244838833808899,
      "learning_rate": 1.3579999999999999e-05,
      "loss": 0.1055,
      "step": 1612
    },
    {
      "epoch": 8.06,
      "grad_norm": 1.2794817686080933,
      "learning_rate": 1.3545e-05,
      "loss": 0.1069,
      "step": 1613
    },
    {
      "epoch": 8.07,
      "grad_norm": 1.7838504314422607,
      "learning_rate": 1.351e-05,
      "loss": 0.1447,
      "step": 1614
    },
    {
      "epoch": 8.07,
      "grad_norm": 0.9773111343383789,
      "learning_rate": 1.3474999999999999e-05,
      "loss": 0.1122,
      "step": 1615
    },
    {
      "epoch": 8.08,
      "grad_norm": 1.2841558456420898,
      "learning_rate": 1.3439999999999998e-05,
      "loss": 0.1141,
      "step": 1616
    },
    {
      "epoch": 8.09,
      "grad_norm": 0.63004070520401,
      "learning_rate": 1.3405e-05,
      "loss": 0.1266,
      "step": 1617
    },
    {
      "epoch": 8.09,
      "grad_norm": 1.1018426418304443,
      "learning_rate": 1.3369999999999999e-05,
      "loss": 0.1283,
      "step": 1618
    },
    {
      "epoch": 8.1,
      "grad_norm": 0.7674327492713928,
      "learning_rate": 1.3334999999999999e-05,
      "loss": 0.1056,
      "step": 1619
    },
    {
      "epoch": 8.1,
      "grad_norm": 0.808588445186615,
      "learning_rate": 1.33e-05,
      "loss": 0.1341,
      "step": 1620
    },
    {
      "epoch": 8.11,
      "grad_norm": 1.045905351638794,
      "learning_rate": 1.3265e-05,
      "loss": 0.1095,
      "step": 1621
    },
    {
      "epoch": 8.11,
      "grad_norm": 0.6350924372673035,
      "learning_rate": 1.3229999999999999e-05,
      "loss": 0.107,
      "step": 1622
    },
    {
      "epoch": 8.12,
      "grad_norm": 0.7024824023246765,
      "learning_rate": 1.3194999999999998e-05,
      "loss": 0.0986,
      "step": 1623
    },
    {
      "epoch": 8.12,
      "grad_norm": 0.47502008080482483,
      "learning_rate": 1.316e-05,
      "loss": 0.1098,
      "step": 1624
    },
    {
      "epoch": 8.12,
      "grad_norm": 1.5298293828964233,
      "learning_rate": 1.3124999999999999e-05,
      "loss": 0.1337,
      "step": 1625
    },
    {
      "epoch": 8.13,
      "grad_norm": 1.2506108283996582,
      "learning_rate": 1.3089999999999998e-05,
      "loss": 0.1302,
      "step": 1626
    },
    {
      "epoch": 8.13,
      "grad_norm": 1.0725183486938477,
      "learning_rate": 1.3055e-05,
      "loss": 0.1365,
      "step": 1627
    },
    {
      "epoch": 8.14,
      "grad_norm": 0.5488543510437012,
      "learning_rate": 1.3019999999999999e-05,
      "loss": 0.1114,
      "step": 1628
    },
    {
      "epoch": 8.14,
      "grad_norm": 0.4865659177303314,
      "learning_rate": 1.2984999999999998e-05,
      "loss": 0.0851,
      "step": 1629
    },
    {
      "epoch": 8.15,
      "grad_norm": 0.4860611855983734,
      "learning_rate": 1.2949999999999998e-05,
      "loss": 0.1297,
      "step": 1630
    },
    {
      "epoch": 8.15,
      "grad_norm": 0.5773254036903381,
      "learning_rate": 1.2915e-05,
      "loss": 0.0928,
      "step": 1631
    },
    {
      "epoch": 8.16,
      "grad_norm": 1.1194618940353394,
      "learning_rate": 1.2879999999999999e-05,
      "loss": 0.122,
      "step": 1632
    },
    {
      "epoch": 8.16,
      "grad_norm": 1.031381607055664,
      "learning_rate": 1.2844999999999998e-05,
      "loss": 0.1373,
      "step": 1633
    },
    {
      "epoch": 8.17,
      "grad_norm": 0.5994100570678711,
      "learning_rate": 1.281e-05,
      "loss": 0.1062,
      "step": 1634
    },
    {
      "epoch": 8.18,
      "grad_norm": 0.7570685148239136,
      "learning_rate": 1.2774999999999999e-05,
      "loss": 0.1191,
      "step": 1635
    },
    {
      "epoch": 8.18,
      "grad_norm": 3.299058198928833,
      "learning_rate": 1.2739999999999998e-05,
      "loss": 0.1333,
      "step": 1636
    },
    {
      "epoch": 8.19,
      "grad_norm": 0.9633833169937134,
      "learning_rate": 1.2704999999999998e-05,
      "loss": 0.1225,
      "step": 1637
    },
    {
      "epoch": 8.19,
      "grad_norm": 1.1325294971466064,
      "learning_rate": 1.2669999999999999e-05,
      "loss": 0.1064,
      "step": 1638
    },
    {
      "epoch": 8.2,
      "grad_norm": 0.7238021492958069,
      "learning_rate": 1.2634999999999998e-05,
      "loss": 0.117,
      "step": 1639
    },
    {
      "epoch": 8.2,
      "grad_norm": 1.162341594696045,
      "learning_rate": 1.2599999999999998e-05,
      "loss": 0.114,
      "step": 1640
    },
    {
      "epoch": 8.21,
      "grad_norm": 0.6070992946624756,
      "learning_rate": 1.2564999999999999e-05,
      "loss": 0.1187,
      "step": 1641
    },
    {
      "epoch": 8.21,
      "grad_norm": 0.5545511841773987,
      "learning_rate": 1.2529999999999999e-05,
      "loss": 0.109,
      "step": 1642
    },
    {
      "epoch": 8.21,
      "grad_norm": 2.696113109588623,
      "learning_rate": 1.2494999999999998e-05,
      "loss": 0.1331,
      "step": 1643
    },
    {
      "epoch": 8.22,
      "grad_norm": 0.5504016876220703,
      "learning_rate": 1.2459999999999998e-05,
      "loss": 0.0869,
      "step": 1644
    },
    {
      "epoch": 8.22,
      "grad_norm": 0.5847289562225342,
      "learning_rate": 1.2424999999999999e-05,
      "loss": 0.1378,
      "step": 1645
    },
    {
      "epoch": 8.23,
      "grad_norm": 0.6156506538391113,
      "learning_rate": 1.2389999999999998e-05,
      "loss": 0.1124,
      "step": 1646
    },
    {
      "epoch": 8.23,
      "grad_norm": 1.5942775011062622,
      "learning_rate": 1.2354999999999998e-05,
      "loss": 0.1206,
      "step": 1647
    },
    {
      "epoch": 8.24,
      "grad_norm": 0.6803891062736511,
      "learning_rate": 1.2319999999999999e-05,
      "loss": 0.1668,
      "step": 1648
    },
    {
      "epoch": 8.24,
      "grad_norm": 1.7632396221160889,
      "learning_rate": 1.2284999999999998e-05,
      "loss": 0.154,
      "step": 1649
    },
    {
      "epoch": 8.25,
      "grad_norm": 0.553550124168396,
      "learning_rate": 1.2249999999999998e-05,
      "loss": 0.1051,
      "step": 1650
    },
    {
      "epoch": 8.26,
      "grad_norm": 0.932564914226532,
      "learning_rate": 1.2214999999999997e-05,
      "loss": 0.1074,
      "step": 1651
    },
    {
      "epoch": 8.26,
      "grad_norm": 1.9667274951934814,
      "learning_rate": 1.2179999999999999e-05,
      "loss": 0.1136,
      "step": 1652
    },
    {
      "epoch": 8.27,
      "grad_norm": 0.9520639777183533,
      "learning_rate": 1.2144999999999998e-05,
      "loss": 0.1306,
      "step": 1653
    },
    {
      "epoch": 8.27,
      "grad_norm": 0.6737245917320251,
      "learning_rate": 1.2109999999999998e-05,
      "loss": 0.0878,
      "step": 1654
    },
    {
      "epoch": 8.28,
      "grad_norm": 0.809724748134613,
      "learning_rate": 1.2074999999999999e-05,
      "loss": 0.1278,
      "step": 1655
    },
    {
      "epoch": 8.28,
      "grad_norm": 1.0193450450897217,
      "learning_rate": 1.2039999999999998e-05,
      "loss": 0.138,
      "step": 1656
    },
    {
      "epoch": 8.29,
      "grad_norm": 1.498274564743042,
      "learning_rate": 1.2005e-05,
      "loss": 0.1002,
      "step": 1657
    },
    {
      "epoch": 8.29,
      "grad_norm": 0.47988227009773254,
      "learning_rate": 1.197e-05,
      "loss": 0.1174,
      "step": 1658
    },
    {
      "epoch": 8.29,
      "grad_norm": 1.210741400718689,
      "learning_rate": 1.1935e-05,
      "loss": 0.1041,
      "step": 1659
    },
    {
      "epoch": 8.3,
      "grad_norm": 0.41009974479675293,
      "learning_rate": 1.19e-05,
      "loss": 0.1116,
      "step": 1660
    },
    {
      "epoch": 8.3,
      "grad_norm": 0.8082712888717651,
      "learning_rate": 1.1864999999999999e-05,
      "loss": 0.1053,
      "step": 1661
    },
    {
      "epoch": 8.31,
      "grad_norm": 1.3520361185073853,
      "learning_rate": 1.183e-05,
      "loss": 0.1477,
      "step": 1662
    },
    {
      "epoch": 8.31,
      "grad_norm": 2.6456809043884277,
      "learning_rate": 1.1795e-05,
      "loss": 0.1346,
      "step": 1663
    },
    {
      "epoch": 8.32,
      "grad_norm": 0.9591534733772278,
      "learning_rate": 1.176e-05,
      "loss": 0.163,
      "step": 1664
    },
    {
      "epoch": 8.32,
      "grad_norm": 0.7846960425376892,
      "learning_rate": 1.1725e-05,
      "loss": 0.1061,
      "step": 1665
    },
    {
      "epoch": 8.33,
      "grad_norm": 0.9392750859260559,
      "learning_rate": 1.169e-05,
      "loss": 0.1122,
      "step": 1666
    },
    {
      "epoch": 8.34,
      "grad_norm": 0.5724989175796509,
      "learning_rate": 1.1655e-05,
      "loss": 0.1083,
      "step": 1667
    },
    {
      "epoch": 8.34,
      "grad_norm": 1.0262867212295532,
      "learning_rate": 1.1619999999999999e-05,
      "loss": 0.129,
      "step": 1668
    },
    {
      "epoch": 8.35,
      "grad_norm": 0.636169970035553,
      "learning_rate": 1.1585e-05,
      "loss": 0.1367,
      "step": 1669
    },
    {
      "epoch": 8.35,
      "grad_norm": 0.4680967330932617,
      "learning_rate": 1.155e-05,
      "loss": 0.0878,
      "step": 1670
    },
    {
      "epoch": 8.36,
      "grad_norm": 0.5974618792533875,
      "learning_rate": 1.1514999999999999e-05,
      "loss": 0.0961,
      "step": 1671
    },
    {
      "epoch": 8.36,
      "grad_norm": 0.7016478180885315,
      "learning_rate": 1.148e-05,
      "loss": 0.1079,
      "step": 1672
    },
    {
      "epoch": 8.37,
      "grad_norm": 0.9651956558227539,
      "learning_rate": 1.1445e-05,
      "loss": 0.1098,
      "step": 1673
    },
    {
      "epoch": 8.37,
      "grad_norm": 0.8333838582038879,
      "learning_rate": 1.141e-05,
      "loss": 0.1083,
      "step": 1674
    },
    {
      "epoch": 8.38,
      "grad_norm": 0.9977858066558838,
      "learning_rate": 1.1374999999999999e-05,
      "loss": 0.11,
      "step": 1675
    },
    {
      "epoch": 8.38,
      "grad_norm": 1.8182182312011719,
      "learning_rate": 1.134e-05,
      "loss": 0.1351,
      "step": 1676
    },
    {
      "epoch": 8.38,
      "grad_norm": 1.8744094371795654,
      "learning_rate": 1.1305e-05,
      "loss": 0.1013,
      "step": 1677
    },
    {
      "epoch": 8.39,
      "grad_norm": 0.5436059236526489,
      "learning_rate": 1.1269999999999999e-05,
      "loss": 0.103,
      "step": 1678
    },
    {
      "epoch": 8.39,
      "grad_norm": 0.753940999507904,
      "learning_rate": 1.1235e-05,
      "loss": 0.1259,
      "step": 1679
    },
    {
      "epoch": 8.4,
      "grad_norm": 0.5941343903541565,
      "learning_rate": 1.12e-05,
      "loss": 0.1297,
      "step": 1680
    },
    {
      "epoch": 8.4,
      "grad_norm": 0.4165489971637726,
      "learning_rate": 1.1164999999999999e-05,
      "loss": 0.1041,
      "step": 1681
    },
    {
      "epoch": 8.41,
      "grad_norm": 1.8931161165237427,
      "learning_rate": 1.1129999999999998e-05,
      "loss": 0.1227,
      "step": 1682
    },
    {
      "epoch": 8.41,
      "grad_norm": 0.863025963306427,
      "learning_rate": 1.1095e-05,
      "loss": 0.1218,
      "step": 1683
    },
    {
      "epoch": 8.42,
      "grad_norm": 0.5927830338478088,
      "learning_rate": 1.1059999999999999e-05,
      "loss": 0.097,
      "step": 1684
    },
    {
      "epoch": 8.43,
      "grad_norm": 0.6480274796485901,
      "learning_rate": 1.1024999999999999e-05,
      "loss": 0.1629,
      "step": 1685
    },
    {
      "epoch": 8.43,
      "grad_norm": 0.9869132041931152,
      "learning_rate": 1.099e-05,
      "loss": 0.1104,
      "step": 1686
    },
    {
      "epoch": 8.44,
      "grad_norm": 0.5257623791694641,
      "learning_rate": 1.0955e-05,
      "loss": 0.1193,
      "step": 1687
    },
    {
      "epoch": 8.44,
      "grad_norm": 0.7851940393447876,
      "learning_rate": 1.0919999999999999e-05,
      "loss": 0.1269,
      "step": 1688
    },
    {
      "epoch": 8.45,
      "grad_norm": 0.7372502684593201,
      "learning_rate": 1.0884999999999998e-05,
      "loss": 0.0994,
      "step": 1689
    },
    {
      "epoch": 8.45,
      "grad_norm": 0.4700663387775421,
      "learning_rate": 1.085e-05,
      "loss": 0.0885,
      "step": 1690
    },
    {
      "epoch": 8.46,
      "grad_norm": 0.6591964960098267,
      "learning_rate": 1.0814999999999999e-05,
      "loss": 0.1013,
      "step": 1691
    },
    {
      "epoch": 8.46,
      "grad_norm": 1.90561044216156,
      "learning_rate": 1.0779999999999998e-05,
      "loss": 0.156,
      "step": 1692
    },
    {
      "epoch": 8.46,
      "grad_norm": 1.0769965648651123,
      "learning_rate": 1.0745e-05,
      "loss": 0.1396,
      "step": 1693
    },
    {
      "epoch": 8.47,
      "grad_norm": 1.3944849967956543,
      "learning_rate": 1.0709999999999999e-05,
      "loss": 0.1251,
      "step": 1694
    },
    {
      "epoch": 8.47,
      "grad_norm": 0.6923587918281555,
      "learning_rate": 1.0674999999999999e-05,
      "loss": 0.0903,
      "step": 1695
    },
    {
      "epoch": 8.48,
      "grad_norm": 1.4454290866851807,
      "learning_rate": 1.0639999999999998e-05,
      "loss": 0.1774,
      "step": 1696
    },
    {
      "epoch": 8.48,
      "grad_norm": 0.8160670399665833,
      "learning_rate": 1.0605e-05,
      "loss": 0.1045,
      "step": 1697
    },
    {
      "epoch": 8.49,
      "grad_norm": 0.5882147550582886,
      "learning_rate": 1.0569999999999999e-05,
      "loss": 0.1186,
      "step": 1698
    },
    {
      "epoch": 8.49,
      "grad_norm": 0.6973255276679993,
      "learning_rate": 1.0534999999999998e-05,
      "loss": 0.1034,
      "step": 1699
    },
    {
      "epoch": 8.5,
      "grad_norm": 0.5350469946861267,
      "learning_rate": 1.05e-05,
      "loss": 0.1237,
      "step": 1700
    },
    {
      "epoch": 8.51,
      "grad_norm": 2.4319980144500732,
      "learning_rate": 1.0464999999999999e-05,
      "loss": 0.1322,
      "step": 1701
    },
    {
      "epoch": 8.51,
      "grad_norm": 0.7868027091026306,
      "learning_rate": 1.0429999999999998e-05,
      "loss": 0.106,
      "step": 1702
    },
    {
      "epoch": 8.52,
      "grad_norm": 1.241575837135315,
      "learning_rate": 1.0394999999999998e-05,
      "loss": 0.1351,
      "step": 1703
    },
    {
      "epoch": 8.52,
      "grad_norm": 0.585224986076355,
      "learning_rate": 1.0359999999999999e-05,
      "loss": 0.1136,
      "step": 1704
    },
    {
      "epoch": 8.53,
      "grad_norm": 0.6105380058288574,
      "learning_rate": 1.0324999999999999e-05,
      "loss": 0.123,
      "step": 1705
    },
    {
      "epoch": 8.53,
      "grad_norm": 0.877810537815094,
      "learning_rate": 1.0289999999999998e-05,
      "loss": 0.127,
      "step": 1706
    },
    {
      "epoch": 8.54,
      "grad_norm": 1.586349606513977,
      "learning_rate": 1.0255e-05,
      "loss": 0.1448,
      "step": 1707
    },
    {
      "epoch": 8.54,
      "grad_norm": 1.5760772228240967,
      "learning_rate": 1.0219999999999999e-05,
      "loss": 0.1197,
      "step": 1708
    },
    {
      "epoch": 8.54,
      "grad_norm": 0.7788963317871094,
      "learning_rate": 1.0184999999999998e-05,
      "loss": 0.1081,
      "step": 1709
    },
    {
      "epoch": 8.55,
      "grad_norm": 0.6806416511535645,
      "learning_rate": 1.0149999999999998e-05,
      "loss": 0.0979,
      "step": 1710
    },
    {
      "epoch": 8.55,
      "grad_norm": 0.45321741700172424,
      "learning_rate": 1.0114999999999999e-05,
      "loss": 0.1163,
      "step": 1711
    },
    {
      "epoch": 8.56,
      "grad_norm": 1.7475446462631226,
      "learning_rate": 1.0079999999999998e-05,
      "loss": 0.1157,
      "step": 1712
    },
    {
      "epoch": 8.56,
      "grad_norm": 0.9613866209983826,
      "learning_rate": 1.0044999999999998e-05,
      "loss": 0.1422,
      "step": 1713
    },
    {
      "epoch": 8.57,
      "grad_norm": 0.5785484313964844,
      "learning_rate": 1.0009999999999999e-05,
      "loss": 0.1055,
      "step": 1714
    },
    {
      "epoch": 8.57,
      "grad_norm": 0.4962238371372223,
      "learning_rate": 9.974999999999999e-06,
      "loss": 0.1111,
      "step": 1715
    },
    {
      "epoch": 8.58,
      "grad_norm": 2.912926435470581,
      "learning_rate": 9.939999999999998e-06,
      "loss": 0.1503,
      "step": 1716
    },
    {
      "epoch": 8.59,
      "grad_norm": 3.1985671520233154,
      "learning_rate": 9.904999999999997e-06,
      "loss": 0.1393,
      "step": 1717
    },
    {
      "epoch": 8.59,
      "grad_norm": 0.7876883149147034,
      "learning_rate": 9.869999999999999e-06,
      "loss": 0.1536,
      "step": 1718
    },
    {
      "epoch": 8.6,
      "grad_norm": 0.539796769618988,
      "learning_rate": 9.835e-06,
      "loss": 0.1149,
      "step": 1719
    },
    {
      "epoch": 8.6,
      "grad_norm": 0.773203432559967,
      "learning_rate": 9.8e-06,
      "loss": 0.1258,
      "step": 1720
    },
    {
      "epoch": 8.61,
      "grad_norm": 0.9811996221542358,
      "learning_rate": 9.765e-06,
      "loss": 0.1055,
      "step": 1721
    },
    {
      "epoch": 8.61,
      "grad_norm": 1.4093153476715088,
      "learning_rate": 9.73e-06,
      "loss": 0.1417,
      "step": 1722
    },
    {
      "epoch": 8.62,
      "grad_norm": 0.8075270056724548,
      "learning_rate": 9.695e-06,
      "loss": 0.1322,
      "step": 1723
    },
    {
      "epoch": 8.62,
      "grad_norm": 0.7655064463615417,
      "learning_rate": 9.66e-06,
      "loss": 0.12,
      "step": 1724
    },
    {
      "epoch": 8.62,
      "grad_norm": 0.8645729422569275,
      "learning_rate": 9.625e-06,
      "loss": 0.1199,
      "step": 1725
    },
    {
      "epoch": 8.63,
      "grad_norm": 0.9702177047729492,
      "learning_rate": 9.59e-06,
      "loss": 0.1138,
      "step": 1726
    },
    {
      "epoch": 8.63,
      "grad_norm": 1.233467936515808,
      "learning_rate": 9.554999999999999e-06,
      "loss": 0.1083,
      "step": 1727
    },
    {
      "epoch": 8.64,
      "grad_norm": 0.511652410030365,
      "learning_rate": 9.52e-06,
      "loss": 0.1319,
      "step": 1728
    },
    {
      "epoch": 8.64,
      "grad_norm": 0.4796838164329529,
      "learning_rate": 9.485e-06,
      "loss": 0.0936,
      "step": 1729
    },
    {
      "epoch": 8.65,
      "grad_norm": 0.41682881116867065,
      "learning_rate": 9.45e-06,
      "loss": 0.1002,
      "step": 1730
    },
    {
      "epoch": 8.65,
      "grad_norm": 0.7280308604240417,
      "learning_rate": 9.415e-06,
      "loss": 0.1001,
      "step": 1731
    },
    {
      "epoch": 8.66,
      "grad_norm": 1.0529175996780396,
      "learning_rate": 9.38e-06,
      "loss": 0.1271,
      "step": 1732
    },
    {
      "epoch": 8.66,
      "grad_norm": 0.5782435536384583,
      "learning_rate": 9.345e-06,
      "loss": 0.1158,
      "step": 1733
    },
    {
      "epoch": 8.67,
      "grad_norm": 1.2304805517196655,
      "learning_rate": 9.309999999999999e-06,
      "loss": 0.101,
      "step": 1734
    },
    {
      "epoch": 8.68,
      "grad_norm": 1.8542059659957886,
      "learning_rate": 9.275e-06,
      "loss": 0.1034,
      "step": 1735
    },
    {
      "epoch": 8.68,
      "grad_norm": 0.6853155493736267,
      "learning_rate": 9.24e-06,
      "loss": 0.104,
      "step": 1736
    },
    {
      "epoch": 8.69,
      "grad_norm": 0.5692272782325745,
      "learning_rate": 9.204999999999999e-06,
      "loss": 0.0989,
      "step": 1737
    },
    {
      "epoch": 8.69,
      "grad_norm": 2.4463765621185303,
      "learning_rate": 9.17e-06,
      "loss": 0.0987,
      "step": 1738
    },
    {
      "epoch": 8.7,
      "grad_norm": 1.4822421073913574,
      "learning_rate": 9.135e-06,
      "loss": 0.115,
      "step": 1739
    },
    {
      "epoch": 8.7,
      "grad_norm": 0.3860596716403961,
      "learning_rate": 9.1e-06,
      "loss": 0.1043,
      "step": 1740
    },
    {
      "epoch": 8.71,
      "grad_norm": 0.5448117852210999,
      "learning_rate": 9.064999999999999e-06,
      "loss": 0.109,
      "step": 1741
    },
    {
      "epoch": 8.71,
      "grad_norm": 0.5348119139671326,
      "learning_rate": 9.03e-06,
      "loss": 0.1191,
      "step": 1742
    },
    {
      "epoch": 8.71,
      "grad_norm": 0.920282781124115,
      "learning_rate": 8.995e-06,
      "loss": 0.128,
      "step": 1743
    },
    {
      "epoch": 8.72,
      "grad_norm": 0.9216169118881226,
      "learning_rate": 8.959999999999999e-06,
      "loss": 0.1604,
      "step": 1744
    },
    {
      "epoch": 8.72,
      "grad_norm": 0.9027687907218933,
      "learning_rate": 8.925e-06,
      "loss": 0.1201,
      "step": 1745
    },
    {
      "epoch": 8.73,
      "grad_norm": 0.657711923122406,
      "learning_rate": 8.89e-06,
      "loss": 0.092,
      "step": 1746
    },
    {
      "epoch": 8.73,
      "grad_norm": 0.7991374731063843,
      "learning_rate": 8.854999999999999e-06,
      "loss": 0.1137,
      "step": 1747
    },
    {
      "epoch": 8.74,
      "grad_norm": 0.47618794441223145,
      "learning_rate": 8.819999999999999e-06,
      "loss": 0.0917,
      "step": 1748
    },
    {
      "epoch": 8.74,
      "grad_norm": 1.3039813041687012,
      "learning_rate": 8.785e-06,
      "loss": 0.1391,
      "step": 1749
    },
    {
      "epoch": 8.75,
      "grad_norm": 1.1367567777633667,
      "learning_rate": 8.75e-06,
      "loss": 0.1512,
      "step": 1750
    },
    {
      "epoch": 8.76,
      "grad_norm": 0.5159765481948853,
      "learning_rate": 8.714999999999999e-06,
      "loss": 0.086,
      "step": 1751
    },
    {
      "epoch": 8.76,
      "grad_norm": 1.1057627201080322,
      "learning_rate": 8.68e-06,
      "loss": 0.1076,
      "step": 1752
    },
    {
      "epoch": 8.77,
      "grad_norm": 0.4391031265258789,
      "learning_rate": 8.645e-06,
      "loss": 0.1097,
      "step": 1753
    },
    {
      "epoch": 8.77,
      "grad_norm": 0.8497611284255981,
      "learning_rate": 8.609999999999999e-06,
      "loss": 0.114,
      "step": 1754
    },
    {
      "epoch": 8.78,
      "grad_norm": 0.8076953887939453,
      "learning_rate": 8.574999999999998e-06,
      "loss": 0.1302,
      "step": 1755
    },
    {
      "epoch": 8.78,
      "grad_norm": 0.7382490634918213,
      "learning_rate": 8.54e-06,
      "loss": 0.156,
      "step": 1756
    },
    {
      "epoch": 8.79,
      "grad_norm": 0.8425999879837036,
      "learning_rate": 8.504999999999999e-06,
      "loss": 0.1039,
      "step": 1757
    },
    {
      "epoch": 8.79,
      "grad_norm": 1.6218924522399902,
      "learning_rate": 8.469999999999999e-06,
      "loss": 0.1544,
      "step": 1758
    },
    {
      "epoch": 8.79,
      "grad_norm": 0.6745058298110962,
      "learning_rate": 8.435e-06,
      "loss": 0.1081,
      "step": 1759
    },
    {
      "epoch": 8.8,
      "grad_norm": 0.594903290271759,
      "learning_rate": 8.4e-06,
      "loss": 0.1051,
      "step": 1760
    },
    {
      "epoch": 8.8,
      "grad_norm": 0.706401526927948,
      "learning_rate": 8.364999999999999e-06,
      "loss": 0.1045,
      "step": 1761
    },
    {
      "epoch": 8.81,
      "grad_norm": 1.096398949623108,
      "learning_rate": 8.329999999999998e-06,
      "loss": 0.1179,
      "step": 1762
    },
    {
      "epoch": 8.81,
      "grad_norm": 0.8823762536048889,
      "learning_rate": 8.295e-06,
      "loss": 0.0995,
      "step": 1763
    },
    {
      "epoch": 8.82,
      "grad_norm": 0.8483543992042542,
      "learning_rate": 8.259999999999999e-06,
      "loss": 0.132,
      "step": 1764
    },
    {
      "epoch": 8.82,
      "grad_norm": 0.9140989780426025,
      "learning_rate": 8.224999999999998e-06,
      "loss": 0.1138,
      "step": 1765
    },
    {
      "epoch": 8.83,
      "grad_norm": 0.5144592523574829,
      "learning_rate": 8.19e-06,
      "loss": 0.1319,
      "step": 1766
    },
    {
      "epoch": 8.84,
      "grad_norm": 0.6074565649032593,
      "learning_rate": 8.154999999999999e-06,
      "loss": 0.0981,
      "step": 1767
    },
    {
      "epoch": 8.84,
      "grad_norm": 0.5815621614456177,
      "learning_rate": 8.12e-06,
      "loss": 0.1183,
      "step": 1768
    },
    {
      "epoch": 8.85,
      "grad_norm": 2.282560110092163,
      "learning_rate": 8.085e-06,
      "loss": 0.1269,
      "step": 1769
    },
    {
      "epoch": 8.85,
      "grad_norm": 0.8481102585792542,
      "learning_rate": 8.05e-06,
      "loss": 0.125,
      "step": 1770
    },
    {
      "epoch": 8.86,
      "grad_norm": 0.540354311466217,
      "learning_rate": 8.015e-06,
      "loss": 0.1134,
      "step": 1771
    },
    {
      "epoch": 8.86,
      "grad_norm": 0.8536595702171326,
      "learning_rate": 7.98e-06,
      "loss": 0.1272,
      "step": 1772
    },
    {
      "epoch": 8.87,
      "grad_norm": 1.418399691581726,
      "learning_rate": 7.945e-06,
      "loss": 0.0965,
      "step": 1773
    },
    {
      "epoch": 8.87,
      "grad_norm": 1.1469701528549194,
      "learning_rate": 7.909999999999999e-06,
      "loss": 0.0942,
      "step": 1774
    },
    {
      "epoch": 8.88,
      "grad_norm": 1.2754629850387573,
      "learning_rate": 7.875e-06,
      "loss": 0.1746,
      "step": 1775
    },
    {
      "epoch": 8.88,
      "grad_norm": 0.633234977722168,
      "learning_rate": 7.84e-06,
      "loss": 0.101,
      "step": 1776
    },
    {
      "epoch": 8.88,
      "grad_norm": 3.0158212184906006,
      "learning_rate": 7.804999999999999e-06,
      "loss": 0.1343,
      "step": 1777
    },
    {
      "epoch": 8.89,
      "grad_norm": 0.9300289154052734,
      "learning_rate": 7.77e-06,
      "loss": 0.0995,
      "step": 1778
    },
    {
      "epoch": 8.89,
      "grad_norm": 0.7746726870536804,
      "learning_rate": 7.735e-06,
      "loss": 0.1343,
      "step": 1779
    },
    {
      "epoch": 8.9,
      "grad_norm": 4.250621795654297,
      "learning_rate": 7.699999999999999e-06,
      "loss": 0.179,
      "step": 1780
    },
    {
      "epoch": 8.9,
      "grad_norm": 0.6731436252593994,
      "learning_rate": 7.664999999999999e-06,
      "loss": 0.1113,
      "step": 1781
    },
    {
      "epoch": 8.91,
      "grad_norm": 0.5712689161300659,
      "learning_rate": 7.63e-06,
      "loss": 0.1121,
      "step": 1782
    },
    {
      "epoch": 8.91,
      "grad_norm": 0.6248796582221985,
      "learning_rate": 7.594999999999999e-06,
      "loss": 0.1231,
      "step": 1783
    },
    {
      "epoch": 8.92,
      "grad_norm": 1.3643602132797241,
      "learning_rate": 7.56e-06,
      "loss": 0.1411,
      "step": 1784
    },
    {
      "epoch": 8.93,
      "grad_norm": 1.9126030206680298,
      "learning_rate": 7.524999999999999e-06,
      "loss": 0.1376,
      "step": 1785
    },
    {
      "epoch": 8.93,
      "grad_norm": 1.0724462270736694,
      "learning_rate": 7.4899999999999994e-06,
      "loss": 0.1105,
      "step": 1786
    },
    {
      "epoch": 8.94,
      "grad_norm": 1.1038968563079834,
      "learning_rate": 7.454999999999999e-06,
      "loss": 0.1178,
      "step": 1787
    },
    {
      "epoch": 8.94,
      "grad_norm": 2.20041823387146,
      "learning_rate": 7.419999999999999e-06,
      "loss": 0.1415,
      "step": 1788
    },
    {
      "epoch": 8.95,
      "grad_norm": 0.4706405997276306,
      "learning_rate": 7.384999999999999e-06,
      "loss": 0.094,
      "step": 1789
    },
    {
      "epoch": 8.95,
      "grad_norm": 0.906811535358429,
      "learning_rate": 7.349999999999999e-06,
      "loss": 0.1135,
      "step": 1790
    },
    {
      "epoch": 8.96,
      "grad_norm": 0.7230521440505981,
      "learning_rate": 7.314999999999999e-06,
      "loss": 0.1275,
      "step": 1791
    },
    {
      "epoch": 8.96,
      "grad_norm": 1.0429104566574097,
      "learning_rate": 7.279999999999999e-06,
      "loss": 0.1148,
      "step": 1792
    },
    {
      "epoch": 8.96,
      "grad_norm": 2.4650819301605225,
      "learning_rate": 7.244999999999999e-06,
      "loss": 0.1039,
      "step": 1793
    },
    {
      "epoch": 8.97,
      "grad_norm": 2.0752739906311035,
      "learning_rate": 7.209999999999999e-06,
      "loss": 0.1283,
      "step": 1794
    },
    {
      "epoch": 8.97,
      "grad_norm": 0.879981517791748,
      "learning_rate": 7.174999999999999e-06,
      "loss": 0.1198,
      "step": 1795
    },
    {
      "epoch": 8.98,
      "grad_norm": 1.1818084716796875,
      "learning_rate": 7.1399999999999986e-06,
      "loss": 0.1204,
      "step": 1796
    },
    {
      "epoch": 8.98,
      "grad_norm": 0.747413694858551,
      "learning_rate": 7.105e-06,
      "loss": 0.2727,
      "step": 1797
    },
    {
      "epoch": 8.99,
      "grad_norm": 0.6830226182937622,
      "learning_rate": 7.07e-06,
      "loss": 0.0978,
      "step": 1798
    },
    {
      "epoch": 8.99,
      "grad_norm": 1.8212751150131226,
      "learning_rate": 7.0349999999999996e-06,
      "loss": 0.1585,
      "step": 1799
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.5330641269683838,
      "learning_rate": 7e-06,
      "loss": 0.093,
      "step": 1800
    },
    {
      "epoch": 9.0,
      "eval_accuracy_Background": NaN,
      "eval_accuracy_Bag": 0.741085222409744,
      "eval_accuracy_Belt": 0.08335382777641148,
      "eval_accuracy_Dress": 0.8333049445552729,
      "eval_accuracy_Face": 0.8950355293634142,
      "eval_accuracy_Hair": 0.8752460267486645,
      "eval_accuracy_Hat": 0.6189836043135223,
      "eval_accuracy_Left-arm": 0.8118545366499649,
      "eval_accuracy_Left-leg": 0.8622087141093249,
      "eval_accuracy_Left-shoe": 0.6491432255808363,
      "eval_accuracy_Pants": 0.8561247917009639,
      "eval_accuracy_Right-arm": 0.8053171163849565,
      "eval_accuracy_Right-leg": 0.8528436374921384,
      "eval_accuracy_Right-shoe": 0.613814277539082,
      "eval_accuracy_Scarf": 0.0067659434971168156,
      "eval_accuracy_Skirt": 0.7153226832827447,
      "eval_accuracy_Sunglasses": 0.1554158743573491,
      "eval_accuracy_Upper-clothes": 0.879918330904314,
      "eval_iou_Background": 0.0,
      "eval_iou_Bag": 0.6629180775856948,
      "eval_iou_Belt": 0.07881797946912063,
      "eval_iou_Dress": 0.6143503184577808,
      "eval_iou_Face": 0.801215125327778,
      "eval_iou_Hair": 0.7745372149729386,
      "eval_iou_Hat": 0.559007390271683,
      "eval_iou_Left-arm": 0.7352640747175883,
      "eval_iou_Left-leg": 0.7650891320725955,
      "eval_iou_Left-shoe": 0.5308110587685109,
      "eval_iou_Pants": 0.766452522604451,
      "eval_iou_Right-arm": 0.7304942375582082,
      "eval_iou_Right-leg": 0.7686848465777087,
      "eval_iou_Right-shoe": 0.5145507460027139,
      "eval_iou_Scarf": 0.006760747924520197,
      "eval_iou_Skirt": 0.6432317458650194,
      "eval_iou_Sunglasses": 0.15444238373517163,
      "eval_iou_Upper-clothes": 0.7730388570665006,
      "eval_loss": 0.16206344962120056,
      "eval_mean_accuracy": 0.662102252156813,
      "eval_mean_iou": 0.5488703588321102,
      "eval_overall_accuracy": 0.8165022591777957,
      "eval_runtime": 28.1316,
      "eval_samples_per_second": 14.219,
      "eval_steps_per_second": 7.109,
      "step": 1800
    },
    {
      "epoch": 9.01,
      "grad_norm": 0.7017780542373657,
      "learning_rate": 6.964999999999999e-06,
      "loss": 0.1312,
      "step": 1801
    },
    {
      "epoch": 9.01,
      "grad_norm": 3.275111675262451,
      "learning_rate": 6.93e-06,
      "loss": 0.109,
      "step": 1802
    },
    {
      "epoch": 9.02,
      "grad_norm": 1.8394814729690552,
      "learning_rate": 6.895e-06,
      "loss": 0.1489,
      "step": 1803
    },
    {
      "epoch": 9.02,
      "grad_norm": 0.6261164546012878,
      "learning_rate": 6.8599999999999995e-06,
      "loss": 0.1134,
      "step": 1804
    },
    {
      "epoch": 9.03,
      "grad_norm": 0.7198111414909363,
      "learning_rate": 6.825e-06,
      "loss": 0.0896,
      "step": 1805
    },
    {
      "epoch": 9.03,
      "grad_norm": 0.5705150365829468,
      "learning_rate": 6.789999999999999e-06,
      "loss": 0.1104,
      "step": 1806
    },
    {
      "epoch": 9.04,
      "grad_norm": 0.5737013220787048,
      "learning_rate": 6.755e-06,
      "loss": 0.1149,
      "step": 1807
    },
    {
      "epoch": 9.04,
      "grad_norm": 1.2818970680236816,
      "learning_rate": 6.719999999999999e-06,
      "loss": 0.1042,
      "step": 1808
    },
    {
      "epoch": 9.04,
      "grad_norm": 1.3122907876968384,
      "learning_rate": 6.6849999999999995e-06,
      "loss": 0.1244,
      "step": 1809
    },
    {
      "epoch": 9.05,
      "grad_norm": 0.46763256192207336,
      "learning_rate": 6.65e-06,
      "loss": 0.0895,
      "step": 1810
    },
    {
      "epoch": 9.05,
      "grad_norm": 1.3598058223724365,
      "learning_rate": 6.614999999999999e-06,
      "loss": 0.118,
      "step": 1811
    },
    {
      "epoch": 9.06,
      "grad_norm": 0.7024350762367249,
      "learning_rate": 6.58e-06,
      "loss": 0.1277,
      "step": 1812
    },
    {
      "epoch": 9.06,
      "grad_norm": 0.9085413813591003,
      "learning_rate": 6.544999999999999e-06,
      "loss": 0.1408,
      "step": 1813
    },
    {
      "epoch": 9.07,
      "grad_norm": 0.5482978820800781,
      "learning_rate": 6.5099999999999995e-06,
      "loss": 0.0938,
      "step": 1814
    },
    {
      "epoch": 9.07,
      "grad_norm": 0.8813044428825378,
      "learning_rate": 6.474999999999999e-06,
      "loss": 0.1065,
      "step": 1815
    },
    {
      "epoch": 9.08,
      "grad_norm": 0.4832841753959656,
      "learning_rate": 6.439999999999999e-06,
      "loss": 0.106,
      "step": 1816
    },
    {
      "epoch": 9.09,
      "grad_norm": 0.9644362330436707,
      "learning_rate": 6.405e-06,
      "loss": 0.1163,
      "step": 1817
    },
    {
      "epoch": 9.09,
      "grad_norm": 1.5270112752914429,
      "learning_rate": 6.369999999999999e-06,
      "loss": 0.1135,
      "step": 1818
    },
    {
      "epoch": 9.1,
      "grad_norm": 0.6525077223777771,
      "learning_rate": 6.3349999999999995e-06,
      "loss": 0.1193,
      "step": 1819
    },
    {
      "epoch": 9.1,
      "grad_norm": 5.056983947753906,
      "learning_rate": 6.299999999999999e-06,
      "loss": 0.1297,
      "step": 1820
    },
    {
      "epoch": 9.11,
      "grad_norm": 0.7571932077407837,
      "learning_rate": 6.264999999999999e-06,
      "loss": 0.1345,
      "step": 1821
    },
    {
      "epoch": 9.11,
      "grad_norm": 3.461348295211792,
      "learning_rate": 6.229999999999999e-06,
      "loss": 0.1057,
      "step": 1822
    },
    {
      "epoch": 9.12,
      "grad_norm": 1.938031792640686,
      "learning_rate": 6.194999999999999e-06,
      "loss": 0.1272,
      "step": 1823
    },
    {
      "epoch": 9.12,
      "grad_norm": 0.7006990909576416,
      "learning_rate": 6.1599999999999995e-06,
      "loss": 0.1199,
      "step": 1824
    },
    {
      "epoch": 9.12,
      "grad_norm": 0.6177880764007568,
      "learning_rate": 6.124999999999999e-06,
      "loss": 0.0861,
      "step": 1825
    },
    {
      "epoch": 9.13,
      "grad_norm": 1.072278380393982,
      "learning_rate": 6.089999999999999e-06,
      "loss": 0.1249,
      "step": 1826
    },
    {
      "epoch": 9.13,
      "grad_norm": 0.5969197750091553,
      "learning_rate": 6.054999999999999e-06,
      "loss": 0.0971,
      "step": 1827
    },
    {
      "epoch": 9.14,
      "grad_norm": 0.4268186688423157,
      "learning_rate": 6.019999999999999e-06,
      "loss": 0.0838,
      "step": 1828
    },
    {
      "epoch": 9.14,
      "grad_norm": 0.4476056694984436,
      "learning_rate": 5.985e-06,
      "loss": 0.0997,
      "step": 1829
    },
    {
      "epoch": 9.15,
      "grad_norm": 0.9438232779502869,
      "learning_rate": 5.95e-06,
      "loss": 0.1115,
      "step": 1830
    },
    {
      "epoch": 9.15,
      "grad_norm": 0.4442736506462097,
      "learning_rate": 5.915e-06,
      "loss": 0.0999,
      "step": 1831
    },
    {
      "epoch": 9.16,
      "grad_norm": 0.42720919847488403,
      "learning_rate": 5.88e-06,
      "loss": 0.1149,
      "step": 1832
    },
    {
      "epoch": 9.16,
      "grad_norm": 0.870629608631134,
      "learning_rate": 5.845e-06,
      "loss": 0.1242,
      "step": 1833
    },
    {
      "epoch": 9.17,
      "grad_norm": 0.7675676941871643,
      "learning_rate": 5.8099999999999994e-06,
      "loss": 0.1065,
      "step": 1834
    },
    {
      "epoch": 9.18,
      "grad_norm": 0.6247068047523499,
      "learning_rate": 5.775e-06,
      "loss": 0.0985,
      "step": 1835
    },
    {
      "epoch": 9.18,
      "grad_norm": 0.5628599524497986,
      "learning_rate": 5.74e-06,
      "loss": 0.1005,
      "step": 1836
    },
    {
      "epoch": 9.19,
      "grad_norm": 0.8953350782394409,
      "learning_rate": 5.705e-06,
      "loss": 0.1449,
      "step": 1837
    },
    {
      "epoch": 9.19,
      "grad_norm": 1.4857368469238281,
      "learning_rate": 5.67e-06,
      "loss": 0.1725,
      "step": 1838
    },
    {
      "epoch": 9.2,
      "grad_norm": 0.7223696708679199,
      "learning_rate": 5.634999999999999e-06,
      "loss": 0.1091,
      "step": 1839
    },
    {
      "epoch": 9.2,
      "grad_norm": 1.4714659452438354,
      "learning_rate": 5.6e-06,
      "loss": 0.1355,
      "step": 1840
    },
    {
      "epoch": 9.21,
      "grad_norm": 0.4537191689014435,
      "learning_rate": 5.564999999999999e-06,
      "loss": 0.1035,
      "step": 1841
    },
    {
      "epoch": 9.21,
      "grad_norm": 0.7825846672058105,
      "learning_rate": 5.5299999999999996e-06,
      "loss": 0.1045,
      "step": 1842
    },
    {
      "epoch": 9.21,
      "grad_norm": 0.7362044453620911,
      "learning_rate": 5.495e-06,
      "loss": 0.0962,
      "step": 1843
    },
    {
      "epoch": 9.22,
      "grad_norm": 1.8719146251678467,
      "learning_rate": 5.459999999999999e-06,
      "loss": 0.1837,
      "step": 1844
    },
    {
      "epoch": 9.22,
      "grad_norm": 1.011372685432434,
      "learning_rate": 5.425e-06,
      "loss": 0.1348,
      "step": 1845
    },
    {
      "epoch": 9.23,
      "grad_norm": 0.4368080496788025,
      "learning_rate": 5.389999999999999e-06,
      "loss": 0.0885,
      "step": 1846
    },
    {
      "epoch": 9.23,
      "grad_norm": 0.5016607046127319,
      "learning_rate": 5.3549999999999996e-06,
      "loss": 0.1084,
      "step": 1847
    },
    {
      "epoch": 9.24,
      "grad_norm": 0.6635167598724365,
      "learning_rate": 5.319999999999999e-06,
      "loss": 0.1218,
      "step": 1848
    },
    {
      "epoch": 9.24,
      "grad_norm": 0.7868146896362305,
      "learning_rate": 5.284999999999999e-06,
      "loss": 0.1116,
      "step": 1849
    },
    {
      "epoch": 9.25,
      "grad_norm": 1.3895330429077148,
      "learning_rate": 5.25e-06,
      "loss": 0.1499,
      "step": 1850
    },
    {
      "epoch": 9.26,
      "grad_norm": 0.4907654821872711,
      "learning_rate": 5.214999999999999e-06,
      "loss": 0.1318,
      "step": 1851
    },
    {
      "epoch": 9.26,
      "grad_norm": 0.8340691924095154,
      "learning_rate": 5.1799999999999995e-06,
      "loss": 0.1196,
      "step": 1852
    },
    {
      "epoch": 9.27,
      "grad_norm": 0.7995784878730774,
      "learning_rate": 5.144999999999999e-06,
      "loss": 0.1509,
      "step": 1853
    },
    {
      "epoch": 9.27,
      "grad_norm": 0.6497259140014648,
      "learning_rate": 5.109999999999999e-06,
      "loss": 0.1251,
      "step": 1854
    },
    {
      "epoch": 9.28,
      "grad_norm": 0.5337533354759216,
      "learning_rate": 5.074999999999999e-06,
      "loss": 0.0881,
      "step": 1855
    },
    {
      "epoch": 9.28,
      "grad_norm": 0.539521336555481,
      "learning_rate": 5.039999999999999e-06,
      "loss": 0.0919,
      "step": 1856
    },
    {
      "epoch": 9.29,
      "grad_norm": 0.6318984031677246,
      "learning_rate": 5.0049999999999995e-06,
      "loss": 0.1168,
      "step": 1857
    },
    {
      "epoch": 9.29,
      "grad_norm": 2.6008059978485107,
      "learning_rate": 4.969999999999999e-06,
      "loss": 0.1276,
      "step": 1858
    },
    {
      "epoch": 9.29,
      "grad_norm": 0.49306318163871765,
      "learning_rate": 4.934999999999999e-06,
      "loss": 0.1119,
      "step": 1859
    },
    {
      "epoch": 9.3,
      "grad_norm": 1.4864706993103027,
      "learning_rate": 4.9e-06,
      "loss": 0.1357,
      "step": 1860
    },
    {
      "epoch": 9.3,
      "grad_norm": 0.5542240142822266,
      "learning_rate": 4.865e-06,
      "loss": 0.0937,
      "step": 1861
    },
    {
      "epoch": 9.31,
      "grad_norm": 1.1759601831436157,
      "learning_rate": 4.83e-06,
      "loss": 0.0942,
      "step": 1862
    },
    {
      "epoch": 9.31,
      "grad_norm": 0.47392380237579346,
      "learning_rate": 4.795e-06,
      "loss": 0.1173,
      "step": 1863
    },
    {
      "epoch": 9.32,
      "grad_norm": 0.6241089701652527,
      "learning_rate": 4.76e-06,
      "loss": 0.112,
      "step": 1864
    },
    {
      "epoch": 9.32,
      "grad_norm": 0.5756965279579163,
      "learning_rate": 4.725e-06,
      "loss": 0.0959,
      "step": 1865
    },
    {
      "epoch": 9.33,
      "grad_norm": 0.47871464490890503,
      "learning_rate": 4.69e-06,
      "loss": 0.1053,
      "step": 1866
    },
    {
      "epoch": 9.34,
      "grad_norm": 0.6525354385375977,
      "learning_rate": 4.6549999999999995e-06,
      "loss": 0.104,
      "step": 1867
    },
    {
      "epoch": 9.34,
      "grad_norm": 0.8883674144744873,
      "learning_rate": 4.62e-06,
      "loss": 0.136,
      "step": 1868
    },
    {
      "epoch": 9.35,
      "grad_norm": 0.6965510845184326,
      "learning_rate": 4.585e-06,
      "loss": 0.1157,
      "step": 1869
    },
    {
      "epoch": 9.35,
      "grad_norm": 1.2597897052764893,
      "learning_rate": 4.55e-06,
      "loss": 0.1084,
      "step": 1870
    },
    {
      "epoch": 9.36,
      "grad_norm": 1.1270365715026855,
      "learning_rate": 4.515e-06,
      "loss": 0.1181,
      "step": 1871
    },
    {
      "epoch": 9.36,
      "grad_norm": 0.7599278688430786,
      "learning_rate": 4.4799999999999995e-06,
      "loss": 0.1335,
      "step": 1872
    },
    {
      "epoch": 9.37,
      "grad_norm": 0.4886646270751953,
      "learning_rate": 4.445e-06,
      "loss": 0.1036,
      "step": 1873
    },
    {
      "epoch": 9.37,
      "grad_norm": 0.6853079795837402,
      "learning_rate": 4.409999999999999e-06,
      "loss": 0.1244,
      "step": 1874
    },
    {
      "epoch": 9.38,
      "grad_norm": 1.0812097787857056,
      "learning_rate": 4.375e-06,
      "loss": 0.127,
      "step": 1875
    },
    {
      "epoch": 9.38,
      "grad_norm": 0.43796101212501526,
      "learning_rate": 4.34e-06,
      "loss": 0.0851,
      "step": 1876
    },
    {
      "epoch": 9.38,
      "grad_norm": 0.3872862458229065,
      "learning_rate": 4.3049999999999994e-06,
      "loss": 0.089,
      "step": 1877
    },
    {
      "epoch": 9.39,
      "grad_norm": 1.6306571960449219,
      "learning_rate": 4.27e-06,
      "loss": 0.1098,
      "step": 1878
    },
    {
      "epoch": 9.39,
      "grad_norm": 1.990218997001648,
      "learning_rate": 4.234999999999999e-06,
      "loss": 0.1494,
      "step": 1879
    },
    {
      "epoch": 9.4,
      "grad_norm": 0.49678948521614075,
      "learning_rate": 4.2e-06,
      "loss": 0.1157,
      "step": 1880
    },
    {
      "epoch": 9.4,
      "grad_norm": 0.9147315621376038,
      "learning_rate": 4.164999999999999e-06,
      "loss": 0.1134,
      "step": 1881
    },
    {
      "epoch": 9.41,
      "grad_norm": 1.9934159517288208,
      "learning_rate": 4.129999999999999e-06,
      "loss": 0.1445,
      "step": 1882
    },
    {
      "epoch": 9.41,
      "grad_norm": 0.6381080150604248,
      "learning_rate": 4.095e-06,
      "loss": 0.1102,
      "step": 1883
    },
    {
      "epoch": 9.42,
      "grad_norm": 0.5826066136360168,
      "learning_rate": 4.06e-06,
      "loss": 0.1336,
      "step": 1884
    },
    {
      "epoch": 9.43,
      "grad_norm": 1.647424340248108,
      "learning_rate": 4.025e-06,
      "loss": 0.1268,
      "step": 1885
    },
    {
      "epoch": 9.43,
      "grad_norm": 0.5357626676559448,
      "learning_rate": 3.99e-06,
      "loss": 0.1267,
      "step": 1886
    },
    {
      "epoch": 9.44,
      "grad_norm": 0.5789196491241455,
      "learning_rate": 3.954999999999999e-06,
      "loss": 0.1093,
      "step": 1887
    },
    {
      "epoch": 9.44,
      "grad_norm": 0.6716713905334473,
      "learning_rate": 3.92e-06,
      "loss": 0.1234,
      "step": 1888
    },
    {
      "epoch": 9.45,
      "grad_norm": 0.7356828451156616,
      "learning_rate": 3.885e-06,
      "loss": 0.143,
      "step": 1889
    },
    {
      "epoch": 9.45,
      "grad_norm": 0.8464373350143433,
      "learning_rate": 3.8499999999999996e-06,
      "loss": 0.1225,
      "step": 1890
    },
    {
      "epoch": 9.46,
      "grad_norm": 0.485247939825058,
      "learning_rate": 3.815e-06,
      "loss": 0.1046,
      "step": 1891
    },
    {
      "epoch": 9.46,
      "grad_norm": 1.7758477926254272,
      "learning_rate": 3.78e-06,
      "loss": 0.183,
      "step": 1892
    },
    {
      "epoch": 9.46,
      "grad_norm": 1.0527148246765137,
      "learning_rate": 3.7449999999999997e-06,
      "loss": 0.1307,
      "step": 1893
    },
    {
      "epoch": 9.47,
      "grad_norm": 0.6639531254768372,
      "learning_rate": 3.7099999999999996e-06,
      "loss": 0.1047,
      "step": 1894
    },
    {
      "epoch": 9.47,
      "grad_norm": 1.399989128112793,
      "learning_rate": 3.6749999999999995e-06,
      "loss": 0.1157,
      "step": 1895
    },
    {
      "epoch": 9.48,
      "grad_norm": 0.672217071056366,
      "learning_rate": 3.6399999999999995e-06,
      "loss": 0.0963,
      "step": 1896
    },
    {
      "epoch": 9.48,
      "grad_norm": 0.8985015749931335,
      "learning_rate": 3.6049999999999994e-06,
      "loss": 0.0801,
      "step": 1897
    },
    {
      "epoch": 9.49,
      "grad_norm": 1.3956174850463867,
      "learning_rate": 3.5699999999999993e-06,
      "loss": 0.1161,
      "step": 1898
    },
    {
      "epoch": 9.49,
      "grad_norm": 0.5642419457435608,
      "learning_rate": 3.535e-06,
      "loss": 0.0889,
      "step": 1899
    },
    {
      "epoch": 9.5,
      "grad_norm": 1.172080636024475,
      "learning_rate": 3.5e-06,
      "loss": 0.1247,
      "step": 1900
    },
    {
      "epoch": 9.51,
      "grad_norm": 0.46536049246788025,
      "learning_rate": 3.465e-06,
      "loss": 0.1032,
      "step": 1901
    },
    {
      "epoch": 9.51,
      "grad_norm": 0.9676762223243713,
      "learning_rate": 3.4299999999999998e-06,
      "loss": 0.1165,
      "step": 1902
    },
    {
      "epoch": 9.52,
      "grad_norm": 0.9809800386428833,
      "learning_rate": 3.3949999999999997e-06,
      "loss": 0.1162,
      "step": 1903
    },
    {
      "epoch": 9.52,
      "grad_norm": 0.5321601629257202,
      "learning_rate": 3.3599999999999996e-06,
      "loss": 0.0941,
      "step": 1904
    },
    {
      "epoch": 9.53,
      "grad_norm": 0.7769489884376526,
      "learning_rate": 3.325e-06,
      "loss": 0.1627,
      "step": 1905
    },
    {
      "epoch": 9.53,
      "grad_norm": 0.7083069682121277,
      "learning_rate": 3.29e-06,
      "loss": 0.1116,
      "step": 1906
    },
    {
      "epoch": 9.54,
      "grad_norm": 0.9811080098152161,
      "learning_rate": 3.2549999999999998e-06,
      "loss": 0.1299,
      "step": 1907
    },
    {
      "epoch": 9.54,
      "grad_norm": 0.5178035497665405,
      "learning_rate": 3.2199999999999997e-06,
      "loss": 0.1316,
      "step": 1908
    },
    {
      "epoch": 9.54,
      "grad_norm": 2.376234292984009,
      "learning_rate": 3.1849999999999996e-06,
      "loss": 0.1407,
      "step": 1909
    },
    {
      "epoch": 9.55,
      "grad_norm": 0.9268552660942078,
      "learning_rate": 3.1499999999999995e-06,
      "loss": 0.1383,
      "step": 1910
    },
    {
      "epoch": 9.55,
      "grad_norm": 1.1206495761871338,
      "learning_rate": 3.1149999999999994e-06,
      "loss": 0.1301,
      "step": 1911
    },
    {
      "epoch": 9.56,
      "grad_norm": 0.8590238690376282,
      "learning_rate": 3.0799999999999997e-06,
      "loss": 0.1243,
      "step": 1912
    },
    {
      "epoch": 9.56,
      "grad_norm": 1.4966970682144165,
      "learning_rate": 3.0449999999999996e-06,
      "loss": 0.1488,
      "step": 1913
    },
    {
      "epoch": 9.57,
      "grad_norm": 0.5146641135215759,
      "learning_rate": 3.0099999999999996e-06,
      "loss": 0.1132,
      "step": 1914
    },
    {
      "epoch": 9.57,
      "grad_norm": 0.5341903567314148,
      "learning_rate": 2.975e-06,
      "loss": 0.0864,
      "step": 1915
    },
    {
      "epoch": 9.58,
      "grad_norm": 0.8234443068504333,
      "learning_rate": 2.94e-06,
      "loss": 0.1173,
      "step": 1916
    },
    {
      "epoch": 9.59,
      "grad_norm": 0.9064652919769287,
      "learning_rate": 2.9049999999999997e-06,
      "loss": 0.0953,
      "step": 1917
    },
    {
      "epoch": 9.59,
      "grad_norm": 0.7704000473022461,
      "learning_rate": 2.87e-06,
      "loss": 0.1239,
      "step": 1918
    },
    {
      "epoch": 9.6,
      "grad_norm": 1.251977801322937,
      "learning_rate": 2.835e-06,
      "loss": 0.1216,
      "step": 1919
    },
    {
      "epoch": 9.6,
      "grad_norm": 0.8232444524765015,
      "learning_rate": 2.8e-06,
      "loss": 0.1199,
      "step": 1920
    },
    {
      "epoch": 9.61,
      "grad_norm": 0.5179057121276855,
      "learning_rate": 2.7649999999999998e-06,
      "loss": 0.1166,
      "step": 1921
    },
    {
      "epoch": 9.61,
      "grad_norm": 0.7344412803649902,
      "learning_rate": 2.7299999999999997e-06,
      "loss": 0.1208,
      "step": 1922
    },
    {
      "epoch": 9.62,
      "grad_norm": 1.1907497644424438,
      "learning_rate": 2.6949999999999996e-06,
      "loss": 0.1387,
      "step": 1923
    },
    {
      "epoch": 9.62,
      "grad_norm": 0.6411121487617493,
      "learning_rate": 2.6599999999999995e-06,
      "loss": 0.1211,
      "step": 1924
    },
    {
      "epoch": 9.62,
      "grad_norm": 0.5711604952812195,
      "learning_rate": 2.625e-06,
      "loss": 0.0943,
      "step": 1925
    },
    {
      "epoch": 9.63,
      "grad_norm": 0.5809750556945801,
      "learning_rate": 2.5899999999999998e-06,
      "loss": 0.1012,
      "step": 1926
    },
    {
      "epoch": 9.63,
      "grad_norm": 0.5533270239830017,
      "learning_rate": 2.5549999999999997e-06,
      "loss": 0.1046,
      "step": 1927
    },
    {
      "epoch": 9.64,
      "grad_norm": 0.9446491599082947,
      "learning_rate": 2.5199999999999996e-06,
      "loss": 0.1082,
      "step": 1928
    },
    {
      "epoch": 9.64,
      "grad_norm": 1.1803457736968994,
      "learning_rate": 2.4849999999999995e-06,
      "loss": 0.1035,
      "step": 1929
    },
    {
      "epoch": 9.65,
      "grad_norm": 0.9242768287658691,
      "learning_rate": 2.45e-06,
      "loss": 0.1138,
      "step": 1930
    },
    {
      "epoch": 9.65,
      "grad_norm": 0.4184322953224182,
      "learning_rate": 2.415e-06,
      "loss": 0.1105,
      "step": 1931
    },
    {
      "epoch": 9.66,
      "grad_norm": 3.245140790939331,
      "learning_rate": 2.38e-06,
      "loss": 0.1241,
      "step": 1932
    },
    {
      "epoch": 9.66,
      "grad_norm": 0.39154985547065735,
      "learning_rate": 2.345e-06,
      "loss": 0.0945,
      "step": 1933
    },
    {
      "epoch": 9.67,
      "grad_norm": 0.6375384330749512,
      "learning_rate": 2.31e-06,
      "loss": 0.1054,
      "step": 1934
    },
    {
      "epoch": 9.68,
      "grad_norm": 0.8748621344566345,
      "learning_rate": 2.275e-06,
      "loss": 0.1205,
      "step": 1935
    },
    {
      "epoch": 9.68,
      "grad_norm": 0.5837017297744751,
      "learning_rate": 2.2399999999999997e-06,
      "loss": 0.1088,
      "step": 1936
    },
    {
      "epoch": 9.69,
      "grad_norm": 0.539728581905365,
      "learning_rate": 2.2049999999999996e-06,
      "loss": 0.1298,
      "step": 1937
    },
    {
      "epoch": 9.69,
      "grad_norm": 1.0468693971633911,
      "learning_rate": 2.17e-06,
      "loss": 0.1098,
      "step": 1938
    },
    {
      "epoch": 9.7,
      "grad_norm": 0.6176037788391113,
      "learning_rate": 2.135e-06,
      "loss": 0.1135,
      "step": 1939
    },
    {
      "epoch": 9.7,
      "grad_norm": 0.7118807435035706,
      "learning_rate": 2.1e-06,
      "loss": 0.14,
      "step": 1940
    },
    {
      "epoch": 9.71,
      "grad_norm": 0.5744096636772156,
      "learning_rate": 2.0649999999999997e-06,
      "loss": 0.0847,
      "step": 1941
    },
    {
      "epoch": 9.71,
      "grad_norm": 0.605172336101532,
      "learning_rate": 2.03e-06,
      "loss": 0.1122,
      "step": 1942
    },
    {
      "epoch": 9.71,
      "grad_norm": 0.5206454396247864,
      "learning_rate": 1.995e-06,
      "loss": 0.1022,
      "step": 1943
    },
    {
      "epoch": 9.72,
      "grad_norm": 1.0431569814682007,
      "learning_rate": 1.96e-06,
      "loss": 0.1175,
      "step": 1944
    },
    {
      "epoch": 9.72,
      "grad_norm": 0.7542257308959961,
      "learning_rate": 1.9249999999999998e-06,
      "loss": 0.1134,
      "step": 1945
    },
    {
      "epoch": 9.73,
      "grad_norm": 4.296464920043945,
      "learning_rate": 1.89e-06,
      "loss": 0.1505,
      "step": 1946
    },
    {
      "epoch": 9.73,
      "grad_norm": 0.6377328634262085,
      "learning_rate": 1.8549999999999998e-06,
      "loss": 0.1286,
      "step": 1947
    },
    {
      "epoch": 9.74,
      "grad_norm": 0.5376538038253784,
      "learning_rate": 1.8199999999999997e-06,
      "loss": 0.1146,
      "step": 1948
    },
    {
      "epoch": 9.74,
      "grad_norm": 0.44206786155700684,
      "learning_rate": 1.7849999999999996e-06,
      "loss": 0.1136,
      "step": 1949
    },
    {
      "epoch": 9.75,
      "grad_norm": 0.6783512830734253,
      "learning_rate": 1.75e-06,
      "loss": 0.1166,
      "step": 1950
    },
    {
      "epoch": 9.76,
      "grad_norm": 0.6434986591339111,
      "learning_rate": 1.7149999999999999e-06,
      "loss": 0.0973,
      "step": 1951
    },
    {
      "epoch": 9.76,
      "grad_norm": 1.2304004430770874,
      "learning_rate": 1.6799999999999998e-06,
      "loss": 0.1104,
      "step": 1952
    },
    {
      "epoch": 9.77,
      "grad_norm": 0.9550157785415649,
      "learning_rate": 1.645e-06,
      "loss": 0.2609,
      "step": 1953
    },
    {
      "epoch": 9.77,
      "grad_norm": 0.5582484602928162,
      "learning_rate": 1.6099999999999998e-06,
      "loss": 0.1377,
      "step": 1954
    },
    {
      "epoch": 9.78,
      "grad_norm": 0.530784547328949,
      "learning_rate": 1.5749999999999997e-06,
      "loss": 0.1291,
      "step": 1955
    },
    {
      "epoch": 9.78,
      "grad_norm": 0.723486602306366,
      "learning_rate": 1.5399999999999999e-06,
      "loss": 0.1012,
      "step": 1956
    },
    {
      "epoch": 9.79,
      "grad_norm": 0.5373348593711853,
      "learning_rate": 1.5049999999999998e-06,
      "loss": 0.1049,
      "step": 1957
    },
    {
      "epoch": 9.79,
      "grad_norm": 0.4855913519859314,
      "learning_rate": 1.47e-06,
      "loss": 0.1036,
      "step": 1958
    },
    {
      "epoch": 9.79,
      "grad_norm": 2.4277567863464355,
      "learning_rate": 1.435e-06,
      "loss": 0.1092,
      "step": 1959
    },
    {
      "epoch": 9.8,
      "grad_norm": 0.4600012004375458,
      "learning_rate": 1.4e-06,
      "loss": 0.0915,
      "step": 1960
    },
    {
      "epoch": 9.8,
      "grad_norm": 0.9672639966011047,
      "learning_rate": 1.3649999999999998e-06,
      "loss": 0.1242,
      "step": 1961
    },
    {
      "epoch": 9.81,
      "grad_norm": 1.2409250736236572,
      "learning_rate": 1.3299999999999998e-06,
      "loss": 0.1015,
      "step": 1962
    },
    {
      "epoch": 9.81,
      "grad_norm": 2.5798096656799316,
      "learning_rate": 1.2949999999999999e-06,
      "loss": 0.1211,
      "step": 1963
    },
    {
      "epoch": 9.82,
      "grad_norm": 0.4716747999191284,
      "learning_rate": 1.2599999999999998e-06,
      "loss": 0.1039,
      "step": 1964
    },
    {
      "epoch": 9.82,
      "grad_norm": 0.8007441759109497,
      "learning_rate": 1.225e-06,
      "loss": 0.1998,
      "step": 1965
    },
    {
      "epoch": 9.83,
      "grad_norm": 0.7097314596176147,
      "learning_rate": 1.19e-06,
      "loss": 0.1127,
      "step": 1966
    },
    {
      "epoch": 9.84,
      "grad_norm": 0.8022559285163879,
      "learning_rate": 1.155e-06,
      "loss": 0.1307,
      "step": 1967
    },
    {
      "epoch": 9.84,
      "grad_norm": 3.1428909301757812,
      "learning_rate": 1.1199999999999999e-06,
      "loss": 0.1219,
      "step": 1968
    },
    {
      "epoch": 9.85,
      "grad_norm": 1.7905181646347046,
      "learning_rate": 1.085e-06,
      "loss": 0.1394,
      "step": 1969
    },
    {
      "epoch": 9.85,
      "grad_norm": 1.031143069267273,
      "learning_rate": 1.05e-06,
      "loss": 0.1189,
      "step": 1970
    },
    {
      "epoch": 9.86,
      "grad_norm": 0.6492060422897339,
      "learning_rate": 1.015e-06,
      "loss": 0.1343,
      "step": 1971
    },
    {
      "epoch": 9.86,
      "grad_norm": 0.4210716187953949,
      "learning_rate": 9.8e-07,
      "loss": 0.1088,
      "step": 1972
    },
    {
      "epoch": 9.87,
      "grad_norm": 1.2977746725082397,
      "learning_rate": 9.45e-07,
      "loss": 0.1436,
      "step": 1973
    },
    {
      "epoch": 9.87,
      "grad_norm": 0.7707087397575378,
      "learning_rate": 9.099999999999999e-07,
      "loss": 0.097,
      "step": 1974
    },
    {
      "epoch": 9.88,
      "grad_norm": 1.3395390510559082,
      "learning_rate": 8.75e-07,
      "loss": 0.1115,
      "step": 1975
    },
    {
      "epoch": 9.88,
      "grad_norm": 2.554347515106201,
      "learning_rate": 8.399999999999999e-07,
      "loss": 0.1114,
      "step": 1976
    },
    {
      "epoch": 9.88,
      "grad_norm": 1.8214863538742065,
      "learning_rate": 8.049999999999999e-07,
      "loss": 0.143,
      "step": 1977
    },
    {
      "epoch": 9.89,
      "grad_norm": 2.4421889781951904,
      "learning_rate": 7.699999999999999e-07,
      "loss": 0.1341,
      "step": 1978
    },
    {
      "epoch": 9.89,
      "grad_norm": 0.4603782892227173,
      "learning_rate": 7.35e-07,
      "loss": 0.0914,
      "step": 1979
    },
    {
      "epoch": 9.9,
      "grad_norm": 1.5018261671066284,
      "learning_rate": 7e-07,
      "loss": 0.122,
      "step": 1980
    },
    {
      "epoch": 9.9,
      "grad_norm": 0.4430878460407257,
      "learning_rate": 6.649999999999999e-07,
      "loss": 0.1235,
      "step": 1981
    },
    {
      "epoch": 9.91,
      "grad_norm": 2.1032943725585938,
      "learning_rate": 6.299999999999999e-07,
      "loss": 0.1324,
      "step": 1982
    },
    {
      "epoch": 9.91,
      "grad_norm": 0.7020024061203003,
      "learning_rate": 5.95e-07,
      "loss": 0.1059,
      "step": 1983
    },
    {
      "epoch": 9.92,
      "grad_norm": 2.144634246826172,
      "learning_rate": 5.599999999999999e-07,
      "loss": 0.1351,
      "step": 1984
    },
    {
      "epoch": 9.93,
      "grad_norm": 0.9386110901832581,
      "learning_rate": 5.25e-07,
      "loss": 0.0952,
      "step": 1985
    },
    {
      "epoch": 9.93,
      "grad_norm": 0.8994183540344238,
      "learning_rate": 4.9e-07,
      "loss": 0.1399,
      "step": 1986
    },
    {
      "epoch": 9.94,
      "grad_norm": 0.9533978700637817,
      "learning_rate": 4.5499999999999993e-07,
      "loss": 0.1029,
      "step": 1987
    },
    {
      "epoch": 9.94,
      "grad_norm": 0.9474722146987915,
      "learning_rate": 4.1999999999999995e-07,
      "loss": 0.1611,
      "step": 1988
    },
    {
      "epoch": 9.95,
      "grad_norm": 0.5537629723548889,
      "learning_rate": 3.8499999999999997e-07,
      "loss": 0.1293,
      "step": 1989
    },
    {
      "epoch": 9.95,
      "grad_norm": 0.8975671529769897,
      "learning_rate": 3.5e-07,
      "loss": 0.1251,
      "step": 1990
    },
    {
      "epoch": 9.96,
      "grad_norm": 0.6498235464096069,
      "learning_rate": 3.1499999999999995e-07,
      "loss": 0.1328,
      "step": 1991
    },
    {
      "epoch": 9.96,
      "grad_norm": 1.0172252655029297,
      "learning_rate": 2.7999999999999997e-07,
      "loss": 0.1016,
      "step": 1992
    },
    {
      "epoch": 9.96,
      "grad_norm": 0.6676498651504517,
      "learning_rate": 2.45e-07,
      "loss": 0.1075,
      "step": 1993
    },
    {
      "epoch": 9.97,
      "grad_norm": 0.7254127860069275,
      "learning_rate": 2.0999999999999997e-07,
      "loss": 0.0979,
      "step": 1994
    },
    {
      "epoch": 9.97,
      "grad_norm": 0.9832541942596436,
      "learning_rate": 1.75e-07,
      "loss": 0.1194,
      "step": 1995
    },
    {
      "epoch": 9.98,
      "grad_norm": 0.506507933139801,
      "learning_rate": 1.3999999999999998e-07,
      "loss": 0.0978,
      "step": 1996
    },
    {
      "epoch": 9.98,
      "grad_norm": 0.8251633644104004,
      "learning_rate": 1.0499999999999999e-07,
      "loss": 0.1265,
      "step": 1997
    },
    {
      "epoch": 9.99,
      "grad_norm": 0.6084069013595581,
      "learning_rate": 6.999999999999999e-08,
      "loss": 0.1055,
      "step": 1998
    },
    {
      "epoch": 9.99,
      "grad_norm": 1.210321068763733,
      "learning_rate": 3.4999999999999996e-08,
      "loss": 0.1807,
      "step": 1999
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.5566476583480835,
      "learning_rate": 0.0,
      "loss": 0.1171,
      "step": 2000
    },
    {
      "epoch": 10.0,
      "eval_accuracy_Background": NaN,
      "eval_accuracy_Bag": 0.7360213049798232,
      "eval_accuracy_Belt": 0.09075817728278818,
      "eval_accuracy_Dress": 0.8576051886712691,
      "eval_accuracy_Face": 0.8978514946179547,
      "eval_accuracy_Hair": 0.8701325863346409,
      "eval_accuracy_Hat": 0.6299580575462198,
      "eval_accuracy_Left-arm": 0.8263820945378358,
      "eval_accuracy_Left-leg": 0.8607972447854508,
      "eval_accuracy_Left-shoe": 0.6585087316678687,
      "eval_accuracy_Pants": 0.8489006792585791,
      "eval_accuracy_Right-arm": 0.814080123974347,
      "eval_accuracy_Right-leg": 0.8580013569036186,
      "eval_accuracy_Right-shoe": 0.6138633287612749,
      "eval_accuracy_Scarf": 0.009624944244111372,
      "eval_accuracy_Skirt": 0.7188021395408843,
      "eval_accuracy_Sunglasses": 0.1681104303119938,
      "eval_accuracy_Upper-clothes": 0.8613264160131296,
      "eval_iou_Background": 0.0,
      "eval_iou_Bag": 0.6572837335227218,
      "eval_iou_Belt": 0.0854079878331019,
      "eval_iou_Dress": 0.6125462265523786,
      "eval_iou_Face": 0.8019002447055981,
      "eval_iou_Hair": 0.7730313225195593,
      "eval_iou_Hat": 0.5640329837707243,
      "eval_iou_Left-arm": 0.7366001477708297,
      "eval_iou_Left-leg": 0.7652196066741751,
      "eval_iou_Left-shoe": 0.5348654866078363,
      "eval_iou_Pants": 0.7657499260469051,
      "eval_iou_Right-arm": 0.7316723225870846,
      "eval_iou_Right-leg": 0.769743228624044,
      "eval_iou_Right-shoe": 0.5162002911759629,
      "eval_iou_Scarf": 0.009616520441146465,
      "eval_iou_Skirt": 0.6460050601931083,
      "eval_iou_Sunglasses": 0.16685015290519878,
      "eval_iou_Upper-clothes": 0.7698992593294557,
      "eval_loss": 0.16313785314559937,
      "eval_mean_accuracy": 0.6659249587901053,
      "eval_mean_iou": 0.5503680278477683,
      "eval_overall_accuracy": 0.8146641645920085,
      "eval_runtime": 28.228,
      "eval_samples_per_second": 14.17,
      "eval_steps_per_second": 7.085,
      "step": 2000
    },
    {
      "epoch": 10.0,
      "step": 2000,
      "total_flos": 2.8075773394944e+17,
      "train_loss": 0.1485705680847168,
      "train_runtime": 1457.1862,
      "train_samples_per_second": 10.98,
      "train_steps_per_second": 1.373
    }
  ],
  "logging_steps": 1,
  "max_steps": 2000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 20,
  "total_flos": 2.8075773394944e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}