{
  "best_metric": 0.6427481174468994,
  "best_model_checkpoint": "./models/adapters_mlm_cn/mt/checkpoint-40000",
  "epoch": 82.81573498964804,
  "eval_steps": 500,
  "global_step": 40000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.04,
      "learning_rate": 4.9500000000000004e-05,
      "loss": 2.6689,
      "step": 500
    },
    {
      "epoch": 1.04,
      "eval_accuracy": 0.6676783004552352,
      "eval_loss": 2.1344573497772217,
      "eval_runtime": 1.6941,
      "eval_samples_per_second": 506.449,
      "eval_steps_per_second": 31.874,
      "step": 500
    },
    {
      "epoch": 2.07,
      "learning_rate": 4.9e-05,
      "loss": 2.1415,
      "step": 1000
    },
    {
      "epoch": 2.07,
      "eval_accuracy": 0.6926470588235294,
      "eval_loss": 1.8435733318328857,
      "eval_runtime": 1.6896,
      "eval_samples_per_second": 507.824,
      "eval_steps_per_second": 31.961,
      "step": 1000
    },
    {
      "epoch": 3.11,
      "learning_rate": 4.85e-05,
      "loss": 1.9421,
      "step": 1500
    },
    {
      "epoch": 3.11,
      "eval_accuracy": 0.690674753601213,
      "eval_loss": 1.787391185760498,
      "eval_runtime": 1.6956,
      "eval_samples_per_second": 506.016,
      "eval_steps_per_second": 31.847,
      "step": 1500
    },
    {
      "epoch": 4.14,
      "learning_rate": 4.8e-05,
      "loss": 1.7588,
      "step": 2000
    },
    {
      "epoch": 4.14,
      "eval_accuracy": 0.7012509197939661,
      "eval_loss": 1.760498285293579,
      "eval_runtime": 1.6894,
      "eval_samples_per_second": 507.882,
      "eval_steps_per_second": 31.965,
      "step": 2000
    },
    {
      "epoch": 5.18,
      "learning_rate": 4.75e-05,
      "loss": 1.6729,
      "step": 2500
    },
    {
      "epoch": 5.18,
      "eval_accuracy": 0.6956845238095238,
      "eval_loss": 1.7567747831344604,
      "eval_runtime": 1.6937,
      "eval_samples_per_second": 506.597,
      "eval_steps_per_second": 31.884,
      "step": 2500
    },
    {
      "epoch": 6.21,
      "learning_rate": 4.7e-05,
      "loss": 1.596,
      "step": 3000
    },
    {
      "epoch": 6.21,
      "eval_accuracy": 0.7272727272727273,
      "eval_loss": 1.5006115436553955,
      "eval_runtime": 1.6969,
      "eval_samples_per_second": 505.627,
      "eval_steps_per_second": 31.823,
      "step": 3000
    },
    {
      "epoch": 7.25,
      "learning_rate": 4.6500000000000005e-05,
      "loss": 1.5778,
      "step": 3500
    },
    {
      "epoch": 7.25,
      "eval_accuracy": 0.7450832072617246,
      "eval_loss": 1.3923866748809814,
      "eval_runtime": 1.6898,
      "eval_samples_per_second": 507.75,
      "eval_steps_per_second": 31.956,
      "step": 3500
    },
    {
      "epoch": 8.28,
      "learning_rate": 4.600000000000001e-05,
      "loss": 1.4821,
      "step": 4000
    },
    {
      "epoch": 8.28,
      "eval_accuracy": 0.7099236641221374,
      "eval_loss": 1.609680414199829,
      "eval_runtime": 1.6898,
      "eval_samples_per_second": 507.758,
      "eval_steps_per_second": 31.957,
      "step": 4000
    },
    {
      "epoch": 9.32,
      "learning_rate": 4.55e-05,
      "loss": 1.4183,
      "step": 4500
    },
    {
      "epoch": 9.32,
      "eval_accuracy": 0.7490551776266062,
      "eval_loss": 1.3551626205444336,
      "eval_runtime": 1.6905,
      "eval_samples_per_second": 507.539,
      "eval_steps_per_second": 31.943,
      "step": 4500
    },
    {
      "epoch": 10.35,
      "learning_rate": 4.5e-05,
      "loss": 1.4197,
      "step": 5000
    },
    {
      "epoch": 10.35,
      "eval_accuracy": 0.7513471901462664,
      "eval_loss": 1.284741997718811,
      "eval_runtime": 1.6878,
      "eval_samples_per_second": 508.353,
      "eval_steps_per_second": 31.994,
      "step": 5000
    },
    {
      "epoch": 11.39,
      "learning_rate": 4.4500000000000004e-05,
      "loss": 1.3156,
      "step": 5500
    },
    {
      "epoch": 11.39,
      "eval_accuracy": 0.7496318114874816,
      "eval_loss": 1.3172950744628906,
      "eval_runtime": 1.6891,
      "eval_samples_per_second": 507.956,
      "eval_steps_per_second": 31.969,
      "step": 5500
    },
    {
      "epoch": 12.42,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 1.2882,
      "step": 6000
    },
    {
      "epoch": 12.42,
      "eval_accuracy": 0.7738095238095238,
      "eval_loss": 1.2816879749298096,
      "eval_runtime": 1.6955,
      "eval_samples_per_second": 506.058,
      "eval_steps_per_second": 31.85,
      "step": 6000
    },
    {
      "epoch": 13.46,
      "learning_rate": 4.35e-05,
      "loss": 1.2692,
      "step": 6500
    },
    {
      "epoch": 13.46,
      "eval_accuracy": 0.775112443778111,
      "eval_loss": 1.189226746559143,
      "eval_runtime": 1.6876,
      "eval_samples_per_second": 508.403,
      "eval_steps_per_second": 31.997,
      "step": 6500
    },
    {
      "epoch": 14.49,
      "learning_rate": 4.3e-05,
      "loss": 1.2368,
      "step": 7000
    },
    {
      "epoch": 14.49,
      "eval_accuracy": 0.7816432272390822,
      "eval_loss": 1.2362936735153198,
      "eval_runtime": 1.6828,
      "eval_samples_per_second": 509.861,
      "eval_steps_per_second": 32.089,
      "step": 7000
    },
    {
      "epoch": 15.53,
      "learning_rate": 4.25e-05,
      "loss": 1.1975,
      "step": 7500
    },
    {
      "epoch": 15.53,
      "eval_accuracy": 0.76996336996337,
      "eval_loss": 1.2442289590835571,
      "eval_runtime": 1.6849,
      "eval_samples_per_second": 509.233,
      "eval_steps_per_second": 32.05,
      "step": 7500
    },
    {
      "epoch": 16.56,
      "learning_rate": 4.2e-05,
      "loss": 1.1907,
      "step": 8000
    },
    {
      "epoch": 16.56,
      "eval_accuracy": 0.7720320466132556,
      "eval_loss": 1.256901502609253,
      "eval_runtime": 1.6884,
      "eval_samples_per_second": 508.188,
      "eval_steps_per_second": 31.984,
      "step": 8000
    },
    {
      "epoch": 17.6,
      "learning_rate": 4.15e-05,
      "loss": 1.1231,
      "step": 8500
    },
    {
      "epoch": 17.6,
      "eval_accuracy": 0.776085300837776,
      "eval_loss": 1.13861083984375,
      "eval_runtime": 1.6842,
      "eval_samples_per_second": 509.436,
      "eval_steps_per_second": 32.062,
      "step": 8500
    },
    {
      "epoch": 18.63,
      "learning_rate": 4.1e-05,
      "loss": 1.0873,
      "step": 9000
    },
    {
      "epoch": 18.63,
      "eval_accuracy": 0.7855547282204021,
      "eval_loss": 1.2104856967926025,
      "eval_runtime": 1.6846,
      "eval_samples_per_second": 509.309,
      "eval_steps_per_second": 32.054,
      "step": 9000
    },
    {
      "epoch": 19.67,
      "learning_rate": 4.05e-05,
      "loss": 1.1242,
      "step": 9500
    },
    {
      "epoch": 19.67,
      "eval_accuracy": 0.7737909516380655,
      "eval_loss": 1.214229702949524,
      "eval_runtime": 1.6848,
      "eval_samples_per_second": 509.258,
      "eval_steps_per_second": 32.051,
      "step": 9500
    },
    {
      "epoch": 20.7,
      "learning_rate": 4e-05,
      "loss": 1.0367,
      "step": 10000
    },
    {
      "epoch": 20.7,
      "eval_accuracy": 0.7712369597615499,
      "eval_loss": 1.2120734453201294,
      "eval_runtime": 1.6938,
      "eval_samples_per_second": 506.56,
      "eval_steps_per_second": 31.881,
      "step": 10000
    },
    {
      "epoch": 21.74,
      "learning_rate": 3.9500000000000005e-05,
      "loss": 1.0869,
      "step": 10500
    },
    {
      "epoch": 21.74,
      "eval_accuracy": 0.7955390334572491,
      "eval_loss": 1.0782362222671509,
      "eval_runtime": 1.6863,
      "eval_samples_per_second": 508.795,
      "eval_steps_per_second": 32.022,
      "step": 10500
    },
    {
      "epoch": 22.77,
      "learning_rate": 3.9000000000000006e-05,
      "loss": 1.0353,
      "step": 11000
    },
    {
      "epoch": 22.77,
      "eval_accuracy": 0.8068535825545171,
      "eval_loss": 0.9917858839035034,
      "eval_runtime": 1.6841,
      "eval_samples_per_second": 509.483,
      "eval_steps_per_second": 32.065,
      "step": 11000
    },
    {
      "epoch": 23.81,
      "learning_rate": 3.85e-05,
      "loss": 1.0324,
      "step": 11500
    },
    {
      "epoch": 23.81,
      "eval_accuracy": 0.7971233913701741,
      "eval_loss": 1.0908266305923462,
      "eval_runtime": 1.6848,
      "eval_samples_per_second": 509.246,
      "eval_steps_per_second": 32.05,
      "step": 11500
    },
    {
      "epoch": 24.84,
      "learning_rate": 3.8e-05,
      "loss": 1.0145,
      "step": 12000
    },
    {
      "epoch": 24.84,
      "eval_accuracy": 0.7975460122699386,
      "eval_loss": 1.0944875478744507,
      "eval_runtime": 1.6827,
      "eval_samples_per_second": 509.9,
      "eval_steps_per_second": 32.092,
      "step": 12000
    },
    {
      "epoch": 25.88,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 0.9951,
      "step": 12500
    },
    {
      "epoch": 25.88,
      "eval_accuracy": 0.8028064992614475,
      "eval_loss": 1.000519037246704,
      "eval_runtime": 1.6933,
      "eval_samples_per_second": 506.714,
      "eval_steps_per_second": 31.891,
      "step": 12500
    },
    {
      "epoch": 26.92,
      "learning_rate": 3.7e-05,
      "loss": 0.9483,
      "step": 13000
    },
    {
      "epoch": 26.92,
      "eval_accuracy": 0.8186646433990895,
      "eval_loss": 0.963790237903595,
      "eval_runtime": 1.6874,
      "eval_samples_per_second": 508.479,
      "eval_steps_per_second": 32.002,
      "step": 13000
    },
    {
      "epoch": 27.95,
      "learning_rate": 3.65e-05,
      "loss": 0.9304,
      "step": 13500
    },
    {
      "epoch": 27.95,
      "eval_accuracy": 0.8204747774480712,
      "eval_loss": 0.9761123657226562,
      "eval_runtime": 1.6869,
      "eval_samples_per_second": 508.622,
      "eval_steps_per_second": 32.011,
      "step": 13500
    },
    {
      "epoch": 28.99,
      "learning_rate": 3.6e-05,
      "loss": 0.8835,
      "step": 14000
    },
    {
      "epoch": 28.99,
      "eval_accuracy": 0.8045801526717558,
      "eval_loss": 1.062032699584961,
      "eval_runtime": 1.6883,
      "eval_samples_per_second": 508.21,
      "eval_steps_per_second": 31.985,
      "step": 14000
    },
    {
      "epoch": 30.02,
      "learning_rate": 3.55e-05,
      "loss": 0.9097,
      "step": 14500
    },
    {
      "epoch": 30.02,
      "eval_accuracy": 0.806015037593985,
      "eval_loss": 0.9137569069862366,
      "eval_runtime": 1.6924,
      "eval_samples_per_second": 506.97,
      "eval_steps_per_second": 31.907,
      "step": 14500
    },
    {
      "epoch": 31.06,
      "learning_rate": 3.5e-05,
      "loss": 0.9293,
      "step": 15000
    },
    {
      "epoch": 31.06,
      "eval_accuracy": 0.8176197836166924,
      "eval_loss": 0.918023943901062,
      "eval_runtime": 1.6905,
      "eval_samples_per_second": 507.53,
      "eval_steps_per_second": 31.942,
      "step": 15000
    },
    {
      "epoch": 32.09,
      "learning_rate": 3.45e-05,
      "loss": 0.9043,
      "step": 15500
    },
    {
      "epoch": 32.09,
      "eval_accuracy": 0.8208269525267994,
      "eval_loss": 0.9214709401130676,
      "eval_runtime": 1.691,
      "eval_samples_per_second": 507.403,
      "eval_steps_per_second": 31.934,
      "step": 15500
    },
    {
      "epoch": 33.13,
      "learning_rate": 3.4000000000000007e-05,
      "loss": 0.8581,
      "step": 16000
    },
    {
      "epoch": 33.13,
      "eval_accuracy": 0.822452229299363,
      "eval_loss": 0.9624596834182739,
      "eval_runtime": 1.6897,
      "eval_samples_per_second": 507.793,
      "eval_steps_per_second": 31.959,
      "step": 16000
    },
    {
      "epoch": 34.16,
      "learning_rate": 3.35e-05,
      "loss": 0.8638,
      "step": 16500
    },
    {
      "epoch": 34.16,
      "eval_accuracy": 0.8367816091954023,
      "eval_loss": 0.8585591316223145,
      "eval_runtime": 1.6912,
      "eval_samples_per_second": 507.329,
      "eval_steps_per_second": 31.93,
      "step": 16500
    },
    {
      "epoch": 35.2,
      "learning_rate": 3.3e-05,
      "loss": 0.874,
      "step": 17000
    },
    {
      "epoch": 35.2,
      "eval_accuracy": 0.8135072908672295,
      "eval_loss": 1.0043973922729492,
      "eval_runtime": 1.6896,
      "eval_samples_per_second": 507.801,
      "eval_steps_per_second": 31.96,
      "step": 17000
    },
    {
      "epoch": 36.23,
      "learning_rate": 3.2500000000000004e-05,
      "loss": 0.8235,
      "step": 17500
    },
    {
      "epoch": 36.23,
      "eval_accuracy": 0.8183890577507599,
      "eval_loss": 0.9755066633224487,
      "eval_runtime": 1.6947,
      "eval_samples_per_second": 506.289,
      "eval_steps_per_second": 31.864,
      "step": 17500
    },
    {
      "epoch": 37.27,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 0.8589,
      "step": 18000
    },
    {
      "epoch": 37.27,
      "eval_accuracy": 0.8291761148904006,
      "eval_loss": 0.9042153358459473,
      "eval_runtime": 1.6905,
      "eval_samples_per_second": 507.55,
      "eval_steps_per_second": 31.944,
      "step": 18000
    },
    {
      "epoch": 38.3,
      "learning_rate": 3.15e-05,
      "loss": 0.8107,
      "step": 18500
    },
    {
      "epoch": 38.3,
      "eval_accuracy": 0.8272327964860908,
      "eval_loss": 0.8821109533309937,
      "eval_runtime": 1.6895,
      "eval_samples_per_second": 507.845,
      "eval_steps_per_second": 31.962,
      "step": 18500
    },
    {
      "epoch": 39.34,
      "learning_rate": 3.1e-05,
      "loss": 0.8346,
      "step": 19000
    },
    {
      "epoch": 39.34,
      "eval_accuracy": 0.8248286367098249,
      "eval_loss": 0.9061236381530762,
      "eval_runtime": 1.6919,
      "eval_samples_per_second": 507.136,
      "eval_steps_per_second": 31.918,
      "step": 19000
    },
    {
      "epoch": 40.37,
      "learning_rate": 3.05e-05,
      "loss": 0.8393,
      "step": 19500
    },
    {
      "epoch": 40.37,
      "eval_accuracy": 0.8234854151084517,
      "eval_loss": 0.9795840978622437,
      "eval_runtime": 1.6939,
      "eval_samples_per_second": 506.513,
      "eval_steps_per_second": 31.878,
      "step": 19500
    },
    {
      "epoch": 41.41,
      "learning_rate": 3e-05,
      "loss": 0.789,
      "step": 20000
    },
    {
      "epoch": 41.41,
      "eval_accuracy": 0.833076923076923,
      "eval_loss": 0.9014851450920105,
      "eval_runtime": 1.689,
      "eval_samples_per_second": 508.0,
      "eval_steps_per_second": 31.972,
      "step": 20000
    },
    {
      "epoch": 42.44,
      "learning_rate": 2.95e-05,
      "loss": 0.8121,
      "step": 20500
    },
    {
      "epoch": 42.44,
      "eval_accuracy": 0.8385913426265591,
      "eval_loss": 0.8589309453964233,
      "eval_runtime": 1.6873,
      "eval_samples_per_second": 508.516,
      "eval_steps_per_second": 32.005,
      "step": 20500
    },
    {
      "epoch": 43.48,
      "learning_rate": 2.9e-05,
      "loss": 0.7709,
      "step": 21000
    },
    {
      "epoch": 43.48,
      "eval_accuracy": 0.8350903614457831,
      "eval_loss": 0.8835715055465698,
      "eval_runtime": 1.6829,
      "eval_samples_per_second": 509.835,
      "eval_steps_per_second": 32.088,
      "step": 21000
    },
    {
      "epoch": 44.51,
      "learning_rate": 2.8499999999999998e-05,
      "loss": 0.7922,
      "step": 21500
    },
    {
      "epoch": 44.51,
      "eval_accuracy": 0.817974105102818,
      "eval_loss": 0.9523779153823853,
      "eval_runtime": 1.6863,
      "eval_samples_per_second": 508.799,
      "eval_steps_per_second": 32.022,
      "step": 21500
    },
    {
      "epoch": 45.55,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 0.7457,
      "step": 22000
    },
    {
      "epoch": 45.55,
      "eval_accuracy": 0.8364451082897685,
      "eval_loss": 0.8350428938865662,
      "eval_runtime": 1.6901,
      "eval_samples_per_second": 507.673,
      "eval_steps_per_second": 31.951,
      "step": 22000
    },
    {
      "epoch": 46.58,
      "learning_rate": 2.7500000000000004e-05,
      "loss": 0.7386,
      "step": 22500
    },
    {
      "epoch": 46.58,
      "eval_accuracy": 0.8340807174887892,
      "eval_loss": 0.9024766087532043,
      "eval_runtime": 1.6912,
      "eval_samples_per_second": 507.34,
      "eval_steps_per_second": 31.93,
      "step": 22500
    },
    {
      "epoch": 47.62,
      "learning_rate": 2.7000000000000002e-05,
      "loss": 0.7515,
      "step": 23000
    },
    {
      "epoch": 47.62,
      "eval_accuracy": 0.8390166534496432,
      "eval_loss": 0.9091906547546387,
      "eval_runtime": 1.686,
      "eval_samples_per_second": 508.899,
      "eval_steps_per_second": 32.029,
      "step": 23000
    },
    {
      "epoch": 48.65,
      "learning_rate": 2.6500000000000004e-05,
      "loss": 0.7324,
      "step": 23500
    },
    {
      "epoch": 48.65,
      "eval_accuracy": 0.8420647149460708,
      "eval_loss": 0.8322407007217407,
      "eval_runtime": 1.6918,
      "eval_samples_per_second": 507.153,
      "eval_steps_per_second": 31.919,
      "step": 23500
    },
    {
      "epoch": 49.69,
      "learning_rate": 2.6000000000000002e-05,
      "loss": 0.7314,
      "step": 24000
    },
    {
      "epoch": 49.69,
      "eval_accuracy": 0.8477078477078477,
      "eval_loss": 0.7967829704284668,
      "eval_runtime": 1.6933,
      "eval_samples_per_second": 506.713,
      "eval_steps_per_second": 31.891,
      "step": 24000
    },
    {
      "epoch": 50.72,
      "learning_rate": 2.5500000000000003e-05,
      "loss": 0.7442,
      "step": 24500
    },
    {
      "epoch": 50.72,
      "eval_accuracy": 0.8324407039020658,
      "eval_loss": 0.930473268032074,
      "eval_runtime": 1.6828,
      "eval_samples_per_second": 509.873,
      "eval_steps_per_second": 32.09,
      "step": 24500
    },
    {
      "epoch": 51.76,
      "learning_rate": 2.5e-05,
      "loss": 0.7074,
      "step": 25000
    },
    {
      "epoch": 51.76,
      "eval_accuracy": 0.820839580209895,
      "eval_loss": 1.001060962677002,
      "eval_runtime": 1.6867,
      "eval_samples_per_second": 508.672,
      "eval_steps_per_second": 32.014,
      "step": 25000
    },
    {
      "epoch": 52.8,
      "learning_rate": 2.45e-05,
      "loss": 0.739,
      "step": 25500
    },
    {
      "epoch": 52.8,
      "eval_accuracy": 0.8330945558739254,
      "eval_loss": 0.8732258677482605,
      "eval_runtime": 1.6896,
      "eval_samples_per_second": 507.823,
      "eval_steps_per_second": 31.961,
      "step": 25500
    },
    {
      "epoch": 53.83,
      "learning_rate": 2.4e-05,
      "loss": 0.7243,
      "step": 26000
    },
    {
      "epoch": 53.83,
      "eval_accuracy": 0.8479880774962743,
      "eval_loss": 0.7857112288475037,
      "eval_runtime": 1.687,
      "eval_samples_per_second": 508.591,
      "eval_steps_per_second": 32.009,
      "step": 26000
    },
    {
      "epoch": 54.87,
      "learning_rate": 2.35e-05,
      "loss": 0.6842,
      "step": 26500
    },
    {
      "epoch": 54.87,
      "eval_accuracy": 0.8377192982456141,
      "eval_loss": 0.7945135235786438,
      "eval_runtime": 1.6902,
      "eval_samples_per_second": 507.642,
      "eval_steps_per_second": 31.949,
      "step": 26500
    },
    {
      "epoch": 55.9,
      "learning_rate": 2.3000000000000003e-05,
      "loss": 0.6991,
      "step": 27000
    },
    {
      "epoch": 55.9,
      "eval_accuracy": 0.8275351591413768,
      "eval_loss": 0.9627696871757507,
      "eval_runtime": 1.6871,
      "eval_samples_per_second": 508.578,
      "eval_steps_per_second": 32.008,
      "step": 27000
    },
    {
      "epoch": 56.94,
      "learning_rate": 2.25e-05,
      "loss": 0.6896,
      "step": 27500
    },
    {
      "epoch": 56.94,
      "eval_accuracy": 0.840960240060015,
      "eval_loss": 0.8363039493560791,
      "eval_runtime": 1.684,
      "eval_samples_per_second": 509.495,
      "eval_steps_per_second": 32.066,
      "step": 27500
    },
    {
      "epoch": 57.97,
      "learning_rate": 2.2000000000000003e-05,
      "loss": 0.6925,
      "step": 28000
    },
    {
      "epoch": 57.97,
      "eval_accuracy": 0.8391812865497076,
      "eval_loss": 0.8432921767234802,
      "eval_runtime": 1.6968,
      "eval_samples_per_second": 505.655,
      "eval_steps_per_second": 31.824,
      "step": 28000
    },
    {
      "epoch": 59.01,
      "learning_rate": 2.15e-05,
      "loss": 0.7081,
      "step": 28500
    },
    {
      "epoch": 59.01,
      "eval_accuracy": 0.8223048327137547,
      "eval_loss": 1.0085676908493042,
      "eval_runtime": 1.69,
      "eval_samples_per_second": 507.688,
      "eval_steps_per_second": 31.952,
      "step": 28500
    },
    {
      "epoch": 60.04,
      "learning_rate": 2.1e-05,
      "loss": 0.6598,
      "step": 29000
    },
    {
      "epoch": 60.04,
      "eval_accuracy": 0.8333333333333334,
      "eval_loss": 0.9250668883323669,
      "eval_runtime": 1.686,
      "eval_samples_per_second": 508.895,
      "eval_steps_per_second": 32.028,
      "step": 29000
    },
    {
      "epoch": 61.08,
      "learning_rate": 2.05e-05,
      "loss": 0.6677,
      "step": 29500
    },
    {
      "epoch": 61.08,
      "eval_accuracy": 0.8437047756874095,
      "eval_loss": 0.8822752237319946,
      "eval_runtime": 1.693,
      "eval_samples_per_second": 506.807,
      "eval_steps_per_second": 31.897,
      "step": 29500
    },
    {
      "epoch": 62.11,
      "learning_rate": 2e-05,
      "loss": 0.695,
      "step": 30000
    },
    {
      "epoch": 62.11,
      "eval_accuracy": 0.8560371517027864,
      "eval_loss": 0.7750544548034668,
      "eval_runtime": 1.6969,
      "eval_samples_per_second": 505.632,
      "eval_steps_per_second": 31.823,
      "step": 30000
    },
    {
      "epoch": 63.15,
      "learning_rate": 1.9500000000000003e-05,
      "loss": 0.7108,
      "step": 30500
    },
    {
      "epoch": 63.15,
      "eval_accuracy": 0.8481104651162791,
      "eval_loss": 0.8452057242393494,
      "eval_runtime": 1.6974,
      "eval_samples_per_second": 505.49,
      "eval_steps_per_second": 31.814,
      "step": 30500
    },
    {
      "epoch": 64.18,
      "learning_rate": 1.9e-05,
      "loss": 0.6721,
      "step": 31000
    },
    {
      "epoch": 64.18,
      "eval_accuracy": 0.8413284132841329,
      "eval_loss": 0.8559600114822388,
      "eval_runtime": 1.6936,
      "eval_samples_per_second": 506.623,
      "eval_steps_per_second": 31.885,
      "step": 31000
    },
    {
      "epoch": 65.22,
      "learning_rate": 1.85e-05,
      "loss": 0.6571,
      "step": 31500
    },
    {
      "epoch": 65.22,
      "eval_accuracy": 0.8163109756097561,
      "eval_loss": 0.98003089427948,
      "eval_runtime": 1.6913,
      "eval_samples_per_second": 507.303,
      "eval_steps_per_second": 31.928,
      "step": 31500
    },
    {
      "epoch": 66.25,
      "learning_rate": 1.8e-05,
      "loss": 0.6891,
      "step": 32000
    },
    {
      "epoch": 66.25,
      "eval_accuracy": 0.8457446808510638,
      "eval_loss": 0.8105884194374084,
      "eval_runtime": 1.6942,
      "eval_samples_per_second": 506.435,
      "eval_steps_per_second": 31.874,
      "step": 32000
    },
    {
      "epoch": 67.29,
      "learning_rate": 1.75e-05,
      "loss": 0.6541,
      "step": 32500
    },
    {
      "epoch": 67.29,
      "eval_accuracy": 0.8429752066115702,
      "eval_loss": 0.8197007179260254,
      "eval_runtime": 1.6912,
      "eval_samples_per_second": 507.332,
      "eval_steps_per_second": 31.93,
      "step": 32500
    },
    {
      "epoch": 68.32,
      "learning_rate": 1.7000000000000003e-05,
      "loss": 0.6559,
      "step": 33000
    },
    {
      "epoch": 68.32,
      "eval_accuracy": 0.8388305847076462,
      "eval_loss": 0.8678442239761353,
      "eval_runtime": 1.6945,
      "eval_samples_per_second": 506.35,
      "eval_steps_per_second": 31.868,
      "step": 33000
    },
    {
      "epoch": 69.36,
      "learning_rate": 1.65e-05,
      "loss": 0.6554,
      "step": 33500
    },
    {
      "epoch": 69.36,
      "eval_accuracy": 0.8661764705882353,
      "eval_loss": 0.7396097183227539,
      "eval_runtime": 1.6934,
      "eval_samples_per_second": 506.658,
      "eval_steps_per_second": 31.888,
      "step": 33500
    },
    {
      "epoch": 70.39,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 0.618,
      "step": 34000
    },
    {
      "epoch": 70.39,
      "eval_accuracy": 0.8375634517766497,
      "eval_loss": 0.8517589569091797,
      "eval_runtime": 1.6983,
      "eval_samples_per_second": 505.224,
      "eval_steps_per_second": 31.797,
      "step": 34000
    },
    {
      "epoch": 71.43,
      "learning_rate": 1.55e-05,
      "loss": 0.6558,
      "step": 34500
    },
    {
      "epoch": 71.43,
      "eval_accuracy": 0.8409090909090909,
      "eval_loss": 0.7705618739128113,
      "eval_runtime": 1.6954,
      "eval_samples_per_second": 506.065,
      "eval_steps_per_second": 31.85,
      "step": 34500
    },
    {
      "epoch": 72.46,
      "learning_rate": 1.5e-05,
      "loss": 0.6034,
      "step": 35000
    },
    {
      "epoch": 72.46,
      "eval_accuracy": 0.8517699115044248,
      "eval_loss": 0.7829406261444092,
      "eval_runtime": 1.6974,
      "eval_samples_per_second": 505.471,
      "eval_steps_per_second": 31.813,
      "step": 35000
    },
    {
      "epoch": 73.5,
      "learning_rate": 1.45e-05,
      "loss": 0.6336,
      "step": 35500
    },
    {
      "epoch": 73.5,
      "eval_accuracy": 0.8591445427728613,
      "eval_loss": 0.7834987640380859,
      "eval_runtime": 1.6914,
      "eval_samples_per_second": 507.26,
      "eval_steps_per_second": 31.925,
      "step": 35500
    },
    {
      "epoch": 74.53,
      "learning_rate": 1.4000000000000001e-05,
      "loss": 0.6287,
      "step": 36000
    },
    {
      "epoch": 74.53,
      "eval_accuracy": 0.8574748257164988,
      "eval_loss": 0.7547706961631775,
      "eval_runtime": 1.6906,
      "eval_samples_per_second": 507.513,
      "eval_steps_per_second": 31.941,
      "step": 36000
    },
    {
      "epoch": 75.57,
      "learning_rate": 1.3500000000000001e-05,
      "loss": 0.6065,
      "step": 36500
    },
    {
      "epoch": 75.57,
      "eval_accuracy": 0.8508005822416302,
      "eval_loss": 0.8541703224182129,
      "eval_runtime": 1.6919,
      "eval_samples_per_second": 507.134,
      "eval_steps_per_second": 31.918,
      "step": 36500
    },
    {
      "epoch": 76.6,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 0.6029,
      "step": 37000
    },
    {
      "epoch": 76.6,
      "eval_accuracy": 0.8405267008046818,
      "eval_loss": 0.8202521800994873,
      "eval_runtime": 1.6903,
      "eval_samples_per_second": 507.595,
      "eval_steps_per_second": 31.947,
      "step": 37000
    },
    {
      "epoch": 77.64,
      "learning_rate": 1.25e-05,
      "loss": 0.6208,
      "step": 37500
    },
    {
      "epoch": 77.64,
      "eval_accuracy": 0.8661417322834646,
      "eval_loss": 0.7082335948944092,
      "eval_runtime": 1.6867,
      "eval_samples_per_second": 508.681,
      "eval_steps_per_second": 32.015,
      "step": 37500
    },
    {
      "epoch": 78.67,
      "learning_rate": 1.2e-05,
      "loss": 0.64,
      "step": 38000
    },
    {
      "epoch": 78.67,
      "eval_accuracy": 0.8410295230885693,
      "eval_loss": 0.8504825234413147,
      "eval_runtime": 1.6943,
      "eval_samples_per_second": 506.417,
      "eval_steps_per_second": 31.872,
      "step": 38000
    },
    {
      "epoch": 79.71,
      "learning_rate": 1.1500000000000002e-05,
      "loss": 0.6144,
      "step": 38500
    },
    {
      "epoch": 79.71,
      "eval_accuracy": 0.8603636363636363,
      "eval_loss": 0.7246142625808716,
      "eval_runtime": 1.6864,
      "eval_samples_per_second": 508.77,
      "eval_steps_per_second": 32.02,
      "step": 38500
    },
    {
      "epoch": 80.75,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 0.6507,
      "step": 39000
    },
    {
      "epoch": 80.75,
      "eval_accuracy": 0.861132660977502,
      "eval_loss": 0.7150202393531799,
      "eval_runtime": 1.701,
      "eval_samples_per_second": 504.398,
      "eval_steps_per_second": 31.745,
      "step": 39000
    },
    {
      "epoch": 81.78,
      "learning_rate": 1.05e-05,
      "loss": 0.6177,
      "step": 39500
    },
    {
      "epoch": 81.78,
      "eval_accuracy": 0.84,
      "eval_loss": 0.9331970810890198,
      "eval_runtime": 1.6939,
      "eval_samples_per_second": 506.536,
      "eval_steps_per_second": 31.88,
      "step": 39500
    },
    {
      "epoch": 82.82,
      "learning_rate": 1e-05,
      "loss": 0.6159,
      "step": 40000
    },
    {
      "epoch": 82.82,
      "eval_accuracy": 0.8733488733488733,
      "eval_loss": 0.6427481174468994,
      "eval_runtime": 1.6965,
      "eval_samples_per_second": 505.755,
      "eval_steps_per_second": 31.831,
      "step": 40000
    }
  ],
  "logging_steps": 500,
  "max_steps": 50000,
  "num_train_epochs": 104,
  "save_steps": 500,
  "total_flos": 6042662847119360.0,
  "trial_name": null,
  "trial_params": null
}