{
  "best_metric": 9.98410769374591,
  "best_model_checkpoint": "./checkpoint-6000",
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 8000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003125,
      "grad_norm": 18.986873626708984,
      "learning_rate": 2.875e-07,
      "loss": 1.979,
      "step": 25
    },
    {
      "epoch": 0.00625,
      "grad_norm": 16.025917053222656,
      "learning_rate": 6.000000000000001e-07,
      "loss": 1.8343,
      "step": 50
    },
    {
      "epoch": 0.009375,
      "grad_norm": 11.7916841506958,
      "learning_rate": 9.124999999999999e-07,
      "loss": 1.4286,
      "step": 75
    },
    {
      "epoch": 0.0125,
      "grad_norm": 9.848176002502441,
      "learning_rate": 1.2250000000000001e-06,
      "loss": 0.9655,
      "step": 100
    },
    {
      "epoch": 0.015625,
      "grad_norm": 9.252968788146973,
      "learning_rate": 1.5375e-06,
      "loss": 0.7411,
      "step": 125
    },
    {
      "epoch": 0.01875,
      "grad_norm": 9.25166130065918,
      "learning_rate": 1.85e-06,
      "loss": 0.7377,
      "step": 150
    },
    {
      "epoch": 0.021875,
      "grad_norm": 9.127242088317871,
      "learning_rate": 2.1625e-06,
      "loss": 0.5628,
      "step": 175
    },
    {
      "epoch": 0.025,
      "grad_norm": 7.140044212341309,
      "learning_rate": 2.4750000000000004e-06,
      "loss": 0.5043,
      "step": 200
    },
    {
      "epoch": 0.028125,
      "grad_norm": 7.495832920074463,
      "learning_rate": 2.7875e-06,
      "loss": 0.4543,
      "step": 225
    },
    {
      "epoch": 0.03125,
      "grad_norm": 7.260509014129639,
      "learning_rate": 3.1e-06,
      "loss": 0.441,
      "step": 250
    },
    {
      "epoch": 0.034375,
      "grad_norm": 7.78987455368042,
      "learning_rate": 3.4125000000000004e-06,
      "loss": 0.3709,
      "step": 275
    },
    {
      "epoch": 0.0375,
      "grad_norm": 6.570291042327881,
      "learning_rate": 3.725e-06,
      "loss": 0.3778,
      "step": 300
    },
    {
      "epoch": 0.040625,
      "grad_norm": 6.600038051605225,
      "learning_rate": 4.037500000000001e-06,
      "loss": 0.342,
      "step": 325
    },
    {
      "epoch": 0.04375,
      "grad_norm": 6.174134731292725,
      "learning_rate": 4.35e-06,
      "loss": 0.3479,
      "step": 350
    },
    {
      "epoch": 0.046875,
      "grad_norm": 5.382558345794678,
      "learning_rate": 4.6625e-06,
      "loss": 0.3389,
      "step": 375
    },
    {
      "epoch": 0.05,
      "grad_norm": 6.139970302581787,
      "learning_rate": 4.975000000000001e-06,
      "loss": 0.3001,
      "step": 400
    },
    {
      "epoch": 0.053125,
      "grad_norm": 6.267641544342041,
      "learning_rate": 5.2875e-06,
      "loss": 0.2827,
      "step": 425
    },
    {
      "epoch": 0.05625,
      "grad_norm": 4.701253414154053,
      "learning_rate": 5.600000000000001e-06,
      "loss": 0.252,
      "step": 450
    },
    {
      "epoch": 0.059375,
      "grad_norm": 7.49235725402832,
      "learning_rate": 5.9125e-06,
      "loss": 0.2724,
      "step": 475
    },
    {
      "epoch": 0.0625,
      "grad_norm": 8.219965934753418,
      "learning_rate": 6.2250000000000005e-06,
      "loss": 0.3412,
      "step": 500
    },
    {
      "epoch": 0.0625,
      "eval_loss": 0.4569947421550751,
      "eval_runtime": 421.2437,
      "eval_samples_per_second": 4.995,
      "eval_steps_per_second": 0.624,
      "eval_wer": 28.21819201645321,
      "step": 500
    },
    {
      "epoch": 0.065625,
      "grad_norm": 7.646754741668701,
      "learning_rate": 6.230833333333334e-06,
      "loss": 0.3663,
      "step": 525
    },
    {
      "epoch": 0.06875,
      "grad_norm": 6.3216094970703125,
      "learning_rate": 6.210000000000001e-06,
      "loss": 0.3401,
      "step": 550
    },
    {
      "epoch": 0.071875,
      "grad_norm": 6.551443099975586,
      "learning_rate": 6.1891666666666666e-06,
      "loss": 0.3617,
      "step": 575
    },
    {
      "epoch": 0.075,
      "grad_norm": 7.667718887329102,
      "learning_rate": 6.168333333333333e-06,
      "loss": 0.3339,
      "step": 600
    },
    {
      "epoch": 0.078125,
      "grad_norm": 6.759644031524658,
      "learning_rate": 6.147500000000001e-06,
      "loss": 0.3236,
      "step": 625
    },
    {
      "epoch": 0.08125,
      "grad_norm": 5.439680576324463,
      "learning_rate": 6.126666666666667e-06,
      "loss": 0.2588,
      "step": 650
    },
    {
      "epoch": 0.084375,
      "grad_norm": 5.2066450119018555,
      "learning_rate": 6.1058333333333335e-06,
      "loss": 0.2389,
      "step": 675
    },
    {
      "epoch": 0.0875,
      "grad_norm": 4.867877960205078,
      "learning_rate": 6.085e-06,
      "loss": 0.2178,
      "step": 700
    },
    {
      "epoch": 0.090625,
      "grad_norm": 4.836174011230469,
      "learning_rate": 6.064166666666667e-06,
      "loss": 0.185,
      "step": 725
    },
    {
      "epoch": 0.09375,
      "grad_norm": 4.676128387451172,
      "learning_rate": 6.043333333333334e-06,
      "loss": 0.1968,
      "step": 750
    },
    {
      "epoch": 0.096875,
      "grad_norm": 3.805962324142456,
      "learning_rate": 6.0225e-06,
      "loss": 0.1987,
      "step": 775
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.182210922241211,
      "learning_rate": 6.001666666666667e-06,
      "loss": 0.1945,
      "step": 800
    },
    {
      "epoch": 0.103125,
      "grad_norm": 4.078372001647949,
      "learning_rate": 5.980833333333334e-06,
      "loss": 0.1806,
      "step": 825
    },
    {
      "epoch": 0.10625,
      "grad_norm": 4.926514148712158,
      "learning_rate": 5.9600000000000005e-06,
      "loss": 0.1655,
      "step": 850
    },
    {
      "epoch": 0.109375,
      "grad_norm": 4.110943794250488,
      "learning_rate": 5.939166666666667e-06,
      "loss": 0.1711,
      "step": 875
    },
    {
      "epoch": 0.1125,
      "grad_norm": 4.059125900268555,
      "learning_rate": 5.918333333333333e-06,
      "loss": 0.1721,
      "step": 900
    },
    {
      "epoch": 0.115625,
      "grad_norm": 4.911381244659424,
      "learning_rate": 5.8975e-06,
      "loss": 0.1617,
      "step": 925
    },
    {
      "epoch": 0.11875,
      "grad_norm": 4.673095226287842,
      "learning_rate": 5.8766666666666674e-06,
      "loss": 0.1543,
      "step": 950
    },
    {
      "epoch": 0.121875,
      "grad_norm": 4.966635704040527,
      "learning_rate": 5.855833333333333e-06,
      "loss": 0.1585,
      "step": 975
    },
    {
      "epoch": 0.125,
      "grad_norm": 4.074397087097168,
      "learning_rate": 5.835e-06,
      "loss": 0.1462,
      "step": 1000
    },
    {
      "epoch": 0.125,
      "eval_loss": 0.3524394631385803,
      "eval_runtime": 423.5166,
      "eval_samples_per_second": 4.968,
      "eval_steps_per_second": 0.621,
      "eval_wer": 19.940170141161072,
      "step": 1000
    },
    {
      "epoch": 0.128125,
      "grad_norm": 2.7621817588806152,
      "learning_rate": 5.814166666666667e-06,
      "loss": 0.1543,
      "step": 1025
    },
    {
      "epoch": 0.13125,
      "grad_norm": 5.36495304107666,
      "learning_rate": 5.793333333333334e-06,
      "loss": 0.1356,
      "step": 1050
    },
    {
      "epoch": 0.134375,
      "grad_norm": 4.922938346862793,
      "learning_rate": 5.7725e-06,
      "loss": 0.1459,
      "step": 1075
    },
    {
      "epoch": 0.1375,
      "grad_norm": 3.6823904514312744,
      "learning_rate": 5.751666666666667e-06,
      "loss": 0.148,
      "step": 1100
    },
    {
      "epoch": 0.140625,
      "grad_norm": 3.583972215652466,
      "learning_rate": 5.730833333333334e-06,
      "loss": 0.1408,
      "step": 1125
    },
    {
      "epoch": 0.14375,
      "grad_norm": 4.794659614562988,
      "learning_rate": 5.71e-06,
      "loss": 0.1363,
      "step": 1150
    },
    {
      "epoch": 0.146875,
      "grad_norm": 2.823441743850708,
      "learning_rate": 5.689166666666667e-06,
      "loss": 0.1378,
      "step": 1175
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.426193714141846,
      "learning_rate": 5.668333333333334e-06,
      "loss": 0.1454,
      "step": 1200
    },
    {
      "epoch": 0.153125,
      "grad_norm": 3.506147861480713,
      "learning_rate": 5.6475e-06,
      "loss": 0.124,
      "step": 1225
    },
    {
      "epoch": 0.15625,
      "grad_norm": 3.6159119606018066,
      "learning_rate": 5.626666666666667e-06,
      "loss": 0.1214,
      "step": 1250
    },
    {
      "epoch": 0.159375,
      "grad_norm": 4.304079055786133,
      "learning_rate": 5.605833333333334e-06,
      "loss": 0.1266,
      "step": 1275
    },
    {
      "epoch": 0.1625,
      "grad_norm": 3.570537805557251,
      "learning_rate": 5.585e-06,
      "loss": 0.1474,
      "step": 1300
    },
    {
      "epoch": 0.165625,
      "grad_norm": 3.944892644882202,
      "learning_rate": 5.564166666666667e-06,
      "loss": 0.1327,
      "step": 1325
    },
    {
      "epoch": 0.16875,
      "grad_norm": 4.3111572265625,
      "learning_rate": 5.543333333333333e-06,
      "loss": 0.1361,
      "step": 1350
    },
    {
      "epoch": 0.171875,
      "grad_norm": 4.4654083251953125,
      "learning_rate": 5.522500000000001e-06,
      "loss": 0.1348,
      "step": 1375
    },
    {
      "epoch": 0.175,
      "grad_norm": 4.158225059509277,
      "learning_rate": 5.501666666666667e-06,
      "loss": 0.1321,
      "step": 1400
    },
    {
      "epoch": 0.178125,
      "grad_norm": 3.5653274059295654,
      "learning_rate": 5.4808333333333335e-06,
      "loss": 0.1392,
      "step": 1425
    },
    {
      "epoch": 0.18125,
      "grad_norm": 8.204817771911621,
      "learning_rate": 5.46e-06,
      "loss": 0.1697,
      "step": 1450
    },
    {
      "epoch": 0.184375,
      "grad_norm": 6.251273155212402,
      "learning_rate": 5.439166666666667e-06,
      "loss": 0.2126,
      "step": 1475
    },
    {
      "epoch": 0.1875,
      "grad_norm": 5.315432071685791,
      "learning_rate": 5.418333333333334e-06,
      "loss": 0.2495,
      "step": 1500
    },
    {
      "epoch": 0.1875,
      "eval_loss": 0.30772972106933594,
      "eval_runtime": 441.4634,
      "eval_samples_per_second": 4.766,
      "eval_steps_per_second": 0.596,
      "eval_wer": 17.523604748995044,
      "step": 1500
    },
    {
      "epoch": 0.190625,
      "grad_norm": 5.567235469818115,
      "learning_rate": 5.3975e-06,
      "loss": 0.2418,
      "step": 1525
    },
    {
      "epoch": 0.19375,
      "grad_norm": 5.031063079833984,
      "learning_rate": 5.376666666666666e-06,
      "loss": 0.2061,
      "step": 1550
    },
    {
      "epoch": 0.196875,
      "grad_norm": 6.948727130889893,
      "learning_rate": 5.355833333333334e-06,
      "loss": 0.2166,
      "step": 1575
    },
    {
      "epoch": 0.2,
      "grad_norm": 7.243198394775391,
      "learning_rate": 5.335000000000001e-06,
      "loss": 0.278,
      "step": 1600
    },
    {
      "epoch": 0.203125,
      "grad_norm": 4.161729335784912,
      "learning_rate": 5.3141666666666665e-06,
      "loss": 0.1822,
      "step": 1625
    },
    {
      "epoch": 0.20625,
      "grad_norm": 4.0524516105651855,
      "learning_rate": 5.293333333333333e-06,
      "loss": 0.1439,
      "step": 1650
    },
    {
      "epoch": 0.209375,
      "grad_norm": 4.263937473297119,
      "learning_rate": 5.272500000000001e-06,
      "loss": 0.1272,
      "step": 1675
    },
    {
      "epoch": 0.2125,
      "grad_norm": 3.639070987701416,
      "learning_rate": 5.2516666666666675e-06,
      "loss": 0.1252,
      "step": 1700
    },
    {
      "epoch": 0.215625,
      "grad_norm": 3.305999517440796,
      "learning_rate": 5.230833333333333e-06,
      "loss": 0.1183,
      "step": 1725
    },
    {
      "epoch": 0.21875,
      "grad_norm": 2.888228178024292,
      "learning_rate": 5.21e-06,
      "loss": 0.1101,
      "step": 1750
    },
    {
      "epoch": 0.221875,
      "grad_norm": 5.215433597564697,
      "learning_rate": 5.189166666666667e-06,
      "loss": 0.1562,
      "step": 1775
    },
    {
      "epoch": 0.225,
      "grad_norm": 4.641208171844482,
      "learning_rate": 5.1683333333333335e-06,
      "loss": 0.192,
      "step": 1800
    },
    {
      "epoch": 0.228125,
      "grad_norm": 6.326239109039307,
      "learning_rate": 5.1475e-06,
      "loss": 0.2123,
      "step": 1825
    },
    {
      "epoch": 0.23125,
      "grad_norm": 7.012181282043457,
      "learning_rate": 5.126666666666667e-06,
      "loss": 0.2123,
      "step": 1850
    },
    {
      "epoch": 0.234375,
      "grad_norm": 5.915773391723633,
      "learning_rate": 5.105833333333334e-06,
      "loss": 0.1966,
      "step": 1875
    },
    {
      "epoch": 0.2375,
      "grad_norm": 5.602591037750244,
      "learning_rate": 5.0850000000000004e-06,
      "loss": 0.1913,
      "step": 1900
    },
    {
      "epoch": 0.240625,
      "grad_norm": 5.096761703491211,
      "learning_rate": 5.064166666666667e-06,
      "loss": 0.2013,
      "step": 1925
    },
    {
      "epoch": 0.24375,
      "grad_norm": 11.189478874206543,
      "learning_rate": 5.043333333333333e-06,
      "loss": 0.587,
      "step": 1950
    },
    {
      "epoch": 0.246875,
      "grad_norm": 6.038069248199463,
      "learning_rate": 5.0225e-06,
      "loss": 0.3751,
      "step": 1975
    },
    {
      "epoch": 0.25,
      "grad_norm": 6.957058429718018,
      "learning_rate": 5.001666666666667e-06,
      "loss": 0.2617,
      "step": 2000
    },
    {
      "epoch": 0.25,
      "eval_loss": 0.2810758948326111,
      "eval_runtime": 423.474,
      "eval_samples_per_second": 4.968,
      "eval_steps_per_second": 0.621,
      "eval_wer": 16.58408899691502,
      "step": 2000
    },
    {
      "epoch": 0.253125,
      "grad_norm": 5.579774856567383,
      "learning_rate": 4.980833333333334e-06,
      "loss": 0.2469,
      "step": 2025
    },
    {
      "epoch": 0.25625,
      "grad_norm": 5.4091620445251465,
      "learning_rate": 4.96e-06,
      "loss": 0.2291,
      "step": 2050
    },
    {
      "epoch": 0.259375,
      "grad_norm": 4.21276330947876,
      "learning_rate": 4.939166666666667e-06,
      "loss": 0.1921,
      "step": 2075
    },
    {
      "epoch": 0.2625,
      "grad_norm": 3.7961809635162354,
      "learning_rate": 4.918333333333334e-06,
      "loss": 0.1341,
      "step": 2100
    },
    {
      "epoch": 0.265625,
      "grad_norm": 3.204401969909668,
      "learning_rate": 4.8975e-06,
      "loss": 0.107,
      "step": 2125
    },
    {
      "epoch": 0.26875,
      "grad_norm": 3.3962206840515137,
      "learning_rate": 4.876666666666667e-06,
      "loss": 0.1206,
      "step": 2150
    },
    {
      "epoch": 0.271875,
      "grad_norm": 3.666205644607544,
      "learning_rate": 4.8558333333333336e-06,
      "loss": 0.1059,
      "step": 2175
    },
    {
      "epoch": 0.275,
      "grad_norm": 3.0882160663604736,
      "learning_rate": 4.835e-06,
      "loss": 0.097,
      "step": 2200
    },
    {
      "epoch": 0.278125,
      "grad_norm": 3.348127603530884,
      "learning_rate": 4.814166666666667e-06,
      "loss": 0.0965,
      "step": 2225
    },
    {
      "epoch": 0.28125,
      "grad_norm": 2.4447720050811768,
      "learning_rate": 4.793333333333334e-06,
      "loss": 0.1003,
      "step": 2250
    },
    {
      "epoch": 0.284375,
      "grad_norm": 4.615771293640137,
      "learning_rate": 4.7725e-06,
      "loss": 0.1012,
      "step": 2275
    },
    {
      "epoch": 0.2875,
      "grad_norm": 3.513615131378174,
      "learning_rate": 4.751666666666666e-06,
      "loss": 0.107,
      "step": 2300
    },
    {
      "epoch": 0.290625,
      "grad_norm": 3.266713857650757,
      "learning_rate": 4.730833333333334e-06,
      "loss": 0.1073,
      "step": 2325
    },
    {
      "epoch": 0.29375,
      "grad_norm": 3.3199737071990967,
      "learning_rate": 4.710000000000001e-06,
      "loss": 0.1077,
      "step": 2350
    },
    {
      "epoch": 0.296875,
      "grad_norm": 2.671046018600464,
      "learning_rate": 4.6891666666666665e-06,
      "loss": 0.1031,
      "step": 2375
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.041368007659912,
      "learning_rate": 4.668333333333333e-06,
      "loss": 0.1053,
      "step": 2400
    },
    {
      "epoch": 0.303125,
      "grad_norm": 3.7318310737609863,
      "learning_rate": 4.647500000000001e-06,
      "loss": 0.1439,
      "step": 2425
    },
    {
      "epoch": 0.30625,
      "grad_norm": 7.745230674743652,
      "learning_rate": 4.626666666666667e-06,
      "loss": 0.1686,
      "step": 2450
    },
    {
      "epoch": 0.309375,
      "grad_norm": 5.621090412139893,
      "learning_rate": 4.605833333333333e-06,
      "loss": 0.1794,
      "step": 2475
    },
    {
      "epoch": 0.3125,
      "grad_norm": 4.522252559661865,
      "learning_rate": 4.585e-06,
      "loss": 0.1646,
      "step": 2500
    },
    {
      "epoch": 0.3125,
      "eval_loss": 0.2725737690925598,
      "eval_runtime": 422.3202,
      "eval_samples_per_second": 4.982,
      "eval_steps_per_second": 0.623,
      "eval_wer": 13.891745349163317,
      "step": 2500
    },
    {
      "epoch": 0.315625,
      "grad_norm": 5.429344177246094,
      "learning_rate": 4.564166666666667e-06,
      "loss": 0.188,
      "step": 2525
    },
    {
      "epoch": 0.31875,
      "grad_norm": 6.522274971008301,
      "learning_rate": 4.543333333333334e-06,
      "loss": 0.1988,
      "step": 2550
    },
    {
      "epoch": 0.321875,
      "grad_norm": 6.914414405822754,
      "learning_rate": 4.5225e-06,
      "loss": 0.1915,
      "step": 2575
    },
    {
      "epoch": 0.325,
      "grad_norm": 5.277989387512207,
      "learning_rate": 4.501666666666667e-06,
      "loss": 0.2011,
      "step": 2600
    },
    {
      "epoch": 0.328125,
      "grad_norm": 5.887080192565918,
      "learning_rate": 4.481666666666666e-06,
      "loss": 0.1717,
      "step": 2625
    },
    {
      "epoch": 0.33125,
      "grad_norm": 5.534679412841797,
      "learning_rate": 4.460833333333333e-06,
      "loss": 0.1696,
      "step": 2650
    },
    {
      "epoch": 0.334375,
      "grad_norm": 5.044061183929443,
      "learning_rate": 4.440000000000001e-06,
      "loss": 0.1809,
      "step": 2675
    },
    {
      "epoch": 0.3375,
      "grad_norm": 6.7157769203186035,
      "learning_rate": 4.4191666666666666e-06,
      "loss": 0.1763,
      "step": 2700
    },
    {
      "epoch": 0.340625,
      "grad_norm": 5.815196990966797,
      "learning_rate": 4.398333333333333e-06,
      "loss": 0.1626,
      "step": 2725
    },
    {
      "epoch": 0.34375,
      "grad_norm": 5.573261737823486,
      "learning_rate": 4.3775e-06,
      "loss": 0.1599,
      "step": 2750
    },
    {
      "epoch": 0.346875,
      "grad_norm": 4.859520435333252,
      "learning_rate": 4.356666666666667e-06,
      "loss": 0.1523,
      "step": 2775
    },
    {
      "epoch": 0.35,
      "grad_norm": 5.533599853515625,
      "learning_rate": 4.3358333333333335e-06,
      "loss": 0.1672,
      "step": 2800
    },
    {
      "epoch": 0.353125,
      "grad_norm": 6.5196123123168945,
      "learning_rate": 4.315e-06,
      "loss": 0.1652,
      "step": 2825
    },
    {
      "epoch": 0.35625,
      "grad_norm": 5.192087173461914,
      "learning_rate": 4.294166666666667e-06,
      "loss": 0.1587,
      "step": 2850
    },
    {
      "epoch": 0.359375,
      "grad_norm": 4.697035789489746,
      "learning_rate": 4.273333333333334e-06,
      "loss": 0.1697,
      "step": 2875
    },
    {
      "epoch": 0.3625,
      "grad_norm": 4.622238636016846,
      "learning_rate": 4.2525e-06,
      "loss": 0.1431,
      "step": 2900
    },
    {
      "epoch": 0.365625,
      "grad_norm": 2.833672046661377,
      "learning_rate": 4.231666666666667e-06,
      "loss": 0.1187,
      "step": 2925
    },
    {
      "epoch": 0.36875,
      "grad_norm": 2.756924867630005,
      "learning_rate": 4.210833333333333e-06,
      "loss": 0.098,
      "step": 2950
    },
    {
      "epoch": 0.371875,
      "grad_norm": 4.0311598777771,
      "learning_rate": 4.1900000000000005e-06,
      "loss": 0.0956,
      "step": 2975
    },
    {
      "epoch": 0.375,
      "grad_norm": 3.7465600967407227,
      "learning_rate": 4.169166666666667e-06,
      "loss": 0.0934,
      "step": 3000
    },
    {
      "epoch": 0.375,
      "eval_loss": 0.2532876133918762,
      "eval_runtime": 423.4639,
      "eval_samples_per_second": 4.969,
      "eval_steps_per_second": 0.621,
      "eval_wer": 14.02729737309526,
      "step": 3000
    },
    {
      "epoch": 0.378125,
      "grad_norm": 3.0190958976745605,
      "learning_rate": 4.148333333333333e-06,
      "loss": 0.1074,
      "step": 3025
    },
    {
      "epoch": 0.38125,
      "grad_norm": 4.197691917419434,
      "learning_rate": 4.1275e-06,
      "loss": 0.0952,
      "step": 3050
    },
    {
      "epoch": 0.384375,
      "grad_norm": 4.304806709289551,
      "learning_rate": 4.106666666666667e-06,
      "loss": 0.1005,
      "step": 3075
    },
    {
      "epoch": 0.3875,
      "grad_norm": 3.895831823348999,
      "learning_rate": 4.085833333333334e-06,
      "loss": 0.1027,
      "step": 3100
    },
    {
      "epoch": 0.390625,
      "grad_norm": 2.959507703781128,
      "learning_rate": 4.065e-06,
      "loss": 0.0863,
      "step": 3125
    },
    {
      "epoch": 0.39375,
      "grad_norm": 2.9817397594451904,
      "learning_rate": 4.044166666666667e-06,
      "loss": 0.0773,
      "step": 3150
    },
    {
      "epoch": 0.396875,
      "grad_norm": 3.26869535446167,
      "learning_rate": 4.0233333333333335e-06,
      "loss": 0.0885,
      "step": 3175
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.37345552444458,
      "learning_rate": 4.0025e-06,
      "loss": 0.0899,
      "step": 3200
    },
    {
      "epoch": 0.403125,
      "grad_norm": 4.3736371994018555,
      "learning_rate": 3.981666666666667e-06,
      "loss": 0.11,
      "step": 3225
    },
    {
      "epoch": 0.40625,
      "grad_norm": 3.9477250576019287,
      "learning_rate": 3.960833333333334e-06,
      "loss": 0.1579,
      "step": 3250
    },
    {
      "epoch": 0.409375,
      "grad_norm": 4.6521315574646,
      "learning_rate": 3.9399999999999995e-06,
      "loss": 0.1409,
      "step": 3275
    },
    {
      "epoch": 0.4125,
      "grad_norm": 3.4862189292907715,
      "learning_rate": 3.919166666666667e-06,
      "loss": 0.1368,
      "step": 3300
    },
    {
      "epoch": 0.415625,
      "grad_norm": 4.412058353424072,
      "learning_rate": 3.898333333333334e-06,
      "loss": 0.136,
      "step": 3325
    },
    {
      "epoch": 0.41875,
      "grad_norm": 5.891563892364502,
      "learning_rate": 3.8775e-06,
      "loss": 0.1514,
      "step": 3350
    },
    {
      "epoch": 0.421875,
      "grad_norm": 4.186588287353516,
      "learning_rate": 3.8566666666666664e-06,
      "loss": 0.1574,
      "step": 3375
    },
    {
      "epoch": 0.425,
      "grad_norm": 3.0448837280273438,
      "learning_rate": 3.835833333333334e-06,
      "loss": 0.1198,
      "step": 3400
    },
    {
      "epoch": 0.428125,
      "grad_norm": 3.597623825073242,
      "learning_rate": 3.815000000000001e-06,
      "loss": 0.1079,
      "step": 3425
    },
    {
      "epoch": 0.43125,
      "grad_norm": 4.119424819946289,
      "learning_rate": 3.7941666666666666e-06,
      "loss": 0.1015,
      "step": 3450
    },
    {
      "epoch": 0.434375,
      "grad_norm": 4.269451141357422,
      "learning_rate": 3.7733333333333338e-06,
      "loss": 0.0931,
      "step": 3475
    },
    {
      "epoch": 0.4375,
      "grad_norm": 3.5041770935058594,
      "learning_rate": 3.7525000000000005e-06,
      "loss": 0.1016,
      "step": 3500
    },
    {
      "epoch": 0.4375,
      "eval_loss": 0.23310637474060059,
      "eval_runtime": 422.6444,
      "eval_samples_per_second": 4.978,
      "eval_steps_per_second": 0.622,
      "eval_wer": 12.162288492100588,
      "step": 3500
    },
    {
      "epoch": 0.440625,
      "grad_norm": 3.1294009685516357,
      "learning_rate": 3.731666666666667e-06,
      "loss": 0.0875,
      "step": 3525
    },
    {
      "epoch": 0.44375,
      "grad_norm": 5.66436767578125,
      "learning_rate": 3.7108333333333335e-06,
      "loss": 0.0852,
      "step": 3550
    },
    {
      "epoch": 0.446875,
      "grad_norm": 3.854020833969116,
      "learning_rate": 3.6900000000000002e-06,
      "loss": 0.1009,
      "step": 3575
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.3957531452178955,
      "learning_rate": 3.6691666666666665e-06,
      "loss": 0.0884,
      "step": 3600
    },
    {
      "epoch": 0.453125,
      "grad_norm": 2.6974878311157227,
      "learning_rate": 3.6483333333333333e-06,
      "loss": 0.0878,
      "step": 3625
    },
    {
      "epoch": 0.45625,
      "grad_norm": 2.4071967601776123,
      "learning_rate": 3.6275000000000004e-06,
      "loss": 0.0822,
      "step": 3650
    },
    {
      "epoch": 0.459375,
      "grad_norm": 3.604412078857422,
      "learning_rate": 3.6066666666666667e-06,
      "loss": 0.0885,
      "step": 3675
    },
    {
      "epoch": 0.4625,
      "grad_norm": 3.1856794357299805,
      "learning_rate": 3.5858333333333334e-06,
      "loss": 0.0795,
      "step": 3700
    },
    {
      "epoch": 0.465625,
      "grad_norm": 2.82853102684021,
      "learning_rate": 3.565e-06,
      "loss": 0.0839,
      "step": 3725
    },
    {
      "epoch": 0.46875,
      "grad_norm": 3.0090298652648926,
      "learning_rate": 3.5441666666666673e-06,
      "loss": 0.0861,
      "step": 3750
    },
    {
      "epoch": 0.471875,
      "grad_norm": 4.2935028076171875,
      "learning_rate": 3.523333333333333e-06,
      "loss": 0.0902,
      "step": 3775
    },
    {
      "epoch": 0.475,
      "grad_norm": 2.894404172897339,
      "learning_rate": 3.5025000000000003e-06,
      "loss": 0.0897,
      "step": 3800
    },
    {
      "epoch": 0.478125,
      "grad_norm": 2.974064826965332,
      "learning_rate": 3.481666666666667e-06,
      "loss": 0.0846,
      "step": 3825
    },
    {
      "epoch": 0.48125,
      "grad_norm": 1.8990185260772705,
      "learning_rate": 3.4608333333333334e-06,
      "loss": 0.0782,
      "step": 3850
    },
    {
      "epoch": 0.484375,
      "grad_norm": 3.043663740158081,
      "learning_rate": 3.44e-06,
      "loss": 0.0923,
      "step": 3875
    },
    {
      "epoch": 0.4875,
      "grad_norm": 4.826819896697998,
      "learning_rate": 3.4191666666666672e-06,
      "loss": 0.1242,
      "step": 3900
    },
    {
      "epoch": 0.490625,
      "grad_norm": 4.978621006011963,
      "learning_rate": 3.398333333333333e-06,
      "loss": 0.1445,
      "step": 3925
    },
    {
      "epoch": 0.49375,
      "grad_norm": 4.0232977867126465,
      "learning_rate": 3.3775000000000003e-06,
      "loss": 0.1514,
      "step": 3950
    },
    {
      "epoch": 0.496875,
      "grad_norm": 5.176286220550537,
      "learning_rate": 3.356666666666667e-06,
      "loss": 0.1532,
      "step": 3975
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.363390922546387,
      "learning_rate": 3.3358333333333333e-06,
      "loss": 0.1454,
      "step": 4000
    },
    {
      "epoch": 0.5,
      "eval_loss": 0.22985798120498657,
      "eval_runtime": 420.4785,
      "eval_samples_per_second": 5.004,
      "eval_steps_per_second": 0.625,
      "eval_wer": 11.55464148826774,
      "step": 4000
    },
    {
      "epoch": 0.503125,
      "grad_norm": 4.654495716094971,
      "learning_rate": 3.315e-06,
      "loss": 0.1331,
      "step": 4025
    },
    {
      "epoch": 0.50625,
      "grad_norm": 3.879624605178833,
      "learning_rate": 3.2941666666666667e-06,
      "loss": 0.1029,
      "step": 4050
    },
    {
      "epoch": 0.509375,
      "grad_norm": 3.2961080074310303,
      "learning_rate": 3.273333333333334e-06,
      "loss": 0.0842,
      "step": 4075
    },
    {
      "epoch": 0.5125,
      "grad_norm": 2.5998172760009766,
      "learning_rate": 3.2525e-06,
      "loss": 0.0846,
      "step": 4100
    },
    {
      "epoch": 0.515625,
      "grad_norm": 2.965538501739502,
      "learning_rate": 3.231666666666667e-06,
      "loss": 0.0858,
      "step": 4125
    },
    {
      "epoch": 0.51875,
      "grad_norm": 2.8639001846313477,
      "learning_rate": 3.2108333333333336e-06,
      "loss": 0.0836,
      "step": 4150
    },
    {
      "epoch": 0.521875,
      "grad_norm": 3.651369094848633,
      "learning_rate": 3.19e-06,
      "loss": 0.0852,
      "step": 4175
    },
    {
      "epoch": 0.525,
      "grad_norm": 4.119676113128662,
      "learning_rate": 3.1691666666666667e-06,
      "loss": 0.0886,
      "step": 4200
    },
    {
      "epoch": 0.528125,
      "grad_norm": 2.3661563396453857,
      "learning_rate": 3.148333333333334e-06,
      "loss": 0.0732,
      "step": 4225
    },
    {
      "epoch": 0.53125,
      "grad_norm": 4.026716232299805,
      "learning_rate": 3.1274999999999997e-06,
      "loss": 0.0739,
      "step": 4250
    },
    {
      "epoch": 0.534375,
      "grad_norm": 2.2528867721557617,
      "learning_rate": 3.106666666666667e-06,
      "loss": 0.0682,
      "step": 4275
    },
    {
      "epoch": 0.5375,
      "grad_norm": 3.5776236057281494,
      "learning_rate": 3.0858333333333336e-06,
      "loss": 0.0729,
      "step": 4300
    },
    {
      "epoch": 0.540625,
      "grad_norm": 2.0452890396118164,
      "learning_rate": 3.0650000000000003e-06,
      "loss": 0.0676,
      "step": 4325
    },
    {
      "epoch": 0.54375,
      "grad_norm": 3.9987590312957764,
      "learning_rate": 3.0441666666666666e-06,
      "loss": 0.081,
      "step": 4350
    },
    {
      "epoch": 0.546875,
      "grad_norm": 4.795535087585449,
      "learning_rate": 3.0233333333333338e-06,
      "loss": 0.126,
      "step": 4375
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.841895580291748,
      "learning_rate": 3.0025e-06,
      "loss": 0.1363,
      "step": 4400
    },
    {
      "epoch": 0.553125,
      "grad_norm": 6.109241962432861,
      "learning_rate": 2.9816666666666668e-06,
      "loss": 0.1325,
      "step": 4425
    },
    {
      "epoch": 0.55625,
      "grad_norm": 4.623290538787842,
      "learning_rate": 2.9608333333333335e-06,
      "loss": 0.123,
      "step": 4450
    },
    {
      "epoch": 0.559375,
      "grad_norm": 3.5602827072143555,
      "learning_rate": 2.9400000000000002e-06,
      "loss": 0.1361,
      "step": 4475
    },
    {
      "epoch": 0.5625,
      "grad_norm": 4.564285755157471,
      "learning_rate": 2.919166666666667e-06,
      "loss": 0.1502,
      "step": 4500
    },
    {
      "epoch": 0.5625,
      "eval_loss": 0.23331405222415924,
      "eval_runtime": 420.0095,
      "eval_samples_per_second": 5.009,
      "eval_steps_per_second": 0.626,
      "eval_wer": 12.400673085911938,
      "step": 4500
    },
    {
      "epoch": 0.565625,
      "grad_norm": 3.0876269340515137,
      "learning_rate": 2.8983333333333333e-06,
      "loss": 0.1061,
      "step": 4525
    },
    {
      "epoch": 0.56875,
      "grad_norm": 2.9698376655578613,
      "learning_rate": 2.8775e-06,
      "loss": 0.0809,
      "step": 4550
    },
    {
      "epoch": 0.571875,
      "grad_norm": 2.491389274597168,
      "learning_rate": 2.8566666666666667e-06,
      "loss": 0.0769,
      "step": 4575
    },
    {
      "epoch": 0.575,
      "grad_norm": 3.7412362098693848,
      "learning_rate": 2.8358333333333334e-06,
      "loss": 0.0632,
      "step": 4600
    },
    {
      "epoch": 0.578125,
      "grad_norm": 3.1096959114074707,
      "learning_rate": 2.815e-06,
      "loss": 0.0731,
      "step": 4625
    },
    {
      "epoch": 0.58125,
      "grad_norm": 3.5074427127838135,
      "learning_rate": 2.794166666666667e-06,
      "loss": 0.0724,
      "step": 4650
    },
    {
      "epoch": 0.584375,
      "grad_norm": 2.3038923740386963,
      "learning_rate": 2.773333333333333e-06,
      "loss": 0.0663,
      "step": 4675
    },
    {
      "epoch": 0.5875,
      "grad_norm": 2.202913522720337,
      "learning_rate": 2.7525000000000003e-06,
      "loss": 0.0624,
      "step": 4700
    },
    {
      "epoch": 0.590625,
      "grad_norm": 3.385122060775757,
      "learning_rate": 2.7316666666666666e-06,
      "loss": 0.0764,
      "step": 4725
    },
    {
      "epoch": 0.59375,
      "grad_norm": 2.382167100906372,
      "learning_rate": 2.7108333333333338e-06,
      "loss": 0.0735,
      "step": 4750
    },
    {
      "epoch": 0.596875,
      "grad_norm": 2.670067071914673,
      "learning_rate": 2.69e-06,
      "loss": 0.0769,
      "step": 4775
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.72542667388916,
      "learning_rate": 2.669166666666667e-06,
      "loss": 0.0699,
      "step": 4800
    },
    {
      "epoch": 0.603125,
      "grad_norm": 3.4631733894348145,
      "learning_rate": 2.6483333333333335e-06,
      "loss": 0.0748,
      "step": 4825
    },
    {
      "epoch": 0.60625,
      "grad_norm": 2.1158626079559326,
      "learning_rate": 2.6275000000000003e-06,
      "loss": 0.0775,
      "step": 4850
    },
    {
      "epoch": 0.609375,
      "grad_norm": 3.326186418533325,
      "learning_rate": 2.6066666666666666e-06,
      "loss": 0.0781,
      "step": 4875
    },
    {
      "epoch": 0.6125,
      "grad_norm": 3.0408577919006348,
      "learning_rate": 2.5858333333333337e-06,
      "loss": 0.0712,
      "step": 4900
    },
    {
      "epoch": 0.615625,
      "grad_norm": 2.389796018600464,
      "learning_rate": 2.565e-06,
      "loss": 0.0728,
      "step": 4925
    },
    {
      "epoch": 0.61875,
      "grad_norm": 2.9459266662597656,
      "learning_rate": 2.5441666666666667e-06,
      "loss": 0.0818,
      "step": 4950
    },
    {
      "epoch": 0.621875,
      "grad_norm": 2.216707706451416,
      "learning_rate": 2.5233333333333335e-06,
      "loss": 0.0887,
      "step": 4975
    },
    {
      "epoch": 0.625,
      "grad_norm": 4.172521114349365,
      "learning_rate": 2.5025e-06,
      "loss": 0.0916,
      "step": 5000
    },
    {
      "epoch": 0.625,
      "eval_loss": 0.22707216441631317,
      "eval_runtime": 421.6318,
      "eval_samples_per_second": 4.99,
      "eval_steps_per_second": 0.624,
      "eval_wer": 10.965691315322053,
      "step": 5000
    },
    {
      "epoch": 0.628125,
      "grad_norm": 3.083894968032837,
      "learning_rate": 2.481666666666667e-06,
      "loss": 0.1084,
      "step": 5025
    },
    {
      "epoch": 0.63125,
      "grad_norm": 3.9233384132385254,
      "learning_rate": 2.460833333333333e-06,
      "loss": 0.1161,
      "step": 5050
    },
    {
      "epoch": 0.634375,
      "grad_norm": 4.261771202087402,
      "learning_rate": 2.4400000000000004e-06,
      "loss": 0.1032,
      "step": 5075
    },
    {
      "epoch": 0.6375,
      "grad_norm": 4.277398109436035,
      "learning_rate": 2.4191666666666667e-06,
      "loss": 0.1063,
      "step": 5100
    },
    {
      "epoch": 0.640625,
      "grad_norm": 4.196617126464844,
      "learning_rate": 2.3983333333333334e-06,
      "loss": 0.138,
      "step": 5125
    },
    {
      "epoch": 0.64375,
      "grad_norm": 4.253470420837402,
      "learning_rate": 2.3775e-06,
      "loss": 0.1308,
      "step": 5150
    },
    {
      "epoch": 0.646875,
      "grad_norm": 3.221344470977783,
      "learning_rate": 2.356666666666667e-06,
      "loss": 0.1118,
      "step": 5175
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.630119800567627,
      "learning_rate": 2.335833333333333e-06,
      "loss": 0.0882,
      "step": 5200
    },
    {
      "epoch": 0.653125,
      "grad_norm": 3.146988868713379,
      "learning_rate": 2.3150000000000003e-06,
      "loss": 0.08,
      "step": 5225
    },
    {
      "epoch": 0.65625,
      "grad_norm": 3.6203882694244385,
      "learning_rate": 2.2941666666666666e-06,
      "loss": 0.0769,
      "step": 5250
    },
    {
      "epoch": 0.659375,
      "grad_norm": 2.9987850189208984,
      "learning_rate": 2.2733333333333337e-06,
      "loss": 0.0775,
      "step": 5275
    },
    {
      "epoch": 0.6625,
      "grad_norm": 2.3863637447357178,
      "learning_rate": 2.2525e-06,
      "loss": 0.0694,
      "step": 5300
    },
    {
      "epoch": 0.665625,
      "grad_norm": 2.7977538108825684,
      "learning_rate": 2.2316666666666668e-06,
      "loss": 0.0677,
      "step": 5325
    },
    {
      "epoch": 0.66875,
      "grad_norm": 3.0015907287597656,
      "learning_rate": 2.2108333333333335e-06,
      "loss": 0.0737,
      "step": 5350
    },
    {
      "epoch": 0.671875,
      "grad_norm": 2.2097315788269043,
      "learning_rate": 2.19e-06,
      "loss": 0.0671,
      "step": 5375
    },
    {
      "epoch": 0.675,
      "grad_norm": 1.3963428735733032,
      "learning_rate": 2.169166666666667e-06,
      "loss": 0.0665,
      "step": 5400
    },
    {
      "epoch": 0.678125,
      "grad_norm": 4.170374393463135,
      "learning_rate": 2.1483333333333337e-06,
      "loss": 0.0807,
      "step": 5425
    },
    {
      "epoch": 0.68125,
      "grad_norm": 2.4668662548065186,
      "learning_rate": 2.1275e-06,
      "loss": 0.0887,
      "step": 5450
    },
    {
      "epoch": 0.684375,
      "grad_norm": 3.388085126876831,
      "learning_rate": 2.1066666666666667e-06,
      "loss": 0.0773,
      "step": 5475
    },
    {
      "epoch": 0.6875,
      "grad_norm": 3.437046527862549,
      "learning_rate": 2.0858333333333334e-06,
      "loss": 0.0914,
      "step": 5500
    },
    {
      "epoch": 0.6875,
      "eval_loss": 0.23427686095237732,
      "eval_runtime": 419.3101,
      "eval_samples_per_second": 5.018,
      "eval_steps_per_second": 0.627,
      "eval_wer": 10.502944750864728,
      "step": 5500
    },
    {
      "epoch": 0.690625,
      "grad_norm": 4.649775981903076,
      "learning_rate": 2.065e-06,
      "loss": 0.1537,
      "step": 5525
    },
    {
      "epoch": 0.69375,
      "grad_norm": 3.8799123764038086,
      "learning_rate": 2.044166666666667e-06,
      "loss": 0.1565,
      "step": 5550
    },
    {
      "epoch": 0.696875,
      "grad_norm": 4.4588518142700195,
      "learning_rate": 2.023333333333333e-06,
      "loss": 0.1427,
      "step": 5575
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.449648141860962,
      "learning_rate": 2.0025000000000003e-06,
      "loss": 0.1312,
      "step": 5600
    },
    {
      "epoch": 0.703125,
      "grad_norm": 4.717497825622559,
      "learning_rate": 1.9816666666666666e-06,
      "loss": 0.1093,
      "step": 5625
    },
    {
      "epoch": 0.70625,
      "grad_norm": 4.465198040008545,
      "learning_rate": 1.9608333333333333e-06,
      "loss": 0.1237,
      "step": 5650
    },
    {
      "epoch": 0.709375,
      "grad_norm": 4.121485233306885,
      "learning_rate": 1.94e-06,
      "loss": 0.1196,
      "step": 5675
    },
    {
      "epoch": 0.7125,
      "grad_norm": 3.461294651031494,
      "learning_rate": 1.9191666666666668e-06,
      "loss": 0.1204,
      "step": 5700
    },
    {
      "epoch": 0.715625,
      "grad_norm": 5.659304618835449,
      "learning_rate": 1.8983333333333335e-06,
      "loss": 0.1229,
      "step": 5725
    },
    {
      "epoch": 0.71875,
      "grad_norm": 4.469748497009277,
      "learning_rate": 1.8775e-06,
      "loss": 0.1253,
      "step": 5750
    },
    {
      "epoch": 0.721875,
      "grad_norm": 4.66398811340332,
      "learning_rate": 1.8566666666666665e-06,
      "loss": 0.1146,
      "step": 5775
    },
    {
      "epoch": 0.725,
      "grad_norm": 4.326991558074951,
      "learning_rate": 1.8358333333333335e-06,
      "loss": 0.1213,
      "step": 5800
    },
    {
      "epoch": 0.728125,
      "grad_norm": 3.054807662963867,
      "learning_rate": 1.815e-06,
      "loss": 0.0985,
      "step": 5825
    },
    {
      "epoch": 0.73125,
      "grad_norm": 3.3157272338867188,
      "learning_rate": 1.794166666666667e-06,
      "loss": 0.0958,
      "step": 5850
    },
    {
      "epoch": 0.734375,
      "grad_norm": 2.41603422164917,
      "learning_rate": 1.7733333333333334e-06,
      "loss": 0.069,
      "step": 5875
    },
    {
      "epoch": 0.7375,
      "grad_norm": 3.2789347171783447,
      "learning_rate": 1.7525e-06,
      "loss": 0.0713,
      "step": 5900
    },
    {
      "epoch": 0.740625,
      "grad_norm": 3.526294231414795,
      "learning_rate": 1.7316666666666669e-06,
      "loss": 0.0713,
      "step": 5925
    },
    {
      "epoch": 0.74375,
      "grad_norm": 2.1724507808685303,
      "learning_rate": 1.7108333333333334e-06,
      "loss": 0.0793,
      "step": 5950
    },
    {
      "epoch": 0.746875,
      "grad_norm": 3.1178219318389893,
      "learning_rate": 1.69e-06,
      "loss": 0.1,
      "step": 5975
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.3492889404296875,
      "learning_rate": 1.6691666666666668e-06,
      "loss": 0.1093,
      "step": 6000
    },
    {
      "epoch": 0.75,
      "eval_loss": 0.21914222836494446,
      "eval_runtime": 421.5164,
      "eval_samples_per_second": 4.992,
      "eval_steps_per_second": 0.624,
      "eval_wer": 9.98410769374591,
      "step": 6000
    },
    {
      "epoch": 0.753125,
      "grad_norm": 4.253927707672119,
      "learning_rate": 1.6483333333333334e-06,
      "loss": 0.1182,
      "step": 6025
    },
    {
      "epoch": 0.75625,
      "grad_norm": 5.901562213897705,
      "learning_rate": 1.6275000000000003e-06,
      "loss": 0.1278,
      "step": 6050
    },
    {
      "epoch": 0.759375,
      "grad_norm": 5.934751510620117,
      "learning_rate": 1.6066666666666668e-06,
      "loss": 0.1411,
      "step": 6075
    },
    {
      "epoch": 0.7625,
      "grad_norm": 5.152722358703613,
      "learning_rate": 1.5858333333333333e-06,
      "loss": 0.1496,
      "step": 6100
    },
    {
      "epoch": 0.765625,
      "grad_norm": 4.460409641265869,
      "learning_rate": 1.565e-06,
      "loss": 0.1132,
      "step": 6125
    },
    {
      "epoch": 0.76875,
      "grad_norm": 2.9203169345855713,
      "learning_rate": 1.5441666666666668e-06,
      "loss": 0.0827,
      "step": 6150
    },
    {
      "epoch": 0.771875,
      "grad_norm": 2.982921600341797,
      "learning_rate": 1.5233333333333333e-06,
      "loss": 0.0708,
      "step": 6175
    },
    {
      "epoch": 0.775,
      "grad_norm": 3.2219862937927246,
      "learning_rate": 1.5025e-06,
      "loss": 0.0705,
      "step": 6200
    },
    {
      "epoch": 0.778125,
      "grad_norm": 2.3243980407714844,
      "learning_rate": 1.4816666666666667e-06,
      "loss": 0.0666,
      "step": 6225
    },
    {
      "epoch": 0.78125,
      "grad_norm": 2.5418896675109863,
      "learning_rate": 1.4608333333333333e-06,
      "loss": 0.0692,
      "step": 6250
    },
    {
      "epoch": 0.784375,
      "grad_norm": 3.7306313514709473,
      "learning_rate": 1.44e-06,
      "loss": 0.0772,
      "step": 6275
    },
    {
      "epoch": 0.7875,
      "grad_norm": 3.970508098602295,
      "learning_rate": 1.4191666666666667e-06,
      "loss": 0.0843,
      "step": 6300
    },
    {
      "epoch": 0.790625,
      "grad_norm": 3.8446128368377686,
      "learning_rate": 1.3983333333333334e-06,
      "loss": 0.1233,
      "step": 6325
    },
    {
      "epoch": 0.79375,
      "grad_norm": 4.295629501342773,
      "learning_rate": 1.3775000000000002e-06,
      "loss": 0.139,
      "step": 6350
    },
    {
      "epoch": 0.796875,
      "grad_norm": 4.724053382873535,
      "learning_rate": 1.3566666666666667e-06,
      "loss": 0.1107,
      "step": 6375
    },
    {
      "epoch": 0.8,
      "grad_norm": 5.828359127044678,
      "learning_rate": 1.3358333333333334e-06,
      "loss": 0.1304,
      "step": 6400
    },
    {
      "epoch": 0.803125,
      "grad_norm": 4.042730331420898,
      "learning_rate": 1.3150000000000001e-06,
      "loss": 0.1277,
      "step": 6425
    },
    {
      "epoch": 0.80625,
      "grad_norm": 3.5273425579071045,
      "learning_rate": 1.2941666666666668e-06,
      "loss": 0.126,
      "step": 6450
    },
    {
      "epoch": 0.809375,
      "grad_norm": 2.901884078979492,
      "learning_rate": 1.2733333333333334e-06,
      "loss": 0.0929,
      "step": 6475
    },
    {
      "epoch": 0.8125,
      "grad_norm": 4.719346523284912,
      "learning_rate": 1.2525e-06,
      "loss": 0.0948,
      "step": 6500
    },
    {
      "epoch": 0.8125,
      "eval_loss": 0.2214665412902832,
      "eval_runtime": 423.0169,
      "eval_samples_per_second": 4.974,
      "eval_steps_per_second": 0.622,
      "eval_wer": 10.535664204917266,
      "step": 6500
    },
    {
      "epoch": 0.815625,
      "grad_norm": 4.184325218200684,
      "learning_rate": 1.2316666666666668e-06,
      "loss": 0.1045,
      "step": 6525
    },
    {
      "epoch": 0.81875,
      "grad_norm": 4.737115383148193,
      "learning_rate": 1.2108333333333335e-06,
      "loss": 0.112,
      "step": 6550
    },
    {
      "epoch": 0.821875,
      "grad_norm": 7.072691440582275,
      "learning_rate": 1.19e-06,
      "loss": 0.1326,
      "step": 6575
    },
    {
      "epoch": 0.825,
      "grad_norm": 2.486250162124634,
      "learning_rate": 1.1691666666666668e-06,
      "loss": 0.1154,
      "step": 6600
    },
    {
      "epoch": 0.828125,
      "grad_norm": 4.1657328605651855,
      "learning_rate": 1.1491666666666667e-06,
      "loss": 0.1102,
      "step": 6625
    },
    {
      "epoch": 0.83125,
      "grad_norm": 3.565835475921631,
      "learning_rate": 1.1283333333333333e-06,
      "loss": 0.0793,
      "step": 6650
    },
    {
      "epoch": 0.834375,
      "grad_norm": 2.6341757774353027,
      "learning_rate": 1.1075e-06,
      "loss": 0.0698,
      "step": 6675
    },
    {
      "epoch": 0.8375,
      "grad_norm": 3.431013584136963,
      "learning_rate": 1.0866666666666667e-06,
      "loss": 0.0757,
      "step": 6700
    },
    {
      "epoch": 0.840625,
      "grad_norm": 2.743353843688965,
      "learning_rate": 1.0658333333333334e-06,
      "loss": 0.0606,
      "step": 6725
    },
    {
      "epoch": 0.84375,
      "grad_norm": 2.702622890472412,
      "learning_rate": 1.045e-06,
      "loss": 0.0598,
      "step": 6750
    },
    {
      "epoch": 0.846875,
      "grad_norm": 2.669710636138916,
      "learning_rate": 1.0241666666666667e-06,
      "loss": 0.0641,
      "step": 6775
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.356062173843384,
      "learning_rate": 1.0033333333333334e-06,
      "loss": 0.0717,
      "step": 6800
    },
    {
      "epoch": 0.853125,
      "grad_norm": 3.792300224304199,
      "learning_rate": 9.825000000000001e-07,
      "loss": 0.0755,
      "step": 6825
    },
    {
      "epoch": 0.85625,
      "grad_norm": 2.8524975776672363,
      "learning_rate": 9.616666666666668e-07,
      "loss": 0.074,
      "step": 6850
    },
    {
      "epoch": 0.859375,
      "grad_norm": 2.653484344482422,
      "learning_rate": 9.408333333333334e-07,
      "loss": 0.0732,
      "step": 6875
    },
    {
      "epoch": 0.8625,
      "grad_norm": 2.2992992401123047,
      "learning_rate": 9.2e-07,
      "loss": 0.0653,
      "step": 6900
    },
    {
      "epoch": 0.865625,
      "grad_norm": 2.3256728649139404,
      "learning_rate": 8.991666666666667e-07,
      "loss": 0.0612,
      "step": 6925
    },
    {
      "epoch": 0.86875,
      "grad_norm": 3.0332698822021484,
      "learning_rate": 8.783333333333334e-07,
      "loss": 0.0533,
      "step": 6950
    },
    {
      "epoch": 0.871875,
      "grad_norm": 4.096222877502441,
      "learning_rate": 8.574999999999999e-07,
      "loss": 0.0704,
      "step": 6975
    },
    {
      "epoch": 0.875,
      "grad_norm": 3.0144271850585938,
      "learning_rate": 8.366666666666667e-07,
      "loss": 0.0744,
      "step": 7000
    },
    {
      "epoch": 0.875,
      "eval_loss": 0.21083347499370575,
      "eval_runtime": 429.259,
      "eval_samples_per_second": 4.901,
      "eval_steps_per_second": 0.613,
      "eval_wer": 11.23679536318594,
      "step": 7000
    },
    {
      "epoch": 0.878125,
      "grad_norm": 2.6104869842529297,
      "learning_rate": 8.158333333333334e-07,
      "loss": 0.0669,
      "step": 7025
    },
    {
      "epoch": 0.88125,
      "grad_norm": 2.6073827743530273,
      "learning_rate": 7.950000000000001e-07,
      "loss": 0.0651,
      "step": 7050
    },
    {
      "epoch": 0.884375,
      "grad_norm": 2.584033966064453,
      "learning_rate": 7.741666666666667e-07,
      "loss": 0.0622,
      "step": 7075
    },
    {
      "epoch": 0.8875,
      "grad_norm": 2.425426959991455,
      "learning_rate": 7.533333333333334e-07,
      "loss": 0.0735,
      "step": 7100
    },
    {
      "epoch": 0.890625,
      "grad_norm": 3.056304931640625,
      "learning_rate": 7.325e-07,
      "loss": 0.0982,
      "step": 7125
    },
    {
      "epoch": 0.89375,
      "grad_norm": 3.8735291957855225,
      "learning_rate": 7.116666666666667e-07,
      "loss": 0.1166,
      "step": 7150
    },
    {
      "epoch": 0.896875,
      "grad_norm": 4.358260631561279,
      "learning_rate": 6.908333333333333e-07,
      "loss": 0.1212,
      "step": 7175
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.1888036727905273,
      "learning_rate": 6.7e-07,
      "loss": 0.1209,
      "step": 7200
    },
    {
      "epoch": 0.903125,
      "grad_norm": 4.592689514160156,
      "learning_rate": 6.491666666666667e-07,
      "loss": 0.1265,
      "step": 7225
    },
    {
      "epoch": 0.90625,
      "grad_norm": 4.064499378204346,
      "learning_rate": 6.283333333333334e-07,
      "loss": 0.1031,
      "step": 7250
    },
    {
      "epoch": 0.909375,
      "grad_norm": 4.060811996459961,
      "learning_rate": 6.075e-07,
      "loss": 0.0694,
      "step": 7275
    },
    {
      "epoch": 0.9125,
      "grad_norm": 2.3940441608428955,
      "learning_rate": 5.866666666666667e-07,
      "loss": 0.0717,
      "step": 7300
    },
    {
      "epoch": 0.915625,
      "grad_norm": 3.34171199798584,
      "learning_rate": 5.658333333333334e-07,
      "loss": 0.0693,
      "step": 7325
    },
    {
      "epoch": 0.91875,
      "grad_norm": 3.1847307682037354,
      "learning_rate": 5.450000000000001e-07,
      "loss": 0.0549,
      "step": 7350
    },
    {
      "epoch": 0.921875,
      "grad_norm": 2.4034082889556885,
      "learning_rate": 5.241666666666667e-07,
      "loss": 0.0679,
      "step": 7375
    },
    {
      "epoch": 0.925,
      "grad_norm": 2.2434728145599365,
      "learning_rate": 5.033333333333333e-07,
      "loss": 0.0677,
      "step": 7400
    },
    {
      "epoch": 0.928125,
      "grad_norm": 2.655233144760132,
      "learning_rate": 4.825e-07,
      "loss": 0.0844,
      "step": 7425
    },
    {
      "epoch": 0.93125,
      "grad_norm": 3.4723622798919678,
      "learning_rate": 4.6166666666666666e-07,
      "loss": 0.0766,
      "step": 7450
    },
    {
      "epoch": 0.934375,
      "grad_norm": 3.544377326965332,
      "learning_rate": 4.408333333333334e-07,
      "loss": 0.0761,
      "step": 7475
    },
    {
      "epoch": 0.9375,
      "grad_norm": 4.966926097869873,
      "learning_rate": 4.2e-07,
      "loss": 0.1269,
      "step": 7500
    },
    {
      "epoch": 0.9375,
      "eval_loss": 0.21579307317733765,
      "eval_runtime": 453.0321,
      "eval_samples_per_second": 4.644,
      "eval_steps_per_second": 0.581,
      "eval_wer": 10.002804524633074,
      "step": 7500
    },
    {
      "epoch": 0.940625,
      "grad_norm": 4.923036098480225,
      "learning_rate": 3.991666666666667e-07,
      "loss": 0.1428,
      "step": 7525
    },
    {
      "epoch": 0.94375,
      "grad_norm": 3.906621217727661,
      "learning_rate": 3.7833333333333335e-07,
      "loss": 0.1148,
      "step": 7550
    },
    {
      "epoch": 0.946875,
      "grad_norm": 3.8426077365875244,
      "learning_rate": 3.575e-07,
      "loss": 0.1139,
      "step": 7575
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.980268955230713,
      "learning_rate": 3.366666666666667e-07,
      "loss": 0.1389,
      "step": 7600
    },
    {
      "epoch": 0.953125,
      "grad_norm": 5.212338447570801,
      "learning_rate": 3.1583333333333336e-07,
      "loss": 0.1296,
      "step": 7625
    },
    {
      "epoch": 0.95625,
      "grad_norm": 4.394927024841309,
      "learning_rate": 2.95e-07,
      "loss": 0.1125,
      "step": 7650
    },
    {
      "epoch": 0.959375,
      "grad_norm": 5.008238792419434,
      "learning_rate": 2.7416666666666665e-07,
      "loss": 0.1323,
      "step": 7675
    },
    {
      "epoch": 0.9625,
      "grad_norm": 6.502245903015137,
      "learning_rate": 2.533333333333333e-07,
      "loss": 0.1401,
      "step": 7700
    },
    {
      "epoch": 0.965625,
      "grad_norm": 5.630526542663574,
      "learning_rate": 2.325e-07,
      "loss": 0.1358,
      "step": 7725
    },
    {
      "epoch": 0.96875,
      "grad_norm": 2.802499532699585,
      "learning_rate": 2.116666666666667e-07,
      "loss": 0.1068,
      "step": 7750
    },
    {
      "epoch": 0.971875,
      "grad_norm": 2.5446484088897705,
      "learning_rate": 1.9083333333333334e-07,
      "loss": 0.0862,
      "step": 7775
    },
    {
      "epoch": 0.975,
      "grad_norm": 5.739973068237305,
      "learning_rate": 1.7e-07,
      "loss": 0.0749,
      "step": 7800
    },
    {
      "epoch": 0.978125,
      "grad_norm": 2.2183213233947754,
      "learning_rate": 1.4916666666666669e-07,
      "loss": 0.0694,
      "step": 7825
    },
    {
      "epoch": 0.98125,
      "grad_norm": 2.4163272380828857,
      "learning_rate": 1.2833333333333333e-07,
      "loss": 0.0768,
      "step": 7850
    },
    {
      "epoch": 0.984375,
      "grad_norm": 3.4462175369262695,
      "learning_rate": 1.075e-07,
      "loss": 0.0635,
      "step": 7875
    },
    {
      "epoch": 0.9875,
      "grad_norm": 2.5306878089904785,
      "learning_rate": 8.666666666666666e-08,
      "loss": 0.0679,
      "step": 7900
    },
    {
      "epoch": 0.990625,
      "grad_norm": 4.3514485359191895,
      "learning_rate": 6.583333333333333e-08,
      "loss": 0.1073,
      "step": 7925
    },
    {
      "epoch": 0.99375,
      "grad_norm": 5.388062953948975,
      "learning_rate": 4.5e-08,
      "loss": 0.1159,
      "step": 7950
    },
    {
      "epoch": 0.996875,
      "grad_norm": 3.7506585121154785,
      "learning_rate": 2.4166666666666668e-08,
      "loss": 0.1783,
      "step": 7975
    },
    {
      "epoch": 1.0,
      "grad_norm": 4.964086532592773,
      "learning_rate": 3.333333333333334e-09,
      "loss": 0.1408,
      "step": 8000
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.21413126587867737,
      "eval_runtime": 423.6508,
      "eval_samples_per_second": 4.966,
      "eval_steps_per_second": 0.621,
      "eval_wer": 10.129008133121436,
      "step": 8000
    },
    {
      "epoch": 1.0,
      "step": 8000,
      "total_flos": 1.3063742816256e+20,
      "train_loss": 0.1566779458373785,
      "train_runtime": 20473.0101,
      "train_samples_per_second": 6.252,
      "train_steps_per_second": 0.391
    }
  ],
  "logging_steps": 25,
  "max_steps": 8000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.3063742816256e+20,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}