{ "best_metric": 9.98410769374591, "best_model_checkpoint": "./checkpoint-6000", "epoch": 1.0, "eval_steps": 500, "global_step": 8000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.003125, "grad_norm": 18.986873626708984, "learning_rate": 2.875e-07, "loss": 1.979, "step": 25 }, { "epoch": 0.00625, "grad_norm": 16.025917053222656, "learning_rate": 6.000000000000001e-07, "loss": 1.8343, "step": 50 }, { "epoch": 0.009375, "grad_norm": 11.7916841506958, "learning_rate": 9.124999999999999e-07, "loss": 1.4286, "step": 75 }, { "epoch": 0.0125, "grad_norm": 9.848176002502441, "learning_rate": 1.2250000000000001e-06, "loss": 0.9655, "step": 100 }, { "epoch": 0.015625, "grad_norm": 9.252968788146973, "learning_rate": 1.5375e-06, "loss": 0.7411, "step": 125 }, { "epoch": 0.01875, "grad_norm": 9.25166130065918, "learning_rate": 1.85e-06, "loss": 0.7377, "step": 150 }, { "epoch": 0.021875, "grad_norm": 9.127242088317871, "learning_rate": 2.1625e-06, "loss": 0.5628, "step": 175 }, { "epoch": 0.025, "grad_norm": 7.140044212341309, "learning_rate": 2.4750000000000004e-06, "loss": 0.5043, "step": 200 }, { "epoch": 0.028125, "grad_norm": 7.495832920074463, "learning_rate": 2.7875e-06, "loss": 0.4543, "step": 225 }, { "epoch": 0.03125, "grad_norm": 7.260509014129639, "learning_rate": 3.1e-06, "loss": 0.441, "step": 250 }, { "epoch": 0.034375, "grad_norm": 7.78987455368042, "learning_rate": 3.4125000000000004e-06, "loss": 0.3709, "step": 275 }, { "epoch": 0.0375, "grad_norm": 6.570291042327881, "learning_rate": 3.725e-06, "loss": 0.3778, "step": 300 }, { "epoch": 0.040625, "grad_norm": 6.600038051605225, "learning_rate": 4.037500000000001e-06, "loss": 0.342, "step": 325 }, { "epoch": 0.04375, "grad_norm": 6.174134731292725, "learning_rate": 4.35e-06, "loss": 0.3479, "step": 350 }, { "epoch": 0.046875, "grad_norm": 5.382558345794678, "learning_rate": 4.6625e-06, "loss": 0.3389, "step": 375 }, { "epoch": 0.05, "grad_norm": 6.139970302581787, "learning_rate": 4.975000000000001e-06, "loss": 0.3001, "step": 400 }, { "epoch": 0.053125, "grad_norm": 6.267641544342041, "learning_rate": 5.2875e-06, "loss": 0.2827, "step": 425 }, { "epoch": 0.05625, "grad_norm": 4.701253414154053, "learning_rate": 5.600000000000001e-06, "loss": 0.252, "step": 450 }, { "epoch": 0.059375, "grad_norm": 7.49235725402832, "learning_rate": 5.9125e-06, "loss": 0.2724, "step": 475 }, { "epoch": 0.0625, "grad_norm": 8.219965934753418, "learning_rate": 6.2250000000000005e-06, "loss": 0.3412, "step": 500 }, { "epoch": 0.0625, "eval_loss": 0.4569947421550751, "eval_runtime": 421.2437, "eval_samples_per_second": 4.995, "eval_steps_per_second": 0.624, "eval_wer": 28.21819201645321, "step": 500 }, { "epoch": 0.065625, "grad_norm": 7.646754741668701, "learning_rate": 6.230833333333334e-06, "loss": 0.3663, "step": 525 }, { "epoch": 0.06875, "grad_norm": 6.3216094970703125, "learning_rate": 6.210000000000001e-06, "loss": 0.3401, "step": 550 }, { "epoch": 0.071875, "grad_norm": 6.551443099975586, "learning_rate": 6.1891666666666666e-06, "loss": 0.3617, "step": 575 }, { "epoch": 0.075, "grad_norm": 7.667718887329102, "learning_rate": 6.168333333333333e-06, "loss": 0.3339, "step": 600 }, { "epoch": 0.078125, "grad_norm": 6.759644031524658, "learning_rate": 6.147500000000001e-06, "loss": 0.3236, "step": 625 }, { "epoch": 0.08125, "grad_norm": 5.439680576324463, "learning_rate": 6.126666666666667e-06, "loss": 0.2588, "step": 650 }, { "epoch": 0.084375, "grad_norm": 5.2066450119018555, "learning_rate": 6.1058333333333335e-06, "loss": 0.2389, "step": 675 }, { "epoch": 0.0875, "grad_norm": 4.867877960205078, "learning_rate": 6.085e-06, "loss": 0.2178, "step": 700 }, { "epoch": 0.090625, "grad_norm": 4.836174011230469, "learning_rate": 6.064166666666667e-06, "loss": 0.185, "step": 725 }, { "epoch": 0.09375, "grad_norm": 4.676128387451172, "learning_rate": 6.043333333333334e-06, "loss": 0.1968, "step": 750 }, { "epoch": 0.096875, "grad_norm": 3.805962324142456, "learning_rate": 6.0225e-06, "loss": 0.1987, "step": 775 }, { "epoch": 0.1, "grad_norm": 4.182210922241211, "learning_rate": 6.001666666666667e-06, "loss": 0.1945, "step": 800 }, { "epoch": 0.103125, "grad_norm": 4.078372001647949, "learning_rate": 5.980833333333334e-06, "loss": 0.1806, "step": 825 }, { "epoch": 0.10625, "grad_norm": 4.926514148712158, "learning_rate": 5.9600000000000005e-06, "loss": 0.1655, "step": 850 }, { "epoch": 0.109375, "grad_norm": 4.110943794250488, "learning_rate": 5.939166666666667e-06, "loss": 0.1711, "step": 875 }, { "epoch": 0.1125, "grad_norm": 4.059125900268555, "learning_rate": 5.918333333333333e-06, "loss": 0.1721, "step": 900 }, { "epoch": 0.115625, "grad_norm": 4.911381244659424, "learning_rate": 5.8975e-06, "loss": 0.1617, "step": 925 }, { "epoch": 0.11875, "grad_norm": 4.673095226287842, "learning_rate": 5.8766666666666674e-06, "loss": 0.1543, "step": 950 }, { "epoch": 0.121875, "grad_norm": 4.966635704040527, "learning_rate": 5.855833333333333e-06, "loss": 0.1585, "step": 975 }, { "epoch": 0.125, "grad_norm": 4.074397087097168, "learning_rate": 5.835e-06, "loss": 0.1462, "step": 1000 }, { "epoch": 0.125, "eval_loss": 0.3524394631385803, "eval_runtime": 423.5166, "eval_samples_per_second": 4.968, "eval_steps_per_second": 0.621, "eval_wer": 19.940170141161072, "step": 1000 }, { "epoch": 0.128125, "grad_norm": 2.7621817588806152, "learning_rate": 5.814166666666667e-06, "loss": 0.1543, "step": 1025 }, { "epoch": 0.13125, "grad_norm": 5.36495304107666, "learning_rate": 5.793333333333334e-06, "loss": 0.1356, "step": 1050 }, { "epoch": 0.134375, "grad_norm": 4.922938346862793, "learning_rate": 5.7725e-06, "loss": 0.1459, "step": 1075 }, { "epoch": 0.1375, "grad_norm": 3.6823904514312744, "learning_rate": 5.751666666666667e-06, "loss": 0.148, "step": 1100 }, { "epoch": 0.140625, "grad_norm": 3.583972215652466, "learning_rate": 5.730833333333334e-06, "loss": 0.1408, "step": 1125 }, { "epoch": 0.14375, "grad_norm": 4.794659614562988, "learning_rate": 5.71e-06, "loss": 0.1363, "step": 1150 }, { "epoch": 0.146875, "grad_norm": 2.823441743850708, "learning_rate": 5.689166666666667e-06, "loss": 0.1378, "step": 1175 }, { "epoch": 0.15, "grad_norm": 5.426193714141846, "learning_rate": 5.668333333333334e-06, "loss": 0.1454, "step": 1200 }, { "epoch": 0.153125, "grad_norm": 3.506147861480713, "learning_rate": 5.6475e-06, "loss": 0.124, "step": 1225 }, { "epoch": 0.15625, "grad_norm": 3.6159119606018066, "learning_rate": 5.626666666666667e-06, "loss": 0.1214, "step": 1250 }, { "epoch": 0.159375, "grad_norm": 4.304079055786133, "learning_rate": 5.605833333333334e-06, "loss": 0.1266, "step": 1275 }, { "epoch": 0.1625, "grad_norm": 3.570537805557251, "learning_rate": 5.585e-06, "loss": 0.1474, "step": 1300 }, { "epoch": 0.165625, "grad_norm": 3.944892644882202, "learning_rate": 5.564166666666667e-06, "loss": 0.1327, "step": 1325 }, { "epoch": 0.16875, "grad_norm": 4.3111572265625, "learning_rate": 5.543333333333333e-06, "loss": 0.1361, "step": 1350 }, { "epoch": 0.171875, "grad_norm": 4.4654083251953125, "learning_rate": 5.522500000000001e-06, "loss": 0.1348, "step": 1375 }, { "epoch": 0.175, "grad_norm": 4.158225059509277, "learning_rate": 5.501666666666667e-06, "loss": 0.1321, "step": 1400 }, { "epoch": 0.178125, "grad_norm": 3.5653274059295654, "learning_rate": 5.4808333333333335e-06, "loss": 0.1392, "step": 1425 }, { "epoch": 0.18125, "grad_norm": 8.204817771911621, "learning_rate": 5.46e-06, "loss": 0.1697, "step": 1450 }, { "epoch": 0.184375, "grad_norm": 6.251273155212402, "learning_rate": 5.439166666666667e-06, "loss": 0.2126, "step": 1475 }, { "epoch": 0.1875, "grad_norm": 5.315432071685791, "learning_rate": 5.418333333333334e-06, "loss": 0.2495, "step": 1500 }, { "epoch": 0.1875, "eval_loss": 0.30772972106933594, "eval_runtime": 441.4634, "eval_samples_per_second": 4.766, "eval_steps_per_second": 0.596, "eval_wer": 17.523604748995044, "step": 1500 }, { "epoch": 0.190625, "grad_norm": 5.567235469818115, "learning_rate": 5.3975e-06, "loss": 0.2418, "step": 1525 }, { "epoch": 0.19375, "grad_norm": 5.031063079833984, "learning_rate": 5.376666666666666e-06, "loss": 0.2061, "step": 1550 }, { "epoch": 0.196875, "grad_norm": 6.948727130889893, "learning_rate": 5.355833333333334e-06, "loss": 0.2166, "step": 1575 }, { "epoch": 0.2, "grad_norm": 7.243198394775391, "learning_rate": 5.335000000000001e-06, "loss": 0.278, "step": 1600 }, { "epoch": 0.203125, "grad_norm": 4.161729335784912, "learning_rate": 5.3141666666666665e-06, "loss": 0.1822, "step": 1625 }, { "epoch": 0.20625, "grad_norm": 4.0524516105651855, "learning_rate": 5.293333333333333e-06, "loss": 0.1439, "step": 1650 }, { "epoch": 0.209375, "grad_norm": 4.263937473297119, "learning_rate": 5.272500000000001e-06, "loss": 0.1272, "step": 1675 }, { "epoch": 0.2125, "grad_norm": 3.639070987701416, "learning_rate": 5.2516666666666675e-06, "loss": 0.1252, "step": 1700 }, { "epoch": 0.215625, "grad_norm": 3.305999517440796, "learning_rate": 5.230833333333333e-06, "loss": 0.1183, "step": 1725 }, { "epoch": 0.21875, "grad_norm": 2.888228178024292, "learning_rate": 5.21e-06, "loss": 0.1101, "step": 1750 }, { "epoch": 0.221875, "grad_norm": 5.215433597564697, "learning_rate": 5.189166666666667e-06, "loss": 0.1562, "step": 1775 }, { "epoch": 0.225, "grad_norm": 4.641208171844482, "learning_rate": 5.1683333333333335e-06, "loss": 0.192, "step": 1800 }, { "epoch": 0.228125, "grad_norm": 6.326239109039307, "learning_rate": 5.1475e-06, "loss": 0.2123, "step": 1825 }, { "epoch": 0.23125, "grad_norm": 7.012181282043457, "learning_rate": 5.126666666666667e-06, "loss": 0.2123, "step": 1850 }, { "epoch": 0.234375, "grad_norm": 5.915773391723633, "learning_rate": 5.105833333333334e-06, "loss": 0.1966, "step": 1875 }, { "epoch": 0.2375, "grad_norm": 5.602591037750244, "learning_rate": 5.0850000000000004e-06, "loss": 0.1913, "step": 1900 }, { "epoch": 0.240625, "grad_norm": 5.096761703491211, "learning_rate": 5.064166666666667e-06, "loss": 0.2013, "step": 1925 }, { "epoch": 0.24375, "grad_norm": 11.189478874206543, "learning_rate": 5.043333333333333e-06, "loss": 0.587, "step": 1950 }, { "epoch": 0.246875, "grad_norm": 6.038069248199463, "learning_rate": 5.0225e-06, "loss": 0.3751, "step": 1975 }, { "epoch": 0.25, "grad_norm": 6.957058429718018, "learning_rate": 5.001666666666667e-06, "loss": 0.2617, "step": 2000 }, { "epoch": 0.25, "eval_loss": 0.2810758948326111, "eval_runtime": 423.474, "eval_samples_per_second": 4.968, "eval_steps_per_second": 0.621, "eval_wer": 16.58408899691502, "step": 2000 }, { "epoch": 0.253125, "grad_norm": 5.579774856567383, "learning_rate": 4.980833333333334e-06, "loss": 0.2469, "step": 2025 }, { "epoch": 0.25625, "grad_norm": 5.4091620445251465, "learning_rate": 4.96e-06, "loss": 0.2291, "step": 2050 }, { "epoch": 0.259375, "grad_norm": 4.21276330947876, "learning_rate": 4.939166666666667e-06, "loss": 0.1921, "step": 2075 }, { "epoch": 0.2625, "grad_norm": 3.7961809635162354, "learning_rate": 4.918333333333334e-06, "loss": 0.1341, "step": 2100 }, { "epoch": 0.265625, "grad_norm": 3.204401969909668, "learning_rate": 4.8975e-06, "loss": 0.107, "step": 2125 }, { "epoch": 0.26875, "grad_norm": 3.3962206840515137, "learning_rate": 4.876666666666667e-06, "loss": 0.1206, "step": 2150 }, { "epoch": 0.271875, "grad_norm": 3.666205644607544, "learning_rate": 4.8558333333333336e-06, "loss": 0.1059, "step": 2175 }, { "epoch": 0.275, "grad_norm": 3.0882160663604736, "learning_rate": 4.835e-06, "loss": 0.097, "step": 2200 }, { "epoch": 0.278125, "grad_norm": 3.348127603530884, "learning_rate": 4.814166666666667e-06, "loss": 0.0965, "step": 2225 }, { "epoch": 0.28125, "grad_norm": 2.4447720050811768, "learning_rate": 4.793333333333334e-06, "loss": 0.1003, "step": 2250 }, { "epoch": 0.284375, "grad_norm": 4.615771293640137, "learning_rate": 4.7725e-06, "loss": 0.1012, "step": 2275 }, { "epoch": 0.2875, "grad_norm": 3.513615131378174, "learning_rate": 4.751666666666666e-06, "loss": 0.107, "step": 2300 }, { "epoch": 0.290625, "grad_norm": 3.266713857650757, "learning_rate": 4.730833333333334e-06, "loss": 0.1073, "step": 2325 }, { "epoch": 0.29375, "grad_norm": 3.3199737071990967, "learning_rate": 4.710000000000001e-06, "loss": 0.1077, "step": 2350 }, { "epoch": 0.296875, "grad_norm": 2.671046018600464, "learning_rate": 4.6891666666666665e-06, "loss": 0.1031, "step": 2375 }, { "epoch": 0.3, "grad_norm": 3.041368007659912, "learning_rate": 4.668333333333333e-06, "loss": 0.1053, "step": 2400 }, { "epoch": 0.303125, "grad_norm": 3.7318310737609863, "learning_rate": 4.647500000000001e-06, "loss": 0.1439, "step": 2425 }, { "epoch": 0.30625, "grad_norm": 7.745230674743652, "learning_rate": 4.626666666666667e-06, "loss": 0.1686, "step": 2450 }, { "epoch": 0.309375, "grad_norm": 5.621090412139893, "learning_rate": 4.605833333333333e-06, "loss": 0.1794, "step": 2475 }, { "epoch": 0.3125, "grad_norm": 4.522252559661865, "learning_rate": 4.585e-06, "loss": 0.1646, "step": 2500 }, { "epoch": 0.3125, "eval_loss": 0.2725737690925598, "eval_runtime": 422.3202, "eval_samples_per_second": 4.982, "eval_steps_per_second": 0.623, "eval_wer": 13.891745349163317, "step": 2500 }, { "epoch": 0.315625, "grad_norm": 5.429344177246094, "learning_rate": 4.564166666666667e-06, "loss": 0.188, "step": 2525 }, { "epoch": 0.31875, "grad_norm": 6.522274971008301, "learning_rate": 4.543333333333334e-06, "loss": 0.1988, "step": 2550 }, { "epoch": 0.321875, "grad_norm": 6.914414405822754, "learning_rate": 4.5225e-06, "loss": 0.1915, "step": 2575 }, { "epoch": 0.325, "grad_norm": 5.277989387512207, "learning_rate": 4.501666666666667e-06, "loss": 0.2011, "step": 2600 }, { "epoch": 0.328125, "grad_norm": 5.887080192565918, "learning_rate": 4.481666666666666e-06, "loss": 0.1717, "step": 2625 }, { "epoch": 0.33125, "grad_norm": 5.534679412841797, "learning_rate": 4.460833333333333e-06, "loss": 0.1696, "step": 2650 }, { "epoch": 0.334375, "grad_norm": 5.044061183929443, "learning_rate": 4.440000000000001e-06, "loss": 0.1809, "step": 2675 }, { "epoch": 0.3375, "grad_norm": 6.7157769203186035, "learning_rate": 4.4191666666666666e-06, "loss": 0.1763, "step": 2700 }, { "epoch": 0.340625, "grad_norm": 5.815196990966797, "learning_rate": 4.398333333333333e-06, "loss": 0.1626, "step": 2725 }, { "epoch": 0.34375, "grad_norm": 5.573261737823486, "learning_rate": 4.3775e-06, "loss": 0.1599, "step": 2750 }, { "epoch": 0.346875, "grad_norm": 4.859520435333252, "learning_rate": 4.356666666666667e-06, "loss": 0.1523, "step": 2775 }, { "epoch": 0.35, "grad_norm": 5.533599853515625, "learning_rate": 4.3358333333333335e-06, "loss": 0.1672, "step": 2800 }, { "epoch": 0.353125, "grad_norm": 6.5196123123168945, "learning_rate": 4.315e-06, "loss": 0.1652, "step": 2825 }, { "epoch": 0.35625, "grad_norm": 5.192087173461914, "learning_rate": 4.294166666666667e-06, "loss": 0.1587, "step": 2850 }, { "epoch": 0.359375, "grad_norm": 4.697035789489746, "learning_rate": 4.273333333333334e-06, "loss": 0.1697, "step": 2875 }, { "epoch": 0.3625, "grad_norm": 4.622238636016846, "learning_rate": 4.2525e-06, "loss": 0.1431, "step": 2900 }, { "epoch": 0.365625, "grad_norm": 2.833672046661377, "learning_rate": 4.231666666666667e-06, "loss": 0.1187, "step": 2925 }, { "epoch": 0.36875, "grad_norm": 2.756924867630005, "learning_rate": 4.210833333333333e-06, "loss": 0.098, "step": 2950 }, { "epoch": 0.371875, "grad_norm": 4.0311598777771, "learning_rate": 4.1900000000000005e-06, "loss": 0.0956, "step": 2975 }, { "epoch": 0.375, "grad_norm": 3.7465600967407227, "learning_rate": 4.169166666666667e-06, "loss": 0.0934, "step": 3000 }, { "epoch": 0.375, "eval_loss": 0.2532876133918762, "eval_runtime": 423.4639, "eval_samples_per_second": 4.969, "eval_steps_per_second": 0.621, "eval_wer": 14.02729737309526, "step": 3000 }, { "epoch": 0.378125, "grad_norm": 3.0190958976745605, "learning_rate": 4.148333333333333e-06, "loss": 0.1074, "step": 3025 }, { "epoch": 0.38125, "grad_norm": 4.197691917419434, "learning_rate": 4.1275e-06, "loss": 0.0952, "step": 3050 }, { "epoch": 0.384375, "grad_norm": 4.304806709289551, "learning_rate": 4.106666666666667e-06, "loss": 0.1005, "step": 3075 }, { "epoch": 0.3875, "grad_norm": 3.895831823348999, "learning_rate": 4.085833333333334e-06, "loss": 0.1027, "step": 3100 }, { "epoch": 0.390625, "grad_norm": 2.959507703781128, "learning_rate": 4.065e-06, "loss": 0.0863, "step": 3125 }, { "epoch": 0.39375, "grad_norm": 2.9817397594451904, "learning_rate": 4.044166666666667e-06, "loss": 0.0773, "step": 3150 }, { "epoch": 0.396875, "grad_norm": 3.26869535446167, "learning_rate": 4.0233333333333335e-06, "loss": 0.0885, "step": 3175 }, { "epoch": 0.4, "grad_norm": 4.37345552444458, "learning_rate": 4.0025e-06, "loss": 0.0899, "step": 3200 }, { "epoch": 0.403125, "grad_norm": 4.3736371994018555, "learning_rate": 3.981666666666667e-06, "loss": 0.11, "step": 3225 }, { "epoch": 0.40625, "grad_norm": 3.9477250576019287, "learning_rate": 3.960833333333334e-06, "loss": 0.1579, "step": 3250 }, { "epoch": 0.409375, "grad_norm": 4.6521315574646, "learning_rate": 3.9399999999999995e-06, "loss": 0.1409, "step": 3275 }, { "epoch": 0.4125, "grad_norm": 3.4862189292907715, "learning_rate": 3.919166666666667e-06, "loss": 0.1368, "step": 3300 }, { "epoch": 0.415625, "grad_norm": 4.412058353424072, "learning_rate": 3.898333333333334e-06, "loss": 0.136, "step": 3325 }, { "epoch": 0.41875, "grad_norm": 5.891563892364502, "learning_rate": 3.8775e-06, "loss": 0.1514, "step": 3350 }, { "epoch": 0.421875, "grad_norm": 4.186588287353516, "learning_rate": 3.8566666666666664e-06, "loss": 0.1574, "step": 3375 }, { "epoch": 0.425, "grad_norm": 3.0448837280273438, "learning_rate": 3.835833333333334e-06, "loss": 0.1198, "step": 3400 }, { "epoch": 0.428125, "grad_norm": 3.597623825073242, "learning_rate": 3.815000000000001e-06, "loss": 0.1079, "step": 3425 }, { "epoch": 0.43125, "grad_norm": 4.119424819946289, "learning_rate": 3.7941666666666666e-06, "loss": 0.1015, "step": 3450 }, { "epoch": 0.434375, "grad_norm": 4.269451141357422, "learning_rate": 3.7733333333333338e-06, "loss": 0.0931, "step": 3475 }, { "epoch": 0.4375, "grad_norm": 3.5041770935058594, "learning_rate": 3.7525000000000005e-06, "loss": 0.1016, "step": 3500 }, { "epoch": 0.4375, "eval_loss": 0.23310637474060059, "eval_runtime": 422.6444, "eval_samples_per_second": 4.978, "eval_steps_per_second": 0.622, "eval_wer": 12.162288492100588, "step": 3500 }, { "epoch": 0.440625, "grad_norm": 3.1294009685516357, "learning_rate": 3.731666666666667e-06, "loss": 0.0875, "step": 3525 }, { "epoch": 0.44375, "grad_norm": 5.66436767578125, "learning_rate": 3.7108333333333335e-06, "loss": 0.0852, "step": 3550 }, { "epoch": 0.446875, "grad_norm": 3.854020833969116, "learning_rate": 3.6900000000000002e-06, "loss": 0.1009, "step": 3575 }, { "epoch": 0.45, "grad_norm": 2.3957531452178955, "learning_rate": 3.6691666666666665e-06, "loss": 0.0884, "step": 3600 }, { "epoch": 0.453125, "grad_norm": 2.6974878311157227, "learning_rate": 3.6483333333333333e-06, "loss": 0.0878, "step": 3625 }, { "epoch": 0.45625, "grad_norm": 2.4071967601776123, "learning_rate": 3.6275000000000004e-06, "loss": 0.0822, "step": 3650 }, { "epoch": 0.459375, "grad_norm": 3.604412078857422, "learning_rate": 3.6066666666666667e-06, "loss": 0.0885, "step": 3675 }, { "epoch": 0.4625, "grad_norm": 3.1856794357299805, "learning_rate": 3.5858333333333334e-06, "loss": 0.0795, "step": 3700 }, { "epoch": 0.465625, "grad_norm": 2.82853102684021, "learning_rate": 3.565e-06, "loss": 0.0839, "step": 3725 }, { "epoch": 0.46875, "grad_norm": 3.0090298652648926, "learning_rate": 3.5441666666666673e-06, "loss": 0.0861, "step": 3750 }, { "epoch": 0.471875, "grad_norm": 4.2935028076171875, "learning_rate": 3.523333333333333e-06, "loss": 0.0902, "step": 3775 }, { "epoch": 0.475, "grad_norm": 2.894404172897339, "learning_rate": 3.5025000000000003e-06, "loss": 0.0897, "step": 3800 }, { "epoch": 0.478125, "grad_norm": 2.974064826965332, "learning_rate": 3.481666666666667e-06, "loss": 0.0846, "step": 3825 }, { "epoch": 0.48125, "grad_norm": 1.8990185260772705, "learning_rate": 3.4608333333333334e-06, "loss": 0.0782, "step": 3850 }, { "epoch": 0.484375, "grad_norm": 3.043663740158081, "learning_rate": 3.44e-06, "loss": 0.0923, "step": 3875 }, { "epoch": 0.4875, "grad_norm": 4.826819896697998, "learning_rate": 3.4191666666666672e-06, "loss": 0.1242, "step": 3900 }, { "epoch": 0.490625, "grad_norm": 4.978621006011963, "learning_rate": 3.398333333333333e-06, "loss": 0.1445, "step": 3925 }, { "epoch": 0.49375, "grad_norm": 4.0232977867126465, "learning_rate": 3.3775000000000003e-06, "loss": 0.1514, "step": 3950 }, { "epoch": 0.496875, "grad_norm": 5.176286220550537, "learning_rate": 3.356666666666667e-06, "loss": 0.1532, "step": 3975 }, { "epoch": 0.5, "grad_norm": 4.363390922546387, "learning_rate": 3.3358333333333333e-06, "loss": 0.1454, "step": 4000 }, { "epoch": 0.5, "eval_loss": 0.22985798120498657, "eval_runtime": 420.4785, "eval_samples_per_second": 5.004, "eval_steps_per_second": 0.625, "eval_wer": 11.55464148826774, "step": 4000 }, { "epoch": 0.503125, "grad_norm": 4.654495716094971, "learning_rate": 3.315e-06, "loss": 0.1331, "step": 4025 }, { "epoch": 0.50625, "grad_norm": 3.879624605178833, "learning_rate": 3.2941666666666667e-06, "loss": 0.1029, "step": 4050 }, { "epoch": 0.509375, "grad_norm": 3.2961080074310303, "learning_rate": 3.273333333333334e-06, "loss": 0.0842, "step": 4075 }, { "epoch": 0.5125, "grad_norm": 2.5998172760009766, "learning_rate": 3.2525e-06, "loss": 0.0846, "step": 4100 }, { "epoch": 0.515625, "grad_norm": 2.965538501739502, "learning_rate": 3.231666666666667e-06, "loss": 0.0858, "step": 4125 }, { "epoch": 0.51875, "grad_norm": 2.8639001846313477, "learning_rate": 3.2108333333333336e-06, "loss": 0.0836, "step": 4150 }, { "epoch": 0.521875, "grad_norm": 3.651369094848633, "learning_rate": 3.19e-06, "loss": 0.0852, "step": 4175 }, { "epoch": 0.525, "grad_norm": 4.119676113128662, "learning_rate": 3.1691666666666667e-06, "loss": 0.0886, "step": 4200 }, { "epoch": 0.528125, "grad_norm": 2.3661563396453857, "learning_rate": 3.148333333333334e-06, "loss": 0.0732, "step": 4225 }, { "epoch": 0.53125, "grad_norm": 4.026716232299805, "learning_rate": 3.1274999999999997e-06, "loss": 0.0739, "step": 4250 }, { "epoch": 0.534375, "grad_norm": 2.2528867721557617, "learning_rate": 3.106666666666667e-06, "loss": 0.0682, "step": 4275 }, { "epoch": 0.5375, "grad_norm": 3.5776236057281494, "learning_rate": 3.0858333333333336e-06, "loss": 0.0729, "step": 4300 }, { "epoch": 0.540625, "grad_norm": 2.0452890396118164, "learning_rate": 3.0650000000000003e-06, "loss": 0.0676, "step": 4325 }, { "epoch": 0.54375, "grad_norm": 3.9987590312957764, "learning_rate": 3.0441666666666666e-06, "loss": 0.081, "step": 4350 }, { "epoch": 0.546875, "grad_norm": 4.795535087585449, "learning_rate": 3.0233333333333338e-06, "loss": 0.126, "step": 4375 }, { "epoch": 0.55, "grad_norm": 4.841895580291748, "learning_rate": 3.0025e-06, "loss": 0.1363, "step": 4400 }, { "epoch": 0.553125, "grad_norm": 6.109241962432861, "learning_rate": 2.9816666666666668e-06, "loss": 0.1325, "step": 4425 }, { "epoch": 0.55625, "grad_norm": 4.623290538787842, "learning_rate": 2.9608333333333335e-06, "loss": 0.123, "step": 4450 }, { "epoch": 0.559375, "grad_norm": 3.5602827072143555, "learning_rate": 2.9400000000000002e-06, "loss": 0.1361, "step": 4475 }, { "epoch": 0.5625, "grad_norm": 4.564285755157471, "learning_rate": 2.919166666666667e-06, "loss": 0.1502, "step": 4500 }, { "epoch": 0.5625, "eval_loss": 0.23331405222415924, "eval_runtime": 420.0095, "eval_samples_per_second": 5.009, "eval_steps_per_second": 0.626, "eval_wer": 12.400673085911938, "step": 4500 }, { "epoch": 0.565625, "grad_norm": 3.0876269340515137, "learning_rate": 2.8983333333333333e-06, "loss": 0.1061, "step": 4525 }, { "epoch": 0.56875, "grad_norm": 2.9698376655578613, "learning_rate": 2.8775e-06, "loss": 0.0809, "step": 4550 }, { "epoch": 0.571875, "grad_norm": 2.491389274597168, "learning_rate": 2.8566666666666667e-06, "loss": 0.0769, "step": 4575 }, { "epoch": 0.575, "grad_norm": 3.7412362098693848, "learning_rate": 2.8358333333333334e-06, "loss": 0.0632, "step": 4600 }, { "epoch": 0.578125, "grad_norm": 3.1096959114074707, "learning_rate": 2.815e-06, "loss": 0.0731, "step": 4625 }, { "epoch": 0.58125, "grad_norm": 3.5074427127838135, "learning_rate": 2.794166666666667e-06, "loss": 0.0724, "step": 4650 }, { "epoch": 0.584375, "grad_norm": 2.3038923740386963, "learning_rate": 2.773333333333333e-06, "loss": 0.0663, "step": 4675 }, { "epoch": 0.5875, "grad_norm": 2.202913522720337, "learning_rate": 2.7525000000000003e-06, "loss": 0.0624, "step": 4700 }, { "epoch": 0.590625, "grad_norm": 3.385122060775757, "learning_rate": 2.7316666666666666e-06, "loss": 0.0764, "step": 4725 }, { "epoch": 0.59375, "grad_norm": 2.382167100906372, "learning_rate": 2.7108333333333338e-06, "loss": 0.0735, "step": 4750 }, { "epoch": 0.596875, "grad_norm": 2.670067071914673, "learning_rate": 2.69e-06, "loss": 0.0769, "step": 4775 }, { "epoch": 0.6, "grad_norm": 2.72542667388916, "learning_rate": 2.669166666666667e-06, "loss": 0.0699, "step": 4800 }, { "epoch": 0.603125, "grad_norm": 3.4631733894348145, "learning_rate": 2.6483333333333335e-06, "loss": 0.0748, "step": 4825 }, { "epoch": 0.60625, "grad_norm": 2.1158626079559326, "learning_rate": 2.6275000000000003e-06, "loss": 0.0775, "step": 4850 }, { "epoch": 0.609375, "grad_norm": 3.326186418533325, "learning_rate": 2.6066666666666666e-06, "loss": 0.0781, "step": 4875 }, { "epoch": 0.6125, "grad_norm": 3.0408577919006348, "learning_rate": 2.5858333333333337e-06, "loss": 0.0712, "step": 4900 }, { "epoch": 0.615625, "grad_norm": 2.389796018600464, "learning_rate": 2.565e-06, "loss": 0.0728, "step": 4925 }, { "epoch": 0.61875, "grad_norm": 2.9459266662597656, "learning_rate": 2.5441666666666667e-06, "loss": 0.0818, "step": 4950 }, { "epoch": 0.621875, "grad_norm": 2.216707706451416, "learning_rate": 2.5233333333333335e-06, "loss": 0.0887, "step": 4975 }, { "epoch": 0.625, "grad_norm": 4.172521114349365, "learning_rate": 2.5025e-06, "loss": 0.0916, "step": 5000 }, { "epoch": 0.625, "eval_loss": 0.22707216441631317, "eval_runtime": 421.6318, "eval_samples_per_second": 4.99, "eval_steps_per_second": 0.624, "eval_wer": 10.965691315322053, "step": 5000 }, { "epoch": 0.628125, "grad_norm": 3.083894968032837, "learning_rate": 2.481666666666667e-06, "loss": 0.1084, "step": 5025 }, { "epoch": 0.63125, "grad_norm": 3.9233384132385254, "learning_rate": 2.460833333333333e-06, "loss": 0.1161, "step": 5050 }, { "epoch": 0.634375, "grad_norm": 4.261771202087402, "learning_rate": 2.4400000000000004e-06, "loss": 0.1032, "step": 5075 }, { "epoch": 0.6375, "grad_norm": 4.277398109436035, "learning_rate": 2.4191666666666667e-06, "loss": 0.1063, "step": 5100 }, { "epoch": 0.640625, "grad_norm": 4.196617126464844, "learning_rate": 2.3983333333333334e-06, "loss": 0.138, "step": 5125 }, { "epoch": 0.64375, "grad_norm": 4.253470420837402, "learning_rate": 2.3775e-06, "loss": 0.1308, "step": 5150 }, { "epoch": 0.646875, "grad_norm": 3.221344470977783, "learning_rate": 2.356666666666667e-06, "loss": 0.1118, "step": 5175 }, { "epoch": 0.65, "grad_norm": 3.630119800567627, "learning_rate": 2.335833333333333e-06, "loss": 0.0882, "step": 5200 }, { "epoch": 0.653125, "grad_norm": 3.146988868713379, "learning_rate": 2.3150000000000003e-06, "loss": 0.08, "step": 5225 }, { "epoch": 0.65625, "grad_norm": 3.6203882694244385, "learning_rate": 2.2941666666666666e-06, "loss": 0.0769, "step": 5250 }, { "epoch": 0.659375, "grad_norm": 2.9987850189208984, "learning_rate": 2.2733333333333337e-06, "loss": 0.0775, "step": 5275 }, { "epoch": 0.6625, "grad_norm": 2.3863637447357178, "learning_rate": 2.2525e-06, "loss": 0.0694, "step": 5300 }, { "epoch": 0.665625, "grad_norm": 2.7977538108825684, "learning_rate": 2.2316666666666668e-06, "loss": 0.0677, "step": 5325 }, { "epoch": 0.66875, "grad_norm": 3.0015907287597656, "learning_rate": 2.2108333333333335e-06, "loss": 0.0737, "step": 5350 }, { "epoch": 0.671875, "grad_norm": 2.2097315788269043, "learning_rate": 2.19e-06, "loss": 0.0671, "step": 5375 }, { "epoch": 0.675, "grad_norm": 1.3963428735733032, "learning_rate": 2.169166666666667e-06, "loss": 0.0665, "step": 5400 }, { "epoch": 0.678125, "grad_norm": 4.170374393463135, "learning_rate": 2.1483333333333337e-06, "loss": 0.0807, "step": 5425 }, { "epoch": 0.68125, "grad_norm": 2.4668662548065186, "learning_rate": 2.1275e-06, "loss": 0.0887, "step": 5450 }, { "epoch": 0.684375, "grad_norm": 3.388085126876831, "learning_rate": 2.1066666666666667e-06, "loss": 0.0773, "step": 5475 }, { "epoch": 0.6875, "grad_norm": 3.437046527862549, "learning_rate": 2.0858333333333334e-06, "loss": 0.0914, "step": 5500 }, { "epoch": 0.6875, "eval_loss": 0.23427686095237732, "eval_runtime": 419.3101, "eval_samples_per_second": 5.018, "eval_steps_per_second": 0.627, "eval_wer": 10.502944750864728, "step": 5500 }, { "epoch": 0.690625, "grad_norm": 4.649775981903076, "learning_rate": 2.065e-06, "loss": 0.1537, "step": 5525 }, { "epoch": 0.69375, "grad_norm": 3.8799123764038086, "learning_rate": 2.044166666666667e-06, "loss": 0.1565, "step": 5550 }, { "epoch": 0.696875, "grad_norm": 4.4588518142700195, "learning_rate": 2.023333333333333e-06, "loss": 0.1427, "step": 5575 }, { "epoch": 0.7, "grad_norm": 3.449648141860962, "learning_rate": 2.0025000000000003e-06, "loss": 0.1312, "step": 5600 }, { "epoch": 0.703125, "grad_norm": 4.717497825622559, "learning_rate": 1.9816666666666666e-06, "loss": 0.1093, "step": 5625 }, { "epoch": 0.70625, "grad_norm": 4.465198040008545, "learning_rate": 1.9608333333333333e-06, "loss": 0.1237, "step": 5650 }, { "epoch": 0.709375, "grad_norm": 4.121485233306885, "learning_rate": 1.94e-06, "loss": 0.1196, "step": 5675 }, { "epoch": 0.7125, "grad_norm": 3.461294651031494, "learning_rate": 1.9191666666666668e-06, "loss": 0.1204, "step": 5700 }, { "epoch": 0.715625, "grad_norm": 5.659304618835449, "learning_rate": 1.8983333333333335e-06, "loss": 0.1229, "step": 5725 }, { "epoch": 0.71875, "grad_norm": 4.469748497009277, "learning_rate": 1.8775e-06, "loss": 0.1253, "step": 5750 }, { "epoch": 0.721875, "grad_norm": 4.66398811340332, "learning_rate": 1.8566666666666665e-06, "loss": 0.1146, "step": 5775 }, { "epoch": 0.725, "grad_norm": 4.326991558074951, "learning_rate": 1.8358333333333335e-06, "loss": 0.1213, "step": 5800 }, { "epoch": 0.728125, "grad_norm": 3.054807662963867, "learning_rate": 1.815e-06, "loss": 0.0985, "step": 5825 }, { "epoch": 0.73125, "grad_norm": 3.3157272338867188, "learning_rate": 1.794166666666667e-06, "loss": 0.0958, "step": 5850 }, { "epoch": 0.734375, "grad_norm": 2.41603422164917, "learning_rate": 1.7733333333333334e-06, "loss": 0.069, "step": 5875 }, { "epoch": 0.7375, "grad_norm": 3.2789347171783447, "learning_rate": 1.7525e-06, "loss": 0.0713, "step": 5900 }, { "epoch": 0.740625, "grad_norm": 3.526294231414795, "learning_rate": 1.7316666666666669e-06, "loss": 0.0713, "step": 5925 }, { "epoch": 0.74375, "grad_norm": 2.1724507808685303, "learning_rate": 1.7108333333333334e-06, "loss": 0.0793, "step": 5950 }, { "epoch": 0.746875, "grad_norm": 3.1178219318389893, "learning_rate": 1.69e-06, "loss": 0.1, "step": 5975 }, { "epoch": 0.75, "grad_norm": 4.3492889404296875, "learning_rate": 1.6691666666666668e-06, "loss": 0.1093, "step": 6000 }, { "epoch": 0.75, "eval_loss": 0.21914222836494446, "eval_runtime": 421.5164, "eval_samples_per_second": 4.992, "eval_steps_per_second": 0.624, "eval_wer": 9.98410769374591, "step": 6000 }, { "epoch": 0.753125, "grad_norm": 4.253927707672119, "learning_rate": 1.6483333333333334e-06, "loss": 0.1182, "step": 6025 }, { "epoch": 0.75625, "grad_norm": 5.901562213897705, "learning_rate": 1.6275000000000003e-06, "loss": 0.1278, "step": 6050 }, { "epoch": 0.759375, "grad_norm": 5.934751510620117, "learning_rate": 1.6066666666666668e-06, "loss": 0.1411, "step": 6075 }, { "epoch": 0.7625, "grad_norm": 5.152722358703613, "learning_rate": 1.5858333333333333e-06, "loss": 0.1496, "step": 6100 }, { "epoch": 0.765625, "grad_norm": 4.460409641265869, "learning_rate": 1.565e-06, "loss": 0.1132, "step": 6125 }, { "epoch": 0.76875, "grad_norm": 2.9203169345855713, "learning_rate": 1.5441666666666668e-06, "loss": 0.0827, "step": 6150 }, { "epoch": 0.771875, "grad_norm": 2.982921600341797, "learning_rate": 1.5233333333333333e-06, "loss": 0.0708, "step": 6175 }, { "epoch": 0.775, "grad_norm": 3.2219862937927246, "learning_rate": 1.5025e-06, "loss": 0.0705, "step": 6200 }, { "epoch": 0.778125, "grad_norm": 2.3243980407714844, "learning_rate": 1.4816666666666667e-06, "loss": 0.0666, "step": 6225 }, { "epoch": 0.78125, "grad_norm": 2.5418896675109863, "learning_rate": 1.4608333333333333e-06, "loss": 0.0692, "step": 6250 }, { "epoch": 0.784375, "grad_norm": 3.7306313514709473, "learning_rate": 1.44e-06, "loss": 0.0772, "step": 6275 }, { "epoch": 0.7875, "grad_norm": 3.970508098602295, "learning_rate": 1.4191666666666667e-06, "loss": 0.0843, "step": 6300 }, { "epoch": 0.790625, "grad_norm": 3.8446128368377686, "learning_rate": 1.3983333333333334e-06, "loss": 0.1233, "step": 6325 }, { "epoch": 0.79375, "grad_norm": 4.295629501342773, "learning_rate": 1.3775000000000002e-06, "loss": 0.139, "step": 6350 }, { "epoch": 0.796875, "grad_norm": 4.724053382873535, "learning_rate": 1.3566666666666667e-06, "loss": 0.1107, "step": 6375 }, { "epoch": 0.8, "grad_norm": 5.828359127044678, "learning_rate": 1.3358333333333334e-06, "loss": 0.1304, "step": 6400 }, { "epoch": 0.803125, "grad_norm": 4.042730331420898, "learning_rate": 1.3150000000000001e-06, "loss": 0.1277, "step": 6425 }, { "epoch": 0.80625, "grad_norm": 3.5273425579071045, "learning_rate": 1.2941666666666668e-06, "loss": 0.126, "step": 6450 }, { "epoch": 0.809375, "grad_norm": 2.901884078979492, "learning_rate": 1.2733333333333334e-06, "loss": 0.0929, "step": 6475 }, { "epoch": 0.8125, "grad_norm": 4.719346523284912, "learning_rate": 1.2525e-06, "loss": 0.0948, "step": 6500 }, { "epoch": 0.8125, "eval_loss": 0.2214665412902832, "eval_runtime": 423.0169, "eval_samples_per_second": 4.974, "eval_steps_per_second": 0.622, "eval_wer": 10.535664204917266, "step": 6500 }, { "epoch": 0.815625, "grad_norm": 4.184325218200684, "learning_rate": 1.2316666666666668e-06, "loss": 0.1045, "step": 6525 }, { "epoch": 0.81875, "grad_norm": 4.737115383148193, "learning_rate": 1.2108333333333335e-06, "loss": 0.112, "step": 6550 }, { "epoch": 0.821875, "grad_norm": 7.072691440582275, "learning_rate": 1.19e-06, "loss": 0.1326, "step": 6575 }, { "epoch": 0.825, "grad_norm": 2.486250162124634, "learning_rate": 1.1691666666666668e-06, "loss": 0.1154, "step": 6600 }, { "epoch": 0.828125, "grad_norm": 4.1657328605651855, "learning_rate": 1.1491666666666667e-06, "loss": 0.1102, "step": 6625 }, { "epoch": 0.83125, "grad_norm": 3.565835475921631, "learning_rate": 1.1283333333333333e-06, "loss": 0.0793, "step": 6650 }, { "epoch": 0.834375, "grad_norm": 2.6341757774353027, "learning_rate": 1.1075e-06, "loss": 0.0698, "step": 6675 }, { "epoch": 0.8375, "grad_norm": 3.431013584136963, "learning_rate": 1.0866666666666667e-06, "loss": 0.0757, "step": 6700 }, { "epoch": 0.840625, "grad_norm": 2.743353843688965, "learning_rate": 1.0658333333333334e-06, "loss": 0.0606, "step": 6725 }, { "epoch": 0.84375, "grad_norm": 2.702622890472412, "learning_rate": 1.045e-06, "loss": 0.0598, "step": 6750 }, { "epoch": 0.846875, "grad_norm": 2.669710636138916, "learning_rate": 1.0241666666666667e-06, "loss": 0.0641, "step": 6775 }, { "epoch": 0.85, "grad_norm": 3.356062173843384, "learning_rate": 1.0033333333333334e-06, "loss": 0.0717, "step": 6800 }, { "epoch": 0.853125, "grad_norm": 3.792300224304199, "learning_rate": 9.825000000000001e-07, "loss": 0.0755, "step": 6825 }, { "epoch": 0.85625, "grad_norm": 2.8524975776672363, "learning_rate": 9.616666666666668e-07, "loss": 0.074, "step": 6850 }, { "epoch": 0.859375, "grad_norm": 2.653484344482422, "learning_rate": 9.408333333333334e-07, "loss": 0.0732, "step": 6875 }, { "epoch": 0.8625, "grad_norm": 2.2992992401123047, "learning_rate": 9.2e-07, "loss": 0.0653, "step": 6900 }, { "epoch": 0.865625, "grad_norm": 2.3256728649139404, "learning_rate": 8.991666666666667e-07, "loss": 0.0612, "step": 6925 }, { "epoch": 0.86875, "grad_norm": 3.0332698822021484, "learning_rate": 8.783333333333334e-07, "loss": 0.0533, "step": 6950 }, { "epoch": 0.871875, "grad_norm": 4.096222877502441, "learning_rate": 8.574999999999999e-07, "loss": 0.0704, "step": 6975 }, { "epoch": 0.875, "grad_norm": 3.0144271850585938, "learning_rate": 8.366666666666667e-07, "loss": 0.0744, "step": 7000 }, { "epoch": 0.875, "eval_loss": 0.21083347499370575, "eval_runtime": 429.259, "eval_samples_per_second": 4.901, "eval_steps_per_second": 0.613, "eval_wer": 11.23679536318594, "step": 7000 }, { "epoch": 0.878125, "grad_norm": 2.6104869842529297, "learning_rate": 8.158333333333334e-07, "loss": 0.0669, "step": 7025 }, { "epoch": 0.88125, "grad_norm": 2.6073827743530273, "learning_rate": 7.950000000000001e-07, "loss": 0.0651, "step": 7050 }, { "epoch": 0.884375, "grad_norm": 2.584033966064453, "learning_rate": 7.741666666666667e-07, "loss": 0.0622, "step": 7075 }, { "epoch": 0.8875, "grad_norm": 2.425426959991455, "learning_rate": 7.533333333333334e-07, "loss": 0.0735, "step": 7100 }, { "epoch": 0.890625, "grad_norm": 3.056304931640625, "learning_rate": 7.325e-07, "loss": 0.0982, "step": 7125 }, { "epoch": 0.89375, "grad_norm": 3.8735291957855225, "learning_rate": 7.116666666666667e-07, "loss": 0.1166, "step": 7150 }, { "epoch": 0.896875, "grad_norm": 4.358260631561279, "learning_rate": 6.908333333333333e-07, "loss": 0.1212, "step": 7175 }, { "epoch": 0.9, "grad_norm": 3.1888036727905273, "learning_rate": 6.7e-07, "loss": 0.1209, "step": 7200 }, { "epoch": 0.903125, "grad_norm": 4.592689514160156, "learning_rate": 6.491666666666667e-07, "loss": 0.1265, "step": 7225 }, { "epoch": 0.90625, "grad_norm": 4.064499378204346, "learning_rate": 6.283333333333334e-07, "loss": 0.1031, "step": 7250 }, { "epoch": 0.909375, "grad_norm": 4.060811996459961, "learning_rate": 6.075e-07, "loss": 0.0694, "step": 7275 }, { "epoch": 0.9125, "grad_norm": 2.3940441608428955, "learning_rate": 5.866666666666667e-07, "loss": 0.0717, "step": 7300 }, { "epoch": 0.915625, "grad_norm": 3.34171199798584, "learning_rate": 5.658333333333334e-07, "loss": 0.0693, "step": 7325 }, { "epoch": 0.91875, "grad_norm": 3.1847307682037354, "learning_rate": 5.450000000000001e-07, "loss": 0.0549, "step": 7350 }, { "epoch": 0.921875, "grad_norm": 2.4034082889556885, "learning_rate": 5.241666666666667e-07, "loss": 0.0679, "step": 7375 }, { "epoch": 0.925, "grad_norm": 2.2434728145599365, "learning_rate": 5.033333333333333e-07, "loss": 0.0677, "step": 7400 }, { "epoch": 0.928125, "grad_norm": 2.655233144760132, "learning_rate": 4.825e-07, "loss": 0.0844, "step": 7425 }, { "epoch": 0.93125, "grad_norm": 3.4723622798919678, "learning_rate": 4.6166666666666666e-07, "loss": 0.0766, "step": 7450 }, { "epoch": 0.934375, "grad_norm": 3.544377326965332, "learning_rate": 4.408333333333334e-07, "loss": 0.0761, "step": 7475 }, { "epoch": 0.9375, "grad_norm": 4.966926097869873, "learning_rate": 4.2e-07, "loss": 0.1269, "step": 7500 }, { "epoch": 0.9375, "eval_loss": 0.21579307317733765, "eval_runtime": 453.0321, "eval_samples_per_second": 4.644, "eval_steps_per_second": 0.581, "eval_wer": 10.002804524633074, "step": 7500 }, { "epoch": 0.940625, "grad_norm": 4.923036098480225, "learning_rate": 3.991666666666667e-07, "loss": 0.1428, "step": 7525 }, { "epoch": 0.94375, "grad_norm": 3.906621217727661, "learning_rate": 3.7833333333333335e-07, "loss": 0.1148, "step": 7550 }, { "epoch": 0.946875, "grad_norm": 3.8426077365875244, "learning_rate": 3.575e-07, "loss": 0.1139, "step": 7575 }, { "epoch": 0.95, "grad_norm": 4.980268955230713, "learning_rate": 3.366666666666667e-07, "loss": 0.1389, "step": 7600 }, { "epoch": 0.953125, "grad_norm": 5.212338447570801, "learning_rate": 3.1583333333333336e-07, "loss": 0.1296, "step": 7625 }, { "epoch": 0.95625, "grad_norm": 4.394927024841309, "learning_rate": 2.95e-07, "loss": 0.1125, "step": 7650 }, { "epoch": 0.959375, "grad_norm": 5.008238792419434, "learning_rate": 2.7416666666666665e-07, "loss": 0.1323, "step": 7675 }, { "epoch": 0.9625, "grad_norm": 6.502245903015137, "learning_rate": 2.533333333333333e-07, "loss": 0.1401, "step": 7700 }, { "epoch": 0.965625, "grad_norm": 5.630526542663574, "learning_rate": 2.325e-07, "loss": 0.1358, "step": 7725 }, { "epoch": 0.96875, "grad_norm": 2.802499532699585, "learning_rate": 2.116666666666667e-07, "loss": 0.1068, "step": 7750 }, { "epoch": 0.971875, "grad_norm": 2.5446484088897705, "learning_rate": 1.9083333333333334e-07, "loss": 0.0862, "step": 7775 }, { "epoch": 0.975, "grad_norm": 5.739973068237305, "learning_rate": 1.7e-07, "loss": 0.0749, "step": 7800 }, { "epoch": 0.978125, "grad_norm": 2.2183213233947754, "learning_rate": 1.4916666666666669e-07, "loss": 0.0694, "step": 7825 }, { "epoch": 0.98125, "grad_norm": 2.4163272380828857, "learning_rate": 1.2833333333333333e-07, "loss": 0.0768, "step": 7850 }, { "epoch": 0.984375, "grad_norm": 3.4462175369262695, "learning_rate": 1.075e-07, "loss": 0.0635, "step": 7875 }, { "epoch": 0.9875, "grad_norm": 2.5306878089904785, "learning_rate": 8.666666666666666e-08, "loss": 0.0679, "step": 7900 }, { "epoch": 0.990625, "grad_norm": 4.3514485359191895, "learning_rate": 6.583333333333333e-08, "loss": 0.1073, "step": 7925 }, { "epoch": 0.99375, "grad_norm": 5.388062953948975, "learning_rate": 4.5e-08, "loss": 0.1159, "step": 7950 }, { "epoch": 0.996875, "grad_norm": 3.7506585121154785, "learning_rate": 2.4166666666666668e-08, "loss": 0.1783, "step": 7975 }, { "epoch": 1.0, "grad_norm": 4.964086532592773, "learning_rate": 3.333333333333334e-09, "loss": 0.1408, "step": 8000 }, { "epoch": 1.0, "eval_loss": 0.21413126587867737, "eval_runtime": 423.6508, "eval_samples_per_second": 4.966, "eval_steps_per_second": 0.621, "eval_wer": 10.129008133121436, "step": 8000 }, { "epoch": 1.0, "step": 8000, "total_flos": 1.3063742816256e+20, "train_loss": 0.1566779458373785, "train_runtime": 20473.0101, "train_samples_per_second": 6.252, "train_steps_per_second": 0.391 } ], "logging_steps": 25, "max_steps": 8000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 1000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.3063742816256e+20, "train_batch_size": 16, "trial_name": null, "trial_params": null }