Training in progress, epoch 2

Browse files

Files changed (5) hide show

model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
trainer_log.jsonl +157 -0

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f17107c64cb34ece715f5bf72399b4ac9b6455544e84a67265ccf9ab71af0fd
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:59f93c26509c5b454dda27fe5d23df2214389092cbe4ce80bafca4004ef2c032
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1610d3c6acf3d51367640b1bb36bf901c89ecf183262fbc2c276b633721f161e
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:3797716d0136cd7ada7607cea5c3db3a0a132dc25f1e76fcbc117cd048dd00d4
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:813b9cdeddf49d07511c612f2d5f0671f5596a8be6558a2e4e2afb634d085b7e
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:b55b519346fb6e34a8049742afb6d37742471dd21db718f4eca7261a9f1293d3
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:450f8cb2054a6c0cfe1f362df8a835824aa34661ce62a61448a234ce08fb8221
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc07798e43cbe66000b19eb49adbd3a755aa8ef65424fd35707de109e70a9ee0
 size 1168138808

trainer_log.jsonl CHANGED Viewed

@@ -157,3 +157,160 @@
 {"current_steps": 1560, "total_steps": 4665, "loss": 0.7137, "learning_rate": 5e-06, "epoch": 1.0032154340836013, "percentage": 33.44, "elapsed_time": "2:48:27", "remaining_time": "5:35:17"}
 {"current_steps": 1570, "total_steps": 4665, "loss": 0.682, "learning_rate": 5e-06, "epoch": 1.0096463022508038, "percentage": 33.65, "elapsed_time": "2:49:29", "remaining_time": "5:34:07"}
 {"current_steps": 1580, "total_steps": 4665, "loss": 0.6971, "learning_rate": 5e-06, "epoch": 1.0160771704180065, "percentage": 33.87, "elapsed_time": "2:50:31", "remaining_time": "5:32:57"}

 {"current_steps": 1560, "total_steps": 4665, "loss": 0.7137, "learning_rate": 5e-06, "epoch": 1.0032154340836013, "percentage": 33.44, "elapsed_time": "2:48:27", "remaining_time": "5:35:17"}
 {"current_steps": 1570, "total_steps": 4665, "loss": 0.682, "learning_rate": 5e-06, "epoch": 1.0096463022508038, "percentage": 33.65, "elapsed_time": "2:49:29", "remaining_time": "5:34:07"}
 {"current_steps": 1580, "total_steps": 4665, "loss": 0.6971, "learning_rate": 5e-06, "epoch": 1.0160771704180065, "percentage": 33.87, "elapsed_time": "2:50:31", "remaining_time": "5:32:57"}
+{"current_steps": 1590, "total_steps": 4665, "loss": 0.687, "learning_rate": 5e-06, "epoch": 1.022508038585209, "percentage": 34.08, "elapsed_time": "2:51:34", "remaining_time": "5:31:48"}
+{"current_steps": 1600, "total_steps": 4665, "loss": 0.6841, "learning_rate": 5e-06, "epoch": 1.0289389067524115, "percentage": 34.3, "elapsed_time": "2:52:36", "remaining_time": "5:30:38"}
+{"current_steps": 1610, "total_steps": 4665, "loss": 0.6922, "learning_rate": 5e-06, "epoch": 1.0353697749196142, "percentage": 34.51, "elapsed_time": "2:53:38", "remaining_time": "5:29:29"}
+{"current_steps": 1620, "total_steps": 4665, "loss": 0.678, "learning_rate": 5e-06, "epoch": 1.0418006430868167, "percentage": 34.73, "elapsed_time": "2:54:40", "remaining_time": "5:28:19"}
+{"current_steps": 1630, "total_steps": 4665, "loss": 0.6735, "learning_rate": 5e-06, "epoch": 1.0482315112540193, "percentage": 34.94, "elapsed_time": "2:55:42", "remaining_time": "5:27:10"}
+{"current_steps": 1640, "total_steps": 4665, "loss": 0.6835, "learning_rate": 5e-06, "epoch": 1.0546623794212218, "percentage": 35.16, "elapsed_time": "2:56:45", "remaining_time": "5:26:01"}
+{"current_steps": 1650, "total_steps": 4665, "loss": 0.6902, "learning_rate": 5e-06, "epoch": 1.0610932475884245, "percentage": 35.37, "elapsed_time": "2:57:47", "remaining_time": "5:24:52"}
+{"current_steps": 1660, "total_steps": 4665, "loss": 0.6814, "learning_rate": 5e-06, "epoch": 1.067524115755627, "percentage": 35.58, "elapsed_time": "2:58:49", "remaining_time": "5:23:43"}
+{"current_steps": 1670, "total_steps": 4665, "loss": 0.6793, "learning_rate": 5e-06, "epoch": 1.0739549839228295, "percentage": 35.8, "elapsed_time": "2:59:51", "remaining_time": "5:22:34"}
+{"current_steps": 1680, "total_steps": 4665, "loss": 0.6853, "learning_rate": 5e-06, "epoch": 1.0803858520900322, "percentage": 36.01, "elapsed_time": "3:00:54", "remaining_time": "5:21:25"}
+{"current_steps": 1690, "total_steps": 4665, "loss": 0.6863, "learning_rate": 5e-06, "epoch": 1.0868167202572347, "percentage": 36.23, "elapsed_time": "3:01:56", "remaining_time": "5:20:16"}
+{"current_steps": 1700, "total_steps": 4665, "loss": 0.68, "learning_rate": 5e-06, "epoch": 1.0932475884244373, "percentage": 36.44, "elapsed_time": "3:02:58", "remaining_time": "5:19:08"}
+{"current_steps": 1710, "total_steps": 4665, "loss": 0.6845, "learning_rate": 5e-06, "epoch": 1.09967845659164, "percentage": 36.66, "elapsed_time": "3:04:00", "remaining_time": "5:17:59"}
+{"current_steps": 1720, "total_steps": 4665, "loss": 0.683, "learning_rate": 5e-06, "epoch": 1.1061093247588425, "percentage": 36.87, "elapsed_time": "3:05:03", "remaining_time": "5:16:50"}
+{"current_steps": 1730, "total_steps": 4665, "loss": 0.6755, "learning_rate": 5e-06, "epoch": 1.112540192926045, "percentage": 37.08, "elapsed_time": "3:06:05", "remaining_time": "5:15:42"}
+{"current_steps": 1740, "total_steps": 4665, "loss": 0.6888, "learning_rate": 5e-06, "epoch": 1.1189710610932475, "percentage": 37.3, "elapsed_time": "3:07:07", "remaining_time": "5:14:34"}
+{"current_steps": 1750, "total_steps": 4665, "loss": 0.6865, "learning_rate": 5e-06, "epoch": 1.1254019292604502, "percentage": 37.51, "elapsed_time": "3:08:09", "remaining_time": "5:13:25"}
+{"current_steps": 1760, "total_steps": 4665, "loss": 0.6833, "learning_rate": 5e-06, "epoch": 1.1318327974276527, "percentage": 37.73, "elapsed_time": "3:09:12", "remaining_time": "5:12:17"}
+{"current_steps": 1770, "total_steps": 4665, "loss": 0.6849, "learning_rate": 5e-06, "epoch": 1.1382636655948553, "percentage": 37.94, "elapsed_time": "3:10:14", "remaining_time": "5:11:09"}
+{"current_steps": 1780, "total_steps": 4665, "loss": 0.6876, "learning_rate": 5e-06, "epoch": 1.144694533762058, "percentage": 38.16, "elapsed_time": "3:11:16", "remaining_time": "5:10:01"}
+{"current_steps": 1790, "total_steps": 4665, "loss": 0.6858, "learning_rate": 5e-06, "epoch": 1.1511254019292605, "percentage": 38.37, "elapsed_time": "3:12:18", "remaining_time": "5:08:53"}
+{"current_steps": 1800, "total_steps": 4665, "loss": 0.6718, "learning_rate": 5e-06, "epoch": 1.157556270096463, "percentage": 38.59, "elapsed_time": "3:13:21", "remaining_time": "5:07:45"}
+{"current_steps": 1810, "total_steps": 4665, "loss": 0.6831, "learning_rate": 5e-06, "epoch": 1.1639871382636655, "percentage": 38.8, "elapsed_time": "3:14:23", "remaining_time": "5:06:37"}
+{"current_steps": 1820, "total_steps": 4665, "loss": 0.6837, "learning_rate": 5e-06, "epoch": 1.1704180064308682, "percentage": 39.01, "elapsed_time": "3:15:25", "remaining_time": "5:05:29"}
+{"current_steps": 1830, "total_steps": 4665, "loss": 0.6782, "learning_rate": 5e-06, "epoch": 1.1768488745980707, "percentage": 39.23, "elapsed_time": "3:16:27", "remaining_time": "5:04:21"}
+{"current_steps": 1840, "total_steps": 4665, "loss": 0.685, "learning_rate": 5e-06, "epoch": 1.1832797427652733, "percentage": 39.44, "elapsed_time": "3:17:30", "remaining_time": "5:03:14"}
+{"current_steps": 1850, "total_steps": 4665, "loss": 0.6878, "learning_rate": 5e-06, "epoch": 1.189710610932476, "percentage": 39.66, "elapsed_time": "3:18:32", "remaining_time": "5:02:06"}
+{"current_steps": 1860, "total_steps": 4665, "loss": 0.677, "learning_rate": 5e-06, "epoch": 1.1961414790996785, "percentage": 39.87, "elapsed_time": "3:19:34", "remaining_time": "5:00:59"}
+{"current_steps": 1870, "total_steps": 4665, "loss": 0.686, "learning_rate": 5e-06, "epoch": 1.202572347266881, "percentage": 40.09, "elapsed_time": "3:20:37", "remaining_time": "4:59:51"}
+{"current_steps": 1880, "total_steps": 4665, "loss": 0.6816, "learning_rate": 5e-06, "epoch": 1.2090032154340835, "percentage": 40.3, "elapsed_time": "3:21:39", "remaining_time": "4:58:44"}
+{"current_steps": 1890, "total_steps": 4665, "loss": 0.6839, "learning_rate": 5e-06, "epoch": 1.2154340836012862, "percentage": 40.51, "elapsed_time": "3:22:41", "remaining_time": "4:57:36"}
+{"current_steps": 1900, "total_steps": 4665, "loss": 0.6913, "learning_rate": 5e-06, "epoch": 1.2218649517684887, "percentage": 40.73, "elapsed_time": "3:23:44", "remaining_time": "4:56:29"}
+{"current_steps": 1910, "total_steps": 4665, "loss": 0.681, "learning_rate": 5e-06, "epoch": 1.2282958199356913, "percentage": 40.94, "elapsed_time": "3:24:46", "remaining_time": "4:55:21"}
+{"current_steps": 1920, "total_steps": 4665, "loss": 0.6819, "learning_rate": 5e-06, "epoch": 1.234726688102894, "percentage": 41.16, "elapsed_time": "3:25:48", "remaining_time": "4:54:14"}
+{"current_steps": 1930, "total_steps": 4665, "loss": 0.6903, "learning_rate": 5e-06, "epoch": 1.2411575562700965, "percentage": 41.37, "elapsed_time": "3:26:50", "remaining_time": "4:53:07"}
+{"current_steps": 1940, "total_steps": 4665, "loss": 0.6872, "learning_rate": 5e-06, "epoch": 1.247588424437299, "percentage": 41.59, "elapsed_time": "3:27:52", "remaining_time": "4:52:00"}
+{"current_steps": 1950, "total_steps": 4665, "loss": 0.6869, "learning_rate": 5e-06, "epoch": 1.2540192926045015, "percentage": 41.8, "elapsed_time": "3:28:55", "remaining_time": "4:50:52"}
+{"current_steps": 1960, "total_steps": 4665, "loss": 0.6853, "learning_rate": 5e-06, "epoch": 1.2604501607717042, "percentage": 42.02, "elapsed_time": "3:29:57", "remaining_time": "4:49:45"}
+{"current_steps": 1970, "total_steps": 4665, "loss": 0.681, "learning_rate": 5e-06, "epoch": 1.2668810289389068, "percentage": 42.23, "elapsed_time": "3:30:59", "remaining_time": "4:48:38"}
+{"current_steps": 1980, "total_steps": 4665, "loss": 0.6815, "learning_rate": 5e-06, "epoch": 1.2733118971061093, "percentage": 42.44, "elapsed_time": "3:32:02", "remaining_time": "4:47:31"}
+{"current_steps": 1990, "total_steps": 4665, "loss": 0.6789, "learning_rate": 5e-06, "epoch": 1.279742765273312, "percentage": 42.66, "elapsed_time": "3:33:04", "remaining_time": "4:46:24"}
+{"current_steps": 2000, "total_steps": 4665, "loss": 0.6858, "learning_rate": 5e-06, "epoch": 1.2861736334405145, "percentage": 42.87, "elapsed_time": "3:34:06", "remaining_time": "4:45:18"}
+{"current_steps": 2010, "total_steps": 4665, "loss": 0.6916, "learning_rate": 5e-06, "epoch": 1.292604501607717, "percentage": 43.09, "elapsed_time": "3:35:08", "remaining_time": "4:44:11"}
+{"current_steps": 2020, "total_steps": 4665, "loss": 0.6832, "learning_rate": 5e-06, "epoch": 1.2990353697749195, "percentage": 43.3, "elapsed_time": "3:36:11", "remaining_time": "4:43:04"}
+{"current_steps": 2030, "total_steps": 4665, "loss": 0.6876, "learning_rate": 5e-06, "epoch": 1.3054662379421222, "percentage": 43.52, "elapsed_time": "3:37:13", "remaining_time": "4:41:57"}
+{"current_steps": 2040, "total_steps": 4665, "loss": 0.6736, "learning_rate": 5e-06, "epoch": 1.3118971061093248, "percentage": 43.73, "elapsed_time": "3:38:15", "remaining_time": "4:40:50"}
+{"current_steps": 2050, "total_steps": 4665, "loss": 0.6866, "learning_rate": 5e-06, "epoch": 1.3183279742765273, "percentage": 43.94, "elapsed_time": "3:39:17", "remaining_time": "4:39:44"}
+{"current_steps": 2060, "total_steps": 4665, "loss": 0.6877, "learning_rate": 5e-06, "epoch": 1.32475884244373, "percentage": 44.16, "elapsed_time": "3:40:20", "remaining_time": "4:38:37"}
+{"current_steps": 2070, "total_steps": 4665, "loss": 0.6898, "learning_rate": 5e-06, "epoch": 1.3311897106109325, "percentage": 44.37, "elapsed_time": "3:41:22", "remaining_time": "4:37:31"}
+{"current_steps": 2080, "total_steps": 4665, "loss": 0.6836, "learning_rate": 5e-06, "epoch": 1.337620578778135, "percentage": 44.59, "elapsed_time": "3:42:24", "remaining_time": "4:36:24"}
+{"current_steps": 2090, "total_steps": 4665, "loss": 0.6825, "learning_rate": 5e-06, "epoch": 1.3440514469453375, "percentage": 44.8, "elapsed_time": "3:43:26", "remaining_time": "4:35:18"}
+{"current_steps": 2100, "total_steps": 4665, "loss": 0.6915, "learning_rate": 5e-06, "epoch": 1.3504823151125402, "percentage": 45.02, "elapsed_time": "3:44:29", "remaining_time": "4:34:11"}
+{"current_steps": 2110, "total_steps": 4665, "loss": 0.6829, "learning_rate": 5e-06, "epoch": 1.3569131832797428, "percentage": 45.23, "elapsed_time": "3:45:31", "remaining_time": "4:33:05"}
+{"current_steps": 2120, "total_steps": 4665, "loss": 0.6865, "learning_rate": 5e-06, "epoch": 1.3633440514469453, "percentage": 45.44, "elapsed_time": "3:46:33", "remaining_time": "4:31:58"}
+{"current_steps": 2130, "total_steps": 4665, "loss": 0.6784, "learning_rate": 5e-06, "epoch": 1.369774919614148, "percentage": 45.66, "elapsed_time": "3:47:35", "remaining_time": "4:30:52"}
+{"current_steps": 2140, "total_steps": 4665, "loss": 0.6815, "learning_rate": 5e-06, "epoch": 1.3762057877813505, "percentage": 45.87, "elapsed_time": "3:48:38", "remaining_time": "4:29:46"}
+{"current_steps": 2150, "total_steps": 4665, "loss": 0.6823, "learning_rate": 5e-06, "epoch": 1.382636655948553, "percentage": 46.09, "elapsed_time": "3:49:40", "remaining_time": "4:28:39"}
+{"current_steps": 2160, "total_steps": 4665, "loss": 0.6788, "learning_rate": 5e-06, "epoch": 1.3890675241157555, "percentage": 46.3, "elapsed_time": "3:50:42", "remaining_time": "4:27:33"}
+{"current_steps": 2170, "total_steps": 4665, "loss": 0.6897, "learning_rate": 5e-06, "epoch": 1.3954983922829582, "percentage": 46.52, "elapsed_time": "3:51:45", "remaining_time": "4:26:27"}
+{"current_steps": 2180, "total_steps": 4665, "loss": 0.6877, "learning_rate": 5e-06, "epoch": 1.4019292604501608, "percentage": 46.73, "elapsed_time": "3:52:47", "remaining_time": "4:25:21"}
+{"current_steps": 2190, "total_steps": 4665, "loss": 0.6782, "learning_rate": 5e-06, "epoch": 1.4083601286173635, "percentage": 46.95, "elapsed_time": "3:53:49", "remaining_time": "4:24:15"}
+{"current_steps": 2200, "total_steps": 4665, "loss": 0.6884, "learning_rate": 5e-06, "epoch": 1.414790996784566, "percentage": 47.16, "elapsed_time": "3:54:52", "remaining_time": "4:23:09"}
+{"current_steps": 2210, "total_steps": 4665, "loss": 0.68, "learning_rate": 5e-06, "epoch": 1.4212218649517685, "percentage": 47.37, "elapsed_time": "3:55:54", "remaining_time": "4:22:03"}
+{"current_steps": 2220, "total_steps": 4665, "loss": 0.684, "learning_rate": 5e-06, "epoch": 1.427652733118971, "percentage": 47.59, "elapsed_time": "3:56:56", "remaining_time": "4:20:57"}
+{"current_steps": 2230, "total_steps": 4665, "loss": 0.6852, "learning_rate": 5e-06, "epoch": 1.4340836012861735, "percentage": 47.8, "elapsed_time": "3:57:58", "remaining_time": "4:19:51"}
+{"current_steps": 2240, "total_steps": 4665, "loss": 0.6796, "learning_rate": 5e-06, "epoch": 1.4405144694533762, "percentage": 48.02, "elapsed_time": "3:59:01", "remaining_time": "4:18:45"}
+{"current_steps": 2250, "total_steps": 4665, "loss": 0.6812, "learning_rate": 5e-06, "epoch": 1.4469453376205788, "percentage": 48.23, "elapsed_time": "4:00:03", "remaining_time": "4:17:39"}
+{"current_steps": 2260, "total_steps": 4665, "loss": 0.6894, "learning_rate": 5e-06, "epoch": 1.4533762057877815, "percentage": 48.45, "elapsed_time": "4:01:05", "remaining_time": "4:16:33"}
+{"current_steps": 2270, "total_steps": 4665, "loss": 0.684, "learning_rate": 5e-06, "epoch": 1.459807073954984, "percentage": 48.66, "elapsed_time": "4:02:08", "remaining_time": "4:15:28"}
+{"current_steps": 2280, "total_steps": 4665, "loss": 0.6823, "learning_rate": 5e-06, "epoch": 1.4662379421221865, "percentage": 48.87, "elapsed_time": "4:03:10", "remaining_time": "4:14:22"}
+{"current_steps": 2290, "total_steps": 4665, "loss": 0.6886, "learning_rate": 5e-06, "epoch": 1.472668810289389, "percentage": 49.09, "elapsed_time": "4:04:12", "remaining_time": "4:13:16"}
+{"current_steps": 2300, "total_steps": 4665, "loss": 0.6849, "learning_rate": 5e-06, "epoch": 1.4790996784565915, "percentage": 49.3, "elapsed_time": "4:05:14", "remaining_time": "4:12:10"}
+{"current_steps": 2310, "total_steps": 4665, "loss": 0.6834, "learning_rate": 5e-06, "epoch": 1.4855305466237942, "percentage": 49.52, "elapsed_time": "4:06:17", "remaining_time": "4:11:04"}
+{"current_steps": 2320, "total_steps": 4665, "loss": 0.6873, "learning_rate": 5e-06, "epoch": 1.4919614147909968, "percentage": 49.73, "elapsed_time": "4:07:19", "remaining_time": "4:09:59"}
+{"current_steps": 2330, "total_steps": 4665, "loss": 0.682, "learning_rate": 5e-06, "epoch": 1.4983922829581995, "percentage": 49.95, "elapsed_time": "4:08:21", "remaining_time": "4:08:53"}
+{"current_steps": 2340, "total_steps": 4665, "loss": 0.6892, "learning_rate": 5e-06, "epoch": 1.504823151125402, "percentage": 50.16, "elapsed_time": "4:09:24", "remaining_time": "4:07:48"}
+{"current_steps": 2350, "total_steps": 4665, "loss": 0.6884, "learning_rate": 5e-06, "epoch": 1.5112540192926045, "percentage": 50.38, "elapsed_time": "4:10:26", "remaining_time": "4:06:42"}
+{"current_steps": 2360, "total_steps": 4665, "loss": 0.6876, "learning_rate": 5e-06, "epoch": 1.517684887459807, "percentage": 50.59, "elapsed_time": "4:11:28", "remaining_time": "4:05:36"}
+{"current_steps": 2370, "total_steps": 4665, "loss": 0.6828, "learning_rate": 5e-06, "epoch": 1.5241157556270095, "percentage": 50.8, "elapsed_time": "4:12:30", "remaining_time": "4:04:31"}
+{"current_steps": 2380, "total_steps": 4665, "loss": 0.6871, "learning_rate": 5e-06, "epoch": 1.5305466237942122, "percentage": 51.02, "elapsed_time": "4:13:33", "remaining_time": "4:03:25"}
+{"current_steps": 2390, "total_steps": 4665, "loss": 0.6819, "learning_rate": 5e-06, "epoch": 1.5369774919614148, "percentage": 51.23, "elapsed_time": "4:14:35", "remaining_time": "4:02:20"}
+{"current_steps": 2400, "total_steps": 4665, "loss": 0.6838, "learning_rate": 5e-06, "epoch": 1.5434083601286175, "percentage": 51.45, "elapsed_time": "4:15:37", "remaining_time": "4:01:14"}
+{"current_steps": 2410, "total_steps": 4665, "loss": 0.6815, "learning_rate": 5e-06, "epoch": 1.54983922829582, "percentage": 51.66, "elapsed_time": "4:16:39", "remaining_time": "4:00:09"}
+{"current_steps": 2420, "total_steps": 4665, "loss": 0.6911, "learning_rate": 5e-06, "epoch": 1.5562700964630225, "percentage": 51.88, "elapsed_time": "4:17:42", "remaining_time": "3:59:04"}
+{"current_steps": 2430, "total_steps": 4665, "loss": 0.6834, "learning_rate": 5e-06, "epoch": 1.562700964630225, "percentage": 52.09, "elapsed_time": "4:18:44", "remaining_time": "3:57:58"}
+{"current_steps": 2440, "total_steps": 4665, "loss": 0.6833, "learning_rate": 5e-06, "epoch": 1.5691318327974275, "percentage": 52.3, "elapsed_time": "4:19:46", "remaining_time": "3:56:53"}
+{"current_steps": 2450, "total_steps": 4665, "loss": 0.6864, "learning_rate": 5e-06, "epoch": 1.5755627009646302, "percentage": 52.52, "elapsed_time": "4:20:49", "remaining_time": "3:55:48"}
+{"current_steps": 2460, "total_steps": 4665, "loss": 0.6768, "learning_rate": 5e-06, "epoch": 1.5819935691318328, "percentage": 52.73, "elapsed_time": "4:21:51", "remaining_time": "3:54:42"}
+{"current_steps": 2470, "total_steps": 4665, "loss": 0.6743, "learning_rate": 5e-06, "epoch": 1.5884244372990355, "percentage": 52.95, "elapsed_time": "4:22:53", "remaining_time": "3:53:37"}
+{"current_steps": 2480, "total_steps": 4665, "loss": 0.6802, "learning_rate": 5e-06, "epoch": 1.594855305466238, "percentage": 53.16, "elapsed_time": "4:23:55", "remaining_time": "3:52:32"}
+{"current_steps": 2490, "total_steps": 4665, "loss": 0.6857, "learning_rate": 5e-06, "epoch": 1.6012861736334405, "percentage": 53.38, "elapsed_time": "4:24:58", "remaining_time": "3:51:26"}
+{"current_steps": 2500, "total_steps": 4665, "loss": 0.684, "learning_rate": 5e-06, "epoch": 1.607717041800643, "percentage": 53.59, "elapsed_time": "4:26:00", "remaining_time": "3:50:21"}
+{"current_steps": 2510, "total_steps": 4665, "loss": 0.6872, "learning_rate": 5e-06, "epoch": 1.6141479099678455, "percentage": 53.8, "elapsed_time": "4:27:02", "remaining_time": "3:49:16"}
+{"current_steps": 2520, "total_steps": 4665, "loss": 0.6808, "learning_rate": 5e-06, "epoch": 1.6205787781350482, "percentage": 54.02, "elapsed_time": "4:28:04", "remaining_time": "3:48:11"}
+{"current_steps": 2530, "total_steps": 4665, "loss": 0.6841, "learning_rate": 5e-06, "epoch": 1.6270096463022508, "percentage": 54.23, "elapsed_time": "4:29:07", "remaining_time": "3:47:06"}
+{"current_steps": 2540, "total_steps": 4665, "loss": 0.6846, "learning_rate": 5e-06, "epoch": 1.6334405144694535, "percentage": 54.45, "elapsed_time": "4:30:09", "remaining_time": "3:46:01"}
+{"current_steps": 2550, "total_steps": 4665, "loss": 0.6858, "learning_rate": 5e-06, "epoch": 1.639871382636656, "percentage": 54.66, "elapsed_time": "4:31:11", "remaining_time": "3:44:55"}
+{"current_steps": 2560, "total_steps": 4665, "loss": 0.6758, "learning_rate": 5e-06, "epoch": 1.6463022508038585, "percentage": 54.88, "elapsed_time": "4:32:13", "remaining_time": "3:43:50"}
+{"current_steps": 2570, "total_steps": 4665, "loss": 0.6861, "learning_rate": 5e-06, "epoch": 1.652733118971061, "percentage": 55.09, "elapsed_time": "4:33:16", "remaining_time": "3:42:45"}
+{"current_steps": 2580, "total_steps": 4665, "loss": 0.6745, "learning_rate": 5e-06, "epoch": 1.6591639871382635, "percentage": 55.31, "elapsed_time": "4:34:18", "remaining_time": "3:41:40"}
+{"current_steps": 2590, "total_steps": 4665, "loss": 0.6862, "learning_rate": 5e-06, "epoch": 1.6655948553054662, "percentage": 55.52, "elapsed_time": "4:35:20", "remaining_time": "3:40:35"}
+{"current_steps": 2600, "total_steps": 4665, "loss": 0.676, "learning_rate": 5e-06, "epoch": 1.6720257234726688, "percentage": 55.73, "elapsed_time": "4:36:23", "remaining_time": "3:39:30"}
+{"current_steps": 2610, "total_steps": 4665, "loss": 0.6802, "learning_rate": 5e-06, "epoch": 1.6784565916398715, "percentage": 55.95, "elapsed_time": "4:37:25", "remaining_time": "3:38:25"}
+{"current_steps": 2620, "total_steps": 4665, "loss": 0.684, "learning_rate": 5e-06, "epoch": 1.684887459807074, "percentage": 56.16, "elapsed_time": "4:38:27", "remaining_time": "3:37:20"}
+{"current_steps": 2630, "total_steps": 4665, "loss": 0.68, "learning_rate": 5e-06, "epoch": 1.6913183279742765, "percentage": 56.38, "elapsed_time": "4:39:29", "remaining_time": "3:36:15"}
+{"current_steps": 2640, "total_steps": 4665, "loss": 0.6879, "learning_rate": 5e-06, "epoch": 1.697749196141479, "percentage": 56.59, "elapsed_time": "4:40:32", "remaining_time": "3:35:10"}
+{"current_steps": 2650, "total_steps": 4665, "loss": 0.6861, "learning_rate": 5e-06, "epoch": 1.7041800643086815, "percentage": 56.81, "elapsed_time": "4:41:34", "remaining_time": "3:34:06"}
+{"current_steps": 2660, "total_steps": 4665, "loss": 0.6811, "learning_rate": 5e-06, "epoch": 1.7106109324758842, "percentage": 57.02, "elapsed_time": "4:42:36", "remaining_time": "3:33:01"}
+{"current_steps": 2670, "total_steps": 4665, "loss": 0.676, "learning_rate": 5e-06, "epoch": 1.717041800643087, "percentage": 57.23, "elapsed_time": "4:43:38", "remaining_time": "3:31:56"}
+{"current_steps": 2680, "total_steps": 4665, "loss": 0.6868, "learning_rate": 5e-06, "epoch": 1.7234726688102895, "percentage": 57.45, "elapsed_time": "4:44:41", "remaining_time": "3:30:51"}
+{"current_steps": 2690, "total_steps": 4665, "loss": 0.6818, "learning_rate": 5e-06, "epoch": 1.729903536977492, "percentage": 57.66, "elapsed_time": "4:45:43", "remaining_time": "3:29:46"}
+{"current_steps": 2700, "total_steps": 4665, "loss": 0.6767, "learning_rate": 5e-06, "epoch": 1.7363344051446945, "percentage": 57.88, "elapsed_time": "4:46:45", "remaining_time": "3:28:41"}
+{"current_steps": 2710, "total_steps": 4665, "loss": 0.6783, "learning_rate": 5e-06, "epoch": 1.742765273311897, "percentage": 58.09, "elapsed_time": "4:47:47", "remaining_time": "3:27:37"}
+{"current_steps": 2720, "total_steps": 4665, "loss": 0.6824, "learning_rate": 5e-06, "epoch": 1.7491961414790995, "percentage": 58.31, "elapsed_time": "4:48:50", "remaining_time": "3:26:32"}
+{"current_steps": 2730, "total_steps": 4665, "loss": 0.6769, "learning_rate": 5e-06, "epoch": 1.7556270096463023, "percentage": 58.52, "elapsed_time": "4:49:52", "remaining_time": "3:25:27"}
+{"current_steps": 2740, "total_steps": 4665, "loss": 0.6893, "learning_rate": 5e-06, "epoch": 1.762057877813505, "percentage": 58.74, "elapsed_time": "4:50:54", "remaining_time": "3:24:22"}
+{"current_steps": 2750, "total_steps": 4665, "loss": 0.6877, "learning_rate": 5e-06, "epoch": 1.7684887459807075, "percentage": 58.95, "elapsed_time": "4:51:56", "remaining_time": "3:23:18"}
+{"current_steps": 2760, "total_steps": 4665, "loss": 0.6788, "learning_rate": 5e-06, "epoch": 1.77491961414791, "percentage": 59.16, "elapsed_time": "4:52:59", "remaining_time": "3:22:13"}
+{"current_steps": 2770, "total_steps": 4665, "loss": 0.6831, "learning_rate": 5e-06, "epoch": 1.7813504823151125, "percentage": 59.38, "elapsed_time": "4:54:01", "remaining_time": "3:21:08"}
+{"current_steps": 2780, "total_steps": 4665, "loss": 0.6878, "learning_rate": 5e-06, "epoch": 1.787781350482315, "percentage": 59.59, "elapsed_time": "4:55:03", "remaining_time": "3:20:04"}
+{"current_steps": 2790, "total_steps": 4665, "loss": 0.6912, "learning_rate": 5e-06, "epoch": 1.7942122186495175, "percentage": 59.81, "elapsed_time": "4:56:06", "remaining_time": "3:18:59"}
+{"current_steps": 2800, "total_steps": 4665, "loss": 0.6852, "learning_rate": 5e-06, "epoch": 1.8006430868167203, "percentage": 60.02, "elapsed_time": "4:57:08", "remaining_time": "3:17:54"}
+{"current_steps": 2810, "total_steps": 4665, "loss": 0.6842, "learning_rate": 5e-06, "epoch": 1.807073954983923, "percentage": 60.24, "elapsed_time": "4:58:10", "remaining_time": "3:16:50"}
+{"current_steps": 2820, "total_steps": 4665, "loss": 0.6777, "learning_rate": 5e-06, "epoch": 1.8135048231511255, "percentage": 60.45, "elapsed_time": "4:59:12", "remaining_time": "3:15:45"}
+{"current_steps": 2830, "total_steps": 4665, "loss": 0.679, "learning_rate": 5e-06, "epoch": 1.819935691318328, "percentage": 60.66, "elapsed_time": "5:00:15", "remaining_time": "3:14:41"}
+{"current_steps": 2840, "total_steps": 4665, "loss": 0.6872, "learning_rate": 5e-06, "epoch": 1.8263665594855305, "percentage": 60.88, "elapsed_time": "5:01:17", "remaining_time": "3:13:36"}
+{"current_steps": 2850, "total_steps": 4665, "loss": 0.6847, "learning_rate": 5e-06, "epoch": 1.832797427652733, "percentage": 61.09, "elapsed_time": "5:02:19", "remaining_time": "3:12:32"}
+{"current_steps": 2860, "total_steps": 4665, "loss": 0.6777, "learning_rate": 5e-06, "epoch": 1.8392282958199357, "percentage": 61.31, "elapsed_time": "5:03:21", "remaining_time": "3:11:27"}
+{"current_steps": 2870, "total_steps": 4665, "loss": 0.6781, "learning_rate": 5e-06, "epoch": 1.8456591639871383, "percentage": 61.52, "elapsed_time": "5:04:24", "remaining_time": "3:10:23"}
+{"current_steps": 2880, "total_steps": 4665, "loss": 0.6844, "learning_rate": 5e-06, "epoch": 1.852090032154341, "percentage": 61.74, "elapsed_time": "5:05:26", "remaining_time": "3:09:18"}
+{"current_steps": 2890, "total_steps": 4665, "loss": 0.6858, "learning_rate": 5e-06, "epoch": 1.8585209003215435, "percentage": 61.95, "elapsed_time": "5:06:28", "remaining_time": "3:08:14"}
+{"current_steps": 2900, "total_steps": 4665, "loss": 0.6808, "learning_rate": 5e-06, "epoch": 1.864951768488746, "percentage": 62.17, "elapsed_time": "5:07:30", "remaining_time": "3:07:09"}
+{"current_steps": 2910, "total_steps": 4665, "loss": 0.6798, "learning_rate": 5e-06, "epoch": 1.8713826366559485, "percentage": 62.38, "elapsed_time": "5:08:33", "remaining_time": "3:06:05"}
+{"current_steps": 2920, "total_steps": 4665, "loss": 0.6862, "learning_rate": 5e-06, "epoch": 1.877813504823151, "percentage": 62.59, "elapsed_time": "5:09:35", "remaining_time": "3:05:00"}
+{"current_steps": 2930, "total_steps": 4665, "loss": 0.6843, "learning_rate": 5e-06, "epoch": 1.8842443729903537, "percentage": 62.81, "elapsed_time": "5:10:37", "remaining_time": "3:03:56"}
+{"current_steps": 2940, "total_steps": 4665, "loss": 0.6781, "learning_rate": 5e-06, "epoch": 1.8906752411575563, "percentage": 63.02, "elapsed_time": "5:11:39", "remaining_time": "3:02:51"}
+{"current_steps": 2950, "total_steps": 4665, "loss": 0.6843, "learning_rate": 5e-06, "epoch": 1.897106109324759, "percentage": 63.24, "elapsed_time": "5:12:42", "remaining_time": "3:01:47"}
+{"current_steps": 2960, "total_steps": 4665, "loss": 0.6838, "learning_rate": 5e-06, "epoch": 1.9035369774919615, "percentage": 63.45, "elapsed_time": "5:13:44", "remaining_time": "3:00:43"}
+{"current_steps": 2970, "total_steps": 4665, "loss": 0.6771, "learning_rate": 5e-06, "epoch": 1.909967845659164, "percentage": 63.67, "elapsed_time": "5:14:46", "remaining_time": "2:59:38"}
+{"current_steps": 2980, "total_steps": 4665, "loss": 0.6812, "learning_rate": 5e-06, "epoch": 1.9163987138263665, "percentage": 63.88, "elapsed_time": "5:15:48", "remaining_time": "2:58:34"}
+{"current_steps": 2990, "total_steps": 4665, "loss": 0.6723, "learning_rate": 5e-06, "epoch": 1.922829581993569, "percentage": 64.09, "elapsed_time": "5:16:51", "remaining_time": "2:57:30"}
+{"current_steps": 3000, "total_steps": 4665, "loss": 0.6811, "learning_rate": 5e-06, "epoch": 1.9292604501607717, "percentage": 64.31, "elapsed_time": "5:17:53", "remaining_time": "2:56:25"}
+{"current_steps": 3010, "total_steps": 4665, "loss": 0.6801, "learning_rate": 5e-06, "epoch": 1.9356913183279743, "percentage": 64.52, "elapsed_time": "5:18:55", "remaining_time": "2:55:21"}
+{"current_steps": 3020, "total_steps": 4665, "loss": 0.6718, "learning_rate": 5e-06, "epoch": 1.942122186495177, "percentage": 64.74, "elapsed_time": "5:19:58", "remaining_time": "2:54:17"}
+{"current_steps": 3030, "total_steps": 4665, "loss": 0.6736, "learning_rate": 5e-06, "epoch": 1.9485530546623795, "percentage": 64.95, "elapsed_time": "5:21:00", "remaining_time": "2:53:12"}
+{"current_steps": 3040, "total_steps": 4665, "loss": 0.6818, "learning_rate": 5e-06, "epoch": 1.954983922829582, "percentage": 65.17, "elapsed_time": "5:22:02", "remaining_time": "2:52:08"}
+{"current_steps": 3050, "total_steps": 4665, "loss": 0.6787, "learning_rate": 5e-06, "epoch": 1.9614147909967845, "percentage": 65.38, "elapsed_time": "5:23:04", "remaining_time": "2:51:04"}
+{"current_steps": 3060, "total_steps": 4665, "loss": 0.6752, "learning_rate": 5e-06, "epoch": 1.967845659163987, "percentage": 65.59, "elapsed_time": "5:24:06", "remaining_time": "2:50:00"}
+{"current_steps": 3070, "total_steps": 4665, "loss": 0.6835, "learning_rate": 5e-06, "epoch": 1.9742765273311897, "percentage": 65.81, "elapsed_time": "5:25:09", "remaining_time": "2:48:55"}
+{"current_steps": 3080, "total_steps": 4665, "loss": 0.6803, "learning_rate": 5e-06, "epoch": 1.9807073954983923, "percentage": 66.02, "elapsed_time": "5:26:11", "remaining_time": "2:47:51"}
+{"current_steps": 3090, "total_steps": 4665, "loss": 0.6729, "learning_rate": 5e-06, "epoch": 1.987138263665595, "percentage": 66.24, "elapsed_time": "5:27:13", "remaining_time": "2:46:47"}
+{"current_steps": 3100, "total_steps": 4665, "loss": 0.6722, "learning_rate": 5e-06, "epoch": 1.9935691318327975, "percentage": 66.45, "elapsed_time": "5:28:16", "remaining_time": "2:45:43"}
+{"current_steps": 3110, "total_steps": 4665, "loss": 0.686, "learning_rate": 5e-06, "epoch": 2.0, "percentage": 66.67, "elapsed_time": "5:29:17", "remaining_time": "2:44:38"}
+{"current_steps": 3110, "total_steps": 4665, "eval_loss": 0.7126035690307617, "epoch": 2.0, "percentage": 66.67, "elapsed_time": "5:31:37", "remaining_time": "2:45:48"}
+{"current_steps": 3120, "total_steps": 4665, "loss": 0.6404, "learning_rate": 5e-06, "epoch": 2.0064308681672025, "percentage": 66.88, "elapsed_time": "5:36:34", "remaining_time": "2:46:40"}
+{"current_steps": 3130, "total_steps": 4665, "loss": 0.64, "learning_rate": 5e-06, "epoch": 2.012861736334405, "percentage": 67.1, "elapsed_time": "5:37:36", "remaining_time": "2:45:34"}
+{"current_steps": 3140, "total_steps": 4665, "loss": 0.6359, "learning_rate": 5e-06, "epoch": 2.0192926045016075, "percentage": 67.31, "elapsed_time": "5:38:39", "remaining_time": "2:44:28"}