Training in progress, epoch 1
Browse files
log.txt
CHANGED
@@ -1,314 +1,11 @@
|
|
1 |
-
{'loss': 1.
|
2 |
-
{'loss': 1.
|
3 |
-
{'loss': 1.
|
4 |
-
{'loss': 1.
|
5 |
-
{'loss': 1.
|
6 |
-
|
7 |
-
{'
|
8 |
-
{'loss': 1.
|
9 |
-
{'loss': 1.
|
10 |
-
{'loss': 1.
|
11 |
-
{'loss': 1.
|
12 |
-
{'loss': 1.1337, 'grad_norm': 3.808668851852417, 'learning_rate': 4.824991249562478e-05, 'epoch': 1.75}
|
13 |
-
{'loss': 1.1199, 'grad_norm': 4.093677520751953, 'learning_rate': 4.807490374518726e-05, 'epoch': 1.93}
|
14 |
-
[3 0 3 ... 0 0 0] [0 0 2 ... 0 1 0]
|
15 |
-
{'eval_loss': 1.3871146440505981, 'eval_accuracy': 0.36146306478603873, 'eval_runtime': 5.168, 'eval_samples_per_second': 809.403, 'eval_steps_per_second': 12.771, 'epoch': 2.0}
|
16 |
-
{'loss': 0.9912, 'grad_norm': 7.0247344970703125, 'learning_rate': 4.7899894994749736e-05, 'epoch': 2.1}
|
17 |
-
{'loss': 0.9039, 'grad_norm': 5.99714469909668, 'learning_rate': 4.7724886244312216e-05, 'epoch': 2.28}
|
18 |
-
{'loss': 0.906, 'grad_norm': 8.772993087768555, 'learning_rate': 4.75498774938747e-05, 'epoch': 2.45}
|
19 |
-
{'loss': 0.8987, 'grad_norm': 7.529561519622803, 'learning_rate': 4.737486874343717e-05, 'epoch': 2.63}
|
20 |
-
{'loss': 0.8948, 'grad_norm': 7.655035018920898, 'learning_rate': 4.719985999299965e-05, 'epoch': 2.8}
|
21 |
-
{'loss': 0.8947, 'grad_norm': 7.14945125579834, 'learning_rate': 4.702485124256213e-05, 'epoch': 2.98}
|
22 |
-
[3 3 3 ... 2 1 0] [0 0 2 ... 0 1 0]
|
23 |
-
{'eval_loss': 1.4768593311309814, 'eval_accuracy': 0.3853693521396127, 'eval_runtime': 5.0272, 'eval_samples_per_second': 832.08, 'eval_steps_per_second': 13.129, 'epoch': 3.0}
|
24 |
-
{'loss': 0.6962, 'grad_norm': 9.295475006103516, 'learning_rate': 4.6849842492124606e-05, 'epoch': 3.15}
|
25 |
-
{'loss': 0.6763, 'grad_norm': 10.301146507263184, 'learning_rate': 4.6674833741687086e-05, 'epoch': 3.33}
|
26 |
-
{'loss': 0.6865, 'grad_norm': 7.7962565422058105, 'learning_rate': 4.649982499124956e-05, 'epoch': 3.5}
|
27 |
-
{'loss': 0.6819, 'grad_norm': 7.269796848297119, 'learning_rate': 4.632481624081204e-05, 'epoch': 3.68}
|
28 |
-
{'loss': 0.696, 'grad_norm': 8.324944496154785, 'learning_rate': 4.614980749037452e-05, 'epoch': 3.85}
|
29 |
-
[3 3 2 ... 0 1 0] [0 0 2 ... 0 1 0]
|
30 |
-
{'eval_loss': 1.6681735515594482, 'eval_accuracy': 0.396127181448721, 'eval_runtime': 5.0295, 'eval_samples_per_second': 831.699, 'eval_steps_per_second': 13.123, 'epoch': 4.0}
|
31 |
-
{'loss': 0.667, 'grad_norm': 10.500767707824707, 'learning_rate': 4.5974798739936995e-05, 'epoch': 4.03}
|
32 |
-
{'loss': 0.4947, 'grad_norm': 10.41182804107666, 'learning_rate': 4.5799789989499476e-05, 'epoch': 4.2}
|
33 |
-
{'loss': 0.5094, 'grad_norm': 10.82896614074707, 'learning_rate': 4.5624781239061956e-05, 'epoch': 4.38}
|
34 |
-
{'loss': 0.5182, 'grad_norm': 7.591678619384766, 'learning_rate': 4.544977248862443e-05, 'epoch': 4.55}
|
35 |
-
{'loss': 0.5407, 'grad_norm': 7.200017929077148, 'learning_rate': 4.527476373818691e-05, 'epoch': 4.73}
|
36 |
-
{'loss': 0.5363, 'grad_norm': 9.024789810180664, 'learning_rate': 4.5099754987749384e-05, 'epoch': 4.9}
|
37 |
-
[1 3 3 ... 2 1 0] [0 0 2 ... 0 1 0]
|
38 |
-
{'eval_loss': 1.9205493927001953, 'eval_accuracy': 0.3891943581161846, 'eval_runtime': 5.2354, 'eval_samples_per_second': 798.976, 'eval_steps_per_second': 12.606, 'epoch': 5.0}
|
39 |
-
{'loss': 0.4685, 'grad_norm': 7.957944393157959, 'learning_rate': 4.4924746237311865e-05, 'epoch': 5.08}
|
40 |
-
{'loss': 0.3755, 'grad_norm': 8.208980560302734, 'learning_rate': 4.4749737486874346e-05, 'epoch': 5.25}
|
41 |
-
{'loss': 0.3929, 'grad_norm': 10.96563720703125, 'learning_rate': 4.457472873643682e-05, 'epoch': 5.43}
|
42 |
-
{'loss': 0.4053, 'grad_norm': 12.499752044677734, 'learning_rate': 4.43997199859993e-05, 'epoch': 5.6}
|
43 |
-
{'loss': 0.4152, 'grad_norm': 9.879837989807129, 'learning_rate': 4.422471123556178e-05, 'epoch': 5.78}
|
44 |
-
{'loss': 0.4206, 'grad_norm': 8.698701858520508, 'learning_rate': 4.4049702485124255e-05, 'epoch': 5.95}
|
45 |
-
[3 3 3 ... 3 1 0] [0 0 2 ... 0 1 0]
|
46 |
-
{'eval_loss': 2.0211398601531982, 'eval_accuracy': 0.3923021754721492, 'eval_runtime': 4.8116, 'eval_samples_per_second': 869.359, 'eval_steps_per_second': 13.717, 'epoch': 6.0}
|
47 |
-
{'loss': 0.3254, 'grad_norm': 8.286091804504395, 'learning_rate': 4.3874693734686735e-05, 'epoch': 6.13}
|
48 |
-
{'loss': 0.2994, 'grad_norm': 11.987117767333984, 'learning_rate': 4.3699684984249216e-05, 'epoch': 6.3}
|
49 |
-
{'loss': 0.317, 'grad_norm': 12.051315307617188, 'learning_rate': 4.3524676233811696e-05, 'epoch': 6.48}
|
50 |
-
{'loss': 0.323, 'grad_norm': 10.532122611999512, 'learning_rate': 4.334966748337417e-05, 'epoch': 6.65}
|
51 |
-
{'loss': 0.3356, 'grad_norm': 10.152750015258789, 'learning_rate': 4.317465873293665e-05, 'epoch': 6.83}
|
52 |
-
[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
|
53 |
-
{'eval_loss': 2.379138946533203, 'eval_accuracy': 0.39803968443700694, 'eval_runtime': 5.2366, 'eval_samples_per_second': 798.799, 'eval_steps_per_second': 12.604, 'epoch': 7.0}
|
54 |
-
{'loss': 0.3413, 'grad_norm': 5.218087196350098, 'learning_rate': 4.299964998249913e-05, 'epoch': 7.0}
|
55 |
-
{'loss': 0.2253, 'grad_norm': 13.4560546875, 'learning_rate': 4.2824641232061605e-05, 'epoch': 7.18}
|
56 |
-
{'loss': 0.2508, 'grad_norm': 8.933915138244629, 'learning_rate': 4.2649632481624086e-05, 'epoch': 7.35}
|
57 |
-
{'loss': 0.2584, 'grad_norm': 9.784185409545898, 'learning_rate': 4.2474623731186566e-05, 'epoch': 7.53}
|
58 |
-
{'loss': 0.2605, 'grad_norm': 8.28528118133545, 'learning_rate': 4.229961498074904e-05, 'epoch': 7.7}
|
59 |
-
{'loss': 0.2744, 'grad_norm': 7.679172515869141, 'learning_rate': 4.212460623031152e-05, 'epoch': 7.88}
|
60 |
-
[3 0 3 ... 2 1 0] [0 0 2 ... 0 1 0]
|
61 |
-
{'eval_loss': 2.4870290756225586, 'eval_accuracy': 0.4044943820224719, 'eval_runtime': 4.9619, 'eval_samples_per_second': 843.029, 'eval_steps_per_second': 13.301, 'epoch': 8.0}
|
62 |
-
{'loss': 0.2535, 'grad_norm': 9.526900291442871, 'learning_rate': 4.1949597479873995e-05, 'epoch': 8.05}
|
63 |
-
{'loss': 0.2008, 'grad_norm': 9.026641845703125, 'learning_rate': 4.1774588729436475e-05, 'epoch': 8.23}
|
64 |
-
{'loss': 0.2046, 'grad_norm': 11.880026817321777, 'learning_rate': 4.1599579978998956e-05, 'epoch': 8.4}
|
65 |
-
{'loss': 0.2181, 'grad_norm': 8.357426643371582, 'learning_rate': 4.142457122856143e-05, 'epoch': 8.58}
|
66 |
-
{'loss': 0.2219, 'grad_norm': 11.225452423095703, 'learning_rate': 4.124956247812391e-05, 'epoch': 8.75}
|
67 |
-
{'loss': 0.2318, 'grad_norm': 12.459203720092773, 'learning_rate': 4.107455372768639e-05, 'epoch': 8.93}
|
68 |
-
[3 1 1 ... 0 1 0] [0 0 2 ... 0 1 0]
|
69 |
-
{'eval_loss': 3.0215201377868652, 'eval_accuracy': 0.41310064546975855, 'eval_runtime': 5.1665, 'eval_samples_per_second': 809.638, 'eval_steps_per_second': 12.775, 'epoch': 9.0}
|
70 |
-
{'loss': 0.1826, 'grad_norm': 7.637009620666504, 'learning_rate': 4.0899544977248865e-05, 'epoch': 9.1}
|
71 |
-
{'loss': 0.1748, 'grad_norm': 9.161368370056152, 'learning_rate': 4.0724536226811345e-05, 'epoch': 9.28}
|
72 |
-
{'loss': 0.1798, 'grad_norm': 11.175768852233887, 'learning_rate': 4.054952747637382e-05, 'epoch': 9.45}
|
73 |
-
{'loss': 0.1844, 'grad_norm': 8.664103507995605, 'learning_rate': 4.03745187259363e-05, 'epoch': 9.63}
|
74 |
-
{'loss': 0.1886, 'grad_norm': 10.091923713684082, 'learning_rate': 4.019950997549878e-05, 'epoch': 9.8}
|
75 |
-
{'loss': 0.1974, 'grad_norm': 14.300283432006836, 'learning_rate': 4.0024501225061254e-05, 'epoch': 9.98}
|
76 |
-
[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
|
77 |
-
{'eval_loss': 2.8925366401672363, 'eval_accuracy': 0.4004303131723643, 'eval_runtime': 5.2183, 'eval_samples_per_second': 801.606, 'eval_steps_per_second': 12.648, 'epoch': 10.0}
|
78 |
-
{'loss': 0.1477, 'grad_norm': 8.367982864379883, 'learning_rate': 3.9849492474623735e-05, 'epoch': 10.15}
|
79 |
-
{'loss': 0.1506, 'grad_norm': 14.6441068649292, 'learning_rate': 3.9674483724186215e-05, 'epoch': 10.33}
|
80 |
-
{'loss': 0.1605, 'grad_norm': 11.409436225891113, 'learning_rate': 3.949947497374869e-05, 'epoch': 10.5}
|
81 |
-
{'loss': 0.1671, 'grad_norm': 9.97114372253418, 'learning_rate': 3.932446622331117e-05, 'epoch': 10.68}
|
82 |
-
{'loss': 0.1697, 'grad_norm': 8.829890251159668, 'learning_rate': 3.914945747287364e-05, 'epoch': 10.85}
|
83 |
-
[1 2 3 ... 0 1 0] [0 0 2 ... 0 1 0]
|
84 |
-
{'eval_loss': 3.009945869445801, 'eval_accuracy': 0.39875687305761415, 'eval_runtime': 5.0345, 'eval_samples_per_second': 830.865, 'eval_steps_per_second': 13.11, 'epoch': 11.0}
|
85 |
-
{'loss': 0.165, 'grad_norm': 5.728878974914551, 'learning_rate': 3.8974448722436124e-05, 'epoch': 11.03}
|
86 |
-
{'loss': 0.1222, 'grad_norm': 8.60106086730957, 'learning_rate': 3.8799439971998605e-05, 'epoch': 11.2}
|
87 |
-
{'loss': 0.1342, 'grad_norm': 7.297552108764648, 'learning_rate': 3.862443122156108e-05, 'epoch': 11.38}
|
88 |
-
{'loss': 0.1353, 'grad_norm': 4.835112571716309, 'learning_rate': 3.844942247112356e-05, 'epoch': 11.55}
|
89 |
-
{'loss': 0.1392, 'grad_norm': 11.95632553100586, 'learning_rate': 3.827441372068604e-05, 'epoch': 11.73}
|
90 |
-
{'loss': 0.1528, 'grad_norm': 10.495340347290039, 'learning_rate': 3.809940497024851e-05, 'epoch': 11.9}
|
91 |
-
[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
|
92 |
-
{'eval_loss': 3.1882576942443848, 'eval_accuracy': 0.4030600047812575, 'eval_runtime': 5.081, 'eval_samples_per_second': 823.256, 'eval_steps_per_second': 12.989, 'epoch': 12.0}
|
93 |
-
{'loss': 0.1336, 'grad_norm': 5.680872917175293, 'learning_rate': 3.7924396219810994e-05, 'epoch': 12.08}
|
94 |
-
{'loss': 0.1106, 'grad_norm': 13.108353614807129, 'learning_rate': 3.774938746937347e-05, 'epoch': 12.25}
|
95 |
-
{'loss': 0.1201, 'grad_norm': 12.21268081665039, 'learning_rate': 3.757437871893595e-05, 'epoch': 12.43}
|
96 |
-
{'loss': 0.1296, 'grad_norm': 8.980371475219727, 'learning_rate': 3.739936996849843e-05, 'epoch': 12.6}
|
97 |
-
{'loss': 0.1321, 'grad_norm': 7.842797756195068, 'learning_rate': 3.72243612180609e-05, 'epoch': 12.78}
|
98 |
-
{'loss': 0.1329, 'grad_norm': 6.895508289337158, 'learning_rate': 3.7049352467623383e-05, 'epoch': 12.95}
|
99 |
-
[3 2 3 ... 2 1 0] [0 0 2 ... 0 1 0]
|
100 |
-
{'eval_loss': 3.032676935195923, 'eval_accuracy': 0.4037771934018647, 'eval_runtime': 5.1875, 'eval_samples_per_second': 806.363, 'eval_steps_per_second': 12.723, 'epoch': 13.0}
|
101 |
-
{'loss': 0.1095, 'grad_norm': 8.161698341369629, 'learning_rate': 3.6874343717185864e-05, 'epoch': 13.13}
|
102 |
-
{'loss': 0.11, 'grad_norm': 10.45121955871582, 'learning_rate': 3.669933496674834e-05, 'epoch': 13.3}
|
103 |
-
{'loss': 0.1098, 'grad_norm': 9.682628631591797, 'learning_rate': 3.652432621631082e-05, 'epoch': 13.48}
|
104 |
-
{'loss': 0.1158, 'grad_norm': 11.448630332946777, 'learning_rate': 3.634931746587329e-05, 'epoch': 13.65}
|
105 |
-
{'loss': 0.1209, 'grad_norm': 9.775908470153809, 'learning_rate': 3.617430871543577e-05, 'epoch': 13.83}
|
106 |
-
[3 3 3 ... 2 1 0] [0 0 2 ... 0 1 0]
|
107 |
-
{'eval_loss': 3.31455397605896, 'eval_accuracy': 0.4044943820224719, 'eval_runtime': 4.9726, 'eval_samples_per_second': 841.209, 'eval_steps_per_second': 13.273, 'epoch': 14.0}
|
108 |
-
{'loss': 0.1192, 'grad_norm': 9.81877613067627, 'learning_rate': 3.5999299964998253e-05, 'epoch': 14.0}
|
109 |
-
{'loss': 0.0886, 'grad_norm': 15.937920570373535, 'learning_rate': 3.582429121456073e-05, 'epoch': 14.18}
|
110 |
-
{'loss': 0.0958, 'grad_norm': 6.875291347503662, 'learning_rate': 3.564928246412321e-05, 'epoch': 14.35}
|
111 |
-
{'loss': 0.1014, 'grad_norm': 7.694157123565674, 'learning_rate': 3.547427371368569e-05, 'epoch': 14.53}
|
112 |
-
{'loss': 0.1067, 'grad_norm': 12.248181343078613, 'learning_rate': 3.529926496324816e-05, 'epoch': 14.7}
|
113 |
-
{'loss': 0.1086, 'grad_norm': 9.317180633544922, 'learning_rate': 3.512425621281064e-05, 'epoch': 14.88}
|
114 |
-
[3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0]
|
115 |
-
{'eval_loss': 3.6231369972229004, 'eval_accuracy': 0.4030600047812575, 'eval_runtime': 5.3002, 'eval_samples_per_second': 789.213, 'eval_steps_per_second': 12.452, 'epoch': 15.0}
|
116 |
-
{'loss': 0.1006, 'grad_norm': 10.558964729309082, 'learning_rate': 3.494924746237312e-05, 'epoch': 15.05}
|
117 |
-
{'loss': 0.0861, 'grad_norm': 10.458243370056152, 'learning_rate': 3.47742387119356e-05, 'epoch': 15.23}
|
118 |
-
{'loss': 0.093, 'grad_norm': 9.602523803710938, 'learning_rate': 3.459922996149808e-05, 'epoch': 15.4}
|
119 |
-
{'loss': 0.0933, 'grad_norm': 4.416888236999512, 'learning_rate': 3.442422121106055e-05, 'epoch': 15.58}
|
120 |
-
{'loss': 0.0936, 'grad_norm': 10.379509925842285, 'learning_rate': 3.424921246062303e-05, 'epoch': 15.75}
|
121 |
-
{'loss': 0.0946, 'grad_norm': 8.990747451782227, 'learning_rate': 3.4074203710185506e-05, 'epoch': 15.93}
|
122 |
-
[3 2 1 ... 2 1 0] [0 0 2 ... 0 1 0]
|
123 |
-
{'eval_loss': 3.832923650741577, 'eval_accuracy': 0.40162562754004305, 'eval_runtime': 4.9281, 'eval_samples_per_second': 848.799, 'eval_steps_per_second': 13.392, 'epoch': 16.0}
|
124 |
-
{'loss': 0.0851, 'grad_norm': 6.862658977508545, 'learning_rate': 3.389919495974799e-05, 'epoch': 16.1}
|
125 |
-
{'loss': 0.0804, 'grad_norm': 11.915144920349121, 'learning_rate': 3.372418620931047e-05, 'epoch': 16.28}
|
126 |
-
{'loss': 0.0823, 'grad_norm': 6.436585426330566, 'learning_rate': 3.354917745887294e-05, 'epoch': 16.45}
|
127 |
-
{'loss': 0.0843, 'grad_norm': 7.386220932006836, 'learning_rate': 3.337416870843542e-05, 'epoch': 16.63}
|
128 |
-
{'loss': 0.091, 'grad_norm': 4.029330253601074, 'learning_rate': 3.31991599579979e-05, 'epoch': 16.8}
|
129 |
-
{'loss': 0.0917, 'grad_norm': 5.387266635894775, 'learning_rate': 3.3024151207560376e-05, 'epoch': 16.98}
|
130 |
-
[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
|
131 |
-
{'eval_loss': 3.410829544067383, 'eval_accuracy': 0.40831938799904377, 'eval_runtime': 5.2414, 'eval_samples_per_second': 798.063, 'eval_steps_per_second': 12.592, 'epoch': 17.0}
|
132 |
-
{'loss': 0.073, 'grad_norm': 9.562952995300293, 'learning_rate': 3.284914245712286e-05, 'epoch': 17.15}
|
133 |
-
{'loss': 0.0729, 'grad_norm': 10.405723571777344, 'learning_rate': 3.267413370668533e-05, 'epoch': 17.33}
|
134 |
-
{'loss': 0.0827, 'grad_norm': 7.683832168579102, 'learning_rate': 3.249912495624781e-05, 'epoch': 17.5}
|
135 |
-
{'loss': 0.0782, 'grad_norm': 14.459450721740723, 'learning_rate': 3.232411620581029e-05, 'epoch': 17.68}
|
136 |
-
{'loss': 0.0823, 'grad_norm': 6.0533294677734375, 'learning_rate': 3.2149107455372765e-05, 'epoch': 17.85}
|
137 |
-
[3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0]
|
138 |
-
{'eval_loss': 3.9160263538360596, 'eval_accuracy': 0.3989959359311499, 'eval_runtime': 5.0434, 'eval_samples_per_second': 829.402, 'eval_steps_per_second': 13.086, 'epoch': 18.0}
|
139 |
-
{'loss': 0.0819, 'grad_norm': 13.131736755371094, 'learning_rate': 3.1974098704935246e-05, 'epoch': 18.03}
|
140 |
-
{'loss': 0.0665, 'grad_norm': 10.132059097290039, 'learning_rate': 3.179908995449773e-05, 'epoch': 18.2}
|
141 |
-
{'loss': 0.0713, 'grad_norm': 6.755238056182861, 'learning_rate': 3.16240812040602e-05, 'epoch': 18.38}
|
142 |
-
{'loss': 0.0743, 'grad_norm': 8.763909339904785, 'learning_rate': 3.144907245362268e-05, 'epoch': 18.55}
|
143 |
-
{'loss': 0.0724, 'grad_norm': 2.1036832332611084, 'learning_rate': 3.1274063703185155e-05, 'epoch': 18.73}
|
144 |
-
{'loss': 0.0759, 'grad_norm': 13.36906909942627, 'learning_rate': 3.109905495274764e-05, 'epoch': 18.9}
|
145 |
-
[1 2 1 ... 1 1 1] [0 0 2 ... 0 1 0]
|
146 |
-
{'eval_loss': 4.189084529876709, 'eval_accuracy': 0.4021037532871145, 'eval_runtime': 5.0162, 'eval_samples_per_second': 833.894, 'eval_steps_per_second': 13.157, 'epoch': 19.0}
|
147 |
-
{'loss': 0.0701, 'grad_norm': 6.931128978729248, 'learning_rate': 3.092404620231012e-05, 'epoch': 19.08}
|
148 |
-
{'loss': 0.0673, 'grad_norm': 8.906102180480957, 'learning_rate': 3.07490374518726e-05, 'epoch': 19.25}
|
149 |
-
{'loss': 0.0699, 'grad_norm': 3.3540921211242676, 'learning_rate': 3.057402870143508e-05, 'epoch': 19.43}
|
150 |
-
{'loss': 0.0653, 'grad_norm': 1.4383997917175293, 'learning_rate': 3.0399019950997554e-05, 'epoch': 19.6}
|
151 |
-
{'loss': 0.0741, 'grad_norm': 6.478917121887207, 'learning_rate': 3.0224011200560032e-05, 'epoch': 19.78}
|
152 |
-
{'loss': 0.0722, 'grad_norm': 2.372495651245117, 'learning_rate': 3.004900245012251e-05, 'epoch': 19.95}
|
153 |
-
[3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0]
|
154 |
-
{'eval_loss': 4.461926460266113, 'eval_accuracy': 0.41166626822854413, 'eval_runtime': 5.2339, 'eval_samples_per_second': 799.21, 'eval_steps_per_second': 12.61, 'epoch': 20.0}
|
155 |
-
{'loss': 0.062, 'grad_norm': 10.013936042785645, 'learning_rate': 2.987399369968499e-05, 'epoch': 20.13}
|
156 |
-
{'loss': 0.0579, 'grad_norm': 13.088051795959473, 'learning_rate': 2.9698984949247467e-05, 'epoch': 20.3}
|
157 |
-
{'loss': 0.0659, 'grad_norm': 12.37696647644043, 'learning_rate': 2.9523976198809944e-05, 'epoch': 20.48}
|
158 |
-
{'loss': 0.0646, 'grad_norm': 9.104371070861816, 'learning_rate': 2.934896744837242e-05, 'epoch': 20.65}
|
159 |
-
{'loss': 0.0629, 'grad_norm': 1.534743309020996, 'learning_rate': 2.91739586979349e-05, 'epoch': 20.83}
|
160 |
-
[3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0]
|
161 |
-
{'eval_loss': 3.8825600147247314, 'eval_accuracy': 0.40999282811379395, 'eval_runtime': 4.87, 'eval_samples_per_second': 858.939, 'eval_steps_per_second': 13.552, 'epoch': 21.0}
|
162 |
-
{'loss': 0.0694, 'grad_norm': 4.8683085441589355, 'learning_rate': 2.899894994749738e-05, 'epoch': 21.0}
|
163 |
-
{'loss': 0.055, 'grad_norm': 10.0079927444458, 'learning_rate': 2.8823941197059856e-05, 'epoch': 21.18}
|
164 |
-
{'loss': 0.0565, 'grad_norm': 8.396007537841797, 'learning_rate': 2.8648932446622333e-05, 'epoch': 21.35}
|
165 |
-
{'loss': 0.0575, 'grad_norm': 9.76453971862793, 'learning_rate': 2.847392369618481e-05, 'epoch': 21.53}
|
166 |
-
{'loss': 0.061, 'grad_norm': 4.032108783721924, 'learning_rate': 2.829891494574729e-05, 'epoch': 21.7}
|
167 |
-
{'loss': 0.061, 'grad_norm': 6.91244649887085, 'learning_rate': 2.812390619530977e-05, 'epoch': 21.88}
|
168 |
-
[3 3 1 ... 3 1 0] [0 0 2 ... 0 1 0]
|
169 |
-
{'eval_loss': 4.351003170013428, 'eval_accuracy': 0.4066459478842936, 'eval_runtime': 5.1312, 'eval_samples_per_second': 815.21, 'eval_steps_per_second': 12.863, 'epoch': 22.0}
|
170 |
-
{'loss': 0.0585, 'grad_norm': 6.355452060699463, 'learning_rate': 2.7948897444872246e-05, 'epoch': 22.05}
|
171 |
-
{'loss': 0.0533, 'grad_norm': 3.642059803009033, 'learning_rate': 2.7773888694434723e-05, 'epoch': 22.23}
|
172 |
-
{'loss': 0.0553, 'grad_norm': 10.472013473510742, 'learning_rate': 2.7598879943997203e-05, 'epoch': 22.4}
|
173 |
-
{'loss': 0.0544, 'grad_norm': 6.09908390045166, 'learning_rate': 2.742387119355968e-05, 'epoch': 22.58}
|
174 |
-
{'loss': 0.0572, 'grad_norm': 7.71782112121582, 'learning_rate': 2.7248862443122158e-05, 'epoch': 22.75}
|
175 |
-
{'loss': 0.0599, 'grad_norm': 6.481327533721924, 'learning_rate': 2.7073853692684635e-05, 'epoch': 22.93}
|
176 |
-
[3 3 1 ... 0 1 1] [0 0 2 ... 0 1 0]
|
177 |
-
{'eval_loss': 4.76491641998291, 'eval_accuracy': 0.41023189098732965, 'eval_runtime': 5.0443, 'eval_samples_per_second': 829.251, 'eval_steps_per_second': 13.084, 'epoch': 23.0}
|
178 |
-
{'loss': 0.0519, 'grad_norm': 2.8318750858306885, 'learning_rate': 2.6898844942247116e-05, 'epoch': 23.1}
|
179 |
-
{'loss': 0.0532, 'grad_norm': 7.258909702301025, 'learning_rate': 2.6723836191809593e-05, 'epoch': 23.28}
|
180 |
-
{'loss': 0.0501, 'grad_norm': 0.505663275718689, 'learning_rate': 2.654882744137207e-05, 'epoch': 23.45}
|
181 |
-
{'loss': 0.0534, 'grad_norm': 6.822935581207275, 'learning_rate': 2.6373818690934547e-05, 'epoch': 23.63}
|
182 |
-
{'loss': 0.0539, 'grad_norm': 3.6410772800445557, 'learning_rate': 2.6198809940497028e-05, 'epoch': 23.8}
|
183 |
-
{'loss': 0.0515, 'grad_norm': 2.032815933227539, 'learning_rate': 2.6023801190059505e-05, 'epoch': 23.98}
|
184 |
-
[3 2 1 ... 3 1 1] [0 0 2 ... 0 1 0]
|
185 |
-
{'eval_loss': 4.693360805511475, 'eval_accuracy': 0.4133397083432943, 'eval_runtime': 5.1254, 'eval_samples_per_second': 816.131, 'eval_steps_per_second': 12.877, 'epoch': 24.0}
|
186 |
-
{'loss': 0.0478, 'grad_norm': 8.752219200134277, 'learning_rate': 2.5848792439621982e-05, 'epoch': 24.15}
|
187 |
-
{'loss': 0.0488, 'grad_norm': 4.398344039916992, 'learning_rate': 2.567378368918446e-05, 'epoch': 24.33}
|
188 |
-
{'loss': 0.0467, 'grad_norm': 5.432986736297607, 'learning_rate': 2.549877493874694e-05, 'epoch': 24.5}
|
189 |
-
{'loss': 0.0502, 'grad_norm': 0.2259376496076584, 'learning_rate': 2.5323766188309417e-05, 'epoch': 24.68}
|
190 |
-
{'loss': 0.0514, 'grad_norm': 0.8192177414894104, 'learning_rate': 2.5148757437871894e-05, 'epoch': 24.85}
|
191 |
-
[3 2 1 ... 3 1 1] [0 0 2 ... 0 1 0]
|
192 |
-
{'eval_loss': 5.038031578063965, 'eval_accuracy': 0.41357877121683, 'eval_runtime': 5.0505, 'eval_samples_per_second': 828.237, 'eval_steps_per_second': 13.068, 'epoch': 25.0}
|
193 |
-
{'loss': 0.0477, 'grad_norm': 13.82257080078125, 'learning_rate': 2.497374868743437e-05, 'epoch': 25.03}
|
194 |
-
{'loss': 0.0445, 'grad_norm': 8.870857238769531, 'learning_rate': 2.4798739936996852e-05, 'epoch': 25.2}
|
195 |
-
{'loss': 0.0446, 'grad_norm': 10.2579345703125, 'learning_rate': 2.462373118655933e-05, 'epoch': 25.38}
|
196 |
-
{'loss': 0.0465, 'grad_norm': 10.811075210571289, 'learning_rate': 2.4448722436121807e-05, 'epoch': 25.55}
|
197 |
-
{'loss': 0.0483, 'grad_norm': 3.9272687435150146, 'learning_rate': 2.4273713685684284e-05, 'epoch': 25.73}
|
198 |
-
{'loss': 0.0481, 'grad_norm': 0.8690231442451477, 'learning_rate': 2.4098704935246764e-05, 'epoch': 25.9}
|
199 |
-
[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
|
200 |
-
{'eval_loss': 5.644454002380371, 'eval_accuracy': 0.4164475256992589, 'eval_runtime': 5.0482, 'eval_samples_per_second': 828.609, 'eval_steps_per_second': 13.074, 'epoch': 26.0}
|
201 |
-
{'loss': 0.0456, 'grad_norm': 1.7615258693695068, 'learning_rate': 2.392369618480924e-05, 'epoch': 26.08}
|
202 |
-
{'loss': 0.0369, 'grad_norm': 2.96238112449646, 'learning_rate': 2.374868743437172e-05, 'epoch': 26.25}
|
203 |
-
{'loss': 0.0442, 'grad_norm': 1.997531771659851, 'learning_rate': 2.3573678683934196e-05, 'epoch': 26.43}
|
204 |
-
{'loss': 0.0428, 'grad_norm': 10.590956687927246, 'learning_rate': 2.3398669933496677e-05, 'epoch': 26.6}
|
205 |
-
{'loss': 0.0449, 'grad_norm': 15.461783409118652, 'learning_rate': 2.3223661183059154e-05, 'epoch': 26.78}
|
206 |
-
{'loss': 0.0463, 'grad_norm': 9.42243480682373, 'learning_rate': 2.304865243262163e-05, 'epoch': 26.95}
|
207 |
-
[3 2 1 ... 3 1 0] [0 0 2 ... 0 1 0]
|
208 |
-
{'eval_loss': 5.401566028594971, 'eval_accuracy': 0.4150131484580445, 'eval_runtime': 5.1892, 'eval_samples_per_second': 806.096, 'eval_steps_per_second': 12.719, 'epoch': 27.0}
|
209 |
-
{'loss': 0.0376, 'grad_norm': 3.698101043701172, 'learning_rate': 2.2873643682184108e-05, 'epoch': 27.13}
|
210 |
-
{'loss': 0.0379, 'grad_norm': 11.145508766174316, 'learning_rate': 2.269863493174659e-05, 'epoch': 27.3}
|
211 |
-
{'loss': 0.0411, 'grad_norm': 1.2739465236663818, 'learning_rate': 2.2523626181309066e-05, 'epoch': 27.48}
|
212 |
-
{'loss': 0.0397, 'grad_norm': 0.7999504208564758, 'learning_rate': 2.2348617430871543e-05, 'epoch': 27.65}
|
213 |
-
{'loss': 0.043, 'grad_norm': 0.1800367683172226, 'learning_rate': 2.217360868043402e-05, 'epoch': 27.83}
|
214 |
-
[3 3 1 ... 0 1 0] [0 0 2 ... 0 1 0]
|
215 |
-
{'eval_loss': 5.35640811920166, 'eval_accuracy': 0.41190533110207983, 'eval_runtime': 5.0585, 'eval_samples_per_second': 826.922, 'eval_steps_per_second': 13.047, 'epoch': 28.0}
|
216 |
-
{'loss': 0.0421, 'grad_norm': 14.743362426757812, 'learning_rate': 2.19985999299965e-05, 'epoch': 28.0}
|
217 |
-
{'loss': 0.0352, 'grad_norm': 8.293474197387695, 'learning_rate': 2.182359117955898e-05, 'epoch': 28.18}
|
218 |
-
{'loss': 0.0375, 'grad_norm': 0.09835419803857803, 'learning_rate': 2.164858242912146e-05, 'epoch': 28.35}
|
219 |
-
{'loss': 0.0406, 'grad_norm': 1.9000002145767212, 'learning_rate': 2.1473573678683936e-05, 'epoch': 28.53}
|
220 |
-
{'loss': 0.039, 'grad_norm': 3.016406774520874, 'learning_rate': 2.1298564928246413e-05, 'epoch': 28.7}
|
221 |
-
{'loss': 0.0412, 'grad_norm': 5.020988941192627, 'learning_rate': 2.1123556177808894e-05, 'epoch': 28.88}
|
222 |
-
[3 2 3 ... 0 1 0] [0 0 2 ... 0 1 0]
|
223 |
-
{'eval_loss': 5.662747383117676, 'eval_accuracy': 0.4150131484580445, 'eval_runtime': 5.1888, 'eval_samples_per_second': 806.157, 'eval_steps_per_second': 12.72, 'epoch': 29.0}
|
224 |
-
{'loss': 0.0356, 'grad_norm': 0.3864443004131317, 'learning_rate': 2.094854742737137e-05, 'epoch': 29.05}
|
225 |
-
{'loss': 0.0337, 'grad_norm': 15.130627632141113, 'learning_rate': 2.0773538676933848e-05, 'epoch': 29.23}
|
226 |
-
{'loss': 0.0352, 'grad_norm': 7.543297290802002, 'learning_rate': 2.0598529926496325e-05, 'epoch': 29.4}
|
227 |
-
{'loss': 0.0356, 'grad_norm': 8.53040885925293, 'learning_rate': 2.0423521176058806e-05, 'epoch': 29.58}
|
228 |
-
{'loss': 0.0361, 'grad_norm': 1.1327402591705322, 'learning_rate': 2.0248512425621283e-05, 'epoch': 29.75}
|
229 |
-
{'loss': 0.0407, 'grad_norm': 10.344635009765625, 'learning_rate': 2.007350367518376e-05, 'epoch': 29.93}
|
230 |
-
[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
|
231 |
-
{'eval_loss': 5.793868064880371, 'eval_accuracy': 0.41668658857279467, 'eval_runtime': 5.0419, 'eval_samples_per_second': 829.64, 'eval_steps_per_second': 13.09, 'epoch': 30.0}
|
232 |
-
{'loss': 0.0329, 'grad_norm': 16.23655891418457, 'learning_rate': 1.9898494924746238e-05, 'epoch': 30.1}
|
233 |
-
{'loss': 0.034, 'grad_norm': 2.007812023162842, 'learning_rate': 1.9723486174308718e-05, 'epoch': 30.28}
|
234 |
-
{'loss': 0.0322, 'grad_norm': 12.726685523986816, 'learning_rate': 1.9548477423871195e-05, 'epoch': 30.45}
|
235 |
-
{'loss': 0.0329, 'grad_norm': 2.3587682247161865, 'learning_rate': 1.9373468673433673e-05, 'epoch': 30.63}
|
236 |
-
{'loss': 0.0324, 'grad_norm': 1.474263310432434, 'learning_rate': 1.919845992299615e-05, 'epoch': 30.8}
|
237 |
-
{'loss': 0.0333, 'grad_norm': 9.734752655029297, 'learning_rate': 1.902345117255863e-05, 'epoch': 30.98}
|
238 |
-
[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
|
239 |
-
{'eval_loss': 6.531726360321045, 'eval_accuracy': 0.4171647143198661, 'eval_runtime': 5.0183, 'eval_samples_per_second': 833.542, 'eval_steps_per_second': 13.152, 'epoch': 31.0}
|
240 |
-
{'loss': 0.0276, 'grad_norm': 9.097105026245117, 'learning_rate': 1.8848442422121108e-05, 'epoch': 31.15}
|
241 |
-
{'loss': 0.0306, 'grad_norm': 3.0445449352264404, 'learning_rate': 1.8673433671683585e-05, 'epoch': 31.33}
|
242 |
-
{'loss': 0.0314, 'grad_norm': 10.850336074829102, 'learning_rate': 1.8498424921246062e-05, 'epoch': 31.5}
|
243 |
-
{'loss': 0.0311, 'grad_norm': 5.208418846130371, 'learning_rate': 1.8323416170808543e-05, 'epoch': 31.68}
|
244 |
-
{'loss': 0.0357, 'grad_norm': 4.947464466094971, 'learning_rate': 1.814840742037102e-05, 'epoch': 31.85}
|
245 |
-
[3 3 1 ... 0 1 0] [0 0 2 ... 0 1 0]
|
246 |
-
{'eval_loss': 6.864943504333496, 'eval_accuracy': 0.4152522113315802, 'eval_runtime': 4.8648, 'eval_samples_per_second': 859.858, 'eval_steps_per_second': 13.567, 'epoch': 32.0}
|
247 |
-
{'loss': 0.0313, 'grad_norm': 0.3636768162250519, 'learning_rate': 1.7973398669933497e-05, 'epoch': 32.03}
|
248 |
-
{'loss': 0.0272, 'grad_norm': 2.6205763816833496, 'learning_rate': 1.7798389919495974e-05, 'epoch': 32.2}
|
249 |
-
{'loss': 0.029, 'grad_norm': 9.222456932067871, 'learning_rate': 1.7623381169058455e-05, 'epoch': 32.38}
|
250 |
-
{'loss': 0.0281, 'grad_norm': 1.3722457885742188, 'learning_rate': 1.7448372418620932e-05, 'epoch': 32.55}
|
251 |
-
{'loss': 0.0321, 'grad_norm': 11.45699405670166, 'learning_rate': 1.727336366818341e-05, 'epoch': 32.73}
|
252 |
-
{'loss': 0.0305, 'grad_norm': 0.09024574607610703, 'learning_rate': 1.7098354917745887e-05, 'epoch': 32.9}
|
253 |
-
[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
|
254 |
-
{'eval_loss': 6.757059097290039, 'eval_accuracy': 0.41071001673440116, 'eval_runtime': 5.0513, 'eval_samples_per_second': 828.1, 'eval_steps_per_second': 13.066, 'epoch': 33.0}
|
255 |
-
{'loss': 0.0277, 'grad_norm': 0.11980203539133072, 'learning_rate': 1.6923346167308367e-05, 'epoch': 33.08}
|
256 |
-
{'loss': 0.0263, 'grad_norm': 2.554237127304077, 'learning_rate': 1.6748337416870844e-05, 'epoch': 33.25}
|
257 |
-
{'loss': 0.0266, 'grad_norm': 10.364316940307617, 'learning_rate': 1.657332866643332e-05, 'epoch': 33.43}
|
258 |
-
{'loss': 0.0271, 'grad_norm': 0.14868643879890442, 'learning_rate': 1.63983199159958e-05, 'epoch': 33.6}
|
259 |
-
{'loss': 0.0279, 'grad_norm': 10.8546724319458, 'learning_rate': 1.6223311165558276e-05, 'epoch': 33.78}
|
260 |
-
{'loss': 0.0315, 'grad_norm': 0.9444659352302551, 'learning_rate': 1.6048302415120757e-05, 'epoch': 33.95}
|
261 |
-
[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
|
262 |
-
{'eval_loss': 6.816629886627197, 'eval_accuracy': 0.4114272053550084, 'eval_runtime': 5.0039, 'eval_samples_per_second': 835.94, 'eval_steps_per_second': 13.19, 'epoch': 34.0}
|
263 |
-
{'loss': 0.0239, 'grad_norm': 4.370516300201416, 'learning_rate': 1.5873293664683234e-05, 'epoch': 34.13}
|
264 |
-
{'loss': 0.0249, 'grad_norm': 5.466342926025391, 'learning_rate': 1.569828491424571e-05, 'epoch': 34.3}
|
265 |
-
{'loss': 0.0251, 'grad_norm': 16.983070373535156, 'learning_rate': 1.552327616380819e-05, 'epoch': 34.48}
|
266 |
-
{'loss': 0.0274, 'grad_norm': 0.02922905795276165, 'learning_rate': 1.5348267413370672e-05, 'epoch': 34.65}
|
267 |
-
{'loss': 0.0248, 'grad_norm': 0.06802476197481155, 'learning_rate': 1.517325866293315e-05, 'epoch': 34.83}
|
268 |
-
[3 2 0 ... 0 1 0] [0 0 2 ... 0 1 0]
|
269 |
-
{'eval_loss': 7.650357723236084, 'eval_accuracy': 0.4073631365049008, 'eval_runtime': 5.0405, 'eval_samples_per_second': 829.881, 'eval_steps_per_second': 13.094, 'epoch': 35.0}
|
270 |
-
{'loss': 0.0247, 'grad_norm': 2.287425994873047, 'learning_rate': 1.4998249912495627e-05, 'epoch': 35.0}
|
271 |
-
{'loss': 0.0234, 'grad_norm': 2.3862667083740234, 'learning_rate': 1.4823241162058105e-05, 'epoch': 35.18}
|
272 |
-
{'loss': 0.0235, 'grad_norm': 7.395076751708984, 'learning_rate': 1.4648232411620583e-05, 'epoch': 35.35}
|
273 |
-
{'loss': 0.0222, 'grad_norm': 8.860566139221191, 'learning_rate': 1.4473223661183062e-05, 'epoch': 35.53}
|
274 |
-
{'loss': 0.0235, 'grad_norm': 5.510901927947998, 'learning_rate': 1.4298214910745539e-05, 'epoch': 35.7}
|
275 |
-
{'loss': 0.0261, 'grad_norm': 11.366517066955566, 'learning_rate': 1.4123206160308016e-05, 'epoch': 35.88}
|
276 |
-
[3 2 1 ... 3 1 0] [0 0 2 ... 0 1 0]
|
277 |
-
{'eval_loss': 7.031704425811768, 'eval_accuracy': 0.4152522113315802, 'eval_runtime': 5.2031, 'eval_samples_per_second': 803.937, 'eval_steps_per_second': 12.685, 'epoch': 36.0}
|
278 |
-
{'loss': 0.0239, 'grad_norm': 0.3292062282562256, 'learning_rate': 1.3948197409870495e-05, 'epoch': 36.05}
|
279 |
-
{'loss': 0.0214, 'grad_norm': 9.884589195251465, 'learning_rate': 1.3773188659432972e-05, 'epoch': 36.23}
|
280 |
-
{'loss': 0.0213, 'grad_norm': 7.254868984222412, 'learning_rate': 1.3598179908995451e-05, 'epoch': 36.4}
|
281 |
-
{'loss': 0.0208, 'grad_norm': 0.014455192722380161, 'learning_rate': 1.3423171158557928e-05, 'epoch': 36.58}
|
282 |
-
{'loss': 0.022, 'grad_norm': 0.26347845792770386, 'learning_rate': 1.3248162408120407e-05, 'epoch': 36.75}
|
283 |
-
{'loss': 0.0216, 'grad_norm': 0.6166219115257263, 'learning_rate': 1.3073153657682884e-05, 'epoch': 36.93}
|
284 |
-
[3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0]
|
285 |
-
{'eval_loss': 7.466324329376221, 'eval_accuracy': 0.408080325125508, 'eval_runtime': 4.7797, 'eval_samples_per_second': 875.158, 'eval_steps_per_second': 13.808, 'epoch': 37.0}
|
286 |
-
{'loss': 0.0207, 'grad_norm': 0.022303381934762, 'learning_rate': 1.2898144907245363e-05, 'epoch': 37.1}
|
287 |
-
{'loss': 0.0189, 'grad_norm': 9.255375862121582, 'learning_rate': 1.272313615680784e-05, 'epoch': 37.28}
|
288 |
-
{'loss': 0.0208, 'grad_norm': 0.31264451146125793, 'learning_rate': 1.254812740637032e-05, 'epoch': 37.45}
|
289 |
-
{'loss': 0.0202, 'grad_norm': 3.0164003372192383, 'learning_rate': 1.2373118655932796e-05, 'epoch': 37.63}
|
290 |
-
{'loss': 0.0218, 'grad_norm': 16.902402877807617, 'learning_rate': 1.2198109905495275e-05, 'epoch': 37.8}
|
291 |
-
{'loss': 0.0221, 'grad_norm': 19.29541778564453, 'learning_rate': 1.2023101155057753e-05, 'epoch': 37.98}
|
292 |
-
[3 3 3 ... 3 1 0] [0 0 2 ... 0 1 0]
|
293 |
-
{'eval_loss': 7.868542671203613, 'eval_accuracy': 0.4092756394931867, 'eval_runtime': 5.0486, 'eval_samples_per_second': 828.541, 'eval_steps_per_second': 13.073, 'epoch': 38.0}
|
294 |
-
{'loss': 0.017, 'grad_norm': 0.1023029088973999, 'learning_rate': 1.1848092404620231e-05, 'epoch': 38.15}
|
295 |
-
{'loss': 0.0182, 'grad_norm': 0.011240343563258648, 'learning_rate': 1.1673083654182709e-05, 'epoch': 38.33}
|
296 |
-
{'loss': 0.0199, 'grad_norm': 9.916908264160156, 'learning_rate': 1.1498074903745188e-05, 'epoch': 38.5}
|
297 |
-
{'loss': 0.023, 'grad_norm': 0.0108343455940485, 'learning_rate': 1.1323066153307665e-05, 'epoch': 38.68}
|
298 |
-
{'loss': 0.0198, 'grad_norm': 14.326728820800781, 'learning_rate': 1.1148057402870144e-05, 'epoch': 38.85}
|
299 |
-
[3 3 1 ... 3 1 0] [0 0 2 ... 0 1 0]
|
300 |
-
{'eval_loss': 7.759762287139893, 'eval_accuracy': 0.41310064546975855, 'eval_runtime': 5.034, 'eval_samples_per_second': 830.946, 'eval_steps_per_second': 13.111, 'epoch': 39.0}
|
301 |
-
{'loss': 0.0193, 'grad_norm': 16.8110294342041, 'learning_rate': 1.0973048652432621e-05, 'epoch': 39.03}
|
302 |
-
{'loss': 0.0161, 'grad_norm': 16.760862350463867, 'learning_rate': 1.0798039901995102e-05, 'epoch': 39.2}
|
303 |
-
{'loss': 0.018, 'grad_norm': 0.7209157943725586, 'learning_rate': 1.0623031151557579e-05, 'epoch': 39.38}
|
304 |
-
{'loss': 0.0208, 'grad_norm': 13.089346885681152, 'learning_rate': 1.0448022401120058e-05, 'epoch': 39.55}
|
305 |
-
{'loss': 0.0191, 'grad_norm': 9.088654518127441, 'learning_rate': 1.0273013650682535e-05, 'epoch': 39.73}
|
306 |
-
{'loss': 0.0185, 'grad_norm': 0.02565234899520874, 'learning_rate': 1.0098004900245014e-05, 'epoch': 39.9}
|
307 |
-
[3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0]
|
308 |
-
{'eval_loss': 7.876224994659424, 'eval_accuracy': 0.41549127420511595, 'eval_runtime': 4.8077, 'eval_samples_per_second': 870.067, 'eval_steps_per_second': 13.728, 'epoch': 40.0}
|
309 |
-
{'loss': 0.0156, 'grad_norm': 0.03860479220747948, 'learning_rate': 9.922996149807491e-06, 'epoch': 40.08}
|
310 |
-
{'loss': 0.0153, 'grad_norm': 0.3213302791118622, 'learning_rate': 9.74798739936997e-06, 'epoch': 40.25}
|
311 |
-
{'loss': 0.0185, 'grad_norm': 9.212058067321777, 'learning_rate': 9.572978648932447e-06, 'epoch': 40.43}
|
312 |
-
{'loss': 0.0168, 'grad_norm': 0.3707139790058136, 'learning_rate': 9.397969898494926e-06, 'epoch': 40.6}
|
313 |
-
{'loss': 0.017, 'grad_norm': 0.32125115394592285, 'learning_rate': 9.222961148057403e-06, 'epoch': 40.78}
|
314 |
-
{'loss': 0.0165, 'grad_norm': 0.12538419663906097, 'learning_rate': 9.047952397619882e-06, 'epoch': 40.95}
|
|
|
1 |
+
{'loss': 1.3809, 'grad_norm': 1.1363270282745361, 'learning_rate': 4.97083187492708e-05, 'epoch': 0.09}
|
2 |
+
{'loss': 1.3713, 'grad_norm': 1.4474607706069946, 'learning_rate': 4.9416637498541595e-05, 'epoch': 0.18}
|
3 |
+
{'loss': 1.3594, 'grad_norm': 0.9098652005195618, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.26}
|
4 |
+
{'loss': 1.3502, 'grad_norm': 1.1167092323303223, 'learning_rate': 4.883327499708319e-05, 'epoch': 0.35}
|
5 |
+
{'loss': 1.3453, 'grad_norm': 2.2667481899261475, 'learning_rate': 4.8541593746353985e-05, 'epoch': 0.44}
|
6 |
+
{'loss': 1.3434, 'grad_norm': 1.9075201749801636, 'learning_rate': 4.824991249562478e-05, 'epoch': 0.53}
|
7 |
+
{'loss': 1.3335, 'grad_norm': 2.0711045265197754, 'learning_rate': 4.795823124489558e-05, 'epoch': 0.61}
|
8 |
+
{'loss': 1.3225, 'grad_norm': 1.7113029956817627, 'learning_rate': 4.7666549994166374e-05, 'epoch': 0.7}
|
9 |
+
{'loss': 1.3195, 'grad_norm': 1.9234343767166138, 'learning_rate': 4.737486874343717e-05, 'epoch': 0.79}
|
10 |
+
{'loss': 1.3105, 'grad_norm': 2.1175739765167236, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.88}
|
11 |
+
{'loss': 1.2998, 'grad_norm': 2.521505117416382, 'learning_rate': 4.6791506241978764e-05, 'epoch': 0.96}
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
model.safetensors
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
size 267829484
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:9d306629c74561d10507648df7158a6a73ff9904a21e1c9126acc12cc7262332
|
3 |
size 267829484
|
runs/Mar14_16-58-52_cehsc-app-001.ad.unlv.edu/events.out.tfevents.1710460734.cehsc-app-001.ad.unlv.edu.4089564.0
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:fe2a5cf71ed74f3e9b0773433b1deb151c0193231d5edecc9e8a704a1e0f9756
|
3 |
+
size 7211
|
training_args.bin
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
-
size
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:0cd652d10555c100dd6ab6b50f7c972fd6f5dcadef90e805c34745670769871d
|
3 |
+
size 4984
|