diff --git "a/train_job_output.txt" "b/train_job_output.txt"
--- "a/train_job_output.txt"
+++ "b/train_job_output.txt"
@@ -1,4 +1,4 @@
-slurm submission log: 2024-05-13 22:25:16.975668
+slurm submission log: 2024-05-17 11:42:20.474744
 created following sbatch script: 
 
 ###############################
@@ -7,24 +7,24 @@ created following sbatch script:
 
 #SBATCH --account=nlp
 #SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7608406
+#SBATCH --dependency=afterok:7625431
 #SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-4542903
+#SBATCH --job-name=tthrush-job-4361722
 #SBATCH --mem=400G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_basic/pythia-70m_lambada/train_job_output.txt
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data/pythia-70m_lambada/train_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
 
 # activate your desired anaconda environment
-. /nlp/scr/tthrush/miniconda3/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
+. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
 
 # cd to working directory
 cd .
 
 # launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29506 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_basic/lambada --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_basic/pythia-70m_lambada --output_hub_id pythia-70m_lambada --model_id EleutherAI/pythia-70m --num_train_epochs 14 --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2'
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29506 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/lambada --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data/pythia-70m_lambada --output_hub_id pythia-70m_lambada --model_id EleutherAI/pythia-70m --num_train_epochs 1 --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2'
 
 ###############################
 
@@ -34,461 +34,481 @@ submission to slurm complete!
 ###############################
 slurm submission output
 
-Submitted batch job 7608407
+Submitted batch job 7625432
 
 
 
 ###############################
 
+/var/lib/slurm/slurmd/job7625432/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
+
+CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
+To initialize your shell, run
+
+    $ conda init <SHELL_NAME>
+
+Currently supported shells are:
+  - bash
+  - fish
+  - tcsh
+  - xonsh
+  - zsh
+  - powershell
+
+See 'conda init --help' for more information and options.
+
+IMPORTANT: You may need to close and restart your shell after running 'conda init'.
+
+
 ###############################
-start time: 2024-05-14 03:07:22.154087
+start time: 2024-05-18 00:12:23.054910
 machine: sphinx2
 conda env: pretraining-coreset-selection
 ###############################
 running following processes
 
-	torchrun --master_port 29506 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_basic/lambada --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_basic/pythia-70m_lambada --output_hub_id pythia-70m_lambada --model_id EleutherAI/pythia-70m --num_train_epochs 14 --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2
+	torchrun --master_port 29506 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/lambada --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data/pythia-70m_lambada --output_hub_id pythia-70m_lambada --model_id EleutherAI/pythia-70m --num_train_epochs 1 --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2
 
 
 ###############################
 command outputs: 
 
 
-[2024-05-14 03:07:29,791] torch.distributed.run: [WARNING] 
-[2024-05-14 03:07:29,791] torch.distributed.run: [WARNING] *****************************************
-[2024-05-14 03:07:29,791] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
-[2024-05-14 03:07:29,791] torch.distributed.run: [WARNING] *****************************************
-05/14/2024 03:07:53 - INFO - __main__ - Script parameters ScriptArguments(dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_basic/lambada', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_basic/pythia-70m_lambada', output_hub_id='pythia-70m_lambada', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=14, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-05/14/2024 03:07:53 - INFO - __main__ - Script parameters ScriptArguments(dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_basic/lambada', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_basic/pythia-70m_lambada', output_hub_id='pythia-70m_lambada', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=14, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-  0%|          | 0/10682 [00:00<?, ?it/s][rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-[rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-  0%|          | 1/10682 [00:51<151:39:39, 51.12s/it]  0%|          | 2/10682 [01:08<92:56:51, 31.33s/it]   0%|          | 3/10682 [01:20<67:06:16, 22.62s/it]  0%|          | 4/10682 [01:30<51:33:18, 17.38s/it]  0%|          | 5/10682 [01:36<39:52:10, 13.44s/it]  0%|          | 6/10682 [01:41<31:13:33, 10.53s/it]  0%|          | 7/10682 [01:44<23:50:36,  8.04s/it]  0%|          | 8/10682 [01:46<18:20:47,  6.19s/it]  0%|          | 9/10682 [01:48<14:12:01,  4.79s/it]  0%|          | 10/10682 [01:50<11:25:53,  3.86s/it]  0%|          | 11/10682 [01:51<8:55:53,  3.01s/it]   0%|          | 12/10682 [01:52<6:56:15,  2.34s/it]  0%|          | 13/10682 [01:52<5:31:14,  1.86s/it]  0%|          | 14/10682 [01:53<4:34:44,  1.55s/it]  0%|          | 15/10682 [01:54<4:10:12,  1.41s/it]  0%|          | 16/10682 [01:55<3:31:03,  1.19s/it]  0%|          | 17/10682 [01:56<3:04:54,  1.04s/it]  0%|          | 18/10682 [01:56<2:43:03,  1.09it/s]  0%|          | 19/10682 [01:57<2:24:44,  1.23it/s]  0%|          | 20/10682 [01:57<2:14:08,  1.32it/s]  0%|          | 21/10682 [01:58<2:04:15,  1.43it/s]  0%|          | 22/10682 [01:59<1:55:36,  1.54it/s]  0%|          | 23/10682 [01:59<1:50:05,  1.61it/s]  0%|          | 24/10682 [02:00<1:49:22,  1.62it/s]  0%|          | 25/10682 [02:00<1:47:19,  1.65it/s]                                                    {'loss': 10.6608, 'grad_norm': 1.3869956731796265, 'learning_rate': 2.3386342376052384e-05, 'epoch': 0.03}
-  0%|          | 25/10682 [02:00<1:47:19,  1.65it/s]  0%|          | 26/10682 [02:01<1:44:27,  1.70it/s]  0%|          | 27/10682 [02:01<1:40:32,  1.77it/s]  0%|          | 28/10682 [02:02<1:38:27,  1.80it/s]  0%|          | 29/10682 [02:02<1:36:12,  1.85it/s]  0%|          | 30/10682 [02:03<1:34:44,  1.87it/s]  0%|          | 31/10682 [02:04<1:51:21,  1.59it/s]  0%|          | 32/10682 [02:04<1:45:09,  1.69it/s]  0%|          | 33/10682 [02:05<1:40:48,  1.76it/s]  0%|          | 34/10682 [02:05<1:37:53,  1.81it/s]  0%|          | 35/10682 [02:06<1:38:58,  1.79it/s]  0%|          | 36/10682 [02:06<1:36:00,  1.85it/s]  0%|          | 37/10682 [02:07<1:34:03,  1.89it/s]  0%|          | 38/10682 [02:07<1:32:41,  1.91it/s]  0%|          | 39/10682 [02:08<1:32:27,  1.92it/s]  0%|          | 40/10682 [02:08<1:31:17,  1.94it/s]  0%|          | 41/10682 [02:09<1:30:36,  1.96it/s]  0%|          | 42/10682 [02:09<1:30:20,  1.96it/s]  0%|          | 43/10682 [02:10<1:29:50,  1.97it/s]  0%|          | 44/10682 [02:10<1:29:37,  1.98it/s]  0%|          | 45/10682 [02:11<1:29:27,  1.98it/s]  0%|          | 46/10682 [02:11<1:29:10,  1.99it/s]  0%|          | 47/10682 [02:12<1:29:04,  1.99it/s]  0%|          | 48/10682 [02:12<1:28:49,  2.00it/s]  0%|          | 49/10682 [02:13<1:28:39,  2.00it/s]  0%|          | 50/10682 [02:13<1:28:40,  2.00it/s]{'loss': 9.9515, 'grad_norm': 1.2442067861557007, 'learning_rate': 4.677268475210477e-05, 'epoch': 0.07}
-                                                      0%|          | 50/10682 [02:13<1:28:40,  2.00it/s]  0%|          | 51/10682 [02:14<1:28:31,  2.00it/s]  0%|          | 52/10682 [02:14<1:28:26,  2.00it/s]  0%|          | 53/10682 [02:15<1:28:25,  2.00it/s]  1%|          | 54/10682 [02:15<1:28:16,  2.01it/s]  1%|          | 55/10682 [02:16<1:28:16,  2.01it/s]  1%|          | 56/10682 [02:16<1:28:17,  2.01it/s]  1%|          | 57/10682 [02:17<1:28:19,  2.00it/s]  1%|          | 58/10682 [02:17<1:28:17,  2.01it/s]  1%|          | 59/10682 [02:18<1:29:31,  1.98it/s]  1%|          | 60/10682 [02:18<1:29:18,  1.98it/s]  1%|          | 61/10682 [02:19<1:34:28,  1.87it/s]  1%|          | 62/10682 [02:19<1:32:38,  1.91it/s]  1%|          | 63/10682 [02:20<1:32:05,  1.92it/s]  1%|          | 64/10682 [02:20<1:31:06,  1.94it/s]  1%|          | 65/10682 [02:21<1:30:12,  1.96it/s]  1%|          | 66/10682 [02:21<1:29:43,  1.97it/s]  1%|          | 67/10682 [02:22<1:29:59,  1.97it/s]  1%|          | 68/10682 [02:23<1:29:59,  1.97it/s]  1%|          | 69/10682 [02:23<1:30:49,  1.95it/s]  1%|          | 70/10682 [02:24<1:30:12,  1.96it/s]  1%|          | 71/10682 [02:24<1:29:53,  1.97it/s]  1%|          | 72/10682 [02:25<1:29:22,  1.98it/s]  1%|          | 73/10682 [02:25<1:29:32,  1.97it/s]  1%|          | 74/10682 [02:26<1:29:10,  1.98it/s]  1%|          | 75/10682 [02:26<1:28:43,  1.99it/s]                                                    {'loss': 9.2331, 'grad_norm': 1.1144205331802368, 'learning_rate': 7.015902712815715e-05, 'epoch': 0.1}
-  1%|          | 75/10682 [02:26<1:28:43,  1.99it/s]  1%|          | 76/10682 [02:27<1:29:02,  1.99it/s]  1%|          | 77/10682 [02:27<1:29:17,  1.98it/s]  1%|          | 78/10682 [02:28<1:28:55,  1.99it/s]  1%|          | 79/10682 [02:28<1:28:39,  1.99it/s]  1%|          | 80/10682 [02:29<1:28:34,  1.99it/s]  1%|          | 81/10682 [02:29<1:28:38,  1.99it/s]  1%|          | 82/10682 [02:30<1:28:27,  2.00it/s]  1%|          | 83/10682 [02:30<1:28:18,  2.00it/s]  1%|          | 84/10682 [02:31<1:28:22,  2.00it/s]  1%|          | 85/10682 [02:31<1:28:38,  1.99it/s]  1%|          | 86/10682 [02:32<1:29:19,  1.98it/s]  1%|          | 87/10682 [02:32<1:29:15,  1.98it/s]  1%|          | 88/10682 [02:33<1:28:40,  1.99it/s]  1%|          | 89/10682 [02:33<1:28:52,  1.99it/s]  1%|          | 90/10682 [02:34<1:28:37,  1.99it/s]  1%|          | 91/10682 [02:34<1:28:11,  2.00it/s]  1%|          | 92/10682 [02:35<1:28:07,  2.00it/s]  1%|          | 93/10682 [02:35<1:28:07,  2.00it/s]  1%|          | 94/10682 [02:36<1:27:53,  2.01it/s]  1%|          | 95/10682 [02:36<1:27:53,  2.01it/s]  1%|          | 96/10682 [02:37<1:28:40,  1.99it/s]  1%|          | 97/10682 [02:37<1:28:30,  1.99it/s]  1%|          | 98/10682 [02:38<1:28:40,  1.99it/s]  1%|          | 99/10682 [02:38<1:28:38,  1.99it/s]  1%|          | 100/10682 [02:39<1:29:25,  1.97it/s]                                                     {'loss': 8.4427, 'grad_norm': 0.8195424675941467, 'learning_rate': 9.354536950420954e-05, 'epoch': 0.13}
-  1%|          | 100/10682 [02:39<1:29:25,  1.97it/s]  1%|          | 101/10682 [02:39<1:29:18,  1.97it/s]  1%|          | 102/10682 [02:40<1:29:15,  1.98it/s]  1%|          | 103/10682 [02:40<1:28:38,  1.99it/s]  1%|          | 104/10682 [02:41<1:28:17,  2.00it/s]  1%|          | 105/10682 [02:41<1:27:57,  2.00it/s]  1%|          | 106/10682 [02:42<1:27:48,  2.01it/s]  1%|          | 107/10682 [02:42<1:27:44,  2.01it/s]  1%|          | 108/10682 [02:43<1:27:41,  2.01it/s]  1%|          | 109/10682 [02:43<1:27:32,  2.01it/s]  1%|          | 110/10682 [02:44<1:27:33,  2.01it/s]  1%|          | 111/10682 [02:44<1:27:26,  2.01it/s]  1%|          | 112/10682 [02:45<1:27:30,  2.01it/s]  1%|          | 113/10682 [02:45<1:27:30,  2.01it/s]  1%|          | 114/10682 [02:46<1:27:31,  2.01it/s]  1%|          | 115/10682 [02:46<1:27:35,  2.01it/s]  1%|          | 116/10682 [02:47<1:27:27,  2.01it/s]  1%|          | 117/10682 [02:47<1:27:30,  2.01it/s]  1%|          | 118/10682 [02:48<1:27:23,  2.01it/s]  1%|          | 119/10682 [02:48<1:27:27,  2.01it/s]  1%|          | 120/10682 [02:49<1:27:26,  2.01it/s]  1%|          | 121/10682 [02:49<1:27:21,  2.01it/s]  1%|          | 122/10682 [02:50<1:27:33,  2.01it/s]  1%|          | 123/10682 [02:50<1:27:25,  2.01it/s]  1%|          | 124/10682 [02:51<1:27:22,  2.01it/s]  1%|          | 125/10682 [02:51<1:27:21,  2.01it/s]                                                     {'loss': 7.7906, 'grad_norm': 0.4837629795074463, 'learning_rate': 0.00011693171188026193, 'epoch': 0.16}
-  1%|          | 125/10682 [02:51<1:27:21,  2.01it/s]  1%|          | 126/10682 [02:52<1:27:23,  2.01it/s]  1%|          | 127/10682 [02:52<1:27:20,  2.01it/s]  1%|          | 128/10682 [02:53<1:27:19,  2.01it/s]  1%|          | 129/10682 [02:53<1:27:17,  2.01it/s]  1%|          | 130/10682 [02:54<1:27:17,  2.01it/s]  1%|          | 131/10682 [02:54<1:28:17,  1.99it/s]  1%|          | 132/10682 [02:55<1:27:58,  2.00it/s]  1%|          | 133/10682 [02:55<1:27:43,  2.00it/s]  1%|▏         | 134/10682 [02:56<1:27:35,  2.01it/s]  1%|▏         | 135/10682 [02:56<1:27:25,  2.01it/s]  1%|▏         | 136/10682 [02:57<1:27:29,  2.01it/s]  1%|▏         | 137/10682 [02:57<1:27:35,  2.01it/s]  1%|▏         | 138/10682 [02:58<1:27:25,  2.01it/s]  1%|▏         | 139/10682 [02:58<1:27:23,  2.01it/s]  1%|▏         | 140/10682 [02:59<1:27:12,  2.01it/s]  1%|▏         | 141/10682 [02:59<1:27:10,  2.02it/s]  1%|▏         | 142/10682 [02:59<1:27:05,  2.02it/s]  1%|▏         | 143/10682 [03:00<1:27:05,  2.02it/s]  1%|▏         | 144/10682 [03:00<1:26:58,  2.02it/s]  1%|▏         | 145/10682 [03:01<1:26:55,  2.02it/s]  1%|▏         | 146/10682 [03:01<1:26:53,  2.02it/s]  1%|▏         | 147/10682 [03:02<1:26:52,  2.02it/s]  1%|▏         | 148/10682 [03:02<1:27:04,  2.02it/s]  1%|▏         | 149/10682 [03:03<1:26:59,  2.02it/s]  1%|▏         | 150/10682 [03:03<1:27:03,  2.02it/s]                                                     {'loss': 7.3088, 'grad_norm': 0.5318506956100464, 'learning_rate': 0.0001403180542563143, 'epoch': 0.2}
-  1%|▏         | 150/10682 [03:03<1:27:03,  2.02it/s]  1%|▏         | 151/10682 [03:04<1:27:05,  2.02it/s]  1%|▏         | 152/10682 [03:04<1:27:03,  2.02it/s]  1%|▏         | 153/10682 [03:05<1:26:58,  2.02it/s]  1%|▏         | 154/10682 [03:05<1:26:57,  2.02it/s]  1%|▏         | 155/10682 [03:06<1:26:57,  2.02it/s]  1%|▏         | 156/10682 [03:06<1:26:55,  2.02it/s]  1%|▏         | 157/10682 [03:07<1:26:51,  2.02it/s]  1%|▏         | 158/10682 [03:07<1:26:51,  2.02it/s]  1%|▏         | 159/10682 [03:08<1:26:48,  2.02it/s]  1%|▏         | 160/10682 [03:08<1:26:47,  2.02it/s]  2%|▏         | 161/10682 [03:09<1:26:44,  2.02it/s]  2%|▏         | 162/10682 [03:09<1:26:45,  2.02it/s]  2%|▏         | 163/10682 [03:10<1:26:42,  2.02it/s]  2%|▏         | 164/10682 [03:10<1:26:40,  2.02it/s]  2%|▏         | 165/10682 [03:11<1:26:42,  2.02it/s]  2%|▏         | 166/10682 [03:11<1:26:41,  2.02it/s]  2%|▏         | 167/10682 [03:12<1:26:41,  2.02it/s]  2%|▏         | 168/10682 [03:12<1:26:43,  2.02it/s]  2%|▏         | 169/10682 [03:13<1:26:46,  2.02it/s]  2%|▏         | 170/10682 [03:13<1:26:48,  2.02it/s]  2%|▏         | 171/10682 [03:14<1:26:56,  2.01it/s]  2%|▏         | 172/10682 [03:14<1:26:57,  2.01it/s]  2%|▏         | 173/10682 [03:15<1:26:50,  2.02it/s]  2%|▏         | 174/10682 [03:15<1:26:47,  2.02it/s]  2%|▏         | 175/10682 [03:16<1:26:43,  2.02it/s]                                                     {'loss': 6.8934, 'grad_norm': 0.41131341457366943, 'learning_rate': 0.00016370439663236668, 'epoch': 0.23}
-  2%|▏         | 175/10682 [03:16<1:26:43,  2.02it/s]  2%|▏         | 176/10682 [03:16<1:27:07,  2.01it/s]  2%|▏         | 177/10682 [03:17<1:27:00,  2.01it/s]  2%|▏         | 178/10682 [03:17<1:26:55,  2.01it/s]  2%|▏         | 179/10682 [03:18<1:26:50,  2.02it/s]  2%|▏         | 180/10682 [03:18<1:26:45,  2.02it/s]  2%|▏         | 181/10682 [03:19<1:26:43,  2.02it/s]  2%|▏         | 182/10682 [03:19<1:26:44,  2.02it/s]  2%|▏         | 183/10682 [03:20<1:26:41,  2.02it/s]  2%|▏         | 184/10682 [03:20<1:26:43,  2.02it/s]  2%|▏         | 185/10682 [03:21<1:26:39,  2.02it/s]  2%|▏         | 186/10682 [03:21<1:26:40,  2.02it/s]  2%|▏         | 187/10682 [03:22<1:26:36,  2.02it/s]  2%|▏         | 188/10682 [03:22<1:26:36,  2.02it/s]  2%|▏         | 189/10682 [03:23<1:26:33,  2.02it/s]  2%|▏         | 190/10682 [03:23<1:26:39,  2.02it/s]  2%|▏         | 191/10682 [03:24<1:26:31,  2.02it/s]  2%|▏         | 192/10682 [03:24<1:26:31,  2.02it/s]  2%|▏         | 193/10682 [03:25<1:26:27,  2.02it/s]  2%|▏         | 194/10682 [03:25<1:26:29,  2.02it/s]  2%|▏         | 195/10682 [03:26<1:26:29,  2.02it/s]  2%|▏         | 196/10682 [03:26<1:26:30,  2.02it/s]  2%|▏         | 197/10682 [03:27<1:26:29,  2.02it/s]  2%|▏         | 198/10682 [03:27<1:26:29,  2.02it/s]  2%|▏         | 199/10682 [03:28<1:26:27,  2.02it/s]  2%|▏         | 200/10682 [03:28<1:26:28,  2.02it/s]                                                     {'loss': 6.5356, 'grad_norm': 0.5325525403022766, 'learning_rate': 0.00018709073900841907, 'epoch': 0.26}
-  2%|▏         | 200/10682 [03:28<1:26:28,  2.02it/s]  2%|▏         | 201/10682 [03:29<1:26:34,  2.02it/s]  2%|▏         | 202/10682 [03:29<1:26:32,  2.02it/s]  2%|▏         | 203/10682 [03:30<1:26:30,  2.02it/s]  2%|▏         | 204/10682 [03:30<1:26:28,  2.02it/s]  2%|▏         | 205/10682 [03:31<1:26:26,  2.02it/s]  2%|▏         | 206/10682 [03:31<1:26:28,  2.02it/s]  2%|▏         | 207/10682 [03:32<1:26:31,  2.02it/s]  2%|▏         | 208/10682 [03:32<1:26:32,  2.02it/s]  2%|▏         | 209/10682 [03:33<1:26:34,  2.02it/s]  2%|▏         | 210/10682 [03:33<1:26:28,  2.02it/s]  2%|▏         | 211/10682 [03:34<1:26:28,  2.02it/s]  2%|▏         | 212/10682 [03:34<1:26:22,  2.02it/s]  2%|▏         | 213/10682 [03:35<1:26:26,  2.02it/s]  2%|▏         | 214/10682 [03:35<1:26:22,  2.02it/s]  2%|▏         | 215/10682 [03:36<1:26:24,  2.02it/s]  2%|▏         | 216/10682 [03:36<1:26:19,  2.02it/s]  2%|▏         | 217/10682 [03:37<1:26:23,  2.02it/s]  2%|▏         | 218/10682 [03:37<1:26:34,  2.01it/s]  2%|▏         | 219/10682 [03:38<1:26:29,  2.02it/s]  2%|▏         | 220/10682 [03:38<1:26:26,  2.02it/s]  2%|▏         | 221/10682 [03:39<1:26:20,  2.02it/s]  2%|▏         | 222/10682 [03:39<1:26:25,  2.02it/s]  2%|▏         | 223/10682 [03:40<1:26:21,  2.02it/s]  2%|▏         | 224/10682 [03:40<1:26:19,  2.02it/s]  2%|▏         | 225/10682 [03:41<1:26:18,  2.02it/s]{'loss': 6.2746, 'grad_norm': 0.6378172636032104, 'learning_rate': 0.00021047708138447147, 'epoch': 0.29}
-                                                       2%|▏         | 225/10682 [03:41<1:26:18,  2.02it/s]  2%|▏         | 226/10682 [03:41<1:26:22,  2.02it/s]  2%|▏         | 227/10682 [03:42<1:26:20,  2.02it/s]  2%|▏         | 228/10682 [03:42<1:26:16,  2.02it/s]  2%|▏         | 229/10682 [03:43<1:26:15,  2.02it/s]  2%|▏         | 230/10682 [03:43<1:26:14,  2.02it/s]  2%|▏         | 231/10682 [03:44<1:26:19,  2.02it/s]  2%|▏         | 232/10682 [03:44<1:26:16,  2.02it/s]  2%|▏         | 233/10682 [03:45<1:26:19,  2.02it/s]  2%|▏         | 234/10682 [03:45<1:26:14,  2.02it/s]  2%|▏         | 235/10682 [03:46<1:26:18,  2.02it/s]  2%|▏         | 236/10682 [03:46<1:26:15,  2.02it/s]  2%|▏         | 237/10682 [03:47<1:26:17,  2.02it/s]  2%|▏         | 238/10682 [03:47<1:26:15,  2.02it/s]  2%|▏         | 239/10682 [03:48<1:26:12,  2.02it/s]  2%|▏         | 240/10682 [03:48<1:26:12,  2.02it/s]  2%|▏         | 241/10682 [03:49<1:26:14,  2.02it/s]  2%|▏         | 242/10682 [03:49<1:26:12,  2.02it/s]  2%|▏         | 243/10682 [03:50<1:26:14,  2.02it/s]  2%|▏         | 244/10682 [03:50<1:26:08,  2.02it/s]  2%|▏         | 245/10682 [03:51<1:26:09,  2.02it/s]  2%|▏         | 246/10682 [03:51<1:26:02,  2.02it/s]  2%|▏         | 247/10682 [03:52<1:26:08,  2.02it/s]  2%|▏         | 248/10682 [03:52<1:26:05,  2.02it/s]  2%|▏         | 249/10682 [03:53<1:26:10,  2.02it/s]  2%|▏         | 250/10682 [03:53<1:26:13,  2.02it/s]                                                     {'loss': 6.0641, 'grad_norm': 0.664199709892273, 'learning_rate': 0.00023386342376052386, 'epoch': 0.33}
-  2%|▏         | 250/10682 [03:53<1:26:13,  2.02it/s]  2%|▏         | 251/10682 [03:54<1:26:20,  2.01it/s]  2%|▏         | 252/10682 [03:54<1:26:16,  2.01it/s]  2%|▏         | 253/10682 [03:54<1:26:18,  2.01it/s]  2%|▏         | 254/10682 [03:55<1:26:13,  2.02it/s]  2%|▏         | 255/10682 [03:55<1:26:14,  2.01it/s]  2%|▏         | 256/10682 [03:56<1:26:10,  2.02it/s]  2%|▏         | 257/10682 [03:56<1:26:11,  2.02it/s]  2%|▏         | 258/10682 [03:57<1:26:08,  2.02it/s]  2%|▏         | 259/10682 [03:57<1:26:08,  2.02it/s]  2%|▏         | 260/10682 [03:58<1:26:00,  2.02it/s]  2%|▏         | 261/10682 [03:58<1:26:10,  2.02it/s]  2%|▏         | 262/10682 [03:59<1:26:03,  2.02it/s]  2%|▏         | 263/10682 [03:59<1:26:02,  2.02it/s]  2%|▏         | 264/10682 [04:00<1:26:01,  2.02it/s]  2%|▏         | 265/10682 [04:00<1:25:58,  2.02it/s]  2%|▏         | 266/10682 [04:01<1:25:53,  2.02it/s]  2%|▏         | 267/10682 [04:01<1:25:53,  2.02it/s]  3%|▎         | 268/10682 [04:02<1:25:51,  2.02it/s]  3%|▎         | 269/10682 [04:02<1:25:52,  2.02it/s]  3%|▎         | 270/10682 [04:03<1:25:59,  2.02it/s]  3%|▎         | 271/10682 [04:03<1:25:55,  2.02it/s]  3%|▎         | 272/10682 [04:04<1:25:55,  2.02it/s]  3%|▎         | 273/10682 [04:04<1:25:53,  2.02it/s]  3%|▎         | 274/10682 [04:05<1:25:56,  2.02it/s]  3%|▎         | 275/10682 [04:05<1:25:52,  2.02it/s]{'loss': 5.8867, 'grad_norm': 0.7667765021324158, 'learning_rate': 0.00025724976613657625, 'epoch': 0.36}
-                                                       3%|▎         | 275/10682 [04:05<1:25:52,  2.02it/s]  3%|▎         | 276/10682 [04:06<1:26:00,  2.02it/s]  3%|▎         | 277/10682 [04:06<1:25:55,  2.02it/s]  3%|▎         | 278/10682 [04:07<1:25:58,  2.02it/s]  3%|▎         | 279/10682 [04:07<1:25:56,  2.02it/s]  3%|▎         | 280/10682 [04:08<1:25:54,  2.02it/s]  3%|▎         | 281/10682 [04:08<1:25:53,  2.02it/s]  3%|▎         | 282/10682 [04:09<1:25:50,  2.02it/s]  3%|▎         | 283/10682 [04:09<1:25:51,  2.02it/s]  3%|▎         | 284/10682 [04:10<1:25:48,  2.02it/s]  3%|▎         | 285/10682 [04:10<1:25:50,  2.02it/s]  3%|▎         | 286/10682 [04:11<1:25:55,  2.02it/s]  3%|▎         | 287/10682 [04:11<1:25:57,  2.02it/s]  3%|▎         | 288/10682 [04:12<1:25:56,  2.02it/s]  3%|▎         | 289/10682 [04:12<1:25:51,  2.02it/s]  3%|▎         | 290/10682 [04:13<1:25:57,  2.02it/s]  3%|▎         | 291/10682 [04:13<1:25:52,  2.02it/s]  3%|▎         | 292/10682 [04:14<1:25:53,  2.02it/s]  3%|▎         | 293/10682 [04:14<1:25:51,  2.02it/s]  3%|▎         | 294/10682 [04:15<1:25:50,  2.02it/s]  3%|▎         | 295/10682 [04:15<1:25:48,  2.02it/s]  3%|▎         | 296/10682 [04:16<1:25:44,  2.02it/s]  3%|▎         | 297/10682 [04:16<1:25:45,  2.02it/s]  3%|▎         | 298/10682 [04:17<1:25:41,  2.02it/s]  3%|▎         | 299/10682 [04:17<1:25:46,  2.02it/s]  3%|▎         | 300/10682 [04:18<1:25:41,  2.02it/s]{'loss': 5.736, 'grad_norm': 0.7596151232719421, 'learning_rate': 0.0002806361085126286, 'epoch': 0.39}
-                                                       3%|▎         | 300/10682 [04:18<1:25:41,  2.02it/s]  3%|▎         | 301/10682 [04:18<1:25:51,  2.02it/s]  3%|▎         | 302/10682 [04:19<1:25:46,  2.02it/s]  3%|▎         | 303/10682 [04:19<1:25:45,  2.02it/s]  3%|▎         | 304/10682 [04:20<1:25:42,  2.02it/s]  3%|▎         | 305/10682 [04:20<1:25:42,  2.02it/s]  3%|▎         | 306/10682 [04:21<1:25:41,  2.02it/s]  3%|▎         | 307/10682 [04:21<1:25:39,  2.02it/s]  3%|▎         | 308/10682 [04:22<1:25:38,  2.02it/s]  3%|▎         | 309/10682 [04:22<1:25:36,  2.02it/s]  3%|▎         | 310/10682 [04:23<1:25:36,  2.02it/s]  3%|▎         | 311/10682 [04:23<1:25:36,  2.02it/s]  3%|▎         | 312/10682 [04:24<1:25:38,  2.02it/s]  3%|▎         | 313/10682 [04:24<1:25:35,  2.02it/s]  3%|▎         | 314/10682 [04:25<1:25:38,  2.02it/s]  3%|▎         | 315/10682 [04:25<1:25:34,  2.02it/s]  3%|▎         | 316/10682 [04:26<1:25:38,  2.02it/s]  3%|▎         | 317/10682 [04:26<1:25:32,  2.02it/s]  3%|▎         | 318/10682 [04:27<1:25:34,  2.02it/s]  3%|▎         | 319/10682 [04:27<1:25:30,  2.02it/s]  3%|▎         | 320/10682 [04:28<1:25:33,  2.02it/s]  3%|▎         | 321/10682 [04:28<1:25:26,  2.02it/s]  3%|▎         | 322/10682 [04:29<1:25:29,  2.02it/s]  3%|▎         | 323/10682 [04:29<1:25:22,  2.02it/s]  3%|▎         | 324/10682 [04:30<1:25:28,  2.02it/s]  3%|▎         | 325/10682 [04:30<1:25:22,  2.02it/s]                                                     {'loss': 5.6214, 'grad_norm': 0.7320352792739868, 'learning_rate': 0.00030402245088868103, 'epoch': 0.43}
-  3%|▎         | 325/10682 [04:30<1:25:22,  2.02it/s]  3%|▎         | 326/10682 [04:31<1:25:30,  2.02it/s]  3%|▎         | 327/10682 [04:31<1:25:25,  2.02it/s]  3%|▎         | 328/10682 [04:32<1:25:26,  2.02it/s]  3%|▎         | 329/10682 [04:32<1:25:26,  2.02it/s]  3%|▎         | 330/10682 [04:33<1:25:29,  2.02it/s]  3%|▎         | 331/10682 [04:33<1:25:26,  2.02it/s]  3%|▎         | 332/10682 [04:34<1:25:31,  2.02it/s]  3%|▎         | 333/10682 [04:34<1:25:27,  2.02it/s]  3%|▎         | 334/10682 [04:35<1:25:26,  2.02it/s]  3%|▎         | 335/10682 [04:35<1:25:23,  2.02it/s]  3%|▎         | 336/10682 [04:36<1:25:27,  2.02it/s]  3%|▎         | 337/10682 [04:36<1:25:19,  2.02it/s]  3%|▎         | 338/10682 [04:37<1:25:21,  2.02it/s]  3%|▎         | 339/10682 [04:37<1:25:18,  2.02it/s]  3%|▎         | 340/10682 [04:38<1:25:20,  2.02it/s]  3%|▎         | 341/10682 [04:38<1:25:13,  2.02it/s]  3%|▎         | 342/10682 [04:39<1:25:18,  2.02it/s]  3%|▎         | 343/10682 [04:39<1:25:15,  2.02it/s]  3%|▎         | 344/10682 [04:40<1:25:20,  2.02it/s]  3%|▎         | 345/10682 [04:40<1:25:14,  2.02it/s]  3%|▎         | 346/10682 [04:41<1:25:16,  2.02it/s]  3%|▎         | 347/10682 [04:41<1:25:17,  2.02it/s]  3%|▎         | 348/10682 [04:42<1:25:17,  2.02it/s]  3%|▎         | 349/10682 [04:42<1:25:16,  2.02it/s]  3%|▎         | 350/10682 [04:43<1:25:14,  2.02it/s]                                                     {'loss': 5.5113, 'grad_norm': 0.6104658842086792, 'learning_rate': 0.00032740879326473337, 'epoch': 0.46}
-  3%|▎         | 350/10682 [04:43<1:25:14,  2.02it/s]  3%|▎         | 351/10682 [04:43<1:25:23,  2.02it/s]  3%|▎         | 352/10682 [04:44<1:25:17,  2.02it/s]  3%|▎         | 353/10682 [04:44<1:25:18,  2.02it/s]  3%|▎         | 354/10682 [04:45<1:25:15,  2.02it/s]  3%|▎         | 355/10682 [04:45<1:25:21,  2.02it/s]  3%|▎         | 356/10682 [04:46<1:25:19,  2.02it/s]  3%|▎         | 357/10682 [04:46<1:25:22,  2.02it/s]  3%|▎         | 358/10682 [04:47<1:25:24,  2.01it/s]  3%|▎         | 359/10682 [04:47<1:25:22,  2.02it/s]  3%|▎         | 360/10682 [04:48<1:25:22,  2.02it/s]  3%|▎         | 361/10682 [04:48<1:25:18,  2.02it/s]  3%|▎         | 362/10682 [04:48<1:25:20,  2.02it/s]  3%|▎         | 363/10682 [04:49<1:25:15,  2.02it/s]  3%|▎         | 364/10682 [04:49<1:25:16,  2.02it/s]  3%|▎         | 365/10682 [04:50<1:25:16,  2.02it/s]  3%|▎         | 366/10682 [04:50<1:25:16,  2.02it/s]  3%|▎         | 367/10682 [04:51<1:25:13,  2.02it/s]  3%|▎         | 368/10682 [04:51<1:25:15,  2.02it/s]  3%|▎         | 369/10682 [04:52<1:25:11,  2.02it/s]  3%|▎         | 370/10682 [04:52<1:25:13,  2.02it/s]  3%|▎         | 371/10682 [04:53<1:25:15,  2.02it/s]  3%|▎         | 372/10682 [04:53<1:25:13,  2.02it/s]  3%|▎         | 373/10682 [04:54<1:25:13,  2.02it/s]  4%|▎         | 374/10682 [04:54<1:25:08,  2.02it/s]  4%|▎         | 375/10682 [04:55<1:25:08,  2.02it/s]{'loss': 5.4065, 'grad_norm': 0.6258764863014221, 'learning_rate': 0.0003507951356407858, 'epoch': 0.49}
-                                                       4%|▎         | 375/10682 [04:55<1:25:08,  2.02it/s]  4%|▎         | 376/10682 [04:55<1:25:08,  2.02it/s]  4%|▎         | 377/10682 [04:56<1:25:10,  2.02it/s]  4%|▎         | 378/10682 [04:56<1:25:06,  2.02it/s]  4%|▎         | 379/10682 [04:57<1:25:07,  2.02it/s]  4%|▎         | 380/10682 [04:57<1:24:59,  2.02it/s]  4%|▎         | 381/10682 [04:58<1:25:01,  2.02it/s]  4%|▎         | 382/10682 [04:58<1:24:57,  2.02it/s]  4%|▎         | 383/10682 [04:59<1:24:59,  2.02it/s]  4%|▎         | 384/10682 [04:59<1:24:55,  2.02it/s]  4%|▎         | 385/10682 [05:00<1:24:58,  2.02it/s]  4%|▎         | 386/10682 [05:00<1:24:56,  2.02it/s]  4%|▎         | 387/10682 [05:01<1:24:56,  2.02it/s]  4%|▎         | 388/10682 [05:01<1:24:56,  2.02it/s]  4%|▎         | 389/10682 [05:02<1:24:56,  2.02it/s]  4%|▎         | 390/10682 [05:02<1:24:57,  2.02it/s]  4%|▎         | 391/10682 [05:03<1:24:59,  2.02it/s]  4%|▎         | 392/10682 [05:03<1:25:00,  2.02it/s]  4%|▎         | 393/10682 [05:04<1:24:56,  2.02it/s]  4%|▎         | 394/10682 [05:04<1:24:57,  2.02it/s]  4%|▎         | 395/10682 [05:05<1:24:52,  2.02it/s]  4%|▎         | 396/10682 [05:05<1:24:57,  2.02it/s]  4%|▎         | 397/10682 [05:06<1:24:52,  2.02it/s]  4%|▎         | 398/10682 [05:06<1:24:51,  2.02it/s]  4%|▎         | 399/10682 [05:07<1:24:47,  2.02it/s]  4%|▎         | 400/10682 [05:07<1:24:50,  2.02it/s]                                                     {'loss': 5.3179, 'grad_norm': 0.6563537120819092, 'learning_rate': 0.00037418147801683815, 'epoch': 0.52}
-  4%|▎         | 400/10682 [05:07<1:24:50,  2.02it/s]  4%|▍         | 401/10682 [05:08<1:24:59,  2.02it/s]  4%|▍         | 402/10682 [05:08<1:24:56,  2.02it/s]  4%|▍         | 403/10682 [05:09<1:24:55,  2.02it/s]  4%|▍         | 404/10682 [05:09<1:24:52,  2.02it/s]  4%|▍         | 405/10682 [05:10<1:24:52,  2.02it/s]  4%|▍         | 406/10682 [05:10<1:24:45,  2.02it/s]  4%|▍         | 407/10682 [05:11<1:24:47,  2.02it/s]  4%|▍         | 408/10682 [05:11<1:24:44,  2.02it/s]  4%|▍         | 409/10682 [05:12<1:24:46,  2.02it/s]  4%|▍         | 410/10682 [05:12<1:24:42,  2.02it/s]  4%|▍         | 411/10682 [05:13<1:24:46,  2.02it/s]  4%|▍         | 412/10682 [05:13<1:24:42,  2.02it/s]  4%|▍         | 413/10682 [05:14<1:24:47,  2.02it/s]  4%|▍         | 414/10682 [05:14<1:24:46,  2.02it/s]  4%|▍         | 415/10682 [05:15<1:24:46,  2.02it/s]  4%|▍         | 416/10682 [05:15<1:24:49,  2.02it/s]  4%|▍         | 417/10682 [05:16<1:24:45,  2.02it/s]  4%|▍         | 418/10682 [05:16<1:24:44,  2.02it/s]  4%|▍         | 419/10682 [05:17<1:24:40,  2.02it/s]  4%|▍         | 420/10682 [05:17<1:24:42,  2.02it/s]  4%|▍         | 421/10682 [05:18<1:24:39,  2.02it/s]  4%|▍         | 422/10682 [05:18<1:24:43,  2.02it/s]  4%|▍         | 423/10682 [05:19<1:24:36,  2.02it/s]  4%|▍         | 424/10682 [05:19<1:24:41,  2.02it/s]  4%|▍         | 425/10682 [05:20<1:24:36,  2.02it/s]{'loss': 5.2373, 'grad_norm': 0.6940412521362305, 'learning_rate': 0.0003975678203928906, 'epoch': 0.56}                                                     
-  4%|▍         | 425/10682 [05:20<1:24:36,  2.02it/s]  4%|▍         | 426/10682 [05:20<1:24:45,  2.02it/s]  4%|▍         | 427/10682 [05:21<1:24:41,  2.02it/s]  4%|▍         | 428/10682 [05:21<1:24:42,  2.02it/s]  4%|▍         | 429/10682 [05:22<1:24:41,  2.02it/s]  4%|▍         | 430/10682 [05:22<1:24:37,  2.02it/s]  4%|▍         | 431/10682 [05:23<1:24:42,  2.02it/s]  4%|▍         | 432/10682 [05:23<1:24:36,  2.02it/s]  4%|▍         | 433/10682 [05:24<1:24:38,  2.02it/s]  4%|▍         | 434/10682 [05:24<1:24:34,  2.02it/s]  4%|▍         | 435/10682 [05:25<1:24:39,  2.02it/s]  4%|▍         | 436/10682 [05:25<1:24:32,  2.02it/s]  4%|▍         | 437/10682 [05:26<1:24:34,  2.02it/s]  4%|▍         | 438/10682 [05:26<1:24:35,  2.02it/s]  4%|▍         | 439/10682 [05:27<1:24:39,  2.02it/s]  4%|▍         | 440/10682 [05:27<1:24:34,  2.02it/s]  4%|▍         | 441/10682 [05:28<1:24:34,  2.02it/s]  4%|▍         | 442/10682 [05:28<1:24:31,  2.02it/s]  4%|▍         | 443/10682 [05:29<1:24:29,  2.02it/s]  4%|▍         | 444/10682 [05:29<1:24:28,  2.02it/s]  4%|▍         | 445/10682 [05:30<1:24:31,  2.02it/s]  4%|▍         | 446/10682 [05:30<1:24:32,  2.02it/s]  4%|▍         | 447/10682 [05:31<1:24:35,  2.02it/s]  4%|▍         | 448/10682 [05:31<1:24:33,  2.02it/s]  4%|▍         | 449/10682 [05:32<1:24:36,  2.02it/s]  4%|▍         | 450/10682 [05:32<1:24:39,  2.01it/s]                                                     {'loss': 5.156, 'grad_norm': 0.6822566986083984, 'learning_rate': 0.00042095416276894293, 'epoch': 0.59}
-  4%|▍         | 450/10682 [05:32<1:24:39,  2.01it/s]  4%|▍         | 451/10682 [05:33<1:24:41,  2.01it/s]  4%|▍         | 452/10682 [05:33<1:24:40,  2.01it/s]  4%|▍         | 453/10682 [05:34<1:24:35,  2.02it/s]  4%|▍         | 454/10682 [05:34<1:24:36,  2.01it/s]  4%|▍         | 455/10682 [05:35<1:24:31,  2.02it/s]  4%|▍         | 456/10682 [05:35<1:24:31,  2.02it/s]  4%|▍         | 457/10682 [05:36<1:24:24,  2.02it/s]  4%|▍         | 458/10682 [05:36<1:24:27,  2.02it/s]  4%|▍         | 459/10682 [05:37<1:24:24,  2.02it/s]  4%|▍         | 460/10682 [05:37<1:24:21,  2.02it/s]  4%|▍         | 461/10682 [05:38<1:24:22,  2.02it/s]  4%|▍         | 462/10682 [05:38<1:24:24,  2.02it/s]  4%|▍         | 463/10682 [05:39<1:24:21,  2.02it/s]  4%|▍         | 464/10682 [05:39<1:24:21,  2.02it/s]  4%|▍         | 465/10682 [05:40<1:24:26,  2.02it/s]  4%|▍         | 466/10682 [05:40<1:24:20,  2.02it/s]  4%|▍         | 467/10682 [05:41<1:24:22,  2.02it/s]  4%|▍         | 468/10682 [05:41<1:24:18,  2.02it/s]  4%|▍         | 469/10682 [05:42<1:24:16,  2.02it/s]  4%|▍         | 470/10682 [05:42<1:24:14,  2.02it/s]  4%|▍         | 471/10682 [05:42<1:24:11,  2.02it/s]  4%|▍         | 472/10682 [05:43<1:24:17,  2.02it/s]  4%|▍         | 473/10682 [05:43<1:24:20,  2.02it/s]  4%|▍         | 474/10682 [05:44<1:24:23,  2.02it/s]  4%|▍         | 475/10682 [05:44<1:24:24,  2.02it/s]                                                     {'loss': 5.0844, 'grad_norm': 0.5810084342956543, 'learning_rate': 0.0004443405051449954, 'epoch': 0.62}
-  4%|▍         | 475/10682 [05:44<1:24:24,  2.02it/s]  4%|▍         | 476/10682 [05:45<1:24:22,  2.02it/s]  4%|▍         | 477/10682 [05:45<1:24:24,  2.02it/s]  4%|▍         | 478/10682 [05:46<1:24:19,  2.02it/s]  4%|▍         | 479/10682 [05:46<1:24:18,  2.02it/s]  4%|▍         | 480/10682 [05:47<1:24:12,  2.02it/s]  5%|▍         | 481/10682 [05:47<1:24:09,  2.02it/s]  5%|▍         | 482/10682 [05:48<1:24:04,  2.02it/s]  5%|▍         | 483/10682 [05:48<1:24:09,  2.02it/s]  5%|▍         | 484/10682 [05:49<1:24:05,  2.02it/s]  5%|▍         | 485/10682 [05:49<1:24:08,  2.02it/s]  5%|▍         | 486/10682 [05:50<1:24:10,  2.02it/s]  5%|▍         | 487/10682 [05:50<1:24:07,  2.02it/s]  5%|▍         | 488/10682 [05:51<1:24:08,  2.02it/s]  5%|▍         | 489/10682 [05:51<1:24:05,  2.02it/s]  5%|▍         | 490/10682 [05:52<1:24:08,  2.02it/s]  5%|▍         | 491/10682 [05:52<1:24:00,  2.02it/s]  5%|▍         | 492/10682 [05:53<1:24:04,  2.02it/s]  5%|▍         | 493/10682 [05:53<1:23:59,  2.02it/s]  5%|▍         | 494/10682 [05:54<1:24:01,  2.02it/s]  5%|▍         | 495/10682 [05:54<1:23:59,  2.02it/s]  5%|▍         | 496/10682 [05:55<1:24:02,  2.02it/s]  5%|▍         | 497/10682 [05:55<1:24:01,  2.02it/s]  5%|▍         | 498/10682 [05:56<1:24:04,  2.02it/s]  5%|▍         | 499/10682 [05:56<1:23:56,  2.02it/s]  5%|▍         | 500/10682 [05:57<1:24:00,  2.02it/s]                                                     {'loss': 5.0179, 'grad_norm': 0.7091294527053833, 'learning_rate': 0.0004677268475210477, 'epoch': 0.66}
-  5%|▍         | 500/10682 [05:57<1:24:00,  2.02it/s]  5%|▍         | 501/10682 [05:57<1:24:05,  2.02it/s]  5%|▍         | 502/10682 [05:58<1:24:04,  2.02it/s]  5%|▍         | 503/10682 [05:58<1:24:02,  2.02it/s]  5%|▍         | 504/10682 [05:59<1:24:03,  2.02it/s]  5%|▍         | 505/10682 [05:59<1:24:02,  2.02it/s]  5%|▍         | 506/10682 [06:00<1:24:00,  2.02it/s]  5%|▍         | 507/10682 [06:00<1:24:05,  2.02it/s]  5%|▍         | 508/10682 [06:01<1:23:59,  2.02it/s]  5%|▍         | 509/10682 [06:01<1:24:01,  2.02it/s]  5%|▍         | 510/10682 [06:02<1:23:58,  2.02it/s]  5%|▍         | 511/10682 [06:02<1:23:57,  2.02it/s]  5%|▍         | 512/10682 [06:03<1:23:56,  2.02it/s]  5%|▍         | 513/10682 [06:03<1:23:56,  2.02it/s]  5%|▍         | 514/10682 [06:04<1:23:58,  2.02it/s]  5%|▍         | 515/10682 [06:04<1:23:57,  2.02it/s]  5%|▍         | 516/10682 [06:05<1:23:59,  2.02it/s]  5%|▍         | 517/10682 [06:05<1:23:53,  2.02it/s]  5%|▍         | 518/10682 [06:06<1:23:57,  2.02it/s]  5%|▍         | 519/10682 [06:06<1:23:53,  2.02it/s]  5%|▍         | 520/10682 [06:07<1:23:57,  2.02it/s]  5%|▍         | 521/10682 [06:07<1:23:54,  2.02it/s]  5%|▍         | 522/10682 [06:08<1:23:58,  2.02it/s]  5%|▍         | 523/10682 [06:08<1:23:53,  2.02it/s]  5%|▍         | 524/10682 [06:09<1:23:57,  2.02it/s]  5%|▍         | 525/10682 [06:09<1:23:57,  2.02it/s]{'loss': 4.9582, 'grad_norm': 0.6471843719482422, 'learning_rate': 0.0004911131898971, 'epoch': 0.69}                                                     
-  5%|▍         | 525/10682 [06:09<1:23:57,  2.02it/s]  5%|▍         | 526/10682 [06:10<1:24:02,  2.01it/s]  5%|▍         | 527/10682 [06:10<1:24:01,  2.01it/s]  5%|▍         | 528/10682 [06:11<1:23:57,  2.02it/s]  5%|▍         | 529/10682 [06:11<1:23:52,  2.02it/s]  5%|▍         | 530/10682 [06:12<1:23:54,  2.02it/s]  5%|▍         | 531/10682 [06:12<1:23:52,  2.02it/s]  5%|▍         | 532/10682 [06:13<1:23:53,  2.02it/s]  5%|▍         | 533/10682 [06:13<1:23:52,  2.02it/s]  5%|▍         | 534/10682 [06:14<1:23:53,  2.02it/s]  5%|▌         | 535/10682 [06:14<1:23:55,  2.01it/s]  5%|▌         | 536/10682 [06:15<1:23:51,  2.02it/s]  5%|▌         | 537/10682 [06:15<1:23:52,  2.02it/s]  5%|▌         | 538/10682 [06:16<1:23:50,  2.02it/s]  5%|▌         | 539/10682 [06:16<1:23:51,  2.02it/s]  5%|▌         | 540/10682 [06:17<1:23:47,  2.02it/s]  5%|▌         | 541/10682 [06:17<1:23:47,  2.02it/s]  5%|▌         | 542/10682 [06:18<1:23:49,  2.02it/s]  5%|▌         | 543/10682 [06:18<1:23:47,  2.02it/s]  5%|▌         | 544/10682 [06:19<1:23:49,  2.02it/s]  5%|▌         | 545/10682 [06:19<1:23:46,  2.02it/s]  5%|▌         | 546/10682 [06:20<1:23:48,  2.02it/s]  5%|▌         | 547/10682 [06:20<1:23:41,  2.02it/s]  5%|▌         | 548/10682 [06:21<1:23:43,  2.02it/s]  5%|▌         | 549/10682 [06:21<1:23:41,  2.02it/s]  5%|▌         | 550/10682 [06:22<1:23:43,  2.02it/s]                                                     {'loss': 4.8969, 'grad_norm': 0.6236402988433838, 'learning_rate': 0.0005144995322731525, 'epoch': 0.72}
-  5%|▌         | 550/10682 [06:22<1:23:43,  2.02it/s]  5%|▌         | 551/10682 [06:22<1:23:49,  2.01it/s]  5%|▌         | 552/10682 [06:23<1:23:43,  2.02it/s]  5%|▌         | 553/10682 [06:23<1:23:44,  2.02it/s]  5%|▌         | 554/10682 [06:24<1:23:40,  2.02it/s]  5%|▌         | 555/10682 [06:24<1:23:41,  2.02it/s]  5%|▌         | 556/10682 [06:25<1:23:37,  2.02it/s]  5%|▌         | 557/10682 [06:25<1:23:39,  2.02it/s]  5%|▌         | 558/10682 [06:26<1:23:33,  2.02it/s]  5%|▌         | 559/10682 [06:26<1:23:33,  2.02it/s]  5%|▌         | 560/10682 [06:27<1:23:33,  2.02it/s]  5%|▌         | 561/10682 [06:27<1:23:33,  2.02it/s]  5%|▌         | 562/10682 [06:28<1:23:32,  2.02it/s]  5%|▌         | 563/10682 [06:28<1:23:28,  2.02it/s]  5%|▌         | 564/10682 [06:29<1:23:34,  2.02it/s]  5%|▌         | 565/10682 [06:29<1:23:30,  2.02it/s]  5%|▌         | 566/10682 [06:30<1:23:37,  2.02it/s]  5%|▌         | 567/10682 [06:30<1:23:33,  2.02it/s]  5%|▌         | 568/10682 [06:31<1:23:36,  2.02it/s]  5%|▌         | 569/10682 [06:31<1:23:39,  2.01it/s]  5%|▌         | 570/10682 [06:32<1:23:34,  2.02it/s]  5%|▌         | 571/10682 [06:32<1:23:32,  2.02it/s]  5%|▌         | 572/10682 [06:33<1:23:30,  2.02it/s]  5%|▌         | 573/10682 [06:33<1:23:29,  2.02it/s]  5%|▌         | 574/10682 [06:34<1:23:25,  2.02it/s]  5%|▌         | 575/10682 [06:34<1:23:27,  2.02it/s]{'loss': 4.8462, 'grad_norm': 0.6192285418510437, 'learning_rate': 0.0005378858746492049, 'epoch': 0.75}
-                                                       5%|▌         | 575/10682 [06:34<1:23:27,  2.02it/s]  5%|▌         | 576/10682 [06:35<1:23:28,  2.02it/s]  5%|▌         | 577/10682 [06:35<1:23:31,  2.02it/s]  5%|▌         | 578/10682 [06:36<1:23:29,  2.02it/s]  5%|▌         | 579/10682 [06:36<1:23:27,  2.02it/s]  5%|▌         | 580/10682 [06:37<1:23:27,  2.02it/s]  5%|▌         | 581/10682 [06:37<1:23:25,  2.02it/s]  5%|▌         | 582/10682 [06:38<1:23:26,  2.02it/s]  5%|▌         | 583/10682 [06:38<1:23:22,  2.02it/s]  5%|▌         | 584/10682 [06:39<1:23:24,  2.02it/s]  5%|▌         | 585/10682 [06:39<1:23:21,  2.02it/s]  5%|▌         | 586/10682 [06:39<1:23:23,  2.02it/s]  5%|▌         | 587/10682 [06:40<1:23:21,  2.02it/s]  6%|▌         | 588/10682 [06:40<1:23:21,  2.02it/s]  6%|▌         | 589/10682 [06:41<1:23:23,  2.02it/s]  6%|▌         | 590/10682 [06:41<1:23:25,  2.02it/s]  6%|▌         | 591/10682 [06:42<1:23:26,  2.02it/s]  6%|▌         | 592/10682 [06:42<1:23:24,  2.02it/s]  6%|▌         | 593/10682 [06:43<1:23:22,  2.02it/s]  6%|▌         | 594/10682 [06:43<1:23:22,  2.02it/s]  6%|▌         | 595/10682 [06:44<1:23:22,  2.02it/s]  6%|▌         | 596/10682 [06:44<1:23:19,  2.02it/s]  6%|▌         | 597/10682 [06:45<1:23:17,  2.02it/s]  6%|▌         | 598/10682 [06:45<1:23:19,  2.02it/s]  6%|▌         | 599/10682 [06:46<1:23:15,  2.02it/s]  6%|▌         | 600/10682 [06:46<1:23:16,  2.02it/s]                                                     {'loss': 4.8063, 'grad_norm': 0.48572197556495667, 'learning_rate': 0.0005612722170252572, 'epoch': 0.79}
-  6%|▌         | 600/10682 [06:46<1:23:16,  2.02it/s]  6%|▌         | 601/10682 [06:47<1:23:26,  2.01it/s]  6%|▌         | 602/10682 [06:47<1:23:22,  2.01it/s]  6%|▌         | 603/10682 [06:48<1:23:23,  2.01it/s]  6%|▌         | 604/10682 [06:48<1:23:26,  2.01it/s]  6%|▌         | 605/10682 [06:49<1:23:21,  2.01it/s]  6%|▌         | 606/10682 [06:49<1:23:22,  2.01it/s]  6%|▌         | 607/10682 [06:50<1:23:15,  2.02it/s]  6%|▌         | 608/10682 [06:50<1:23:18,  2.02it/s]  6%|▌         | 609/10682 [06:51<1:30:19,  1.86it/s]  6%|▌         | 610/10682 [06:52<1:28:14,  1.90it/s]  6%|▌         | 611/10682 [06:52<1:26:47,  1.93it/s]  6%|▌         | 612/10682 [06:53<1:25:43,  1.96it/s]  6%|▌         | 613/10682 [06:53<1:24:56,  1.98it/s]  6%|▌         | 614/10682 [06:54<1:24:19,  1.99it/s]  6%|▌         | 615/10682 [06:54<1:24:01,  2.00it/s]  6%|▌         | 616/10682 [06:55<1:31:17,  1.84it/s]  6%|▌         | 617/10682 [06:55<1:28:42,  1.89it/s]  6%|▌         | 618/10682 [06:56<1:27:04,  1.93it/s]  6%|▌         | 619/10682 [06:56<1:25:48,  1.95it/s]  6%|▌         | 620/10682 [06:57<1:25:03,  1.97it/s]  6%|▌         | 621/10682 [06:57<1:24:26,  1.99it/s]  6%|▌         | 622/10682 [06:58<1:24:02,  2.00it/s]  6%|▌         | 623/10682 [06:58<1:23:41,  2.00it/s]  6%|▌         | 624/10682 [06:59<1:23:32,  2.01it/s]  6%|▌         | 625/10682 [06:59<1:23:24,  2.01it/s]                                                     {'loss': 4.758, 'grad_norm': 0.5485813617706299, 'learning_rate': 0.0005846585594013096, 'epoch': 0.82}
-  6%|▌         | 625/10682 [06:59<1:23:24,  2.01it/s]  6%|▌         | 626/10682 [07:00<1:23:18,  2.01it/s]  6%|▌         | 627/10682 [07:00<1:23:12,  2.01it/s]  6%|▌         | 628/10682 [07:01<1:23:05,  2.02it/s]  6%|▌         | 629/10682 [07:01<1:23:04,  2.02it/s]  6%|▌         | 630/10682 [07:02<1:23:00,  2.02it/s]  6%|▌         | 631/10682 [07:02<1:22:59,  2.02it/s]  6%|▌         | 632/10682 [07:03<1:22:58,  2.02it/s]  6%|▌         | 633/10682 [07:03<1:23:01,  2.02it/s]  6%|▌         | 634/10682 [07:04<1:22:57,  2.02it/s]  6%|▌         | 635/10682 [07:04<1:23:00,  2.02it/s]  6%|▌         | 636/10682 [07:05<1:23:00,  2.02it/s]  6%|▌         | 637/10682 [07:05<1:22:59,  2.02it/s]  6%|▌         | 638/10682 [07:06<1:22:56,  2.02it/s]  6%|▌         | 639/10682 [07:06<1:22:56,  2.02it/s]  6%|▌         | 640/10682 [07:07<1:22:52,  2.02it/s]  6%|▌         | 641/10682 [07:07<1:22:54,  2.02it/s]  6%|▌         | 642/10682 [07:08<1:22:47,  2.02it/s]  6%|▌         | 643/10682 [07:08<1:22:49,  2.02it/s]  6%|▌         | 644/10682 [07:09<1:22:45,  2.02it/s]  6%|▌         | 645/10682 [07:09<1:22:49,  2.02it/s]  6%|▌         | 646/10682 [07:10<1:22:45,  2.02it/s]  6%|▌         | 647/10682 [07:10<1:22:48,  2.02it/s]  6%|▌         | 648/10682 [07:11<1:22:46,  2.02it/s]  6%|▌         | 649/10682 [07:11<1:22:50,  2.02it/s]  6%|▌         | 650/10682 [07:12<1:22:48,  2.02it/s]{'loss': 4.7245, 'grad_norm': 0.5011232495307922, 'learning_rate': 0.0006080449017773621, 'epoch': 0.85}
-                                                       6%|▌         | 650/10682 [07:12<1:22:48,  2.02it/s]  6%|▌         | 651/10682 [07:12<1:22:55,  2.02it/s]  6%|▌         | 652/10682 [07:12<1:22:50,  2.02it/s]  6%|▌         | 653/10682 [07:13<1:22:50,  2.02it/s]  6%|▌         | 654/10682 [07:13<1:22:49,  2.02it/s]  6%|▌         | 655/10682 [07:14<1:22:50,  2.02it/s]  6%|▌         | 656/10682 [07:14<1:22:50,  2.02it/s]  6%|▌         | 657/10682 [07:15<1:22:50,  2.02it/s]  6%|▌         | 658/10682 [07:15<1:22:51,  2.02it/s]  6%|▌         | 659/10682 [07:16<1:22:56,  2.01it/s]  6%|▌         | 660/10682 [07:16<1:22:52,  2.02it/s]  6%|▌         | 661/10682 [07:17<1:22:55,  2.01it/s]  6%|▌         | 662/10682 [07:17<1:22:49,  2.02it/s]  6%|▌         | 663/10682 [07:18<1:22:50,  2.02it/s]  6%|▌         | 664/10682 [07:18<1:22:45,  2.02it/s]  6%|▌         | 665/10682 [07:19<1:22:48,  2.02it/s]  6%|▌         | 666/10682 [07:19<1:22:43,  2.02it/s]  6%|▌         | 667/10682 [07:20<1:22:46,  2.02it/s]  6%|▋         | 668/10682 [07:20<1:22:40,  2.02it/s]  6%|▋         | 669/10682 [07:21<1:22:43,  2.02it/s]  6%|▋         | 670/10682 [07:21<1:22:38,  2.02it/s]  6%|▋         | 671/10682 [07:22<1:22:41,  2.02it/s]  6%|▋         | 672/10682 [07:22<1:22:39,  2.02it/s]  6%|▋         | 673/10682 [07:23<1:22:40,  2.02it/s]  6%|▋         | 674/10682 [07:23<1:22:44,  2.02it/s]  6%|▋         | 675/10682 [07:24<1:22:41,  2.02it/s]                                                     {'loss': 4.6818, 'grad_norm': 0.47154542803764343, 'learning_rate': 0.0006314312441534145, 'epoch': 0.88}
-  6%|▋         | 675/10682 [07:24<1:22:41,  2.02it/s]  6%|▋         | 676/10682 [07:24<1:22:48,  2.01it/s]  6%|▋         | 677/10682 [07:25<1:22:43,  2.02it/s]  6%|▋         | 678/10682 [07:25<1:22:41,  2.02it/s]  6%|▋         | 679/10682 [07:26<1:22:41,  2.02it/s]  6%|▋         | 680/10682 [07:26<1:22:37,  2.02it/s]  6%|▋         | 681/10682 [07:27<1:22:42,  2.02it/s]  6%|▋         | 682/10682 [07:27<1:22:35,  2.02it/s]  6%|▋         | 683/10682 [07:28<1:22:40,  2.02it/s]  6%|▋         | 684/10682 [07:28<1:22:35,  2.02it/s]  6%|▋         | 685/10682 [07:29<1:22:38,  2.02it/s]  6%|▋         | 686/10682 [07:29<1:22:44,  2.01it/s]  6%|▋         | 687/10682 [07:30<1:22:39,  2.02it/s]  6%|▋         | 688/10682 [07:30<1:22:37,  2.02it/s]  6%|▋         | 689/10682 [07:31<1:22:37,  2.02it/s]  6%|▋         | 690/10682 [07:31<1:22:38,  2.02it/s]  6%|▋         | 691/10682 [07:32<1:22:37,  2.02it/s]  6%|▋         | 692/10682 [07:32<1:22:38,  2.01it/s]  6%|▋         | 693/10682 [07:33<1:22:37,  2.01it/s]  6%|▋         | 694/10682 [07:33<1:22:36,  2.01it/s]  7%|▋         | 695/10682 [07:34<1:22:32,  2.02it/s]  7%|▋         | 696/10682 [07:34<1:22:30,  2.02it/s]  7%|▋         | 697/10682 [07:35<1:22:27,  2.02it/s]  7%|▋         | 698/10682 [07:35<1:22:28,  2.02it/s]  7%|▋         | 699/10682 [07:36<1:22:26,  2.02it/s]  7%|▋         | 700/10682 [07:36<1:22:27,  2.02it/s]                                                     {'loss': 4.6438, 'grad_norm': 0.4610711336135864, 'learning_rate': 0.0006548175865294667, 'epoch': 0.92}
-  7%|▋         | 700/10682 [07:36<1:22:27,  2.02it/s]  7%|▋         | 701/10682 [07:37<1:22:33,  2.02it/s]  7%|▋         | 702/10682 [07:37<1:22:33,  2.01it/s]  7%|▋         | 703/10682 [07:38<1:22:30,  2.02it/s]  7%|▋         | 704/10682 [07:38<1:22:30,  2.02it/s]  7%|▋         | 705/10682 [07:39<1:22:27,  2.02it/s]  7%|▋         | 706/10682 [07:39<1:22:30,  2.02it/s]  7%|▋         | 707/10682 [07:40<1:22:25,  2.02it/s]  7%|▋         | 708/10682 [07:40<1:22:27,  2.02it/s]  7%|▋         | 709/10682 [07:41<1:22:31,  2.01it/s]  7%|▋         | 710/10682 [07:41<1:22:26,  2.02it/s]  7%|▋         | 711/10682 [07:42<1:22:30,  2.01it/s]  7%|▋         | 712/10682 [07:42<1:22:26,  2.02it/s]  7%|▋         | 713/10682 [07:43<1:22:29,  2.01it/s]  7%|▋         | 714/10682 [07:43<1:22:20,  2.02it/s]  7%|▋         | 715/10682 [07:44<1:22:23,  2.02it/s]  7%|▋         | 716/10682 [07:44<1:22:17,  2.02it/s]  7%|▋         | 717/10682 [07:45<1:22:21,  2.02it/s]  7%|▋         | 718/10682 [07:45<1:22:12,  2.02it/s]  7%|▋         | 719/10682 [07:46<1:22:17,  2.02it/s]  7%|▋         | 720/10682 [07:46<1:22:15,  2.02it/s]  7%|▋         | 721/10682 [07:47<1:22:15,  2.02it/s]  7%|▋         | 722/10682 [07:47<1:22:08,  2.02it/s]  7%|▋         | 723/10682 [07:48<1:22:18,  2.02it/s]  7%|▋         | 724/10682 [07:48<1:22:23,  2.01it/s]  7%|▋         | 725/10682 [07:49<1:22:25,  2.01it/s]{'loss': 4.6151, 'grad_norm': 0.5662415623664856, 'learning_rate': 0.0006782039289055192, 'epoch': 0.95}
-                                                       7%|▋         | 725/10682 [07:49<1:22:25,  2.01it/s]  7%|▋         | 726/10682 [07:49<1:22:33,  2.01it/s]  7%|▋         | 727/10682 [07:50<1:22:22,  2.01it/s]  7%|▋         | 728/10682 [07:50<1:22:20,  2.01it/s]  7%|▋         | 729/10682 [07:51<1:22:11,  2.02it/s]  7%|▋         | 730/10682 [07:51<1:22:14,  2.02it/s]  7%|▋         | 731/10682 [07:52<1:22:03,  2.02it/s]  7%|▋         | 732/10682 [07:52<1:22:08,  2.02it/s]  7%|▋         | 733/10682 [07:53<1:22:14,  2.02it/s]  7%|▋         | 734/10682 [07:53<1:22:13,  2.02it/s]  7%|▋         | 735/10682 [07:54<1:22:12,  2.02it/s]  7%|▋         | 736/10682 [07:54<1:22:06,  2.02it/s]  7%|▋         | 737/10682 [07:55<1:22:00,  2.02it/s]  7%|▋         | 738/10682 [07:55<1:22:01,  2.02it/s]  7%|▋         | 739/10682 [07:56<1:22:02,  2.02it/s]  7%|▋         | 740/10682 [07:56<1:22:03,  2.02it/s]  7%|▋         | 741/10682 [07:57<1:21:58,  2.02it/s]  7%|▋         | 742/10682 [07:57<1:21:59,  2.02it/s]  7%|▋         | 743/10682 [07:58<1:21:52,  2.02it/s]  7%|▋         | 744/10682 [07:58<1:22:02,  2.02it/s]  7%|▋         | 745/10682 [07:59<1:21:57,  2.02it/s]  7%|▋         | 746/10682 [07:59<1:22:02,  2.02it/s]  7%|▋         | 747/10682 [08:00<1:21:56,  2.02it/s]  7%|▋         | 748/10682 [08:00<1:22:01,  2.02it/s]  7%|▋         | 749/10682 [08:01<1:22:05,  2.02it/s]  7%|▋         | 750/10682 [08:01<1:22:11,  2.01it/s]{'loss': 4.5735, 'grad_norm': 0.44774675369262695, 'learning_rate': 0.0007015902712815716, 'epoch': 0.98}                                                     
-  7%|▋         | 750/10682 [08:01<1:22:11,  2.01it/s]  7%|▋         | 751/10682 [08:02<1:22:24,  2.01it/s]  7%|▋         | 752/10682 [08:02<1:22:19,  2.01it/s]  7%|▋         | 753/10682 [08:03<1:22:11,  2.01it/s]  7%|▋         | 754/10682 [08:03<1:22:06,  2.02it/s]  7%|▋         | 755/10682 [08:04<1:21:59,  2.02it/s]  7%|▋         | 756/10682 [08:04<1:22:06,  2.02it/s]  7%|▋         | 757/10682 [08:05<1:22:02,  2.02it/s]  7%|▋         | 758/10682 [08:05<1:22:01,  2.02it/s]  7%|▋         | 759/10682 [08:06<1:22:00,  2.02it/s]  7%|▋         | 760/10682 [08:06<1:21:59,  2.02it/s]  7%|▋         | 761/10682 [08:07<1:21:54,  2.02it/s]  7%|▋         | 762/10682 [08:07<1:22:03,  2.01it/s]  7%|▋         | 763/10682 [08:08<1:21:41,  2.02it/s]  7%|▋         | 764/10682 [08:32<21:00:59,  7.63s/it]  7%|▋         | 765/10682 [08:32<15:07:00,  5.49s/it]  7%|▋         | 766/10682 [08:33<10:59:31,  3.99s/it]  7%|▋         | 767/10682 [08:33<8:06:05,  2.94s/it]   7%|▋         | 768/10682 [08:34<6:04:38,  2.21s/it]  7%|▋         | 769/10682 [08:34<4:39:36,  1.69s/it]  7%|▋         | 770/10682 [08:35<3:40:10,  1.33s/it]  7%|▋         | 771/10682 [08:35<2:58:28,  1.08s/it]  7%|▋         | 772/10682 [08:36<2:29:20,  1.11it/s]  7%|▋         | 773/10682 [08:36<2:09:02,  1.28it/s]  7%|▋         | 774/10682 [08:37<1:55:10,  1.43it/s]  7%|▋         | 775/10682 [08:37<1:45:06,  1.57it/s]                                                     {'loss': 4.5249, 'grad_norm': 0.44595780968666077, 'learning_rate': 0.0007249766136576241, 'epoch': 1.02}
-  7%|▋         | 775/10682 [08:37<1:45:06,  1.57it/s]  7%|▋         | 776/10682 [08:38<1:38:11,  1.68it/s]  7%|▋         | 777/10682 [08:38<1:33:09,  1.77it/s]  7%|▋         | 778/10682 [08:39<1:29:41,  1.84it/s]  7%|▋         | 779/10682 [08:39<1:27:20,  1.89it/s]  7%|▋         | 780/10682 [08:40<1:25:38,  1.93it/s]  7%|▋         | 781/10682 [08:40<1:24:27,  1.95it/s]  7%|▋         | 782/10682 [08:41<1:23:35,  1.97it/s]  7%|▋         | 783/10682 [08:41<1:23:08,  1.98it/s]  7%|▋         | 784/10682 [08:42<1:22:40,  2.00it/s]  7%|▋         | 785/10682 [08:42<1:22:23,  2.00it/s]  7%|▋         | 786/10682 [08:43<1:22:08,  2.01it/s]  7%|▋         | 787/10682 [08:43<1:22:06,  2.01it/s]  7%|▋         | 788/10682 [08:44<1:21:54,  2.01it/s]  7%|▋         | 789/10682 [08:44<1:21:57,  2.01it/s]  7%|▋         | 790/10682 [08:45<1:21:53,  2.01it/s]  7%|▋         | 791/10682 [08:45<1:21:47,  2.02it/s]  7%|▋         | 792/10682 [08:46<1:21:42,  2.02it/s]  7%|▋         | 793/10682 [08:46<1:21:35,  2.02it/s]  7%|▋         | 794/10682 [08:47<1:21:30,  2.02it/s]  7%|▋         | 795/10682 [08:47<1:21:27,  2.02it/s]  7%|▋         | 796/10682 [08:48<1:21:26,  2.02it/s]  7%|▋         | 797/10682 [08:48<1:21:24,  2.02it/s]  7%|▋         | 798/10682 [08:49<1:21:19,  2.03it/s]  7%|▋         | 799/10682 [08:49<1:21:19,  2.03it/s]  7%|▋         | 800/10682 [08:50<1:21:14,  2.03it/s]                                                     {'loss': 4.4732, 'grad_norm': 0.4476442337036133, 'learning_rate': 0.0007483629560336763, 'epoch': 1.05}
-  7%|▋         | 800/10682 [08:50<1:21:14,  2.03it/s]  7%|▋         | 801/10682 [08:50<1:21:23,  2.02it/s]  8%|▊         | 802/10682 [08:51<1:21:18,  2.03it/s]  8%|▊         | 803/10682 [08:51<1:21:15,  2.03it/s]  8%|▊         | 804/10682 [08:52<1:21:15,  2.03it/s]  8%|▊         | 805/10682 [08:52<1:21:12,  2.03it/s]  8%|▊         | 806/10682 [08:53<1:21:14,  2.03it/s]  8%|▊         | 807/10682 [08:53<1:21:09,  2.03it/s]  8%|▊         | 808/10682 [08:54<1:21:12,  2.03it/s]  8%|▊         | 809/10682 [08:54<1:21:17,  2.02it/s]  8%|▊         | 810/10682 [08:55<1:21:17,  2.02it/s]  8%|▊         | 811/10682 [08:55<1:21:11,  2.03it/s]  8%|▊         | 812/10682 [08:56<1:21:06,  2.03it/s]  8%|▊         | 813/10682 [08:56<1:21:08,  2.03it/s]  8%|▊         | 814/10682 [08:57<1:21:03,  2.03it/s]  8%|▊         | 815/10682 [08:57<1:21:07,  2.03it/s]  8%|▊         | 816/10682 [08:58<1:21:06,  2.03it/s]  8%|▊         | 817/10682 [08:58<1:21:08,  2.03it/s]  8%|▊         | 818/10682 [08:58<1:21:02,  2.03it/s]  8%|▊         | 819/10682 [08:59<1:21:03,  2.03it/s]  8%|▊         | 820/10682 [08:59<1:21:06,  2.03it/s]  8%|▊         | 821/10682 [09:00<1:21:03,  2.03it/s]  8%|▊         | 822/10682 [09:00<1:21:07,  2.03it/s]  8%|▊         | 823/10682 [09:01<1:21:02,  2.03it/s]  8%|▊         | 824/10682 [09:01<1:20:58,  2.03it/s]  8%|▊         | 825/10682 [09:02<1:21:01,  2.03it/s]                                                     {'loss': 4.4584, 'grad_norm': 0.4380960464477539, 'learning_rate': 0.0007717492984097287, 'epoch': 1.08}
-  8%|▊         | 825/10682 [09:02<1:21:01,  2.03it/s]  8%|▊         | 826/10682 [09:02<1:21:26,  2.02it/s]  8%|▊         | 827/10682 [09:03<1:21:21,  2.02it/s]  8%|▊         | 828/10682 [09:03<1:21:18,  2.02it/s]  8%|▊         | 829/10682 [09:04<1:21:12,  2.02it/s]  8%|▊         | 830/10682 [09:04<1:21:05,  2.02it/s]  8%|▊         | 831/10682 [09:05<1:21:08,  2.02it/s]  8%|▊         | 832/10682 [09:05<1:21:04,  2.02it/s]  8%|▊         | 833/10682 [09:06<1:21:00,  2.03it/s]  8%|▊         | 834/10682 [09:06<1:20:58,  2.03it/s]  8%|▊         | 835/10682 [09:07<1:20:56,  2.03it/s]  8%|▊         | 836/10682 [09:07<1:20:58,  2.03it/s]  8%|▊         | 837/10682 [09:08<1:20:54,  2.03it/s]  8%|▊         | 838/10682 [09:08<1:20:57,  2.03it/s]  8%|▊         | 839/10682 [09:09<1:20:52,  2.03it/s]  8%|▊         | 840/10682 [09:09<1:20:54,  2.03it/s]  8%|▊         | 841/10682 [09:10<1:20:52,  2.03it/s]  8%|▊         | 842/10682 [09:10<1:20:51,  2.03it/s]  8%|▊         | 843/10682 [09:11<1:20:54,  2.03it/s]  8%|▊         | 844/10682 [09:11<1:20:53,  2.03it/s]  8%|▊         | 845/10682 [09:12<1:20:53,  2.03it/s]  8%|▊         | 846/10682 [09:12<1:20:49,  2.03it/s]  8%|▊         | 847/10682 [09:13<1:20:54,  2.03it/s]  8%|▊         | 848/10682 [09:13<1:20:49,  2.03it/s]  8%|▊         | 849/10682 [09:14<1:20:50,  2.03it/s]  8%|▊         | 850/10682 [09:14<1:20:51,  2.03it/s]                                                     {'loss': 4.4392, 'grad_norm': 0.3748084604740143, 'learning_rate': 0.0007951356407857812, 'epoch': 1.11}
-  8%|▊         | 850/10682 [09:14<1:20:51,  2.03it/s]  8%|▊         | 851/10682 [09:15<1:20:59,  2.02it/s]  8%|▊         | 852/10682 [09:15<1:20:56,  2.02it/s]  8%|▊         | 853/10682 [09:16<1:20:56,  2.02it/s]  8%|▊         | 854/10682 [09:16<1:20:55,  2.02it/s]  8%|▊         | 855/10682 [09:17<1:20:50,  2.03it/s]  8%|▊         | 856/10682 [09:17<1:20:52,  2.02it/s]  8%|▊         | 857/10682 [09:18<1:20:48,  2.03it/s]  8%|▊         | 858/10682 [09:18<1:20:50,  2.03it/s]  8%|▊         | 859/10682 [09:19<1:20:46,  2.03it/s]  8%|▊         | 860/10682 [09:19<1:20:46,  2.03it/s]  8%|▊         | 861/10682 [09:20<1:20:46,  2.03it/s]  8%|▊         | 862/10682 [09:20<1:20:50,  2.02it/s]  8%|▊         | 863/10682 [09:21<1:20:48,  2.03it/s]  8%|▊         | 864/10682 [09:21<1:20:46,  2.03it/s]  8%|▊         | 865/10682 [09:22<1:20:48,  2.02it/s]  8%|▊         | 866/10682 [09:22<1:20:49,  2.02it/s]  8%|▊         | 867/10682 [09:23<1:20:47,  2.02it/s]  8%|▊         | 868/10682 [09:23<1:20:44,  2.03it/s]  8%|▊         | 869/10682 [09:24<1:20:49,  2.02it/s]  8%|▊         | 870/10682 [09:24<1:20:46,  2.02it/s]  8%|▊         | 871/10682 [09:25<1:20:39,  2.03it/s]  8%|▊         | 872/10682 [09:25<1:20:40,  2.03it/s]  8%|▊         | 873/10682 [09:26<1:20:39,  2.03it/s]  8%|▊         | 874/10682 [09:26<1:20:37,  2.03it/s]  8%|▊         | 875/10682 [09:27<1:20:39,  2.03it/s]{'loss': 4.4205, 'grad_norm': 0.4390403628349304, 'learning_rate': 0.0008185219831618334, 'epoch': 1.15}                                                     
-  8%|▊         | 875/10682 [09:27<1:20:39,  2.03it/s]  8%|▊         | 876/10682 [09:27<1:20:57,  2.02it/s]  8%|▊         | 877/10682 [09:28<1:20:50,  2.02it/s]  8%|▊         | 878/10682 [09:28<1:20:42,  2.02it/s]  8%|▊         | 879/10682 [09:29<1:20:44,  2.02it/s]  8%|▊         | 880/10682 [09:29<1:20:41,  2.02it/s]  8%|▊         | 881/10682 [09:30<1:20:40,  2.02it/s]  8%|▊         | 882/10682 [09:30<1:20:38,  2.03it/s]  8%|▊         | 883/10682 [09:31<1:20:35,  2.03it/s]  8%|▊         | 884/10682 [09:31<1:20:38,  2.03it/s]  8%|▊         | 885/10682 [09:32<1:20:35,  2.03it/s]  8%|▊         | 886/10682 [09:32<1:20:34,  2.03it/s]  8%|▊         | 887/10682 [09:33<1:20:33,  2.03it/s]  8%|▊         | 888/10682 [09:33<1:20:36,  2.03it/s]  8%|▊         | 889/10682 [09:34<1:20:37,  2.02it/s]  8%|▊         | 890/10682 [09:34<1:20:36,  2.02it/s]  8%|▊         | 891/10682 [09:35<1:20:36,  2.02it/s]  8%|▊         | 892/10682 [09:35<1:20:42,  2.02it/s]  8%|▊         | 893/10682 [09:36<1:20:39,  2.02it/s]  8%|▊         | 894/10682 [09:36<1:20:36,  2.02it/s]  8%|▊         | 895/10682 [09:37<1:20:29,  2.03it/s]  8%|▊         | 896/10682 [09:37<1:20:29,  2.03it/s]  8%|▊         | 897/10682 [09:38<1:20:26,  2.03it/s]  8%|▊         | 898/10682 [09:38<1:20:28,  2.03it/s]  8%|▊         | 899/10682 [09:38<1:20:27,  2.03it/s]  8%|▊         | 900/10682 [09:39<1:20:29,  2.03it/s]{'loss': 4.3991, 'grad_norm': 0.3837711811065674, 'learning_rate': 0.0008419083255378859, 'epoch': 1.18}
-                                                       8%|▊         | 900/10682 [09:39<1:20:29,  2.03it/s]  8%|▊         | 901/10682 [09:39<1:20:42,  2.02it/s]  8%|▊         | 902/10682 [09:40<1:20:36,  2.02it/s]  8%|▊         | 903/10682 [09:40<1:20:30,  2.02it/s]  8%|▊         | 904/10682 [09:41<1:20:29,  2.02it/s]  8%|▊         | 905/10682 [09:41<1:20:25,  2.03it/s]  8%|▊         | 906/10682 [09:42<1:20:21,  2.03it/s]  8%|▊         | 907/10682 [09:42<1:20:24,  2.03it/s]  9%|▊         | 908/10682 [09:43<1:20:21,  2.03it/s]  9%|▊         | 909/10682 [09:43<1:20:23,  2.03it/s]  9%|▊         | 910/10682 [09:44<1:20:18,  2.03it/s]  9%|▊         | 911/10682 [09:44<1:20:20,  2.03it/s]  9%|▊         | 912/10682 [09:45<1:20:16,  2.03it/s]  9%|▊         | 913/10682 [09:45<1:20:15,  2.03it/s]  9%|▊         | 914/10682 [09:46<1:20:20,  2.03it/s]  9%|▊         | 915/10682 [09:46<1:20:15,  2.03it/s]  9%|▊         | 916/10682 [09:47<1:20:18,  2.03it/s]  9%|▊         | 917/10682 [09:47<1:20:15,  2.03it/s]  9%|▊         | 918/10682 [09:48<1:20:16,  2.03it/s]  9%|▊         | 919/10682 [09:48<1:20:14,  2.03it/s]  9%|▊         | 920/10682 [09:49<1:20:16,  2.03it/s]  9%|▊         | 921/10682 [09:49<1:20:16,  2.03it/s]  9%|▊         | 922/10682 [09:50<1:20:11,  2.03it/s]  9%|▊         | 923/10682 [09:50<1:20:12,  2.03it/s]  9%|▊         | 924/10682 [09:51<1:20:10,  2.03it/s]  9%|▊         | 925/10682 [09:51<1:20:12,  2.03it/s]                                                     {'loss': 4.3726, 'grad_norm': 0.45552974939346313, 'learning_rate': 0.0008652946679139383, 'epoch': 1.21}
-  9%|▊         | 925/10682 [09:51<1:20:12,  2.03it/s]  9%|▊         | 926/10682 [09:52<1:20:15,  2.03it/s]  9%|▊         | 927/10682 [09:52<1:20:14,  2.03it/s]  9%|▊         | 928/10682 [09:53<1:20:13,  2.03it/s]  9%|▊         | 929/10682 [09:53<1:20:09,  2.03it/s]  9%|▊         | 930/10682 [09:54<1:20:11,  2.03it/s]  9%|▊         | 931/10682 [09:54<1:20:08,  2.03it/s]  9%|▊         | 932/10682 [09:55<1:20:09,  2.03it/s]  9%|▊         | 933/10682 [09:55<1:20:08,  2.03it/s]  9%|▊         | 934/10682 [09:56<1:20:11,  2.03it/s]  9%|▉         | 935/10682 [09:56<1:20:07,  2.03it/s]  9%|▉         | 936/10682 [09:57<1:20:06,  2.03it/s]  9%|▉         | 937/10682 [09:57<1:20:08,  2.03it/s]  9%|▉         | 938/10682 [09:58<1:20:06,  2.03it/s]  9%|▉         | 939/10682 [09:58<1:20:10,  2.03it/s]  9%|▉         | 940/10682 [09:59<1:20:10,  2.03it/s]  9%|▉         | 941/10682 [09:59<1:20:12,  2.02it/s]  9%|▉         | 942/10682 [10:00<1:20:06,  2.03it/s]  9%|▉         | 943/10682 [10:00<1:20:07,  2.03it/s]  9%|▉         | 944/10682 [10:01<1:20:06,  2.03it/s]  9%|▉         | 945/10682 [10:01<1:20:03,  2.03it/s]  9%|▉         | 946/10682 [10:02<1:20:03,  2.03it/s]  9%|▉         | 947/10682 [10:02<1:20:01,  2.03it/s]  9%|▉         | 948/10682 [10:03<1:20:03,  2.03it/s]  9%|▉         | 949/10682 [10:03<1:19:57,  2.03it/s]  9%|▉         | 950/10682 [10:04<1:19:59,  2.03it/s]{'loss': 4.3645, 'grad_norm': 0.4954461455345154, 'learning_rate': 0.0008886810102899908, 'epoch': 1.25}
-                                                       9%|▉         | 950/10682 [10:04<1:19:59,  2.03it/s]  9%|▉         | 951/10682 [10:04<1:20:05,  2.02it/s]  9%|▉         | 952/10682 [10:05<1:20:02,  2.03it/s]  9%|▉         | 953/10682 [10:05<1:20:03,  2.03it/s]  9%|▉         | 954/10682 [10:06<1:20:02,  2.03it/s]  9%|▉         | 955/10682 [10:06<1:20:02,  2.03it/s]  9%|▉         | 956/10682 [10:07<1:20:00,  2.03it/s]  9%|▉         | 957/10682 [10:07<1:19:58,  2.03it/s]  9%|▉         | 958/10682 [10:08<1:20:00,  2.03it/s]  9%|▉         | 959/10682 [10:08<1:19:56,  2.03it/s]  9%|▉         | 960/10682 [10:09<1:19:57,  2.03it/s]  9%|▉         | 961/10682 [10:09<1:19:54,  2.03it/s]  9%|▉         | 962/10682 [10:10<1:19:51,  2.03it/s]  9%|▉         | 963/10682 [10:10<1:19:56,  2.03it/s]  9%|▉         | 964/10682 [10:11<1:19:51,  2.03it/s]  9%|▉         | 965/10682 [10:11<1:19:57,  2.03it/s]  9%|▉         | 966/10682 [10:12<1:19:52,  2.03it/s]  9%|▉         | 967/10682 [10:12<1:19:55,  2.03it/s]  9%|▉         | 968/10682 [10:13<1:19:50,  2.03it/s]  9%|▉         | 969/10682 [10:13<1:19:46,  2.03it/s]  9%|▉         | 970/10682 [10:14<1:19:51,  2.03it/s]  9%|▉         | 971/10682 [10:14<1:19:51,  2.03it/s]  9%|▉         | 972/10682 [10:15<1:19:53,  2.03it/s]  9%|▉         | 973/10682 [10:15<1:19:52,  2.03it/s]  9%|▉         | 974/10682 [10:15<1:20:00,  2.02it/s]  9%|▉         | 975/10682 [10:16<1:19:53,  2.03it/s]                                                     {'loss': 4.3385, 'grad_norm': 0.41811883449554443, 'learning_rate': 0.000912067352666043, 'epoch': 1.28}
-  9%|▉         | 975/10682 [10:16<1:19:53,  2.03it/s]  9%|▉         | 976/10682 [10:16<1:19:59,  2.02it/s]  9%|▉         | 977/10682 [10:17<1:19:54,  2.02it/s]  9%|▉         | 978/10682 [10:17<1:19:58,  2.02it/s]  9%|▉         | 979/10682 [10:18<1:19:52,  2.02it/s]  9%|▉         | 980/10682 [10:18<1:19:53,  2.02it/s]  9%|▉         | 981/10682 [10:19<1:19:48,  2.03it/s]  9%|▉         | 982/10682 [10:19<1:19:49,  2.03it/s]  9%|▉         | 983/10682 [10:20<1:19:47,  2.03it/s]  9%|▉         | 984/10682 [10:20<1:19:44,  2.03it/s]  9%|▉         | 985/10682 [10:21<1:19:42,  2.03it/s]  9%|▉         | 986/10682 [10:21<1:19:44,  2.03it/s]  9%|▉         | 987/10682 [10:22<1:19:43,  2.03it/s]  9%|▉         | 988/10682 [10:22<1:19:44,  2.03it/s]  9%|▉         | 989/10682 [10:23<1:19:41,  2.03it/s]  9%|▉         | 990/10682 [10:23<1:19:43,  2.03it/s]  9%|▉         | 991/10682 [10:24<1:19:36,  2.03it/s]  9%|▉         | 992/10682 [10:24<1:19:39,  2.03it/s]  9%|▉         | 993/10682 [10:25<1:19:35,  2.03it/s]  9%|▉         | 994/10682 [10:25<1:19:37,  2.03it/s]  9%|▉         | 995/10682 [10:26<1:19:35,  2.03it/s]  9%|▉         | 996/10682 [10:26<1:19:32,  2.03it/s]  9%|▉         | 997/10682 [10:27<1:19:34,  2.03it/s]  9%|▉         | 998/10682 [10:27<1:19:33,  2.03it/s]  9%|▉         | 999/10682 [10:28<1:19:31,  2.03it/s]  9%|▉         | 1000/10682 [10:28<1:19:35,  2.03it/s]                                                      {'loss': 4.3196, 'grad_norm': 0.35579362511634827, 'learning_rate': 0.0009354536950420954, 'epoch': 1.31}
-  9%|▉         | 1000/10682 [10:28<1:19:35,  2.03it/s]  9%|▉         | 1001/10682 [10:29<1:19:39,  2.03it/s]  9%|▉         | 1002/10682 [10:29<1:19:40,  2.03it/s]  9%|▉         | 1003/10682 [10:30<1:19:37,  2.03it/s]  9%|▉         | 1004/10682 [10:30<1:19:40,  2.02it/s]  9%|▉         | 1005/10682 [10:31<1:19:35,  2.03it/s]  9%|▉         | 1006/10682 [10:31<1:19:39,  2.02it/s]  9%|▉         | 1007/10682 [10:32<1:19:32,  2.03it/s]  9%|▉         | 1008/10682 [10:32<1:19:31,  2.03it/s]  9%|▉         | 1009/10682 [10:33<1:19:39,  2.02it/s]  9%|▉         | 1010/10682 [10:33<1:19:35,  2.03it/s]  9%|▉         | 1011/10682 [10:34<1:19:36,  2.02it/s]  9%|▉         | 1012/10682 [10:34<1:19:28,  2.03it/s]  9%|▉         | 1013/10682 [10:35<1:19:29,  2.03it/s]  9%|▉         | 1014/10682 [10:35<1:19:32,  2.03it/s] 10%|▉         | 1015/10682 [10:36<1:19:28,  2.03it/s] 10%|▉         | 1016/10682 [10:36<1:19:31,  2.03it/s] 10%|▉         | 1017/10682 [10:37<1:19:28,  2.03it/s] 10%|▉         | 1018/10682 [10:37<1:19:27,  2.03it/s] 10%|▉         | 1019/10682 [10:38<1:19:25,  2.03it/s] 10%|▉         | 1020/10682 [10:38<1:19:24,  2.03it/s] 10%|▉         | 1021/10682 [10:39<1:19:24,  2.03it/s] 10%|▉         | 1022/10682 [10:39<1:19:27,  2.03it/s] 10%|▉         | 1023/10682 [10:40<1:19:23,  2.03it/s] 10%|▉         | 1024/10682 [10:40<1:19:27,  2.03it/s] 10%|▉         | 1025/10682 [10:41<1:19:25,  2.03it/s]{'loss': 4.3123, 'grad_norm': 0.31747740507125854, 'learning_rate': 0.0009588400374181479, 'epoch': 1.34}                                                      
- 10%|▉         | 1025/10682 [10:41<1:19:25,  2.03it/s] 10%|▉         | 1026/10682 [10:41<1:19:34,  2.02it/s] 10%|▉         | 1027/10682 [10:42<1:19:28,  2.02it/s] 10%|▉         | 1028/10682 [10:42<1:19:28,  2.02it/s] 10%|▉         | 1029/10682 [10:43<1:19:28,  2.02it/s] 10%|▉         | 1030/10682 [10:43<1:19:21,  2.03it/s] 10%|▉         | 1031/10682 [10:44<1:19:23,  2.03it/s] 10%|▉         | 1032/10682 [10:44<1:19:21,  2.03it/s] 10%|▉         | 1033/10682 [10:45<1:19:21,  2.03it/s] 10%|▉         | 1034/10682 [10:45<1:19:18,  2.03it/s] 10%|▉         | 1035/10682 [10:46<1:19:20,  2.03it/s] 10%|▉         | 1036/10682 [10:46<1:19:20,  2.03it/s] 10%|▉         | 1037/10682 [10:47<1:19:14,  2.03it/s] 10%|▉         | 1038/10682 [10:47<1:19:19,  2.03it/s] 10%|▉         | 1039/10682 [10:48<1:19:17,  2.03it/s] 10%|▉         | 1040/10682 [10:48<1:19:20,  2.03it/s] 10%|▉         | 1041/10682 [10:49<1:19:14,  2.03it/s] 10%|▉         | 1042/10682 [10:49<1:19:18,  2.03it/s] 10%|▉         | 1043/10682 [10:50<1:19:16,  2.03it/s] 10%|▉         | 1044/10682 [10:50<1:19:13,  2.03it/s] 10%|▉         | 1045/10682 [10:51<1:19:17,  2.03it/s] 10%|▉         | 1046/10682 [10:51<1:19:18,  2.03it/s] 10%|▉         | 1047/10682 [10:52<1:19:19,  2.02it/s] 10%|▉         | 1048/10682 [10:52<1:19:17,  2.02it/s] 10%|▉         | 1049/10682 [10:53<1:19:19,  2.02it/s] 10%|▉         | 1050/10682 [10:53<1:19:14,  2.03it/s]                                                      {'loss': 4.2917, 'grad_norm': 0.33728379011154175, 'learning_rate': 0.0009822263797942, 'epoch': 1.38}
- 10%|▉         | 1050/10682 [10:53<1:19:14,  2.03it/s] 10%|▉         | 1051/10682 [10:54<1:19:23,  2.02it/s] 10%|▉         | 1052/10682 [10:54<1:19:15,  2.02it/s] 10%|▉         | 1053/10682 [10:54<1:19:17,  2.02it/s] 10%|▉         | 1054/10682 [10:55<1:19:10,  2.03it/s] 10%|▉         | 1055/10682 [10:55<1:19:12,  2.03it/s] 10%|▉         | 1056/10682 [10:56<1:19:11,  2.03it/s] 10%|▉         | 1057/10682 [10:56<1:19:05,  2.03it/s] 10%|▉         | 1058/10682 [10:57<1:19:09,  2.03it/s] 10%|▉         | 1059/10682 [10:57<1:19:05,  2.03it/s] 10%|▉         | 1060/10682 [10:58<1:19:11,  2.03it/s] 10%|▉         | 1061/10682 [10:58<1:19:07,  2.03it/s] 10%|▉         | 1062/10682 [10:59<1:19:12,  2.02it/s] 10%|▉         | 1063/10682 [10:59<1:19:08,  2.03it/s] 10%|▉         | 1064/10682 [11:00<1:19:08,  2.03it/s] 10%|▉         | 1065/10682 [11:00<1:19:04,  2.03it/s] 10%|▉         | 1066/10682 [11:01<1:19:02,  2.03it/s] 10%|▉         | 1067/10682 [11:01<1:19:07,  2.03it/s] 10%|▉         | 1068/10682 [11:02<1:19:03,  2.03it/s] 10%|█         | 1069/10682 [11:02<1:19:05,  2.03it/s] 10%|█         | 1070/10682 [11:03<1:18:57,  2.03it/s] 10%|█         | 1071/10682 [11:03<1:18:59,  2.03it/s] 10%|█         | 1072/10682 [11:04<1:18:59,  2.03it/s] 10%|█         | 1073/10682 [11:04<1:18:59,  2.03it/s] 10%|█         | 1074/10682 [11:05<1:19:03,  2.03it/s] 10%|█         | 1075/10682 [11:05<1:19:00,  2.03it/s]                                                      {'loss': 4.2697, 'grad_norm': 0.3390866816043854, 'learning_rate': 0.0009999990387768293, 'epoch': 1.41}
- 10%|█         | 1075/10682 [11:05<1:19:00,  2.03it/s] 10%|█         | 1076/10682 [11:06<1:19:08,  2.02it/s] 10%|█         | 1077/10682 [11:06<1:19:03,  2.02it/s] 10%|█         | 1078/10682 [11:07<1:19:04,  2.02it/s] 10%|█         | 1079/10682 [11:07<1:19:02,  2.03it/s] 10%|█         | 1080/10682 [11:08<1:19:06,  2.02it/s] 10%|█         | 1081/10682 [11:08<1:19:06,  2.02it/s] 10%|█         | 1082/10682 [11:09<1:19:04,  2.02it/s] 10%|█         | 1083/10682 [11:09<1:18:59,  2.03it/s] 10%|█         | 1084/10682 [11:10<1:19:01,  2.02it/s] 10%|█         | 1085/10682 [11:10<1:18:57,  2.03it/s] 10%|█         | 1086/10682 [11:11<1:18:56,  2.03it/s] 10%|█         | 1087/10682 [11:11<1:18:57,  2.03it/s] 10%|█         | 1088/10682 [11:12<1:18:55,  2.03it/s] 10%|█         | 1089/10682 [11:12<1:18:54,  2.03it/s] 10%|█         | 1090/10682 [11:13<1:18:52,  2.03it/s] 10%|█         | 1091/10682 [11:13<1:18:47,  2.03it/s] 10%|█         | 1092/10682 [11:14<1:18:50,  2.03it/s] 10%|█         | 1093/10682 [11:14<1:18:47,  2.03it/s] 10%|█         | 1094/10682 [11:15<1:18:51,  2.03it/s] 10%|█         | 1095/10682 [11:15<1:18:50,  2.03it/s] 10%|█         | 1096/10682 [11:16<1:18:46,  2.03it/s] 10%|█         | 1097/10682 [11:16<1:18:50,  2.03it/s] 10%|█         | 1098/10682 [11:17<1:18:47,  2.03it/s] 10%|█         | 1099/10682 [11:17<1:18:49,  2.03it/s] 10%|█         | 1100/10682 [11:18<1:18:45,  2.03it/s]                                                      {'loss': 4.2609, 'grad_norm': 0.33891916275024414, 'learning_rate': 0.0009999743408927195, 'epoch': 1.44}
- 10%|█         | 1100/10682 [11:18<1:18:45,  2.03it/s] 10%|█         | 1101/10682 [11:18<1:18:56,  2.02it/s] 10%|█         | 1102/10682 [11:19<1:18:53,  2.02it/s] 10%|█         | 1103/10682 [11:19<1:18:49,  2.03it/s] 10%|█         | 1104/10682 [11:20<1:18:53,  2.02it/s] 10%|█         | 1105/10682 [11:20<1:18:55,  2.02it/s] 10%|█         | 1106/10682 [11:21<1:18:52,  2.02it/s] 10%|█         | 1107/10682 [11:21<1:18:46,  2.03it/s] 10%|█         | 1108/10682 [11:22<1:18:47,  2.03it/s] 10%|█         | 1109/10682 [11:22<1:18:43,  2.03it/s] 10%|█         | 1110/10682 [11:23<1:18:42,  2.03it/s] 10%|█         | 1111/10682 [11:23<1:18:42,  2.03it/s] 10%|█         | 1112/10682 [11:24<1:18:41,  2.03it/s] 10%|█         | 1113/10682 [11:24<1:18:41,  2.03it/s] 10%|█         | 1114/10682 [11:25<1:18:42,  2.03it/s] 10%|█         | 1115/10682 [11:25<1:18:42,  2.03it/s] 10%|█         | 1116/10682 [11:26<1:18:42,  2.03it/s] 10%|█         | 1117/10682 [11:26<1:18:43,  2.03it/s] 10%|█         | 1118/10682 [11:27<1:18:46,  2.02it/s] 10%|█         | 1119/10682 [11:27<1:18:43,  2.02it/s] 10%|█         | 1120/10682 [11:28<1:18:43,  2.02it/s] 10%|█         | 1121/10682 [11:28<1:18:46,  2.02it/s] 11%|█         | 1122/10682 [11:29<1:18:45,  2.02it/s] 11%|█         | 1123/10682 [11:29<1:18:46,  2.02it/s] 11%|█         | 1124/10682 [11:30<1:18:41,  2.02it/s] 11%|█         | 1125/10682 [11:30<1:18:39,  2.02it/s]                                                      {'loss': 4.2375, 'grad_norm': 0.3190712034702301, 'learning_rate': 0.0009999162690918172, 'epoch': 1.47}
- 11%|█         | 1125/10682 [11:30<1:18:39,  2.02it/s] 11%|█         | 1126/10682 [11:31<1:18:44,  2.02it/s] 11%|█         | 1127/10682 [11:31<1:18:40,  2.02it/s] 11%|█         | 1128/10682 [11:32<1:18:46,  2.02it/s] 11%|█         | 1129/10682 [11:32<1:18:44,  2.02it/s] 11%|█         | 1130/10682 [11:33<1:18:43,  2.02it/s] 11%|█         | 1131/10682 [11:33<1:18:34,  2.03it/s] 11%|█         | 1132/10682 [11:33<1:18:35,  2.03it/s] 11%|█         | 1133/10682 [11:34<1:18:29,  2.03it/s] 11%|█         | 1134/10682 [11:34<1:18:37,  2.02it/s] 11%|█         | 1135/10682 [11:35<1:18:33,  2.03it/s] 11%|█         | 1136/10682 [11:35<1:18:29,  2.03it/s] 11%|█         | 1137/10682 [11:36<1:18:33,  2.02it/s] 11%|█         | 1138/10682 [11:36<1:18:31,  2.03it/s] 11%|█         | 1139/10682 [11:37<1:18:33,  2.02it/s] 11%|█         | 1140/10682 [11:37<1:18:31,  2.03it/s] 11%|█         | 1141/10682 [11:38<1:18:33,  2.02it/s] 11%|█         | 1142/10682 [11:38<1:18:28,  2.03it/s] 11%|█         | 1143/10682 [11:39<1:18:28,  2.03it/s] 11%|█         | 1144/10682 [11:39<1:18:29,  2.03it/s] 11%|█         | 1145/10682 [11:40<1:18:28,  2.03it/s] 11%|█         | 1146/10682 [11:40<1:18:31,  2.02it/s] 11%|█         | 1147/10682 [11:41<1:18:27,  2.03it/s] 11%|█         | 1148/10682 [11:41<1:18:27,  2.03it/s] 11%|█         | 1149/10682 [11:42<1:18:27,  2.03it/s] 11%|█         | 1150/10682 [11:42<1:18:26,  2.03it/s]{'loss': 4.2186, 'grad_norm': 0.31220346689224243, 'learning_rate': 0.0009998248272504882, 'epoch': 1.51}
-                                                       11%|█         | 1150/10682 [11:42<1:18:26,  2.03it/s] 11%|█         | 1151/10682 [11:43<1:18:36,  2.02it/s] 11%|█         | 1152/10682 [11:43<1:18:31,  2.02it/s] 11%|█         | 1153/10682 [11:44<1:18:39,  2.02it/s] 11%|█         | 1154/10682 [11:44<1:18:33,  2.02it/s] 11%|█         | 1155/10682 [11:45<1:18:29,  2.02it/s] 11%|█         | 1156/10682 [11:45<1:18:28,  2.02it/s] 11%|█         | 1157/10682 [11:46<1:18:21,  2.03it/s] 11%|█         | 1158/10682 [11:46<1:18:22,  2.03it/s] 11%|█         | 1159/10682 [11:47<1:18:21,  2.03it/s] 11%|█         | 1160/10682 [11:47<1:18:19,  2.03it/s] 11%|█         | 1161/10682 [11:48<1:18:21,  2.03it/s] 11%|█         | 1162/10682 [11:48<1:18:17,  2.03it/s] 11%|█         | 1163/10682 [11:49<1:18:18,  2.03it/s] 11%|█         | 1164/10682 [11:49<1:18:15,  2.03it/s] 11%|█         | 1165/10682 [11:50<1:18:17,  2.03it/s] 11%|█         | 1166/10682 [11:50<1:18:19,  2.02it/s] 11%|█         | 1167/10682 [11:51<1:18:22,  2.02it/s] 11%|█         | 1168/10682 [11:51<1:18:21,  2.02it/s] 11%|█         | 1169/10682 [11:52<1:18:18,  2.02it/s] 11%|█         | 1170/10682 [11:52<1:18:19,  2.02it/s] 11%|█         | 1171/10682 [11:53<1:18:16,  2.03it/s] 11%|█         | 1172/10682 [11:53<1:18:18,  2.02it/s] 11%|█         | 1173/10682 [11:54<1:18:14,  2.03it/s] 11%|█         | 1174/10682 [11:54<1:18:19,  2.02it/s] 11%|█         | 1175/10682 [11:55<1:18:12,  2.03it/s]{'loss': 4.197, 'grad_norm': 0.28382357954978943, 'learning_rate': 0.0009997000214725905, 'epoch': 1.54}                                                      
- 11%|█         | 1175/10682 [11:55<1:18:12,  2.03it/s] 11%|█         | 1176/10682 [11:55<1:18:34,  2.02it/s] 11%|█         | 1177/10682 [11:56<1:18:25,  2.02it/s] 11%|█         | 1178/10682 [11:56<1:18:22,  2.02it/s] 11%|█         | 1179/10682 [11:57<1:18:16,  2.02it/s] 11%|█         | 1180/10682 [11:57<1:18:15,  2.02it/s] 11%|█         | 1181/10682 [11:58<1:18:12,  2.02it/s] 11%|█         | 1182/10682 [11:58<1:18:10,  2.03it/s] 11%|█         | 1183/10682 [11:59<1:18:07,  2.03it/s] 11%|█         | 1184/10682 [11:59<1:18:07,  2.03it/s] 11%|█         | 1185/10682 [12:00<1:18:09,  2.03it/s] 11%|█         | 1186/10682 [12:00<1:18:06,  2.03it/s] 11%|█         | 1187/10682 [12:01<1:18:07,  2.03it/s] 11%|█         | 1188/10682 [12:01<1:18:11,  2.02it/s] 11%|█         | 1189/10682 [12:02<1:18:10,  2.02it/s] 11%|█         | 1190/10682 [12:02<1:18:10,  2.02it/s] 11%|█         | 1191/10682 [12:03<1:18:10,  2.02it/s] 11%|█         | 1192/10682 [12:03<1:18:09,  2.02it/s] 11%|█         | 1193/10682 [12:04<1:18:09,  2.02it/s] 11%|█         | 1194/10682 [12:04<1:18:08,  2.02it/s] 11%|█         | 1195/10682 [12:05<1:18:07,  2.02it/s] 11%|█         | 1196/10682 [12:05<1:18:05,  2.02it/s] 11%|█         | 1197/10682 [12:06<1:18:01,  2.03it/s] 11%|█         | 1198/10682 [12:06<1:18:01,  2.03it/s] 11%|█         | 1199/10682 [12:07<1:18:00,  2.03it/s] 11%|█         | 1200/10682 [12:07<1:18:02,  2.03it/s]{'loss': 4.1792, 'grad_norm': 0.3008824586868286, 'learning_rate': 0.000999541860089067, 'epoch': 1.57}
-                                                       11%|█         | 1200/10682 [12:07<1:18:02,  2.03it/s] 11%|█         | 1201/10682 [12:08<1:18:09,  2.02it/s] 11%|█▏        | 1202/10682 [12:08<1:18:05,  2.02it/s] 11%|█▏        | 1203/10682 [12:09<1:18:04,  2.02it/s] 11%|█▏        | 1204/10682 [12:09<1:18:02,  2.02it/s] 11%|█▏        | 1205/10682 [12:10<1:17:56,  2.03it/s] 11%|█▏        | 1206/10682 [12:10<1:17:57,  2.03it/s] 11%|█▏        | 1207/10682 [12:11<1:17:52,  2.03it/s] 11%|█▏        | 1208/10682 [12:11<1:17:54,  2.03it/s] 11%|█▏        | 1209/10682 [12:12<1:17:56,  2.03it/s] 11%|█▏        | 1210/10682 [12:12<1:17:49,  2.03it/s] 11%|█▏        | 1211/10682 [12:13<1:17:55,  2.03it/s] 11%|█▏        | 1212/10682 [12:13<1:17:50,  2.03it/s] 11%|█▏        | 1213/10682 [12:13<1:17:54,  2.03it/s] 11%|█▏        | 1214/10682 [12:14<1:17:50,  2.03it/s] 11%|█▏        | 1215/10682 [12:14<1:17:47,  2.03it/s] 11%|█▏        | 1216/10682 [12:15<1:17:51,  2.03it/s] 11%|█▏        | 1217/10682 [12:15<1:17:46,  2.03it/s] 11%|█▏        | 1218/10682 [12:16<1:17:50,  2.03it/s] 11%|█▏        | 1219/10682 [12:16<1:17:47,  2.03it/s] 11%|█▏        | 1220/10682 [12:17<1:17:47,  2.03it/s] 11%|█▏        | 1221/10682 [12:17<1:17:51,  2.03it/s] 11%|█▏        | 1222/10682 [12:18<1:17:44,  2.03it/s] 11%|█▏        | 1223/10682 [12:18<1:17:47,  2.03it/s] 11%|█▏        | 1224/10682 [12:19<1:17:44,  2.03it/s] 11%|█▏        | 1225/10682 [12:19<1:17:48,  2.03it/s]{'loss': 4.1729, 'grad_norm': 0.30978965759277344, 'learning_rate': 0.0009993503536573894, 'epoch': 1.61}                                                      
- 11%|█▏        | 1225/10682 [12:19<1:17:48,  2.03it/s] 11%|█▏        | 1226/10682 [12:20<1:24:32,  1.86it/s] 11%|█▏        | 1227/10682 [12:21<1:22:33,  1.91it/s] 11%|█▏        | 1228/10682 [12:21<1:21:07,  1.94it/s] 12%|█▏        | 1229/10682 [12:22<1:20:00,  1.97it/s] 12%|█▏        | 1230/10682 [12:22<1:19:20,  1.99it/s] 12%|█▏        | 1231/10682 [12:23<1:18:49,  2.00it/s] 12%|█▏        | 1232/10682 [12:23<1:18:32,  2.01it/s] 12%|█▏        | 1233/10682 [12:24<1:18:18,  2.01it/s] 12%|█▏        | 1234/10682 [12:24<1:18:07,  2.02it/s] 12%|█▏        | 1235/10682 [12:24<1:17:59,  2.02it/s] 12%|█▏        | 1236/10682 [12:25<1:17:55,  2.02it/s] 12%|█▏        | 1237/10682 [12:25<1:17:51,  2.02it/s] 12%|█▏        | 1238/10682 [12:26<1:17:49,  2.02it/s] 12%|█▏        | 1239/10682 [12:26<1:17:45,  2.02it/s] 12%|█▏        | 1240/10682 [12:27<1:17:44,  2.02it/s] 12%|█▏        | 1241/10682 [12:27<1:17:41,  2.03it/s] 12%|█▏        | 1242/10682 [12:28<1:17:39,  2.03it/s] 12%|█▏        | 1243/10682 [12:28<1:17:35,  2.03it/s] 12%|█▏        | 1244/10682 [12:29<1:17:40,  2.03it/s] 12%|█▏        | 1245/10682 [12:29<1:17:35,  2.03it/s] 12%|█▏        | 1246/10682 [12:30<1:17:41,  2.02it/s] 12%|█▏        | 1247/10682 [12:30<1:17:39,  2.03it/s] 12%|█▏        | 1248/10682 [12:31<1:17:39,  2.02it/s] 12%|█▏        | 1249/10682 [12:31<1:17:33,  2.03it/s] 12%|█▏        | 1250/10682 [12:32<1:17:31,  2.03it/s]                                                      {'loss': 4.153, 'grad_norm': 0.282619446516037, 'learning_rate': 0.0009991255149608528, 'epoch': 1.64}
- 12%|█▏        | 1250/10682 [12:32<1:17:31,  2.03it/s] 12%|█▏        | 1251/10682 [12:32<1:17:50,  2.02it/s] 12%|█▏        | 1252/10682 [12:33<1:17:50,  2.02it/s] 12%|█▏        | 1253/10682 [12:33<1:17:41,  2.02it/s] 12%|█▏        | 1254/10682 [12:34<1:17:40,  2.02it/s] 12%|█▏        | 1255/10682 [12:34<1:17:35,  2.02it/s] 12%|█▏        | 1256/10682 [12:35<1:17:35,  2.02it/s] 12%|█▏        | 1257/10682 [12:35<1:17:36,  2.02it/s] 12%|█▏        | 1258/10682 [12:36<1:24:30,  1.86it/s] 12%|█▏        | 1259/10682 [12:36<1:22:21,  1.91it/s] 12%|█▏        | 1260/10682 [12:37<1:20:58,  1.94it/s] 12%|█▏        | 1261/10682 [12:37<1:19:52,  1.97it/s] 12%|█▏        | 1262/10682 [12:38<1:19:09,  1.98it/s] 12%|█▏        | 1263/10682 [12:38<1:18:39,  2.00it/s] 12%|█▏        | 1264/10682 [12:39<1:18:13,  2.01it/s] 12%|█▏        | 1265/10682 [12:39<1:17:59,  2.01it/s] 12%|█▏        | 1266/10682 [12:40<1:17:44,  2.02it/s] 12%|█▏        | 1267/10682 [12:40<1:17:42,  2.02it/s] 12%|█▏        | 1268/10682 [12:41<1:17:35,  2.02it/s] 12%|█▏        | 1269/10682 [12:41<1:17:34,  2.02it/s] 12%|█▏        | 1270/10682 [12:42<1:17:34,  2.02it/s] 12%|█▏        | 1271/10682 [12:42<1:17:27,  2.03it/s] 12%|█▏        | 1272/10682 [12:43<1:17:28,  2.02it/s] 12%|█▏        | 1273/10682 [12:43<1:17:24,  2.03it/s] 12%|█▏        | 1274/10682 [12:44<1:17:28,  2.02it/s] 12%|█▏        | 1275/10682 [12:44<1:17:25,  2.03it/s]{'loss': 4.1356, 'grad_norm': 0.33351942896842957, 'learning_rate': 0.0009988673590077238, 'epoch': 1.67}                                                      
- 12%|█▏        | 1275/10682 [12:44<1:17:25,  2.03it/s] 12%|█▏        | 1276/10682 [12:45<1:17:32,  2.02it/s] 12%|█▏        | 1277/10682 [12:45<1:17:28,  2.02it/s] 12%|█▏        | 1278/10682 [12:46<1:17:41,  2.02it/s] 12%|█▏        | 1279/10682 [12:46<1:17:34,  2.02it/s] 12%|█▏        | 1280/10682 [12:47<1:17:33,  2.02it/s] 12%|█▏        | 1281/10682 [12:47<1:17:27,  2.02it/s] 12%|█▏        | 1282/10682 [12:48<1:17:21,  2.03it/s] 12%|█▏        | 1283/10682 [12:48<1:17:21,  2.02it/s] 12%|█▏        | 1284/10682 [12:49<1:17:20,  2.03it/s] 12%|█▏        | 1285/10682 [12:49<1:17:21,  2.02it/s] 12%|█▏        | 1286/10682 [12:50<1:17:21,  2.02it/s] 12%|█▏        | 1287/10682 [12:50<1:17:14,  2.03it/s] 12%|█▏        | 1288/10682 [12:51<1:17:15,  2.03it/s] 12%|█▏        | 1289/10682 [12:51<1:17:12,  2.03it/s] 12%|█▏        | 1290/10682 [12:52<1:17:15,  2.03it/s] 12%|█▏        | 1291/10682 [12:52<1:17:20,  2.02it/s] 12%|█▏        | 1292/10682 [12:53<1:17:18,  2.02it/s] 12%|█▏        | 1293/10682 [12:53<1:17:21,  2.02it/s] 12%|█▏        | 1294/10682 [12:54<1:17:14,  2.03it/s] 12%|█▏        | 1295/10682 [12:54<1:17:14,  2.03it/s] 12%|█▏        | 1296/10682 [12:55<1:17:16,  2.02it/s] 12%|█▏        | 1297/10682 [12:55<1:17:13,  2.03it/s] 12%|█▏        | 1298/10682 [12:56<1:17:12,  2.03it/s] 12%|█▏        | 1299/10682 [12:56<1:17:09,  2.03it/s] 12%|█▏        | 1300/10682 [12:57<1:17:11,  2.03it/s]                                                      {'loss': 4.1205, 'grad_norm': 0.2843641936779022, 'learning_rate': 0.0009985759030302366, 'epoch': 1.7}
- 12%|█▏        | 1300/10682 [12:57<1:17:11,  2.03it/s] 12%|█▏        | 1301/10682 [12:57<1:17:16,  2.02it/s] 12%|█▏        | 1302/10682 [12:58<1:17:11,  2.03it/s] 12%|█▏        | 1303/10682 [12:58<1:17:12,  2.02it/s] 12%|█▏        | 1304/10682 [12:59<1:17:07,  2.03it/s] 12%|█▏        | 1305/10682 [12:59<1:17:09,  2.03it/s] 12%|█▏        | 1306/10682 [13:00<1:17:08,  2.03it/s] 12%|█▏        | 1307/10682 [13:00<1:17:11,  2.02it/s] 12%|█▏        | 1308/10682 [13:01<1:17:10,  2.02it/s] 12%|█▏        | 1309/10682 [13:01<1:17:09,  2.02it/s] 12%|█▏        | 1310/10682 [13:02<1:17:08,  2.02it/s] 12%|█▏        | 1311/10682 [13:02<1:17:07,  2.03it/s] 12%|█▏        | 1312/10682 [13:03<1:17:08,  2.02it/s] 12%|█▏        | 1313/10682 [13:03<1:17:05,  2.03it/s] 12%|█▏        | 1314/10682 [13:04<1:17:08,  2.02it/s] 12%|█▏        | 1315/10682 [13:04<1:17:06,  2.02it/s] 12%|█▏        | 1316/10682 [13:05<1:17:07,  2.02it/s] 12%|█▏        | 1317/10682 [13:05<1:17:02,  2.03it/s] 12%|█▏        | 1318/10682 [13:06<1:17:02,  2.03it/s] 12%|█▏        | 1319/10682 [13:06<1:17:00,  2.03it/s] 12%|█▏        | 1320/10682 [13:07<1:16:57,  2.03it/s] 12%|█▏        | 1321/10682 [13:07<1:16:59,  2.03it/s] 12%|█▏        | 1322/10682 [13:08<1:16:53,  2.03it/s] 12%|█▏        | 1323/10682 [13:08<1:16:56,  2.03it/s] 12%|█▏        | 1324/10682 [13:09<1:16:49,  2.03it/s] 12%|█▏        | 1325/10682 [13:09<1:16:49,  2.03it/s]                                                      {'loss': 4.1018, 'grad_norm': 0.2806658446788788, 'learning_rate': 0.0009982511664834452, 'epoch': 1.74}
- 12%|█▏        | 1325/10682 [13:09<1:16:49,  2.03it/s] 12%|█▏        | 1326/10682 [13:10<1:17:07,  2.02it/s] 12%|█▏        | 1327/10682 [13:10<1:17:02,  2.02it/s] 12%|█▏        | 1328/10682 [13:11<1:16:58,  2.03it/s] 12%|█▏        | 1329/10682 [13:11<1:16:59,  2.02it/s] 12%|█▏        | 1330/10682 [13:12<1:16:58,  2.02it/s] 12%|█▏        | 1331/10682 [13:12<1:16:54,  2.03it/s] 12%|█▏        | 1332/10682 [13:13<1:16:55,  2.03it/s] 12%|█▏        | 1333/10682 [13:13<1:16:47,  2.03it/s] 12%|█▏        | 1334/10682 [13:14<1:16:49,  2.03it/s] 12%|█▏        | 1335/10682 [13:14<1:16:46,  2.03it/s] 13%|█▎        | 1336/10682 [13:15<1:16:42,  2.03it/s] 13%|█▎        | 1337/10682 [13:15<1:16:47,  2.03it/s] 13%|█▎        | 1338/10682 [13:15<1:16:48,  2.03it/s] 13%|█▎        | 1339/10682 [13:16<1:16:50,  2.03it/s] 13%|█▎        | 1340/10682 [13:16<1:16:48,  2.03it/s] 13%|█▎        | 1341/10682 [13:17<1:16:48,  2.03it/s] 13%|█▎        | 1342/10682 [13:17<1:16:52,  2.02it/s] 13%|█▎        | 1343/10682 [13:18<1:16:52,  2.02it/s] 13%|█▎        | 1344/10682 [13:18<1:16:51,  2.03it/s] 13%|█▎        | 1345/10682 [13:19<1:16:50,  2.03it/s] 13%|█▎        | 1346/10682 [13:19<1:16:46,  2.03it/s] 13%|█▎        | 1347/10682 [13:20<1:16:44,  2.03it/s] 13%|█▎        | 1348/10682 [13:20<1:16:45,  2.03it/s] 13%|█▎        | 1349/10682 [13:21<1:16:40,  2.03it/s] 13%|█▎        | 1350/10682 [13:21<1:16:46,  2.03it/s]                                                      {'loss': 4.0907, 'grad_norm': 0.260347455739975, 'learning_rate': 0.0009978931710439229, 'epoch': 1.77}
- 13%|█▎        | 1350/10682 [13:21<1:16:46,  2.03it/s] 13%|█▎        | 1351/10682 [13:22<1:16:44,  2.03it/s] 13%|█▎        | 1352/10682 [13:22<1:16:45,  2.03it/s] 13%|█▎        | 1353/10682 [13:23<1:16:42,  2.03it/s] 13%|█▎        | 1354/10682 [13:23<1:16:42,  2.03it/s] 13%|█▎        | 1355/10682 [13:24<1:16:44,  2.03it/s] 13%|█▎        | 1356/10682 [13:24<1:16:40,  2.03it/s] 13%|█▎        | 1357/10682 [13:25<1:16:46,  2.02it/s] 13%|█▎        | 1358/10682 [13:25<1:16:40,  2.03it/s] 13%|█▎        | 1359/10682 [13:26<1:16:43,  2.03it/s] 13%|█▎        | 1360/10682 [13:26<1:16:37,  2.03it/s] 13%|█▎        | 1361/10682 [13:27<1:16:38,  2.03it/s] 13%|█▎        | 1362/10682 [13:27<1:16:39,  2.03it/s] 13%|█▎        | 1363/10682 [13:28<1:16:41,  2.03it/s] 13%|█▎        | 1364/10682 [13:28<1:16:43,  2.02it/s] 13%|█▎        | 1365/10682 [13:29<1:16:45,  2.02it/s] 13%|█▎        | 1366/10682 [13:29<1:16:42,  2.02it/s] 13%|█▎        | 1367/10682 [13:30<1:16:40,  2.02it/s] 13%|█▎        | 1368/10682 [13:30<1:16:38,  2.03it/s] 13%|█▎        | 1369/10682 [13:31<1:16:38,  2.03it/s] 13%|█▎        | 1370/10682 [13:31<1:16:33,  2.03it/s] 13%|█▎        | 1371/10682 [13:32<1:16:33,  2.03it/s] 13%|█▎        | 1372/10682 [13:32<1:16:32,  2.03it/s] 13%|█▎        | 1373/10682 [13:33<1:16:29,  2.03it/s] 13%|█▎        | 1374/10682 [13:33<1:16:29,  2.03it/s] 13%|█▎        | 1375/10682 [13:34<1:16:25,  2.03it/s]                                                      {'loss': 4.0702, 'grad_norm': 0.2694912254810333, 'learning_rate': 0.000997501940608316, 'epoch': 1.8}
- 13%|█▎        | 1375/10682 [13:34<1:16:25,  2.03it/s] 13%|█▎        | 1376/10682 [13:34<1:16:34,  2.03it/s] 13%|█▎        | 1377/10682 [13:35<1:16:30,  2.03it/s] 13%|█▎        | 1378/10682 [13:35<1:16:32,  2.03it/s] 13%|█▎        | 1379/10682 [13:36<1:16:30,  2.03it/s] 13%|█▎        | 1380/10682 [13:36<1:16:31,  2.03it/s] 13%|█▎        | 1381/10682 [13:37<1:16:34,  2.02it/s] 13%|█▎        | 1382/10682 [13:37<1:16:28,  2.03it/s] 13%|█▎        | 1383/10682 [13:38<1:16:32,  2.02it/s] 13%|█▎        | 1384/10682 [13:38<1:16:27,  2.03it/s] 13%|█▎        | 1385/10682 [13:39<1:16:30,  2.03it/s] 13%|█▎        | 1386/10682 [13:39<1:16:30,  2.03it/s] 13%|█▎        | 1387/10682 [13:40<1:16:30,  2.02it/s] 13%|█▎        | 1388/10682 [13:40<1:16:25,  2.03it/s] 13%|█▎        | 1389/10682 [13:41<1:16:24,  2.03it/s] 13%|█▎        | 1390/10682 [13:41<1:16:24,  2.03it/s] 13%|█▎        | 1391/10682 [13:42<1:16:25,  2.03it/s] 13%|█▎        | 1392/10682 [13:42<1:16:25,  2.03it/s] 13%|█▎        | 1393/10682 [13:43<1:16:27,  2.02it/s] 13%|█▎        | 1394/10682 [13:43<1:16:28,  2.02it/s] 13%|█▎        | 1395/10682 [13:44<1:16:25,  2.03it/s] 13%|█▎        | 1396/10682 [13:44<1:16:28,  2.02it/s] 13%|█▎        | 1397/10682 [13:45<1:16:26,  2.02it/s] 13%|█▎        | 1398/10682 [13:45<1:16:29,  2.02it/s] 13%|█▎        | 1399/10682 [13:46<1:16:26,  2.02it/s] 13%|█▎        | 1400/10682 [13:46<1:16:27,  2.02it/s]                                                      {'loss': 4.0589, 'grad_norm': 0.27038079500198364, 'learning_rate': 0.0009970775012917489, 'epoch': 1.83}
- 13%|█▎        | 1400/10682 [13:46<1:16:27,  2.02it/s] 13%|█▎        | 1401/10682 [13:47<1:16:28,  2.02it/s] 13%|█▎        | 1402/10682 [13:47<1:16:27,  2.02it/s] 13%|█▎        | 1403/10682 [13:48<1:16:23,  2.02it/s] 13%|█▎        | 1404/10682 [13:48<1:16:19,  2.03it/s] 13%|█▎        | 1405/10682 [13:49<1:16:20,  2.03it/s] 13%|█▎        | 1406/10682 [13:49<1:16:17,  2.03it/s] 13%|█▎        | 1407/10682 [13:50<1:16:23,  2.02it/s] 13%|█▎        | 1408/10682 [13:50<1:16:20,  2.02it/s] 13%|█▎        | 1409/10682 [13:51<1:16:22,  2.02it/s] 13%|█▎        | 1410/10682 [13:51<1:16:16,  2.03it/s] 13%|█▎        | 1411/10682 [13:52<1:16:17,  2.03it/s] 13%|█▎        | 1412/10682 [13:52<1:16:15,  2.03it/s] 13%|█▎        | 1413/10682 [13:53<1:16:13,  2.03it/s] 13%|█▎        | 1414/10682 [13:53<1:16:14,  2.03it/s] 13%|█▎        | 1415/10682 [13:54<1:16:11,  2.03it/s] 13%|█▎        | 1416/10682 [13:54<1:16:16,  2.02it/s] 13%|█▎        | 1417/10682 [13:54<1:16:12,  2.03it/s] 13%|█▎        | 1418/10682 [13:55<1:16:09,  2.03it/s] 13%|█▎        | 1419/10682 [13:55<1:16:12,  2.03it/s] 13%|█▎        | 1420/10682 [13:56<1:16:11,  2.03it/s] 13%|█▎        | 1421/10682 [13:56<1:16:14,  2.02it/s] 13%|█▎        | 1422/10682 [13:57<1:16:07,  2.03it/s] 13%|█▎        | 1423/10682 [13:57<1:16:07,  2.03it/s] 13%|█▎        | 1424/10682 [13:58<1:16:11,  2.03it/s] 13%|█▎        | 1425/10682 [13:58<1:16:08,  2.03it/s]{'loss': 4.0492, 'grad_norm': 0.29462355375289917, 'learning_rate': 0.00099661988142608, 'epoch': 1.87}                                                      
- 13%|█▎        | 1425/10682 [13:58<1:16:08,  2.03it/s] 13%|█▎        | 1426/10682 [13:59<1:16:15,  2.02it/s] 13%|█▎        | 1427/10682 [13:59<1:16:12,  2.02it/s] 13%|█▎        | 1428/10682 [14:00<1:16:08,  2.03it/s] 13%|█▎        | 1429/10682 [14:00<1:16:10,  2.02it/s] 13%|█▎        | 1430/10682 [14:01<1:16:08,  2.03it/s] 13%|█▎        | 1431/10682 [14:01<1:16:07,  2.03it/s] 13%|█▎        | 1432/10682 [14:02<1:16:07,  2.03it/s] 13%|█▎        | 1433/10682 [14:02<1:16:01,  2.03it/s] 13%|█▎        | 1434/10682 [14:03<1:16:02,  2.03it/s] 13%|█▎        | 1435/10682 [14:03<1:15:59,  2.03it/s] 13%|█▎        | 1436/10682 [14:04<1:16:03,  2.03it/s] 13%|█▎        | 1437/10682 [14:04<1:16:02,  2.03it/s] 13%|█▎        | 1438/10682 [14:05<1:16:04,  2.03it/s] 13%|█▎        | 1439/10682 [14:05<1:16:01,  2.03it/s] 13%|█▎        | 1440/10682 [14:06<1:15:58,  2.03it/s] 13%|█▎        | 1441/10682 [14:06<1:16:00,  2.03it/s] 13%|█▎        | 1442/10682 [14:07<1:15:56,  2.03it/s] 14%|█▎        | 1443/10682 [14:07<1:15:59,  2.03it/s] 14%|█▎        | 1444/10682 [14:08<1:15:54,  2.03it/s] 14%|█▎        | 1445/10682 [14:08<1:15:56,  2.03it/s] 14%|█▎        | 1446/10682 [14:09<1:15:55,  2.03it/s] 14%|█▎        | 1447/10682 [14:09<1:15:50,  2.03it/s] 14%|█▎        | 1448/10682 [14:10<1:15:54,  2.03it/s] 14%|█▎        | 1449/10682 [14:10<1:15:47,  2.03it/s] 14%|█▎        | 1450/10682 [14:11<1:15:48,  2.03it/s]{'loss': 4.0383, 'grad_norm': 0.3352712094783783, 'learning_rate': 0.0009961291115580116, 'epoch': 1.9}                                                      
- 14%|█▎        | 1450/10682 [14:11<1:15:48,  2.03it/s] 14%|█▎        | 1451/10682 [14:11<1:15:55,  2.03it/s] 14%|█▎        | 1452/10682 [14:12<1:15:51,  2.03it/s] 14%|█▎        | 1453/10682 [14:12<1:15:53,  2.03it/s] 14%|█▎        | 1454/10682 [14:13<1:15:46,  2.03it/s] 14%|█▎        | 1455/10682 [14:13<1:15:55,  2.03it/s] 14%|█▎        | 1456/10682 [14:14<1:15:50,  2.03it/s] 14%|█▎        | 1457/10682 [14:14<1:15:56,  2.02it/s] 14%|█▎        | 1458/10682 [14:15<1:15:48,  2.03it/s] 14%|█▎        | 1459/10682 [14:15<1:15:51,  2.03it/s] 14%|█▎        | 1460/10682 [14:16<1:15:50,  2.03it/s] 14%|█▎        | 1461/10682 [14:16<1:15:50,  2.03it/s] 14%|█▎        | 1462/10682 [14:17<1:15:50,  2.03it/s] 14%|█▎        | 1463/10682 [14:17<1:15:44,  2.03it/s] 14%|█▎        | 1464/10682 [14:18<1:15:50,  2.03it/s] 14%|█▎        | 1465/10682 [14:18<1:15:46,  2.03it/s] 14%|█▎        | 1466/10682 [14:19<1:15:48,  2.03it/s] 14%|█▎        | 1467/10682 [14:19<1:15:45,  2.03it/s] 14%|█▎        | 1468/10682 [14:20<1:15:45,  2.03it/s] 14%|█▍        | 1469/10682 [14:20<1:15:45,  2.03it/s] 14%|█▍        | 1470/10682 [14:21<1:15:40,  2.03it/s] 14%|█▍        | 1471/10682 [14:21<1:15:44,  2.03it/s] 14%|█▍        | 1472/10682 [14:22<1:15:38,  2.03it/s] 14%|█▍        | 1473/10682 [14:22<1:15:37,  2.03it/s] 14%|█▍        | 1474/10682 [14:23<1:15:39,  2.03it/s] 14%|█▍        | 1475/10682 [14:23<1:15:37,  2.03it/s]                                                      {'loss': 4.0219, 'grad_norm': 0.26964136958122253, 'learning_rate': 0.0009956052244470509, 'epoch': 1.93}
- 14%|█▍        | 1475/10682 [14:23<1:15:37,  2.03it/s] 14%|█▍        | 1476/10682 [14:24<1:15:54,  2.02it/s] 14%|█▍        | 1477/10682 [14:24<1:15:50,  2.02it/s] 14%|█▍        | 1478/10682 [14:25<1:15:47,  2.02it/s] 14%|█▍        | 1479/10682 [14:25<1:15:42,  2.03it/s] 14%|█▍        | 1480/10682 [14:26<1:15:44,  2.03it/s] 14%|█▍        | 1481/10682 [14:26<1:15:40,  2.03it/s] 14%|█▍        | 1482/10682 [14:27<1:15:41,  2.03it/s] 14%|█▍        | 1483/10682 [14:27<1:15:41,  2.03it/s] 14%|█▍        | 1484/10682 [14:28<1:15:40,  2.03it/s] 14%|█▍        | 1485/10682 [14:28<1:15:37,  2.03it/s] 14%|█▍        | 1486/10682 [14:29<1:15:34,  2.03it/s] 14%|█▍        | 1487/10682 [14:29<1:15:34,  2.03it/s] 14%|█▍        | 1488/10682 [14:30<1:15:33,  2.03it/s] 14%|█▍        | 1489/10682 [14:30<1:15:35,  2.03it/s] 14%|█▍        | 1490/10682 [14:31<1:15:36,  2.03it/s] 14%|█▍        | 1491/10682 [14:31<1:15:40,  2.02it/s] 14%|█▍        | 1492/10682 [14:32<1:15:38,  2.02it/s] 14%|█▍        | 1493/10682 [14:32<1:15:34,  2.03it/s] 14%|█▍        | 1494/10682 [14:32<1:15:33,  2.03it/s] 14%|█▍        | 1495/10682 [14:33<1:15:30,  2.03it/s] 14%|█▍        | 1496/10682 [14:33<1:15:32,  2.03it/s] 14%|█▍        | 1497/10682 [14:34<1:15:31,  2.03it/s] 14%|█▍        | 1498/10682 [14:34<1:15:26,  2.03it/s] 14%|█▍        | 1499/10682 [14:35<1:15:30,  2.03it/s] 14%|█▍        | 1500/10682 [14:35<1:15:25,  2.03it/s]{'loss': 4.0124, 'grad_norm': 0.27045831084251404, 'learning_rate': 0.0009950482550633215, 'epoch': 1.97}
-                                                       14%|█▍        | 1500/10682 [14:35<1:15:25,  2.03it/s] 14%|█▍        | 1501/10682 [14:36<1:15:36,  2.02it/s] 14%|█▍        | 1502/10682 [14:36<1:15:28,  2.03it/s] 14%|█▍        | 1503/10682 [14:37<1:15:27,  2.03it/s] 14%|█▍        | 1504/10682 [14:37<1:15:29,  2.03it/s] 14%|█▍        | 1505/10682 [14:38<1:15:25,  2.03it/s] 14%|█▍        | 1506/10682 [14:38<1:15:27,  2.03it/s] 14%|█▍        | 1507/10682 [14:39<1:15:22,  2.03it/s] 14%|█▍        | 1508/10682 [14:39<1:15:22,  2.03it/s] 14%|█▍        | 1509/10682 [14:40<1:15:25,  2.03it/s] 14%|█▍        | 1510/10682 [14:40<1:15:26,  2.03it/s] 14%|█▍        | 1511/10682 [14:41<1:15:29,  2.02it/s] 14%|█▍        | 1512/10682 [14:41<1:15:27,  2.03it/s] 14%|█▍        | 1513/10682 [14:42<1:15:31,  2.02it/s] 14%|█▍        | 1514/10682 [14:42<1:15:27,  2.03it/s] 14%|█▍        | 1515/10682 [14:43<1:15:33,  2.02it/s] 14%|█▍        | 1516/10682 [14:43<1:15:31,  2.02it/s] 14%|█▍        | 1517/10682 [14:44<1:15:27,  2.02it/s] 14%|█▍        | 1518/10682 [14:44<1:15:23,  2.03it/s] 14%|█▍        | 1519/10682 [14:45<1:15:16,  2.03it/s] 14%|█▍        | 1520/10682 [14:45<1:15:17,  2.03it/s] 14%|█▍        | 1521/10682 [14:46<1:15:16,  2.03it/s] 14%|█▍        | 1522/10682 [14:46<1:15:19,  2.03it/s] 14%|█▍        | 1523/10682 [14:47<1:15:20,  2.03it/s] 14%|█▍        | 1524/10682 [14:47<1:15:19,  2.03it/s] 14%|█▍        | 1525/10682 [14:48<1:15:22,  2.02it/s]                                                      {'loss': 4.0063, 'grad_norm': 0.2787397801876068, 'learning_rate': 0.0009944582405852314, 'epoch': 2.0}
- 14%|█▍        | 1525/10682 [14:48<1:15:22,  2.02it/s] 14%|█▍        | 1526/10682 [14:48<1:14:47,  2.04it/s] 14%|█▍        | 1527/10682 [15:48<46:21:15, 18.23s/it] 14%|█▍        | 1528/10682 [15:48<32:49:53, 12.91s/it] 14%|█▍        | 1529/10682 [15:49<23:21:20,  9.19s/it] 14%|█▍        | 1530/10682 [15:49<16:43:30,  6.58s/it] 14%|█▍        | 1531/10682 [15:50<12:05:21,  4.76s/it] 14%|█▍        | 1532/10682 [15:50<8:50:16,  3.48s/it]  14%|█▍        | 1533/10682 [15:51<6:33:41,  2.58s/it] 14%|█▍        | 1534/10682 [15:51<4:58:08,  1.96s/it] 14%|█▍        | 1535/10682 [15:52<3:51:13,  1.52s/it] 14%|█▍        | 1536/10682 [15:52<3:04:27,  1.21s/it] 14%|█▍        | 1537/10682 [15:53<2:31:35,  1.01it/s] 14%|█▍        | 1538/10682 [15:53<2:08:57,  1.18it/s] 14%|█▍        | 1539/10682 [15:54<1:52:55,  1.35it/s] 14%|█▍        | 1540/10682 [15:54<1:41:35,  1.50it/s] 14%|█▍        | 1541/10682 [15:55<1:33:38,  1.63it/s] 14%|█▍        | 1542/10682 [15:55<1:28:08,  1.73it/s] 14%|█▍        | 1543/10682 [15:56<1:24:11,  1.81it/s] 14%|█▍        | 1544/10682 [15:56<1:21:31,  1.87it/s] 14%|█▍        | 1545/10682 [15:57<1:19:30,  1.92it/s] 14%|█▍        | 1546/10682 [15:57<1:18:17,  1.94it/s] 14%|█▍        | 1547/10682 [15:58<1:17:20,  1.97it/s] 14%|█▍        | 1548/10682 [15:58<1:16:39,  1.99it/s] 15%|█▍        | 1549/10682 [15:59<1:16:10,  2.00it/s] 15%|█▍        | 1550/10682 [15:59<1:15:52,  2.01it/s]                                                      {'loss': 3.8882, 'grad_norm': 0.2515488862991333, 'learning_rate': 0.0009938352203969901, 'epoch': 2.03}
- 15%|█▍        | 1550/10682 [15:59<1:15:52,  2.01it/s] 15%|█▍        | 1551/10682 [16:00<1:15:44,  2.01it/s] 15%|█▍        | 1552/10682 [16:00<1:15:46,  2.01it/s] 15%|█▍        | 1553/10682 [16:01<1:15:32,  2.01it/s] 15%|█▍        | 1554/10682 [16:01<1:15:25,  2.02it/s] 15%|█▍        | 1555/10682 [16:02<1:15:33,  2.01it/s] 15%|█▍        | 1556/10682 [16:02<1:15:36,  2.01it/s] 15%|█▍        | 1557/10682 [16:03<1:15:26,  2.02it/s] 15%|█▍        | 1558/10682 [16:03<1:15:27,  2.02it/s] 15%|█▍        | 1559/10682 [16:04<1:15:25,  2.02it/s] 15%|█▍        | 1560/10682 [16:04<1:15:21,  2.02it/s] 15%|█▍        | 1561/10682 [16:05<1:15:14,  2.02it/s] 15%|█▍        | 1562/10682 [16:05<1:15:13,  2.02it/s] 15%|█▍        | 1563/10682 [16:06<1:15:07,  2.02it/s] 15%|█▍        | 1564/10682 [16:06<1:15:08,  2.02it/s] 15%|█▍        | 1565/10682 [16:07<1:15:01,  2.03it/s] 15%|█▍        | 1566/10682 [16:07<1:15:03,  2.02it/s] 15%|█▍        | 1567/10682 [16:08<1:14:57,  2.03it/s] 15%|█▍        | 1568/10682 [16:08<1:14:56,  2.03it/s] 15%|█▍        | 1569/10682 [16:09<1:14:58,  2.03it/s] 15%|█▍        | 1570/10682 [16:09<1:14:54,  2.03it/s] 15%|█▍        | 1571/10682 [16:10<1:14:54,  2.03it/s] 15%|█▍        | 1572/10682 [16:10<1:14:53,  2.03it/s] 15%|█▍        | 1573/10682 [16:11<1:14:55,  2.03it/s] 15%|█▍        | 1574/10682 [16:11<1:14:57,  2.03it/s] 15%|█▍        | 1575/10682 [16:12<1:14:53,  2.03it/s]{'loss': 3.8847, 'grad_norm': 0.2672370970249176, 'learning_rate': 0.0009931792360859792, 'epoch': 2.06}                                                      
- 15%|█▍        | 1575/10682 [16:12<1:14:53,  2.03it/s] 15%|█▍        | 1576/10682 [16:12<1:15:00,  2.02it/s] 15%|█▍        | 1577/10682 [16:13<1:14:58,  2.02it/s] 15%|█▍        | 1578/10682 [16:13<1:14:56,  2.02it/s] 15%|█▍        | 1579/10682 [16:14<1:14:56,  2.02it/s] 15%|█▍        | 1580/10682 [16:14<1:14:51,  2.03it/s] 15%|█▍        | 1581/10682 [16:15<1:14:53,  2.03it/s] 15%|█▍        | 1582/10682 [16:15<1:14:50,  2.03it/s] 15%|█▍        | 1583/10682 [16:16<1:14:52,  2.03it/s] 15%|█▍        | 1584/10682 [16:16<1:14:54,  2.02it/s] 15%|█▍        | 1585/10682 [16:17<1:14:56,  2.02it/s] 15%|█▍        | 1586/10682 [16:17<1:14:55,  2.02it/s] 15%|█▍        | 1587/10682 [16:18<1:14:54,  2.02it/s] 15%|█▍        | 1588/10682 [16:18<1:14:51,  2.02it/s] 15%|█▍        | 1589/10682 [16:19<1:14:48,  2.03it/s] 15%|█▍        | 1590/10682 [16:19<1:14:47,  2.03it/s] 15%|█▍        | 1591/10682 [16:20<1:14:46,  2.03it/s] 15%|█▍        | 1592/10682 [16:20<1:14:47,  2.03it/s] 15%|█▍        | 1593/10682 [16:21<1:14:51,  2.02it/s] 15%|█▍        | 1594/10682 [16:21<1:14:50,  2.02it/s] 15%|█▍        | 1595/10682 [16:22<1:14:49,  2.02it/s] 15%|█▍        | 1596/10682 [16:22<1:14:48,  2.02it/s] 15%|█▍        | 1597/10682 [16:22<1:14:49,  2.02it/s] 15%|█▍        | 1598/10682 [16:23<1:14:47,  2.02it/s] 15%|█▍        | 1599/10682 [16:23<1:14:50,  2.02it/s] 15%|█▍        | 1600/10682 [16:24<1:14:48,  2.02it/s]{'loss': 3.8756, 'grad_norm': 0.27571791410446167, 'learning_rate': 0.0009924903314399776, 'epoch': 2.1}                                                      
- 15%|█▍        | 1600/10682 [16:24<1:14:48,  2.02it/s] 15%|█▍        | 1601/10682 [16:24<1:14:54,  2.02it/s] 15%|█▍        | 1602/10682 [16:25<1:14:48,  2.02it/s] 15%|█▌        | 1603/10682 [16:25<1:14:48,  2.02it/s] 15%|█▌        | 1604/10682 [16:26<1:14:48,  2.02it/s] 15%|█▌        | 1605/10682 [16:26<1:14:50,  2.02it/s] 15%|█▌        | 1606/10682 [16:27<1:14:44,  2.02it/s] 15%|█▌        | 1607/10682 [16:27<1:14:46,  2.02it/s] 15%|█▌        | 1608/10682 [16:28<1:14:43,  2.02it/s] 15%|█▌        | 1609/10682 [16:28<1:14:42,  2.02it/s] 15%|█▌        | 1610/10682 [16:29<1:14:40,  2.02it/s] 15%|█▌        | 1611/10682 [16:29<1:14:39,  2.02it/s] 15%|█▌        | 1612/10682 [16:30<1:14:40,  2.02it/s] 15%|█▌        | 1613/10682 [16:30<1:14:34,  2.03it/s] 15%|█▌        | 1614/10682 [16:31<1:14:38,  2.02it/s] 15%|█▌        | 1615/10682 [16:31<1:14:33,  2.03it/s] 15%|█▌        | 1616/10682 [16:32<1:14:38,  2.02it/s] 15%|█▌        | 1617/10682 [16:32<1:14:32,  2.03it/s] 15%|█▌        | 1618/10682 [16:33<1:14:35,  2.03it/s] 15%|█▌        | 1619/10682 [16:33<1:14:33,  2.03it/s] 15%|█▌        | 1620/10682 [16:34<1:14:34,  2.03it/s] 15%|█▌        | 1621/10682 [16:34<1:14:32,  2.03it/s] 15%|█▌        | 1622/10682 [16:35<1:14:32,  2.03it/s] 15%|█▌        | 1623/10682 [16:35<1:14:33,  2.02it/s] 15%|█▌        | 1624/10682 [16:36<1:14:30,  2.03it/s] 15%|█▌        | 1625/10682 [16:36<1:14:33,  2.02it/s]{'loss': 3.8791, 'grad_norm': 0.26097145676612854, 'learning_rate': 0.0009917685524442382, 'epoch': 2.13}                                                      
- 15%|█▌        | 1625/10682 [16:36<1:14:33,  2.02it/s] 15%|█▌        | 1626/10682 [16:37<1:14:41,  2.02it/s] 15%|█▌        | 1627/10682 [16:37<1:14:39,  2.02it/s] 15%|█▌        | 1628/10682 [16:38<1:14:34,  2.02it/s] 15%|█▌        | 1629/10682 [16:38<1:14:37,  2.02it/s] 15%|█▌        | 1630/10682 [16:39<1:14:32,  2.02it/s] 15%|█▌        | 1631/10682 [16:39<1:14:38,  2.02it/s] 15%|█▌        | 1632/10682 [16:40<1:14:35,  2.02it/s] 15%|█▌        | 1633/10682 [16:40<1:14:37,  2.02it/s] 15%|█▌        | 1634/10682 [16:41<1:14:32,  2.02it/s] 15%|█▌        | 1635/10682 [16:41<1:14:33,  2.02it/s] 15%|█▌        | 1636/10682 [16:42<1:14:28,  2.02it/s] 15%|█▌        | 1637/10682 [16:42<1:14:29,  2.02it/s] 15%|█▌        | 1638/10682 [16:43<1:14:27,  2.02it/s] 15%|█▌        | 1639/10682 [16:43<1:14:27,  2.02it/s] 15%|█▌        | 1640/10682 [16:44<1:14:26,  2.02it/s] 15%|█▌        | 1641/10682 [16:44<1:14:27,  2.02it/s] 15%|█▌        | 1642/10682 [16:45<1:14:26,  2.02it/s] 15%|█▌        | 1643/10682 [16:45<1:14:23,  2.03it/s] 15%|█▌        | 1644/10682 [16:46<1:14:26,  2.02it/s] 15%|█▌        | 1645/10682 [16:46<1:14:20,  2.03it/s] 15%|█▌        | 1646/10682 [16:47<1:14:22,  2.02it/s] 15%|█▌        | 1647/10682 [16:47<1:14:18,  2.03it/s] 15%|█▌        | 1648/10682 [16:48<1:14:19,  2.03it/s] 15%|█▌        | 1649/10682 [16:48<1:14:19,  2.03it/s] 15%|█▌        | 1650/10682 [16:49<1:14:14,  2.03it/s]                                                      {'loss': 3.8794, 'grad_norm': 0.2619628310203552, 'learning_rate': 0.0009910139472784174, 'epoch': 2.16}
- 15%|█▌        | 1650/10682 [16:49<1:14:14,  2.03it/s] 15%|█▌        | 1651/10682 [16:49<1:14:22,  2.02it/s] 15%|█▌        | 1652/10682 [16:50<1:14:27,  2.02it/s] 15%|█▌        | 1653/10682 [16:50<1:14:28,  2.02it/s] 15%|█▌        | 1654/10682 [16:51<1:14:21,  2.02it/s] 15%|█▌        | 1655/10682 [16:51<1:14:25,  2.02it/s] 16%|█▌        | 1656/10682 [16:52<1:14:16,  2.03it/s] 16%|█▌        | 1657/10682 [16:52<1:14:18,  2.02it/s] 16%|█▌        | 1658/10682 [16:53<1:14:17,  2.02it/s] 16%|█▌        | 1659/10682 [16:53<1:14:15,  2.03it/s] 16%|█▌        | 1660/10682 [16:54<1:14:16,  2.02it/s] 16%|█▌        | 1661/10682 [16:54<1:14:14,  2.03it/s] 16%|█▌        | 1662/10682 [16:55<1:14:15,  2.02it/s] 16%|█▌        | 1663/10682 [16:55<1:14:13,  2.02it/s] 16%|█▌        | 1664/10682 [16:56<1:14:15,  2.02it/s] 16%|█▌        | 1665/10682 [16:56<1:14:14,  2.02it/s] 16%|█▌        | 1666/10682 [16:57<1:14:14,  2.02it/s] 16%|█▌        | 1667/10682 [16:57<1:14:12,  2.02it/s] 16%|█▌        | 1668/10682 [16:58<1:14:10,  2.03it/s] 16%|█▌        | 1669/10682 [16:58<1:14:13,  2.02it/s] 16%|█▌        | 1670/10682 [16:59<1:14:09,  2.03it/s] 16%|█▌        | 1671/10682 [16:59<1:14:11,  2.02it/s] 16%|█▌        | 1672/10682 [17:00<1:14:07,  2.03it/s] 16%|█▌        | 1673/10682 [17:00<1:14:08,  2.03it/s] 16%|█▌        | 1674/10682 [17:01<1:14:05,  2.03it/s] 16%|█▌        | 1675/10682 [17:01<1:14:08,  2.02it/s]{'loss': 3.8746, 'grad_norm': 0.2528828978538513, 'learning_rate': 0.0009902265663133602, 'epoch': 2.2}
-                                                       16%|█▌        | 1675/10682 [17:01<1:14:08,  2.02it/s] 16%|█▌        | 1676/10682 [17:02<1:14:10,  2.02it/s] 16%|█▌        | 1677/10682 [17:02<1:14:11,  2.02it/s] 16%|█▌        | 1678/10682 [17:03<1:14:09,  2.02it/s] 16%|█▌        | 1679/10682 [17:03<1:14:10,  2.02it/s] 16%|█▌        | 1680/10682 [17:04<1:14:08,  2.02it/s] 16%|█▌        | 1681/10682 [17:04<1:14:07,  2.02it/s] 16%|█▌        | 1682/10682 [17:04<1:14:05,  2.02it/s] 16%|█▌        | 1683/10682 [17:05<1:14:01,  2.03it/s] 16%|█▌        | 1684/10682 [17:05<1:14:05,  2.02it/s] 16%|█▌        | 1685/10682 [17:06<1:14:07,  2.02it/s] 16%|█▌        | 1686/10682 [17:06<1:14:06,  2.02it/s] 16%|█▌        | 1687/10682 [17:07<1:14:05,  2.02it/s] 16%|█▌        | 1688/10682 [17:07<1:14:11,  2.02it/s] 16%|█▌        | 1689/10682 [17:08<1:14:08,  2.02it/s] 16%|█▌        | 1690/10682 [17:08<1:14:07,  2.02it/s] 16%|█▌        | 1691/10682 [17:09<1:14:03,  2.02it/s] 16%|█▌        | 1692/10682 [17:09<1:14:03,  2.02it/s] 16%|█▌        | 1693/10682 [17:10<1:14:02,  2.02it/s] 16%|█▌        | 1694/10682 [17:10<1:14:03,  2.02it/s] 16%|█▌        | 1695/10682 [17:11<1:14:01,  2.02it/s] 16%|█▌        | 1696/10682 [17:11<1:14:03,  2.02it/s] 16%|█▌        | 1697/10682 [17:12<1:14:01,  2.02it/s] 16%|█▌        | 1698/10682 [17:12<1:14:01,  2.02it/s] 16%|█▌        | 1699/10682 [17:13<1:14:00,  2.02it/s] 16%|█▌        | 1700/10682 [17:13<1:13:56,  2.02it/s]{'loss': 3.8684, 'grad_norm': 0.24870310723781586, 'learning_rate': 0.0009894064621077375, 'epoch': 2.23}
-                                                       16%|█▌        | 1700/10682 [17:13<1:13:56,  2.02it/s] 16%|█▌        | 1701/10682 [17:14<1:14:04,  2.02it/s] 16%|█▌        | 1702/10682 [17:14<1:14:03,  2.02it/s] 16%|█▌        | 1703/10682 [17:15<1:14:00,  2.02it/s] 16%|█▌        | 1704/10682 [17:15<1:13:56,  2.02it/s] 16%|█▌        | 1705/10682 [17:16<1:13:59,  2.02it/s] 16%|█▌        | 1706/10682 [17:16<1:13:54,  2.02it/s] 16%|█▌        | 1707/10682 [17:17<1:13:58,  2.02it/s] 16%|█▌        | 1708/10682 [17:17<1:13:50,  2.03it/s] 16%|█▌        | 1709/10682 [17:18<1:13:47,  2.03it/s] 16%|█▌        | 1710/10682 [17:18<1:13:50,  2.03it/s] 16%|█▌        | 1711/10682 [17:19<1:13:50,  2.02it/s] 16%|█▌        | 1712/10682 [17:19<1:13:52,  2.02it/s] 16%|█▌        | 1713/10682 [17:20<1:13:51,  2.02it/s] 16%|█▌        | 1714/10682 [17:20<1:13:50,  2.02it/s] 16%|█▌        | 1715/10682 [17:21<1:13:53,  2.02it/s] 16%|█▌        | 1716/10682 [17:21<1:13:49,  2.02it/s] 16%|█▌        | 1717/10682 [17:22<1:13:51,  2.02it/s] 16%|█▌        | 1718/10682 [17:22<1:13:50,  2.02it/s] 16%|█▌        | 1719/10682 [17:23<1:13:48,  2.02it/s] 16%|█▌        | 1720/10682 [17:23<1:13:46,  2.02it/s] 16%|█▌        | 1721/10682 [17:24<1:13:41,  2.03it/s] 16%|█▌        | 1722/10682 [17:24<1:13:44,  2.02it/s] 16%|█▌        | 1723/10682 [17:25<1:13:47,  2.02it/s] 16%|█▌        | 1724/10682 [17:25<1:13:46,  2.02it/s] 16%|█▌        | 1725/10682 [17:26<1:13:42,  2.03it/s]{'loss': 3.8645, 'grad_norm': 0.25055667757987976, 'learning_rate': 0.0009885536894045377, 'epoch': 2.26}                                                      
- 16%|█▌        | 1725/10682 [17:26<1:13:42,  2.03it/s] 16%|█▌        | 1726/10682 [17:26<1:13:50,  2.02it/s] 16%|█▌        | 1727/10682 [17:27<1:13:46,  2.02it/s] 16%|█▌        | 1728/10682 [17:27<1:13:46,  2.02it/s] 16%|█▌        | 1729/10682 [17:28<1:13:43,  2.02it/s] 16%|█▌        | 1730/10682 [17:28<1:13:39,  2.03it/s] 16%|█▌        | 1731/10682 [17:29<1:13:40,  2.02it/s] 16%|█▌        | 1732/10682 [17:29<1:13:34,  2.03it/s] 16%|█▌        | 1733/10682 [17:30<1:13:37,  2.03it/s] 16%|█▌        | 1734/10682 [17:30<1:13:33,  2.03it/s] 16%|█▌        | 1735/10682 [17:31<1:13:35,  2.03it/s] 16%|█▋        | 1736/10682 [17:31<1:13:35,  2.03it/s] 16%|█▋        | 1737/10682 [17:32<1:13:34,  2.03it/s] 16%|█▋        | 1738/10682 [17:32<1:13:35,  2.03it/s] 16%|█▋        | 1739/10682 [17:33<1:13:30,  2.03it/s] 16%|█▋        | 1740/10682 [17:33<1:13:33,  2.03it/s] 16%|█▋        | 1741/10682 [17:34<1:13:29,  2.03it/s] 16%|█▋        | 1742/10682 [17:34<1:13:32,  2.03it/s] 16%|█▋        | 1743/10682 [17:35<1:13:28,  2.03it/s] 16%|█▋        | 1744/10682 [17:35<1:13:26,  2.03it/s] 16%|█▋        | 1745/10682 [17:36<1:13:28,  2.03it/s] 16%|█▋        | 1746/10682 [17:36<1:13:30,  2.03it/s] 16%|█▋        | 1747/10682 [17:37<1:13:34,  2.02it/s] 16%|█▋        | 1748/10682 [17:37<1:13:29,  2.03it/s] 16%|█▋        | 1749/10682 [17:38<1:13:32,  2.02it/s] 16%|█▋        | 1750/10682 [17:38<1:13:27,  2.03it/s]                                                      {'loss': 3.8581, 'grad_norm': 0.24596534669399261, 'learning_rate': 0.0009876683051274124, 'epoch': 2.29}
- 16%|█▋        | 1750/10682 [17:38<1:13:27,  2.03it/s] 16%|█▋        | 1751/10682 [17:39<1:13:37,  2.02it/s] 16%|█▋        | 1752/10682 [17:39<1:13:30,  2.02it/s] 16%|█▋        | 1753/10682 [17:40<1:13:34,  2.02it/s] 16%|█▋        | 1754/10682 [17:40<1:13:28,  2.02it/s] 16%|█▋        | 1755/10682 [17:41<1:13:32,  2.02it/s] 16%|█▋        | 1756/10682 [17:41<1:13:29,  2.02it/s] 16%|█▋        | 1757/10682 [17:42<1:13:28,  2.02it/s] 16%|█▋        | 1758/10682 [17:42<1:13:26,  2.03it/s] 16%|█▋        | 1759/10682 [17:43<1:13:29,  2.02it/s] 16%|█▋        | 1760/10682 [17:43<1:13:25,  2.03it/s] 16%|█▋        | 1761/10682 [17:44<1:13:30,  2.02it/s] 16%|█▋        | 1762/10682 [17:44<1:13:27,  2.02it/s] 17%|█▋        | 1763/10682 [17:45<1:13:27,  2.02it/s] 17%|█▋        | 1764/10682 [17:45<1:13:25,  2.02it/s] 17%|█▋        | 1765/10682 [17:45<1:13:20,  2.03it/s] 17%|█▋        | 1766/10682 [17:46<1:13:21,  2.03it/s] 17%|█▋        | 1767/10682 [17:46<1:13:17,  2.03it/s] 17%|█▋        | 1768/10682 [17:47<1:13:25,  2.02it/s] 17%|█▋        | 1769/10682 [17:47<1:13:21,  2.02it/s] 17%|█▋        | 1770/10682 [17:48<1:13:25,  2.02it/s] 17%|█▋        | 1771/10682 [17:48<1:13:23,  2.02it/s] 17%|█▋        | 1772/10682 [17:49<1:13:25,  2.02it/s] 17%|█▋        | 1773/10682 [17:49<1:13:21,  2.02it/s] 17%|█▋        | 1774/10682 [17:50<1:13:22,  2.02it/s] 17%|█▋        | 1775/10682 [17:50<1:13:20,  2.02it/s]                                                      {'loss': 3.8509, 'grad_norm': 0.2709936201572418, 'learning_rate': 0.0009867503683768772, 'epoch': 2.33}
- 17%|█▋        | 1775/10682 [17:50<1:13:20,  2.02it/s] 17%|█▋        | 1776/10682 [17:51<1:13:30,  2.02it/s] 17%|█▋        | 1777/10682 [17:51<1:13:29,  2.02it/s] 17%|█▋        | 1778/10682 [17:52<1:13:26,  2.02it/s] 17%|█▋        | 1779/10682 [17:52<1:13:21,  2.02it/s] 17%|█▋        | 1780/10682 [17:53<1:13:20,  2.02it/s] 17%|█▋        | 1781/10682 [17:53<1:13:23,  2.02it/s] 17%|█▋        | 1782/10682 [17:54<1:13:24,  2.02it/s] 17%|█▋        | 1783/10682 [17:54<1:13:22,  2.02it/s] 17%|█▋        | 1784/10682 [17:55<1:13:23,  2.02it/s] 17%|█▋        | 1785/10682 [17:55<1:13:17,  2.02it/s] 17%|█▋        | 1786/10682 [17:56<1:13:17,  2.02it/s] 17%|█▋        | 1787/10682 [17:56<1:13:15,  2.02it/s] 17%|█▋        | 1788/10682 [17:57<1:13:11,  2.03it/s] 17%|█▋        | 1789/10682 [17:57<1:13:12,  2.02it/s] 17%|█▋        | 1790/10682 [17:58<1:13:08,  2.03it/s] 17%|█▋        | 1791/10682 [17:58<1:13:12,  2.02it/s] 17%|█▋        | 1792/10682 [17:59<1:13:07,  2.03it/s] 17%|█▋        | 1793/10682 [17:59<1:13:06,  2.03it/s] 17%|█▋        | 1794/10682 [18:00<1:13:07,  2.03it/s] 17%|█▋        | 1795/10682 [18:00<1:13:02,  2.03it/s] 17%|█▋        | 1796/10682 [18:01<1:13:06,  2.03it/s] 17%|█▋        | 1797/10682 [18:01<1:13:02,  2.03it/s] 17%|█▋        | 1798/10682 [18:02<1:13:04,  2.03it/s] 17%|█▋        | 1799/10682 [18:02<1:13:01,  2.03it/s] 17%|█▋        | 1800/10682 [18:03<1:13:00,  2.03it/s]{'loss': 3.8491, 'grad_norm': 0.23974332213401794, 'learning_rate': 0.0009857999404263656, 'epoch': 2.36}
-                                                       17%|█▋        | 1800/10682 [18:03<1:13:00,  2.03it/s] 17%|█▋        | 1801/10682 [18:03<1:13:07,  2.02it/s] 17%|█▋        | 1802/10682 [18:04<1:13:06,  2.02it/s] 17%|█▋        | 1803/10682 [18:04<1:13:08,  2.02it/s] 17%|█▋        | 1804/10682 [18:05<1:13:07,  2.02it/s] 17%|█▋        | 1805/10682 [18:05<1:13:06,  2.02it/s] 17%|█▋        | 1806/10682 [18:06<1:13:04,  2.02it/s] 17%|█▋        | 1807/10682 [18:06<1:13:07,  2.02it/s] 17%|█▋        | 1808/10682 [18:07<1:13:07,  2.02it/s] 17%|█▋        | 1809/10682 [18:07<1:13:09,  2.02it/s] 17%|█▋        | 1810/10682 [18:08<1:13:07,  2.02it/s] 17%|█▋        | 1811/10682 [18:08<1:13:08,  2.02it/s] 17%|█▋        | 1812/10682 [18:09<1:13:03,  2.02it/s] 17%|█▋        | 1813/10682 [18:09<1:13:02,  2.02it/s] 17%|█▋        | 1814/10682 [18:10<1:12:59,  2.03it/s] 17%|█▋        | 1815/10682 [18:10<1:13:02,  2.02it/s] 17%|█▋        | 1816/10682 [18:11<1:12:57,  2.03it/s] 17%|█▋        | 1817/10682 [18:11<1:12:55,  2.03it/s] 17%|█▋        | 1818/10682 [18:12<1:12:54,  2.03it/s] 17%|█▋        | 1819/10682 [18:12<1:12:52,  2.03it/s] 17%|█▋        | 1820/10682 [18:13<1:12:56,  2.03it/s] 17%|█▋        | 1821/10682 [18:13<1:12:55,  2.03it/s] 17%|█▋        | 1822/10682 [18:14<1:12:58,  2.02it/s] 17%|█▋        | 1823/10682 [18:14<1:12:56,  2.02it/s] 17%|█▋        | 1824/10682 [18:15<1:12:57,  2.02it/s] 17%|█▋        | 1825/10682 [18:15<1:12:54,  2.02it/s]                                                      {'loss': 3.8357, 'grad_norm': 0.23658081889152527, 'learning_rate': 0.0009848170847181403, 'epoch': 2.39}
- 17%|█▋        | 1825/10682 [18:15<1:12:54,  2.02it/s] 17%|█▋        | 1826/10682 [18:16<1:13:13,  2.02it/s] 17%|█▋        | 1827/10682 [18:16<1:13:04,  2.02it/s] 17%|█▋        | 1828/10682 [18:17<1:13:03,  2.02it/s] 17%|█▋        | 1829/10682 [18:17<1:12:57,  2.02it/s] 17%|█▋        | 1830/10682 [18:18<1:12:58,  2.02it/s] 17%|█▋        | 1831/10682 [18:18<1:12:53,  2.02it/s] 17%|█▋        | 1832/10682 [18:19<1:12:55,  2.02it/s] 17%|█▋        | 1833/10682 [18:19<1:12:48,  2.03it/s] 17%|█▋        | 1834/10682 [18:20<1:12:49,  2.02it/s] 17%|█▋        | 1835/10682 [18:20<1:12:46,  2.03it/s] 17%|█▋        | 1836/10682 [18:21<1:12:40,  2.03it/s] 17%|█▋        | 1837/10682 [18:21<1:12:41,  2.03it/s] 17%|█▋        | 1838/10682 [18:22<1:12:41,  2.03it/s] 17%|█▋        | 1839/10682 [18:22<1:12:44,  2.03it/s] 17%|█▋        | 1840/10682 [18:23<1:12:42,  2.03it/s] 17%|█▋        | 1841/10682 [18:23<1:12:43,  2.03it/s] 17%|█▋        | 1842/10682 [18:24<1:12:44,  2.03it/s] 17%|█▋        | 1843/10682 [18:24<1:12:39,  2.03it/s] 17%|█▋        | 1844/10682 [18:25<1:12:41,  2.03it/s] 17%|█▋        | 1845/10682 [18:25<1:12:39,  2.03it/s] 17%|█▋        | 1846/10682 [18:26<1:12:40,  2.03it/s] 17%|█▋        | 1847/10682 [18:26<1:12:41,  2.03it/s] 17%|█▋        | 1848/10682 [18:26<1:12:40,  2.03it/s] 17%|█▋        | 1849/10682 [18:27<1:12:43,  2.02it/s] 17%|█▋        | 1850/10682 [18:27<1:12:43,  2.02it/s]                                                      {'loss': 3.8432, 'grad_norm': 0.24300767481327057, 'learning_rate': 0.0009838018668590573, 'epoch': 2.42}
- 17%|█▋        | 1850/10682 [18:27<1:12:43,  2.02it/s] 17%|█▋        | 1851/10682 [18:28<1:12:50,  2.02it/s] 17%|█▋        | 1852/10682 [18:28<1:12:50,  2.02it/s] 17%|█▋        | 1853/10682 [18:29<1:12:43,  2.02it/s] 17%|█▋        | 1854/10682 [18:29<1:12:43,  2.02it/s] 17%|█▋        | 1855/10682 [18:30<1:12:38,  2.03it/s] 17%|█▋        | 1856/10682 [18:30<1:12:40,  2.02it/s] 17%|█▋        | 1857/10682 [18:31<1:12:40,  2.02it/s] 17%|█▋        | 1858/10682 [18:31<1:12:37,  2.03it/s] 17%|█▋        | 1859/10682 [18:32<1:12:41,  2.02it/s] 17%|█▋        | 1860/10682 [18:32<1:12:35,  2.03it/s] 17%|█▋        | 1861/10682 [18:33<1:12:39,  2.02it/s] 17%|█▋        | 1862/10682 [18:34<1:18:52,  1.86it/s] 17%|█▋        | 1863/10682 [18:34<1:17:00,  1.91it/s] 17%|█▋        | 1864/10682 [18:35<1:15:39,  1.94it/s] 17%|█▋        | 1865/10682 [18:35<1:14:44,  1.97it/s] 17%|█▋        | 1866/10682 [18:36<1:14:02,  1.98it/s] 17%|█▋        | 1867/10682 [18:36<1:13:36,  2.00it/s] 17%|█▋        | 1868/10682 [18:37<1:13:16,  2.00it/s] 17%|█▋        | 1869/10682 [18:37<1:13:00,  2.01it/s] 18%|█▊        | 1870/10682 [18:38<1:12:53,  2.01it/s] 18%|█▊        | 1871/10682 [18:38<1:12:45,  2.02it/s] 18%|█▊        | 1872/10682 [18:38<1:12:38,  2.02it/s] 18%|█▊        | 1873/10682 [18:39<1:12:33,  2.02it/s] 18%|█▊        | 1874/10682 [18:39<1:12:31,  2.02it/s] 18%|█▊        | 1875/10682 [18:40<1:12:31,  2.02it/s]{'loss': 3.83, 'grad_norm': 0.23118537664413452, 'learning_rate': 0.000982754354616187, 'epoch': 2.46}
-                                                       18%|█▊        | 1875/10682 [18:40<1:12:31,  2.02it/s] 18%|█▊        | 1876/10682 [18:40<1:12:37,  2.02it/s] 18%|█▊        | 1877/10682 [18:41<1:12:32,  2.02it/s] 18%|█▊        | 1878/10682 [18:41<1:12:29,  2.02it/s] 18%|█▊        | 1879/10682 [18:42<1:12:27,  2.02it/s] 18%|█▊        | 1880/10682 [18:42<1:12:23,  2.03it/s] 18%|█▊        | 1881/10682 [18:43<1:12:23,  2.03it/s] 18%|█▊        | 1882/10682 [18:43<1:12:26,  2.02it/s] 18%|█▊        | 1883/10682 [18:44<1:12:26,  2.02it/s] 18%|█▊        | 1884/10682 [18:44<1:12:27,  2.02it/s] 18%|█▊        | 1885/10682 [18:45<1:12:24,  2.02it/s] 18%|█▊        | 1886/10682 [18:45<1:12:25,  2.02it/s] 18%|█▊        | 1887/10682 [18:46<1:12:28,  2.02it/s] 18%|█▊        | 1888/10682 [18:46<1:12:28,  2.02it/s] 18%|█▊        | 1889/10682 [18:47<1:12:28,  2.02it/s] 18%|█▊        | 1890/10682 [18:47<1:12:25,  2.02it/s] 18%|█▊        | 1891/10682 [18:48<1:12:24,  2.02it/s] 18%|█▊        | 1892/10682 [18:48<1:12:25,  2.02it/s] 18%|█▊        | 1893/10682 [18:49<1:12:23,  2.02it/s] 18%|█▊        | 1894/10682 [18:49<1:12:20,  2.02it/s] 18%|█▊        | 1895/10682 [18:50<1:18:56,  1.86it/s] 18%|█▊        | 1896/10682 [18:51<1:16:56,  1.90it/s] 18%|█▊        | 1897/10682 [18:51<1:15:33,  1.94it/s] 18%|█▊        | 1898/10682 [18:51<1:14:33,  1.96it/s] 18%|█▊        | 1899/10682 [18:52<1:13:55,  1.98it/s] 18%|█▊        | 1900/10682 [18:52<1:13:25,  1.99it/s]                                                      {'loss': 3.8367, 'grad_norm': 0.24927733838558197, 'learning_rate': 0.0009816746179122904, 'epoch': 2.49}
- 18%|█▊        | 1900/10682 [18:52<1:13:25,  1.99it/s] 18%|█▊        | 1901/10682 [18:53<1:13:11,  2.00it/s] 18%|█▊        | 1902/10682 [18:53<1:12:51,  2.01it/s] 18%|█▊        | 1903/10682 [18:54<1:12:41,  2.01it/s] 18%|█▊        | 1904/10682 [18:54<1:12:26,  2.02it/s] 18%|█▊        | 1905/10682 [18:55<1:12:23,  2.02it/s] 18%|█▊        | 1906/10682 [18:55<1:12:15,  2.02it/s] 18%|█▊        | 1907/10682 [18:56<1:12:10,  2.03it/s] 18%|█▊        | 1908/10682 [18:56<1:12:10,  2.03it/s] 18%|█▊        | 1909/10682 [18:57<1:12:05,  2.03it/s] 18%|█▊        | 1910/10682 [18:57<1:12:08,  2.03it/s] 18%|█▊        | 1911/10682 [18:58<1:12:15,  2.02it/s] 18%|█▊        | 1912/10682 [18:58<1:12:15,  2.02it/s] 18%|█▊        | 1913/10682 [18:59<1:12:08,  2.03it/s] 18%|█▊        | 1914/10682 [18:59<1:12:07,  2.03it/s] 18%|█▊        | 1915/10682 [19:00<1:12:04,  2.03it/s] 18%|█▊        | 1916/10682 [19:00<1:11:59,  2.03it/s] 18%|█▊        | 1917/10682 [19:01<1:12:03,  2.03it/s] 18%|█▊        | 1918/10682 [19:01<1:12:00,  2.03it/s] 18%|█▊        | 1919/10682 [19:02<1:12:04,  2.03it/s] 18%|█▊        | 1920/10682 [19:02<1:12:02,  2.03it/s] 18%|█▊        | 1921/10682 [19:03<1:12:03,  2.03it/s] 18%|█▊        | 1922/10682 [19:03<1:12:03,  2.03it/s] 18%|█▊        | 1923/10682 [19:04<1:11:59,  2.03it/s] 18%|█▊        | 1924/10682 [19:04<1:11:59,  2.03it/s] 18%|█▊        | 1925/10682 [19:05<1:11:55,  2.03it/s]{'loss': 3.8372, 'grad_norm': 0.23805850744247437, 'learning_rate': 0.0009805627288211524, 'epoch': 2.52}                                                      
- 18%|█▊        | 1925/10682 [19:05<1:11:55,  2.03it/s] 18%|█▊        | 1926/10682 [19:05<1:12:05,  2.02it/s] 18%|█▊        | 1927/10682 [19:06<1:12:01,  2.03it/s] 18%|█▊        | 1928/10682 [19:06<1:12:01,  2.03it/s] 18%|█▊        | 1929/10682 [19:07<1:12:02,  2.03it/s] 18%|█▊        | 1930/10682 [19:07<1:12:01,  2.03it/s] 18%|█▊        | 1931/10682 [19:08<1:12:03,  2.02it/s] 18%|█▊        | 1932/10682 [19:08<1:12:05,  2.02it/s] 18%|█▊        | 1933/10682 [19:09<1:12:05,  2.02it/s] 18%|█▊        | 1934/10682 [19:09<1:12:03,  2.02it/s] 18%|█▊        | 1935/10682 [19:10<1:12:08,  2.02it/s] 18%|█▊        | 1936/10682 [19:10<1:12:03,  2.02it/s] 18%|█▊        | 1937/10682 [19:11<1:12:01,  2.02it/s] 18%|█▊        | 1938/10682 [19:11<1:11:58,  2.02it/s] 18%|█▊        | 1939/10682 [19:12<1:12:00,  2.02it/s] 18%|█▊        | 1940/10682 [19:12<1:12:00,  2.02it/s] 18%|█▊        | 1941/10682 [19:13<1:11:54,  2.03it/s] 18%|█▊        | 1942/10682 [19:13<1:11:58,  2.02it/s] 18%|█▊        | 1943/10682 [19:14<1:11:52,  2.03it/s] 18%|█▊        | 1944/10682 [19:14<1:11:53,  2.03it/s] 18%|█▊        | 1945/10682 [19:15<1:11:49,  2.03it/s] 18%|█▊        | 1946/10682 [19:15<1:11:55,  2.02it/s] 18%|█▊        | 1947/10682 [19:16<1:11:52,  2.03it/s] 18%|█▊        | 1948/10682 [19:16<1:11:55,  2.02it/s] 18%|█▊        | 1949/10682 [19:17<1:11:51,  2.03it/s] 18%|█▊        | 1950/10682 [19:17<1:11:49,  2.03it/s]                                                      {'loss': 3.8187, 'grad_norm': 0.23911990225315094, 'learning_rate': 0.0009794187615627694, 'epoch': 2.56}
- 18%|█▊        | 1950/10682 [19:17<1:11:49,  2.03it/s] 18%|█▊        | 1951/10682 [19:18<1:11:54,  2.02it/s] 18%|█▊        | 1952/10682 [19:18<1:11:51,  2.02it/s] 18%|█▊        | 1953/10682 [19:19<1:11:53,  2.02it/s] 18%|█▊        | 1954/10682 [19:19<1:11:45,  2.03it/s] 18%|█▊        | 1955/10682 [19:20<1:11:48,  2.03it/s] 18%|█▊        | 1956/10682 [19:20<1:11:47,  2.03it/s] 18%|█▊        | 1957/10682 [19:21<1:11:52,  2.02it/s] 18%|█▊        | 1958/10682 [19:21<1:11:48,  2.03it/s] 18%|█▊        | 1959/10682 [19:22<1:11:49,  2.02it/s] 18%|█▊        | 1960/10682 [19:22<1:11:46,  2.03it/s] 18%|█▊        | 1961/10682 [19:23<1:11:47,  2.02it/s] 18%|█▊        | 1962/10682 [19:23<1:11:42,  2.03it/s] 18%|█▊        | 1963/10682 [19:24<1:11:40,  2.03it/s] 18%|█▊        | 1964/10682 [19:24<1:11:43,  2.03it/s] 18%|█▊        | 1965/10682 [19:25<1:11:41,  2.03it/s] 18%|█▊        | 1966/10682 [19:25<1:11:45,  2.02it/s] 18%|█▊        | 1967/10682 [19:26<1:11:38,  2.03it/s] 18%|█▊        | 1968/10682 [19:26<1:11:44,  2.02it/s] 18%|█▊        | 1969/10682 [19:27<1:11:40,  2.03it/s] 18%|█▊        | 1970/10682 [19:27<1:11:53,  2.02it/s] 18%|█▊        | 1971/10682 [19:28<1:11:45,  2.02it/s] 18%|█▊        | 1972/10682 [19:28<1:11:43,  2.02it/s] 18%|█▊        | 1973/10682 [19:29<1:11:41,  2.02it/s] 18%|█▊        | 1974/10682 [19:29<1:11:41,  2.02it/s] 18%|█▊        | 1975/10682 [19:30<1:11:39,  2.03it/s]                                                      {'loss': 3.8262, 'grad_norm': 0.23642364144325256, 'learning_rate': 0.0009782427924983968, 'epoch': 2.59}
- 18%|█▊        | 1975/10682 [19:30<1:11:39,  2.03it/s] 18%|█▊        | 1976/10682 [19:30<1:11:43,  2.02it/s] 19%|█▊        | 1977/10682 [19:30<1:11:43,  2.02it/s] 19%|█▊        | 1978/10682 [19:31<1:11:38,  2.02it/s] 19%|█▊        | 1979/10682 [19:31<1:11:42,  2.02it/s] 19%|█▊        | 1980/10682 [19:32<1:11:38,  2.02it/s] 19%|█▊        | 1981/10682 [19:32<1:11:32,  2.03it/s] 19%|█▊        | 1982/10682 [19:33<1:11:34,  2.03it/s] 19%|█▊        | 1983/10682 [19:33<1:11:32,  2.03it/s] 19%|█▊        | 1984/10682 [19:34<1:11:32,  2.03it/s] 19%|█▊        | 1985/10682 [19:34<1:11:33,  2.03it/s] 19%|█▊        | 1986/10682 [19:35<1:11:30,  2.03it/s] 19%|█▊        | 1987/10682 [19:35<1:11:33,  2.03it/s] 19%|█▊        | 1988/10682 [19:36<1:11:32,  2.03it/s] 19%|█▊        | 1989/10682 [19:36<1:11:34,  2.02it/s] 19%|█▊        | 1990/10682 [19:37<1:11:33,  2.02it/s] 19%|█▊        | 1991/10682 [19:37<1:11:31,  2.02it/s] 19%|█▊        | 1992/10682 [19:38<1:11:33,  2.02it/s] 19%|█▊        | 1993/10682 [19:38<1:11:33,  2.02it/s] 19%|█▊        | 1994/10682 [19:39<1:11:36,  2.02it/s] 19%|█▊        | 1995/10682 [19:39<1:11:33,  2.02it/s] 19%|█▊        | 1996/10682 [19:40<1:11:28,  2.03it/s] 19%|█▊        | 1997/10682 [19:40<1:11:30,  2.02it/s] 19%|█▊        | 1998/10682 [19:41<1:11:26,  2.03it/s] 19%|█▊        | 1999/10682 [19:41<1:11:29,  2.02it/s] 19%|█▊        | 2000/10682 [19:42<1:11:27,  2.03it/s]{'loss': 3.8247, 'grad_norm': 0.2314983606338501, 'learning_rate': 0.00097703490012545, 'epoch': 2.62}                                                      
- 19%|█▊        | 2000/10682 [19:42<1:11:27,  2.03it/s] 19%|█▊        | 2001/10682 [19:42<1:11:33,  2.02it/s] 19%|█▊        | 2002/10682 [19:43<1:11:26,  2.02it/s] 19%|█▉        | 2003/10682 [19:43<1:11:26,  2.02it/s] 19%|█▉        | 2004/10682 [19:44<1:11:26,  2.02it/s] 19%|█▉        | 2005/10682 [19:44<1:11:29,  2.02it/s] 19%|█▉        | 2006/10682 [19:45<1:11:26,  2.02it/s] 19%|█▉        | 2007/10682 [19:45<1:11:20,  2.03it/s] 19%|█▉        | 2008/10682 [19:46<1:11:21,  2.03it/s] 19%|█▉        | 2009/10682 [19:46<1:11:19,  2.03it/s] 19%|█▉        | 2010/10682 [19:47<1:11:23,  2.02it/s] 19%|█▉        | 2011/10682 [19:47<1:11:19,  2.03it/s] 19%|█▉        | 2012/10682 [19:48<1:11:21,  2.02it/s] 19%|█▉        | 2013/10682 [19:48<1:11:17,  2.03it/s] 19%|█▉        | 2014/10682 [19:49<1:11:21,  2.02it/s] 19%|█▉        | 2015/10682 [19:49<1:11:17,  2.03it/s] 19%|█▉        | 2016/10682 [19:50<1:11:19,  2.03it/s] 19%|█▉        | 2017/10682 [19:50<1:11:16,  2.03it/s] 19%|█▉        | 2018/10682 [19:51<1:11:18,  2.03it/s] 19%|█▉        | 2019/10682 [19:51<1:11:17,  2.03it/s] 19%|█▉        | 2020/10682 [19:52<1:11:15,  2.03it/s] 19%|█▉        | 2021/10682 [19:52<1:11:15,  2.03it/s] 19%|█▉        | 2022/10682 [19:53<1:11:13,  2.03it/s] 19%|█▉        | 2023/10682 [19:53<1:11:15,  2.03it/s] 19%|█▉        | 2024/10682 [19:54<1:11:09,  2.03it/s] 19%|█▉        | 2025/10682 [19:54<1:11:13,  2.03it/s]                                                      {'loss': 3.8121, 'grad_norm': 0.23651717603206635, 'learning_rate': 0.0009757951650722661, 'epoch': 2.65}
- 19%|█▉        | 2025/10682 [19:54<1:11:13,  2.03it/s] 19%|█▉        | 2026/10682 [19:55<1:11:15,  2.02it/s] 19%|█▉        | 2027/10682 [19:55<1:11:13,  2.03it/s] 19%|█▉        | 2028/10682 [19:56<1:11:13,  2.03it/s] 19%|█▉        | 2029/10682 [19:56<1:11:14,  2.02it/s] 19%|█▉        | 2030/10682 [19:57<1:11:17,  2.02it/s] 19%|█▉        | 2031/10682 [19:57<1:11:10,  2.03it/s] 19%|█▉        | 2032/10682 [19:58<1:11:10,  2.03it/s] 19%|█▉        | 2033/10682 [19:58<1:11:07,  2.03it/s] 19%|█▉        | 2034/10682 [19:59<1:11:09,  2.03it/s] 19%|█▉        | 2035/10682 [19:59<1:11:06,  2.03it/s] 19%|█▉        | 2036/10682 [20:00<1:11:08,  2.03it/s] 19%|█▉        | 2037/10682 [20:00<1:11:07,  2.03it/s] 19%|█▉        | 2038/10682 [20:01<1:11:08,  2.03it/s] 19%|█▉        | 2039/10682 [20:01<1:11:07,  2.03it/s] 19%|█▉        | 2040/10682 [20:02<1:11:02,  2.03it/s] 19%|█▉        | 2041/10682 [20:02<1:11:02,  2.03it/s] 19%|█▉        | 2042/10682 [20:03<1:11:02,  2.03it/s] 19%|█▉        | 2043/10682 [20:03<1:11:03,  2.03it/s] 19%|█▉        | 2044/10682 [20:04<1:11:01,  2.03it/s] 19%|█▉        | 2045/10682 [20:04<1:11:01,  2.03it/s] 19%|█▉        | 2046/10682 [20:05<1:10:58,  2.03it/s] 19%|█▉        | 2047/10682 [20:05<1:10:59,  2.03it/s] 19%|█▉        | 2048/10682 [20:06<1:10:58,  2.03it/s] 19%|█▉        | 2049/10682 [20:06<1:11:01,  2.03it/s] 19%|█▉        | 2050/10682 [20:07<1:11:03,  2.02it/s]                                                      {'loss': 3.808, 'grad_norm': 0.23940086364746094, 'learning_rate': 0.0009745236700927205, 'epoch': 2.69}
- 19%|█▉        | 2050/10682 [20:07<1:11:03,  2.02it/s] 19%|█▉        | 2051/10682 [20:07<1:11:03,  2.02it/s] 19%|█▉        | 2052/10682 [20:08<1:11:04,  2.02it/s] 19%|█▉        | 2053/10682 [20:08<1:11:07,  2.02it/s] 19%|█▉        | 2054/10682 [20:09<1:11:06,  2.02it/s] 19%|█▉        | 2055/10682 [20:09<1:11:03,  2.02it/s] 19%|█▉        | 2056/10682 [20:10<1:11:04,  2.02it/s] 19%|█▉        | 2057/10682 [20:10<1:11:03,  2.02it/s] 19%|█▉        | 2058/10682 [20:10<1:11:03,  2.02it/s] 19%|█▉        | 2059/10682 [20:11<1:11:02,  2.02it/s] 19%|█▉        | 2060/10682 [20:11<1:11:00,  2.02it/s] 19%|█▉        | 2061/10682 [20:12<1:11:01,  2.02it/s] 19%|█▉        | 2062/10682 [20:12<1:10:57,  2.02it/s] 19%|█▉        | 2063/10682 [20:13<1:10:57,  2.02it/s] 19%|█▉        | 2064/10682 [20:13<1:10:52,  2.03it/s] 19%|█▉        | 2065/10682 [20:14<1:10:53,  2.03it/s] 19%|█▉        | 2066/10682 [20:14<1:10:49,  2.03it/s] 19%|█▉        | 2067/10682 [20:15<1:10:48,  2.03it/s] 19%|█▉        | 2068/10682 [20:15<1:10:50,  2.03it/s] 19%|█▉        | 2069/10682 [20:16<1:10:48,  2.03it/s] 19%|█▉        | 2070/10682 [20:16<1:10:52,  2.02it/s] 19%|█▉        | 2071/10682 [20:17<1:10:46,  2.03it/s] 19%|█▉        | 2072/10682 [20:17<1:10:51,  2.03it/s] 19%|█▉        | 2073/10682 [20:18<1:10:45,  2.03it/s] 19%|█▉        | 2074/10682 [20:18<1:10:45,  2.03it/s] 19%|█▉        | 2075/10682 [20:19<1:10:47,  2.03it/s]                                                      {'loss': 3.7954, 'grad_norm': 0.2549842596054077, 'learning_rate': 0.0009732205000607044, 'epoch': 2.72}
- 19%|█▉        | 2075/10682 [20:19<1:10:47,  2.03it/s] 19%|█▉        | 2076/10682 [20:19<1:10:53,  2.02it/s] 19%|█▉        | 2077/10682 [20:20<1:10:51,  2.02it/s] 19%|█▉        | 2078/10682 [20:20<1:10:49,  2.02it/s] 19%|█▉        | 2079/10682 [20:21<1:10:54,  2.02it/s] 19%|█▉        | 2080/10682 [20:21<1:10:51,  2.02it/s] 19%|█▉        | 2081/10682 [20:22<1:10:51,  2.02it/s] 19%|█▉        | 2082/10682 [20:22<1:10:47,  2.02it/s] 20%|█▉        | 2083/10682 [20:23<1:10:48,  2.02it/s] 20%|█▉        | 2084/10682 [20:23<1:10:47,  2.02it/s] 20%|█▉        | 2085/10682 [20:24<1:10:49,  2.02it/s] 20%|█▉        | 2086/10682 [20:24<1:10:43,  2.03it/s] 20%|█▉        | 2087/10682 [20:25<1:10:45,  2.02it/s] 20%|█▉        | 2088/10682 [20:25<1:10:51,  2.02it/s] 20%|█▉        | 2089/10682 [20:26<1:10:52,  2.02it/s] 20%|█▉        | 2090/10682 [20:26<1:10:48,  2.02it/s] 20%|█▉        | 2091/10682 [20:27<1:10:49,  2.02it/s] 20%|█▉        | 2092/10682 [20:27<1:10:48,  2.02it/s] 20%|█▉        | 2093/10682 [20:28<1:10:47,  2.02it/s] 20%|█▉        | 2094/10682 [20:28<1:10:45,  2.02it/s] 20%|█▉        | 2095/10682 [20:29<1:10:43,  2.02it/s] 20%|█▉        | 2096/10682 [20:29<1:10:41,  2.02it/s] 20%|█▉        | 2097/10682 [20:30<1:10:41,  2.02it/s] 20%|█▉        | 2098/10682 [20:30<1:10:41,  2.02it/s] 20%|█▉        | 2099/10682 [20:31<1:10:42,  2.02it/s] 20%|█▉        | 2100/10682 [20:31<1:10:40,  2.02it/s]                                                      {'loss': 3.7858, 'grad_norm': 0.23318906128406525, 'learning_rate': 0.000971885741964458, 'epoch': 2.75}
- 20%|█▉        | 2100/10682 [20:31<1:10:40,  2.02it/s] 20%|█▉        | 2101/10682 [20:32<1:10:45,  2.02it/s] 20%|█▉        | 2102/10682 [20:32<1:10:42,  2.02it/s] 20%|█▉        | 2103/10682 [20:33<1:10:36,  2.03it/s] 20%|█▉        | 2104/10682 [20:33<1:10:35,  2.03it/s] 20%|█▉        | 2105/10682 [20:34<1:10:32,  2.03it/s] 20%|█▉        | 2106/10682 [20:34<1:10:31,  2.03it/s] 20%|█▉        | 2107/10682 [20:35<1:10:30,  2.03it/s] 20%|█▉        | 2108/10682 [20:35<1:10:29,  2.03it/s] 20%|█▉        | 2109/10682 [20:36<1:10:31,  2.03it/s] 20%|█▉        | 2110/10682 [20:36<1:10:27,  2.03it/s] 20%|█▉        | 2111/10682 [20:37<1:10:33,  2.02it/s] 20%|█▉        | 2112/10682 [20:37<1:10:28,  2.03it/s] 20%|█▉        | 2113/10682 [20:38<1:10:30,  2.03it/s] 20%|█▉        | 2114/10682 [20:38<1:10:27,  2.03it/s] 20%|█▉        | 2115/10682 [20:39<1:10:28,  2.03it/s] 20%|█▉        | 2116/10682 [20:39<1:10:28,  2.03it/s] 20%|█▉        | 2117/10682 [20:40<1:10:28,  2.03it/s] 20%|█▉        | 2118/10682 [20:40<1:10:28,  2.03it/s] 20%|█▉        | 2119/10682 [20:41<1:10:25,  2.03it/s] 20%|█▉        | 2120/10682 [20:41<1:10:28,  2.02it/s] 20%|█▉        | 2121/10682 [20:42<1:10:29,  2.02it/s] 20%|█▉        | 2122/10682 [20:42<1:10:29,  2.02it/s] 20%|█▉        | 2123/10682 [20:43<1:10:28,  2.02it/s] 20%|█▉        | 2124/10682 [20:43<1:10:29,  2.02it/s] 20%|█▉        | 2125/10682 [20:44<1:10:30,  2.02it/s]{'loss': 3.7906, 'grad_norm': 0.2602013349533081, 'learning_rate': 0.0009705194849007652, 'epoch': 2.79}
-                                                       20%|█▉        | 2125/10682 [20:44<1:10:30,  2.02it/s] 20%|█▉        | 2126/10682 [20:44<1:10:31,  2.02it/s] 20%|█▉        | 2127/10682 [20:45<1:10:29,  2.02it/s] 20%|█▉        | 2128/10682 [20:45<1:10:28,  2.02it/s] 20%|█▉        | 2129/10682 [20:46<1:10:22,  2.03it/s] 20%|█▉        | 2130/10682 [20:46<1:10:25,  2.02it/s] 20%|█▉        | 2131/10682 [20:47<1:10:23,  2.02it/s] 20%|█▉        | 2132/10682 [20:47<1:10:28,  2.02it/s] 20%|█▉        | 2133/10682 [20:48<1:10:24,  2.02it/s] 20%|█▉        | 2134/10682 [20:48<1:10:27,  2.02it/s] 20%|█▉        | 2135/10682 [20:49<1:10:25,  2.02it/s] 20%|█▉        | 2136/10682 [20:49<1:10:20,  2.02it/s] 20%|██        | 2137/10682 [20:50<1:10:18,  2.03it/s] 20%|██        | 2138/10682 [20:50<1:10:12,  2.03it/s] 20%|██        | 2139/10682 [20:51<1:10:18,  2.03it/s] 20%|██        | 2140/10682 [20:51<1:10:15,  2.03it/s] 20%|██        | 2141/10682 [20:51<1:10:20,  2.02it/s] 20%|██        | 2142/10682 [20:52<1:10:17,  2.02it/s] 20%|██        | 2143/10682 [20:52<1:10:21,  2.02it/s] 20%|██        | 2144/10682 [20:53<1:10:17,  2.02it/s] 20%|██        | 2145/10682 [20:53<1:10:15,  2.03it/s] 20%|██        | 2146/10682 [20:54<1:10:16,  2.02it/s] 20%|██        | 2147/10682 [20:54<1:10:15,  2.02it/s] 20%|██        | 2148/10682 [20:55<1:10:15,  2.02it/s] 20%|██        | 2149/10682 [20:55<1:10:19,  2.02it/s] 20%|██        | 2150/10682 [20:56<1:10:14,  2.02it/s]                                                      {'loss': 3.7917, 'grad_norm': 0.22143860161304474, 'learning_rate': 0.0009691218200690053, 'epoch': 2.82}
- 20%|██        | 2150/10682 [20:56<1:10:14,  2.02it/s] 20%|██        | 2151/10682 [20:56<1:10:19,  2.02it/s] 20%|██        | 2152/10682 [20:57<1:10:15,  2.02it/s] 20%|██        | 2153/10682 [20:57<1:10:13,  2.02it/s] 20%|██        | 2154/10682 [20:58<1:10:10,  2.03it/s] 20%|██        | 2155/10682 [20:58<1:10:04,  2.03it/s] 20%|██        | 2156/10682 [20:59<1:10:07,  2.03it/s] 20%|██        | 2157/10682 [20:59<1:10:03,  2.03it/s] 20%|██        | 2158/10682 [21:00<1:10:07,  2.03it/s] 20%|██        | 2159/10682 [21:00<1:10:06,  2.03it/s] 20%|██        | 2160/10682 [21:01<1:10:08,  2.03it/s] 20%|██        | 2161/10682 [21:01<1:10:06,  2.03it/s] 20%|██        | 2162/10682 [21:02<1:10:02,  2.03it/s] 20%|██        | 2163/10682 [21:02<1:10:06,  2.03it/s] 20%|██        | 2164/10682 [21:03<1:10:04,  2.03it/s] 20%|██        | 2165/10682 [21:03<1:10:07,  2.02it/s] 20%|██        | 2166/10682 [21:04<1:10:01,  2.03it/s] 20%|██        | 2167/10682 [21:04<1:10:04,  2.02it/s] 20%|██        | 2168/10682 [21:05<1:10:00,  2.03it/s] 20%|██        | 2169/10682 [21:05<1:10:01,  2.03it/s] 20%|██        | 2170/10682 [21:06<1:09:59,  2.03it/s] 20%|██        | 2171/10682 [21:06<1:09:57,  2.03it/s] 20%|██        | 2172/10682 [21:07<1:10:02,  2.03it/s] 20%|██        | 2173/10682 [21:07<1:09:58,  2.03it/s] 20%|██        | 2174/10682 [21:08<1:09:59,  2.03it/s] 20%|██        | 2175/10682 [21:08<1:09:57,  2.03it/s]{'loss': 3.7764, 'grad_norm': 0.24407699704170227, 'learning_rate': 0.0009676928407650656, 'epoch': 2.85}
-                                                       20%|██        | 2175/10682 [21:08<1:09:57,  2.03it/s] 20%|██        | 2176/10682 [21:09<1:10:07,  2.02it/s] 20%|██        | 2177/10682 [21:09<1:10:02,  2.02it/s] 20%|██        | 2178/10682 [21:10<1:10:02,  2.02it/s] 20%|██        | 2179/10682 [21:10<1:09:59,  2.02it/s] 20%|██        | 2180/10682 [21:11<1:10:04,  2.02it/s] 20%|██        | 2181/10682 [21:11<1:10:00,  2.02it/s] 20%|██        | 2182/10682 [21:12<1:10:02,  2.02it/s] 20%|██        | 2183/10682 [21:12<1:10:01,  2.02it/s] 20%|██        | 2184/10682 [21:13<1:09:59,  2.02it/s] 20%|██        | 2185/10682 [21:13<1:09:56,  2.02it/s] 20%|██        | 2186/10682 [21:14<1:09:55,  2.03it/s] 20%|██        | 2187/10682 [21:14<1:09:56,  2.02it/s] 20%|██        | 2188/10682 [21:15<1:09:55,  2.02it/s] 20%|██        | 2189/10682 [21:15<1:09:55,  2.02it/s] 21%|██        | 2190/10682 [21:16<1:09:55,  2.02it/s] 21%|██        | 2191/10682 [21:16<1:09:58,  2.02it/s] 21%|██        | 2192/10682 [21:17<1:09:53,  2.02it/s] 21%|██        | 2193/10682 [21:17<1:09:59,  2.02it/s] 21%|██        | 2194/10682 [21:18<1:09:55,  2.02it/s] 21%|██        | 2195/10682 [21:18<1:09:55,  2.02it/s] 21%|██        | 2196/10682 [21:19<1:09:53,  2.02it/s] 21%|██        | 2197/10682 [21:19<1:09:50,  2.02it/s] 21%|██        | 2198/10682 [21:20<1:09:52,  2.02it/s] 21%|██        | 2199/10682 [21:20<1:09:46,  2.03it/s] 21%|██        | 2200/10682 [21:21<1:09:52,  2.02it/s]                                                      {'loss': 3.7843, 'grad_norm': 0.26242032647132874, 'learning_rate': 0.0009662326423751136, 'epoch': 2.88}
- 21%|██        | 2200/10682 [21:21<1:09:52,  2.02it/s] 21%|██        | 2201/10682 [21:21<1:09:55,  2.02it/s] 21%|██        | 2202/10682 [21:22<1:09:54,  2.02it/s] 21%|██        | 2203/10682 [21:22<1:09:47,  2.03it/s] 21%|██        | 2204/10682 [21:23<1:09:48,  2.02it/s] 21%|██        | 2205/10682 [21:23<1:09:43,  2.03it/s] 21%|██        | 2206/10682 [21:24<1:09:43,  2.03it/s] 21%|██        | 2207/10682 [21:24<1:09:43,  2.03it/s] 21%|██        | 2208/10682 [21:25<1:09:41,  2.03it/s] 21%|██        | 2209/10682 [21:25<1:09:44,  2.02it/s] 21%|██        | 2210/10682 [21:26<1:09:42,  2.03it/s] 21%|██        | 2211/10682 [21:26<1:09:44,  2.02it/s] 21%|██        | 2212/10682 [21:27<1:09:41,  2.03it/s] 21%|██        | 2213/10682 [21:27<1:09:42,  2.03it/s] 21%|██        | 2214/10682 [21:28<1:09:39,  2.03it/s] 21%|██        | 2215/10682 [21:28<1:09:38,  2.03it/s] 21%|██        | 2216/10682 [21:29<1:09:40,  2.02it/s] 21%|██        | 2217/10682 [21:29<1:09:40,  2.02it/s] 21%|██        | 2218/10682 [21:30<1:09:41,  2.02it/s] 21%|██        | 2219/10682 [21:30<1:09:41,  2.02it/s] 21%|██        | 2220/10682 [21:31<1:09:42,  2.02it/s] 21%|██        | 2221/10682 [21:31<1:09:43,  2.02it/s] 21%|██        | 2222/10682 [21:31<1:09:40,  2.02it/s] 21%|██        | 2223/10682 [21:32<1:09:39,  2.02it/s] 21%|██        | 2224/10682 [21:32<1:09:40,  2.02it/s] 21%|██        | 2225/10682 [21:33<1:09:36,  2.03it/s]{'loss': 3.7775, 'grad_norm': 0.22731263935565948, 'learning_rate': 0.000964741322369231, 'epoch': 2.92}                                                      
- 21%|██        | 2225/10682 [21:33<1:09:36,  2.03it/s] 21%|██        | 2226/10682 [21:33<1:09:43,  2.02it/s] 21%|██        | 2227/10682 [21:34<1:09:40,  2.02it/s] 21%|██        | 2228/10682 [21:34<1:09:45,  2.02it/s] 21%|██        | 2229/10682 [21:35<1:09:39,  2.02it/s] 21%|██        | 2230/10682 [21:35<1:09:39,  2.02it/s] 21%|██        | 2231/10682 [21:36<1:09:36,  2.02it/s] 21%|██        | 2232/10682 [21:36<1:09:34,  2.02it/s] 21%|██        | 2233/10682 [21:37<1:09:31,  2.03it/s] 21%|██        | 2234/10682 [21:37<1:09:30,  2.03it/s] 21%|██        | 2235/10682 [21:38<1:09:30,  2.03it/s] 21%|██        | 2236/10682 [21:38<1:09:28,  2.03it/s] 21%|██        | 2237/10682 [21:39<1:09:29,  2.03it/s] 21%|██        | 2238/10682 [21:39<1:09:27,  2.03it/s] 21%|██        | 2239/10682 [21:40<1:09:31,  2.02it/s] 21%|██        | 2240/10682 [21:40<1:09:28,  2.03it/s] 21%|██        | 2241/10682 [21:41<1:09:32,  2.02it/s] 21%|██        | 2242/10682 [21:41<1:09:27,  2.03it/s] 21%|██        | 2243/10682 [21:42<1:09:29,  2.02it/s] 21%|██        | 2244/10682 [21:42<1:09:27,  2.02it/s] 21%|██        | 2245/10682 [21:43<1:09:29,  2.02it/s] 21%|██        | 2246/10682 [21:43<1:09:28,  2.02it/s] 21%|██        | 2247/10682 [21:44<1:09:24,  2.03it/s] 21%|██        | 2248/10682 [21:44<1:09:25,  2.02it/s] 21%|██        | 2249/10682 [21:45<1:09:19,  2.03it/s] 21%|██        | 2250/10682 [21:45<1:09:21,  2.03it/s]                                                      {'loss': 3.7625, 'grad_norm': 0.24549348652362823, 'learning_rate': 0.0009632189802949055, 'epoch': 2.95}
- 21%|██        | 2250/10682 [21:45<1:09:21,  2.03it/s] 21%|██        | 2251/10682 [21:46<1:09:37,  2.02it/s] 21%|██        | 2252/10682 [21:46<1:09:36,  2.02it/s] 21%|██        | 2253/10682 [21:47<1:09:30,  2.02it/s] 21%|██        | 2254/10682 [21:47<1:09:30,  2.02it/s] 21%|██        | 2255/10682 [21:48<1:09:24,  2.02it/s] 21%|██        | 2256/10682 [21:48<1:09:21,  2.02it/s] 21%|██        | 2257/10682 [21:49<1:09:23,  2.02it/s] 21%|██        | 2258/10682 [21:49<1:09:20,  2.02it/s] 21%|██        | 2259/10682 [21:50<1:09:20,  2.02it/s] 21%|██        | 2260/10682 [21:50<1:09:19,  2.02it/s] 21%|██        | 2261/10682 [21:51<1:09:18,  2.02it/s] 21%|██        | 2262/10682 [21:51<1:09:19,  2.02it/s] 21%|██        | 2263/10682 [21:52<1:09:18,  2.02it/s] 21%|██        | 2264/10682 [21:52<1:09:18,  2.02it/s] 21%|██        | 2265/10682 [21:53<1:09:19,  2.02it/s] 21%|██        | 2266/10682 [21:53<1:09:21,  2.02it/s] 21%|██        | 2267/10682 [21:54<1:09:18,  2.02it/s] 21%|██        | 2268/10682 [21:54<1:09:12,  2.03it/s] 21%|██        | 2269/10682 [21:55<1:09:13,  2.03it/s] 21%|██▏       | 2270/10682 [21:55<1:09:15,  2.02it/s] 21%|██▏       | 2271/10682 [21:56<1:09:16,  2.02it/s] 21%|██▏       | 2272/10682 [21:56<1:09:13,  2.02it/s] 21%|██▏       | 2273/10682 [21:57<1:09:14,  2.02it/s] 21%|██▏       | 2274/10682 [21:57<1:09:11,  2.03it/s] 21%|██▏       | 2275/10682 [21:58<1:09:14,  2.02it/s]{'loss': 3.7676, 'grad_norm': 0.23527242243289948, 'learning_rate': 0.0009616657177703876, 'epoch': 2.98}                                                      
- 21%|██▏       | 2275/10682 [21:58<1:09:14,  2.02it/s] 21%|██▏       | 2276/10682 [21:58<1:09:14,  2.02it/s] 21%|██▏       | 2277/10682 [21:59<1:09:12,  2.02it/s] 21%|██▏       | 2278/10682 [21:59<1:09:10,  2.02it/s] 21%|██▏       | 2279/10682 [22:00<1:09:06,  2.03it/s] 21%|██▏       | 2280/10682 [22:00<1:09:06,  2.03it/s] 21%|██▏       | 2281/10682 [22:01<1:09:01,  2.03it/s] 21%|██▏       | 2282/10682 [22:01<1:09:04,  2.03it/s] 21%|██▏       | 2283/10682 [22:02<1:09:02,  2.03it/s] 21%|██▏       | 2284/10682 [22:02<1:09:03,  2.03it/s] 21%|██▏       | 2285/10682 [22:03<1:09:04,  2.03it/s] 21%|██▏       | 2286/10682 [22:03<1:09:05,  2.03it/s] 21%|██▏       | 2287/10682 [22:04<1:09:06,  2.02it/s] 21%|██▏       | 2288/10682 [22:04<1:09:03,  2.03it/s] 21%|██▏       | 2289/10682 [22:05<1:08:27,  2.04it/s] 21%|██▏       | 2290/10682 [22:45<29:20:13, 12.59s/it] 21%|██▏       | 2291/10682 [22:46<20:53:10,  8.96s/it] 21%|██▏       | 2292/10682 [22:46<14:58:17,  6.42s/it] 21%|██▏       | 2293/10682 [22:47<10:49:41,  4.65s/it] 21%|██▏       | 2294/10682 [22:47<7:55:23,  3.40s/it]  21%|██▏       | 2295/10682 [22:48<5:53:26,  2.53s/it] 21%|██▏       | 2296/10682 [22:48<4:28:07,  1.92s/it] 22%|██▏       | 2297/10682 [22:49<3:28:21,  1.49s/it] 22%|██▏       | 2298/10682 [22:49<2:46:33,  1.19s/it] 22%|██▏       | 2299/10682 [22:50<2:17:17,  1.02it/s] 22%|██▏       | 2300/10682 [22:50<1:56:48,  1.20it/s]{'loss': 3.6898, 'grad_norm': 0.23367047309875488, 'learning_rate': 0.0009600816384779067, 'epoch': 3.01}
-                                                       22%|██▏       | 2300/10682 [22:50<1:56:48,  1.20it/s] 22%|██▏       | 2301/10682 [22:51<1:43:05,  1.36it/s] 22%|██▏       | 2302/10682 [22:51<1:33:02,  1.50it/s] 22%|██▏       | 2303/10682 [22:52<1:25:50,  1.63it/s] 22%|██▏       | 2304/10682 [22:52<1:21:10,  1.72it/s] 22%|██▏       | 2305/10682 [22:53<1:17:32,  1.80it/s] 22%|██▏       | 2306/10682 [22:53<1:15:00,  1.86it/s] 22%|██▏       | 2307/10682 [22:54<1:13:21,  1.90it/s] 22%|██▏       | 2308/10682 [22:54<1:12:07,  1.94it/s] 22%|██▏       | 2309/10682 [22:55<1:11:13,  1.96it/s] 22%|██▏       | 2310/10682 [22:55<1:10:40,  1.97it/s] 22%|██▏       | 2311/10682 [22:56<1:10:19,  1.98it/s] 22%|██▏       | 2312/10682 [22:56<1:09:56,  1.99it/s] 22%|██▏       | 2313/10682 [22:57<1:09:45,  2.00it/s] 22%|██▏       | 2314/10682 [22:57<1:09:39,  2.00it/s] 22%|██▏       | 2315/10682 [22:58<1:09:21,  2.01it/s] 22%|██▏       | 2316/10682 [22:58<1:09:24,  2.01it/s] 22%|██▏       | 2317/10682 [22:59<1:09:16,  2.01it/s] 22%|██▏       | 2318/10682 [22:59<1:09:05,  2.02it/s] 22%|██▏       | 2319/10682 [23:00<1:09:04,  2.02it/s] 22%|██▏       | 2320/10682 [23:00<1:08:58,  2.02it/s] 22%|██▏       | 2321/10682 [23:01<1:08:52,  2.02it/s] 22%|██▏       | 2322/10682 [23:01<1:08:51,  2.02it/s] 22%|██▏       | 2323/10682 [23:02<1:08:43,  2.03it/s] 22%|██▏       | 2324/10682 [23:02<1:08:42,  2.03it/s] 22%|██▏       | 2325/10682 [23:03<1:08:44,  2.03it/s]                                                      {'loss': 3.6208, 'grad_norm': 0.2509158253669739, 'learning_rate': 0.00095846684815675, 'epoch': 3.05}
- 22%|██▏       | 2325/10682 [23:03<1:08:44,  2.03it/s] 22%|██▏       | 2326/10682 [23:03<1:08:47,  2.02it/s] 22%|██▏       | 2327/10682 [23:04<1:08:45,  2.03it/s] 22%|██▏       | 2328/10682 [23:04<1:08:43,  2.03it/s] 22%|██▏       | 2329/10682 [23:05<1:08:44,  2.03it/s] 22%|██▏       | 2330/10682 [23:05<1:08:39,  2.03it/s] 22%|██▏       | 2331/10682 [23:06<1:08:41,  2.03it/s] 22%|██▏       | 2332/10682 [23:06<1:08:35,  2.03it/s] 22%|██▏       | 2333/10682 [23:07<1:08:36,  2.03it/s] 22%|██▏       | 2334/10682 [23:07<1:08:35,  2.03it/s] 22%|██▏       | 2335/10682 [23:08<1:08:38,  2.03it/s] 22%|██▏       | 2336/10682 [23:08<1:08:38,  2.03it/s] 22%|██▏       | 2337/10682 [23:09<1:08:36,  2.03it/s] 22%|██▏       | 2338/10682 [23:09<1:08:35,  2.03it/s] 22%|██▏       | 2339/10682 [23:10<1:08:30,  2.03it/s] 22%|██▏       | 2340/10682 [23:10<1:08:32,  2.03it/s] 22%|██▏       | 2341/10682 [23:11<1:08:31,  2.03it/s] 22%|██▏       | 2342/10682 [23:11<1:08:30,  2.03it/s] 22%|██▏       | 2343/10682 [23:12<1:08:30,  2.03it/s] 22%|██▏       | 2344/10682 [23:12<1:08:30,  2.03it/s] 22%|██▏       | 2345/10682 [23:13<1:08:33,  2.03it/s] 22%|██▏       | 2346/10682 [23:13<1:08:33,  2.03it/s] 22%|██▏       | 2347/10682 [23:14<1:08:34,  2.03it/s] 22%|██▏       | 2348/10682 [23:14<1:08:32,  2.03it/s] 22%|██▏       | 2349/10682 [23:15<1:08:28,  2.03it/s] 22%|██▏       | 2350/10682 [23:15<1:08:31,  2.03it/s]                                                      {'loss': 3.63, 'grad_norm': 0.23662741482257843, 'learning_rate': 0.0009568214545962046, 'epoch': 3.08}
- 22%|██▏       | 2350/10682 [23:15<1:08:31,  2.03it/s] 22%|██▏       | 2351/10682 [23:16<1:08:38,  2.02it/s] 22%|██▏       | 2352/10682 [23:16<1:08:39,  2.02it/s] 22%|██▏       | 2353/10682 [23:17<1:08:35,  2.02it/s] 22%|██▏       | 2354/10682 [23:17<1:08:35,  2.02it/s] 22%|██▏       | 2355/10682 [23:18<1:08:30,  2.03it/s] 22%|██▏       | 2356/10682 [23:18<1:08:29,  2.03it/s] 22%|██▏       | 2357/10682 [23:19<1:08:28,  2.03it/s] 22%|██▏       | 2358/10682 [23:19<1:08:26,  2.03it/s] 22%|██▏       | 2359/10682 [23:20<1:08:25,  2.03it/s] 22%|██▏       | 2360/10682 [23:20<1:08:23,  2.03it/s] 22%|██▏       | 2361/10682 [23:21<1:08:25,  2.03it/s] 22%|██▏       | 2362/10682 [23:21<1:08:22,  2.03it/s] 22%|██▏       | 2363/10682 [23:22<1:08:26,  2.03it/s] 22%|██▏       | 2364/10682 [23:22<1:08:24,  2.03it/s] 22%|██▏       | 2365/10682 [23:22<1:08:25,  2.03it/s] 22%|█���▏       | 2366/10682 [23:23<1:08:26,  2.03it/s] 22%|██▏       | 2367/10682 [23:23<1:08:23,  2.03it/s] 22%|██▏       | 2368/10682 [23:24<1:08:23,  2.03it/s] 22%|██▏       | 2369/10682 [23:24<1:08:18,  2.03it/s] 22%|██▏       | 2370/10682 [23:25<1:08:20,  2.03it/s] 22%|██▏       | 2371/10682 [23:25<1:08:20,  2.03it/s] 22%|██▏       | 2372/10682 [23:26<1:08:21,  2.03it/s] 22%|██▏       | 2373/10682 [23:26<1:08:17,  2.03it/s] 22%|██▏       | 2374/10682 [23:27<1:08:15,  2.03it/s] 22%|██▏       | 2375/10682 [23:27<1:08:17,  2.03it/s]{'loss': 3.6355, 'grad_norm': 0.24514593183994293, 'learning_rate': 0.0009551455676283627, 'epoch': 3.11}
-                                                       22%|██▏       | 2375/10682 [23:27<1:08:17,  2.03it/s] 22%|██▏       | 2376/10682 [23:28<1:08:22,  2.02it/s] 22%|██▏       | 2377/10682 [23:28<1:08:23,  2.02it/s] 22%|██▏       | 2378/10682 [23:29<1:08:22,  2.02it/s] 22%|██▏       | 2379/10682 [23:29<1:08:24,  2.02it/s] 22%|██▏       | 2380/10682 [23:30<1:08:21,  2.02it/s] 22%|██▏       | 2381/10682 [23:30<1:08:20,  2.02it/s] 22%|██▏       | 2382/10682 [23:31<1:08:20,  2.02it/s] 22%|██▏       | 2383/10682 [23:31<1:08:13,  2.03it/s] 22%|██▏       | 2384/10682 [23:32<1:08:16,  2.03it/s] 22%|██▏       | 2385/10682 [23:32<1:08:12,  2.03it/s] 22%|██▏       | 2386/10682 [23:33<1:08:15,  2.03it/s] 22%|██▏       | 2387/10682 [23:33<1:08:12,  2.03it/s] 22%|██▏       | 2388/10682 [23:34<1:08:14,  2.03it/s] 22%|██▏       | 2389/10682 [23:34<1:08:13,  2.03it/s] 22%|██▏       | 2390/10682 [23:35<1:08:10,  2.03it/s] 22%|██▏       | 2391/10682 [23:35<1:08:12,  2.03it/s] 22%|██▏       | 2392/10682 [23:36<1:08:05,  2.03it/s] 22%|██▏       | 2393/10682 [23:36<1:08:07,  2.03it/s] 22%|██▏       | 2394/10682 [23:37<1:08:08,  2.03it/s] 22%|██▏       | 2395/10682 [23:37<1:08:08,  2.03it/s] 22%|██▏       | 2396/10682 [23:38<1:08:10,  2.03it/s] 22%|██▏       | 2397/10682 [23:38<1:08:07,  2.03it/s] 22%|██▏       | 2398/10682 [23:39<1:08:10,  2.03it/s] 22%|██▏       | 2399/10682 [23:39<1:08:07,  2.03it/s] 22%|██▏       | 2400/10682 [23:40<1:08:09,  2.02it/s]                                                      {'loss': 3.6248, 'grad_norm': 0.2622312903404236, 'learning_rate': 0.0009534392991207893, 'epoch': 3.15}
- 22%|██▏       | 2400/10682 [23:40<1:08:09,  2.02it/s] 22%|██▏       | 2401/10682 [23:40<1:08:10,  2.02it/s] 22%|██▏       | 2402/10682 [23:41<1:08:10,  2.02it/s] 22%|██▏       | 2403/10682 [23:41<1:08:06,  2.03it/s] 23%|██▎       | 2404/10682 [23:42<1:08:02,  2.03it/s] 23%|██▎       | 2405/10682 [23:42<1:08:03,  2.03it/s] 23%|██▎       | 2406/10682 [23:43<1:08:01,  2.03it/s] 23%|██▎       | 2407/10682 [23:43<1:08:04,  2.03it/s] 23%|██▎       | 2408/10682 [23:44<1:08:00,  2.03it/s] 23%|██▎       | 2409/10682 [23:44<1:08:02,  2.03it/s] 23%|██▎       | 2410/10682 [23:45<1:07:59,  2.03it/s] 23%|██▎       | 2411/10682 [23:45<1:08:06,  2.02it/s] 23%|██▎       | 2412/10682 [23:46<1:08:02,  2.03it/s] 23%|██▎       | 2413/10682 [23:46<1:08:05,  2.02it/s] 23%|██▎       | 2414/10682 [23:47<1:08:01,  2.03it/s] 23%|██▎       | 2415/10682 [23:47<1:08:00,  2.03it/s] 23%|██▎       | 2416/10682 [23:48<1:08:01,  2.03it/s] 23%|██▎       | 2417/10682 [23:48<1:08:01,  2.02it/s] 23%|██▎       | 2418/10682 [23:49<1:08:01,  2.02it/s] 23%|██▎       | 2419/10682 [23:49<1:08:00,  2.03it/s] 23%|██▎       | 2420/10682 [23:50<1:07:58,  2.03it/s] 23%|██▎       | 2421/10682 [23:50<1:07:57,  2.03it/s] 23%|██▎       | 2422/10682 [23:51<1:07:58,  2.03it/s] 23%|██▎       | 2423/10682 [23:51<1:07:58,  2.03it/s] 23%|██▎       | 2424/10682 [23:52<1:07:56,  2.03it/s] 23%|██▎       | 2425/10682 [23:52<1:07:59,  2.02it/s]                                                      {'loss': 3.6314, 'grad_norm': 0.2283220738172531, 'learning_rate': 0.0009517027629690559, 'epoch': 3.18}
- 23%|██▎       | 2425/10682 [23:52<1:07:59,  2.02it/s] 23%|██▎       | 2426/10682 [23:53<1:07:59,  2.02it/s] 23%|██▎       | 2427/10682 [23:53<1:07:57,  2.02it/s] 23%|██▎       | 2428/10682 [23:54<1:07:55,  2.03it/s] 23%|██▎       | 2429/10682 [23:54<1:07:58,  2.02it/s] 23%|██▎       | 2430/10682 [23:55<1:07:54,  2.03it/s] 23%|██▎       | 2431/10682 [23:55<1:07:54,  2.03it/s] 23%|██▎       | 2432/10682 [23:56<1:07:53,  2.03it/s] 23%|██▎       | 2433/10682 [23:56<1:07:47,  2.03it/s] 23%|██▎       | 2434/10682 [23:57<1:07:52,  2.03it/s] 23%|██▎       | 2435/10682 [23:57<1:07:50,  2.03it/s] 23%|██▎       | 2436/10682 [23:58<1:07:53,  2.02it/s] 23%|██▎       | 2437/10682 [23:58<1:07:49,  2.03it/s] 23%|██▎       | 2438/10682 [23:59<1:07:47,  2.03it/s] 23%|���█▎       | 2439/10682 [23:59<1:07:48,  2.03it/s] 23%|██▎       | 2440/10682 [24:00<1:07:47,  2.03it/s] 23%|██▎       | 2441/10682 [24:00<1:07:52,  2.02it/s] 23%|██▎       | 2442/10682 [24:01<1:07:48,  2.03it/s] 23%|██▎       | 2443/10682 [24:01<1:07:47,  2.03it/s] 23%|██▎       | 2444/10682 [24:01<1:07:49,  2.02it/s] 23%|██▎       | 2445/10682 [24:02<1:07:48,  2.02it/s] 23%|██▎       | 2446/10682 [24:02<1:07:47,  2.02it/s] 23%|██▎       | 2447/10682 [24:03<1:07:48,  2.02it/s] 23%|██▎       | 2448/10682 [24:03<1:07:42,  2.03it/s] 23%|██▎       | 2449/10682 [24:04<1:07:44,  2.03it/s] 23%|██▎       | 2450/10682 [24:04<1:07:40,  2.03it/s]{'loss': 3.636, 'grad_norm': 0.23094108700752258, 'learning_rate': 0.0009499360750891371, 'epoch': 3.21}                                                      
- 23%|██▎       | 2450/10682 [24:04<1:07:40,  2.03it/s] 23%|██▎       | 2451/10682 [24:05<1:07:48,  2.02it/s] 23%|██▎       | 2452/10682 [24:05<1:07:46,  2.02it/s] 23%|██▎       | 2453/10682 [24:06<1:07:44,  2.02it/s] 23%|██▎       | 2454/10682 [24:06<1:07:47,  2.02it/s] 23%|██▎       | 2455/10682 [24:07<1:07:42,  2.03it/s] 23%|██▎       | 2456/10682 [24:07<1:07:41,  2.03it/s] 23%|██▎       | 2457/10682 [24:08<1:07:40,  2.03it/s] 23%|██▎       | 2458/10682 [24:08<1:07:39,  2.03it/s] 23%|██▎       | 2459/10682 [24:09<1:07:42,  2.02it/s] 23%|██▎       | 2460/10682 [24:09<1:07:39,  2.03it/s] 23%|██▎       | 2461/10682 [24:10<1:07:43,  2.02it/s] 23%|██▎       | 2462/10682 [24:10<1:07:41,  2.02it/s] 23%|██▎       | 2463/10682 [24:11<1:07:40,  2.02it/s] 23%|██▎       | 2464/10682 [24:11<1:07:38,  2.02it/s] 23%|██▎       | 2465/10682 [24:12<1:07:39,  2.02it/s] 23%|██▎       | 2466/10682 [24:12<1:07:38,  2.02it/s] 23%|██▎       | 2467/10682 [24:13<1:07:37,  2.02it/s] 23%|██▎       | 2468/10682 [24:13<1:07:35,  2.03it/s] 23%|██▎       | 2469/10682 [24:14<1:07:34,  2.03it/s] 23%|██▎       | 2470/10682 [24:14<1:07:35,  2.02it/s] 23%|██▎       | 2471/10682 [24:15<1:07:33,  2.03it/s] 23%|██▎       | 2472/10682 [24:15<1:07:34,  2.02it/s] 23%|██▎       | 2473/10682 [24:16<1:07:33,  2.03it/s] 23%|██▎       | 2474/10682 [24:16<1:07:31,  2.03it/s] 23%|██▎       | 2475/10682 [24:17<1:07:30,  2.03it/s]                                                      {'loss': 3.6371, 'grad_norm': 0.23657603561878204, 'learning_rate': 0.0009481393534096735, 'epoch': 3.24}
- 23%|██▎       | 2475/10682 [24:17<1:07:30,  2.03it/s] 23%|██▎       | 2476/10682 [24:17<1:07:36,  2.02it/s] 23%|██▎       | 2477/10682 [24:18<1:07:34,  2.02it/s] 23%|██▎       | 2478/10682 [24:18<1:07:34,  2.02it/s] 23%|██▎       | 2479/10682 [24:19<1:07:32,  2.02it/s] 23%|██▎       | 2480/10682 [24:19<1:07:27,  2.03it/s] 23%|██▎       | 2481/10682 [24:20<1:07:29,  2.03it/s] 23%|██▎       | 2482/10682 [24:20<1:07:26,  2.03it/s] 23%|██▎       | 2483/10682 [24:21<1:07:29,  2.02it/s] 23%|██▎       | 2484/10682 [24:21<1:07:28,  2.02it/s] 23%|██▎       | 2485/10682 [24:22<1:07:30,  2.02it/s] 23%|██▎       | 2486/10682 [24:22<1:07:24,  2.03it/s] 23%|██▎       | 2487/10682 [24:23<1:07:24,  2.03it/s] 23%|██▎       | 2488/10682 [24:23<1:07:24,  2.03it/s] 23%|██▎       | 2489/10682 [24:24<1:07:26,  2.02it/s] 23%|██▎       | 2490/10682 [24:24<1:07:24,  2.03it/s] 23%|██▎       | 2491/10682 [24:25<1:07:18,  2.03it/s] 23%|██▎       | 2492/10682 [24:25<1:07:22,  2.03it/s] 23%|██▎       | 2493/10682 [24:26<1:07:18,  2.03it/s] 23%|██▎       | 2494/10682 [24:26<1:07:22,  2.03it/s] 23%|██▎       | 2495/10682 [24:27<1:07:22,  2.03it/s] 23%|██▎       | 2496/10682 [24:27<1:07:23,  2.02it/s] 23%|██▎       | 2497/10682 [24:28<1:07:20,  2.03it/s] 23%|██▎       | 2498/10682 [24:28<1:13:07,  1.87it/s] 23%|██▎       | 2499/10682 [24:29<1:11:22,  1.91it/s] 23%|██▎       | 2500/10682 [24:29<1:10:05,  1.95it/s]                                                      {'loss': 3.633, 'grad_norm': 0.24709564447402954, 'learning_rate': 0.0009463127178640994, 'epoch': 3.28}
- 23%|██▎       | 2500/10682 [24:29<1:10:05,  1.95it/s] 23%|██▎       | 2501/10682 [24:30<1:09:20,  1.97it/s] 23%|██▎       | 2502/10682 [24:30<1:08:37,  1.99it/s] 23%|██▎       | 2503/10682 [24:31<1:08:14,  2.00it/s] 23%|██▎       | 2504/10682 [24:31<1:07:55,  2.01it/s] 23%|██▎       | 2505/10682 [24:32<1:07:44,  2.01it/s] 23%|██▎       | 2506/10682 [24:32<1:07:34,  2.02it/s] 23%|██▎       | 2507/10682 [24:33<1:07:29,  2.02it/s] 23%|██▎       | 2508/10682 [24:33<1:07:27,  2.02it/s] 23%|██▎       | 2509/10682 [24:34<1:07:21,  2.02it/s] 23%|██▎       | 2510/10682 [24:34<1:07:19,  2.02it/s] 24%|██▎       | 2511/10682 [24:35<1:07:17,  2.02it/s] 24%|██▎       | 2512/10682 [24:35<1:07:19,  2.02it/s] 24%|██▎       | 2513/10682 [24:36<1:07:16,  2.02it/s] 24%|██▎       | 2514/10682 [24:36<1:07:16,  2.02it/s] 24%|██▎       | 2515/10682 [24:37<1:07:15,  2.02it/s] 24%|██▎       | 2516/10682 [24:37<1:07:13,  2.02it/s] 24%|██▎       | 2517/10682 [24:38<1:07:12,  2.02it/s] 24%|██▎       | 2518/10682 [24:38<1:07:12,  2.02it/s] 24%|██▎       | 2519/10682 [24:39<1:07:10,  2.03it/s] 24%|██▎       | 2520/10682 [24:39<1:07:07,  2.03it/s] 24%|██▎       | 2521/10682 [24:40<1:07:06,  2.03it/s] 24%|██▎       | 2522/10682 [24:40<1:07:04,  2.03it/s] 24%|██▎       | 2523/10682 [24:41<1:07:03,  2.03it/s] 24%|██▎       | 2524/10682 [24:41<1:07:07,  2.03it/s] 24%|██▎       | 2525/10682 [24:42<1:07:04,  2.03it/s]                                                      {'loss': 3.6446, 'grad_norm': 0.24846026301383972, 'learning_rate': 0.0009444562903826375, 'epoch': 3.31}
- 24%|██▎       | 2525/10682 [24:42<1:07:04,  2.03it/s] 24%|██▎       | 2526/10682 [24:42<1:07:12,  2.02it/s] 24%|██▎       | 2527/10682 [24:43<1:07:06,  2.03it/s] 24%|██▎       | 2528/10682 [24:43<1:07:06,  2.02it/s] 24%|██▎       | 2529/10682 [24:44<1:07:06,  2.02it/s] 24%|██▎       | 2530/10682 [24:44<1:07:13,  2.02it/s] 24%|██▎       | 2531/10682 [24:45<1:07:07,  2.02it/s] 24%|██▎       | 2532/10682 [24:45<1:07:06,  2.02it/s] 24%|██▎       | 2533/10682 [24:46<1:07:07,  2.02it/s] 24%|██▎       | 2534/10682 [24:46<1:07:06,  2.02it/s] 24%|██▎       | 2535/10682 [24:47<1:07:06,  2.02it/s] 24%|██▎       | 2536/10682 [24:47<1:07:06,  2.02it/s] 24%|██▍       | 2537/10682 [24:48<1:13:17,  1.85it/s] 24%|██▍       | 2538/10682 [24:48<1:11:25,  1.90it/s] 24%|██▍       | 2539/10682 [24:49<1:10:07,  1.94it/s] 24%|██▍       | 2540/10682 [24:49<1:09:09,  1.96it/s] 24%|██▍       | 2541/10682 [24:50<1:08:39,  1.98it/s] 24%|██▍       | 2542/10682 [24:50<1:08:09,  1.99it/s] 24%|██▍       | 2543/10682 [24:51<1:07:48,  2.00it/s] 24%|██▍       | 2544/10682 [24:51<1:07:36,  2.01it/s] 24%|██▍       | 2545/10682 [24:52<1:07:25,  2.01it/s] 24%|██▍       | 2546/10682 [24:52<1:07:16,  2.02it/s] 24%|██▍       | 2547/10682 [24:53<1:07:09,  2.02it/s] 24%|██▍       | 2548/10682 [24:53<1:07:01,  2.02it/s] 24%|██▍       | 2549/10682 [24:54<1:07:03,  2.02it/s] 24%|██▍       | 2550/10682 [24:54<1:06:55,  2.03it/s]                                                      {'loss': 3.6487, 'grad_norm': 0.2416871339082718, 'learning_rate': 0.0009425701948841596, 'epoch': 3.34}
- 24%|██▍       | 2550/10682 [24:54<1:06:55,  2.03it/s] 24%|██▍       | 2551/10682 [24:55<1:07:05,  2.02it/s] 24%|██▍       | 2552/10682 [24:55<1:07:03,  2.02it/s] 24%|██▍       | 2553/10682 [24:56<1:07:03,  2.02it/s] 24%|██▍       | 2554/10682 [24:56<1:06:58,  2.02it/s] 24%|██▍       | 2555/10682 [24:57<1:06:59,  2.02it/s] 24%|██▍       | 2556/10682 [24:57<1:06:55,  2.02it/s] 24%|██▍       | 2557/10682 [24:58<1:06:57,  2.02it/s] 24%|██▍       | 2558/10682 [24:58<1:06:52,  2.02it/s] 24%|██▍       | 2559/10682 [24:59<1:06:53,  2.02it/s] 24%|██▍       | 2560/10682 [24:59<1:06:51,  2.02it/s] 24%|██▍       | 2561/10682 [25:00<1:06:51,  2.02it/s] 24%|██▍       | 2562/10682 [25:00<1:06:49,  2.03it/s] 24%|██▍       | 2563/10682 [25:01<1:06:46,  2.03it/s] 24%|██▍       | 2564/10682 [25:01<1:06:47,  2.03it/s] 24%|██▍       | 2565/10682 [25:02<1:06:46,  2.03it/s] 24%|██▍       | 2566/10682 [25:02<1:06:46,  2.03it/s] 24%|██▍       | 2567/10682 [25:03<1:06:43,  2.03it/s] 24%|██▍       | 2568/10682 [25:03<1:06:47,  2.02it/s] 24%|██▍       | 2569/10682 [25:04<1:06:46,  2.02it/s] 24%|██▍       | 2570/10682 [25:04<1:06:46,  2.02it/s] 24%|██▍       | 2571/10682 [25:05<1:06:46,  2.02it/s] 24%|██▍       | 2572/10682 [25:05<1:06:48,  2.02it/s] 24%|██▍       | 2573/10682 [25:06<1:06:46,  2.02it/s] 24%|██▍       | 2574/10682 [25:06<1:06:43,  2.03it/s] 24%|██▍       | 2575/10682 [25:06<1:06:45,  2.02it/s]{'loss': 3.6324, 'grad_norm': 0.2322063148021698, 'learning_rate': 0.0009406545572679153, 'epoch': 3.37}                                                      
- 24%|██▍       | 2575/10682 [25:06<1:06:45,  2.02it/s] 24%|██▍       | 2576/10682 [25:07<1:06:52,  2.02it/s] 24%|██▍       | 2577/10682 [25:07<1:06:48,  2.02it/s] 24%|██▍       | 2578/10682 [25:08<1:06:48,  2.02it/s] 24%|██▍       | 2579/10682 [25:08<1:06:46,  2.02it/s] 24%|██▍       | 2580/10682 [25:09<1:06:45,  2.02it/s] 24%|██▍       | 2581/10682 [25:09<1:06:41,  2.02it/s] 24%|██▍       | 2582/10682 [25:10<1:06:42,  2.02it/s] 24%|██▍       | 2583/10682 [25:10<1:06:37,  2.03it/s] 24%|██▍       | 2584/10682 [25:11<1:06:38,  2.03it/s] 24%|██▍       | 2585/10682 [25:11<1:06:37,  2.03it/s] 24%|██▍       | 2586/10682 [25:12<1:06:31,  2.03it/s] 24%|██▍       | 2587/10682 [25:12<1:06:32,  2.03it/s] 24%|██▍       | 2588/10682 [25:13<1:06:32,  2.03it/s] 24%|██▍       | 2589/10682 [25:13<1:06:32,  2.03it/s] 24%|██▍       | 2590/10682 [25:14<1:06:36,  2.02it/s] 24%|██▍       | 2591/10682 [25:14<1:06:34,  2.03it/s] 24%|██▍       | 2592/10682 [25:15<1:06:37,  2.02it/s] 24%|██▍       | 2593/10682 [25:15<1:06:36,  2.02it/s] 24%|██▍       | 2594/10682 [25:16<1:06:33,  2.03it/s] 24%|██▍       | 2595/10682 [25:16<1:06:34,  2.02it/s] 24%|██▍       | 2596/10682 [25:17<1:06:33,  2.02it/s] 24%|██▍       | 2597/10682 [25:17<1:06:34,  2.02it/s] 24%|██▍       | 2598/10682 [25:18<1:06:33,  2.02it/s] 24%|██▍       | 2599/10682 [25:18<1:06:28,  2.03it/s] 24%|██▍       | 2600/10682 [25:19<1:06:29,  2.03it/s]                                                      {'loss': 3.6455, 'grad_norm': 0.23232042789459229, 'learning_rate': 0.0009387095054051274, 'epoch': 3.41}
- 24%|██▍       | 2600/10682 [25:19<1:06:29,  2.03it/s] 24%|██▍       | 2601/10682 [25:19<1:06:43,  2.02it/s] 24%|██▍       | 2602/10682 [25:20<1:06:42,  2.02it/s] 24%|██▍       | 2603/10682 [25:20<1:06:39,  2.02it/s] 24%|██▍       | 2604/10682 [25:21<1:06:34,  2.02it/s] 24%|██▍       | 2605/10682 [25:21<1:06:31,  2.02it/s] 24%|██▍       | 2606/10682 [25:22<1:06:31,  2.02it/s] 24%|██▍       | 2607/10682 [25:22<1:06:28,  2.02it/s] 24%|██▍       | 2608/10682 [25:23<1:06:30,  2.02it/s] 24%|██▍       | 2609/10682 [25:23<1:06:26,  2.03it/s] 24%|██▍       | 2610/10682 [25:24<1:06:28,  2.02it/s] 24%|██▍       | 2611/10682 [25:24<1:06:27,  2.02it/s] 24%|██▍       | 2612/10682 [25:25<1:06:30,  2.02it/s] 24%|██▍       | 2613/10682 [25:25<1:06:26,  2.02it/s] 24%|██▍       | 2614/10682 [25:26<1:06:33,  2.02it/s] 24%|██▍       | 2615/10682 [25:26<1:06:27,  2.02it/s] 24%|██▍       | 2616/10682 [25:27<1:06:28,  2.02it/s] 24%|██▍       | 2617/10682 [25:27<1:06:23,  2.02it/s] 25%|██▍       | 2618/10682 [25:28<1:06:26,  2.02it/s] 25%|██▍       | 2619/10682 [25:28<1:06:21,  2.03it/s] 25%|██▍       | 2620/10682 [25:29<1:06:23,  2.02it/s] 25%|██▍       | 2621/10682 [25:29<1:06:22,  2.02it/s] 25%|██▍       | 2622/10682 [25:30<1:06:20,  2.02it/s] 25%|██▍       | 2623/10682 [25:30<1:06:19,  2.03it/s] 25%|██▍       | 2624/10682 [25:31<1:06:15,  2.03it/s] 25%|██▍       | 2625/10682 [25:31<1:06:20,  2.02it/s]                                                      {'loss': 3.6357, 'grad_norm': 0.23453141748905182, 'learning_rate': 0.0009367351691304569, 'epoch': 3.44}
- 25%|██▍       | 2625/10682 [25:31<1:06:20,  2.02it/s] 25%|██▍       | 2626/10682 [25:32<1:06:23,  2.02it/s] 25%|██▍       | 2627/10682 [25:32<1:06:23,  2.02it/s] 25%|██▍       | 2628/10682 [25:33<1:06:20,  2.02it/s] 25%|██▍       | 2629/10682 [25:33<1:06:20,  2.02it/s] 25%|██▍       | 2630/10682 [25:34<1:06:16,  2.03it/s] 25%|██▍       | 2631/10682 [25:34<1:06:18,  2.02it/s] 25%|██▍       | 2632/10682 [25:35<1:06:13,  2.03it/s] 25%|██▍       | 2633/10682 [25:35<1:06:15,  2.02it/s] 25%|██▍       | 2634/10682 [25:36<1:06:15,  2.02it/s] 25%|██▍       | 2635/10682 [25:36<1:06:13,  2.02it/s] 25%|██▍       | 2636/10682 [25:37<1:06:14,  2.02it/s] 25%|██▍       | 2637/10682 [25:37<1:06:09,  2.03it/s] 25%|██▍       | 2638/10682 [25:38<1:06:11,  2.03it/s] 25%|██▍       | 2639/10682 [25:38<1:06:09,  2.03it/s] 25%|██▍       | 2640/10682 [25:39<1:06:11,  2.03it/s] 25%|██▍       | 2641/10682 [25:39<1:06:08,  2.03it/s] 25%|██▍       | 2642/10682 [25:40<1:06:08,  2.03it/s] 25%|██▍       | 2643/10682 [25:40<1:06:08,  2.03it/s] 25%|██▍       | 2644/10682 [25:41<1:06:09,  2.03it/s] 25%|██▍       | 2645/10682 [25:41<1:06:08,  2.03it/s] 25%|██▍       | 2646/10682 [25:42<1:06:10,  2.02it/s] 25%|██▍       | 2647/10682 [25:42<1:06:08,  2.02it/s] 25%|██▍       | 2648/10682 [25:43<1:06:10,  2.02it/s] 25%|██▍       | 2649/10682 [25:43<1:06:10,  2.02it/s] 25%|██▍       | 2650/10682 [25:44<1:06:09,  2.02it/s]                                                      {'loss': 3.6416, 'grad_norm': 0.22962385416030884, 'learning_rate': 0.0009347316802333359, 'epoch': 3.47}
- 25%|██▍       | 2650/10682 [25:44<1:06:09,  2.02it/s] 25%|██▍       | 2651/10682 [25:44<1:06:16,  2.02it/s] 25%|██▍       | 2652/10682 [25:45<1:06:10,  2.02it/s] 25%|██▍       | 2653/10682 [25:45<1:06:11,  2.02it/s] 25%|██▍       | 2654/10682 [25:46<1:06:07,  2.02it/s] 25%|██▍       | 2655/10682 [25:46<1:06:07,  2.02it/s] 25%|██▍       | 2656/10682 [25:47<1:06:04,  2.02it/s] 25%|██▍       | 2657/10682 [25:47<1:06:06,  2.02it/s] 25%|██▍       | 2658/10682 [25:47<1:06:06,  2.02it/s] 25%|██▍       | 2659/10682 [25:48<1:06:02,  2.02it/s] 25%|██▍       | 2660/10682 [25:48<1:06:03,  2.02it/s] 25%|██▍       | 2661/10682 [25:49<1:05:59,  2.03it/s] 25%|██▍       | 2662/10682 [25:49<1:05:59,  2.03it/s] 25%|██▍       | 2663/10682 [25:50<1:05:56,  2.03it/s] 25%|██▍       | 2664/10682 [25:50<1:05:54,  2.03it/s] 25%|██▍       | 2665/10682 [25:51<1:05:57,  2.03it/s] 25%|██▍       | 2666/10682 [25:51<1:05:54,  2.03it/s] 25%|██▍       | 2667/10682 [25:52<1:05:58,  2.02it/s] 25%|██▍       | 2668/10682 [25:52<1:05:52,  2.03it/s] 25%|██▍       | 2669/10682 [25:53<1:05:53,  2.03it/s] 25%|██▍       | 2670/10682 [25:53<1:05:51,  2.03it/s] 25%|██▌       | 2671/10682 [25:54<1:05:53,  2.03it/s] 25%|██▌       | 2672/10682 [25:54<1:05:57,  2.02it/s] 25%|██▌       | 2673/10682 [25:55<1:05:55,  2.02it/s] 25%|██▌       | 2674/10682 [25:55<1:05:56,  2.02it/s] 25%|██▌       | 2675/10682 [25:56<1:05:58,  2.02it/s]                                                      {'loss': 3.6413, 'grad_norm': 0.2294313609600067, 'learning_rate': 0.0009326991724491712, 'epoch': 3.51}
- 25%|██▌       | 2675/10682 [25:56<1:05:58,  2.02it/s] 25%|██▌       | 2676/10682 [25:56<1:06:03,  2.02it/s] 25%|██▌       | 2677/10682 [25:57<1:05:58,  2.02it/s] 25%|██▌       | 2678/10682 [25:57<1:05:54,  2.02it/s] 25%|██▌       | 2679/10682 [25:58<1:05:52,  2.02it/s] 25%|██▌       | 2680/10682 [25:58<1:05:52,  2.02it/s] 25%|██▌       | 2681/10682 [25:59<1:05:51,  2.02it/s] 25%|██▌       | 2682/10682 [25:59<1:05:51,  2.02it/s] 25%|██▌       | 2683/10682 [26:00<1:05:51,  2.02it/s] 25%|██▌       | 2684/10682 [26:00<1:05:52,  2.02it/s] 25%|██▌       | 2685/10682 [26:01<1:05:49,  2.02it/s] 25%|██▌       | 2686/10682 [26:01<1:05:43,  2.03it/s] 25%|██▌       | 2687/10682 [26:02<1:05:44,  2.03it/s] 25%|██▌       | 2688/10682 [26:02<1:05:43,  2.03it/s] 25%|██▌       | 2689/10682 [26:03<1:05:45,  2.03it/s] 25%|██▌       | 2690/10682 [26:03<1:05:43,  2.03it/s] 25%|██▌       | 2691/10682 [26:04<1:05:46,  2.03it/s] 25%|██▌       | 2692/10682 [26:04<1:05:43,  2.03it/s] 25%|██▌       | 2693/10682 [26:05<1:05:46,  2.02it/s] 25%|██▌       | 2694/10682 [26:05<1:05:43,  2.03it/s] 25%|██▌       | 2695/10682 [26:06<1:05:45,  2.02it/s] 25%|██▌       | 2696/10682 [26:06<1:05:45,  2.02it/s] 25%|██▌       | 2697/10682 [26:07<1:05:42,  2.03it/s] 25%|██▌       | 2698/10682 [26:07<1:05:47,  2.02it/s] 25%|██▌       | 2699/10682 [26:08<1:05:43,  2.02it/s] 25%|██▌       | 2700/10682 [26:08<1:05:42,  2.02it/s]{'loss': 3.6403, 'grad_norm': 0.2378699779510498, 'learning_rate': 0.0009306377814504165, 'epoch': 3.54}                                                      
- 25%|██▌       | 2700/10682 [26:08<1:05:42,  2.02it/s] 25%|██▌       | 2701/10682 [26:09<1:05:42,  2.02it/s] 25%|██▌       | 2702/10682 [26:09<1:05:44,  2.02it/s] 25%|██▌       | 2703/10682 [26:10<1:05:40,  2.02it/s] 25%|██▌       | 2704/10682 [26:10<1:05:41,  2.02it/s] 25%|██▌       | 2705/10682 [26:11<1:05:39,  2.02it/s] 25%|██▌       | 2706/10682 [26:11<1:05:37,  2.03it/s] 25%|██▌       | 2707/10682 [26:12<1:05:40,  2.02it/s] 25%|██▌       | 2708/10682 [26:12<1:05:37,  2.03it/s] 25%|██▌       | 2709/10682 [26:13<1:05:39,  2.02it/s] 25%|██▌       | 2710/10682 [26:13<1:05:33,  2.03it/s] 25%|██▌       | 2711/10682 [26:14<1:05:34,  2.03it/s] 25%|██▌       | 2712/10682 [26:14<1:05:33,  2.03it/s] 25%|██▌       | 2713/10682 [26:15<1:05:35,  2.03it/s] 25%|██▌       | 2714/10682 [26:15<1:05:35,  2.02it/s] 25%|██▌       | 2715/10682 [26:16<1:05:57,  2.01it/s] 25%|██▌       | 2716/10682 [26:16<1:05:51,  2.02it/s] 25%|██▌       | 2717/10682 [26:17<1:05:46,  2.02it/s] 25%|██▌       | 2718/10682 [26:17<1:05:43,  2.02it/s] 25%|██▌       | 2719/10682 [26:18<1:05:37,  2.02it/s] 25%|██▌       | 2720/10682 [26:18<1:05:34,  2.02it/s] 25%|██▌       | 2721/10682 [26:19<1:05:33,  2.02it/s] 25%|██▌       | 2722/10682 [26:19<1:05:30,  2.03it/s] 25%|██▌       | 2723/10682 [26:20<1:05:32,  2.02it/s] 26%|██▌       | 2724/10682 [26:20<1:05:28,  2.03it/s] 26%|██▌       | 2725/10682 [26:21<1:05:30,  2.02it/s]{'loss': 3.6452, 'grad_norm': 0.24637503921985626, 'learning_rate': 0.0009285476448375166, 'epoch': 3.57}
-                                                       26%|██▌       | 2725/10682 [26:21<1:05:30,  2.02it/s] 26%|██▌       | 2726/10682 [26:21<1:05:34,  2.02it/s] 26%|██▌       | 2727/10682 [26:22<1:05:31,  2.02it/s] 26%|██▌       | 2728/10682 [26:22<1:05:31,  2.02it/s] 26%|██▌       | 2729/10682 [26:23<1:05:31,  2.02it/s] 26%|██▌       | 2730/10682 [26:23<1:05:34,  2.02it/s] 26%|██▌       | 2731/10682 [26:24<1:05:33,  2.02it/s] 26%|██▌       | 2732/10682 [26:24<1:05:32,  2.02it/s] 26%|██▌       | 2733/10682 [26:25<1:05:29,  2.02it/s] 26%|██▌       | 2734/10682 [26:25<1:05:29,  2.02it/s] 26%|██▌       | 2735/10682 [26:26<1:05:26,  2.02it/s] 26%|██▌       | 2736/10682 [26:26<1:05:30,  2.02it/s] 26%|██▌       | 2737/10682 [26:27<1:05:29,  2.02it/s] 26%|██▌       | 2738/10682 [26:27<1:05:30,  2.02it/s] 26%|██▌       | 2739/10682 [26:28<1:05:27,  2.02it/s] 26%|██▌       | 2740/10682 [26:28<1:05:28,  2.02it/s] 26%|██▌       | 2741/10682 [26:29<1:05:29,  2.02it/s] 26%|██▌       | 2742/10682 [26:29<1:05:28,  2.02it/s] 26%|██▌       | 2743/10682 [26:29<1:05:25,  2.02it/s] 26%|██▌       | 2744/10682 [26:30<1:05:26,  2.02it/s] 26%|██▌       | 2745/10682 [26:30<1:05:20,  2.02it/s] 26%|██▌       | 2746/10682 [26:31<1:05:21,  2.02it/s] 26%|██▌       | 2747/10682 [26:31<1:05:19,  2.02it/s] 26%|██▌       | 2748/10682 [26:32<1:05:20,  2.02it/s] 26%|██▌       | 2749/10682 [26:32<1:05:18,  2.02it/s] 26%|██▌       | 2750/10682 [26:33<1:05:15,  2.03it/s]{'loss': 3.6412, 'grad_norm': 0.22162491083145142, 'learning_rate': 0.0009264289021297221, 'epoch': 3.6}
-                                                       26%|██▌       | 2750/10682 [26:33<1:05:15,  2.03it/s] 26%|██▌       | 2751/10682 [26:33<1:05:20,  2.02it/s] 26%|██▌       | 2752/10682 [26:34<1:05:15,  2.03it/s] 26%|██▌       | 2753/10682 [26:34<1:05:19,  2.02it/s] 26%|██▌       | 2754/10682 [26:35<1:05:14,  2.03it/s] 26%|██▌       | 2755/10682 [26:35<1:05:16,  2.02it/s] 26%|██▌       | 2756/10682 [26:36<1:05:13,  2.03it/s] 26%|██▌       | 2757/10682 [26:36<1:05:14,  2.02it/s] 26%|██▌       | 2758/10682 [26:37<1:05:11,  2.03it/s] 26%|██▌       | 2759/10682 [26:37<1:05:12,  2.03it/s] 26%|██▌       | 2760/10682 [26:38<1:05:11,  2.03it/s] 26%|██▌       | 2761/10682 [26:38<1:05:09,  2.03it/s] 26%|██▌       | 2762/10682 [26:39<1:05:12,  2.02it/s] 26%|██▌       | 2763/10682 [26:39<1:05:10,  2.03it/s] 26%|██▌       | 2764/10682 [26:40<1:05:15,  2.02it/s] 26%|██▌       | 2765/10682 [26:40<1:05:12,  2.02it/s] 26%|██▌       | 2766/10682 [26:41<1:05:13,  2.02it/s] 26%|██▌       | 2767/10682 [26:41<1:05:08,  2.02it/s] 26%|██▌       | 2768/10682 [26:42<1:05:11,  2.02it/s] 26%|██▌       | 2769/10682 [26:42<1:05:07,  2.02it/s] 26%|██▌       | 2770/10682 [26:43<1:05:11,  2.02it/s] 26%|██▌       | 2771/10682 [26:43<1:05:09,  2.02it/s] 26%|██▌       | 2772/10682 [26:44<1:05:12,  2.02it/s] 26%|██▌       | 2773/10682 [26:44<1:05:08,  2.02it/s] 26%|██▌       | 2774/10682 [26:45<1:05:10,  2.02it/s] 26%|██▌       | 2775/10682 [26:45<1:05:09,  2.02it/s]{'loss': 3.635, 'grad_norm': 0.22865548729896545, 'learning_rate': 0.0009242816947557767, 'epoch': 3.64}
-                                                       26%|██▌       | 2775/10682 [26:45<1:05:09,  2.02it/s] 26%|██▌       | 2776/10682 [26:46<1:05:15,  2.02it/s] 26%|██▌       | 2777/10682 [26:46<1:05:13,  2.02it/s] 26%|██▌       | 2778/10682 [26:47<1:05:12,  2.02it/s] 26%|██▌       | 2779/10682 [26:47<1:05:10,  2.02it/s] 26%|██▌       | 2780/10682 [26:48<1:05:07,  2.02it/s] 26%|██▌       | 2781/10682 [26:48<1:05:04,  2.02it/s] 26%|██▌       | 2782/10682 [26:49<1:05:06,  2.02it/s] 26%|██▌       | 2783/10682 [26:49<1:05:00,  2.02it/s] 26%|██▌       | 2784/10682 [26:50<1:05:04,  2.02it/s] 26%|██▌       | 2785/10682 [26:50<1:04:59,  2.03it/s] 26%|██▌       | 2786/10682 [26:51<1:05:02,  2.02it/s] 26%|██▌       | 2787/10682 [26:51<1:04:59,  2.02it/s] 26%|██▌       | 2788/10682 [26:52<1:05:01,  2.02it/s] 26%|██▌       | 2789/10682 [26:52<1:05:01,  2.02it/s] 26%|██▌       | 2790/10682 [26:53<1:05:01,  2.02it/s] 26%|██▌       | 2791/10682 [26:53<1:04:56,  2.03it/s] 26%|██▌       | 2792/10682 [26:54<1:04:54,  2.03it/s] 26%|██▌       | 2793/10682 [26:54<1:04:57,  2.02it/s] 26%|██▌       | 2794/10682 [26:55<1:04:56,  2.02it/s] 26%|██▌       | 2795/10682 [26:55<1:04:56,  2.02it/s] 26%|██▌       | 2796/10682 [26:56<1:04:55,  2.02it/s] 26%|██▌       | 2797/10682 [26:56<1:04:51,  2.03it/s] 26%|██▌       | 2798/10682 [26:57<1:04:54,  2.02it/s] 26%|██▌       | 2799/10682 [26:57<1:04:54,  2.02it/s] 26%|██▌       | 2800/10682 [26:58<1:04:58,  2.02it/s]                                                      {'loss': 3.6236, 'grad_norm': 0.23946262896060944, 'learning_rate': 0.0009221061660444758, 'epoch': 3.67}
- 26%|██▌       | 2800/10682 [26:58<1:04:58,  2.02it/s] 26%|██▌       | 2801/10682 [26:58<1:04:59,  2.02it/s] 26%|██▌       | 2802/10682 [26:59<1:04:59,  2.02it/s] 26%|██▌       | 2803/10682 [26:59<1:04:55,  2.02it/s] 26%|██▌       | 2804/10682 [27:00<1:04:55,  2.02it/s] 26%|██▋       | 2805/10682 [27:00<1:04:50,  2.02it/s] 26%|██▋       | 2806/10682 [27:01<1:04:47,  2.03it/s] 26%|██▋       | 2807/10682 [27:01<1:04:51,  2.02it/s] 26%|██▋       | 2808/10682 [27:02<1:04:48,  2.03it/s] 26%|██▋       | 2809/10682 [27:02<1:04:49,  2.02it/s] 26%|██▋       | 2810/10682 [27:03<1:04:46,  2.03it/s] 26%|██▋       | 2811/10682 [27:03<1:04:49,  2.02it/s] 26%|██▋       | 2812/10682 [27:04<1:04:47,  2.02it/s] 26%|██▋       | 2813/10682 [27:04<1:04:46,  2.02it/s] 26%|██▋       | 2814/10682 [27:05<1:04:47,  2.02it/s] 26%|██▋       | 2815/10682 [27:05<1:04:43,  2.03it/s] 26%|██▋       | 2816/10682 [27:06<1:04:43,  2.03it/s] 26%|██▋       | 2817/10682 [27:06<1:04:43,  2.02it/s] 26%|██▋       | 2818/10682 [27:07<1:04:44,  2.02it/s] 26%|██▋       | 2819/10682 [27:07<1:04:44,  2.02it/s] 26%|██▋       | 2820/10682 [27:08<1:04:47,  2.02it/s] 26%|██▋       | 2821/10682 [27:08<1:04:45,  2.02it/s] 26%|██▋       | 2822/10682 [27:09<1:04:47,  2.02it/s] 26%|██▋       | 2823/10682 [27:09<1:04:47,  2.02it/s] 26%|██▋       | 2824/10682 [27:10<1:04:46,  2.02it/s] 26%|██▋       | 2825/10682 [27:10<1:04:45,  2.02it/s]{'loss': 3.6361, 'grad_norm': 0.2265406996011734, 'learning_rate': 0.0009199024612151008, 'epoch': 3.7}                                                      
- 26%|██▋       | 2825/10682 [27:10<1:04:45,  2.02it/s] 26%|██▋       | 2826/10682 [27:11<1:04:47,  2.02it/s] 26%|██▋       | 2827/10682 [27:11<1:04:44,  2.02it/s] 26%|██▋       | 2828/10682 [27:11<1:04:47,  2.02it/s] 26%|██▋       | 2829/10682 [27:12<1:04:44,  2.02it/s] 26%|██▋       | 2830/10682 [27:12<1:04:44,  2.02it/s] 27%|██▋       | 2831/10682 [27:13<1:04:41,  2.02it/s] 27%|██▋       | 2832/10682 [27:13<1:04:42,  2.02it/s] 27%|██▋       | 2833/10682 [27:14<1:04:39,  2.02it/s] 27%|██▋       | 2834/10682 [27:14<1:04:40,  2.02it/s] 27%|██▋       | 2835/10682 [27:15<1:04:34,  2.03it/s] 27%|██▋       | 2836/10682 [27:15<1:05:44,  1.99it/s] 27%|██▋       | 2837/10682 [27:16<1:05:21,  2.00it/s] 27%|██▋       | 2838/10682 [27:16<1:05:10,  2.01it/s] 27%|██▋       | 2839/10682 [27:17<1:04:57,  2.01it/s] 27%|██▋       | 2840/10682 [27:17<1:04:51,  2.02it/s] 27%|██▋       | 2841/10682 [27:18<1:04:41,  2.02it/s] 27%|██▋       | 2842/10682 [27:18<1:04:42,  2.02it/s] 27%|██▋       | 2843/10682 [27:19<1:04:35,  2.02it/s] 27%|██▋       | 2844/10682 [27:19<1:04:34,  2.02it/s] 27%|██▋       | 2845/10682 [27:20<1:04:31,  2.02it/s] 27%|██▋       | 2846/10682 [27:20<1:04:31,  2.02it/s] 27%|██▋       | 2847/10682 [27:21<1:04:32,  2.02it/s] 27%|██▋       | 2848/10682 [27:21<1:04:31,  2.02it/s] 27%|██▋       | 2849/10682 [27:22<1:04:31,  2.02it/s] 27%|██▋       | 2850/10682 [27:22<1:04:29,  2.02it/s]                                                      {'loss': 3.6434, 'grad_norm': 0.22921255230903625, 'learning_rate': 0.0009176707273677235, 'epoch': 3.74}
- 27%|██▋       | 2850/10682 [27:22<1:04:29,  2.02it/s] 27%|██▋       | 2851/10682 [27:23<1:04:36,  2.02it/s] 27%|██▋       | 2852/10682 [27:23<1:04:31,  2.02it/s] 27%|██▋       | 2853/10682 [27:24<1:04:28,  2.02it/s] 27%|██▋       | 2854/10682 [27:24<1:04:29,  2.02it/s] 27%|██▋       | 2855/10682 [27:25<1:04:26,  2.02it/s] 27%|██▋       | 2856/10682 [27:25<1:04:27,  2.02it/s] 27%|██▋       | 2857/10682 [27:26<1:04:26,  2.02it/s] 27%|██▋       | 2858/10682 [27:26<1:04:27,  2.02it/s] 27%|██▋       | 2859/10682 [27:27<1:04:26,  2.02it/s] 27%|██▋       | 2860/10682 [27:27<1:04:20,  2.03it/s] 27%|██▋       | 2861/10682 [27:28<1:04:22,  2.02it/s] 27%|██▋       | 2862/10682 [27:28<1:04:18,  2.03it/s] 27%|██▋       | 2863/10682 [27:29<1:04:17,  2.03it/s] 27%|██▋       | 2864/10682 [27:29<1:04:19,  2.03it/s] 27%|██▋       | 2865/10682 [27:30<1:04:18,  2.03it/s] 27%|██▋       | 2866/10682 [27:30<1:04:18,  2.03it/s] 27%|██▋       | 2867/10682 [27:31<1:04:15,  2.03it/s] 27%|██▋       | 2868/10682 [27:31<1:04:19,  2.02it/s] 27%|██▋       | 2869/10682 [27:32<1:04:16,  2.03it/s] 27%|██▋       | 2870/10682 [27:32<1:04:15,  2.03it/s] 27%|██▋       | 2871/10682 [27:33<1:04:20,  2.02it/s] 27%|██▋       | 2872/10682 [27:33<1:04:18,  2.02it/s] 27%|██▋       | 2873/10682 [27:34<1:04:20,  2.02it/s] 27%|██▋       | 2874/10682 [27:34<1:04:16,  2.02it/s] 27%|██▋       | 2875/10682 [27:35<1:04:18,  2.02it/s]{'loss': 3.6184, 'grad_norm': 0.23009704053401947, 'learning_rate': 0.0009154111134733883, 'epoch': 3.77}
-                                                       27%|██▋       | 2875/10682 [27:35<1:04:18,  2.02it/s] 27%|██▋       | 2876/10682 [27:35<1:04:22,  2.02it/s] 27%|██▋       | 2877/10682 [27:36<1:04:19,  2.02it/s] 27%|██▋       | 2878/10682 [27:36<1:04:13,  2.03it/s] 27%|██▋       | 2879/10682 [27:37<1:04:15,  2.02it/s] 27%|██▋       | 2880/10682 [27:37<1:04:11,  2.03it/s] 27%|██▋       | 2881/10682 [27:38<1:04:15,  2.02it/s] 27%|██▋       | 2882/10682 [27:38<1:04:13,  2.02it/s] 27%|██▋       | 2883/10682 [27:39<1:04:15,  2.02it/s] 27%|██▋       | 2884/10682 [27:39<1:04:12,  2.02it/s] 27%|██▋       | 2885/10682 [27:40<1:04:09,  2.03it/s] 27%|██▋       | 2886/10682 [27:40<1:04:09,  2.03it/s] 27%|██▋       | 2887/10682 [27:41<1:04:10,  2.02it/s] 27%|██▋       | 2888/10682 [27:41<1:04:10,  2.02it/s] 27%|██▋       | 2889/10682 [27:42<1:04:10,  2.02it/s] 27%|██▋       | 2890/10682 [27:42<1:04:11,  2.02it/s] 27%|██▋       | 2891/10682 [27:43<1:04:11,  2.02it/s] 27%|██▋       | 2892/10682 [27:43<1:04:12,  2.02it/s] 27%|██▋       | 2893/10682 [27:44<1:04:10,  2.02it/s] 27%|██▋       | 2894/10682 [27:44<1:04:10,  2.02it/s] 27%|██▋       | 2895/10682 [27:45<1:04:10,  2.02it/s] 27%|██▋       | 2896/10682 [27:45<1:04:12,  2.02it/s] 27%|██▋       | 2897/10682 [27:46<1:04:10,  2.02it/s] 27%|██▋       | 2898/10682 [27:46<1:04:10,  2.02it/s] 27%|██▋       | 2899/10682 [27:47<1:04:08,  2.02it/s] 27%|██▋       | 2900/10682 [27:47<1:04:09,  2.02it/s]{'loss': 3.6267, 'grad_norm': 0.23433217406272888, 'learning_rate': 0.0009131237703641679, 'epoch': 3.8}                                                      
- 27%|██▋       | 2900/10682 [27:47<1:04:09,  2.02it/s] 27%|██▋       | 2901/10682 [27:48<1:04:15,  2.02it/s] 27%|██▋       | 2902/10682 [27:48<1:04:13,  2.02it/s] 27%|██▋       | 2903/10682 [27:49<1:04:08,  2.02it/s] 27%|██▋       | 2904/10682 [27:49<1:04:06,  2.02it/s] 27%|██▋       | 2905/10682 [27:50<1:04:05,  2.02it/s] 27%|██▋       | 2906/10682 [27:50<1:04:05,  2.02it/s] 27%|██▋       | 2907/10682 [27:51<1:04:04,  2.02it/s] 27%|██▋       | 2908/10682 [27:51<1:04:04,  2.02it/s] 27%|██▋       | 2909/10682 [27:52<1:04:02,  2.02it/s] 27%|██▋       | 2910/10682 [27:52<1:04:04,  2.02it/s] 27%|██▋       | 2911/10682 [27:53<1:04:00,  2.02it/s] 27%|██▋       | 2912/10682 [27:53<1:03:59,  2.02it/s] 27%|██▋       | 2913/10682 [27:54<1:03:56,  2.03it/s] 27%|██▋       | 2914/10682 [27:54<1:04:00,  2.02it/s] 27%|██▋       | 2915/10682 [27:55<1:03:57,  2.02it/s] 27%|██▋       | 2916/10682 [27:55<1:04:02,  2.02it/s] 27%|██▋       | 2917/10682 [27:56<1:03:58,  2.02it/s] 27%|██▋       | 2918/10682 [27:56<1:04:02,  2.02it/s] 27%|██▋       | 2919/10682 [27:56<1:03:58,  2.02it/s] 27%|██▋       | 2920/10682 [27:57<1:03:58,  2.02it/s] 27%|██▋       | 2921/10682 [27:57<1:03:56,  2.02it/s] 27%|██▋       | 2922/10682 [27:58<1:03:54,  2.02it/s] 27%|██▋       | 2923/10682 [27:58<1:03:53,  2.02it/s] 27%|██▋       | 2924/10682 [27:59<1:03:51,  2.02it/s] 27%|██▋       | 2925/10682 [27:59<1:03:51,  2.02it/s]                                                      {'loss': 3.6302, 'grad_norm': 0.24303573369979858, 'learning_rate': 0.0009108088507230948, 'epoch': 3.83}
- 27%|██▋       | 2925/10682 [27:59<1:03:51,  2.02it/s] 27%|██▋       | 2926/10682 [28:00<1:04:07,  2.02it/s] 27%|██▋       | 2927/10682 [28:00<1:03:58,  2.02it/s] 27%|██▋       | 2928/10682 [28:01<1:03:56,  2.02it/s] 27%|██▋       | 2929/10682 [28:01<1:03:54,  2.02it/s] 27%|██▋       | 2930/10682 [28:02<1:03:50,  2.02it/s] 27%|██▋       | 2931/10682 [28:02<1:03:50,  2.02it/s] 27%|██▋       | 2932/10682 [28:03<1:03:44,  2.03it/s] 27%|██▋       | 2933/10682 [28:03<1:03:44,  2.03it/s] 27%|██▋       | 2934/10682 [28:04<1:03:43,  2.03it/s] 27%|██▋       | 2935/10682 [28:04<1:03:43,  2.03it/s] 27%|██▋       | 2936/10682 [28:05<1:03:44,  2.03it/s] 27%|██▋       | 2937/10682 [28:05<1:03:46,  2.02it/s] 28%|██▊       | 2938/10682 [28:06<1:03:48,  2.02it/s] 28%|██▊       | 2939/10682 [28:06<1:03:47,  2.02it/s] 28%|██▊       | 2940/10682 [28:07<1:03:47,  2.02it/s] 28%|██▊       | 2941/10682 [28:07<1:03:49,  2.02it/s] 28%|██▊       | 2942/10682 [28:08<1:03:46,  2.02it/s] 28%|██▊       | 2943/10682 [28:08<1:03:45,  2.02it/s] 28%|██▊       | 2944/10682 [28:09<1:03:43,  2.02it/s] 28%|██▊       | 2945/10682 [28:09<1:03:43,  2.02it/s] 28%|██▊       | 2946/10682 [28:10<1:03:39,  2.03it/s] 28%|██▊       | 2947/10682 [28:10<1:03:43,  2.02it/s] 28%|██▊       | 2948/10682 [28:11<1:03:43,  2.02it/s] 28%|██▊       | 2949/10682 [28:11<1:03:43,  2.02it/s] 28%|██▊       | 2950/10682 [28:12<1:03:39,  2.02it/s]{'loss': 3.6307, 'grad_norm': 0.22855547070503235, 'learning_rate': 0.0009084665090739699, 'epoch': 3.87}                                                      
- 28%|██▊       | 2950/10682 [28:12<1:03:39,  2.02it/s] 28%|██▊       | 2951/10682 [28:12<1:03:45,  2.02it/s] 28%|██▊       | 2952/10682 [28:13<1:03:39,  2.02it/s] 28%|██▊       | 2953/10682 [28:13<1:03:42,  2.02it/s] 28%|██▊       | 2954/10682 [28:14<1:03:38,  2.02it/s] 28%|██▊       | 2955/10682 [28:14<1:03:39,  2.02it/s] 28%|██▊       | 2956/10682 [28:15<1:03:35,  2.02it/s] 28%|██▊       | 2957/10682 [28:15<1:03:36,  2.02it/s] 28%|██▊       | 2958/10682 [28:16<1:03:35,  2.02it/s] 28%|██▊       | 2959/10682 [28:16<1:03:38,  2.02it/s] 28%|██▊       | 2960/10682 [28:17<1:03:33,  2.02it/s] 28%|██▊       | 2961/10682 [28:17<1:03:31,  2.03it/s] 28%|██▊       | 2962/10682 [28:18<1:03:32,  2.02it/s] 28%|██▊       | 2963/10682 [28:18<1:03:31,  2.03it/s] 28%|██▊       | 2964/10682 [28:19<1:03:32,  2.02it/s] 28%|██▊       | 2965/10682 [28:19<1:03:32,  2.02it/s] 28%|██▊       | 2966/10682 [28:20<1:03:32,  2.02it/s] 28%|██▊       | 2967/10682 [28:20<1:03:30,  2.02it/s] 28%|██▊       | 2968/10682 [28:21<1:03:32,  2.02it/s] 28%|██▊       | 2969/10682 [28:21<1:03:28,  2.03it/s] 28%|██▊       | 2970/10682 [28:22<1:03:28,  2.02it/s] 28%|██▊       | 2971/10682 [28:22<1:03:25,  2.03it/s] 28%|██▊       | 2972/10682 [28:23<1:03:26,  2.03it/s] 28%|██▊       | 2973/10682 [28:23<1:03:24,  2.03it/s] 28%|██▊       | 2974/10682 [28:24<1:03:25,  2.03it/s] 28%|██▊       | 2975/10682 [28:24<1:03:25,  2.03it/s]                                                      {'loss': 3.6339, 'grad_norm': 0.2309538722038269, 'learning_rate': 0.0009060969017710476, 'epoch': 3.9}
- 28%|██▊       | 2975/10682 [28:24<1:03:25,  2.03it/s] 28%|██▊       | 2976/10682 [28:25<1:03:33,  2.02it/s] 28%|██▊       | 2977/10682 [28:25<1:03:33,  2.02it/s] 28%|██▊       | 2978/10682 [28:26<1:03:28,  2.02it/s] 28%|██▊       | 2979/10682 [28:26<1:03:26,  2.02it/s] 28%|██▊       | 2980/10682 [28:27<1:03:24,  2.02it/s] 28%|██▊       | 2981/10682 [28:27<1:03:26,  2.02it/s] 28%|██▊       | 2982/10682 [28:28<1:03:24,  2.02it/s] 28%|██▊       | 2983/10682 [28:28<1:03:23,  2.02it/s] 28%|██▊       | 2984/10682 [28:29<1:03:22,  2.02it/s] 28%|██▊       | 2985/10682 [28:29<1:03:22,  2.02it/s] 28%|██▊       | 2986/10682 [28:30<1:03:22,  2.02it/s] 28%|██▊       | 2987/10682 [28:30<1:03:22,  2.02it/s] 28%|██▊       | 2988/10682 [28:31<1:03:27,  2.02it/s] 28%|██▊       | 2989/10682 [28:31<1:03:23,  2.02it/s] 28%|██▊       | 2990/10682 [28:32<1:03:26,  2.02it/s] 28%|██▊       | 2991/10682 [28:32<1:03:23,  2.02it/s] 28%|██▊       | 2992/10682 [28:33<1:03:21,  2.02it/s] 28%|██▊       | 2993/10682 [28:33<1:03:22,  2.02it/s] 28%|██▊       | 2994/10682 [28:34<1:03:16,  2.03it/s] 28%|██▊       | 2995/10682 [28:34<1:03:18,  2.02it/s] 28%|██▊       | 2996/10682 [28:35<1:03:16,  2.02it/s] 28%|██▊       | 2997/10682 [28:35<1:03:18,  2.02it/s] 28%|██▊       | 2998/10682 [28:36<1:03:20,  2.02it/s] 28%|██▊       | 2999/10682 [28:36<1:03:18,  2.02it/s] 28%|██▊       | 3000/10682 [28:37<1:03:19,  2.02it/s]{'loss': 3.6229, 'grad_norm': 0.24866703152656555, 'learning_rate': 0.0009037001869885992, 'epoch': 3.93}
-                                                       28%|██▊       | 3000/10682 [28:37<1:03:19,  2.02it/s] 28%|██▊       | 3001/10682 [28:37<1:03:20,  2.02it/s] 28%|██▊       | 3002/10682 [28:38<1:03:19,  2.02it/s] 28%|██▊       | 3003/10682 [28:38<1:03:17,  2.02it/s] 28%|██▊       | 3004/10682 [28:39<1:03:13,  2.02it/s] 28%|██▊       | 3005/10682 [28:39<1:03:14,  2.02it/s] 28%|██▊       | 3006/10682 [28:39<1:03:10,  2.03it/s] 28%|██▊       | 3007/10682 [28:40<1:03:13,  2.02it/s] 28%|██▊       | 3008/10682 [28:40<1:03:11,  2.02it/s] 28%|██▊       | 3009/10682 [28:41<1:03:12,  2.02it/s] 28%|██▊       | 3010/10682 [28:41<1:03:08,  2.03it/s] 28%|██▊       | 3011/10682 [28:42<1:03:09,  2.02it/s] 28%|██▊       | 3012/10682 [28:42<1:03:08,  2.02it/s] 28%|██▊       | 3013/10682 [28:43<1:03:11,  2.02it/s] 28%|██▊       | 3014/10682 [28:43<1:03:09,  2.02it/s] 28%|██▊       | 3015/10682 [28:44<1:03:07,  2.02it/s] 28%|██▊       | 3016/10682 [28:44<1:03:04,  2.03it/s] 28%|██▊       | 3017/10682 [28:45<1:03:04,  2.03it/s] 28%|██▊       | 3018/10682 [28:45<1:04:19,  1.99it/s] 28%|██▊       | 3019/10682 [28:46<1:03:55,  2.00it/s] 28%|██▊       | 3020/10682 [28:46<1:03:40,  2.01it/s] 28%|██▊       | 3021/10682 [28:47<1:03:28,  2.01it/s] 28%|██▊       | 3022/10682 [28:47<1:03:20,  2.02it/s] 28%|██▊       | 3023/10682 [28:48<1:03:13,  2.02it/s] 28%|██▊       | 3024/10682 [28:48<1:03:07,  2.02it/s] 28%|██▊       | 3025/10682 [28:49<1:03:08,  2.02it/s]{'loss': 3.6231, 'grad_norm': 0.22562970221042633, 'learning_rate': 0.0009012765247103541, 'epoch': 3.96}                                                      
- 28%|██▊       | 3025/10682 [28:49<1:03:08,  2.02it/s] 28%|██▊       | 3026/10682 [28:49<1:03:09,  2.02it/s] 28%|██▊       | 3027/10682 [28:50<1:03:09,  2.02it/s] 28%|██▊       | 3028/10682 [28:50<1:03:03,  2.02it/s] 28%|██▊       | 3029/10682 [28:51<1:03:04,  2.02it/s] 28%|██▊       | 3030/10682 [28:51<1:03:00,  2.02it/s] 28%|██▊       | 3031/10682 [28:52<1:03:03,  2.02it/s] 28%|██▊       | 3032/10682 [28:52<1:03:02,  2.02it/s] 28%|██▊       | 3033/10682 [28:53<1:03:01,  2.02it/s] 28%|██▊       | 3034/10682 [28:53<1:02:57,  2.02it/s] 28%|██▊       | 3035/10682 [28:54<1:02:57,  2.02it/s] 28%|██▊       | 3036/10682 [28:54<1:02:55,  2.02it/s] 28%|██▊       | 3037/10682 [28:55<1:02:52,  2.03it/s] 28%|██▊       | 3038/10682 [28:55<1:02:56,  2.02it/s] 28%|██▊       | 3039/10682 [28:56<1:02:52,  2.03it/s] 28%|██▊       | 3040/10682 [28:56<1:02:55,  2.02it/s] 28%|██▊       | 3041/10682 [28:57<1:02:50,  2.03it/s] 28%|██▊       | 3042/10682 [28:57<1:02:51,  2.03it/s] 28%|██▊       | 3043/10682 [28:58<1:02:53,  2.02it/s] 28%|██▊       | 3044/10682 [28:58<1:02:55,  2.02it/s] 29%|██▊       | 3045/10682 [28:59<1:02:51,  2.02it/s] 29%|██▊       | 3046/10682 [28:59<1:02:47,  2.03it/s] 29%|██▊       | 3047/10682 [29:00<1:02:51,  2.02it/s] 29%|██▊       | 3048/10682 [29:00<1:02:49,  2.03it/s] 29%|██▊       | 3049/10682 [29:01<1:02:51,  2.02it/s] 29%|██▊       | 3050/10682 [29:01<1:02:47,  2.03it/s]                                                      {'loss': 3.6258, 'grad_norm': 0.21878878772258759, 'learning_rate': 0.000898826076718821, 'epoch': 4.0}
- 29%|██▊       | 3050/10682 [29:01<1:02:47,  2.03it/s] 29%|██▊       | 3051/10682 [29:02<1:02:51,  2.02it/s] 29%|██▊       | 3052/10682 [29:02<1:02:12,  2.04it/s] 29%|██▊       | 3053/10682 [29:32<19:48:41,  9.35s/it] 29%|██▊       | 3054/10682 [29:33<14:10:52,  6.69s/it] 29%|██▊       | 3055/10682 [29:33<10:14:37,  4.84s/it] 29%|██▊       | 3056/10682 [29:34<7:29:19,  3.54s/it]  29%|██▊       | 3057/10682 [29:34<5:33:17,  2.62s/it] 29%|██▊       | 3058/10682 [29:35<4:12:10,  1.98s/it] 29%|██▊       | 3059/10682 [29:35<3:15:18,  1.54s/it] 29%|██▊       | 3060/10682 [29:36<2:35:32,  1.22s/it] 29%|██▊       | 3061/10682 [29:36<2:07:39,  1.01s/it] 29%|██▊       | 3062/10682 [29:37<1:48:15,  1.17it/s] 29%|██▊       | 3063/10682 [29:37<1:34:35,  1.34it/s] 29%|██▊       | 3064/10682 [29:38<1:24:56,  1.49it/s] 29%|██▊       | 3065/10682 [29:38<1:18:15,  1.62it/s] 29%|██▊       | 3066/10682 [29:39<1:13:30,  1.73it/s] 29%|██▊       | 3067/10682 [29:39<1:10:20,  1.80it/s] 29%|██▊       | 3068/10682 [29:40<1:07:58,  1.87it/s] 29%|██▊       | 3069/10682 [29:40<1:06:24,  1.91it/s] 29%|██▊       | 3070/10682 [29:41<1:05:22,  1.94it/s] 29%|██▊       | 3071/10682 [29:41<1:04:29,  1.97it/s] 29%|██▉       | 3072/10682 [29:42<1:03:55,  1.98it/s] 29%|██▉       | 3073/10682 [29:42<1:03:35,  1.99it/s] 29%|██▉       | 3074/10682 [29:43<1:03:20,  2.00it/s] 29%|██▉       | 3075/10682 [29:43<1:03:05,  2.01it/s]                                                      {'loss': 3.485, 'grad_norm': 0.22421066462993622, 'learning_rate': 0.0008963490065844889, 'epoch': 4.03}
- 29%|██▉       | 3075/10682 [29:43<1:03:05,  2.01it/s] 29%|██▉       | 3076/10682 [29:44<1:03:20,  2.00it/s] 29%|██▉       | 3077/10682 [29:44<1:03:07,  2.01it/s] 29%|██▉       | 3078/10682 [29:45<1:03:02,  2.01it/s] 29%|██▉       | 3079/10682 [29:45<1:03:07,  2.01it/s] 29%|██▉       | 3080/10682 [29:46<1:02:54,  2.01it/s] 29%|██▉       | 3081/10682 [29:46<1:02:59,  2.01it/s] 29%|██▉       | 3082/10682 [29:47<1:02:49,  2.02it/s] 29%|██▉       | 3083/10682 [29:47<1:02:49,  2.02it/s] 29%|██▉       | 3084/10682 [29:48<1:02:41,  2.02it/s] 29%|██▉       | 3085/10682 [29:48<1:02:38,  2.02it/s] 29%|██▉       | 3086/10682 [29:49<1:02:32,  2.02it/s] 29%|██▉       | 3087/10682 [29:49<1:02:27,  2.03it/s] 29%|██▉       | 3088/10682 [29:50<1:02:26,  2.03it/s] 29%|██▉       | 3089/10682 [29:50<1:02:22,  2.03it/s] 29%|██▉       | 3090/10682 [29:51<1:02:27,  2.03it/s] 29%|██▉       | 3091/10682 [29:51<1:02:23,  2.03it/s] 29%|██▉       | 3092/10682 [29:52<1:02:20,  2.03it/s] 29%|██▉       | 3093/10682 [29:52<1:02:21,  2.03it/s] 29%|██▉       | 3094/10682 [29:53<1:02:20,  2.03it/s] 29%|██▉       | 3095/10682 [29:53<1:02:21,  2.03it/s] 29%|██▉       | 3096/10682 [29:54<1:02:16,  2.03it/s] 29%|██▉       | 3097/10682 [29:54<1:02:17,  2.03it/s] 29%|██▉       | 3098/10682 [29:55<1:02:17,  2.03it/s] 29%|██▉       | 3099/10682 [29:55<1:02:14,  2.03it/s] 29%|██▉       | 3100/10682 [29:55<1:02:17,  2.03it/s]{'loss': 3.467, 'grad_norm': 0.2317178100347519, 'learning_rate': 0.0008938454796549082, 'epoch': 4.06}                                                      
- 29%|██▉       | 3100/10682 [29:55<1:02:17,  2.03it/s] 29%|██▉       | 3101/10682 [29:56<1:02:18,  2.03it/s] 29%|██▉       | 3102/10682 [29:56<1:02:23,  2.03it/s] 29%|██▉       | 3103/10682 [29:57<1:02:17,  2.03it/s] 29%|██▉       | 3104/10682 [29:57<1:02:21,  2.03it/s] 29%|██▉       | 3105/10682 [29:58<1:02:19,  2.03it/s] 29%|██▉       | 3106/10682 [29:58<1:02:20,  2.03it/s] 29%|██▉       | 3107/10682 [29:59<1:02:20,  2.03it/s] 29%|██▉       | 3108/10682 [29:59<1:02:20,  2.02it/s] 29%|██▉       | 3109/10682 [30:00<1:02:30,  2.02it/s] 29%|██▉       | 3110/10682 [30:00<1:02:25,  2.02it/s] 29%|██▉       | 3111/10682 [30:01<1:02:20,  2.02it/s] 29%|██▉       | 3112/10682 [30:01<1:02:17,  2.03it/s] 29%|██▉       | 3113/10682 [30:02<1:02:18,  2.02it/s] 29%|██▉       | 3114/10682 [30:02<1:02:15,  2.03it/s] 29%|██▉       | 3115/10682 [30:03<1:02:16,  2.03it/s] 29%|██▉       | 3116/10682 [30:03<1:02:14,  2.03it/s] 29%|██▉       | 3117/10682 [30:04<1:02:16,  2.02it/s] 29%|██▉       | 3118/10682 [30:04<1:02:11,  2.03it/s] 29%|██▉       | 3119/10682 [30:05<1:02:13,  2.03it/s] 29%|██▉       | 3120/10682 [30:05<1:02:13,  2.03it/s] 29%|██▉       | 3121/10682 [30:06<1:02:09,  2.03it/s] 29%|██▉       | 3122/10682 [30:06<1:02:11,  2.03it/s] 29%|██▉       | 3123/10682 [30:07<1:02:09,  2.03it/s] 29%|██▉       | 3124/10682 [30:07<1:02:12,  2.02it/s] 29%|██▉       | 3125/10682 [30:08<1:02:10,  2.03it/s]                                                      {'loss': 3.4727, 'grad_norm': 0.24321778118610382, 'learning_rate': 0.000891315663043654, 'epoch': 4.1}
- 29%|██▉       | 3125/10682 [30:08<1:02:10,  2.03it/s] 29%|██▉       | 3126/10682 [30:08<1:02:15,  2.02it/s] 29%|██▉       | 3127/10682 [30:09<1:02:10,  2.03it/s] 29%|██▉       | 3128/10682 [30:09<1:02:12,  2.02it/s] 29%|██▉       | 3129/10682 [30:10<1:02:08,  2.03it/s] 29%|██▉       | 3130/10682 [30:10<1:02:09,  2.02it/s] 29%|██▉       | 3131/10682 [30:11<1:02:07,  2.03it/s] 29%|██▉       | 3132/10682 [30:11<1:02:08,  2.02it/s] 29%|██▉       | 3133/10682 [30:12<1:02:06,  2.03it/s] 29%|██▉       | 3134/10682 [30:12<1:07:39,  1.86it/s] 29%|██▉       | 3135/10682 [30:13<1:05:56,  1.91it/s] 29%|██▉       | 3136/10682 [30:13<1:04:46,  1.94it/s] 29%|██▉       | 3137/10682 [30:14<1:03:57,  1.97it/s] 29%|██▉       | 3138/10682 [30:14<1:03:19,  1.99it/s] 29%|██▉       | 3139/10682 [30:15<1:02:57,  2.00it/s] 29%|██▉       | 3140/10682 [30:15<1:02:39,  2.01it/s] 29%|██▉       | 3141/10682 [30:16<1:02:31,  2.01it/s] 29%|██▉       | 3142/10682 [30:16<1:02:18,  2.02it/s] 29%|██▉       | 3143/10682 [30:17<1:02:13,  2.02it/s] 29%|██▉       | 3144/10682 [30:17<1:02:09,  2.02it/s] 29%|██▉       | 3145/10682 [30:18<1:02:04,  2.02it/s] 29%|██▉       | 3146/10682 [30:18<1:02:03,  2.02it/s] 29%|██▉       | 3147/10682 [30:19<1:01:57,  2.03it/s] 29%|██▉       | 3148/10682 [30:19<1:01:58,  2.03it/s] 29%|██▉       | 3149/10682 [30:20<1:01:57,  2.03it/s] 29%|██▉       | 3150/10682 [30:20<1:01:53,  2.03it/s]{'loss': 3.487, 'grad_norm': 0.2279399186372757, 'learning_rate': 0.0008887597256191701, 'epoch': 4.13}
-                                                       29%|██▉       | 3150/10682 [30:20<1:01:53,  2.03it/s] 29%|██▉       | 3151/10682 [30:21<1:02:01,  2.02it/s] 30%|██▉       | 3152/10682 [30:21<1:01:58,  2.02it/s] 30%|██▉       | 3153/10682 [30:22<1:01:56,  2.03it/s] 30%|██▉       | 3154/10682 [30:22<1:01:54,  2.03it/s] 30%|██▉       | 3155/10682 [30:23<1:01:54,  2.03it/s] 30%|██▉       | 3156/10682 [30:23<1:01:55,  2.03it/s] 30%|██▉       | 3157/10682 [30:24<1:01:55,  2.03it/s] 30%|██▉       | 3158/10682 [30:24<1:01:56,  2.02it/s] 30%|██▉       | 3159/10682 [30:25<1:01:54,  2.03it/s] 30%|██▉       | 3160/10682 [30:25<1:01:54,  2.02it/s] 30%|██▉       | 3161/10682 [30:26<1:01:52,  2.03it/s] 30%|██▉       | 3162/10682 [30:26<1:01:50,  2.03it/s] 30%|██▉       | 3163/10682 [30:27<1:01:50,  2.03it/s] 30%|██▉       | 3164/10682 [30:27<1:01:46,  2.03it/s] 30%|██▉       | 3165/10682 [30:28<1:01:46,  2.03it/s] 30%|██▉       | 3166/10682 [30:28<1:01:46,  2.03it/s] 30%|██▉       | 3167/10682 [30:29<1:01:46,  2.03it/s] 30%|██▉       | 3168/10682 [30:29<1:01:46,  2.03it/s] 30%|██▉       | 3169/10682 [30:30<1:01:43,  2.03it/s] 30%|██▉       | 3170/10682 [30:30<1:01:45,  2.03it/s] 30%|██▉       | 3171/10682 [30:31<1:01:42,  2.03it/s] 30%|██▉       | 3172/10682 [30:31<1:01:48,  2.03it/s] 30%|██▉       | 3173/10682 [30:32<1:01:44,  2.03it/s] 30%|██▉       | 3174/10682 [30:32<1:07:06,  1.86it/s] 30%|██▉       | 3175/10682 [30:33<1:05:29,  1.91it/s]                                                      {'loss': 3.4837, 'grad_norm': 0.24158702790737152, 'learning_rate': 0.0008861778379934982, 'epoch': 4.16}
- 30%|██▉       | 3175/10682 [30:33<1:05:29,  1.91it/s] 30%|██▉       | 3176/10682 [30:33<1:04:28,  1.94it/s] 30%|██▉       | 3177/10682 [30:34<1:03:37,  1.97it/s] 30%|██▉       | 3178/10682 [30:34<1:03:07,  1.98it/s] 30%|██▉       | 3179/10682 [30:35<1:02:39,  2.00it/s] 30%|██▉       | 3180/10682 [30:35<1:02:25,  2.00it/s] 30%|██▉       | 3181/10682 [30:36<1:02:10,  2.01it/s] 30%|██▉       | 3182/10682 [30:36<1:01:59,  2.02it/s] 30%|██▉       | 3183/10682 [30:37<1:01:54,  2.02it/s] 30%|██▉       | 3184/10682 [30:37<1:01:47,  2.02it/s] 30%|██▉       | 3185/10682 [30:38<1:01:49,  2.02it/s] 30%|██▉       | 3186/10682 [30:38<1:01:43,  2.02it/s] 30%|██▉       | 3187/10682 [30:39<1:01:45,  2.02it/s] 30%|██▉       | 3188/10682 [30:39<1:01:38,  2.03it/s] 30%|██▉       | 3189/10682 [30:40<1:01:40,  2.03it/s] 30%|██▉       | 3190/10682 [30:40<1:01:35,  2.03it/s] 30%|██▉       | 3191/10682 [30:41<1:01:33,  2.03it/s] 30%|██▉       | 3192/10682 [30:41<1:01:37,  2.03it/s] 30%|██▉       | 3193/10682 [30:42<1:01:36,  2.03it/s] 30%|██▉       | 3194/10682 [30:42<1:01:36,  2.03it/s] 30%|██▉       | 3195/10682 [30:43<1:01:36,  2.03it/s] 30%|██▉       | 3196/10682 [30:43<1:01:36,  2.03it/s] 30%|██▉       | 3197/10682 [30:44<1:01:34,  2.03it/s] 30%|██▉       | 3198/10682 [30:44<1:01:31,  2.03it/s] 30%|██▉       | 3199/10682 [30:45<1:01:33,  2.03it/s] 30%|██▉       | 3200/10682 [30:45<1:01:35,  2.02it/s]                                                      {'loss': 3.5046, 'grad_norm': 0.24039733409881592, 'learning_rate': 0.000883570172510888, 'epoch': 4.19}
- 30%|██▉       | 3200/10682 [30:45<1:01:35,  2.02it/s] 30%|██▉       | 3201/10682 [30:46<1:02:16,  2.00it/s] 30%|██▉       | 3202/10682 [30:46<1:02:03,  2.01it/s] 30%|██▉       | 3203/10682 [30:47<1:01:52,  2.01it/s] 30%|██▉       | 3204/10682 [30:47<1:01:52,  2.01it/s] 30%|███       | 3205/10682 [30:48<1:01:45,  2.02it/s] 30%|███       | 3206/10682 [30:48<1:01:43,  2.02it/s] 30%|███       | 3207/10682 [30:49<1:01:37,  2.02it/s] 30%|███       | 3208/10682 [30:49<1:01:34,  2.02it/s] 30%|███       | 3209/10682 [30:50<1:01:33,  2.02it/s] 30%|███       | 3210/10682 [30:50<1:01:29,  2.03it/s] 30%|███       | 3211/10682 [30:51<1:01:29,  2.02it/s] 30%|███       | 3212/10682 [30:51<1:01:29,  2.02it/s] 30%|███       | 3213/10682 [30:52<1:01:29,  2.02it/s] 30%|███       | 3214/10682 [30:52<1:01:29,  2.02it/s] 30%|███       | 3215/10682 [30:53<1:01:26,  2.03it/s] 30%|███       | 3216/10682 [30:53<1:01:27,  2.02it/s] 30%|███       | 3217/10682 [30:54<1:01:23,  2.03it/s] 30%|███       | 3218/10682 [30:54<1:01:27,  2.02it/s] 30%|███       | 3219/10682 [30:55<1:01:24,  2.03it/s] 30%|███       | 3220/10682 [30:55<1:01:26,  2.02it/s] 30%|███       | 3221/10682 [30:56<1:01:24,  2.02it/s] 30%|███       | 3222/10682 [30:56<1:01:24,  2.02it/s] 30%|███       | 3223/10682 [30:57<1:01:26,  2.02it/s] 30%|███       | 3224/10682 [30:57<1:01:23,  2.02it/s] 30%|███       | 3225/10682 [30:58<1:01:21,  2.03it/s]                                                      {'loss': 3.4875, 'grad_norm': 0.23907053470611572, 'learning_rate': 0.0008809369032362939, 'epoch': 4.23}
- 30%|███       | 3225/10682 [30:58<1:01:21,  2.03it/s] 30%|███       | 3226/10682 [30:58<1:01:28,  2.02it/s] 30%|███       | 3227/10682 [30:59<1:01:26,  2.02it/s] 30%|███       | 3228/10682 [30:59<1:01:25,  2.02it/s] 30%|███       | 3229/10682 [30:59<1:01:24,  2.02it/s] 30%|███       | 3230/10682 [31:00<1:01:23,  2.02it/s] 30%|███       | 3231/10682 [31:00<1:01:24,  2.02it/s] 30%|███       | 3232/10682 [31:01<1:01:20,  2.02it/s] 30%|███       | 3233/10682 [31:01<1:01:21,  2.02it/s] 30%|███       | 3234/10682 [31:02<1:01:20,  2.02it/s] 30%|███       | 3235/10682 [31:02<1:01:18,  2.02it/s] 30%|███       | 3236/10682 [31:03<1:01:17,  2.02it/s] 30%|███       | 3237/10682 [31:03<1:01:21,  2.02it/s] 30%|███       | 3238/10682 [31:04<1:01:16,  2.02it/s] 30%|███       | 3239/10682 [31:04<1:01:17,  2.02it/s] 30%|███       | 3240/10682 [31:05<1:01:17,  2.02it/s] 30%|███       | 3241/10682 [31:05<1:01:16,  2.02it/s] 30%|███       | 3242/10682 [31:06<1:01:16,  2.02it/s] 30%|███       | 3243/10682 [31:06<1:01:15,  2.02it/s] 30%|███       | 3244/10682 [31:07<1:01:15,  2.02it/s] 30%|███       | 3245/10682 [31:07<1:01:14,  2.02it/s] 30%|███       | 3246/10682 [31:08<1:01:15,  2.02it/s] 30%|███       | 3247/10682 [31:08<1:01:20,  2.02it/s] 30%|███       | 3248/10682 [31:09<1:01:17,  2.02it/s] 30%|███       | 3249/10682 [31:09<1:01:14,  2.02it/s] 30%|███       | 3250/10682 [31:10<1:01:13,  2.02it/s]{'loss': 3.5044, 'grad_norm': 0.2560913860797882, 'learning_rate': 0.0008782782059437559, 'epoch': 4.26}                                                      
- 30%|███       | 3250/10682 [31:10<1:01:13,  2.02it/s] 30%|███       | 3251/10682 [31:10<1:01:26,  2.02it/s] 30%|███       | 3252/10682 [31:11<1:01:18,  2.02it/s] 30%|███       | 3253/10682 [31:11<1:01:15,  2.02it/s] 30%|███       | 3254/10682 [31:12<1:01:12,  2.02it/s] 30%|███       | 3255/10682 [31:12<1:01:12,  2.02it/s] 30%|███       | 3256/10682 [31:13<1:01:09,  2.02it/s] 30%|███       | 3257/10682 [31:13<1:01:06,  2.03it/s] 30%|███       | 3258/10682 [31:14<1:01:06,  2.02it/s] 31%|███       | 3259/10682 [31:14<1:01:04,  2.03it/s] 31%|███       | 3260/10682 [31:15<1:01:06,  2.02it/s] 31%|███       | 3261/10682 [31:15<1:01:04,  2.03it/s] 31%|███       | 3262/10682 [31:16<1:01:06,  2.02it/s] 31%|███       | 3263/10682 [31:16<1:01:03,  2.03it/s] 31%|███       | 3264/10682 [31:17<1:01:03,  2.02it/s] 31%|███       | 3265/10682 [31:17<1:01:03,  2.02it/s] 31%|███       | 3266/10682 [31:18<1:01:00,  2.03it/s] 31%|███       | 3267/10682 [31:18<1:01:02,  2.02it/s] 31%|███       | 3268/10682 [31:19<1:01:00,  2.03it/s] 31%|███       | 3269/10682 [31:19<1:01:01,  2.02it/s] 31%|███       | 3270/10682 [31:20<1:00:58,  2.03it/s] 31%|███       | 3271/10682 [31:20<1:00:54,  2.03it/s] 31%|███       | 3272/10682 [31:21<1:00:57,  2.03it/s] 31%|███       | 3273/10682 [31:21<1:00:54,  2.03it/s] 31%|███       | 3274/10682 [31:22<1:00:57,  2.03it/s] 31%|███       | 3275/10682 [31:22<1:00:54,  2.03it/s]                                                      {'loss': 3.5039, 'grad_norm': 0.23230411112308502, 'learning_rate': 0.0008755942581046657, 'epoch': 4.29}
- 31%|███       | 3275/10682 [31:22<1:00:54,  2.03it/s] 31%|███       | 3276/10682 [31:23<1:01:01,  2.02it/s] 31%|███       | 3277/10682 [31:23<1:00:56,  2.03it/s] 31%|███       | 3278/10682 [31:24<1:01:05,  2.02it/s] 31%|███       | 3279/10682 [31:24<1:00:58,  2.02it/s] 31%|███       | 3280/10682 [31:25<1:00:56,  2.02it/s] 31%|███       | 3281/10682 [31:25<1:00:55,  2.02it/s] 31%|███       | 3282/10682 [31:26<1:00:57,  2.02it/s] 31%|███       | 3283/10682 [31:26<1:00:56,  2.02it/s] 31%|███       | 3284/10682 [31:27<1:00:55,  2.02it/s] 31%|███       | 3285/10682 [31:27<1:00:56,  2.02it/s] 31%|███       | 3286/10682 [31:28<1:00:57,  2.02it/s] 31%|███       | 3287/10682 [31:28<1:00:55,  2.02it/s] 31%|███       | 3288/10682 [31:29<1:00:51,  2.02it/s] 31%|███       | 3289/10682 [31:29<1:00:49,  2.03it/s] 31%|███       | 3290/10682 [31:30<1:00:50,  2.02it/s] 31%|███       | 3291/10682 [31:30<1:00:46,  2.03it/s] 31%|███       | 3292/10682 [31:31<1:00:47,  2.03it/s] 31%|███       | 3293/10682 [31:31<1:00:46,  2.03it/s] 31%|███       | 3294/10682 [31:32<1:00:50,  2.02it/s] 31%|███       | 3295/10682 [31:32<1:00:47,  2.03it/s] 31%|███       | 3296/10682 [31:33<1:00:45,  2.03it/s] 31%|███       | 3297/10682 [31:33<1:00:44,  2.03it/s] 31%|███       | 3298/10682 [31:34<1:00:39,  2.03it/s] 31%|███       | 3299/10682 [31:34<1:00:42,  2.03it/s] 31%|███       | 3300/10682 [31:35<1:00:40,  2.03it/s]{'loss': 3.5205, 'grad_norm': 0.22353097796440125, 'learning_rate': 0.0008728852388759212, 'epoch': 4.33}                                                      
- 31%|███       | 3300/10682 [31:35<1:00:40,  2.03it/s] 31%|███       | 3301/10682 [31:35<1:00:45,  2.02it/s] 31%|███       | 3302/10682 [31:36<1:00:42,  2.03it/s] 31%|███       | 3303/10682 [31:36<1:00:43,  2.03it/s] 31%|███       | 3304/10682 [31:37<1:00:42,  2.03it/s] 31%|███       | 3305/10682 [31:37<1:00:42,  2.03it/s] 31%|███       | 3306/10682 [31:38<1:00:40,  2.03it/s] 31%|███       | 3307/10682 [31:38<1:00:42,  2.02it/s] 31%|███       | 3308/10682 [31:39<1:00:42,  2.02it/s] 31%|███       | 3309/10682 [31:39<1:00:39,  2.03it/s] 31%|███       | 3310/10682 [31:40<1:00:40,  2.02it/s] 31%|███       | 3311/10682 [31:40<1:00:41,  2.02it/s] 31%|███       | 3312/10682 [31:40<1:00:43,  2.02it/s] 31%|███       | 3313/10682 [31:41<1:00:39,  2.02it/s] 31%|███       | 3314/10682 [31:41<1:00:40,  2.02it/s] 31%|███       | 3315/10682 [31:42<1:00:38,  2.02it/s] 31%|███       | 3316/10682 [31:42<1:00:37,  2.02it/s] 31%|███       | 3317/10682 [31:43<1:00:36,  2.03it/s] 31%|��██       | 3318/10682 [31:43<1:00:38,  2.02it/s] 31%|███       | 3319/10682 [31:44<1:00:37,  2.02it/s] 31%|███       | 3320/10682 [31:44<1:00:36,  2.02it/s] 31%|███       | 3321/10682 [31:45<1:00:38,  2.02it/s] 31%|███       | 3322/10682 [31:45<1:01:23,  2.00it/s] 31%|███       | 3323/10682 [31:46<1:01:09,  2.01it/s] 31%|███       | 3324/10682 [31:46<1:00:56,  2.01it/s] 31%|███       | 3325/10682 [31:47<1:00:50,  2.02it/s]                                                      {'loss': 3.5018, 'grad_norm': 0.23131251335144043, 'learning_rate': 0.0008701513290879668, 'epoch': 4.36}
- 31%|███       | 3325/10682 [31:47<1:00:50,  2.02it/s] 31%|███       | 3326/10682 [31:47<1:00:48,  2.02it/s] 31%|███       | 3327/10682 [31:48<1:00:44,  2.02it/s] 31%|███       | 3328/10682 [31:48<1:00:40,  2.02it/s] 31%|███       | 3329/10682 [31:49<1:00:39,  2.02it/s] 31%|███       | 3330/10682 [31:49<1:00:36,  2.02it/s] 31%|███       | 3331/10682 [31:50<1:00:34,  2.02it/s] 31%|███       | 3332/10682 [31:50<1:00:34,  2.02it/s] 31%|███       | 3333/10682 [31:51<1:00:29,  2.02it/s] 31%|███       | 3334/10682 [31:51<1:00:31,  2.02it/s] 31%|███       | 3335/10682 [31:52<1:00:27,  2.03it/s] 31%|███       | 3336/10682 [31:52<1:00:27,  2.03it/s] 31%|███       | 3337/10682 [31:53<1:00:25,  2.03it/s] 31%|███       | 3338/10682 [31:53<1:00:22,  2.03it/s] 31%|███▏      | 3339/10682 [31:54<1:00:27,  2.02it/s] 31%|███▏      | 3340/10682 [31:54<1:00:23,  2.03it/s] 31%|███▏      | 3341/10682 [31:55<1:00:26,  2.02it/s] 31%|███▏      | 3342/10682 [31:55<1:00:27,  2.02it/s] 31%|███▏      | 3343/10682 [31:56<1:00:26,  2.02it/s] 31%|███▏      | 3344/10682 [31:56<1:00:26,  2.02it/s] 31%|███▏      | 3345/10682 [31:57<1:00:27,  2.02it/s] 31%|███▏      | 3346/10682 [31:57<1:00:28,  2.02it/s] 31%|███▏      | 3347/10682 [31:58<1:00:28,  2.02it/s] 31%|███▏      | 3348/10682 [31:58<1:00:34,  2.02it/s] 31%|███▏      | 3349/10682 [31:59<1:00:29,  2.02it/s] 31%|███▏      | 3350/10682 [31:59<1:00:23,  2.02it/s]{'loss': 3.506, 'grad_norm': 0.2534743547439575, 'learning_rate': 0.0008673927112327234, 'epoch': 4.39}
-                                                       31%|███▏      | 3350/10682 [31:59<1:00:23,  2.02it/s] 31%|███▏      | 3351/10682 [32:00<1:00:27,  2.02it/s] 31%|███▏      | 3352/10682 [32:00<1:00:23,  2.02it/s] 31%|███▏      | 3353/10682 [32:01<1:00:26,  2.02it/s] 31%|███▏      | 3354/10682 [32:01<1:00:21,  2.02it/s] 31%|███▏      | 3355/10682 [32:02<1:00:23,  2.02it/s] 31%|███▏      | 3356/10682 [32:02<1:00:19,  2.02it/s] 31%|███▏      | 3357/10682 [32:03<1:00:18,  2.02it/s] 31%|███▏      | 3358/10682 [32:03<1:00:17,  2.02it/s] 31%|███▏      | 3359/10682 [32:04<1:00:21,  2.02it/s] 31%|███▏      | 3360/10682 [32:04<1:00:16,  2.02it/s] 31%|███▏      | 3361/10682 [32:05<1:00:14,  2.03it/s] 31%|███▏      | 3362/10682 [32:05<1:00:12,  2.03it/s] 31%|███▏      | 3363/10682 [32:06<1:00:08,  2.03it/s] 31%|███▏      | 3364/10682 [32:06<1:00:11,  2.03it/s] 32%|███▏      | 3365/10682 [32:07<1:00:09,  2.03it/s] 32%|███▏      | 3366/10682 [32:07<1:00:12,  2.02it/s] 32%|███▏      | 3367/10682 [32:08<1:00:09,  2.03it/s] 32%|███▏      | 3368/10682 [32:08<1:00:11,  2.03it/s] 32%|███▏      | 3369/10682 [32:09<1:00:08,  2.03it/s] 32%|███▏      | 3370/10682 [32:09<1:00:09,  2.03it/s] 32%|███▏      | 3371/10682 [32:10<1:00:09,  2.03it/s] 32%|███▏      | 3372/10682 [32:10<1:00:05,  2.03it/s] 32%|███▏      | 3373/10682 [32:11<1:00:08,  2.03it/s] 32%|███▏      | 3374/10682 [32:11<1:00:04,  2.03it/s] 32%|███▏      | 3375/10682 [32:12<1:00:09,  2.02it/s]{'loss': 3.5113, 'grad_norm': 0.22725190222263336, 'learning_rate': 0.000864609569451406, 'epoch': 4.42}                                                      
- 32%|███▏      | 3375/10682 [32:12<1:00:09,  2.02it/s] 32%|███▏      | 3376/10682 [32:12<1:00:10,  2.02it/s] 32%|███▏      | 3377/10682 [32:13<1:00:11,  2.02it/s] 32%|███▏      | 3378/10682 [32:13<1:00:07,  2.02it/s] 32%|███▏      | 3379/10682 [32:14<1:00:08,  2.02it/s] 32%|███▏      | 3380/10682 [32:14<1:00:05,  2.03it/s] 32%|███▏      | 3381/10682 [32:15<1:00:07,  2.02it/s] 32%|███▏      | 3382/10682 [32:15<1:00:04,  2.03it/s] 32%|███▏      | 3383/10682 [32:16<1:00:09,  2.02it/s] 32%|███▏      | 3384/10682 [32:16<1:00:05,  2.02it/s] 32%|███▏      | 3385/10682 [32:17<1:00:06,  2.02it/s] 32%|███▏      | 3386/10682 [32:17<1:00:03,  2.02it/s] 32%|███▏      | 3387/10682 [32:18<1:00:12,  2.02it/s] 32%|███▏      | 3388/10682 [32:18<1:00:06,  2.02it/s] 32%|███▏      | 3389/10682 [32:19<1:00:08,  2.02it/s] 32%|███▏      | 3390/10682 [32:19<1:00:05,  2.02it/s] 32%|███▏      | 3391/10682 [32:20<1:00:03,  2.02it/s] 32%|███▏      | 3392/10682 [32:20<1:00:03,  2.02it/s] 32%|███▏      | 3393/10682 [32:21<1:00:01,  2.02it/s] 32%|███▏      | 3394/10682 [32:21<1:00:00,  2.02it/s] 32%|███▏      | 3395/10682 [32:22<59:56,  2.03it/s]   32%|███▏      | 3396/10682 [32:22<1:00:00,  2.02it/s] 32%|███▏      | 3397/10682 [32:23<59:59,  2.02it/s]   32%|███▏      | 3398/10682 [32:23<1:00:00,  2.02it/s] 32%|███▏      | 3399/10682 [32:24<59:59,  2.02it/s]   32%|███▏      | 3400/10682 [32:24<59:59,  2.02it/s]                                                    {'loss': 3.5151, 'grad_norm': 0.2368021011352539, 'learning_rate': 0.0008618020895222331, 'epoch': 4.46}
- 32%|███▏      | 3400/10682 [32:24<59:59,  2.02it/s] 32%|███▏      | 3401/10682 [32:24<1:00:02,  2.02it/s] 32%|███▏      | 3402/10682 [32:25<1:00:01,  2.02it/s] 32%|███▏      | 3403/10682 [32:25<59:59,  2.02it/s]   32%|███▏      | 3404/10682 [32:26<1:00:02,  2.02it/s] 32%|███▏      | 3405/10682 [32:26<59:59,  2.02it/s]   32%|███▏      | 3406/10682 [32:27<59:59,  2.02it/s] 32%|███▏      | 3407/10682 [32:27<59:58,  2.02it/s] 32%|███▏      | 3408/10682 [32:28<59:57,  2.02it/s] 32%|███▏      | 3409/10682 [32:28<59:56,  2.02it/s] 32%|███▏      | 3410/10682 [32:29<59:56,  2.02it/s] 32%|███▏      | 3411/10682 [32:29<59:55,  2.02it/s] 32%|███▏      | 3412/10682 [32:30<59:56,  2.02it/s] 32%|███▏      | 3413/10682 [32:30<59:54,  2.02it/s] 32%|███▏      | 3414/10682 [32:31<59:53,  2.02it/s] 32%|███▏      | 3415/10682 [32:31<59:55,  2.02it/s] 32%|███▏      | 3416/10682 [32:32<59:52,  2.02it/s] 32%|███▏      | 3417/10682 [32:32<59:52,  2.02it/s] 32%|███▏      | 3418/10682 [32:33<59:53,  2.02it/s] 32%|███▏      | 3419/10682 [32:33<59:53,  2.02it/s] 32%|███▏      | 3420/10682 [32:34<59:48,  2.02it/s] 32%|███▏      | 3421/10682 [32:34<59:48,  2.02it/s] 32%|███▏      | 3422/10682 [32:35<59:44,  2.03it/s] 32%|███▏      | 3423/10682 [32:35<59:46,  2.02it/s] 32%|███▏      | 3424/10682 [32:36<59:44,  2.02it/s] 32%|███▏      | 3425/10682 [32:36<59:46,  2.02it/s]                                                    {'loss': 3.5091, 'grad_norm': 0.23902443051338196, 'learning_rate': 0.0008589704588480251, 'epoch': 4.49}
- 32%|███▏      | 3425/10682 [32:36<59:46,  2.02it/s] 32%|███▏      | 3426/10682 [32:37<59:47,  2.02it/s] 32%|███▏      | 3427/10682 [32:37<59:47,  2.02it/s] 32%|███▏      | 3428/10682 [32:38<59:45,  2.02it/s] 32%|███▏      | 3429/10682 [32:38<59:43,  2.02it/s] 32%|███▏      | 3430/10682 [32:39<59:42,  2.02it/s] 32%|███▏      | 3431/10682 [32:39<59:41,  2.02it/s] 32%|███▏      | 3432/10682 [32:40<59:40,  2.02it/s] 32%|███▏      | 3433/10682 [32:40<59:43,  2.02it/s] 32%|███▏      | 3434/10682 [32:41<59:42,  2.02it/s] 32%|███▏      | 3435/10682 [32:41<59:42,  2.02it/s] 32%|███▏      | 3436/10682 [32:42<59:38,  2.02it/s] 32%|███▏      | 3437/10682 [32:42<59:39,  2.02it/s] 32%|███▏      | 3438/10682 [32:43<59:36,  2.03it/s] 32%|███▏      | 3439/10682 [32:43<59:36,  2.03it/s] 32%|███▏      | 3440/10682 [32:44<59:33,  2.03it/s] 32%|███▏      | 3441/10682 [32:44<59:36,  2.02it/s] 32%|███▏      | 3442/10682 [32:45<59:33,  2.03it/s] 32%|███▏      | 3443/10682 [32:45<59:35,  2.02it/s] 32%|███▏      | 3444/10682 [32:46<59:33,  2.03it/s] 32%|███▏      | 3445/10682 [32:46<59:35,  2.02it/s] 32%|███▏      | 3446/10682 [32:47<59:33,  2.03it/s] 32%|███▏      | 3447/10682 [32:47<59:28,  2.03it/s] 32%|███▏      | 3448/10682 [32:48<59:32,  2.02it/s] 32%|███▏      | 3449/10682 [32:48<59:28,  2.03it/s] 32%|███▏      | 3450/10682 [32:49<59:30,  2.03it/s]                                                    {'loss': 3.5256, 'grad_norm': 0.23666243255138397, 'learning_rate': 0.0008561148664436948, 'epoch': 4.52}
- 32%|███▏      | 3450/10682 [32:49<59:30,  2.03it/s] 32%|███▏      | 3451/10682 [32:49<59:28,  2.03it/s] 32%|███▏      | 3452/10682 [32:50<59:32,  2.02it/s] 32%|███▏      | 3453/10682 [32:50<59:30,  2.02it/s] 32%|███▏      | 3454/10682 [32:51<59:30,  2.02it/s] 32%|███▏      | 3455/10682 [32:51<59:28,  2.03it/s] 32%|███▏      | 3456/10682 [32:52<59:26,  2.03it/s] 32%|███▏      | 3457/10682 [32:52<59:29,  2.02it/s] 32%|███▏      | 3458/10682 [32:53<59:29,  2.02it/s] 32%|███▏      | 3459/10682 [32:53<59:30,  2.02it/s] 32%|███▏      | 3460/10682 [32:54<59:27,  2.02it/s] 32%|███▏      | 3461/10682 [32:54<59:29,  2.02it/s] 32%|███▏      | 3462/10682 [32:55<59:24,  2.03it/s] 32%|███▏      | 3463/10682 [32:55<59:25,  2.02it/s] 32%|███▏      | 3464/10682 [32:56<59:22,  2.03it/s] 32%|███▏      | 3465/10682 [32:56<59:22,  2.03it/s] 32%|███▏      | 3466/10682 [32:57<59:20,  2.03it/s] 32%|███▏      | 3467/10682 [32:57<59:22,  2.03it/s] 32%|███▏      | 3468/10682 [32:58<59:22,  2.02it/s] 32%|███▏      | 3469/10682 [32:58<59:19,  2.03it/s] 32%|███▏      | 3470/10682 [32:59<59:22,  2.02it/s] 32%|███▏      | 3471/10682 [32:59<59:19,  2.03it/s] 33%|███▎      | 3472/10682 [33:00<59:20,  2.02it/s] 33%|███▎      | 3473/10682 [33:00<59:18,  2.03it/s] 33%|███▎      | 3474/10682 [33:01<59:18,  2.03it/s] 33%|███▎      | 3475/10682 [33:01<59:19,  2.02it/s]                                                    {'loss': 3.5135, 'grad_norm': 0.2238636016845703, 'learning_rate': 0.0008532355029236307, 'epoch': 4.55}
- 33%|███▎      | 3475/10682 [33:01<59:19,  2.02it/s] 33%|███▎      | 3476/10682 [33:02<59:24,  2.02it/s] 33%|███▎      | 3477/10682 [33:02<59:26,  2.02it/s] 33%|███▎      | 3478/10682 [33:03<59:24,  2.02it/s] 33%|███▎      | 3479/10682 [33:03<59:24,  2.02it/s] 33%|███▎      | 3480/10682 [33:04<59:21,  2.02it/s] 33%|███▎      | 3481/10682 [33:04<59:21,  2.02it/s] 33%|███▎      | 3482/10682 [33:05<59:20,  2.02it/s] 33%|███▎      | 3483/10682 [33:05<59:15,  2.02it/s] 33%|███▎      | 3484/10682 [33:06<59:18,  2.02it/s] 33%|███▎      | 3485/10682 [33:06<59:10,  2.03it/s] 33%|███▎      | 3486/10682 [33:06<59:09,  2.03it/s] 33%|███▎      | 3487/10682 [33:07<59:11,  2.03it/s] 33%|███▎      | 3488/10682 [33:07<59:09,  2.03it/s] 33%|███▎      | 3489/10682 [33:08<59:16,  2.02it/s] 33%|███▎      | 3490/10682 [33:08<59:10,  2.03it/s] 33%|███▎      | 3491/10682 [33:09<59:13,  2.02it/s] 33%|███▎      | 3492/10682 [33:09<59:11,  2.02it/s] 33%|███▎      | 3493/10682 [33:10<59:10,  2.02it/s] 33%|███▎      | 3494/10682 [33:10<59:08,  2.03it/s] 33%|███▎      | 3495/10682 [33:11<59:07,  2.03it/s] 33%|███▎      | 3496/10682 [33:11<59:07,  2.03it/s] 33%|███▎      | 3497/10682 [33:12<59:07,  2.03it/s] 33%|███▎      | 3498/10682 [33:12<59:08,  2.02it/s] 33%|███▎      | 3499/10682 [33:13<59:08,  2.02it/s] 33%|███▎      | 3500/10682 [33:13<59:09,  2.02it/s]{'loss': 3.5073, 'grad_norm': 0.23186755180358887, 'learning_rate': 0.0008503325604889736, 'epoch': 4.59}                                                    
- 33%|███▎      | 3500/10682 [33:13<59:09,  2.02it/s] 33%|███▎      | 3501/10682 [33:14<59:12,  2.02it/s] 33%|███▎      | 3502/10682 [33:14<59:10,  2.02it/s] 33%|███▎      | 3503/10682 [33:15<59:12,  2.02it/s] 33%|███▎      | 3504/10682 [33:15<59:09,  2.02it/s] 33%|███▎      | 3505/10682 [33:16<59:08,  2.02it/s] 33%|███▎      | 3506/10682 [33:16<59:07,  2.02it/s] 33%|███▎      | 3507/10682 [33:17<59:06,  2.02it/s] 33%|███▎      | 3508/10682 [33:17<59:05,  2.02it/s] 33%|███▎      | 3509/10682 [33:18<59:03,  2.02it/s] 33%|███▎      | 3510/10682 [33:18<59:03,  2.02it/s] 33%|███▎      | 3511/10682 [33:19<59:03,  2.02it/s] 33%|███▎      | 3512/10682 [33:19<59:04,  2.02it/s] 33%|███▎      | 3513/10682 [33:20<59:05,  2.02it/s] 33%|███▎      | 3514/10682 [33:20<59:06,  2.02it/s] 33%|███▎      | 3515/10682 [33:21<59:06,  2.02it/s] 33%|███▎      | 3516/10682 [33:21<59:07,  2.02it/s] 33%|███▎      | 3517/10682 [33:22<59:03,  2.02it/s] 33%|███▎      | 3518/10682 [33:22<59:03,  2.02it/s] 33%|███▎      | 3519/10682 [33:23<59:02,  2.02it/s] 33%|███▎      | 3520/10682 [33:23<59:03,  2.02it/s] 33%|███▎      | 3521/10682 [33:24<58:59,  2.02it/s] 33%|███▎      | 3522/10682 [33:24<59:01,  2.02it/s] 33%|███▎      | 3523/10682 [33:25<58:59,  2.02it/s] 33%|███▎      | 3524/10682 [33:25<59:03,  2.02it/s] 33%|███▎      | 3525/10682 [33:26<59:02,  2.02it/s]                                                    {'loss': 3.5215, 'grad_norm': 0.22576630115509033, 'learning_rate': 0.0008474062329147856, 'epoch': 4.62}
- 33%|███▎      | 3525/10682 [33:26<59:02,  2.02it/s] 33%|███▎      | 3526/10682 [33:26<59:04,  2.02it/s] 33%|███▎      | 3527/10682 [33:27<59:03,  2.02it/s] 33%|███▎      | 3528/10682 [33:27<59:01,  2.02it/s] 33%|███▎      | 3529/10682 [33:28<58:57,  2.02it/s] 33%|███▎      | 3530/10682 [33:28<58:54,  2.02it/s] 33%|███▎      | 3531/10682 [33:29<58:53,  2.02it/s] 33%|███▎      | 3532/10682 [33:29<58:54,  2.02it/s] 33%|███▎      | 3533/10682 [33:30<58:49,  2.03it/s] 33%|███▎      | 3534/10682 [33:30<58:51,  2.02it/s] 33%|███▎      | 3535/10682 [33:31<58:50,  2.02it/s] 33%|███▎      | 3536/10682 [33:31<58:50,  2.02it/s] 33%|███▎      | 3537/10682 [33:32<58:49,  2.02it/s] 33%|███▎      | 3538/10682 [33:32<58:51,  2.02it/s] 33%|███▎      | 3539/10682 [33:33<58:51,  2.02it/s] 33%|███▎      | 3540/10682 [33:33<58:52,  2.02it/s] 33%|███▎      | 3541/10682 [33:34<58:52,  2.02it/s] 33%|███▎      | 3542/10682 [33:34<58:51,  2.02it/s] 33%|███▎      | 3543/10682 [33:35<58:50,  2.02it/s] 33%|███▎      | 3544/10682 [33:35<58:51,  2.02it/s] 33%|███▎      | 3545/10682 [33:36<58:50,  2.02it/s] 33%|███▎      | 3546/10682 [33:36<58:46,  2.02it/s] 33%|███▎      | 3547/10682 [33:37<58:47,  2.02it/s] 33%|███▎      | 3548/10682 [33:37<58:44,  2.02it/s] 33%|███▎      | 3549/10682 [33:38<58:46,  2.02it/s] 33%|███▎      | 3550/10682 [33:38<58:40,  2.03it/s]{'loss': 3.5109, 'grad_norm': 0.22624190151691437, 'learning_rate': 0.0008444567155371176, 'epoch': 4.65}                                                    
- 33%|███▎      | 3550/10682 [33:38<58:40,  2.03it/s] 33%|███▎      | 3551/10682 [33:39<58:45,  2.02it/s] 33%|███▎      | 3552/10682 [33:39<58:42,  2.02it/s] 33%|███▎      | 3553/10682 [33:40<58:45,  2.02it/s] 33%|███▎      | 3554/10682 [33:40<58:40,  2.02it/s] 33%|███▎      | 3555/10682 [33:41<58:45,  2.02it/s] 33%|███▎      | 3556/10682 [33:41<58:41,  2.02it/s] 33%|███▎      | 3557/10682 [33:42<58:41,  2.02it/s] 33%|███▎      | 3558/10682 [33:42<58:40,  2.02it/s] 33%|███▎      | 3559/10682 [33:43<58:48,  2.02it/s] 33%|███▎      | 3560/10682 [33:43<58:42,  2.02it/s] 33%|███▎      | 3561/10682 [33:44<58:43,  2.02it/s] 33%|███▎      | 3562/10682 [33:44<58:40,  2.02it/s] 33%|███▎      | 3563/10682 [33:45<58:40,  2.02it/s] 33%|███▎      | 3564/10682 [33:45<58:38,  2.02it/s] 33%|███▎      | 3565/10682 [33:46<58:37,  2.02it/s] 33%|███▎      | 3566/10682 [33:46<58:38,  2.02it/s] 33%|███▎      | 3567/10682 [33:47<58:39,  2.02it/s] 33%|███▎      | 3568/10682 [33:47<58:40,  2.02it/s] 33%|███▎      | 3569/10682 [33:48<58:38,  2.02it/s] 33%|███▎      | 3570/10682 [33:48<58:39,  2.02it/s] 33%|███▎      | 3571/10682 [33:49<58:35,  2.02it/s] 33%|███▎      | 3572/10682 [33:49<58:35,  2.02it/s] 33%|███▎      | 3573/10682 [33:49<58:34,  2.02it/s] 33%|███▎      | 3574/10682 [33:50<58:34,  2.02it/s] 33%|███▎      | 3575/10682 [33:50<58:33,  2.02it/s]{'loss': 3.5113, 'grad_norm': 0.22286570072174072, 'learning_rate': 0.000841484205239968, 'epoch': 4.69}                                                    
- 33%|███▎      | 3575/10682 [33:50<58:33,  2.02it/s] 33%|███▎      | 3576/10682 [33:51<58:37,  2.02it/s] 33%|███▎      | 3577/10682 [33:51<58:32,  2.02it/s] 33%|███▎      | 3578/10682 [33:52<58:34,  2.02it/s] 34%|███▎      | 3579/10682 [33:52<58:31,  2.02it/s] 34%|███▎      | 3580/10682 [33:53<58:32,  2.02it/s] 34%|███▎      | 3581/10682 [33:53<58:29,  2.02it/s] 34%|███▎      | 3582/10682 [33:54<58:32,  2.02it/s] 34%|███▎      | 3583/10682 [33:54<58:26,  2.02it/s] 34%|███▎      | 3584/10682 [33:55<58:27,  2.02it/s] 34%|███▎      | 3585/10682 [33:55<58:24,  2.03it/s] 34%|███▎      | 3586/10682 [33:56<58:22,  2.03it/s] 34%|███▎      | 3587/10682 [33:56<58:21,  2.03it/s] 34%|███▎      | 3588/10682 [33:57<58:18,  2.03it/s] 34%|███▎      | 3589/10682 [33:57<58:23,  2.02it/s] 34%|███▎      | 3590/10682 [33:58<58:20,  2.03it/s] 34%|███▎      | 3591/10682 [33:58<58:23,  2.02it/s] 34%|███▎      | 3592/10682 [33:59<58:20,  2.03it/s] 34%|███▎      | 3593/10682 [33:59<58:20,  2.03it/s] 34%|███▎      | 3594/10682 [34:00<58:19,  2.03it/s] 34%|███▎      | 3595/10682 [34:00<58:18,  2.03it/s] 34%|███▎      | 3596/10682 [34:01<58:18,  2.03it/s] 34%|███▎      | 3597/10682 [34:01<58:14,  2.03it/s] 34%|███▎      | 3598/10682 [34:02<58:18,  2.02it/s] 34%|███▎      | 3599/10682 [34:02<58:15,  2.03it/s] 34%|███▎      | 3600/10682 [34:03<58:16,  2.03it/s]                                                    {'loss': 3.5137, 'grad_norm': 0.22929444909095764, 'learning_rate': 0.0008384889004421422, 'epoch': 4.72}
- 34%|███▎      | 3600/10682 [34:03<58:16,  2.03it/s] 34%|███▎      | 3601/10682 [34:03<58:19,  2.02it/s] 34%|███▎      | 3602/10682 [34:04<58:16,  2.02it/s] 34%|███▎      | 3603/10682 [34:04<58:17,  2.02it/s] 34%|███▎      | 3604/10682 [34:05<58:15,  2.03it/s] 34%|███▎      | 3605/10682 [34:05<58:16,  2.02it/s] 34%|███▍      | 3606/10682 [34:06<58:15,  2.02it/s] 34%|███▍      | 3607/10682 [34:06<58:17,  2.02it/s] 34%|███▍      | 3608/10682 [34:07<58:19,  2.02it/s] 34%|███▍      | 3609/10682 [34:07<58:18,  2.02it/s] 34%|███▍      | 3610/10682 [34:08<58:18,  2.02it/s] 34%|███▍      | 3611/10682 [34:08<58:12,  2.02it/s] 34%|███▍      | 3612/10682 [34:09<58:14,  2.02it/s] 34%|███▍      | 3613/10682 [34:09<58:11,  2.02it/s] 34%|███▍      | 3614/10682 [34:10<58:10,  2.02it/s] 34%|███▍      | 3615/10682 [34:10<58:10,  2.02it/s] 34%|███▍      | 3616/10682 [34:11<58:07,  2.03it/s] 34%|███▍      | 3617/10682 [34:11<58:12,  2.02it/s] 34%|███▍      | 3618/10682 [34:12<58:07,  2.03it/s] 34%|███▍      | 3619/10682 [34:12<58:08,  2.02it/s] 34%|███▍      | 3620/10682 [34:13<58:08,  2.02it/s] 34%|███▍      | 3621/10682 [34:13<58:05,  2.03it/s] 34%|███▍      | 3622/10682 [34:14<58:07,  2.02it/s] 34%|███▍      | 3623/10682 [34:14<58:08,  2.02it/s] 34%|███▍      | 3624/10682 [34:15<58:11,  2.02it/s] 34%|███▍      | 3625/10682 [34:15<58:11,  2.02it/s]                                                    {'loss': 3.5047, 'grad_norm': 0.21690283715724945, 'learning_rate': 0.0008354710010840066, 'epoch': 4.75}
- 34%|███▍      | 3625/10682 [34:15<58:11,  2.02it/s] 34%|███▍      | 3626/10682 [34:16<58:20,  2.02it/s] 34%|███▍      | 3627/10682 [34:16<58:15,  2.02it/s] 34%|███▍      | 3628/10682 [34:17<58:10,  2.02it/s] 34%|███▍      | 3629/10682 [34:17<58:07,  2.02it/s] 34%|███▍      | 3630/10682 [34:18<58:05,  2.02it/s] 34%|███▍      | 3631/10682 [34:18<58:04,  2.02it/s] 34%|███▍      | 3632/10682 [34:19<58:03,  2.02it/s] 34%|███▍      | 3633/10682 [34:19<58:02,  2.02it/s] 34%|███▍      | 3634/10682 [34:20<58:05,  2.02it/s] 34%|███▍      | 3635/10682 [34:20<58:04,  2.02it/s] 34%|███▍      | 3636/10682 [34:21<58:02,  2.02it/s] 34%|███▍      | 3637/10682 [34:21<58:00,  2.02it/s] 34%|███▍      | 3638/10682 [34:22<57:59,  2.02it/s] 34%|███▍      | 3639/10682 [34:22<57:56,  2.03it/s] 34%|███▍      | 3640/10682 [34:23<57:56,  2.03it/s] 34%|███▍      | 3641/10682 [34:23<57:55,  2.03it/s] 34%|███▍      | 3642/10682 [34:24<57:56,  2.03it/s] 34%|███▍      | 3643/10682 [34:24<57:55,  2.03it/s] 34%|███▍      | 3644/10682 [34:25<57:54,  2.03it/s] 34%|███▍      | 3645/10682 [34:25<57:55,  2.02it/s] 34%|███▍      | 3646/10682 [34:26<57:53,  2.03it/s] 34%|███▍      | 3647/10682 [34:26<57:52,  2.03it/s] 34%|███▍      | 3648/10682 [34:27<57:53,  2.03it/s] 34%|███▍      | 3649/10682 [34:27<57:54,  2.02it/s] 34%|███▍      | 3650/10682 [34:28<57:53,  2.02it/s]                                                    {'loss': 3.5088, 'grad_norm': 0.2236255258321762, 'learning_rate': 0.0008324307086141438, 'epoch': 4.78}
- 34%|███▍      | 3650/10682 [34:28<57:53,  2.02it/s] 34%|███▍      | 3651/10682 [34:28<58:00,  2.02it/s] 34%|███▍      | 3652/10682 [34:29<57:58,  2.02it/s] 34%|███▍      | 3653/10682 [34:29<57:56,  2.02it/s] 34%|███▍      | 3654/10682 [34:30<57:56,  2.02it/s] 34%|███▍      | 3655/10682 [34:30<57:56,  2.02it/s] 34%|███▍      | 3656/10682 [34:31<57:52,  2.02it/s] 34%|███▍      | 3657/10682 [34:31<57:53,  2.02it/s] 34%|███▍      | 3658/10682 [34:31<57:52,  2.02it/s] 34%|███▍      | 3659/10682 [34:32<57:52,  2.02it/s] 34%|███▍      | 3660/10682 [34:32<57:49,  2.02it/s] 34%|███▍      | 3661/10682 [34:33<57:48,  2.02it/s] 34%|███▍      | 3662/10682 [34:33<57:47,  2.02it/s] 34%|███▍      | 3663/10682 [34:34<57:46,  2.02it/s] 34%|███▍      | 3664/10682 [34:34<57:43,  2.03it/s] 34%|███▍      | 3665/10682 [34:35<57:42,  2.03it/s] 34%|███▍      | 3666/10682 [34:35<57:42,  2.03it/s] 34%|███▍      | 3667/10682 [34:36<57:36,  2.03it/s] 34%|███▍      | 3668/10682 [34:36<57:38,  2.03it/s] 34%|███▍      | 3669/10682 [34:37<57:37,  2.03it/s] 34%|███▍      | 3670/10682 [34:37<57:39,  2.03it/s] 34%|███▍      | 3671/10682 [34:38<57:37,  2.03it/s] 34%|███▍      | 3672/10682 [34:38<57:36,  2.03it/s] 34%|███▍      | 3673/10682 [34:39<57:40,  2.03it/s] 34%|███▍      | 3674/10682 [34:39<57:35,  2.03it/s] 34%|███▍      | 3675/10682 [34:40<57:38,  2.03it/s]                                                    {'loss': 3.5179, 'grad_norm': 0.23237092792987823, 'learning_rate': 0.000829368225975904, 'epoch': 4.82}
- 34%|███▍      | 3675/10682 [34:40<57:38,  2.03it/s] 34%|███▍      | 3676/10682 [34:40<57:41,  2.02it/s] 34%|███▍      | 3677/10682 [34:41<57:43,  2.02it/s] 34%|███▍      | 3678/10682 [34:41<57:41,  2.02it/s] 34%|███▍      | 3679/10682 [34:42<57:40,  2.02it/s] 34%|███▍      | 3680/10682 [34:42<57:39,  2.02it/s] 34%|███▍      | 3681/10682 [34:43<57:37,  2.02it/s] 34%|███▍      | 3682/10682 [34:43<57:38,  2.02it/s] 34%|███▍      | 3683/10682 [34:44<57:35,  2.03it/s] 34%|███▍      | 3684/10682 [34:44<57:36,  2.02it/s] 34%|███▍      | 3685/10682 [34:45<57:35,  2.03it/s] 35%|███▍      | 3686/10682 [34:45<57:37,  2.02it/s] 35%|███▍      | 3687/10682 [34:46<57:36,  2.02it/s] 35%|███▍      | 3688/10682 [34:46<57:38,  2.02it/s] 35%|███▍      | 3689/10682 [34:47<57:34,  2.02it/s] 35%|███▍      | 3690/10682 [34:47<57:34,  2.02it/s] 35%|███▍      | 3691/10682 [34:48<57:32,  2.02it/s] 35%|███▍      | 3692/10682 [34:48<57:31,  2.03it/s] 35%|███▍      | 3693/10682 [34:49<57:32,  2.02it/s] 35%|███▍      | 3694/10682 [34:49<57:28,  2.03it/s] 35%|███▍      | 3695/10682 [34:50<57:31,  2.02it/s] 35%|███▍      | 3696/10682 [34:50<57:27,  2.03it/s] 35%|███▍      | 3697/10682 [34:51<57:29,  2.03it/s] 35%|███▍      | 3698/10682 [34:51<57:26,  2.03it/s] 35%|███▍      | 3699/10682 [34:52<57:25,  2.03it/s] 35%|███▍      | 3700/10682 [34:52<57:26,  2.03it/s]{'loss': 3.5122, 'grad_norm': 0.23963111639022827, 'learning_rate': 0.0008262837575938593, 'epoch': 4.85}
-                                                     35%|███▍      | 3700/10682 [34:52<57:26,  2.03it/s] 35%|███▍      | 3701/10682 [34:53<57:31,  2.02it/s] 35%|███▍      | 3702/10682 [34:53<57:29,  2.02it/s] 35%|███▍      | 3703/10682 [34:54<57:27,  2.02it/s] 35%|███▍      | 3704/10682 [34:54<57:27,  2.02it/s] 35%|███▍      | 3705/10682 [34:55<57:27,  2.02it/s] 35%|███▍      | 3706/10682 [34:55<57:30,  2.02it/s] 35%|███▍      | 3707/10682 [34:56<57:26,  2.02it/s] 35%|███▍      | 3708/10682 [34:56<57:27,  2.02it/s] 35%|███▍      | 3709/10682 [34:57<57:25,  2.02it/s] 35%|███▍      | 3710/10682 [34:57<57:23,  2.02it/s] 35%|███▍      | 3711/10682 [34:58<57:27,  2.02it/s] 35%|███▍      | 3712/10682 [34:58<57:28,  2.02it/s] 35%|███▍      | 3713/10682 [34:59<57:27,  2.02it/s] 35%|███▍      | 3714/10682 [34:59<57:28,  2.02it/s] 35%|███▍      | 3715/10682 [35:00<57:23,  2.02it/s] 35%|███▍      | 3716/10682 [35:00<57:21,  2.02it/s] 35%|███▍      | 3717/10682 [35:01<57:20,  2.02it/s] 35%|███▍      | 3718/10682 [35:01<57:18,  2.03it/s] 35%|███▍      | 3719/10682 [35:02<57:19,  2.02it/s] 35%|███▍      | 3720/10682 [35:02<57:16,  2.03it/s] 35%|███▍      | 3721/10682 [35:03<57:17,  2.02it/s] 35%|███▍      | 3722/10682 [35:03<57:15,  2.03it/s] 35%|███▍      | 3723/10682 [35:04<57:17,  2.02it/s] 35%|███▍      | 3724/10682 [35:04<57:14,  2.03it/s] 35%|███▍      | 3725/10682 [35:05<57:18,  2.02it/s]{'loss': 3.5126, 'grad_norm': 0.22888804972171783, 'learning_rate': 0.0008231775093601584, 'epoch': 4.88}
-                                                     35%|███▍      | 3725/10682 [35:05<57:18,  2.02it/s] 35%|███▍      | 3726/10682 [35:05<57:17,  2.02it/s] 35%|███▍      | 3727/10682 [35:06<57:20,  2.02it/s] 35%|███▍      | 3728/10682 [35:06<57:14,  2.02it/s] 35%|███▍      | 3729/10682 [35:07<57:14,  2.02it/s] 35%|███▍      | 3730/10682 [35:07<57:13,  2.02it/s] 35%|███▍      | 3731/10682 [35:08<57:13,  2.02it/s] 35%|███▍      | 3732/10682 [35:08<57:12,  2.02it/s] 35%|███▍      | 3733/10682 [35:09<57:08,  2.03it/s] 35%|███▍      | 3734/10682 [35:09<57:09,  2.03it/s] 35%|███▍      | 3735/10682 [35:10<57:07,  2.03it/s] 35%|███▍      | 3736/10682 [35:10<57:12,  2.02it/s] 35%|███▍      | 3737/10682 [35:11<57:09,  2.03it/s] 35%|███▍      | 3738/10682 [35:11<57:13,  2.02it/s] 35%|███▌      | 3739/10682 [35:12<57:07,  2.03it/s] 35%|███▌      | 3740/10682 [35:12<57:07,  2.03it/s] 35%|███▌      | 3741/10682 [35:12<57:06,  2.03it/s] 35%|███▌      | 3742/10682 [35:13<57:03,  2.03it/s] 35%|███▌      | 3743/10682 [35:13<57:05,  2.03it/s] 35%|███▌      | 3744/10682 [35:14<57:03,  2.03it/s] 35%|███▌      | 3745/10682 [35:14<57:06,  2.02it/s] 35%|███▌      | 3746/10682 [35:15<57:06,  2.02it/s] 35%|███▌      | 3747/10682 [35:15<57:09,  2.02it/s] 35%|███▌      | 3748/10682 [35:16<57:09,  2.02it/s] 35%|███▌      | 3749/10682 [35:16<57:06,  2.02it/s] 35%|███▌      | 3750/10682 [35:17<57:06,  2.02it/s]                                                    {'loss': 3.514, 'grad_norm': 0.22528541088104248, 'learning_rate': 0.0008200496886207818, 'epoch': 4.91}
- 35%|███▌      | 3750/10682 [35:17<57:06,  2.02it/s] 35%|███▌      | 3751/10682 [35:17<57:08,  2.02it/s] 35%|███▌      | 3752/10682 [35:18<57:08,  2.02it/s] 35%|███▌      | 3753/10682 [35:18<57:06,  2.02it/s] 35%|███▌      | 3754/10682 [35:19<57:00,  2.03it/s] 35%|███▌      | 3755/10682 [35:19<57:05,  2.02it/s] 35%|███▌      | 3756/10682 [35:20<57:00,  2.02it/s] 35%|███▌      | 3757/10682 [35:20<57:00,  2.02it/s] 35%|███▌      | 3758/10682 [35:21<57:03,  2.02it/s] 35%|███▌      | 3759/10682 [35:21<57:00,  2.02it/s] 35%|███▌      | 3760/10682 [35:22<57:02,  2.02it/s] 35%|███▌      | 3761/10682 [35:22<56:59,  2.02it/s] 35%|███▌      | 3762/10682 [35:23<56:59,  2.02it/s] 35%|███▌      | 3763/10682 [35:23<56:54,  2.03it/s] 35%|███▌      | 3764/10682 [35:24<56:56,  2.02it/s] 35%|███▌      | 3765/10682 [35:24<56:54,  2.03it/s] 35%|███▌      | 3766/10682 [35:25<56:53,  2.03it/s] 35%|███▌      | 3767/10682 [35:25<56:53,  2.03it/s] 35%|███▌      | 3768/10682 [35:26<56:51,  2.03it/s] 35%|███▌      | 3769/10682 [35:26<56:54,  2.02it/s] 35%|███▌      | 3770/10682 [35:27<56:55,  2.02it/s] 35%|███▌      | 3771/10682 [35:27<56:58,  2.02it/s] 35%|███▌      | 3772/10682 [35:28<56:55,  2.02it/s] 35%|███▌      | 3773/10682 [35:28<56:54,  2.02it/s] 35%|███▌      | 3774/10682 [35:29<56:52,  2.02it/s] 35%|███▌      | 3775/10682 [35:29<56:53,  2.02it/s]                                                    {'loss': 3.5028, 'grad_norm': 0.2258571982383728, 'learning_rate': 0.0008169005041617021, 'epoch': 4.95}
- 35%|███▌      | 3775/10682 [35:29<56:53,  2.02it/s] 35%|███▌      | 3776/10682 [35:30<1:01:50,  1.86it/s] 35%|███▌      | 3777/10682 [35:30<1:00:22,  1.91it/s] 35%|███▌      | 3778/10682 [35:31<59:15,  1.94it/s]   35%|███▌      | 3779/10682 [35:31<58:31,  1.97it/s] 35%|███▌      | 3780/10682 [35:32<57:59,  1.98it/s] 35%|███▌      | 3781/10682 [35:32<57:37,  2.00it/s] 35%|███▌      | 3782/10682 [35:33<57:19,  2.01it/s] 35%|███▌      | 3783/10682 [35:33<57:10,  2.01it/s] 35%|███▌      | 3784/10682 [35:34<57:03,  2.01it/s] 35%|███▌      | 3785/10682 [35:34<56:56,  2.02it/s] 35%|███▌      | 3786/10682 [35:35<56:52,  2.02it/s] 35%|███▌      | 3787/10682 [35:35<56:50,  2.02it/s] 35%|███▌      | 3788/10682 [35:36<56:50,  2.02it/s] 35%|███▌      | 3789/10682 [35:36<56:45,  2.02it/s] 35%|███▌      | 3790/10682 [35:37<56:46,  2.02it/s] 35%|███▌      | 3791/10682 [35:37<56:43,  2.02it/s] 35%|███▌      | 3792/10682 [35:38<56:45,  2.02it/s] 36%|███▌      | 3793/10682 [35:38<56:42,  2.02it/s] 36%|███▌      | 3794/10682 [35:39<56:42,  2.02it/s] 36%|███▌      | 3795/10682 [35:39<56:40,  2.03it/s] 36%|███▌      | 3796/10682 [35:40<56:41,  2.02it/s] 36%|███▌      | 3797/10682 [35:40<56:41,  2.02it/s] 36%|███▌      | 3798/10682 [35:41<56:40,  2.02it/s] 36%|███▌      | 3799/10682 [35:41<56:41,  2.02it/s] 36%|███▌      | 3800/10682 [35:42<56:39,  2.02it/s]                                                    {'loss': 3.5218, 'grad_norm': 0.24237461388111115, 'learning_rate': 0.0008137301661949477, 'epoch': 4.98}
- 36%|███▌      | 3800/10682 [35:42<56:39,  2.02it/s] 36%|███▌      | 3801/10682 [35:42<56:44,  2.02it/s] 36%|███▌      | 3802/10682 [35:43<56:38,  2.02it/s] 36%|███▌      | 3803/10682 [35:43<56:39,  2.02it/s] 36%|███▌      | 3804/10682 [35:44<56:34,  2.03it/s] 36%|███▌      | 3805/10682 [35:44<56:39,  2.02it/s] 36%|███▌      | 3806/10682 [35:45<56:35,  2.02it/s] 36%|███▌      | 3807/10682 [35:45<56:37,  2.02it/s] 36%|███▌      | 3808/10682 [35:46<56:37,  2.02it/s] 36%|███▌      | 3809/10682 [35:46<56:37,  2.02it/s] 36%|███▌      | 3810/10682 [35:47<56:34,  2.02it/s] 36%|███▌      | 3811/10682 [35:47<56:36,  2.02it/s] 36%|███▌      | 3812/10682 [35:48<56:36,  2.02it/s] 36%|███▌      | 3813/10682 [35:48<56:38,  2.02it/s] 36%|███▌      | 3814/10682 [35:49<56:36,  2.02it/s] 36%|███▌      | 3815/10682 [35:49<55:57,  2.05it/s] 36%|███▌      | 3816/10682 [36:42<31:07:20, 16.32s/it] 36%|███▌      | 3817/10682 [36:43<22:03:51, 11.57s/it] 36%|███▌      | 3818/10682 [36:43<15:43:44,  8.25s/it] 36%|███▌      | 3819/10682 [36:44<11:17:24,  5.92s/it] 36%|███▌      | 3820/10682 [36:44<8:11:04,  4.29s/it]  36%|███▌      | 3821/10682 [36:45<6:00:35,  3.15s/it] 36%|███▌      | 3822/10682 [36:45<4:29:21,  2.36s/it] 36%|███▌      | 3823/10682 [36:46<3:25:27,  1.80s/it] 36%|███▌      | 3824/10682 [36:46<2:40:42,  1.41s/it] 36%|███▌      | 3825/10682 [36:47<2:09:25,  1.13s/it]{'loss': 3.445, 'grad_norm': 0.23837591707706451, 'learning_rate': 0.0008105388863445693, 'epoch': 5.01}
-                                                       36%|███▌      | 3825/10682 [36:47<2:09:25,  1.13s/it] 36%|███▌      | 3826/10682 [36:47<1:47:46,  1.06it/s] 36%|███▌      | 3827/10682 [36:48<1:32:28,  1.24it/s] 36%|███▌      | 3828/10682 [36:48<1:21:45,  1.40it/s] 36%|███▌      | 3829/10682 [36:49<1:14:14,  1.54it/s] 36%|███▌      | 3830/10682 [36:49<1:08:53,  1.66it/s] 36%|███▌      | 3831/10682 [36:50<1:05:10,  1.75it/s] 36%|███▌      | 3832/10682 [36:50<1:02:29,  1.83it/s] 36%|███▌      | 3833/10682 [36:51<1:00:40,  1.88it/s] 36%|███▌      | 3834/10682 [36:51<59:22,  1.92it/s]   36%|███▌      | 3835/10682 [36:52<58:24,  1.95it/s] 36%|███▌      | 3836/10682 [36:52<57:47,  1.97it/s] 36%|███▌      | 3837/10682 [36:53<57:19,  1.99it/s] 36%|███▌      | 3838/10682 [36:53<57:03,  2.00it/s] 36%|███▌      | 3839/10682 [36:54<56:54,  2.00it/s] 36%|███▌      | 3840/10682 [36:54<56:44,  2.01it/s] 36%|███▌      | 3841/10682 [36:55<56:34,  2.02it/s] 36%|███▌      | 3842/10682 [36:55<56:32,  2.02it/s] 36%|███▌      | 3843/10682 [36:56<56:26,  2.02it/s] 36%|███▌      | 3844/10682 [36:56<56:25,  2.02it/s] 36%|███▌      | 3845/10682 [36:57<56:26,  2.02it/s] 36%|███▌      | 3846/10682 [36:57<56:27,  2.02it/s] 36%|███▌      | 3847/10682 [36:58<56:21,  2.02it/s] 36%|███▌      | 3848/10682 [36:58<56:21,  2.02it/s] 36%|███▌      | 3849/10682 [36:59<56:22,  2.02it/s] 36%|███▌      | 3850/10682 [36:59<56:22,  2.02it/s]                                                    {'loss': 3.3478, 'grad_norm': 0.24176795780658722, 'learning_rate': 0.0008073268776325152, 'epoch': 5.05}
- 36%|███▌      | 3850/10682 [36:59<56:22,  2.02it/s] 36%|███▌      | 3851/10682 [37:00<56:20,  2.02it/s] 36%|███▌      | 3852/10682 [37:00<56:17,  2.02it/s] 36%|███▌      | 3853/10682 [37:01<56:12,  2.03it/s] 36%|███▌      | 3854/10682 [37:01<56:08,  2.03it/s] 36%|███▌      | 3855/10682 [37:02<56:10,  2.03it/s] 36%|███▌      | 3856/10682 [37:02<56:09,  2.03it/s] 36%|███▌      | 3857/10682 [37:03<56:07,  2.03it/s] 36%|███▌      | 3858/10682 [37:03<56:05,  2.03it/s] 36%|███▌      | 3859/10682 [37:04<56:02,  2.03it/s] 36%|███▌      | 3860/10682 [37:04<56:06,  2.03it/s] 36%|███▌      | 3861/10682 [37:05<56:04,  2.03it/s] 36%|███▌      | 3862/10682 [37:05<56:05,  2.03it/s] 36%|███▌      | 3863/10682 [37:06<56:03,  2.03it/s] 36%|███▌      | 3864/10682 [37:06<56:06,  2.03it/s] 36%|███▌      | 3865/10682 [37:07<56:06,  2.02it/s] 36%|███▌      | 3866/10682 [37:07<56:05,  2.03it/s] 36%|███▌      | 3867/10682 [37:08<56:05,  2.03it/s] 36%|███▌      | 3868/10682 [37:08<56:02,  2.03it/s] 36%|███▌      | 3869/10682 [37:09<56:05,  2.02it/s] 36%|███▌      | 3870/10682 [37:09<56:02,  2.03it/s] 36%|███▌      | 3871/10682 [37:10<56:01,  2.03it/s] 36%|███▌      | 3872/10682 [37:10<56:03,  2.02it/s] 36%|███▋      | 3873/10682 [37:11<56:00,  2.03it/s] 36%|███▋      | 3874/10682 [37:11<56:02,  2.02it/s] 36%|███▋      | 3875/10682 [37:12<55:58,  2.03it/s]                                                    {'loss': 3.3619, 'grad_norm': 0.22775647044181824, 'learning_rate': 0.0008040943544644116, 'epoch': 5.08}
- 36%|███▋      | 3875/10682 [37:12<55:58,  2.03it/s] 36%|███▋      | 3876/10682 [37:12<56:01,  2.02it/s] 36%|███▋      | 3877/10682 [37:13<56:00,  2.03it/s] 36%|███▋      | 3878/10682 [37:13<56:00,  2.02it/s] 36%|███▋      | 3879/10682 [37:14<55:59,  2.03it/s] 36%|███▋      | 3880/10682 [37:14<56:00,  2.02it/s] 36%|███▋      | 3881/10682 [37:15<55:57,  2.03it/s] 36%|███▋      | 3882/10682 [37:15<55:57,  2.03it/s] 36%|███▋      | 3883/10682 [37:16<55:58,  2.02it/s] 36%|███▋      | 3884/10682 [37:16<55:58,  2.02it/s] 36%|███▋      | 3885/10682 [37:17<55:56,  2.03it/s] 36%|███▋      | 3886/10682 [37:17<55:52,  2.03it/s] 36%|███▋      | 3887/10682 [37:18<55:54,  2.03it/s] 36%|███▋      | 3888/10682 [37:18<55:54,  2.03it/s] 36%|███▋      | 3889/10682 [37:19<55:58,  2.02it/s] 36%|███▋      | 3890/10682 [37:19<55:56,  2.02it/s] 36%|███▋      | 3891/10682 [37:19<55:56,  2.02it/s] 36%|███▋      | 3892/10682 [37:20<55:52,  2.03it/s] 36%|███▋      | 3893/10682 [37:20<55:55,  2.02it/s] 36%|███▋      | 3894/10682 [37:21<55:49,  2.03it/s] 36%|███▋      | 3895/10682 [37:21<55:47,  2.03it/s] 36%|███▋      | 3896/10682 [37:22<55:50,  2.03it/s] 36%|███▋      | 3897/10682 [37:22<55:48,  2.03it/s] 36%|███▋      | 3898/10682 [37:23<55:49,  2.03it/s] 37%|███▋      | 3899/10682 [37:23<55:47,  2.03it/s] 37%|███▋      | 3900/10682 [37:24<55:47,  2.03it/s]{'loss': 3.3659, 'grad_norm': 0.2318861186504364, 'learning_rate': 0.00080084153261525, 'epoch': 5.11}                                                    
- 37%|███▋      | 3900/10682 [37:24<55:47,  2.03it/s] 37%|███▋      | 3901/10682 [37:24<55:49,  2.02it/s] 37%|███▋      | 3902/10682 [37:25<55:50,  2.02it/s] 37%|███▋      | 3903/10682 [37:25<55:48,  2.02it/s] 37%|███▋      | 3904/10682 [37:26<55:52,  2.02it/s] 37%|███▋      | 3905/10682 [37:26<55:50,  2.02it/s] 37%|███▋      | 3906/10682 [37:27<55:52,  2.02it/s] 37%|███▋      | 3907/10682 [37:27<55:49,  2.02it/s] 37%|███▋      | 3908/10682 [37:28<55:46,  2.02it/s] 37%|███▋      | 3909/10682 [37:28<55:48,  2.02it/s] 37%|███▋      | 3910/10682 [37:29<55:45,  2.02it/s] 37%|███▋      | 3911/10682 [37:29<55:43,  2.02it/s] 37%|███▋      | 3912/10682 [37:30<55:44,  2.02it/s] 37%|███▋      | 3913/10682 [37:30<55:40,  2.03it/s] 37%|███▋      | 3914/10682 [37:31<55:41,  2.03it/s] 37%|███▋      | 3915/10682 [37:31<55:40,  2.03it/s] 37%|███▋      | 3916/10682 [37:32<55:38,  2.03it/s] 37%|███▋      | 3917/10682 [37:32<55:40,  2.03it/s] 37%|███▋      | 3918/10682 [37:33<55:36,  2.03it/s] 37%|███▋      | 3919/10682 [37:33<55:34,  2.03it/s] 37%|███▋      | 3920/10682 [37:34<55:38,  2.03it/s] 37%|███▋      | 3921/10682 [37:34<55:37,  2.03it/s] 37%|███▋      | 3922/10682 [37:35<55:38,  2.03it/s] 37%|███▋      | 3923/10682 [37:35<55:39,  2.02it/s] 37%|███▋      | 3924/10682 [37:36<55:37,  2.02it/s] 37%|███▋      | 3925/10682 [37:36<55:39,  2.02it/s]                                                    {'loss': 3.3715, 'grad_norm': 0.24152135848999023, 'learning_rate': 0.0007975686292149845, 'epoch': 5.14}
- 37%|███▋      | 3925/10682 [37:36<55:39,  2.02it/s] 37%|███▋      | 3926/10682 [37:37<55:43,  2.02it/s] 37%|███▋      | 3927/10682 [37:37<55:39,  2.02it/s] 37%|███▋      | 3928/10682 [37:38<55:35,  2.02it/s] 37%|███▋      | 3929/10682 [37:38<55:35,  2.02it/s] 37%|███▋      | 3930/10682 [37:39<55:34,  2.03it/s] 37%|███▋      | 3931/10682 [37:39<55:36,  2.02it/s] 37%|███▋      | 3932/10682 [37:40<55:32,  2.03it/s] 37%|███▋      | 3933/10682 [37:40<55:33,  2.02it/s] 37%|███▋      | 3934/10682 [37:41<55:30,  2.03it/s] 37%|███▋      | 3935/10682 [37:41<55:28,  2.03it/s] 37%|███▋      | 3936/10682 [37:42<55:29,  2.03it/s] 37%|███▋      | 3937/10682 [37:42<55:28,  2.03it/s] 37%|███▋      | 3938/10682 [37:43<55:29,  2.03it/s] 37%|███▋      | 3939/10682 [37:43<55:32,  2.02it/s] 37%|███▋      | 3940/10682 [37:44<55:33,  2.02it/s] 37%|███▋      | 3941/10682 [37:44<55:31,  2.02it/s] 37%|███▋      | 3942/10682 [37:45<55:31,  2.02it/s] 37%|███▋      | 3943/10682 [37:45<55:28,  2.02it/s] 37%|███▋      | 3944/10682 [37:46<55:31,  2.02it/s] 37%|███▋      | 3945/10682 [37:46<55:26,  2.03it/s] 37%|███▋      | 3946/10682 [37:47<55:27,  2.02it/s] 37%|███▋      | 3947/10682 [37:47<55:25,  2.03it/s] 37%|███▋      | 3948/10682 [37:48<55:25,  2.03it/s] 37%|███▋      | 3949/10682 [37:48<55:24,  2.03it/s] 37%|███▋      | 3950/10682 [37:49<55:23,  2.03it/s]                                                    {'loss': 3.3734, 'grad_norm': 0.23379719257354736, 'learning_rate': 0.0007942758627340383, 'epoch': 5.18}
- 37%|███▋      | 3950/10682 [37:49<55:23,  2.03it/s] 37%|███▋      | 3951/10682 [37:49<55:28,  2.02it/s] 37%|███▋      | 3952/10682 [37:50<55:30,  2.02it/s] 37%|███▋      | 3953/10682 [37:50<55:25,  2.02it/s] 37%|███▋      | 3954/10682 [37:51<55:21,  2.03it/s] 37%|███▋      | 3955/10682 [37:51<55:24,  2.02it/s] 37%|███▋      | 3956/10682 [37:52<55:21,  2.03it/s] 37%|███▋      | 3957/10682 [37:52<55:22,  2.02it/s] 37%|███▋      | 3958/10682 [37:53<55:18,  2.03it/s] 37%|███▋      | 3959/10682 [37:53<55:21,  2.02it/s] 37%|███▋      | 3960/10682 [37:54<55:18,  2.03it/s] 37%|███▋      | 3961/10682 [37:54<55:21,  2.02it/s] 37%|███▋      | 3962/10682 [37:55<55:18,  2.02it/s] 37%|███▋      | 3963/10682 [37:55<55:20,  2.02it/s] 37%|███▋      | 3964/10682 [37:56<55:19,  2.02it/s] 37%|███▋      | 3965/10682 [37:56<55:18,  2.02it/s] 37%|███▋      | 3966/10682 [37:57<55:16,  2.02it/s] 37%|███▋      | 3967/10682 [37:57<55:15,  2.03it/s] 37%|███▋      | 3968/10682 [37:58<55:17,  2.02it/s] 37%|███▋      | 3969/10682 [37:58<55:12,  2.03it/s] 37%|███▋      | 3970/10682 [37:59<55:14,  2.03it/s] 37%|███▋      | 3971/10682 [37:59<55:12,  2.03it/s] 37%|███▋      | 3972/10682 [38:00<55:15,  2.02it/s] 37%|███▋      | 3973/10682 [38:00<55:11,  2.03it/s] 37%|███▋      | 3974/10682 [38:00<55:12,  2.03it/s] 37%|███▋      | 3975/10682 [38:01<55:14,  2.02it/s]{'loss': 3.3879, 'grad_norm': 0.23439353704452515, 'learning_rate': 0.00079096345296872, 'epoch': 5.21}
-                                                     37%|███▋      | 3975/10682 [38:01<55:14,  2.02it/s] 37%|███▋      | 3976/10682 [38:01<55:19,  2.02it/s] 37%|███▋      | 3977/10682 [38:02<55:17,  2.02it/s] 37%|███▋      | 3978/10682 [38:02<55:15,  2.02it/s] 37%|███▋      | 3979/10682 [38:03<55:11,  2.02it/s] 37%|███▋      | 3980/10682 [38:03<55:10,  2.02it/s] 37%|███▋      | 3981/10682 [38:04<55:09,  2.02it/s] 37%|███▋      | 3982/10682 [38:04<55:07,  2.03it/s] 37%|███▋      | 3983/10682 [38:05<55:10,  2.02it/s] 37%|███▋      | 3984/10682 [38:05<55:08,  2.02it/s] 37%|███▋      | 3985/10682 [38:06<55:09,  2.02it/s] 37%|███▋      | 3986/10682 [38:06<55:08,  2.02it/s] 37%|███▋      | 3987/10682 [38:07<55:07,  2.02it/s] 37%|███▋      | 3988/10682 [38:07<55:07,  2.02it/s] 37%|███▋      | 3989/10682 [38:08<55:04,  2.03it/s] 37%|███▋      | 3990/10682 [38:08<55:05,  2.02it/s] 37%|███▋      | 3991/10682 [38:09<55:00,  2.03it/s] 37%|███▋      | 3992/10682 [38:09<55:02,  2.03it/s] 37%|███▋      | 3993/10682 [38:10<55:00,  2.03it/s] 37%|███▋      | 3994/10682 [38:10<55:00,  2.03it/s] 37%|███▋      | 3995/10682 [38:11<55:00,  2.03it/s] 37%|███▋      | 3996/10682 [38:11<55:00,  2.03it/s] 37%|███▋      | 3997/10682 [38:12<55:03,  2.02it/s] 37%|███▋      | 3998/10682 [38:12<54:59,  2.03it/s] 37%|███▋      | 3999/10682 [38:13<54:59,  2.03it/s] 37%|███▋      | 4000/10682 [38:13<54:58,  2.03it/s]{'loss': 3.3899, 'grad_norm': 0.23749461770057678, 'learning_rate': 0.0007876316210265521, 'epoch': 5.24}
-                                                     37%|███▋      | 4000/10682 [38:13<54:58,  2.03it/s] 37%|███▋      | 4001/10682 [38:14<55:04,  2.02it/s] 37%|███▋      | 4002/10682 [38:14<55:03,  2.02it/s] 37%|███▋      | 4003/10682 [38:15<55:01,  2.02it/s] 37%|███▋      | 4004/10682 [38:15<55:00,  2.02it/s] 37%|███▋      | 4005/10682 [38:16<54:57,  2.02it/s] 38%|███▊      | 4006/10682 [38:16<54:58,  2.02it/s] 38%|███▊      | 4007/10682 [38:17<54:55,  2.03it/s] 38%|███▊      | 4008/10682 [38:17<54:55,  2.03it/s] 38%|███▊      | 4009/10682 [38:18<54:56,  2.02it/s] 38%|███▊      | 4010/10682 [38:18<54:56,  2.02it/s] 38%|███▊      | 4011/10682 [38:19<54:54,  2.02it/s] 38%|███▊      | 4012/10682 [38:19<54:50,  2.03it/s] 38%|███▊      | 4013/10682 [38:20<54:52,  2.03it/s] 38%|███▊      | 4014/10682 [38:20<54:47,  2.03it/s] 38%|███▊      | 4015/10682 [38:21<54:51,  2.03it/s] 38%|███▊      | 4016/10682 [38:21<54:46,  2.03it/s] 38%|███▊      | 4017/10682 [38:22<54:45,  2.03it/s] 38%|███▊      | 4018/10682 [38:22<54:45,  2.03it/s] 38%|███▊      | 4019/10682 [38:23<54:43,  2.03it/s] 38%|███▊      | 4020/10682 [38:23<54:46,  2.03it/s] 38%|███▊      | 4021/10682 [38:24<54:43,  2.03it/s] 38%|███▊      | 4022/10682 [38:24<54:43,  2.03it/s] 38%|███▊      | 4023/10682 [38:25<54:43,  2.03it/s] 38%|███▊      | 4024/10682 [38:25<54:42,  2.03it/s] 38%|███▊      | 4025/10682 [38:26<54:43,  2.03it/s]                                                    {'loss': 3.3939, 'grad_norm': 0.23993591964244843, 'learning_rate': 0.0007842805893115124, 'epoch': 5.28}
- 38%|███▊      | 4025/10682 [38:26<54:43,  2.03it/s] 38%|███▊      | 4026/10682 [38:26<54:50,  2.02it/s] 38%|███▊      | 4027/10682 [38:27<54:47,  2.02it/s] 38%|███▊      | 4028/10682 [38:27<54:44,  2.03it/s] 38%|███▊      | 4029/10682 [38:28<54:46,  2.02it/s] 38%|███▊      | 4030/10682 [38:28<54:44,  2.03it/s] 38%|███▊      | 4031/10682 [38:29<54:47,  2.02it/s] 38%|███▊      | 4032/10682 [38:29<54:42,  2.03it/s] 38%|███▊      | 4033/10682 [38:30<54:44,  2.02it/s] 38%|███▊      | 4034/10682 [38:30<54:43,  2.02it/s] 38%|███▊      | 4035/10682 [38:31<54:42,  2.03it/s] 38%|███▊      | 4036/10682 [38:31<54:40,  2.03it/s] 38%|███▊      | 4037/10682 [38:32<54:40,  2.03it/s] 38%|███▊      | 4038/10682 [38:32<54:43,  2.02it/s] 38%|███▊      | 4039/10682 [38:33<54:42,  2.02it/s] 38%|███▊      | 4040/10682 [38:33<54:43,  2.02it/s] 38%|███▊      | 4041/10682 [38:34<54:43,  2.02it/s] 38%|███▊      | 4042/10682 [38:34<54:43,  2.02it/s] 38%|███▊      | 4043/10682 [38:35<54:40,  2.02it/s] 38%|███▊      | 4044/10682 [38:35<54:41,  2.02it/s] 38%|███▊      | 4045/10682 [38:36<54:38,  2.02it/s] 38%|███▊      | 4046/10682 [38:36<54:35,  2.03it/s] 38%|███▊      | 4047/10682 [38:37<54:35,  2.03it/s] 38%|███▊      | 4048/10682 [38:37<54:31,  2.03it/s] 38%|███▊      | 4049/10682 [38:38<54:29,  2.03it/s] 38%|███▊      | 4050/10682 [38:38<54:32,  2.03it/s]{'loss': 3.3972, 'grad_norm': 0.22633570432662964, 'learning_rate': 0.0007809105815091867, 'epoch': 5.31}
-                                                     38%|███▊      | 4050/10682 [38:38<54:32,  2.03it/s] 38%|███▊      | 4051/10682 [38:39<54:33,  2.03it/s] 38%|███▊      | 4052/10682 [38:39<54:34,  2.02it/s] 38%|███▊      | 4053/10682 [38:40<54:34,  2.02it/s] 38%|███▊      | 4054/10682 [38:40<54:34,  2.02it/s] 38%|███▊      | 4055/10682 [38:40<54:35,  2.02it/s] 38%|███▊      | 4056/10682 [38:41<54:33,  2.02it/s] 38%|███▊      | 4057/10682 [38:41<54:35,  2.02it/s] 38%|███▊      | 4058/10682 [38:42<54:34,  2.02it/s] 38%|███▊      | 4059/10682 [38:42<54:29,  2.03it/s] 38%|███▊      | 4060/10682 [38:43<54:31,  2.02it/s] 38%|███▊      | 4061/10682 [38:43<54:30,  2.02it/s] 38%|███▊      | 4062/10682 [38:44<54:32,  2.02it/s] 38%|███▊      | 4063/10682 [38:44<54:29,  2.02it/s] 38%|███▊      | 4064/10682 [38:45<54:31,  2.02it/s] 38%|███▊      | 4065/10682 [38:45<54:28,  2.02it/s] 38%|███▊      | 4066/10682 [38:46<54:29,  2.02it/s] 38%|███▊      | 4067/10682 [38:46<54:27,  2.02it/s] 38%|███▊      | 4068/10682 [38:47<54:33,  2.02it/s] 38%|███▊      | 4069/10682 [38:47<54:30,  2.02it/s] 38%|███▊      | 4070/10682 [38:48<54:28,  2.02it/s] 38%|███▊      | 4071/10682 [38:48<54:27,  2.02it/s] 38%|███▊      | 4072/10682 [38:49<54:26,  2.02it/s] 38%|███▊      | 4073/10682 [38:49<54:24,  2.02it/s] 38%|███▊      | 4074/10682 [38:50<54:22,  2.03it/s] 38%|███▊      | 4075/10682 [38:50<54:22,  2.03it/s]{'loss': 3.411, 'grad_norm': 0.23814812302589417, 'learning_rate': 0.0007775218225718394, 'epoch': 5.34}                                                    
- 38%|███▊      | 4075/10682 [38:50<54:22,  2.03it/s] 38%|███▊      | 4076/10682 [38:51<54:27,  2.02it/s] 38%|███▊      | 4077/10682 [38:51<54:26,  2.02it/s] 38%|███▊      | 4078/10682 [38:52<54:20,  2.03it/s] 38%|███▊      | 4079/10682 [38:52<54:20,  2.03it/s] 38%|███▊      | 4080/10682 [38:53<54:16,  2.03it/s] 38%|███▊      | 4081/10682 [38:53<54:18,  2.03it/s] 38%|███▊      | 4082/10682 [38:54<54:15,  2.03it/s] 38%|███▊      | 4083/10682 [38:54<54:13,  2.03it/s] 38%|███▊      | 4084/10682 [38:55<54:16,  2.03it/s] 38%|███▊      | 4085/10682 [38:55<54:13,  2.03it/s] 38%|███▊      | 4086/10682 [38:56<54:16,  2.03it/s] 38%|███▊      | 4087/10682 [38:56<54:14,  2.03it/s] 38%|███▊      | 4088/10682 [38:57<54:16,  2.02it/s] 38%|███▊      | 4089/10682 [38:57<54:11,  2.03it/s] 38%|███▊      | 4090/10682 [38:58<54:12,  2.03it/s] 38%|███▊      | 4091/10682 [38:58<54:13,  2.03it/s] 38%|███▊      | 4092/10682 [38:59<54:12,  2.03it/s] 38%|███▊      | 4093/10682 [38:59<54:12,  2.03it/s] 38%|███▊      | 4094/10682 [39:00<54:12,  2.03it/s] 38%|███▊      | 4095/10682 [39:00<54:13,  2.02it/s] 38%|███▊      | 4096/10682 [39:01<54:10,  2.03it/s] 38%|███▊      | 4097/10682 [39:01<54:12,  2.02it/s] 38%|███▊      | 4098/10682 [39:02<54:09,  2.03it/s] 38%|███▊      | 4099/10682 [39:02<54:13,  2.02it/s] 38%|███▊      | 4100/10682 [39:03<54:10,  2.02it/s]{'loss': 3.4003, 'grad_norm': 0.2322835475206375, 'learning_rate': 0.0007741145387033967, 'epoch': 5.37}                                                    
- 38%|███▊      | 4100/10682 [39:03<54:10,  2.02it/s] 38%|███▊      | 4101/10682 [39:03<54:17,  2.02it/s] 38%|███▊      | 4102/10682 [39:04<54:12,  2.02it/s] 38%|███▊      | 4103/10682 [39:04<54:11,  2.02it/s] 38%|███▊      | 4104/10682 [39:05<54:10,  2.02it/s] 38%|███▊      | 4105/10682 [39:05<54:09,  2.02it/s] 38%|███▊      | 4106/10682 [39:06<54:07,  2.03it/s] 38%|███▊      | 4107/10682 [39:06<54:05,  2.03it/s] 38%|███▊      | 4108/10682 [39:07<54:06,  2.02it/s] 38%|███▊      | 4109/10682 [39:07<54:05,  2.03it/s] 38%|███▊      | 4110/10682 [39:08<54:03,  2.03it/s] 38%|███▊      | 4111/10682 [39:08<53:59,  2.03it/s] 38%|███▊      | 4112/10682 [39:09<53:58,  2.03it/s] 39%|███▊      | 4113/10682 [39:09<54:00,  2.03it/s] 39%|███▊      | 4114/10682 [39:10<54:01,  2.03it/s] 39%|███▊      | 4115/10682 [39:10<54:01,  2.03it/s] 39%|███▊      | 4116/10682 [39:11<54:00,  2.03it/s] 39%|███▊      | 4117/10682 [39:11<54:01,  2.03it/s] 39%|███▊      | 4118/10682 [39:12<53:59,  2.03it/s] 39%|███▊      | 4119/10682 [39:12<54:16,  2.02it/s] 39%|███▊      | 4120/10682 [39:13<54:12,  2.02it/s] 39%|███▊      | 4121/10682 [39:13<54:06,  2.02it/s] 39%|███▊      | 4122/10682 [39:14<54:02,  2.02it/s] 39%|███▊      | 4123/10682 [39:14<54:20,  2.01it/s] 39%|███▊      | 4124/10682 [39:15<54:22,  2.01it/s] 39%|███▊      | 4125/10682 [39:15<54:14,  2.01it/s]                                                    {'loss': 3.4002, 'grad_norm': 0.22393018007278442, 'learning_rate': 0.0007706889573443467, 'epoch': 5.41}
- 39%|███▊      | 4125/10682 [39:15<54:14,  2.01it/s] 39%|███▊      | 4126/10682 [39:16<54:16,  2.01it/s] 39%|███▊      | 4127/10682 [39:16<54:08,  2.02it/s] 39%|███▊      | 4128/10682 [39:17<54:04,  2.02it/s] 39%|███▊      | 4129/10682 [39:17<54:00,  2.02it/s] 39%|███▊      | 4130/10682 [39:18<54:00,  2.02it/s] 39%|███▊      | 4131/10682 [39:18<53:56,  2.02it/s] 39%|███▊      | 4132/10682 [39:19<53:54,  2.03it/s] 39%|███▊      | 4133/10682 [39:19<53:54,  2.02it/s] 39%|███▊      | 4134/10682 [39:20<53:50,  2.03it/s] 39%|███▊      | 4135/10682 [39:20<53:54,  2.02it/s] 39%|███▊      | 4136/10682 [39:21<53:50,  2.03it/s] 39%|███▊      | 4137/10682 [39:21<53:53,  2.02it/s] 39%|███▊      | 4138/10682 [39:22<53:52,  2.02it/s] 39%|███▊      | 4139/10682 [39:22<53:50,  2.03it/s] 39%|███▉      | 4140/10682 [39:22<53:51,  2.02it/s] 39%|███▉      | 4141/10682 [39:23<53:48,  2.03it/s] 39%|███▉      | 4142/10682 [39:23<53:51,  2.02it/s] 39%|███▉      | 4143/10682 [39:24<53:47,  2.03it/s] 39%|███▉      | 4144/10682 [39:24<53:47,  2.03it/s] 39%|███▉      | 4145/10682 [39:25<53:45,  2.03it/s] 39%|███▉      | 4146/10682 [39:25<53:46,  2.03it/s] 39%|███▉      | 4147/10682 [39:26<53:45,  2.03it/s] 39%|███▉      | 4148/10682 [39:26<53:45,  2.03it/s] 39%|███▉      | 4149/10682 [39:27<53:46,  2.02it/s] 39%|███▉      | 4150/10682 [39:27<53:48,  2.02it/s]                                                    {'loss': 3.4122, 'grad_norm': 0.23344165086746216, 'learning_rate': 0.0007672453071565586, 'epoch': 5.44}
- 39%|███▉      | 4150/10682 [39:27<53:48,  2.02it/s] 39%|███▉      | 4151/10682 [39:28<53:49,  2.02it/s] 39%|███▉      | 4152/10682 [39:28<53:50,  2.02it/s] 39%|███▉      | 4153/10682 [39:29<53:45,  2.02it/s] 39%|███▉      | 4154/10682 [39:29<53:47,  2.02it/s] 39%|███▉      | 4155/10682 [39:30<53:45,  2.02it/s] 39%|███▉      | 4156/10682 [39:30<53:47,  2.02it/s] 39%|███▉      | 4157/10682 [39:31<53:43,  2.02it/s] 39%|███▉      | 4158/10682 [39:31<53:42,  2.02it/s] 39%|███▉      | 4159/10682 [39:32<53:42,  2.02it/s] 39%|███▉      | 4160/10682 [39:32<53:40,  2.03it/s] 39%|███▉      | 4161/10682 [39:33<53:43,  2.02it/s] 39%|███▉      | 4162/10682 [39:33<53:41,  2.02it/s] 39%|███▉      | 4163/10682 [39:34<53:42,  2.02it/s] 39%|███▉      | 4164/10682 [39:34<53:41,  2.02it/s] 39%|███▉      | 4165/10682 [39:35<53:44,  2.02it/s] 39%|███▉      | 4166/10682 [39:35<53:43,  2.02it/s] 39%|███▉      | 4167/10682 [39:36<53:42,  2.02it/s] 39%|███▉      | 4168/10682 [39:36<53:39,  2.02it/s] 39%|███▉      | 4169/10682 [39:37<53:39,  2.02it/s] 39%|███▉      | 4170/10682 [39:37<53:38,  2.02it/s] 39%|███▉      | 4171/10682 [39:38<53:35,  2.03it/s] 39%|███▉      | 4172/10682 [39:38<53:36,  2.02it/s] 39%|███▉      | 4173/10682 [39:39<53:35,  2.02it/s] 39%|███▉      | 4174/10682 [39:39<53:36,  2.02it/s] 39%|███▉      | 4175/10682 [39:40<53:33,  2.02it/s]                                                    {'loss': 3.4062, 'grad_norm': 0.24242348968982697, 'learning_rate': 0.0007637838180080183, 'epoch': 5.47}
- 39%|███▉      | 4175/10682 [39:40<53:33,  2.02it/s] 39%|███▉      | 4176/10682 [39:40<53:40,  2.02it/s] 39%|███▉      | 4177/10682 [39:41<53:35,  2.02it/s] 39%|███▉      | 4178/10682 [39:41<53:36,  2.02it/s] 39%|███▉      | 4179/10682 [39:42<53:30,  2.03it/s] 39%|███▉      | 4180/10682 [39:42<53:30,  2.03it/s] 39%|███▉      | 4181/10682 [39:43<53:28,  2.03it/s] 39%|███▉      | 4182/10682 [39:43<53:23,  2.03it/s] 39%|███▉      | 4183/10682 [39:44<53:27,  2.03it/s] 39%|███▉      | 4184/10682 [39:44<53:25,  2.03it/s] 39%|███▉      | 4185/10682 [39:45<53:29,  2.02it/s] 39%|███▉      | 4186/10682 [39:45<53:30,  2.02it/s] 39%|███▉      | 4187/10682 [39:46<53:28,  2.02it/s] 39%|███▉      | 4188/10682 [39:46<53:30,  2.02it/s] 39%|███▉      | 4189/10682 [39:47<53:29,  2.02it/s] 39%|███▉      | 4190/10682 [39:47<53:30,  2.02it/s] 39%|███▉      | 4191/10682 [39:48<53:29,  2.02it/s] 39%|███▉      | 4192/10682 [39:48<53:26,  2.02it/s] 39%|███▉      | 4193/10682 [39:49<53:28,  2.02it/s] 39%|███▉      | 4194/10682 [39:49<53:27,  2.02it/s] 39%|███▉      | 4195/10682 [39:50<53:26,  2.02it/s] 39%|███▉      | 4196/10682 [39:50<53:25,  2.02it/s] 39%|███▉      | 4197/10682 [39:51<53:22,  2.02it/s] 39%|███▉      | 4198/10682 [39:51<53:23,  2.02it/s] 39%|███▉      | 4199/10682 [39:52<53:20,  2.03it/s] 39%|███▉      | 4200/10682 [39:52<53:22,  2.02it/s]                                                    {'loss': 3.4117, 'grad_norm': 0.22648054361343384, 'learning_rate': 0.0007603047209574854, 'epoch': 5.5}
- 39%|███▉      | 4200/10682 [39:52<53:22,  2.02it/s] 39%|███▉      | 4201/10682 [39:53<53:21,  2.02it/s] 39%|███▉      | 4202/10682 [39:53<53:24,  2.02it/s] 39%|███▉      | 4203/10682 [39:54<53:17,  2.03it/s] 39%|███▉      | 4204/10682 [39:54<53:20,  2.02it/s] 39%|███▉      | 4205/10682 [39:55<53:17,  2.03it/s] 39%|███▉      | 4206/10682 [39:55<53:20,  2.02it/s] 39%|███▉      | 4207/10682 [39:56<53:18,  2.02it/s] 39%|███▉      | 4208/10682 [39:56<53:15,  2.03it/s] 39%|███▉      | 4209/10682 [39:57<53:17,  2.02it/s] 39%|███▉      | 4210/10682 [39:57<53:14,  2.03it/s] 39%|███▉      | 4211/10682 [39:58<53:14,  2.03it/s] 39%|███▉      | 4212/10682 [39:58<53:10,  2.03it/s] 39%|███▉      | 4213/10682 [39:59<53:10,  2.03it/s] 39%|███▉      | 4214/10682 [39:59<53:09,  2.03it/s] 39%|███▉      | 4215/10682 [40:00<53:09,  2.03it/s] 39%|███▉      | 4216/10682 [40:00<53:09,  2.03it/s] 39%|███▉      | 4217/10682 [40:01<53:07,  2.03it/s] 39%|███▉      | 4218/10682 [40:01<53:09,  2.03it/s] 39%|███▉      | 4219/10682 [40:02<53:06,  2.03it/s] 40%|███▉      | 4220/10682 [40:02<53:11,  2.02it/s] 40%|███▉      | 4221/10682 [40:02<53:10,  2.03it/s] 40%|███▉      | 4222/10682 [40:03<53:12,  2.02it/s] 40%|███▉      | 4223/10682 [40:03<53:07,  2.03it/s] 40%|███▉      | 4224/10682 [40:04<53:09,  2.02it/s] 40%|███▉      | 4225/10682 [40:04<53:06,  2.03it/s]                                                    {'loss': 3.4175, 'grad_norm': 0.2176920771598816, 'learning_rate': 0.0007568082482390682, 'epoch': 5.54}
- 40%|███▉      | 4225/10682 [40:04<53:06,  2.03it/s] 40%|███▉      | 4226/10682 [40:05<53:11,  2.02it/s] 40%|███▉      | 4227/10682 [40:05<53:11,  2.02it/s] 40%|███▉      | 4228/10682 [40:06<53:09,  2.02it/s] 40%|███▉      | 4229/10682 [40:06<53:08,  2.02it/s] 40%|███▉      | 4230/10682 [40:07<53:09,  2.02it/s] 40%|███▉      | 4231/10682 [40:07<53:07,  2.02it/s] 40%|███▉      | 4232/10682 [40:08<53:06,  2.02it/s] 40%|███▉      | 4233/10682 [40:08<53:05,  2.02it/s] 40%|███▉      | 4234/10682 [40:09<53:03,  2.03it/s] 40%|███▉      | 4235/10682 [40:09<53:03,  2.03it/s] 40%|███▉      | 4236/10682 [40:10<52:59,  2.03it/s] 40%|███▉      | 4237/10682 [40:10<53:00,  2.03it/s] 40%|███▉      | 4238/10682 [40:11<53:02,  2.02it/s] 40%|███▉      | 4239/10682 [40:11<53:04,  2.02it/s] 40%|███▉      | 4240/10682 [40:12<53:02,  2.02it/s] 40%|███▉      | 4241/10682 [40:12<53:02,  2.02it/s] 40%|███▉      | 4242/10682 [40:13<53:01,  2.02it/s] 40%|███▉      | 4243/10682 [40:13<53:02,  2.02it/s] 40%|███▉      | 4244/10682 [40:14<53:00,  2.02it/s] 40%|███▉      | 4245/10682 [40:14<52:58,  2.03it/s] 40%|███▉      | 4246/10682 [40:15<52:58,  2.02it/s] 40%|███▉      | 4247/10682 [40:15<52:57,  2.03it/s] 40%|███▉      | 4248/10682 [40:16<52:59,  2.02it/s] 40%|███▉      | 4249/10682 [40:16<52:58,  2.02it/s] 40%|███▉      | 4250/10682 [40:17<52:59,  2.02it/s]{'loss': 3.4214, 'grad_norm': 0.25423404574394226, 'learning_rate': 0.0007532946332467235, 'epoch': 5.57}
-                                                     40%|███▉      | 4250/10682 [40:17<52:59,  2.02it/s] 40%|███▉      | 4251/10682 [40:17<52:59,  2.02it/s] 40%|███▉      | 4252/10682 [40:18<52:59,  2.02it/s] 40%|███▉      | 4253/10682 [40:18<52:57,  2.02it/s] 40%|███▉      | 4254/10682 [40:19<52:59,  2.02it/s] 40%|███▉      | 4255/10682 [40:19<52:59,  2.02it/s] 40%|███▉      | 4256/10682 [40:20<53:00,  2.02it/s] 40%|███▉      | 4257/10682 [40:20<52:55,  2.02it/s] 40%|███▉      | 4258/10682 [40:21<52:55,  2.02it/s] 40%|███▉      | 4259/10682 [40:21<52:52,  2.02it/s] 40%|███▉      | 4260/10682 [40:22<52:50,  2.03it/s] 40%|███▉      | 4261/10682 [40:22<52:50,  2.03it/s] 40%|███▉      | 4262/10682 [40:23<52:48,  2.03it/s] 40%|███▉      | 4263/10682 [40:23<52:50,  2.02it/s] 40%|███▉      | 4264/10682 [40:24<52:46,  2.03it/s] 40%|███▉      | 4265/10682 [40:24<52:46,  2.03it/s] 40%|███▉      | 4266/10682 [40:25<52:46,  2.03it/s] 40%|███▉      | 4267/10682 [40:25<52:45,  2.03it/s] 40%|���██▉      | 4268/10682 [40:26<52:46,  2.03it/s] 40%|███▉      | 4269/10682 [40:26<52:43,  2.03it/s] 40%|███▉      | 4270/10682 [40:27<52:45,  2.03it/s] 40%|███▉      | 4271/10682 [40:27<52:43,  2.03it/s] 40%|███▉      | 4272/10682 [40:28<52:44,  2.03it/s] 40%|████      | 4273/10682 [40:28<52:41,  2.03it/s] 40%|████      | 4274/10682 [40:29<52:42,  2.03it/s] 40%|████      | 4275/10682 [40:29<52:42,  2.03it/s]                                                    {'loss': 3.4165, 'grad_norm': 0.2465812712907791, 'learning_rate': 0.0007497641105186759, 'epoch': 5.6}
- 40%|████      | 4275/10682 [40:29<52:42,  2.03it/s] 40%|████      | 4276/10682 [40:30<52:46,  2.02it/s] 40%|████      | 4277/10682 [40:30<52:47,  2.02it/s] 40%|████      | 4278/10682 [40:31<52:44,  2.02it/s] 40%|████      | 4279/10682 [40:31<52:44,  2.02it/s] 40%|████      | 4280/10682 [40:32<52:44,  2.02it/s] 40%|████      | 4281/10682 [40:32<52:44,  2.02it/s] 40%|████      | 4282/10682 [40:33<52:43,  2.02it/s] 40%|████      | 4283/10682 [40:33<52:45,  2.02it/s] 40%|████      | 4284/10682 [40:34<52:43,  2.02it/s] 40%|████      | 4285/10682 [40:34<52:42,  2.02it/s] 40%|████      | 4286/10682 [40:35<52:40,  2.02it/s] 40%|████      | 4287/10682 [40:35<52:42,  2.02it/s] 40%|████      | 4288/10682 [40:36<52:40,  2.02it/s] 40%|████      | 4289/10682 [40:36<52:38,  2.02it/s] 40%|████      | 4290/10682 [40:37<52:36,  2.02it/s] 40%|████      | 4291/10682 [40:37<52:35,  2.03it/s] 40%|████      | 4292/10682 [40:38<52:36,  2.02it/s] 40%|████      | 4293/10682 [40:38<52:33,  2.03it/s] 40%|████      | 4294/10682 [40:39<52:37,  2.02it/s] 40%|████      | 4295/10682 [40:39<52:33,  2.03it/s] 40%|████      | 4296/10682 [40:40<52:35,  2.02it/s] 40%|████      | 4297/10682 [40:40<52:33,  2.02it/s] 40%|████      | 4298/10682 [40:41<52:34,  2.02it/s] 40%|████      | 4299/10682 [40:41<52:31,  2.03it/s] 40%|████      | 4300/10682 [40:42<52:32,  2.02it/s]                                                    {'loss': 3.4277, 'grad_norm': 0.24820786714553833, 'learning_rate': 0.0007462169157217631, 'epoch': 5.64}
- 40%|████      | 4300/10682 [40:42<52:32,  2.02it/s] 40%|████      | 4301/10682 [40:42<52:33,  2.02it/s] 40%|████      | 4302/10682 [40:43<52:38,  2.02it/s] 40%|████      | 4303/10682 [40:43<52:36,  2.02it/s] 40%|████      | 4304/10682 [40:44<52:36,  2.02it/s] 40%|████      | 4305/10682 [40:44<52:31,  2.02it/s] 40%|████      | 4306/10682 [40:44<52:30,  2.02it/s] 40%|████      | 4307/10682 [40:45<52:30,  2.02it/s] 40%|████      | 4308/10682 [40:45<52:25,  2.03it/s] 40%|████      | 4309/10682 [40:46<52:27,  2.02it/s] 40%|████      | 4310/10682 [40:46<52:22,  2.03it/s] 40%|████      | 4311/10682 [40:47<52:26,  2.02it/s] 40%|████      | 4312/10682 [40:47<52:22,  2.03it/s] 40%|████      | 4313/10682 [40:48<52:24,  2.03it/s] 40%|████      | 4314/10682 [40:48<52:22,  2.03it/s] 40%|████      | 4315/10682 [40:49<52:19,  2.03it/s] 40%|████      | 4316/10682 [40:49<52:21,  2.03it/s] 40%|████      | 4317/10682 [40:50<52:18,  2.03it/s] 40%|████      | 4318/10682 [40:50<52:19,  2.03it/s] 40%|████      | 4319/10682 [40:51<52:19,  2.03it/s] 40%|████      | 4320/10682 [40:51<52:20,  2.03it/s] 40%|████      | 4321/10682 [40:52<52:21,  2.02it/s] 40%|████      | 4322/10682 [40:52<52:19,  2.03it/s] 40%|████      | 4323/10682 [40:53<52:18,  2.03it/s] 40%|████      | 4324/10682 [40:53<52:20,  2.02it/s] 40%|████      | 4325/10682 [40:54<52:15,  2.03it/s]                                                    {'loss': 3.4124, 'grad_norm': 0.23785176873207092, 'learning_rate': 0.0007426532856357045, 'epoch': 5.67}
- 40%|████      | 4325/10682 [40:54<52:15,  2.03it/s] 40%|████      | 4326/10682 [40:54<52:20,  2.02it/s] 41%|████      | 4327/10682 [40:55<52:19,  2.02it/s] 41%|████      | 4328/10682 [40:55<52:20,  2.02it/s] 41%|████      | 4329/10682 [40:56<52:20,  2.02it/s] 41%|████      | 4330/10682 [40:56<52:16,  2.03it/s] 41%|████      | 4331/10682 [40:57<52:17,  2.02it/s] 41%|████      | 4332/10682 [40:57<52:14,  2.03it/s] 41%|████      | 4333/10682 [40:58<52:15,  2.02it/s] 41%|████      | 4334/10682 [40:58<52:15,  2.02it/s] 41%|████      | 4335/10682 [40:59<52:13,  2.03it/s] 41%|████      | 4336/10682 [40:59<52:14,  2.02it/s] 41%|████      | 4337/10682 [41:00<52:15,  2.02it/s] 41%|████      | 4338/10682 [41:00<52:17,  2.02it/s] 41%|████      | 4339/10682 [41:01<52:16,  2.02it/s] 41%|████      | 4340/10682 [41:01<52:16,  2.02it/s] 41%|█���██      | 4341/10682 [41:02<52:14,  2.02it/s] 41%|████      | 4342/10682 [41:02<52:14,  2.02it/s] 41%|████      | 4343/10682 [41:03<52:09,  2.03it/s] 41%|████      | 4344/10682 [41:03<52:11,  2.02it/s] 41%|████      | 4345/10682 [41:04<52:09,  2.02it/s] 41%|████      | 4346/10682 [41:04<52:08,  2.03it/s] 41%|████      | 4347/10682 [41:05<52:06,  2.03it/s] 41%|████      | 4348/10682 [41:05<52:06,  2.03it/s] 41%|████      | 4349/10682 [41:06<52:07,  2.02it/s] 41%|████      | 4350/10682 [41:06<52:06,  2.03it/s]{'loss': 3.4247, 'grad_norm': 0.24257978796958923, 'learning_rate': 0.0007390734581372948, 'epoch': 5.7}                                                    
- 41%|████      | 4350/10682 [41:06<52:06,  2.03it/s] 41%|████      | 4351/10682 [41:07<52:10,  2.02it/s] 41%|████      | 4352/10682 [41:07<52:07,  2.02it/s] 41%|████      | 4353/10682 [41:08<52:08,  2.02it/s] 41%|████      | 4354/10682 [41:08<52:05,  2.02it/s] 41%|████      | 4355/10682 [41:09<52:06,  2.02it/s] 41%|████      | 4356/10682 [41:09<52:03,  2.02it/s] 41%|████      | 4357/10682 [41:10<52:04,  2.02it/s] 41%|████      | 4358/10682 [41:10<52:04,  2.02it/s] 41%|████      | 4359/10682 [41:11<52:05,  2.02it/s] 41%|████      | 4360/10682 [41:11<52:04,  2.02it/s] 41%|████      | 4361/10682 [41:12<52:08,  2.02it/s] 41%|████      | 4362/10682 [41:12<52:04,  2.02it/s] 41%|████      | 4363/10682 [41:13<52:05,  2.02it/s] 41%|████      | 4364/10682 [41:13<52:03,  2.02it/s] 41%|████      | 4365/10682 [41:14<52:05,  2.02it/s] 41%|████      | 4366/10682 [41:14<52:02,  2.02it/s] 41%|████      | 4367/10682 [41:15<52:04,  2.02it/s] 41%|████      | 4368/10682 [41:15<52:02,  2.02it/s] 41%|████      | 4369/10682 [41:16<52:04,  2.02it/s] 41%|████      | 4370/10682 [41:16<52:00,  2.02it/s] 41%|████      | 4371/10682 [41:17<52:02,  2.02it/s] 41%|████      | 4372/10682 [41:17<51:59,  2.02it/s] 41%|████      | 4373/10682 [41:18<52:01,  2.02it/s] 41%|████      | 4374/10682 [41:18<51:57,  2.02it/s] 41%|████      | 4375/10682 [41:19<51:58,  2.02it/s]                                                    {'loss': 3.414, 'grad_norm': 0.22894026339054108, 'learning_rate': 0.0007354776721845277, 'epoch': 5.73}
- 41%|████      | 4375/10682 [41:19<51:58,  2.02it/s] 41%|████      | 4376/10682 [41:19<51:56,  2.02it/s] 41%|████      | 4377/10682 [41:20<51:58,  2.02it/s] 41%|████      | 4378/10682 [41:20<51:53,  2.02it/s] 41%|████      | 4379/10682 [41:21<51:54,  2.02it/s] 41%|████      | 4380/10682 [41:21<51:50,  2.03it/s] 41%|████      | 4381/10682 [41:22<51:50,  2.03it/s] 41%|████      | 4382/10682 [41:22<51:51,  2.02it/s] 41%|████      | 4383/10682 [41:23<51:49,  2.03it/s] 41%|████      | 4384/10682 [41:23<51:49,  2.03it/s] 41%|████      | 4385/10682 [41:24<51:48,  2.03it/s] 41%|████      | 4386/10682 [41:24<51:50,  2.02it/s] 41%|████      | 4387/10682 [41:25<51:48,  2.03it/s] 41%|████      | 4388/10682 [41:25<51:49,  2.02it/s] 41%|████      | 4389/10682 [41:25<51:47,  2.03it/s] 41%|████      | 4390/10682 [41:26<51:47,  2.02it/s] 41%|████      | 4391/10682 [41:26<51:44,  2.03it/s] 41%|████      | 4392/10682 [41:27<51:45,  2.03it/s] 41%|████      | 4393/10682 [41:27<51:46,  2.02it/s] 41%|████      | 4394/10682 [41:28<51:45,  2.02it/s] 41%|████      | 4395/10682 [41:28<51:49,  2.02it/s] 41%|████      | 4396/10682 [41:29<51:46,  2.02it/s] 41%|████      | 4397/10682 [41:29<51:46,  2.02it/s] 41%|████      | 4398/10682 [41:30<51:41,  2.03it/s] 41%|████      | 4399/10682 [41:30<51:42,  2.03it/s] 41%|████      | 4400/10682 [41:31<51:39,  2.03it/s]                                                    {'loss': 3.4242, 'grad_norm': 0.2275644838809967, 'learning_rate': 0.0007318661678006427, 'epoch': 5.77}
- 41%|████      | 4400/10682 [41:31<51:39,  2.03it/s] 41%|████      | 4401/10682 [41:31<51:51,  2.02it/s] 41%|████      | 4402/10682 [41:32<51:46,  2.02it/s] 41%|████      | 4403/10682 [41:32<51:47,  2.02it/s] 41%|████      | 4404/10682 [41:33<51:44,  2.02it/s] 41%|████      | 4405/10682 [41:33<51:44,  2.02it/s] 41%|████      | 4406/10682 [41:34<56:09,  1.86it/s] 41%|████▏     | 4407/10682 [41:35<54:49,  1.91it/s] 41%|████▏     | 4408/10682 [41:35<53:52,  1.94it/s] 41%|████▏     | 4409/10682 [41:36<53:10,  1.97it/s] 41%|████▏     | 4410/10682 [41:36<52:43,  1.98it/s] 41%|████▏     | 4411/10682 [41:37<52:23,  2.00it/s] 41%|████▏     | 4412/10682 [41:37<52:11,  2.00it/s] 41%|████▏     | 4413/10682 [41:37<52:00,  2.01it/s] 41%|████▏     | 4414/10682 [41:38<51:53,  2.01it/s] 41%|████▏     | 4415/10682 [41:38<51:47,  2.02it/s] 41%|████▏     | 4416/10682 [41:39<51:41,  2.02it/s] 41%|████▏     | 4417/10682 [41:39<51:40,  2.02it/s] 41%|████▏     | 4418/10682 [41:40<51:33,  2.03it/s] 41%|████▏     | 4419/10682 [41:40<51:34,  2.02it/s] 41%|████▏     | 4420/10682 [41:41<51:31,  2.03it/s] 41%|████▏     | 4421/10682 [41:41<51:33,  2.02it/s] 41%|████▏     | 4422/10682 [41:42<51:30,  2.03it/s] 41%|████▏     | 4423/10682 [41:42<51:28,  2.03it/s] 41%|████▏     | 4424/10682 [41:43<51:26,  2.03it/s] 41%|████▏     | 4425/10682 [41:43<51:27,  2.03it/s]                                                    {'loss': 3.4104, 'grad_norm': 0.24190546572208405, 'learning_rate': 0.0007282391860581049, 'epoch': 5.8}
- 41%|████▏     | 4425/10682 [41:43<51:27,  2.03it/s] 41%|████▏     | 4426/10682 [41:44<51:30,  2.02it/s] 41%|████▏     | 4427/10682 [41:44<51:31,  2.02it/s] 41%|████▏     | 4428/10682 [41:45<51:29,  2.02it/s] 41%|████▏     | 4429/10682 [41:45<51:28,  2.02it/s] 41%|████▏     | 4430/10682 [41:46<51:28,  2.02it/s] 41%|████▏     | 4431/10682 [41:46<51:25,  2.03it/s] 41%|████▏     | 4432/10682 [41:47<51:26,  2.02it/s] 41%|████▏     | 4433/10682 [41:47<51:22,  2.03it/s] 42%|████▏     | 4434/10682 [41:48<51:25,  2.02it/s] 42%|████▏     | 4435/10682 [41:48<51:21,  2.03it/s] 42%|████▏     | 4436/10682 [41:49<51:23,  2.03it/s] 42%|████▏     | 4437/10682 [41:49<51:20,  2.03it/s] 42%|████▏     | 4438/10682 [41:50<51:18,  2.03it/s] 42%|████▏     | 4439/10682 [41:50<51:19,  2.03it/s] 42%|████▏     | 4440/10682 [41:51<51:17,  2.03it/s] 42%|████▏     | 4441/10682 [41:51<51:20,  2.03it/s] 42%|████▏     | 4442/10682 [41:52<51:16,  2.03it/s] 42%|████▏     | 4443/10682 [41:52<51:18,  2.03it/s] 42%|████▏     | 4444/10682 [41:53<51:16,  2.03it/s] 42%|████▏     | 4445/10682 [41:53<51:15,  2.03it/s] 42%|████▏     | 4446/10682 [41:54<51:16,  2.03it/s] 42%|████▏     | 4447/10682 [41:54<51:12,  2.03it/s] 42%|████▏     | 4448/10682 [41:55<51:15,  2.03it/s] 42%|████▏     | 4449/10682 [41:55<51:15,  2.03it/s] 42%|████▏     | 4450/10682 [41:56<51:15,  2.03it/s]                                                    {'loss': 3.4176, 'grad_norm': 0.23106974363327026, 'learning_rate': 0.0007245969690625126, 'epoch': 5.83}
- 42%|████▏     | 4450/10682 [41:56<51:15,  2.03it/s] 42%|████▏     | 4451/10682 [41:56<51:17,  2.02it/s] 42%|████▏     | 4452/10682 [41:57<51:15,  2.03it/s] 42%|████▏     | 4453/10682 [41:57<55:38,  1.87it/s] 42%|████▏     | 4454/10682 [41:58<54:20,  1.91it/s] 42%|████▏     | 4455/10682 [41:58<53:21,  1.95it/s] 42%|████▏     | 4456/10682 [41:59<52:45,  1.97it/s] 42%|████▏     | 4457/10682 [41:59<52:15,  1.99it/s] 42%|████▏     | 4458/10682 [42:00<51:56,  2.00it/s] 42%|████▏     | 4459/10682 [42:00<51:44,  2.00it/s] 42%|████▏     | 4460/10682 [42:01<51:33,  2.01it/s] 42%|████▏     | 4461/10682 [42:01<51:27,  2.01it/s] 42%|████▏     | 4462/10682 [42:02<51:19,  2.02it/s] 42%|████▏     | 4463/10682 [42:02<51:15,  2.02it/s] 42%|████▏     | 4464/10682 [42:03<51:16,  2.02it/s] 42%|████▏     | 4465/10682 [42:03<51:14,  2.02it/s] 42%|████▏     | 4466/10682 [42:04<51:13,  2.02it/s] 42%|████▏     | 4467/10682 [42:04<51:11,  2.02it/s] 42%|████▏     | 4468/10682 [42:05<51:06,  2.03it/s] 42%|████▏     | 4469/10682 [42:05<51:09,  2.02it/s] 42%|████▏     | 4470/10682 [42:06<51:05,  2.03it/s] 42%|████▏     | 4471/10682 [42:06<51:06,  2.03it/s] 42%|████▏     | 4472/10682 [42:07<51:05,  2.03it/s] 42%|████▏     | 4473/10682 [42:07<51:05,  2.03it/s] 42%|████▏     | 4474/10682 [42:08<51:04,  2.03it/s] 42%|████▏     | 4475/10682 [42:08<51:03,  2.03it/s]                                                    {'loss': 3.4238, 'grad_norm': 0.22489795088768005, 'learning_rate': 0.0007209397599364363, 'epoch': 5.87}
- 42%|████▏     | 4475/10682 [42:08<51:03,  2.03it/s] 42%|████▏     | 4476/10682 [42:09<51:05,  2.02it/s] 42%|████▏     | 4477/10682 [42:09<51:02,  2.03it/s] 42%|████▏     | 4478/10682 [42:10<51:05,  2.02it/s] 42%|████▏     | 4479/10682 [42:10<51:02,  2.03it/s] 42%|████▏     | 4480/10682 [42:11<51:02,  2.03it/s] 42%|████▏     | 4481/10682 [42:11<51:00,  2.03it/s] 42%|████▏     | 4482/10682 [42:12<51:02,  2.02it/s] 42%|████▏     | 4483/10682 [42:12<51:02,  2.02it/s] 42%|████▏     | 4484/10682 [42:13<51:02,  2.02it/s] 42%|████▏     | 4485/10682 [42:13<50:59,  2.03it/s] 42%|████▏     | 4486/10682 [42:14<50:58,  2.03it/s] 42%|████▏     | 4487/10682 [42:14<50:59,  2.02it/s] 42%|████▏     | 4488/10682 [42:15<50:58,  2.02it/s] 42%|████▏     | 4489/10682 [42:15<50:59,  2.02it/s] 42%|████▏     | 4490/10682 [42:16<50:58,  2.02it/s] 42%|████▏     | 4491/10682 [42:16<50:58,  2.02it/s] 42%|████▏     | 4492/10682 [42:17<50:53,  2.03it/s] 42%|████▏     | 4493/10682 [42:17<50:54,  2.03it/s] 42%|████▏     | 4494/10682 [42:18<50:57,  2.02it/s] 42%|████▏     | 4495/10682 [42:18<51:00,  2.02it/s] 42%|████▏     | 4496/10682 [42:19<50:55,  2.02it/s] 42%|████▏     | 4497/10682 [42:19<50:56,  2.02it/s] 42%|████▏     | 4498/10682 [42:20<50:52,  2.03it/s] 42%|████▏     | 4499/10682 [42:20<50:52,  2.03it/s] 42%|████▏     | 4500/10682 [42:21<50:50,  2.03it/s]{'loss': 3.4161, 'grad_norm': 0.23912273347377777, 'learning_rate': 0.0007172678028031901, 'epoch': 5.9}                                                    
- 42%|████▏     | 4500/10682 [42:21<50:50,  2.03it/s] 42%|████▏     | 4501/10682 [42:21<50:57,  2.02it/s] 42%|████▏     | 4502/10682 [42:22<50:54,  2.02it/s] 42%|████▏     | 4503/10682 [42:22<50:53,  2.02it/s] 42%|████▏     | 4504/10682 [42:23<50:51,  2.02it/s] 42%|████▏     | 4505/10682 [42:23<50:47,  2.03it/s] 42%|████▏     | 4506/10682 [42:24<50:48,  2.03it/s] 42%|████▏     | 4507/10682 [42:24<50:45,  2.03it/s] 42%|████▏     | 4508/10682 [42:25<50:46,  2.03it/s] 42%|████▏     | 4509/10682 [42:25<50:44,  2.03it/s] 42%|████▏     | 4510/10682 [42:26<50:47,  2.02it/s] 42%|████▏     | 4511/10682 [42:26<50:46,  2.03it/s] 42%|████▏     | 4512/10682 [42:27<50:48,  2.02it/s] 42%|████▏     | 4513/10682 [42:27<50:50,  2.02it/s] 42%|████▏     | 4514/10682 [42:28<50:47,  2.02it/s] 42%|████▏     | 4515/10682 [42:28<50:46,  2.02it/s] 42%|████▏     | 4516/10682 [42:28<50:44,  2.03it/s] 42%|████▏     | 4517/10682 [42:29<50:43,  2.03it/s] 42%|████▏     | 4518/10682 [42:29<50:44,  2.02it/s] 42%|████▏     | 4519/10682 [42:30<50:43,  2.02it/s] 42%|████▏     | 4520/10682 [42:30<50:43,  2.02it/s] 42%|████▏     | 4521/10682 [42:31<50:48,  2.02it/s] 42%|████▏     | 4522/10682 [42:31<50:47,  2.02it/s] 42%|████▏     | 4523/10682 [42:32<50:45,  2.02it/s] 42%|████▏     | 4524/10682 [42:32<50:41,  2.02it/s] 42%|████▏     | 4525/10682 [42:33<50:42,  2.02it/s]                                                    {'loss': 3.4282, 'grad_norm': 0.23392973840236664, 'learning_rate': 0.0007135813427705359, 'epoch': 5.93}
- 42%|████▏     | 4525/10682 [42:33<50:42,  2.02it/s] 42%|████▏     | 4526/10682 [42:33<50:46,  2.02it/s] 42%|████▏     | 4527/10682 [42:34<50:44,  2.02it/s] 42%|████▏     | 4528/10682 [42:34<50:40,  2.02it/s] 42%|████▏     | 4529/10682 [42:35<50:39,  2.02it/s] 42%|████▏     | 4530/10682 [42:35<50:36,  2.03it/s] 42%|████▏     | 4531/10682 [42:36<50:36,  2.03it/s] 42%|████▏     | 4532/10682 [42:36<50:38,  2.02it/s] 42%|████▏     | 4533/10682 [42:37<50:37,  2.02it/s] 42%|████▏     | 4534/10682 [42:37<50:36,  2.02it/s] 42%|████▏     | 4535/10682 [42:38<50:36,  2.02it/s] 42%|████▏     | 4536/10682 [42:38<50:36,  2.02it/s] 42%|████▏     | 4537/10682 [42:39<50:35,  2.02it/s] 42%|████▏     | 4538/10682 [42:39<50:35,  2.02it/s] 42%|████▏     | 4539/10682 [42:40<50:33,  2.03it/s] 43%|████▎     | 4540/10682 [42:40<50:29,  2.03it/s] 43%|████▎     | 4541/10682 [42:41<50:32,  2.03it/s] 43%|████▎     | 4542/10682 [42:41<50:29,  2.03it/s] 43%|████▎     | 4543/10682 [42:42<50:33,  2.02it/s] 43%|████▎     | 4544/10682 [42:42<50:30,  2.03it/s] 43%|████▎     | 4545/10682 [42:43<50:29,  2.03it/s] 43%|████▎     | 4546/10682 [42:43<50:30,  2.02it/s] 43%|████▎     | 4547/10682 [42:44<50:26,  2.03it/s] 43%|████▎     | 4548/10682 [42:44<50:29,  2.03it/s] 43%|████▎     | 4549/10682 [42:45<50:26,  2.03it/s] 43%|████▎     | 4550/10682 [42:45<50:29,  2.02it/s]                                                    {'loss': 3.4188, 'grad_norm': 0.22306212782859802, 'learning_rate': 0.0007098806259143232, 'epoch': 5.96}
- 43%|████▎     | 4550/10682 [42:45<50:29,  2.02it/s] 43%|████▎     | 4551/10682 [42:46<50:29,  2.02it/s] 43%|████▎     | 4552/10682 [42:46<50:28,  2.02it/s] 43%|████▎     | 4553/10682 [42:47<50:25,  2.03it/s] 43%|████▎     | 4554/10682 [42:47<50:24,  2.03it/s] 43%|████▎     | 4555/10682 [42:48<50:24,  2.03it/s] 43%|████▎     | 4556/10682 [42:48<50:22,  2.03it/s] 43%|████▎     | 4557/10682 [42:49<50:24,  2.03it/s] 43%|████▎     | 4558/10682 [42:49<50:22,  2.03it/s] 43%|████▎     | 4559/10682 [42:50<50:21,  2.03it/s] 43%|████▎     | 4560/10682 [42:50<50:22,  2.03it/s] 43%|████▎     | 4561/10682 [42:51<50:23,  2.02it/s] 43%|████▎     | 4562/10682 [42:51<50:21,  2.03it/s] 43%|████▎     | 4563/10682 [42:52<50:24,  2.02it/s] 43%|████▎     | 4564/10682 [42:52<50:23,  2.02it/s] 43%|████▎     | 4565/10682 [42:53<50:22,  2.02it/s] 43%|████▎     | 4566/10682 [42:53<50:19,  2.03it/s] 43%|████▎     | 4567/10682 [42:54<50:19,  2.03it/s] 43%|████▎     | 4568/10682 [42:54<50:20,  2.02it/s] 43%|████▎     | 4569/10682 [42:55<50:18,  2.03it/s] 43%|████▎     | 4570/10682 [42:55<50:18,  2.02it/s] 43%|████▎     | 4571/10682 [42:56<50:17,  2.03it/s] 43%|████▎     | 4572/10682 [42:56<50:18,  2.02it/s] 43%|████▎     | 4573/10682 [42:57<50:16,  2.03it/s] 43%|████▎     | 4574/10682 [42:57<50:19,  2.02it/s] 43%|████▎     | 4575/10682 [42:58<50:18,  2.02it/s]                                                    {'loss': 3.4166, 'grad_norm': 0.23451775312423706, 'learning_rate': 0.0007061658992620613, 'epoch': 6.0}
- 43%|████▎     | 4575/10682 [42:58<50:18,  2.02it/s] 43%|████▎     | 4576/10682 [42:58<50:24,  2.02it/s] 43%|████▎     | 4577/10682 [42:59<50:18,  2.02it/s] 43%|████▎     | 4578/10682 [42:59<49:50,  2.04it/s] 43%|████▎     | 4579/10682 [43:20<11:15:16,  6.64s/it] 43%|████▎     | 4580/10682 [43:21<8:07:52,  4.80s/it]  43%|████▎     | 4581/10682 [43:21<5:56:27,  3.51s/it] 43%|████▎     | 4582/10682 [43:22<4:24:33,  2.60s/it] 43%|████▎     | 4583/10682 [43:22<3:20:13,  1.97s/it] 43%|████▎     | 4584/10682 [43:23<2:35:13,  1.53s/it] 43%|████▎     | 4585/10682 [43:23<2:03:42,  1.22s/it] 43%|████▎     | 4586/10682 [43:24<1:41:39,  1.00s/it] 43%|████▎     | 4587/10682 [43:24<1:26:17,  1.18it/s] 43%|████▎     | 4588/10682 [43:25<1:15:25,  1.35it/s] 43%|████▎     | 4589/10682 [43:25<1:07:51,  1.50it/s] 43%|████▎     | 4590/10682 [43:26<1:02:34,  1.62it/s] 43%|████▎     | 4591/10682 [43:26<58:47,  1.73it/s]   43%|████▎     | 4592/10682 [43:27<56:12,  1.81it/s] 43%|████▎     | 4593/10682 [43:27<54:24,  1.87it/s] 43%|████▎     | 4594/10682 [43:28<53:05,  1.91it/s] 43%|████▎     | 4595/10682 [43:28<52:11,  1.94it/s] 43%|████▎     | 4596/10682 [43:28<51:29,  1.97it/s] 43%|████▎     | 4597/10682 [43:29<51:05,  1.98it/s] 43%|████▎     | 4598/10682 [43:29<50:48,  2.00it/s] 43%|████▎     | 4599/10682 [43:30<50:37,  2.00it/s] 43%|████▎     | 4600/10682 [43:30<50:25,  2.01it/s]{'loss': 3.2817, 'grad_norm': 0.2320341169834137, 'learning_rate': 0.0007024374107764318, 'epoch': 6.03}
-                                                     43%|████▎     | 4600/10682 [43:30<50:25,  2.01it/s] 43%|████▎     | 4601/10682 [43:31<50:24,  2.01it/s] 43%|████▎     | 4602/10682 [43:31<50:18,  2.01it/s] 43%|████▎     | 4603/10682 [43:32<50:16,  2.02it/s] 43%|████▎     | 4604/10682 [43:32<50:09,  2.02it/s] 43%|████▎     | 4605/10682 [43:33<50:10,  2.02it/s] 43%|████▎     | 4606/10682 [43:33<50:04,  2.02it/s] 43%|████▎     | 4607/10682 [43:34<50:07,  2.02it/s] 43%|████▎     | 4608/10682 [43:34<50:04,  2.02it/s] 43%|████▎     | 4609/10682 [43:35<50:04,  2.02it/s] 43%|████▎     | 4610/10682 [43:35<50:02,  2.02it/s] 43%|████▎     | 4611/10682 [43:36<50:01,  2.02it/s] 43%|████▎     | 4612/10682 [43:36<49:57,  2.02it/s] 43%|████▎     | 4613/10682 [43:37<49:57,  2.02it/s] 43%|████▎     | 4614/10682 [43:37<49:53,  2.03it/s] 43%|████▎     | 4615/10682 [43:38<49:53,  2.03it/s] 43%|████▎     | 4616/10682 [43:38<49:51,  2.03it/s] 43%|████▎     | 4617/10682 [43:39<49:50,  2.03it/s] 43%|████▎     | 4618/10682 [43:39<49:52,  2.03it/s] 43%|████▎     | 4619/10682 [43:40<49:50,  2.03it/s] 43%|████▎     | 4620/10682 [43:40<49:49,  2.03it/s] 43%|████▎     | 4621/10682 [43:41<49:48,  2.03it/s] 43%|████▎     | 4622/10682 [43:41<49:47,  2.03it/s] 43%|████▎     | 4623/10682 [43:42<49:48,  2.03it/s] 43%|████▎     | 4624/10682 [43:42<49:45,  2.03it/s] 43%|████▎     | 4625/10682 [43:43<49:48,  2.03it/s]{'loss': 3.2628, 'grad_norm': 0.2329077571630478, 'learning_rate': 0.0006986954093387361, 'epoch': 6.06}                                                    
- 43%|████▎     | 4625/10682 [43:43<49:48,  2.03it/s] 43%|████▎     | 4626/10682 [43:43<49:50,  2.03it/s] 43%|████▎     | 4627/10682 [43:44<49:50,  2.02it/s] 43%|████▎     | 4628/10682 [43:44<49:48,  2.03it/s] 43%|████▎     | 4629/10682 [43:45<49:48,  2.03it/s] 43%|████▎     | 4630/10682 [43:45<49:49,  2.02it/s] 43%|████▎     | 4631/10682 [43:46<49:48,  2.02it/s] 43%|████▎     | 4632/10682 [43:46<49:49,  2.02it/s] 43%|████▎     | 4633/10682 [43:47<49:47,  2.02it/s] 43%|████▎     | 4634/10682 [43:47<49:47,  2.02it/s] 43%|████▎     | 4635/10682 [43:48<49:45,  2.03it/s] 43%|████▎     | 4636/10682 [43:48<49:44,  2.03it/s] 43%|████▎     | 4637/10682 [43:49<49:47,  2.02it/s] 43%|████▎     | 4638/10682 [43:49<49:44,  2.03it/s] 43%|████▎     | 4639/10682 [43:50<49:44,  2.02it/s] 43%|████▎     | 4640/10682 [43:50<49:40,  2.03it/s] 43%|████▎     | 4641/10682 [43:51<49:42,  2.03it/s] 43%|████▎     | 4642/10682 [43:51<49:38,  2.03it/s] 43%|████▎     | 4643/10682 [43:52<49:39,  2.03it/s] 43%|████▎     | 4644/10682 [43:52<49:38,  2.03it/s] 43%|████▎     | 4645/10682 [43:53<49:34,  2.03it/s] 43%|████▎     | 4646/10682 [43:53<49:37,  2.03it/s] 44%|████▎     | 4647/10682 [43:54<49:35,  2.03it/s] 44%|████▎     | 4648/10682 [43:54<49:36,  2.03it/s] 44%|████▎     | 4649/10682 [43:55<49:37,  2.03it/s] 44%|████▎     | 4650/10682 [43:55<49:38,  2.03it/s]                                                    {'loss': 3.2687, 'grad_norm': 0.22925671935081482, 'learning_rate': 0.0006949401447322816, 'epoch': 6.09}
- 44%|████▎     | 4650/10682 [43:55<49:38,  2.03it/s] 44%|████▎     | 4651/10682 [43:56<49:38,  2.03it/s] 44%|████▎     | 4652/10682 [43:56<49:40,  2.02it/s] 44%|████▎     | 4653/10682 [43:57<49:37,  2.03it/s] 44%|████▎     | 4654/10682 [43:57<49:34,  2.03it/s] 44%|████▎     | 4655/10682 [43:58<49:36,  2.03it/s] 44%|████▎     | 4656/10682 [43:58<49:33,  2.03it/s] 44%|████▎     | 4657/10682 [43:59<49:34,  2.03it/s] 44%|████▎     | 4658/10682 [43:59<49:29,  2.03it/s] 44%|████▎     | 4659/10682 [44:00<49:29,  2.03it/s] 44%|████▎     | 4660/10682 [44:00<49:30,  2.03it/s] 44%|████▎     | 4661/10682 [44:01<49:30,  2.03it/s] 44%|████▎     | 4662/10682 [44:01<49:32,  2.03it/s] 44%|████▎     | 4663/10682 [44:02<49:30,  2.03it/s] 44%|████▎     | 4664/10682 [44:02<49:32,  2.02it/s] 44%|████▎     | 4665/10682 [44:03<49:32,  2.02it/s] 44%|████▎     | 4666/10682 [44:03<49:31,  2.02it/s] 44%|████▎     | 4667/10682 [44:04<49:31,  2.02it/s] 44%|████▎     | 4668/10682 [44:04<49:31,  2.02it/s] 44%|████▎     | 4669/10682 [44:05<49:30,  2.02it/s] 44%|████▎     | 4670/10682 [44:05<49:30,  2.02it/s] 44%|████▎     | 4671/10682 [44:06<49:30,  2.02it/s] 44%|████▎     | 4672/10682 [44:06<49:31,  2.02it/s] 44%|████▎     | 4673/10682 [44:07<49:28,  2.02it/s] 44%|████▍     | 4674/10682 [44:07<49:24,  2.03it/s] 44%|████▍     | 4675/10682 [44:08<49:25,  2.03it/s]{'loss': 3.264, 'grad_norm': 0.23595142364501953, 'learning_rate': 0.0006911718676257091, 'epoch': 6.13}                                                    
- 44%|████▍     | 4675/10682 [44:08<49:25,  2.03it/s] 44%|████▍     | 4676/10682 [44:08<49:25,  2.03it/s] 44%|████▍     | 4677/10682 [44:08<49:29,  2.02it/s] 44%|████▍     | 4678/10682 [44:09<49:24,  2.03it/s] 44%|████▍     | 4679/10682 [44:09<49:23,  2.03it/s] 44%|████▍     | 4680/10682 [44:10<49:23,  2.03it/s] 44%|████▍     | 4681/10682 [44:10<49:21,  2.03it/s] 44%|████▍     | 4682/10682 [44:11<49:24,  2.02it/s] 44%|████▍     | 4683/10682 [44:11<49:21,  2.03it/s] 44%|████▍     | 4684/10682 [44:12<49:23,  2.02it/s] 44%|████▍     | 4685/10682 [44:12<49:21,  2.03it/s] 44%|████▍     | 4686/10682 [44:13<49:21,  2.02it/s] 44%|████▍     | 4687/10682 [44:13<49:19,  2.03it/s] 44%|████▍     | 4688/10682 [44:14<49:16,  2.03it/s] 44%|████▍     | 4689/10682 [44:14<49:19,  2.03it/s] 44%|████▍     | 4690/10682 [44:15<49:17,  2.03it/s] 44%|████▍     | 4691/10682 [44:15<49:19,  2.02it/s] 44%|████▍     | 4692/10682 [44:16<49:16,  2.03it/s] 44%|████▍     | 4693/10682 [44:16<49:16,  2.03it/s] 44%|████▍     | 4694/10682 [44:17<49:16,  2.03it/s] 44%|████▍     | 4695/10682 [44:17<49:14,  2.03it/s] 44%|████▍     | 4696/10682 [44:18<49:13,  2.03it/s] 44%|████▍     | 4697/10682 [44:18<49:13,  2.03it/s] 44%|████▍     | 4698/10682 [44:19<49:11,  2.03it/s] 44%|████▍     | 4699/10682 [44:19<49:12,  2.03it/s] 44%|████▍     | 4700/10682 [44:20<49:12,  2.03it/s]{'loss': 3.2979, 'grad_norm': 0.2368357926607132, 'learning_rate': 0.0006873908295562602, 'epoch': 6.16}                                                    
- 44%|████▍     | 4700/10682 [44:20<49:12,  2.03it/s] 44%|████▍     | 4701/10682 [44:20<49:15,  2.02it/s] 44%|████▍     | 4702/10682 [44:21<49:13,  2.02it/s] 44%|████▍     | 4703/10682 [44:21<49:10,  2.03it/s] 44%|████▍     | 4704/10682 [44:22<49:10,  2.03it/s] 44%|████▍     | 4705/10682 [44:22<49:08,  2.03it/s] 44%|████▍     | 4706/10682 [44:23<49:10,  2.03it/s] 44%|████▍     | 4707/10682 [44:23<49:08,  2.03it/s] 44%|████▍     | 4708/10682 [44:24<49:12,  2.02it/s] 44%|████▍     | 4709/10682 [44:24<49:10,  2.02it/s] 44%|████▍     | 4710/10682 [44:25<49:10,  2.02it/s] 44%|████▍     | 4711/10682 [44:25<49:08,  2.02it/s] 44%|████▍     | 4712/10682 [44:26<49:06,  2.03it/s] 44%|████▍     | 4713/10682 [44:26<49:07,  2.02it/s] 44%|████▍     | 4714/10682 [44:27<49:04,  2.03it/s] 44%|████▍     | 4715/10682 [44:27<49:06,  2.03it/s] 44%|████▍     | 4716/10682 [44:28<49:04,  2.03it/s] 44%|████▍     | 4717/10682 [44:28<49:07,  2.02it/s] 44%|████▍     | 4718/10682 [44:29<49:04,  2.03it/s] 44%|████▍     | 4719/10682 [44:29<49:06,  2.02it/s] 44%|████▍     | 4720/10682 [44:30<49:04,  2.02it/s] 44%|████▍     | 4721/10682 [44:30<49:05,  2.02it/s] 44%|████▍     | 4722/10682 [44:31<49:01,  2.03it/s] 44%|████▍     | 4723/10682 [44:31<49:03,  2.02it/s] 44%|████▍     | 4724/10682 [44:32<49:01,  2.03it/s] 44%|████▍     | 4725/10682 [44:32<48:58,  2.03it/s]                                                    {'loss': 3.2825, 'grad_norm': 0.23778265714645386, 'learning_rate': 0.0006835972829129873, 'epoch': 6.19}
- 44%|████▍     | 4725/10682 [44:32<48:58,  2.03it/s] 44%|████▍     | 4726/10682 [44:33<49:03,  2.02it/s] 44%|████▍     | 4727/10682 [44:33<48:58,  2.03it/s] 44%|████▍     | 4728/10682 [44:34<49:00,  2.02it/s] 44%|████▍     | 4729/10682 [44:34<48:58,  2.03it/s] 44%|████▍     | 4730/10682 [44:35<48:59,  2.03it/s] 44%|████▍     | 4731/10682 [44:35<48:56,  2.03it/s] 44%|████▍     | 4732/10682 [44:36<48:56,  2.03it/s] 44%|████▍     | 4733/10682 [44:36<48:56,  2.03it/s] 44%|████▍     | 4734/10682 [44:37<48:54,  2.03it/s] 44%|████▍     | 4735/10682 [44:37<48:55,  2.03it/s] 44%|████▍     | 4736/10682 [44:38<48:54,  2.03it/s] 44%|████▍     | 4737/10682 [44:38<48:55,  2.03it/s] 44%|████▍     | 4738/10682 [44:39<48:52,  2.03it/s] 44%|████▍     | 4739/10682 [44:39<48:55,  2.02it/s] 44%|████▍     | 4740/10682 [44:40<48:50,  2.03it/s] 44%|████▍     | 4741/10682 [44:40<48:52,  2.03it/s] 44%|████▍     | 4742/10682 [44:41<48:52,  2.03it/s] 44%|████▍     | 4743/10682 [44:41<48:52,  2.03it/s] 44%|████▍     | 4744/10682 [44:42<48:52,  2.02it/s] 44%|████▍     | 4745/10682 [44:42<48:51,  2.03it/s] 44%|████▍     | 4746/10682 [44:43<48:51,  2.03it/s] 44%|████▍     | 4747/10682 [44:43<48:49,  2.03it/s] 44%|████▍     | 4748/10682 [44:44<48:52,  2.02it/s] 44%|████▍     | 4749/10682 [44:44<48:48,  2.03it/s] 44%|████▍     | 4750/10682 [44:45<48:50,  2.02it/s]{'loss': 3.2932, 'grad_norm': 0.23591317236423492, 'learning_rate': 0.000679791480919905, 'epoch': 6.23}                                                    
- 44%|████▍     | 4750/10682 [44:45<48:50,  2.02it/s] 44%|████▍     | 4751/10682 [44:45<48:49,  2.02it/s] 44%|████▍     | 4752/10682 [44:46<48:50,  2.02it/s] 44%|████▍     | 4753/10682 [44:46<48:49,  2.02it/s] 45%|████▍     | 4754/10682 [44:47<48:48,  2.02it/s] 45%|████▍     | 4755/10682 [44:47<48:47,  2.02it/s] 45%|████▍     | 4756/10682 [44:47<48:46,  2.03it/s] 45%|████▍     | 4757/10682 [44:48<48:44,  2.03it/s] 45%|████▍     | 4758/10682 [44:48<48:40,  2.03it/s] 45%|████▍     | 4759/10682 [44:49<48:43,  2.03it/s] 45%|████▍     | 4760/10682 [44:49<48:41,  2.03it/s] 45%|████▍     | 4761/10682 [44:50<48:39,  2.03it/s] 45%|████▍     | 4762/10682 [44:50<48:38,  2.03it/s] 45%|████▍     | 4763/10682 [44:51<48:35,  2.03it/s] 45%|████▍     | 4764/10682 [44:51<48:39,  2.03it/s] 45%|████▍     | 4765/10682 [44:52<48:38,  2.03it/s] 45%|████▍     | 4766/10682 [44:52<48:37,  2.03it/s] 45%|████▍     | 4767/10682 [44:53<48:39,  2.03it/s] 45%|████▍     | 4768/10682 [44:53<48:36,  2.03it/s] 45%|████▍     | 4769/10682 [44:54<48:37,  2.03it/s] 45%|███���▍     | 4770/10682 [44:54<48:35,  2.03it/s] 45%|████▍     | 4771/10682 [44:55<48:35,  2.03it/s] 45%|████▍     | 4772/10682 [44:55<48:35,  2.03it/s] 45%|████▍     | 4773/10682 [44:56<48:33,  2.03it/s] 45%|████▍     | 4774/10682 [44:56<48:36,  2.03it/s] 45%|████▍     | 4775/10682 [44:57<48:36,  2.03it/s]{'loss': 3.3021, 'grad_norm': 0.24273261427879333, 'learning_rate': 0.000675973677619089, 'epoch': 6.26}
-                                                     45%|████▍     | 4775/10682 [44:57<48:36,  2.03it/s] 45%|████▍     | 4776/10682 [44:57<48:46,  2.02it/s] 45%|████▍     | 4777/10682 [44:58<48:40,  2.02it/s] 45%|████▍     | 4778/10682 [44:58<48:39,  2.02it/s] 45%|████▍     | 4779/10682 [44:59<48:38,  2.02it/s] 45%|████▍     | 4780/10682 [44:59<48:36,  2.02it/s] 45%|████▍     | 4781/10682 [45:00<48:36,  2.02it/s] 45%|████▍     | 4782/10682 [45:00<48:30,  2.03it/s] 45%|████▍     | 4783/10682 [45:01<48:33,  2.02it/s] 45%|████▍     | 4784/10682 [45:01<48:30,  2.03it/s] 45%|████▍     | 4785/10682 [45:02<48:30,  2.03it/s] 45%|████▍     | 4786/10682 [45:02<48:28,  2.03it/s] 45%|████▍     | 4787/10682 [45:03<48:27,  2.03it/s] 45%|████▍     | 4788/10682 [45:03<48:28,  2.03it/s] 45%|████▍     | 4789/10682 [45:04<48:25,  2.03it/s] 45%|████▍     | 4790/10682 [45:04<48:27,  2.03it/s] 45%|████▍     | 4791/10682 [45:05<48:25,  2.03it/s] 45%|████▍     | 4792/10682 [45:05<48:26,  2.03it/s] 45%|████▍     | 4793/10682 [45:06<48:23,  2.03it/s] 45%|████▍     | 4794/10682 [45:06<48:22,  2.03it/s] 45%|████▍     | 4795/10682 [45:07<48:23,  2.03it/s] 45%|████▍     | 4796/10682 [45:07<48:20,  2.03it/s] 45%|████▍     | 4797/10682 [45:08<48:22,  2.03it/s] 45%|████▍     | 4798/10682 [45:08<48:19,  2.03it/s] 45%|████▍     | 4799/10682 [45:09<48:19,  2.03it/s] 45%|████▍     | 4800/10682 [45:09<48:19,  2.03it/s]{'loss': 3.3012, 'grad_norm': 0.23455499112606049, 'learning_rate': 0.0006721441278537161, 'epoch': 6.29}
-                                                     45%|████▍     | 4800/10682 [45:09<48:19,  2.03it/s] 45%|████▍     | 4801/10682 [45:10<48:35,  2.02it/s] 45%|████▍     | 4802/10682 [45:10<48:28,  2.02it/s] 45%|████▍     | 4803/10682 [45:11<48:27,  2.02it/s] 45%|████▍     | 4804/10682 [45:11<48:25,  2.02it/s] 45%|████▍     | 4805/10682 [45:12<48:24,  2.02it/s] 45%|████▍     | 4806/10682 [45:12<48:24,  2.02it/s] 45%|████▌     | 4807/10682 [45:13<48:24,  2.02it/s] 45%|████▌     | 4808/10682 [45:13<48:25,  2.02it/s] 45%|████▌     | 4809/10682 [45:14<48:23,  2.02it/s] 45%|████▌     | 4810/10682 [45:14<48:24,  2.02it/s] 45%|████▌     | 4811/10682 [45:15<48:22,  2.02it/s] 45%|████▌     | 4812/10682 [45:15<48:24,  2.02it/s] 45%|████▌     | 4813/10682 [45:16<48:23,  2.02it/s] 45%|████▌     | 4814/10682 [45:16<48:22,  2.02it/s] 45%|████▌     | 4815/10682 [45:17<48:18,  2.02it/s] 45%|████▌     | 4816/10682 [45:17<48:18,  2.02it/s] 45%|████▌     | 4817/10682 [45:18<48:17,  2.02it/s] 45%|████▌     | 4818/10682 [45:18<48:16,  2.02it/s] 45%|████▌     | 4819/10682 [45:19<48:16,  2.02it/s] 45%|████▌     | 4820/10682 [45:19<48:14,  2.03it/s] 45%|████▌     | 4821/10682 [45:20<48:14,  2.02it/s] 45%|████▌     | 4822/10682 [45:20<48:12,  2.03it/s] 45%|████▌     | 4823/10682 [45:21<48:12,  2.03it/s] 45%|████▌     | 4824/10682 [45:21<48:13,  2.02it/s] 45%|████▌     | 4825/10682 [45:22<48:11,  2.03it/s]                                                    {'loss': 3.3167, 'grad_norm': 0.2377278059720993, 'learning_rate': 0.0006683030872510552, 'epoch': 6.32}
- 45%|████▌     | 4825/10682 [45:22<48:11,  2.03it/s] 45%|████▌     | 4826/10682 [45:22<48:16,  2.02it/s] 45%|████▌     | 4827/10682 [45:23<48:11,  2.03it/s] 45%|████▌     | 4828/10682 [45:23<48:10,  2.03it/s] 45%|████▌     | 4829/10682 [45:24<48:08,  2.03it/s] 45%|████▌     | 4830/10682 [45:24<48:06,  2.03it/s] 45%|████▌     | 4831/10682 [45:25<48:08,  2.03it/s] 45%|████▌     | 4832/10682 [45:25<48:06,  2.03it/s] 45%|████▌     | 4833/10682 [45:26<48:07,  2.03it/s] 45%|████▌     | 4834/10682 [45:26<48:07,  2.03it/s] 45%|████▌     | 4835/10682 [45:27<48:08,  2.02it/s] 45%|████▌     | 4836/10682 [45:27<48:10,  2.02it/s] 45%|████▌     | 4837/10682 [45:27<48:10,  2.02it/s] 45%|████▌     | 4838/10682 [45:28<48:11,  2.02it/s] 45%|████▌     | 4839/10682 [45:28<48:09,  2.02it/s] 45%|████▌     | 4840/10682 [45:29<48:11,  2.02it/s] 45%|████▌     | 4841/10682 [45:29<48:08,  2.02it/s] 45%|████▌     | 4842/10682 [45:30<48:08,  2.02it/s] 45%|████▌     | 4843/10682 [45:30<48:05,  2.02it/s] 45%|████▌     | 4844/10682 [45:31<48:06,  2.02it/s] 45%|████▌     | 4845/10682 [45:31<48:03,  2.02it/s] 45%|████▌     | 4846/10682 [45:32<48:03,  2.02it/s] 45%|████▌     | 4847/10682 [45:32<48:02,  2.02it/s] 45%|████▌     | 4848/10682 [45:33<48:03,  2.02it/s] 45%|████▌     | 4849/10682 [45:33<48:03,  2.02it/s] 45%|████▌     | 4850/10682 [45:34<48:01,  2.02it/s]{'loss': 3.3131, 'grad_norm': 0.23274897038936615, 'learning_rate': 0.0006644508122054031, 'epoch': 6.36}                                                    
- 45%|████▌     | 4850/10682 [45:34<48:01,  2.02it/s] 45%|████▌     | 4851/10682 [45:34<48:02,  2.02it/s] 45%|████▌     | 4852/10682 [45:35<47:56,  2.03it/s] 45%|████▌     | 4853/10682 [45:35<47:58,  2.02it/s] 45%|████▌     | 4854/10682 [45:36<47:54,  2.03it/s] 45%|████▌     | 4855/10682 [45:36<47:55,  2.03it/s] 45%|████▌     | 4856/10682 [45:37<47:53,  2.03it/s] 45%|████▌     | 4857/10682 [45:37<47:55,  2.03it/s] 45%|████▌     | 4858/10682 [45:38<47:54,  2.03it/s] 45%|████▌     | 4859/10682 [45:38<47:53,  2.03it/s] 45%|████▌     | 4860/10682 [45:39<47:53,  2.03it/s] 46%|████▌     | 4861/10682 [45:39<47:52,  2.03it/s] 46%|████▌     | 4862/10682 [45:40<47:54,  2.02it/s] 46%|████▌     | 4863/10682 [45:40<47:51,  2.03it/s] 46%|████▌     | 4864/10682 [45:41<47:53,  2.02it/s] 46%|████▌     | 4865/10682 [45:41<47:49,  2.03it/s] 46%|████▌     | 4866/10682 [45:42<47:50,  2.03it/s] 46%|████▌     | 4867/10682 [45:42<47:50,  2.03it/s] 46%|████▌     | 4868/10682 [45:43<47:51,  2.02it/s] 46%|████▌     | 4869/10682 [45:43<47:49,  2.03it/s] 46%|████▌     | 4870/10682 [45:44<47:51,  2.02it/s] 46%|████▌     | 4871/10682 [45:44<47:52,  2.02it/s] 46%|████▌     | 4872/10682 [45:45<47:53,  2.02it/s] 46%|████▌     | 4873/10682 [45:45<47:52,  2.02it/s] 46%|████▌     | 4874/10682 [45:46<47:51,  2.02it/s] 46%|████▌     | 4875/10682 [45:46<47:51,  2.02it/s]                                                    {'loss': 3.31, 'grad_norm': 0.23522105813026428, 'learning_rate': 0.0006605875598609699, 'epoch': 6.39}
- 46%|████▌     | 4875/10682 [45:46<47:51,  2.02it/s] 46%|████▌     | 4876/10682 [45:47<47:51,  2.02it/s] 46%|████▌     | 4877/10682 [45:47<47:51,  2.02it/s] 46%|████▌     | 4878/10682 [45:48<47:47,  2.02it/s] 46%|████▌     | 4879/10682 [45:48<47:48,  2.02it/s] 46%|████▌     | 4880/10682 [45:49<47:45,  2.02it/s] 46%|████▌     | 4881/10682 [45:49<47:48,  2.02it/s] 46%|████▌     | 4882/10682 [45:50<47:44,  2.02it/s] 46%|████▌     | 4883/10682 [45:50<47:45,  2.02it/s] 46%|████▌     | 4884/10682 [45:51<47:41,  2.03it/s] 46%|████▌     | 4885/10682 [45:51<47:43,  2.02it/s] 46%|████▌     | 4886/10682 [45:52<47:40,  2.03it/s] 46%|████▌     | 4887/10682 [45:52<47:39,  2.03it/s] 46%|████▌     | 4888/10682 [45:53<47:41,  2.02it/s] 46%|████▌     | 4889/10682 [45:53<47:40,  2.03it/s] 46%|████▌     | 4890/10682 [45:54<47:42,  2.02it/s] 46%|████▌     | 4891/10682 [45:54<47:41,  2.02it/s] 46%|████▌     | 4892/10682 [45:55<47:42,  2.02it/s] 46%|████▌     | 4893/10682 [45:55<47:42,  2.02it/s] 46%|████▌     | 4894/10682 [45:56<47:42,  2.02it/s] 46%|████▌     | 4895/10682 [45:56<47:39,  2.02it/s] 46%|████▌     | 4896/10682 [45:57<47:40,  2.02it/s] 46%|████▌     | 4897/10682 [45:57<47:39,  2.02it/s] 46%|████▌     | 4898/10682 [45:58<47:39,  2.02it/s] 46%|████▌     | 4899/10682 [45:58<47:38,  2.02it/s] 46%|████▌     | 4900/10682 [45:59<47:36,  2.02it/s]{'loss': 3.3238, 'grad_norm': 0.25403517484664917, 'learning_rate': 0.0006567135880947134, 'epoch': 6.42}                                                    
- 46%|████▌     | 4900/10682 [45:59<47:36,  2.02it/s] 46%|████▌     | 4901/10682 [45:59<47:40,  2.02it/s] 46%|████▌     | 4902/10682 [46:00<47:40,  2.02it/s] 46%|████▌     | 4903/10682 [46:00<47:40,  2.02it/s] 46%|████▌     | 4904/10682 [46:01<47:39,  2.02it/s] 46%|████▌     | 4905/10682 [46:01<47:37,  2.02it/s] 46%|████▌     | 4906/10682 [46:02<47:32,  2.03it/s] 46%|████▌     | 4907/10682 [46:02<47:36,  2.02it/s] 46%|████▌     | 4908/10682 [46:03<47:36,  2.02it/s] 46%|████▌     | 4909/10682 [46:03<47:36,  2.02it/s] 46%|████▌     | 4910/10682 [46:04<47:31,  2.02it/s] 46%|████▌     | 4911/10682 [46:04<47:31,  2.02it/s] 46%|████▌     | 4912/10682 [46:05<47:29,  2.03it/s] 46%|████▌     | 4913/10682 [46:05<47:30,  2.02it/s] 46%|████▌     | 4914/10682 [46:06<47:30,  2.02it/s] 46%|████▌     | 4915/10682 [46:06<47:29,  2.02it/s] 46%|████▌     | 4916/10682 [46:07<47:30,  2.02it/s] 46%|████▌     | 4917/10682 [46:07<47:31,  2.02it/s] 46%|████▌     | 4918/10682 [46:08<47:31,  2.02it/s] 46%|████▌     | 4919/10682 [46:08<47:31,  2.02it/s] 46%|████▌     | 4920/10682 [46:09<47:32,  2.02it/s] 46%|████▌     | 4921/10682 [46:09<47:29,  2.02it/s] 46%|████▌     | 4922/10682 [46:09<47:28,  2.02it/s] 46%|████▌     | 4923/10682 [46:10<47:27,  2.02it/s] 46%|████▌     | 4924/10682 [46:10<47:27,  2.02it/s] 46%|████▌     | 4925/10682 [46:11<47:24,  2.02it/s]{'loss': 3.3167, 'grad_norm': 0.2345258593559265, 'learning_rate': 0.0006528291554991272, 'epoch': 6.45}                                                    
- 46%|████▌     | 4925/10682 [46:11<47:24,  2.02it/s] 46%|████▌     | 4926/10682 [46:11<47:38,  2.01it/s] 46%|████▌     | 4927/10682 [46:12<47:32,  2.02it/s] 46%|████▌     | 4928/10682 [46:12<47:30,  2.02it/s] 46%|████▌     | 4929/10682 [46:13<47:28,  2.02it/s] 46%|████▌     | 4930/10682 [46:13<47:23,  2.02it/s] 46%|████▌     | 4931/10682 [46:14<47:21,  2.02it/s] 46%|████▌     | 4932/10682 [46:14<47:21,  2.02it/s] 46%|████▌     | 4933/10682 [46:15<47:18,  2.03it/s] 46%|████▌     | 4934/10682 [46:15<47:20,  2.02it/s] 46%|████▌     | 4935/10682 [46:16<47:17,  2.03it/s] 46%|████▌     | 4936/10682 [46:16<47:18,  2.02it/s] 46%|████▌     | 4937/10682 [46:17<47:15,  2.03it/s] 46%|████▌     | 4938/10682 [46:17<47:15,  2.03it/s] 46%|████▌     | 4939/10682 [46:18<47:16,  2.02it/s] 46%|████▌     | 4940/10682 [46:18<47:18,  2.02it/s] 46%|████▋     | 4941/10682 [46:19<47:16,  2.02it/s] 46%|████▋     | 4942/10682 [46:19<47:15,  2.02it/s] 46%|████▋     | 4943/10682 [46:20<47:15,  2.02it/s] 46%|████▋     | 4944/10682 [46:20<47:13,  2.03it/s] 46%|████▋     | 4945/10682 [46:21<47:14,  2.02it/s] 46%|████▋     | 4946/10682 [46:21<47:12,  2.02it/s] 46%|████▋     | 4947/10682 [46:22<47:12,  2.02it/s] 46%|████▋     | 4948/10682 [46:22<47:09,  2.03it/s] 46%|████▋     | 4949/10682 [46:23<47:10,  2.03it/s] 46%|████▋     | 4950/10682 [46:23<47:11,  2.02it/s]{'loss': 3.3102, 'grad_norm': 0.23773372173309326, 'learning_rate': 0.0006489345213649782, 'epoch': 6.49}                                                    
- 46%|████▋     | 4950/10682 [46:23<47:11,  2.02it/s] 46%|████▋     | 4951/10682 [46:24<47:17,  2.02it/s] 46%|████▋     | 4952/10682 [46:24<47:13,  2.02it/s] 46%|████▋     | 4953/10682 [46:25<47:11,  2.02it/s] 46%|████▋     | 4954/10682 [46:25<47:09,  2.02it/s] 46%|████▋     | 4955/10682 [46:26<47:06,  2.03it/s] 46%|████▋     | 4956/10682 [46:26<47:07,  2.03it/s] 46%|████▋     | 4957/10682 [46:27<47:03,  2.03it/s] 46%|████▋     | 4958/10682 [46:27<47:04,  2.03it/s] 46%|████▋     | 4959/10682 [46:28<47:05,  2.03it/s] 46%|████▋     | 4960/10682 [46:28<47:04,  2.03it/s] 46%|████▋     | 4961/10682 [46:29<47:04,  2.03it/s] 46%|████▋     | 4962/10682 [46:29<47:04,  2.03it/s] 46%|████▋     | 4963/10682 [46:30<47:01,  2.03it/s] 46%|████▋     | 4964/10682 [46:30<47:03,  2.03it/s] 46%|████▋     | 4965/10682 [46:31<47:02,  2.03it/s] 46%|████▋     | 4966/10682 [46:31<47:01,  2.03it/s] 46%|████▋     | 4967/10682 [46:32<47:03,  2.02it/s] 47%|████▋     | 4968/10682 [46:32<47:00,  2.03it/s] 47%|████▋     | 4969/10682 [46:33<47:02,  2.02it/s] 47%|████▋     | 4970/10682 [46:33<46:57,  2.03it/s] 47%|████▋     | 4971/10682 [46:34<46:56,  2.03it/s] 47%|████▋     | 4972/10682 [46:34<46:58,  2.03it/s] 47%|████▋     | 4973/10682 [46:35<46:55,  2.03it/s] 47%|████▋     | 4974/10682 [46:35<46:56,  2.03it/s] 47%|████▋     | 4975/10682 [46:36<46:55,  2.03it/s]{'loss': 3.3243, 'grad_norm': 0.23373021185398102, 'learning_rate': 0.0006450299456639985, 'epoch': 6.52}                                                    
- 47%|████▋     | 4975/10682 [46:36<46:55,  2.03it/s] 47%|████▋     | 4976/10682 [46:36<46:59,  2.02it/s] 47%|████▋     | 4977/10682 [46:37<46:57,  2.03it/s] 47%|████▋     | 4978/10682 [46:37<46:54,  2.03it/s] 47%|████▋     | 4979/10682 [46:38<46:59,  2.02it/s] 47%|████▋     | 4980/10682 [46:38<46:57,  2.02it/s] 47%|████▋     | 4981/10682 [46:39<46:57,  2.02it/s] 47%|████▋     | 4982/10682 [46:39<46:55,  2.02it/s] 47%|████▋     | 4983/10682 [46:40<46:55,  2.02it/s] 47%|████▋     | 4984/10682 [46:40<46:53,  2.03it/s] 47%|████▋     | 4985/10682 [46:41<46:55,  2.02it/s] 47%|████▋     | 4986/10682 [46:41<46:55,  2.02it/s] 47%|████▋     | 4987/10682 [46:42<46:53,  2.02it/s] 47%|████▋     | 4988/10682 [46:42<46:49,  2.03it/s] 47%|████▋     | 4989/10682 [46:43<46:50,  2.03it/s] 47%|████▋     | 4990/10682 [46:43<46:47,  2.03it/s] 47%|████▋     | 4991/10682 [46:44<46:47,  2.03it/s] 47%|████▋     | 4992/10682 [46:44<46:49,  2.03it/s] 47%|████▋     | 4993/10682 [46:45<46:48,  2.03it/s] 47%|████▋     | 4994/10682 [46:45<46:49,  2.02it/s] 47%|████▋     | 4995/10682 [46:46<46:49,  2.02it/s] 47%|████▋     | 4996/10682 [46:46<46:52,  2.02it/s] 47%|████▋     | 4997/10682 [46:47<46:51,  2.02it/s] 47%|████▋     | 4998/10682 [46:47<46:51,  2.02it/s] 47%|████▋     | 4999/10682 [46:48<46:49,  2.02it/s] 47%|████▋     | 5000/10682 [46:48<46:49,  2.02it/s]                                                    {'loss': 3.3315, 'grad_norm': 0.24161836504936218, 'learning_rate': 0.0006411156890315328, 'epoch': 6.55}
- 47%|████▋     | 5000/10682 [46:48<46:49,  2.02it/s] 47%|████▋     | 5001/10682 [46:49<46:53,  2.02it/s] 47%|████▋     | 5002/10682 [46:49<46:51,  2.02it/s] 47%|████▋     | 5003/10682 [46:50<46:48,  2.02it/s] 47%|████▋     | 5004/10682 [46:50<46:45,  2.02it/s] 47%|████▋     | 5005/10682 [46:50<46:43,  2.02it/s] 47%|████▋     | 5006/10682 [46:51<46:43,  2.02it/s] 47%|████▋     | 5007/10682 [46:51<46:42,  2.02it/s] 47%|████▋     | 5008/10682 [46:52<46:41,  2.03it/s] 47%|████▋     | 5009/10682 [46:52<46:42,  2.02it/s] 47%|████▋     | 5010/10682 [46:53<46:41,  2.02it/s] 47%|████▋     | 5011/10682 [46:53<46:39,  2.03it/s] 47%|████▋     | 5012/10682 [46:54<46:38,  2.03it/s] 47%|████▋     | 5013/10682 [46:54<46:36,  2.03it/s] 47%|████▋     | 5014/10682 [46:55<46:37,  2.03it/s] 47%|████▋     | 5015/10682 [46:55<46:37,  2.03it/s] 47%|████▋     | 5016/10682 [46:56<46:34,  2.03it/s] 47%|████▋     | 5017/10682 [46:56<46:36,  2.03it/s] 47%|████▋     | 5018/10682 [46:57<46:32,  2.03it/s] 47%|████▋     | 5019/10682 [46:57<46:35,  2.03it/s] 47%|████▋     | 5020/10682 [46:58<46:35,  2.03it/s] 47%|████▋     | 5021/10682 [46:58<46:36,  2.02it/s] 47%|████▋     | 5022/10682 [46:59<46:33,  2.03it/s] 47%|████▋     | 5023/10682 [46:59<46:29,  2.03it/s] 47%|████▋     | 5024/10682 [47:00<46:31,  2.03it/s] 47%|████▋     | 5025/10682 [47:00<46:28,  2.03it/s]                                                    {'loss': 3.3392, 'grad_norm': 0.23424994945526123, 'learning_rate': 0.0006371920127491398, 'epoch': 6.59}
- 47%|████▋     | 5025/10682 [47:00<46:28,  2.03it/s] 47%|████▋     | 5026/10682 [47:01<46:34,  2.02it/s] 47%|████▋     | 5027/10682 [47:01<46:31,  2.03it/s] 47%|████▋     | 5028/10682 [47:02<46:33,  2.02it/s] 47%|████▋     | 5029/10682 [47:02<46:30,  2.03it/s] 47%|████▋     | 5030/10682 [47:03<46:31,  2.02it/s] 47%|████▋     | 5031/10682 [47:03<46:29,  2.03it/s] 47%|████▋     | 5032/10682 [47:04<46:27,  2.03it/s] 47%|████▋     | 5033/10682 [47:04<46:28,  2.03it/s] 47%|████▋     | 5034/10682 [47:05<46:25,  2.03it/s] 47%|████▋     | 5035/10682 [47:05<46:27,  2.03it/s] 47%|████▋     | 5036/10682 [47:06<50:26,  1.87it/s] 47%|████▋     | 5037/10682 [47:06<49:15,  1.91it/s] 47%|████▋     | 5038/10682 [47:07<48:25,  1.94it/s] 47%|████▋     | 5039/10682 [47:07<47:49,  1.97it/s] 47%|████▋     | 5040/10682 [47:08<47:22,  1.98it/s] 47%|████▋     | 5041/10682 [47:08<47:04,  2.00it/s] 47%|████▋     | 5042/10682 [47:09<46:53,  2.00it/s] 47%|████▋     | 5043/10682 [47:09<46:42,  2.01it/s] 47%|████▋     | 5044/10682 [47:10<46:36,  2.02it/s] 47%|████▋     | 5045/10682 [47:10<46:29,  2.02it/s] 47%|████▋     | 5046/10682 [47:11<46:25,  2.02it/s] 47%|████▋     | 5047/10682 [47:11<46:24,  2.02it/s] 47%|████▋     | 5048/10682 [47:12<46:23,  2.02it/s] 47%|████▋     | 5049/10682 [47:12<46:23,  2.02it/s] 47%|████▋     | 5050/10682 [47:13<46:21,  2.02it/s]{'loss': 3.3317, 'grad_norm': 0.24176622927188873, 'learning_rate': 0.0006332591787271516, 'epoch': 6.62}                                                    
- 47%|████▋     | 5050/10682 [47:13<46:21,  2.02it/s] 47%|████▋     | 5051/10682 [47:13<46:25,  2.02it/s] 47%|████▋     | 5052/10682 [47:14<46:21,  2.02it/s] 47%|████▋     | 5053/10682 [47:14<46:20,  2.02it/s] 47%|████▋     | 5054/10682 [47:15<46:19,  2.02it/s] 47%|████▋     | 5055/10682 [47:15<46:17,  2.03it/s] 47%|████▋     | 5056/10682 [47:16<46:17,  2.03it/s] 47%|████▋     | 5057/10682 [47:16<46:16,  2.03it/s] 47%|████▋     | 5058/10682 [47:17<46:15,  2.03it/s] 47%|████▋     | 5059/10682 [47:17<46:14,  2.03it/s] 47%|████▋     | 5060/10682 [47:18<46:12,  2.03it/s] 47%|████▋     | 5061/10682 [47:18<46:13,  2.03it/s] 47%|████▋     | 5062/10682 [47:19<46:16,  2.02it/s] 47%|████▋     | 5063/10682 [47:19<46:13,  2.03it/s] 47%|████▋     | 5064/10682 [47:20<46:11,  2.03it/s] 47%|████▋     | 5065/10682 [47:20<46:11,  2.03it/s] 47%|████▋     | 5066/10682 [47:21<46:08,  2.03it/s] 47%|████▋     | 5067/10682 [47:21<46:10,  2.03it/s] 47%|████▋     | 5068/10682 [47:22<46:09,  2.03it/s] 47%|████▋     | 5069/10682 [47:22<46:08,  2.03it/s] 47%|████▋     | 5070/10682 [47:23<46:09,  2.03it/s] 47%|████▋     | 5071/10682 [47:23<46:05,  2.03it/s] 47%|████▋     | 5072/10682 [47:24<46:07,  2.03it/s] 47%|████▋     | 5073/10682 [47:24<46:05,  2.03it/s] 48%|████▊     | 5074/10682 [47:25<46:09,  2.02it/s] 48%|████▊     | 5075/10682 [47:25<46:06,  2.03it/s]                                                    {'loss': 3.3244, 'grad_norm': 0.2313149869441986, 'learning_rate': 0.0006293174494871916, 'epoch': 6.65}
- 48%|████▊     | 5075/10682 [47:25<46:06,  2.03it/s] 48%|████▊     | 5076/10682 [47:26<46:12,  2.02it/s] 48%|████▊     | 5077/10682 [47:26<46:08,  2.02it/s] 48%|████▊     | 5078/10682 [47:27<46:08,  2.02it/s] 48%|████▊     | 5079/10682 [47:27<46:07,  2.02it/s] 48%|████▊     | 5080/10682 [47:28<46:03,  2.03it/s] 48%|████▊     | 5081/10682 [47:28<46:04,  2.03it/s] 48%|████▊     | 5082/10682 [47:29<46:02,  2.03it/s] 48%|████▊     | 5083/10682 [47:29<46:03,  2.03it/s] 48%|████▊     | 5084/10682 [47:30<46:02,  2.03it/s] 48%|████▊     | 5085/10682 [47:30<46:02,  2.03it/s] 48%|████▊     | 5086/10682 [47:31<46:03,  2.02it/s] 48%|████▊     | 5087/10682 [47:31<46:03,  2.02it/s] 48%|████▊     | 5088/10682 [47:32<46:02,  2.02it/s] 48%|████▊     | 5089/10682 [47:32<46:00,  2.03it/s] 48%|████▊     | 5090/10682 [47:33<46:00,  2.03it/s] 48%|████▊     | 5091/10682 [47:33<45:59,  2.03it/s] 48%|████▊     | 5092/10682 [47:34<45:56,  2.03it/s] 48%|████▊     | 5093/10682 [47:34<45:58,  2.03it/s] 48%|████▊     | 5094/10682 [47:35<45:54,  2.03it/s] 48%|████▊     | 5095/10682 [47:35<49:51,  1.87it/s] 48%|████▊     | 5096/10682 [47:36<48:40,  1.91it/s] 48%|████▊     | 5097/10682 [47:36<47:49,  1.95it/s] 48%|████▊     | 5098/10682 [47:37<47:16,  1.97it/s] 48%|████▊     | 5099/10682 [47:37<46:51,  1.99it/s] 48%|████▊     | 5100/10682 [47:38<46:32,  2.00it/s]                                                    {'loss': 3.3208, 'grad_norm': 0.255684494972229, 'learning_rate': 0.0006253670881446494, 'epoch': 6.68}
- 48%|████▊     | 5100/10682 [47:38<46:32,  2.00it/s] 48%|████▊     | 5101/10682 [47:38<46:23,  2.00it/s] 48%|████▊     | 5102/10682 [47:39<46:11,  2.01it/s] 48%|████▊     | 5103/10682 [47:39<46:08,  2.02it/s] 48%|████▊     | 5104/10682 [47:40<46:01,  2.02it/s] 48%|████▊     | 5105/10682 [47:40<45:57,  2.02it/s] 48%|████▊     | 5106/10682 [47:41<45:56,  2.02it/s] 48%|████▊     | 5107/10682 [47:41<45:54,  2.02it/s] 48%|████▊     | 5108/10682 [47:42<45:52,  2.03it/s] 48%|████▊     | 5109/10682 [47:42<45:51,  2.03it/s] 48%|████▊     | 5110/10682 [47:43<45:48,  2.03it/s] 48%|████▊     | 5111/10682 [47:43<45:50,  2.03it/s] 48%|████▊     | 5112/10682 [47:44<45:49,  2.03it/s] 48%|████▊     | 5113/10682 [47:44<45:50,  2.02it/s] 48%|████▊     | 5114/10682 [47:45<45:49,  2.03it/s] 48%|████▊     | 5115/10682 [47:45<45:49,  2.02it/s] 48%|████▊     | 5116/10682 [47:46<45:46,  2.03it/s] 48%|████▊     | 5117/10682 [47:46<45:46,  2.03it/s] 48%|████▊     | 5118/10682 [47:47<45:45,  2.03it/s] 48%|████▊     | 5119/10682 [47:47<45:45,  2.03it/s] 48%|████▊     | 5120/10682 [47:48<45:47,  2.02it/s] 48%|████▊     | 5121/10682 [47:48<45:47,  2.02it/s] 48%|████▊     | 5122/10682 [47:49<45:48,  2.02it/s] 48%|████▊     | 5123/10682 [47:49<45:45,  2.02it/s] 48%|████▊     | 5124/10682 [47:50<45:45,  2.02it/s] 48%|████▊     | 5125/10682 [47:50<45:46,  2.02it/s]{'loss': 3.3397, 'grad_norm': 0.24182261526584625, 'learning_rate': 0.0006214083583911186, 'epoch': 6.72}
-                                                     48%|████▊     | 5125/10682 [47:50<45:46,  2.02it/s] 48%|████▊     | 5126/10682 [47:51<45:51,  2.02it/s] 48%|████▊     | 5127/10682 [47:51<45:48,  2.02it/s] 48%|████▊     | 5128/10682 [47:51<45:48,  2.02it/s] 48%|████▊     | 5129/10682 [47:52<45:47,  2.02it/s] 48%|████▊     | 5130/10682 [47:52<45:45,  2.02it/s] 48%|████▊     | 5131/10682 [47:53<45:44,  2.02it/s] 48%|████▊     | 5132/10682 [47:53<45:44,  2.02it/s] 48%|████▊     | 5133/10682 [47:54<45:44,  2.02it/s] 48%|████▊     | 5134/10682 [47:54<45:43,  2.02it/s] 48%|████▊     | 5135/10682 [47:55<45:42,  2.02it/s] 48%|████▊     | 5136/10682 [47:55<45:41,  2.02it/s] 48%|████▊     | 5137/10682 [47:56<45:38,  2.02it/s] 48%|████▊     | 5138/10682 [47:56<45:41,  2.02it/s] 48%|████▊     | 5139/10682 [47:57<45:40,  2.02it/s] 48%|████▊     | 5140/10682 [47:57<45:40,  2.02it/s] 48%|████▊     | 5141/10682 [47:58<45:39,  2.02it/s] 48%|████▊     | 5142/10682 [47:58<45:40,  2.02it/s] 48%|████▊     | 5143/10682 [47:59<45:37,  2.02it/s] 48%|████▊     | 5144/10682 [47:59<45:34,  2.03it/s] 48%|████▊     | 5145/10682 [48:00<45:35,  2.02it/s] 48%|████▊     | 5146/10682 [48:00<45:31,  2.03it/s] 48%|████▊     | 5147/10682 [48:01<45:32,  2.03it/s] 48%|████▊     | 5148/10682 [48:01<45:30,  2.03it/s] 48%|████▊     | 5149/10682 [48:02<45:33,  2.02it/s] 48%|████▊     | 5150/10682 [48:02<45:31,  2.03it/s]                                                    {'loss': 3.3354, 'grad_norm': 0.25219854712486267, 'learning_rate': 0.0006174415244767953, 'epoch': 6.75}
- 48%|████▊     | 5150/10682 [48:02<45:31,  2.03it/s] 48%|████▊     | 5151/10682 [48:03<45:36,  2.02it/s] 48%|████▊     | 5152/10682 [48:03<45:33,  2.02it/s] 48%|████▊     | 5153/10682 [48:04<45:34,  2.02it/s] 48%|████▊     | 5154/10682 [48:04<45:31,  2.02it/s] 48%|████▊     | 5155/10682 [48:05<45:32,  2.02it/s] 48%|████▊     | 5156/10682 [48:05<45:29,  2.02it/s] 48%|████▊     | 5157/10682 [48:06<45:36,  2.02it/s] 48%|████▊     | 5158/10682 [48:06<45:31,  2.02it/s] 48%|████▊     | 5159/10682 [48:07<45:36,  2.02it/s] 48%|████▊     | 5160/10682 [48:07<45:30,  2.02it/s] 48%|████▊     | 5161/10682 [48:08<45:31,  2.02it/s] 48%|████▊     | 5162/10682 [48:08<45:25,  2.02it/s] 48%|████▊     | 5163/10682 [48:09<45:26,  2.02it/s] 48%|████▊     | 5164/10682 [48:09<45:25,  2.02it/s] 48%|████▊     | 5165/10682 [48:10<45:23,  2.03it/s] 48%|████▊     | 5166/10682 [48:10<45:23,  2.03it/s] 48%|████▊     | 5167/10682 [48:11<45:20,  2.03it/s] 48%|████▊     | 5168/10682 [48:11<45:24,  2.02it/s] 48%|████▊     | 5169/10682 [48:12<45:21,  2.03it/s] 48%|████▊     | 5170/10682 [48:12<45:21,  2.03it/s] 48%|████▊     | 5171/10682 [48:13<45:19,  2.03it/s] 48%|████▊     | 5172/10682 [48:13<45:17,  2.03it/s] 48%|████▊     | 5173/10682 [48:14<45:18,  2.03it/s] 48%|████▊     | 5174/10682 [48:14<45:17,  2.03it/s] 48%|████▊     | 5175/10682 [48:15<45:19,  2.02it/s]                                                    {'loss': 3.3287, 'grad_norm': 0.24208495020866394, 'learning_rate': 0.0006134668511928376, 'epoch': 6.78}
- 48%|████▊     | 5175/10682 [48:15<45:19,  2.02it/s] 48%|████▊     | 5176/10682 [48:15<45:20,  2.02it/s] 48%|████▊     | 5177/10682 [48:16<45:20,  2.02it/s] 48%|████▊     | 5178/10682 [48:16<45:19,  2.02it/s] 48%|████▊     | 5179/10682 [48:17<45:18,  2.02it/s] 48%|████▊     | 5180/10682 [48:17<45:17,  2.02it/s] 49%|████▊     | 5181/10682 [48:18<45:17,  2.02it/s] 49%|████▊     | 5182/10682 [48:18<45:17,  2.02it/s] 49%|████▊     | 5183/10682 [48:19<45:17,  2.02it/s] 49%|████▊     | 5184/10682 [48:19<45:16,  2.02it/s] 49%|████▊     | 5185/10682 [48:20<45:14,  2.03it/s] 49%|████▊     | 5186/10682 [48:20<45:14,  2.02it/s] 49%|████▊     | 5187/10682 [48:21<45:13,  2.03it/s] 49%|████▊     | 5188/10682 [48:21<45:14,  2.02it/s] 49%|████▊     | 5189/10682 [48:22<45:14,  2.02it/s] 49%|████▊     | 5190/10682 [48:22<45:13,  2.02it/s] 49%|████▊     | 5191/10682 [48:23<45:12,  2.02it/s] 49%|████▊     | 5192/10682 [48:23<45:10,  2.03it/s] 49%|████▊     | 5193/10682 [48:24<45:12,  2.02it/s] 49%|████▊     | 5194/10682 [48:24<45:08,  2.03it/s] 49%|████▊     | 5195/10682 [48:25<45:09,  2.02it/s] 49%|████▊     | 5196/10682 [48:25<45:08,  2.03it/s] 49%|████▊     | 5197/10682 [48:26<45:07,  2.03it/s] 49%|████▊     | 5198/10682 [48:26<45:05,  2.03it/s] 49%|████▊     | 5199/10682 [48:27<45:04,  2.03it/s] 49%|████▊     | 5200/10682 [48:27<45:06,  2.03it/s]                                                    {'loss': 3.3377, 'grad_norm': 0.23990638554096222, 'learning_rate': 0.0006094846038536922, 'epoch': 6.82}
- 49%|████▊     | 5200/10682 [48:27<45:06,  2.03it/s] 49%|████▊     | 5201/10682 [48:28<45:07,  2.02it/s] 49%|████▊     | 5202/10682 [48:28<45:08,  2.02it/s] 49%|████▊     | 5203/10682 [48:29<45:04,  2.03it/s] 49%|████▊     | 5204/10682 [48:29<45:05,  2.02it/s] 49%|████▊     | 5205/10682 [48:30<45:02,  2.03it/s] 49%|████▊     | 5206/10682 [48:30<45:04,  2.02it/s] 49%|████▊     | 5207/10682 [48:31<45:01,  2.03it/s] 49%|████▉     | 5208/10682 [48:31<45:03,  2.02it/s] 49%|████▉     | 5209/10682 [48:32<45:01,  2.03it/s] 49%|████▉     | 5210/10682 [48:32<45:02,  2.02it/s] 49%|████▉     | 5211/10682 [48:32<45:00,  2.03it/s] 49%|████▉     | 5212/10682 [48:33<44:58,  2.03it/s] 49%|████▉     | 5213/10682 [48:33<45:00,  2.03it/s] 49%|████▉     | 5214/10682 [48:34<44:58,  2.03it/s] 49%|████▉     | 5215/10682 [48:34<44:59,  2.03it/s] 49%|████▉     | 5216/10682 [48:35<44:57,  2.03it/s] 49%|████▉     | 5217/10682 [48:35<44:59,  2.02it/s] 49%|████▉     | 5218/10682 [48:36<44:57,  2.03it/s] 49%|████▉     | 5219/10682 [48:36<44:56,  2.03it/s] 49%|████▉     | 5220/10682 [48:37<44:57,  2.03it/s] 49%|████▉     | 5221/10682 [48:37<44:58,  2.02it/s] 49%|████▉     | 5222/10682 [48:38<44:56,  2.02it/s] 49%|████▉     | 5223/10682 [48:38<44:55,  2.03it/s] 49%|████▉     | 5224/10682 [48:39<44:56,  2.02it/s] 49%|████▉     | 5225/10682 [48:39<44:57,  2.02it/s]                                                    {'loss': 3.3349, 'grad_norm': 0.23935970664024353, 'learning_rate': 0.000605495048279383, 'epoch': 6.85}
- 49%|████▉     | 5225/10682 [48:39<44:57,  2.02it/s] 49%|████▉     | 5226/10682 [48:40<45:01,  2.02it/s] 49%|████▉     | 5227/10682 [48:40<44:59,  2.02it/s] 49%|████▉     | 5228/10682 [48:41<45:00,  2.02it/s] 49%|████▉     | 5229/10682 [48:41<44:56,  2.02it/s] 49%|████▉     | 5230/10682 [48:42<44:55,  2.02it/s] 49%|████▉     | 5231/10682 [48:42<44:54,  2.02it/s] 49%|████▉     | 5232/10682 [48:43<44:52,  2.02it/s] 49%|████▉     | 5233/10682 [48:43<44:52,  2.02it/s] 49%|████▉     | 5234/10682 [48:44<44:50,  2.02it/s] 49%|████▉     | 5235/10682 [48:44<44:48,  2.03it/s] 49%|████▉     | 5236/10682 [48:45<44:48,  2.03it/s] 49%|████▉     | 5237/10682 [48:45<44:46,  2.03it/s] 49%|████▉     | 5238/10682 [48:46<44:50,  2.02it/s] 49%|████▉     | 5239/10682 [48:46<44:47,  2.03it/s] 49%|████▉     | 5240/10682 [48:47<44:47,  2.03it/s] 49%|████▉     | 5241/10682 [48:47<44:46,  2.03it/s] 49%|████▉     | 5242/10682 [48:48<44:46,  2.03it/s] 49%|████▉     | 5243/10682 [48:48<44:46,  2.02it/s] 49%|████▉     | 5244/10682 [48:49<44:43,  2.03it/s] 49%|████▉     | 5245/10682 [48:49<44:42,  2.03it/s] 49%|████▉     | 5246/10682 [48:50<44:43,  2.03it/s] 49%|████▉     | 5247/10682 [48:50<44:42,  2.03it/s] 49%|████▉     | 5248/10682 [48:51<44:45,  2.02it/s] 49%|████▉     | 5249/10682 [48:51<44:42,  2.03it/s] 49%|████▉     | 5250/10682 [48:52<44:44,  2.02it/s]{'loss': 3.3402, 'grad_norm': 0.23817197978496552, 'learning_rate': 0.0006014984507777682, 'epoch': 6.88}                                                    
- 49%|████▉     | 5250/10682 [48:52<44:44,  2.02it/s] 49%|████▉     | 5251/10682 [48:52<44:45,  2.02it/s] 49%|████▉     | 5252/10682 [48:53<44:46,  2.02it/s] 49%|████▉     | 5253/10682 [48:53<44:41,  2.02it/s] 49%|████▉     | 5254/10682 [48:54<44:40,  2.03it/s] 49%|████▉     | 5255/10682 [48:54<44:39,  2.03it/s] 49%|████▉     | 5256/10682 [48:55<44:38,  2.03it/s] 49%|████▉     | 5257/10682 [48:55<44:38,  2.03it/s] 49%|████▉     | 5258/10682 [48:56<44:35,  2.03it/s] 49%|████▉     | 5259/10682 [48:56<44:35,  2.03it/s] 49%|████▉     | 5260/10682 [48:57<44:32,  2.03it/s] 49%|████▉     | 5261/10682 [48:57<44:32,  2.03it/s] 49%|████▉     | 5262/10682 [48:58<44:33,  2.03it/s] 49%|████▉     | 5263/10682 [48:58<44:33,  2.03it/s] 49%|████▉     | 5264/10682 [48:59<44:36,  2.02it/s] 49%|████▉     | 5265/10682 [48:59<44:32,  2.03it/s] 49%|████▉     | 5266/10682 [49:00<44:34,  2.03it/s] 49%|████▉     | 5267/10682 [49:00<44:31,  2.03it/s] 49%|█��██▉     | 5268/10682 [49:01<44:34,  2.02it/s] 49%|████▉     | 5269/10682 [49:01<44:31,  2.03it/s] 49%|████▉     | 5270/10682 [49:02<44:31,  2.03it/s] 49%|████▉     | 5271/10682 [49:02<44:31,  2.03it/s] 49%|████▉     | 5272/10682 [49:03<44:30,  2.03it/s] 49%|████▉     | 5273/10682 [49:03<44:30,  2.03it/s] 49%|████▉     | 5274/10682 [49:04<44:29,  2.03it/s] 49%|████▉     | 5275/10682 [49:04<44:32,  2.02it/s]                                                    {'loss': 3.339, 'grad_norm': 0.22046518325805664, 'learning_rate': 0.000597495078126763, 'epoch': 6.91}
- 49%|████▉     | 5275/10682 [49:04<44:32,  2.02it/s] 49%|████▉     | 5276/10682 [49:05<44:36,  2.02it/s] 49%|████▉     | 5277/10682 [49:05<44:33,  2.02it/s] 49%|████▉     | 5278/10682 [49:06<44:29,  2.02it/s] 49%|████▉     | 5279/10682 [49:06<44:29,  2.02it/s] 49%|████▉     | 5280/10682 [49:07<44:24,  2.03it/s] 49%|████▉     | 5281/10682 [49:07<44:27,  2.02it/s] 49%|████▉     | 5282/10682 [49:08<44:23,  2.03it/s] 49%|████▉     | 5283/10682 [49:08<44:23,  2.03it/s] 49%|████▉     | 5284/10682 [49:09<44:23,  2.03it/s] 49%|████▉     | 5285/10682 [49:09<44:22,  2.03it/s] 49%|████▉     | 5286/10682 [49:10<44:23,  2.03it/s] 49%|████▉     | 5287/10682 [49:10<44:21,  2.03it/s] 50%|████▉     | 5288/10682 [49:11<44:25,  2.02it/s] 50%|████▉     | 5289/10682 [49:11<44:22,  2.03it/s] 50%|████▉     | 5290/10682 [49:12<44:23,  2.02it/s] 50%|████▉     | 5291/10682 [49:12<44:20,  2.03it/s] 50%|████▉     | 5292/10682 [49:12<44:19,  2.03it/s] 50%|████▉     | 5293/10682 [49:13<44:19,  2.03it/s] 50%|████▉     | 5294/10682 [49:13<44:19,  2.03it/s] 50%|████▉     | 5295/10682 [49:14<44:17,  2.03it/s] 50%|████▉     | 5296/10682 [49:14<44:17,  2.03it/s] 50%|████▉     | 5297/10682 [49:15<44:18,  2.03it/s] 50%|████▉     | 5298/10682 [49:15<44:17,  2.03it/s] 50%|████▉     | 5299/10682 [49:16<44:18,  2.02it/s] 50%|████▉     | 5300/10682 [49:16<44:16,  2.03it/s]{'loss': 3.3336, 'grad_norm': 0.23292119801044464, 'learning_rate': 0.000593485197556533, 'epoch': 6.95}                                                    
- 50%|████▉     | 5300/10682 [49:16<44:16,  2.03it/s] 50%|████▉     | 5301/10682 [49:17<44:23,  2.02it/s] 50%|████▉     | 5302/10682 [49:17<44:20,  2.02it/s] 50%|████▉     | 5303/10682 [49:18<44:21,  2.02it/s] 50%|████▉     | 5304/10682 [49:18<44:18,  2.02it/s] 50%|████▉     | 5305/10682 [49:19<44:18,  2.02it/s] 50%|████▉     | 5306/10682 [49:19<44:15,  2.02it/s] 50%|████▉     | 5307/10682 [49:20<44:12,  2.03it/s] 50%|████▉     | 5308/10682 [49:20<44:13,  2.03it/s] 50%|████▉     | 5309/10682 [49:21<44:11,  2.03it/s] 50%|████▉     | 5310/10682 [49:21<44:12,  2.03it/s] 50%|████▉     | 5311/10682 [49:22<44:10,  2.03it/s] 50%|████▉     | 5312/10682 [49:22<44:08,  2.03it/s] 50%|████▉     | 5313/10682 [49:23<44:10,  2.03it/s] 50%|████▉     | 5314/10682 [49:23<44:07,  2.03it/s] 50%|████▉     | 5315/10682 [49:24<44:11,  2.02it/s] 50%|████▉     | 5316/10682 [49:24<44:07,  2.03it/s] 50%|████▉     | 5317/10682 [49:25<44:09,  2.02it/s] 50%|████▉     | 5318/10682 [49:25<44:05,  2.03it/s] 50%|████▉     | 5319/10682 [49:26<44:05,  2.03it/s] 50%|████▉     | 5320/10682 [49:26<44:07,  2.02it/s] 50%|████▉     | 5321/10682 [49:27<44:06,  2.03it/s] 50%|████▉     | 5322/10682 [49:27<44:07,  2.02it/s] 50%|████▉     | 5323/10682 [49:28<44:06,  2.03it/s] 50%|████▉     | 5324/10682 [49:28<44:07,  2.02it/s] 50%|████▉     | 5325/10682 [49:29<44:05,  2.02it/s]                                                    {'loss': 3.3377, 'grad_norm': 0.23450925946235657, 'learning_rate': 0.0005894690767316552, 'epoch': 6.98}
- 50%|████▉     | 5325/10682 [49:29<44:05,  2.02it/s] 50%|████▉     | 5326/10682 [49:29<44:09,  2.02it/s] 50%|████▉     | 5327/10682 [49:30<44:05,  2.02it/s] 50%|████▉     | 5328/10682 [49:30<44:02,  2.03it/s] 50%|████▉     | 5329/10682 [49:31<44:05,  2.02it/s] 50%|████▉     | 5330/10682 [49:31<44:02,  2.03it/s] 50%|████▉     | 5331/10682 [49:32<44:02,  2.02it/s] 50%|████▉     | 5332/10682 [49:32<44:02,  2.02it/s] 50%|████▉     | 5333/10682 [49:33<44:03,  2.02it/s] 50%|████▉     | 5334/10682 [49:33<44:04,  2.02it/s] 50%|████▉     | 5335/10682 [49:34<44:03,  2.02it/s] 50%|████▉     | 5336/10682 [49:34<44:01,  2.02it/s] 50%|████▉     | 5337/10682 [49:35<44:00,  2.02it/s] 50%|████▉     | 5338/10682 [49:35<43:58,  2.03it/s] 50%|████▉     | 5339/10682 [49:36<43:57,  2.03it/s] 50%|████▉     | 5340/10682 [49:36<43:57,  2.03it/s] 50%|█████     | 5341/10682 [49:37<43:28,  2.05it/s] 50%|█████     | 5342/10682 [49:57<9:23:00,  6.33s/it] 50%|█████     | 5343/10682 [49:57<6:47:15,  4.58s/it] 50%|█████     | 5344/10682 [49:58<4:58:14,  3.35s/it] 50%|█████     | 5345/10682 [49:58<3:41:54,  2.49s/it] 50%|█████     | 5346/10682 [49:59<2:48:29,  1.89s/it] 50%|█████     | 5347/10682 [49:59<2:11:04,  1.47s/it] 50%|█████     | 5348/10682 [50:00<1:44:54,  1.18s/it] 50%|█████     | 5349/10682 [50:00<1:26:35,  1.03it/s] 50%|█████     | 5350/10682 [50:01<1:13:46,  1.20it/s]{'loss': 3.2728, 'grad_norm': 0.24984915554523468, 'learning_rate': 0.0005854469837332512, 'epoch': 7.01}
-                                                       50%|█████     | 5350/10682 [50:01<1:13:46,  1.20it/s] 50%|█████     | 5351/10682 [50:01<1:04:49,  1.37it/s] 50%|█████     | 5352/10682 [50:02<58:31,  1.52it/s]   50%|█████     | 5353/10682 [50:02<54:05,  1.64it/s] 50%|█████     | 5354/10682 [50:03<51:00,  1.74it/s] 50%|█████     | 5355/10682 [50:03<48:51,  1.82it/s] 50%|█████     | 5356/10682 [50:04<47:20,  1.88it/s] 50%|█████     | 5357/10682 [50:04<46:16,  1.92it/s] 50%|█████     | 5358/10682 [50:05<45:30,  1.95it/s] 50%|█████     | 5359/10682 [50:05<45:09,  1.96it/s] 50%|█████     | 5360/10682 [50:06<44:47,  1.98it/s] 50%|█████     | 5361/10682 [50:06<44:33,  1.99it/s] 50%|█████     | 5362/10682 [50:07<44:20,  2.00it/s] 50%|█████     | 5363/10682 [50:07<44:09,  2.01it/s] 50%|█████     | 5364/10682 [50:08<44:02,  2.01it/s] 50%|█████     | 5365/10682 [50:08<43:55,  2.02it/s] 50%|█████     | 5366/10682 [50:08<43:50,  2.02it/s] 50%|█████     | 5367/10682 [50:09<43:48,  2.02it/s] 50%|█████     | 5368/10682 [50:09<43:44,  2.02it/s] 50%|█████     | 5369/10682 [50:10<43:44,  2.02it/s] 50%|█████     | 5370/10682 [50:10<43:48,  2.02it/s] 50%|█████     | 5371/10682 [50:11<43:47,  2.02it/s] 50%|█████     | 5372/10682 [50:11<43:46,  2.02it/s] 50%|█████     | 5373/10682 [50:12<43:48,  2.02it/s] 50%|█████     | 5374/10682 [50:12<43:58,  2.01it/s] 50%|█████     | 5375/10682 [50:13<43:51,  2.02it/s]                                                    {'loss': 3.1869, 'grad_norm': 0.23945337533950806, 'learning_rate': 0.0005814191870410933, 'epoch': 7.04}
- 50%|█████     | 5375/10682 [50:13<43:51,  2.02it/s] 50%|█████     | 5376/10682 [50:13<43:50,  2.02it/s] 50%|█████     | 5377/10682 [50:14<43:52,  2.02it/s] 50%|█████     | 5378/10682 [50:14<43:52,  2.01it/s] 50%|█████     | 5379/10682 [50:15<43:50,  2.02it/s] 50%|█████     | 5380/10682 [50:15<44:35,  1.98it/s] 50%|█████     | 5381/10682 [50:16<44:17,  2.00it/s] 50%|█████     | 5382/10682 [50:16<44:02,  2.01it/s] 50%|█████     | 5383/10682 [50:17<43:56,  2.01it/s] 50%|█████     | 5384/10682 [50:17<43:49,  2.02it/s] 50%|█████     | 5385/10682 [50:18<43:47,  2.02it/s] 50%|█████     | 5386/10682 [50:18<43:41,  2.02it/s] 50%|█████     | 5387/10682 [50:19<43:40,  2.02it/s] 50%|█████     | 5388/10682 [50:19<43:37,  2.02it/s] 50%|█████     | 5389/10682 [50:20<43:35,  2.02it/s] 50%|█████     | 5390/10682 [50:20<43:34,  2.02it/s] 50%|█████     | 5391/10682 [50:21<43:32,  2.03it/s] 50%|█████     | 5392/10682 [50:21<43:32,  2.02it/s] 50%|█████     | 5393/10682 [50:22<43:29,  2.03it/s] 50%|█████     | 5394/10682 [50:22<43:31,  2.03it/s] 51%|█████     | 5395/10682 [50:23<43:30,  2.03it/s] 51%|█████     | 5396/10682 [50:23<43:32,  2.02it/s] 51%|█████     | 5397/10682 [50:24<43:31,  2.02it/s] 51%|█████     | 5398/10682 [50:24<43:31,  2.02it/s] 51%|█████     | 5399/10682 [50:25<43:29,  2.02it/s] 51%|█████     | 5400/10682 [50:25<43:29,  2.02it/s]{'loss': 3.1799, 'grad_norm': 0.2436986267566681, 'learning_rate': 0.0005773859555156823, 'epoch': 7.08}                                                    
- 51%|█████     | 5400/10682 [50:25<43:29,  2.02it/s] 51%|█████     | 5401/10682 [50:26<43:31,  2.02it/s] 51%|█████     | 5402/10682 [50:26<43:29,  2.02it/s] 51%|█████     | 5403/10682 [50:27<43:28,  2.02it/s] 51%|█████     | 5404/10682 [50:27<43:25,  2.03it/s] 51%|█████     | 5405/10682 [50:28<43:26,  2.02it/s] 51%|█████     | 5406/10682 [50:28<43:23,  2.03it/s] 51%|█████     | 5407/10682 [50:29<43:24,  2.03it/s] 51%|█████     | 5408/10682 [50:29<43:24,  2.03it/s] 51%|█████     | 5409/10682 [50:30<43:25,  2.02it/s] 51%|█████     | 5410/10682 [50:30<43:25,  2.02it/s] 51%|█████     | 5411/10682 [50:31<43:25,  2.02it/s] 51%|█████     | 5412/10682 [50:31<43:25,  2.02it/s] 51%|█████     | 5413/10682 [50:32<43:23,  2.02it/s] 51%|█████     | 5414/10682 [50:32<43:24,  2.02it/s] 51%|█████     | 5415/10682 [50:33<43:23,  2.02it/s] 51%|█████     | 5416/10682 [50:33<43:22,  2.02it/s] 51%|█████     | 5417/10682 [50:34<43:21,  2.02it/s] 51%|█████     | 5418/10682 [50:34<43:19,  2.03it/s] 51%|█████     | 5419/10682 [50:35<43:19,  2.02it/s] 51%|█████     | 5420/10682 [50:35<43:17,  2.03it/s] 51%|█████     | 5421/10682 [50:36<43:20,  2.02it/s] 51%|█████     | 5422/10682 [50:36<43:17,  2.03it/s] 51%|█████     | 5423/10682 [50:37<43:17,  2.02it/s] 51%|█████     | 5424/10682 [50:37<43:14,  2.03it/s] 51%|█████     | 5425/10682 [50:38<43:18,  2.02it/s]                                                    {'loss': 3.1858, 'grad_norm': 0.25370141863822937, 'learning_rate': 0.0005733475583803009, 'epoch': 7.11}
- 51%|█████     | 5425/10682 [50:38<43:18,  2.02it/s] 51%|█████     | 5426/10682 [50:38<43:18,  2.02it/s] 51%|█████     | 5427/10682 [50:39<43:18,  2.02it/s] 51%|█████     | 5428/10682 [50:39<43:18,  2.02it/s] 51%|█████     | 5429/10682 [50:40<43:15,  2.02it/s] 51%|█████     | 5430/10682 [50:40<43:14,  2.02it/s] 51%|█████     | 5431/10682 [50:41<43:14,  2.02it/s] 51%|█████     | 5432/10682 [50:41<43:15,  2.02it/s] 51%|█████     | 5433/10682 [50:42<43:14,  2.02it/s] 51%|█████     | 5434/10682 [50:42<43:14,  2.02it/s] 51%|█████     | 5435/10682 [50:43<43:13,  2.02it/s] 51%|█████     | 5436/10682 [50:43<43:13,  2.02it/s] 51%|█████     | 5437/10682 [50:44<43:12,  2.02it/s] 51%|█████     | 5438/10682 [50:44<43:11,  2.02it/s] 51%|█████     | 5439/10682 [50:45<43:09,  2.02it/s] 51%|█████     | 5440/10682 [50:45<43:10,  2.02it/s] 51%|█████     | 5441/10682 [50:46<43:09,  2.02it/s] 51%|█████     | 5442/10682 [50:46<43:11,  2.02it/s] 51%|█████     | 5443/10682 [50:47<43:09,  2.02it/s] 51%|█████     | 5444/10682 [50:47<43:09,  2.02it/s] 51%|█████     | 5445/10682 [50:48<43:07,  2.02it/s] 51%|█████     | 5446/10682 [50:48<43:07,  2.02it/s] 51%|█████     | 5447/10682 [50:49<43:05,  2.02it/s] 51%|█████     | 5448/10682 [50:49<43:03,  2.03it/s] 51%|█████     | 5449/10682 [50:50<43:03,  2.03it/s] 51%|█████     | 5450/10682 [50:50<43:03,  2.03it/s]                                                    {'loss': 3.1991, 'grad_norm': 0.23976677656173706, 'learning_rate': 0.0005693042652030427, 'epoch': 7.14}
- 51%|█████     | 5450/10682 [50:50<43:03,  2.03it/s] 51%|█████     | 5451/10682 [50:51<43:07,  2.02it/s] 51%|█████     | 5452/10682 [50:51<43:06,  2.02it/s] 51%|█████     | 5453/10682 [50:52<43:04,  2.02it/s] 51%|█████     | 5454/10682 [50:52<43:04,  2.02it/s] 51%|█████     | 5455/10682 [50:53<43:04,  2.02it/s] 51%|█████     | 5456/10682 [50:53<43:02,  2.02it/s] 51%|█████     | 5457/10682 [50:53<43:03,  2.02it/s] 51%|█████     | 5458/10682 [50:54<43:01,  2.02it/s] 51%|█████     | 5459/10682 [50:54<43:01,  2.02it/s] 51%|█████     | 5460/10682 [50:55<43:01,  2.02it/s] 51%|█████     | 5461/10682 [50:55<43:01,  2.02it/s] 51%|█████     | 5462/10682 [50:56<43:02,  2.02it/s] 51%|█████     | 5463/10682 [50:56<42:59,  2.02it/s] 51%|█████     | 5464/10682 [50:57<43:00,  2.02it/s] 51%|█████     | 5465/10682 [50:57<42:57,  2.02it/s] 51%|█████     | 5466/10682 [50:58<42:57,  2.02it/s] 51%|█████     | 5467/10682 [50:58<42:56,  2.02it/s] 51%|█████     | 5468/10682 [50:59<42:58,  2.02it/s] 51%|█████     | 5469/10682 [50:59<42:56,  2.02it/s] 51%|█████     | 5470/10682 [51:00<42:56,  2.02it/s] 51%|█████     | 5471/10682 [51:00<42:56,  2.02it/s] 51%|█████     | 5472/10682 [51:01<42:55,  2.02it/s] 51%|█████     | 5473/10682 [51:01<42:58,  2.02it/s] 51%|█████     | 5474/10682 [51:02<42:56,  2.02it/s] 51%|█████▏    | 5475/10682 [51:02<42:56,  2.02it/s]{'loss': 3.1943, 'grad_norm': 0.23726603388786316, 'learning_rate': 0.0005652563458788184, 'epoch': 7.18}                                                    
- 51%|█████▏    | 5475/10682 [51:02<42:56,  2.02it/s] 51%|█████▏    | 5476/10682 [51:03<42:57,  2.02it/s] 51%|█████▏    | 5477/10682 [51:03<42:55,  2.02it/s] 51%|█████▏    | 5478/10682 [51:04<42:54,  2.02it/s] 51%|█████▏    | 5479/10682 [51:04<42:51,  2.02it/s] 51%|█████▏    | 5480/10682 [51:05<42:52,  2.02it/s] 51%|█████▏    | 5481/10682 [51:05<42:48,  2.02it/s] 51%|█████▏    | 5482/10682 [51:06<42:48,  2.02it/s] 51%|█████▏    | 5483/10682 [51:06<42:46,  2.03it/s] 51%|█████▏    | 5484/10682 [51:07<42:45,  2.03it/s] 51%|█████▏    | 5485/10682 [51:07<42:48,  2.02it/s] 51%|█████▏    | 5486/10682 [51:08<42:45,  2.03it/s] 51%|█████▏    | 5487/10682 [51:08<42:44,  2.03it/s] 51%|█████▏    | 5488/10682 [51:09<42:40,  2.03it/s] 51%|█████▏    | 5489/10682 [51:09<42:43,  2.03it/s] 51%|█████▏    | 5490/10682 [51:10<42:41,  2.03it/s] 51%|█████▏    | 5491/10682 [51:10<42:41,  2.03it/s] 51%|█████▏    | 5492/10682 [51:11<42:42,  2.03it/s] 51%|█████▏    | 5493/10682 [51:11<42:40,  2.03it/s] 51%|█████▏    | 5494/10682 [51:12<42:40,  2.03it/s] 51%|█████▏    | 5495/10682 [51:12<42:39,  2.03it/s] 51%|█████▏    | 5496/10682 [51:13<42:40,  2.03it/s] 51%|█████▏    | 5497/10682 [51:13<42:36,  2.03it/s] 51%|█████▏    | 5498/10682 [51:14<42:39,  2.03it/s] 51%|█████▏    | 5499/10682 [51:14<42:37,  2.03it/s] 51%|█████▏    | 5500/10682 [51:15<42:38,  2.03it/s]                                                    {'loss': 3.2186, 'grad_norm': 0.24498280882835388, 'learning_rate': 0.0005612040706113396, 'epoch': 7.21}
- 51%|█████▏    | 5500/10682 [51:15<42:38,  2.03it/s] 51%|█████▏    | 5501/10682 [51:15<42:40,  2.02it/s] 52%|█████▏    | 5502/10682 [51:16<42:40,  2.02it/s] 52%|█████▏    | 5503/10682 [51:16<42:37,  2.02it/s] 52%|█████▏    | 5504/10682 [51:17<42:36,  2.03it/s] 52%|█████▏    | 5505/10682 [51:17<42:36,  2.02it/s] 52%|█████▏    | 5506/10682 [51:18<42:33,  2.03it/s] 52%|█████▏    | 5507/10682 [51:18<42:34,  2.03it/s] 52%|█████▏    | 5508/10682 [51:19<42:31,  2.03it/s] 52%|█████▏    | 5509/10682 [51:19<42:31,  2.03it/s] 52%|█████▏    | 5510/10682 [51:20<42:31,  2.03it/s] 52%|█████▏    | 5511/10682 [51:20<42:32,  2.03it/s] 52%|█████▏    | 5512/10682 [51:21<42:32,  2.03it/s] 52%|█████▏    | 5513/10682 [51:21<42:34,  2.02it/s] 52%|█████▏    | 5514/10682 [51:22<42:32,  2.02it/s] 52%|█████▏    | 5515/10682 [51:22<42:30,  2.03it/s] 52%|█████▏    | 5516/10682 [51:23<42:30,  2.03it/s] 52%|█████▏    | 5517/10682 [51:23<42:29,  2.03it/s] 52%|█████▏    | 5518/10682 [51:24<42:29,  2.03it/s] 52%|█████▏    | 5519/10682 [51:24<42:26,  2.03it/s] 52%|█████▏    | 5520/10682 [51:25<42:28,  2.03it/s] 52%|█████▏    | 5521/10682 [51:25<42:26,  2.03it/s] 52%|█████▏    | 5522/10682 [51:26<42:23,  2.03it/s] 52%|█████▏    | 5523/10682 [51:26<42:25,  2.03it/s] 52%|█████▏    | 5524/10682 [51:27<42:22,  2.03it/s] 52%|█████▏    | 5525/10682 [51:27<42:22,  2.03it/s]                                                    {'loss': 3.212, 'grad_norm': 0.24251443147659302, 'learning_rate': 0.0005571477098950832, 'epoch': 7.24}
- 52%|█████▏    | 5525/10682 [51:27<42:22,  2.03it/s] 52%|█████▏    | 5526/10682 [51:28<42:25,  2.03it/s] 52%|█████▏    | 5527/10682 [51:28<42:24,  2.03it/s] 52%|█████▏    | 5528/10682 [51:29<42:24,  2.03it/s] 52%|█████▏    | 5529/10682 [51:29<42:22,  2.03it/s] 52%|█████▏    | 5530/10682 [51:30<42:24,  2.02it/s] 52%|█████▏    | 5531/10682 [51:30<42:22,  2.03it/s] 52%|█████▏    | 5532/10682 [51:31<42:23,  2.02it/s] 52%|█████▏    | 5533/10682 [51:31<42:21,  2.03it/s] 52%|█████▏    | 5534/10682 [51:32<42:21,  2.03it/s] 52%|█████▏    | 5535/10682 [51:32<42:19,  2.03it/s] 52%|█████▏    | 5536/10682 [51:33<42:19,  2.03it/s] 52%|█████▏    | 5537/10682 [51:33<42:19,  2.03it/s] 52%|█████▏    | 5538/10682 [51:33<42:16,  2.03it/s] 52%|█████▏    | 5539/10682 [51:34<42:20,  2.02it/s] 52%|█████▏    | 5540/10682 [51:34<42:19,  2.03it/s] 52%|█████▏    | 5541/10682 [51:35<42:22,  2.02it/s] 52%|█████▏    | 5542/10682 [51:35<42:20,  2.02it/s] 52%|█████▏    | 5543/10682 [51:36<42:20,  2.02it/s] 52%|█████▏    | 5544/10682 [51:36<42:16,  2.03it/s] 52%|█████▏    | 5545/10682 [51:37<42:14,  2.03it/s] 52%|█████▏    | 5546/10682 [51:37<42:14,  2.03it/s] 52%|█████▏    | 5547/10682 [51:38<42:13,  2.03it/s] 52%|█████▏    | 5548/10682 [51:38<42:16,  2.02it/s] 52%|█████▏    | 5549/10682 [51:39<42:12,  2.03it/s] 52%|█████▏    | 5550/10682 [51:39<42:13,  2.03it/s]                                                    {'loss': 3.2168, 'grad_norm': 0.2397901862859726, 'learning_rate': 0.0005530875344972343, 'epoch': 7.27}
- 52%|█████▏    | 5550/10682 [51:39<42:13,  2.03it/s] 52%|█████▏    | 5551/10682 [51:40<42:12,  2.03it/s] 52%|█████▏    | 5552/10682 [51:40<42:13,  2.03it/s] 52%|█████▏    | 5553/10682 [51:41<42:13,  2.02it/s] 52%|█████▏    | 5554/10682 [51:41<42:12,  2.03it/s] 52%|█████▏    | 5555/10682 [51:42<42:13,  2.02it/s] 52%|█████▏    | 5556/10682 [51:42<42:12,  2.02it/s] 52%|█████▏    | 5557/10682 [51:43<42:13,  2.02it/s] 52%|█████▏    | 5558/10682 [51:43<42:12,  2.02it/s] 52%|█████▏    | 5559/10682 [51:44<42:11,  2.02it/s] 52%|█████▏    | 5560/10682 [51:44<42:13,  2.02it/s] 52%|█████▏    | 5561/10682 [51:45<42:11,  2.02it/s] 52%|█████▏    | 5562/10682 [51:45<42:10,  2.02it/s] 52%|█████▏    | 5563/10682 [51:46<42:07,  2.03it/s] 52%|█████▏    | 5564/10682 [51:46<42:07,  2.02it/s] 52%|█████▏    | 5565/10682 [51:47<42:04,  2.03it/s] 52%|█████▏    | 5566/10682 [51:47<42:05,  2.03it/s] 52%|█████▏    | 5567/10682 [51:48<42:03,  2.03it/s] 52%|█████▏    | 5568/10682 [51:48<42:05,  2.02it/s] 52%|█████▏    | 5569/10682 [51:49<42:03,  2.03it/s] 52%|█████▏    | 5570/10682 [51:49<42:05,  2.02it/s] 52%|█████▏    | 5571/10682 [51:50<42:03,  2.03it/s] 52%|█████▏    | 5572/10682 [51:50<42:03,  2.03it/s] 52%|█████▏    | 5573/10682 [51:51<42:02,  2.03it/s] 52%|█████▏    | 5574/10682 [51:51<42:02,  2.02it/s] 52%|█████▏    | 5575/10682 [51:52<42:03,  2.02it/s]{'loss': 3.2176, 'grad_norm': 0.2347390502691269, 'learning_rate': 0.0005490238154396129, 'epoch': 7.31}                                                    
- 52%|█████▏    | 5575/10682 [51:52<42:03,  2.02it/s] 52%|█████▏    | 5576/10682 [51:52<42:04,  2.02it/s] 52%|█████▏    | 5577/10682 [51:53<42:03,  2.02it/s] 52%|█████▏    | 5578/10682 [51:53<41:58,  2.03it/s] 52%|█████▏    | 5579/10682 [51:54<41:59,  2.03it/s] 52%|█████▏    | 5580/10682 [51:54<41:56,  2.03it/s] 52%|█████▏    | 5581/10682 [51:55<41:56,  2.03it/s] 52%|█████▏    | 5582/10682 [51:55<41:57,  2.03it/s] 52%|█████▏    | 5583/10682 [51:56<41:56,  2.03it/s] 52%|█████▏    | 5584/10682 [51:56<42:03,  2.02it/s] 52%|█████▏    | 5585/10682 [51:57<42:01,  2.02it/s] 52%|█████▏    | 5586/10682 [51:57<41:58,  2.02it/s] 52%|█████▏    | 5587/10682 [51:58<41:57,  2.02it/s] 52%|█████▏    | 5588/10682 [51:58<41:56,  2.02it/s] 52%|█████▏    | 5589/10682 [51:59<41:53,  2.03it/s] 52%|█████▏    | 5590/10682 [51:59<41:54,  2.02it/s] 52%|█████▏    | 5591/10682 [52:00<41:52,  2.03it/s] 52%|█████▏    | 5592/10682 [52:00<41:57,  2.02it/s] 52%|█████▏    | 5593/10682 [52:01<41:53,  2.02it/s] 52%|█████▏    | 5594/10682 [52:01<41:52,  2.03it/s] 52%|█████▏    | 5595/10682 [52:02<41:50,  2.03it/s] 52%|█████▏    | 5596/10682 [52:02<41:50,  2.03it/s] 52%|█████▏    | 5597/10682 [52:03<41:50,  2.03it/s] 52%|█████▏    | 5598/10682 [52:03<41:48,  2.03it/s] 52%|█████▏    | 5599/10682 [52:04<41:49,  2.03it/s] 52%|█████▏    | 5600/10682 [52:04<41:47,  2.03it/s]                                                    {'loss': 3.2266, 'grad_norm': 0.23452386260032654, 'learning_rate': 0.0005449568239805831, 'epoch': 7.34}
- 52%|█████▏    | 5600/10682 [52:04<41:47,  2.03it/s] 52%|█████▏    | 5601/10682 [52:05<42:00,  2.02it/s] 52%|█████▏    | 5602/10682 [52:05<41:56,  2.02it/s] 52%|█████▏    | 5603/10682 [52:06<41:52,  2.02it/s] 52%|█████▏    | 5604/10682 [52:06<41:51,  2.02it/s] 52%|█████▏    | 5605/10682 [52:07<41:48,  2.02it/s] 52%|█████▏    | 5606/10682 [52:07<41:51,  2.02it/s] 52%|█████▏    | 5607/10682 [52:08<41:47,  2.02it/s] 52%|█████▏    | 5608/10682 [52:08<41:48,  2.02it/s] 53%|█████▎    | 5609/10682 [52:09<41:47,  2.02it/s] 53%|█████▎    | 5610/10682 [52:09<41:43,  2.03it/s] 53%|█████▎    | 5611/10682 [52:10<41:45,  2.02it/s] 53%|█████▎    | 5612/10682 [52:10<41:41,  2.03it/s] 53%|█████▎    | 5613/10682 [52:11<41:42,  2.03it/s] 53%|█████▎    | 5614/10682 [52:11<41:43,  2.02it/s] 53%|█████▎    | 5615/10682 [52:12<41:43,  2.02it/s] 53%|█████▎    | 5616/10682 [52:12<41:42,  2.02it/s] 53%|█████▎    | 5617/10682 [52:13<41:40,  2.03it/s] 53%|█████▎    | 5618/10682 [52:13<41:43,  2.02it/s] 53%|█████▎    | 5619/10682 [52:14<41:39,  2.03it/s] 53%|█████▎    | 5620/10682 [52:14<41:41,  2.02it/s] 53%|█████▎    | 5621/10682 [52:14<41:37,  2.03it/s] 53%|█████▎    | 5622/10682 [52:15<41:38,  2.03it/s] 53%|█████▎    | 5623/10682 [52:15<41:37,  2.03it/s] 53%|█████▎    | 5624/10682 [52:16<41:39,  2.02it/s] 53%|█████▎    | 5625/10682 [52:16<41:37,  2.02it/s]                                                    {'loss': 3.2327, 'grad_norm': 0.24336078763008118, 'learning_rate': 0.0005408868315969458, 'epoch': 7.37}
- 53%|█████▎    | 5625/10682 [52:16<41:37,  2.02it/s] 53%|█████▎    | 5626/10682 [52:17<41:37,  2.02it/s] 53%|█████▎    | 5627/10682 [52:17<41:41,  2.02it/s] 53%|█████▎    | 5628/10682 [52:18<41:40,  2.02it/s] 53%|█████▎    | 5629/10682 [52:18<41:37,  2.02it/s] 53%|█████▎    | 5630/10682 [52:19<41:35,  2.02it/s] 53%|█████▎    | 5631/10682 [52:19<41:36,  2.02it/s] 53%|█████▎    | 5632/10682 [52:20<41:37,  2.02it/s] 53%|█████▎    | 5633/10682 [52:20<41:35,  2.02it/s] 53%|█████▎    | 5634/10682 [52:21<41:34,  2.02it/s] 53%|█████▎    | 5635/10682 [52:21<41:32,  2.02it/s] 53%|█████▎    | 5636/10682 [52:22<41:34,  2.02it/s] 53%|█████▎    | 5637/10682 [52:22<41:33,  2.02it/s] 53%|█████▎    | 5638/10682 [52:23<41:32,  2.02it/s] 53%|█████▎    | 5639/10682 [52:23<41:31,  2.02it/s] 53%|█████▎    | 5640/10682 [52:24<41:32,  2.02it/s] 53%|█████▎    | 5641/10682 [52:24<41:32,  2.02it/s] 53%|█████▎    | 5642/10682 [52:25<41:30,  2.02it/s] 53%|█████▎    | 5643/10682 [52:25<41:30,  2.02it/s] 53%|█████▎    | 5644/10682 [52:26<41:29,  2.02it/s] 53%|█████▎    | 5645/10682 [52:26<41:27,  2.02it/s] 53%|█████▎    | 5646/10682 [52:27<41:26,  2.03it/s] 53%|█████▎    | 5647/10682 [52:27<41:24,  2.03it/s] 53%|█████▎    | 5648/10682 [52:28<41:25,  2.03it/s] 53%|█████▎    | 5649/10682 [52:28<41:22,  2.03it/s] 53%|█████▎    | 5650/10682 [52:29<41:25,  2.02it/s]{'loss': 3.2462, 'grad_norm': 0.24187016487121582, 'learning_rate': 0.0005368141099658168, 'epoch': 7.4}                                                    
- 53%|█████▎    | 5650/10682 [52:29<41:25,  2.02it/s] 53%|█████▎    | 5651/10682 [52:29<41:25,  2.02it/s] 53%|█████▎    | 5652/10682 [52:30<41:27,  2.02it/s] 53%|█████▎    | 5653/10682 [52:30<41:27,  2.02it/s] 53%|█████▎    | 5654/10682 [52:31<41:26,  2.02it/s] 53%|█████▎    | 5655/10682 [52:31<41:25,  2.02it/s] 53%|█████▎    | 5656/10682 [52:32<41:24,  2.02it/s] 53%|█████▎    | 5657/10682 [52:32<41:22,  2.02it/s] 53%|█████▎    | 5658/10682 [52:33<41:22,  2.02it/s] 53%|█████▎    | 5659/10682 [52:33<41:19,  2.03it/s] 53%|█████▎    | 5660/10682 [52:34<41:19,  2.03it/s] 53%|█████▎    | 5661/10682 [52:34<41:17,  2.03it/s] 53%|█████▎    | 5662/10682 [52:35<41:18,  2.03it/s] 53%|█████▎    | 5663/10682 [52:35<41:19,  2.02it/s] 53%|█████▎    | 5664/10682 [52:36<41:18,  2.02it/s] 53%|█████▎    | 5665/10682 [52:36<41:18,  2.02it/s] 53%|█████▎    | 5666/10682 [52:37<44:50,  1.86it/s] 53%|█████▎    | 5667/10682 [52:37<43:45,  1.91it/s] 53%|█████▎    | 5668/10682 [52:38<42:57,  1.95it/s] 53%|█████▎    | 5669/10682 [52:38<42:25,  1.97it/s] 53%|█████▎    | 5670/10682 [52:39<42:04,  1.99it/s] 53%|█████▎    | 5671/10682 [52:39<41:48,  2.00it/s] 53%|█████▎    | 5672/10682 [52:40<41:37,  2.01it/s] 53%|█████▎    | 5673/10682 [52:40<41:27,  2.01it/s] 53%|█████▎    | 5674/10682 [52:41<41:22,  2.02it/s] 53%|█████▎    | 5675/10682 [52:41<41:18,  2.02it/s]                                                    {'loss': 3.2319, 'grad_norm': 0.24419212341308594, 'learning_rate': 0.0005327389309464938, 'epoch': 7.44}
- 53%|█████▎    | 5675/10682 [52:41<41:18,  2.02it/s] 53%|█████▎    | 5676/10682 [52:42<41:17,  2.02it/s] 53%|█████▎    | 5677/10682 [52:42<41:16,  2.02it/s] 53%|█████▎    | 5678/10682 [52:43<41:15,  2.02it/s] 53%|█████▎    | 5679/10682 [52:43<41:14,  2.02it/s] 53%|█████▎    | 5680/10682 [52:44<41:13,  2.02it/s] 53%|█████▎    | 5681/10682 [52:44<41:11,  2.02it/s] 53%|█████▎    | 5682/10682 [52:45<41:10,  2.02it/s] 53%|█████▎    | 5683/10682 [52:45<41:09,  2.02it/s] 53%|█████▎    | 5684/10682 [52:46<41:10,  2.02it/s] 53%|█████▎    | 5685/10682 [52:46<41:08,  2.02it/s] 53%|█████▎    | 5686/10682 [52:47<41:09,  2.02it/s] 53%|█████▎    | 5687/10682 [52:47<41:06,  2.03it/s] 53%|█████▎    | 5688/10682 [52:48<41:07,  2.02it/s] 53%|█████▎    | 5689/10682 [52:48<41:04,  2.03it/s] 53%|█████▎    | 5690/10682 [52:49<41:02,  2.03it/s] 53%|█████▎    | 5691/10682 [52:49<41:02,  2.03it/s] 53%|█████▎    | 5692/10682 [52:50<40:59,  2.03it/s] 53%|█████▎    | 5693/10682 [52:50<41:02,  2.03it/s] 53%|█████▎    | 5694/10682 [52:51<40:59,  2.03it/s] 53%|█████▎    | 5695/10682 [52:51<41:01,  2.03it/s] 53%|█████▎    | 5696/10682 [52:52<40:59,  2.03it/s] 53%|█████▎    | 5697/10682 [52:52<40:59,  2.03it/s] 53%|█████▎    | 5698/10682 [52:53<41:01,  2.02it/s] 53%|█████▎    | 5699/10682 [52:53<41:01,  2.02it/s] 53%|█████▎    | 5700/10682 [52:54<41:02,  2.02it/s]                                                    {'loss': 3.2363, 'grad_norm': 0.23731857538223267, 'learning_rate': 0.0005286615665623071, 'epoch': 7.47}
- 53%|█████▎    | 5700/10682 [52:54<41:02,  2.02it/s] 53%|█████▎    | 5701/10682 [52:54<41:04,  2.02it/s] 53%|█████▎    | 5702/10682 [52:55<41:02,  2.02it/s] 53%|█████▎    | 5703/10682 [52:55<41:00,  2.02it/s] 53%|█████▎    | 5704/10682 [52:56<40:58,  2.03it/s] 53%|█████▎    | 5705/10682 [52:56<40:54,  2.03it/s] 53%|█████▎    | 5706/10682 [52:57<40:53,  2.03it/s] 53%|█████▎    | 5707/10682 [52:57<40:53,  2.03it/s] 53%|█████▎    | 5708/10682 [52:58<40:54,  2.03it/s] 53%|█████▎    | 5709/10682 [52:58<40:54,  2.03it/s] 53%|█████▎    | 5710/10682 [52:59<40:53,  2.03it/s] 53%|█████▎    | 5711/10682 [52:59<40:54,  2.03it/s] 53%|█████▎    | 5712/10682 [53:00<40:53,  2.03it/s] 53%|█████▎    | 5713/10682 [53:00<40:53,  2.03it/s] 53%|█████▎    | 5714/10682 [53:01<40:53,  2.03it/s] 54%|█████▎    | 5715/10682 [53:01<40:54,  2.02it/s] 54%|█████▎    | 5716/10682 [53:02<40:52,  2.02it/s] 54%|█████▎    | 5717/10682 [53:02<40:53,  2.02it/s] 54%|█████▎    | 5718/10682 [53:03<40:52,  2.02it/s] 54%|█████▎    | 5719/10682 [53:03<40:50,  2.02it/s] 54%|█████▎    | 5720/10682 [53:04<40:50,  2.03it/s] 54%|█████▎    | 5721/10682 [53:04<40:49,  2.03it/s] 54%|█████▎    | 5722/10682 [53:05<40:49,  2.03it/s] 54%|█████▎    | 5723/10682 [53:05<40:47,  2.03it/s] 54%|█████▎    | 5724/10682 [53:06<40:48,  2.03it/s] 54%|█████▎    | 5725/10682 [53:06<40:46,  2.03it/s]{'loss': 3.2385, 'grad_norm': 0.2417888045310974, 'learning_rate': 0.0005245822889824633, 'epoch': 7.5}
-                                                     54%|█████▎    | 5725/10682 [53:06<40:46,  2.03it/s] 54%|█████▎    | 5726/10682 [53:06<40:50,  2.02it/s] 54%|█████▎    | 5727/10682 [53:07<40:46,  2.03it/s] 54%|█████▎    | 5728/10682 [53:07<40:47,  2.02it/s] 54%|█████▎    | 5729/10682 [53:08<40:44,  2.03it/s] 54%|█████▎    | 5730/10682 [53:08<40:43,  2.03it/s] 54%|█████▎    | 5731/10682 [53:09<40:42,  2.03it/s] 54%|█████▎    | 5732/10682 [53:10<44:08,  1.87it/s] 54%|█████▎    | 5733/10682 [53:10<43:07,  1.91it/s] 54%|█████▎    | 5734/10682 [53:11<42:24,  1.94it/s] 54%|█████▎    | 5735/10682 [53:11<41:53,  1.97it/s] 54%|█████▎    | 5736/10682 [53:12<41:32,  1.98it/s] 54%|█████▎    | 5737/10682 [53:12<41:15,  2.00it/s] 54%|█████▎    | 5738/10682 [53:13<41:03,  2.01it/s] 54%|█████▎    | 5739/10682 [53:13<40:56,  2.01it/s] 54%|█████▎    | 5740/10682 [53:14<40:52,  2.02it/s] 54%|█████▎    | 5741/10682 [53:14<40:47,  2.02it/s] 54%|█████▍    | 5742/10682 [53:15<40:44,  2.02it/s] 54%|█████▍    | 5743/10682 [53:15<40:38,  2.03it/s] 54%|█████▍    | 5744/10682 [53:16<40:39,  2.02it/s] 54%|█████▍    | 5745/10682 [53:16<40:37,  2.03it/s] 54%|█████▍    | 5746/10682 [53:17<40:34,  2.03it/s] 54%|█████▍    | 5747/10682 [53:17<40:35,  2.03it/s] 54%|█████▍    | 5748/10682 [53:17<40:34,  2.03it/s] 54%|█████▍    | 5749/10682 [53:18<40:34,  2.03it/s] 54%|█████▍    | 5750/10682 [53:18<40:33,  2.03it/s]{'loss': 3.2438, 'grad_norm': 0.2508464455604553, 'learning_rate': 0.0005205013705038776, 'epoch': 7.54}
-                                                     54%|█████▍    | 5750/10682 [53:18<40:33,  2.03it/s] 54%|█████▍    | 5751/10682 [53:19<40:35,  2.02it/s] 54%|█████▍    | 5752/10682 [53:19<40:36,  2.02it/s] 54%|█████▍    | 5753/10682 [53:20<40:34,  2.02it/s] 54%|█████▍    | 5754/10682 [53:20<40:35,  2.02it/s] 54%|█████▍    | 5755/10682 [53:21<40:32,  2.03it/s] 54%|█████▍    | 5756/10682 [53:21<40:35,  2.02it/s] 54%|█████▍    | 5757/10682 [53:22<40:34,  2.02it/s] 54%|█████▍    | 5758/10682 [53:22<40:33,  2.02it/s] 54%|█████▍    | 5759/10682 [53:23<40:30,  2.03it/s] 54%|█████▍    | 5760/10682 [53:23<40:31,  2.02it/s] 54%|█████▍    | 5761/10682 [53:24<40:28,  2.03it/s] 54%|█████▍    | 5762/10682 [53:24<40:26,  2.03it/s] 54%|█████▍    | 5763/10682 [53:25<40:27,  2.03it/s] 54%|█████▍    | 5764/10682 [53:25<40:25,  2.03it/s] 54%|█████▍    | 5765/10682 [53:26<40:25,  2.03it/s] 54%|█████▍    | 5766/10682 [53:26<40:22,  2.03it/s] 54%|█████▍    | 5767/10682 [53:27<40:24,  2.03it/s] 54%|█████▍    | 5768/10682 [53:27<40:25,  2.03it/s] 54%|█████▍    | 5769/10682 [53:28<40:25,  2.03it/s] 54%|█████▍    | 5770/10682 [53:28<40:25,  2.03it/s] 54%|█████▍    | 5771/10682 [53:29<40:25,  2.02it/s] 54%|█████▍    | 5772/10682 [53:29<40:25,  2.02it/s] 54%|█████▍    | 5773/10682 [53:30<40:23,  2.03it/s] 54%|█████▍    | 5774/10682 [53:30<40:23,  2.03it/s] 54%|█████▍    | 5775/10682 [53:31<40:22,  2.03it/s]                                                    {'loss': 3.2437, 'grad_norm': 0.24264806509017944, 'learning_rate': 0.0005164190835329964, 'epoch': 7.57}
- 54%|█████▍    | 5775/10682 [53:31<40:22,  2.03it/s] 54%|█████▍    | 5776/10682 [53:31<40:33,  2.02it/s] 54%|█████▍    | 5777/10682 [53:32<40:31,  2.02it/s] 54%|█████▍    | 5778/10682 [53:32<40:27,  2.02it/s] 54%|█████▍    | 5779/10682 [53:33<40:23,  2.02it/s] 54%|█████▍    | 5780/10682 [53:33<40:22,  2.02it/s] 54%|█████▍    | 5781/10682 [53:34<40:20,  2.03it/s] 54%|█████▍    | 5782/10682 [53:34<40:20,  2.02it/s] 54%|█████▍    | 5783/10682 [53:35<40:18,  2.03it/s] 54%|█████▍    | 5784/10682 [53:35<40:18,  2.03it/s] 54%|█████▍    | 5785/10682 [53:36<40:15,  2.03it/s] 54%|█████▍    | 5786/10682 [53:36<40:16,  2.03it/s] 54%|█████▍    | 5787/10682 [53:37<40:15,  2.03it/s] 54%|█████▍    | 5788/10682 [53:37<40:14,  2.03it/s] 54%|█████▍    | 5789/10682 [53:38<40:15,  2.03it/s] 54%|█████▍    | 5790/10682 [53:38<40:10,  2.03it/s] 54%|█████▍    | 5791/10682 [53:39<40:13,  2.03it/s] 54%|█████▍    | 5792/10682 [53:39<40:12,  2.03it/s] 54%|█████▍    | 5793/10682 [53:40<40:13,  2.03it/s] 54%|█████▍    | 5794/10682 [53:40<40:12,  2.03it/s] 54%|█████▍    | 5795/10682 [53:41<40:12,  2.03it/s] 54%|█████▍    | 5796/10682 [53:41<40:10,  2.03it/s] 54%|█████▍    | 5797/10682 [53:42<40:08,  2.03it/s] 54%|█████▍    | 5798/10682 [53:42<40:09,  2.03it/s] 54%|█████▍    | 5799/10682 [53:43<40:09,  2.03it/s] 54%|█████▍    | 5800/10682 [53:43<40:10,  2.03it/s]                                                    {'loss': 3.2475, 'grad_norm': 0.2358948439359665, 'learning_rate': 0.0005123357005676156, 'epoch': 7.6}
- 54%|█████▍    | 5800/10682 [53:43<40:10,  2.03it/s] 54%|█████▍    | 5801/10682 [53:44<40:23,  2.01it/s] 54%|█████▍    | 5802/10682 [53:44<40:19,  2.02it/s] 54%|█████▍    | 5803/10682 [53:45<40:16,  2.02it/s] 54%|█████▍    | 5804/10682 [53:45<40:10,  2.02it/s] 54%|█████▍    | 5805/10682 [53:46<40:10,  2.02it/s] 54%|█████▍    | 5806/10682 [53:46<40:08,  2.02it/s] 54%|█████▍    | 5807/10682 [53:47<40:06,  2.03it/s] 54%|█████▍    | 5808/10682 [53:47<40:07,  2.02it/s] 54%|█████▍    | 5809/10682 [53:48<40:06,  2.02it/s] 54%|█████▍    | 5810/10682 [53:48<40:08,  2.02it/s] 54%|█████▍    | 5811/10682 [53:49<40:07,  2.02it/s] 54%|█████▍    | 5812/10682 [53:49<40:06,  2.02it/s] 54%|█████▍    | 5813/10682 [53:50<40:03,  2.03it/s] 54%|█████▍    | 5814/10682 [53:50<40:02,  2.03it/s] 54%|█████▍    | 5815/10682 [53:51<40:03,  2.03it/s] 54%|█████▍    | 5816/10682 [53:51<40:02,  2.03it/s] 54%|█████▍    | 5817/10682 [53:52<40:02,  2.03it/s] 54%|█████▍    | 5818/10682 [53:52<40:00,  2.03it/s] 54%|█████▍    | 5819/10682 [53:53<40:00,  2.03it/s] 54%|█████▍    | 5820/10682 [53:53<39:59,  2.03it/s] 54%|█████▍    | 5821/10682 [53:54<39:57,  2.03it/s] 55%|█████▍    | 5822/10682 [53:54<39:58,  2.03it/s] 55%|█████▍    | 5823/10682 [53:55<39:56,  2.03it/s] 55%|█████▍    | 5824/10682 [53:55<39:58,  2.03it/s] 55%|█████▍    | 5825/10682 [53:56<39:56,  2.03it/s]{'loss': 3.247, 'grad_norm': 0.24432137608528137, 'learning_rate': 0.0005082514941786895, 'epoch': 7.63}
-                                                     55%|█████▍    | 5825/10682 [53:56<39:56,  2.03it/s] 55%|█████▍    | 5826/10682 [53:56<40:06,  2.02it/s] 55%|█████▍    | 5827/10682 [53:57<40:05,  2.02it/s] 55%|█████▍    | 5828/10682 [53:57<40:05,  2.02it/s] 55%|█████▍    | 5829/10682 [53:58<40:00,  2.02it/s] 55%|█████▍    | 5830/10682 [53:58<39:59,  2.02it/s] 55%|█████▍    | 5831/10682 [53:58<39:57,  2.02it/s] 55%|█████▍    | 5832/10682 [53:59<39:57,  2.02it/s] 55%|█████▍    | 5833/10682 [53:59<39:56,  2.02it/s] 55%|█████▍    | 5834/10682 [54:00<39:52,  2.03it/s] 55%|█████▍    | 5835/10682 [54:00<39:54,  2.02it/s] 55%|█████▍    | 5836/10682 [54:01<39:52,  2.03it/s] 55%|█████▍    | 5837/10682 [54:01<39:54,  2.02it/s] 55%|█████▍    | 5838/10682 [54:02<39:53,  2.02it/s] 55%|█████▍    | 5839/10682 [54:02<39:55,  2.02it/s] 55%|█████▍    | 5840/10682 [54:03<39:51,  2.02it/s] 55%|█████▍    | 5841/10682 [54:03<39:51,  2.02it/s] 55%|█████▍    | 5842/10682 [54:04<39:48,  2.03it/s] 55%|█████▍    | 5843/10682 [54:04<39:49,  2.03it/s] 55%|█████▍    | 5844/10682 [54:05<39:49,  2.02it/s] 55%|█████▍    | 5845/10682 [54:05<39:47,  2.03it/s] 55%|█████▍    | 5846/10682 [54:06<39:45,  2.03it/s] 55%|█████▍    | 5847/10682 [54:06<39:42,  2.03it/s] 55%|█████▍    | 5848/10682 [54:07<39:43,  2.03it/s] 55%|█████▍    | 5849/10682 [54:07<39:42,  2.03it/s] 55%|█████▍    | 5850/10682 [54:08<39:43,  2.03it/s]                                                    {'loss': 3.2467, 'grad_norm': 0.23201479017734528, 'learning_rate': 0.0005041667369921374, 'epoch': 7.67}
- 55%|█████▍    | 5850/10682 [54:08<39:43,  2.03it/s] 55%|█████▍    | 5851/10682 [54:08<39:45,  2.02it/s] 55%|█████▍    | 5852/10682 [54:09<39:45,  2.02it/s] 55%|█████▍    | 5853/10682 [54:09<39:43,  2.03it/s] 55%|█████▍    | 5854/10682 [54:10<39:40,  2.03it/s] 55%|█████▍    | 5855/10682 [54:10<39:42,  2.03it/s] 55%|█████▍    | 5856/10682 [54:11<39:40,  2.03it/s] 55%|█████▍    | 5857/10682 [54:11<39:43,  2.02it/s] 55%|█████▍    | 5858/10682 [54:12<39:40,  2.03it/s] 55%|█████▍    | 5859/10682 [54:12<39:41,  2.02it/s] 55%|█████▍    | 5860/10682 [54:13<39:41,  2.02it/s] 55%|█████▍    | 5861/10682 [54:13<39:42,  2.02it/s] 55%|█████▍    | 5862/10682 [54:14<39:40,  2.03it/s] 55%|█████▍    | 5863/10682 [54:14<39:41,  2.02it/s] 55%|█████▍    | 5864/10682 [54:15<39:40,  2.02it/s] 55%|█████▍    | 5865/10682 [54:15<39:38,  2.03it/s] 55%|█████▍    | 5866/10682 [54:16<39:38,  2.02it/s] 55%|█████▍    | 5867/10682 [54:16<39:37,  2.03it/s] 55%|█████▍    | 5868/10682 [54:17<39:38,  2.02it/s] 55%|█████▍    | 5869/10682 [54:17<39:34,  2.03it/s] 55%|█████▍    | 5870/10682 [54:18<39:33,  2.03it/s] 55%|█████▍    | 5871/10682 [54:18<39:35,  2.03it/s] 55%|█████▍    | 5872/10682 [54:19<39:36,  2.02it/s] 55%|█████▍    | 5873/10682 [54:19<39:37,  2.02it/s] 55%|█████▍    | 5874/10682 [54:20<39:36,  2.02it/s] 55%|█████▍    | 5875/10682 [54:20<39:35,  2.02it/s]{'loss': 3.2624, 'grad_norm': 0.23157837986946106, 'learning_rate': 0.0005000817016706441, 'epoch': 7.7}
-                                                     55%|█████▍    | 5875/10682 [54:20<39:35,  2.02it/s] 55%|█████▌    | 5876/10682 [54:21<39:37,  2.02it/s] 55%|█████▌    | 5877/10682 [54:21<39:36,  2.02it/s] 55%|█████▌    | 5878/10682 [54:22<39:37,  2.02it/s] 55%|█████▌    | 5879/10682 [54:22<39:32,  2.02it/s] 55%|█████▌    | 5880/10682 [54:23<39:34,  2.02it/s] 55%|█████▌    | 5881/10682 [54:23<39:31,  2.02it/s] 55%|█████▌    | 5882/10682 [54:24<39:31,  2.02it/s] 55%|█████▌    | 5883/10682 [54:24<39:31,  2.02it/s] 55%|█████▌    | 5884/10682 [54:25<39:29,  2.02it/s] 55%|█████▌    | 5885/10682 [54:25<39:29,  2.02it/s] 55%|█████▌    | 5886/10682 [54:26<39:27,  2.03it/s] 55%|█████▌    | 5887/10682 [54:26<39:29,  2.02it/s] 55%|█████▌    | 5888/10682 [54:27<39:27,  2.03it/s] 55%|█████▌    | 5889/10682 [54:27<39:27,  2.02it/s] 55%|█████▌    | 5890/10682 [54:28<39:26,  2.02it/s] 55%|█████▌    | 5891/10682 [54:28<39:25,  2.03it/s] 55%|█████▌    | 5892/10682 [54:29<39:26,  2.02it/s] 55%|█████▌    | 5893/10682 [54:29<39:25,  2.02it/s] 55%|█████▌    | 5894/10682 [54:30<39:27,  2.02it/s] 55%|█████▌    | 5895/10682 [54:30<39:28,  2.02it/s] 55%|█████▌    | 5896/10682 [54:31<39:27,  2.02it/s] 55%|█████▌    | 5897/10682 [54:31<39:26,  2.02it/s] 55%|█████▌    | 5898/10682 [54:32<39:26,  2.02it/s] 55%|█████▌    | 5899/10682 [54:32<39:25,  2.02it/s] 55%|█████▌    | 5900/10682 [54:33<39:25,  2.02it/s]                                                    {'loss': 3.2519, 'grad_norm': 0.23054754734039307, 'learning_rate': 0.0004959966608954618, 'epoch': 7.73}
- 55%|█████▌    | 5900/10682 [54:33<39:25,  2.02it/s] 55%|█████▌    | 5901/10682 [54:33<39:34,  2.01it/s] 55%|█████▌    | 5902/10682 [54:34<39:29,  2.02it/s] 55%|█████▌    | 5903/10682 [54:34<39:24,  2.02it/s] 55%|█████▌    | 5904/10682 [54:35<39:22,  2.02it/s] 55%|█████▌    | 5905/10682 [54:35<39:20,  2.02it/s] 55%|█████▌    | 5906/10682 [54:36<39:20,  2.02it/s] 55%|█████▌    | 5907/10682 [54:36<39:17,  2.03it/s] 55%|█████▌    | 5908/10682 [54:37<39:18,  2.02it/s] 55%|█████▌    | 5909/10682 [54:37<39:16,  2.03it/s] 55%|█████▌    | 5910/10682 [54:38<39:16,  2.03it/s] 55%|█████▌    | 5911/10682 [54:38<39:15,  2.03it/s] 55%|█████▌    | 5912/10682 [54:39<39:15,  2.02it/s] 55%|█████▌    | 5913/10682 [54:39<39:15,  2.02it/s] 55%|█████▌    | 5914/10682 [54:39<39:12,  2.03it/s] 55%|█████▌    | 5915/10682 [54:40<39:13,  2.03it/s] 55%|█████▌    | 5916/10682 [54:40<39:08,  2.03it/s] 55%|█████▌    | 5917/10682 [54:41<39:11,  2.03it/s] 55%|█████▌    | 5918/10682 [54:41<39:08,  2.03it/s] 55%|█████▌    | 5919/10682 [54:42<39:09,  2.03it/s] 55%|█████▌    | 5920/10682 [54:42<39:08,  2.03it/s] 55%|█████▌    | 5921/10682 [54:43<39:06,  2.03it/s] 55%|█████▌    | 5922/10682 [54:43<39:08,  2.03it/s] 55%|█████▌    | 5923/10682 [54:44<39:05,  2.03it/s] 55%|█████▌    | 5924/10682 [54:44<39:09,  2.03it/s] 55%|█████▌    | 5925/10682 [54:45<39:08,  2.03it/s]                                                    {'loss': 3.2566, 'grad_norm': 0.24792562425136566, 'learning_rate': 0.0004919118873482054, 'epoch': 7.77}
- 55%|█████▌    | 5925/10682 [54:45<39:08,  2.03it/s] 55%|█████▌    | 5926/10682 [54:45<39:12,  2.02it/s] 55%|█████▌    | 5927/10682 [54:46<39:10,  2.02it/s] 55%|█████▌    | 5928/10682 [54:46<39:08,  2.02it/s] 56%|█████▌    | 5929/10682 [54:47<39:07,  2.02it/s] 56%|█████▌    | 5930/10682 [54:47<39:06,  2.03it/s] 56%|█████▌    | 5931/10682 [54:48<39:05,  2.03it/s] 56%|█████▌    | 5932/10682 [54:48<39:03,  2.03it/s] 56%|█████▌    | 5933/10682 [54:49<39:04,  2.03it/s] 56%|█████▌    | 5934/10682 [54:49<39:06,  2.02it/s] 56%|█████▌    | 5935/10682 [54:50<39:05,  2.02it/s] 56%|█████▌    | 5936/10682 [54:50<39:05,  2.02it/s] 56%|█████▌    | 5937/10682 [54:51<39:04,  2.02it/s] 56%|█████▌    | 5938/10682 [54:51<39:01,  2.03it/s] 56%|█████▌    | 5939/10682 [54:52<39:01,  2.03it/s] 56%|█████▌    | 5940/10682 [54:52<38:59,  2.03it/s] 56%|█████▌    | 5941/10682 [54:53<38:59,  2.03it/s] 56%|█████▌    | 5942/10682 [54:53<38:58,  2.03it/s] 56%|█████▌    | 5943/10682 [54:54<38:58,  2.03it/s] 56%|█████▌    | 5944/10682 [54:54<38:59,  2.03it/s] 56%|█████▌    | 5945/10682 [54:55<39:00,  2.02it/s] 56%|█████▌    | 5946/10682 [54:55<39:00,  2.02it/s] 56%|█████▌    | 5947/10682 [54:56<38:59,  2.02it/s] 56%|█████▌    | 5948/10682 [54:56<38:57,  2.03it/s] 56%|█████▌    | 5949/10682 [54:57<38:55,  2.03it/s] 56%|█████▌    | 5950/10682 [54:57<38:54,  2.03it/s]                                                    {'loss': 3.2562, 'grad_norm': 0.22963321208953857, 'learning_rate': 0.0004878276536926525, 'epoch': 7.8}
- 56%|█████▌    | 5950/10682 [54:57<38:54,  2.03it/s] 56%|█████▌    | 5951/10682 [54:58<38:58,  2.02it/s] 56%|█████▌    | 5952/10682 [54:58<38:56,  2.02it/s] 56%|█████▌    | 5953/10682 [54:59<38:56,  2.02it/s] 56%|█████▌    | 5954/10682 [54:59<38:55,  2.02it/s] 56%|█████▌    | 5955/10682 [55:00<38:54,  2.02it/s] 56%|█████▌    | 5956/10682 [55:00<38:55,  2.02it/s] 56%|█████▌    | 5957/10682 [55:01<38:55,  2.02it/s] 56%|█████▌    | 5958/10682 [55:01<38:53,  2.02it/s] 56%|█████▌    | 5959/10682 [55:02<38:51,  2.03it/s] 56%|█████▌    | 5960/10682 [55:02<38:51,  2.02it/s] 56%|█████▌    | 5961/10682 [55:03<38:50,  2.03it/s] 56%|█████▌    | 5962/10682 [55:03<38:50,  2.03it/s] 56%|█████▌    | 5963/10682 [55:04<38:48,  2.03it/s] 56%|█████▌    | 5964/10682 [55:04<38:48,  2.03it/s] 56%|█████▌    | 5965/10682 [55:05<38:47,  2.03it/s] 56%|█████▌    | 5966/10682 [55:05<38:49,  2.02it/s] 56%|█████▌    | 5967/10682 [55:06<38:48,  2.02it/s] 56%|█████▌    | 5968/10682 [55:06<38:46,  2.03it/s] 56%|█████▌    | 5969/10682 [55:07<38:51,  2.02it/s] 56%|█████▌    | 5970/10682 [55:07<38:49,  2.02it/s] 56%|█████▌    | 5971/10682 [55:08<38:49,  2.02it/s] 56%|█████▌    | 5972/10682 [55:08<38:46,  2.02it/s] 56%|█████▌    | 5973/10682 [55:09<38:45,  2.02it/s] 56%|█████▌    | 5974/10682 [55:09<38:44,  2.03it/s] 56%|█████▌    | 5975/10682 [55:10<38:46,  2.02it/s]                                                    {'loss': 3.2572, 'grad_norm': 0.24495337903499603, 'learning_rate': 0.0004837442325565422, 'epoch': 7.83}
- 56%|█████▌    | 5975/10682 [55:10<38:46,  2.02it/s] 56%|█████▌    | 5976/10682 [55:10<38:49,  2.02it/s] 56%|█████▌    | 5977/10682 [55:11<38:46,  2.02it/s] 56%|█████▌    | 5978/10682 [55:11<38:44,  2.02it/s] 56%|█████▌    | 5979/10682 [55:12<38:45,  2.02it/s] 56%|█████▌    | 5980/10682 [55:12<38:41,  2.03it/s] 56%|█████▌    | 5981/10682 [55:13<38:41,  2.03it/s] 56%|█████▌    | 5982/10682 [55:13<38:38,  2.03it/s] 56%|█████▌    | 5983/10682 [55:14<38:39,  2.03it/s] 56%|█████▌    | 5984/10682 [55:14<38:39,  2.03it/s] 56%|█████▌    | 5985/10682 [55:15<38:36,  2.03it/s] 56%|█████▌    | 5986/10682 [55:15<38:36,  2.03it/s] 56%|█████▌    | 5987/10682 [55:16<38:35,  2.03it/s] 56%|█████▌    | 5988/10682 [55:16<38:36,  2.03it/s] 56%|█████▌    | 5989/10682 [55:17<38:37,  2.03it/s] 56%|█████▌    | 5990/10682 [55:17<38:37,  2.02it/s] 56%|█████▌    | 5991/10682 [55:18<38:36,  2.02it/s] 56%|█████▌    | 5992/10682 [55:18<38:35,  2.03it/s] 56%|█████▌    | 5993/10682 [55:19<38:35,  2.02it/s] 56%|█████▌    | 5994/10682 [55:19<38:33,  2.03it/s] 56%|█████▌    | 5995/10682 [55:19<38:35,  2.02it/s] 56%|█████▌    | 5996/10682 [55:20<38:35,  2.02it/s] 56%|█████▌    | 5997/10682 [55:20<38:34,  2.02it/s] 56%|█████▌    | 5998/10682 [55:21<38:33,  2.02it/s] 56%|█████▌    | 5999/10682 [55:21<38:32,  2.03it/s] 56%|█████▌    | 6000/10682 [55:22<38:32,  2.02it/s]{'loss': 3.2494, 'grad_norm': 0.23993133008480072, 'learning_rate': 0.00047966189651337725, 'epoch': 7.86}
-                                                     56%|█████▌    | 6000/10682 [55:22<38:32,  2.02it/s] 56%|█████▌    | 6001/10682 [55:22<38:35,  2.02it/s] 56%|█████▌    | 6002/10682 [55:23<38:34,  2.02it/s] 56%|█████▌    | 6003/10682 [55:23<38:32,  2.02it/s] 56%|█████▌    | 6004/10682 [55:24<38:34,  2.02it/s] 56%|█████▌    | 6005/10682 [55:24<38:30,  2.02it/s] 56%|█████▌    | 6006/10682 [55:25<38:29,  2.02it/s] 56%|█████▌    | 6007/10682 [55:25<38:28,  2.02it/s] 56%|█████▌    | 6008/10682 [55:26<38:25,  2.03it/s] 56%|█████▋    | 6009/10682 [55:26<38:25,  2.03it/s] 56%|█████▋    | 6010/10682 [55:27<38:22,  2.03it/s] 56%|█████▋    | 6011/10682 [55:27<38:24,  2.03it/s] 56%|█████▋    | 6012/10682 [55:28<38:24,  2.03it/s] 56%|█████▋    | 6013/10682 [55:28<38:23,  2.03it/s] 56%|█████▋    | 6014/10682 [55:29<38:24,  2.03it/s] 56%|█████▋    | 6015/10682 [55:29<38:23,  2.03it/s] 56%|█████▋    | 6016/10682 [55:30<38:23,  2.03it/s] 56%|█████▋    | 6017/10682 [55:30<38:23,  2.02it/s] 56%|█████▋    | 6018/10682 [55:31<38:24,  2.02it/s] 56%|█████▋    | 6019/10682 [55:31<38:25,  2.02it/s] 56%|█████▋    | 6020/10682 [55:32<38:24,  2.02it/s] 56%|█████▋    | 6021/10682 [55:32<38:22,  2.02it/s] 56%|█████▋    | 6022/10682 [55:33<38:22,  2.02it/s] 56%|█████▋    | 6023/10682 [55:33<38:21,  2.02it/s] 56%|█████▋    | 6024/10682 [55:34<38:20,  2.02it/s] 56%|█████▋    | 6025/10682 [55:34<38:17,  2.03it/s]                                                    {'loss': 3.2581, 'grad_norm': 0.2344634085893631, 'learning_rate': 0.0004755809180642286, 'epoch': 7.9}
- 56%|█████▋    | 6025/10682 [55:34<38:17,  2.03it/s] 56%|█████▋    | 6026/10682 [55:35<38:22,  2.02it/s] 56%|█████▋    | 6027/10682 [55:35<38:20,  2.02it/s] 56%|█████▋    | 6028/10682 [55:36<38:19,  2.02it/s] 56%|█████▋    | 6029/10682 [55:36<38:17,  2.02it/s] 56%|█████▋    | 6030/10682 [55:37<38:17,  2.03it/s] 56%|█████▋    | 6031/10682 [55:37<38:16,  2.03it/s] 56%|█████▋    | 6032/10682 [55:38<38:14,  2.03it/s] 56%|█████▋    | 6033/10682 [55:38<38:15,  2.02it/s] 56%|█████▋    | 6034/10682 [55:39<38:12,  2.03it/s] 56%|█████▋    | 6035/10682 [55:39<38:14,  2.03it/s] 57%|█████▋    | 6036/10682 [55:40<38:10,  2.03it/s] 57%|█████▋    | 6037/10682 [55:40<38:12,  2.03it/s] 57%|█████▋    | 6038/10682 [55:41<38:10,  2.03it/s] 57%|█████▋    | 6039/10682 [55:41<38:11,  2.03it/s] 57%|█████▋    | 6040/10682 [55:42<38:11,  2.03it/s] 57%|█████▋    | 6041/10682 [55:42<38:09,  2.03it/s] 57%|█████▋    | 6042/10682 [55:43<38:10,  2.03it/s] 57%|█████▋    | 6043/10682 [55:43<38:07,  2.03it/s] 57%|█████▋    | 6044/10682 [55:44<38:09,  2.03it/s] 57%|█████▋    | 6045/10682 [55:44<38:06,  2.03it/s] 57%|█████▋    | 6046/10682 [55:45<38:09,  2.03it/s] 57%|█████▋    | 6047/10682 [55:45<38:07,  2.03it/s] 57%|█████▋    | 6048/10682 [55:46<38:07,  2.03it/s] 57%|█████▋    | 6049/10682 [55:46<38:07,  2.03it/s] 57%|█████▋    | 6050/10682 [55:47<38:06,  2.03it/s]{'loss': 3.2584, 'grad_norm': 0.23521487414836884, 'learning_rate': 0.00047150156961954607, 'epoch': 7.93}                                                    
- 57%|█████▋    | 6050/10682 [55:47<38:06,  2.03it/s] 57%|█████▋    | 6051/10682 [55:47<38:09,  2.02it/s] 57%|█████▋    | 6052/10682 [55:48<38:07,  2.02it/s] 57%|█████▋    | 6053/10682 [55:48<38:07,  2.02it/s] 57%|█████▋    | 6054/10682 [55:49<38:06,  2.02it/s] 57%|█████▋    | 6055/10682 [55:49<38:05,  2.02it/s] 57%|█████▋    | 6056/10682 [55:50<38:03,  2.03it/s] 57%|█████▋    | 6057/10682 [55:50<38:04,  2.02it/s] 57%|█████▋    | 6058/10682 [55:51<38:01,  2.03it/s] 57%|█████▋    | 6059/10682 [55:51<38:03,  2.02it/s] 57%|█████▋    | 6060/10682 [55:52<38:01,  2.03it/s] 57%|█████▋    | 6061/10682 [55:52<38:01,  2.02it/s] 57%|█████▋    | 6062/10682 [55:53<38:00,  2.03it/s] 57%|█████▋    | 6063/10682 [55:53<37:57,  2.03it/s] 57%|█████▋    | 6064/10682 [55:54<37:57,  2.03it/s] 57%|█████▋    | 6065/10682 [55:54<37:56,  2.03it/s] 57%|█████▋    | 6066/10682 [55:55<37:55,  2.03it/s] 57%|█████▋    | 6067/10682 [55:55<37:56,  2.03it/s] 57%|█████▋    | 6068/10682 [55:56<37:53,  2.03it/s] 57%|█████▋    | 6069/10682 [55:56<37:55,  2.03it/s] 57%|█████▋    | 6070/10682 [55:57<37:54,  2.03it/s] 57%|█████▋    | 6071/10682 [55:57<37:55,  2.03it/s] 57%|█████▋    | 6072/10682 [55:58<37:55,  2.03it/s] 57%|█████▋    | 6073/10682 [55:58<37:55,  2.03it/s] 57%|█████▋    | 6074/10682 [55:58<37:54,  2.03it/s] 57%|█████▋    | 6075/10682 [55:59<37:54,  2.03it/s]                                                    {'loss': 3.258, 'grad_norm': 0.26011475920677185, 'learning_rate': 0.0004674241234809751, 'epoch': 7.96}
- 57%|█████▋    | 6075/10682 [55:59<37:54,  2.03it/s] 57%|█████▋    | 6076/10682 [55:59<38:05,  2.02it/s] 57%|█████▋    | 6077/10682 [56:00<38:02,  2.02it/s] 57%|█████▋    | 6078/10682 [56:00<37:59,  2.02it/s] 57%|█████▋    | 6079/10682 [56:01<37:58,  2.02it/s] 57%|█████▋    | 6080/10682 [56:01<37:55,  2.02it/s] 57%|█████▋    | 6081/10682 [56:02<37:54,  2.02it/s] 57%|█████▋    | 6082/10682 [56:02<37:51,  2.02it/s] 57%|█████▋    | 6083/10682 [56:03<37:53,  2.02it/s] 57%|█████▋    | 6084/10682 [56:03<37:51,  2.02it/s] 57%|█████▋    | 6085/10682 [56:04<37:49,  2.03it/s] 57%|█████▋    | 6086/10682 [56:04<37:49,  2.03it/s] 57%|█████▋    | 6087/10682 [56:05<37:46,  2.03it/s] 57%|█████▋    | 6088/10682 [56:05<37:47,  2.03it/s] 57%|█████▋    | 6089/10682 [56:06<37:46,  2.03it/s] 57%|█████▋    | 6090/10682 [56:06<37:46,  2.03it/s] 57%|█████▋    | 6091/10682 [56:07<37:48,  2.02it/s] 57%|█████▋    | 6092/10682 [56:07<37:46,  2.02it/s] 57%|█████▋    | 6093/10682 [56:08<37:46,  2.02it/s] 57%|█████▋    | 6094/10682 [56:08<37:45,  2.03it/s] 57%|█████▋    | 6095/10682 [56:09<37:44,  2.03it/s] 57%|█████▋    | 6096/10682 [56:09<37:43,  2.03it/s] 57%|█████▋    | 6097/10682 [56:10<37:43,  2.03it/s] 57%|█████▋    | 6098/10682 [56:10<37:45,  2.02it/s] 57%|█████▋    | 6099/10682 [56:11<37:45,  2.02it/s] 57%|█████▋    | 6100/10682 [56:11<37:45,  2.02it/s]                                                    {'loss': 3.2602, 'grad_norm': 0.2336989939212799, 'learning_rate': 0.0004633488518231793, 'epoch': 7.99}
- 57%|█████▋    | 6100/10682 [56:11<37:45,  2.02it/s] 57%|█████▋    | 6101/10682 [56:12<37:45,  2.02it/s] 57%|█████▋    | 6102/10682 [56:12<37:45,  2.02it/s] 57%|█████▋    | 6103/10682 [56:13<37:42,  2.02it/s] 57%|█████▋    | 6104/10682 [56:13<37:17,  2.05it/s] 57%|█████▋    | 6105/10682 [57:09<21:39:25, 17.03s/it] 57%|█████▋    | 6106/10682 [57:09<15:20:41, 12.07s/it] 57%|█████▋    | 6107/10682 [57:10<10:55:39,  8.60s/it] 57%|█████▋    | 6108/10682 [57:10<7:50:06,  6.17s/it]  57%|█████▋    | 6109/10682 [57:11<5:40:17,  4.46s/it] 57%|█████▋    | 6110/10682 [57:11<4:09:41,  3.28s/it] 57%|█████▋    | 6111/10682 [57:12<3:06:01,  2.44s/it] 57%|█████▋    | 6112/10682 [57:12<2:21:26,  1.86s/it] 57%|█████▋    | 6113/10682 [57:13<1:50:18,  1.45s/it] 57%|█████▋    | 6114/10682 [57:13<1:28:26,  1.16s/it] 57%|█████▋    | 6115/10682 [57:14<1:13:11,  1.04it/s] 57%|█████▋    | 6116/10682 [57:14<1:02:29,  1.22it/s] 57%|█████▋    | 6117/10682 [57:15<55:02,  1.38it/s]   57%|█████▋    | 6118/10682 [57:15<49:45,  1.53it/s] 57%|█████▋    | 6119/10682 [57:16<46:04,  1.65it/s] 57%|█████▋    | 6120/10682 [57:16<43:28,  1.75it/s] 57%|█████▋    | 6121/10682 [57:17<41:39,  1.82it/s] 57%|█████▋    | 6122/10682 [57:17<40:27,  1.88it/s] 57%|█████▋    | 6123/10682 [57:18<39:33,  1.92it/s] 57%|█████▋    | 6124/10682 [57:18<38:57,  1.95it/s] 57%|█████▋    | 6125/10682 [57:19<38:29,  1.97it/s]{'loss': 3.1124, 'grad_norm': 0.23720470070838928, 'learning_rate': 0.00045927602667567333, 'epoch': 8.03}
-                                                     57%|█████▋    | 6125/10682 [57:19<38:29,  1.97it/s] 57%|█████▋    | 6126/10682 [57:19<38:14,  1.99it/s] 57%|█████▋    | 6127/10682 [57:20<38:05,  1.99it/s] 57%|█████▋    | 6128/10682 [57:20<37:55,  2.00it/s] 57%|█████▋    | 6129/10682 [57:21<37:45,  2.01it/s] 57%|█████▋    | 6130/10682 [57:21<37:46,  2.01it/s] 57%|█████▋    | 6131/10682 [57:22<37:46,  2.01it/s] 57%|█████▋    | 6132/10682 [57:22<37:40,  2.01it/s] 57%|█████▋    | 6133/10682 [57:23<37:39,  2.01it/s] 57%|█████▋    | 6134/10682 [57:23<37:37,  2.01it/s] 57%|█████▋    | 6135/10682 [57:24<37:39,  2.01it/s] 57%|█████▋    | 6136/10682 [57:24<37:34,  2.02it/s] 57%|█████▋    | 6137/10682 [57:25<37:38,  2.01it/s] 57%|█████▋    | 6138/10682 [57:25<37:39,  2.01it/s] 57%|█████▋    | 6139/10682 [57:26<37:32,  2.02it/s] 57%|█████▋    | 6140/10682 [57:26<37:30,  2.02it/s] 57%|█████▋    | 6141/10682 [57:27<37:26,  2.02it/s] 57%|█████▋    | 6142/10682 [57:27<37:27,  2.02it/s] 58%|█████▊    | 6143/10682 [57:28<37:24,  2.02it/s] 58%|█████▊    | 6144/10682 [57:28<37:24,  2.02it/s] 58%|█████▊    | 6145/10682 [57:29<37:20,  2.02it/s] 58%|█████▊    | 6146/10682 [57:29<37:20,  2.02it/s] 58%|█████▊    | 6147/10682 [57:30<37:19,  2.02it/s] 58%|█████▊    | 6148/10682 [57:30<37:18,  2.03it/s] 58%|█████▊    | 6149/10682 [57:31<37:18,  2.02it/s] 58%|█████▊    | 6150/10682 [57:31<37:16,  2.03it/s]                                                    {'loss': 3.1154, 'grad_norm': 0.24644501507282257, 'learning_rate': 0.00045520591990466365, 'epoch': 8.06}
- 58%|█████▊    | 6150/10682 [57:31<37:16,  2.03it/s] 58%|█████▊    | 6151/10682 [57:32<37:19,  2.02it/s] 58%|█████▊    | 6152/10682 [57:32<37:16,  2.03it/s] 58%|█████▊    | 6153/10682 [57:33<37:16,  2.03it/s] 58%|█████▊    | 6154/10682 [57:33<37:13,  2.03it/s] 58%|█████▊    | 6155/10682 [57:34<37:13,  2.03it/s] 58%|█████▊    | 6156/10682 [57:34<37:12,  2.03it/s] 58%|█████▊    | 6157/10682 [57:35<37:09,  2.03it/s] 58%|█████▊    | 6158/10682 [57:35<37:11,  2.03it/s] 58%|█████▊    | 6159/10682 [57:36<37:09,  2.03it/s] 58%|█████▊    | 6160/10682 [57:36<37:10,  2.03it/s] 58%|█████▊    | 6161/10682 [57:37<37:09,  2.03it/s] 58%|█████▊    | 6162/10682 [57:37<37:10,  2.03it/s] 58%|█████▊    | 6163/10682 [57:38<37:10,  2.03it/s] 58%|█████▊    | 6164/10682 [57:38<37:08,  2.03it/s] 58%|█████▊    | 6165/10682 [57:39<37:10,  2.03it/s] 58%|█████▊    | 6166/10682 [57:39<37:09,  2.03it/s] 58%|█████▊    | 6167/10682 [57:40<37:10,  2.02it/s] 58%|█████▊    | 6168/10682 [57:40<37:08,  2.03it/s] 58%|█████▊    | 6169/10682 [57:41<37:07,  2.03it/s] 58%|█████▊    | 6170/10682 [57:41<37:09,  2.02it/s] 58%|█████▊    | 6171/10682 [57:42<37:09,  2.02it/s] 58%|█████▊    | 6172/10682 [57:42<37:09,  2.02it/s] 58%|█████▊    | 6173/10682 [57:43<37:07,  2.02it/s] 58%|█████▊    | 6174/10682 [57:43<37:08,  2.02it/s] 58%|█████▊    | 6175/10682 [57:44<37:08,  2.02it/s]{'loss': 3.1138, 'grad_norm': 0.24005605280399323, 'learning_rate': 0.00045113880319490264, 'epoch': 8.09}
-                                                     58%|█████▊    | 6175/10682 [57:44<37:08,  2.02it/s] 58%|█████▊    | 6176/10682 [57:44<37:06,  2.02it/s] 58%|█████▊    | 6177/10682 [57:45<37:06,  2.02it/s] 58%|█████▊    | 6178/10682 [57:45<37:03,  2.03it/s] 58%|█████▊    | 6179/10682 [57:46<37:03,  2.03it/s] 58%|█████▊    | 6180/10682 [57:46<37:02,  2.03it/s] 58%|█████▊    | 6181/10682 [57:47<37:02,  2.03it/s] 58%|█████▊    | 6182/10682 [57:47<37:03,  2.02it/s] 58%|█████▊    | 6183/10682 [57:47<37:02,  2.02it/s] 58%|█████▊    | 6184/10682 [57:48<37:00,  2.03it/s] 58%|█████▊    | 6185/10682 [57:48<36:58,  2.03it/s] 58%|█████▊    | 6186/10682 [57:49<37:00,  2.02it/s] 58%|█████▊    | 6187/10682 [57:49<37:01,  2.02it/s] 58%|█████▊    | 6188/10682 [57:50<36:59,  2.02it/s] 58%|█████▊    | 6189/10682 [57:50<37:00,  2.02it/s] 58%|█████▊    | 6190/10682 [57:51<36:58,  2.02it/s] 58%|█████▊    | 6191/10682 [57:51<36:58,  2.02it/s] 58%|█████▊    | 6192/10682 [57:52<36:56,  2.03it/s] 58%|█████▊    | 6193/10682 [57:52<36:55,  2.03it/s] 58%|█████▊    | 6194/10682 [57:53<36:55,  2.03it/s] 58%|█████▊    | 6195/10682 [57:53<36:53,  2.03it/s] 58%|█████▊    | 6196/10682 [57:54<36:56,  2.02it/s] 58%|█████▊    | 6197/10682 [57:54<36:54,  2.03it/s] 58%|█████▊    | 6198/10682 [57:55<36:56,  2.02it/s] 58%|█████▊    | 6199/10682 [57:55<36:53,  2.02it/s] 58%|█████▊    | 6200/10682 [57:56<36:55,  2.02it/s]                                                    {'loss': 3.114, 'grad_norm': 0.24433524906635284, 'learning_rate': 0.00044707494803155137, 'epoch': 8.13}
- 58%|█████▊    | 6200/10682 [57:56<36:55,  2.02it/s] 58%|█████▊    | 6201/10682 [57:56<36:57,  2.02it/s] 58%|█████▊    | 6202/10682 [57:57<36:57,  2.02it/s] 58%|█████▊    | 6203/10682 [57:57<36:52,  2.02it/s] 58%|█████▊    | 6204/10682 [57:58<36:53,  2.02it/s] 58%|█████▊    | 6205/10682 [57:58<36:50,  2.03it/s] 58%|█████▊    | 6206/10682 [57:59<36:50,  2.02it/s] 58%|█████▊    | 6207/10682 [57:59<36:49,  2.03it/s] 58%|█████▊    | 6208/10682 [58:00<36:50,  2.02it/s] 58%|█████▊    | 6209/10682 [58:00<36:48,  2.03it/s] 58%|█████▊    | 6210/10682 [58:01<36:47,  2.03it/s] 58%|█████▊    | 6211/10682 [58:01<36:48,  2.02it/s] 58%|█████▊    | 6212/10682 [58:02<36:46,  2.03it/s] 58%|█████▊    | 6213/10682 [58:02<36:46,  2.03it/s] 58%|█████▊    | 6214/10682 [58:03<36:45,  2.03it/s] 58%|█████▊    | 6215/10682 [58:03<36:46,  2.02it/s] 58%|█████▊    | 6216/10682 [58:04<36:43,  2.03it/s] 58%|█████▊    | 6217/10682 [58:04<36:46,  2.02it/s] 58%|█████▊    | 6218/10682 [58:05<36:43,  2.03it/s] 58%|█████▊    | 6219/10682 [58:05<36:45,  2.02it/s] 58%|█████▊    | 6220/10682 [58:06<36:42,  2.03it/s] 58%|█████▊    | 6221/10682 [58:06<36:45,  2.02it/s] 58%|█████▊    | 6222/10682 [58:07<36:43,  2.02it/s] 58%|█████▊    | 6223/10682 [58:07<36:44,  2.02it/s] 58%|█████▊    | 6224/10682 [58:08<36:41,  2.03it/s] 58%|█████▊    | 6225/10682 [58:08<36:39,  2.03it/s]                                                    {'loss': 3.1307, 'grad_norm': 0.24798481166362762, 'learning_rate': 0.00044301462568205915, 'epoch': 8.16}
- 58%|█████▊    | 6225/10682 [58:08<36:39,  2.03it/s] 58%|█████▊    | 6226/10682 [58:09<36:42,  2.02it/s] 58%|█████▊    | 6227/10682 [58:09<36:42,  2.02it/s] 58%|█████▊    | 6228/10682 [58:10<36:40,  2.02it/s] 58%|█████▊    | 6229/10682 [58:10<36:40,  2.02it/s] 58%|█████▊    | 6230/10682 [58:11<36:40,  2.02it/s] 58%|█████▊    | 6231/10682 [58:11<36:37,  2.03it/s] 58%|█████▊    | 6232/10682 [58:12<36:37,  2.03it/s] 58%|█████▊    | 6233/10682 [58:12<36:36,  2.03it/s] 58%|█████▊    | 6234/10682 [58:13<36:38,  2.02it/s] 58%|█████▊    | 6235/10682 [58:13<36:36,  2.02it/s] 58%|█████▊    | 6236/10682 [58:14<36:37,  2.02it/s] 58%|█████▊    | 6237/10682 [58:14<36:35,  2.02it/s] 58%|█████▊    | 6238/10682 [58:15<36:35,  2.02it/s] 58%|█████▊    | 6239/10682 [58:15<36:34,  2.02it/s] 58%|█████▊    | 6240/10682 [58:16<36:37,  2.02it/s] 58%|████��▊    | 6241/10682 [58:16<36:34,  2.02it/s] 58%|█████▊    | 6242/10682 [58:17<36:33,  2.02it/s] 58%|█████▊    | 6243/10682 [58:17<36:31,  2.03it/s] 58%|█████▊    | 6244/10682 [58:18<36:30,  2.03it/s] 58%|█████▊    | 6245/10682 [58:18<36:32,  2.02it/s] 58%|█████▊    | 6246/10682 [58:19<36:29,  2.03it/s] 58%|█████▊    | 6247/10682 [58:19<36:30,  2.03it/s] 58%|█████▊    | 6248/10682 [58:20<36:28,  2.03it/s] 59%|█████▊    | 6249/10682 [58:20<36:26,  2.03it/s] 59%|█████▊    | 6250/10682 [58:21<36:27,  2.03it/s]{'loss': 3.1409, 'grad_norm': 0.24304477870464325, 'learning_rate': 0.0004389581071780553, 'epoch': 8.19}                                                    
- 59%|█████▊    | 6250/10682 [58:21<36:27,  2.03it/s] 59%|█████▊    | 6251/10682 [58:21<36:39,  2.01it/s] 59%|█████▊    | 6252/10682 [58:22<36:33,  2.02it/s] 59%|█████▊    | 6253/10682 [58:22<36:32,  2.02it/s] 59%|█████▊    | 6254/10682 [58:23<36:30,  2.02it/s] 59%|█████▊    | 6255/10682 [58:23<36:27,  2.02it/s] 59%|█████▊    | 6256/10682 [58:24<36:28,  2.02it/s] 59%|█████▊    | 6257/10682 [58:24<36:25,  2.02it/s] 59%|█████▊    | 6258/10682 [58:25<36:26,  2.02it/s] 59%|█████▊    | 6259/10682 [58:25<36:24,  2.03it/s] 59%|█████▊    | 6260/10682 [58:26<36:23,  2.02it/s] 59%|█████▊    | 6261/10682 [58:26<36:22,  2.03it/s] 59%|█████▊    | 6262/10682 [58:27<36:22,  2.03it/s] 59%|█████▊    | 6263/10682 [58:27<36:22,  2.02it/s] 59%|█████▊    | 6264/10682 [58:28<36:22,  2.02it/s] 59%|█████▊    | 6265/10682 [58:28<36:22,  2.02it/s] 59%|█████▊    | 6266/10682 [58:28<36:20,  2.02it/s] 59%|█████▊    | 6267/10682 [58:29<36:20,  2.02it/s] 59%|█████▊    | 6268/10682 [58:29<36:20,  2.02it/s] 59%|█████▊    | 6269/10682 [58:30<36:23,  2.02it/s] 59%|█████▊    | 6270/10682 [58:30<36:21,  2.02it/s] 59%|█████▊    | 6271/10682 [58:31<36:19,  2.02it/s] 59%|█████▊    | 6272/10682 [58:31<36:19,  2.02it/s] 59%|█████▊    | 6273/10682 [58:32<36:19,  2.02it/s] 59%|█████▊    | 6274/10682 [58:32<36:18,  2.02it/s] 59%|█████▊    | 6275/10682 [58:33<36:19,  2.02it/s]{'loss': 3.1334, 'grad_norm': 0.2411602884531021, 'learning_rate': 0.0004349056632972576, 'epoch': 8.22}
-                                                     59%|█████▊    | 6275/10682 [58:33<36:19,  2.02it/s] 59%|█████▉    | 6276/10682 [58:33<36:19,  2.02it/s] 59%|█████▉    | 6277/10682 [58:34<36:18,  2.02it/s] 59%|█████▉    | 6278/10682 [58:34<36:15,  2.02it/s] 59%|█████▉    | 6279/10682 [58:35<36:14,  2.03it/s] 59%|█████▉    | 6280/10682 [58:35<36:14,  2.02it/s] 59%|█████▉    | 6281/10682 [58:36<36:11,  2.03it/s] 59%|█████▉    | 6282/10682 [58:36<36:12,  2.02it/s] 59%|█████▉    | 6283/10682 [58:37<36:10,  2.03it/s] 59%|█████▉    | 6284/10682 [58:37<36:12,  2.02it/s] 59%|█████▉    | 6285/10682 [58:38<36:09,  2.03it/s] 59%|█████▉    | 6286/10682 [58:38<36:08,  2.03it/s] 59%|█████▉    | 6287/10682 [58:39<36:07,  2.03it/s] 59%|█████▉    | 6288/10682 [58:39<36:09,  2.02it/s] 59%|█████▉    | 6289/10682 [58:40<36:09,  2.03it/s] 59%|█████▉    | 6290/10682 [58:40<36:08,  2.03it/s] 59%|█████▉    | 6291/10682 [58:41<36:07,  2.03it/s] 59%|█████▉    | 6292/10682 [58:41<36:04,  2.03it/s] 59%|█████▉    | 6293/10682 [58:42<36:06,  2.03it/s] 59%|█████▉    | 6294/10682 [58:42<36:04,  2.03it/s] 59%|█████▉    | 6295/10682 [58:43<36:05,  2.03it/s] 59%|█████▉    | 6296/10682 [58:43<36:05,  2.03it/s] 59%|█████▉    | 6297/10682 [58:44<36:03,  2.03it/s] 59%|█████▉    | 6298/10682 [58:44<36:04,  2.03it/s] 59%|█████▉    | 6299/10682 [58:45<36:02,  2.03it/s] 59%|█████▉    | 6300/10682 [58:45<36:03,  2.03it/s]                                                    {'loss': 3.1411, 'grad_norm': 0.24085108935832977, 'learning_rate': 0.00043085756454539745, 'epoch': 8.26}
- 59%|█████▉    | 6300/10682 [58:45<36:03,  2.03it/s] 59%|█████▉    | 6301/10682 [58:46<36:05,  2.02it/s] 59%|█████▉    | 6302/10682 [58:46<39:13,  1.86it/s] 59%|█████▉    | 6303/10682 [58:47<38:15,  1.91it/s] 59%|█████▉    | 6304/10682 [58:47<37:40,  1.94it/s] 59%|█████▉    | 6305/10682 [58:48<37:10,  1.96it/s] 59%|█████▉    | 6306/10682 [58:48<36:51,  1.98it/s] 59%|█████▉    | 6307/10682 [58:49<36:38,  1.99it/s] 59%|█████▉    | 6308/10682 [58:49<36:27,  2.00it/s] 59%|█████▉    | 6309/10682 [58:50<36:20,  2.01it/s] 59%|█████▉    | 6310/10682 [58:50<36:12,  2.01it/s] 59%|█████▉    | 6311/10682 [58:51<36:08,  2.02it/s] 59%|█████▉    | 6312/10682 [58:51<36:03,  2.02it/s] 59%|█████▉    | 6313/10682 [58:52<36:02,  2.02it/s] 59%|█████▉    | 6314/10682 [58:52<35:58,  2.02it/s] 59%|█████▉    | 6315/10682 [58:53<35:56,  2.03it/s] 59%|█████▉    | 6316/10682 [58:53<35:56,  2.02it/s] 59%|█████▉    | 6317/10682 [58:54<35:53,  2.03it/s] 59%|█████▉    | 6318/10682 [58:54<35:53,  2.03it/s] 59%|█████▉    | 6319/10682 [58:55<35:52,  2.03it/s] 59%|█████▉    | 6320/10682 [58:55<35:50,  2.03it/s] 59%|█████▉    | 6321/10682 [58:56<35:51,  2.03it/s] 59%|█████▉    | 6322/10682 [58:56<35:49,  2.03it/s] 59%|█████▉    | 6323/10682 [58:57<35:51,  2.03it/s] 59%|█████▉    | 6324/10682 [58:57<35:49,  2.03it/s] 59%|█████▉    | 6325/10682 [58:58<35:48,  2.03it/s]{'loss': 3.1407, 'grad_norm': 0.24921901524066925, 'learning_rate': 0.0004268140811381641, 'epoch': 8.29}                                                    
- 59%|█████▉    | 6325/10682 [58:58<35:48,  2.03it/s] 59%|█████▉    | 6326/10682 [58:58<35:53,  2.02it/s] 59%|█████▉    | 6327/10682 [58:59<35:53,  2.02it/s] 59%|█████▉    | 6328/10682 [58:59<35:52,  2.02it/s] 59%|█████▉    | 6329/10682 [59:00<35:52,  2.02it/s] 59%|█████▉    | 6330/10682 [59:00<35:50,  2.02it/s] 59%|█████▉    | 6331/10682 [59:01<35:49,  2.02it/s] 59%|█████▉    | 6332/10682 [59:01<35:50,  2.02it/s] 59%|█████▉    | 6333/10682 [59:02<35:50,  2.02it/s] 59%|█████▉    | 6334/10682 [59:02<35:49,  2.02it/s] 59%|█████▉    | 6335/10682 [59:03<35:50,  2.02it/s] 59%|█████▉    | 6336/10682 [59:03<35:48,  2.02it/s] 59%|█████▉    | 6337/10682 [59:04<35:49,  2.02it/s] 59%|█████▉    | 6338/10682 [59:04<35:47,  2.02it/s] 59%|█████▉    | 6339/10682 [59:05<35:46,  2.02it/s] 59%|█████▉    | 6340/10682 [59:05<35:47,  2.02it/s] 59%|█████▉    | 6341/10682 [59:06<35:46,  2.02it/s] 59%|█████▉    | 6342/10682 [59:06<35:45,  2.02it/s] 59%|█████▉    | 6343/10682 [59:07<35:44,  2.02it/s] 59%|█████▉    | 6344/10682 [59:07<35:45,  2.02it/s] 59%|█████▉    | 6345/10682 [59:08<35:43,  2.02it/s] 59%|█████▉    | 6346/10682 [59:08<35:42,  2.02it/s] 59%|█████▉    | 6347/10682 [59:09<35:40,  2.03it/s] 59%|█████▉    | 6348/10682 [59:09<35:39,  2.03it/s] 59%|█████▉    | 6349/10682 [59:10<35:38,  2.03it/s] 59%|█████▉    | 6350/10682 [59:10<35:38,  2.03it/s]                                                    {'loss': 3.1546, 'grad_norm': 0.2396908700466156, 'learning_rate': 0.0004227754829831662, 'epoch': 8.32}
- 59%|█████▉    | 6350/10682 [59:10<35:38,  2.03it/s] 59%|█████▉    | 6351/10682 [59:11<35:41,  2.02it/s] 59%|█████▉    | 6352/10682 [59:11<35:40,  2.02it/s] 59%|█████▉    | 6353/10682 [59:12<35:39,  2.02it/s] 59%|█████▉    | 6354/10682 [59:12<35:37,  2.03it/s] 59%|█████▉    | 6355/10682 [59:13<35:36,  2.02it/s] 60%|█████▉    | 6356/10682 [59:13<35:37,  2.02it/s] 60%|█████▉    | 6357/10682 [59:14<35:37,  2.02it/s] 60%|█████▉    | 6358/10682 [59:14<35:36,  2.02it/s] 60%|█████▉    | 6359/10682 [59:15<35:36,  2.02it/s] 60%|█████▉    | 6360/10682 [59:15<35:38,  2.02it/s] 60%|█████▉    | 6361/10682 [59:16<35:38,  2.02it/s] 60%|█████▉    | 6362/10682 [59:16<35:37,  2.02it/s] 60%|█████▉    | 6363/10682 [59:17<35:36,  2.02it/s] 60%|█████▉    | 6364/10682 [59:17<35:34,  2.02it/s] 60%|█████▉    | 6365/10682 [59:18<35:34,  2.02it/s] 60%|█████▉    | 6366/10682 [59:18<35:32,  2.02it/s] 60%|█████▉    | 6367/10682 [59:19<35:33,  2.02it/s] 60%|█████▉    | 6368/10682 [59:19<35:31,  2.02it/s] 60%|█████▉    | 6369/10682 [59:20<35:33,  2.02it/s] 60%|█████▉    | 6370/10682 [59:20<35:29,  2.02it/s] 60%|█████▉    | 6371/10682 [59:21<35:28,  2.03it/s] 60%|█████▉    | 6372/10682 [59:21<35:28,  2.03it/s] 60%|█████▉    | 6373/10682 [59:22<35:26,  2.03it/s] 60%|█████▉    | 6374/10682 [59:22<38:31,  1.86it/s] 60%|█████▉    | 6375/10682 [59:23<37:34,  1.91it/s]                                                    {'loss': 3.1504, 'grad_norm': 0.25405558943748474, 'learning_rate': 0.0004187420396619156, 'epoch': 8.36}
- 60%|█████▉    | 6375/10682 [59:23<37:34,  1.91it/s] 60%|█████▉    | 6376/10682 [59:23<36:59,  1.94it/s] 60%|█████▉    | 6377/10682 [59:24<36:30,  1.97it/s] 60%|█████▉    | 6378/10682 [59:24<36:10,  1.98it/s] 60%|█████▉    | 6379/10682 [59:25<35:55,  2.00it/s] 60%|█████▉    | 6380/10682 [59:25<35:48,  2.00it/s] 60%|█████▉    | 6381/10682 [59:26<35:38,  2.01it/s] 60%|█████▉    | 6382/10682 [59:26<35:34,  2.01it/s] 60%|█████▉    | 6383/10682 [59:27<35:29,  2.02it/s] 60%|█████▉    | 6384/10682 [59:27<35:26,  2.02it/s] 60%|█████▉    | 6385/10682 [59:28<35:25,  2.02it/s] 60%|█████▉    | 6386/10682 [59:28<35:24,  2.02it/s] 60%|█████▉    | 6387/10682 [59:29<35:24,  2.02it/s] 60%|█████▉    | 6388/10682 [59:29<35:22,  2.02it/s] 60%|█████▉    | 6389/10682 [59:30<35:22,  2.02it/s] 60%|█████▉    | 6390/10682 [59:30<35:18,  2.03it/s] 60%|█████▉    | 6391/10682 [59:31<35:17,  2.03it/s] 60%|█████▉    | 6392/10682 [59:31<35:17,  2.03it/s] 60%|█████▉    | 6393/10682 [59:32<35:17,  2.03it/s] 60%|█████▉    | 6394/10682 [59:32<35:16,  2.03it/s] 60%|█████▉    | 6395/10682 [59:33<35:16,  2.03it/s] 60%|█████▉    | 6396/10682 [59:33<35:17,  2.02it/s] 60%|█████▉    | 6397/10682 [59:33<35:16,  2.03it/s] 60%|█████▉    | 6398/10682 [59:34<35:17,  2.02it/s] 60%|█████▉    | 6399/10682 [59:34<35:15,  2.02it/s] 60%|█████▉    | 6400/10682 [59:35<35:14,  2.02it/s]                                                    {'loss': 3.1625, 'grad_norm': 0.240742489695549, 'learning_rate': 0.00041471402041183287, 'epoch': 8.39}
- 60%|█████▉    | 6400/10682 [59:35<35:14,  2.02it/s] 60%|█████▉    | 6401/10682 [59:35<35:16,  2.02it/s] 60%|█████▉    | 6402/10682 [59:36<35:17,  2.02it/s] 60%|█████▉    | 6403/10682 [59:36<35:15,  2.02it/s] 60%|█████▉    | 6404/10682 [59:37<35:16,  2.02it/s] 60%|█████▉    | 6405/10682 [59:37<35:14,  2.02it/s] 60%|█████▉    | 6406/10682 [59:38<35:13,  2.02it/s] 60%|█████▉    | 6407/10682 [59:38<35:12,  2.02it/s] 60%|█████▉    | 6408/10682 [59:39<35:09,  2.03it/s] 60%|█████▉    | 6409/10682 [59:39<35:10,  2.02it/s] 60%|██████    | 6410/10682 [59:40<35:08,  2.03it/s] 60%|██████    | 6411/10682 [59:40<35:08,  2.03it/s] 60%|██████    | 6412/10682 [59:41<35:06,  2.03it/s] 60%|██████    | 6413/10682 [59:41<35:08,  2.02it/s] 60%|██████    | 6414/10682 [59:42<35:05,  2.03it/s] 60%|██████    | 6415/10682 [59:42<35:06,  2.03it/s] 60%|██████    | 6416/10682 [59:43<35:06,  2.03it/s] 60%|██████    | 6417/10682 [59:43<35:07,  2.02it/s] 60%|██████    | 6418/10682 [59:44<35:06,  2.02it/s] 60%|██████    | 6419/10682 [59:44<35:06,  2.02it/s] 60%|██████    | 6420/10682 [59:45<35:04,  2.03it/s] 60%|██████    | 6421/10682 [59:45<35:09,  2.02it/s] 60%|██████    | 6422/10682 [59:46<35:06,  2.02it/s] 60%|██████    | 6423/10682 [59:46<35:03,  2.02it/s] 60%|██████    | 6424/10682 [59:47<35:04,  2.02it/s] 60%|██████    | 6425/10682 [59:47<35:01,  2.03it/s]                                                    {'loss': 3.1594, 'grad_norm': 0.24850282073020935, 'learning_rate': 0.0004106916941082745, 'epoch': 8.42}
- 60%|██████    | 6425/10682 [59:47<35:01,  2.03it/s] 60%|██████    | 6426/10682 [59:48<35:07,  2.02it/s] 60%|██████    | 6427/10682 [59:48<35:04,  2.02it/s] 60%|██████    | 6428/10682 [59:49<35:03,  2.02it/s] 60%|██████    | 6429/10682 [59:49<35:00,  2.02it/s] 60%|██████    | 6430/10682 [59:50<35:01,  2.02it/s] 60%|██████    | 6431/10682 [59:50<34:58,  2.03it/s] 60%|██████    | 6432/10682 [59:51<34:58,  2.02it/s] 60%|██████    | 6433/10682 [59:51<34:58,  2.03it/s] 60%|██████    | 6434/10682 [59:52<34:58,  2.02it/s] 60%|██████    | 6435/10682 [59:52<34:55,  2.03it/s] 60%|██████    | 6436/10682 [59:53<34:55,  2.03it/s] 60%|██████    | 6437/10682 [59:53<34:55,  2.03it/s] 60%|██████    | 6438/10682 [59:54<34:55,  2.03it/s] 60%|██████    | 6439/10682 [59:54<34:55,  2.02it/s] 60%|██████    | 6440/10682 [59:55<34:54,  2.03it/s] 60%|██████    | 6441/10682 [59:55<34:56,  2.02it/s] 60%|██████    | 6442/10682 [59:56<34:54,  2.02it/s] 60%|██████    | 6443/10682 [59:56<34:53,  2.03it/s] 60%|██████    | 6444/10682 [59:57<34:54,  2.02it/s] 60%|██████    | 6445/10682 [59:57<34:52,  2.02it/s] 60%|██████    | 6446/10682 [59:58<34:51,  2.02it/s] 60%|██████    | 6447/10682 [59:58<34:51,  2.02it/s] 60%|██████    | 6448/10682 [59:59<34:48,  2.03it/s] 60%|██████    | 6449/10682 [59:59<34:51,  2.02it/s] 60%|██████    | 6450/10682 [1:00:00<34:48,  2.03it/s]                                                      {'loss': 3.1625, 'grad_norm': 0.2408168762922287, 'learning_rate': 0.0004066753292465861, 'epoch': 8.45}
- 60%|██████    | 6450/10682 [1:00:00<34:48,  2.03it/s] 60%|██████    | 6451/10682 [1:00:00<34:51,  2.02it/s] 60%|██████    | 6452/10682 [1:00:01<34:49,  2.02it/s] 60%|██████    | 6453/10682 [1:00:01<34:49,  2.02it/s] 60%|██████    | 6454/10682 [1:00:02<34:49,  2.02it/s] 60%|██████    | 6455/10682 [1:00:02<34:49,  2.02it/s] 60%|██████    | 6456/10682 [1:00:03<34:50,  2.02it/s] 60%|██████    | 6457/10682 [1:00:03<34:50,  2.02it/s] 60%|██████    | 6458/10682 [1:00:04<34:50,  2.02it/s] 60%|██████    | 6459/10682 [1:00:04<34:49,  2.02it/s] 60%|██████    | 6460/10682 [1:00:05<34:48,  2.02it/s] 60%|██████    | 6461/10682 [1:00:05<34:48,  2.02it/s] 60%|██████    | 6462/10682 [1:00:06<34:47,  2.02it/s] 61%|██████    | 6463/10682 [1:00:06<34:47,  2.02it/s] 61%|██████    | 6464/10682 [1:00:07<34:46,  2.02it/s] 61%|██████    | 6465/10682 [1:00:07<34:46,  2.02it/s] 61%|██████    | 6466/10682 [1:00:08<34:45,  2.02it/s] 61%|██████    | 6467/10682 [1:00:08<34:44,  2.02it/s] 61%|██████    | 6468/10682 [1:00:09<34:44,  2.02it/s] 61%|██████    | 6469/10682 [1:00:09<34:42,  2.02it/s] 61%|██████    | 6470/10682 [1:00:10<34:41,  2.02it/s] 61%|██████    | 6471/10682 [1:00:10<34:39,  2.02it/s] 61%|██████    | 6472/10682 [1:00:11<34:38,  2.03it/s] 61%|██████    | 6473/10682 [1:00:11<34:39,  2.02it/s] 61%|██████    | 6474/10682 [1:00:12<34:36,  2.03it/s] 61%|██████    | 6475/10682 [1:00:12<34:38,  2.02it/s]                                                      {'loss': 3.1597, 'grad_norm': 0.24355848133563995, 'learning_rate': 0.00040266519392417936, 'epoch': 8.49}
- 61%|██████    | 6475/10682 [1:00:12<34:38,  2.02it/s] 61%|██████    | 6476/10682 [1:00:13<34:37,  2.02it/s] 61%|██████    | 6477/10682 [1:00:13<34:38,  2.02it/s] 61%|██████    | 6478/10682 [1:00:14<34:35,  2.03it/s] 61%|██████    | 6479/10682 [1:00:14<34:37,  2.02it/s] 61%|██████    | 6480/10682 [1:00:15<34:35,  2.02it/s] 61%|██████    | 6481/10682 [1:00:15<34:36,  2.02it/s] 61%|██████    | 6482/10682 [1:00:15<34:34,  2.02it/s] 61%|██████    | 6483/10682 [1:00:16<34:34,  2.02it/s] 61%|██████    | 6484/10682 [1:00:16<34:33,  2.02it/s] 61%|██████    | 6485/10682 [1:00:17<34:33,  2.02it/s] 61%|██████    | 6486/10682 [1:00:17<34:32,  2.02it/s] 61%|██████    | 6487/10682 [1:00:18<34:32,  2.02it/s] 61%|██████    | 6488/10682 [1:00:18<34:31,  2.02it/s] 61%|██████    | 6489/10682 [1:00:19<34:30,  2.03it/s] 61%|██████    | 6490/10682 [1:00:19<34:31,  2.02it/s] 61%|██████    | 6491/10682 [1:00:20<34:31,  2.02it/s] 61%|██████    | 6492/10682 [1:00:20<34:30,  2.02it/s] 61%|██████    | 6493/10682 [1:00:21<34:27,  2.03it/s] 61%|██████    | 6494/10682 [1:00:21<34:29,  2.02it/s] 61%|██████    | 6495/10682 [1:00:22<34:27,  2.03it/s] 61%|██████    | 6496/10682 [1:00:22<34:27,  2.02it/s] 61%|██████    | 6497/10682 [1:00:23<34:26,  2.03it/s] 61%|██████    | 6498/10682 [1:00:23<34:28,  2.02it/s] 61%|██████    | 6499/10682 [1:00:24<34:27,  2.02it/s] 61%|██████    | 6500/10682 [1:00:24<34:28,  2.02it/s]{'loss': 3.1668, 'grad_norm': 0.24510090053081512, 'learning_rate': 0.00039866155582263653, 'epoch': 8.52}                                                      
- 61%|██████    | 6500/10682 [1:00:24<34:28,  2.02it/s] 61%|██████    | 6501/10682 [1:00:25<34:29,  2.02it/s] 61%|██████    | 6502/10682 [1:00:25<34:28,  2.02it/s] 61%|██████    | 6503/10682 [1:00:26<34:25,  2.02it/s] 61%|██████    | 6504/10682 [1:00:26<34:26,  2.02it/s] 61%|██████    | 6505/10682 [1:00:27<34:22,  2.03it/s] 61%|██████    | 6506/10682 [1:00:27<34:22,  2.02it/s] 61%|██████    | 6507/10682 [1:00:28<34:20,  2.03it/s] 61%|██████    | 6508/10682 [1:00:28<34:21,  2.03it/s] 61%|██████    | 6509/10682 [1:00:29<34:19,  2.03it/s] 61%|██████    | 6510/10682 [1:00:29<34:17,  2.03it/s] 61%|██████    | 6511/10682 [1:00:30<34:19,  2.03it/s] 61%|██████    | 6512/10682 [1:00:30<34:18,  2.03it/s] 61%|██████    | 6513/10682 [1:00:31<34:18,  2.03it/s] 61%|██████    | 6514/10682 [1:00:31<34:17,  2.03it/s] 61%|██████    | 6515/10682 [1:00:32<34:19,  2.02it/s] 61%|██████    | 6516/10682 [1:00:32<34:17,  2.02it/s] 61%|██████    | 6517/10682 [1:00:33<34:18,  2.02it/s] 61%|██████    | 6518/10682 [1:00:33<34:16,  2.02it/s] 61%|██████    | 6519/10682 [1:00:34<34:17,  2.02it/s] 61%|██████    | 6520/10682 [1:00:34<34:17,  2.02it/s] 61%|██████    | 6521/10682 [1:00:35<34:17,  2.02it/s] 61%|██████    | 6522/10682 [1:00:35<34:18,  2.02it/s] 61%|██████    | 6523/10682 [1:00:36<34:17,  2.02it/s] 61%|██████    | 6524/10682 [1:00:36<34:16,  2.02it/s] 61%|██████    | 6525/10682 [1:00:37<34:14,  2.02it/s]                                                      {'loss': 3.1677, 'grad_norm': 0.23839376866817474, 'learning_rate': 0.0003946646821898418, 'epoch': 8.55}
- 61%|██████    | 6525/10682 [1:00:37<34:14,  2.02it/s] 61%|██████    | 6526/10682 [1:00:37<34:17,  2.02it/s] 61%|██████    | 6527/10682 [1:00:38<34:14,  2.02it/s] 61%|██████    | 6528/10682 [1:00:38<34:13,  2.02it/s] 61%|██████    | 6529/10682 [1:00:39<34:11,  2.02it/s] 61%|██████    | 6530/10682 [1:00:39<34:10,  2.03it/s] 61%|██████    | 6531/10682 [1:00:40<34:09,  2.02it/s] 61%|██████    | 6532/10682 [1:00:40<34:06,  2.03it/s] 61%|██████    | 6533/10682 [1:00:41<34:06,  2.03it/s] 61%|██████    | 6534/10682 [1:00:41<34:06,  2.03it/s] 61%|██████    | 6535/10682 [1:00:42<34:07,  2.03it/s] 61%|██████    | 6536/10682 [1:00:42<34:07,  2.02it/s] 61%|██████    | 6537/10682 [1:00:43<34:05,  2.03it/s] 61%|██████    | 6538/10682 [1:00:43<34:08,  2.02it/s] 61%|██████    | 6539/10682 [1:00:44<34:05,  2.03it/s] 61%|██████    | 6540/10682 [1:00:44<34:06,  2.02it/s] 61%|██████    | 6541/10682 [1:00:45<34:05,  2.02it/s] 61%|██████    | 6542/10682 [1:00:45<34:06,  2.02it/s] 61%|██████▏   | 6543/10682 [1:00:46<34:02,  2.03it/s] 61%|██████▏   | 6544/10682 [1:00:46<34:02,  2.03it/s] 61%|██████▏   | 6545/10682 [1:00:47<34:00,  2.03it/s] 61%|██████▏   | 6546/10682 [1:00:47<34:02,  2.03it/s] 61%|██████▏   | 6547/10682 [1:00:48<34:01,  2.03it/s] 61%|██████▏   | 6548/10682 [1:00:48<33:59,  2.03it/s] 61%|██████▏   | 6549/10682 [1:00:49<33:59,  2.03it/s] 61%|██████▏   | 6550/10682 [1:00:49<34:01,  2.02it/s]                                                      {'loss': 3.1706, 'grad_norm': 0.2455773502588272, 'learning_rate': 0.0003906748398221429, 'epoch': 8.58}
- 61%|██████▏   | 6550/10682 [1:00:49<34:01,  2.02it/s] 61%|██████▏   | 6551/10682 [1:00:50<34:05,  2.02it/s] 61%|██████▏   | 6552/10682 [1:00:50<34:03,  2.02it/s] 61%|██████▏   | 6553/10682 [1:00:51<34:01,  2.02it/s] 61%|██████▏   | 6554/10682 [1:00:51<34:00,  2.02it/s] 61%|██████▏   | 6555/10682 [1:00:52<33:59,  2.02it/s] 61%|██████▏   | 6556/10682 [1:00:52<33:57,  2.03it/s] 61%|██████▏   | 6557/10682 [1:00:53<33:58,  2.02it/s] 61%|██████▏   | 6558/10682 [1:00:53<33:56,  2.03it/s] 61%|██████▏   | 6559/10682 [1:00:54<33:56,  2.02it/s] 61%|██████▏   | 6560/10682 [1:00:54<33:55,  2.02it/s] 61%|██████▏   | 6561/10682 [1:00:55<33:55,  2.02it/s] 61%|██████▏   | 6562/10682 [1:00:55<33:54,  2.02it/s] 61%|██████▏   | 6563/10682 [1:00:56<33:56,  2.02it/s] 61%|██████▏   | 6564/10682 [1:00:56<33:54,  2.02it/s] 61%|██████▏   | 6565/10682 [1:00:57<33:51,  2.03it/s] 61%|██████▏   | 6566/10682 [1:00:57<33:52,  2.03it/s] 61%|██████▏   | 6567/10682 [1:00:57<33:51,  2.03it/s] 61%|██████▏   | 6568/10682 [1:00:58<33:52,  2.02it/s] 61%|██████▏   | 6569/10682 [1:00:58<33:50,  2.03it/s] 62%|██████▏   | 6570/10682 [1:00:59<33:50,  2.03it/s] 62%|██████▏   | 6571/10682 [1:00:59<33:49,  2.03it/s] 62%|██████▏   | 6572/10682 [1:01:00<33:50,  2.02it/s] 62%|██████▏   | 6573/10682 [1:01:00<33:49,  2.02it/s] 62%|██████▏   | 6574/10682 [1:01:01<33:47,  2.03it/s] 62%|██████▏   | 6575/10682 [1:01:01<33:47,  2.03it/s]                                                      {'loss': 3.1598, 'grad_norm': 0.24827314913272858, 'learning_rate': 0.00038669229504654146, 'epoch': 8.62}
- 62%|██████▏   | 6575/10682 [1:01:01<33:47,  2.03it/s] 62%|██████▏   | 6576/10682 [1:01:02<33:47,  2.03it/s] 62%|██████▏   | 6577/10682 [1:01:02<33:49,  2.02it/s] 62%|██████▏   | 6578/10682 [1:01:03<33:46,  2.03it/s] 62%|██████▏   | 6579/10682 [1:01:03<33:44,  2.03it/s] 62%|██████▏   | 6580/10682 [1:01:04<33:45,  2.02it/s] 62%|██████▏   | 6581/10682 [1:01:04<33:44,  2.03it/s] 62%|██████▏   | 6582/10682 [1:01:05<33:46,  2.02it/s] 62%|██████▏   | 6583/10682 [1:01:05<33:43,  2.03it/s] 62%|██████▏   | 6584/10682 [1:01:06<33:45,  2.02it/s] 62%|██████▏   | 6585/10682 [1:01:06<33:45,  2.02it/s] 62%|██████▏   | 6586/10682 [1:01:07<33:44,  2.02it/s] 62%|██████▏   | 6587/10682 [1:01:07<33:44,  2.02it/s] 62%|██████▏   | 6588/10682 [1:01:08<33:42,  2.02it/s] 62%|██████▏   | 6589/10682 [1:01:08<33:41,  2.03it/s] 62%|██████▏   | 6590/10682 [1:01:09<33:40,  2.03it/s] 62%|██████▏   | 6591/10682 [1:01:09<33:39,  2.03it/s] 62%|██████▏   | 6592/10682 [1:01:10<33:40,  2.02it/s] 62%|██████▏   | 6593/10682 [1:01:10<33:39,  2.02it/s] 62%|██████▏   | 6594/10682 [1:01:11<33:40,  2.02it/s] 62%|██████▏   | 6595/10682 [1:01:11<33:39,  2.02it/s] 62%|██████▏   | 6596/10682 [1:01:12<33:38,  2.02it/s] 62%|██████▏   | 6597/10682 [1:01:12<33:37,  2.03it/s] 62%|██████▏   | 6598/10682 [1:01:13<33:38,  2.02it/s] 62%|██████▏   | 6599/10682 [1:01:13<33:36,  2.03it/s] 62%|██████▏   | 6600/10682 [1:01:14<33:37,  2.02it/s]{'loss': 3.1715, 'grad_norm': 0.24971774220466614, 'learning_rate': 0.00038271731370291583, 'epoch': 8.65}
-                                                       62%|██████▏   | 6600/10682 [1:01:14<33:37,  2.02it/s] 62%|██████▏   | 6601/10682 [1:01:14<33:43,  2.02it/s] 62%|██████▏   | 6602/10682 [1:01:15<33:42,  2.02it/s] 62%|██████▏   | 6603/10682 [1:01:15<33:38,  2.02it/s] 62%|██████▏   | 6604/10682 [1:01:16<33:37,  2.02it/s] 62%|██████▏   | 6605/10682 [1:01:16<33:34,  2.02it/s] 62%|██████▏   | 6606/10682 [1:01:17<33:35,  2.02it/s] 62%|██████▏   | 6607/10682 [1:01:17<33:33,  2.02it/s] 62%|██████▏   | 6608/10682 [1:01:18<33:34,  2.02it/s] 62%|██████▏   | 6609/10682 [1:01:18<33:32,  2.02it/s] 62%|██████▏   | 6610/10682 [1:01:19<33:33,  2.02it/s] 62%|██████▏   | 6611/10682 [1:01:19<33:31,  2.02it/s] 62%|██████▏   | 6612/10682 [1:01:20<33:32,  2.02it/s] 62%|██████▏   | 6613/10682 [1:01:20<33:30,  2.02it/s] 62%|██████▏   | 6614/10682 [1:01:21<33:31,  2.02it/s] 62%|██████▏   | 6615/10682 [1:01:21<33:29,  2.02it/s] 62%|██████▏   | 6616/10682 [1:01:22<33:30,  2.02it/s] 62%|██████▏   | 6617/10682 [1:01:22<33:27,  2.02it/s] 62%|██████▏   | 6618/10682 [1:01:23<33:27,  2.02it/s] 62%|██████▏   | 6619/10682 [1:01:23<33:27,  2.02it/s] 62%|██████▏   | 6620/10682 [1:01:24<33:25,  2.03it/s] 62%|██████▏   | 6621/10682 [1:01:24<33:25,  2.03it/s] 62%|██████▏   | 6622/10682 [1:01:25<33:23,  2.03it/s] 62%|██████▏   | 6623/10682 [1:01:25<33:25,  2.02it/s] 62%|██████▏   | 6624/10682 [1:01:26<33:23,  2.03it/s] 62%|██████▏   | 6625/10682 [1:01:26<33:24,  2.02it/s]{'loss': 3.172, 'grad_norm': 0.24046245217323303, 'learning_rate': 0.0003787501611262762, 'epoch': 8.68}
-                                                       62%|██████▏   | 6625/10682 [1:01:26<33:24,  2.02it/s] 62%|██████▏   | 6626/10682 [1:01:27<33:25,  2.02it/s] 62%|██████▏   | 6627/10682 [1:01:27<33:26,  2.02it/s] 62%|██████▏   | 6628/10682 [1:01:28<33:23,  2.02it/s] 62%|██████▏   | 6629/10682 [1:01:28<33:21,  2.02it/s] 62%|██████▏   | 6630/10682 [1:01:29<33:21,  2.02it/s] 62%|██████▏   | 6631/10682 [1:01:29<33:19,  2.03it/s] 62%|██████▏   | 6632/10682 [1:01:30<33:20,  2.02it/s] 62%|██████▏   | 6633/10682 [1:01:30<33:18,  2.03it/s] 62%|██████▏   | 6634/10682 [1:01:31<33:17,  2.03it/s] 62%|██████▏   | 6635/10682 [1:01:31<33:17,  2.03it/s] 62%|██████▏   | 6636/10682 [1:01:32<33:18,  2.03it/s] 62%|██████▏   | 6637/10682 [1:01:32<33:17,  2.03it/s] 62%|██████▏   | 6638/10682 [1:01:33<33:16,  2.03it/s] 62%|██████▏   | 6639/10682 [1:01:33<33:16,  2.03it/s] 62%|██████▏   | 6640/10682 [1:01:34<33:15,  2.03it/s] 62%|██████▏   | 6641/10682 [1:01:34<33:15,  2.03it/s] 62%|██████▏   | 6642/10682 [1:01:35<33:14,  2.03it/s] 62%|██████▏   | 6643/10682 [1:01:35<33:16,  2.02it/s] 62%|██████▏   | 6644/10682 [1:01:36<33:15,  2.02it/s] 62%|██████▏   | 6645/10682 [1:01:36<33:16,  2.02it/s] 62%|██████▏   | 6646/10682 [1:01:37<33:15,  2.02it/s] 62%|██████▏   | 6647/10682 [1:01:37<33:14,  2.02it/s] 62%|██████▏   | 6648/10682 [1:01:38<33:14,  2.02it/s] 62%|██████▏   | 6649/10682 [1:01:38<33:13,  2.02it/s] 62%|██████▏   | 6650/10682 [1:01:38<33:13,  2.02it/s]                                                      {'loss': 3.1784, 'grad_norm': 0.24110890924930573, 'learning_rate': 0.0003747911021290519, 'epoch': 8.72}
- 62%|██████▏   | 6650/10682 [1:01:39<33:13,  2.02it/s] 62%|██████▏   | 6651/10682 [1:01:39<33:14,  2.02it/s] 62%|██████▏   | 6652/10682 [1:01:39<33:14,  2.02it/s] 62%|██████▏   | 6653/10682 [1:01:40<33:12,  2.02it/s] 62%|██████▏   | 6654/10682 [1:01:40<33:12,  2.02it/s] 62%|██████▏   | 6655/10682 [1:01:41<33:11,  2.02it/s] 62%|██████▏   | 6656/10682 [1:01:41<33:12,  2.02it/s] 62%|██████▏   | 6657/10682 [1:01:42<33:09,  2.02it/s] 62%|██████▏   | 6658/10682 [1:01:42<33:09,  2.02it/s] 62%|██████▏   | 6659/10682 [1:01:43<33:06,  2.02it/s] 62%|██████▏   | 6660/10682 [1:01:43<33:07,  2.02it/s] 62%|██████▏   | 6661/10682 [1:01:44<33:06,  2.02it/s] 62%|██████▏   | 6662/10682 [1:01:44<33:07,  2.02it/s] 62%|██████▏   | 6663/10682 [1:01:45<33:06,  2.02it/s] 62%|██████▏   | 6664/10682 [1:01:45<33:04,  2.02it/s] 62%|██████▏   | 6665/10682 [1:01:46<33:04,  2.02it/s] 62%|██████▏   | 6666/10682 [1:01:46<33:02,  2.03it/s] 62%|██████▏   | 6667/10682 [1:01:47<33:03,  2.02it/s] 62%|██████▏   | 6668/10682 [1:01:47<33:01,  2.03it/s] 62%|██████▏   | 6669/10682 [1:01:48<33:01,  2.03it/s] 62%|██████▏   | 6670/10682 [1:01:48<32:59,  2.03it/s] 62%|██████▏   | 6671/10682 [1:01:49<32:59,  2.03it/s] 62%|██████▏   | 6672/10682 [1:01:49<32:59,  2.03it/s] 62%|██████▏   | 6673/10682 [1:01:50<32:59,  2.03it/s] 62%|██████▏   | 6674/10682 [1:01:50<33:00,  2.02it/s] 62%|██████▏   | 6675/10682 [1:01:51<32:59,  2.02it/s]                                                      {'loss': 3.1797, 'grad_norm': 0.24708110094070435, 'learning_rate': 0.0003708404009834161, 'epoch': 8.75}
- 62%|██████▏   | 6675/10682 [1:01:51<32:59,  2.02it/s] 62%|██████▏   | 6676/10682 [1:01:51<33:02,  2.02it/s] 63%|██████▎   | 6677/10682 [1:01:52<33:00,  2.02it/s] 63%|██████▎   | 6678/10682 [1:01:52<32:59,  2.02it/s] 63%|██████▎   | 6679/10682 [1:01:53<32:58,  2.02it/s] 63%|██████▎   | 6680/10682 [1:01:53<32:57,  2.02it/s] 63%|██████▎   | 6681/10682 [1:01:54<32:55,  2.02it/s] 63%|██████▎   | 6682/10682 [1:01:54<32:55,  2.02it/s] 63%|██████▎   | 6683/10682 [1:01:55<32:52,  2.03it/s] 63%|██████▎   | 6684/10682 [1:01:55<32:51,  2.03it/s] 63%|██████▎   | 6685/10682 [1:01:56<32:51,  2.03it/s] 63%|██████▎   | 6686/10682 [1:01:56<32:52,  2.03it/s] 63%|██████▎   | 6687/10682 [1:01:57<32:52,  2.03it/s] 63%|██████▎   | 6688/10682 [1:01:57<32:52,  2.03it/s] 63%|██████▎   | 6689/10682 [1:01:58<32:53,  2.02it/s] 63%|██████▎   | 6690/10682 [1:01:58<32:56,  2.02it/s] 63%|██████▎   | 6691/10682 [1:01:59<32:54,  2.02it/s] 63%|██████▎   | 6692/10682 [1:01:59<32:52,  2.02it/s] 63%|██████▎   | 6693/10682 [1:02:00<32:51,  2.02it/s] 63%|██████▎   | 6694/10682 [1:02:00<32:48,  2.03it/s] 63%|██████▎   | 6695/10682 [1:02:01<32:48,  2.03it/s] 63%|██████▎   | 6696/10682 [1:02:01<32:48,  2.02it/s] 63%|██████▎   | 6697/10682 [1:02:02<32:49,  2.02it/s] 63%|██████▎   | 6698/10682 [1:02:02<32:48,  2.02it/s] 63%|██████▎   | 6699/10682 [1:02:03<32:49,  2.02it/s] 63%|██████▎   | 6700/10682 [1:02:03<32:48,  2.02it/s]{'loss': 3.1747, 'grad_norm': 0.24362660944461823, 'learning_rate': 0.0003668983214036445, 'epoch': 8.78}                                                      
- 63%|██████▎   | 6700/10682 [1:02:03<32:48,  2.02it/s] 63%|██████▎   | 6701/10682 [1:02:04<32:52,  2.02it/s] 63%|██████▎   | 6702/10682 [1:02:04<32:49,  2.02it/s] 63%|██████▎   | 6703/10682 [1:02:05<32:48,  2.02it/s] 63%|██████▎   | 6704/10682 [1:02:05<32:45,  2.02it/s] 63%|██████▎   | 6705/10682 [1:02:06<32:45,  2.02it/s] 63%|██████▎   | 6706/10682 [1:02:06<32:43,  2.02it/s] 63%|██████▎   | 6707/10682 [1:02:07<32:41,  2.03it/s] 63%|██████▎   | 6708/10682 [1:02:07<32:41,  2.03it/s] 63%|██████▎   | 6709/10682 [1:02:08<32:39,  2.03it/s] 63%|██████▎   | 6710/10682 [1:02:08<32:40,  2.03it/s] 63%|██████▎   | 6711/10682 [1:02:09<32:40,  2.03it/s] 63%|██████▎   | 6712/10682 [1:02:09<32:39,  2.03it/s] 63%|██████▎   | 6713/10682 [1:02:10<32:41,  2.02it/s] 63%|██████▎   | 6714/10682 [1:02:10<32:38,  2.03it/s] 63%|██████▎   | 6715/10682 [1:02:11<32:39,  2.02it/s] 63%|██████▎   | 6716/10682 [1:02:11<32:38,  2.03it/s] 63%|██████▎   | 6717/10682 [1:02:12<32:37,  2.03it/s] 63%|██████▎   | 6718/10682 [1:02:12<32:37,  2.02it/s] 63%|██████▎   | 6719/10682 [1:02:13<32:35,  2.03it/s] 63%|██████▎   | 6720/10682 [1:02:13<32:35,  2.03it/s] 63%|██████▎   | 6721/10682 [1:02:14<32:35,  2.03it/s] 63%|██████▎   | 6722/10682 [1:02:14<32:34,  2.03it/s] 63%|██████▎   | 6723/10682 [1:02:15<32:33,  2.03it/s] 63%|██████▎   | 6724/10682 [1:02:15<32:33,  2.03it/s] 63%|██████▎   | 6725/10682 [1:02:16<32:33,  2.03it/s]                                                      {'loss': 3.1764, 'grad_norm': 0.25567683577537537, 'learning_rate': 0.00036296512652851323, 'epoch': 8.81}
- 63%|██████▎   | 6725/10682 [1:02:16<32:33,  2.03it/s] 63%|██████▎   | 6726/10682 [1:02:16<32:36,  2.02it/s] 63%|██████▎   | 6727/10682 [1:02:17<32:33,  2.02it/s] 63%|██████▎   | 6728/10682 [1:02:17<32:34,  2.02it/s] 63%|██████▎   | 6729/10682 [1:02:18<32:31,  2.03it/s] 63%|██████▎   | 6730/10682 [1:02:18<32:30,  2.03it/s] 63%|██████▎   | 6731/10682 [1:02:19<32:29,  2.03it/s] 63%|██████▎   | 6732/10682 [1:02:19<32:29,  2.03it/s] 63%|██████▎   | 6733/10682 [1:02:20<32:29,  2.03it/s] 63%|██████▎   | 6734/10682 [1:02:20<32:27,  2.03it/s] 63%|██████▎   | 6735/10682 [1:02:20<32:28,  2.03it/s] 63%|██████▎   | 6736/10682 [1:02:21<32:25,  2.03it/s] 63%|██████▎   | 6737/10682 [1:02:21<32:28,  2.02it/s] 63%|██████▎   | 6738/10682 [1:02:22<32:27,  2.03it/s] 63%|██████▎   | 6739/10682 [1:02:22<32:27,  2.03it/s] 63%|██████▎   | 6740/10682 [1:02:23<32:26,  2.02it/s] 63%|██████▎   | 6741/10682 [1:02:23<32:28,  2.02it/s] 63%|██████▎   | 6742/10682 [1:02:24<32:27,  2.02it/s] 63%|██████▎   | 6743/10682 [1:02:24<32:25,  2.02it/s] 63%|██████▎   | 6744/10682 [1:02:25<32:24,  2.03it/s] 63%|██████▎   | 6745/10682 [1:02:25<32:22,  2.03it/s] 63%|██████▎   | 6746/10682 [1:02:26<32:24,  2.02it/s] 63%|██████▎   | 6747/10682 [1:02:26<32:22,  2.03it/s] 63%|██████▎   | 6748/10682 [1:02:27<32:23,  2.02it/s] 63%|██████▎   | 6749/10682 [1:02:27<32:23,  2.02it/s] 63%|██████▎   | 6750/10682 [1:02:28<32:23,  2.02it/s]{'loss': 3.1782, 'grad_norm': 0.24603107571601868, 'learning_rate': 0.00035904107890373196, 'epoch': 8.85}                                                      
- 63%|██████▎   | 6750/10682 [1:02:28<32:23,  2.02it/s] 63%|██████▎   | 6751/10682 [1:02:28<32:22,  2.02it/s] 63%|██████▎   | 6752/10682 [1:02:29<32:22,  2.02it/s] 63%|██████▎   | 6753/10682 [1:02:29<32:21,  2.02it/s] 63%|██████▎   | 6754/10682 [1:02:30<32:19,  2.03it/s] 63%|██████▎   | 6755/10682 [1:02:30<32:19,  2.02it/s] 63%|██████▎   | 6756/10682 [1:02:31<32:19,  2.02it/s] 63%|██████▎   | 6757/10682 [1:02:31<32:19,  2.02it/s] 63%|██████▎   | 6758/10682 [1:02:32<32:18,  2.02it/s] 63%|██████▎   | 6759/10682 [1:02:32<32:19,  2.02it/s] 63%|██████▎   | 6760/10682 [1:02:33<32:18,  2.02it/s] 63%|██████▎   | 6761/10682 [1:02:33<32:18,  2.02it/s] 63%|██████▎   | 6762/10682 [1:02:34<32:17,  2.02it/s] 63%|██████▎   | 6763/10682 [1:02:34<32:17,  2.02it/s] 63%|██████▎   | 6764/10682 [1:02:35<32:15,  2.02it/s] 63%|██████▎   | 6765/10682 [1:02:35<32:16,  2.02it/s] 63%|██████▎   | 6766/10682 [1:02:36<32:16,  2.02it/s] 63%|██████▎   | 6767/10682 [1:02:36<32:16,  2.02it/s] 63%|██████▎   | 6768/10682 [1:02:37<32:13,  2.02it/s] 63%|██████▎   | 6769/10682 [1:02:37<32:14,  2.02it/s] 63%|██████▎   | 6770/10682 [1:02:38<32:12,  2.02it/s] 63%|██████▎   | 6771/10682 [1:02:38<32:13,  2.02it/s] 63%|██████▎   | 6772/10682 [1:02:39<32:11,  2.02it/s] 63%|██████▎   | 6773/10682 [1:02:39<32:13,  2.02it/s] 63%|██████▎   | 6774/10682 [1:02:40<32:12,  2.02it/s] 63%|██████▎   | 6775/10682 [1:02:40<32:13,  2.02it/s]{'loss': 3.1711, 'grad_norm': 0.2380862981081009, 'learning_rate': 0.00035512644046442116, 'epoch': 8.88}
-                                                       63%|██████▎   | 6775/10682 [1:02:40<32:13,  2.02it/s] 63%|██████▎   | 6776/10682 [1:02:41<32:13,  2.02it/s] 63%|██████▎   | 6777/10682 [1:02:41<32:13,  2.02it/s] 63%|██████▎   | 6778/10682 [1:02:42<32:11,  2.02it/s] 63%|██████▎   | 6779/10682 [1:02:42<32:10,  2.02it/s] 63%|██████▎   | 6780/10682 [1:02:43<32:09,  2.02it/s] 63%|██████▎   | 6781/10682 [1:02:43<32:09,  2.02it/s] 63%|██████▎   | 6782/10682 [1:02:44<32:07,  2.02it/s] 63%|██████▎   | 6783/10682 [1:02:44<32:07,  2.02it/s] 64%|██████▎   | 6784/10682 [1:02:45<32:06,  2.02it/s] 64%|██████▎   | 6785/10682 [1:02:45<32:06,  2.02it/s] 64%|██████▎   | 6786/10682 [1:02:46<32:05,  2.02it/s] 64%|██████▎   | 6787/10682 [1:02:46<32:03,  2.02it/s] 64%|██████▎   | 6788/10682 [1:02:47<32:04,  2.02it/s] 64%|██████▎   | 6789/10682 [1:02:47<32:04,  2.02it/s] 64%|██████▎   | 6790/10682 [1:02:48<32:04,  2.02it/s] 64%|██████▎   | 6791/10682 [1:02:48<32:01,  2.02it/s] 64%|██████▎   | 6792/10682 [1:02:49<32:03,  2.02it/s] 64%|██████▎   | 6793/10682 [1:02:49<32:01,  2.02it/s] 64%|██████▎   | 6794/10682 [1:02:50<32:01,  2.02it/s] 64%|██████▎   | 6795/10682 [1:02:50<32:00,  2.02it/s] 64%|██████▎   | 6796/10682 [1:02:51<32:00,  2.02it/s] 64%|██████▎   | 6797/10682 [1:02:51<32:00,  2.02it/s] 64%|██████▎   | 6798/10682 [1:02:52<32:00,  2.02it/s] 64%|██████▎   | 6799/10682 [1:02:52<31:59,  2.02it/s] 64%|██████▎   | 6800/10682 [1:02:53<31:58,  2.02it/s]                                                      {'loss': 3.1728, 'grad_norm': 0.23997929692268372, 'learning_rate': 0.00035122147251762554, 'epoch': 8.91}
- 64%|██████▎   | 6800/10682 [1:02:53<31:58,  2.02it/s] 64%|██████▎   | 6801/10682 [1:02:53<32:00,  2.02it/s] 64%|██████▎   | 6802/10682 [1:02:54<31:59,  2.02it/s] 64%|██████▎   | 6803/10682 [1:02:54<31:58,  2.02it/s] 64%|██████▎   | 6804/10682 [1:02:55<31:57,  2.02it/s] 64%|██████▎   | 6805/10682 [1:02:55<31:57,  2.02it/s] 64%|██████▎   | 6806/10682 [1:02:56<31:57,  2.02it/s] 64%|██████▎   | 6807/10682 [1:02:56<32:00,  2.02it/s] 64%|██████▎   | 6808/10682 [1:02:57<31:57,  2.02it/s] 64%|██████▎   | 6809/10682 [1:02:57<31:55,  2.02it/s] 64%|██████▍   | 6810/10682 [1:02:58<31:54,  2.02it/s] 64%|██████▍   | 6811/10682 [1:02:58<31:54,  2.02it/s] 64%|██████▍   | 6812/10682 [1:02:59<31:52,  2.02it/s] 64%|██████▍   | 6813/10682 [1:02:59<31:52,  2.02it/s] 64%|██████▍   | 6814/10682 [1:03:00<31:50,  2.03it/s] 64%|██████▍   | 6815/10682 [1:03:00<31:51,  2.02it/s] 64%|██████▍   | 6816/10682 [1:03:01<31:49,  2.02it/s] 64%|██████▍   | 6817/10682 [1:03:01<31:48,  2.03it/s] 64%|██████▍   | 6818/10682 [1:03:02<31:48,  2.02it/s] 64%|██████▍   | 6819/10682 [1:03:02<31:46,  2.03it/s] 64%|██████▍   | 6820/10682 [1:03:03<31:47,  2.02it/s] 64%|██████▍   | 6821/10682 [1:03:03<31:45,  2.03it/s] 64%|██████▍   | 6822/10682 [1:03:03<31:47,  2.02it/s] 64%|██████▍   | 6823/10682 [1:03:04<31:44,  2.03it/s] 64%|██████▍   | 6824/10682 [1:03:04<31:45,  2.02it/s] 64%|██████▍   | 6825/10682 [1:03:05<31:43,  2.03it/s]{'loss': 3.1835, 'grad_norm': 0.24513296782970428, 'learning_rate': 0.00034732643572487243, 'epoch': 8.94}
-                                                       64%|██████▍   | 6825/10682 [1:03:05<31:43,  2.03it/s] 64%|██████▍   | 6826/10682 [1:03:05<31:47,  2.02it/s] 64%|██████▍   | 6827/10682 [1:03:06<31:45,  2.02it/s] 64%|██████▍   | 6828/10682 [1:03:06<31:44,  2.02it/s] 64%|██████▍   | 6829/10682 [1:03:07<31:42,  2.03it/s] 64%|██████▍   | 6830/10682 [1:03:07<31:40,  2.03it/s] 64%|██████▍   | 6831/10682 [1:03:08<31:41,  2.03it/s] 64%|██████▍   | 6832/10682 [1:03:08<31:40,  2.03it/s] 64%|██████▍   | 6833/10682 [1:03:09<31:42,  2.02it/s] 64%|██████▍   | 6834/10682 [1:03:09<31:39,  2.03it/s] 64%|██████▍   | 6835/10682 [1:03:10<31:39,  2.03it/s] 64%|██████▍   | 6836/10682 [1:03:10<31:38,  2.03it/s] 64%|██████▍   | 6837/10682 [1:03:11<31:40,  2.02it/s] 64%|██████▍   | 6838/10682 [1:03:11<31:38,  2.02it/s] 64%|██████▍   | 6839/10682 [1:03:12<31:38,  2.02it/s] 64%|██████▍   | 6840/10682 [1:03:12<31:38,  2.02it/s] 64%|██████▍   | 6841/10682 [1:03:13<31:36,  2.03it/s] 64%|██████▍   | 6842/10682 [1:03:13<31:38,  2.02it/s] 64%|██████▍   | 6843/10682 [1:03:14<31:38,  2.02it/s] 64%|██████▍   | 6844/10682 [1:03:14<31:36,  2.02it/s] 64%|██████▍   | 6845/10682 [1:03:15<31:35,  2.02it/s] 64%|██████▍   | 6846/10682 [1:03:15<31:35,  2.02it/s] 64%|██████▍   | 6847/10682 [1:03:16<31:36,  2.02it/s] 64%|██████▍   | 6848/10682 [1:03:16<31:36,  2.02it/s] 64%|██████▍   | 6849/10682 [1:03:17<31:36,  2.02it/s] 64%|██████▍   | 6850/10682 [1:03:17<31:36,  2.02it/s]{'loss': 3.1863, 'grad_norm': 0.24690158665180206, 'learning_rate': 0.000343441590084772, 'epoch': 8.98}                                                      
- 64%|██████▍   | 6850/10682 [1:03:17<31:36,  2.02it/s] 64%|██████▍   | 6851/10682 [1:03:18<31:37,  2.02it/s] 64%|██████▍   | 6852/10682 [1:03:18<31:37,  2.02it/s] 64%|██████▍   | 6853/10682 [1:03:19<31:34,  2.02it/s] 64%|██████▍   | 6854/10682 [1:03:19<31:34,  2.02it/s] 64%|██████▍   | 6855/10682 [1:03:20<31:34,  2.02it/s] 64%|██████▍   | 6856/10682 [1:03:20<31:34,  2.02it/s] 64%|██████▍   | 6857/10682 [1:03:21<31:33,  2.02it/s] 64%|██████▍   | 6858/10682 [1:03:21<31:31,  2.02it/s] 64%|██████▍   | 6859/10682 [1:03:22<31:31,  2.02it/s] 64%|██████▍   | 6860/10682 [1:03:22<31:28,  2.02it/s] 64%|██████▍   | 6861/10682 [1:03:23<31:28,  2.02it/s] 64%|██████▍   | 6862/10682 [1:03:23<31:27,  2.02it/s] 64%|██████▍   | 6863/10682 [1:03:24<31:26,  2.02it/s] 64%|██████▍   | 6864/10682 [1:03:24<31:27,  2.02it/s] 64%|██████▍   | 6865/10682 [1:03:25<31:26,  2.02it/s] 64%|██████▍   | 6866/10682 [1:03:25<31:27,  2.02it/s] 64%|██████▍   | 6867/10682 [1:03:26<31:04,  2.05it/s] 64%|██████▍   | 6868/10682 [1:04:09<13:58:38, 13.19s/it] 64%|██████▍   | 6869/10682 [1:04:09<9:56:18,  9.38s/it]  64%|██████▍   | 6870/10682 [1:04:10<7:06:43,  6.72s/it] 64%|██████▍   | 6871/10682 [1:04:10<5:08:01,  4.85s/it] 64%|██████▍   | 6872/10682 [1:04:11<3:45:22,  3.55s/it] 64%|██████▍   | 6873/10682 [1:04:11<2:47:07,  2.63s/it] 64%|██████▍   | 6874/10682 [1:04:12<2:06:23,  1.99s/it] 64%|██████▍   | 6875/10682 [1:04:12<1:37:50,  1.54s/it]{'loss': 3.1297, 'grad_norm': 0.26137691736221313, 'learning_rate': 0.0003395671949156626, 'epoch': 9.01}
-                                                         64%|██████▍   | 6875/10682 [1:04:12<1:37:50,  1.54s/it] 64%|██████▍   | 6876/10682 [1:04:13<1:17:58,  1.23s/it] 64%|██████▍   | 6877/10682 [1:04:13<1:04:15,  1.01s/it] 64%|██████▍   | 6878/10682 [1:04:14<54:23,  1.17it/s]   64%|██████▍   | 6879/10682 [1:04:14<47:26,  1.34it/s] 64%|██████▍   | 6880/10682 [1:04:15<42:36,  1.49it/s] 64%|██████▍   | 6881/10682 [1:04:15<39:15,  1.61it/s] 64%|██████▍   | 6882/10682 [1:04:16<36:54,  1.72it/s] 64%|██████▍   | 6883/10682 [1:04:16<35:11,  1.80it/s] 64%|██████▍   | 6884/10682 [1:04:17<34:09,  1.85it/s] 64%|██████▍   | 6885/10682 [1:04:17<33:16,  1.90it/s] 64%|██████▍   | 6886/10682 [1:04:17<32:43,  1.93it/s] 64%|██████▍   | 6887/10682 [1:04:18<32:18,  1.96it/s] 64%|██████▍   | 6888/10682 [1:04:18<31:57,  1.98it/s] 64%|██████▍   | 6889/10682 [1:04:19<31:45,  1.99it/s] 65%|██████▍   | 6890/10682 [1:04:19<31:34,  2.00it/s] 65%|██████▍   | 6891/10682 [1:04:20<31:31,  2.00it/s] 65%|██████▍   | 6892/10682 [1:04:20<31:24,  2.01it/s] 65%|██████▍   | 6893/10682 [1:04:21<31:26,  2.01it/s] 65%|██████▍   | 6894/10682 [1:04:21<31:20,  2.01it/s] 65%|██████▍   | 6895/10682 [1:04:22<31:19,  2.01it/s] 65%|██████▍   | 6896/10682 [1:04:22<31:15,  2.02it/s] 65%|██████▍   | 6897/10682 [1:04:23<31:14,  2.02it/s] 65%|██████▍   | 6898/10682 [1:04:23<31:12,  2.02it/s] 65%|██████▍   | 6899/10682 [1:04:24<31:11,  2.02it/s] 65%|██████▍   | 6900/10682 [1:04:24<31:09,  2.02it/s]                                                      {'loss': 3.0366, 'grad_norm': 0.2504001557826996, 'learning_rate': 0.0003357035088382997, 'epoch': 9.04}
- 65%|██████▍   | 6900/10682 [1:04:24<31:09,  2.02it/s] 65%|██████▍   | 6901/10682 [1:04:25<31:12,  2.02it/s] 65%|██████▍   | 6902/10682 [1:04:25<31:10,  2.02it/s] 65%|██████▍   | 6903/10682 [1:04:26<31:07,  2.02it/s] 65%|██████▍   | 6904/10682 [1:04:26<31:07,  2.02it/s] 65%|██████▍   | 6905/10682 [1:04:27<31:06,  2.02it/s] 65%|██████▍   | 6906/10682 [1:04:27<31:05,  2.02it/s] 65%|██████▍   | 6907/10682 [1:04:28<31:04,  2.02it/s] 65%|██████▍   | 6908/10682 [1:04:28<31:02,  2.03it/s] 65%|██████▍   | 6909/10682 [1:04:29<31:04,  2.02it/s] 65%|██████▍   | 6910/10682 [1:04:29<31:01,  2.03it/s] 65%|██████▍   | 6911/10682 [1:04:30<31:01,  2.03it/s] 65%|██████▍   | 6912/10682 [1:04:30<31:01,  2.03it/s] 65%|██████▍   | 6913/10682 [1:04:31<31:01,  2.02it/s] 65%|██████▍   | 6914/10682 [1:04:31<31:02,  2.02it/s] 65%|██████▍   | 6915/10682 [1:04:32<31:01,  2.02it/s] 65%|██████▍   | 6916/10682 [1:04:32<31:01,  2.02it/s] 65%|██████▍   | 6917/10682 [1:04:33<31:00,  2.02it/s] 65%|██████▍   | 6918/10682 [1:04:33<31:02,  2.02it/s] 65%|██████▍   | 6919/10682 [1:04:34<31:01,  2.02it/s] 65%|██████▍   | 6920/10682 [1:04:34<31:02,  2.02it/s] 65%|██████▍   | 6921/10682 [1:04:35<31:00,  2.02it/s] 65%|██████▍   | 6922/10682 [1:04:35<31:00,  2.02it/s] 65%|██████▍   | 6923/10682 [1:04:36<30:58,  2.02it/s] 65%|██████▍   | 6924/10682 [1:04:36<30:59,  2.02it/s] 65%|██████▍   | 6925/10682 [1:04:37<30:57,  2.02it/s]                                                      {'loss': 3.0396, 'grad_norm': 0.24527712166309357, 'learning_rate': 0.0003318507897585944, 'epoch': 9.08}
- 65%|██████▍   | 6925/10682 [1:04:37<30:57,  2.02it/s] 65%|██████▍   | 6926/10682 [1:04:37<30:59,  2.02it/s] 65%|██████▍   | 6927/10682 [1:04:38<30:57,  2.02it/s] 65%|██████▍   | 6928/10682 [1:04:38<30:57,  2.02it/s] 65%|██████▍   | 6929/10682 [1:04:39<30:55,  2.02it/s] 65%|██████▍   | 6930/10682 [1:04:39<30:57,  2.02it/s] 65%|██████▍   | 6931/10682 [1:04:40<30:55,  2.02it/s] 65%|██████▍   | 6932/10682 [1:04:40<33:39,  1.86it/s] 65%|██████▍   | 6933/10682 [1:04:41<32:49,  1.90it/s] 65%|██████▍   | 6934/10682 [1:04:41<32:13,  1.94it/s] 65%|██████▍   | 6935/10682 [1:04:42<31:47,  1.96it/s] 65%|██████▍   | 6936/10682 [1:04:42<31:32,  1.98it/s] 65%|██████▍   | 6937/10682 [1:04:43<31:17,  1.99it/s] 65%|██████▍   | 6938/10682 [1:04:43<31:09,  2.00it/s] 65%|██████▍   | 6939/10682 [1:04:44<31:02,  2.01it/s] 65%|██████▍   | 6940/10682 [1:04:44<30:58,  2.01it/s] 65%|██████▍   | 6941/10682 [1:04:45<30:53,  2.02it/s] 65%|██████▍   | 6942/10682 [1:04:45<30:54,  2.02it/s] 65%|██████▍   | 6943/10682 [1:04:46<30:52,  2.02it/s] 65%|██████▌   | 6944/10682 [1:04:46<30:51,  2.02it/s] 65%|██████▌   | 6945/10682 [1:04:47<30:47,  2.02it/s] 65%|██████▌   | 6946/10682 [1:04:47<30:49,  2.02it/s] 65%|██████▌   | 6947/10682 [1:04:48<30:44,  2.02it/s] 65%|██████▌   | 6948/10682 [1:04:48<30:47,  2.02it/s] 65%|██████▌   | 6949/10682 [1:04:49<30:45,  2.02it/s] 65%|██████▌   | 6950/10682 [1:04:49<30:44,  2.02it/s]                                                      {'loss': 3.0482, 'grad_norm': 0.2459777593612671, 'learning_rate': 0.0003280092948503962, 'epoch': 9.11}
- 65%|██████▌   | 6950/10682 [1:04:49<30:44,  2.02it/s] 65%|██████▌   | 6951/10682 [1:04:50<30:45,  2.02it/s] 65%|██████▌   | 6952/10682 [1:04:50<30:47,  2.02it/s] 65%|██████▌   | 6953/10682 [1:04:51<30:44,  2.02it/s] 65%|██████▌   | 6954/10682 [1:04:51<30:45,  2.02it/s] 65%|██████▌   | 6955/10682 [1:04:52<30:41,  2.02it/s] 65%|██████▌   | 6956/10682 [1:04:52<30:42,  2.02it/s] 65%|██████▌   | 6957/10682 [1:04:53<30:40,  2.02it/s] 65%|██████▌   | 6958/10682 [1:04:53<30:40,  2.02it/s] 65%|██████▌   | 6959/10682 [1:04:54<30:39,  2.02it/s] 65%|██████▌   | 6960/10682 [1:04:54<30:38,  2.02it/s] 65%|██████▌   | 6961/10682 [1:04:55<30:38,  2.02it/s] 65%|██████▌   | 6962/10682 [1:04:55<30:39,  2.02it/s] 65%|██████▌   | 6963/10682 [1:04:56<30:38,  2.02it/s] 65%|██████▌   | 6964/10682 [1:04:56<30:37,  2.02it/s] 65%|██████▌   | 6965/10682 [1:04:57<30:37,  2.02it/s] 65%|██████▌   | 6966/10682 [1:04:57<30:37,  2.02it/s] 65%|██████▌   | 6967/10682 [1:04:58<30:36,  2.02it/s] 65%|██████▌   | 6968/10682 [1:04:58<30:35,  2.02it/s] 65%|██████▌   | 6969/10682 [1:04:59<30:34,  2.02it/s] 65%|██████▌   | 6970/10682 [1:04:59<30:32,  2.03it/s] 65%|██████▌   | 6971/10682 [1:05:00<30:35,  2.02it/s] 65%|██████▌   | 6972/10682 [1:05:00<30:33,  2.02it/s] 65%|██████▌   | 6973/10682 [1:05:01<30:34,  2.02it/s] 65%|██████▌   | 6974/10682 [1:05:01<30:32,  2.02it/s] 65%|███���██▌   | 6975/10682 [1:05:02<30:33,  2.02it/s]                                                      {'loss': 3.0502, 'grad_norm': 0.2528582811355591, 'learning_rate': 0.00032417928053832723, 'epoch': 9.14}
- 65%|██████▌   | 6975/10682 [1:05:02<30:33,  2.02it/s] 65%|██████▌   | 6976/10682 [1:05:02<30:32,  2.02it/s] 65%|██████▌   | 6977/10682 [1:05:03<30:32,  2.02it/s] 65%|██████▌   | 6978/10682 [1:05:03<30:30,  2.02it/s] 65%|██████▌   | 6979/10682 [1:05:04<30:29,  2.02it/s] 65%|██████▌   | 6980/10682 [1:05:04<30:27,  2.03it/s] 65%|██████▌   | 6981/10682 [1:05:05<30:26,  2.03it/s] 65%|██████▌   | 6982/10682 [1:05:05<30:26,  2.03it/s] 65%|██████▌   | 6983/10682 [1:05:06<30:26,  2.03it/s] 65%|██████▌   | 6984/10682 [1:05:06<30:26,  2.02it/s] 65%|██████▌   | 6985/10682 [1:05:07<30:26,  2.02it/s] 65%|██████▌   | 6986/10682 [1:05:07<30:25,  2.02it/s] 65%|██████▌   | 6987/10682 [1:05:08<30:25,  2.02it/s] 65%|██████▌   | 6988/10682 [1:05:08<30:24,  2.02it/s] 65%|██████▌   | 6989/10682 [1:05:09<30:27,  2.02it/s] 65%|██████▌   | 6990/10682 [1:05:09<30:26,  2.02it/s] 65%|██████▌   | 6991/10682 [1:05:10<30:26,  2.02it/s] 65%|██████▌   | 6992/10682 [1:05:10<30:23,  2.02it/s] 65%|██████▌   | 6993/10682 [1:05:11<30:24,  2.02it/s] 65%|██████▌   | 6994/10682 [1:05:11<30:22,  2.02it/s] 65%|██████▌   | 6995/10682 [1:05:12<30:23,  2.02it/s] 65%|██████▌   | 6996/10682 [1:05:12<30:21,  2.02it/s] 66%|██████▌   | 6997/10682 [1:05:13<30:20,  2.02it/s] 66%|██████▌   | 6998/10682 [1:05:13<30:20,  2.02it/s] 66%|██████▌   | 6999/10682 [1:05:14<30:18,  2.02it/s] 66%|██████▌   | 7000/10682 [1:05:14<30:19,  2.02it/s]                                                      {'loss': 3.0612, 'grad_norm': 0.2566368281841278, 'learning_rate': 0.0003203610024806651, 'epoch': 9.17}
- 66%|██████▌   | 7000/10682 [1:05:14<30:19,  2.02it/s] 66%|██████▌   | 7001/10682 [1:05:14<30:20,  2.02it/s] 66%|██████▌   | 7002/10682 [1:05:15<30:22,  2.02it/s] 66%|██████▌   | 7003/10682 [1:05:15<30:20,  2.02it/s] 66%|██████▌   | 7004/10682 [1:05:16<30:20,  2.02it/s] 66%|██████▌   | 7005/10682 [1:05:16<30:17,  2.02it/s] 66%|██████▌   | 7006/10682 [1:05:17<30:18,  2.02it/s] 66%|██████▌   | 7007/10682 [1:05:17<30:17,  2.02it/s] 66%|██████▌   | 7008/10682 [1:05:18<30:16,  2.02it/s] 66%|██████▌   | 7009/10682 [1:05:18<30:17,  2.02it/s] 66%|██████▌   | 7010/10682 [1:05:19<30:16,  2.02it/s] 66%|██████▌   | 7011/10682 [1:05:20<33:02,  1.85it/s] 66%|██████▌   | 7012/10682 [1:05:20<32:11,  1.90it/s] 66%|██████▌   | 7013/10682 [1:05:21<31:35,  1.94it/s] 66%|██████▌   | 7014/10682 [1:05:21<31:09,  1.96it/s] 66%|██████▌   | 7015/10682 [1:05:22<30:53,  1.98it/s] 66%|██████▌   | 7016/10682 [1:05:22<30:40,  1.99it/s] 66%|██████▌   | 7017/10682 [1:05:23<30:33,  2.00it/s] 66%|██████▌   | 7018/10682 [1:05:23<30:26,  2.01it/s] 66%|██████▌   | 7019/10682 [1:05:24<30:21,  2.01it/s] 66%|██████▌   | 7020/10682 [1:05:24<30:18,  2.01it/s] 66%|██████▌   | 7021/10682 [1:05:25<30:15,  2.02it/s] 66%|██████▌   | 7022/10682 [1:05:25<30:12,  2.02it/s] 66%|██████▌   | 7023/10682 [1:05:26<30:12,  2.02it/s] 66%|██████▌   | 7024/10682 [1:05:26<30:09,  2.02it/s] 66%|██████▌   | 7025/10682 [1:05:27<30:10,  2.02it/s]                                                      {'loss': 3.0753, 'grad_norm': 0.2507952153682709, 'learning_rate': 0.0003165547155522783, 'epoch': 9.21}
- 66%|██████▌   | 7025/10682 [1:05:27<30:10,  2.02it/s] 66%|██████▌   | 7026/10682 [1:05:27<30:10,  2.02it/s] 66%|██████▌   | 7027/10682 [1:05:28<30:09,  2.02it/s] 66%|██████▌   | 7028/10682 [1:05:28<30:06,  2.02it/s] 66%|██████▌   | 7029/10682 [1:05:28<30:07,  2.02it/s] 66%|██████▌   | 7030/10682 [1:05:29<30:03,  2.02it/s] 66%|██████▌   | 7031/10682 [1:05:29<30:03,  2.02it/s] 66%|██████▌   | 7032/10682 [1:05:30<30:02,  2.02it/s] 66%|██████▌   | 7033/10682 [1:05:30<30:02,  2.02it/s] 66%|██████▌   | 7034/10682 [1:05:31<30:03,  2.02it/s] 66%|██████▌   | 7035/10682 [1:05:31<30:01,  2.02it/s] 66%|██████▌   | 7036/10682 [1:05:32<30:03,  2.02it/s] 66%|██████▌   | 7037/10682 [1:05:32<30:01,  2.02it/s] 66%|██████▌   | 7038/10682 [1:05:33<30:01,  2.02it/s] 66%|██████��   | 7039/10682 [1:05:33<30:00,  2.02it/s] 66%|██████▌   | 7040/10682 [1:05:34<30:00,  2.02it/s] 66%|██████▌   | 7041/10682 [1:05:34<30:00,  2.02it/s] 66%|██████▌   | 7042/10682 [1:05:35<29:59,  2.02it/s] 66%|██████▌   | 7043/10682 [1:05:35<30:01,  2.02it/s] 66%|██████▌   | 7044/10682 [1:05:36<29:59,  2.02it/s] 66%|██████▌   | 7045/10682 [1:05:36<29:57,  2.02it/s] 66%|██████▌   | 7046/10682 [1:05:37<29:58,  2.02it/s] 66%|██████▌   | 7047/10682 [1:05:37<29:57,  2.02it/s] 66%|██████▌   | 7048/10682 [1:05:38<29:58,  2.02it/s] 66%|██████▌   | 7049/10682 [1:05:38<29:55,  2.02it/s] 66%|██████▌   | 7050/10682 [1:05:39<29:55,  2.02it/s]                                                      {'loss': 3.0686, 'grad_norm': 0.2603335678577423, 'learning_rate': 0.0003127606738276115, 'epoch': 9.24}
- 66%|██████▌   | 7050/10682 [1:05:39<29:55,  2.02it/s] 66%|██████▌   | 7051/10682 [1:05:39<29:55,  2.02it/s] 66%|██████▌   | 7052/10682 [1:05:40<29:56,  2.02it/s] 66%|██████▌   | 7053/10682 [1:05:40<29:53,  2.02it/s] 66%|██████▌   | 7054/10682 [1:05:41<29:54,  2.02it/s] 66%|██████▌   | 7055/10682 [1:05:41<29:53,  2.02it/s] 66%|██████▌   | 7056/10682 [1:05:42<29:53,  2.02it/s] 66%|██████▌   | 7057/10682 [1:05:42<29:51,  2.02it/s] 66%|██████▌   | 7058/10682 [1:05:43<29:52,  2.02it/s] 66%|██████▌   | 7059/10682 [1:05:43<29:52,  2.02it/s] 66%|██████▌   | 7060/10682 [1:05:44<29:55,  2.02it/s] 66%|██████▌   | 7061/10682 [1:05:44<29:51,  2.02it/s] 66%|██████▌   | 7062/10682 [1:05:45<29:52,  2.02it/s] 66%|██████▌   | 7063/10682 [1:05:45<29:51,  2.02it/s] 66%|██████▌   | 7064/10682 [1:05:46<29:52,  2.02it/s] 66%|██████▌   | 7065/10682 [1:05:46<29:49,  2.02it/s] 66%|██████▌   | 7066/10682 [1:05:47<29:51,  2.02it/s] 66%|██████▌   | 7067/10682 [1:05:47<29:47,  2.02it/s] 66%|██████▌   | 7068/10682 [1:05:48<29:49,  2.02it/s] 66%|██████▌   | 7069/10682 [1:05:48<29:45,  2.02it/s] 66%|██████▌   | 7070/10682 [1:05:49<29:47,  2.02it/s] 66%|██████▌   | 7071/10682 [1:05:49<29:44,  2.02it/s] 66%|██████▌   | 7072/10682 [1:05:50<29:45,  2.02it/s] 66%|██████▌   | 7073/10682 [1:05:50<29:43,  2.02it/s] 66%|██████▌   | 7074/10682 [1:05:51<29:42,  2.02it/s] 66%|██████▌   | 7075/10682 [1:05:51<29:40,  2.03it/s]                                                      {'loss': 3.0751, 'grad_norm': 0.25654336810112, 'learning_rate': 0.00030897913056372755, 'epoch': 9.27}
- 66%|██████▌   | 7075/10682 [1:05:51<29:40,  2.03it/s] 66%|██████▌   | 7076/10682 [1:05:52<29:44,  2.02it/s] 66%|██████▋   | 7077/10682 [1:05:52<29:42,  2.02it/s] 66%|██████▋   | 7078/10682 [1:05:53<29:43,  2.02it/s] 66%|██████▋   | 7079/10682 [1:05:53<29:41,  2.02it/s] 66%|██████▋   | 7080/10682 [1:05:54<29:41,  2.02it/s] 66%|██████▋   | 7081/10682 [1:05:54<29:40,  2.02it/s] 66%|██████▋   | 7082/10682 [1:05:55<29:40,  2.02it/s] 66%|██████▋   | 7083/10682 [1:05:55<29:41,  2.02it/s] 66%|██████▋   | 7084/10682 [1:05:56<29:41,  2.02it/s] 66%|██████▋   | 7085/10682 [1:05:56<29:38,  2.02it/s] 66%|██████▋   | 7086/10682 [1:05:57<29:39,  2.02it/s] 66%|██████▋   | 7087/10682 [1:05:57<29:38,  2.02it/s] 66%|██████▋   | 7088/10682 [1:05:58<29:37,  2.02it/s] 66%|██████▋   | 7089/10682 [1:05:58<29:36,  2.02it/s] 66%|██████▋   | 7090/10682 [1:05:59<29:37,  2.02it/s] 66%|██████▋   | 7091/10682 [1:05:59<29:35,  2.02it/s] 66%|██████▋   | 7092/10682 [1:06:00<29:36,  2.02it/s] 66%|██████▋   | 7093/10682 [1:06:00<29:34,  2.02it/s] 66%|██████▋   | 7094/10682 [1:06:01<29:36,  2.02it/s] 66%|██████▋   | 7095/10682 [1:06:01<29:32,  2.02it/s] 66%|██████▋   | 7096/10682 [1:06:02<29:33,  2.02it/s] 66%|██████▋   | 7097/10682 [1:06:02<29:32,  2.02it/s] 66%|██████▋   | 7098/10682 [1:06:03<29:32,  2.02it/s] 66%|██████▋   | 7099/10682 [1:06:03<29:32,  2.02it/s] 66%|██████▋   | 7100/10682 [1:06:04<29:31,  2.02it/s]                                                      {'loss': 3.0823, 'grad_norm': 0.25500109791755676, 'learning_rate': 0.00030521033818340054, 'epoch': 9.31}
- 66%|██████▋   | 7100/10682 [1:06:04<29:31,  2.02it/s] 66%|██████▋   | 7101/10682 [1:06:04<29:33,  2.02it/s] 66%|██████▋   | 7102/10682 [1:06:05<29:32,  2.02it/s] 66%|██████▋   | 7103/10682 [1:06:05<29:31,  2.02it/s] 67%|██████▋   | 7104/10682 [1:06:06<29:31,  2.02it/s] 67%|██████▋   | 7105/10682 [1:06:06<29:30,  2.02it/s] 67%|██████▋   | 7106/10682 [1:06:07<29:28,  2.02it/s] 67%|██████▋   | 7107/10682 [1:06:07<29:27,  2.02it/s] 67%|██████▋   | 7108/10682 [1:06:08<29:26,  2.02it/s] 67%|██████▋   | 7109/10682 [1:06:08<29:26,  2.02it/s] 67%|██████▋   | 7110/10682 [1:06:09<29:24,  2.02it/s] 67%|██████▋   | 7111/10682 [1:06:09<29:24,  2.02it/s] 67%|██████▋   | 7112/10682 [1:06:10<29:21,  2.03it/s] 67%|██████▋   | 7113/10682 [1:06:10<29:23,  2.02it/s] 67%|██████▋   | 7114/10682 [1:06:11<29:21,  2.02it/s] 67%|██████▋   | 7115/10682 [1:06:11<29:23,  2.02it/s] 67%|██████▋   | 7116/10682 [1:06:12<29:22,  2.02it/s] 67%|██████▋   | 7117/10682 [1:06:12<29:23,  2.02it/s] 67%|██████▋   | 7118/10682 [1:06:13<29:21,  2.02it/s] 67%|██████▋   | 7119/10682 [1:06:13<29:20,  2.02it/s] 67%|██████▋   | 7120/10682 [1:06:14<29:21,  2.02it/s] 67%|██████▋   | 7121/10682 [1:06:14<29:18,  2.03it/s] 67%|██████▋   | 7122/10682 [1:06:14<29:19,  2.02it/s] 67%|██████▋   | 7123/10682 [1:06:15<29:18,  2.02it/s] 67%|██████▋   | 7124/10682 [1:06:15<29:20,  2.02it/s] 67%|██████▋   | 7125/10682 [1:06:16<29:18,  2.02it/s]                                                      {'loss': 3.087, 'grad_norm': 0.2517438530921936, 'learning_rate': 0.0003014545482582672, 'epoch': 9.34}
- 67%|██████▋   | 7125/10682 [1:06:16<29:18,  2.02it/s] 67%|██████▋   | 7126/10682 [1:06:16<29:20,  2.02it/s] 67%|██████▋   | 7127/10682 [1:06:17<29:19,  2.02it/s] 67%|██████▋   | 7128/10682 [1:06:17<29:19,  2.02it/s] 67%|██████▋   | 7129/10682 [1:06:18<29:18,  2.02it/s] 67%|██████▋   | 7130/10682 [1:06:18<29:17,  2.02it/s] 67%|██████▋   | 7131/10682 [1:06:19<29:15,  2.02it/s] 67%|██████▋   | 7132/10682 [1:06:19<29:15,  2.02it/s] 67%|██████▋   | 7133/10682 [1:06:20<29:14,  2.02it/s] 67%|██████▋   | 7134/10682 [1:06:20<29:15,  2.02it/s] 67%|██████▋   | 7135/10682 [1:06:21<29:13,  2.02it/s] 67%|██████▋   | 7136/10682 [1:06:21<29:13,  2.02it/s] 67%|██████▋   | 7137/10682 [1:06:22<29:12,  2.02it/s] 67%|██████▋   | 7138/10682 [1:06:22<29:13,  2.02it/s] 67%|██████▋   | 7139/10682 [1:06:23<29:12,  2.02it/s] 67%|██████▋   | 7140/10682 [1:06:23<29:12,  2.02it/s] 67%|██████▋   | 7141/10682 [1:06:24<29:10,  2.02it/s] 67%|██████▋   | 7142/10682 [1:06:24<29:11,  2.02it/s] 67%|██████▋   | 7143/10682 [1:06:25<29:08,  2.02it/s] 67%|██████▋   | 7144/10682 [1:06:25<29:10,  2.02it/s] 67%|██████▋   | 7145/10682 [1:06:26<29:09,  2.02it/s] 67%|██████▋   | 7146/10682 [1:06:26<29:08,  2.02it/s] 67%|██████▋   | 7147/10682 [1:06:27<29:07,  2.02it/s] 67%|██████▋   | 7148/10682 [1:06:27<29:07,  2.02it/s] 67%|██████▋   | 7149/10682 [1:06:28<29:06,  2.02it/s] 67%|██████▋   | 7150/10682 [1:06:28<29:04,  2.02it/s]{'loss': 3.0789, 'grad_norm': 0.24979709088802338, 'learning_rate': 0.0002977120114920343, 'epoch': 9.37}                                                      
- 67%|██████▋   | 7150/10682 [1:06:28<29:04,  2.02it/s] 67%|██████▋   | 7151/10682 [1:06:29<29:06,  2.02it/s] 67%|██████▋   | 7152/10682 [1:06:29<29:06,  2.02it/s] 67%|██████▋   | 7153/10682 [1:06:30<29:05,  2.02it/s] 67%|██████▋   | 7154/10682 [1:06:30<29:03,  2.02it/s] 67%|██████▋   | 7155/10682 [1:06:31<29:03,  2.02it/s] 67%|██████▋   | 7156/10682 [1:06:31<29:02,  2.02it/s] 67%|██████▋   | 7157/10682 [1:06:32<29:02,  2.02it/s] 67%|██████▋   | 7158/10682 [1:06:32<29:01,  2.02it/s] 67%|██████▋   | 7159/10682 [1:06:33<29:01,  2.02it/s] 67%|██████▋   | 7160/10682 [1:06:33<29:00,  2.02it/s] 67%|██████▋   | 7161/10682 [1:06:34<29:00,  2.02it/s] 67%|██████▋   | 7162/10682 [1:06:34<29:00,  2.02it/s] 67%|██████▋   | 7163/10682 [1:06:35<29:01,  2.02it/s] 67%|██████▋   | 7164/10682 [1:06:35<28:59,  2.02it/s] 67%|██████▋   | 7165/10682 [1:06:36<28:59,  2.02it/s] 67%|██████▋   | 7166/10682 [1:06:36<28:58,  2.02it/s] 67%|██████▋   | 7167/10682 [1:06:37<28:57,  2.02it/s] 67%|██████▋   | 7168/10682 [1:06:37<28:56,  2.02it/s] 67%|██████▋   | 7169/10682 [1:06:38<28:55,  2.02it/s] 67%|██████▋   | 7170/10682 [1:06:38<28:54,  2.02it/s] 67%|██████▋   | 7171/10682 [1:06:39<28:54,  2.02it/s] 67%|██████▋   | 7172/10682 [1:06:39<28:53,  2.02it/s] 67%|██████▋   | 7173/10682 [1:06:40<28:52,  2.03it/s] 67%|██████▋   | 7174/10682 [1:06:40<28:50,  2.03it/s] 67%|██████▋   | 7175/10682 [1:06:41<28:51,  2.03it/s]                                                      {'loss': 3.0817, 'grad_norm': 0.2455628663301468, 'learning_rate': 0.00029398297770374336, 'epoch': 9.4}
- 67%|██████▋   | 7175/10682 [1:06:41<28:51,  2.03it/s] 67%|██████▋   | 7176/10682 [1:06:41<28:54,  2.02it/s] 67%|██████▋   | 7177/10682 [1:06:42<28:54,  2.02it/s] 67%|██████▋   | 7178/10682 [1:06:42<28:52,  2.02it/s] 67%|██████▋   | 7179/10682 [1:06:43<28:52,  2.02it/s] 67%|██████▋   | 7180/10682 [1:06:43<28:50,  2.02it/s] 67%|██████▋   | 7181/10682 [1:06:44<28:50,  2.02it/s] 67%|██████▋   | 7182/10682 [1:06:44<28:50,  2.02it/s] 67%|██████▋   | 7183/10682 [1:06:45<28:50,  2.02it/s] 67%|██████▋   | 7184/10682 [1:06:45<28:50,  2.02it/s] 67%|██████▋   | 7185/10682 [1:06:46<28:50,  2.02it/s] 67%|██████▋   | 7186/10682 [1:06:46<28:50,  2.02it/s] 67%|██████▋   | 7187/10682 [1:06:47<28:48,  2.02it/s] 67%|██████▋   | 7188/10682 [1:06:47<28:48,  2.02it/s] 67%|██████▋   | 7189/10682 [1:06:48<28:46,  2.02it/s] 67%|██████▋   | 7190/10682 [1:06:48<28:47,  2.02it/s] 67%|██████▋   | 7191/10682 [1:06:49<28:45,  2.02it/s] 67%|██████▋   | 7192/10682 [1:06:49<28:45,  2.02it/s] 67%|██████▋   | 7193/10682 [1:06:50<28:45,  2.02it/s] 67%|██████▋   | 7194/10682 [1:06:50<28:44,  2.02it/s] 67%|██████▋   | 7195/10682 [1:06:51<28:43,  2.02it/s] 67%|██████▋   | 7196/10682 [1:06:51<28:44,  2.02it/s] 67%|██████▋   | 7197/10682 [1:06:52<28:44,  2.02it/s] 67%|██████▋   | 7198/10682 [1:06:52<28:43,  2.02it/s] 67%|██████▋   | 7199/10682 [1:06:53<28:42,  2.02it/s] 67%|██████▋   | 7200/10682 [1:06:53<28:42,  2.02it/s]{'loss': 3.0812, 'grad_norm': 0.2535989582538605, 'learning_rate': 0.0002902676958110948, 'epoch': 9.44}                                                      
- 67%|██████▋   | 7200/10682 [1:06:53<28:42,  2.02it/s] 67%|██████▋   | 7201/10682 [1:06:54<28:42,  2.02it/s] 67%|██████▋   | 7202/10682 [1:06:54<28:41,  2.02it/s] 67%|██████▋   | 7203/10682 [1:06:55<28:40,  2.02it/s] 67%|██████▋   | 7204/10682 [1:06:55<28:40,  2.02it/s] 67%|██████▋   | 7205/10682 [1:06:56<28:40,  2.02it/s] 67%|██████▋   | 7206/10682 [1:06:56<28:39,  2.02it/s] 67%|██████▋   | 7207/10682 [1:06:57<28:38,  2.02it/s] 67%|██████▋   | 7208/10682 [1:06:57<28:39,  2.02it/s] 67%|██████▋   | 7209/10682 [1:06:58<28:39,  2.02it/s] 67%|██████▋   | 7210/10682 [1:06:58<28:38,  2.02it/s] 68%|██████▊   | 7211/10682 [1:06:59<28:37,  2.02it/s] 68%|██████▊   | 7212/10682 [1:06:59<28:37,  2.02it/s] 68%|██████▊   | 7213/10682 [1:06:59<28:35,  2.02it/s] 68%|██████▊   | 7214/10682 [1:07:00<28:35,  2.02it/s] 68%|██████▊   | 7215/10682 [1:07:00<28:33,  2.02it/s] 68%|██████▊   | 7216/10682 [1:07:01<28:34,  2.02it/s] 68%|██████▊   | 7217/10682 [1:07:01<28:33,  2.02it/s] 68%|██████▊   | 7218/10682 [1:07:02<28:31,  2.02it/s] 68%|██████▊   | 7219/10682 [1:07:02<28:31,  2.02it/s] 68%|██████▊   | 7220/10682 [1:07:03<28:31,  2.02it/s] 68%|██████▊   | 7221/10682 [1:07:03<28:30,  2.02it/s] 68%|██████▊   | 7222/10682 [1:07:04<28:29,  2.02it/s] 68%|██████▊   | 7223/10682 [1:07:04<28:30,  2.02it/s] 68%|██████▊   | 7224/10682 [1:07:05<28:27,  2.02it/s] 68%|██████▊   | 7225/10682 [1:07:05<28:28,  2.02it/s]                                                      {'loss': 3.0987, 'grad_norm': 0.248527392745018, 'learning_rate': 0.0002865664138138335, 'epoch': 9.47}
- 68%|██████▊   | 7225/10682 [1:07:05<28:28,  2.02it/s] 68%|██████▊   | 7226/10682 [1:07:06<28:28,  2.02it/s] 68%|██████▊   | 7227/10682 [1:07:06<28:29,  2.02it/s] 68%|██████▊   | 7228/10682 [1:07:07<28:28,  2.02it/s] 68%|██████▊   | 7229/10682 [1:07:07<28:27,  2.02it/s] 68%|██████▊   | 7230/10682 [1:07:08<28:26,  2.02it/s] 68%|██████▊   | 7231/10682 [1:07:08<28:25,  2.02it/s] 68%|██████▊   | 7232/10682 [1:07:09<28:27,  2.02it/s] 68%|██████▊   | 7233/10682 [1:07:09<28:27,  2.02it/s] 68%|██████▊   | 7234/10682 [1:07:10<28:25,  2.02it/s] 68%|██��███▊   | 7235/10682 [1:07:10<28:25,  2.02it/s] 68%|██████▊   | 7236/10682 [1:07:11<28:23,  2.02it/s] 68%|██████▊   | 7237/10682 [1:07:11<28:24,  2.02it/s] 68%|██████▊   | 7238/10682 [1:07:12<28:22,  2.02it/s] 68%|██████▊   | 7239/10682 [1:07:12<28:22,  2.02it/s] 68%|██████▊   | 7240/10682 [1:07:13<28:21,  2.02it/s] 68%|██████▊   | 7241/10682 [1:07:13<28:20,  2.02it/s] 68%|██████▊   | 7242/10682 [1:07:14<28:20,  2.02it/s] 68%|██████▊   | 7243/10682 [1:07:14<28:20,  2.02it/s] 68%|██████▊   | 7244/10682 [1:07:15<28:20,  2.02it/s] 68%|██████▊   | 7245/10682 [1:07:15<28:21,  2.02it/s] 68%|██████▊   | 7246/10682 [1:07:16<28:20,  2.02it/s] 68%|██████▊   | 7247/10682 [1:07:16<28:21,  2.02it/s] 68%|██████▊   | 7248/10682 [1:07:17<28:19,  2.02it/s] 68%|██████▊   | 7249/10682 [1:07:17<28:19,  2.02it/s] 68%|██████▊   | 7250/10682 [1:07:18<28:17,  2.02it/s]                                                      {'loss': 3.0933, 'grad_norm': 0.24948042631149292, 'learning_rate': 0.0002828793787771929, 'epoch': 9.5}
- 68%|██████▊   | 7250/10682 [1:07:18<28:17,  2.02it/s] 68%|██████▊   | 7251/10682 [1:07:18<28:19,  2.02it/s] 68%|██████▊   | 7252/10682 [1:07:19<28:20,  2.02it/s] 68%|██████▊   | 7253/10682 [1:07:19<28:20,  2.02it/s] 68%|██████▊   | 7254/10682 [1:07:20<28:18,  2.02it/s] 68%|██████▊   | 7255/10682 [1:07:20<28:16,  2.02it/s] 68%|██████▊   | 7256/10682 [1:07:21<28:14,  2.02it/s] 68%|██████▊   | 7257/10682 [1:07:21<28:15,  2.02it/s] 68%|██████▊   | 7258/10682 [1:07:22<28:14,  2.02it/s] 68%|██████▊   | 7259/10682 [1:07:22<28:13,  2.02it/s] 68%|██████▊   | 7260/10682 [1:07:23<28:12,  2.02it/s] 68%|██████▊   | 7261/10682 [1:07:23<28:12,  2.02it/s] 68%|██████▊   | 7262/10682 [1:07:24<28:11,  2.02it/s] 68%|██████▊   | 7263/10682 [1:07:24<28:08,  2.02it/s] 68%|██████▊   | 7264/10682 [1:07:25<28:10,  2.02it/s] 68%|██████▊   | 7265/10682 [1:07:25<28:08,  2.02it/s] 68%|██████▊   | 7266/10682 [1:07:26<28:09,  2.02it/s] 68%|██████▊   | 7267/10682 [1:07:26<28:07,  2.02it/s] 68%|██████▊   | 7268/10682 [1:07:27<28:08,  2.02it/s] 68%|██████▊   | 7269/10682 [1:07:27<28:07,  2.02it/s] 68%|██████▊   | 7270/10682 [1:07:28<28:09,  2.02it/s] 68%|██████▊   | 7271/10682 [1:07:28<28:06,  2.02it/s] 68%|██████▊   | 7272/10682 [1:07:29<28:06,  2.02it/s] 68%|██████▊   | 7273/10682 [1:07:29<28:04,  2.02it/s] 68%|██████▊   | 7274/10682 [1:07:30<28:05,  2.02it/s] 68%|██████▊   | 7275/10682 [1:07:30<28:03,  2.02it/s]{'loss': 3.0837, 'grad_norm': 0.24661676585674286, 'learning_rate': 0.0002792068368154043, 'epoch': 9.53}
-                                                       68%|██████▊   | 7275/10682 [1:07:30<28:03,  2.02it/s] 68%|██████▊   | 7276/10682 [1:07:31<28:06,  2.02it/s] 68%|██████▊   | 7277/10682 [1:07:31<28:05,  2.02it/s] 68%|██████▊   | 7278/10682 [1:07:32<28:05,  2.02it/s] 68%|██████▊   | 7279/10682 [1:07:32<28:02,  2.02it/s] 68%|██████▊   | 7280/10682 [1:07:33<28:02,  2.02it/s] 68%|██████▊   | 7281/10682 [1:07:33<28:00,  2.02it/s] 68%|██████▊   | 7282/10682 [1:07:34<28:00,  2.02it/s] 68%|██████▊   | 7283/10682 [1:07:34<27:59,  2.02it/s] 68%|██████▊   | 7284/10682 [1:07:35<27:57,  2.03it/s] 68%|██████▊   | 7285/10682 [1:07:35<27:58,  2.02it/s] 68%|██████▊   | 7286/10682 [1:07:36<27:58,  2.02it/s] 68%|██████▊   | 7287/10682 [1:07:36<27:58,  2.02it/s] 68%|██████▊   | 7288/10682 [1:07:37<27:57,  2.02it/s] 68%|██████▊   | 7289/10682 [1:07:37<27:57,  2.02it/s] 68%|██████▊   | 7290/10682 [1:07:38<27:55,  2.02it/s] 68%|██████▊   | 7291/10682 [1:07:38<27:57,  2.02it/s] 68%|██████▊   | 7292/10682 [1:07:39<27:56,  2.02it/s] 68%|██████▊   | 7293/10682 [1:07:39<27:57,  2.02it/s] 68%|██████▊   | 7294/10682 [1:07:40<27:57,  2.02it/s] 68%|██████▊   | 7295/10682 [1:07:40<27:56,  2.02it/s] 68%|██████▊   | 7296/10682 [1:07:41<27:55,  2.02it/s] 68%|██████▊   | 7297/10682 [1:07:41<27:56,  2.02it/s] 68%|██████▊   | 7298/10682 [1:07:42<27:53,  2.02it/s] 68%|██████▊   | 7299/10682 [1:07:42<27:54,  2.02it/s] 68%|██████▊   | 7300/10682 [1:07:43<27:52,  2.02it/s]                                                      {'loss': 3.0939, 'grad_norm': 0.24918022751808167, 'learning_rate': 0.0002755490330752679, 'epoch': 9.57}
- 68%|██████▊   | 7300/10682 [1:07:43<27:52,  2.02it/s] 68%|██████▊   | 7301/10682 [1:07:43<27:54,  2.02it/s] 68%|██████▊   | 7302/10682 [1:07:44<27:54,  2.02it/s] 68%|██████▊   | 7303/10682 [1:07:44<27:54,  2.02it/s] 68%|██████▊   | 7304/10682 [1:07:45<27:51,  2.02it/s] 68%|██████▊   | 7305/10682 [1:07:45<27:51,  2.02it/s] 68%|██████▊   | 7306/10682 [1:07:45<27:49,  2.02it/s] 68%|██████▊   | 7307/10682 [1:07:46<27:50,  2.02it/s] 68%|██████▊   | 7308/10682 [1:07:46<27:47,  2.02it/s] 68%|██████▊   | 7309/10682 [1:07:47<27:48,  2.02it/s] 68%|██████▊   | 7310/10682 [1:07:47<27:47,  2.02it/s] 68%|██████▊   | 7311/10682 [1:07:48<27:45,  2.02it/s] 68%|██████▊   | 7312/10682 [1:07:48<27:46,  2.02it/s] 68%|██████▊   | 7313/10682 [1:07:49<27:45,  2.02it/s] 68%|██████▊   | 7314/10682 [1:07:49<27:44,  2.02it/s] 68%|██████▊   | 7315/10682 [1:07:50<27:43,  2.02it/s] 68%|██████▊   | 7316/10682 [1:07:50<27:43,  2.02it/s] 68%|██████▊   | 7317/10682 [1:07:51<27:43,  2.02it/s] 69%|██████▊   | 7318/10682 [1:07:51<27:43,  2.02it/s] 69%|██████▊   | 7319/10682 [1:07:52<27:44,  2.02it/s] 69%|██████▊   | 7320/10682 [1:07:52<27:44,  2.02it/s] 69%|██████▊   | 7321/10682 [1:07:53<27:44,  2.02it/s] 69%|██████▊   | 7322/10682 [1:07:53<27:43,  2.02it/s] 69%|██████▊   | 7323/10682 [1:07:54<27:43,  2.02it/s] 69%|██████▊   | 7324/10682 [1:07:54<27:41,  2.02it/s] 69%|██████▊   | 7325/10682 [1:07:55<27:42,  2.02it/s]                                                      {'loss': 3.0941, 'grad_norm': 0.2539394497871399, 'learning_rate': 0.0002719062117197888, 'epoch': 9.6}
- 69%|██████▊   | 7325/10682 [1:07:55<27:42,  2.02it/s] 69%|██████▊   | 7326/10682 [1:07:55<27:43,  2.02it/s] 69%|██████▊   | 7327/10682 [1:07:56<27:40,  2.02it/s] 69%|██████▊   | 7328/10682 [1:07:56<27:39,  2.02it/s] 69%|██████▊   | 7329/10682 [1:07:57<27:40,  2.02it/s] 69%|██████▊   | 7330/10682 [1:07:57<27:37,  2.02it/s] 69%|██████▊   | 7331/10682 [1:07:58<27:38,  2.02it/s] 69%|██████▊   | 7332/10682 [1:07:58<27:35,  2.02it/s] 69%|██████▊   | 7333/10682 [1:07:59<27:36,  2.02it/s] 69%|██████▊   | 7334/10682 [1:07:59<27:33,  2.02it/s] 69%|██████▊   | 7335/10682 [1:08:00<27:34,  2.02it/s] 69%|██████▊   | 7336/10682 [1:08:00<27:33,  2.02it/s] 69%|██████▊   | 7337/10682 [1:08:01<27:34,  2.02it/s] 69%|██████▊   | 7338/10682 [1:08:01<27:33,  2.02it/s] 69%|██████▊   | 7339/10682 [1:08:02<27:33,  2.02it/s] 69%|██████▊   | 7340/10682 [1:08:02<27:30,  2.02it/s] 69%|██████▊   | 7341/10682 [1:08:03<27:31,  2.02it/s] 69%|██████▊   | 7342/10682 [1:08:03<27:30,  2.02it/s] 69%|██████▊   | 7343/10682 [1:08:04<27:31,  2.02it/s] 69%|██████▉   | 7344/10682 [1:08:04<27:29,  2.02it/s] 69%|██████▉   | 7345/10682 [1:08:05<27:28,  2.02it/s] 69%|██████▉   | 7346/10682 [1:08:05<27:28,  2.02it/s] 69%|██████▉   | 7347/10682 [1:08:06<27:26,  2.03it/s] 69%|██████▉   | 7348/10682 [1:08:06<27:28,  2.02it/s] 69%|██████▉   | 7349/10682 [1:08:07<27:26,  2.02it/s] 69%|██████▉   | 7350/10682 [1:08:07<27:26,  2.02it/s]{'loss': 3.0973, 'grad_norm': 0.24306802451610565, 'learning_rate': 0.00026827861591187944, 'epoch': 9.63}                                                      
- 69%|██████▉   | 7350/10682 [1:08:07<27:26,  2.02it/s] 69%|██████▉   | 7351/10682 [1:08:08<27:27,  2.02it/s] 69%|██████▉   | 7352/10682 [1:08:08<27:28,  2.02it/s] 69%|██████▉   | 7353/10682 [1:08:09<27:25,  2.02it/s] 69%|██████▉   | 7354/10682 [1:08:09<27:25,  2.02it/s] 69%|██████▉   | 7355/10682 [1:08:10<27:22,  2.03it/s] 69%|██████▉   | 7356/10682 [1:08:10<27:24,  2.02it/s] 69%|██████▉   | 7357/10682 [1:08:11<27:21,  2.02it/s] 69%|██████▉   | 7358/10682 [1:08:11<27:23,  2.02it/s] 69%|██████▉   | 7359/10682 [1:08:12<27:21,  2.02it/s] 69%|██████▉   | 7360/10682 [1:08:12<27:22,  2.02it/s] 69%|██████▉   | 7361/10682 [1:08:13<27:21,  2.02it/s] 69%|██████▉   | 7362/10682 [1:08:13<27:20,  2.02it/s] 69%|██████▉   | 7363/10682 [1:08:14<27:20,  2.02it/s] 69%|██████▉   | 7364/10682 [1:08:14<27:20,  2.02it/s] 69%|██████▉   | 7365/10682 [1:08:15<27:19,  2.02it/s] 69%|██████▉   | 7366/10682 [1:08:15<27:21,  2.02it/s] 69%|██████▉   | 7367/10682 [1:08:16<27:20,  2.02it/s] 69%|██████▉   | 7368/10682 [1:08:16<27:20,  2.02it/s] 69%|██████▉   | 7369/10682 [1:08:17<27:19,  2.02it/s] 69%|██████▉   | 7370/10682 [1:08:17<27:18,  2.02it/s] 69%|██████▉   | 7371/10682 [1:08:18<27:17,  2.02it/s] 69%|██████▉   | 7372/10682 [1:08:18<27:18,  2.02it/s] 69%|██████▉   | 7373/10682 [1:08:19<27:18,  2.02it/s] 69%|██████▉   | 7374/10682 [1:08:19<27:18,  2.02it/s] 69%|██████▉   | 7375/10682 [1:08:20<27:17,  2.02it/s]                                                      {'loss': 3.098, 'grad_norm': 0.2518790066242218, 'learning_rate': 0.00026466648779812794, 'epoch': 9.67}
- 69%|██████▉   | 7375/10682 [1:08:20<27:17,  2.02it/s] 69%|██████▉   | 7376/10682 [1:08:20<27:18,  2.02it/s] 69%|██████▉   | 7377/10682 [1:08:21<27:16,  2.02it/s] 69%|██████▉   | 7378/10682 [1:08:21<27:15,  2.02it/s] 69%|██████▉   | 7379/10682 [1:08:22<27:14,  2.02it/s] 69%|██████▉   | 7380/10682 [1:08:22<27:14,  2.02it/s] 69%|██████▉   | 7381/10682 [1:08:23<27:14,  2.02it/s] 69%|██████▉   | 7382/10682 [1:08:23<27:13,  2.02it/s] 69%|██████▉   | 7383/10682 [1:08:24<27:11,  2.02it/s] 69%|██████▉   | 7384/10682 [1:08:24<27:12,  2.02it/s] 69%|██████▉   | 7385/10682 [1:08:25<27:11,  2.02it/s] 69%|██████▉   | 7386/10682 [1:08:25<27:11,  2.02it/s] 69%|██████▉   | 7387/10682 [1:08:26<27:10,  2.02it/s] 69%|██████▉   | 7388/10682 [1:08:26<27:10,  2.02it/s] 69%|██████▉   | 7389/10682 [1:08:27<27:07,  2.02it/s] 69%|██████▉   | 7390/10682 [1:08:27<27:07,  2.02it/s] 69%|██████▉   | 7391/10682 [1:08:28<27:06,  2.02it/s] 69%|██████▉   | 7392/10682 [1:08:28<27:05,  2.02it/s] 69%|██████▉   | 7393/10682 [1:08:29<27:06,  2.02it/s] 69%|██████▉   | 7394/10682 [1:08:29<27:05,  2.02it/s] 69%|██████▉   | 7395/10682 [1:08:30<27:06,  2.02it/s] 69%|██████▉   | 7396/10682 [1:08:30<27:04,  2.02it/s] 69%|██████▉   | 7397/10682 [1:08:30<27:05,  2.02it/s] 69%|██████▉   | 7398/10682 [1:08:31<27:03,  2.02it/s] 69%|██████▉   | 7399/10682 [1:08:31<27:03,  2.02it/s] 69%|██████▉   | 7400/10682 [1:08:32<27:02,  2.02it/s]                                                      {'loss': 3.1041, 'grad_norm': 0.24459567666053772, 'learning_rate': 0.0002610700684926339, 'epoch': 9.7}
- 69%|██████▉   | 7400/10682 [1:08:32<27:02,  2.02it/s] 69%|██████▉   | 7401/10682 [1:08:32<27:04,  2.02it/s] 69%|██████▉   | 7402/10682 [1:08:33<27:02,  2.02it/s] 69%|██████▉   | 7403/10682 [1:08:33<27:02,  2.02it/s] 69%|██████▉   | 7404/10682 [1:08:34<27:00,  2.02it/s] 69%|██████▉   | 7405/10682 [1:08:34<27:00,  2.02it/s] 69%|██████▉   | 7406/10682 [1:08:35<26:59,  2.02it/s] 69%|██████▉   | 7407/10682 [1:08:35<26:58,  2.02it/s] 69%|██████▉   | 7408/10682 [1:08:36<26:59,  2.02it/s] 69%|██████▉   | 7409/10682 [1:08:36<26:59,  2.02it/s] 69%|██████▉   | 7410/10682 [1:08:37<26:58,  2.02it/s] 69%|██████▉   | 7411/10682 [1:08:37<26:58,  2.02it/s] 69%|██████▉   | 7412/10682 [1:08:38<26:55,  2.02it/s] 69%|██████▉   | 7413/10682 [1:08:38<26:54,  2.02it/s] 69%|██████▉   | 7414/10682 [1:08:39<26:53,  2.02it/s] 69%|██████▉   | 7415/10682 [1:08:39<26:53,  2.02it/s] 69%|██████▉   | 7416/10682 [1:08:40<26:54,  2.02it/s] 69%|██████▉   | 7417/10682 [1:08:40<26:53,  2.02it/s] 69%|██████▉   | 7418/10682 [1:08:41<26:53,  2.02it/s] 69%|██████▉   | 7419/10682 [1:08:41<26:52,  2.02it/s] 69%|██████▉   | 7420/10682 [1:08:42<26:53,  2.02it/s] 69%|██████▉   | 7421/10682 [1:08:42<26:51,  2.02it/s] 69%|██████▉   | 7422/10682 [1:08:43<26:52,  2.02it/s] 69%|██████▉   | 7423/10682 [1:08:43<26:51,  2.02it/s] 70%|██████▉   | 7424/10682 [1:08:44<26:52,  2.02it/s] 70%|██████▉   | 7425/10682 [1:08:44<26:50,  2.02it/s]{'loss': 3.0942, 'grad_norm': 0.2523539364337921, 'learning_rate': 0.00025748959806091423, 'epoch': 9.73}                                                      
- 70%|██████▉   | 7425/10682 [1:08:44<26:50,  2.02it/s] 70%|██████▉   | 7426/10682 [1:08:45<26:53,  2.02it/s] 70%|██████▉   | 7427/10682 [1:08:45<26:54,  2.02it/s] 70%|██████▉   | 7428/10682 [1:08:46<26:53,  2.02it/s] 70%|██████▉   | 7429/10682 [1:08:46<26:52,  2.02it/s] 70%|██████▉   | 7430/10682 [1:08:47<26:51,  2.02it/s] 70%|██████▉   | 7431/10682 [1:08:47<26:50,  2.02it/s] 70%|██████▉   | 7432/10682 [1:08:48<26:50,  2.02it/s] 70%|██████▉   | 7433/10682 [1:08:48<26:49,  2.02it/s] 70%|██████▉   | 7434/10682 [1:08:49<26:47,  2.02it/s] 70%|██████▉   | 7435/10682 [1:08:49<26:46,  2.02it/s] 70%|██████▉   | 7436/10682 [1:08:50<26:45,  2.02it/s] 70%|██████▉   | 7437/10682 [1:08:50<26:45,  2.02it/s] 70%|██████▉   | 7438/10682 [1:08:51<26:43,  2.02it/s] 70%|██████▉   | 7439/10682 [1:08:51<26:43,  2.02it/s] 70%|██████▉   | 7440/10682 [1:08:52<26:42,  2.02it/s] 70%|██████▉   | 7441/10682 [1:08:52<26:43,  2.02it/s] 70%|██████▉   | 7442/10682 [1:08:53<26:42,  2.02it/s] 70%|██████▉   | 7443/10682 [1:08:53<26:43,  2.02it/s] 70%|██████▉   | 7444/10682 [1:08:54<26:43,  2.02it/s] 70%|██████▉   | 7445/10682 [1:08:54<26:43,  2.02it/s] 70%|██████▉   | 7446/10682 [1:08:55<26:41,  2.02it/s] 70%|██████▉   | 7447/10682 [1:08:55<26:40,  2.02it/s] 70%|██████▉   | 7448/10682 [1:08:56<26:40,  2.02it/s] 70%|██████▉   | 7449/10682 [1:08:56<26:37,  2.02it/s] 70%|██████▉   | 7450/10682 [1:08:57<26:38,  2.02it/s]                                                      {'loss': 3.1045, 'grad_norm': 0.24877110123634338, 'learning_rate': 0.00025392531550387867, 'epoch': 9.76}
- 70%|██████▉   | 7450/10682 [1:08:57<26:38,  2.02it/s] 70%|██████▉   | 7451/10682 [1:08:57<26:38,  2.02it/s] 70%|██████▉   | 7452/10682 [1:08:58<26:37,  2.02it/s] 70%|██████▉   | 7453/10682 [1:08:58<26:37,  2.02it/s] 70%|██████▉   | 7454/10682 [1:08:59<26:36,  2.02it/s] 70%|██████▉   | 7455/10682 [1:08:59<26:37,  2.02it/s] 70%|██████▉   | 7456/10682 [1:09:00<26:36,  2.02it/s] 70%|██████▉   | 7457/10682 [1:09:00<26:37,  2.02it/s] 70%|██████▉   | 7458/10682 [1:09:01<26:34,  2.02it/s] 70%|██████▉   | 7459/10682 [1:09:01<26:35,  2.02it/s] 70%|██████▉   | 7460/10682 [1:09:02<26:34,  2.02it/s] 70%|██████▉   | 7461/10682 [1:09:02<26:34,  2.02it/s] 70%|██████▉   | 7462/10682 [1:09:03<26:32,  2.02it/s] 70%|██████▉   | 7463/10682 [1:09:03<26:33,  2.02it/s] 70%|██████▉   | 7464/10682 [1:09:04<26:30,  2.02it/s] 70%|██████▉   | 7465/10682 [1:09:04<26:32,  2.02it/s] 70%|██████▉   | 7466/10682 [1:09:05<26:30,  2.02it/s] 70%|██████▉   | 7467/10682 [1:09:05<26:31,  2.02it/s] 70%|██████▉   | 7468/10682 [1:09:06<26:29,  2.02it/s] 70%|██████▉   | 7469/10682 [1:09:06<26:30,  2.02it/s] 70%|██████▉   | 7470/10682 [1:09:07<26:28,  2.02it/s] 70%|██████▉   | 7471/10682 [1:09:07<26:29,  2.02it/s] 70%|██████▉   | 7472/10682 [1:09:08<26:26,  2.02it/s] 70%|██████▉   | 7473/10682 [1:09:08<26:27,  2.02it/s] 70%|██████▉   | 7474/10682 [1:09:09<26:25,  2.02it/s] 70%|██████▉   | 7475/10682 [1:09:09<26:25,  2.02it/s]                                                      {'loss': 3.1046, 'grad_norm': 0.2510814666748047, 'learning_rate': 0.0002503774587418758, 'epoch': 9.8}
- 70%|██████▉   | 7475/10682 [1:09:09<26:25,  2.02it/s] 70%|██████▉   | 7476/10682 [1:09:10<26:24,  2.02it/s] 70%|██████▉   | 7477/10682 [1:09:10<26:24,  2.02it/s] 70%|███████   | 7478/10682 [1:09:11<26:23,  2.02it/s] 70%|███████   | 7479/10682 [1:09:11<26:23,  2.02it/s] 70%|███████   | 7480/10682 [1:09:12<26:22,  2.02it/s] 70%|███████   | 7481/10682 [1:09:12<26:24,  2.02it/s] 70%|███████   | 7482/10682 [1:09:13<26:23,  2.02it/s] 70%|███████   | 7483/10682 [1:09:13<26:23,  2.02it/s] 70%|███████   | 7484/10682 [1:09:14<26:20,  2.02it/s] 70%|███████   | 7485/10682 [1:09:14<26:20,  2.02it/s] 70%|███████   | 7486/10682 [1:09:15<26:18,  2.02it/s] 70%|███████   | 7487/10682 [1:09:15<26:19,  2.02it/s] 70%|███████   | 7488/10682 [1:09:16<26:18,  2.02it/s] 70%|███████   | 7489/10682 [1:09:16<26:18,  2.02it/s] 70%|███████   | 7490/10682 [1:09:16<26:17,  2.02it/s] 70%|███████   | 7491/10682 [1:09:17<26:17,  2.02it/s] 70%|███████   | 7492/10682 [1:09:17<26:17,  2.02it/s] 70%|███████   | 7493/10682 [1:09:18<26:17,  2.02it/s] 70%|███████   | 7494/10682 [1:09:18<26:16,  2.02it/s] 70%|███████   | 7495/10682 [1:09:19<26:15,  2.02it/s] 70%|███████   | 7496/10682 [1:09:19<26:15,  2.02it/s] 70%|███████   | 7497/10682 [1:09:20<26:14,  2.02it/s] 70%|███████   | 7498/10682 [1:09:20<26:14,  2.02it/s] 70%|███████   | 7499/10682 [1:09:21<26:15,  2.02it/s] 70%|███████   | 7500/10682 [1:09:21<26:14,  2.02it/s]                                                      {'loss': 3.0991, 'grad_norm': 0.2513992488384247, 'learning_rate': 0.00024684626459881156, 'epoch': 9.83}
- 70%|███████   | 7500/10682 [1:09:21<26:14,  2.02it/s] 70%|███████   | 7501/10682 [1:09:22<26:17,  2.02it/s] 70%|███████   | 7502/10682 [1:09:22<26:16,  2.02it/s] 70%|███████   | 7503/10682 [1:09:23<26:15,  2.02it/s] 70%|███████   | 7504/10682 [1:09:23<26:14,  2.02it/s] 70%|███████   | 7505/10682 [1:09:24<26:14,  2.02it/s] 70%|███████   | 7506/10682 [1:09:24<26:12,  2.02it/s] 70%|███████   | 7507/10682 [1:09:25<26:11,  2.02it/s] 70%|███████   | 7508/10682 [1:09:25<26:10,  2.02it/s] 70%|███████   | 7509/10682 [1:09:26<26:11,  2.02it/s] 70%|███████   | 7510/10682 [1:09:26<26:10,  2.02it/s] 70%|███████   | 7511/10682 [1:09:27<26:09,  2.02it/s] 70%|███████   | 7512/10682 [1:09:27<26:10,  2.02it/s] 70%|███████   | 7513/10682 [1:09:28<26:08,  2.02it/s] 70%|███████   | 7514/10682 [1:09:28<26:08,  2.02it/s] 70%|███████   | 7515/10682 [1:09:29<26:07,  2.02it/s] 70%|███████   | 7516/10682 [1:09:29<26:07,  2.02it/s] 70%|███████   | 7517/10682 [1:09:30<26:06,  2.02it/s] 70%|███████   | 7518/10682 [1:09:30<26:06,  2.02it/s] 70%|███████   | 7519/10682 [1:09:31<26:05,  2.02it/s] 70%|███████   | 7520/10682 [1:09:31<26:04,  2.02it/s] 70%|███████   | 7521/10682 [1:09:32<26:04,  2.02it/s] 70%|███████   | 7522/10682 [1:09:32<26:02,  2.02it/s] 70%|███████   | 7523/10682 [1:09:33<26:02,  2.02it/s] 70%|███████   | 7524/10682 [1:09:33<26:01,  2.02it/s] 70%|███████   | 7525/10682 [1:09:34<26:01,  2.02it/s]{'loss': 3.1103, 'grad_norm': 0.24234157800674438, 'learning_rate': 0.00024333196878634163, 'epoch': 9.86}                                                      
- 70%|███████   | 7525/10682 [1:09:34<26:01,  2.02it/s] 70%|███████   | 7526/10682 [1:09:34<26:02,  2.02it/s] 70%|███████   | 7527/10682 [1:09:35<26:02,  2.02it/s] 70%|███████   | 7528/10682 [1:09:35<25:59,  2.02it/s] 70%|███████   | 7529/10682 [1:09:36<26:00,  2.02it/s] 70%|███████   | 7530/10682 [1:09:36<25:58,  2.02it/s] 71%|███████   | 7531/10682 [1:09:37<25:58,  2.02it/s] 71%|███████   | 7532/10682 [1:09:37<25:57,  2.02it/s] 71%|███████   | 7533/10682 [1:09:38<25:58,  2.02it/s] 71%|███████   | 7534/10682 [1:09:38<25:56,  2.02it/s] 71%|███████   | 7535/10682 [1:09:39<25:56,  2.02it/s] 71%|███████   | 7536/10682 [1:09:39<25:55,  2.02it/s] 71%|███████   | 7537/10682 [1:09:40<25:55,  2.02it/s] 71%|███████   | 7538/10682 [1:09:40<25:54,  2.02it/s] 71%|███████   | 7539/10682 [1:09:41<25:55,  2.02it/s] 71%|███████   | 7540/10682 [1:09:41<25:53,  2.02it/s] 71%|███████   | 7541/10682 [1:09:42<25:53,  2.02it/s] 71%|███████   | 7542/10682 [1:09:42<25:54,  2.02it/s] 71%|███████   | 7543/10682 [1:09:43<25:53,  2.02it/s] 71%|███████   | 7544/10682 [1:09:43<25:53,  2.02it/s] 71%|███████   | 7545/10682 [1:09:44<25:51,  2.02it/s] 71%|███████   | 7546/10682 [1:09:44<25:51,  2.02it/s] 71%|███████   | 7547/10682 [1:09:45<25:50,  2.02it/s] 71%|███████   | 7548/10682 [1:09:45<25:49,  2.02it/s] 71%|███████   | 7549/10682 [1:09:46<25:48,  2.02it/s] 71%|███████   | 7550/10682 [1:09:46<25:48,  2.02it/s]                                                      {'loss': 3.1109, 'grad_norm': 0.24976767599582672, 'learning_rate': 0.00023983480588813622, 'epoch': 9.9}
- 71%|███████   | 7550/10682 [1:09:46<25:48,  2.02it/s] 71%|███████   | 7551/10682 [1:09:47<25:50,  2.02it/s] 71%|███████   | 7552/10682 [1:09:47<25:49,  2.02it/s] 71%|███████   | 7553/10682 [1:09:48<25:48,  2.02it/s] 71%|███████   | 7554/10682 [1:09:48<25:47,  2.02it/s] 71%|███████   | 7555/10682 [1:09:49<25:47,  2.02it/s] 71%|███████   | 7556/10682 [1:09:49<25:48,  2.02it/s] 71%|███████   | 7557/10682 [1:09:50<25:45,  2.02it/s] 71%|███████   | 7558/10682 [1:09:50<25:45,  2.02it/s] 71%|███████   | 7559/10682 [1:09:51<25:43,  2.02it/s] 71%|███████   | 7560/10682 [1:09:51<25:44,  2.02it/s] 71%|███████   | 7561/10682 [1:09:52<25:42,  2.02it/s] 71%|███████   | 7562/10682 [1:09:52<25:43,  2.02it/s] 71%|███████   | 7563/10682 [1:09:53<25:41,  2.02it/s] 71%|███████   | 7564/10682 [1:09:53<25:42,  2.02it/s] 71%|███████   | 7565/10682 [1:09:54<25:40,  2.02it/s] 71%|███████   | 7566/10682 [1:09:54<25:41,  2.02it/s] 71%|███████   | 7567/10682 [1:09:55<25:39,  2.02it/s] 71%|███████   | 7568/10682 [1:09:55<25:39,  2.02it/s] 71%|███████   | 7569/10682 [1:09:56<27:53,  1.86it/s] 71%|███████   | 7570/10682 [1:09:56<27:13,  1.91it/s] 71%|███████   | 7571/10682 [1:09:57<26:43,  1.94it/s] 71%|███████   | 7572/10682 [1:09:57<26:24,  1.96it/s] 71%|███████   | 7573/10682 [1:09:58<26:09,  1.98it/s] 71%|███████   | 7574/10682 [1:09:58<25:59,  1.99it/s] 71%|███████   | 7575/10682 [1:09:59<25:51,  2.00it/s]                                                      {'loss': 3.1099, 'grad_norm': 0.2427770495414734, 'learning_rate': 0.00023635500934422239, 'epoch': 9.93}
- 71%|███████   | 7575/10682 [1:09:59<25:51,  2.00it/s] 71%|███████   | 7576/10682 [1:09:59<25:49,  2.00it/s] 71%|███████   | 7577/10682 [1:10:00<25:44,  2.01it/s] 71%|███████   | 7578/10682 [1:10:00<25:42,  2.01it/s] 71%|███████   | 7579/10682 [1:10:01<25:38,  2.02it/s] 71%|███████   | 7580/10682 [1:10:01<25:38,  2.02it/s] 71%|███████   | 7581/10682 [1:10:02<25:35,  2.02it/s] 71%|███████   | 7582/10682 [1:10:02<25:35,  2.02it/s] 71%|███████   | 7583/10682 [1:10:03<25:33,  2.02it/s] 71%|███████   | 7584/10682 [1:10:03<25:32,  2.02it/s] 71%|███████   | 7585/10682 [1:10:04<25:32,  2.02it/s] 71%|███████   | 7586/10682 [1:10:04<25:31,  2.02it/s] 71%|███████   | 7587/10682 [1:10:05<25:30,  2.02it/s] 71%|███████   | 7588/10682 [1:10:05<25:30,  2.02it/s] 71%|███████   | 7589/10682 [1:10:06<25:30,  2.02it/s] 71%|███████   | 7590/10682 [1:10:06<25:29,  2.02it/s] 71%|███████   | 7591/10682 [1:10:07<25:29,  2.02it/s] 71%|███████   | 7592/10682 [1:10:07<25:28,  2.02it/s] 71%|███████   | 7593/10682 [1:10:08<25:27,  2.02it/s] 71%|███████   | 7594/10682 [1:10:08<25:27,  2.02it/s] 71%|███████   | 7595/10682 [1:10:09<25:25,  2.02it/s] 71%|███████   | 7596/10682 [1:10:09<25:25,  2.02it/s] 71%|███████   | 7597/10682 [1:10:10<25:24,  2.02it/s] 71%|███████   | 7598/10682 [1:10:10<25:25,  2.02it/s] 71%|███████   | 7599/10682 [1:10:11<25:23,  2.02it/s] 71%|███████   | 7600/10682 [1:10:11<25:22,  2.02it/s]{'loss': 3.1126, 'grad_norm': 0.2505597770214081, 'learning_rate': 0.00023289281143540065, 'epoch': 9.96}                                                      
- 71%|███████   | 7600/10682 [1:10:11<25:22,  2.02it/s] 71%|███████   | 7601/10682 [1:10:12<25:24,  2.02it/s] 71%|███████   | 7602/10682 [1:10:12<25:24,  2.02it/s] 71%|███████   | 7603/10682 [1:10:13<25:22,  2.02it/s] 71%|███████   | 7604/10682 [1:10:13<25:22,  2.02it/s] 71%|███████   | 7605/10682 [1:10:14<25:21,  2.02it/s] 71%|███████   | 7606/10682 [1:10:14<25:22,  2.02it/s] 71%|███████   | 7607/10682 [1:10:15<25:20,  2.02it/s] 71%|███████   | 7608/10682 [1:10:15<25:21,  2.02it/s] 71%|███████   | 7609/10682 [1:10:16<25:19,  2.02it/s] 71%|███████   | 7610/10682 [1:10:16<25:20,  2.02it/s] 71%|███████▏  | 7611/10682 [1:10:17<25:18,  2.02it/s] 71%|███████▏  | 7612/10682 [1:10:17<25:18,  2.02it/s] 71%|███████▏  | 7613/10682 [1:10:17<25:15,  2.03it/s] 71%|███████▏  | 7614/10682 [1:10:18<25:15,  2.02it/s] 71%|███████▏  | 7615/10682 [1:10:18<25:14,  2.03it/s] 71%|███████▏  | 7616/10682 [1:10:19<25:12,  2.03it/s] 71%|███████▏  | 7617/10682 [1:10:19<25:14,  2.02it/s] 71%|███████▏  | 7618/10682 [1:10:20<25:12,  2.03it/s] 71%|███████▏  | 7619/10682 [1:10:20<25:13,  2.02it/s] 71%|███████▏  | 7620/10682 [1:10:21<25:11,  2.03it/s] 71%|███████▏  | 7621/10682 [1:10:21<25:11,  2.02it/s] 71%|███████▏  | 7622/10682 [1:10:22<25:09,  2.03it/s] 71%|███████▏  | 7623/10682 [1:10:22<25:11,  2.02it/s] 71%|███████▏  | 7624/10682 [1:10:23<25:09,  2.03it/s] 71%|███████▏  | 7625/10682 [1:10:23<25:10,  2.02it/s]                                                      {'loss': 3.1103, 'grad_norm': 0.2489359974861145, 'learning_rate': 0.00022944844326774121, 'epoch': 9.99}
- 71%|███████▏  | 7625/10682 [1:10:23<25:10,  2.02it/s] 71%|███████▏  | 7626/10682 [1:10:24<25:11,  2.02it/s] 71%|███████▏  | 7627/10682 [1:10:24<25:11,  2.02it/s] 71%|███████▏  | 7628/10682 [1:10:25<25:09,  2.02it/s] 71%|███████▏  | 7629/10682 [1:10:25<25:10,  2.02it/s] 71%|███████▏  | 7630/10682 [1:10:26<24:51,  2.05it/s] 71%|███████▏  | 7631/10682 [1:10:42<4:28:20,  5.28s/it] 71%|███████▏  | 7632/10682 [1:10:43<3:15:24,  3.84s/it] 71%|███████▏  | 7633/10682 [1:10:43<2:24:18,  2.84s/it] 71%|███████▏  | 7634/10682 [1:10:44<1:48:39,  2.14s/it] 71%|███████▏  | 7635/10682 [1:10:44<1:23:38,  1.65s/it] 71%|███████▏  | 7636/10682 [1:10:45<1:06:04,  1.30s/it] 71%|███████▏  | 7637/10682 [1:10:45<53:51,  1.06s/it]   72%|███████▏  | 7638/10682 [1:10:46<45:12,  1.12it/s] 72%|███████▏  | 7639/10682 [1:10:46<39:18,  1.29it/s] 72%|███████▏  | 7640/10682 [1:10:47<35:04,  1.45it/s] 72%|███████▏  | 7641/10682 [1:10:47<32:02,  1.58it/s] 72%|███████▏  | 7642/10682 [1:10:48<29:57,  1.69it/s] 72%|███████▏  | 7643/10682 [1:10:48<28:29,  1.78it/s] 72%|███████▏  | 7644/10682 [1:10:49<27:27,  1.84it/s] 72%|███████▏  | 7645/10682 [1:10:49<26:43,  1.89it/s] 72%|███████▏  | 7646/10682 [1:10:50<26:16,  1.93it/s] 72%|███████▏  | 7647/10682 [1:10:50<25:51,  1.96it/s] 72%|███████▏  | 7648/10682 [1:10:51<25:37,  1.97it/s] 72%|███████▏  | 7649/10682 [1:10:51<25:25,  1.99it/s] 72%|███████▏  | 7650/10682 [1:10:52<25:17,  2.00it/s]                                                      {'loss': 2.9989, 'grad_norm': 0.26241400837898254, 'learning_rate': 0.00022602213475715589, 'epoch': 10.03}
- 72%|███████▏  | 7650/10682 [1:10:52<25:17,  2.00it/s] 72%|███████▏  | 7651/10682 [1:10:52<25:14,  2.00it/s] 72%|███████▏  | 7652/10682 [1:10:53<25:17,  2.00it/s] 72%|███████▏  | 7653/10682 [1:10:53<27:19,  1.85it/s] 72%|███████▏  | 7654/10682 [1:10:54<26:37,  1.90it/s] 72%|███████▏  | 7655/10682 [1:10:54<26:08,  1.93it/s] 72%|███████▏  | 7656/10682 [1:10:55<25:45,  1.96it/s] 72%|███████▏  | 7657/10682 [1:10:55<25:29,  1.98it/s] 72%|███████▏  | 7658/10682 [1:10:56<25:19,  1.99it/s] 72%|███████▏  | 7659/10682 [1:10:56<25:11,  2.00it/s] 72%|███████▏  | 7660/10682 [1:10:57<25:06,  2.01it/s] 72%|███████▏  | 7661/10682 [1:10:57<25:02,  2.01it/s] 72%|███████▏  | 7662/10682 [1:10:58<24:59,  2.01it/s] 72%|███████▏  | 7663/10682 [1:10:58<24:55,  2.02it/s] 72%|███████▏  | 7664/10682 [1:10:59<24:57,  2.02it/s] 72%|███████▏  | 7665/10682 [1:10:59<24:54,  2.02it/s] 72%|███████▏  | 7666/10682 [1:11:00<24:53,  2.02it/s] 72%|███████▏  | 7667/10682 [1:11:00<24:51,  2.02it/s] 72%|███████▏  | 7668/10682 [1:11:01<24:50,  2.02it/s] 72%|███████▏  | 7669/10682 [1:11:01<24:48,  2.02it/s] 72%|███████▏  | 7670/10682 [1:11:02<24:47,  2.02it/s] 72%|███████▏  | 7671/10682 [1:11:02<24:47,  2.02it/s] 72%|███████▏  | 7672/10682 [1:11:03<24:46,  2.02it/s] 72%|███████▏  | 7673/10682 [1:11:03<24:46,  2.02it/s] 72%|███████▏  | 7674/10682 [1:11:04<24:44,  2.03it/s] 72%|███████▏  | 7675/10682 [1:11:04<24:45,  2.02it/s]                                                      {'loss': 2.9894, 'grad_norm': 0.25086742639541626, 'learning_rate': 0.0002226141146140523, 'epoch': 10.06}
- 72%|███████▏  | 7675/10682 [1:11:04<24:45,  2.02it/s] 72%|███████▏  | 7676/10682 [1:11:05<24:44,  2.02it/s] 72%|███████▏  | 7677/10682 [1:11:05<24:45,  2.02it/s] 72%|███████▏  | 7678/10682 [1:11:06<24:43,  2.03it/s] 72%|███████▏  | 7679/10682 [1:11:06<24:43,  2.02it/s] 72%|███████▏  | 7680/10682 [1:11:07<24:42,  2.02it/s] 72%|███████▏  | 7681/10682 [1:11:07<24:40,  2.03it/s] 72%|███████▏  | 7682/10682 [1:11:08<24:41,  2.03it/s] 72%|███████▏  | 7683/10682 [1:11:08<24:39,  2.03it/s] 72%|███████▏  | 7684/10682 [1:11:09<24:40,  2.03it/s] 72%|███████▏  | 7685/10682 [1:11:09<24:40,  2.02it/s] 72%|███████▏  | 7686/10682 [1:11:10<24:39,  2.02it/s] 72%|███████▏  | 7687/10682 [1:11:10<24:40,  2.02it/s] 72%|███████▏  | 7688/10682 [1:11:11<24:39,  2.02it/s] 72%|███████▏  | 7689/10682 [1:11:11<24:39,  2.02it/s] 72%|███████▏  | 7690/10682 [1:11:12<24:38,  2.02it/s] 72%|███████▏  | 7691/10682 [1:11:12<24:36,  2.03it/s] 72%|███████▏  | 7692/10682 [1:11:13<24:36,  2.03it/s] 72%|███████▏  | 7693/10682 [1:11:13<24:35,  2.03it/s] 72%|███████▏  | 7694/10682 [1:11:14<24:33,  2.03it/s] 72%|███████▏  | 7695/10682 [1:11:14<24:35,  2.02it/s] 72%|███████▏  | 7696/10682 [1:11:15<24:33,  2.03it/s] 72%|███████▏  | 7697/10682 [1:11:15<24:35,  2.02it/s] 72%|███████▏  | 7698/10682 [1:11:16<24:33,  2.03it/s] 72%|███████▏  | 7699/10682 [1:11:16<24:33,  2.02it/s] 72%|███████▏  | 7700/10682 [1:11:17<24:32,  2.03it/s]                                                      {'loss': 2.9873, 'grad_norm': 0.25647252798080444, 'learning_rate': 0.00021922461032806601, 'epoch': 10.09}
- 72%|███████▏  | 7700/10682 [1:11:17<24:32,  2.03it/s] 72%|███████▏  | 7701/10682 [1:11:17<24:34,  2.02it/s] 72%|███████▏  | 7702/10682 [1:11:18<24:33,  2.02it/s] 72%|███████▏  | 7703/10682 [1:11:18<24:32,  2.02it/s] 72%|███████▏  | 7704/10682 [1:11:19<24:32,  2.02it/s] 72%|███████▏  | 7705/10682 [1:11:19<24:31,  2.02it/s] 72%|███████▏  | 7706/10682 [1:11:20<24:31,  2.02it/s] 72%|███████▏  | 7707/10682 [1:11:20<24:29,  2.02it/s] 72%|███████▏  | 7708/10682 [1:11:21<24:29,  2.02it/s] 72%|███████▏  | 7709/10682 [1:11:21<24:27,  2.03it/s] 72%|███████▏  | 7710/10682 [1:11:22<24:29,  2.02it/s] 72%|███████▏  | 7711/10682 [1:11:22<24:28,  2.02it/s] 72%|███████▏  | 7712/10682 [1:11:23<24:29,  2.02it/s] 72%|███████▏  | 7713/10682 [1:11:23<24:27,  2.02it/s] 72%|███████▏  | 7714/10682 [1:11:24<24:27,  2.02it/s] 72%|███████▏  | 7715/10682 [1:11:24<24:25,  2.02it/s] 72%|███████▏  | 7716/10682 [1:11:25<24:25,  2.02it/s] 72%|███████▏  | 7717/10682 [1:11:25<24:24,  2.02it/s] 72%|███████▏  | 7718/10682 [1:11:26<24:23,  2.02it/s] 72%|███████▏  | 7719/10682 [1:11:26<24:24,  2.02it/s] 72%|███████▏  | 7720/10682 [1:11:27<24:22,  2.02it/s] 72%|███████▏  | 7721/10682 [1:11:27<24:24,  2.02it/s] 72%|███████▏  | 7722/10682 [1:11:27<24:22,  2.02it/s] 72%|███████▏  | 7723/10682 [1:11:28<24:23,  2.02it/s] 72%|███████▏  | 7724/10682 [1:11:28<24:22,  2.02it/s] 72%|███████▏  | 7725/10682 [1:11:29<24:22,  2.02it/s]                                                      {'loss': 2.9922, 'grad_norm': 0.25269412994384766, 'learning_rate': 0.0002158538481528759, 'epoch': 10.12}
- 72%|███████▏  | 7725/10682 [1:11:29<24:22,  2.02it/s] 72%|███████▏  | 7726/10682 [1:11:29<24:23,  2.02it/s] 72%|███████▏  | 7727/10682 [1:11:30<24:22,  2.02it/s] 72%|███████▏  | 7728/10682 [1:11:30<24:20,  2.02it/s] 72%|███████▏  | 7729/10682 [1:11:31<24:19,  2.02it/s] 72%|███████▏  | 7730/10682 [1:11:31<24:19,  2.02it/s] 72%|███████▏  | 7731/10682 [1:11:32<24:20,  2.02it/s] 72%|███████▏  | 7732/10682 [1:11:32<24:18,  2.02it/s] 72%|███████▏  | 7733/10682 [1:11:33<24:19,  2.02it/s] 72%|███████▏  | 7734/10682 [1:11:33<24:17,  2.02it/s] 72%|███████▏  | 7735/10682 [1:11:34<24:17,  2.02it/s] 72%|███████▏  | 7736/10682 [1:11:34<24:16,  2.02it/s] 72%|███████▏  | 7737/10682 [1:11:35<24:17,  2.02it/s] 72%|███████▏  | 7738/10682 [1:11:35<24:15,  2.02it/s] 72%|███████▏  | 7739/10682 [1:11:36<24:15,  2.02it/s] 72%|███████▏  | 7740/10682 [1:11:36<24:14,  2.02it/s] 72%|███████▏  | 7741/10682 [1:11:37<24:14,  2.02it/s] 72%|███████▏  | 7742/10682 [1:11:37<24:11,  2.02it/s] 72%|███████▏  | 7743/10682 [1:11:38<24:12,  2.02it/s] 72%|███████▏  | 7744/10682 [1:11:38<24:11,  2.02it/s] 73%|███████▎  | 7745/10682 [1:11:39<24:12,  2.02it/s] 73%|███████▎  | 7746/10682 [1:11:39<24:10,  2.02it/s] 73%|███████▎  | 7747/10682 [1:11:40<24:11,  2.02it/s] 73%|███████▎  | 7748/10682 [1:11:40<24:09,  2.02it/s] 73%|███████▎  | 7749/10682 [1:11:41<24:09,  2.02it/s] 73%|███████▎  | 7750/10682 [1:11:41<24:08,  2.02it/s]                                                      {'loss': 2.9972, 'grad_norm': 0.2489054650068283, 'learning_rate': 0.00021250205309110155, 'epoch': 10.16}
- 73%|███████▎  | 7750/10682 [1:11:41<24:08,  2.02it/s] 73%|███████▎  | 7751/10682 [1:11:42<24:09,  2.02it/s] 73%|███████▎  | 7752/10682 [1:11:42<24:07,  2.02it/s] 73%|███████▎  | 7753/10682 [1:11:43<24:07,  2.02it/s] 73%|███████▎  | 7754/10682 [1:11:43<24:06,  2.02it/s] 73%|███████▎  | 7755/10682 [1:11:44<24:07,  2.02it/s] 73%|███████▎  | 7756/10682 [1:11:44<24:05,  2.02it/s] 73%|███████▎  | 7757/10682 [1:11:45<24:04,  2.03it/s] 73%|███████▎  | 7758/10682 [1:11:45<24:05,  2.02it/s] 73%|███████▎  | 7759/10682 [1:11:46<24:03,  2.03it/s] 73%|███████▎  | 7760/10682 [1:11:46<24:03,  2.02it/s] 73%|███████▎  | 7761/10682 [1:11:47<24:02,  2.03it/s] 73%|███████▎  | 7762/10682 [1:11:47<24:02,  2.02it/s] 73%|███████▎  | 7763/10682 [1:11:48<24:01,  2.02it/s] 73%|███████▎  | 7764/10682 [1:11:48<24:02,  2.02it/s] 73%|███████▎  | 7765/10682 [1:11:49<24:01,  2.02it/s] 73%|███████▎  | 7766/10682 [1:11:49<24:00,  2.02it/s] 73%|███████▎  | 7767/10682 [1:11:50<24:00,  2.02it/s] 73%|███████▎  | 7768/10682 [1:11:50<24:01,  2.02it/s] 73%|███████▎  | 7769/10682 [1:11:51<24:00,  2.02it/s] 73%|███████▎  | 7770/10682 [1:11:51<23:59,  2.02it/s] 73%|███████▎  | 7771/10682 [1:11:52<23:59,  2.02it/s] 73%|███████▎  | 7772/10682 [1:11:52<23:59,  2.02it/s] 73%|███████▎  | 7773/10682 [1:11:53<23:59,  2.02it/s] 73%|███████▎  | 7774/10682 [1:11:53<23:58,  2.02it/s] 73%|███████▎  | 7775/10682 [1:11:54<23:57,  2.02it/s]                                                      {'loss': 3.004, 'grad_norm': 0.252695232629776, 'learning_rate': 0.00020916944887928359, 'epoch': 10.19}
- 73%|███████▎  | 7775/10682 [1:11:54<23:57,  2.02it/s] 73%|███████▎  | 7776/10682 [1:11:54<23:57,  2.02it/s] 73%|███████▎  | 7777/10682 [1:11:55<23:57,  2.02it/s] 73%|███████▎  | 7778/10682 [1:11:55<23:56,  2.02it/s] 73%|███████▎  | 7779/10682 [1:11:56<23:55,  2.02it/s] 73%|███████▎  | 7780/10682 [1:11:56<23:55,  2.02it/s] 73%|███████▎  | 7781/10682 [1:11:57<23:53,  2.02it/s] 73%|███████▎  | 7782/10682 [1:11:57<23:54,  2.02it/s] 73%|███████▎  | 7783/10682 [1:11:58<23:51,  2.03it/s] 73%|███████▎  | 7784/10682 [1:11:58<23:53,  2.02it/s] 73%|███████▎  | 7785/10682 [1:11:59<23:51,  2.02it/s] 73%|███████▎  | 7786/10682 [1:11:59<23:51,  2.02it/s] 73%|███████▎  | 7787/10682 [1:12:00<23:49,  2.02it/s] 73%|███████▎  | 7788/10682 [1:12:00<23:51,  2.02it/s] 73%|███████▎  | 7789/10682 [1:12:01<23:49,  2.02it/s] 73%|███████▎  | 7790/10682 [1:12:01<23:50,  2.02it/s] 73%|███████▎  | 7791/10682 [1:12:02<23:48,  2.02it/s] 73%|███████▎  | 7792/10682 [1:12:02<23:48,  2.02it/s] 73%|███████▎  | 7793/10682 [1:12:03<23:47,  2.02it/s] 73%|███████▎  | 7794/10682 [1:12:03<23:48,  2.02it/s] 73%|███████▎  | 7795/10682 [1:12:04<23:47,  2.02it/s] 73%|███████▎  | 7796/10682 [1:12:04<23:47,  2.02it/s] 73%|███████▎  | 7797/10682 [1:12:05<23:45,  2.02it/s] 73%|███████▎  | 7798/10682 [1:12:05<23:43,  2.03it/s] 73%|███████▎  | 7799/10682 [1:12:06<23:43,  2.02it/s] 73%|███████▎  | 7800/10682 [1:12:06<23:44,  2.02it/s]                                                      {'loss': 3.012, 'grad_norm': 0.2545822262763977, 'learning_rate': 0.00020585625797294927, 'epoch': 10.22}
- 73%|███████▎  | 7800/10682 [1:12:06<23:44,  2.02it/s] 73%|███████▎  | 7801/10682 [1:12:07<23:45,  2.02it/s] 73%|███████▎  | 7802/10682 [1:12:07<23:44,  2.02it/s] 73%|███████▎  | 7803/10682 [1:12:08<23:43,  2.02it/s] 73%|███████▎  | 7804/10682 [1:12:08<23:43,  2.02it/s] 73%|███████▎  | 7805/10682 [1:12:09<23:42,  2.02it/s] 73%|███████▎  | 7806/10682 [1:12:09<23:42,  2.02it/s] 73%|███████▎  | 7807/10682 [1:12:10<23:41,  2.02it/s] 73%|███████▎  | 7808/10682 [1:12:10<23:40,  2.02it/s] 73%|███████▎  | 7809/10682 [1:12:11<23:40,  2.02it/s] 73%|███████▎  | 7810/10682 [1:12:11<23:39,  2.02it/s] 73%|███████▎  | 7811/10682 [1:12:11<23:40,  2.02it/s] 73%|███████▎  | 7812/10682 [1:12:12<23:39,  2.02it/s] 73%|███████▎  | 7813/10682 [1:12:12<23:39,  2.02it/s] 73%|███████▎  | 7814/10682 [1:12:13<23:39,  2.02it/s] 73%|███████▎  | 7815/10682 [1:12:13<23:39,  2.02it/s] 73%|███████▎  | 7816/10682 [1:12:14<23:38,  2.02it/s] 73%|███████▎  | 7817/10682 [1:12:14<23:38,  2.02it/s] 73%|███████▎  | 7818/10682 [1:12:15<23:36,  2.02it/s] 73%|██��████▎  | 7819/10682 [1:12:15<23:36,  2.02it/s] 73%|███████▎  | 7820/10682 [1:12:16<23:35,  2.02it/s] 73%|███████▎  | 7821/10682 [1:12:16<23:35,  2.02it/s] 73%|███████▎  | 7822/10682 [1:12:17<23:34,  2.02it/s] 73%|███████▎  | 7823/10682 [1:12:17<23:33,  2.02it/s] 73%|███████▎  | 7824/10682 [1:12:18<23:34,  2.02it/s] 73%|███████▎  | 7825/10682 [1:12:18<23:32,  2.02it/s]                                                      {'loss': 3.0095, 'grad_norm': 0.25556299090385437, 'learning_rate': 0.00020256270153176371, 'epoch': 10.26}
- 73%|███████▎  | 7825/10682 [1:12:18<23:32,  2.02it/s] 73%|███████▎  | 7826/10682 [1:12:19<23:34,  2.02it/s] 73%|███████▎  | 7827/10682 [1:12:19<23:31,  2.02it/s] 73%|███████▎  | 7828/10682 [1:12:20<23:32,  2.02it/s] 73%|███████▎  | 7829/10682 [1:12:20<23:31,  2.02it/s] 73%|███████▎  | 7830/10682 [1:12:21<23:31,  2.02it/s] 73%|███████▎  | 7831/10682 [1:12:21<23:30,  2.02it/s] 73%|███████▎  | 7832/10682 [1:12:22<23:28,  2.02it/s] 73%|███████▎  | 7833/10682 [1:12:22<23:28,  2.02it/s] 73%|███████▎  | 7834/10682 [1:12:23<23:26,  2.03it/s] 73%|███████▎  | 7835/10682 [1:12:23<23:27,  2.02it/s] 73%|███████▎  | 7836/10682 [1:12:24<23:26,  2.02it/s] 73%|███████▎  | 7837/10682 [1:12:24<23:26,  2.02it/s] 73%|███████▎  | 7838/10682 [1:12:25<23:25,  2.02it/s] 73%|███████▎  | 7839/10682 [1:12:25<23:25,  2.02it/s] 73%|███████▎  | 7840/10682 [1:12:26<23:24,  2.02it/s] 73%|███████▎  | 7841/10682 [1:12:26<23:24,  2.02it/s] 73%|███████▎  | 7842/10682 [1:12:27<23:23,  2.02it/s] 73%|███████▎  | 7843/10682 [1:12:27<23:22,  2.02it/s] 73%|███████▎  | 7844/10682 [1:12:28<23:23,  2.02it/s] 73%|███████▎  | 7845/10682 [1:12:28<23:22,  2.02it/s] 73%|███████▎  | 7846/10682 [1:12:29<23:22,  2.02it/s] 73%|███████▎  | 7847/10682 [1:12:29<23:22,  2.02it/s] 73%|███████▎  | 7848/10682 [1:12:30<23:21,  2.02it/s] 73%|███████▎  | 7849/10682 [1:12:30<23:21,  2.02it/s] 73%|███████▎  | 7850/10682 [1:12:31<23:20,  2.02it/s]                                                      {'loss': 3.0044, 'grad_norm': 0.25416168570518494, 'learning_rate': 0.00019928899940476624, 'epoch': 10.29}
- 73%|███████▎  | 7850/10682 [1:12:31<23:20,  2.02it/s] 73%|███████▎  | 7851/10682 [1:12:31<23:24,  2.02it/s] 74%|███████▎  | 7852/10682 [1:12:32<23:22,  2.02it/s] 74%|███████▎  | 7853/10682 [1:12:32<23:20,  2.02it/s] 74%|███████▎  | 7854/10682 [1:12:33<23:19,  2.02it/s] 74%|███████▎  | 7855/10682 [1:12:33<23:17,  2.02it/s] 74%|███████▎  | 7856/10682 [1:12:34<23:17,  2.02it/s] 74%|███████▎  | 7857/10682 [1:12:34<23:15,  2.02it/s] 74%|███████▎  | 7858/10682 [1:12:35<23:15,  2.02it/s] 74%|███████▎  | 7859/10682 [1:12:35<23:14,  2.02it/s] 74%|███████▎  | 7860/10682 [1:12:36<23:15,  2.02it/s] 74%|███████▎  | 7861/10682 [1:12:36<23:14,  2.02it/s] 74%|███████▎  | 7862/10682 [1:12:37<23:14,  2.02it/s] 74%|███████▎  | 7863/10682 [1:12:37<23:13,  2.02it/s] 74%|███████▎  | 7864/10682 [1:12:38<23:14,  2.02it/s] 74%|███████▎  | 7865/10682 [1:12:38<23:12,  2.02it/s] 74%|███████▎  | 7866/10682 [1:12:39<23:12,  2.02it/s] 74%|███████▎  | 7867/10682 [1:12:39<23:10,  2.02it/s] 74%|███████▎  | 7868/10682 [1:12:40<23:12,  2.02it/s] 74%|███████▎  | 7869/10682 [1:12:40<23:11,  2.02it/s] 74%|███████▎  | 7870/10682 [1:12:41<23:11,  2.02it/s] 74%|███████▎  | 7871/10682 [1:12:41<23:09,  2.02it/s] 74%|███████▎  | 7872/10682 [1:12:42<23:10,  2.02it/s] 74%|███████▎  | 7873/10682 [1:12:42<23:08,  2.02it/s] 74%|███████▎  | 7874/10682 [1:12:43<23:09,  2.02it/s] 74%|███████▎  | 7875/10682 [1:12:43<23:08,  2.02it/s]                                                      {'loss': 3.018, 'grad_norm': 0.24888542294502258, 'learning_rate': 0.00019603537011569566, 'epoch': 10.32}
- 74%|███████▎  | 7875/10682 [1:12:43<23:08,  2.02it/s] 74%|███████▎  | 7876/10682 [1:12:44<23:10,  2.02it/s] 74%|███████▎  | 7877/10682 [1:12:44<23:09,  2.02it/s] 74%|███████▍  | 7878/10682 [1:12:45<23:09,  2.02it/s] 74%|███████▍  | 7879/10682 [1:12:45<23:07,  2.02it/s] 74%|███████▍  | 7880/10682 [1:12:46<23:07,  2.02it/s] 74%|██████���▍  | 7881/10682 [1:12:46<23:06,  2.02it/s] 74%|███████▍  | 7882/10682 [1:12:47<23:05,  2.02it/s] 74%|███████▍  | 7883/10682 [1:12:47<23:03,  2.02it/s] 74%|███████▍  | 7884/10682 [1:12:48<23:04,  2.02it/s] 74%|███████▍  | 7885/10682 [1:12:48<23:02,  2.02it/s] 74%|███████▍  | 7886/10682 [1:12:49<23:03,  2.02it/s] 74%|███████▍  | 7887/10682 [1:12:49<23:00,  2.02it/s] 74%|███████▍  | 7888/10682 [1:12:50<23:01,  2.02it/s] 74%|███████▍  | 7889/10682 [1:12:50<23:00,  2.02it/s] 74%|███████▍  | 7890/10682 [1:12:51<23:00,  2.02it/s] 74%|███████▍  | 7891/10682 [1:12:51<22:59,  2.02it/s] 74%|███████▍  | 7892/10682 [1:12:52<22:58,  2.02it/s] 74%|███████▍  | 7893/10682 [1:12:52<22:58,  2.02it/s] 74%|███████▍  | 7894/10682 [1:12:53<22:58,  2.02it/s] 74%|███████▍  | 7895/10682 [1:12:53<22:57,  2.02it/s] 74%|███████▍  | 7896/10682 [1:12:54<22:57,  2.02it/s] 74%|███████▍  | 7897/10682 [1:12:54<22:58,  2.02it/s] 74%|███████▍  | 7898/10682 [1:12:55<22:57,  2.02it/s] 74%|███████▍  | 7899/10682 [1:12:55<22:59,  2.02it/s] 74%|███████▍  | 7900/10682 [1:12:56<22:57,  2.02it/s]                                                      {'loss': 3.0177, 'grad_norm': 0.2552645802497864, 'learning_rate': 0.0001928020308484042, 'epoch': 10.35}
- 74%|███████▍  | 7900/10682 [1:12:56<22:57,  2.02it/s] 74%|███████▍  | 7901/10682 [1:12:56<22:58,  2.02it/s] 74%|███████▍  | 7902/10682 [1:12:57<22:55,  2.02it/s] 74%|███████▍  | 7903/10682 [1:12:57<22:55,  2.02it/s] 74%|███████▍  | 7904/10682 [1:12:57<22:53,  2.02it/s] 74%|███████▍  | 7905/10682 [1:12:58<22:53,  2.02it/s] 74%|███████▍  | 7906/10682 [1:12:58<22:51,  2.02it/s] 74%|███████▍  | 7907/10682 [1:12:59<22:53,  2.02it/s] 74%|███████▍  | 7908/10682 [1:12:59<22:51,  2.02it/s] 74%|███████▍  | 7909/10682 [1:13:00<22:54,  2.02it/s] 74%|███████▍  | 7910/10682 [1:13:00<22:51,  2.02it/s] 74%|███████▍  | 7911/10682 [1:13:01<22:51,  2.02it/s] 74%|███████▍  | 7912/10682 [1:13:01<22:49,  2.02it/s] 74%|███████▍  | 7913/10682 [1:13:02<22:50,  2.02it/s] 74%|███████▍  | 7914/10682 [1:13:02<22:49,  2.02it/s] 74%|███████▍  | 7915/10682 [1:13:03<22:49,  2.02it/s] 74%|███████▍  | 7916/10682 [1:13:03<22:47,  2.02it/s] 74%|███████▍  | 7917/10682 [1:13:04<22:48,  2.02it/s] 74%|███████▍  | 7918/10682 [1:13:04<22:46,  2.02it/s] 74%|███████▍  | 7919/10682 [1:13:05<22:46,  2.02it/s] 74%|███████▍  | 7920/10682 [1:13:05<22:44,  2.02it/s] 74%|███████▍  | 7921/10682 [1:13:06<22:45,  2.02it/s] 74%|███████▍  | 7922/10682 [1:13:06<22:43,  2.02it/s] 74%|███████▍  | 7923/10682 [1:13:07<22:44,  2.02it/s] 74%|███████▍  | 7924/10682 [1:13:07<22:43,  2.02it/s] 74%|███████▍  | 7925/10682 [1:13:08<22:43,  2.02it/s]                                                      {'loss': 3.0276, 'grad_norm': 0.2640625834465027, 'learning_rate': 0.00018958919743235897, 'epoch': 10.39}
- 74%|███████▍  | 7925/10682 [1:13:08<22:43,  2.02it/s] 74%|███████▍  | 7926/10682 [1:13:08<22:43,  2.02it/s] 74%|███████▍  | 7927/10682 [1:13:09<22:43,  2.02it/s] 74%|███████▍  | 7928/10682 [1:13:09<22:40,  2.02it/s] 74%|███████▍  | 7929/10682 [1:13:10<22:41,  2.02it/s] 74%|███████▍  | 7930/10682 [1:13:10<22:39,  2.02it/s] 74%|███████▍  | 7931/10682 [1:13:11<22:41,  2.02it/s] 74%|███████▍  | 7932/10682 [1:13:11<22:38,  2.02it/s] 74%|███████▍  | 7933/10682 [1:13:12<22:40,  2.02it/s] 74%|███████▍  | 7934/10682 [1:13:12<22:38,  2.02it/s] 74%|███████▍  | 7935/10682 [1:13:13<22:38,  2.02it/s] 74%|███████▍  | 7936/10682 [1:13:13<22:37,  2.02it/s] 74%|███████▍  | 7937/10682 [1:13:14<22:37,  2.02it/s] 74%|███████▍  | 7938/10682 [1:13:14<22:36,  2.02it/s] 74%|███████▍  | 7939/10682 [1:13:15<22:37,  2.02it/s] 74%|███████▍  | 7940/10682 [1:13:15<22:36,  2.02it/s] 74%|███████▍  | 7941/10682 [1:13:16<22:35,  2.02it/s] 74%|███████▍  | 7942/10682 [1:13:16<22:34,  2.02it/s] 74%|███████▍  | 7943/10682 [1:13:17<22:33,  2.02it/s] 74%|███████▍  | 7944/10682 [1:13:17<22:33,  2.02it/s] 74%|███████▍  | 7945/10682 [1:13:18<22:33,  2.02it/s] 74%|███████▍  | 7946/10682 [1:13:18<22:33,  2.02it/s] 74%|███████▍  | 7947/10682 [1:13:19<22:32,  2.02it/s] 74%|███████▍  | 7948/10682 [1:13:19<22:31,  2.02it/s] 74%|███████▍  | 7949/10682 [1:13:20<22:30,  2.02it/s] 74%|███████▍  | 7950/10682 [1:13:20<22:30,  2.02it/s]                                                      {'loss': 3.0273, 'grad_norm': 0.26075422763824463, 'learning_rate': 0.0001863970843282357, 'epoch': 10.42}
- 74%|███████▍  | 7950/10682 [1:13:20<22:30,  2.02it/s] 74%|███████▍  | 7951/10682 [1:13:21<22:31,  2.02it/s] 74%|███████▍  | 7952/10682 [1:13:21<22:31,  2.02it/s] 74%|███████▍  | 7953/10682 [1:13:22<22:30,  2.02it/s] 74%|███████▍  | 7954/10682 [1:13:22<22:29,  2.02it/s] 74%|███████▍  | 7955/10682 [1:13:23<22:28,  2.02it/s] 74%|███████▍  | 7956/10682 [1:13:23<22:28,  2.02it/s] 74%|███████▍  | 7957/10682 [1:13:24<22:27,  2.02it/s] 74%|███████▍  | 7958/10682 [1:13:24<22:27,  2.02it/s] 75%|███████▍  | 7959/10682 [1:13:25<22:26,  2.02it/s] 75%|███████▍  | 7960/10682 [1:13:25<22:25,  2.02it/s] 75%|███████▍  | 7961/10682 [1:13:26<22:26,  2.02it/s] 75%|███████▍  | 7962/10682 [1:13:26<22:24,  2.02it/s] 75%|███████▍  | 7963/10682 [1:13:27<22:25,  2.02it/s] 75%|███████▍  | 7964/10682 [1:13:27<22:23,  2.02it/s] 75%|███████▍  | 7965/10682 [1:13:28<22:21,  2.03it/s] 75%|███████▍  | 7966/10682 [1:13:28<22:22,  2.02it/s] 75%|███████▍  | 7967/10682 [1:13:29<22:24,  2.02it/s] 75%|███████▍  | 7968/10682 [1:13:29<22:24,  2.02it/s] 75%|███████▍  | 7969/10682 [1:13:30<22:23,  2.02it/s] 75%|███████▍  | 7970/10682 [1:13:30<22:23,  2.02it/s] 75%|███████▍  | 7971/10682 [1:13:31<22:21,  2.02it/s] 75%|███████▍  | 7972/10682 [1:13:31<22:22,  2.02it/s] 75%|███████▍  | 7973/10682 [1:13:32<22:21,  2.02it/s] 75%|███████▍  | 7974/10682 [1:13:32<22:19,  2.02it/s] 75%|███████▍  | 7975/10682 [1:13:33<22:18,  2.02it/s]                                                      {'loss': 3.0258, 'grad_norm': 0.2546063959598541, 'learning_rate': 0.00018322590461360383, 'epoch': 10.45}
- 75%|███████▍  | 7975/10682 [1:13:33<22:18,  2.02it/s] 75%|███████▍  | 7976/10682 [1:13:33<22:20,  2.02it/s] 75%|███████▍  | 7977/10682 [1:13:34<22:18,  2.02it/s] 75%|███████▍  | 7978/10682 [1:13:34<22:18,  2.02it/s] 75%|███████▍  | 7979/10682 [1:13:35<22:17,  2.02it/s] 75%|███████▍  | 7980/10682 [1:13:35<22:17,  2.02it/s] 75%|███████▍  | 7981/10682 [1:13:36<22:16,  2.02it/s] 75%|███████▍  | 7982/10682 [1:13:36<22:16,  2.02it/s] 75%|███████▍  | 7983/10682 [1:13:37<22:15,  2.02it/s] 75%|███████▍  | 7984/10682 [1:13:37<22:15,  2.02it/s] 75%|███████▍  | 7985/10682 [1:13:38<22:13,  2.02it/s] 75%|███████▍  | 7986/10682 [1:13:38<22:13,  2.02it/s] 75%|███████▍  | 7987/10682 [1:13:39<22:12,  2.02it/s] 75%|███████▍  | 7988/10682 [1:13:39<22:13,  2.02it/s] 75%|███████▍  | 7989/10682 [1:13:40<22:10,  2.02it/s] 75%|███████▍  | 7990/10682 [1:13:40<22:12,  2.02it/s] 75%|███████▍  | 7991/10682 [1:13:41<22:10,  2.02it/s] 75%|███████▍  | 7992/10682 [1:13:41<22:10,  2.02it/s] 75%|███████▍  | 7993/10682 [1:13:42<22:09,  2.02it/s] 75%|███████▍  | 7994/10682 [1:13:42<22:09,  2.02it/s] 75%|███████▍  | 7995/10682 [1:13:43<22:08,  2.02it/s] 75%|███████▍  | 7996/10682 [1:13:43<22:10,  2.02it/s] 75%|███████▍  | 7997/10682 [1:13:44<22:08,  2.02it/s] 75%|███████▍  | 7998/10682 [1:13:44<22:08,  2.02it/s] 75%|███████▍  | 7999/10682 [1:13:44<22:06,  2.02it/s] 75%|███████▍  | 8000/10682 [1:13:45<22:06,  2.02it/s]                                                      {'loss': 3.0243, 'grad_norm': 0.2547115385532379, 'learning_rate': 0.00018007586996870206, 'epoch': 10.48}
- 75%|███████▍  | 8000/10682 [1:13:45<22:06,  2.02it/s] 75%|███████▍  | 8001/10682 [1:13:45<22:06,  2.02it/s] 75%|███████▍  | 8002/10682 [1:13:46<22:06,  2.02it/s] 75%|███████▍  | 8003/10682 [1:13:46<22:05,  2.02it/s] 75%|███████▍  | 8004/10682 [1:13:47<22:04,  2.02it/s] 75%|███████▍  | 8005/10682 [1:13:47<22:03,  2.02it/s] 75%|███████▍  | 8006/10682 [1:13:48<22:04,  2.02it/s] 75%|███████▍  | 8007/10682 [1:13:48<22:02,  2.02it/s] 75%|███████▍  | 8008/10682 [1:13:49<22:02,  2.02it/s] 75%|███████▍  | 8009/10682 [1:13:49<22:01,  2.02it/s] 75%|███████▍  | 8010/10682 [1:13:50<22:01,  2.02it/s] 75%|███████▍  | 8011/10682 [1:13:50<22:00,  2.02it/s] 75%|███████▌  | 8012/10682 [1:13:51<22:00,  2.02it/s] 75%|███████▌  | 8013/10682 [1:13:51<22:00,  2.02it/s] 75%|███████▌  | 8014/10682 [1:13:52<21:59,  2.02it/s] 75%|███████▌  | 8015/10682 [1:13:52<21:58,  2.02it/s] 75%|███████▌  | 8016/10682 [1:13:53<21:58,  2.02it/s] 75%|███████▌  | 8017/10682 [1:13:53<21:57,  2.02it/s] 75%|███████▌  | 8018/10682 [1:13:54<21:57,  2.02it/s] 75%|███████▌  | 8019/10682 [1:13:54<21:55,  2.02it/s] 75%|███████▌  | 8020/10682 [1:13:55<21:56,  2.02it/s] 75%|███████▌  | 8021/10682 [1:13:55<21:55,  2.02it/s] 75%|███████▌  | 8022/10682 [1:13:56<21:56,  2.02it/s] 75%|███████▌  | 8023/10682 [1:13:56<21:53,  2.02it/s] 75%|███████▌  | 8024/10682 [1:13:57<21:54,  2.02it/s] 75%|███████▌  | 8025/10682 [1:13:57<21:54,  2.02it/s]                                                      {'loss': 3.0255, 'grad_norm': 0.2556605041027069, 'learning_rate': 0.00017694719066230924, 'epoch': 10.52}
- 75%|███████▌  | 8025/10682 [1:13:57<21:54,  2.02it/s] 75%|███████▌  | 8026/10682 [1:13:58<21:55,  2.02it/s] 75%|███████▌  | 8027/10682 [1:13:58<21:53,  2.02it/s] 75%|███████▌  | 8028/10682 [1:13:59<21:52,  2.02it/s] 75%|███████▌  | 8029/10682 [1:13:59<21:51,  2.02it/s] 75%|███████▌  | 8030/10682 [1:14:00<21:50,  2.02it/s] 75%|███████▌  | 8031/10682 [1:14:00<21:50,  2.02it/s] 75%|███████▌  | 8032/10682 [1:14:01<21:49,  2.02it/s] 75%|███████▌  | 8033/10682 [1:14:01<21:48,  2.02it/s] 75%|███████▌  | 8034/10682 [1:14:02<21:47,  2.03it/s] 75%|███████▌  | 8035/10682 [1:14:02<21:47,  2.03it/s] 75%|███████▌  | 8036/10682 [1:14:03<21:46,  2.03it/s] 75%|███████▌  | 8037/10682 [1:14:03<21:46,  2.02it/s] 75%|███████▌  | 8038/10682 [1:14:04<21:46,  2.02it/s] 75%|███████▌  | 8039/10682 [1:14:04<21:45,  2.02it/s] 75%|███████▌  | 8040/10682 [1:14:05<21:45,  2.02it/s] 75%|███████▌  | 8041/10682 [1:14:05<21:44,  2.02it/s] 75%|███████▌  | 8042/10682 [1:14:06<21:45,  2.02it/s] 75%|███████▌  | 8043/10682 [1:14:06<21:44,  2.02it/s] 75%|███████▌  | 8044/10682 [1:14:07<21:45,  2.02it/s] 75%|███████▌  | 8045/10682 [1:14:07<21:44,  2.02it/s] 75%|███████▌  | 8046/10682 [1:14:08<21:43,  2.02it/s] 75%|███████▌  | 8047/10682 [1:14:08<21:42,  2.02it/s] 75%|███████▌  | 8048/10682 [1:14:09<21:41,  2.02it/s] 75%|███████▌  | 8049/10682 [1:14:09<21:42,  2.02it/s] 75%|███████▌  | 8050/10682 [1:14:10<21:41,  2.02it/s]                                                      {'loss': 3.0235, 'grad_norm': 0.2541995942592621, 'learning_rate': 0.00017384007553770858, 'epoch': 10.55}
- 75%|███████▌  | 8050/10682 [1:14:10<21:41,  2.02it/s] 75%|███████▌  | 8051/10682 [1:14:10<21:43,  2.02it/s] 75%|███████▌  | 8052/10682 [1:14:11<21:41,  2.02it/s] 75%|███████▌  | 8053/10682 [1:14:11<21:41,  2.02it/s] 75%|███████▌  | 8054/10682 [1:14:12<21:39,  2.02it/s] 75%|███████▌  | 8055/10682 [1:14:12<21:39,  2.02it/s] 75%|███████▌  | 8056/10682 [1:14:13<21:38,  2.02it/s] 75%|███████▌  | 8057/10682 [1:14:13<21:38,  2.02it/s] 75%|███████▌  | 8058/10682 [1:14:14<21:36,  2.02it/s] 75%|███████▌  | 8059/10682 [1:14:14<21:37,  2.02it/s] 75%|███████▌  | 8060/10682 [1:14:15<21:36,  2.02it/s] 75%|███████▌  | 8061/10682 [1:14:15<21:36,  2.02it/s] 75%|███████▌  | 8062/10682 [1:14:16<21:35,  2.02it/s] 75%|███████▌  | 8063/10682 [1:14:16<21:35,  2.02it/s] 75%|███████▌  | 8064/10682 [1:14:17<21:34,  2.02it/s] 76%|███████▌  | 8065/10682 [1:14:17<21:34,  2.02it/s] 76%|███████▌  | 8066/10682 [1:14:18<21:31,  2.03it/s] 76%|███████▌  | 8067/10682 [1:14:18<21:31,  2.02it/s] 76%|███████▌  | 8068/10682 [1:14:19<21:30,  2.03it/s] 76%|███████▌  | 8069/10682 [1:14:19<21:31,  2.02it/s] 76%|███████▌  | 8070/10682 [1:14:20<21:30,  2.02it/s] 76%|███████▌  | 8071/10682 [1:14:20<21:29,  2.02it/s] 76%|███████▌  | 8072/10682 [1:14:21<21:30,  2.02it/s] 76%|███████▌  | 8073/10682 [1:14:21<21:29,  2.02it/s] 76%|███████▌  | 8074/10682 [1:14:22<21:29,  2.02it/s] 76%|███████▌  | 8075/10682 [1:14:22<21:29,  2.02it/s]                                                      {'loss': 3.0334, 'grad_norm': 0.2559641897678375, 'learning_rate': 0.00017075473199874692, 'epoch': 10.58}
- 76%|███████▌  | 8075/10682 [1:14:22<21:29,  2.02it/s] 76%|███████▌  | 8076/10682 [1:14:23<21:30,  2.02it/s] 76%|███████▌  | 8077/10682 [1:14:23<21:29,  2.02it/s] 76%|███████▌  | 8078/10682 [1:14:24<21:28,  2.02it/s] 76%|███████▌  | 8079/10682 [1:14:24<21:27,  2.02it/s] 76%|███████▌  | 8080/10682 [1:14:25<21:26,  2.02it/s] 76%|███████▌  | 8081/10682 [1:14:25<21:26,  2.02it/s] 76%|███████▌  | 8082/10682 [1:14:26<21:25,  2.02it/s] 76%|███████▌  | 8083/10682 [1:14:26<21:25,  2.02it/s] 76%|███████▌  | 8084/10682 [1:14:27<21:25,  2.02it/s] 76%|███████▌  | 8085/10682 [1:14:27<21:24,  2.02it/s] 76%|███████▌  | 8086/10682 [1:14:28<21:24,  2.02it/s] 76%|███████▌  | 8087/10682 [1:14:28<21:23,  2.02it/s] 76%|███████▌  | 8088/10682 [1:14:28<21:23,  2.02it/s] 76%|███████▌  | 8089/10682 [1:14:29<21:23,  2.02it/s] 76%|███████▌  | 8090/10682 [1:14:29<21:22,  2.02it/s] 76%|███████▌  | 8091/10682 [1:14:30<21:21,  2.02it/s] 76%|███████▌  | 8092/10682 [1:14:30<21:21,  2.02it/s] 76%|███████▌  | 8093/10682 [1:14:31<21:21,  2.02it/s] 76%|███████▌  | 8094/10682 [1:14:31<21:20,  2.02it/s] 76%|███████▌  | 8095/10682 [1:14:32<21:19,  2.02it/s] 76%|███████▌  | 8096/10682 [1:14:32<21:18,  2.02it/s] 76%|███████▌  | 8097/10682 [1:14:33<21:19,  2.02it/s] 76%|███████▌  | 8098/10682 [1:14:33<21:17,  2.02it/s] 76%|███████▌  | 8099/10682 [1:14:34<21:18,  2.02it/s] 76%|███████▌  | 8100/10682 [1:14:34<21:16,  2.02it/s]                                                      {'loss': 3.0246, 'grad_norm': 0.26159611344337463, 'learning_rate': 0.00016769136599599017, 'epoch': 10.62}
- 76%|███████▌  | 8100/10682 [1:14:34<21:16,  2.02it/s] 76%|███████▌  | 8101/10682 [1:14:35<21:17,  2.02it/s] 76%|███████▌  | 8102/10682 [1:14:35<21:16,  2.02it/s] 76%|███████▌  | 8103/10682 [1:14:36<21:16,  2.02it/s] 76%|███████▌  | 8104/10682 [1:14:36<21:15,  2.02it/s] 76%|███████▌  | 8105/10682 [1:14:37<21:14,  2.02it/s] 76%|███████▌  | 8106/10682 [1:14:37<21:13,  2.02it/s] 76%|███████▌  | 8107/10682 [1:14:38<21:13,  2.02it/s] 76%|███████▌  | 8108/10682 [1:14:38<21:13,  2.02it/s] 76%|███████▌  | 8109/10682 [1:14:39<21:13,  2.02it/s] 76%|███████▌  | 8110/10682 [1:14:39<21:12,  2.02it/s] 76%|███████▌  | 8111/10682 [1:14:40<21:13,  2.02it/s] 76%|███████▌  | 8112/10682 [1:14:40<21:12,  2.02it/s] 76%|███████▌  | 8113/10682 [1:14:41<21:11,  2.02it/s] 76%|███████▌  | 8114/10682 [1:14:41<21:11,  2.02it/s] 76%|███████▌  | 8115/10682 [1:14:42<21:09,  2.02it/s] 76%|███████▌  | 8116/10682 [1:14:42<21:08,  2.02it/s] 76%|███████▌  | 8117/10682 [1:14:43<21:07,  2.02it/s] 76%|███████▌  | 8118/10682 [1:14:43<21:08,  2.02it/s] 76%|███████▌  | 8119/10682 [1:14:44<21:07,  2.02it/s] 76%|███████▌  | 8120/10682 [1:14:44<21:06,  2.02it/s] 76%|███████▌  | 8121/10682 [1:14:45<21:04,  2.02it/s] 76%|███████▌  | 8122/10682 [1:14:45<21:06,  2.02it/s] 76%|███████▌  | 8123/10682 [1:14:46<21:05,  2.02it/s] 76%|███████▌  | 8124/10682 [1:14:46<21:05,  2.02it/s] 76%|███████▌  | 8125/10682 [1:14:47<21:04,  2.02it/s]                                                      {'loss': 3.0414, 'grad_norm': 0.25558042526245117, 'learning_rate': 0.0001646501820129766, 'epoch': 10.65}
- 76%|███████▌  | 8125/10682 [1:14:47<21:04,  2.02it/s] 76%|███████▌  | 8126/10682 [1:14:47<21:06,  2.02it/s] 76%|███████▌  | 8127/10682 [1:14:48<21:03,  2.02it/s] 76%|███████▌  | 8128/10682 [1:14:48<21:03,  2.02it/s] 76%|███████▌  | 8129/10682 [1:14:49<21:02,  2.02it/s] 76%|███████▌  | 8130/10682 [1:14:49<21:03,  2.02it/s] 76%|███████▌  | 8131/10682 [1:14:50<21:00,  2.02it/s] 76%|███████▌  | 8132/10682 [1:14:50<21:01,  2.02it/s] 76%|███████▌  | 8133/10682 [1:14:51<20:59,  2.02it/s] 76%|███████▌  | 8134/10682 [1:14:51<20:59,  2.02it/s] 76%|███████▌  | 8135/10682 [1:14:52<20:58,  2.02it/s] 76%|███████▌  | 8136/10682 [1:14:52<20:58,  2.02it/s] 76%|███████▌  | 8137/10682 [1:14:53<20:57,  2.02it/s] 76%|███████▌  | 8138/10682 [1:14:53<20:56,  2.02it/s] 76%|███████▌  | 8139/10682 [1:14:54<20:56,  2.02it/s] 76%|███████▌  | 8140/10682 [1:14:54<20:53,  2.03it/s] 76%|███████▌  | 8141/10682 [1:14:55<20:54,  2.03it/s] 76%|███████▌  | 8142/10682 [1:14:55<20:53,  2.03it/s] 76%|███████▌  | 8143/10682 [1:14:56<20:53,  2.03it/s] 76%|███████▌  | 8144/10682 [1:14:56<20:53,  2.03it/s] 76%|███████▌  | 8145/10682 [1:14:57<20:52,  2.02it/s] 76%|███████▋  | 8146/10682 [1:14:57<20:53,  2.02it/s] 76%|███████▋  | 8147/10682 [1:14:58<20:53,  2.02it/s] 76%|███████▋  | 8148/10682 [1:14:58<20:53,  2.02it/s] 76%|███████▋  | 8149/10682 [1:14:59<20:52,  2.02it/s] 76%|███████▋  | 8150/10682 [1:14:59<20:51,  2.02it/s]                                                      {'loss': 3.0342, 'grad_norm': 0.2538228929042816, 'learning_rate': 0.00016163138305256598, 'epoch': 10.68}
- 76%|███████▋  | 8150/10682 [1:14:59<20:51,  2.02it/s] 76%|███████▋  | 8151/10682 [1:15:00<20:52,  2.02it/s] 76%|███████▋  | 8152/10682 [1:15:00<20:51,  2.02it/s] 76%|███████▋  | 8153/10682 [1:15:01<20:50,  2.02it/s] 76%|███████▋  | 8154/10682 [1:15:01<20:49,  2.02it/s] 76%|███████▋  | 8155/10682 [1:15:02<20:48,  2.02it/s] 76%|███████▋  | 8156/10682 [1:15:02<20:48,  2.02it/s] 76%|███████▋  | 8157/10682 [1:15:03<20:47,  2.02it/s] 76%|███████▋  | 8158/10682 [1:15:03<20:46,  2.02it/s] 76%|███████▋  | 8159/10682 [1:15:04<20:46,  2.02it/s] 76%|███████▋  | 8160/10682 [1:15:04<20:46,  2.02it/s] 76%|███████▋  | 8161/10682 [1:15:05<20:44,  2.02it/s] 76%|███████▋  | 8162/10682 [1:15:05<20:45,  2.02it/s] 76%|███████▋  | 8163/10682 [1:15:06<20:43,  2.03it/s] 76%|███████▋  | 8164/10682 [1:15:06<20:43,  2.02it/s] 76%|███████▋  | 8165/10682 [1:15:07<20:44,  2.02it/s] 76%|███████▋  | 8166/10682 [1:15:07<20:43,  2.02it/s] 76%|███████▋  | 8167/10682 [1:15:08<20:42,  2.02it/s] 76%|███████▋  | 8168/10682 [1:15:08<20:41,  2.03it/s] 76%|███████▋  | 8169/10682 [1:15:09<20:41,  2.02it/s] 76%|███████▋  | 8170/10682 [1:15:09<20:40,  2.02it/s] 76%|███████▋  | 8171/10682 [1:15:10<20:40,  2.02it/s] 77%|███████▋  | 8172/10682 [1:15:10<20:39,  2.02it/s] 77%|███████▋  | 8173/10682 [1:15:11<20:39,  2.02it/s] 77%|███████▋  | 8174/10682 [1:15:11<20:39,  2.02it/s] 77%|███████▋  | 8175/10682 [1:15:12<20:38,  2.02it/s]                                                      {'loss': 3.0349, 'grad_norm': 0.2547537386417389, 'learning_rate': 0.00015863517062339038, 'epoch': 10.71}
- 77%|███████▋  | 8175/10682 [1:15:12<20:38,  2.02it/s] 77%|███████▋  | 8176/10682 [1:15:12<20:39,  2.02it/s] 77%|███████▋  | 8177/10682 [1:15:12<20:38,  2.02it/s] 77%|███████▋  | 8178/10682 [1:15:13<20:37,  2.02it/s] 77%|███████▋  | 8179/10682 [1:15:13<20:36,  2.02it/s] 77%|███████▋  | 8180/10682 [1:15:14<20:37,  2.02it/s] 77%|███████▋  | 8181/10682 [1:15:14<20:36,  2.02it/s] 77%|███████▋  | 8182/10682 [1:15:15<20:36,  2.02it/s] 77%|███████▋  | 8183/10682 [1:15:15<20:34,  2.02it/s] 77%|███████▋  | 8184/10682 [1:15:16<20:34,  2.02it/s] 77%|███████▋  | 8185/10682 [1:15:16<20:32,  2.03it/s] 77%|███████▋  | 8186/10682 [1:15:17<20:33,  2.02it/s] 77%|███████▋  | 8187/10682 [1:15:17<20:32,  2.02it/s] 77%|███████▋  | 8188/10682 [1:15:18<20:31,  2.02it/s] 77%|███████▋  | 8189/10682 [1:15:18<20:31,  2.03it/s] 77%|███████▋  | 8190/10682 [1:15:19<20:30,  2.02it/s] 77%|███████▋  | 8191/10682 [1:15:19<20:31,  2.02it/s] 77%|███████▋  | 8192/10682 [1:15:20<20:32,  2.02it/s] 77%|███████▋  | 8193/10682 [1:15:20<20:31,  2.02it/s] 77%|███████▋  | 8194/10682 [1:15:21<20:30,  2.02it/s] 77%|███████▋  | 8195/10682 [1:15:21<20:30,  2.02it/s] 77%|███████▋  | 8196/10682 [1:15:22<20:29,  2.02it/s] 77%|███████▋  | 8197/10682 [1:15:22<20:28,  2.02it/s] 77%|███████▋  | 8198/10682 [1:15:23<20:28,  2.02it/s] 77%|███████▋  | 8199/10682 [1:15:24<22:15,  1.86it/s] 77%|███████▋  | 8200/10682 [1:15:24<21:44,  1.90it/s]                                                      {'loss': 3.0332, 'grad_norm': 0.2539041340351105, 'learning_rate': 0.00015566174472640188, 'epoch': 10.75}
- 77%|███████▋  | 8200/10682 [1:15:24<21:44,  1.90it/s] 77%|███████▋  | 8201/10682 [1:15:25<21:22,  1.93it/s] 77%|███████▋  | 8202/10682 [1:15:25<21:05,  1.96it/s] 77%|███████▋  | 8203/10682 [1:15:26<20:53,  1.98it/s] 77%|███████▋  | 8204/10682 [1:15:26<20:45,  1.99it/s] 77%|███████▋  | 8205/10682 [1:15:26<20:38,  2.00it/s] 77%|███████▋  | 8206/10682 [1:15:27<20:34,  2.01it/s] 77%|███████▋  | 8207/10682 [1:15:27<20:30,  2.01it/s] 77%|███████▋  | 8208/10682 [1:15:28<20:28,  2.01it/s] 77%|███████▋  | 8209/10682 [1:15:28<20:26,  2.02it/s] 77%|███████▋  | 8210/10682 [1:15:29<20:25,  2.02it/s] 77%|███████▋  | 8211/10682 [1:15:29<20:23,  2.02it/s] 77%|███████▋  | 8212/10682 [1:15:30<20:22,  2.02it/s] 77%|███████▋  | 8213/10682 [1:15:30<20:22,  2.02it/s] 77%|███████▋  | 8214/10682 [1:15:31<20:21,  2.02it/s] 77%|███████▋  | 8215/10682 [1:15:31<20:20,  2.02it/s] 77%|███████▋  | 8216/10682 [1:15:32<20:20,  2.02it/s] 77%|███████▋  | 8217/10682 [1:15:32<20:19,  2.02it/s] 77%|███████▋  | 8218/10682 [1:15:33<20:19,  2.02it/s] 77%|███████▋  | 8219/10682 [1:15:33<20:18,  2.02it/s] 77%|███████▋  | 8220/10682 [1:15:34<20:18,  2.02it/s] 77%|███████▋  | 8221/10682 [1:15:34<20:17,  2.02it/s] 77%|███████▋  | 8222/10682 [1:15:35<20:17,  2.02it/s] 77%|███████▋  | 8223/10682 [1:15:35<20:16,  2.02it/s] 77%|███████▋  | 8224/10682 [1:15:36<20:16,  2.02it/s] 77%|███████▋  | 8225/10682 [1:15:36<20:13,  2.02it/s]                                                      {'loss': 3.0355, 'grad_norm': 0.2559235990047455, 'learning_rate': 0.0001527113038415231, 'epoch': 10.78}
- 77%|███████▋  | 8225/10682 [1:15:36<20:13,  2.02it/s] 77%|███████▋  | 8226/10682 [1:15:37<20:15,  2.02it/s] 77%|███████▋  | 8227/10682 [1:15:37<20:13,  2.02it/s] 77%|███████▋  | 8228/10682 [1:15:38<20:13,  2.02it/s] 77%|███████▋  | 8229/10682 [1:15:38<20:12,  2.02it/s] 77%|███████▋  | 8230/10682 [1:15:39<20:11,  2.02it/s] 77%|███████▋  | 8231/10682 [1:15:39<20:11,  2.02it/s] 77%|███████▋  | 8232/10682 [1:15:40<20:10,  2.02it/s] 77%|███████▋  | 8233/10682 [1:15:40<20:10,  2.02it/s] 77%|███████▋  | 8234/10682 [1:15:41<20:10,  2.02it/s] 77%|███████▋  | 8235/10682 [1:15:41<20:11,  2.02it/s] 77%|███████▋  | 8236/10682 [1:15:42<20:09,  2.02it/s] 77%|███████▋  | 8237/10682 [1:15:42<20:09,  2.02it/s] 77%|███████▋  | 8238/10682 [1:15:43<20:09,  2.02it/s] 77%|███████▋  | 8239/10682 [1:15:43<20:07,  2.02it/s] 77%|███████▋  | 8240/10682 [1:15:44<20:08,  2.02it/s] 77%|███████▋  | 8241/10682 [1:15:44<20:07,  2.02it/s] 77%|███████▋  | 8242/10682 [1:15:45<20:07,  2.02it/s] 77%|███████▋  | 8243/10682 [1:15:45<20:07,  2.02it/s] 77%|███████▋  | 8244/10682 [1:15:46<20:07,  2.02it/s] 77%|███████▋  | 8245/10682 [1:15:46<20:06,  2.02it/s] 77%|███████▋  | 8246/10682 [1:15:47<20:06,  2.02it/s] 77%|███████▋  | 8247/10682 [1:15:47<20:05,  2.02it/s] 77%|███████▋  | 8248/10682 [1:15:48<20:04,  2.02it/s] 77%|███████▋  | 8249/10682 [1:15:48<20:03,  2.02it/s] 77%|███████▋  | 8250/10682 [1:15:49<20:04,  2.02it/s]                                                      {'loss': 3.0405, 'grad_norm': 0.25588804483413696, 'learning_rate': 0.00014978404491439802, 'epoch': 10.81}
- 77%|███████▋  | 8250/10682 [1:15:49<20:04,  2.02it/s] 77%|███████▋  | 8251/10682 [1:15:49<20:04,  2.02it/s] 77%|███████▋  | 8252/10682 [1:15:50<20:03,  2.02it/s] 77%|███████▋  | 8253/10682 [1:15:50<20:01,  2.02it/s] 77%|███████▋  | 8254/10682 [1:15:51<20:01,  2.02it/s] 77%|███████▋  | 8255/10682 [1:15:51<20:00,  2.02it/s] 77%|███████▋  | 8256/10682 [1:15:52<20:00,  2.02it/s] 77%|███████▋  | 8257/10682 [1:15:52<19:59,  2.02it/s] 77%|███████▋  | 8258/10682 [1:15:53<19:59,  2.02it/s] 77%|███████▋  | 8259/10682 [1:15:53<19:57,  2.02it/s] 77%|███████▋  | 8260/10682 [1:15:54<19:57,  2.02it/s] 77%|███████▋  | 8261/10682 [1:15:54<19:56,  2.02it/s] 77%|███████▋  | 8262/10682 [1:15:55<19:57,  2.02it/s] 77%|███████▋  | 8263/10682 [1:15:55<19:55,  2.02it/s] 77%|███████▋  | 8264/10682 [1:15:56<19:55,  2.02it/s] 77%|███████▋  | 8265/10682 [1:15:56<19:54,  2.02it/s] 77%|███████▋  | 8266/10682 [1:15:57<19:56,  2.02it/s] 77%|███████▋  | 8267/10682 [1:15:57<19:53,  2.02it/s] 77%|███████▋  | 8268/10682 [1:15:58<19:53,  2.02it/s] 77%|███████▋  | 8269/10682 [1:15:58<19:51,  2.02it/s] 77%|███████▋  | 8270/10682 [1:15:59<19:52,  2.02it/s] 77%|███████▋  | 8271/10682 [1:15:59<19:50,  2.02it/s] 77%|███████▋  | 8272/10682 [1:16:00<19:52,  2.02it/s] 77%|███████▋  | 8273/10682 [1:16:00<19:50,  2.02it/s] 77%|███████▋  | 8274/10682 [1:16:01<19:51,  2.02it/s] 77%|███████▋  | 8275/10682 [1:16:01<19:49,  2.02it/s]                                                      {'loss': 3.0384, 'grad_norm': 0.25301873683929443, 'learning_rate': 0.00014688016334324605, 'epoch': 10.85}
- 77%|███████▋  | 8275/10682 [1:16:01<19:49,  2.02it/s] 77%|███████▋  | 8276/10682 [1:16:02<19:51,  2.02it/s] 77%|███████▋  | 8277/10682 [1:16:02<19:49,  2.02it/s] 77%|███████▋  | 8278/10682 [1:16:03<19:49,  2.02it/s] 78%|███████▊  | 8279/10682 [1:16:03<19:47,  2.02it/s] 78%|███████▊  | 8280/10682 [1:16:04<19:47,  2.02it/s] 78%|███████▊  | 8281/10682 [1:16:04<19:46,  2.02it/s] 78%|███████▊  | 8282/10682 [1:16:05<19:45,  2.02it/s] 78%|███████▊  | 8283/10682 [1:16:05<19:44,  2.02it/s] 78%|███████▊  | 8284/10682 [1:16:06<19:44,  2.03it/s] 78%|███████▊  | 8285/10682 [1:16:06<19:43,  2.02it/s] 78%|███████▊  | 8286/10682 [1:16:07<19:43,  2.02it/s] 78%|███████▊  | 8287/10682 [1:16:07<19:43,  2.02it/s] 78%|███████▊  | 8288/10682 [1:16:08<19:43,  2.02it/s] 78%|███████▊  | 8289/10682 [1:16:08<19:43,  2.02it/s] 78%|███████▊  | 8290/10682 [1:16:09<21:23,  1.86it/s] 78%|███████▊  | 8291/10682 [1:16:09<20:53,  1.91it/s] 78%|███████▊  | 8292/10682 [1:16:10<20:32,  1.94it/s] 78%|███████▊  | 8293/10682 [1:16:10<20:17,  1.96it/s] 78%|███████▊  | 8294/10682 [1:16:11<20:05,  1.98it/s] 78%|███████▊  | 8295/10682 [1:16:11<19:57,  1.99it/s] 78%|███████▊  | 8296/10682 [1:16:12<19:51,  2.00it/s] 78%|███████▊  | 8297/10682 [1:16:12<19:47,  2.01it/s] 78%|███████▊  | 8298/10682 [1:16:13<19:44,  2.01it/s] 78%|███████▊  | 8299/10682 [1:16:13<19:42,  2.02it/s] 78%|███████▊  | 8300/10682 [1:16:14<19:40,  2.02it/s]{'loss': 3.0287, 'grad_norm': 0.25077536702156067, 'learning_rate': 0.00014399985296581835, 'epoch': 10.88}
-                                                       78%|███████▊  | 8300/10682 [1:16:14<19:40,  2.02it/s] 78%|███████▊  | 8301/10682 [1:16:14<19:41,  2.02it/s] 78%|███████▊  | 8302/10682 [1:16:15<19:39,  2.02it/s] 78%|███████▊  | 8303/10682 [1:16:15<19:38,  2.02it/s] 78%|███████▊  | 8304/10682 [1:16:16<19:37,  2.02it/s] 78%|███████▊  | 8305/10682 [1:16:16<19:36,  2.02it/s] 78%|███████▊  | 8306/10682 [1:16:17<19:34,  2.02it/s] 78%|███████▊  | 8307/10682 [1:16:17<19:35,  2.02it/s] 78%|███████▊  | 8308/10682 [1:16:18<19:33,  2.02it/s] 78%|███████▊  | 8309/10682 [1:16:18<19:33,  2.02it/s] 78%|███████▊  | 8310/10682 [1:16:19<19:32,  2.02it/s] 78%|███████▊  | 8311/10682 [1:16:19<19:33,  2.02it/s] 78%|███████▊  | 8312/10682 [1:16:20<19:31,  2.02it/s] 78%|███████▊  | 8313/10682 [1:16:20<19:31,  2.02it/s] 78%|███████▊  | 8314/10682 [1:16:21<19:30,  2.02it/s] 78%|███████▊  | 8315/10682 [1:16:21<19:29,  2.02it/s] 78%|███████▊  | 8316/10682 [1:16:22<19:29,  2.02it/s] 78%|███████▊  | 8317/10682 [1:16:22<19:28,  2.02it/s] 78%|███████▊  | 8318/10682 [1:16:23<19:28,  2.02it/s] 78%|███████▊  | 8319/10682 [1:16:23<19:27,  2.02it/s] 78%|███████▊  | 8320/10682 [1:16:24<19:28,  2.02it/s] 78%|███████▊  | 8321/10682 [1:16:24<19:27,  2.02it/s] 78%|███████▊  | 8322/10682 [1:16:24<19:27,  2.02it/s] 78%|███████▊  | 8323/10682 [1:16:25<19:25,  2.02it/s] 78%|███████▊  | 8324/10682 [1:16:25<19:25,  2.02it/s] 78%|███████▊  | 8325/10682 [1:16:26<19:24,  2.02it/s]                                                      {'loss': 3.0479, 'grad_norm': 0.2607930600643158, 'learning_rate': 0.00014114330604645943, 'epoch': 10.91}
- 78%|███████▊  | 8325/10682 [1:16:26<19:24,  2.02it/s] 78%|███████▊  | 8326/10682 [1:16:26<19:25,  2.02it/s] 78%|███████▊  | 8327/10682 [1:16:27<19:25,  2.02it/s] 78%|███████▊  | 8328/10682 [1:16:27<19:24,  2.02it/s] 78%|███████▊  | 8329/10682 [1:16:28<19:23,  2.02it/s] 78%|███████▊  | 8330/10682 [1:16:28<19:22,  2.02it/s] 78%|███████▊  | 8331/10682 [1:16:29<19:22,  2.02it/s] 78%|███████▊  | 8332/10682 [1:16:29<19:21,  2.02it/s] 78%|███████▊  | 8333/10682 [1:16:30<19:21,  2.02it/s] 78%|███████▊  | 8334/10682 [1:16:30<19:20,  2.02it/s] 78%|███████▊  | 8335/10682 [1:16:31<19:20,  2.02it/s] 78%|███████▊  | 8336/10682 [1:16:31<19:19,  2.02it/s] 78%|███████▊  | 8337/10682 [1:16:32<19:20,  2.02it/s] 78%|███████▊  | 8338/10682 [1:16:32<19:17,  2.02it/s] 78%|███████▊  | 8339/10682 [1:16:33<19:18,  2.02it/s] 78%|███████▊  | 8340/10682 [1:16:33<19:16,  2.02it/s] 78%|███████▊  | 8341/10682 [1:16:34<19:17,  2.02it/s] 78%|███████▊  | 8342/10682 [1:16:34<19:15,  2.02it/s] 78%|███████▊  | 8343/10682 [1:16:35<19:16,  2.02it/s] 78%|███████▊  | 8344/10682 [1:16:35<19:14,  2.03it/s] 78%|███████▊  | 8345/10682 [1:16:36<19:15,  2.02it/s] 78%|███████▊  | 8346/10682 [1:16:36<19:14,  2.02it/s] 78%|███████▊  | 8347/10682 [1:16:37<19:14,  2.02it/s] 78%|███████▊  | 8348/10682 [1:16:37<19:13,  2.02it/s] 78%|███████▊  | 8349/10682 [1:16:38<19:12,  2.02it/s] 78%|███████▊  | 8350/10682 [1:16:38<19:12,  2.02it/s]                                                      {'loss': 3.0506, 'grad_norm': 0.25732260942459106, 'learning_rate': 0.00013831071326327282, 'epoch': 10.94}
- 78%|███████▊  | 8350/10682 [1:16:38<19:12,  2.02it/s] 78%|███████▊  | 8351/10682 [1:16:39<19:14,  2.02it/s] 78%|███████▊  | 8352/10682 [1:16:39<19:13,  2.02it/s] 78%|███████▊  | 8353/10682 [1:16:40<19:12,  2.02it/s] 78%|███████▊  | 8354/10682 [1:16:40<19:11,  2.02it/s] 78%|███████▊  | 8355/10682 [1:16:41<19:11,  2.02it/s] 78%|███████▊  | 8356/10682 [1:16:41<19:10,  2.02it/s] 78%|███████▊  | 8357/10682 [1:16:42<19:10,  2.02it/s] 78%|███████▊  | 8358/10682 [1:16:42<19:09,  2.02it/s] 78%|███████▊  | 8359/10682 [1:16:43<19:09,  2.02it/s] 78%|███████▊  | 8360/10682 [1:16:43<19:08,  2.02it/s] 78%|███████▊  | 8361/10682 [1:16:44<19:08,  2.02it/s] 78%|███████▊  | 8362/10682 [1:16:44<19:07,  2.02it/s] 78%|███████▊  | 8363/10682 [1:16:45<19:06,  2.02it/s] 78%|███████▊  | 8364/10682 [1:16:45<19:07,  2.02it/s] 78%|███████▊  | 8365/10682 [1:16:46<19:06,  2.02it/s] 78%|███████▊  | 8366/10682 [1:16:46<19:05,  2.02it/s] 78%|███████▊  | 8367/10682 [1:16:47<19:04,  2.02it/s] 78%|███████▊  | 8368/10682 [1:16:47<19:04,  2.02it/s] 78%|███████▊  | 8369/10682 [1:16:48<19:04,  2.02it/s] 78%|███████▊  | 8370/10682 [1:16:48<19:03,  2.02it/s] 78%|███████▊  | 8371/10682 [1:16:49<19:03,  2.02it/s] 78%|███████▊  | 8372/10682 [1:16:49<19:02,  2.02it/s] 78%|███████▊  | 8373/10682 [1:16:50<19:02,  2.02it/s] 78%|███████▊  | 8374/10682 [1:16:50<19:02,  2.02it/s] 78%|███████▊  | 8375/10682 [1:16:51<19:02,  2.02it/s]{'loss': 3.0345, 'grad_norm': 0.25098735094070435, 'learning_rate': 0.0001355022636953933, 'epoch': 10.98}                                                      
- 78%|███████▊  | 8375/10682 [1:16:51<19:02,  2.02it/s] 78%|███████▊  | 8376/10682 [1:16:51<19:01,  2.02it/s] 78%|███████▊  | 8377/10682 [1:16:52<19:01,  2.02it/s] 78%|███████▊  | 8378/10682 [1:16:52<18:59,  2.02it/s] 78%|███████▊  | 8379/10682 [1:16:53<18:59,  2.02it/s] 78%|███████▊  | 8380/10682 [1:16:53<18:58,  2.02it/s] 78%|███████▊  | 8381/10682 [1:16:54<18:57,  2.02it/s] 78%|███████▊  | 8382/10682 [1:16:54<18:56,  2.02it/s] 78%|███████▊  | 8383/10682 [1:16:55<18:55,  2.03it/s] 78%|███████▊  | 8384/10682 [1:16:55<18:55,  2.02it/s] 78%|███████▊  | 8385/10682 [1:16:56<18:53,  2.03it/s] 79%|███████▊  | 8386/10682 [1:16:56<18:54,  2.02it/s] 79%|███████▊  | 8387/10682 [1:16:57<18:53,  2.03it/s] 79%|███████▊  | 8388/10682 [1:16:57<18:54,  2.02it/s] 79%|███████▊  | 8389/10682 [1:16:58<18:53,  2.02it/s] 79%|███████▊  | 8390/10682 [1:16:58<18:53,  2.02it/s] 79%|███████▊  | 8391/10682 [1:16:59<18:51,  2.02it/s] 79%|███████▊  | 8392/10682 [1:16:59<18:52,  2.02it/s] 79%|███████▊  | 8393/10682 [1:17:00<18:39,  2.04it/s] 79%|███████▊  | 8394/10682 [1:17:42<8:16:23, 13.02s/it] 79%|███████▊  | 8395/10682 [1:17:42<5:52:57,  9.26s/it] 79%|███████▊  | 8396/10682 [1:17:43<4:12:41,  6.63s/it] 79%|███████▊  | 8397/10682 [1:17:43<3:02:26,  4.79s/it] 79%|███████▊  | 8398/10682 [1:17:44<2:13:26,  3.51s/it] 79%|███████▊  | 8399/10682 [1:17:44<1:39:00,  2.60s/it] 79%|███████▊  | 8400/10682 [1:17:45<1:14:55,  1.97s/it]                                                        {'loss': 3.0032, 'grad_norm': 0.2537343204021454, 'learning_rate': 0.0001327181448103661, 'epoch': 11.01}
- 79%|███████▊  | 8400/10682 [1:17:45<1:14:55,  1.97s/it] 79%|███████▊  | 8401/10682 [1:17:45<58:04,  1.53s/it]   79%|███████▊  | 8402/10682 [1:17:46<46:23,  1.22s/it] 79%|███████▊  | 8403/10682 [1:17:46<38:11,  1.01s/it] 79%|███████▊  | 8404/10682 [1:17:47<32:22,  1.17it/s] 79%|███████▊  | 8405/10682 [1:17:47<28:16,  1.34it/s] 79%|███████▊  | 8406/10682 [1:17:48<25:25,  1.49it/s] 79%|███████▊  | 8407/10682 [1:17:48<23:25,  1.62it/s] 79%|███████▊  | 8408/10682 [1:17:49<21:59,  1.72it/s] 79%|███████▊  | 8409/10682 [1:17:49<21:00,  1.80it/s] 79%|███████▊  | 8410/10682 [1:17:50<20:18,  1.86it/s] 79%|███████▊  | 8411/10682 [1:17:50<19:49,  1.91it/s] 79%|███████▊  | 8412/10682 [1:17:51<19:28,  1.94it/s] 79%|███████▉  | 8413/10682 [1:17:51<19:15,  1.96it/s] 79%|███████▉  | 8414/10682 [1:17:52<19:04,  1.98it/s] 79%|███████▉  | 8415/10682 [1:17:52<18:57,  1.99it/s] 79%|███████▉  | 8416/10682 [1:17:53<18:50,  2.00it/s] 79%|███████▉  | 8417/10682 [1:17:53<18:50,  2.00it/s] 79%|███████▉  | 8418/10682 [1:17:54<18:47,  2.01it/s] 79%|███████▉  | 8419/10682 [1:17:54<18:45,  2.01it/s] 79%|███████▉  | 8420/10682 [1:17:55<18:44,  2.01it/s] 79%|███████▉  | 8421/10682 [1:17:55<18:44,  2.01it/s] 79%|███████▉  | 8422/10682 [1:17:56<18:41,  2.02it/s] 79%|███████▉  | 8423/10682 [1:17:56<18:40,  2.02it/s] 79%|███████▉  | 8424/10682 [1:17:57<18:37,  2.02it/s] 79%|███████▉  | 8425/10682 [1:17:57<18:38,  2.02it/s]{'loss': 2.9325, 'grad_norm': 0.25924304127693176, 'learning_rate': 0.00012995854245163207, 'epoch': 11.04}
-                                                       79%|███████▉  | 8425/10682 [1:17:57<18:38,  2.02it/s] 79%|███████▉  | 8426/10682 [1:17:58<18:44,  2.01it/s] 79%|███████▉  | 8427/10682 [1:17:58<18:42,  2.01it/s] 79%|███████▉  | 8428/10682 [1:17:59<18:39,  2.01it/s] 79%|███████▉  | 8429/10682 [1:17:59<18:37,  2.02it/s] 79%|███████▉  | 8430/10682 [1:18:00<18:36,  2.02it/s] 79%|███████▉  | 8431/10682 [1:18:00<18:34,  2.02it/s] 79%|███████▉  | 8432/10682 [1:18:01<18:32,  2.02it/s] 79%|███████▉  | 8433/10682 [1:18:01<18:32,  2.02it/s] 79%|███████▉  | 8434/10682 [1:18:02<18:30,  2.02it/s] 79%|███████▉  | 8435/10682 [1:18:02<18:31,  2.02it/s] 79%|███████▉  | 8436/10682 [1:18:03<18:29,  2.02it/s] 79%|███████▉  | 8437/10682 [1:18:03<18:30,  2.02it/s] 79%|███████▉  | 8438/10682 [1:18:04<18:29,  2.02it/s] 79%|███████▉  | 8439/10682 [1:18:04<18:30,  2.02it/s] 79%|███████▉  | 8440/10682 [1:18:05<18:28,  2.02it/s] 79%|███████▉  | 8441/10682 [1:18:05<18:29,  2.02it/s] 79%|███████▉  | 8442/10682 [1:18:06<18:28,  2.02it/s] 79%|███████▉  | 8443/10682 [1:18:06<18:28,  2.02it/s] 79%|███████▉  | 8444/10682 [1:18:07<18:25,  2.02it/s] 79%|███████▉  | 8445/10682 [1:18:07<18:26,  2.02it/s] 79%|███████▉  | 8446/10682 [1:18:08<18:25,  2.02it/s] 79%|███████▉  | 8447/10682 [1:18:08<18:25,  2.02it/s] 79%|███████▉  | 8448/10682 [1:18:09<18:23,  2.02it/s] 79%|███████▉  | 8449/10682 [1:18:09<18:23,  2.02it/s] 79%|███████▉  | 8450/10682 [1:18:10<18:22,  2.02it/s]{'loss': 2.9558, 'grad_norm': 0.2614203691482544, 'learning_rate': 0.0001272236408261237, 'epoch': 11.07}
-                                                       79%|███████▉  | 8450/10682 [1:18:10<18:22,  2.02it/s] 79%|███████▉  | 8451/10682 [1:18:10<18:24,  2.02it/s] 79%|███████▉  | 8452/10682 [1:18:11<18:23,  2.02it/s] 79%|███████▉  | 8453/10682 [1:18:11<18:23,  2.02it/s] 79%|███████▉  | 8454/10682 [1:18:12<18:22,  2.02it/s] 79%|███████▉  | 8455/10682 [1:18:12<18:22,  2.02it/s] 79%|███████▉  | 8456/10682 [1:18:13<18:20,  2.02it/s] 79%|███████▉  | 8457/10682 [1:18:13<18:20,  2.02it/s] 79%|███████▉  | 8458/10682 [1:18:14<18:19,  2.02it/s] 79%|███████▉  | 8459/10682 [1:18:14<18:19,  2.02it/s] 79%|███████▉  | 8460/10682 [1:18:15<18:17,  2.03it/s] 79%|███████▉  | 8461/10682 [1:18:15<18:17,  2.02it/s] 79%|███████▉  | 8462/10682 [1:18:16<18:17,  2.02it/s] 79%|███████▉  | 8463/10682 [1:18:16<18:17,  2.02it/s] 79%|███████▉  | 8464/10682 [1:18:17<18:15,  2.02it/s] 79%|███████▉  | 8465/10682 [1:18:17<18:16,  2.02it/s] 79%|███████▉  | 8466/10682 [1:18:17<18:14,  2.02it/s] 79%|███████▉  | 8467/10682 [1:18:18<18:15,  2.02it/s] 79%|███████▉  | 8468/10682 [1:18:18<18:13,  2.02it/s] 79%|███████▉  | 8469/10682 [1:18:19<18:14,  2.02it/s] 79%|███████▉  | 8470/10682 [1:18:19<18:13,  2.02it/s] 79%|███████▉  | 8471/10682 [1:18:20<18:13,  2.02it/s] 79%|███████▉  | 8472/10682 [1:18:20<18:12,  2.02it/s] 79%|███████▉  | 8473/10682 [1:18:21<18:12,  2.02it/s] 79%|███████▉  | 8474/10682 [1:18:21<18:11,  2.02it/s] 79%|███████▉  | 8475/10682 [1:18:22<18:11,  2.02it/s]                                                      {'loss': 2.9514, 'grad_norm': 0.25613346695899963, 'learning_rate': 0.00012451362249196797, 'epoch': 11.11}
- 79%|███████▉  | 8475/10682 [1:18:22<18:11,  2.02it/s] 79%|███████▉  | 8476/10682 [1:18:22<18:11,  2.02it/s] 79%|███████▉  | 8477/10682 [1:18:23<18:11,  2.02it/s] 79%|███████▉  | 8478/10682 [1:18:23<18:10,  2.02it/s] 79%|███████▉  | 8479/10682 [1:18:24<18:09,  2.02it/s] 79%|███████▉  | 8480/10682 [1:18:24<18:09,  2.02it/s] 79%|███████▉  | 8481/10682 [1:18:25<18:08,  2.02it/s] 79%|███████▉  | 8482/10682 [1:18:25<18:08,  2.02it/s] 79%|███████▉  | 8483/10682 [1:18:26<18:06,  2.02it/s] 79%|███████▉  | 8484/10682 [1:18:26<18:06,  2.02it/s] 79%|███████▉  | 8485/10682 [1:18:27<18:05,  2.02it/s] 79%|███████▉  | 8486/10682 [1:18:27<18:06,  2.02it/s] 79%|███████▉  | 8487/10682 [1:18:28<18:04,  2.02it/s] 79%|███████▉  | 8488/10682 [1:18:28<18:05,  2.02it/s] 79%|███████▉  | 8489/10682 [1:18:29<18:03,  2.02it/s] 79%|███████▉  | 8490/10682 [1:18:29<18:03,  2.02it/s] 79%|███████▉  | 8491/10682 [1:18:30<18:02,  2.02it/s] 79%|███████▉  | 8492/10682 [1:18:30<18:01,  2.02it/s] 80%|███████▉  | 8493/10682 [1:18:31<18:01,  2.02it/s] 80%|███████▉  | 8494/10682 [1:18:31<17:59,  2.03it/s] 80%|███████▉  | 8495/10682 [1:18:32<18:00,  2.02it/s] 80%|███████▉  | 8496/10682 [1:18:32<17:59,  2.02it/s] 80%|███████▉  | 8497/10682 [1:18:33<18:00,  2.02it/s] 80%|███████▉  | 8498/10682 [1:18:33<17:58,  2.02it/s] 80%|███████▉  | 8499/10682 [1:18:34<17:59,  2.02it/s] 80%|███████▉  | 8500/10682 [1:18:34<17:57,  2.03it/s]                                                      {'loss': 2.9567, 'grad_norm': 0.255291223526001, 'learning_rate': 0.00012182866834630096, 'epoch': 11.14}
- 80%|███████▉  | 8500/10682 [1:18:34<17:57,  2.03it/s] 80%|███████▉  | 8501/10682 [1:18:35<17:59,  2.02it/s] 80%|███████▉  | 8502/10682 [1:18:35<17:58,  2.02it/s] 80%|███████▉  | 8503/10682 [1:18:36<17:57,  2.02it/s] 80%|███████▉  | 8504/10682 [1:18:36<17:57,  2.02it/s] 80%|███████▉  | 8505/10682 [1:18:37<17:55,  2.02it/s] 80%|███████▉  | 8506/10682 [1:18:37<17:56,  2.02it/s] 80%|███████▉  | 8507/10682 [1:18:38<17:54,  2.02it/s] 80%|███████▉  | 8508/10682 [1:18:38<17:55,  2.02it/s] 80%|███████▉  | 8509/10682 [1:18:39<17:53,  2.02it/s] 80%|███████▉  | 8510/10682 [1:18:39<17:55,  2.02it/s] 80%|███████▉  | 8511/10682 [1:18:40<17:53,  2.02it/s] 80%|███████▉  | 8512/10682 [1:18:40<17:53,  2.02it/s] 80%|███████▉  | 8513/10682 [1:18:41<17:51,  2.02it/s] 80%|███████▉  | 8514/10682 [1:18:41<17:52,  2.02it/s] 80%|███████▉  | 8515/10682 [1:18:42<17:51,  2.02it/s] 80%|███████▉  | 8516/10682 [1:18:42<17:51,  2.02it/s] 80%|███████▉  | 8517/10682 [1:18:43<17:50,  2.02it/s] 80%|███████▉  | 8518/10682 [1:18:43<17:50,  2.02it/s] 80%|███████▉  | 8519/10682 [1:18:44<17:50,  2.02it/s] 80%|███████▉  | 8520/10682 [1:18:44<17:50,  2.02it/s] 80%|███████▉  | 8521/10682 [1:18:45<17:48,  2.02it/s] 80%|███████▉  | 8522/10682 [1:18:45<17:49,  2.02it/s] 80%|███████▉  | 8523/10682 [1:18:46<17:56,  2.00it/s] 80%|███████▉  | 8524/10682 [1:18:46<17:53,  2.01it/s] 80%|███████▉  | 8525/10682 [1:18:47<17:50,  2.01it/s]{'loss': 2.9586, 'grad_norm': 0.25578656792640686, 'learning_rate': 0.00011916895761319264, 'epoch': 11.17}
-                                                       80%|███████▉  | 8525/10682 [1:18:47<17:50,  2.01it/s] 80%|███████▉  | 8526/10682 [1:18:47<17:51,  2.01it/s] 80%|███████▉  | 8527/10682 [1:18:48<17:48,  2.02it/s] 80%|███████▉  | 8528/10682 [1:18:48<17:47,  2.02it/s] 80%|███████▉  | 8529/10682 [1:18:49<17:46,  2.02it/s] 80%|███████▉  | 8530/10682 [1:18:49<17:45,  2.02it/s] 80%|███████▉  | 8531/10682 [1:18:50<17:44,  2.02it/s] 80%|███████▉  | 8532/10682 [1:18:50<17:43,  2.02it/s] 80%|███████▉  | 8533/10682 [1:18:51<17:43,  2.02it/s] 80%|███████▉  | 8534/10682 [1:18:51<17:42,  2.02it/s] 80%|███████▉  | 8535/10682 [1:18:52<17:41,  2.02it/s] 80%|███████▉  | 8536/10682 [1:18:52<17:40,  2.02it/s] 80%|███████▉  | 8537/10682 [1:18:53<17:40,  2.02it/s] 80%|███████▉  | 8538/10682 [1:18:53<17:39,  2.02it/s] 80%|███████▉  | 8539/10682 [1:18:54<17:39,  2.02it/s] 80%|███████▉  | 8540/10682 [1:18:54<17:39,  2.02it/s] 80%|███████▉  | 8541/10682 [1:18:55<17:39,  2.02it/s] 80%|███████▉  | 8542/10682 [1:18:55<17:38,  2.02it/s] 80%|███████▉  | 8543/10682 [1:18:56<17:38,  2.02it/s] 80%|███████▉  | 8544/10682 [1:18:56<17:37,  2.02it/s] 80%|███████▉  | 8545/10682 [1:18:57<17:36,  2.02it/s] 80%|████████  | 8546/10682 [1:18:57<17:36,  2.02it/s] 80%|████████  | 8547/10682 [1:18:58<17:36,  2.02it/s] 80%|████████  | 8548/10682 [1:18:58<17:35,  2.02it/s] 80%|████████  | 8549/10682 [1:18:59<17:34,  2.02it/s] 80%|████████  | 8550/10682 [1:18:59<17:34,  2.02it/s]                                                      {'loss': 2.952, 'grad_norm': 0.2577686309814453, 'learning_rate': 0.0001165346678316832, 'epoch': 11.21}
- 80%|████████  | 8550/10682 [1:18:59<17:34,  2.02it/s] 80%|████████  | 8551/10682 [1:19:00<17:33,  2.02it/s] 80%|████████  | 8552/10682 [1:19:00<17:33,  2.02it/s] 80%|████████  | 8553/10682 [1:19:01<17:32,  2.02it/s] 80%|████████  | 8554/10682 [1:19:01<17:31,  2.02it/s] 80%|████████  | 8555/10682 [1:19:02<17:30,  2.02it/s] 80%|████████  | 8556/10682 [1:19:02<17:30,  2.02it/s] 80%|████████  | 8557/10682 [1:19:03<17:31,  2.02it/s] 80%|████████  | 8558/10682 [1:19:03<17:30,  2.02it/s] 80%|████████  | 8559/10682 [1:19:04<17:30,  2.02it/s] 80%|████████  | 8560/10682 [1:19:04<17:29,  2.02it/s] 80%|████████  | 8561/10682 [1:19:04<17:29,  2.02it/s] 80%|████████  | 8562/10682 [1:19:05<17:28,  2.02it/s] 80%|████████  | 8563/10682 [1:19:05<17:28,  2.02it/s] 80%|████████  | 8564/10682 [1:19:06<17:28,  2.02it/s] 80%|████████  | 8565/10682 [1:19:06<17:26,  2.02it/s] 80%|████████  | 8566/10682 [1:19:07<17:26,  2.02it/s] 80%|████████  | 8567/10682 [1:19:07<17:25,  2.02it/s] 80%|████████  | 8568/10682 [1:19:08<17:25,  2.02it/s] 80%|████████  | 8569/10682 [1:19:08<17:24,  2.02it/s] 80%|████████  | 8570/10682 [1:19:09<17:24,  2.02it/s] 80%|████████  | 8571/10682 [1:19:09<17:23,  2.02it/s] 80%|████████  | 8572/10682 [1:19:10<17:23,  2.02it/s] 80%|████████  | 8573/10682 [1:19:10<17:22,  2.02it/s] 80%|████████  | 8574/10682 [1:19:11<17:22,  2.02it/s] 80%|████████  | 8575/10682 [1:19:11<17:20,  2.02it/s]                                                      {'loss': 2.957, 'grad_norm': 0.26053518056869507, 'learning_rate': 0.00011392597484393285, 'epoch': 11.24}
- 80%|████████  | 8575/10682 [1:19:11<17:20,  2.02it/s] 80%|████████  | 8576/10682 [1:19:12<17:21,  2.02it/s] 80%|████████  | 8577/10682 [1:19:12<17:19,  2.02it/s] 80%|████████  | 8578/10682 [1:19:13<17:21,  2.02it/s] 80%|████████  | 8579/10682 [1:19:13<17:19,  2.02it/s] 80%|████████  | 8580/10682 [1:19:14<17:20,  2.02it/s] 80%|████████  | 8581/10682 [1:19:14<17:17,  2.02it/s] 80%|████████  | 8582/10682 [1:19:15<17:19,  2.02it/s] 80%|████████  | 8583/10682 [1:19:15<17:18,  2.02it/s] 80%|████████  | 8584/10682 [1:19:16<17:18,  2.02it/s] 80%|████████  | 8585/10682 [1:19:16<17:17,  2.02it/s] 80%|████████  | 8586/10682 [1:19:17<17:18,  2.02it/s] 80%|████████  | 8587/10682 [1:19:17<17:16,  2.02it/s] 80%|████████  | 8588/10682 [1:19:18<17:16,  2.02it/s] 80%|████████  | 8589/10682 [1:19:18<17:17,  2.02it/s] 80%|████████  | 8590/10682 [1:19:19<17:16,  2.02it/s] 80%|████████  | 8591/10682 [1:19:19<17:15,  2.02it/s] 80%|████████  | 8592/10682 [1:19:20<17:15,  2.02it/s] 80%|████████  | 8593/10682 [1:19:20<17:13,  2.02it/s] 80%|████████  | 8594/10682 [1:19:21<17:13,  2.02it/s] 80%|████████  | 8595/10682 [1:19:21<17:12,  2.02it/s] 80%|████████  | 8596/10682 [1:19:22<17:11,  2.02it/s] 80%|████████  | 8597/10682 [1:19:22<17:10,  2.02it/s] 80%|████████  | 8598/10682 [1:19:23<17:11,  2.02it/s] 80%|████████  | 8599/10682 [1:19:23<17:10,  2.02it/s] 81%|████████  | 8600/10682 [1:19:24<17:10,  2.02it/s]{'loss': 2.9546, 'grad_norm': 0.26004600524902344, 'learning_rate': 0.00011134305278348312, 'epoch': 11.27}
-                                                       81%|████████  | 8600/10682 [1:19:24<17:10,  2.02it/s] 81%|████████  | 8601/10682 [1:19:24<17:11,  2.02it/s] 81%|████████  | 8602/10682 [1:19:25<17:10,  2.02it/s] 81%|████████  | 8603/10682 [1:19:25<17:08,  2.02it/s] 81%|████████  | 8604/10682 [1:19:26<17:08,  2.02it/s] 81%|████████  | 8605/10682 [1:19:26<17:08,  2.02it/s] 81%|████████  | 8606/10682 [1:19:27<17:07,  2.02it/s] 81%|████████  | 8607/10682 [1:19:27<17:06,  2.02it/s] 81%|████████  | 8608/10682 [1:19:28<17:05,  2.02it/s] 81%|████████  | 8609/10682 [1:19:28<17:04,  2.02it/s] 81%|████████  | 8610/10682 [1:19:29<17:04,  2.02it/s] 81%|████████  | 8611/10682 [1:19:29<17:03,  2.02it/s] 81%|████████  | 8612/10682 [1:19:30<17:03,  2.02it/s] 81%|████████  | 8613/10682 [1:19:30<17:02,  2.02it/s] 81%|████████  | 8614/10682 [1:19:31<17:03,  2.02it/s] 81%|████████  | 8615/10682 [1:19:31<17:02,  2.02it/s] 81%|████████  | 8616/10682 [1:19:32<17:02,  2.02it/s] 81%|████████  | 8617/10682 [1:19:32<17:01,  2.02it/s] 81%|████████  | 8618/10682 [1:19:33<17:01,  2.02it/s] 81%|████████  | 8619/10682 [1:19:33<17:00,  2.02it/s] 81%|████████  | 8620/10682 [1:19:34<17:00,  2.02it/s] 81%|████████  | 8621/10682 [1:19:34<16:59,  2.02it/s] 81%|████████  | 8622/10682 [1:19:35<16:59,  2.02it/s] 81%|████████  | 8623/10682 [1:19:35<16:58,  2.02it/s] 81%|████████  | 8624/10682 [1:19:36<16:58,  2.02it/s] 81%|████████  | 8625/10682 [1:19:36<16:57,  2.02it/s]{'loss': 2.9657, 'grad_norm': 0.25812673568725586, 'learning_rate': 0.00010878607406363367, 'epoch': 11.3}
-                                                       81%|████████  | 8625/10682 [1:19:36<16:57,  2.02it/s] 81%|████████  | 8626/10682 [1:19:37<16:58,  2.02it/s] 81%|████████  | 8627/10682 [1:19:37<16:57,  2.02it/s] 81%|████████  | 8628/10682 [1:19:38<16:57,  2.02it/s] 81%|████████  | 8629/10682 [1:19:38<16:56,  2.02it/s] 81%|████████  | 8630/10682 [1:19:39<16:56,  2.02it/s] 81%|████████  | 8631/10682 [1:19:39<16:54,  2.02it/s] 81%|████████  | 8632/10682 [1:19:40<16:54,  2.02it/s] 81%|████████  | 8633/10682 [1:19:40<16:52,  2.02it/s] 81%|████████  | 8634/10682 [1:19:41<16:53,  2.02it/s] 81%|████████  | 8635/10682 [1:19:41<16:51,  2.02it/s] 81%|████████  | 8636/10682 [1:19:42<16:51,  2.02it/s] 81%|████████  | 8637/10682 [1:19:42<16:50,  2.02it/s] 81%|████████  | 8638/10682 [1:19:43<16:49,  2.02it/s] 81%|████████  | 8639/10682 [1:19:43<16:49,  2.02it/s] 81%|████████  | 8640/10682 [1:19:44<16:48,  2.02it/s] 81%|████████  | 8641/10682 [1:19:44<16:48,  2.02it/s] 81%|████████  | 8642/10682 [1:19:45<16:47,  2.02it/s] 81%|████████  | 8643/10682 [1:19:45<16:47,  2.02it/s] 81%|████████  | 8644/10682 [1:19:46<16:46,  2.02it/s] 81%|████████  | 8645/10682 [1:19:46<16:47,  2.02it/s] 81%|████████  | 8646/10682 [1:19:47<16:46,  2.02it/s] 81%|���███████  | 8647/10682 [1:19:47<16:46,  2.02it/s] 81%|████████  | 8648/10682 [1:19:48<16:45,  2.02it/s] 81%|████████  | 8649/10682 [1:19:48<16:45,  2.02it/s] 81%|████████  | 8650/10682 [1:19:49<16:44,  2.02it/s]                                                      {'loss': 2.9666, 'grad_norm': 0.25685223937034607, 'learning_rate': 0.00010625520936593375, 'epoch': 11.34}
- 81%|████████  | 8650/10682 [1:19:49<16:44,  2.02it/s] 81%|████████  | 8651/10682 [1:19:49<16:45,  2.02it/s] 81%|████████  | 8652/10682 [1:19:50<16:43,  2.02it/s] 81%|████████  | 8653/10682 [1:19:50<16:43,  2.02it/s] 81%|████████  | 8654/10682 [1:19:50<16:42,  2.02it/s] 81%|████████  | 8655/10682 [1:19:51<16:42,  2.02it/s] 81%|████████  | 8656/10682 [1:19:51<16:41,  2.02it/s] 81%|████████  | 8657/10682 [1:19:52<16:41,  2.02it/s] 81%|████████  | 8658/10682 [1:19:52<16:40,  2.02it/s] 81%|████████  | 8659/10682 [1:19:53<16:41,  2.02it/s] 81%|████████  | 8660/10682 [1:19:53<16:40,  2.02it/s] 81%|████████  | 8661/10682 [1:19:54<16:40,  2.02it/s] 81%|████████  | 8662/10682 [1:19:54<16:39,  2.02it/s] 81%|████████  | 8663/10682 [1:19:55<16:39,  2.02it/s] 81%|████████  | 8664/10682 [1:19:55<16:38,  2.02it/s] 81%|████████  | 8665/10682 [1:19:56<16:38,  2.02it/s] 81%|████████  | 8666/10682 [1:19:56<16:37,  2.02it/s] 81%|████████  | 8667/10682 [1:19:57<16:37,  2.02it/s] 81%|████████  | 8668/10682 [1:19:57<16:36,  2.02it/s] 81%|████████  | 8669/10682 [1:19:58<16:36,  2.02it/s] 81%|████████  | 8670/10682 [1:19:58<16:35,  2.02it/s] 81%|████████  | 8671/10682 [1:19:59<16:35,  2.02it/s] 81%|████████  | 8672/10682 [1:19:59<16:33,  2.02it/s] 81%|████████  | 8673/10682 [1:20:00<16:34,  2.02it/s] 81%|████████  | 8674/10682 [1:20:00<16:32,  2.02it/s] 81%|████████  | 8675/10682 [1:20:01<16:32,  2.02it/s]{'loss': 2.9703, 'grad_norm': 0.25881969928741455, 'learning_rate': 0.0001037506276287885, 'epoch': 11.37}                                                      
- 81%|████████  | 8675/10682 [1:20:01<16:32,  2.02it/s] 81%|████████  | 8676/10682 [1:20:01<16:32,  2.02it/s] 81%|████████  | 8677/10682 [1:20:02<16:32,  2.02it/s] 81%|████████  | 8678/10682 [1:20:02<16:30,  2.02it/s] 81%|████████  | 8679/10682 [1:20:03<16:31,  2.02it/s] 81%|████████▏ | 8680/10682 [1:20:03<16:29,  2.02it/s] 81%|████████▏ | 8681/10682 [1:20:04<16:29,  2.02it/s] 81%|████████▏ | 8682/10682 [1:20:04<16:28,  2.02it/s] 81%|████████▏ | 8683/10682 [1:20:05<16:29,  2.02it/s] 81%|████████▏ | 8684/10682 [1:20:05<16:27,  2.02it/s] 81%|████████▏ | 8685/10682 [1:20:06<16:28,  2.02it/s] 81%|████████▏ | 8686/10682 [1:20:06<16:26,  2.02it/s] 81%|████████▏ | 8687/10682 [1:20:07<16:25,  2.02it/s] 81%|████████▏ | 8688/10682 [1:20:07<16:25,  2.02it/s] 81%|████████▏ | 8689/10682 [1:20:08<16:25,  2.02it/s] 81%|████████▏ | 8690/10682 [1:20:08<16:25,  2.02it/s] 81%|████████▏ | 8691/10682 [1:20:09<16:23,  2.02it/s] 81%|████████▏ | 8692/10682 [1:20:09<16:24,  2.02it/s] 81%|████████▏ | 8693/10682 [1:20:10<16:23,  2.02it/s] 81%|████████▏ | 8694/10682 [1:20:10<16:23,  2.02it/s] 81%|████████▏ | 8695/10682 [1:20:11<16:22,  2.02it/s] 81%|████████▏ | 8696/10682 [1:20:11<16:23,  2.02it/s] 81%|████████▏ | 8697/10682 [1:20:12<16:22,  2.02it/s] 81%|████████▏ | 8698/10682 [1:20:12<16:21,  2.02it/s] 81%|████████▏ | 8699/10682 [1:20:13<16:21,  2.02it/s] 81%|████████▏ | 8700/10682 [1:20:13<16:20,  2.02it/s]                                                      {'loss': 2.9682, 'grad_norm': 0.2578412890434265, 'learning_rate': 0.0001012724960361826, 'epoch': 11.4}
- 81%|████████▏ | 8700/10682 [1:20:13<16:20,  2.02it/s] 81%|████████▏ | 8701/10682 [1:20:14<16:21,  2.02it/s] 81%|████████▏ | 8702/10682 [1:20:14<16:20,  2.02it/s] 81%|████████▏ | 8703/10682 [1:20:15<16:20,  2.02it/s] 81%|████████▏ | 8704/10682 [1:20:15<16:18,  2.02it/s] 81%|████████▏ | 8705/10682 [1:20:16<16:18,  2.02it/s] 82%|████████▏ | 8706/10682 [1:20:16<16:17,  2.02it/s] 82%|████████▏ | 8707/10682 [1:20:17<16:17,  2.02it/s] 82%|████████▏ | 8708/10682 [1:20:17<16:16,  2.02it/s] 82%|████████▏ | 8709/10682 [1:20:18<16:16,  2.02it/s] 82%|████████▏ | 8710/10682 [1:20:18<16:15,  2.02it/s] 82%|████████▏ | 8711/10682 [1:20:19<16:15,  2.02it/s] 82%|████████▏ | 8712/10682 [1:20:19<16:14,  2.02it/s] 82%|████████▏ | 8713/10682 [1:20:20<16:14,  2.02it/s] 82%|████████▏ | 8714/10682 [1:20:20<16:13,  2.02it/s] 82%|████████▏ | 8715/10682 [1:20:21<16:13,  2.02it/s] 82%|████████▏ | 8716/10682 [1:20:21<16:11,  2.02it/s] 82%|████████▏ | 8717/10682 [1:20:22<16:12,  2.02it/s] 82%|████████▏ | 8718/10682 [1:20:22<16:10,  2.02it/s] 82%|████████▏ | 8719/10682 [1:20:23<16:10,  2.02it/s] 82%|████████▏ | 8720/10682 [1:20:23<16:09,  2.02it/s] 82%|████████▏ | 8721/10682 [1:20:24<16:10,  2.02it/s] 82%|████████▏ | 8722/10682 [1:20:24<16:08,  2.02it/s] 82%|████████▏ | 8723/10682 [1:20:25<16:07,  2.02it/s] 82%|████████▏ | 8724/10682 [1:20:25<16:07,  2.02it/s] 82%|████████▏ | 8725/10682 [1:20:26<16:06,  2.02it/s]                                                      {'loss': 2.9594, 'grad_norm': 0.2558611333370209, 'learning_rate': 9.882098000652034e-05, 'epoch': 11.44}
- 82%|████████▏ | 8725/10682 [1:20:26<16:06,  2.02it/s] 82%|████████▏ | 8726/10682 [1:20:26<16:06,  2.02it/s] 82%|████████▏ | 8727/10682 [1:20:27<16:06,  2.02it/s] 82%|████████▏ | 8728/10682 [1:20:27<16:06,  2.02it/s] 82%|████████▏ | 8729/10682 [1:20:28<16:08,  2.02it/s] 82%|████████▏ | 8730/10682 [1:20:28<16:06,  2.02it/s] 82%|████████▏ | 8731/10682 [1:20:29<16:05,  2.02it/s] 82%|████████▏ | 8732/10682 [1:20:29<16:04,  2.02it/s] 82%|████████▏ | 8733/10682 [1:20:30<16:03,  2.02it/s] 82%|████████▏ | 8734/10682 [1:20:30<16:03,  2.02it/s] 82%|████████▏ | 8735/10682 [1:20:31<16:03,  2.02it/s] 82%|████████▏ | 8736/10682 [1:20:31<16:03,  2.02it/s] 82%|████████▏ | 8737/10682 [1:20:32<16:03,  2.02it/s] 82%|████████▏ | 8738/10682 [1:20:32<16:01,  2.02it/s] 82%|████████▏ | 8739/10682 [1:20:33<16:01,  2.02it/s] 82%|████████▏ | 8740/10682 [1:20:33<16:00,  2.02it/s] 82%|████████▏ | 8741/10682 [1:20:34<16:00,  2.02it/s] 82%|████████▏ | 8742/10682 [1:20:34<15:59,  2.02it/s] 82%|████████▏ | 8743/10682 [1:20:35<15:59,  2.02it/s] 82%|████████▏ | 8744/10682 [1:20:35<15:58,  2.02it/s] 82%|████████▏ | 8745/10682 [1:20:36<15:58,  2.02it/s] 82%|████████▏ | 8746/10682 [1:20:36<15:57,  2.02it/s] 82%|████████▏ | 8747/10682 [1:20:37<15:56,  2.02it/s] 82%|████████▏ | 8748/10682 [1:20:37<15:56,  2.02it/s] 82%|████████▏ | 8749/10682 [1:20:37<15:55,  2.02it/s] 82%|████████▏ | 8750/10682 [1:20:38<15:55,  2.02it/s]                                                      {'loss': 2.9662, 'grad_norm': 0.2534395158290863, 'learning_rate': 9.639624318158335e-05, 'epoch': 11.47}
- 82%|████████▏ | 8750/10682 [1:20:38<15:55,  2.02it/s] 82%|████████▏ | 8751/10682 [1:20:38<15:56,  2.02it/s] 82%|████████▏ | 8752/10682 [1:20:39<15:55,  2.02it/s] 82%|████████▏ | 8753/10682 [1:20:39<15:54,  2.02it/s] 82%|████████▏ | 8754/10682 [1:20:40<15:54,  2.02it/s] 82%|████████▏ | 8755/10682 [1:20:40<15:54,  2.02it/s] 82%|████████▏ | 8756/10682 [1:20:41<15:54,  2.02it/s] 82%|████████▏ | 8757/10682 [1:20:41<15:53,  2.02it/s] 82%|████████▏ | 8758/10682 [1:20:42<15:52,  2.02it/s] 82%|████████▏ | 8759/10682 [1:20:42<15:52,  2.02it/s] 82%|████████▏ | 8760/10682 [1:20:43<15:51,  2.02it/s] 82%|████████▏ | 8761/10682 [1:20:43<15:51,  2.02it/s] 82%|████████▏ | 8762/10682 [1:20:44<15:49,  2.02it/s] 82%|████████▏ | 8763/10682 [1:20:44<15:50,  2.02it/s] 82%|████████▏ | 8764/10682 [1:20:45<15:48,  2.02it/s] 82%|████████▏ | 8765/10682 [1:20:45<15:48,  2.02it/s] 82%|████████▏ | 8766/10682 [1:20:46<15:47,  2.02it/s] 82%|████████▏ | 8767/10682 [1:20:46<15:48,  2.02it/s] 82%|████████▏ | 8768/10682 [1:20:47<15:46,  2.02it/s] 82%|████████▏ | 8769/10682 [1:20:47<15:47,  2.02it/s] 82%|████████▏ | 8770/10682 [1:20:48<15:45,  2.02it/s] 82%|████████▏ | 8771/10682 [1:20:48<15:45,  2.02it/s] 82%|█���██████▏ | 8772/10682 [1:20:49<15:44,  2.02it/s] 82%|████████▏ | 8773/10682 [1:20:49<15:44,  2.02it/s] 82%|████████▏ | 8774/10682 [1:20:50<15:43,  2.02it/s] 82%|████████▏ | 8775/10682 [1:20:50<15:42,  2.02it/s]                                                      {'loss': 2.9718, 'grad_norm': 0.25474223494529724, 'learning_rate': 9.399844741560781e-05, 'epoch': 11.5}
- 82%|████████▏ | 8775/10682 [1:20:50<15:42,  2.02it/s] 82%|████████▏ | 8776/10682 [1:20:51<15:43,  2.02it/s] 82%|████████▏ | 8777/10682 [1:20:51<15:42,  2.02it/s] 82%|████████▏ | 8778/10682 [1:20:52<15:41,  2.02it/s] 82%|████████▏ | 8779/10682 [1:20:52<15:41,  2.02it/s] 82%|████████▏ | 8780/10682 [1:20:53<15:41,  2.02it/s] 82%|████████▏ | 8781/10682 [1:20:53<15:40,  2.02it/s] 82%|████████▏ | 8782/10682 [1:20:54<15:39,  2.02it/s] 82%|████████▏ | 8783/10682 [1:20:54<15:39,  2.02it/s] 82%|████████▏ | 8784/10682 [1:20:55<15:39,  2.02it/s] 82%|████████▏ | 8785/10682 [1:20:55<15:38,  2.02it/s] 82%|████████▏ | 8786/10682 [1:20:56<15:37,  2.02it/s] 82%|████████▏ | 8787/10682 [1:20:56<15:36,  2.02it/s] 82%|████████▏ | 8788/10682 [1:20:57<15:36,  2.02it/s] 82%|████████▏ | 8789/10682 [1:20:57<15:35,  2.02it/s] 82%|████████▏ | 8790/10682 [1:20:58<15:34,  2.02it/s] 82%|████████▏ | 8791/10682 [1:20:58<15:34,  2.02it/s] 82%|████████▏ | 8792/10682 [1:20:59<15:34,  2.02it/s] 82%|████████▏ | 8793/10682 [1:20:59<15:33,  2.02it/s] 82%|████████▏ | 8794/10682 [1:21:00<15:33,  2.02it/s] 82%|████████▏ | 8795/10682 [1:21:00<15:32,  2.02it/s] 82%|████████▏ | 8796/10682 [1:21:01<15:32,  2.02it/s] 82%|████████▏ | 8797/10682 [1:21:01<15:32,  2.02it/s] 82%|████████▏ | 8798/10682 [1:21:02<15:32,  2.02it/s] 82%|████████▏ | 8799/10682 [1:21:02<15:30,  2.02it/s] 82%|████████▏ | 8800/10682 [1:21:03<15:29,  2.03it/s]                                                      {'loss': 2.9702, 'grad_norm': 0.26035770773887634, 'learning_rate': 9.162775276448015e-05, 'epoch': 11.53}
- 82%|████████▏ | 8800/10682 [1:21:03<15:29,  2.03it/s] 82%|████████▏ | 8801/10682 [1:21:03<15:30,  2.02it/s] 82%|████████▏ | 8802/10682 [1:21:04<15:30,  2.02it/s] 82%|████████▏ | 8803/10682 [1:21:04<15:29,  2.02it/s] 82%|████████▏ | 8804/10682 [1:21:05<15:28,  2.02it/s] 82%|████████▏ | 8805/10682 [1:21:05<15:28,  2.02it/s] 82%|████████▏ | 8806/10682 [1:21:06<15:28,  2.02it/s] 82%|████████▏ | 8807/10682 [1:21:06<15:27,  2.02it/s] 82%|████████▏ | 8808/10682 [1:21:07<15:27,  2.02it/s] 82%|████████▏ | 8809/10682 [1:21:07<15:25,  2.02it/s] 82%|████████▏ | 8810/10682 [1:21:08<15:25,  2.02it/s] 82%|████████▏ | 8811/10682 [1:21:08<15:25,  2.02it/s] 82%|████████▏ | 8812/10682 [1:21:09<15:25,  2.02it/s] 83%|████████▎ | 8813/10682 [1:21:09<15:24,  2.02it/s] 83%|████████▎ | 8814/10682 [1:21:10<15:24,  2.02it/s] 83%|████████▎ | 8815/10682 [1:21:10<15:23,  2.02it/s] 83%|████████▎ | 8816/10682 [1:21:11<15:22,  2.02it/s] 83%|████████▎ | 8817/10682 [1:21:11<15:22,  2.02it/s] 83%|████████▎ | 8818/10682 [1:21:12<15:21,  2.02it/s] 83%|████████▎ | 8819/10682 [1:21:12<15:21,  2.02it/s] 83%|████████▎ | 8820/10682 [1:21:13<15:21,  2.02it/s] 83%|████████▎ | 8821/10682 [1:21:13<15:21,  2.02it/s] 83%|████████▎ | 8822/10682 [1:21:14<15:19,  2.02it/s] 83%|████████▎ | 8823/10682 [1:21:14<15:19,  2.02it/s] 83%|████████▎ | 8824/10682 [1:21:15<15:19,  2.02it/s] 83%|████████▎ | 8825/10682 [1:21:15<15:19,  2.02it/s]                                                      {'loss': 2.9783, 'grad_norm': 0.2575839161872864, 'learning_rate': 8.928431747505355e-05, 'epoch': 11.57}
- 83%|████████▎ | 8825/10682 [1:21:15<15:19,  2.02it/s] 83%|████████▎ | 8826/10682 [1:21:16<15:19,  2.02it/s] 83%|████████▎ | 8827/10682 [1:21:16<15:18,  2.02it/s] 83%|████████▎ | 8828/10682 [1:21:17<15:18,  2.02it/s] 83%|████████▎ | 8829/10682 [1:21:17<16:39,  1.85it/s] 83%|████████▎ | 8830/10682 [1:21:18<16:13,  1.90it/s] 83%|████████▎ | 8831/10682 [1:21:18<15:55,  1.94it/s] 83%|████████▎ | 8832/10682 [1:21:19<15:42,  1.96it/s] 83%|████████▎ | 8833/10682 [1:21:19<15:33,  1.98it/s] 83%|████████▎ | 8834/10682 [1:21:20<15:28,  1.99it/s] 83%|████████▎ | 8835/10682 [1:21:20<15:22,  2.00it/s] 83%|████████▎ | 8836/10682 [1:21:21<15:19,  2.01it/s] 83%|████████▎ | 8837/10682 [1:21:21<15:16,  2.01it/s] 83%|████████▎ | 8838/10682 [1:21:22<15:14,  2.02it/s] 83%|████████▎ | 8839/10682 [1:21:22<15:13,  2.02it/s] 83%|████████▎ | 8840/10682 [1:21:23<15:11,  2.02it/s] 83%|████████▎ | 8841/10682 [1:21:23<15:11,  2.02it/s] 83%|████████▎ | 8842/10682 [1:21:24<15:10,  2.02it/s] 83%|████████▎ | 8843/10682 [1:21:24<15:10,  2.02it/s] 83%|████████▎ | 8844/10682 [1:21:25<15:09,  2.02it/s] 83%|████████▎ | 8845/10682 [1:21:25<15:09,  2.02it/s] 83%|████████▎ | 8846/10682 [1:21:26<15:08,  2.02it/s] 83%|████████▎ | 8847/10682 [1:21:26<15:08,  2.02it/s] 83%|████████▎ | 8848/10682 [1:21:27<15:06,  2.02it/s] 83%|████████▎ | 8849/10682 [1:21:27<15:06,  2.02it/s] 83%|████████▎ | 8850/10682 [1:21:28<15:06,  2.02it/s]{'loss': 2.9699, 'grad_norm': 0.25552210211753845, 'learning_rate': 8.6968297974584e-05, 'epoch': 11.6}
-                                                       83%|████████▎ | 8850/10682 [1:21:28<15:06,  2.02it/s] 83%|████████▎ | 8851/10682 [1:21:28<15:07,  2.02it/s] 83%|████████▎ | 8852/10682 [1:21:29<15:05,  2.02it/s] 83%|████████▎ | 8853/10682 [1:21:29<15:05,  2.02it/s] 83%|████████▎ | 8854/10682 [1:21:30<15:03,  2.02it/s] 83%|████████▎ | 8855/10682 [1:21:30<15:03,  2.02it/s] 83%|████████▎ | 8856/10682 [1:21:31<15:02,  2.02it/s] 83%|████████▎ | 8857/10682 [1:21:31<15:01,  2.02it/s] 83%|████████▎ | 8858/10682 [1:21:32<15:01,  2.02it/s] 83%|████████▎ | 8859/10682 [1:21:32<15:00,  2.02it/s] 83%|████████▎ | 8860/10682 [1:21:33<15:00,  2.02it/s] 83%|████████▎ | 8861/10682 [1:21:33<14:59,  2.02it/s] 83%|████████▎ | 8862/10682 [1:21:34<14:59,  2.02it/s] 83%|████████▎ | 8863/10682 [1:21:34<14:58,  2.03it/s] 83%|████████▎ | 8864/10682 [1:21:35<14:58,  2.02it/s] 83%|████████▎ | 8865/10682 [1:21:35<14:57,  2.02it/s] 83%|████████▎ | 8866/10682 [1:21:36<14:58,  2.02it/s] 83%|████████▎ | 8867/10682 [1:21:36<14:56,  2.02it/s] 83%|████████▎ | 8868/10682 [1:21:37<14:58,  2.02it/s] 83%|████████▎ | 8869/10682 [1:21:37<14:57,  2.02it/s] 83%|████████▎ | 8870/10682 [1:21:37<14:56,  2.02it/s] 83%|████████▎ | 8871/10682 [1:21:38<14:54,  2.02it/s] 83%|████████▎ | 8872/10682 [1:21:38<14:55,  2.02it/s] 83%|████████▎ | 8873/10682 [1:21:39<14:53,  2.02it/s] 83%|████████▎ | 8874/10682 [1:21:39<14:54,  2.02it/s] 83%|████████▎ | 8875/10682 [1:21:40<14:52,  2.02it/s]                                                      {'loss': 2.9783, 'grad_norm': 0.25699564814567566, 'learning_rate': 8.467984886028967e-05, 'epoch': 11.63}
- 83%|████████▎ | 8875/10682 [1:21:40<14:52,  2.02it/s] 83%|████████▎ | 8876/10682 [1:21:40<14:53,  2.02it/s] 83%|████████▎ | 8877/10682 [1:21:41<14:52,  2.02it/s] 83%|████████▎ | 8878/10682 [1:21:41<14:52,  2.02it/s] 83%|████████▎ | 8879/10682 [1:21:42<14:51,  2.02it/s] 83%|████████▎ | 8880/10682 [1:21:42<14:51,  2.02it/s] 83%|████████▎ | 8881/10682 [1:21:43<14:50,  2.02it/s] 83%|████████▎ | 8882/10682 [1:21:43<14:49,  2.02it/s] 83%|████████▎ | 8883/10682 [1:21:44<14:49,  2.02it/s] 83%|████████▎ | 8884/10682 [1:21:44<14:49,  2.02it/s] 83%|████████▎ | 8885/10682 [1:21:45<14:49,  2.02it/s] 83%|████████▎ | 8886/10682 [1:21:45<14:48,  2.02it/s] 83%|████████▎ | 8887/10682 [1:21:46<14:48,  2.02it/s] 83%|████████▎ | 8888/10682 [1:21:46<14:47,  2.02it/s] 83%|████████▎ | 8889/10682 [1:21:47<14:46,  2.02it/s] 83%|████████▎ | 8890/10682 [1:21:47<14:46,  2.02it/s] 83%|████████▎ | 8891/10682 [1:21:48<14:46,  2.02it/s] 83%|████████▎ | 8892/10682 [1:21:48<14:46,  2.02it/s] 83%|████████▎ | 8893/10682 [1:21:49<14:45,  2.02it/s] 83%|████████▎ | 8894/10682 [1:21:49<14:45,  2.02it/s] 83%|████████▎ | 8895/10682 [1:21:50<14:43,  2.02it/s] 83%|████████▎ | 8896/10682 [1:21:50<14:43,  2.02it/s] 83%|████████▎ | 8897/10682 [1:21:51<14:42,  2.02it/s] 83%|████████▎ | 8898/10682 [1:21:51<14:42,  2.02it/s] 83%|████████▎ | 8899/10682 [1:21:52<14:41,  2.02it/s] 83%|████████▎ | 8900/10682 [1:21:52<14:42,  2.02it/s]                                                      {'loss': 2.972, 'grad_norm': 0.2611161172389984, 'learning_rate': 8.24191228890303e-05, 'epoch': 11.66}
- 83%|████████▎ | 8900/10682 [1:21:52<14:42,  2.02it/s] 83%|████████▎ | 8901/10682 [1:21:53<14:42,  2.02it/s] 83%|████████▎ | 8902/10682 [1:21:53<14:41,  2.02it/s] 83%|████████▎ | 8903/10682 [1:21:54<14:40,  2.02it/s] 83%|████████▎ | 8904/10682 [1:21:54<14:40,  2.02it/s] 83%|████████▎ | 8905/10682 [1:21:55<14:39,  2.02it/s] 83%|████████▎ | 8906/10682 [1:21:55<14:38,  2.02it/s] 83%|████████▎ | 8907/10682 [1:21:56<14:37,  2.02it/s] 83%|████████▎ | 8908/10682 [1:21:56<14:37,  2.02it/s] 83%|████████▎ | 8909/10682 [1:21:57<14:36,  2.02it/s] 83%|████████▎ | 8910/10682 [1:21:57<14:36,  2.02it/s] 83%|████████▎ | 8911/10682 [1:21:58<14:35,  2.02it/s] 83%|████████▎ | 8912/10682 [1:21:58<14:35,  2.02it/s] 83%|████████▎ | 8913/10682 [1:21:59<14:34,  2.02it/s] 83%|████████▎ | 8914/10682 [1:21:59<14:33,  2.02it/s] 83%|████████▎ | 8915/10682 [1:22:00<14:33,  2.02it/s] 83%|████████▎ | 8916/10682 [1:22:00<14:32,  2.02it/s] 83%|████████▎ | 8917/10682 [1:22:01<14:32,  2.02it/s] 83%|████████▎ | 8918/10682 [1:22:01<14:31,  2.02it/s] 83%|████████▎ | 8919/10682 [1:22:02<14:31,  2.02it/s] 84%|████████▎ | 8920/10682 [1:22:02<14:29,  2.03it/s] 84%|████████▎ | 8921/10682 [1:22:03<14:30,  2.02it/s] 84%|████████▎ | 8922/10682 [1:22:03<14:29,  2.02it/s] 84%|████████▎ | 8923/10682 [1:22:04<14:29,  2.02it/s] 84%|████████▎ | 8924/10682 [1:22:04<14:29,  2.02it/s] 84%|████████▎ | 8925/10682 [1:22:05<14:29,  2.02it/s]                                                      {'loss': 2.9658, 'grad_norm': 0.2565944194793701, 'learning_rate': 8.018627096711106e-05, 'epoch': 11.7}
- 84%|████████▎ | 8925/10682 [1:22:05<14:29,  2.02it/s] 84%|████████▎ | 8926/10682 [1:22:05<14:29,  2.02it/s] 84%|████████▎ | 8927/10682 [1:22:06<14:30,  2.02it/s] 84%|████████▎ | 8928/10682 [1:22:06<14:28,  2.02it/s] 84%|████████▎ | 8929/10682 [1:22:07<14:27,  2.02it/s] 84%|████████▎ | 8930/10682 [1:22:07<14:26,  2.02it/s] 84%|████████▎ | 8931/10682 [1:22:08<14:26,  2.02it/s] 84%|████████▎ | 8932/10682 [1:22:08<15:40,  1.86it/s] 84%|████████▎ | 8933/10682 [1:22:09<15:17,  1.91it/s] 84%|████████▎ | 8934/10682 [1:22:09<15:01,  1.94it/s] 84%|████████▎ | 8935/10682 [1:22:10<14:50,  1.96it/s] 84%|████████▎ | 8936/10682 [1:22:10<14:41,  1.98it/s] 84%|████████▎ | 8937/10682 [1:22:11<14:35,  1.99it/s] 84%|████████▎ | 8938/10682 [1:22:11<14:31,  2.00it/s] 84%|████████▎ | 8939/10682 [1:22:12<14:28,  2.01it/s] 84%|████████▎ | 8940/10682 [1:22:12<14:25,  2.01it/s] 84%|████████▎ | 8941/10682 [1:22:13<14:24,  2.01it/s] 84%|████████▎ | 8942/10682 [1:22:13<14:22,  2.02it/s] 84%|████████▎ | 8943/10682 [1:22:14<14:21,  2.02it/s] 84%|████████▎ | 8944/10682 [1:22:14<14:20,  2.02it/s] 84%|████████▎ | 8945/10682 [1:22:15<14:19,  2.02it/s] 84%|████████▎ | 8946/10682 [1:22:15<14:18,  2.02it/s] 84%|████████▍ | 8947/10682 [1:22:16<14:19,  2.02it/s] 84%|████████▍ | 8948/10682 [1:22:16<14:17,  2.02it/s] 84%|████████▍ | 8949/10682 [1:22:17<14:17,  2.02it/s] 84%|████████▍ | 8950/10682 [1:22:17<14:16,  2.02it/s]                                                      {'loss': 2.9803, 'grad_norm': 0.2582716941833496, 'learning_rate': 7.798144214020909e-05, 'epoch': 11.73}
- 84%|████████▍ | 8950/10682 [1:22:17<14:16,  2.02it/s] 84%|████████▍ | 8951/10682 [1:22:18<14:17,  2.02it/s] 84%|████████▍ | 8952/10682 [1:22:18<14:16,  2.02it/s] 84%|████████▍ | 8953/10682 [1:22:19<14:15,  2.02it/s] 84%|████████▍ | 8954/10682 [1:22:19<14:14,  2.02it/s] 84%|████████▍ | 8955/10682 [1:22:20<14:14,  2.02it/s] 84%|████████▍ | 8956/10682 [1:22:20<14:13,  2.02it/s] 84%|████████▍ | 8957/10682 [1:22:21<14:14,  2.02it/s] 84%|████████▍ | 8958/10682 [1:22:21<14:12,  2.02it/s] 84%|████████▍ | 8959/10682 [1:22:22<14:12,  2.02it/s] 84%|████████▍ | 8960/10682 [1:22:22<14:11,  2.02it/s] 84%|████████▍ | 8961/10682 [1:22:23<14:11,  2.02it/s] 84%|████████▍ | 8962/10682 [1:22:23<14:10,  2.02it/s] 84%|████████▍ | 8963/10682 [1:22:24<14:10,  2.02it/s] 84%|████████▍ | 8964/10682 [1:22:24<14:10,  2.02it/s] 84%|████████▍ | 8965/10682 [1:22:25<14:09,  2.02it/s] 84%|████████▍ | 8966/10682 [1:22:25<14:09,  2.02it/s] 84%|████████▍ | 8967/10682 [1:22:26<14:08,  2.02it/s] 84%|████████▍ | 8968/10682 [1:22:26<14:08,  2.02it/s] 84%|████████▍ | 8969/10682 [1:22:27<14:07,  2.02it/s] 84%|████████▍ | 8970/10682 [1:22:27<14:06,  2.02it/s] 84%|████████▍ | 8971/10682 [1:22:28<14:06,  2.02it/s] 84%|████████▍ | 8972/10682 [1:22:28<14:05,  2.02it/s] 84%|████████▍ | 8973/10682 [1:22:29<14:05,  2.02it/s] 84%|████████▍ | 8974/10682 [1:22:29<14:04,  2.02it/s] 84%|████████▍ | 8975/10682 [1:22:30<14:03,  2.02it/s]                                                      {'loss': 2.9817, 'grad_norm': 0.25977376103401184, 'learning_rate': 7.58047835834249e-05, 'epoch': 11.76}
- 84%|████████▍ | 8975/10682 [1:22:30<14:03,  2.02it/s] 84%|████████▍ | 8976/10682 [1:22:30<14:04,  2.02it/s] 84%|████████▍ | 8977/10682 [1:22:31<14:03,  2.02it/s] 84%|████████▍ | 8978/10682 [1:22:31<14:03,  2.02it/s] 84%|████████▍ | 8979/10682 [1:22:32<14:02,  2.02it/s] 84%|████████▍ | 8980/10682 [1:22:32<14:02,  2.02it/s] 84%|████████▍ | 8981/10682 [1:22:33<14:01,  2.02it/s] 84%|████████▍ | 8982/10682 [1:22:33<14:00,  2.02it/s] 84%|████████▍ | 8983/10682 [1:22:34<14:00,  2.02it/s] 84%|████████▍ | 8984/10682 [1:22:34<13:59,  2.02it/s] 84%|████████▍ | 8985/10682 [1:22:35<13:58,  2.02it/s] 84%|████████▍ | 8986/10682 [1:22:35<13:58,  2.02it/s] 84%|████████▍ | 8987/10682 [1:22:36<13:58,  2.02it/s] 84%|████████▍ | 8988/10682 [1:22:36<13:58,  2.02it/s] 84%|████████▍ | 8989/10682 [1:22:36<13:56,  2.02it/s] 84%|████████▍ | 8990/10682 [1:22:37<13:57,  2.02it/s] 84%|████████▍ | 8991/10682 [1:22:37<13:56,  2.02it/s] 84%|████████▍ | 8992/10682 [1:22:38<13:56,  2.02it/s] 84%|████████▍ | 8993/10682 [1:22:38<13:55,  2.02it/s] 84%|████████▍ | 8994/10682 [1:22:39<13:55,  2.02it/s] 84%|████████▍ | 8995/10682 [1:22:39<13:54,  2.02it/s] 84%|████████▍ | 8996/10682 [1:22:40<13:54,  2.02it/s] 84%|████████▍ | 8997/10682 [1:22:40<13:52,  2.02it/s] 84%|████████▍ | 8998/10682 [1:22:41<13:52,  2.02it/s] 84%|████████▍ | 8999/10682 [1:22:41<13:52,  2.02it/s] 84%|████████▍ | 9000/10682 [1:22:42<13:52,  2.02it/s]                                                      {'loss': 2.9818, 'grad_norm': 0.25961318612098694, 'learning_rate': 7.365644059145782e-05, 'epoch': 11.8}
- 84%|████████▍ | 9000/10682 [1:22:42<13:52,  2.02it/s] 84%|████████▍ | 9001/10682 [1:22:42<13:51,  2.02it/s] 84%|████████▍ | 9002/10682 [1:22:43<13:51,  2.02it/s] 84%|████████▍ | 9003/10682 [1:22:43<13:49,  2.02it/s] 84%|████████▍ | 9004/10682 [1:22:44<13:49,  2.02it/s] 84%|████████▍ | 9005/10682 [1:22:44<13:49,  2.02it/s] 84%|████████▍ | 9006/10682 [1:22:45<13:48,  2.02it/s] 84%|████████▍ | 9007/10682 [1:22:45<13:48,  2.02it/s] 84%|████████▍ | 9008/10682 [1:22:46<13:48,  2.02it/s] 84%|████████▍ | 9009/10682 [1:22:46<13:47,  2.02it/s] 84%|████████▍ | 9010/10682 [1:22:47<13:47,  2.02it/s] 84%|████████▍ | 9011/10682 [1:22:47<13:46,  2.02it/s] 84%|████████▍ | 9012/10682 [1:22:48<13:46,  2.02it/s] 84%|████████▍ | 9013/10682 [1:22:48<13:45,  2.02it/s] 84%|████████▍ | 9014/10682 [1:22:49<13:45,  2.02it/s] 84%|████████▍ | 9015/10682 [1:22:49<13:45,  2.02it/s] 84%|████████▍ | 9016/10682 [1:22:50<13:45,  2.02it/s] 84%|████████▍ | 9017/10682 [1:22:50<13:44,  2.02it/s] 84%|████████▍ | 9018/10682 [1:22:51<13:43,  2.02it/s] 84%|████████▍ | 9019/10682 [1:22:51<13:43,  2.02it/s] 84%|███████��▍ | 9020/10682 [1:22:52<13:42,  2.02it/s] 84%|████████▍ | 9021/10682 [1:22:52<13:42,  2.02it/s] 84%|████████▍ | 9022/10682 [1:22:53<13:41,  2.02it/s] 84%|████████▍ | 9023/10682 [1:22:53<13:40,  2.02it/s] 84%|████████▍ | 9024/10682 [1:22:54<13:40,  2.02it/s] 84%|████████▍ | 9025/10682 [1:22:54<13:39,  2.02it/s]                                                      {'loss': 2.9863, 'grad_norm': 0.2538692355155945, 'learning_rate': 7.153655656890773e-05, 'epoch': 11.83}
- 84%|████████▍ | 9025/10682 [1:22:54<13:39,  2.02it/s] 84%|████████▍ | 9026/10682 [1:22:55<13:39,  2.02it/s] 85%|████████▍ | 9027/10682 [1:22:55<13:39,  2.02it/s] 85%|████████▍ | 9028/10682 [1:22:56<13:39,  2.02it/s] 85%|████████▍ | 9029/10682 [1:22:56<13:38,  2.02it/s] 85%|████████▍ | 9030/10682 [1:22:57<13:37,  2.02it/s] 85%|████████▍ | 9031/10682 [1:22:57<13:36,  2.02it/s] 85%|████████▍ | 9032/10682 [1:22:58<13:36,  2.02it/s] 85%|████████▍ | 9033/10682 [1:22:58<13:35,  2.02it/s] 85%|████████▍ | 9034/10682 [1:22:59<13:35,  2.02it/s] 85%|████████▍ | 9035/10682 [1:22:59<13:34,  2.02it/s] 85%|████████▍ | 9036/10682 [1:23:00<13:34,  2.02it/s] 85%|████████▍ | 9037/10682 [1:23:00<13:34,  2.02it/s] 85%|████████▍ | 9038/10682 [1:23:01<13:34,  2.02it/s] 85%|████████▍ | 9039/10682 [1:23:01<13:32,  2.02it/s] 85%|████████▍ | 9040/10682 [1:23:02<13:32,  2.02it/s] 85%|████████▍ | 9041/10682 [1:23:02<13:31,  2.02it/s] 85%|████████▍ | 9042/10682 [1:23:03<13:31,  2.02it/s] 85%|████████▍ | 9043/10682 [1:23:03<13:30,  2.02it/s] 85%|████████▍ | 9044/10682 [1:23:04<13:29,  2.02it/s] 85%|████████▍ | 9045/10682 [1:23:04<13:29,  2.02it/s] 85%|████████▍ | 9046/10682 [1:23:05<13:29,  2.02it/s] 85%|████████▍ | 9047/10682 [1:23:05<13:28,  2.02it/s] 85%|████████▍ | 9048/10682 [1:23:06<13:27,  2.02it/s] 85%|████████▍ | 9049/10682 [1:23:06<13:27,  2.02it/s] 85%|████████▍ | 9050/10682 [1:23:07<13:26,  2.02it/s]                                                      {'loss': 2.983, 'grad_norm': 0.2545906901359558, 'learning_rate': 6.94452730207023e-05, 'epoch': 11.86}
- 85%|████████▍ | 9050/10682 [1:23:07<13:26,  2.02it/s] 85%|████████▍ | 9051/10682 [1:23:07<13:27,  2.02it/s] 85%|████████▍ | 9052/10682 [1:23:08<13:25,  2.02it/s] 85%|████████▍ | 9053/10682 [1:23:08<13:25,  2.02it/s] 85%|████████▍ | 9054/10682 [1:23:09<13:25,  2.02it/s] 85%|████████▍ | 9055/10682 [1:23:09<13:25,  2.02it/s] 85%|████████▍ | 9056/10682 [1:23:10<13:24,  2.02it/s] 85%|████████▍ | 9057/10682 [1:23:10<13:24,  2.02it/s] 85%|████████▍ | 9058/10682 [1:23:11<13:23,  2.02it/s] 85%|████████▍ | 9059/10682 [1:23:11<13:22,  2.02it/s] 85%|████████▍ | 9060/10682 [1:23:12<13:21,  2.02it/s] 85%|████████▍ | 9061/10682 [1:23:12<13:22,  2.02it/s] 85%|████████▍ | 9062/10682 [1:23:13<13:21,  2.02it/s] 85%|████████▍ | 9063/10682 [1:23:13<13:21,  2.02it/s] 85%|████████▍ | 9064/10682 [1:23:14<13:20,  2.02it/s] 85%|████████▍ | 9065/10682 [1:23:14<13:20,  2.02it/s] 85%|████████▍ | 9066/10682 [1:23:15<13:20,  2.02it/s] 85%|████████▍ | 9067/10682 [1:23:15<13:20,  2.02it/s] 85%|████████▍ | 9068/10682 [1:23:16<13:19,  2.02it/s] 85%|████████▍ | 9069/10682 [1:23:16<13:18,  2.02it/s] 85%|████████▍ | 9070/10682 [1:23:17<13:17,  2.02it/s] 85%|████████▍ | 9071/10682 [1:23:17<13:17,  2.02it/s] 85%|████████▍ | 9072/10682 [1:23:18<13:15,  2.02it/s] 85%|████████▍ | 9073/10682 [1:23:18<13:16,  2.02it/s] 85%|████████▍ | 9074/10682 [1:23:19<13:14,  2.02it/s] 85%|████████▍ | 9075/10682 [1:23:19<13:14,  2.02it/s]{'loss': 2.9843, 'grad_norm': 0.25698500871658325, 'learning_rate': 6.738272954265156e-05, 'epoch': 11.89}
-                                                       85%|████████▍ | 9075/10682 [1:23:19<13:14,  2.02it/s] 85%|████████▍ | 9076/10682 [1:23:20<13:14,  2.02it/s] 85%|████████▍ | 9077/10682 [1:23:20<13:14,  2.02it/s] 85%|████████▍ | 9078/10682 [1:23:21<13:13,  2.02it/s] 85%|████████▍ | 9079/10682 [1:23:21<13:13,  2.02it/s] 85%|████████▌ | 9080/10682 [1:23:22<13:11,  2.02it/s] 85%|████████▌ | 9081/10682 [1:23:22<13:11,  2.02it/s] 85%|████████▌ | 9082/10682 [1:23:23<13:10,  2.02it/s] 85%|████████▌ | 9083/10682 [1:23:23<13:09,  2.02it/s] 85%|████████▌ | 9084/10682 [1:23:23<13:09,  2.02it/s] 85%|████████▌ | 9085/10682 [1:23:24<13:09,  2.02it/s] 85%|████████▌ | 9086/10682 [1:23:24<13:08,  2.02it/s] 85%|████████▌ | 9087/10682 [1:23:25<13:07,  2.03it/s] 85%|████████▌ | 9088/10682 [1:23:25<13:08,  2.02it/s] 85%|████████▌ | 9089/10682 [1:23:26<13:07,  2.02it/s] 85%|████████▌ | 9090/10682 [1:23:26<13:07,  2.02it/s] 85%|████████▌ | 9091/10682 [1:23:27<13:06,  2.02it/s] 85%|████████▌ | 9092/10682 [1:23:27<13:06,  2.02it/s] 85%|████████▌ | 9093/10682 [1:23:28<13:05,  2.02it/s] 85%|████████▌ | 9094/10682 [1:23:28<13:05,  2.02it/s] 85%|████████▌ | 9095/10682 [1:23:29<13:04,  2.02it/s] 85%|████████▌ | 9096/10682 [1:23:29<13:03,  2.02it/s] 85%|████████▌ | 9097/10682 [1:23:30<13:04,  2.02it/s] 85%|████████▌ | 9098/10682 [1:23:30<13:03,  2.02it/s] 85%|████████▌ | 9099/10682 [1:23:31<13:03,  2.02it/s] 85%|████████▌ | 9100/10682 [1:23:31<13:02,  2.02it/s]                                                      {'loss': 2.9848, 'grad_norm': 0.25774645805358887, 'learning_rate': 6.534906381212979e-05, 'epoch': 11.93}
- 85%|████████▌ | 9100/10682 [1:23:31<13:02,  2.02it/s] 85%|████████▌ | 9101/10682 [1:23:32<13:02,  2.02it/s] 85%|████████▌ | 9102/10682 [1:23:32<13:01,  2.02it/s] 85%|████████▌ | 9103/10682 [1:23:33<13:00,  2.02it/s] 85%|████████▌ | 9104/10682 [1:23:33<13:00,  2.02it/s] 85%|████████▌ | 9105/10682 [1:23:34<12:59,  2.02it/s] 85%|████████▌ | 9106/10682 [1:23:34<12:58,  2.02it/s] 85%|████████▌ | 9107/10682 [1:23:35<12:58,  2.02it/s] 85%|████████▌ | 9108/10682 [1:23:35<12:57,  2.02it/s] 85%|████████▌ | 9109/10682 [1:23:36<12:57,  2.02it/s] 85%|████████▌ | 9110/10682 [1:23:36<12:56,  2.02it/s] 85%|████████▌ | 9111/10682 [1:23:37<12:56,  2.02it/s] 85%|████████▌ | 9112/10682 [1:23:37<12:55,  2.02it/s] 85%|████████▌ | 9113/10682 [1:23:38<12:55,  2.02it/s] 85%|████████▌ | 9114/10682 [1:23:38<12:54,  2.02it/s] 85%|████████▌ | 9115/10682 [1:23:39<12:54,  2.02it/s] 85%|████████▌ | 9116/10682 [1:23:39<12:54,  2.02it/s] 85%|████████▌ | 9117/10682 [1:23:40<12:53,  2.02it/s] 85%|████████▌ | 9118/10682 [1:23:40<12:53,  2.02it/s] 85%|████████▌ | 9119/10682 [1:23:41<12:52,  2.02it/s] 85%|████████▌ | 9120/10682 [1:23:41<12:52,  2.02it/s] 85%|████████▌ | 9121/10682 [1:23:42<12:51,  2.02it/s] 85%|████████▌ | 9122/10682 [1:23:42<12:51,  2.02it/s] 85%|████████▌ | 9123/10682 [1:23:43<12:50,  2.02it/s] 85%|████████▌ | 9124/10682 [1:23:43<12:51,  2.02it/s] 85%|████████▌ | 9125/10682 [1:23:44<12:50,  2.02it/s]                                                      {'loss': 2.9837, 'grad_norm': 0.258129358291626, 'learning_rate': 6.334441157888504e-05, 'epoch': 11.96}
- 85%|████████▌ | 9125/10682 [1:23:44<12:50,  2.02it/s] 85%|████████▌ | 9126/10682 [1:23:44<12:50,  2.02it/s] 85%|████████▌ | 9127/10682 [1:23:45<12:48,  2.02it/s] 85%|████████▌ | 9128/10682 [1:23:45<12:48,  2.02it/s] 85%|████████▌ | 9129/10682 [1:23:46<12:47,  2.02it/s] 85%|████████▌ | 9130/10682 [1:23:46<12:47,  2.02it/s] 85%|████████▌ | 9131/10682 [1:23:47<12:47,  2.02it/s] 85%|████████▌ | 9132/10682 [1:23:47<12:47,  2.02it/s] 85%|████████▌ | 9133/10682 [1:23:48<12:45,  2.02it/s] 86%|████████▌ | 9134/10682 [1:23:48<12:46,  2.02it/s] 86%|████████▌ | 9135/10682 [1:23:49<12:44,  2.02it/s] 86%|████████▌ | 9136/10682 [1:23:49<12:44,  2.02it/s] 86%|████████▌ | 9137/10682 [1:23:50<12:43,  2.02it/s] 86%|████████▌ | 9138/10682 [1:23:50<12:43,  2.02it/s] 86%|████████▌ | 9139/10682 [1:23:51<12:42,  2.02it/s] 86%|████████▌ | 9140/10682 [1:23:51<12:42,  2.02it/s] 86%|████████▌ | 9141/10682 [1:23:52<12:41,  2.02it/s] 86%|████████▌ | 9142/10682 [1:23:52<12:41,  2.02it/s] 86%|████████▌ | 9143/10682 [1:23:53<12:40,  2.02it/s] 86%|████████▌ | 9144/10682 [1:23:53<12:40,  2.02it/s] 86%|████████▌ | 9145/10682 [1:23:54<12:40,  2.02it/s] 86%|████████▌ | 9146/10682 [1:23:54<12:39,  2.02it/s] 86%|████████▌ | 9147/10682 [1:23:55<12:39,  2.02it/s] 86%|████████▌ | 9148/10682 [1:23:55<12:39,  2.02it/s] 86%|████████▌ | 9149/10682 [1:23:56<12:38,  2.02it/s] 86%|████████▌ | 9150/10682 [1:23:56<12:37,  2.02it/s]                                                      {'loss': 2.9782, 'grad_norm': 0.25698208808898926, 'learning_rate': 6.1368906655978e-05, 'epoch': 11.99}
- 86%|████████▌ | 9150/10682 [1:23:56<12:37,  2.02it/s] 86%|████████▌ | 9151/10682 [1:23:57<12:37,  2.02it/s] 86%|████████▌ | 9152/10682 [1:23:57<12:37,  2.02it/s] 86%|████████▌ | 9153/10682 [1:23:58<12:36,  2.02it/s] 86%|████████▌ | 9154/10682 [1:23:58<12:36,  2.02it/s] 86%|████████▌ | 9155/10682 [1:23:59<12:35,  2.02it/s] 86%|████████▌ | 9156/10682 [1:23:59<12:27,  2.04it/s] 86%|████████▌ | 9157/10682 [1:24:50<6:33:52, 15.50s/it] 86%|████████▌ | 9158/10682 [1:24:50<4:39:20, 11.00s/it] 86%|████████▌ | 9159/10682 [1:24:51<3:19:10,  7.85s/it] 86%|████████▌ | 9160/10682 [1:24:51<2:23:10,  5.64s/it] 86%|████████▌ | 9161/10682 [1:24:52<1:43:55,  4.10s/it] 86%|████████▌ | 9162/10682 [1:24:52<1:16:27,  3.02s/it] 86%|████████▌ | 9163/10682 [1:24:53<57:14,  2.26s/it]   86%|████████▌ | 9164/10682 [1:24:53<43:46,  1.73s/it] 86%|████████▌ | 9165/10682 [1:24:54<34:22,  1.36s/it] 86%|████████▌ | 9166/10682 [1:24:54<27:46,  1.10s/it] 86%|████████▌ | 9167/10682 [1:24:55<23:19,  1.08it/s] 86%|████████▌ | 9168/10682 [1:24:55<20:04,  1.26it/s] 86%|████████▌ | 9169/10682 [1:24:56<17:46,  1.42it/s] 86%|████████▌ | 9170/10682 [1:24:56<16:10,  1.56it/s] 86%|████████▌ | 9171/10682 [1:24:57<15:03,  1.67it/s] 86%|████████▌ | 9172/10682 [1:24:57<14:15,  1.76it/s] 86%|████████▌ | 9173/10682 [1:24:58<13:43,  1.83it/s] 86%|████████▌ | 9174/10682 [1:24:58<13:19,  1.89it/s] 86%|████████▌ | 9175/10682 [1:24:59<13:04,  1.92it/s]{'loss': 2.9368, 'grad_norm': 0.2585768699645996, 'learning_rate': 5.94226809108499e-05, 'epoch': 12.02}                                                      
- 86%|████████▌ | 9175/10682 [1:24:59<13:04,  1.92it/s] 86%|████████▌ | 9176/10682 [1:24:59<12:54,  1.95it/s] 86%|████████▌ | 9177/10682 [1:25:00<12:47,  1.96it/s] 86%|████████▌ | 9178/10682 [1:25:00<12:39,  1.98it/s] 86%|████████▌ | 9179/10682 [1:25:01<12:35,  1.99it/s] 86%|████████▌ | 9180/10682 [1:25:01<12:34,  1.99it/s] 86%|████████▌ | 9181/10682 [1:25:02<12:30,  2.00it/s] 86%|████████▌ | 9182/10682 [1:25:02<12:27,  2.01it/s] 86%|████████▌ | 9183/10682 [1:25:03<12:24,  2.01it/s] 86%|████████▌ | 9184/10682 [1:25:03<12:24,  2.01it/s] 86%|████████▌ | 9185/10682 [1:25:03<12:22,  2.02it/s] 86%|████████▌ | 9186/10682 [1:25:04<12:23,  2.01it/s] 86%|████████▌ | 9187/10682 [1:25:04<12:21,  2.02it/s] 86%|████████▌ | 9188/10682 [1:25:05<12:22,  2.01it/s] 86%|████████▌ | 9189/10682 [1:25:05<12:21,  2.01it/s] 86%|████████▌ | 9190/10682 [1:25:06<12:19,  2.02it/s] 86%|████████▌ | 9191/10682 [1:25:06<12:18,  2.02it/s] 86%|████████▌ | 9192/10682 [1:25:07<12:16,  2.02it/s] 86%|████████▌ | 9193/10682 [1:25:07<12:15,  2.03it/s] 86%|████████▌ | 9194/10682 [1:25:08<12:15,  2.02it/s] 86%|████████▌ | 9195/10682 [1:25:08<12:14,  2.03it/s] 86%|████████▌ | 9196/10682 [1:25:09<12:14,  2.02it/s] 86%|████████▌ | 9197/10682 [1:25:09<12:12,  2.03it/s] 86%|████████▌ | 9198/10682 [1:25:10<12:13,  2.02it/s] 86%|████████▌ | 9199/10682 [1:25:10<12:12,  2.03it/s] 86%|████████▌ | 9200/10682 [1:25:11<12:13,  2.02it/s]                                                      {'loss': 2.913, 'grad_norm': 0.2588600516319275, 'learning_rate': 5.7505864256519716e-05, 'epoch': 12.06}
- 86%|████████▌ | 9200/10682 [1:25:11<12:13,  2.02it/s] 86%|████████▌ | 9201/10682 [1:25:11<12:12,  2.02it/s] 86%|████████▌ | 9202/10682 [1:25:12<12:12,  2.02it/s] 86%|████████▌ | 9203/10682 [1:25:12<12:10,  2.02it/s] 86%|████████▌ | 9204/10682 [1:25:13<12:09,  2.03it/s] 86%|████████▌ | 9205/10682 [1:25:13<12:09,  2.02it/s] 86%|████████▌ | 9206/10682 [1:25:14<12:08,  2.03it/s] 86%|████████▌ | 9207/10682 [1:25:14<12:08,  2.02it/s] 86%|████████▌ | 9208/10682 [1:25:15<12:07,  2.03it/s] 86%|████████▌ | 9209/10682 [1:25:15<12:07,  2.02it/s] 86%|████████▌ | 9210/10682 [1:25:16<12:07,  2.02it/s] 86%|████████▌ | 9211/10682 [1:25:16<12:06,  2.02it/s] 86%|████████▌ | 9212/10682 [1:25:17<12:06,  2.02it/s] 86%|████████▌ | 9213/10682 [1:25:17<12:05,  2.02it/s] 86%|████████▋ | 9214/10682 [1:25:18<12:05,  2.02it/s] 86%|████████▋ | 9215/10682 [1:25:18<12:04,  2.03it/s] 86%|████████▋ | 9216/10682 [1:25:19<12:03,  2.03it/s] 86%|████████▋ | 9217/10682 [1:25:19<12:03,  2.02it/s] 86%|████████▋ | 9218/10682 [1:25:20<12:03,  2.02it/s] 86%|████████▋ | 9219/10682 [1:25:20<12:02,  2.03it/s] 86%|████████▋ | 9220/10682 [1:25:21<12:01,  2.03it/s] 86%|████████▋ | 9221/10682 [1:25:21<12:01,  2.02it/s] 86%|████████▋ | 9222/10682 [1:25:22<12:00,  2.03it/s] 86%|████████▋ | 9223/10682 [1:25:22<12:00,  2.02it/s] 86%|████████▋ | 9224/10682 [1:25:23<11:59,  2.03it/s] 86%|████████▋ | 9225/10682 [1:25:23<11:59,  2.02it/s]                                                      {'loss': 2.9162, 'grad_norm': 0.26090139150619507, 'learning_rate': 5.561858464291258e-05, 'epoch': 12.09}
- 86%|████████▋ | 9225/10682 [1:25:23<11:59,  2.02it/s] 86%|████████▋ | 9226/10682 [1:25:24<11:59,  2.02it/s] 86%|████████▋ | 9227/10682 [1:25:24<11:59,  2.02it/s] 86%|████████▋ | 9228/10682 [1:25:25<11:57,  2.03it/s] 86%|████████▋ | 9229/10682 [1:25:25<11:57,  2.03it/s] 86%|████████▋ | 9230/10682 [1:25:26<11:57,  2.03it/s] 86%|████████▋ | 9231/10682 [1:25:26<11:56,  2.03it/s] 86%|████████▋ | 9232/10682 [1:25:27<11:56,  2.02it/s] 86%|████████▋ | 9233/10682 [1:25:27<11:55,  2.03it/s] 86%|████████▋ | 9234/10682 [1:25:28<11:55,  2.02it/s] 86%|████████▋ | 9235/10682 [1:25:28<11:54,  2.02it/s] 86%|████████▋ | 9236/10682 [1:25:29<11:54,  2.03it/s] 86%|████████▋ | 9237/10682 [1:25:29<11:53,  2.03it/s] 86%|████████▋ | 9238/10682 [1:25:30<11:52,  2.03it/s] 86%|████████▋ | 9239/10682 [1:25:30<11:52,  2.03it/s] 87%|████████▋ | 9240/10682 [1:25:31<11:51,  2.03it/s] 87%|████████▋ | 9241/10682 [1:25:31<11:51,  2.02it/s] 87%|████████▋ | 9242/10682 [1:25:32<11:51,  2.02it/s] 87%|████████▋ | 9243/10682 [1:25:32<11:51,  2.02it/s] 87%|████████▋ | 9244/10682 [1:25:33<11:50,  2.02it/s] 87%|████████▋ | 9245/10682 [1:25:33<11:50,  2.02it/s] 87%|████████▋ | 9246/10682 [1:25:34<11:49,  2.02it/s] 87%|████████▋ | 9247/10682 [1:25:34<11:49,  2.02it/s] 87%|████████▋ | 9248/10682 [1:25:35<11:49,  2.02it/s] 87%|████████▋ | 9249/10682 [1:25:35<11:48,  2.02it/s] 87%|████████▋ | 9250/10682 [1:25:36<11:48,  2.02it/s]                                                      {'loss': 2.9148, 'grad_norm': 0.25939974188804626, 'learning_rate': 5.3760968048319145e-05, 'epoch': 12.12}
- 87%|████████▋ | 9250/10682 [1:25:36<11:48,  2.02it/s] 87%|████████▋ | 9251/10682 [1:25:36<11:50,  2.01it/s] 87%|████████▋ | 9252/10682 [1:25:37<11:49,  2.02it/s] 87%|████████▋ | 9253/10682 [1:25:37<11:47,  2.02it/s] 87%|████████▋ | 9254/10682 [1:25:38<11:45,  2.02it/s] 87%|████████▋ | 9255/10682 [1:25:38<11:45,  2.02it/s] 87%|████████▋ | 9256/10682 [1:25:39<11:44,  2.03it/s] 87%|████████▋ | 9257/10682 [1:25:39<11:43,  2.02it/s] 87%|████████▋ | 9258/10682 [1:25:40<11:43,  2.03it/s] 87%|████████▋ | 9259/10682 [1:25:40<11:42,  2.02it/s] 87%|████████▋ | 9260/10682 [1:25:41<11:42,  2.03it/s] 87%|████████▋ | 9261/10682 [1:25:41<11:42,  2.02it/s] 87%|████████▋ | 9262/10682 [1:25:42<11:41,  2.02it/s] 87%|████████▋ | 9263/10682 [1:25:42<11:40,  2.03it/s] 87%|████████▋ | 9264/10682 [1:25:43<11:39,  2.03it/s] 87%|████████▋ | 9265/10682 [1:25:43<11:39,  2.03it/s] 87%|████████▋ | 9266/10682 [1:25:44<11:38,  2.03it/s] 87%|████████▋ | 9267/10682 [1:25:44<11:38,  2.03it/s] 87%|████████��� | 9268/10682 [1:25:45<11:37,  2.03it/s] 87%|████████▋ | 9269/10682 [1:25:45<11:37,  2.02it/s] 87%|████████▋ | 9270/10682 [1:25:45<11:36,  2.03it/s] 87%|████████▋ | 9271/10682 [1:25:46<11:37,  2.02it/s] 87%|████████▋ | 9272/10682 [1:25:46<11:36,  2.02it/s] 87%|████████▋ | 9273/10682 [1:25:47<11:35,  2.03it/s] 87%|████████▋ | 9274/10682 [1:25:47<11:35,  2.02it/s] 87%|████████▋ | 9275/10682 [1:25:48<11:35,  2.02it/s]                                                      {'loss': 2.9113, 'grad_norm': 0.26331159472465515, 'learning_rate': 5.193313847098613e-05, 'epoch': 12.16}
- 87%|████████▋ | 9275/10682 [1:25:48<11:35,  2.02it/s] 87%|████████▋ | 9276/10682 [1:25:48<11:36,  2.02it/s] 87%|████████▋ | 9277/10682 [1:25:49<11:35,  2.02it/s] 87%|████████▋ | 9278/10682 [1:25:49<11:34,  2.02it/s] 87%|████████▋ | 9279/10682 [1:25:50<11:33,  2.02it/s] 87%|████████▋ | 9280/10682 [1:25:50<11:32,  2.03it/s] 87%|████████▋ | 9281/10682 [1:25:51<11:32,  2.02it/s] 87%|████████▋ | 9282/10682 [1:25:51<11:31,  2.03it/s] 87%|████████▋ | 9283/10682 [1:25:52<11:31,  2.02it/s] 87%|████████▋ | 9284/10682 [1:25:52<11:29,  2.03it/s] 87%|████████▋ | 9285/10682 [1:25:53<11:29,  2.03it/s] 87%|████████▋ | 9286/10682 [1:25:53<11:29,  2.03it/s] 87%|████████▋ | 9287/10682 [1:25:54<11:28,  2.03it/s] 87%|████████▋ | 9288/10682 [1:25:54<11:28,  2.02it/s] 87%|████████▋ | 9289/10682 [1:25:55<11:27,  2.03it/s] 87%|████████▋ | 9290/10682 [1:25:55<11:27,  2.02it/s] 87%|████████▋ | 9291/10682 [1:25:56<11:26,  2.03it/s] 87%|████████▋ | 9292/10682 [1:25:56<11:26,  2.02it/s] 87%|████████▋ | 9293/10682 [1:25:57<11:25,  2.03it/s] 87%|████████▋ | 9294/10682 [1:25:57<11:25,  2.03it/s] 87%|████████▋ | 9295/10682 [1:25:58<11:24,  2.03it/s] 87%|████████▋ | 9296/10682 [1:25:58<11:24,  2.03it/s] 87%|████████▋ | 9297/10682 [1:25:59<11:23,  2.03it/s] 87%|████████▋ | 9298/10682 [1:25:59<11:23,  2.02it/s] 87%|████████▋ | 9299/10682 [1:26:00<11:23,  2.02it/s] 87%|████████▋ | 9300/10682 [1:26:00<11:22,  2.02it/s]                                                      {'loss': 2.9158, 'grad_norm': 0.25813746452331543, 'learning_rate': 5.0135217920839137e-05, 'epoch': 12.19}
- 87%|████████▋ | 9300/10682 [1:26:00<11:22,  2.02it/s] 87%|████████▋ | 9301/10682 [1:26:01<11:23,  2.02it/s] 87%|████████▋ | 9302/10682 [1:26:01<11:22,  2.02it/s] 87%|████████▋ | 9303/10682 [1:26:02<11:21,  2.02it/s] 87%|████████▋ | 9304/10682 [1:26:02<11:20,  2.02it/s] 87%|████████▋ | 9305/10682 [1:26:03<11:20,  2.02it/s] 87%|████████▋ | 9306/10682 [1:26:03<11:19,  2.03it/s] 87%|████████▋ | 9307/10682 [1:26:04<11:19,  2.02it/s] 87%|████████▋ | 9308/10682 [1:26:04<11:18,  2.03it/s] 87%|████████▋ | 9309/10682 [1:26:05<11:17,  2.03it/s] 87%|████████▋ | 9310/10682 [1:26:05<11:17,  2.03it/s] 87%|████████▋ | 9311/10682 [1:26:06<11:16,  2.03it/s] 87%|████████▋ | 9312/10682 [1:26:06<11:16,  2.03it/s] 87%|████████▋ | 9313/10682 [1:26:07<11:16,  2.02it/s] 87%|████████▋ | 9314/10682 [1:26:07<11:15,  2.02it/s] 87%|████████▋ | 9315/10682 [1:26:08<11:15,  2.03it/s] 87%|████████▋ | 9316/10682 [1:26:08<11:14,  2.02it/s] 87%|████████▋ | 9317/10682 [1:26:09<11:13,  2.03it/s] 87%|████████▋ | 9318/10682 [1:26:09<11:13,  2.03it/s] 87%|████████▋ | 9319/10682 [1:26:10<11:12,  2.03it/s] 87%|████████▋ | 9320/10682 [1:26:10<11:11,  2.03it/s] 87%|████████▋ | 9321/10682 [1:26:11<11:11,  2.03it/s] 87%|████████▋ | 9322/10682 [1:26:11<11:10,  2.03it/s] 87%|████████▋ | 9323/10682 [1:26:12<11:10,  2.03it/s] 87%|████████▋ | 9324/10682 [1:26:12<11:09,  2.03it/s] 87%|████████▋ | 9325/10682 [1:26:13<11:09,  2.03it/s]                                                      {'loss': 2.9171, 'grad_norm': 0.25688156485557556, 'learning_rate': 4.836732641133895e-05, 'epoch': 12.22}
- 87%|████████▋ | 9325/10682 [1:26:13<11:09,  2.03it/s] 87%|████████▋ | 9326/10682 [1:26:13<11:09,  2.03it/s] 87%|████████▋ | 9327/10682 [1:26:14<11:09,  2.02it/s] 87%|████████▋ | 9328/10682 [1:26:14<11:08,  2.02it/s] 87%|████████▋ | 9329/10682 [1:26:15<11:08,  2.02it/s] 87%|████████▋ | 9330/10682 [1:26:15<11:07,  2.02it/s] 87%|████████▋ | 9331/10682 [1:26:16<11:07,  2.03it/s] 87%|████████▋ | 9332/10682 [1:26:16<11:07,  2.02it/s] 87%|████████▋ | 9333/10682 [1:26:17<11:06,  2.02it/s] 87%|████████▋ | 9334/10682 [1:26:17<11:05,  2.02it/s] 87%|████████▋ | 9335/10682 [1:26:18<11:04,  2.03it/s] 87%|████████▋ | 9336/10682 [1:26:18<11:04,  2.02it/s] 87%|████████▋ | 9337/10682 [1:26:19<11:03,  2.03it/s] 87%|████████▋ | 9338/10682 [1:26:19<11:03,  2.02it/s] 87%|████████▋ | 9339/10682 [1:26:20<11:03,  2.02it/s] 87%|████████▋ | 9340/10682 [1:26:20<11:02,  2.03it/s] 87%|████████▋ | 9341/10682 [1:26:21<11:02,  2.02it/s] 87%|████████▋ | 9342/10682 [1:26:21<11:01,  2.03it/s] 87%|████████▋ | 9343/10682 [1:26:22<11:01,  2.02it/s] 87%|████████▋ | 9344/10682 [1:26:22<11:00,  2.03it/s] 87%|████████▋ | 9345/10682 [1:26:23<11:00,  2.03it/s] 87%|████████▋ | 9346/10682 [1:26:23<10:59,  2.03it/s] 88%|████████▊ | 9347/10682 [1:26:24<10:58,  2.03it/s] 88%|████████▊ | 9348/10682 [1:26:24<10:58,  2.03it/s] 88%|████████▊ | 9349/10682 [1:26:25<10:57,  2.03it/s] 88%|████████▊ | 9350/10682 [1:26:25<10:57,  2.03it/s]                                                      {'loss': 2.9311, 'grad_norm': 0.2595837116241455, 'learning_rate': 4.662958195146971e-05, 'epoch': 12.25}
- 88%|████████▊ | 9350/10682 [1:26:25<10:57,  2.03it/s] 88%|████████▊ | 9351/10682 [1:26:26<10:57,  2.02it/s] 88%|████████▊ | 9352/10682 [1:26:26<10:57,  2.02it/s] 88%|████████▊ | 9353/10682 [1:26:26<10:56,  2.03it/s] 88%|████████▊ | 9354/10682 [1:26:27<10:56,  2.02it/s] 88%|████████▊ | 9355/10682 [1:26:27<10:55,  2.03it/s] 88%|████████▊ | 9356/10682 [1:26:28<10:55,  2.02it/s] 88%|████████▊ | 9357/10682 [1:26:28<10:54,  2.02it/s] 88%|████████▊ | 9358/10682 [1:26:29<10:54,  2.02it/s] 88%|████████▊ | 9359/10682 [1:26:29<10:54,  2.02it/s] 88%|████████▊ | 9360/10682 [1:26:30<10:53,  2.02it/s] 88%|████████▊ | 9361/10682 [1:26:30<10:53,  2.02it/s] 88%|████████▊ | 9362/10682 [1:26:31<10:52,  2.02it/s] 88%|████████▊ | 9363/10682 [1:26:31<10:52,  2.02it/s] 88%|████████▊ | 9364/10682 [1:26:32<10:51,  2.02it/s] 88%|████████▊ | 9365/10682 [1:26:32<10:50,  2.02it/s] 88%|████████▊ | 9366/10682 [1:26:33<10:50,  2.02it/s] 88%|████████▊ | 9367/10682 [1:26:33<10:50,  2.02it/s] 88%|████████▊ | 9368/10682 [1:26:34<10:49,  2.02it/s] 88%|████████▊ | 9369/10682 [1:26:34<10:48,  2.03it/s] 88%|████████▊ | 9370/10682 [1:26:35<10:48,  2.02it/s] 88%|████████▊ | 9371/10682 [1:26:35<10:48,  2.02it/s] 88%|████████▊ | 9372/10682 [1:26:36<10:47,  2.02it/s] 88%|████████▊ | 9373/10682 [1:26:36<10:46,  2.02it/s] 88%|████████▊ | 9374/10682 [1:26:37<10:46,  2.02it/s] 88%|████████▊ | 9375/10682 [1:26:37<10:45,  2.03it/s]                                                      {'loss': 2.9336, 'grad_norm': 0.2590950131416321, 'learning_rate': 4.492210053786228e-05, 'epoch': 12.29}
- 88%|████████▊ | 9375/10682 [1:26:37<10:45,  2.03it/s] 88%|████████▊ | 9376/10682 [1:26:38<10:45,  2.02it/s] 88%|████████▊ | 9377/10682 [1:26:38<10:44,  2.02it/s] 88%|████████▊ | 9378/10682 [1:26:39<10:44,  2.02it/s] 88%|████████▊ | 9379/10682 [1:26:39<10:43,  2.03it/s] 88%|████████▊ | 9380/10682 [1:26:40<10:43,  2.02it/s] 88%|████████▊ | 9381/10682 [1:26:40<10:42,  2.03it/s] 88%|████████▊ | 9382/10682 [1:26:41<10:42,  2.02it/s] 88%|████████▊ | 9383/10682 [1:26:41<10:41,  2.03it/s] 88%|████████▊ | 9384/10682 [1:26:42<10:41,  2.02it/s] 88%|████████▊ | 9385/10682 [1:26:42<10:40,  2.03it/s] 88%|████████▊ | 9386/10682 [1:26:43<10:39,  2.03it/s] 88%|████████▊ | 9387/10682 [1:26:43<10:39,  2.02it/s] 88%|████████▊ | 9388/10682 [1:26:44<10:38,  2.03it/s] 88%|████████▊ | 9389/10682 [1:26:44<10:38,  2.02it/s] 88%|████████▊ | 9390/10682 [1:26:45<10:37,  2.03it/s] 88%|████████▊ | 9391/10682 [1:26:45<10:37,  2.03it/s] 88%|████████▊ | 9392/10682 [1:26:46<10:36,  2.03it/s] 88%|████████▊ | 9393/10682 [1:26:46<10:36,  2.03it/s] 88%|████████▊ | 9394/10682 [1:26:47<10:35,  2.03it/s] 88%|████████▊ | 9395/10682 [1:26:47<10:35,  2.03it/s] 88%|████████▊ | 9396/10682 [1:26:48<10:34,  2.03it/s] 88%|████████▊ | 9397/10682 [1:26:48<10:34,  2.03it/s] 88%|████████▊ | 9398/10682 [1:26:49<10:34,  2.02it/s] 88%|████████▊ | 9399/10682 [1:26:49<10:33,  2.03it/s] 88%|████████▊ | 9400/10682 [1:26:50<10:33,  2.02it/s]                                                      {'loss': 2.9257, 'grad_norm': 0.2565802037715912, 'learning_rate': 4.3244996147050855e-05, 'epoch': 12.32}
- 88%|████████▊ | 9400/10682 [1:26:50<10:33,  2.02it/s] 88%|████████▊ | 9401/10682 [1:26:50<10:34,  2.02it/s] 88%|████████▊ | 9402/10682 [1:26:51<10:34,  2.02it/s] 88%|████████▊ | 9403/10682 [1:26:51<10:32,  2.02it/s] 88%|████████▊ | 9404/10682 [1:26:52<10:32,  2.02it/s] 88%|████████▊ | 9405/10682 [1:26:52<10:30,  2.02it/s] 88%|████████▊ | 9406/10682 [1:26:53<10:30,  2.02it/s] 88%|████████▊ | 9407/10682 [1:26:53<10:30,  2.02it/s] 88%|████████▊ | 9408/10682 [1:26:54<10:29,  2.02it/s] 88%|████████▊ | 9409/10682 [1:26:54<10:29,  2.02it/s] 88%|████████▊ | 9410/10682 [1:26:55<10:28,  2.02it/s] 88%|████████▊ | 9411/10682 [1:26:55<10:29,  2.02it/s] 88%|████████▊ | 9412/10682 [1:26:56<10:28,  2.02it/s] 88%|████████▊ | 9413/10682 [1:26:56<10:27,  2.02it/s] 88%|████████▊ | 9414/10682 [1:26:57<10:26,  2.02it/s] 88%|████████▊ | 9415/10682 [1:26:57<10:26,  2.02it/s] 88%|████████▊ | 9416/10682 [1:26:58<10:25,  2.03it/s] 88%|████████▊ | 9417/10682 [1:26:58<10:24,  2.03it/s] 88%|████████▊ | 9418/10682 [1:26:59<10:23,  2.03it/s] 88%|████████▊ | 9419/10682 [1:26:59<10:23,  2.03it/s] 88%|████████▊ | 9420/10682 [1:27:00<10:21,  2.03it/s] 88%|████████▊ | 9421/10682 [1:27:00<10:22,  2.03it/s] 88%|████████▊ | 9422/10682 [1:27:01<10:21,  2.03it/s] 88%|████████▊ | 9423/10682 [1:27:01<10:21,  2.03it/s] 88%|████████▊ | 9424/10682 [1:27:02<10:20,  2.03it/s] 88%|████████▊ | 9425/10682 [1:27:02<10:20,  2.03it/s]{'loss': 2.9323, 'grad_norm': 0.25810080766677856, 'learning_rate': 4.1598380727865315e-05, 'epoch': 12.35}                                                      
- 88%|████████▊ | 9425/10682 [1:27:02<10:20,  2.03it/s] 88%|████████▊ | 9426/10682 [1:27:03<10:20,  2.02it/s] 88%|████████▊ | 9427/10682 [1:27:03<10:20,  2.02it/s] 88%|████████▊ | 9428/10682 [1:27:04<10:19,  2.02it/s] 88%|████████▊ | 9429/10682 [1:27:04<10:18,  2.03it/s] 88%|████████▊ | 9430/10682 [1:27:05<10:18,  2.03it/s] 88%|████████▊ | 9431/10682 [1:27:05<10:17,  2.03it/s] 88%|████████▊ | 9432/10682 [1:27:06<10:17,  2.02it/s] 88%|████████▊ | 9433/10682 [1:27:06<10:16,  2.03it/s] 88%|████████▊ | 9434/10682 [1:27:07<10:16,  2.02it/s] 88%|████████▊ | 9435/10682 [1:27:07<10:15,  2.03it/s] 88%|████████▊ | 9436/10682 [1:27:07<10:15,  2.03it/s] 88%|████████▊ | 9437/10682 [1:27:08<10:14,  2.03it/s] 88%|████████▊ | 9438/10682 [1:27:08<10:14,  2.03it/s] 88%|████████▊ | 9439/10682 [1:27:09<10:13,  2.03it/s] 88%|████████▊ | 9440/10682 [1:27:09<10:12,  2.03it/s] 88%|████████▊ | 9441/10682 [1:27:10<10:12,  2.03it/s] 88%|████████▊ | 9442/10682 [1:27:10<10:11,  2.03it/s] 88%|████████▊ | 9443/10682 [1:27:11<10:11,  2.02it/s] 88%|████████▊ | 9444/10682 [1:27:11<10:10,  2.03it/s] 88%|████████▊ | 9445/10682 [1:27:12<10:10,  2.03it/s] 88%|████████▊ | 9446/10682 [1:27:12<10:10,  2.03it/s] 88%|████████▊ | 9447/10682 [1:27:13<10:10,  2.02it/s] 88%|████████▊ | 9448/10682 [1:27:13<10:09,  2.03it/s] 88%|████████▊ | 9449/10682 [1:27:14<10:09,  2.02it/s] 88%|████████▊ | 9450/10682 [1:27:14<10:08,  2.02it/s]                                                      {'loss': 2.9287, 'grad_norm': 0.25776901841163635, 'learning_rate': 3.998236419395806e-05, 'epoch': 12.39}
- 88%|████████▊ | 9450/10682 [1:27:14<10:08,  2.02it/s] 88%|████████▊ | 9451/10682 [1:27:15<10:08,  2.02it/s] 88%|████████▊ | 9452/10682 [1:27:15<10:08,  2.02it/s] 88%|████████▊ | 9453/10682 [1:27:16<10:06,  2.02it/s] 89%|████████▊ | 9454/10682 [1:27:16<10:06,  2.02it/s] 89%|████████▊ | 9455/10682 [1:27:17<10:05,  2.03it/s] 89%|████████▊ | 9456/10682 [1:27:17<10:05,  2.03it/s] 89%|████████▊ | 9457/10682 [1:27:18<10:04,  2.03it/s] 89%|████████▊ | 9458/10682 [1:27:18<10:04,  2.03it/s] 89%|████████▊ | 9459/10682 [1:27:19<10:55,  1.86it/s] 89%|████████▊ | 9460/10682 [1:27:19<10:38,  1.91it/s] 89%|████████▊ | 9461/10682 [1:27:20<10:27,  1.94it/s] 89%|████████▊ | 9462/10682 [1:27:20<10:19,  1.97it/s] 89%|████████▊ | 9463/10682 [1:27:21<10:13,  1.99it/s] 89%|████████▊ | 9464/10682 [1:27:21<10:09,  2.00it/s] 89%|████████▊ | 9465/10682 [1:27:22<10:06,  2.01it/s] 89%|████████▊ | 9466/10682 [1:27:22<10:04,  2.01it/s] 89%|████████▊ | 9467/10682 [1:27:23<10:02,  2.02it/s] 89%|████████▊ | 9468/10682 [1:27:23<10:01,  2.02it/s] 89%|████████▊ | 9469/10682 [1:27:24<10:00,  2.02it/s] 89%|████████▊ | 9470/10682 [1:27:24<09:59,  2.02it/s] 89%|████████▊ | 9471/10682 [1:27:25<09:58,  2.02it/s] 89%|████████▊ | 9472/10682 [1:27:25<09:57,  2.02it/s] 89%|████████▊ | 9473/10682 [1:27:26<09:57,  2.02it/s] 89%|████████▊ | 9474/10682 [1:27:26<09:56,  2.03it/s] 89%|████████▊ | 9475/10682 [1:27:27<09:55,  2.03it/s]                                                      {'loss': 2.9383, 'grad_norm': 0.2581423223018646, 'learning_rate': 3.839705441646779e-05, 'epoch': 12.42}
- 89%|████████▊ | 9475/10682 [1:27:27<09:55,  2.03it/s] 89%|████████▊ | 9476/10682 [1:27:27<09:55,  2.03it/s] 89%|████████▊ | 9477/10682 [1:27:28<09:55,  2.02it/s] 89%|████████▊ | 9478/10682 [1:27:28<09:54,  2.03it/s] 89%|████████▊ | 9479/10682 [1:27:29<09:53,  2.03it/s] 89%|████████▊ | 9480/10682 [1:27:29<09:52,  2.03it/s] 89%|████████▉ | 9481/10682 [1:27:30<09:53,  2.03it/s] 89%|████████▉ | 9482/10682 [1:27:30<09:52,  2.02it/s] 89%|████████▉ | 9483/10682 [1:27:31<09:51,  2.03it/s] 89%|████████▉ | 9484/10682 [1:27:31<09:51,  2.03it/s] 89%|████████▉ | 9485/10682 [1:27:32<09:50,  2.03it/s] 89%|████████▉ | 9486/10682 [1:27:32<09:50,  2.03it/s] 89%|████████▉ | 9487/10682 [1:27:33<09:49,  2.03it/s] 89%|████████▉ | 9488/10682 [1:27:33<09:49,  2.03it/s] 89%|████████▉ | 9489/10682 [1:27:34<09:48,  2.03it/s] 89%|████████▉ | 9490/10682 [1:27:34<09:48,  2.03it/s] 89%|████████▉ | 9491/10682 [1:27:35<09:48,  2.03it/s] 89%|████████▉ | 9492/10682 [1:27:35<09:48,  2.02it/s] 89%|████████▉ | 9493/10682 [1:27:36<09:47,  2.02it/s] 89%|████████▉ | 9494/10682 [1:27:36<09:46,  2.02it/s] 89%|████████▉ | 9495/10682 [1:27:37<09:45,  2.03it/s] 89%|████████▉ | 9496/10682 [1:27:37<09:45,  2.02it/s] 89%|████████▉ | 9497/10682 [1:27:38<09:44,  2.03it/s] 89%|████████▉ | 9498/10682 [1:27:38<09:44,  2.03it/s] 89%|████████▉ | 9499/10682 [1:27:39<09:43,  2.03it/s] 89%|████████▉ | 9500/10682 [1:27:39<09:42,  2.03it/s]                                                      {'loss': 2.9281, 'grad_norm': 0.264408677816391, 'learning_rate': 3.6842557216818006e-05, 'epoch': 12.45}
- 89%|████████▉ | 9500/10682 [1:27:39<09:42,  2.03it/s] 89%|████████▉ | 9501/10682 [1:27:40<09:43,  2.02it/s] 89%|████████▉ | 9502/10682 [1:27:40<09:42,  2.02it/s] 89%|████████▉ | 9503/10682 [1:27:41<09:41,  2.03it/s] 89%|████████▉ | 9504/10682 [1:27:41<09:41,  2.03it/s] 89%|████████▉ | 9505/10682 [1:27:42<09:41,  2.03it/s] 89%|████████▉ | 9506/10682 [1:27:42<09:40,  2.03it/s] 89%|████████▉ | 9507/10682 [1:27:43<09:40,  2.02it/s] 89%|████████▉ | 9508/10682 [1:27:43<09:39,  2.03it/s] 89%|████████▉ | 9509/10682 [1:27:44<09:39,  2.02it/s] 89%|████████▉ | 9510/10682 [1:27:44<09:38,  2.03it/s] 89%|████████▉ | 9511/10682 [1:27:45<09:37,  2.03it/s] 89%|████████▉ | 9512/10682 [1:27:45<09:37,  2.03it/s] 89%|████████▉ | 9513/10682 [1:27:46<09:37,  2.02it/s] 89%|████████▉ | 9514/10682 [1:27:46<09:37,  2.02it/s] 89%|████████▉ | 9515/10682 [1:27:47<09:35,  2.03it/s] 89%|████████▉ | 9516/10682 [1:27:47<09:35,  2.03it/s] 89%|████████▉ | 9517/10682 [1:27:48<09:34,  2.03it/s] 89%|████████▉ | 9518/10682 [1:27:48<09:34,  2.03it/s] 89%|████████▉ | 9519/10682 [1:27:49<09:33,  2.03it/s] 89%|████████▉ | 9520/10682 [1:27:49<09:33,  2.03it/s] 89%|████████▉ | 9521/10682 [1:27:50<09:33,  2.03it/s] 89%|████████▉ | 9522/10682 [1:27:50<09:32,  2.02it/s] 89%|████████▉ | 9523/10682 [1:27:51<09:32,  2.02it/s] 89%|████████▉ | 9524/10682 [1:27:51<09:32,  2.02it/s] 89%|████████▉ | 9525/10682 [1:27:52<09:31,  2.02it/s]                                                      {'loss': 2.9198, 'grad_norm': 0.2611311078071594, 'learning_rate': 3.531897635965431e-05, 'epoch': 12.48}
- 89%|████████▉ | 9525/10682 [1:27:52<09:31,  2.02it/s] 89%|████████▉ | 9526/10682 [1:27:52<09:33,  2.01it/s] 89%|████████▉ | 9527/10682 [1:27:53<09:32,  2.02it/s] 89%|████████▉ | 9528/10682 [1:27:53<09:31,  2.02it/s] 89%|████████▉ | 9529/10682 [1:27:54<09:30,  2.02it/s] 89%|████████▉ | 9530/10682 [1:27:54<09:29,  2.02it/s] 89%|████████▉ | 9531/10682 [1:27:55<09:29,  2.02it/s] 89%|████████▉ | 9532/10682 [1:27:55<09:28,  2.02it/s] 89%|████████▉ | 9533/10682 [1:27:56<09:27,  2.02it/s] 89%|████████▉ | 9534/10682 [1:27:56<09:27,  2.02it/s] 89%|████████▉ | 9535/10682 [1:27:57<09:26,  2.02it/s] 89%|████████▉ | 9536/10682 [1:27:57<09:26,  2.02it/s] 89%|████████▉ | 9537/10682 [1:27:58<09:26,  2.02it/s] 89%|████████▉ | 9538/10682 [1:27:58<09:25,  2.02it/s] 89%|████████▉ | 9539/10682 [1:27:58<09:25,  2.02it/s] 89%|████████▉ | 9540/10682 [1:27:59<09:24,  2.02it/s] 89%|████████▉ | 9541/10682 [1:27:59<09:23,  2.03it/s] 89%|████████▉ | 9542/10682 [1:28:00<09:22,  2.03it/s] 89%|████████▉ | 9543/10682 [1:28:00<09:22,  2.03it/s] 89%|████████▉ | 9544/10682 [1:28:01<09:21,  2.03it/s] 89%|████████▉ | 9545/10682 [1:28:01<09:21,  2.03it/s] 89%|████████▉ | 9546/10682 [1:28:02<09:20,  2.03it/s] 89%|████████▉ | 9547/10682 [1:28:02<09:20,  2.03it/s] 89%|████████▉ | 9548/10682 [1:28:03<09:19,  2.03it/s] 89%|████████▉ | 9549/10682 [1:28:03<09:18,  2.03it/s] 89%|████████▉ | 9550/10682 [1:28:04<09:18,  2.03it/s]{'loss': 2.9352, 'grad_norm': 0.26018598675727844, 'learning_rate': 3.382641354591731e-05, 'epoch': 12.52}                                                      
- 89%|████████▉ | 9550/10682 [1:28:04<09:18,  2.03it/s] 89%|████████▉ | 9551/10682 [1:28:04<09:18,  2.02it/s] 89%|████████▉ | 9552/10682 [1:28:05<09:18,  2.02it/s] 89%|████████▉ | 9553/10682 [1:28:05<09:17,  2.02it/s] 89%|████████▉ | 9554/10682 [1:28:06<09:17,  2.02it/s] 89%|████████▉ | 9555/10682 [1:28:06<09:16,  2.02it/s] 89%|████████▉ | 9556/10682 [1:28:07<09:15,  2.03it/s] 89%|████████▉ | 9557/10682 [1:28:07<09:15,  2.02it/s] 89%|████████▉ | 9558/10682 [1:28:08<09:15,  2.02it/s] 89%|████████▉ | 9559/10682 [1:28:08<09:14,  2.02it/s] 89%|████████▉ | 9560/10682 [1:28:09<09:14,  2.02it/s] 90%|████████▉ | 9561/10682 [1:28:09<09:13,  2.02it/s] 90%|████████▉ | 9562/10682 [1:28:10<09:13,  2.02it/s] 90%|████████▉ | 9563/10682 [1:28:10<09:13,  2.02it/s] 90%|████████▉ | 9564/10682 [1:28:11<09:12,  2.02it/s] 90%|████████▉ | 9565/10682 [1:28:11<09:12,  2.02it/s] 90%|████████▉ | 9566/10682 [1:28:12<09:11,  2.02it/s] 90%|████████▉ | 9567/10682 [1:28:12<09:11,  2.02it/s] 90%|████████▉ | 9568/10682 [1:28:13<09:10,  2.02it/s] 90%|████████▉ | 9569/10682 [1:28:13<09:57,  1.86it/s] 90%|████████▉ | 9570/10682 [1:28:14<09:42,  1.91it/s] 90%|████████▉ | 9571/10682 [1:28:14<09:32,  1.94it/s] 90%|████████▉ | 9572/10682 [1:28:15<09:24,  1.97it/s] 90%|████████▉ | 9573/10682 [1:28:15<09:19,  1.98it/s] 90%|████████▉ | 9574/10682 [1:28:16<09:16,  1.99it/s] 90%|████████▉ | 9575/10682 [1:28:16<09:13,  2.00it/s]                                                      {'loss': 2.9299, 'grad_norm': 0.25863736867904663, 'learning_rate': 3.2364968406054075e-05, 'epoch': 12.55}
- 90%|████████▉ | 9575/10682 [1:28:16<09:13,  2.00it/s] 90%|████████▉ | 9576/10682 [1:28:17<09:11,  2.01it/s] 90%|████████▉ | 9577/10682 [1:28:17<09:09,  2.01it/s] 90%|████████▉ | 9578/10682 [1:28:18<09:07,  2.02it/s] 90%|████████▉ | 9579/10682 [1:28:18<09:06,  2.02it/s] 90%|████████▉ | 9580/10682 [1:28:19<09:05,  2.02it/s] 90%|████████▉ | 9581/10682 [1:28:19<09:05,  2.02it/s] 90%|████████▉ | 9582/10682 [1:28:20<09:04,  2.02it/s] 90%|████████▉ | 9583/10682 [1:28:20<09:03,  2.02it/s] 90%|████████▉ | 9584/10682 [1:28:21<09:03,  2.02it/s] 90%|████████▉ | 9585/10682 [1:28:21<09:02,  2.02it/s] 90%|████████▉ | 9586/10682 [1:28:22<09:02,  2.02it/s] 90%|████████▉ | 9587/10682 [1:28:22<09:01,  2.02it/s] 90%|████████▉ | 9588/10682 [1:28:23<09:00,  2.02it/s] 90%|████████▉ | 9589/10682 [1:28:23<08:59,  2.03it/s] 90%|████████▉ | 9590/10682 [1:28:24<08:59,  2.03it/s] 90%|████████▉ | 9591/10682 [1:28:24<08:58,  2.03it/s] 90%|████████▉ | 9592/10682 [1:28:25<08:58,  2.02it/s] 90%|████████▉ | 9593/10682 [1:28:25<08:57,  2.02it/s] 90%|████████▉ | 9594/10682 [1:28:26<08:57,  2.03it/s] 90%|████████▉ | 9595/10682 [1:28:26<08:56,  2.03it/s] 90%|████████▉ | 9596/10682 [1:28:27<08:56,  2.03it/s] 90%|████████▉ | 9597/10682 [1:28:27<08:55,  2.03it/s] 90%|████████▉ | 9598/10682 [1:28:28<08:55,  2.02it/s] 90%|████████▉ | 9599/10682 [1:28:28<08:54,  2.02it/s] 90%|████████▉ | 9600/10682 [1:28:29<08:54,  2.02it/s]                                                      {'loss': 2.9395, 'grad_norm': 0.2580958604812622, 'learning_rate': 3.093473849336781e-05, 'epoch': 12.58}
- 90%|████████▉ | 9600/10682 [1:28:29<08:54,  2.02it/s] 90%|████████▉ | 9601/10682 [1:28:29<08:54,  2.02it/s] 90%|████████▉ | 9602/10682 [1:28:30<08:54,  2.02it/s] 90%|████████▉ | 9603/10682 [1:28:30<08:53,  2.02it/s] 90%|████████▉ | 9604/10682 [1:28:31<08:52,  2.03it/s] 90%|████████▉ | 9605/10682 [1:28:31<08:52,  2.02it/s] 90%|████████▉ | 9606/10682 [1:28:32<08:50,  2.03it/s] 90%|████████▉ | 9607/10682 [1:28:32<08:51,  2.02it/s] 90%|████████▉ | 9608/10682 [1:28:33<08:50,  2.03it/s] 90%|████████▉ | 9609/10682 [1:28:33<08:50,  2.02it/s] 90%|████████▉ | 9610/10682 [1:28:34<08:49,  2.02it/s] 90%|████████▉ | 9611/10682 [1:28:34<08:49,  2.02it/s] 90%|████████▉ | 9612/10682 [1:28:35<08:48,  2.02it/s] 90%|████████▉ | 9613/10682 [1:28:35<08:48,  2.02it/s] 90%|█████████ | 9614/10682 [1:28:36<08:47,  2.03it/s] 90%|█████████ | 9615/10682 [1:28:36<08:46,  2.03it/s] 90%|█████████ | 9616/10682 [1:28:37<08:46,  2.02it/s] 90%|█████████ | 9617/10682 [1:28:37<08:45,  2.03it/s] 90%|█████████ | 9618/10682 [1:28:38<08:45,  2.03it/s] 90%|█████████ | 9619/10682 [1:28:38<08:44,  2.03it/s] 90%|█████████ | 9620/10682 [1:28:39<08:43,  2.03it/s] 90%|█████████ | 9621/10682 [1:28:39<08:43,  2.03it/s] 90%|█████████ | 9622/10682 [1:28:40<08:43,  2.02it/s] 90%|█████████ | 9623/10682 [1:28:40<08:43,  2.02it/s] 90%|█████████ | 9624/10682 [1:28:41<08:42,  2.02it/s] 90%|█████████ | 9625/10682 [1:28:41<08:42,  2.02it/s]                                                      {'loss': 2.9341, 'grad_norm': 0.261229008436203, 'learning_rate': 2.9535819277506203e-05, 'epoch': 12.61}
- 90%|█████████ | 9625/10682 [1:28:41<08:42,  2.02it/s] 90%|█████████ | 9626/10682 [1:28:42<08:42,  2.02it/s] 90%|█████████ | 9627/10682 [1:28:42<08:41,  2.02it/s] 90%|█████████ | 9628/10682 [1:28:43<08:40,  2.02it/s] 90%|█████████ | 9629/10682 [1:28:43<08:39,  2.03it/s] 90%|█████████ | 9630/10682 [1:28:44<08:39,  2.02it/s] 90%|█████████ | 9631/10682 [1:28:44<08:38,  2.03it/s] 90%|█████████ | 9632/10682 [1:28:45<08:38,  2.03it/s] 90%|█████████ | 9633/10682 [1:28:45<08:37,  2.03it/s] 90%|█████████ | 9634/10682 [1:28:46<08:37,  2.02it/s] 90%|█████████ | 9635/10682 [1:28:46<08:37,  2.02it/s] 90%|█████████ | 9636/10682 [1:28:47<08:36,  2.03it/s] 90%|█████████ | 9637/10682 [1:28:47<08:35,  2.03it/s] 90%|█████████ | 9638/10682 [1:28:48<08:35,  2.03it/s] 90%|█████████ | 9639/10682 [1:28:48<08:34,  2.03it/s] 90%|█████████ | 9640/10682 [1:28:49<08:34,  2.03it/s] 90%|█████████ | 9641/10682 [1:28:49<08:33,  2.03it/s] 90%|█████████ | 9642/10682 [1:28:50<08:33,  2.03it/s] 90%|█████████ | 9643/10682 [1:28:50<08:32,  2.03it/s] 90%|█████████ | 9644/10682 [1:28:51<08:32,  2.03it/s] 90%|█████████ | 9645/10682 [1:28:51<08:32,  2.03it/s] 90%|█████████ | 9646/10682 [1:28:51<08:31,  2.02it/s] 90%|█████████ | 9647/10682 [1:28:52<08:31,  2.03it/s] 90%|█████████ | 9648/10682 [1:28:52<08:30,  2.02it/s] 90%|█████████ | 9649/10682 [1:28:53<08:30,  2.03it/s] 90%|█████████ | 9650/10682 [1:28:53<08:29,  2.02it/s]                                                      {'loss': 2.9337, 'grad_norm': 0.25486069917678833, 'learning_rate': 2.8168304138088295e-05, 'epoch': 12.65}
- 90%|█████████ | 9650/10682 [1:28:53<08:29,  2.02it/s] 90%|█████████ | 9651/10682 [1:28:54<08:30,  2.02it/s] 90%|█████████ | 9652/10682 [1:28:54<08:29,  2.02it/s] 90%|█████████ | 9653/10682 [1:28:55<08:28,  2.02it/s] 90%|█████████ | 9654/10682 [1:28:55<08:27,  2.03it/s] 90%|█████████ | 9655/10682 [1:28:56<08:27,  2.02it/s] 90%|█████████ | 9656/10682 [1:28:56<08:26,  2.03it/s] 90%|█████████ | 9657/10682 [1:28:57<08:25,  2.03it/s] 90%|█████████ | 9658/10682 [1:28:57<08:25,  2.03it/s] 90%|█████████ | 9659/10682 [1:28:58<08:25,  2.02it/s] 90%|█████████ | 9660/10682 [1:28:58<08:24,  2.03it/s] 90%|█████████ | 9661/10682 [1:28:59<08:24,  2.02it/s] 90%|█████████ | 9662/10682 [1:28:59<08:23,  2.02it/s] 90%|█████████ | 9663/10682 [1:29:00<08:23,  2.02it/s] 90%|█████████ | 9664/10682 [1:29:00<08:22,  2.03it/s] 90%|█████████ | 9665/10682 [1:29:01<08:22,  2.02it/s] 90%|█████████ | 9666/10682 [1:29:01<08:21,  2.02it/s] 90%|█████████ | 9667/10682 [1:29:02<08:21,  2.02it/s] 91%|█████████ | 9668/10682 [1:29:02<08:20,  2.02it/s] 91%|█████████ | 9669/10682 [1:29:03<08:20,  2.03it/s] 91%|█████████ | 9670/10682 [1:29:03<08:19,  2.02it/s] 91%|█████████ | 9671/10682 [1:29:04<08:19,  2.03it/s] 91%|█████████ | 9672/10682 [1:29:04<08:19,  2.02it/s] 91%|█████████ | 9673/10682 [1:29:05<08:18,  2.02it/s] 91%|█████████ | 9674/10682 [1:29:05<08:18,  2.02it/s] 91%|█████████ | 9675/10682 [1:29:06<08:17,  2.02it/s]                                                      {'loss': 2.9371, 'grad_norm': 0.2583189904689789, 'learning_rate': 2.6832284358471516e-05, 'epoch': 12.68}
- 91%|█████████ | 9675/10682 [1:29:06<08:17,  2.02it/s] 91%|█████████ | 9676/10682 [1:29:06<08:17,  2.02it/s] 91%|█████████ | 9677/10682 [1:29:07<08:16,  2.02it/s] 91%|█████████ | 9678/10682 [1:29:07<08:16,  2.02it/s] 91%|█████████ | 9679/10682 [1:29:08<08:15,  2.02it/s] 91%|█████████ | 9680/10682 [1:29:08<08:15,  2.02it/s] 91%|█████████ | 9681/10682 [1:29:09<08:15,  2.02it/s] 91%|█████████ | 9682/10682 [1:29:09<08:14,  2.02it/s] 91%|█████████ | 9683/10682 [1:29:10<08:14,  2.02it/s] 91%|█████████ | 9684/10682 [1:29:10<08:13,  2.02it/s] 91%|█████████ | 9685/10682 [1:29:11<08:12,  2.02it/s] 91%|█████████ | 9686/10682 [1:29:11<08:12,  2.02it/s] 91%|█████████ | 9687/10682 [1:29:12<08:12,  2.02it/s] 91%|█████████ | 9688/10682 [1:29:12<08:11,  2.02it/s] 91%|█████████ | 9689/10682 [1:29:13<08:10,  2.02it/s] 91%|█████████ | 9690/10682 [1:29:13<08:09,  2.02it/s] 91%|█████████ | 9691/10682 [1:29:14<08:09,  2.02it/s] 91%|█████████ | 9692/10682 [1:29:14<08:09,  2.02it/s] 91%|█████████ | 9693/10682 [1:29:15<08:08,  2.02it/s] 91%|█████████ | 9694/10682 [1:29:15<08:07,  2.02it/s] 91%|█████████ | 9695/10682 [1:29:16<08:14,  2.00it/s] 91%|█████████ | 9696/10682 [1:29:16<08:11,  2.01it/s] 91%|█████████ | 9697/10682 [1:29:17<08:09,  2.01it/s] 91%|█████████ | 9698/10682 [1:29:17<08:08,  2.02it/s] 91%|█████████ | 9699/10682 [1:29:18<08:07,  2.02it/s] 91%|█████████ | 9700/10682 [1:29:18<08:06,  2.02it/s]                                                      {'loss': 2.9341, 'grad_norm': 0.26042258739471436, 'learning_rate': 2.5527849119658387e-05, 'epoch': 12.71}
- 91%|█████████ | 9700/10682 [1:29:18<08:06,  2.02it/s] 91%|█████████ | 9701/10682 [1:29:19<08:06,  2.02it/s] 91%|█████████ | 9702/10682 [1:29:19<08:05,  2.02it/s] 91%|█████████ | 9703/10682 [1:29:20<08:04,  2.02it/s] 91%|█████████ | 9704/10682 [1:29:20<08:03,  2.02it/s] 91%|█████████ | 9705/10682 [1:29:21<08:03,  2.02it/s] 91%|█████████ | 9706/10682 [1:29:21<08:02,  2.02it/s] 91%|█████████ | 9707/10682 [1:29:22<08:02,  2.02it/s] 91%|█████████ | 9708/10682 [1:29:22<08:01,  2.02it/s] 91%|█████████ | 9709/10682 [1:29:23<08:00,  2.03it/s] 91%|█████████ | 9710/10682 [1:29:23<08:00,  2.02it/s] 91%|█████████ | 9711/10682 [1:29:24<07:59,  2.03it/s] 91%|█████████ | 9712/10682 [1:29:24<07:59,  2.02it/s] 91%|█████████ | 9713/10682 [1:29:25<07:58,  2.02it/s] 91%|█████████ | 9714/10682 [1:29:25<07:58,  2.02it/s] 91%|█████████ | 9715/10682 [1:29:26<07:57,  2.02it/s] 91%|█████████ | 9716/10682 [1:29:26<07:57,  2.02it/s] 91%|█████████ | 9717/10682 [1:29:27<07:56,  2.02it/s] 91%|█████████ | 9718/10682 [1:29:27<07:56,  2.02it/s] 91%|█████████ | 9719/10682 [1:29:28<07:55,  2.02it/s] 91%|█████████ | 9720/10682 [1:29:28<07:55,  2.02it/s] 91%|█████████ | 9721/10682 [1:29:29<07:54,  2.02it/s] 91%|█████████ | 9722/10682 [1:29:29<07:54,  2.02it/s] 91%|█████████ | 9723/10682 [1:29:30<07:53,  2.02it/s] 91%|█████████ | 9724/10682 [1:29:30<07:53,  2.02it/s] 91%|█████████ | 9725/10682 [1:29:31<07:52,  2.03it/s]                                                      {'loss': 2.9331, 'grad_norm': 0.2615211308002472, 'learning_rate': 2.4255085494343522e-05, 'epoch': 12.75}
- 91%|█████████ | 9725/10682 [1:29:31<07:52,  2.03it/s] 91%|█████████ | 9726/10682 [1:29:31<07:52,  2.02it/s] 91%|█████████ | 9727/10682 [1:29:32<07:52,  2.02it/s] 91%|█████████ | 9728/10682 [1:29:32<07:52,  2.02it/s] 91%|█████████ | 9729/10682 [1:29:33<07:51,  2.02it/s] 91%|█████████ | 9730/10682 [1:29:33<07:50,  2.02it/s] 91%|█████████ | 9731/10682 [1:29:34<07:50,  2.02it/s] 91%|█████████ | 9732/10682 [1:29:34<07:50,  2.02it/s] 91%|█████████ | 9733/10682 [1:29:35<07:49,  2.02it/s] 91%|█████████ | 9734/10682 [1:29:35<07:48,  2.02it/s] 91%|█████████ | 9735/10682 [1:29:35<07:47,  2.02it/s] 91%|█████████ | 9736/10682 [1:29:36<07:47,  2.02it/s] 91%|█████████ | 9737/10682 [1:29:36<07:46,  2.02it/s] 91%|█████████ | 9738/10682 [1:29:37<07:46,  2.02it/s] 91%|█████████ | 9739/10682 [1:29:37<07:45,  2.02it/s] 91%|█████████ | 9740/10682 [1:29:38<07:45,  2.03it/s] 91%|█████████ | 9741/10682 [1:29:38<07:44,  2.02it/s] 91%|█████████ | 9742/10682 [1:29:39<07:44,  2.03it/s] 91%|█████████ | 9743/10682 [1:29:39<07:44,  2.02it/s] 91%|█████████ | 9744/10682 [1:29:40<07:44,  2.02it/s] 91%|█████████ | 9745/10682 [1:29:40<07:43,  2.02it/s] 91%|█████████ | 9746/10682 [1:29:41<07:42,  2.02it/s] 91%|█████████ | 9747/10682 [1:29:41<07:42,  2.02it/s] 91%|█████████▏| 9748/10682 [1:29:42<07:41,  2.02it/s] 91%|█████████▏| 9749/10682 [1:29:42<07:41,  2.02it/s] 91%|█████████▏| 9750/10682 [1:29:43<07:40,  2.02it/s]                                                      {'loss': 2.9296, 'grad_norm': 0.25791215896606445, 'learning_rate': 2.301407844110154e-05, 'epoch': 12.78}
- 91%|█████████▏| 9750/10682 [1:29:43<07:40,  2.02it/s] 91%|█████████▏| 9751/10682 [1:29:43<07:42,  2.01it/s] 91%|█████████▏| 9752/10682 [1:29:44<07:41,  2.02it/s] 91%|█████████▏| 9753/10682 [1:29:44<07:40,  2.02it/s] 91%|█████████▏| 9754/10682 [1:29:45<07:39,  2.02it/s] 91%|█████████▏| 9755/10682 [1:29:45<07:39,  2.02it/s] 91%|█████████▏| 9756/10682 [1:29:46<07:38,  2.02it/s] 91%|█████████▏| 9757/10682 [1:29:46<07:38,  2.02it/s] 91%|█████████▏| 9758/10682 [1:29:47<07:36,  2.02it/s] 91%|█████████▏| 9759/10682 [1:29:47<07:36,  2.02it/s] 91%|█████████▏| 9760/10682 [1:29:48<07:36,  2.02it/s] 91%|█████████▏| 9761/10682 [1:29:48<07:35,  2.02it/s] 91%|█████████▏| 9762/10682 [1:29:49<07:35,  2.02it/s] 91%|█████████▏| 9763/10682 [1:29:49<07:34,  2.02it/s] 91%|█��███████▏| 9764/10682 [1:29:50<07:33,  2.02it/s] 91%|█████████▏| 9765/10682 [1:29:50<07:32,  2.02it/s] 91%|█████████▏| 9766/10682 [1:29:51<07:32,  2.02it/s] 91%|█████████▏| 9767/10682 [1:29:51<07:32,  2.02it/s] 91%|█████████▏| 9768/10682 [1:29:52<07:31,  2.02it/s] 91%|█████████▏| 9769/10682 [1:29:52<07:31,  2.02it/s] 91%|█████████▏| 9770/10682 [1:29:53<07:30,  2.02it/s] 91%|█████████▏| 9771/10682 [1:29:53<07:30,  2.02it/s] 91%|█████████▏| 9772/10682 [1:29:54<07:29,  2.02it/s] 91%|█████████▏| 9773/10682 [1:29:54<07:29,  2.02it/s] 91%|█████████▏| 9774/10682 [1:29:55<07:29,  2.02it/s] 92%|█████████▏| 9775/10682 [1:29:55<07:28,  2.02it/s]{'loss': 2.9472, 'grad_norm': 0.2584896981716156, 'learning_rate': 2.1804910798715826e-05, 'epoch': 12.81}                                                      
- 92%|█████████▏| 9775/10682 [1:29:55<07:28,  2.02it/s] 92%|█████████▏| 9776/10682 [1:29:56<07:29,  2.01it/s] 92%|█████████▏| 9777/10682 [1:29:56<07:28,  2.02it/s] 92%|█████████▏| 9778/10682 [1:29:57<07:27,  2.02it/s] 92%|█████████▏| 9779/10682 [1:29:57<07:26,  2.02it/s] 92%|█████████▏| 9780/10682 [1:29:58<07:26,  2.02it/s] 92%|█████████▏| 9781/10682 [1:29:58<07:26,  2.02it/s] 92%|█████████▏| 9782/10682 [1:29:59<07:25,  2.02it/s] 92%|█████████▏| 9783/10682 [1:29:59<07:24,  2.02it/s] 92%|█████████▏| 9784/10682 [1:30:00<07:24,  2.02it/s] 92%|█████████▏| 9785/10682 [1:30:00<07:23,  2.02it/s] 92%|█████████▏| 9786/10682 [1:30:01<07:23,  2.02it/s] 92%|█████████▏| 9787/10682 [1:30:01<07:22,  2.02it/s] 92%|█████████▏| 9788/10682 [1:30:02<07:22,  2.02it/s] 92%|█████████▏| 9789/10682 [1:30:02<07:21,  2.02it/s] 92%|█████████▏| 9790/10682 [1:30:03<07:20,  2.02it/s] 92%|█████████▏| 9791/10682 [1:30:03<07:20,  2.02it/s] 92%|█████████▏| 9792/10682 [1:30:04<07:19,  2.03it/s] 92%|█████████▏| 9793/10682 [1:30:04<07:19,  2.02it/s] 92%|█████████▏| 9794/10682 [1:30:05<07:18,  2.03it/s] 92%|█████████▏| 9795/10682 [1:30:05<07:18,  2.02it/s] 92%|█████████▏| 9796/10682 [1:30:06<07:17,  2.03it/s] 92%|█████████▏| 9797/10682 [1:30:06<07:17,  2.02it/s] 92%|█████████▏| 9798/10682 [1:30:07<07:16,  2.03it/s] 92%|█████████▏| 9799/10682 [1:30:07<07:16,  2.02it/s] 92%|█████████▏| 9800/10682 [1:30:08<07:15,  2.02it/s]                                                      {'loss': 2.9407, 'grad_norm': 0.2589004337787628, 'learning_rate': 2.0627663280649135e-05, 'epoch': 12.84}
- 92%|█████████▏| 9800/10682 [1:30:08<07:15,  2.02it/s] 92%|█████████▏| 9801/10682 [1:30:08<07:15,  2.02it/s] 92%|█████████▏| 9802/10682 [1:30:09<07:15,  2.02it/s] 92%|█████████▏| 9803/10682 [1:30:09<07:14,  2.02it/s] 92%|█████████▏| 9804/10682 [1:30:10<07:13,  2.02it/s] 92%|█████████▏| 9805/10682 [1:30:10<07:13,  2.02it/s] 92%|█████████▏| 9806/10682 [1:30:11<07:13,  2.02it/s] 92%|█████████▏| 9807/10682 [1:30:11<07:12,  2.02it/s] 92%|█████████▏| 9808/10682 [1:30:12<07:11,  2.02it/s] 92%|█████████▏| 9809/10682 [1:30:12<07:11,  2.02it/s] 92%|█████████▏| 9810/10682 [1:30:13<07:10,  2.02it/s] 92%|█████████▏| 9811/10682 [1:30:13<07:10,  2.02it/s] 92%|█████████▏| 9812/10682 [1:30:14<07:09,  2.02it/s] 92%|█████████▏| 9813/10682 [1:30:14<07:09,  2.02it/s] 92%|█████████▏| 9814/10682 [1:30:15<07:08,  2.02it/s] 92%|█████████▏| 9815/10682 [1:30:15<07:08,  2.02it/s] 92%|█████████▏| 9816/10682 [1:30:16<07:08,  2.02it/s] 92%|█████████▏| 9817/10682 [1:30:16<07:07,  2.02it/s] 92%|█████████▏| 9818/10682 [1:30:17<07:07,  2.02it/s] 92%|█████████▏| 9819/10682 [1:30:17<07:06,  2.02it/s] 92%|█████████▏| 9820/10682 [1:30:18<07:06,  2.02it/s] 92%|█████████▏| 9821/10682 [1:30:18<07:05,  2.02it/s] 92%|█████████▏| 9822/10682 [1:30:19<07:05,  2.02it/s] 92%|█████████▏| 9823/10682 [1:30:19<07:04,  2.02it/s] 92%|█████████▏| 9824/10682 [1:30:20<07:04,  2.02it/s] 92%|█████████▏| 9825/10682 [1:30:20<07:03,  2.02it/s]{'loss': 2.9385, 'grad_norm': 0.26164060831069946, 'learning_rate': 1.9482414469655486e-05, 'epoch': 12.88}                                                      
- 92%|█████████▏| 9825/10682 [1:30:20<07:03,  2.02it/s] 92%|█████████▏| 9826/10682 [1:30:20<07:03,  2.02it/s] 92%|█████████▏| 9827/10682 [1:30:21<07:02,  2.02it/s] 92%|█████████▏| 9828/10682 [1:30:21<07:02,  2.02it/s] 92%|█████████▏| 9829/10682 [1:30:22<07:01,  2.02it/s] 92%|█████████▏| 9830/10682 [1:30:22<07:00,  2.02it/s] 92%|█████████▏| 9831/10682 [1:30:23<07:00,  2.02it/s] 92%|█████████▏| 9832/10682 [1:30:23<06:59,  2.02it/s] 92%|█████████▏| 9833/10682 [1:30:24<06:59,  2.02it/s] 92%|█████████▏| 9834/10682 [1:30:24<06:58,  2.02it/s] 92%|█████████▏| 9835/10682 [1:30:25<06:58,  2.02it/s] 92%|█████████▏| 9836/10682 [1:30:25<06:57,  2.02it/s] 92%|█████████▏| 9837/10682 [1:30:26<06:57,  2.02it/s] 92%|█████████▏| 9838/10682 [1:30:26<06:57,  2.02it/s] 92%|█████████▏| 9839/10682 [1:30:27<06:56,  2.02it/s] 92%|█████████▏| 9840/10682 [1:30:27<06:56,  2.02it/s] 92%|█████████▏| 9841/10682 [1:30:28<06:55,  2.02it/s] 92%|█████████▏| 9842/10682 [1:30:28<06:55,  2.02it/s] 92%|█████████▏| 9843/10682 [1:30:29<06:54,  2.02it/s] 92%|█████████▏| 9844/10682 [1:30:29<06:54,  2.02it/s] 92%|█████████▏| 9845/10682 [1:30:30<06:54,  2.02it/s] 92%|█████████▏| 9846/10682 [1:30:30<06:54,  2.01it/s] 92%|█████████▏| 9847/10682 [1:30:31<06:54,  2.02it/s] 92%|█████████▏| 9848/10682 [1:30:31<06:53,  2.02it/s] 92%|█████████▏| 9849/10682 [1:30:32<06:52,  2.02it/s] 92%|█████████▏| 9850/10682 [1:30:32<06:51,  2.02it/s]                                                      {'loss': 2.9324, 'grad_norm': 0.26078513264656067, 'learning_rate': 1.8369240812535104e-05, 'epoch': 12.91}
- 92%|█████████▏| 9850/10682 [1:30:32<06:51,  2.02it/s] 92%|█████████▏| 9851/10682 [1:30:33<06:54,  2.00it/s] 92%|█████████▏| 9852/10682 [1:30:33<06:52,  2.01it/s] 92%|█████████▏| 9853/10682 [1:30:34<06:51,  2.01it/s] 92%|█████████▏| 9854/10682 [1:30:34<06:50,  2.02it/s] 92%|█████████▏| 9855/10682 [1:30:35<06:50,  2.02it/s] 92%|█████████▏| 9856/10682 [1:30:35<06:49,  2.02it/s] 92%|█████████▏| 9857/10682 [1:30:36<06:48,  2.02it/s] 92%|█████████▏| 9858/10682 [1:30:36<06:47,  2.02it/s] 92%|█████████▏| 9859/10682 [1:30:37<06:47,  2.02it/s] 92%|█████████▏| 9860/10682 [1:30:37<06:46,  2.02it/s] 92%|█████████▏| 9861/10682 [1:30:38<06:46,  2.02it/s] 92%|█████████▏| 9862/10682 [1:30:38<06:45,  2.02it/s] 92%|█████████▏| 9863/10682 [1:30:39<06:44,  2.02it/s] 92%|█████████▏| 9864/10682 [1:30:39<06:44,  2.02it/s] 92%|█████████▏| 9865/10682 [1:30:40<06:43,  2.02it/s] 92%|█████████▏| 9866/10682 [1:30:40<06:43,  2.02it/s] 92%|█████████▏| 9867/10682 [1:30:41<06:45,  2.01it/s] 92%|█████████▏| 9868/10682 [1:30:41<06:43,  2.02it/s] 92%|█████████▏| 9869/10682 [1:30:42<06:42,  2.02it/s] 92%|█████████▏| 9870/10682 [1:30:42<06:41,  2.02it/s] 92%|█████████▏| 9871/10682 [1:30:43<06:40,  2.02it/s] 92%|█████████▏| 9872/10682 [1:30:43<06:40,  2.02it/s] 92%|█████████▏| 9873/10682 [1:30:44<06:39,  2.02it/s] 92%|█████████▏| 9874/10682 [1:30:44<06:39,  2.02it/s] 92%|█████████▏| 9875/10682 [1:30:45<06:38,  2.03it/s]                                                      {'loss': 2.9363, 'grad_norm': 0.25975480675697327, 'learning_rate': 1.7288216615031272e-05, 'epoch': 12.94}
- 92%|█████████▏| 9875/10682 [1:30:45<06:38,  2.03it/s] 92%|█████████▏| 9876/10682 [1:30:45<06:38,  2.02it/s] 92%|█████████▏| 9877/10682 [1:30:46<06:38,  2.02it/s] 92%|█████████▏| 9878/10682 [1:30:46<06:38,  2.02it/s] 92%|█████████▏| 9879/10682 [1:30:47<06:37,  2.02it/s] 92%|█████████▏| 9880/10682 [1:30:47<06:36,  2.02it/s] 93%|█████████▎| 9881/10682 [1:30:48<06:35,  2.02it/s] 93%|█████████▎| 9882/10682 [1:30:48<06:35,  2.02it/s] 93%|█████████▎| 9883/10682 [1:30:49<06:34,  2.03it/s] 93%|█████████▎| 9884/10682 [1:30:49<06:33,  2.03it/s] 93%|█████████▎| 9885/10682 [1:30:50<06:33,  2.03it/s] 93%|█████████▎| 9886/10682 [1:30:50<06:32,  2.03it/s] 93%|█████████▎| 9887/10682 [1:30:51<06:32,  2.03it/s] 93%|█████████▎| 9888/10682 [1:30:51<06:31,  2.03it/s] 93%|█████████▎| 9889/10682 [1:30:52<06:31,  2.03it/s] 93%|█████████▎| 9890/10682 [1:30:52<06:31,  2.02it/s] 93%|█████████▎| 9891/10682 [1:30:53<06:30,  2.02it/s] 93%|█████████▎| 9892/10682 [1:30:53<06:30,  2.02it/s] 93%|█████████▎| 9893/10682 [1:30:54<06:30,  2.02it/s] 93%|█████████▎| 9894/10682 [1:30:54<06:29,  2.02it/s] 93%|█████████▎| 9895/10682 [1:30:55<06:29,  2.02it/s] 93%|█████████▎| 9896/10682 [1:30:55<06:28,  2.02it/s] 93%|█████████▎| 9897/10682 [1:30:56<06:28,  2.02it/s] 93%|█████████▎| 9898/10682 [1:30:56<06:27,  2.02it/s] 93%|█████████▎| 9899/10682 [1:30:57<06:27,  2.02it/s] 93%|█████████▎| 9900/10682 [1:30:57<06:27,  2.02it/s]                                                      {'loss': 2.9305, 'grad_norm': 0.25645723938941956, 'learning_rate': 1.6239414036870183e-05, 'epoch': 12.98}
- 93%|█████████▎| 9900/10682 [1:30:57<06:27,  2.02it/s] 93%|█████████▎| 9901/10682 [1:30:58<06:26,  2.02it/s] 93%|█████████▎| 9902/10682 [1:30:58<06:26,  2.02it/s] 93%|█████████▎| 9903/10682 [1:30:59<06:25,  2.02it/s] 93%|█████████▎| 9904/10682 [1:30:59<06:25,  2.02it/s] 93%|█████████▎| 9905/10682 [1:31:00<06:24,  2.02it/s] 93%|█████████▎| 9906/10682 [1:31:00<06:23,  2.02it/s] 93%|█████████▎| 9907/10682 [1:31:01<06:23,  2.02it/s] 93%|█████████▎| 9908/10682 [1:31:01<06:22,  2.02it/s] 93%|█████████▎| 9909/10682 [1:31:02<06:21,  2.02it/s] 93%|█████████▎| 9910/10682 [1:31:02<06:21,  2.03it/s] 93%|█████████▎| 9911/10682 [1:31:03<06:20,  2.02it/s] 93%|█████████▎| 9912/10682 [1:31:03<06:20,  2.03it/s] 93%|█████████▎| 9913/10682 [1:31:04<06:20,  2.02it/s] 93%|█████████▎| 9914/10682 [1:31:04<06:19,  2.02it/s] 93%|█████████▎| 9915/10682 [1:31:05<06:18,  2.02it/s] 93%|█████████▎| 9916/10682 [1:31:05<06:18,  2.03it/s] 93%|█████████▎| 9917/10682 [1:31:06<06:18,  2.02it/s] 93%|█████████▎| 9918/10682 [1:31:06<06:17,  2.02it/s] 93%|█████████▎| 9919/10682 [1:31:06<06:13,  2.04it/s] 93%|█████████▎| 9920/10682 [1:31:51<2:53:12, 13.64s/it] 93%|█████████▎| 9921/10682 [1:31:51<2:02:57,  9.70s/it] 93%|█████████▎| 9922/10682 [1:31:52<1:27:50,  6.94s/it] 93%|█████████▎| 9923/10682 [1:31:52<1:03:19,  5.01s/it] 93%|█████████▎| 9924/10682 [1:31:53<46:08,  3.65s/it]   93%|█████████▎| 9925/10682 [1:31:53<34:07,  2.71s/it]                                                      {'loss': 2.9333, 'grad_norm': 0.2580699920654297, 'learning_rate': 1.5222903086944684e-05, 'epoch': 13.01}
- 93%|█████████▎| 9925/10682 [1:31:53<34:07,  2.71s/it] 93%|█████████▎| 9926/10682 [1:31:54<25:44,  2.04s/it] 93%|█████████▎| 9927/10682 [1:31:54<19:51,  1.58s/it] 93%|█████████▎| 9928/10682 [1:31:55<15:44,  1.25s/it] 93%|█████████▎| 9929/10682 [1:31:55<12:52,  1.03s/it] 93%|█████████▎| 9930/10682 [1:31:56<10:50,  1.16it/s] 93%|█████████▎| 9931/10682 [1:31:56<09:30,  1.32it/s] 93%|█████████▎| 9932/10682 [1:31:57<08:30,  1.47it/s] 93%|█████████▎| 9933/10682 [1:31:57<07:47,  1.60it/s] 93%|█████████▎| 9934/10682 [1:31:58<07:17,  1.71it/s] 93%|█████████▎| 9935/10682 [1:31:58<06:57,  1.79it/s] 93%|█████████▎| 9936/10682 [1:31:59<06:42,  1.85it/s] 93%|█████████▎| 9937/10682 [1:31:59<06:32,  1.90it/s] 93%|█████████▎| 9938/10682 [1:32:00<06:24,  1.93it/s] 93%|█████████▎| 9939/10682 [1:32:00<06:18,  1.96it/s] 93%|█████████▎| 9940/10682 [1:32:01<06:14,  1.98it/s] 93%|█████████▎| 9941/10682 [1:32:01<06:12,  1.99it/s] 93%|█████████▎| 9942/10682 [1:32:02<06:10,  2.00it/s] 93%|█████████▎| 9943/10682 [1:32:02<06:08,  2.00it/s] 93%|█████████▎| 9944/10682 [1:32:03<06:08,  2.00it/s] 93%|█████████▎| 9945/10682 [1:32:03<06:06,  2.01it/s] 93%|█████████���| 9946/10682 [1:32:04<06:05,  2.01it/s] 93%|█████████▎| 9947/10682 [1:32:04<06:05,  2.01it/s] 93%|█████████▎| 9948/10682 [1:32:05<06:04,  2.01it/s] 93%|█████████▎| 9949/10682 [1:32:05<06:04,  2.01it/s] 93%|█████████▎| 9950/10682 [1:32:06<06:05,  2.00it/s]{'loss': 2.9084, 'grad_norm': 0.2575255036354065, 'learning_rate': 1.4238751618640577e-05, 'epoch': 13.04}                                                      
- 93%|█████████▎| 9950/10682 [1:32:06<06:05,  2.00it/s] 93%|█████████▎| 9951/10682 [1:32:06<06:03,  2.01it/s] 93%|█████████▎| 9952/10682 [1:32:07<06:02,  2.01it/s] 93%|█████████▎| 9953/10682 [1:32:07<06:01,  2.02it/s] 93%|█████████▎| 9954/10682 [1:32:08<06:00,  2.02it/s] 93%|█████████▎| 9955/10682 [1:32:08<05:59,  2.02it/s] 93%|█████████▎| 9956/10682 [1:32:09<05:58,  2.02it/s] 93%|█████████▎| 9957/10682 [1:32:09<05:58,  2.02it/s] 93%|█████████▎| 9958/10682 [1:32:10<05:57,  2.03it/s] 93%|█████████▎| 9959/10682 [1:32:10<05:57,  2.02it/s] 93%|█████████▎| 9960/10682 [1:32:11<05:56,  2.02it/s] 93%|█████████▎| 9961/10682 [1:32:11<05:55,  2.03it/s] 93%|█████████▎| 9962/10682 [1:32:12<05:55,  2.03it/s] 93%|█████████▎| 9963/10682 [1:32:12<05:54,  2.03it/s] 93%|█████████▎| 9964/10682 [1:32:13<05:54,  2.03it/s] 93%|█████████▎| 9965/10682 [1:32:13<05:53,  2.03it/s] 93%|█████████▎| 9966/10682 [1:32:14<05:53,  2.02it/s] 93%|█████████▎| 9967/10682 [1:32:14<05:53,  2.03it/s] 93%|█████████▎| 9968/10682 [1:32:15<05:52,  2.03it/s] 93%|█████████▎| 9969/10682 [1:32:15<05:51,  2.03it/s] 93%|█████████▎| 9970/10682 [1:32:16<05:51,  2.03it/s] 93%|█████████▎| 9971/10682 [1:32:16<05:50,  2.03it/s] 93%|█████████▎| 9972/10682 [1:32:17<05:50,  2.03it/s] 93%|█████████▎| 9973/10682 [1:32:17<05:50,  2.03it/s] 93%|█████████▎| 9974/10682 [1:32:18<05:49,  2.03it/s] 93%|█████████▎| 9975/10682 [1:32:18<05:48,  2.03it/s]{'loss': 2.9145, 'grad_norm': 0.2599342465400696, 'learning_rate': 1.3287025325307511e-05, 'epoch': 13.07}                                                      
- 93%|█████████▎| 9975/10682 [1:32:18<05:48,  2.03it/s] 93%|█████████▎| 9976/10682 [1:32:19<05:48,  2.02it/s] 93%|█████████▎| 9977/10682 [1:32:19<05:48,  2.02it/s] 93%|█████████▎| 9978/10682 [1:32:20<05:47,  2.02it/s] 93%|█████████▎| 9979/10682 [1:32:20<05:47,  2.02it/s] 93%|█████████▎| 9980/10682 [1:32:21<05:47,  2.02it/s] 93%|█████████▎| 9981/10682 [1:32:21<05:46,  2.02it/s] 93%|█████████▎| 9982/10682 [1:32:21<05:46,  2.02it/s] 93%|█████████▎| 9983/10682 [1:32:22<05:45,  2.02it/s] 93%|█████████▎| 9984/10682 [1:32:22<05:45,  2.02it/s] 93%|█████████▎| 9985/10682 [1:32:23<05:44,  2.02it/s] 93%|█████████▎| 9986/10682 [1:32:23<05:44,  2.02it/s] 93%|█████████▎| 9987/10682 [1:32:24<05:43,  2.02it/s] 94%|█████████▎| 9988/10682 [1:32:24<05:42,  2.02it/s] 94%|█████████▎| 9989/10682 [1:32:25<05:42,  2.03it/s] 94%|█████████▎| 9990/10682 [1:32:25<05:41,  2.02it/s] 94%|█████████▎| 9991/10682 [1:32:26<05:41,  2.02it/s] 94%|█████████▎| 9992/10682 [1:32:26<05:40,  2.03it/s] 94%|█████████▎| 9993/10682 [1:32:27<05:40,  2.02it/s] 94%|█████████▎| 9994/10682 [1:32:27<05:39,  2.02it/s] 94%|█████████▎| 9995/10682 [1:32:28<05:39,  2.02it/s] 94%|█████████▎| 9996/10682 [1:32:28<05:38,  2.02it/s] 94%|█████████▎| 9997/10682 [1:32:29<05:38,  2.03it/s] 94%|█████████▎| 9998/10682 [1:32:29<05:37,  2.02it/s] 94%|█████████▎| 9999/10682 [1:32:30<05:36,  2.03it/s] 94%|█████████▎| 10000/10682 [1:32:30<05:36,  2.03it/s]{'loss': 2.9007, 'grad_norm': 0.26261425018310547, 'learning_rate': 1.2367787735873993e-05, 'epoch': 13.11}
-                                                        94%|█████████▎| 10000/10682 [1:32:30<05:36,  2.03it/s] 94%|█████████▎| 10001/10682 [1:32:31<05:36,  2.02it/s] 94%|█████████▎| 10002/10682 [1:32:31<05:35,  2.03it/s] 94%|█████████▎| 10003/10682 [1:32:32<05:35,  2.02it/s] 94%|█████████▎| 10004/10682 [1:32:32<05:34,  2.03it/s] 94%|█████████▎| 10005/10682 [1:32:33<05:34,  2.03it/s] 94%|█████████▎| 10006/10682 [1:32:33<05:34,  2.02it/s] 94%|█████████▎| 10007/10682 [1:32:34<05:33,  2.03it/s] 94%|█████████▎| 10008/10682 [1:32:34<05:33,  2.02it/s] 94%|█████████▎| 10009/10682 [1:32:35<05:32,  2.03it/s] 94%|█████████▎| 10010/10682 [1:32:35<05:31,  2.02it/s] 94%|█████████▎| 10011/10682 [1:32:36<05:31,  2.02it/s] 94%|█████████▎| 10012/10682 [1:32:36<05:31,  2.02it/s] 94%|█████████▎| 10013/10682 [1:32:37<05:30,  2.02it/s] 94%|█████████▎| 10014/10682 [1:32:37<05:30,  2.02it/s] 94%|█████████▍| 10015/10682 [1:32:38<05:29,  2.02it/s] 94%|█████████▍| 10016/10682 [1:32:38<05:29,  2.02it/s] 94%|█████████▍| 10017/10682 [1:32:39<05:28,  2.02it/s] 94%|█████████▍| 10018/10682 [1:32:39<05:28,  2.02it/s] 94%|█████████▍| 10019/10682 [1:32:40<05:27,  2.02it/s] 94%|█████████▍| 10020/10682 [1:32:40<05:27,  2.02it/s] 94%|█████████▍| 10021/10682 [1:32:41<05:26,  2.02it/s] 94%|█████████▍| 10022/10682 [1:32:41<05:25,  2.03it/s] 94%|█████████▍| 10023/10682 [1:32:42<05:25,  2.02it/s] 94%|█████████▍| 10024/10682 [1:32:42<05:24,  2.03it/s] 94%|█████████▍| 10025/10682 [1:32:43<05:24,  2.02it/s]{'loss': 2.9112, 'grad_norm': 0.25825250148773193, 'learning_rate': 1.1481100210606388e-05, 'epoch': 13.14}                                                       
- 94%|█████████▍| 10025/10682 [1:32:43<05:24,  2.02it/s] 94%|█████████▍| 10026/10682 [1:32:43<05:24,  2.02it/s] 94%|█████████▍| 10027/10682 [1:32:44<05:23,  2.02it/s] 94%|█████████▍| 10028/10682 [1:32:44<05:22,  2.03it/s] 94%|█████████▍| 10029/10682 [1:32:45<05:22,  2.02it/s] 94%|█████████▍| 10030/10682 [1:32:45<05:22,  2.02it/s] 94%|█████████▍| 10031/10682 [1:32:46<05:21,  2.02it/s] 94%|█████████▍| 10032/10682 [1:32:46<05:21,  2.02it/s] 94%|█████████▍| 10033/10682 [1:32:47<05:20,  2.03it/s] 94%|█████████▍| 10034/10682 [1:32:47<05:20,  2.02it/s] 94%|█████████▍| 10035/10682 [1:32:48<05:19,  2.03it/s] 94%|█████████▍| 10036/10682 [1:32:48<05:18,  2.03it/s] 94%|█████████▍| 10037/10682 [1:32:49<05:18,  2.03it/s] 94%|█████████▍| 10038/10682 [1:32:49<05:17,  2.03it/s] 94%|█████████▍| 10039/10682 [1:32:50<05:17,  2.03it/s] 94%|█████████▍| 10040/10682 [1:32:50<05:17,  2.02it/s] 94%|█████████▍| 10041/10682 [1:32:51<05:16,  2.02it/s] 94%|█████████▍| 10042/10682 [1:32:51<05:16,  2.02it/s] 94%|█████████▍| 10043/10682 [1:32:52<05:15,  2.02it/s] 94%|█████████▍| 10044/10682 [1:32:52<05:15,  2.03it/s] 94%|█████████▍| 10045/10682 [1:32:53<05:14,  2.02it/s] 94%|█████████▍| 10046/10682 [1:32:53<05:13,  2.03it/s] 94%|█████████▍| 10047/10682 [1:32:54<05:13,  2.03it/s] 94%|█████████▍| 10048/10682 [1:32:54<05:12,  2.03it/s] 94%|█████████▍| 10049/10682 [1:32:55<05:12,  2.03it/s] 94%|█████████▍| 10050/10682 [1:32:55<05:11,  2.03it/s]                                                       {'loss': 2.8992, 'grad_norm': 0.2573733627796173, 'learning_rate': 1.0627021937013704e-05, 'epoch': 13.17}
- 94%|█████████▍| 10050/10682 [1:32:55<05:11,  2.03it/s] 94%|█████████▍| 10051/10682 [1:32:56<05:11,  2.02it/s] 94%|█████████▍| 10052/10682 [1:32:56<05:11,  2.02it/s] 94%|█████████▍| 10053/10682 [1:32:57<05:10,  2.02it/s] 94%|█████████▍| 10054/10682 [1:32:57<05:10,  2.02it/s] 94%|█████████▍| 10055/10682 [1:32:58<05:10,  2.02it/s] 94%|█████████▍| 10056/10682 [1:32:58<05:09,  2.02it/s] 94%|█████████▍| 10057/10682 [1:32:59<05:08,  2.02it/s] 94%|█████████▍| 10058/10682 [1:32:59<05:08,  2.02it/s] 94%|█████████▍| 10059/10682 [1:33:00<05:07,  2.02it/s] 94%|█████████▍| 10060/10682 [1:33:00<05:07,  2.02it/s] 94%|█████████▍| 10061/10682 [1:33:01<05:06,  2.03it/s] 94%|█████████▍| 10062/10682 [1:33:01<05:06,  2.02it/s] 94%|█████████▍| 10063/10682 [1:33:01<05:05,  2.03it/s] 94%|█████████▍| 10064/10682 [1:33:02<05:05,  2.02it/s] 94%|█████████▍| 10065/10682 [1:33:02<05:04,  2.02it/s] 94%|█████████▍| 10066/10682 [1:33:03<05:04,  2.02it/s] 94%|█████████▍| 10067/10682 [1:33:03<05:03,  2.03it/s] 94%|█████████▍| 10068/10682 [1:33:04<05:03,  2.03it/s] 94%|█████████▍| 10069/10682 [1:33:04<05:02,  2.03it/s] 94%|█████████▍| 10070/10682 [1:33:05<05:01,  2.03it/s] 94%|█████████▍| 10071/10682 [1:33:05<05:01,  2.03it/s] 94%|█████████▍| 10072/10682 [1:33:06<05:00,  2.03it/s] 94%|█████████▍| 10073/10682 [1:33:06<05:00,  2.03it/s] 94%|█████████▍| 10074/10682 [1:33:07<05:00,  2.03it/s] 94%|█████████▍| 10075/10682 [1:33:07<04:59,  2.03it/s]                                                       {'loss': 2.9038, 'grad_norm': 0.2564395070075989, 'learning_rate': 9.805609925895964e-06, 'epoch': 13.2}
- 94%|█████████▍| 10075/10682 [1:33:07<04:59,  2.03it/s] 94%|█████████▍| 10076/10682 [1:33:08<05:00,  2.02it/s] 94%|█████████▍| 10077/10682 [1:33:08<04:59,  2.02it/s] 94%|█████████▍| 10078/10682 [1:33:09<04:58,  2.02it/s] 94%|█████████▍| 10079/10682 [1:33:09<04:58,  2.02it/s] 94%|█████████▍| 10080/10682 [1:33:10<04:57,  2.02it/s] 94%|█████████▍| 10081/10682 [1:33:10<04:57,  2.02it/s] 94%|█████████▍| 10082/10682 [1:33:11<04:56,  2.02it/s] 94%|█████████▍| 10083/10682 [1:33:11<04:55,  2.03it/s] 94%|█████████▍| 10084/10682 [1:33:12<04:55,  2.02it/s] 94%|█████████▍| 10085/10682 [1:33:12<04:54,  2.02it/s] 94%|█████████▍| 10086/10682 [1:33:13<04:54,  2.02it/s] 94%|█████████▍| 10087/10682 [1:33:13<04:54,  2.02it/s] 94%|█████████▍| 10088/10682 [1:33:14<04:53,  2.02it/s] 94%|█████████▍| 10089/10682 [1:33:14<05:18,  1.86it/s] 94%|█████████▍| 10090/10682 [1:33:15<05:10,  1.90it/s] 94%|█████████▍| 10091/10682 [1:33:15<05:04,  1.94it/s] 94%|█████████▍| 10092/10682 [1:33:16<05:00,  1.96it/s] 94%|█████████▍| 10093/10682 [1:33:16<04:56,  1.98it/s] 94%|█████████▍| 10094/10682 [1:33:17<04:54,  2.00it/s] 95%|█████████▍| 10095/10682 [1:33:17<04:52,  2.01it/s] 95%|█████████▍| 10096/10682 [1:33:18<04:50,  2.01it/s] 95%|█████████▍| 10097/10682 [1:33:18<04:49,  2.02it/s] 95%|█████████▍| 10098/10682 [1:33:19<04:48,  2.02it/s] 95%|█████████▍| 10099/10682 [1:33:19<04:48,  2.02it/s] 95%|█████████▍| 10100/10682 [1:33:20<04:47,  2.02it/s]                                                       {'loss': 2.9031, 'grad_norm': 0.2583499848842621, 'learning_rate': 9.01691900753926e-06, 'epoch': 13.24}
- 95%|█████████▍| 10100/10682 [1:33:20<04:47,  2.02it/s] 95%|█████████▍| 10101/10682 [1:33:20<04:47,  2.02it/s] 95%|█████████▍| 10102/10682 [1:33:21<04:46,  2.02it/s] 95%|█████████▍| 10103/10682 [1:33:21<04:46,  2.02it/s] 95%|█████████▍| 10104/10682 [1:33:22<04:45,  2.02it/s] 95%|█████████▍| 10105/10682 [1:33:22<04:44,  2.03it/s] 95%|█████████▍| 10106/10682 [1:33:23<04:44,  2.02it/s] 95%|█████████▍| 10107/10682 [1:33:23<04:43,  2.03it/s] 95%|█████████▍| 10108/10682 [1:33:24<04:43,  2.03it/s] 95%|█████████▍| 10109/10682 [1:33:24<04:42,  2.03it/s] 95%|█████████▍| 10110/10682 [1:33:25<04:42,  2.03it/s] 95%|█████████▍| 10111/10682 [1:33:25<04:41,  2.03it/s] 95%|█████████▍| 10112/10682 [1:33:26<04:41,  2.03it/s] 95%|█████████▍| 10113/10682 [1:33:26<04:40,  2.03it/s] 95%|█████████▍| 10114/10682 [1:33:27<04:39,  2.03it/s] 95%|█████████▍| 10115/10682 [1:33:27<04:39,  2.03it/s] 95%|█████████▍| 10116/10682 [1:33:28<04:38,  2.03it/s] 95%|█████████▍| 10117/10682 [1:33:28<04:38,  2.03it/s] 95%|█████████▍| 10118/10682 [1:33:29<04:38,  2.03it/s] 95%|█████████▍| 10119/10682 [1:33:29<04:37,  2.03it/s] 95%|█████████▍| 10120/10682 [1:33:30<04:37,  2.02it/s] 95%|█████████▍| 10121/10682 [1:33:30<04:36,  2.03it/s] 95%|█████████▍| 10122/10682 [1:33:31<04:36,  2.02it/s] 95%|█████████▍| 10123/10682 [1:33:31<04:35,  2.03it/s] 95%|█████████▍| 10124/10682 [1:33:32<04:35,  2.03it/s] 95%|█████████▍| 10125/10682 [1:33:32<04:34,  2.03it/s]{'loss': 2.9061, 'grad_norm': 0.25808221101760864, 'learning_rate': 8.261001828055447e-06, 'epoch': 13.27}
-                                                        95%|█████████▍| 10125/10682 [1:33:32<04:34,  2.03it/s] 95%|█████████▍| 10126/10682 [1:33:33<04:34,  2.02it/s] 95%|█████████▍| 10127/10682 [1:33:33<04:34,  2.02it/s] 95%|█████████▍| 10128/10682 [1:33:34<04:33,  2.02it/s] 95%|█████████▍| 10129/10682 [1:33:34<04:33,  2.02it/s] 95%|█████████▍| 10130/10682 [1:33:35<04:32,  2.03it/s] 95%|█████████▍| 10131/10682 [1:33:35<04:31,  2.03it/s] 95%|█████████▍| 10132/10682 [1:33:36<04:31,  2.02it/s] 95%|█████████▍| 10133/10682 [1:33:36<04:31,  2.02it/s] 95%|█████████▍| 10134/10682 [1:33:37<04:31,  2.02it/s] 95%|█████████▍| 10135/10682 [1:33:37<04:30,  2.02it/s] 95%|█████████▍| 10136/10682 [1:33:38<04:30,  2.02it/s] 95%|█████████▍| 10137/10682 [1:33:38<04:29,  2.02it/s] 95%|█████████▍| 10138/10682 [1:33:39<04:28,  2.02it/s] 95%|█████████▍| 10139/10682 [1:33:39<04:28,  2.02it/s] 95%|█████████▍| 10140/10682 [1:33:40<04:27,  2.03it/s] 95%|█████████▍| 10141/10682 [1:33:40<04:27,  2.02it/s] 95%|█████████▍| 10142/10682 [1:33:41<04:26,  2.03it/s] 95%|█████████▍| 10143/10682 [1:33:41<04:26,  2.03it/s] 95%|█████████▍| 10144/10682 [1:33:42<04:25,  2.03it/s] 95%|█████████▍| 10145/10682 [1:33:42<04:24,  2.03it/s] 95%|█████████▍| 10146/10682 [1:33:43<04:24,  2.03it/s] 95%|█████████▍| 10147/10682 [1:33:43<04:23,  2.03it/s] 95%|█████████▌| 10148/10682 [1:33:44<04:23,  2.03it/s] 95%|█████████▌| 10149/10682 [1:33:44<04:23,  2.03it/s] 95%|█████████▌| 10150/10682 [1:33:45<04:22,  2.02it/s]{'loss': 2.9166, 'grad_norm': 0.2597281038761139, 'learning_rate': 7.537908845868024e-06, 'epoch': 13.3}                                                       
- 95%|█████████▌| 10150/10682 [1:33:45<04:22,  2.02it/s] 95%|█████████▌| 10151/10682 [1:33:45<04:22,  2.02it/s] 95%|█████████▌| 10152/10682 [1:33:46<04:22,  2.02it/s] 95%|█████████▌| 10153/10682 [1:33:46<04:21,  2.02it/s] 95%|█████████▌| 10154/10682 [1:33:47<04:21,  2.02it/s] 95%|█████████▌| 10155/10682 [1:33:47<04:20,  2.02it/s] 95%|█████████▌| 10156/10682 [1:33:48<04:20,  2.02it/s] 95%|█████████▌| 10157/10682 [1:33:48<04:19,  2.02it/s] 95%|█████████▌| 10158/10682 [1:33:49<04:19,  2.02it/s] 95%|█████████▌| 10159/10682 [1:33:49<04:18,  2.02it/s] 95%|█████████▌| 10160/10682 [1:33:50<04:18,  2.02it/s] 95%|█████████▌| 10161/10682 [1:33:50<04:17,  2.02it/s] 95%|█████████▌| 10162/10682 [1:33:51<04:16,  2.02it/s] 95%|█████████▌| 10163/10682 [1:33:51<04:16,  2.02it/s] 95%|█████████▌| 10164/10682 [1:33:52<04:16,  2.02it/s] 95%|█████████▌| 10165/10682 [1:33:52<04:15,  2.02it/s] 95%|█████████▌| 10166/10682 [1:33:53<04:14,  2.03it/s] 95%|█████████▌| 10167/10682 [1:33:53<04:13,  2.03it/s] 95%|█████████▌| 10168/10682 [1:33:54<04:13,  2.03it/s] 95%|█████████▌| 10169/10682 [1:33:54<04:13,  2.03it/s] 95%|█████████▌| 10170/10682 [1:33:54<04:12,  2.03it/s] 95%|█████████▌| 10171/10682 [1:33:55<04:12,  2.03it/s] 95%|█████████▌| 10172/10682 [1:33:55<04:11,  2.03it/s] 95%|█████████▌| 10173/10682 [1:33:56<04:11,  2.03it/s] 95%|█████████▌| 10174/10682 [1:33:56<04:10,  2.03it/s] 95%|█████████▌| 10175/10682 [1:33:57<04:10,  2.03it/s]                                                       {'loss': 2.9059, 'grad_norm': 0.25893285870552063, 'learning_rate': 6.847688328344037e-06, 'epoch': 13.34}
- 95%|█████████▌| 10175/10682 [1:33:57<04:10,  2.03it/s] 95%|█████████▌| 10176/10682 [1:33:57<04:11,  2.01it/s] 95%|█████████▌| 10177/10682 [1:33:58<04:10,  2.02it/s] 95%|█████████▌| 10178/10682 [1:33:58<04:09,  2.02it/s] 95%|█████████▌| 10179/10682 [1:33:59<04:08,  2.02it/s] 95%|█████████▌| 10180/10682 [1:33:59<04:08,  2.02it/s] 95%|█████████▌| 10181/10682 [1:34:00<04:07,  2.02it/s] 95%|█████████▌| 10182/10682 [1:34:00<04:07,  2.02it/s] 95%|█████████▌| 10183/10682 [1:34:01<04:06,  2.02it/s] 95%|█████████▌| 10184/10682 [1:34:01<04:05,  2.03it/s] 95%|█████████▌| 10185/10682 [1:34:02<04:05,  2.03it/s] 95%|█████████▌| 10186/10682 [1:34:02<04:04,  2.03it/s] 95%|█████████▌| 10187/10682 [1:34:03<04:04,  2.02it/s] 95%|█████████▌| 10188/10682 [1:34:03<04:03,  2.03it/s] 95%|█████████▌| 10189/10682 [1:34:04<04:03,  2.03it/s] 95%|█████████▌| 10190/10682 [1:34:04<04:02,  2.03it/s] 95%|█████████▌| 10191/10682 [1:34:05<04:02,  2.03it/s] 95%|█████████▌| 10192/10682 [1:34:05<04:01,  2.03it/s] 95%|█████████▌| 10193/10682 [1:34:06<04:01,  2.03it/s] 95%|█████████▌| 10194/10682 [1:34:06<04:00,  2.03it/s] 95%|█████████▌| 10195/10682 [1:34:07<04:00,  2.03it/s] 95%|█████████▌| 10196/10682 [1:34:07<04:00,  2.02it/s] 95%|█████████▌| 10197/10682 [1:34:08<03:59,  2.03it/s] 95%|█████████▌| 10198/10682 [1:34:08<03:58,  2.03it/s] 95%|█████████▌| 10199/10682 [1:34:09<03:58,  2.03it/s] 95%|█████████▌| 10200/10682 [1:34:09<03:57,  2.03it/s]                                                       {'loss': 2.9035, 'grad_norm': 0.2582101821899414, 'learning_rate': 6.190386348572108e-06, 'epoch': 13.37}
- 95%|█████████▌| 10200/10682 [1:34:09<03:57,  2.03it/s] 95%|█████████▌| 10201/10682 [1:34:10<03:57,  2.02it/s] 96%|█████████▌| 10202/10682 [1:34:10<03:56,  2.03it/s] 96%|█████████▌| 10203/10682 [1:34:11<03:56,  2.02it/s] 96%|█████████▌| 10204/10682 [1:34:11<03:55,  2.03it/s] 96%|█████████▌| 10205/10682 [1:34:12<03:55,  2.03it/s] 96%|█████████▌| 10206/10682 [1:34:12<03:54,  2.03it/s] 96%|█████████▌| 10207/10682 [1:34:13<03:54,  2.03it/s] 96%|█████████▌| 10208/10682 [1:34:13<03:53,  2.03it/s] 96%|█████████▌| 10209/10682 [1:34:14<03:53,  2.03it/s] 96%|█████████▌| 10210/10682 [1:34:14<03:53,  2.03it/s] 96%|█████████▌| 10211/10682 [1:34:15<04:12,  1.86it/s] 96%|█████████▌| 10212/10682 [1:34:15<04:06,  1.91it/s] 96%|█████████▌| 10213/10682 [1:34:16<04:01,  1.94it/s] 96%|█████████▌| 10214/10682 [1:34:16<03:58,  1.97it/s] 96%|█████████▌| 10215/10682 [1:34:17<03:55,  1.98it/s] 96%|█████████▌| 10216/10682 [1:34:17<03:53,  2.00it/s] 96%|█████████▌| 10217/10682 [1:34:18<03:51,  2.00it/s] 96%|█████████▌| 10218/10682 [1:34:18<03:50,  2.01it/s] 96%|█████████▌| 10219/10682 [1:34:19<03:49,  2.02it/s] 96%|█████████▌| 10220/10682 [1:34:19<03:48,  2.02it/s] 96%|█████████▌| 10221/10682 [1:34:20<03:48,  2.02it/s] 96%|█████████▌| 10222/10682 [1:34:20<03:47,  2.02it/s] 96%|█████████▌| 10223/10682 [1:34:21<03:46,  2.02it/s] 96%|█████████▌| 10224/10682 [1:34:21<03:46,  2.02it/s] 96%|█████████▌| 10225/10682 [1:34:22<03:45,  2.03it/s]{'loss': 2.9049, 'grad_norm': 0.2585311830043793, 'learning_rate': 5.56604678228706e-06, 'epoch': 13.4}                                                       
- 96%|█████████▌| 10225/10682 [1:34:22<03:45,  2.03it/s] 96%|█████████▌| 10226/10682 [1:34:22<03:45,  2.02it/s] 96%|█████████▌| 10227/10682 [1:34:23<03:44,  2.02it/s] 96%|█████████▌| 10228/10682 [1:34:23<03:44,  2.02it/s] 96%|█████████▌| 10229/10682 [1:34:24<03:43,  2.03it/s] 96%|█████████▌| 10230/10682 [1:34:24<03:43,  2.02it/s] 96%|█████████▌| 10231/10682 [1:34:25<03:42,  2.03it/s] 96%|█████████▌| 10232/10682 [1:34:25<03:42,  2.03it/s] 96%|█████████▌| 10233/10682 [1:34:26<03:41,  2.03it/s] 96%|█████████▌| 10234/10682 [1:34:26<03:41,  2.03it/s] 96%|█████████▌| 10235/10682 [1:34:27<03:40,  2.02it/s] 96%|█████████▌| 10236/10682 [1:34:27<03:39,  2.03it/s] 96%|█████████▌| 10237/10682 [1:34:28<03:39,  2.03it/s] 96%|█████████▌| 10238/10682 [1:34:28<03:39,  2.03it/s] 96%|█████████▌| 10239/10682 [1:34:29<03:38,  2.02it/s] 96%|█████████▌| 10240/10682 [1:34:29<03:38,  2.03it/s] 96%|█████████▌| 10241/10682 [1:34:30<03:37,  2.03it/s] 96%|█████████▌| 10242/10682 [1:34:30<03:37,  2.03it/s] 96%|█████████▌| 10243/10682 [1:34:31<03:36,  2.03it/s] 96%|█████████▌| 10244/10682 [1:34:31<03:36,  2.03it/s] 96%|█████████▌| 10245/10682 [1:34:32<03:35,  2.03it/s] 96%|��████████▌| 10246/10682 [1:34:32<03:35,  2.02it/s] 96%|█████████▌| 10247/10682 [1:34:33<03:34,  2.03it/s] 96%|█████████▌| 10248/10682 [1:34:33<03:34,  2.02it/s] 96%|█████████▌| 10249/10682 [1:34:34<03:33,  2.03it/s] 96%|█████████▌| 10250/10682 [1:34:34<03:33,  2.03it/s]                                                       {'loss': 2.9111, 'grad_norm': 0.25822776556015015, 'learning_rate': 4.974711304941093e-06, 'epoch': 13.43}
- 96%|█████████▌| 10250/10682 [1:34:34<03:33,  2.03it/s] 96%|█████████▌| 10251/10682 [1:34:35<03:32,  2.02it/s] 96%|█████████▌| 10252/10682 [1:34:35<03:32,  2.02it/s] 96%|█████████▌| 10253/10682 [1:34:36<03:32,  2.02it/s] 96%|█████████▌| 10254/10682 [1:34:36<03:31,  2.02it/s] 96%|█████████▌| 10255/10682 [1:34:37<03:30,  2.02it/s] 96%|█████████▌| 10256/10682 [1:34:37<03:30,  2.03it/s] 96%|█████████▌| 10257/10682 [1:34:38<03:29,  2.03it/s] 96%|█████████▌| 10258/10682 [1:34:38<03:29,  2.03it/s] 96%|█████████▌| 10259/10682 [1:34:39<03:28,  2.03it/s] 96%|█████████▌| 10260/10682 [1:34:39<03:28,  2.03it/s] 96%|█████████▌| 10261/10682 [1:34:40<03:27,  2.03it/s] 96%|█████████▌| 10262/10682 [1:34:40<03:27,  2.02it/s] 96%|█████████▌| 10263/10682 [1:34:41<03:27,  2.02it/s] 96%|█████████▌| 10264/10682 [1:34:41<03:26,  2.02it/s] 96%|█████████▌| 10265/10682 [1:34:42<03:26,  2.02it/s] 96%|█████████▌| 10266/10682 [1:34:42<03:25,  2.02it/s] 96%|█████████▌| 10267/10682 [1:34:43<03:25,  2.02it/s] 96%|█████████▌| 10268/10682 [1:34:43<03:24,  2.02it/s] 96%|█████████▌| 10269/10682 [1:34:44<03:24,  2.02it/s] 96%|█████████▌| 10270/10682 [1:34:44<03:23,  2.02it/s] 96%|█████████▌| 10271/10682 [1:34:45<03:22,  2.03it/s] 96%|█████████▌| 10272/10682 [1:34:45<03:22,  2.03it/s] 96%|█████████▌| 10273/10682 [1:34:45<03:21,  2.03it/s] 96%|█████████▌| 10274/10682 [1:34:46<03:21,  2.03it/s] 96%|█████████▌| 10275/10682 [1:34:46<03:20,  2.03it/s]{'loss': 2.9107, 'grad_norm': 0.25611135363578796, 'learning_rate': 4.416419388921844e-06, 'epoch': 13.47}
-                                                        96%|█████████▌| 10275/10682 [1:34:46<03:20,  2.03it/s] 96%|█████████▌| 10276/10682 [1:34:47<03:20,  2.02it/s] 96%|█████████▌| 10277/10682 [1:34:47<03:20,  2.02it/s] 96%|█████████▌| 10278/10682 [1:34:48<03:19,  2.02it/s] 96%|█████████▌| 10279/10682 [1:34:48<03:19,  2.02it/s] 96%|█████████▌| 10280/10682 [1:34:49<03:18,  2.02it/s] 96%|█████████▌| 10281/10682 [1:34:49<03:18,  2.02it/s] 96%|█████████▋| 10282/10682 [1:34:50<03:17,  2.02it/s] 96%|█████████▋| 10283/10682 [1:34:50<03:17,  2.02it/s] 96%|█████████▋| 10284/10682 [1:34:51<03:16,  2.02it/s] 96%|█████████▋| 10285/10682 [1:34:51<03:16,  2.02it/s] 96%|█████████▋| 10286/10682 [1:34:52<03:15,  2.02it/s] 96%|█████████▋| 10287/10682 [1:34:52<03:15,  2.02it/s] 96%|█████████▋| 10288/10682 [1:34:53<03:14,  2.02it/s] 96%|█████████▋| 10289/10682 [1:34:53<03:14,  2.02it/s] 96%|█████████▋| 10290/10682 [1:34:54<03:13,  2.02it/s] 96%|█████████▋| 10291/10682 [1:34:54<03:13,  2.02it/s] 96%|█████████▋| 10292/10682 [1:34:55<03:12,  2.02it/s] 96%|█████████▋| 10293/10682 [1:34:55<03:12,  2.02it/s] 96%|█████████▋| 10294/10682 [1:34:56<03:11,  2.02it/s] 96%|█████████▋| 10295/10682 [1:34:56<03:11,  2.02it/s] 96%|█████████▋| 10296/10682 [1:34:57<03:10,  2.02it/s] 96%|█████████▋| 10297/10682 [1:34:57<03:10,  2.02it/s] 96%|█████████▋| 10298/10682 [1:34:58<03:09,  2.03it/s] 96%|█████████▋| 10299/10682 [1:34:58<03:09,  2.03it/s] 96%|█████████▋| 10300/10682 [1:34:59<03:08,  2.03it/s]                                                       {'loss': 2.9116, 'grad_norm': 0.2585780918598175, 'learning_rate': 3.891208300917604e-06, 'epoch': 13.5}
- 96%|█████████▋| 10300/10682 [1:34:59<03:08,  2.03it/s] 96%|█████████▋| 10301/10682 [1:34:59<03:08,  2.02it/s] 96%|█████████▋| 10302/10682 [1:35:00<03:07,  2.02it/s] 96%|█████████▋| 10303/10682 [1:35:00<03:07,  2.02it/s] 96%|█████████▋| 10304/10682 [1:35:01<03:06,  2.03it/s] 96%|█████████▋| 10305/10682 [1:35:01<03:06,  2.02it/s] 96%|█████████▋| 10306/10682 [1:35:02<03:05,  2.03it/s] 96%|█████████▋| 10307/10682 [1:35:02<03:05,  2.02it/s] 96%|█████████▋| 10308/10682 [1:35:03<03:04,  2.03it/s] 97%|█████████▋| 10309/10682 [1:35:03<03:03,  2.03it/s] 97%|█████████▋| 10310/10682 [1:35:04<03:03,  2.03it/s] 97%|█████████▋| 10311/10682 [1:35:04<03:02,  2.03it/s] 97%|█████████▋| 10312/10682 [1:35:05<03:02,  2.03it/s] 97%|█████████▋| 10313/10682 [1:35:05<03:02,  2.03it/s] 97%|█████████▋| 10314/10682 [1:35:06<03:01,  2.03it/s] 97%|█████████▋| 10315/10682 [1:35:06<03:01,  2.03it/s] 97%|█████████▋| 10316/10682 [1:35:07<03:00,  2.03it/s] 97%|█████████▋| 10317/10682 [1:35:07<03:00,  2.03it/s] 97%|█████████▋| 10318/10682 [1:35:08<02:59,  2.03it/s] 97%|█████████▋| 10319/10682 [1:35:08<02:59,  2.03it/s] 97%|█████████▋| 10320/10682 [1:35:09<02:58,  2.03it/s] 97%|█████████▋| 10321/10682 [1:35:09<02:58,  2.03it/s] 97%|█████████▋| 10322/10682 [1:35:10<02:57,  2.03it/s] 97%|█████████▋| 10323/10682 [1:35:10<02:57,  2.03it/s] 97%|█████████▋| 10324/10682 [1:35:11<02:56,  2.02it/s] 97%|█████████▋| 10325/10682 [1:35:11<02:56,  2.02it/s]                                                       {'loss': 2.9146, 'grad_norm': 0.2586267292499542, 'learning_rate': 3.3991130994299734e-06, 'epoch': 13.53}
- 97%|█████████▋| 10325/10682 [1:35:11<02:56,  2.02it/s] 97%|█████████▋| 10326/10682 [1:35:12<02:56,  2.02it/s] 97%|█████████▋| 10327/10682 [1:35:12<02:55,  2.02it/s] 97%|█████████▋| 10328/10682 [1:35:13<02:54,  2.02it/s] 97%|█████████▋| 10329/10682 [1:35:13<02:54,  2.03it/s] 97%|█████████▋| 10330/10682 [1:35:14<02:53,  2.03it/s] 97%|█████████▋| 10331/10682 [1:35:14<02:53,  2.03it/s] 97%|█████████▋| 10332/10682 [1:35:15<02:52,  2.02it/s] 97%|█████████▋| 10333/10682 [1:35:15<02:52,  2.03it/s] 97%|█████████▋| 10334/10682 [1:35:16<02:51,  2.02it/s] 97%|█████████▋| 10335/10682 [1:35:16<02:51,  2.03it/s] 97%|█████████▋| 10336/10682 [1:35:17<02:50,  2.02it/s] 97%|█████████▋| 10337/10682 [1:35:17<02:50,  2.02it/s] 97%|█████████▋| 10338/10682 [1:35:18<02:49,  2.02it/s] 97%|█████████▋| 10339/10682 [1:35:18<02:49,  2.02it/s] 97%|█████████▋| 10340/10682 [1:35:19<02:48,  2.03it/s] 97%|█████████▋| 10341/10682 [1:35:19<02:48,  2.03it/s] 97%|█████████▋| 10342/10682 [1:35:20<02:47,  2.03it/s] 97%|█████████▋| 10343/10682 [1:35:20<02:47,  2.03it/s] 97%|█████████▋| 10344/10682 [1:35:21<02:46,  2.03it/s] 97%|█████████▋| 10345/10682 [1:35:21<02:46,  2.03it/s] 97%|█████████▋| 10346/10682 [1:35:22<02:45,  2.02it/s] 97%|█████████▋| 10347/10682 [1:35:22<02:45,  2.03it/s] 97%|█████████▋| 10348/10682 [1:35:23<02:44,  2.03it/s] 97%|█████████▋| 10349/10682 [1:35:23<02:44,  2.03it/s] 97%|█████████▋| 10350/10682 [1:35:24<02:43,  2.03it/s]                                                       {'loss': 2.9005, 'grad_norm': 0.2629854679107666, 'learning_rate': 2.940166632433183e-06, 'epoch': 13.56}
- 97%|█████████▋| 10350/10682 [1:35:24<02:43,  2.03it/s] 97%|█████████▋| 10351/10682 [1:35:24<02:43,  2.02it/s] 97%|█████████▋| 10352/10682 [1:35:25<02:42,  2.03it/s] 97%|█████████▋| 10353/10682 [1:35:25<02:42,  2.02it/s] 97%|█████████▋| 10354/10682 [1:35:25<02:41,  2.03it/s] 97%|█████████▋| 10355/10682 [1:35:26<02:41,  2.03it/s] 97%|█████████▋| 10356/10682 [1:35:26<02:40,  2.03it/s] 97%|█████████▋| 10357/10682 [1:35:27<02:40,  2.03it/s] 97%|█████████▋| 10358/10682 [1:35:27<02:40,  2.02it/s] 97%|█████████▋| 10359/10682 [1:35:28<02:39,  2.03it/s] 97%|█████████▋| 10360/10682 [1:35:28<02:39,  2.02it/s] 97%|█████████▋| 10361/10682 [1:35:29<02:38,  2.03it/s] 97%|█████████▋| 10362/10682 [1:35:29<02:37,  2.03it/s] 97%|█████████▋| 10363/10682 [1:35:30<02:37,  2.03it/s] 97%|█████████▋| 10364/10682 [1:35:30<02:36,  2.03it/s] 97%|█████████▋| 10365/10682 [1:35:31<02:36,  2.02it/s] 97%|█████████▋| 10366/10682 [1:35:31<02:36,  2.02it/s] 97%|█████████▋| 10367/10682 [1:35:32<02:35,  2.02it/s] 97%|█████████▋| 10368/10682 [1:35:32<02:35,  2.02it/s] 97%|█████████▋| 10369/10682 [1:35:33<02:34,  2.03it/s] 97%|█████████▋| 10370/10682 [1:35:33<02:33,  2.03it/s] 97%|█████████▋| 10371/10682 [1:35:34<02:33,  2.03it/s] 97%|█████████▋| 10372/10682 [1:35:34<02:32,  2.03it/s] 97%|█████████▋| 10373/10682 [1:35:35<02:32,  2.03it/s] 97%|█████████▋| 10374/10682 [1:35:35<02:31,  2.03it/s] 97%|█████████▋| 10375/10682 [1:35:36<02:31,  2.03it/s]                                                       {'loss': 2.9086, 'grad_norm': 0.2572007477283478, 'learning_rate': 2.5143995351817882e-06, 'epoch': 13.6}
- 97%|█████████▋| 10375/10682 [1:35:36<02:31,  2.03it/s] 97%|█████████▋| 10376/10682 [1:35:36<02:31,  2.02it/s] 97%|█████████▋| 10377/10682 [1:35:37<02:30,  2.02it/s] 97%|█████████▋| 10378/10682 [1:35:37<02:30,  2.02it/s] 97%|█████████▋| 10379/10682 [1:35:38<02:29,  2.02it/s] 97%|█████████▋| 10380/10682 [1:35:38<02:29,  2.02it/s] 97%|█████████▋| 10381/10682 [1:35:39<02:28,  2.02it/s] 97%|█████████▋| 10382/10682 [1:35:39<02:28,  2.02it/s] 97%|█████████▋| 10383/10682 [1:35:40<02:27,  2.02it/s] 97%|█████████▋| 10384/10682 [1:35:40<02:27,  2.02it/s] 97%|█████████▋| 10385/10682 [1:35:41<02:26,  2.02it/s] 97%|█████████▋| 10386/10682 [1:35:41<02:26,  2.02it/s] 97%|█████████▋| 10387/10682 [1:35:42<02:25,  2.03it/s] 97%|█████████▋| 10388/10682 [1:35:42<02:25,  2.03it/s] 97%|█████████▋| 10389/10682 [1:35:43<02:24,  2.03it/s] 97%|█████████▋| 10390/10682 [1:35:43<02:24,  2.03it/s] 97%|█████████▋| 10391/10682 [1:35:44<02:23,  2.03it/s] 97%|█████████▋| 10392/10682 [1:35:44<02:23,  2.03it/s] 97%|█████████▋| 10393/10682 [1:35:45<02:22,  2.02it/s] 97%|█████████▋| 10394/10682 [1:35:45<02:22,  2.02it/s] 97%|█████████▋| 10395/10682 [1:35:46<02:22,  2.02it/s] 97%|█████████▋| 10396/10682 [1:35:46<02:21,  2.02it/s] 97%|█████████▋| 10397/10682 [1:35:47<02:20,  2.02it/s] 97%|█████████▋| 10398/10682 [1:35:47<02:20,  2.02it/s] 97%|█████████▋| 10399/10682 [1:35:48<02:19,  2.03it/s] 97%|█████████▋| 10400/10682 [1:35:48<02:19,  2.03it/s]                                                       {'loss': 2.9077, 'grad_norm': 0.2587304413318634, 'learning_rate': 2.1218402281655835e-06, 'epoch': 13.63}
- 97%|█████████▋| 10400/10682 [1:35:48<02:19,  2.03it/s] 97%|█████████▋| 10401/10682 [1:35:49<02:18,  2.02it/s] 97%|█████████▋| 10402/10682 [1:35:49<02:18,  2.02it/s] 97%|█████████▋| 10403/10682 [1:35:50<02:17,  2.03it/s] 97%|█████████▋| 10404/10682 [1:35:50<02:17,  2.03it/s] 97%|█████████▋| 10405/10682 [1:35:51<02:16,  2.02it/s] 97%|█████████▋| 10406/10682 [1:35:51<02:16,  2.03it/s] 97%|█████████▋| 10407/10682 [1:35:52<02:15,  2.03it/s] 97%|█████████▋| 10408/10682 [1:35:52<02:15,  2.03it/s] 97%|█████████▋| 10409/10682 [1:35:53<02:14,  2.03it/s] 97%|█████████▋| 10410/10682 [1:35:53<02:14,  2.03it/s] 97%|█████████▋| 10411/10682 [1:35:54<02:13,  2.03it/s] 97%|█████████▋| 10412/10682 [1:35:54<02:13,  2.03it/s] 97%|█████████▋| 10413/10682 [1:35:55<02:12,  2.02it/s] 97%|█████████▋| 10414/10682 [1:35:55<02:12,  2.02it/s] 98%|█████████▊| 10415/10682 [1:35:56<02:11,  2.02it/s] 98%|█████████▊| 10416/10682 [1:35:56<02:11,  2.03it/s] 98%|█████████▊| 10417/10682 [1:35:57<02:10,  2.03it/s] 98%|█████████▊| 10418/10682 [1:35:57<02:10,  2.03it/s] 98%|█████████▊| 10419/10682 [1:35:58<02:09,  2.03it/s] 98%|█████████▊| 10420/10682 [1:35:58<02:09,  2.03it/s] 98%|█████████▊| 10421/10682 [1:35:59<02:08,  2.03it/s] 98%|█████████▊| 10422/10682 [1:35:59<02:08,  2.03it/s] 98%|█████████▊| 10423/10682 [1:36:00<02:07,  2.03it/s] 98%|█████████▊| 10424/10682 [1:36:00<02:07,  2.03it/s] 98%|█████████▊| 10425/10682 [1:36:01<02:06,  2.02it/s]{'loss': 2.9047, 'grad_norm': 0.2607307434082031, 'learning_rate': 1.7625149152127318e-06, 'epoch': 13.66}                                                       
- 98%|█████████▊| 10425/10682 [1:36:01<02:06,  2.02it/s] 98%|█████████▊| 10426/10682 [1:36:01<02:06,  2.02it/s] 98%|█████████▊| 10427/10682 [1:36:02<02:06,  2.02it/s] 98%|█████████▊| 10428/10682 [1:36:02<02:05,  2.03it/s] 98%|█████████▊| 10429/10682 [1:36:03<02:04,  2.02it/s] 98%|█████████▊| 10430/10682 [1:36:03<02:04,  2.03it/s] 98%|█████████▊| 10431/10682 [1:36:04<02:04,  2.02it/s] 98%|█████████▊| 10432/10682 [1:36:04<02:03,  2.03it/s] 98%|█████████▊| 10433/10682 [1:36:05<02:03,  2.02it/s] 98%|█████████▊| 10434/10682 [1:36:05<02:02,  2.02it/s] 98%|█████████▊| 10435/10682 [1:36:05<02:01,  2.03it/s] 98%|█████████▊| 10436/10682 [1:36:06<02:01,  2.02it/s] 98%|█████████▊| 10437/10682 [1:36:06<02:00,  2.03it/s] 98%|█████████▊| 10438/10682 [1:36:07<02:00,  2.02it/s] 98%|█████████▊| 10439/10682 [1:36:07<01:59,  2.03it/s] 98%|█████████▊| 10440/10682 [1:36:08<01:59,  2.02it/s] 98%|█████████▊| 10441/10682 [1:36:08<01:58,  2.03it/s] 98%|█████████▊| 10442/10682 [1:36:09<01:58,  2.02it/s] 98%|█████████▊| 10443/10682 [1:36:09<01:58,  2.02it/s] 98%|█████████▊| 10444/10682 [1:36:10<01:57,  2.02it/s] 98%|█████████▊| 10445/10682 [1:36:10<01:57,  2.02it/s] 98%|█████████▊| 10446/10682 [1:36:11<01:56,  2.02it/s] 98%|█████████▊| 10447/10682 [1:36:11<01:56,  2.02it/s] 98%|█████████▊| 10448/10682 [1:36:12<01:55,  2.02it/s] 98%|█████████▊| 10449/10682 [1:36:12<01:55,  2.02it/s] 98%|█████████▊| 10450/10682 [1:36:13<01:54,  2.02it/s]                                                       {'loss': 2.9116, 'grad_norm': 0.25644370913505554, 'learning_rate': 1.4364475817401635e-06, 'epoch': 13.7}
- 98%|█████████▊| 10450/10682 [1:36:13<01:54,  2.02it/s] 98%|█████████▊| 10451/10682 [1:36:13<01:54,  2.02it/s] 98%|█████████▊| 10452/10682 [1:36:14<01:53,  2.02it/s] 98%|█████████▊| 10453/10682 [1:36:14<01:53,  2.02it/s] 98%|█████████▊| 10454/10682 [1:36:15<01:52,  2.02it/s] 98%|█████████▊| 10455/10682 [1:36:15<01:52,  2.02it/s] 98%|█████████▊| 10456/10682 [1:36:16<01:51,  2.02it/s] 98%|█████████▊| 10457/10682 [1:36:16<01:51,  2.02it/s] 98%|█████████▊| 10458/10682 [1:36:17<01:50,  2.02it/s] 98%|█████████▊| 10459/10682 [1:36:17<01:50,  2.02it/s] 98%|█████████▊| 10460/10682 [1:36:18<01:49,  2.02it/s] 98%|█████████▊| 10461/10682 [1:36:18<01:49,  2.02it/s] 98%|█████████▊| 10462/10682 [1:36:19<01:48,  2.02it/s] 98%|█████████▊| 10463/10682 [1:36:19<01:48,  2.02it/s] 98%|█████████▊| 10464/10682 [1:36:20<01:47,  2.02it/s] 98%|█████████▊| 10465/10682 [1:36:20<01:47,  2.02it/s] 98%|█████████▊| 10466/10682 [1:36:21<01:46,  2.02it/s] 98%|█████████▊| 10467/10682 [1:36:21<01:46,  2.02it/s] 98%|█████████▊| 10468/10682 [1:36:22<01:45,  2.02it/s] 98%|█████████▊| 10469/10682 [1:36:22<01:45,  2.02it/s] 98%|█████████▊| 10470/10682 [1:36:23<01:44,  2.02it/s] 98%|█████████▊| 10471/10682 [1:36:23<01:44,  2.02it/s] 98%|█████████▊| 10472/10682 [1:36:24<01:43,  2.02it/s] 98%|█████████▊| 10473/10682 [1:36:24<01:43,  2.02it/s] 98%|█████████▊| 10474/10682 [1:36:25<01:42,  2.03it/s] 98%|█████████▊| 10475/10682 [1:36:25<01:42,  2.02it/s]                                                       {'loss': 2.9096, 'grad_norm': 0.25658246874809265, 'learning_rate': 1.143659993153079e-06, 'epoch': 13.73}
- 98%|█████████▊| 10475/10682 [1:36:25<01:42,  2.02it/s] 98%|█████████▊| 10476/10682 [1:36:26<01:41,  2.02it/s] 98%|█████████▊| 10477/10682 [1:36:26<01:41,  2.02it/s] 98%|█████████▊| 10478/10682 [1:36:27<01:40,  2.02it/s] 98%|█████████▊| 10479/10682 [1:36:27<01:40,  2.02it/s] 98%|█████████▊| 10480/10682 [1:36:28<01:39,  2.02it/s] 98%|█████████▊| 10481/10682 [1:36:28<01:39,  2.02it/s] 98%|█████████▊| 10482/10682 [1:36:29<01:38,  2.02it/s] 98%|█████████▊| 10483/10682 [1:36:29<01:38,  2.02it/s] 98%|█████████▊| 10484/10682 [1:36:30<01:37,  2.02it/s] 98%|█████████▊| 10485/10682 [1:36:30<01:37,  2.02it/s] 98%|█████████▊| 10486/10682 [1:36:31<01:36,  2.03it/s] 98%|█████████▊| 10487/10682 [1:36:31<01:36,  2.03it/s] 98%|█████████▊| 10488/10682 [1:36:32<01:35,  2.03it/s] 98%|█████████▊| 10489/10682 [1:36:32<01:35,  2.03it/s] 98%|█████████▊| 10490/10682 [1:36:33<01:34,  2.03it/s] 98%|█████████▊| 10491/10682 [1:36:33<01:34,  2.02it/s] 98%|█████████▊| 10492/10682 [1:36:34<01:33,  2.02it/s] 98%|█████████▊| 10493/10682 [1:36:34<01:33,  2.02it/s] 98%|█████████▊| 10494/10682 [1:36:35<01:32,  2.02it/s] 98%|█████████▊| 10495/10682 [1:36:35<01:32,  2.02it/s] 98%|█████████▊| 10496/10682 [1:36:36<01:31,  2.02it/s] 98%|█████████▊| 10497/10682 [1:36:36<01:31,  2.02it/s] 98%|█████████▊| 10498/10682 [1:36:37<01:30,  2.02it/s] 98%|█████████▊| 10499/10682 [1:36:37<01:30,  2.02it/s] 98%|█████████▊| 10500/10682 [1:36:38<01:29,  2.02it/s]                                                       {'loss': 2.9067, 'grad_norm': 0.25590550899505615, 'learning_rate': 8.841716933915555e-07, 'epoch': 13.76}
- 98%|█████████▊| 10500/10682 [1:36:38<01:29,  2.02it/s] 98%|█████████▊| 10501/10682 [1:36:38<01:29,  2.02it/s] 98%|█████████▊| 10502/10682 [1:36:39<01:29,  2.02it/s] 98%|█████████▊| 10503/10682 [1:36:39<01:28,  2.02it/s] 98%|█████████▊| 10504/10682 [1:36:40<01:28,  2.02it/s] 98%|█████████▊| 10505/10682 [1:36:40<01:27,  2.02it/s] 98%|█████████▊| 10506/10682 [1:36:41<01:26,  2.03it/s] 98%|█████████▊| 10507/10682 [1:36:41<01:26,  2.02it/s] 98%|█████████▊| 10508/10682 [1:36:42<01:25,  2.03it/s] 98%|█████████▊| 10509/10682 [1:36:42<01:25,  2.03it/s] 98%|█████████▊| 10510/10682 [1:36:43<01:24,  2.03it/s] 98%|█████████▊| 10511/10682 [1:36:43<01:24,  2.03it/s] 98%|█████████▊| 10512/10682 [1:36:44<01:23,  2.02it/s] 98%|█████████▊| 10513/10682 [1:36:44<01:23,  2.02it/s] 98%|█████████▊| 10514/10682 [1:36:45<01:23,  2.02it/s] 98%|█████████▊| 10515/10682 [1:36:45<01:22,  2.02it/s] 98%|█████████▊| 10516/10682 [1:36:46<01:22,  2.02it/s] 98%|█████████▊| 10517/10682 [1:36:46<01:21,  2.02it/s] 98%|█████████▊| 10518/10682 [1:36:47<01:21,  2.02it/s] 98%|█████████▊| 10519/10682 [1:36:47<01:20,  2.02it/s] 98%|█████████▊| 10520/10682 [1:36:48<01:20,  2.02it/s] 98%|█████████▊| 10521/10682 [1:36:48<01:19,  2.02it/s] 99%|█████████▊| 10522/10682 [1:36:48<01:19,  2.02it/s] 99%|█████████▊| 10523/10682 [1:36:49<01:18,  2.02it/s] 99%|█████████▊| 10524/10682 [1:36:49<01:18,  2.02it/s] 99%|█████████▊| 10525/10682 [1:36:50<01:17,  2.03it/s]{'loss': 2.9036, 'grad_norm': 0.26016393303871155, 'learning_rate': 6.580000036264244e-07, 'epoch': 13.79}
-                                                        99%|█████████▊| 10525/10682 [1:36:50<01:17,  2.03it/s] 99%|█████████▊| 10526/10682 [1:36:50<01:17,  2.02it/s] 99%|█████████▊| 10527/10682 [1:36:51<01:16,  2.02it/s] 99%|█████████▊| 10528/10682 [1:36:51<01:16,  2.02it/s] 99%|█████████▊| 10529/10682 [1:36:52<01:15,  2.02it/s] 99%|█████████▊| 10530/10682 [1:36:52<01:15,  2.02it/s] 99%|█████████▊| 10531/10682 [1:36:53<01:14,  2.02it/s] 99%|█████████▊| 10532/10682 [1:36:53<01:14,  2.02it/s] 99%|█████████▊| 10533/10682 [1:36:54<01:13,  2.02it/s] 99%|█████████▊| 10534/10682 [1:36:54<01:13,  2.02it/s] 99%|█████████▊| 10535/10682 [1:36:55<01:12,  2.02it/s] 99%|█████████▊| 10536/10682 [1:36:55<01:12,  2.02it/s] 99%|█████████▊| 10537/10682 [1:36:56<01:11,  2.03it/s] 99%|█████████▊| 10538/10682 [1:36:56<01:11,  2.03it/s] 99%|█████████▊| 10539/10682 [1:36:57<01:10,  2.03it/s] 99%|█████████▊| 10540/10682 [1:36:57<01:10,  2.03it/s] 99%|█████████▊| 10541/10682 [1:36:58<01:09,  2.03it/s] 99%|█████████▊| 10542/10682 [1:36:58<01:09,  2.02it/s] 99%|█████████▊| 10543/10682 [1:36:59<01:08,  2.02it/s] 99%|█████████▊| 10544/10682 [1:36:59<01:08,  2.02it/s] 99%|█████████▊| 10545/10682 [1:37:00<01:07,  2.02it/s] 99%|█████████▊| 10546/10682 [1:37:00<01:07,  2.02it/s] 99%|█████████▊| 10547/10682 [1:37:01<01:06,  2.03it/s] 99%|█████████▊| 10548/10682 [1:37:01<01:06,  2.03it/s] 99%|█████████▉| 10549/10682 [1:37:02<01:05,  2.02it/s] 99%|█████████▉| 10550/10682 [1:37:02<01:05,  2.02it/s]                                                       {'loss': 2.9042, 'grad_norm': 0.2585928440093994, 'learning_rate': 4.651600211027507e-07, 'epoch': 13.83}
- 99%|█████████▉| 10550/10682 [1:37:02<01:05,  2.02it/s] 99%|█████████▉| 10551/10682 [1:37:03<01:04,  2.02it/s] 99%|█████████▉| 10552/10682 [1:37:03<01:04,  2.02it/s] 99%|█████████▉| 10553/10682 [1:37:04<01:03,  2.02it/s] 99%|█████████▉| 10554/10682 [1:37:04<01:03,  2.02it/s] 99%|█████████▉| 10555/10682 [1:37:05<01:02,  2.03it/s] 99%|█████████▉| 10556/10682 [1:37:05<01:02,  2.02it/s] 99%|█████████▉| 10557/10682 [1:37:06<01:01,  2.02it/s] 99%|█████████▉| 10558/10682 [1:37:06<01:01,  2.02it/s] 99%|█████████▉| 10559/10682 [1:37:07<01:00,  2.02it/s] 99%|█████████▉| 10560/10682 [1:37:07<01:00,  2.02it/s] 99%|█████████▉| 10561/10682 [1:37:08<00:59,  2.02it/s] 99%|█████████▉| 10562/10682 [1:37:08<00:59,  2.02it/s] 99%|█████████▉| 10563/10682 [1:37:09<00:58,  2.02it/s] 99%|█████████▉| 10564/10682 [1:37:09<00:58,  2.02it/s] 99%|█████████▉| 10565/10682 [1:37:10<00:57,  2.02it/s] 99%|█████████▉| 10566/10682 [1:37:10<00:57,  2.02it/s] 99%|█████████▉| 10567/10682 [1:37:11<00:56,  2.02it/s] 99%|█████████▉| 10568/10682 [1:37:11<00:56,  2.02it/s] 99%|█████████▉| 10569/10682 [1:37:12<00:55,  2.02it/s] 99%|█████████▉| 10570/10682 [1:37:12<00:55,  2.03it/s] 99%|█████████▉| 10571/10682 [1:37:13<00:54,  2.02it/s] 99%|█████████▉| 10572/10682 [1:37:13<00:54,  2.03it/s] 99%|█████████▉| 10573/10682 [1:37:14<00:53,  2.02it/s] 99%|█████████▉| 10574/10682 [1:37:14<00:53,  2.02it/s] 99%|█████████▉| 10575/10682 [1:37:15<00:52,  2.02it/s]                                                       {'loss': 2.9002, 'grad_norm': 0.2576656639575958, 'learning_rate': 3.0566461813213986e-07, 'epoch': 13.86}
- 99%|█████████▉| 10575/10682 [1:37:15<00:52,  2.02it/s] 99%|█████████▉| 10576/10682 [1:37:15<00:52,  2.02it/s] 99%|█████████▉| 10577/10682 [1:37:16<00:52,  1.99it/s] 99%|█████████▉| 10578/10682 [1:37:16<00:51,  2.00it/s] 99%|█████████▉| 10579/10682 [1:37:17<00:51,  2.01it/s] 99%|█████████▉| 10580/10682 [1:37:17<00:50,  2.01it/s] 99%|█████████▉| 10581/10682 [1:37:18<00:50,  2.02it/s] 99%|█████████▉| 10582/10682 [1:37:18<00:49,  2.02it/s] 99%|█████████▉| 10583/10682 [1:37:19<00:48,  2.02it/s] 99%|█████████▉| 10584/10682 [1:37:19<00:48,  2.02it/s] 99%|█████████▉| 10585/10682 [1:37:20<00:47,  2.02it/s] 99%|█████████▉| 10586/10682 [1:37:20<00:47,  2.02it/s] 99%|█████████▉| 10587/10682 [1:37:21<00:47,  2.02it/s] 99%|█████████▉| 10588/10682 [1:37:21<00:46,  2.02it/s] 99%|█████████▉| 10589/10682 [1:37:22<00:45,  2.02it/s] 99%|█████████▉| 10590/10682 [1:37:22<00:45,  2.02it/s] 99%|█████████▉| 10591/10682 [1:37:23<00:44,  2.03it/s] 99%|█████████▉| 10592/10682 [1:37:23<00:44,  2.02it/s] 99%|█████████▉| 10593/10682 [1:37:24<00:43,  2.03it/s] 99%|█████████▉| 10594/10682 [1:37:24<00:43,  2.02it/s] 99%|█████████▉| 10595/10682 [1:37:25<00:42,  2.02it/s] 99%|█████████▉| 10596/10682 [1:37:25<00:42,  2.02it/s] 99%|█████████▉| 10597/10682 [1:37:26<00:42,  2.02it/s] 99%|█████████▉| 10598/10682 [1:37:26<00:41,  2.02it/s] 99%|█████████▉| 10599/10682 [1:37:27<00:41,  2.02it/s] 99%|█████████▉| 10600/10682 [1:37:27<00:40,  2.02it/s]                                                       {'loss': 2.9081, 'grad_norm': 0.2563185393810272, 'learning_rate': 1.7952444123359167e-07, 'epoch': 13.89}
- 99%|█████████▉| 10600/10682 [1:37:27<00:40,  2.02it/s] 99%|█████████▉| 10601/10682 [1:37:28<00:40,  2.02it/s] 99%|█████████▉| 10602/10682 [1:37:28<00:39,  2.02it/s] 99%|█████████▉| 10603/10682 [1:37:29<00:39,  2.02it/s] 99%|█████████▉| 10604/10682 [1:37:29<00:38,  2.02it/s] 99%|█████████▉| 10605/10682 [1:37:30<00:38,  2.02it/s] 99%|█████████▉| 10606/10682 [1:37:30<00:37,  2.02it/s] 99%|█████████▉| 10607/10682 [1:37:31<00:37,  2.02it/s] 99%|█████████▉| 10608/10682 [1:37:31<00:36,  2.02it/s] 99%|█████████▉| 10609/10682 [1:37:32<00:36,  2.02it/s] 99%|█████████▉| 10610/10682 [1:37:32<00:35,  2.02it/s] 99%|█████████▉| 10611/10682 [1:37:32<00:35,  2.02it/s] 99%|█████████▉| 10612/10682 [1:37:33<00:34,  2.03it/s] 99%|█████████▉| 10613/10682 [1:37:33<00:34,  2.03it/s] 99%|█████████▉| 10614/10682 [1:37:34<00:33,  2.03it/s] 99%|█████████▉| 10615/10682 [1:37:34<00:33,  2.03it/s] 99%|█████████▉| 10616/10682 [1:37:35<00:32,  2.02it/s] 99%|█████████▉| 10617/10682 [1:37:35<00:32,  2.03it/s] 99%|█████████▉| 10618/10682 [1:37:36<00:31,  2.02it/s] 99%|█████████▉| 10619/10682 [1:37:36<00:31,  2.02it/s] 99%|█████████▉| 10620/10682 [1:37:37<00:30,  2.02it/s] 99%|█████████▉| 10621/10682 [1:37:37<00:30,  2.02it/s] 99%|█████████▉| 10622/10682 [1:37:38<00:29,  2.02it/s] 99%|█████████▉| 10623/10682 [1:37:38<00:29,  2.02it/s] 99%|█████████▉| 10624/10682 [1:37:39<00:28,  2.02it/s] 99%|█████████▉| 10625/10682 [1:37:39<00:28,  2.02it/s]                                                       {'loss': 2.9086, 'grad_norm': 0.2586294710636139, 'learning_rate': 8.674791042273533e-08, 'epoch': 13.93}
- 99%|█████████▉| 10625/10682 [1:37:39<00:28,  2.02it/s] 99%|█████████▉| 10626/10682 [1:37:40<00:27,  2.02it/s] 99%|█████████▉| 10627/10682 [1:37:40<00:27,  2.02it/s] 99%|█████████▉| 10628/10682 [1:37:41<00:26,  2.02it/s]100%|█████████▉| 10629/10682 [1:37:41<00:26,  2.03it/s]100%|█████████▉| 10630/10682 [1:37:42<00:25,  2.02it/s]100%|█████████▉| 10631/10682 [1:37:42<00:25,  2.03it/s]100%|█████████▉| 10632/10682 [1:37:43<00:24,  2.02it/s]100%|█████████▉| 10633/10682 [1:37:43<00:24,  2.02it/s]100%|█████████▉| 10634/10682 [1:37:44<00:23,  2.02it/s]100%|█████████▉| 10635/10682 [1:37:44<00:23,  2.02it/s]100%|█████████▉| 10636/10682 [1:37:45<00:22,  2.02it/s]100%|█████████▉| 10637/10682 [1:37:45<00:22,  2.02it/s]100%|█████████▉| 10638/10682 [1:37:46<00:21,  2.02it/s]100%|█████████▉| 10639/10682 [1:37:46<00:21,  2.02it/s]100%|█████████▉| 10640/10682 [1:37:47<00:20,  2.02it/s]100%|█████████▉| 10641/10682 [1:37:47<00:20,  2.02it/s]100%|█████████▉| 10642/10682 [1:37:48<00:19,  2.03it/s]100%|█████████▉| 10643/10682 [1:37:48<00:19,  2.03it/s]100%|█████████▉| 10644/10682 [1:37:49<00:18,  2.03it/s]100%|█████████▉| 10645/10682 [1:37:49<00:18,  2.02it/s]100%|█████████▉| 10646/10682 [1:37:50<00:17,  2.02it/s]100%|█████████▉| 10647/10682 [1:37:50<00:17,  2.02it/s]100%|█████████▉| 10648/10682 [1:37:51<00:16,  2.02it/s]100%|█████████▉| 10649/10682 [1:37:51<00:16,  2.02it/s]100%|█████████▉| 10650/10682 [1:37:52<00:15,  2.03it/s]                                                       {'loss': 2.9053, 'grad_norm': 0.2566535472869873, 'learning_rate': 2.7341218649834522e-08, 'epoch': 13.96}
-100%|█████████▉| 10650/10682 [1:37:52<00:15,  2.03it/s]100%|█████████▉| 10651/10682 [1:37:52<00:15,  2.02it/s]100%|█████████▉| 10652/10682 [1:37:53<00:14,  2.02it/s]100%|█████████▉| 10653/10682 [1:37:53<00:14,  2.03it/s]100%|█████████▉| 10654/10682 [1:37:54<00:13,  2.03it/s]100%|█████████▉| 10655/10682 [1:37:54<00:13,  2.03it/s]100%|█████████▉| 10656/10682 [1:37:55<00:12,  2.02it/s]100%|█████████▉| 10657/10682 [1:37:55<00:12,  2.03it/s]100%|█████████▉| 10658/10682 [1:37:56<00:11,  2.02it/s]100%|█████████▉| 10659/10682 [1:37:56<00:11,  2.03it/s]100%|█████████▉| 10660/10682 [1:37:57<00:10,  2.02it/s]100%|█████████▉| 10661/10682 [1:37:57<00:10,  2.03it/s]100%|█████████▉| 10662/10682 [1:37:58<00:09,  2.03it/s]100%|█████████▉| 10663/10682 [1:37:58<00:09,  2.03it/s]100%|█████████▉| 10664/10682 [1:37:59<00:08,  2.03it/s]100%|█████████▉| 10665/10682 [1:37:59<00:08,  2.03it/s]100%|█████████▉| 10666/10682 [1:38:00<00:07,  2.03it/s]100%|█████████▉| 10667/10682 [1:38:00<00:07,  2.03it/s]100%|█████████▉| 10668/10682 [1:38:01<00:06,  2.03it/s]100%|█████████▉| 10669/10682 [1:38:01<00:06,  2.02it/s]100%|█████████▉| 10670/10682 [1:38:02<00:05,  2.02it/s]100%|█████████▉| 10671/10682 [1:38:02<00:05,  2.03it/s]100%|█████████▉| 10672/10682 [1:38:03<00:04,  2.02it/s]100%|█████████▉| 10673/10682 [1:38:03<00:04,  2.02it/s]100%|█████████▉| 10674/10682 [1:38:04<00:03,  2.02it/s]100%|█████████▉| 10675/10682 [1:38:04<00:03,  2.02it/s]                                                       {'loss': 2.9077, 'grad_norm': 0.25448256731033325, 'learning_rate': 1.3083313863404555e-09, 'epoch': 13.99}
-100%|█████████▉| 10675/10682 [1:38:04<00:03,  2.02it/s]100%|█████████▉| 10676/10682 [1:38:05<00:02,  2.02it/s]100%|█████████▉| 10677/10682 [1:38:05<00:02,  2.02it/s]100%|█████████▉| 10678/10682 [1:38:06<00:01,  2.02it/s]100%|█████████▉| 10679/10682 [1:38:06<00:01,  2.02it/s]100%|█████████▉| 10680/10682 [1:38:07<00:00,  2.02it/s]100%|█████████▉| 10681/10682 [1:38:07<00:00,  2.02it/s]100%|██████████| 10682/10682 [1:38:08<00:00,  2.04it/s]                                                       {'train_runtime': 5942.2836, 'train_samples_per_second': 1840.719, 'train_steps_per_second': 1.798, 'train_loss': 3.514777537611758, 'epoch': 14.0}
-100%|██████████| 10682/10682 [1:39:02<00:00,  2.04it/s]100%|██████████| 10682/10682 [1:39:02<00:00,  1.80it/s]
+[2024-05-18 00:12:25,027] torch.distributed.run: [WARNING] 
+[2024-05-18 00:12:25,027] torch.distributed.run: [WARNING] *****************************************
+[2024-05-18 00:12:25,027] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+[2024-05-18 00:12:25,027] torch.distributed.run: [WARNING] *****************************************
+05/18/2024 00:12:29 - INFO - __main__ - Script parameters ScriptArguments(dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/lambada', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data/pythia-70m_lambada', output_hub_id='pythia-70m_lambada', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+05/18/2024 00:12:29 - INFO - __main__ - Script parameters ScriptArguments(dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/lambada', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data/pythia-70m_lambada', output_hub_id='pythia-70m_lambada', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+  0%|          | 0/10682 [00:00<?, ?it/s][rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+  0%|          | 1/10682 [00:45<135:07:04, 45.54s/it]  0%|          | 2/10682 [01:11<101:19:47, 34.16s/it]  0%|          | 3/10682 [01:36<88:39:52, 29.89s/it]   0%|          | 4/10682 [01:59<81:05:28, 27.34s/it]  0%|          | 5/10682 [02:22<75:44:26, 25.54s/it]  0%|          | 6/10682 [02:42<70:17:00, 23.70s/it]  0%|          | 7/10682 [03:01<65:35:54, 22.12s/it]  0%|          | 8/10682 [03:18<61:07:01, 20.61s/it]  0%|          | 9/10682 [03:35<57:36:12, 19.43s/it]  0%|          | 10/10682 [03:51<54:39:22, 18.44s/it]  0%|          | 11/10682 [04:06<51:43:30, 17.45s/it]  0%|          | 12/10682 [04:22<49:53:24, 16.83s/it]  0%|          | 13/10682 [04:35<46:16:46, 15.62s/it]  0%|          | 14/10682 [04:47<43:22:48, 14.64s/it]  0%|          | 15/10682 [05:00<41:26:21, 13.99s/it]  0%|          | 16/10682 [05:12<39:38:24, 13.38s/it]  0%|          | 17/10682 [05:22<37:13:59, 12.57s/it]  0%|          | 18/10682 [05:32<35:01:56, 11.83s/it]  0%|          | 19/10682 [05:42<33:04:19, 11.17s/it]  0%|          | 20/10682 [05:52<32:03:32, 10.82s/it]  0%|          | 21/10682 [06:01<30:47:10, 10.40s/it]  0%|          | 22/10682 [06:10<28:48:37,  9.73s/it]  0%|          | 23/10682 [06:17<26:42:50,  9.02s/it]  0%|          | 24/10682 [06:24<25:19:35,  8.55s/it]  0%|          | 25/10682 [06:31<23:27:10,  7.92s/it]                                                     {'loss': 10.6379, 'grad_norm': 1.518687129020691, 'learning_rate': 2.3386342376052384e-05, 'epoch': 0.0}
+  0%|          | 25/10682 [06:31<23:27:10,  7.92s/it]  0%|          | 26/10682 [06:38<22:40:06,  7.66s/it]  0%|          | 27/10682 [06:45<21:48:55,  7.37s/it]  0%|          | 28/10682 [06:51<21:06:53,  7.13s/it]  0%|          | 29/10682 [06:57<19:58:45,  6.75s/it]  0%|          | 30/10682 [07:04<19:48:28,  6.69s/it]  0%|          | 31/10682 [07:08<18:10:54,  6.15s/it]  0%|          | 32/10682 [07:13<16:51:34,  5.70s/it]  0%|          | 33/10682 [07:18<16:10:24,  5.47s/it]  0%|          | 34/10682 [07:23<15:43:23,  5.32s/it]  0%|          | 35/10682 [07:27<14:51:17,  5.02s/it]  0%|          | 36/10682 [07:32<14:13:20,  4.81s/it]  0%|          | 37/10682 [07:36<13:38:10,  4.61s/it]  0%|          | 38/10682 [07:39<12:43:11,  4.30s/it]  0%|          | 39/10682 [07:43<12:10:04,  4.12s/it]  0%|          | 40/10682 [07:47<11:50:08,  4.00s/it]  0%|          | 41/10682 [07:51<11:38:02,  3.94s/it]  0%|          | 42/10682 [07:54<11:18:24,  3.83s/it]  0%|          | 43/10682 [07:58<11:20:03,  3.84s/it]  0%|          | 44/10682 [08:01<10:38:01,  3.60s/it]  0%|          | 45/10682 [08:04<10:18:26,  3.49s/it]  0%|          | 46/10682 [08:07<9:39:54,  3.27s/it]   0%|          | 47/10682 [08:11<10:05:07,  3.41s/it]  0%|          | 48/10682 [08:14<9:40:33,  3.28s/it]   0%|          | 49/10682 [08:17<9:24:26,  3.19s/it]  0%|          | 50/10682 [08:20<9:15:20,  3.13s/it]{'loss': 9.8959, 'grad_norm': 1.4076159000396729, 'learning_rate': 4.677268475210477e-05, 'epoch': 0.0}
+                                                      0%|          | 50/10682 [08:20<9:15:20,  3.13s/it]  0%|          | 51/10682 [08:22<8:50:23,  2.99s/it]  0%|          | 52/10682 [08:26<9:00:42,  3.05s/it]  0%|          | 53/10682 [08:28<8:37:46,  2.92s/it]  1%|          | 54/10682 [08:31<8:20:46,  2.83s/it]  1%|          | 55/10682 [08:33<7:55:53,  2.69s/it]  1%|          | 56/10682 [08:36<7:44:42,  2.62s/it]  1%|          | 57/10682 [08:38<7:34:30,  2.57s/it]  1%|          | 58/10682 [08:40<7:04:56,  2.40s/it]  1%|          | 59/10682 [08:42<6:41:56,  2.27s/it]  1%|          | 60/10682 [08:44<6:43:14,  2.28s/it]  1%|          | 61/10682 [08:46<6:36:34,  2.24s/it]  1%|          | 62/10682 [08:48<6:18:56,  2.14s/it]  1%|          | 63/10682 [08:51<6:37:53,  2.25s/it]  1%|          | 64/10682 [08:53<6:45:41,  2.29s/it]  1%|          | 65/10682 [08:55<6:30:59,  2.21s/it]  1%|          | 66/10682 [08:58<6:37:04,  2.24s/it]  1%|          | 67/10682 [08:59<6:12:33,  2.11s/it]  1%|          | 68/10682 [09:01<5:59:46,  2.03s/it]  1%|          | 69/10682 [09:03<5:56:25,  2.02s/it]  1%|          | 70/10682 [09:05<5:48:21,  1.97s/it]  1%|          | 71/10682 [09:07<5:41:12,  1.93s/it]  1%|          | 72/10682 [09:09<5:56:40,  2.02s/it]  1%|          | 73/10682 [09:11<6:06:03,  2.07s/it]  1%|          | 74/10682 [09:13<5:54:30,  2.01s/it]  1%|          | 75/10682 [09:15<5:36:35,  1.90s/it]{'loss': 9.1887, 'grad_norm': 1.2322323322296143, 'learning_rate': 7.015902712815715e-05, 'epoch': 0.01}                                                    
+  1%|          | 75/10682 [09:15<5:36:35,  1.90s/it]  1%|          | 76/10682 [09:17<5:29:28,  1.86s/it]  1%|          | 77/10682 [09:18<5:25:24,  1.84s/it]  1%|          | 78/10682 [09:20<5:16:57,  1.79s/it]  1%|          | 79/10682 [09:22<5:14:15,  1.78s/it]  1%|          | 80/10682 [09:24<5:23:51,  1.83s/it]  1%|          | 81/10682 [09:26<5:18:41,  1.80s/it]  1%|          | 82/10682 [09:27<5:01:02,  1.70s/it]  1%|          | 83/10682 [09:29<4:55:29,  1.67s/it]  1%|          | 84/10682 [09:30<4:48:03,  1.63s/it]  1%|          | 85/10682 [09:32<4:45:22,  1.62s/it]  1%|          | 86/10682 [09:34<4:56:31,  1.68s/it]  1%|          | 87/10682 [09:35<4:42:56,  1.60s/it]  1%|          | 88/10682 [09:36<4:31:46,  1.54s/it]  1%|          | 89/10682 [09:38<4:29:45,  1.53s/it]  1%|          | 90/10682 [09:39<4:25:13,  1.50s/it]  1%|          | 91/10682 [09:41<4:25:23,  1.50s/it]  1%|          | 92/10682 [09:42<4:16:00,  1.45s/it]  1%|          | 93/10682 [09:44<4:25:08,  1.50s/it]  1%|          | 94/10682 [09:45<4:13:55,  1.44s/it]  1%|          | 95/10682 [09:46<4:10:48,  1.42s/it]  1%|          | 96/10682 [09:48<4:03:24,  1.38s/it]  1%|          | 97/10682 [09:49<3:55:04,  1.33s/it]  1%|          | 98/10682 [09:50<3:49:44,  1.30s/it]  1%|          | 99/10682 [09:52<3:55:44,  1.34s/it]  1%|          | 100/10682 [09:53<3:59:28,  1.36s/it]                                                     {'loss': 8.4021, 'grad_norm': 0.8535653948783875, 'learning_rate': 9.354536950420954e-05, 'epoch': 0.01}
+  1%|          | 100/10682 [09:53<3:59:28,  1.36s/it]  1%|          | 101/10682 [09:54<3:57:31,  1.35s/it]  1%|          | 102/10682 [09:56<3:49:52,  1.30s/it]  1%|          | 103/10682 [09:57<3:43:52,  1.27s/it]  1%|          | 104/10682 [09:58<3:51:50,  1.32s/it]  1%|          | 105/10682 [09:59<3:41:36,  1.26s/it]  1%|          | 106/10682 [10:00<3:37:53,  1.24s/it]  1%|          | 107/10682 [10:02<3:37:37,  1.23s/it]  1%|          | 108/10682 [10:03<3:43:19,  1.27s/it]  1%|          | 109/10682 [10:04<3:42:37,  1.26s/it]  1%|          | 110/10682 [10:05<3:36:53,  1.23s/it]  1%|          | 111/10682 [10:07<3:35:22,  1.22s/it]  1%|          | 112/10682 [10:08<3:30:10,  1.19s/it]  1%|          | 113/10682 [10:09<3:27:01,  1.18s/it]  1%|          | 114/10682 [10:10<3:25:38,  1.17s/it]  1%|          | 115/10682 [10:11<3:20:50,  1.14s/it]  1%|          | 116/10682 [10:12<3:21:56,  1.15s/it]  1%|          | 117/10682 [10:13<3:17:47,  1.12s/it]  1%|          | 118/10682 [10:14<3:14:29,  1.10s/it]  1%|          | 119/10682 [10:16<3:16:34,  1.12s/it]  1%|          | 120/10682 [10:17<3:18:48,  1.13s/it]  1%|          | 121/10682 [10:18<3:18:15,  1.13s/it]  1%|          | 122/10682 [10:19<3:14:55,  1.11s/it]  1%|          | 123/10682 [10:20<3:09:04,  1.07s/it]  1%|          | 124/10682 [10:21<3:07:17,  1.06s/it]  1%|          | 125/10682 [10:22<3:04:20,  1.05s/it]                                                     {'loss': 7.7462, 'grad_norm': 0.47506141662597656, 'learning_rate': 0.00011693171188026193, 'epoch': 0.01}
+  1%|          | 125/10682 [10:22<3:04:20,  1.05s/it]  1%|          | 126/10682 [10:23<3:10:42,  1.08s/it]  1%|          | 127/10682 [10:24<3:08:02,  1.07s/it]  1%|          | 128/10682 [10:25<3:07:27,  1.07s/it]  1%|          | 129/10682 [10:26<3:06:12,  1.06s/it]  1%|          | 130/10682 [10:27<3:01:58,  1.03s/it]  1%|          | 131/10682 [10:28<3:07:36,  1.07s/it]  1%|          | 132/10682 [10:29<3:01:11,  1.03s/it]  1%|          | 133/10682 [10:30<2:52:43,  1.02it/s]  1%|▏         | 134/10682 [10:31<2:47:37,  1.05it/s]  1%|▏         | 135/10682 [10:32<2:50:39,  1.03it/s]  1%|▏         | 136/10682 [10:33<2:51:26,  1.03it/s]  1%|▏         | 137/10682 [10:34<2:52:44,  1.02it/s]  1%|▏         | 138/10682 [10:35<2:48:34,  1.04it/s]  1%|▏         | 139/10682 [10:36<2:44:18,  1.07it/s]  1%|▏         | 140/10682 [10:37<2:42:13,  1.08it/s]  1%|▏         | 141/10682 [10:38<2:50:57,  1.03it/s]  1%|▏         | 142/10682 [10:39<2:46:51,  1.05it/s]  1%|▏         | 143/10682 [10:40<2:45:46,  1.06it/s]  1%|▏         | 144/10682 [10:41<2:40:08,  1.10it/s]  1%|▏         | 145/10682 [10:41<2:36:04,  1.13it/s]  1%|▏         | 146/10682 [10:42<2:30:54,  1.16it/s]  1%|▏         | 147/10682 [10:43<2:43:06,  1.08it/s]  1%|▏         | 148/10682 [10:44<2:38:35,  1.11it/s]  1%|▏         | 149/10682 [10:45<2:36:00,  1.13it/s]  1%|▏         | 150/10682 [10:46<2:33:19,  1.14it/s]                                                     {'loss': 7.2887, 'grad_norm': 0.4157545268535614, 'learning_rate': 0.0001403180542563143, 'epoch': 0.01}
+  1%|▏         | 150/10682 [10:46<2:33:19,  1.14it/s]  1%|▏         | 151/10682 [10:47<2:29:13,  1.18it/s]  1%|▏         | 152/10682 [10:47<2:27:04,  1.19it/s]  1%|▏         | 153/10682 [10:48<2:24:26,  1.21it/s]  1%|▏         | 154/10682 [10:49<2:22:54,  1.23it/s]  1%|▏         | 155/10682 [10:50<2:22:30,  1.23it/s]  1%|▏         | 156/10682 [10:51<2:22:36,  1.23it/s]  1%|▏         | 157/10682 [10:51<2:21:10,  1.24it/s]  1%|▏         | 158/10682 [10:52<2:19:00,  1.26it/s]  1%|▏         | 159/10682 [10:53<2:17:30,  1.28it/s]  1%|▏         | 160/10682 [10:54<2:18:49,  1.26it/s]  2%|▏         | 161/10682 [10:54<2:17:41,  1.27it/s]  2%|▏         | 162/10682 [10:55<2:20:52,  1.24it/s]  2%|▏         | 163/10682 [10:56<2:21:18,  1.24it/s]  2%|▏         | 164/10682 [10:57<2:20:22,  1.25it/s]  2%|▏         | 165/10682 [10:58<2:23:26,  1.22it/s]  2%|▏         | 166/10682 [10:59<2:21:24,  1.24it/s]  2%|▏         | 167/10682 [10:59<2:23:22,  1.22it/s]  2%|▏         | 168/10682 [11:00<2:17:56,  1.27it/s]  2%|▏         | 169/10682 [11:01<2:12:53,  1.32it/s]  2%|▏         | 170/10682 [11:02<2:12:54,  1.32it/s]  2%|▏         | 171/10682 [11:02<2:20:11,  1.25it/s]  2%|▏         | 172/10682 [11:03<2:18:05,  1.27it/s]  2%|▏         | 173/10682 [11:04<2:14:54,  1.30it/s]  2%|▏         | 174/10682 [11:05<2:11:58,  1.33it/s]  2%|▏         | 175/10682 [11:05<2:15:19,  1.29it/s]{'loss': 6.9237, 'grad_norm': 0.4232708811759949, 'learning_rate': 0.00016370439663236668, 'epoch': 0.02}
+                                                       2%|▏         | 175/10682 [11:05<2:15:19,  1.29it/s]  2%|▏         | 176/10682 [11:06<2:12:16,  1.32it/s]  2%|▏         | 177/10682 [11:07<2:10:34,  1.34it/s]  2%|▏         | 178/10682 [11:08<2:12:48,  1.32it/s]  2%|▏         | 179/10682 [11:08<2:13:36,  1.31it/s]  2%|▏         | 180/10682 [11:09<2:10:24,  1.34it/s]  2%|▏         | 181/10682 [11:10<2:10:10,  1.34it/s]  2%|▏         | 182/10682 [11:11<2:07:56,  1.37it/s]  2%|▏         | 183/10682 [11:11<2:10:23,  1.34it/s]  2%|▏         | 184/10682 [11:12<2:09:38,  1.35it/s]  2%|▏         | 185/10682 [11:13<2:11:08,  1.33it/s]  2%|▏         | 186/10682 [11:14<2:12:14,  1.32it/s]  2%|▏         | 187/10682 [11:14<2:08:59,  1.36it/s]  2%|▏         | 188/10682 [11:15<2:10:14,  1.34it/s]  2%|▏         | 189/10682 [11:16<2:09:30,  1.35it/s]  2%|▏         | 190/10682 [11:17<2:06:12,  1.39it/s]  2%|▏         | 191/10682 [11:17<2:07:35,  1.37it/s]  2%|▏         | 192/10682 [11:18<2:14:31,  1.30it/s]  2%|▏         | 193/10682 [11:19<2:16:58,  1.28it/s]  2%|▏         | 194/10682 [11:20<2:13:01,  1.31it/s]  2%|▏         | 195/10682 [11:20<2:11:35,  1.33it/s]  2%|▏         | 196/10682 [11:21<2:08:56,  1.36it/s]  2%|▏         | 197/10682 [11:22<2:05:41,  1.39it/s]  2%|▏         | 198/10682 [11:23<2:15:31,  1.29it/s]  2%|▏         | 199/10682 [11:23<2:09:09,  1.35it/s]  2%|▏         | 200/10682 [11:24<2:08:00,  1.36it/s]                                                     {'loss': 6.6194, 'grad_norm': 0.6208123564720154, 'learning_rate': 0.00018709073900841907, 'epoch': 0.02}
+  2%|▏         | 200/10682 [11:24<2:08:00,  1.36it/s]  2%|▏         | 201/10682 [11:25<2:03:57,  1.41it/s]  2%|▏         | 202/10682 [11:25<2:02:42,  1.42it/s]  2%|▏         | 203/10682 [11:26<1:59:22,  1.46it/s]  2%|▏         | 204/10682 [11:27<1:57:29,  1.49it/s]  2%|▏         | 205/10682 [11:27<1:53:13,  1.54it/s]  2%|▏         | 206/10682 [11:28<1:52:52,  1.55it/s]  2%|▏         | 207/10682 [11:29<1:55:34,  1.51it/s]  2%|▏         | 208/10682 [11:29<1:55:23,  1.51it/s]  2%|▏         | 209/10682 [11:30<1:56:39,  1.50it/s]  2%|▏         | 210/10682 [11:31<1:52:40,  1.55it/s]  2%|▏         | 211/10682 [11:31<1:55:01,  1.52it/s]  2%|▏         | 212/10682 [11:32<1:52:47,  1.55it/s]  2%|▏         | 213/10682 [11:33<1:52:43,  1.55it/s]  2%|▏         | 214/10682 [11:33<1:56:29,  1.50it/s]  2%|▏         | 215/10682 [11:34<1:54:49,  1.52it/s]  2%|▏         | 216/10682 [11:35<1:56:37,  1.50it/s]  2%|▏         | 217/10682 [11:35<2:00:15,  1.45it/s]  2%|▏         | 218/10682 [11:36<1:56:57,  1.49it/s]  2%|▏         | 219/10682 [11:37<1:55:12,  1.51it/s]  2%|▏         | 220/10682 [11:37<1:52:02,  1.56it/s]  2%|▏         | 221/10682 [11:38<1:51:23,  1.57it/s]  2%|▏         | 222/10682 [11:38<1:53:13,  1.54it/s]  2%|▏         | 223/10682 [11:39<1:49:42,  1.59it/s]  2%|▏         | 224/10682 [11:40<1:50:02,  1.58it/s]  2%|▏         | 225/10682 [11:40<1:49:11,  1.60it/s]                                                     {'loss': 6.3773, 'grad_norm': 0.6479279398918152, 'learning_rate': 0.00021047708138447147, 'epoch': 0.02}
+  2%|▏         | 225/10682 [11:40<1:49:11,  1.60it/s]  2%|▏         | 226/10682 [11:41<1:49:56,  1.59it/s]  2%|▏         | 227/10682 [11:42<1:50:11,  1.58it/s]  2%|▏         | 228/10682 [11:42<1:47:43,  1.62it/s]  2%|▏         | 229/10682 [11:43<1:50:09,  1.58it/s]  2%|▏         | 230/10682 [11:43<1:49:33,  1.59it/s]  2%|▏         | 231/10682 [11:44<1:52:23,  1.55it/s]  2%|▏         | 232/10682 [11:45<1:51:25,  1.56it/s]  2%|▏         | 233/10682 [11:45<1:50:09,  1.58it/s]  2%|▏         | 234/10682 [11:46<1:49:48,  1.59it/s]  2%|▏         | 235/10682 [11:47<1:47:34,  1.62it/s]  2%|▏         | 236/10682 [11:47<1:47:56,  1.61it/s]  2%|▏         | 237/10682 [11:48<1:47:53,  1.61it/s]  2%|▏         | 238/10682 [11:48<1:47:38,  1.62it/s]  2%|▏         | 239/10682 [11:49<1:49:56,  1.58it/s]  2%|▏         | 240/10682 [11:50<1:47:53,  1.61it/s]  2%|▏         | 241/10682 [11:50<1:46:45,  1.63it/s]  2%|▏         | 242/10682 [11:51<1:47:32,  1.62it/s]  2%|▏         | 243/10682 [11:52<1:45:35,  1.65it/s]  2%|▏         | 244/10682 [11:52<1:43:58,  1.67it/s]  2%|▏         | 245/10682 [11:53<1:44:13,  1.67it/s]  2%|▏         | 246/10682 [11:53<1:44:09,  1.67it/s]  2%|▏         | 247/10682 [11:54<1:44:17,  1.67it/s]  2%|▏         | 248/10682 [11:54<1:42:33,  1.70it/s]  2%|▏         | 249/10682 [11:55<1:42:29,  1.70it/s]  2%|▏         | 250/10682 [11:56<1:42:19,  1.70it/s]                                                     {'loss': 6.1815, 'grad_norm': 0.599463701248169, 'learning_rate': 0.00023386342376052386, 'epoch': 0.02}
+  2%|▏         | 250/10682 [11:56<1:42:19,  1.70it/s]  2%|▏         | 251/10682 [11:56<1:46:27,  1.63it/s]  2%|▏         | 252/10682 [11:57<1:43:55,  1.67it/s]  2%|▏         | 253/10682 [11:57<1:44:06,  1.67it/s]  2%|▏         | 254/10682 [11:58<1:42:02,  1.70it/s]  2%|▏         | 255/10682 [11:59<1:41:50,  1.71it/s]  2%|▏         | 256/10682 [11:59<1:42:07,  1.70it/s]  2%|▏         | 257/10682 [12:00<1:44:50,  1.66it/s]  2%|▏         | 258/10682 [12:00<1:43:55,  1.67it/s]  2%|▏         | 259/10682 [12:01<1:43:42,  1.67it/s]  2%|▏         | 260/10682 [12:02<1:42:43,  1.69it/s]  2%|▏         | 261/10682 [12:02<1:42:03,  1.70it/s]  2%|▏         | 262/10682 [12:03<1:43:23,  1.68it/s]  2%|▏         | 263/10682 [12:03<1:41:49,  1.71it/s]  2%|▏         | 264/10682 [12:04<1:40:42,  1.72it/s]  2%|▏         | 265/10682 [12:05<1:42:12,  1.70it/s]  2%|▏         | 266/10682 [12:05<1:41:42,  1.71it/s]  2%|▏         | 267/10682 [12:06<1:40:31,  1.73it/s]  3%|▎         | 268/10682 [12:06<1:40:48,  1.72it/s]  3%|▎         | 269/10682 [12:07<1:39:48,  1.74it/s]  3%|▎         | 270/10682 [12:07<1:38:13,  1.77it/s]  3%|▎         | 271/10682 [12:08<1:40:33,  1.73it/s]  3%|▎         | 272/10682 [12:09<1:40:38,  1.72it/s]  3%|▎         | 273/10682 [12:09<1:40:30,  1.73it/s]  3%|▎         | 274/10682 [12:10<1:40:11,  1.73it/s]  3%|▎         | 275/10682 [12:10<1:39:22,  1.75it/s]                                                     {'loss': 6.0129, 'grad_norm': 0.7391013503074646, 'learning_rate': 0.00025724976613657625, 'epoch': 0.03}
+  3%|▎         | 275/10682 [12:10<1:39:22,  1.75it/s]  3%|▎         | 276/10682 [12:11<1:39:31,  1.74it/s]  3%|▎         | 277/10682 [12:11<1:38:48,  1.76it/s]  3%|▎         | 278/10682 [12:12<1:39:07,  1.75it/s]  3%|▎         | 279/10682 [12:13<1:38:29,  1.76it/s]  3%|▎         | 280/10682 [12:13<1:40:22,  1.73it/s]  3%|▎         | 281/10682 [12:14<1:39:35,  1.74it/s]  3%|▎         | 282/10682 [12:14<1:38:19,  1.76it/s]  3%|▎         | 283/10682 [12:15<1:38:36,  1.76it/s]  3%|▎         | 284/10682 [12:15<1:39:06,  1.75it/s]  3%|▎         | 285/10682 [12:16<1:40:29,  1.72it/s]  3%|▎         | 286/10682 [12:17<1:39:58,  1.73it/s]  3%|▎         | 287/10682 [12:17<1:38:43,  1.75it/s]  3%|▎         | 288/10682 [12:18<1:45:19,  1.64it/s]  3%|▎         | 289/10682 [12:18<1:42:38,  1.69it/s]  3%|▎         | 290/10682 [12:19<1:40:23,  1.73it/s]  3%|▎         | 291/10682 [12:19<1:39:00,  1.75it/s]  3%|▎         | 292/10682 [12:20<1:37:40,  1.77it/s]  3%|▎         | 293/10682 [12:21<1:37:18,  1.78it/s]  3%|▎         | 294/10682 [12:21<1:36:39,  1.79it/s]  3%|▎         | 295/10682 [12:22<1:35:41,  1.81it/s]  3%|▎         | 296/10682 [12:22<1:35:16,  1.82it/s]  3%|▎         | 297/10682 [12:23<1:34:50,  1.82it/s]  3%|▎         | 298/10682 [12:23<1:34:23,  1.83it/s]  3%|▎         | 299/10682 [12:24<1:35:31,  1.81it/s]  3%|▎         | 300/10682 [12:24<1:35:02,  1.82it/s]                                                     {'loss': 5.867, 'grad_norm': 0.7351891994476318, 'learning_rate': 0.0002806361085126286, 'epoch': 0.03}
+  3%|▎         | 300/10682 [12:24<1:35:02,  1.82it/s]  3%|▎         | 301/10682 [12:25<1:34:43,  1.83it/s]  3%|▎         | 302/10682 [12:26<1:35:38,  1.81it/s]  3%|▎         | 303/10682 [12:26<1:35:29,  1.81it/s]  3%|▎         | 304/10682 [12:27<1:37:10,  1.78it/s]  3%|▎         | 305/10682 [12:27<1:37:57,  1.77it/s]  3%|▎         | 306/10682 [12:28<1:40:07,  1.73it/s]  3%|▎         | 307/10682 [12:28<1:37:28,  1.77it/s]  3%|▎         | 308/10682 [12:29<1:35:48,  1.80it/s]  3%|▎         | 309/10682 [12:29<1:35:29,  1.81it/s]  3%|▎         | 310/10682 [12:30<1:36:28,  1.79it/s]  3%|▎         | 311/10682 [12:31<1:35:13,  1.82it/s]  3%|▎         | 312/10682 [12:31<1:35:34,  1.81it/s]  3%|▎         | 313/10682 [12:32<1:39:33,  1.74it/s]  3%|▎         | 314/10682 [12:32<1:37:49,  1.77it/s]  3%|▎         | 315/10682 [12:33<1:35:56,  1.80it/s]  3%|▎         | 316/10682 [12:33<1:35:31,  1.81it/s]  3%|▎         | 317/10682 [12:34<1:34:49,  1.82it/s]  3%|▎         | 318/10682 [12:34<1:33:56,  1.84it/s]  3%|▎         | 319/10682 [12:35<1:33:16,  1.85it/s]  3%|▎         | 320/10682 [12:36<1:33:07,  1.85it/s]  3%|▎         | 321/10682 [12:36<1:33:15,  1.85it/s]  3%|▎         | 322/10682 [12:37<1:37:00,  1.78it/s]  3%|▎         | 323/10682 [12:37<1:36:39,  1.79it/s]  3%|▎         | 324/10682 [12:38<1:35:28,  1.81it/s]  3%|▎         | 325/10682 [12:38<1:36:09,  1.80it/s]                                                     {'loss': 5.7403, 'grad_norm': 0.6719109416007996, 'learning_rate': 0.00030402245088868103, 'epoch': 0.03}
+  3%|▎         | 325/10682 [12:38<1:36:09,  1.80it/s]  3%|▎         | 326/10682 [12:39<1:35:11,  1.81it/s]  3%|▎         | 327/10682 [12:40<1:49:04,  1.58it/s]  3%|▎         | 328/10682 [12:41<1:58:28,  1.46it/s]  3%|▎         | 329/10682 [12:41<1:49:52,  1.57it/s]  3%|▎         | 330/10682 [12:42<1:44:36,  1.65it/s]  3%|▎         | 331/10682 [12:42<1:40:50,  1.71it/s]  3%|▎         | 332/10682 [12:43<1:38:02,  1.76it/s]  3%|▎         | 333/10682 [12:43<1:37:22,  1.77it/s]  3%|▎         | 334/10682 [12:44<1:35:58,  1.80it/s]  3%|▎         | 335/10682 [12:44<1:34:56,  1.82it/s]  3%|▎         | 336/10682 [12:45<1:34:14,  1.83it/s]  3%|▎         | 337/10682 [12:45<1:33:21,  1.85it/s]  3%|▎         | 338/10682 [12:46<1:32:46,  1.86it/s]  3%|▎         | 339/10682 [12:46<1:32:28,  1.86it/s]  3%|▎         | 340/10682 [12:47<1:32:56,  1.85it/s]  3%|▎         | 341/10682 [12:47<1:32:28,  1.86it/s]  3%|▎         | 342/10682 [12:48<1:31:58,  1.87it/s]  3%|▎         | 343/10682 [12:49<1:32:41,  1.86it/s]  3%|▎         | 344/10682 [12:49<1:33:03,  1.85it/s]  3%|▎         | 345/10682 [12:50<1:33:16,  1.85it/s]  3%|▎         | 346/10682 [12:50<1:32:28,  1.86it/s]  3%|▎         | 347/10682 [12:51<1:32:14,  1.87it/s]  3%|▎         | 348/10682 [12:51<1:32:22,  1.86it/s]  3%|▎         | 349/10682 [12:52<1:32:11,  1.87it/s]  3%|▎         | 350/10682 [12:52<1:31:52,  1.87it/s]                                                     {'loss': 5.6318, 'grad_norm': 0.5963531732559204, 'learning_rate': 0.00032740879326473337, 'epoch': 0.03}
+  3%|▎         | 350/10682 [12:52<1:31:52,  1.87it/s]  3%|▎         | 351/10682 [12:53<1:36:01,  1.79it/s]  3%|▎         | 352/10682 [12:53<1:35:42,  1.80it/s]  3%|▎         | 353/10682 [12:54<1:33:52,  1.83it/s]  3%|▎         | 354/10682 [12:55<1:33:35,  1.84it/s]  3%|▎         | 355/10682 [12:55<1:32:56,  1.85it/s]  3%|▎         | 356/10682 [12:56<1:32:05,  1.87it/s]  3%|▎         | 357/10682 [12:56<1:33:03,  1.85it/s]  3%|▎         | 358/10682 [12:57<1:34:04,  1.83it/s]  3%|▎         | 359/10682 [12:57<1:33:13,  1.85it/s]  3%|▎         | 360/10682 [12:58<1:32:01,  1.87it/s]  3%|▎         | 361/10682 [12:58<1:31:10,  1.89it/s]  3%|▎         | 362/10682 [12:59<1:30:11,  1.91it/s]  3%|▎         | 363/10682 [12:59<1:30:00,  1.91it/s]  3%|▎         | 364/10682 [13:00<1:30:09,  1.91it/s]  3%|▎         | 365/10682 [13:00<1:29:55,  1.91it/s]  3%|▎         | 366/10682 [13:01<1:29:41,  1.92it/s]  3%|▎         | 367/10682 [13:01<1:29:46,  1.92it/s]  3%|▎         | 368/10682 [13:02<1:30:16,  1.90it/s]  3%|▎         | 369/10682 [13:02<1:30:08,  1.91it/s]  3%|▎         | 370/10682 [13:03<1:30:55,  1.89it/s]  3%|▎         | 371/10682 [13:03<1:30:47,  1.89it/s]  3%|▎         | 372/10682 [13:04<1:30:19,  1.90it/s]  3%|▎         | 373/10682 [13:05<1:29:34,  1.92it/s]  4%|▎         | 374/10682 [13:05<1:30:01,  1.91it/s]  4%|▎         | 375/10682 [13:06<1:29:52,  1.91it/s]{'loss': 5.5306, 'grad_norm': 0.5522502660751343, 'learning_rate': 0.0003507951356407858, 'epoch': 0.04}                                                     
+  4%|▎         | 375/10682 [13:06<1:29:52,  1.91it/s]  4%|▎         | 376/10682 [13:06<1:29:39,  1.92it/s]  4%|▎         | 377/10682 [13:07<1:29:46,  1.91it/s]  4%|▎         | 378/10682 [13:07<1:29:23,  1.92it/s]  4%|▎         | 379/10682 [13:08<1:29:08,  1.93it/s]  4%|▎         | 380/10682 [13:08<1:29:31,  1.92it/s]  4%|▎         | 381/10682 [13:09<1:29:10,  1.93it/s]  4%|▎         | 382/10682 [13:09<1:28:51,  1.93it/s]  4%|▎         | 383/10682 [13:10<1:28:58,  1.93it/s]  4%|▎         | 384/10682 [13:10<1:28:47,  1.93it/s]  4%|▎         | 385/10682 [13:11<1:29:11,  1.92it/s]  4%|▎         | 386/10682 [13:11<1:28:53,  1.93it/s]  4%|▎         | 387/10682 [13:12<1:28:25,  1.94it/s]  4%|▎         | 388/10682 [13:12<1:29:39,  1.91it/s]  4%|▎         | 389/10682 [13:13<1:29:16,  1.92it/s]  4%|▎         | 390/10682 [13:13<1:29:11,  1.92it/s]  4%|▎         | 391/10682 [13:14<1:29:32,  1.92it/s]  4%|▎         | 392/10682 [13:14<1:29:11,  1.92it/s]  4%|▎         | 393/10682 [13:15<1:29:10,  1.92it/s]  4%|▎         | 394/10682 [13:15<1:29:16,  1.92it/s]  4%|▎         | 395/10682 [13:16<1:29:11,  1.92it/s]  4%|▎         | 396/10682 [13:16<1:29:12,  1.92it/s]  4%|▎         | 397/10682 [13:17<1:29:15,  1.92it/s]  4%|▎         | 398/10682 [13:18<1:39:04,  1.73it/s]  4%|▎         | 399/10682 [13:18<1:36:00,  1.79it/s]  4%|▎         | 400/10682 [13:19<1:34:34,  1.81it/s]{'loss': 5.4457, 'grad_norm': 0.6050080060958862, 'learning_rate': 0.00037418147801683815, 'epoch': 0.04}
+                                                       4%|▎         | 400/10682 [13:19<1:34:34,  1.81it/s]  4%|▍         | 401/10682 [13:19<1:33:15,  1.84it/s]  4%|▍         | 402/10682 [13:20<1:31:46,  1.87it/s]  4%|▍         | 403/10682 [13:20<1:30:58,  1.88it/s]  4%|▍         | 404/10682 [13:21<1:30:14,  1.90it/s]  4%|▍         | 405/10682 [13:21<1:29:35,  1.91it/s]  4%|▍         | 406/10682 [13:22<1:29:25,  1.92it/s]  4%|▍         | 407/10682 [13:22<1:28:51,  1.93it/s]  4%|▍         | 408/10682 [13:23<1:29:21,  1.92it/s]  4%|▍         | 409/10682 [13:23<1:29:01,  1.92it/s]  4%|▍         | 410/10682 [13:24<1:28:26,  1.94it/s]  4%|▍         | 411/10682 [13:24<1:28:21,  1.94it/s]  4%|▍         | 412/10682 [13:25<1:28:15,  1.94it/s]  4%|▍         | 413/10682 [13:25<1:28:02,  1.94it/s]  4%|▍         | 414/10682 [13:26<1:29:07,  1.92it/s]  4%|▍         | 415/10682 [13:27<1:29:05,  1.92it/s]  4%|▍         | 416/10682 [13:27<1:28:46,  1.93it/s]  4%|▍         | 417/10682 [13:28<1:28:11,  1.94it/s]  4%|▍         | 418/10682 [13:28<1:27:39,  1.95it/s]  4%|▍         | 419/10682 [13:29<1:27:27,  1.96it/s]  4%|▍         | 420/10682 [13:29<1:27:20,  1.96it/s]  4%|▍         | 421/10682 [13:30<1:27:32,  1.95it/s]  4%|▍         | 422/10682 [13:30<1:27:37,  1.95it/s]  4%|▍         | 423/10682 [13:31<1:28:06,  1.94it/s]  4%|▍         | 424/10682 [13:31<1:27:47,  1.95it/s]  4%|▍         | 425/10682 [13:32<1:27:27,  1.95it/s]                                                     {'loss': 5.3684, 'grad_norm': 0.8292851448059082, 'learning_rate': 0.0003975678203928906, 'epoch': 0.04}
+  4%|▍         | 425/10682 [13:32<1:27:27,  1.95it/s]  4%|▍         | 426/10682 [13:32<1:27:29,  1.95it/s]  4%|▍         | 427/10682 [13:33<1:27:19,  1.96it/s]  4%|▍         | 428/10682 [13:33<1:27:06,  1.96it/s]  4%|▍         | 429/10682 [13:34<1:26:52,  1.97it/s]  4%|▍         | 430/10682 [13:34<1:26:59,  1.96it/s]  4%|▍         | 431/10682 [13:35<1:27:04,  1.96it/s]  4%|▍         | 432/10682 [13:35<1:27:58,  1.94it/s]  4%|▍         | 433/10682 [13:36<1:27:57,  1.94it/s]  4%|▍         | 434/10682 [13:36<1:27:55,  1.94it/s]  4%|▍         | 435/10682 [13:37<1:27:35,  1.95it/s]  4%|▍         | 436/10682 [13:37<1:27:40,  1.95it/s]  4%|▍         | 437/10682 [13:38<1:27:34,  1.95it/s]  4%|▍         | 438/10682 [13:38<1:27:25,  1.95it/s]  4%|▍         | 439/10682 [13:39<1:27:32,  1.95it/s]  4%|▍         | 440/10682 [13:39<1:27:18,  1.96it/s]  4%|▍         | 441/10682 [13:40<1:27:23,  1.95it/s]  4%|▍         | 442/10682 [13:40<1:27:01,  1.96it/s]  4%|▍         | 443/10682 [13:41<1:27:07,  1.96it/s]  4%|▍         | 444/10682 [13:41<1:27:07,  1.96it/s]  4%|▍         | 445/10682 [13:42<1:27:17,  1.95it/s]  4%|▍         | 446/10682 [13:42<1:27:08,  1.96it/s]  4%|▍         | 447/10682 [13:43<1:27:14,  1.96it/s]  4%|▍         | 448/10682 [13:43<1:27:17,  1.95it/s]  4%|▍         | 449/10682 [13:44<1:27:43,  1.94it/s]  4%|▍         | 450/10682 [13:44<1:27:09,  1.96it/s]{'loss': 5.2957, 'grad_norm': 0.5733936429023743, 'learning_rate': 0.00042095416276894293, 'epoch': 0.04}
+                                                       4%|▍         | 450/10682 [13:44<1:27:09,  1.96it/s]  4%|▍         | 451/10682 [13:45<1:27:01,  1.96it/s]  4%|▍         | 452/10682 [13:45<1:27:13,  1.95it/s]  4%|▍         | 453/10682 [13:46<1:27:11,  1.96it/s]  4%|▍         | 454/10682 [13:46<1:27:01,  1.96it/s]  4%|▍         | 455/10682 [13:47<1:26:42,  1.97it/s]  4%|▍         | 456/10682 [13:48<1:26:35,  1.97it/s]  4%|▍         | 457/10682 [13:48<1:26:44,  1.96it/s]  4%|▍         | 458/10682 [13:49<1:26:50,  1.96it/s]  4%|▍         | 459/10682 [13:49<1:26:58,  1.96it/s]  4%|▍         | 460/10682 [13:50<1:27:59,  1.94it/s]  4%|▍         | 461/10682 [13:50<1:27:32,  1.95it/s]  4%|▍         | 462/10682 [13:51<1:27:04,  1.96it/s]  4%|▍         | 463/10682 [13:51<1:26:51,  1.96it/s]  4%|▍         | 464/10682 [13:52<1:26:47,  1.96it/s]  4%|▍         | 465/10682 [13:52<1:26:30,  1.97it/s]  4%|▍         | 466/10682 [13:53<1:26:54,  1.96it/s]  4%|▍         | 467/10682 [13:53<1:26:41,  1.96it/s]  4%|▍         | 468/10682 [13:54<1:27:36,  1.94it/s]  4%|▍         | 469/10682 [13:54<1:27:05,  1.95it/s]  4%|▍         | 470/10682 [13:55<1:26:36,  1.97it/s]  4%|▍         | 471/10682 [13:55<1:26:38,  1.96it/s]  4%|▍         | 472/10682 [13:56<1:26:42,  1.96it/s]  4%|▍         | 473/10682 [13:56<1:26:39,  1.96it/s]  4%|▍         | 474/10682 [13:57<1:27:29,  1.94it/s]  4%|▍         | 475/10682 [13:57<1:27:12,  1.95it/s]                                                     {'loss': 5.2225, 'grad_norm': 0.7135836482048035, 'learning_rate': 0.0004443405051449954, 'epoch': 0.04}
+  4%|▍         | 475/10682 [13:57<1:27:12,  1.95it/s]  4%|▍         | 476/10682 [13:58<1:26:47,  1.96it/s]  4%|▍         | 477/10682 [13:58<1:26:42,  1.96it/s]  4%|▍         | 478/10682 [13:59<1:26:33,  1.96it/s]  4%|▍         | 479/10682 [13:59<1:26:38,  1.96it/s]  4%|▍         | 480/10682 [14:00<1:26:41,  1.96it/s]  5%|▍         | 481/10682 [14:00<1:26:20,  1.97it/s]  5%|▍         | 482/10682 [14:01<1:26:11,  1.97it/s]  5%|▍         | 483/10682 [14:01<1:26:03,  1.98it/s]  5%|▍         | 484/10682 [14:02<1:26:15,  1.97it/s]  5%|▍         | 485/10682 [14:02<1:26:32,  1.96it/s]  5%|▍         | 486/10682 [14:03<1:26:13,  1.97it/s]  5%|▍         | 487/10682 [14:03<1:26:03,  1.97it/s]  5%|▍         | 488/10682 [14:04<1:25:58,  1.98it/s]  5%|▍         | 489/10682 [14:04<1:25:50,  1.98it/s]  5%|▍         | 490/10682 [14:05<1:25:58,  1.98it/s]  5%|▍         | 491/10682 [14:05<1:25:52,  1.98it/s]  5%|▍         | 492/10682 [14:06<1:25:46,  1.98it/s]  5%|▍         | 493/10682 [14:06<1:26:05,  1.97it/s]  5%|▍         | 494/10682 [14:07<1:26:20,  1.97it/s]  5%|▍         | 495/10682 [14:07<1:26:00,  1.97it/s]  5%|▍         | 496/10682 [14:08<1:26:13,  1.97it/s]  5%|▍         | 497/10682 [14:08<1:27:08,  1.95it/s]  5%|▍         | 498/10682 [14:09<1:26:35,  1.96it/s]  5%|▍         | 499/10682 [14:09<1:26:08,  1.97it/s]  5%|▍         | 500/10682 [14:10<1:25:58,  1.97it/s]{'loss': 5.1539, 'grad_norm': 0.7298368811607361, 'learning_rate': 0.0004677268475210477, 'epoch': 0.05}
+                                                       5%|▍         | 500/10682 [14:10<1:25:58,  1.97it/s]  5%|▍         | 501/10682 [14:10<1:26:02,  1.97it/s]  5%|▍         | 502/10682 [14:11<1:25:51,  1.98it/s]  5%|▍         | 503/10682 [14:11<1:25:36,  1.98it/s]  5%|▍         | 504/10682 [14:12<1:25:47,  1.98it/s]  5%|▍         | 505/10682 [14:12<1:25:36,  1.98it/s]  5%|▍         | 506/10682 [14:13<1:25:35,  1.98it/s]  5%|▍         | 507/10682 [14:13<1:25:43,  1.98it/s]  5%|▍         | 508/10682 [14:14<1:25:58,  1.97it/s]  5%|▍         | 509/10682 [14:14<1:26:24,  1.96it/s]  5%|▍         | 510/10682 [14:15<1:26:18,  1.96it/s]  5%|▍         | 511/10682 [14:15<1:26:00,  1.97it/s]  5%|▍         | 512/10682 [14:16<1:25:55,  1.97it/s]  5%|▍         | 513/10682 [14:16<1:25:37,  1.98it/s]  5%|▍         | 514/10682 [14:17<1:25:31,  1.98it/s]  5%|▍         | 515/10682 [14:17<1:25:16,  1.99it/s]  5%|▍         | 516/10682 [14:18<1:25:13,  1.99it/s]  5%|▍         | 517/10682 [14:18<1:25:32,  1.98it/s]  5%|▍         | 518/10682 [14:19<1:25:27,  1.98it/s]  5%|▍         | 519/10682 [14:20<1:25:17,  1.99it/s]  5%|▍         | 520/10682 [14:20<1:25:19,  1.98it/s]  5%|▍         | 521/10682 [14:21<1:25:24,  1.98it/s]  5%|▍         | 522/10682 [14:21<1:25:25,  1.98it/s]  5%|▍         | 523/10682 [14:22<1:25:16,  1.99it/s]  5%|▍         | 524/10682 [14:22<1:25:16,  1.99it/s]  5%|▍         | 525/10682 [14:23<1:25:21,  1.98it/s]{'loss': 5.1, 'grad_norm': 0.7064496874809265, 'learning_rate': 0.0004911131898971, 'epoch': 0.05}
+                                                       5%|▍         | 525/10682 [14:23<1:25:21,  1.98it/s]  5%|▍         | 526/10682 [14:23<1:25:27,  1.98it/s]  5%|▍         | 527/10682 [14:24<1:25:24,  1.98it/s]  5%|▍         | 528/10682 [14:24<1:25:11,  1.99it/s]  5%|▍         | 529/10682 [14:25<1:25:36,  1.98it/s]  5%|▍         | 530/10682 [14:25<1:25:59,  1.97it/s]  5%|▍         | 531/10682 [14:26<1:25:35,  1.98it/s]  5%|▍         | 532/10682 [14:26<1:25:22,  1.98it/s]  5%|▍         | 533/10682 [14:27<1:25:19,  1.98it/s]  5%|▍         | 534/10682 [14:27<1:25:03,  1.99it/s]  5%|▌         | 535/10682 [14:28<1:25:00,  1.99it/s]  5%|▌         | 536/10682 [14:28<1:25:22,  1.98it/s]  5%|▌         | 537/10682 [14:29<1:25:16,  1.98it/s]  5%|▌         | 538/10682 [14:29<1:25:08,  1.99it/s]  5%|▌         | 539/10682 [14:30<1:25:15,  1.98it/s]  5%|▌         | 540/10682 [14:30<1:25:15,  1.98it/s]  5%|▌         | 541/10682 [14:31<1:25:24,  1.98it/s]  5%|▌         | 542/10682 [14:31<1:25:29,  1.98it/s]  5%|▌         | 543/10682 [14:32<1:25:08,  1.98it/s]  5%|▌         | 544/10682 [14:32<1:25:08,  1.98it/s]  5%|▌         | 545/10682 [14:33<1:25:06,  1.99it/s]  5%|▌         | 546/10682 [14:33<1:25:15,  1.98it/s]  5%|▌         | 547/10682 [14:34<1:25:01,  1.99it/s]  5%|▌         | 548/10682 [14:34<1:24:41,  1.99it/s]  5%|▌         | 549/10682 [14:35<1:24:41,  1.99it/s]  5%|▌         | 550/10682 [14:35<1:24:44,  1.99it/s]{'loss': 5.0455, 'grad_norm': 0.6403395533561707, 'learning_rate': 0.0005144995322731525, 'epoch': 0.05}
+                                                       5%|▌         | 550/10682 [14:35<1:24:44,  1.99it/s]  5%|▌         | 551/10682 [14:36<1:25:00,  1.99it/s]  5%|▌         | 552/10682 [14:36<1:25:17,  1.98it/s]  5%|▌         | 553/10682 [14:37<1:25:14,  1.98it/s]  5%|▌         | 554/10682 [14:37<1:25:10,  1.98it/s]  5%|▌         | 555/10682 [14:38<1:25:00,  1.99it/s]  5%|▌         | 556/10682 [14:38<1:24:57,  1.99it/s]  5%|▌         | 557/10682 [14:39<1:24:57,  1.99it/s]  5%|▌         | 558/10682 [14:39<1:24:45,  1.99it/s]  5%|▌         | 559/10682 [14:40<1:24:49,  1.99it/s]  5%|▌         | 560/10682 [14:40<1:25:01,  1.98it/s]  5%|▌         | 561/10682 [14:41<1:24:38,  1.99it/s]  5%|▌         | 562/10682 [14:41<1:24:35,  1.99it/s]  5%|▌         | 563/10682 [14:42<1:24:33,  1.99it/s]  5%|▌         | 564/10682 [14:42<1:24:32,  1.99it/s]  5%|▌         | 565/10682 [14:43<1:24:17,  2.00it/s]  5%|▌         | 566/10682 [14:43<1:24:24,  2.00it/s]  5%|▌         | 567/10682 [14:44<1:24:21,  2.00it/s]  5%|▌         | 568/10682 [14:44<1:24:26,  2.00it/s]  5%|▌         | 569/10682 [14:45<1:24:38,  1.99it/s]  5%|▌         | 570/10682 [14:45<1:24:59,  1.98it/s]  5%|▌         | 571/10682 [14:46<1:24:50,  1.99it/s]  5%|▌         | 572/10682 [14:46<1:24:43,  1.99it/s]  5%|▌         | 573/10682 [14:47<1:24:40,  1.99it/s]  5%|▌         | 574/10682 [14:47<1:24:28,  1.99it/s]  5%|▌         | 575/10682 [14:48<1:24:34,  1.99it/s]                                                     {'loss': 4.9936, 'grad_norm': 0.5443073511123657, 'learning_rate': 0.0005378858746492049, 'epoch': 0.05}
+  5%|▌         | 575/10682 [14:48<1:24:34,  1.99it/s]  5%|▌         | 576/10682 [14:48<1:24:44,  1.99it/s]  5%|▌         | 577/10682 [14:49<1:24:44,  1.99it/s]  5%|▌         | 578/10682 [14:49<1:24:37,  1.99it/s]  5%|▌         | 579/10682 [14:50<1:24:36,  1.99it/s]  5%|▌         | 580/10682 [14:50<1:25:03,  1.98it/s]  5%|▌         | 581/10682 [14:51<1:24:55,  1.98it/s]  5%|▌         | 582/10682 [14:51<1:24:31,  1.99it/s]  5%|▌         | 583/10682 [14:52<1:24:26,  1.99it/s]  5%|▌         | 584/10682 [14:52<1:24:23,  1.99it/s]  5%|▌         | 585/10682 [14:53<1:24:10,  2.00it/s]  5%|▌         | 586/10682 [14:53<1:24:13,  2.00it/s]  5%|▌         | 587/10682 [14:54<1:24:13,  2.00it/s]  6%|▌         | 588/10682 [14:54<1:24:18,  2.00it/s]  6%|▌         | 589/10682 [14:55<1:24:16,  2.00it/s]  6%|▌         | 590/10682 [14:55<1:24:20,  1.99it/s]  6%|▌         | 591/10682 [14:56<1:24:22,  1.99it/s]  6%|▌         | 592/10682 [14:56<1:24:31,  1.99it/s]  6%|▌         | 593/10682 [14:57<1:24:22,  1.99it/s]  6%|▌         | 594/10682 [14:57<1:24:26,  1.99it/s]  6%|▌         | 595/10682 [14:58<1:24:18,  1.99it/s]  6%|▌         | 596/10682 [14:58<1:24:16,  1.99it/s]  6%|▌         | 597/10682 [14:59<1:24:10,  2.00it/s]  6%|▌         | 598/10682 [14:59<1:24:10,  2.00it/s]  6%|▌         | 599/10682 [15:00<1:24:11,  2.00it/s]  6%|▌         | 600/10682 [15:00<1:24:17,  1.99it/s]{'loss': 4.9509, 'grad_norm': 0.5297051668167114, 'learning_rate': 0.0005612722170252572, 'epoch': 0.06}
+                                                       6%|▌         | 600/10682 [15:00<1:24:17,  1.99it/s]  6%|▌         | 601/10682 [15:01<1:24:18,  1.99it/s]  6%|▌         | 602/10682 [15:01<1:24:10,  2.00it/s]  6%|▌         | 603/10682 [15:02<1:24:09,  2.00it/s]  6%|▌         | 604/10682 [15:02<1:24:10,  2.00it/s]  6%|▌         | 605/10682 [15:03<1:24:18,  1.99it/s]  6%|▌         | 606/10682 [15:03<1:24:13,  1.99it/s]  6%|▌         | 607/10682 [15:04<1:24:06,  2.00it/s]  6%|▌         | 608/10682 [15:04<1:24:03,  2.00it/s]  6%|▌         | 609/10682 [15:05<1:24:12,  1.99it/s]  6%|▌         | 610/10682 [15:05<1:24:17,  1.99it/s]  6%|▌         | 611/10682 [15:06<1:24:10,  1.99it/s]  6%|▌         | 612/10682 [15:06<1:23:51,  2.00it/s]  6%|▌         | 613/10682 [15:07<1:23:52,  2.00it/s]  6%|▌         | 614/10682 [15:07<1:23:56,  2.00it/s]  6%|▌         | 615/10682 [15:08<1:23:53,  2.00it/s]  6%|▌         | 616/10682 [15:08<1:23:55,  2.00it/s]  6%|▌         | 617/10682 [15:09<1:24:03,  2.00it/s]  6%|▌         | 618/10682 [15:09<1:24:00,  2.00it/s]  6%|▌         | 619/10682 [15:10<1:23:58,  2.00it/s]  6%|▌         | 620/10682 [15:10<1:24:03,  1.99it/s]  6%|▌         | 621/10682 [15:11<1:23:59,  2.00it/s]  6%|▌         | 622/10682 [15:11<1:23:52,  2.00it/s]  6%|▌         | 623/10682 [15:12<1:23:49,  2.00it/s]  6%|▌         | 624/10682 [15:12<1:23:40,  2.00it/s]  6%|▌         | 625/10682 [15:13<1:23:46,  2.00it/s]{'loss': 4.9087, 'grad_norm': 0.5440937876701355, 'learning_rate': 0.0005846585594013096, 'epoch': 0.06}                                                     
+  6%|▌         | 625/10682 [15:13<1:23:46,  2.00it/s]  6%|▌         | 626/10682 [15:13<1:23:56,  2.00it/s]  6%|▌         | 627/10682 [15:14<1:23:56,  2.00it/s]  6%|▌         | 628/10682 [15:14<1:23:55,  2.00it/s]  6%|▌         | 629/10682 [15:15<1:23:47,  2.00it/s]  6%|▌         | 630/10682 [15:15<1:23:40,  2.00it/s]  6%|▌         | 631/10682 [15:16<1:23:36,  2.00it/s]  6%|▌         | 632/10682 [15:16<1:23:36,  2.00it/s]  6%|▌         | 633/10682 [15:17<1:23:34,  2.00it/s]  6%|▌         | 634/10682 [15:17<1:23:40,  2.00it/s]  6%|▌         | 635/10682 [15:18<1:23:38,  2.00it/s]  6%|▌         | 636/10682 [15:18<1:23:55,  1.99it/s]  6%|▌         | 637/10682 [15:19<1:23:54,  2.00it/s]  6%|▌         | 638/10682 [15:19<1:23:53,  2.00it/s]  6%|▌         | 639/10682 [15:20<1:23:48,  2.00it/s]  6%|▌         | 640/10682 [15:20<1:23:58,  1.99it/s]  6%|▌         | 641/10682 [15:21<1:24:01,  1.99it/s]  6%|▌         | 642/10682 [15:21<1:23:59,  1.99it/s]  6%|▌         | 643/10682 [15:22<1:23:42,  2.00it/s]  6%|▌         | 644/10682 [15:22<1:23:48,  2.00it/s]  6%|▌         | 645/10682 [15:23<1:23:48,  2.00it/s]  6%|▌         | 646/10682 [15:23<1:23:35,  2.00it/s]  6%|▌         | 647/10682 [15:24<1:23:31,  2.00it/s]  6%|▌         | 648/10682 [15:24<1:23:42,  2.00it/s]  6%|▌         | 649/10682 [15:25<1:23:35,  2.00it/s]  6%|▌         | 650/10682 [15:25<1:23:29,  2.00it/s]{'loss': 4.8612, 'grad_norm': 0.6673976182937622, 'learning_rate': 0.0006080449017773621, 'epoch': 0.06}
+                                                       6%|▌         | 650/10682 [15:25<1:23:29,  2.00it/s]  6%|▌         | 651/10682 [15:26<1:23:37,  2.00it/s]  6%|▌         | 652/10682 [15:26<1:23:33,  2.00it/s]  6%|▌         | 653/10682 [15:27<1:23:39,  2.00it/s]  6%|▌         | 654/10682 [15:27<1:23:33,  2.00it/s]  6%|▌         | 655/10682 [15:28<1:23:28,  2.00it/s]  6%|▌         | 656/10682 [15:28<1:23:31,  2.00it/s]  6%|▌         | 657/10682 [15:29<1:23:32,  2.00it/s]  6%|▌         | 658/10682 [15:29<1:23:29,  2.00it/s]  6%|▌         | 659/10682 [15:30<1:23:20,  2.00it/s]  6%|▌         | 660/10682 [15:30<1:23:23,  2.00it/s]  6%|▌         | 661/10682 [15:31<1:23:22,  2.00it/s]  6%|▌         | 662/10682 [15:31<1:23:15,  2.01it/s]  6%|▌         | 663/10682 [15:32<1:23:11,  2.01it/s]  6%|▌         | 664/10682 [15:32<1:23:07,  2.01it/s]  6%|▌         | 665/10682 [15:33<1:23:14,  2.01it/s]  6%|▌         | 666/10682 [15:33<1:23:13,  2.01it/s]  6%|▌         | 667/10682 [15:34<1:23:20,  2.00it/s]  6%|▋         | 668/10682 [15:34<1:23:23,  2.00it/s]  6%|▋         | 669/10682 [15:35<1:23:16,  2.00it/s]  6%|▋         | 670/10682 [15:35<1:23:24,  2.00it/s]  6%|▋         | 671/10682 [15:36<1:23:24,  2.00it/s]  6%|▋         | 672/10682 [15:36<1:23:15,  2.00it/s]  6%|▋         | 673/10682 [15:37<1:23:07,  2.01it/s]  6%|▋         | 674/10682 [15:37<1:23:08,  2.01it/s]  6%|▋         | 675/10682 [15:38<1:23:19,  2.00it/s]{'loss': 4.8154, 'grad_norm': 0.43107232451438904, 'learning_rate': 0.0006314312441534145, 'epoch': 0.06}
+                                                       6%|▋         | 675/10682 [15:38<1:23:19,  2.00it/s]  6%|▋         | 676/10682 [15:38<1:23:13,  2.00it/s]  6%|▋         | 677/10682 [15:39<1:23:05,  2.01it/s]  6%|▋         | 678/10682 [15:39<1:23:08,  2.01it/s]  6%|▋         | 679/10682 [15:40<1:23:23,  2.00it/s]  6%|▋         | 680/10682 [15:40<1:23:43,  1.99it/s]  6%|▋         | 681/10682 [15:41<1:23:40,  1.99it/s]  6%|▋         | 682/10682 [15:41<1:23:30,  2.00it/s]  6%|▋         | 683/10682 [15:42<1:23:15,  2.00it/s]  6%|▋         | 684/10682 [15:42<1:23:18,  2.00it/s]  6%|▋         | 685/10682 [15:43<1:23:15,  2.00it/s]  6%|▋         | 686/10682 [15:43<1:23:21,  2.00it/s]  6%|▋         | 687/10682 [15:44<1:23:07,  2.00it/s]  6%|▋         | 688/10682 [15:44<1:23:05,  2.00it/s]  6%|▋         | 689/10682 [15:45<1:23:06,  2.00it/s]  6%|▋         | 690/10682 [15:45<1:23:02,  2.01it/s]  6%|▋         | 691/10682 [15:46<1:23:01,  2.01it/s]  6%|▋         | 692/10682 [15:46<1:22:54,  2.01it/s]  6%|▋         | 693/10682 [15:47<1:22:47,  2.01it/s]  6%|▋         | 694/10682 [15:47<1:22:55,  2.01it/s]  7%|▋         | 695/10682 [15:48<1:22:47,  2.01it/s]  7%|▋         | 696/10682 [15:48<1:23:00,  2.00it/s]  7%|▋         | 697/10682 [15:49<1:23:01,  2.00it/s]  7%|▋         | 698/10682 [15:49<1:23:02,  2.00it/s]  7%|▋         | 699/10682 [15:50<1:23:00,  2.00it/s]  7%|▋         | 700/10682 [15:50<1:23:04,  2.00it/s]                                                     {'loss': 4.7847, 'grad_norm': 0.3903139531612396, 'learning_rate': 0.0006548175865294667, 'epoch': 0.07}
+  7%|▋         | 700/10682 [15:50<1:23:04,  2.00it/s]  7%|▋         | 701/10682 [15:51<1:23:09,  2.00it/s]  7%|▋         | 702/10682 [15:51<1:23:16,  2.00it/s]  7%|▋         | 703/10682 [15:52<1:23:06,  2.00it/s]  7%|▋         | 704/10682 [15:52<1:23:13,  2.00it/s]  7%|▋         | 705/10682 [15:53<1:23:07,  2.00it/s]  7%|▋         | 706/10682 [15:53<1:23:11,  2.00it/s]  7%|▋         | 707/10682 [15:54<1:23:05,  2.00it/s]  7%|▋         | 708/10682 [15:54<1:22:58,  2.00it/s]  7%|▋         | 709/10682 [15:55<1:22:56,  2.00it/s]  7%|▋         | 710/10682 [15:55<1:22:59,  2.00it/s]  7%|▋         | 711/10682 [15:56<1:22:53,  2.00it/s]  7%|▋         | 712/10682 [15:56<1:22:51,  2.01it/s]  7%|▋         | 713/10682 [15:57<1:22:52,  2.00it/s]  7%|▋         | 714/10682 [15:57<1:22:46,  2.01it/s]  7%|▋         | 715/10682 [15:58<1:22:51,  2.00it/s]  7%|▋         | 716/10682 [15:58<1:22:52,  2.00it/s]  7%|▋         | 717/10682 [15:59<1:22:45,  2.01it/s]  7%|▋         | 718/10682 [15:59<1:23:01,  2.00it/s]  7%|▋         | 719/10682 [16:00<1:22:55,  2.00it/s]  7%|▋         | 720/10682 [16:00<1:22:51,  2.00it/s]  7%|▋         | 721/10682 [16:01<1:22:53,  2.00it/s]  7%|▋         | 722/10682 [16:01<1:22:43,  2.01it/s]  7%|▋         | 723/10682 [16:02<1:22:53,  2.00it/s]  7%|▋         | 724/10682 [16:02<1:22:54,  2.00it/s]  7%|▋         | 725/10682 [16:03<1:22:36,  2.01it/s]                                                     {'loss': 4.7519, 'grad_norm': 0.41105523705482483, 'learning_rate': 0.0006782039289055192, 'epoch': 0.07}
+  7%|▋         | 725/10682 [16:03<1:22:36,  2.01it/s]  7%|▋         | 726/10682 [16:03<1:22:39,  2.01it/s]  7%|▋         | 727/10682 [16:04<1:22:36,  2.01it/s]  7%|▋         | 728/10682 [16:04<1:22:25,  2.01it/s]  7%|▋         | 729/10682 [16:05<1:22:36,  2.01it/s]  7%|▋         | 730/10682 [16:05<1:22:53,  2.00it/s]  7%|▋         | 731/10682 [16:06<1:22:46,  2.00it/s]  7%|▋         | 732/10682 [16:06<1:22:38,  2.01it/s]  7%|▋         | 733/10682 [16:07<1:22:40,  2.01it/s]  7%|▋         | 734/10682 [16:07<1:22:34,  2.01it/s]  7%|▋         | 735/10682 [16:08<1:22:29,  2.01it/s]  7%|▋         | 736/10682 [16:08<1:22:29,  2.01it/s]  7%|▋         | 737/10682 [16:09<1:22:17,  2.01it/s]  7%|▋         | 738/10682 [16:09<1:22:29,  2.01it/s]  7%|▋         | 739/10682 [16:10<1:22:25,  2.01it/s]  7%|▋         | 740/10682 [16:10<1:22:17,  2.01it/s]  7%|▋         | 741/10682 [16:11<1:22:15,  2.01it/s]  7%|▋         | 742/10682 [16:11<1:22:16,  2.01it/s]  7%|▋         | 743/10682 [16:12<1:22:16,  2.01it/s]  7%|▋         | 744/10682 [16:12<1:22:23,  2.01it/s]  7%|▋         | 745/10682 [16:13<1:22:28,  2.01it/s]  7%|▋         | 746/10682 [16:13<1:22:29,  2.01it/s]  7%|▋         | 747/10682 [16:14<1:22:25,  2.01it/s]  7%|▋         | 748/10682 [16:14<1:22:22,  2.01it/s]  7%|▋         | 749/10682 [16:15<1:22:26,  2.01it/s]  7%|▋         | 750/10682 [16:15<1:22:34,  2.00it/s]{'loss': 4.7334, 'grad_norm': 0.4244373142719269, 'learning_rate': 0.0007015902712815716, 'epoch': 0.07}                                                     
+  7%|▋         | 750/10682 [16:15<1:22:34,  2.00it/s]  7%|▋         | 751/10682 [16:16<1:22:42,  2.00it/s]  7%|▋         | 752/10682 [16:16<1:22:34,  2.00it/s]  7%|▋         | 753/10682 [16:17<1:22:26,  2.01it/s]  7%|▋         | 754/10682 [16:17<1:22:20,  2.01it/s]  7%|▋         | 755/10682 [16:18<1:22:16,  2.01it/s]  7%|▋         | 756/10682 [16:18<1:22:19,  2.01it/s]  7%|▋         | 757/10682 [16:19<1:22:19,  2.01it/s]  7%|▋         | 758/10682 [16:19<1:22:19,  2.01it/s]  7%|▋         | 759/10682 [16:20<1:22:23,  2.01it/s]  7%|▋         | 760/10682 [16:20<1:22:20,  2.01it/s]  7%|▋         | 761/10682 [16:21<1:22:20,  2.01it/s]  7%|▋         | 762/10682 [16:21<1:22:22,  2.01it/s]  7%|▋         | 763/10682 [16:22<1:22:22,  2.01it/s]  7%|▋         | 764/10682 [16:22<1:22:29,  2.00it/s]  7%|▋         | 765/10682 [16:23<1:22:14,  2.01it/s]  7%|▋         | 766/10682 [16:23<1:22:16,  2.01it/s]  7%|▋         | 767/10682 [16:24<1:22:33,  2.00it/s]  7%|▋         | 768/10682 [16:24<1:22:31,  2.00it/s]  7%|▋         | 769/10682 [16:25<1:22:22,  2.01it/s]  7%|▋         | 770/10682 [16:25<1:22:17,  2.01it/s]  7%|▋         | 771/10682 [16:26<1:22:10,  2.01it/s]  7%|▋         | 772/10682 [16:26<1:22:06,  2.01it/s]  7%|▋         | 773/10682 [16:27<1:22:13,  2.01it/s]  7%|▋         | 774/10682 [16:27<1:22:13,  2.01it/s]  7%|▋         | 775/10682 [16:28<1:22:10,  2.01it/s]{'loss': 4.6985, 'grad_norm': 0.4217325448989868, 'learning_rate': 0.0007249766136576241, 'epoch': 0.07}
+                                                       7%|▋         | 775/10682 [16:28<1:22:10,  2.01it/s]  7%|▋         | 776/10682 [16:28<1:22:24,  2.00it/s]  7%|▋         | 777/10682 [16:29<1:22:11,  2.01it/s]  7%|▋         | 778/10682 [16:29<1:22:14,  2.01it/s]  7%|▋         | 779/10682 [16:30<1:22:19,  2.00it/s]  7%|▋         | 780/10682 [16:30<1:22:16,  2.01it/s]  7%|▋         | 781/10682 [16:31<1:22:23,  2.00it/s]  7%|▋         | 782/10682 [16:31<1:22:14,  2.01it/s]  7%|▋         | 783/10682 [16:32<1:22:04,  2.01it/s]  7%|▋         | 784/10682 [16:32<1:22:00,  2.01it/s]  7%|▋         | 785/10682 [16:33<1:22:04,  2.01it/s]  7%|▋         | 786/10682 [16:33<1:21:54,  2.01it/s]  7%|▋         | 787/10682 [16:34<1:21:51,  2.01it/s]  7%|▋         | 788/10682 [16:34<1:21:45,  2.02it/s]  7%|▋         | 789/10682 [16:35<1:21:57,  2.01it/s]  7%|▋         | 790/10682 [16:35<1:22:01,  2.01it/s]  7%|▋         | 791/10682 [16:36<1:21:56,  2.01it/s]  7%|▋         | 792/10682 [16:36<1:22:02,  2.01it/s]  7%|▋         | 793/10682 [16:37<1:22:05,  2.01it/s]  7%|▋         | 794/10682 [16:37<1:22:03,  2.01it/s]  7%|▋         | 795/10682 [16:38<1:22:00,  2.01it/s]  7%|▋         | 796/10682 [16:38<1:21:59,  2.01it/s]  7%|▋         | 797/10682 [16:39<1:21:51,  2.01it/s]  7%|▋         | 798/10682 [16:39<1:21:49,  2.01it/s]  7%|▋         | 799/10682 [16:40<1:21:47,  2.01it/s]  7%|▋         | 800/10682 [16:40<1:21:50,  2.01it/s]{'loss': 4.6694, 'grad_norm': 0.501753032207489, 'learning_rate': 0.0007483629560336763, 'epoch': 0.07}
+                                                       7%|▋         | 800/10682 [16:40<1:21:50,  2.01it/s]  7%|▋         | 801/10682 [16:41<1:21:50,  2.01it/s]  8%|▊         | 802/10682 [16:41<1:21:50,  2.01it/s]  8%|▊         | 803/10682 [16:42<1:21:45,  2.01it/s]  8%|▊         | 804/10682 [16:42<1:21:46,  2.01it/s]  8%|▊         | 805/10682 [16:43<1:22:02,  2.01it/s]  8%|▊         | 806/10682 [16:43<1:21:59,  2.01it/s]  8%|▊         | 807/10682 [16:44<1:22:02,  2.01it/s]  8%|▊         | 808/10682 [16:44<1:22:02,  2.01it/s]  8%|▊         | 809/10682 [16:45<1:21:58,  2.01it/s]  8%|▊         | 810/10682 [16:45<1:21:56,  2.01it/s]  8%|▊         | 811/10682 [16:46<1:21:56,  2.01it/s]  8%|▊         | 812/10682 [16:46<1:21:49,  2.01it/s]  8%|▊         | 813/10682 [16:47<1:21:54,  2.01it/s]  8%|▊         | 814/10682 [16:47<1:21:51,  2.01it/s]  8%|▊         | 815/10682 [16:48<1:21:46,  2.01it/s]  8%|▊         | 816/10682 [16:48<1:21:39,  2.01it/s]  8%|▊         | 817/10682 [16:48<1:21:33,  2.02it/s]  8%|▊         | 818/10682 [16:49<1:21:37,  2.01it/s]  8%|▊         | 819/10682 [16:49<1:21:37,  2.01it/s]  8%|▊         | 820/10682 [16:50<1:21:31,  2.02it/s]  8%|▊         | 821/10682 [16:50<1:21:38,  2.01it/s]  8%|▊         | 822/10682 [16:51<1:21:33,  2.01it/s]  8%|▊         | 823/10682 [16:51<1:21:39,  2.01it/s]  8%|▊         | 824/10682 [16:52<1:21:31,  2.02it/s]  8%|▊         | 825/10682 [16:52<1:21:34,  2.01it/s]{'loss': 4.6431, 'grad_norm': 0.3523876368999481, 'learning_rate': 0.0007717492984097287, 'epoch': 0.08}                                                     
+  8%|▊         | 825/10682 [16:52<1:21:34,  2.01it/s]  8%|▊         | 826/10682 [16:53<1:21:47,  2.01it/s]  8%|▊         | 827/10682 [16:53<1:21:47,  2.01it/s]  8%|▊         | 828/10682 [16:54<1:21:41,  2.01it/s]  8%|▊         | 829/10682 [16:54<1:21:31,  2.01it/s]  8%|▊         | 830/10682 [16:55<1:21:31,  2.01it/s]  8%|▊         | 831/10682 [16:55<1:21:32,  2.01it/s]  8%|▊         | 832/10682 [16:56<1:21:30,  2.01it/s]  8%|▊         | 833/10682 [16:56<1:21:35,  2.01it/s]  8%|▊         | 834/10682 [16:57<1:21:39,  2.01it/s]  8%|▊         | 835/10682 [16:57<1:21:31,  2.01it/s]  8%|▊         | 836/10682 [16:58<1:21:34,  2.01it/s]  8%|▊         | 837/10682 [16:58<1:21:35,  2.01it/s]  8%|▊         | 838/10682 [16:59<1:21:32,  2.01it/s]  8%|▊         | 839/10682 [16:59<1:21:40,  2.01it/s]  8%|▊         | 840/10682 [17:00<1:21:36,  2.01it/s]  8%|▊         | 841/10682 [17:00<1:21:35,  2.01it/s]  8%|▊         | 842/10682 [17:01<1:21:30,  2.01it/s]  8%|▊         | 843/10682 [17:01<1:21:31,  2.01it/s]  8%|▊         | 844/10682 [17:02<1:21:23,  2.01it/s]  8%|▊         | 845/10682 [17:02<1:21:24,  2.01it/s]  8%|▊         | 846/10682 [17:03<1:21:20,  2.02it/s]  8%|▊         | 847/10682 [17:03<1:21:21,  2.01it/s]  8%|▊         | 848/10682 [17:04<1:21:22,  2.01it/s]  8%|▊         | 849/10682 [17:04<1:21:24,  2.01it/s]  8%|▊         | 850/10682 [17:05<1:21:31,  2.01it/s]{'loss': 4.6097, 'grad_norm': 0.42237183451652527, 'learning_rate': 0.0007951356407857812, 'epoch': 0.08}
+                                                       8%|▊         | 850/10682 [17:05<1:21:31,  2.01it/s]  8%|▊         | 851/10682 [17:05<1:21:39,  2.01it/s]  8%|▊         | 852/10682 [17:06<1:21:36,  2.01it/s]  8%|▊         | 853/10682 [17:06<1:21:37,  2.01it/s]  8%|▊         | 854/10682 [17:07<1:21:25,  2.01it/s]  8%|▊         | 855/10682 [17:07<1:21:30,  2.01it/s]  8%|▊         | 856/10682 [17:08<1:21:17,  2.01it/s]  8%|▊         | 857/10682 [17:08<1:21:21,  2.01it/s]  8%|▊         | 858/10682 [17:09<1:21:33,  2.01it/s]  8%|▊         | 859/10682 [17:09<1:21:16,  2.01it/s]  8%|▊         | 860/10682 [17:10<1:21:18,  2.01it/s]  8%|▊         | 861/10682 [17:10<1:21:21,  2.01it/s]  8%|▊         | 862/10682 [17:11<1:21:16,  2.01it/s]  8%|▊         | 863/10682 [17:11<1:21:15,  2.01it/s]  8%|▊         | 864/10682 [17:12<1:21:10,  2.02it/s]  8%|▊         | 865/10682 [17:12<1:21:10,  2.02it/s]  8%|▊         | 866/10682 [17:13<1:21:13,  2.01it/s]  8%|▊         | 867/10682 [17:13<1:21:16,  2.01it/s]  8%|▊         | 868/10682 [17:14<1:21:26,  2.01it/s]  8%|▊         | 869/10682 [17:14<1:21:25,  2.01it/s]  8%|▊         | 870/10682 [17:15<1:21:23,  2.01it/s]  8%|▊         | 871/10682 [17:15<1:21:25,  2.01it/s]  8%|▊         | 872/10682 [17:16<1:21:15,  2.01it/s]  8%|▊         | 873/10682 [17:16<1:21:12,  2.01it/s]  8%|▊         | 874/10682 [17:17<1:21:06,  2.02it/s]  8%|▊         | 875/10682 [17:17<1:21:10,  2.01it/s]{'loss': 4.5936, 'grad_norm': 0.37119704484939575, 'learning_rate': 0.0008185219831618334, 'epoch': 0.08}                                                     
+  8%|▊         | 875/10682 [17:17<1:21:10,  2.01it/s]  8%|▊         | 876/10682 [17:18<1:21:12,  2.01it/s]  8%|▊         | 877/10682 [17:18<1:21:23,  2.01it/s]  8%|▊         | 878/10682 [17:19<1:21:17,  2.01it/s]  8%|▊         | 879/10682 [17:19<1:21:08,  2.01it/s]  8%|▊         | 880/10682 [17:20<1:21:07,  2.01it/s]  8%|▊         | 881/10682 [17:20<1:21:05,  2.01it/s]  8%|▊         | 882/10682 [17:21<1:21:04,  2.01it/s]  8%|▊         | 883/10682 [17:21<1:21:09,  2.01it/s]  8%|▊         | 884/10682 [17:22<1:21:05,  2.01it/s]  8%|▊         | 885/10682 [17:22<1:21:12,  2.01it/s]  8%|▊         | 886/10682 [17:23<1:21:19,  2.01it/s]  8%|▊         | 887/10682 [17:23<1:21:19,  2.01it/s]  8%|▊         | 888/10682 [17:24<1:21:14,  2.01it/s]  8%|▊         | 889/10682 [17:24<1:21:07,  2.01it/s]  8%|▊         | 890/10682 [17:25<1:21:01,  2.01it/s]  8%|▊         | 891/10682 [17:25<1:21:01,  2.01it/s]  8%|▊         | 892/10682 [17:26<1:21:00,  2.01it/s]  8%|▊         | 893/10682 [17:26<1:20:56,  2.02it/s]  8%|▊         | 894/10682 [17:27<1:20:51,  2.02it/s]  8%|▊         | 895/10682 [17:27<1:20:50,  2.02it/s]  8%|▊         | 896/10682 [17:28<1:20:48,  2.02it/s]  8%|▊         | 897/10682 [17:28<1:20:50,  2.02it/s]  8%|▊         | 898/10682 [17:29<1:21:01,  2.01it/s]  8%|▊         | 899/10682 [17:29<1:20:58,  2.01it/s]  8%|▊         | 900/10682 [17:30<1:20:58,  2.01it/s]{'loss': 4.5611, 'grad_norm': 0.35345858335494995, 'learning_rate': 0.0008419083255378859, 'epoch': 0.08}                                                     
+  8%|▊         | 900/10682 [17:30<1:20:58,  2.01it/s]  8%|▊         | 901/10682 [17:30<1:21:09,  2.01it/s]  8%|▊         | 902/10682 [17:31<1:21:02,  2.01it/s]  8%|▊         | 903/10682 [17:31<1:21:02,  2.01it/s]  8%|▊         | 904/10682 [17:32<1:21:11,  2.01it/s]  8%|▊         | 905/10682 [17:32<1:21:10,  2.01it/s]  8%|▊         | 906/10682 [17:33<1:21:07,  2.01it/s]  8%|▊         | 907/10682 [17:33<1:21:14,  2.01it/s]  9%|▊         | 908/10682 [17:34<1:21:11,  2.01it/s]  9%|▊         | 909/10682 [17:34<1:21:01,  2.01it/s]  9%|▊         | 910/10682 [17:35<1:20:50,  2.01it/s]  9%|▊         | 911/10682 [17:35<1:20:50,  2.01it/s]  9%|▊         | 912/10682 [17:36<1:20:53,  2.01it/s]  9%|▊         | 913/10682 [17:36<1:20:59,  2.01it/s]  9%|▊         | 914/10682 [17:37<1:21:31,  2.00it/s]  9%|▊         | 915/10682 [17:37<1:21:15,  2.00it/s]  9%|▊         | 916/10682 [17:38<1:21:07,  2.01it/s]  9%|▊         | 917/10682 [17:38<1:20:54,  2.01it/s]  9%|▊         | 918/10682 [17:39<1:20:53,  2.01it/s]  9%|▊         | 919/10682 [17:39<1:21:00,  2.01it/s]  9%|▊         | 920/10682 [17:40<1:20:51,  2.01it/s]  9%|▊         | 921/10682 [17:40<1:20:48,  2.01it/s]  9%|▊         | 922/10682 [17:41<1:20:40,  2.02it/s]  9%|▊         | 923/10682 [17:41<1:20:38,  2.02it/s]  9%|▊         | 924/10682 [17:42<1:20:29,  2.02it/s]  9%|▊         | 925/10682 [17:42<1:20:34,  2.02it/s]{'loss': 4.5426, 'grad_norm': 0.34771862626075745, 'learning_rate': 0.0008652946679139383, 'epoch': 0.09}
+                                                       9%|▊         | 925/10682 [17:42<1:20:34,  2.02it/s]  9%|▊         | 926/10682 [17:43<1:20:42,  2.01it/s]  9%|▊         | 927/10682 [17:43<1:20:34,  2.02it/s]  9%|▊         | 928/10682 [17:44<1:20:55,  2.01it/s]  9%|▊         | 929/10682 [17:44<1:21:02,  2.01it/s]  9%|▊         | 930/10682 [17:45<1:20:55,  2.01it/s]  9%|▊         | 931/10682 [17:45<1:20:55,  2.01it/s]  9%|▊         | 932/10682 [17:46<1:21:12,  2.00it/s]  9%|▊         | 933/10682 [17:46<1:21:05,  2.00it/s]  9%|▊         | 934/10682 [17:47<1:20:49,  2.01it/s]  9%|▉         | 935/10682 [17:47<1:20:45,  2.01it/s]  9%|▉         | 936/10682 [17:48<1:20:38,  2.01it/s]  9%|▉         | 937/10682 [17:48<1:20:35,  2.02it/s]  9%|▉         | 938/10682 [17:49<1:20:27,  2.02it/s]  9%|▉         | 939/10682 [17:49<1:20:22,  2.02it/s]  9%|▉         | 940/10682 [17:50<1:20:24,  2.02it/s]  9%|▉         | 941/10682 [17:50<1:20:18,  2.02it/s]  9%|▉         | 942/10682 [17:51<1:20:18,  2.02it/s]  9%|▉         | 943/10682 [17:51<1:20:15,  2.02it/s]  9%|▉         | 944/10682 [17:52<1:20:16,  2.02it/s]  9%|▉         | 945/10682 [17:52<1:20:18,  2.02it/s]  9%|▉         | 946/10682 [17:53<1:20:20,  2.02it/s]  9%|▉         | 947/10682 [17:53<1:20:23,  2.02it/s]  9%|▉         | 948/10682 [17:54<1:20:24,  2.02it/s]  9%|▉         | 949/10682 [17:54<1:20:18,  2.02it/s]  9%|▉         | 950/10682 [17:55<1:20:21,  2.02it/s]{'loss': 4.5241, 'grad_norm': 0.32565760612487793, 'learning_rate': 0.0008886810102899908, 'epoch': 0.09}
+                                                       9%|▉         | 950/10682 [17:55<1:20:21,  2.02it/s]  9%|▉         | 951/10682 [17:55<1:20:26,  2.02it/s]  9%|▉         | 952/10682 [17:56<1:20:31,  2.01it/s]  9%|▉         | 953/10682 [17:56<1:20:27,  2.02it/s]  9%|▉         | 954/10682 [17:57<1:20:20,  2.02it/s]  9%|▉         | 955/10682 [17:57<1:20:18,  2.02it/s]  9%|▉         | 956/10682 [17:58<1:20:10,  2.02it/s]  9%|▉         | 957/10682 [17:58<1:20:15,  2.02it/s]  9%|▉         | 958/10682 [17:59<1:20:13,  2.02it/s]  9%|▉         | 959/10682 [17:59<1:20:31,  2.01it/s]  9%|▉         | 960/10682 [18:00<1:20:32,  2.01it/s]  9%|▉         | 961/10682 [18:00<1:20:27,  2.01it/s]  9%|▉         | 962/10682 [18:01<1:20:29,  2.01it/s]  9%|▉         | 963/10682 [18:01<1:20:21,  2.02it/s]  9%|▉         | 964/10682 [18:02<1:20:20,  2.02it/s]  9%|▉         | 965/10682 [18:02<1:20:13,  2.02it/s]  9%|▉         | 966/10682 [18:03<1:20:24,  2.01it/s]  9%|▉         | 967/10682 [18:03<1:20:20,  2.02it/s]  9%|▉         | 968/10682 [18:04<1:20:14,  2.02it/s]  9%|▉         | 969/10682 [18:04<1:20:07,  2.02it/s]  9%|▉         | 970/10682 [18:04<1:20:05,  2.02it/s]  9%|▉         | 971/10682 [18:05<1:20:04,  2.02it/s]  9%|▉         | 972/10682 [18:05<1:20:05,  2.02it/s]  9%|▉         | 973/10682 [18:06<1:19:58,  2.02it/s]  9%|▉         | 974/10682 [18:06<1:19:56,  2.02it/s]  9%|▉         | 975/10682 [18:07<1:19:59,  2.02it/s]{'loss': 4.5075, 'grad_norm': 0.32033872604370117, 'learning_rate': 0.000912067352666043, 'epoch': 0.09}
+                                                       9%|▉         | 975/10682 [18:07<1:19:59,  2.02it/s]  9%|▉         | 976/10682 [18:07<1:20:20,  2.01it/s]  9%|▉         | 977/10682 [18:08<1:20:08,  2.02it/s]  9%|▉         | 978/10682 [18:08<1:20:12,  2.02it/s]  9%|▉         | 979/10682 [18:09<1:20:06,  2.02it/s]  9%|▉         | 980/10682 [18:09<1:20:10,  2.02it/s]  9%|▉         | 981/10682 [18:10<1:20:12,  2.02it/s]  9%|▉         | 982/10682 [18:10<1:20:11,  2.02it/s]  9%|▉         | 983/10682 [18:11<1:20:21,  2.01it/s]  9%|▉         | 984/10682 [18:11<1:20:10,  2.02it/s]  9%|▉         | 985/10682 [18:12<1:20:09,  2.02it/s]  9%|▉         | 986/10682 [18:12<1:20:02,  2.02it/s]  9%|▉         | 987/10682 [18:13<1:20:01,  2.02it/s]  9%|▉         | 988/10682 [18:13<1:19:55,  2.02it/s]  9%|▉         | 989/10682 [18:14<1:19:58,  2.02it/s]  9%|▉         | 990/10682 [18:14<1:19:55,  2.02it/s]  9%|▉         | 991/10682 [18:15<1:19:54,  2.02it/s]  9%|▉         | 992/10682 [18:15<1:19:58,  2.02it/s]  9%|▉         | 993/10682 [18:16<1:20:18,  2.01it/s]  9%|▉         | 994/10682 [18:16<1:20:11,  2.01it/s]  9%|▉         | 995/10682 [18:17<1:20:11,  2.01it/s]  9%|▉         | 996/10682 [18:17<1:20:02,  2.02it/s]  9%|▉         | 997/10682 [18:18<1:20:09,  2.01it/s]  9%|▉         | 998/10682 [18:18<1:20:07,  2.01it/s]  9%|▉         | 999/10682 [18:19<1:20:05,  2.01it/s]  9%|▉         | 1000/10682 [18:19<1:20:22,  2.01it/s]                                                      {'loss': 4.494, 'grad_norm': 0.36147475242614746, 'learning_rate': 0.0009354536950420954, 'epoch': 0.09}
+  9%|▉         | 1000/10682 [18:19<1:20:22,  2.01it/s]  9%|▉         | 1001/10682 [18:20<1:20:23,  2.01it/s]  9%|▉         | 1002/10682 [18:20<1:20:08,  2.01it/s]  9%|▉         | 1003/10682 [18:21<1:20:09,  2.01it/s]  9%|▉         | 1004/10682 [18:21<1:19:59,  2.02it/s]  9%|▉         | 1005/10682 [18:22<1:20:00,  2.02it/s]  9%|▉         | 1006/10682 [18:22<1:19:53,  2.02it/s]  9%|▉         | 1007/10682 [18:23<1:20:02,  2.01it/s]  9%|▉         | 1008/10682 [18:23<1:20:00,  2.02it/s]  9%|▉         | 1009/10682 [18:24<1:20:13,  2.01it/s]  9%|▉         | 1010/10682 [18:24<1:20:11,  2.01it/s]  9%|▉         | 1011/10682 [18:25<1:20:06,  2.01it/s]  9%|▉         | 1012/10682 [18:25<1:20:04,  2.01it/s]  9%|▉         | 1013/10682 [18:26<1:20:00,  2.01it/s]  9%|▉         | 1014/10682 [18:26<1:20:02,  2.01it/s] 10%|▉         | 1015/10682 [18:27<1:20:00,  2.01it/s] 10%|▉         | 1016/10682 [18:27<1:19:54,  2.02it/s] 10%|▉         | 1017/10682 [18:28<1:19:51,  2.02it/s] 10%|▉         | 1018/10682 [18:28<1:19:49,  2.02it/s] 10%|▉         | 1019/10682 [18:29<1:19:46,  2.02it/s] 10%|▉         | 1020/10682 [18:29<1:19:46,  2.02it/s] 10%|▉         | 1021/10682 [18:30<1:19:40,  2.02it/s] 10%|▉         | 1022/10682 [18:30<1:19:43,  2.02it/s] 10%|▉         | 1023/10682 [18:31<1:19:39,  2.02it/s] 10%|▉         | 1024/10682 [18:31<1:19:46,  2.02it/s] 10%|▉         | 1025/10682 [18:32<1:19:39,  2.02it/s]                                                      {'loss': 4.4688, 'grad_norm': 0.3146020770072937, 'learning_rate': 0.0009588400374181479, 'epoch': 0.1}
+ 10%|▉         | 1025/10682 [18:32<1:19:39,  2.02it/s] 10%|▉         | 1026/10682 [18:32<1:19:53,  2.01it/s] 10%|▉         | 1027/10682 [18:33<1:19:58,  2.01it/s] 10%|▉         | 1028/10682 [18:33<1:19:52,  2.01it/s] 10%|▉         | 1029/10682 [18:34<1:19:56,  2.01it/s] 10%|▉         | 1030/10682 [18:34<1:19:52,  2.01it/s] 10%|▉         | 1031/10682 [18:35<1:19:54,  2.01it/s] 10%|▉         | 1032/10682 [18:35<1:19:44,  2.02it/s] 10%|▉         | 1033/10682 [18:36<1:19:53,  2.01it/s] 10%|▉         | 1034/10682 [18:36<1:19:52,  2.01it/s] 10%|▉         | 1035/10682 [18:37<1:19:47,  2.01it/s] 10%|▉         | 1036/10682 [18:37<1:19:39,  2.02it/s] 10%|▉         | 1037/10682 [18:38<1:19:36,  2.02it/s] 10%|▉         | 1038/10682 [18:38<1:19:31,  2.02it/s] 10%|▉         | 1039/10682 [18:39<1:19:34,  2.02it/s] 10%|▉         | 1040/10682 [18:39<1:19:33,  2.02it/s] 10%|▉         | 1041/10682 [18:40<1:19:36,  2.02it/s] 10%|▉         | 1042/10682 [18:40<1:32:25,  1.74it/s] 10%|▉         | 1043/10682 [18:41<1:28:32,  1.81it/s] 10%|▉         | 1044/10682 [18:41<1:25:47,  1.87it/s] 10%|▉         | 1045/10682 [18:42<1:23:58,  1.91it/s] 10%|▉         | 1046/10682 [18:42<1:22:38,  1.94it/s] 10%|▉         | 1047/10682 [18:43<1:21:39,  1.97it/s] 10%|▉         | 1048/10682 [18:44<1:33:42,  1.71it/s] 10%|▉         | 1049/10682 [18:44<1:29:35,  1.79it/s] 10%|▉         | 1050/10682 [18:45<1:26:33,  1.85it/s]                                                      {'loss': 4.4544, 'grad_norm': 0.34989291429519653, 'learning_rate': 0.0009822263797942, 'epoch': 0.1}
+ 10%|▉         | 1050/10682 [18:45<1:26:33,  1.85it/s] 10%|▉         | 1051/10682 [18:45<1:24:34,  1.90it/s] 10%|▉         | 1052/10682 [18:46<1:23:01,  1.93it/s] 10%|▉         | 1053/10682 [18:46<1:22:01,  1.96it/s] 10%|▉         | 1054/10682 [18:47<1:21:16,  1.97it/s] 10%|▉         | 1055/10682 [18:47<1:20:41,  1.99it/s] 10%|▉         | 1056/10682 [18:48<1:20:19,  2.00it/s] 10%|▉         | 1057/10682 [18:48<1:19:58,  2.01it/s] 10%|▉         | 1058/10682 [18:49<1:19:43,  2.01it/s] 10%|▉         | 1059/10682 [18:49<1:19:38,  2.01it/s] 10%|▉         | 1060/10682 [18:50<1:19:33,  2.02it/s] 10%|▉         | 1061/10682 [18:50<1:19:32,  2.02it/s] 10%|▉         | 1062/10682 [18:51<1:19:29,  2.02it/s] 10%|▉         | 1063/10682 [18:51<1:19:27,  2.02it/s] 10%|▉         | 1064/10682 [18:52<1:19:27,  2.02it/s] 10%|▉         | 1065/10682 [18:52<1:19:20,  2.02it/s] 10%|▉         | 1066/10682 [18:53<1:19:21,  2.02it/s] 10%|▉         | 1067/10682 [18:53<1:19:36,  2.01it/s] 10%|▉         | 1068/10682 [18:54<1:19:35,  2.01it/s] 10%|█         | 1069/10682 [18:54<1:19:25,  2.02it/s] 10%|█         | 1070/10682 [18:55<1:19:23,  2.02it/s] 10%|█         | 1071/10682 [18:55<1:19:20,  2.02it/s] 10%|█         | 1072/10682 [18:56<1:19:18,  2.02it/s] 10%|█         | 1073/10682 [18:56<1:19:10,  2.02it/s] 10%|█         | 1074/10682 [18:57<1:19:18,  2.02it/s] 10%|█         | 1075/10682 [18:57<1:19:12,  2.02it/s]{'loss': 4.4361, 'grad_norm': 0.31271272897720337, 'learning_rate': 0.0009999990387768293, 'epoch': 0.1}
+                                                       10%|█         | 1075/10682 [18:57<1:19:12,  2.02it/s] 10%|█         | 1076/10682 [18:58<1:19:22,  2.02it/s] 10%|█         | 1077/10682 [18:58<1:19:14,  2.02it/s] 10%|█         | 1078/10682 [18:59<1:19:24,  2.02it/s] 10%|█         | 1079/10682 [18:59<1:19:18,  2.02it/s] 10%|█         | 1080/10682 [19:00<1:19:20,  2.02it/s] 10%|█         | 1081/10682 [19:00<1:19:19,  2.02it/s] 10%|█         | 1082/10682 [19:01<1:19:13,  2.02it/s] 10%|█         | 1083/10682 [19:01<1:19:13,  2.02it/s] 10%|█         | 1084/10682 [19:02<1:19:10,  2.02it/s] 10%|█         | 1085/10682 [19:02<1:19:01,  2.02it/s] 10%|█         | 1086/10682 [19:03<1:19:04,  2.02it/s] 10%|█         | 1087/10682 [19:03<1:19:06,  2.02it/s] 10%|█         | 1088/10682 [19:04<1:19:07,  2.02it/s] 10%|█         | 1089/10682 [19:04<1:19:05,  2.02it/s] 10%|█         | 1090/10682 [19:05<1:19:11,  2.02it/s] 10%|█         | 1091/10682 [19:05<1:19:25,  2.01it/s] 10%|█         | 1092/10682 [19:06<1:19:22,  2.01it/s] 10%|█         | 1093/10682 [19:06<1:19:21,  2.01it/s] 10%|█         | 1094/10682 [19:06<1:19:14,  2.02it/s] 10%|█         | 1095/10682 [19:07<1:19:16,  2.02it/s] 10%|█         | 1096/10682 [19:07<1:19:21,  2.01it/s] 10%|█         | 1097/10682 [19:08<1:19:14,  2.02it/s] 10%|█         | 1098/10682 [19:08<1:19:13,  2.02it/s] 10%|█         | 1099/10682 [19:09<1:19:01,  2.02it/s] 10%|█         | 1100/10682 [19:09<1:19:06,  2.02it/s]                                                      {'loss': 4.4193, 'grad_norm': 0.2870602607727051, 'learning_rate': 0.0009999743408927195, 'epoch': 0.1}
+ 10%|█         | 1100/10682 [19:09<1:19:06,  2.02it/s] 10%|█         | 1101/10682 [19:10<1:19:12,  2.02it/s] 10%|█         | 1102/10682 [19:10<1:19:13,  2.02it/s] 10%|█         | 1103/10682 [19:11<1:19:09,  2.02it/s] 10%|█         | 1104/10682 [19:11<1:19:10,  2.02it/s] 10%|█         | 1105/10682 [19:12<1:19:09,  2.02it/s] 10%|█         | 1106/10682 [19:12<1:19:13,  2.01it/s] 10%|█         | 1107/10682 [19:13<1:19:13,  2.01it/s] 10%|█         | 1108/10682 [19:13<1:19:08,  2.02it/s] 10%|█         | 1109/10682 [19:14<1:19:06,  2.02it/s] 10%|█         | 1110/10682 [19:14<1:19:08,  2.02it/s] 10%|█         | 1111/10682 [19:15<1:19:12,  2.01it/s] 10%|█         | 1112/10682 [19:15<1:19:15,  2.01it/s] 10%|█         | 1113/10682 [19:16<1:19:21,  2.01it/s] 10%|█         | 1114/10682 [19:16<1:19:22,  2.01it/s] 10%|█         | 1115/10682 [19:17<1:19:18,  2.01it/s] 10%|█         | 1116/10682 [19:17<1:19:17,  2.01it/s] 10%|█         | 1117/10682 [19:18<1:19:10,  2.01it/s] 10%|█         | 1118/10682 [19:18<1:19:10,  2.01it/s] 10%|█         | 1119/10682 [19:19<1:19:02,  2.02it/s] 10%|█         | 1120/10682 [19:19<1:19:01,  2.02it/s] 10%|█         | 1121/10682 [19:20<1:19:05,  2.01it/s] 11%|█         | 1122/10682 [19:20<1:18:57,  2.02it/s] 11%|█         | 1123/10682 [19:21<1:19:05,  2.01it/s] 11%|█         | 1124/10682 [19:21<1:18:59,  2.02it/s] 11%|█         | 1125/10682 [19:22<1:18:55,  2.02it/s]{'loss': 4.3907, 'grad_norm': 0.29059600830078125, 'learning_rate': 0.0009999162690918172, 'epoch': 0.11}                                                      
+ 11%|█         | 1125/10682 [19:22<1:18:55,  2.02it/s] 11%|█         | 1126/10682 [19:22<1:18:58,  2.02it/s] 11%|█         | 1127/10682 [19:23<1:18:57,  2.02it/s] 11%|█         | 1128/10682 [19:23<1:18:54,  2.02it/s] 11%|█         | 1129/10682 [19:24<1:18:50,  2.02it/s] 11%|█         | 1130/10682 [19:24<1:18:51,  2.02it/s] 11%|█         | 1131/10682 [19:25<1:18:50,  2.02it/s] 11%|█         | 1132/10682 [19:25<1:18:45,  2.02it/s] 11%|█         | 1133/10682 [19:26<1:18:46,  2.02it/s] 11%|█         | 1134/10682 [19:26<1:18:49,  2.02it/s] 11%|█         | 1135/10682 [19:27<1:18:50,  2.02it/s] 11%|█         | 1136/10682 [19:27<1:18:47,  2.02it/s] 11%|█         | 1137/10682 [19:28<1:18:50,  2.02it/s] 11%|█         | 1138/10682 [19:28<1:18:47,  2.02it/s] 11%|█         | 1139/10682 [19:29<1:18:56,  2.01it/s] 11%|█         | 1140/10682 [19:29<1:18:45,  2.02it/s] 11%|█         | 1141/10682 [19:30<1:18:44,  2.02it/s] 11%|█         | 1142/10682 [19:30<1:18:36,  2.02it/s] 11%|█         | 1143/10682 [19:31<1:18:34,  2.02it/s] 11%|█         | 1144/10682 [19:31<1:18:37,  2.02it/s] 11%|█         | 1145/10682 [19:32<1:18:35,  2.02it/s] 11%|█         | 1146/10682 [19:32<1:18:39,  2.02it/s] 11%|█         | 1147/10682 [19:33<1:18:44,  2.02it/s] 11%|█         | 1148/10682 [19:33<1:18:37,  2.02it/s] 11%|█         | 1149/10682 [19:34<1:18:39,  2.02it/s] 11%|█         | 1150/10682 [19:34<1:18:38,  2.02it/s]                                                      {'loss': 4.3789, 'grad_norm': 0.2916446328163147, 'learning_rate': 0.0009998248272504882, 'epoch': 0.11}
+ 11%|█         | 1150/10682 [19:34<1:18:38,  2.02it/s] 11%|█         | 1151/10682 [19:35<1:18:50,  2.01it/s] 11%|█         | 1152/10682 [19:35<1:18:50,  2.01it/s] 11%|█         | 1153/10682 [19:36<1:18:51,  2.01it/s] 11%|█         | 1154/10682 [19:36<1:19:00,  2.01it/s] 11%|█         | 1155/10682 [19:37<1:18:44,  2.02it/s] 11%|█         | 1156/10682 [19:37<1:18:47,  2.01it/s] 11%|█         | 1157/10682 [19:38<1:18:50,  2.01it/s] 11%|█         | 1158/10682 [19:38<1:18:45,  2.02it/s] 11%|█         | 1159/10682 [19:39<1:18:32,  2.02it/s] 11%|█         | 1160/10682 [19:39<1:18:32,  2.02it/s] 11%|█         | 1161/10682 [19:40<1:18:32,  2.02it/s] 11%|█         | 1162/10682 [19:40<1:18:36,  2.02it/s] 11%|█         | 1163/10682 [19:41<1:18:28,  2.02it/s] 11%|█         | 1164/10682 [19:41<1:18:32,  2.02it/s] 11%|█         | 1165/10682 [19:42<1:18:25,  2.02it/s] 11%|█         | 1166/10682 [19:42<1:18:28,  2.02it/s] 11%|█         | 1167/10682 [19:43<1:18:24,  2.02it/s] 11%|█         | 1168/10682 [19:43<1:18:47,  2.01it/s] 11%|█         | 1169/10682 [19:44<1:18:52,  2.01it/s] 11%|█         | 1170/10682 [19:44<1:18:51,  2.01it/s] 11%|█         | 1171/10682 [19:45<1:19:03,  2.01it/s] 11%|█         | 1172/10682 [19:45<1:18:53,  2.01it/s] 11%|█         | 1173/10682 [19:46<1:18:47,  2.01it/s] 11%|█         | 1174/10682 [19:46<1:18:38,  2.01it/s] 11%|█         | 1175/10682 [19:47<1:18:34,  2.02it/s]{'loss': 4.3665, 'grad_norm': 0.33394280076026917, 'learning_rate': 0.0009997000214725905, 'epoch': 0.11}                                                      
+ 11%|█         | 1175/10682 [19:47<1:18:34,  2.02it/s] 11%|█         | 1176/10682 [19:47<1:18:57,  2.01it/s] 11%|█         | 1177/10682 [19:48<1:18:50,  2.01it/s] 11%|█         | 1178/10682 [19:48<1:18:40,  2.01it/s] 11%|█         | 1179/10682 [19:49<1:18:32,  2.02it/s] 11%|█         | 1180/10682 [19:49<1:18:26,  2.02it/s] 11%|█         | 1181/10682 [19:50<1:18:22,  2.02it/s] 11%|█         | 1182/10682 [19:50<1:18:23,  2.02it/s] 11%|█         | 1183/10682 [19:51<1:18:25,  2.02it/s] 11%|█         | 1184/10682 [19:51<1:18:22,  2.02it/s] 11%|█         | 1185/10682 [19:52<1:18:19,  2.02it/s] 11%|█         | 1186/10682 [19:52<1:18:21,  2.02it/s] 11%|█         | 1187/10682 [19:53<1:18:13,  2.02it/s] 11%|█         | 1188/10682 [19:53<1:18:18,  2.02it/s] 11%|█         | 1189/10682 [19:54<1:18:11,  2.02it/s] 11%|█         | 1190/10682 [19:54<1:18:16,  2.02it/s] 11%|█         | 1191/10682 [19:55<1:18:06,  2.03it/s] 11%|█         | 1192/10682 [19:55<1:18:12,  2.02it/s] 11%|█         | 1193/10682 [19:56<1:18:04,  2.03it/s] 11%|█         | 1194/10682 [19:56<1:18:06,  2.02it/s] 11%|█         | 1195/10682 [19:57<1:18:02,  2.03it/s] 11%|█         | 1196/10682 [19:57<1:18:06,  2.02it/s] 11%|█         | 1197/10682 [19:58<1:18:08,  2.02it/s] 11%|█         | 1198/10682 [19:58<1:18:08,  2.02it/s] 11%|█         | 1199/10682 [19:59<1:18:08,  2.02it/s] 11%|█         | 1200/10682 [19:59<1:18:08,  2.02it/s]{'loss': 4.3389, 'grad_norm': 0.30575019121170044, 'learning_rate': 0.000999541860089067, 'epoch': 0.11}
+                                                       11%|█         | 1200/10682 [19:59<1:18:08,  2.02it/s] 11%|█         | 1201/10682 [20:00<1:18:11,  2.02it/s] 11%|█▏        | 1202/10682 [20:00<1:18:14,  2.02it/s] 11%|█▏        | 1203/10682 [20:01<1:18:07,  2.02it/s] 11%|█▏        | 1204/10682 [20:01<1:18:14,  2.02it/s] 11%|█▏        | 1205/10682 [20:02<1:18:05,  2.02it/s] 11%|█▏        | 1206/10682 [20:02<1:18:05,  2.02it/s] 11%|█▏        | 1207/10682 [20:02<1:18:05,  2.02it/s] 11%|█▏        | 1208/10682 [20:03<1:18:04,  2.02it/s] 11%|█▏        | 1209/10682 [20:03<1:18:06,  2.02it/s] 11%|█▏        | 1210/10682 [20:04<1:18:06,  2.02it/s] 11%|█▏        | 1211/10682 [20:04<1:18:02,  2.02it/s] 11%|█▏        | 1212/10682 [20:05<1:18:03,  2.02it/s] 11%|█▏        | 1213/10682 [20:05<1:18:04,  2.02it/s] 11%|█▏        | 1214/10682 [20:06<1:18:07,  2.02it/s] 11%|█▏        | 1215/10682 [20:06<1:18:02,  2.02it/s] 11%|█▏        | 1216/10682 [20:07<1:18:13,  2.02it/s] 11%|█▏        | 1217/10682 [20:07<1:18:12,  2.02it/s] 11%|█▏        | 1218/10682 [20:08<1:18:10,  2.02it/s] 11%|█▏        | 1219/10682 [20:08<1:18:08,  2.02it/s] 11%|█▏        | 1220/10682 [20:09<1:18:04,  2.02it/s] 11%|█▏        | 1221/10682 [20:09<1:18:00,  2.02it/s] 11%|█▏        | 1222/10682 [20:10<1:18:00,  2.02it/s] 11%|█▏        | 1223/10682 [20:10<1:17:57,  2.02it/s] 11%|█▏        | 1224/10682 [20:11<1:17:58,  2.02it/s] 11%|█▏        | 1225/10682 [20:11<1:17:58,  2.02it/s]{'loss': 4.322, 'grad_norm': 0.2840079665184021, 'learning_rate': 0.0009993503536573894, 'epoch': 0.11}                                                      
+ 11%|█▏        | 1225/10682 [20:11<1:17:58,  2.02it/s] 11%|█▏        | 1226/10682 [20:12<1:18:03,  2.02it/s] 11%|█▏        | 1227/10682 [20:12<1:18:03,  2.02it/s] 11%|█▏        | 1228/10682 [20:13<1:18:01,  2.02it/s] 12%|█▏        | 1229/10682 [20:13<1:17:57,  2.02it/s] 12%|█▏        | 1230/10682 [20:14<1:18:02,  2.02it/s] 12%|█▏        | 1231/10682 [20:14<1:18:01,  2.02it/s] 12%|█▏        | 1232/10682 [20:15<1:18:03,  2.02it/s] 12%|█▏        | 1233/10682 [20:15<1:18:03,  2.02it/s] 12%|█▏        | 1234/10682 [20:16<1:18:04,  2.02it/s] 12%|█▏        | 1235/10682 [20:16<1:17:59,  2.02it/s] 12%|█▏        | 1236/10682 [20:17<1:17:59,  2.02it/s] 12%|█▏        | 1237/10682 [20:17<1:17:50,  2.02it/s] 12%|█▏        | 1238/10682 [20:18<1:17:56,  2.02it/s] 12%|█▏        | 1239/10682 [20:18<1:17:48,  2.02it/s] 12%|█▏        | 1240/10682 [20:19<1:17:48,  2.02it/s] 12%|█▏        | 1241/10682 [20:19<1:17:43,  2.02it/s] 12%|█▏        | 1242/10682 [20:20<1:17:51,  2.02it/s] 12%|█▏        | 1243/10682 [20:20<1:17:51,  2.02it/s] 12%|█▏        | 1244/10682 [20:21<1:18:01,  2.02it/s] 12%|█▏        | 1245/10682 [20:21<1:17:53,  2.02it/s] 12%|█▏        | 1246/10682 [20:22<1:17:58,  2.02it/s] 12%|█▏        | 1247/10682 [20:22<1:17:56,  2.02it/s] 12%|█▏        | 1248/10682 [20:23<1:17:55,  2.02it/s] 12%|█▏        | 1249/10682 [20:23<1:17:51,  2.02it/s] 12%|█▏        | 1250/10682 [20:24<1:17:55,  2.02it/s]                                                      {'loss': 4.3142, 'grad_norm': 0.2728389799594879, 'learning_rate': 0.0009991255149608528, 'epoch': 0.12}
+ 12%|█▏        | 1250/10682 [20:24<1:17:55,  2.02it/s] 12%|█▏        | 1251/10682 [20:24<1:17:55,  2.02it/s] 12%|█▏        | 1252/10682 [20:25<1:17:51,  2.02it/s] 12%|█▏        | 1253/10682 [20:25<1:17:48,  2.02it/s] 12%|█▏        | 1254/10682 [20:26<1:17:48,  2.02it/s] 12%|█▏        | 1255/10682 [20:26<1:17:41,  2.02it/s] 12%|█▏        | 1256/10682 [20:27<1:17:43,  2.02it/s] 12%|█▏        | 1257/10682 [20:27<1:17:36,  2.02it/s] 12%|█▏        | 1258/10682 [20:28<1:17:40,  2.02it/s] 12%|█▏        | 1259/10682 [20:28<1:17:42,  2.02it/s] 12%|█▏        | 1260/10682 [20:29<1:17:42,  2.02it/s] 12%|█▏        | 1261/10682 [20:29<1:17:45,  2.02it/s] 12%|█▏        | 1262/10682 [20:30<1:17:49,  2.02it/s] 12%|█▏        | 1263/10682 [20:30<1:17:45,  2.02it/s] 12%|█▏        | 1264/10682 [20:31<1:17:48,  2.02it/s] 12%|█▏        | 1265/10682 [20:31<1:17:45,  2.02it/s] 12%|█▏        | 1266/10682 [20:32<1:17:45,  2.02it/s] 12%|█▏        | 1267/10682 [20:32<1:17:49,  2.02it/s] 12%|█▏        | 1268/10682 [20:33<1:17:49,  2.02it/s] 12%|█▏        | 1269/10682 [20:33<1:17:48,  2.02it/s] 12%|█▏        | 1270/10682 [20:34<1:17:44,  2.02it/s] 12%|█▏        | 1271/10682 [20:34<1:17:40,  2.02it/s] 12%|█▏        | 1272/10682 [20:35<1:17:40,  2.02it/s] 12%|█▏        | 1273/10682 [20:35<1:17:31,  2.02it/s] 12%|█▏        | 1274/10682 [20:36<1:17:27,  2.02it/s] 12%|█▏        | 1275/10682 [20:36<1:17:27,  2.02it/s]                                                      {'loss': 4.2998, 'grad_norm': 0.2711522877216339, 'learning_rate': 0.0009988673590077238, 'epoch': 0.12}
+ 12%|█▏        | 1275/10682 [20:36<1:17:27,  2.02it/s] 12%|█▏        | 1276/10682 [20:37<1:17:36,  2.02it/s] 12%|█▏        | 1277/10682 [20:37<1:17:29,  2.02it/s] 12%|█▏        | 1278/10682 [20:38<1:17:29,  2.02it/s] 12%|█▏        | 1279/10682 [20:38<1:17:28,  2.02it/s] 12%|█▏        | 1280/10682 [20:39<1:17:33,  2.02it/s] 12%|█▏        | 1281/10682 [20:39<1:17:31,  2.02it/s] 12%|█▏        | 1282/10682 [20:40<1:17:41,  2.02it/s] 12%|█▏        | 1283/10682 [20:40<1:17:35,  2.02it/s] 12%|█▏        | 1284/10682 [20:41<1:17:41,  2.02it/s] 12%|█▏        | 1285/10682 [20:41<1:17:39,  2.02it/s] 12%|█▏        | 1286/10682 [20:42<1:17:36,  2.02it/s] 12%|█▏        | 1287/10682 [20:42<1:17:37,  2.02it/s] 12%|█▏        | 1288/10682 [20:43<1:17:35,  2.02it/s] 12%|█▏        | 1289/10682 [20:43<1:17:36,  2.02it/s] 12%|█▏        | 1290/10682 [20:44<1:17:36,  2.02it/s] 12%|█▏        | 1291/10682 [20:44<1:17:33,  2.02it/s] 12%|█▏        | 1292/10682 [20:45<1:17:30,  2.02it/s] 12%|█▏        | 1293/10682 [20:45<1:17:35,  2.02it/s] 12%|█▏        | 1294/10682 [20:46<1:17:30,  2.02it/s] 12%|█▏        | 1295/10682 [20:46<1:17:28,  2.02it/s] 12%|█▏        | 1296/10682 [20:47<1:17:27,  2.02it/s] 12%|█▏        | 1297/10682 [20:47<1:17:24,  2.02it/s] 12%|█▏        | 1298/10682 [20:48<1:17:23,  2.02it/s] 12%|█▏        | 1299/10682 [20:48<1:17:18,  2.02it/s] 12%|█▏        | 1300/10682 [20:49<1:17:19,  2.02it/s]{'loss': 4.2709, 'grad_norm': 0.26654133200645447, 'learning_rate': 0.0009985759030302366, 'epoch': 0.12}                                                      
+ 12%|█▏        | 1300/10682 [20:49<1:17:19,  2.02it/s] 12%|█▏        | 1301/10682 [20:49<1:17:19,  2.02it/s] 12%|█▏        | 1302/10682 [20:50<1:17:27,  2.02it/s] 12%|█▏        | 1303/10682 [20:50<1:17:22,  2.02it/s] 12%|█▏        | 1304/10682 [20:51<1:17:22,  2.02it/s] 12%|█▏        | 1305/10682 [20:51<1:17:18,  2.02it/s] 12%|█▏        | 1306/10682 [20:52<1:17:14,  2.02it/s] 12%|█▏        | 1307/10682 [20:52<1:17:18,  2.02it/s] 12%|█▏        | 1308/10682 [20:53<1:17:18,  2.02it/s] 12%|█▏        | 1309/10682 [20:53<1:17:27,  2.02it/s] 12%|█▏        | 1310/10682 [20:53<1:17:21,  2.02it/s] 12%|█▏        | 1311/10682 [20:54<1:17:27,  2.02it/s] 12%|█▏        | 1312/10682 [20:54<1:17:20,  2.02it/s] 12%|█▏        | 1313/10682 [20:55<1:17:27,  2.02it/s] 12%|█▏        | 1314/10682 [20:55<1:17:21,  2.02it/s] 12%|█▏        | 1315/10682 [20:56<1:17:19,  2.02it/s] 12%|█▏        | 1316/10682 [20:56<1:17:15,  2.02it/s] 12%|█▏        | 1317/10682 [20:57<1:17:16,  2.02it/s] 12%|█▏        | 1318/10682 [20:57<1:17:13,  2.02it/s] 12%|█▏        | 1319/10682 [20:58<1:17:13,  2.02it/s] 12%|█▏        | 1320/10682 [20:58<1:17:14,  2.02it/s] 12%|█▏        | 1321/10682 [20:59<1:17:14,  2.02it/s] 12%|█▏        | 1322/10682 [20:59<1:17:14,  2.02it/s] 12%|█▏        | 1323/10682 [21:00<1:17:14,  2.02it/s] 12%|█▏        | 1324/10682 [21:00<1:17:14,  2.02it/s] 12%|█▏        | 1325/10682 [21:01<1:17:11,  2.02it/s]{'loss': 4.2686, 'grad_norm': 0.2730892598628998, 'learning_rate': 0.0009982511664834452, 'epoch': 0.12}                                                      
+ 12%|█▏        | 1325/10682 [21:01<1:17:11,  2.02it/s] 12%|█▏        | 1326/10682 [21:01<1:17:13,  2.02it/s] 12%|█▏        | 1327/10682 [21:02<1:17:07,  2.02it/s] 12%|█▏        | 1328/10682 [21:02<1:17:08,  2.02it/s] 12%|█▏        | 1329/10682 [21:03<1:17:05,  2.02it/s] 12%|█▏        | 1330/10682 [21:03<1:17:08,  2.02it/s] 12%|█▏        | 1331/10682 [21:04<1:17:03,  2.02it/s] 12%|█▏        | 1332/10682 [21:04<1:17:06,  2.02it/s] 12%|█▏        | 1333/10682 [21:05<1:17:02,  2.02it/s] 12%|█▏        | 1334/10682 [21:05<1:17:03,  2.02it/s] 12%|█▏        | 1335/10682 [21:06<1:16:57,  2.02it/s] 13%|█▎        | 1336/10682 [21:06<1:17:00,  2.02it/s] 13%|█▎        | 1337/10682 [21:07<1:17:06,  2.02it/s] 13%|█▎        | 1338/10682 [21:07<1:17:11,  2.02it/s] 13%|█▎        | 1339/10682 [21:08<1:17:10,  2.02it/s] 13%|█▎        | 1340/10682 [21:08<1:17:11,  2.02it/s] 13%|█▎        | 1341/10682 [21:09<1:17:16,  2.01it/s] 13%|█▎        | 1342/10682 [21:09<1:17:05,  2.02it/s] 13%|█▎        | 1343/10682 [21:10<1:17:09,  2.02it/s] 13%|█▎        | 1344/10682 [21:10<1:17:03,  2.02it/s] 13%|█▎        | 1345/10682 [21:11<1:17:08,  2.02it/s] 13%|█▎        | 1346/10682 [21:11<1:16:58,  2.02it/s] 13%|█▎        | 1347/10682 [21:12<1:17:03,  2.02it/s] 13%|█▎        | 1348/10682 [21:12<1:16:54,  2.02it/s] 13%|█▎        | 1349/10682 [21:13<1:16:58,  2.02it/s] 13%|█▎        | 1350/10682 [21:13<1:16:51,  2.02it/s]{'loss': 4.2476, 'grad_norm': 0.2802666425704956, 'learning_rate': 0.0009978931710439229, 'epoch': 0.13}
+                                                       13%|█▎        | 1350/10682 [21:13<1:16:51,  2.02it/s] 13%|█▎        | 1351/10682 [21:14<1:16:57,  2.02it/s] 13%|█▎        | 1352/10682 [21:14<1:16:55,  2.02it/s] 13%|█▎        | 1353/10682 [21:15<1:16:54,  2.02it/s] 13%|█▎        | 1354/10682 [21:15<1:16:53,  2.02it/s] 13%|█▎        | 1355/10682 [21:16<1:16:49,  2.02it/s] 13%|█▎        | 1356/10682 [21:16<1:16:54,  2.02it/s] 13%|█▎        | 1357/10682 [21:17<1:16:59,  2.02it/s] 13%|█▎        | 1358/10682 [21:17<1:16:56,  2.02it/s] 13%|█▎        | 1359/10682 [21:18<1:17:01,  2.02it/s] 13%|█▎        | 1360/10682 [21:18<1:16:57,  2.02it/s] 13%|█▎        | 1361/10682 [21:19<1:17:02,  2.02it/s] 13%|█▎        | 1362/10682 [21:19<1:16:59,  2.02it/s] 13%|█▎        | 1363/10682 [21:20<1:17:04,  2.02it/s] 13%|█▎        | 1364/10682 [21:20<1:17:08,  2.01it/s] 13%|█▎        | 1365/10682 [21:21<1:17:07,  2.01it/s] 13%|█▎        | 1366/10682 [21:21<1:17:12,  2.01it/s] 13%|█▎        | 1367/10682 [21:22<1:16:58,  2.02it/s] 13%|█▎        | 1368/10682 [21:22<1:16:58,  2.02it/s] 13%|█▎        | 1369/10682 [21:23<1:16:45,  2.02it/s] 13%|█▎        | 1370/10682 [21:23<1:16:44,  2.02it/s] 13%|█▎        | 1371/10682 [21:24<1:16:42,  2.02it/s] 13%|█▎        | 1372/10682 [21:24<1:16:42,  2.02it/s] 13%|█▎        | 1373/10682 [21:25<1:16:40,  2.02it/s] 13%|█▎        | 1374/10682 [21:25<1:16:41,  2.02it/s] 13%|█▎        | 1375/10682 [21:26<1:16:41,  2.02it/s]{'loss': 4.2429, 'grad_norm': 0.26023489236831665, 'learning_rate': 0.000997501940608316, 'epoch': 0.13}                                                      
+ 13%|█▎        | 1375/10682 [21:26<1:16:41,  2.02it/s] 13%|█▎        | 1376/10682 [21:26<1:16:58,  2.01it/s] 13%|█▎        | 1377/10682 [21:27<1:16:50,  2.02it/s] 13%|█▎        | 1378/10682 [21:27<1:17:00,  2.01it/s] 13%|█▎        | 1379/10682 [21:28<1:16:54,  2.02it/s] 13%|█▎        | 1380/10682 [21:28<1:16:51,  2.02it/s] 13%|█▎        | 1381/10682 [21:29<1:16:50,  2.02it/s] 13%|█▎        | 1382/10682 [21:29<1:17:00,  2.01it/s] 13%|█▎        | 1383/10682 [21:30<1:16:50,  2.02it/s] 13%|█▎        | 1384/10682 [21:30<1:16:50,  2.02it/s] 13%|█▎        | 1385/10682 [21:31<1:16:42,  2.02it/s] 13%|█▎        | 1386/10682 [21:31<1:16:44,  2.02it/s] 13%|█▎        | 1387/10682 [21:32<1:16:38,  2.02it/s] 13%|█▎        | 1388/10682 [21:32<1:16:34,  2.02it/s] 13%|█▎        | 1389/10682 [21:33<1:16:50,  2.02it/s] 13%|█▎        | 1390/10682 [21:33<1:16:53,  2.01it/s] 13%|█▎        | 1391/10682 [21:34<1:16:43,  2.02it/s] 13%|█▎        | 1392/10682 [21:34<1:16:46,  2.02it/s] 13%|█▎        | 1393/10682 [21:35<1:16:40,  2.02it/s] 13%|█▎        | 1394/10682 [21:35<1:16:40,  2.02it/s] 13%|█▎        | 1395/10682 [21:36<1:16:40,  2.02it/s] 13%|█▎        | 1396/10682 [21:36<1:16:39,  2.02it/s] 13%|█▎        | 1397/10682 [21:37<1:16:30,  2.02it/s] 13%|█▎        | 1398/10682 [21:37<1:16:31,  2.02it/s] 13%|█▎        | 1399/10682 [21:38<1:16:25,  2.02it/s] 13%|█▎        | 1400/10682 [21:38<1:16:24,  2.02it/s]{'loss': 4.2298, 'grad_norm': 0.24430447816848755, 'learning_rate': 0.0009970775012917489, 'epoch': 0.13}
+                                                       13%|█▎        | 1400/10682 [21:38<1:16:24,  2.02it/s] 13%|█▎        | 1401/10682 [21:39<1:16:27,  2.02it/s] 13%|█▎        | 1402/10682 [21:39<1:16:27,  2.02it/s] 13%|█▎        | 1403/10682 [21:40<1:16:30,  2.02it/s] 13%|█▎        | 1404/10682 [21:40<1:16:28,  2.02it/s] 13%|█▎        | 1405/10682 [21:41<1:16:27,  2.02it/s] 13%|█▎        | 1406/10682 [21:41<1:16:30,  2.02it/s] 13%|█▎        | 1407/10682 [21:42<1:16:29,  2.02it/s] 13%|█▎        | 1408/10682 [21:42<1:16:26,  2.02it/s] 13%|█▎        | 1409/10682 [21:43<1:16:30,  2.02it/s] 13%|█▎        | 1410/10682 [21:43<1:16:30,  2.02it/s] 13%|█▎        | 1411/10682 [21:44<1:16:26,  2.02it/s] 13%|█▎        | 1412/10682 [21:44<1:16:19,  2.02it/s] 13%|█▎        | 1413/10682 [21:44<1:16:21,  2.02it/s] 13%|█▎        | 1414/10682 [21:45<1:16:18,  2.02it/s] 13%|█▎        | 1415/10682 [21:45<1:16:19,  2.02it/s] 13%|█▎        | 1416/10682 [21:46<1:16:18,  2.02it/s] 13%|█▎        | 1417/10682 [21:46<1:16:15,  2.02it/s] 13%|█▎        | 1418/10682 [21:47<1:16:16,  2.02it/s] 13%|█▎        | 1419/10682 [21:47<1:16:17,  2.02it/s] 13%|█▎        | 1420/10682 [21:48<1:16:19,  2.02it/s] 13%|█▎        | 1421/10682 [21:48<1:16:18,  2.02it/s] 13%|█▎        | 1422/10682 [21:49<1:16:18,  2.02it/s] 13%|█▎        | 1423/10682 [21:49<1:16:18,  2.02it/s] 13%|█▎        | 1424/10682 [21:50<1:16:21,  2.02it/s] 13%|█▎        | 1425/10682 [21:50<1:16:16,  2.02it/s]{'loss': 4.2096, 'grad_norm': 0.2744241952896118, 'learning_rate': 0.00099661988142608, 'epoch': 0.13}
+                                                       13%|█▎        | 1425/10682 [21:50<1:16:16,  2.02it/s] 13%|█▎        | 1426/10682 [21:51<1:16:29,  2.02it/s] 13%|█▎        | 1427/10682 [21:51<1:16:28,  2.02it/s] 13%|█▎        | 1428/10682 [21:52<1:16:23,  2.02it/s] 13%|█▎        | 1429/10682 [21:52<1:16:18,  2.02it/s] 13%|█▎        | 1430/10682 [21:53<1:16:21,  2.02it/s] 13%|█▎        | 1431/10682 [21:53<1:16:14,  2.02it/s] 13%|█▎        | 1432/10682 [21:54<1:16:15,  2.02it/s] 13%|█▎        | 1433/10682 [21:54<1:16:07,  2.02it/s] 13%|█▎        | 1434/10682 [21:55<1:16:11,  2.02it/s] 13%|█▎        | 1435/10682 [21:55<1:16:08,  2.02it/s] 13%|█▎        | 1436/10682 [21:56<1:16:09,  2.02it/s] 13%|█▎        | 1437/10682 [21:56<1:16:07,  2.02it/s] 13%|█▎        | 1438/10682 [21:57<1:16:01,  2.03it/s] 13%|█▎        | 1439/10682 [21:57<1:16:09,  2.02it/s] 13%|█▎        | 1440/10682 [21:58<1:16:08,  2.02it/s] 13%|█▎        | 1441/10682 [21:58<1:16:17,  2.02it/s] 13%|█▎        | 1442/10682 [21:59<1:16:08,  2.02it/s] 14%|█▎        | 1443/10682 [21:59<1:16:10,  2.02it/s] 14%|█▎        | 1444/10682 [22:00<1:16:09,  2.02it/s] 14%|█▎        | 1445/10682 [22:00<1:16:06,  2.02it/s] 14%|█▎        | 1446/10682 [22:01<1:16:06,  2.02it/s] 14%|█▎        | 1447/10682 [22:01<1:16:03,  2.02it/s] 14%|█▎        | 1448/10682 [22:02<1:16:09,  2.02it/s] 14%|█▎        | 1449/10682 [22:02<1:16:04,  2.02it/s] 14%|█▎        | 1450/10682 [22:03<1:16:10,  2.02it/s]{'loss': 4.201, 'grad_norm': 0.25526636838912964, 'learning_rate': 0.0009961291115580116, 'epoch': 0.14}
+                                                       14%|█▎        | 1450/10682 [22:03<1:16:10,  2.02it/s] 14%|█▎        | 1451/10682 [22:03<1:16:13,  2.02it/s] 14%|█▎        | 1452/10682 [22:04<1:16:11,  2.02it/s] 14%|█▎        | 1453/10682 [22:04<1:16:03,  2.02it/s] 14%|█▎        | 1454/10682 [22:05<1:16:02,  2.02it/s] 14%|█▎        | 1455/10682 [22:05<1:16:07,  2.02it/s] 14%|█▎        | 1456/10682 [22:06<1:16:08,  2.02it/s] 14%|█▎        | 1457/10682 [22:06<1:16:14,  2.02it/s] 14%|█▎        | 1458/10682 [22:07<1:16:09,  2.02it/s] 14%|█▎        | 1459/10682 [22:07<1:16:08,  2.02it/s] 14%|█▎        | 1460/10682 [22:08<1:16:14,  2.02it/s] 14%|█▎        | 1461/10682 [22:08<1:16:09,  2.02it/s] 14%|█▎        | 1462/10682 [22:09<1:16:05,  2.02it/s] 14%|█▎        | 1463/10682 [22:09<1:16:01,  2.02it/s] 14%|█▎        | 1464/10682 [22:10<1:15:59,  2.02it/s] 14%|█▎        | 1465/10682 [22:10<1:15:56,  2.02it/s] 14%|█▎        | 1466/10682 [22:11<1:15:54,  2.02it/s] 14%|█▎        | 1467/10682 [22:11<1:15:55,  2.02it/s] 14%|█▎        | 1468/10682 [22:12<1:15:47,  2.03it/s] 14%|█▍        | 1469/10682 [22:12<1:15:49,  2.03it/s] 14%|█▍        | 1470/10682 [22:13<1:15:49,  2.02it/s] 14%|█▍        | 1471/10682 [22:13<1:15:58,  2.02it/s] 14%|█▍        | 1472/10682 [22:14<1:15:57,  2.02it/s] 14%|█▍        | 1473/10682 [22:14<1:15:58,  2.02it/s] 14%|█▍        | 1474/10682 [22:15<1:16:04,  2.02it/s] 14%|█▍        | 1475/10682 [22:15<1:16:02,  2.02it/s]{'loss': 4.183, 'grad_norm': 0.2341112643480301, 'learning_rate': 0.0009956052244470509, 'epoch': 0.14}
+                                                       14%|█▍        | 1475/10682 [22:15<1:16:02,  2.02it/s] 14%|█▍        | 1476/10682 [22:16<1:16:00,  2.02it/s] 14%|█▍        | 1477/10682 [22:16<1:16:05,  2.02it/s] 14%|█▍        | 1478/10682 [22:17<1:16:03,  2.02it/s] 14%|█▍        | 1479/10682 [22:17<1:15:58,  2.02it/s] 14%|█▍        | 1480/10682 [22:18<1:15:56,  2.02it/s] 14%|█▍        | 1481/10682 [22:18<1:15:53,  2.02it/s] 14%|█▍        | 1482/10682 [22:19<1:15:51,  2.02it/s] 14%|█▍        | 1483/10682 [22:19<1:15:49,  2.02it/s] 14%|█▍        | 1484/10682 [22:20<1:16:00,  2.02it/s] 14%|█▍        | 1485/10682 [22:20<1:15:54,  2.02it/s] 14%|█▍        | 1486/10682 [22:21<1:15:56,  2.02it/s] 14%|█▍        | 1487/10682 [22:21<1:15:51,  2.02it/s] 14%|█▍        | 1488/10682 [22:22<1:15:51,  2.02it/s] 14%|█▍        | 1489/10682 [22:22<1:15:49,  2.02it/s] 14%|█▍        | 1490/10682 [22:23<1:15:50,  2.02it/s] 14%|█▍        | 1491/10682 [22:23<1:15:54,  2.02it/s] 14%|█▍        | 1492/10682 [22:24<1:15:50,  2.02it/s] 14%|█▍        | 1493/10682 [22:24<1:15:47,  2.02it/s] 14%|█▍        | 1494/10682 [22:25<1:15:53,  2.02it/s] 14%|█▍        | 1495/10682 [22:25<1:15:52,  2.02it/s] 14%|█▍        | 1496/10682 [22:26<1:15:51,  2.02it/s] 14%|█▍        | 1497/10682 [22:26<1:15:44,  2.02it/s] 14%|█▍        | 1498/10682 [22:27<1:15:43,  2.02it/s] 14%|█▍        | 1499/10682 [22:27<1:15:56,  2.02it/s] 14%|█▍        | 1500/10682 [22:28<1:15:49,  2.02it/s]                                                      {'loss': 4.1775, 'grad_norm': 0.24959181249141693, 'learning_rate': 0.0009950482550633215, 'epoch': 0.14}
+ 14%|█▍        | 1500/10682 [22:28<1:15:49,  2.02it/s] 14%|█▍        | 1501/10682 [22:28<1:15:52,  2.02it/s] 14%|█▍        | 1502/10682 [22:29<1:15:48,  2.02it/s] 14%|█▍        | 1503/10682 [22:29<1:15:45,  2.02it/s] 14%|█▍        | 1504/10682 [22:30<1:15:41,  2.02it/s] 14%|█▍        | 1505/10682 [22:30<1:15:43,  2.02it/s] 14%|█▍        | 1506/10682 [22:31<1:15:46,  2.02it/s] 14%|█▍        | 1507/10682 [22:31<1:15:44,  2.02it/s] 14%|█▍        | 1508/10682 [22:32<1:15:48,  2.02it/s] 14%|█▍        | 1509/10682 [22:32<1:15:46,  2.02it/s] 14%|█▍        | 1510/10682 [22:32<1:15:40,  2.02it/s] 14%|█▍        | 1511/10682 [22:33<1:15:39,  2.02it/s] 14%|█▍        | 1512/10682 [22:33<1:15:36,  2.02it/s] 14%|█▍        | 1513/10682 [22:34<1:15:41,  2.02it/s] 14%|█▍        | 1514/10682 [22:34<1:15:31,  2.02it/s] 14%|█▍        | 1515/10682 [22:35<1:15:29,  2.02it/s] 14%|█▍        | 1516/10682 [22:35<1:15:33,  2.02it/s] 14%|█▍        | 1517/10682 [22:36<1:15:29,  2.02it/s] 14%|█▍        | 1518/10682 [22:36<1:15:34,  2.02it/s] 14%|█▍        | 1519/10682 [22:37<1:15:33,  2.02it/s] 14%|█▍        | 1520/10682 [22:37<1:15:29,  2.02it/s] 14%|█▍        | 1521/10682 [22:38<1:15:23,  2.03it/s] 14%|█▍        | 1522/10682 [22:38<1:15:29,  2.02it/s] 14%|█▍        | 1523/10682 [22:39<1:15:27,  2.02it/s] 14%|█▍        | 1524/10682 [22:39<1:15:25,  2.02it/s] 14%|█▍        | 1525/10682 [22:40<1:15:33,  2.02it/s]{'loss': 4.1682, 'grad_norm': 0.2555113434791565, 'learning_rate': 0.0009944582405852314, 'epoch': 0.14}
+                                                       14%|█▍        | 1525/10682 [22:40<1:15:33,  2.02it/s] 14%|█▍        | 1526/10682 [22:40<1:15:43,  2.02it/s] 14%|█▍        | 1527/10682 [22:41<1:15:37,  2.02it/s] 14%|█▍        | 1528/10682 [22:41<1:15:32,  2.02it/s] 14%|█▍        | 1529/10682 [22:42<1:15:29,  2.02it/s] 14%|█▍        | 1530/10682 [22:42<1:15:34,  2.02it/s] 14%|█▍        | 1531/10682 [22:43<1:15:22,  2.02it/s] 14%|█▍        | 1532/10682 [22:43<1:15:33,  2.02it/s] 14%|█▍        | 1533/10682 [22:44<1:15:27,  2.02it/s] 14%|█▍        | 1534/10682 [22:44<1:15:24,  2.02it/s] 14%|█▍        | 1535/10682 [22:45<1:15:20,  2.02it/s] 14%|█▍        | 1536/10682 [22:45<1:15:22,  2.02it/s] 14%|█▍        | 1537/10682 [22:46<1:15:22,  2.02it/s] 14%|█▍        | 1538/10682 [22:46<1:15:18,  2.02it/s] 14%|█▍        | 1539/10682 [22:47<1:15:21,  2.02it/s] 14%|█▍        | 1540/10682 [22:47<1:15:23,  2.02it/s] 14%|█▍        | 1541/10682 [22:48<1:15:19,  2.02it/s] 14%|█▍        | 1542/10682 [22:48<1:15:24,  2.02it/s] 14%|█▍        | 1543/10682 [22:49<1:15:20,  2.02it/s] 14%|█▍        | 1544/10682 [22:49<1:15:19,  2.02it/s] 14%|█▍        | 1545/10682 [22:50<1:15:30,  2.02it/s] 14%|█▍        | 1546/10682 [22:50<1:15:29,  2.02it/s] 14%|█▍        | 1547/10682 [22:51<1:15:21,  2.02it/s] 14%|█▍        | 1548/10682 [22:51<1:15:23,  2.02it/s] 15%|█▍        | 1549/10682 [22:52<1:15:11,  2.02it/s] 15%|█▍        | 1550/10682 [22:52<1:15:08,  2.03it/s]{'loss': 4.1513, 'grad_norm': 0.25970354676246643, 'learning_rate': 0.0009938352203969901, 'epoch': 0.15}
+                                                       15%|█▍        | 1550/10682 [22:52<1:15:08,  2.03it/s] 15%|█▍        | 1551/10682 [22:53<1:15:12,  2.02it/s] 15%|█▍        | 1552/10682 [22:53<1:15:10,  2.02it/s] 15%|█▍        | 1553/10682 [22:54<1:15:13,  2.02it/s] 15%|█▍        | 1554/10682 [22:54<1:15:12,  2.02it/s] 15%|█▍        | 1555/10682 [22:55<1:15:11,  2.02it/s] 15%|█▍        | 1556/10682 [22:55<1:15:15,  2.02it/s] 15%|█▍        | 1557/10682 [22:56<1:15:23,  2.02it/s] 15%|█▍        | 1558/10682 [22:56<1:15:17,  2.02it/s] 15%|█▍        | 1559/10682 [22:57<1:15:15,  2.02it/s] 15%|█▍        | 1560/10682 [22:57<1:15:12,  2.02it/s] 15%|█▍        | 1561/10682 [22:58<1:15:10,  2.02it/s] 15%|█▍        | 1562/10682 [22:58<1:15:12,  2.02it/s] 15%|█▍        | 1563/10682 [22:59<1:15:17,  2.02it/s] 15%|█▍        | 1564/10682 [22:59<1:15:10,  2.02it/s] 15%|█▍        | 1565/10682 [23:00<1:15:13,  2.02it/s] 15%|█▍        | 1566/10682 [23:00<1:15:06,  2.02it/s] 15%|█▍        | 1567/10682 [23:01<1:15:12,  2.02it/s] 15%|█▍        | 1568/10682 [23:01<1:15:03,  2.02it/s] 15%|█▍        | 1569/10682 [23:02<1:15:01,  2.02it/s] 15%|█▍        | 1570/10682 [23:02<1:14:58,  2.03it/s] 15%|█▍        | 1571/10682 [23:03<1:14:58,  2.03it/s] 15%|█▍        | 1572/10682 [23:03<1:14:59,  2.02it/s] 15%|█▍        | 1573/10682 [23:04<1:14:57,  2.03it/s] 15%|█▍        | 1574/10682 [23:04<1:15:05,  2.02it/s] 15%|█▍        | 1575/10682 [23:05<1:15:02,  2.02it/s]                                                      {'loss': 4.1442, 'grad_norm': 0.27838432788848877, 'learning_rate': 0.0009931792360859792, 'epoch': 0.15}
+ 15%|█▍        | 1575/10682 [23:05<1:15:02,  2.02it/s] 15%|█▍        | 1576/10682 [23:05<1:15:12,  2.02it/s] 15%|█▍        | 1577/10682 [23:06<1:15:11,  2.02it/s] 15%|█▍        | 1578/10682 [23:06<1:15:11,  2.02it/s] 15%|█▍        | 1579/10682 [23:07<1:15:02,  2.02it/s] 15%|█▍        | 1580/10682 [23:07<1:15:05,  2.02it/s] 15%|█▍        | 1581/10682 [23:08<1:14:59,  2.02it/s] 15%|█▍        | 1582/10682 [23:08<1:14:51,  2.03it/s] 15%|█▍        | 1583/10682 [23:09<1:14:51,  2.03it/s] 15%|█▍        | 1584/10682 [23:09<1:14:52,  2.03it/s] 15%|█▍        | 1585/10682 [23:10<1:14:49,  2.03it/s] 15%|█▍        | 1586/10682 [23:10<1:14:51,  2.02it/s] 15%|█▍        | 1587/10682 [23:11<1:14:47,  2.03it/s] 15%|█▍        | 1588/10682 [23:11<1:14:54,  2.02it/s] 15%|█▍        | 1589/10682 [23:12<1:14:55,  2.02it/s] 15%|█▍        | 1590/10682 [23:12<1:14:53,  2.02it/s] 15%|█▍        | 1591/10682 [23:13<1:14:55,  2.02it/s] 15%|█▍        | 1592/10682 [23:13<1:14:57,  2.02it/s] 15%|█▍        | 1593/10682 [23:14<1:14:53,  2.02it/s] 15%|█▍        | 1594/10682 [23:14<1:14:54,  2.02it/s] 15%|█▍        | 1595/10682 [23:15<1:14:50,  2.02it/s] 15%|█▍        | 1596/10682 [23:15<1:14:51,  2.02it/s] 15%|█▍        | 1597/10682 [23:16<1:14:49,  2.02it/s] 15%|█▍        | 1598/10682 [23:16<1:14:51,  2.02it/s] 15%|█▍        | 1599/10682 [23:17<1:14:48,  2.02it/s] 15%|█▍        | 1600/10682 [23:17<1:14:46,  2.02it/s]{'loss': 4.1361, 'grad_norm': 0.23862168192863464, 'learning_rate': 0.0009924903314399776, 'epoch': 0.15}
+                                                       15%|█▍        | 1600/10682 [23:17<1:14:46,  2.02it/s] 15%|█▍        | 1601/10682 [23:18<1:14:51,  2.02it/s] 15%|█▍        | 1602/10682 [23:18<1:14:45,  2.02it/s] 15%|█▌        | 1603/10682 [23:18<1:14:44,  2.02it/s] 15%|█▌        | 1604/10682 [23:19<1:14:46,  2.02it/s] 15%|█▌        | 1605/10682 [23:19<1:14:43,  2.02it/s] 15%|█▌        | 1606/10682 [23:20<1:14:45,  2.02it/s] 15%|█▌        | 1607/10682 [23:20<1:14:42,  2.02it/s] 15%|█▌        | 1608/10682 [23:21<1:14:43,  2.02it/s] 15%|█▌        | 1609/10682 [23:21<1:14:41,  2.02it/s] 15%|█▌        | 1610/10682 [23:22<1:14:44,  2.02it/s] 15%|█▌        | 1611/10682 [23:22<1:14:41,  2.02it/s] 15%|█▌        | 1612/10682 [23:23<1:14:43,  2.02it/s] 15%|█▌        | 1613/10682 [23:23<1:14:36,  2.03it/s] 15%|█▌        | 1614/10682 [23:24<1:14:41,  2.02it/s] 15%|█▌        | 1615/10682 [23:24<1:14:38,  2.02it/s] 15%|█▌        | 1616/10682 [23:25<1:14:37,  2.02it/s] 15%|█▌        | 1617/10682 [23:25<1:14:36,  2.02it/s] 15%|█▌        | 1618/10682 [23:26<1:14:30,  2.03it/s] 15%|█▌        | 1619/10682 [23:26<1:14:33,  2.03it/s] 15%|█▌        | 1620/10682 [23:27<1:14:34,  2.03it/s] 15%|█▌        | 1621/10682 [23:27<1:14:38,  2.02it/s] 15%|█▌        | 1622/10682 [23:28<1:14:32,  2.03it/s] 15%|█▌        | 1623/10682 [23:28<1:14:37,  2.02it/s] 15%|█▌        | 1624/10682 [23:29<1:14:32,  2.03it/s] 15%|█▌        | 1625/10682 [23:29<1:14:36,  2.02it/s]                                                      {'loss': 4.1281, 'grad_norm': 0.2294573187828064, 'learning_rate': 0.0009917685524442382, 'epoch': 0.15}
+ 15%|█▌        | 1625/10682 [23:29<1:14:36,  2.02it/s] 15%|█▌        | 1626/10682 [23:30<1:14:37,  2.02it/s] 15%|█▌        | 1627/10682 [23:30<1:14:42,  2.02it/s] 15%|█▌        | 1628/10682 [23:31<1:14:40,  2.02it/s] 15%|█▌        | 1629/10682 [23:31<1:14:40,  2.02it/s] 15%|█▌        | 1630/10682 [23:32<1:14:33,  2.02it/s] 15%|█▌        | 1631/10682 [23:32<1:14:33,  2.02it/s] 15%|█▌        | 1632/10682 [23:33<1:14:29,  2.03it/s] 15%|█▌        | 1633/10682 [23:33<1:14:26,  2.03it/s] 15%|█▌        | 1634/10682 [23:34<1:14:24,  2.03it/s] 15%|█▌        | 1635/10682 [23:34<1:14:19,  2.03it/s] 15%|█▌        | 1636/10682 [23:35<1:14:23,  2.03it/s] 15%|█▌        | 1637/10682 [23:35<1:14:23,  2.03it/s] 15%|█▌        | 1638/10682 [23:36<1:14:26,  2.03it/s] 15%|█▌        | 1639/10682 [23:36<1:14:23,  2.03it/s] 15%|█▌        | 1640/10682 [23:37<1:14:30,  2.02it/s] 15%|█▌        | 1641/10682 [23:37<1:14:31,  2.02it/s] 15%|█▌        | 1642/10682 [23:38<1:14:36,  2.02it/s] 15%|█▌        | 1643/10682 [23:38<1:14:28,  2.02it/s] 15%|█▌        | 1644/10682 [23:39<1:14:32,  2.02it/s] 15%|█▌        | 1645/10682 [23:39<1:14:26,  2.02it/s] 15%|���▌        | 1646/10682 [23:40<1:14:31,  2.02it/s] 15%|█▌        | 1647/10682 [23:40<1:14:28,  2.02it/s] 15%|█▌        | 1648/10682 [23:41<1:14:26,  2.02it/s] 15%|█▌        | 1649/10682 [23:41<1:14:24,  2.02it/s] 15%|█▌        | 1650/10682 [23:42<1:14:25,  2.02it/s]{'loss': 4.1194, 'grad_norm': 0.29977744817733765, 'learning_rate': 0.0009910139472784174, 'epoch': 0.15}                                                      
+ 15%|█▌        | 1650/10682 [23:42<1:14:25,  2.02it/s] 15%|█▌        | 1651/10682 [23:42<1:14:27,  2.02it/s] 15%|█▌        | 1652/10682 [23:43<1:14:21,  2.02it/s] 15%|█▌        | 1653/10682 [23:43<1:14:21,  2.02it/s] 15%|█▌        | 1654/10682 [23:44<1:14:13,  2.03it/s] 15%|█▌        | 1655/10682 [23:44<1:14:11,  2.03it/s] 16%|█▌        | 1656/10682 [23:45<1:14:14,  2.03it/s] 16%|█▌        | 1657/10682 [23:45<1:14:10,  2.03it/s] 16%|█▌        | 1658/10682 [23:46<1:14:19,  2.02it/s] 16%|█▌        | 1659/10682 [23:46<1:14:22,  2.02it/s] 16%|█▌        | 1660/10682 [23:47<1:14:24,  2.02it/s] 16%|█▌        | 1661/10682 [23:47<1:14:25,  2.02it/s] 16%|█▌        | 1662/10682 [23:48<1:14:26,  2.02it/s] 16%|█▌        | 1663/10682 [23:48<1:14:27,  2.02it/s] 16%|█▌        | 1664/10682 [23:49<1:14:28,  2.02it/s] 16%|█▌        | 1665/10682 [23:49<1:14:23,  2.02it/s] 16%|█▌        | 1666/10682 [23:50<1:14:20,  2.02it/s] 16%|█▌        | 1667/10682 [23:50<1:14:26,  2.02it/s] 16%|█▌        | 1668/10682 [23:51<1:14:24,  2.02it/s] 16%|█▌        | 1669/10682 [23:51<1:14:14,  2.02it/s] 16%|█▌        | 1670/10682 [23:52<1:14:14,  2.02it/s] 16%|█▌        | 1671/10682 [23:52<1:14:09,  2.03it/s] 16%|█▌        | 1672/10682 [23:53<1:14:04,  2.03it/s] 16%|█▌        | 1673/10682 [23:53<1:14:04,  2.03it/s] 16%|█▌        | 1674/10682 [23:54<1:14:05,  2.03it/s] 16%|█▌        | 1675/10682 [23:54<1:14:10,  2.02it/s]                                                      {'loss': 4.1065, 'grad_norm': 0.24439358711242676, 'learning_rate': 0.0009902265663133602, 'epoch': 0.16}
+ 16%|█▌        | 1675/10682 [23:54<1:14:10,  2.02it/s] 16%|█▌        | 1676/10682 [23:55<1:14:22,  2.02it/s] 16%|█▌        | 1677/10682 [23:55<1:14:23,  2.02it/s] 16%|█▌        | 1678/10682 [23:56<1:14:26,  2.02it/s] 16%|█▌        | 1679/10682 [23:56<1:14:17,  2.02it/s] 16%|█▌        | 1680/10682 [23:57<1:14:17,  2.02it/s] 16%|█▌        | 1681/10682 [23:57<1:14:14,  2.02it/s] 16%|█▌        | 1682/10682 [23:58<1:14:15,  2.02it/s] 16%|█▌        | 1683/10682 [23:58<1:14:07,  2.02it/s] 16%|█▌        | 1684/10682 [23:59<1:14:00,  2.03it/s] 16%|█▌        | 1685/10682 [23:59<1:14:04,  2.02it/s] 16%|█▌        | 1686/10682 [24:00<1:13:58,  2.03it/s] 16%|█▌        | 1687/10682 [24:00<1:14:02,  2.02it/s] 16%|█▌        | 1688/10682 [24:00<1:14:00,  2.03it/s] 16%|█▌        | 1689/10682 [24:01<1:13:57,  2.03it/s] 16%|█▌        | 1690/10682 [24:01<1:13:56,  2.03it/s] 16%|█▌        | 1691/10682 [24:02<1:13:51,  2.03it/s] 16%|█▌        | 1692/10682 [24:02<1:13:54,  2.03it/s] 16%|█▌        | 1693/10682 [24:03<1:13:54,  2.03it/s] 16%|█▌        | 1694/10682 [24:03<1:13:57,  2.03it/s] 16%|█▌        | 1695/10682 [24:04<1:13:58,  2.02it/s] 16%|█▌        | 1696/10682 [24:04<1:13:55,  2.03it/s] 16%|█▌        | 1697/10682 [24:05<1:13:58,  2.02it/s] 16%|█▌        | 1698/10682 [24:05<1:13:57,  2.02it/s] 16%|█▌        | 1699/10682 [24:06<1:13:58,  2.02it/s] 16%|█▌        | 1700/10682 [24:06<1:13:59,  2.02it/s]                                                      {'loss': 4.105, 'grad_norm': 0.2592258155345917, 'learning_rate': 0.0009894064621077375, 'epoch': 0.16}
+ 16%|█▌        | 1700/10682 [24:06<1:13:59,  2.02it/s] 16%|█▌        | 1701/10682 [24:07<1:14:05,  2.02it/s] 16%|█▌        | 1702/10682 [24:07<1:14:03,  2.02it/s] 16%|█▌        | 1703/10682 [24:08<1:14:03,  2.02it/s] 16%|█▌        | 1704/10682 [24:08<1:13:58,  2.02it/s] 16%|█▌        | 1705/10682 [24:09<1:13:59,  2.02it/s] 16%|█▌        | 1706/10682 [24:09<1:13:54,  2.02it/s] 16%|█▌        | 1707/10682 [24:10<1:13:51,  2.03it/s] 16%|█▌        | 1708/10682 [24:10<1:13:48,  2.03it/s] 16%|█▌        | 1709/10682 [24:11<1:13:45,  2.03it/s] 16%|█▌        | 1710/10682 [24:11<1:13:47,  2.03it/s] 16%|█▌        | 1711/10682 [24:12<1:13:45,  2.03it/s] 16%|█▌        | 1712/10682 [24:12<1:13:47,  2.03it/s] 16%|█▌        | 1713/10682 [24:13<1:13:49,  2.02it/s] 16%|█▌        | 1714/10682 [24:13<1:13:51,  2.02it/s] 16%|█▌        | 1715/10682 [24:14<1:13:52,  2.02it/s] 16%|█▌        | 1716/10682 [24:14<1:13:53,  2.02it/s] 16%|█▌        | 1717/10682 [24:15<1:13:50,  2.02it/s] 16%|█▌        | 1718/10682 [24:15<1:13:52,  2.02it/s] 16%|█▌        | 1719/10682 [24:16<1:13:51,  2.02it/s] 16%|█▌        | 1720/10682 [24:16<1:13:47,  2.02it/s] 16%|█▌        | 1721/10682 [24:17<1:13:48,  2.02it/s] 16%|█▌        | 1722/10682 [24:17<1:13:46,  2.02it/s] 16%|█▌        | 1723/10682 [24:18<1:13:50,  2.02it/s] 16%|█▌        | 1724/10682 [24:18<1:13:49,  2.02it/s] 16%|█▌        | 1725/10682 [24:19<1:13:47,  2.02it/s]{'loss': 4.0975, 'grad_norm': 0.2237541377544403, 'learning_rate': 0.0009885536894045377, 'epoch': 0.16}                                                      
+ 16%|█▌        | 1725/10682 [24:19<1:13:47,  2.02it/s] 16%|█▌        | 1726/10682 [24:19<1:13:51,  2.02it/s] 16%|█▌        | 1727/10682 [24:20<1:13:46,  2.02it/s] 16%|█▌        | 1728/10682 [24:20<1:13:46,  2.02it/s] 16%|█▌        | 1729/10682 [24:21<1:13:44,  2.02it/s] 16%|█▌        | 1730/10682 [24:21<1:13:45,  2.02it/s] 16%|█▌        | 1731/10682 [24:22<1:13:46,  2.02it/s] 16%|█▌        | 1732/10682 [24:22<1:13:42,  2.02it/s] 16%|█▌        | 1733/10682 [24:23<1:13:53,  2.02it/s] 16%|█▌        | 1734/10682 [24:23<1:13:50,  2.02it/s] 16%|█▌        | 1735/10682 [24:24<1:13:48,  2.02it/s] 16%|█▋        | 1736/10682 [24:24<1:13:55,  2.02it/s] 16%|█▋        | 1737/10682 [24:25<1:13:50,  2.02it/s] 16%|█▋        | 1738/10682 [24:25<1:13:53,  2.02it/s] 16%|█▋        | 1739/10682 [24:26<1:13:45,  2.02it/s] 16%|█▋        | 1740/10682 [24:26<1:13:44,  2.02it/s] 16%|█▋        | 1741/10682 [24:27<1:13:37,  2.02it/s] 16%|█▋        | 1742/10682 [24:27<1:13:39,  2.02it/s] 16%|█▋        | 1743/10682 [24:28<1:13:37,  2.02it/s] 16%|█▋        | 1744/10682 [24:28<1:13:29,  2.03it/s] 16%|█▋        | 1745/10682 [24:29<1:13:36,  2.02it/s] 16%|█▋        | 1746/10682 [24:29<1:13:33,  2.02it/s] 16%|█▋        | 1747/10682 [24:30<1:13:33,  2.02it/s] 16%|█▋        | 1748/10682 [24:30<1:13:41,  2.02it/s] 16%|█▋        | 1749/10682 [24:31<1:13:52,  2.02it/s] 16%|█▋        | 1750/10682 [24:31<1:13:57,  2.01it/s]                                                      {'loss': 4.0806, 'grad_norm': 0.23648607730865479, 'learning_rate': 0.0009876683051274124, 'epoch': 0.16}
+ 16%|█▋        | 1750/10682 [24:31<1:13:57,  2.01it/s] 16%|█▋        | 1751/10682 [24:32<1:13:56,  2.01it/s] 16%|█▋        | 1752/10682 [24:32<1:13:59,  2.01it/s] 16%|█▋        | 1753/10682 [24:33<1:14:03,  2.01it/s] 16%|█▋        | 1754/10682 [24:33<1:13:54,  2.01it/s] 16%|█▋        | 1755/10682 [24:34<1:13:47,  2.02it/s] 16%|█▋        | 1756/10682 [24:34<1:13:41,  2.02it/s] 16%|█▋        | 1757/10682 [24:35<1:13:36,  2.02it/s] 16%|█▋        | 1758/10682 [24:35<1:13:35,  2.02it/s] 16%|█▋        | 1759/10682 [24:36<1:13:28,  2.02it/s] 16%|█▋        | 1760/10682 [24:36<1:13:29,  2.02it/s] 16%|█▋        | 1761/10682 [24:37<1:13:25,  2.02it/s] 16%|█▋        | 1762/10682 [24:37<1:26:02,  1.73it/s] 17%|█▋        | 1763/10682 [24:38<1:22:15,  1.81it/s] 17%|█▋        | 1764/10682 [24:38<1:19:38,  1.87it/s] 17%|█▋        | 1765/10682 [24:39<1:17:46,  1.91it/s] 17%|█▋        | 1766/10682 [24:39<1:16:38,  1.94it/s] 17%|█▋        | 1767/10682 [24:40<1:15:42,  1.96it/s] 17%|█▋        | 1768/10682 [24:40<1:15:04,  1.98it/s] 17%|█▋        | 1769/10682 [24:41<1:26:56,  1.71it/s] 17%|█▋        | 1770/10682 [24:42<1:23:08,  1.79it/s] 17%|█▋        | 1771/10682 [24:42<1:20:09,  1.85it/s] 17%|█▋        | 1772/10682 [24:43<1:18:07,  1.90it/s] 17%|█▋        | 1773/10682 [24:43<1:16:37,  1.94it/s] 17%|█▋        | 1774/10682 [24:44<1:15:40,  1.96it/s] 17%|█▋        | 1775/10682 [24:44<1:14:53,  1.98it/s]{'loss': 4.0813, 'grad_norm': 0.2644362151622772, 'learning_rate': 0.0009867503683768772, 'epoch': 0.17}
+                                                       17%|█▋        | 1775/10682 [24:44<1:14:53,  1.98it/s] 17%|█▋        | 1776/10682 [24:45<1:14:32,  1.99it/s] 17%|█▋        | 1777/10682 [24:45<1:14:13,  2.00it/s] 17%|█▋        | 1778/10682 [24:46<1:14:00,  2.01it/s] 17%|█▋        | 1779/10682 [24:46<1:13:43,  2.01it/s] 17%|█▋        | 1780/10682 [24:47<1:13:54,  2.01it/s] 17%|█▋        | 1781/10682 [24:47<1:13:34,  2.02it/s] 17%|█▋        | 1782/10682 [24:48<1:13:34,  2.02it/s] 17%|█▋        | 1783/10682 [24:48<1:13:28,  2.02it/s] 17%|█▋        | 1784/10682 [24:49<1:13:42,  2.01it/s] 17%|█▋        | 1785/10682 [24:49<1:13:28,  2.02it/s] 17%|█▋        | 1786/10682 [24:50<1:13:26,  2.02it/s] 17%|█▋        | 1787/10682 [24:50<1:13:21,  2.02it/s] 17%|█▋        | 1788/10682 [24:51<1:13:14,  2.02it/s] 17%|█▋        | 1789/10682 [24:51<1:13:12,  2.02it/s] 17%|█▋        | 1790/10682 [24:52<1:13:11,  2.02it/s] 17%|█▋        | 1791/10682 [24:52<1:13:11,  2.02it/s] 17%|█▋        | 1792/10682 [24:52<1:13:05,  2.03it/s] 17%|█▋        | 1793/10682 [24:53<1:13:03,  2.03it/s] 17%|█▋        | 1794/10682 [24:53<1:13:07,  2.03it/s] 17%|█▋        | 1795/10682 [24:54<1:13:10,  2.02it/s] 17%|█▋        | 1796/10682 [24:54<1:13:10,  2.02it/s] 17%|█���        | 1797/10682 [24:55<1:13:11,  2.02it/s] 17%|█▋        | 1798/10682 [24:55<1:13:08,  2.02it/s] 17%|█▋        | 1799/10682 [24:56<1:13:10,  2.02it/s] 17%|█▋        | 1800/10682 [24:56<1:13:15,  2.02it/s]{'loss': 4.0769, 'grad_norm': 0.2337448000907898, 'learning_rate': 0.0009857999404263656, 'epoch': 0.17}
+                                                       17%|█▋        | 1800/10682 [24:56<1:13:15,  2.02it/s] 17%|█▋        | 1801/10682 [24:57<1:13:27,  2.02it/s] 17%|█▋        | 1802/10682 [24:57<1:13:14,  2.02it/s] 17%|█▋        | 1803/10682 [24:58<1:13:05,  2.02it/s] 17%|█▋        | 1804/10682 [24:58<1:13:07,  2.02it/s] 17%|█▋        | 1805/10682 [24:59<1:13:01,  2.03it/s] 17%|█▋        | 1806/10682 [24:59<1:12:59,  2.03it/s] 17%|█▋        | 1807/10682 [25:00<1:12:58,  2.03it/s] 17%|█▋        | 1808/10682 [25:00<1:12:51,  2.03it/s] 17%|█▋        | 1809/10682 [25:01<1:12:53,  2.03it/s] 17%|█▋        | 1810/10682 [25:01<1:13:00,  2.03it/s] 17%|█▋        | 1811/10682 [25:02<1:13:04,  2.02it/s] 17%|█▋        | 1812/10682 [25:02<1:13:00,  2.02it/s] 17%|█▋        | 1813/10682 [25:03<1:13:07,  2.02it/s] 17%|█▋        | 1814/10682 [25:03<1:13:02,  2.02it/s] 17%|█▋        | 1815/10682 [25:04<1:13:07,  2.02it/s] 17%|█▋        | 1816/10682 [25:04<1:13:03,  2.02it/s] 17%|█▋        | 1817/10682 [25:05<1:13:04,  2.02it/s] 17%|█▋        | 1818/10682 [25:05<1:13:05,  2.02it/s] 17%|█▋        | 1819/10682 [25:06<1:13:00,  2.02it/s] 17%|█▋        | 1820/10682 [25:06<1:13:00,  2.02it/s] 17%|█▋        | 1821/10682 [25:07<1:12:58,  2.02it/s] 17%|█▋        | 1822/10682 [25:07<1:12:53,  2.03it/s] 17%|█▋        | 1823/10682 [25:08<1:12:53,  2.03it/s] 17%|█▋        | 1824/10682 [25:08<1:13:00,  2.02it/s] 17%|█▋        | 1825/10682 [25:09<1:13:08,  2.02it/s]                                                      {'loss': 4.0583, 'grad_norm': 0.24888846278190613, 'learning_rate': 0.0009848170847181403, 'epoch': 0.17}
+ 17%|█▋        | 1825/10682 [25:09<1:13:08,  2.02it/s] 17%|█▋        | 1826/10682 [25:09<1:13:07,  2.02it/s] 17%|█▋        | 1827/10682 [25:10<1:13:07,  2.02it/s] 17%|█▋        | 1828/10682 [25:10<1:13:01,  2.02it/s] 17%|█▋        | 1829/10682 [25:11<1:12:54,  2.02it/s] 17%|█▋        | 1830/10682 [25:11<1:12:54,  2.02it/s] 17%|█▋        | 1831/10682 [25:12<1:12:52,  2.02it/s] 17%|█▋        | 1832/10682 [25:12<1:12:58,  2.02it/s] 17%|█▋        | 1833/10682 [25:13<1:12:53,  2.02it/s] 17%|█▋        | 1834/10682 [25:13<1:12:53,  2.02it/s] 17%|█▋        | 1835/10682 [25:14<1:12:52,  2.02it/s] 17%|█▋        | 1836/10682 [25:14<1:12:48,  2.02it/s] 17%|█▋        | 1837/10682 [25:15<1:12:44,  2.03it/s] 17%|█▋        | 1838/10682 [25:15<1:12:54,  2.02it/s] 17%|█▋        | 1839/10682 [25:16<1:12:53,  2.02it/s] 17%|█▋        | 1840/10682 [25:16<1:12:44,  2.03it/s] 17%|█▋        | 1841/10682 [25:17<1:12:46,  2.02it/s] 17%|█▋        | 1842/10682 [25:17<1:12:40,  2.03it/s] 17%|█▋        | 1843/10682 [25:18<1:12:42,  2.03it/s] 17%|█▋        | 1844/10682 [25:18<1:12:47,  2.02it/s] 17%|█▋        | 1845/10682 [25:19<1:12:44,  2.02it/s] 17%|█▋        | 1846/10682 [25:19<1:12:45,  2.02it/s] 17%|█▋        | 1847/10682 [25:20<1:12:40,  2.03it/s] 17%|█▋        | 1848/10682 [25:20<1:12:45,  2.02it/s] 17%|█▋        | 1849/10682 [25:21<1:12:36,  2.03it/s] 17%|█▋        | 1850/10682 [25:21<1:12:36,  2.03it/s]                                                      {'loss': 4.0542, 'grad_norm': 0.23744124174118042, 'learning_rate': 0.0009838018668590573, 'epoch': 0.17}
+ 17%|█▋        | 1850/10682 [25:21<1:12:36,  2.03it/s] 17%|█▋        | 1851/10682 [25:22<1:12:42,  2.02it/s] 17%|█▋        | 1852/10682 [25:22<1:12:45,  2.02it/s] 17%|█▋        | 1853/10682 [25:23<1:12:43,  2.02it/s] 17%|█▋        | 1854/10682 [25:23<1:12:37,  2.03it/s] 17%|█▋        | 1855/10682 [25:24<1:12:49,  2.02it/s] 17%|█▋        | 1856/10682 [25:24<1:12:44,  2.02it/s] 17%|█▋        | 1857/10682 [25:25<1:12:42,  2.02it/s] 17%|█▋        | 1858/10682 [25:25<1:12:51,  2.02it/s] 17%|█▋        | 1859/10682 [25:26<1:12:47,  2.02it/s] 17%|█▋        | 1860/10682 [25:26<1:12:46,  2.02it/s] 17%|█▋        | 1861/10682 [25:27<1:12:43,  2.02it/s] 17%|█▋        | 1862/10682 [25:27<1:12:44,  2.02it/s] 17%|█▋        | 1863/10682 [25:28<1:12:37,  2.02it/s] 17%|█▋        | 1864/10682 [25:28<1:12:37,  2.02it/s] 17%|█▋        | 1865/10682 [25:29<1:12:36,  2.02it/s] 17%|█▋        | 1866/10682 [25:29<1:12:31,  2.03it/s] 17%|█▋        | 1867/10682 [25:30<1:12:32,  2.03it/s] 17%|█▋        | 1868/10682 [25:30<1:12:31,  2.03it/s] 17%|█▋        | 1869/10682 [25:31<1:12:39,  2.02it/s] 18%|█▊        | 1870/10682 [25:31<1:12:40,  2.02it/s] 18%|█▊        | 1871/10682 [25:32<1:12:35,  2.02it/s] 18%|█▊        | 1872/10682 [25:32<1:12:32,  2.02it/s] 18%|█▊        | 1873/10682 [25:33<1:12:30,  2.02it/s] 18%|█▊        | 1874/10682 [25:33<1:12:29,  2.02it/s] 18%|█▊        | 1875/10682 [25:34<1:12:28,  2.03it/s]{'loss': 4.0542, 'grad_norm': 0.2470816969871521, 'learning_rate': 0.000982754354616187, 'epoch': 0.18}
+                                                       18%|█▊        | 1875/10682 [25:34<1:12:28,  2.03it/s] 18%|█▊        | 1876/10682 [25:34<1:12:30,  2.02it/s] 18%|█▊        | 1877/10682 [25:34<1:12:28,  2.02it/s] 18%|█▊        | 1878/10682 [25:35<1:12:30,  2.02it/s] 18%|█▊        | 1879/10682 [25:35<1:12:31,  2.02it/s] 18%|█▊        | 1880/10682 [25:36<1:12:29,  2.02it/s] 18%|█▊        | 1881/10682 [25:36<1:12:33,  2.02it/s] 18%|█▊        | 1882/10682 [25:37<1:12:31,  2.02it/s] 18%|█▊        | 1883/10682 [25:37<1:12:38,  2.02it/s] 18%|█▊        | 1884/10682 [25:38<1:12:33,  2.02it/s] 18%|█▊        | 1885/10682 [25:38<1:12:27,  2.02it/s] 18%|█▊        | 1886/10682 [25:39<1:12:28,  2.02it/s] 18%|█▊        | 1887/10682 [25:39<1:12:24,  2.02it/s] 18%|█▊        | 1888/10682 [25:40<1:12:24,  2.02it/s] 18%|█▊        | 1889/10682 [25:40<1:12:16,  2.03it/s] 18%|█▊        | 1890/10682 [25:41<1:12:19,  2.03it/s] 18%|█▊        | 1891/10682 [25:41<1:12:14,  2.03it/s] 18%|█▊        | 1892/10682 [25:42<1:12:18,  2.03it/s] 18%|█▊        | 1893/10682 [25:42<1:12:15,  2.03it/s] 18%|█▊        | 1894/10682 [25:43<1:12:16,  2.03it/s] 18%|█▊        | 1895/10682 [25:43<1:12:19,  2.02it/s] 18%|█▊        | 1896/10682 [25:44<1:12:20,  2.02it/s] 18%|█▊        | 1897/10682 [25:44<1:12:27,  2.02it/s] 18%|█▊        | 1898/10682 [25:45<1:12:26,  2.02it/s] 18%|█▊        | 1899/10682 [25:45<1:12:31,  2.02it/s] 18%|█▊        | 1900/10682 [25:46<1:12:27,  2.02it/s]                                                      {'loss': 4.0497, 'grad_norm': 0.22908669710159302, 'learning_rate': 0.0009816746179122904, 'epoch': 0.18}
+ 18%|█▊        | 1900/10682 [25:46<1:12:27,  2.02it/s] 18%|█▊        | 1901/10682 [25:46<1:12:28,  2.02it/s] 18%|█▊        | 1902/10682 [25:47<1:12:27,  2.02it/s] 18%|█▊        | 1903/10682 [25:47<1:12:22,  2.02it/s] 18%|█▊        | 1904/10682 [25:48<1:12:16,  2.02it/s] 18%|█▊        | 1905/10682 [25:48<1:12:13,  2.03it/s] 18%|█▊        | 1906/10682 [25:49<1:12:10,  2.03it/s] 18%|█▊        | 1907/10682 [25:49<1:12:09,  2.03it/s] 18%|█▊        | 1908/10682 [25:50<1:12:08,  2.03it/s] 18%|█▊        | 1909/10682 [25:50<1:12:07,  2.03it/s] 18%|█▊        | 1910/10682 [25:51<1:12:18,  2.02it/s] 18%|█▊        | 1911/10682 [25:51<1:12:12,  2.02it/s] 18%|█▊        | 1912/10682 [25:52<1:12:14,  2.02it/s] 18%|█▊        | 1913/10682 [25:52<1:12:16,  2.02it/s] 18%|█▊        | 1914/10682 [25:53<1:12:17,  2.02it/s] 18%|█▊        | 1915/10682 [25:53<1:12:12,  2.02it/s] 18%|█▊        | 1916/10682 [25:54<1:12:19,  2.02it/s] 18%|█▊        | 1917/10682 [25:54<1:12:12,  2.02it/s] 18%|█▊        | 1918/10682 [25:55<1:12:10,  2.02it/s] 18%|█▊        | 1919/10682 [25:55<1:12:06,  2.03it/s] 18%|█▊        | 1920/10682 [25:56<1:11:59,  2.03it/s] 18%|█▊        | 1921/10682 [25:56<1:12:01,  2.03it/s] 18%|█▊        | 1922/10682 [25:57<1:11:59,  2.03it/s] 18%|█▊        | 1923/10682 [25:57<1:12:07,  2.02it/s] 18%|█▊        | 1924/10682 [25:58<1:12:03,  2.03it/s] 18%|█▊        | 1925/10682 [25:58<1:12:26,  2.01it/s]                                                      {'loss': 4.0451, 'grad_norm': 0.25135472416877747, 'learning_rate': 0.0009805627288211524, 'epoch': 0.18}
+ 18%|█▊        | 1925/10682 [25:58<1:12:26,  2.01it/s] 18%|█▊        | 1926/10682 [25:59<1:12:30,  2.01it/s] 18%|█▊        | 1927/10682 [25:59<1:12:30,  2.01it/s] 18%|█▊        | 1928/10682 [26:00<1:12:29,  2.01it/s] 18%|█▊        | 1929/10682 [26:00<1:12:16,  2.02it/s] 18%|█▊        | 1930/10682 [26:01<1:12:12,  2.02it/s] 18%|█▊        | 1931/10682 [26:01<1:12:05,  2.02it/s] 18%|█▊        | 1932/10682 [26:02<1:12:00,  2.03it/s] 18%|█▊        | 1933/10682 [26:02<1:12:02,  2.02it/s] 18%|█▊        | 1934/10682 [26:03<1:11:55,  2.03it/s] 18%|█▊        | 1935/10682 [26:03<1:11:56,  2.03it/s] 18%|█▊        | 1936/10682 [26:04<1:11:56,  2.03it/s] 18%|█▊        | 1937/10682 [26:04<1:11:53,  2.03it/s] 18%|█▊        | 1938/10682 [26:05<1:12:00,  2.02it/s] 18%|█▊        | 1939/10682 [26:05<1:11:57,  2.02it/s] 18%|█▊        | 1940/10682 [26:06<1:12:13,  2.02it/s] 18%|█▊        | 1941/10682 [26:06<1:12:09,  2.02it/s] 18%|█▊        | 1942/10682 [26:07<1:12:08,  2.02it/s] 18%|█▊        | 1943/10682 [26:07<1:12:07,  2.02it/s] 18%|█▊        | 1944/10682 [26:08<1:12:13,  2.02it/s] 18%|█▊        | 1945/10682 [26:08<1:12:05,  2.02it/s] 18%|█▊        | 1946/10682 [26:09<1:12:00,  2.02it/s] 18%|█▊        | 1947/10682 [26:09<1:12:00,  2.02it/s] 18%|█▊        | 1948/10682 [26:10<1:12:01,  2.02it/s] 18%|█▊        | 1949/10682 [26:10<1:11:57,  2.02it/s] 18%|█▊        | 1950/10682 [26:11<1:11:58,  2.02it/s]                                                      {'loss': 4.036, 'grad_norm': 0.22280021011829376, 'learning_rate': 0.0009794187615627694, 'epoch': 0.18}
+ 18%|█▊        | 1950/10682 [26:11<1:11:58,  2.02it/s] 18%|█▊        | 1951/10682 [26:11<1:11:57,  2.02it/s] 18%|█▊        | 1952/10682 [26:12<1:11:54,  2.02it/s] 18%|█▊        | 1953/10682 [26:12<1:11:52,  2.02it/s] 18%|█▊        | 1954/10682 [26:13<1:11:51,  2.02it/s] 18%|█▊        | 1955/10682 [26:13<1:11:58,  2.02it/s] 18%|█▊        | 1956/10682 [26:14<1:11:50,  2.02it/s] 18%|█▊        | 1957/10682 [26:14<1:11:56,  2.02it/s] 18%|█▊        | 1958/10682 [26:15<1:12:06,  2.02it/s] 18%|█▊        | 1959/10682 [26:15<1:12:06,  2.02it/s] 18%|█▊        | 1960/10682 [26:16<1:12:09,  2.01it/s] 18%|█▊        | 1961/10682 [26:16<1:11:56,  2.02it/s] 18%|█▊        | 1962/10682 [26:17<1:11:56,  2.02it/s] 18%|█▊        | 1963/10682 [26:17<1:11:49,  2.02it/s] 18%|█▊        | 1964/10682 [26:18<1:11:53,  2.02it/s] 18%|█▊        | 1965/10682 [26:18<1:11:49,  2.02it/s] 18%|█▊        | 1966/10682 [26:19<1:11:44,  2.02it/s] 18%|█▊        | 1967/10682 [26:19<1:11:41,  2.03it/s] 18%|█▊        | 1968/10682 [26:19<1:11:34,  2.03it/s] 18%|█▊        | 1969/10682 [26:20<1:11:43,  2.02it/s] 18%|█▊        | 1970/10682 [26:20<1:11:50,  2.02it/s] 18%|█▊        | 1971/10682 [26:21<1:11:46,  2.02it/s] 18%|█▊        | 1972/10682 [26:21<1:11:49,  2.02it/s] 18%|█▊        | 1973/10682 [26:22<1:11:48,  2.02it/s] 18%|█▊        | 1974/10682 [26:22<1:11:46,  2.02it/s] 18%|█▊        | 1975/10682 [26:23<1:11:46,  2.02it/s]                                                      {'loss': 4.0344, 'grad_norm': 0.22722424566745758, 'learning_rate': 0.0009782427924983968, 'epoch': 0.18}
+ 18%|█▊        | 1975/10682 [26:23<1:11:46,  2.02it/s] 18%|█▊        | 1976/10682 [26:23<1:11:57,  2.02it/s] 19%|█▊        | 1977/10682 [26:24<1:11:55,  2.02it/s] 19%|█▊        | 1978/10682 [26:24<1:11:51,  2.02it/s] 19%|█▊        | 1979/10682 [26:25<1:11:48,  2.02it/s] 19%|█▊        | 1980/10682 [26:25<1:11:41,  2.02it/s] 19%|█▊        | 1981/10682 [26:26<1:11:43,  2.02it/s] 19%|█▊        | 1982/10682 [26:26<1:11:38,  2.02it/s] 19%|█▊        | 1983/10682 [26:27<1:11:35,  2.03it/s] 19%|█▊        | 1984/10682 [26:27<1:11:39,  2.02it/s] 19%|█▊        | 1985/10682 [26:28<1:11:31,  2.03it/s] 19%|█▊        | 1986/10682 [26:28<1:11:36,  2.02it/s] 19%|█▊        | 1987/10682 [26:29<1:11:29,  2.03it/s] 19%|█▊        | 1988/10682 [26:29<1:11:27,  2.03it/s] 19%|█▊        | 1989/10682 [26:30<1:11:32,  2.02it/s] 19%|█▊        | 1990/10682 [26:30<1:11:27,  2.03it/s] 19%|█▊        | 1991/10682 [26:31<1:11:32,  2.02it/s] 19%|█▊        | 1992/10682 [26:31<1:11:34,  2.02it/s] 19%|█▊        | 1993/10682 [26:32<1:11:35,  2.02it/s] 19%|█▊        | 1994/10682 [26:32<1:11:37,  2.02it/s] 19%|█▊        | 1995/10682 [26:33<1:11:35,  2.02it/s] 19%|█▊        | 1996/10682 [26:33<1:11:37,  2.02it/s] 19%|█▊        | 1997/10682 [26:34<1:11:33,  2.02it/s] 19%|█▊        | 1998/10682 [26:34<1:11:43,  2.02it/s] 19%|█▊        | 1999/10682 [26:35<1:11:45,  2.02it/s] 19%|█▊        | 2000/10682 [26:35<1:11:38,  2.02it/s]{'loss': 4.0321, 'grad_norm': 0.2304065078496933, 'learning_rate': 0.00097703490012545, 'epoch': 0.19}                                                      
+ 19%|█▊        | 2000/10682 [26:35<1:11:38,  2.02it/s] 19%|█▊        | 2001/10682 [26:36<1:11:37,  2.02it/s] 19%|█▊        | 2002/10682 [26:36<1:11:42,  2.02it/s] 19%|█▉        | 2003/10682 [26:37<1:11:37,  2.02it/s] 19%|█▉        | 2004/10682 [26:37<1:11:34,  2.02it/s] 19%|█▉        | 2005/10682 [26:38<1:11:32,  2.02it/s] 19%|█▉        | 2006/10682 [26:38<1:11:33,  2.02it/s] 19%|█▉        | 2007/10682 [26:39<1:11:31,  2.02it/s] 19%|█▉        | 2008/10682 [26:39<1:11:34,  2.02it/s] 19%|█▉        | 2009/10682 [26:40<1:11:32,  2.02it/s] 19%|█▉        | 2010/10682 [26:40<1:11:33,  2.02it/s] 19%|█▉        | 2011/10682 [26:41<1:11:26,  2.02it/s] 19%|█▉        | 2012/10682 [26:41<1:11:27,  2.02it/s] 19%|█▉        | 2013/10682 [26:42<1:11:29,  2.02it/s] 19%|█▉        | 2014/10682 [26:42<1:11:35,  2.02it/s] 19%|█▉        | 2015/10682 [26:43<1:11:35,  2.02it/s] 19%|█▉        | 2016/10682 [26:43<1:11:38,  2.02it/s] 19%|█▉        | 2017/10682 [26:44<1:11:30,  2.02it/s] 19%|█▉        | 2018/10682 [26:44<1:11:28,  2.02it/s] 19%|█▉        | 2019/10682 [26:45<1:11:21,  2.02it/s] 19%|█▉        | 2020/10682 [26:45<1:11:21,  2.02it/s] 19%|█▉        | 2021/10682 [26:46<1:11:19,  2.02it/s] 19%|█▉        | 2022/10682 [26:46<1:11:20,  2.02it/s] 19%|█▉        | 2023/10682 [26:47<1:11:17,  2.02it/s] 19%|█▉        | 2024/10682 [26:47<1:11:18,  2.02it/s] 19%|█▉        | 2025/10682 [26:48<1:11:15,  2.02it/s]                                                      {'loss': 4.021, 'grad_norm': 0.2283782809972763, 'learning_rate': 0.0009757951650722661, 'epoch': 0.19}
+ 19%|█▉        | 2025/10682 [26:48<1:11:15,  2.02it/s] 19%|█▉        | 2026/10682 [26:48<1:11:24,  2.02it/s] 19%|█▉        | 2027/10682 [26:49<1:11:30,  2.02it/s] 19%|█▉        | 2028/10682 [26:49<1:11:27,  2.02it/s] 19%|█▉        | 2029/10682 [26:50<1:11:28,  2.02it/s] 19%|█▉        | 2030/10682 [26:50<1:11:22,  2.02it/s] 19%|█▉        | 2031/10682 [26:51<1:11:12,  2.02it/s] 19%|█▉        | 2032/10682 [26:51<1:11:18,  2.02it/s] 19%|█▉        | 2033/10682 [26:52<1:11:08,  2.03it/s] 19%|█▉        | 2034/10682 [26:52<1:11:06,  2.03it/s] 19%|█▉        | 2035/10682 [26:53<1:11:05,  2.03it/s] 19%|█▉        | 2036/10682 [26:53<1:11:05,  2.03it/s] 19%|█▉        | 2037/10682 [26:54<1:11:09,  2.02it/s] 19%|█▉        | 2038/10682 [26:54<1:11:05,  2.03it/s] 19%|█▉        | 2039/10682 [26:55<1:11:07,  2.03it/s] 19%|█▉        | 2040/10682 [26:55<1:11:12,  2.02it/s] 19%|█▉        | 2041/10682 [26:56<1:11:13,  2.02it/s] 19%|█▉        | 2042/10682 [26:56<1:11:14,  2.02it/s] 19%|█▉        | 2043/10682 [26:57<1:11:13,  2.02it/s] 19%|█▉        | 2044/10682 [26:57<1:11:18,  2.02it/s] 19%|█▉        | 2045/10682 [26:58<1:11:13,  2.02it/s] 19%|█▉        | 2046/10682 [26:58<1:11:08,  2.02it/s] 19%|█▉        | 2047/10682 [26:59<1:11:12,  2.02it/s] 19%|█▉        | 2048/10682 [26:59<1:11:02,  2.03it/s] 19%|█▉        | 2049/10682 [27:00<1:11:04,  2.02it/s] 19%|█▉        | 2050/10682 [27:00<1:11:00,  2.03it/s]{'loss': 4.01, 'grad_norm': 0.22524727880954742, 'learning_rate': 0.0009745236700927205, 'epoch': 0.19}                                                      
+ 19%|█▉        | 2050/10682 [27:00<1:11:00,  2.03it/s] 19%|█▉        | 2051/10682 [27:01<1:11:08,  2.02it/s] 19%|█▉        | 2052/10682 [27:01<1:11:03,  2.02it/s] 19%|█▉        | 2053/10682 [27:02<1:11:01,  2.02it/s] 19%|█▉        | 2054/10682 [27:02<1:11:03,  2.02it/s] 19%|█▉        | 2055/10682 [27:03<1:11:06,  2.02it/s] 19%|█▉        | 2056/10682 [27:03<1:11:12,  2.02it/s] 19%|█▉        | 2057/10682 [27:04<1:11:09,  2.02it/s] 19%|█▉        | 2058/10682 [27:04<1:11:12,  2.02it/s] 19%|█▉        | 2059/10682 [27:05<1:11:31,  2.01it/s] 19%|█▉        | 2060/10682 [27:05<1:11:21,  2.01it/s] 19%|█▉        | 2061/10682 [27:05<1:11:24,  2.01it/s] 19%|█▉        | 2062/10682 [27:06<1:11:16,  2.02it/s] 19%|█▉        | 2063/10682 [27:06<1:11:08,  2.02it/s] 19%|█▉        | 2064/10682 [27:07<1:11:06,  2.02it/s] 19%|█▉        | 2065/10682 [27:07<1:10:59,  2.02it/s] 19%|█▉        | 2066/10682 [27:08<1:10:56,  2.02it/s] 19%|█▉        | 2067/10682 [27:08<1:10:55,  2.02it/s] 19%|█▉        | 2068/10682 [27:09<1:10:52,  2.03it/s] 19%|█▉        | 2069/10682 [27:09<1:10:51,  2.03it/s] 19%|█▉        | 2070/10682 [27:10<1:10:49,  2.03it/s] 19%|█▉        | 2071/10682 [27:10<1:10:49,  2.03it/s] 19%|█▉        | 2072/10682 [27:11<1:11:03,  2.02it/s] 19%|█▉        | 2073/10682 [27:11<1:11:00,  2.02it/s] 19%|█▉        | 2074/10682 [27:12<1:11:01,  2.02it/s] 19%|█▉        | 2075/10682 [27:12<1:10:59,  2.02it/s]{'loss': 4.006, 'grad_norm': 0.24792686104774475, 'learning_rate': 0.0009732205000607044, 'epoch': 0.19}
+                                                       19%|█▉        | 2075/10682 [27:12<1:10:59,  2.02it/s] 19%|█▉        | 2076/10682 [27:13<1:11:23,  2.01it/s] 19%|█▉        | 2077/10682 [27:13<1:11:11,  2.01it/s] 19%|█▉        | 2078/10682 [27:14<1:11:08,  2.02it/s] 19%|█▉        | 2079/10682 [27:14<1:11:04,  2.02it/s] 19%|█▉        | 2080/10682 [27:15<1:11:01,  2.02it/s] 19%|█▉        | 2081/10682 [27:15<1:10:56,  2.02it/s] 19%|█▉        | 2082/10682 [27:16<1:10:56,  2.02it/s] 20%|█▉        | 2083/10682 [27:16<1:10:48,  2.02it/s] 20%|█▉        | 2084/10682 [27:17<1:10:46,  2.02it/s] 20%|█▉        | 2085/10682 [27:17<1:10:42,  2.03it/s] 20%|█▉        | 2086/10682 [27:18<1:10:38,  2.03it/s] 20%|█▉        | 2087/10682 [27:18<1:10:40,  2.03it/s] 20%|█▉        | 2088/10682 [27:19<1:10:36,  2.03it/s] 20%|█▉        | 2089/10682 [27:19<1:10:44,  2.02it/s] 20%|█▉        | 2090/10682 [27:20<1:10:44,  2.02it/s] 20%|█▉        | 2091/10682 [27:20<1:10:49,  2.02it/s] 20%|█▉        | 2092/10682 [27:21<1:10:45,  2.02it/s] 20%|█▉        | 2093/10682 [27:21<1:10:45,  2.02it/s] 20%|█▉        | 2094/10682 [27:22<1:10:36,  2.03it/s] 20%|█▉        | 2095/10682 [27:22<1:10:35,  2.03it/s] 20%|█▉        | 2096/10682 [27:23<1:10:39,  2.03it/s] 20%|█▉        | 2097/10682 [27:23<1:10:34,  2.03it/s] 20%|█▉        | 2098/10682 [27:24<1:10:37,  2.03it/s] 20%|█▉        | 2099/10682 [27:24<1:10:31,  2.03it/s] 20%|█▉        | 2100/10682 [27:25<1:10:34,  2.03it/s]                                                      {'loss': 3.9983, 'grad_norm': 0.23825807869434357, 'learning_rate': 0.000971885741964458, 'epoch': 0.2}
+ 20%|█▉        | 2100/10682 [27:25<1:10:34,  2.03it/s] 20%|█▉        | 2101/10682 [27:25<1:10:38,  2.02it/s] 20%|█▉        | 2102/10682 [27:26<1:10:37,  2.02it/s] 20%|█▉        | 2103/10682 [27:26<1:10:36,  2.03it/s] 20%|█▉        | 2104/10682 [27:27<1:10:31,  2.03it/s] 20%|█▉        | 2105/10682 [27:27<1:10:32,  2.03it/s] 20%|█▉        | 2106/10682 [27:28<1:10:33,  2.03it/s] 20%|█▉        | 2107/10682 [27:28<1:10:34,  2.02it/s] 20%|█▉        | 2108/10682 [27:29<1:10:36,  2.02it/s] 20%|█▉        | 2109/10682 [27:29<1:10:42,  2.02it/s] 20%|█▉        | 2110/10682 [27:30<1:10:40,  2.02it/s] 20%|█▉        | 2111/10682 [27:30<1:10:42,  2.02it/s] 20%|█▉        | 2112/10682 [27:31<1:10:38,  2.02it/s] 20%|█▉        | 2113/10682 [27:31<1:10:40,  2.02it/s] 20%|█▉        | 2114/10682 [27:32<1:10:37,  2.02it/s] 20%|█▉        | 2115/10682 [27:32<1:10:41,  2.02it/s] 20%|█▉        | 2116/10682 [27:33<1:10:37,  2.02it/s] 20%|█▉        | 2117/10682 [27:33<1:10:51,  2.01it/s] 20%|█▉        | 2118/10682 [27:34<1:10:51,  2.01it/s] 20%|█▉        | 2119/10682 [27:34<1:10:42,  2.02it/s] 20%|█▉        | 2120/10682 [27:35<1:10:35,  2.02it/s] 20%|█▉        | 2121/10682 [27:35<1:10:30,  2.02it/s] 20%|█▉        | 2122/10682 [27:36<1:10:24,  2.03it/s] 20%|█▉        | 2123/10682 [27:36<1:10:24,  2.03it/s] 20%|█▉        | 2124/10682 [27:37<1:10:22,  2.03it/s] 20%|█▉        | 2125/10682 [27:37<1:10:26,  2.02it/s]{'loss': 3.9984, 'grad_norm': 0.23186814785003662, 'learning_rate': 0.0009705194849007652, 'epoch': 0.2}
+                                                       20%|█▉        | 2125/10682 [27:37<1:10:26,  2.02it/s] 20%|█▉        | 2126/10682 [27:38<1:10:35,  2.02it/s] 20%|█▉        | 2127/10682 [27:38<1:10:34,  2.02it/s] 20%|█▉        | 2128/10682 [27:39<1:10:30,  2.02it/s] 20%|█▉        | 2129/10682 [27:39<1:10:28,  2.02it/s] 20%|█▉        | 2130/10682 [27:40<1:10:24,  2.02it/s] 20%|█▉        | 2131/10682 [27:40<1:10:25,  2.02it/s] 20%|█▉        | 2132/10682 [27:41<1:10:24,  2.02it/s] 20%|█▉        | 2133/10682 [27:41<1:10:37,  2.02it/s] 20%|█▉        | 2134/10682 [27:42<1:10:31,  2.02it/s] 20%|█▉        | 2135/10682 [27:42<1:10:27,  2.02it/s] 20%|█▉        | 2136/10682 [27:43<1:10:26,  2.02it/s] 20%|██        | 2137/10682 [27:43<1:10:20,  2.02it/s] 20%|██        | 2138/10682 [27:44<1:10:23,  2.02it/s] 20%|██        | 2139/10682 [27:44<1:10:14,  2.03it/s] 20%|██        | 2140/10682 [27:45<1:10:16,  2.03it/s] 20%|██        | 2141/10682 [27:45<1:10:14,  2.03it/s] 20%|██        | 2142/10682 [27:46<1:10:11,  2.03it/s] 20%|██        | 2143/10682 [27:46<1:10:11,  2.03it/s] 20%|██        | 2144/10682 [27:47<1:10:09,  2.03it/s] 20%|██        | 2145/10682 [27:47<1:10:15,  2.03it/s] 20%|██        | 2146/10682 [27:48<1:10:18,  2.02it/s] 20%|██        | 2147/10682 [27:48<1:10:30,  2.02it/s] 20%|██        | 2148/10682 [27:49<1:10:36,  2.01it/s] 20%|██        | 2149/10682 [27:49<1:10:28,  2.02it/s] 20%|██        | 2150/10682 [27:49<1:10:23,  2.02it/s]                                                      {'loss': 3.9916, 'grad_norm': 0.22821089625358582, 'learning_rate': 0.0009691218200690053, 'epoch': 0.2}
+ 20%|██        | 2150/10682 [27:49<1:10:23,  2.02it/s] 20%|██        | 2151/10682 [27:50<1:10:27,  2.02it/s] 20%|██        | 2152/10682 [27:50<1:10:21,  2.02it/s] 20%|██        | 2153/10682 [27:51<1:10:19,  2.02it/s] 20%|██        | 2154/10682 [27:51<1:10:13,  2.02it/s] 20%|██        | 2155/10682 [27:52<1:10:11,  2.02it/s] 20%|██        | 2156/10682 [27:52<1:10:10,  2.02it/s] 20%|██        | 2157/10682 [27:53<1:10:15,  2.02it/s] 20%|██        | 2158/10682 [27:53<1:10:13,  2.02it/s] 20%|██        | 2159/10682 [27:54<1:10:14,  2.02it/s] 20%|██        | 2160/10682 [27:54<1:10:10,  2.02it/s] 20%|██        | 2161/10682 [27:55<1:10:11,  2.02it/s] 20%|██        | 2162/10682 [27:55<1:10:07,  2.02it/s] 20%|██        | 2163/10682 [27:56<1:10:07,  2.02it/s] 20%|██        | 2164/10682 [27:56<1:10:04,  2.03it/s] 20%|██        | 2165/10682 [27:57<1:09:59,  2.03it/s] 20%|██        | 2166/10682 [27:57<1:10:00,  2.03it/s] 20%|██        | 2167/10682 [27:58<1:09:59,  2.03it/s] 20%|██        | 2168/10682 [27:58<1:09:59,  2.03it/s] 20%|██        | 2169/10682 [27:59<1:10:02,  2.03it/s] 20%|██        | 2170/10682 [27:59<1:10:00,  2.03it/s] 20%|██        | 2171/10682 [28:00<1:10:05,  2.02it/s] 20%|██        | 2172/10682 [28:00<1:10:06,  2.02it/s] 20%|██        | 2173/10682 [28:01<1:10:08,  2.02it/s] 20%|██        | 2174/10682 [28:01<1:10:06,  2.02it/s] 20%|██        | 2175/10682 [28:02<1:10:08,  2.02it/s]{'loss': 3.987, 'grad_norm': 0.23174560070037842, 'learning_rate': 0.0009676928407650656, 'epoch': 0.2}                                                      
+ 20%|██        | 2175/10682 [28:02<1:10:08,  2.02it/s] 20%|██        | 2176/10682 [28:02<1:10:12,  2.02it/s] 20%|██        | 2177/10682 [28:03<1:10:11,  2.02it/s] 20%|██        | 2178/10682 [28:03<1:09:58,  2.03it/s] 20%|██        | 2179/10682 [28:04<1:10:03,  2.02it/s] 20%|██        | 2180/10682 [28:04<1:09:58,  2.02it/s] 20%|██        | 2181/10682 [28:05<1:09:59,  2.02it/s] 20%|██        | 2182/10682 [28:05<1:09:53,  2.03it/s] 20%|██        | 2183/10682 [28:06<1:09:51,  2.03it/s] 20%|██        | 2184/10682 [28:06<1:09:53,  2.03it/s] 20%|██        | 2185/10682 [28:07<1:09:50,  2.03it/s] 20%|██        | 2186/10682 [28:07<1:09:51,  2.03it/s] 20%|██        | 2187/10682 [28:08<1:09:50,  2.03it/s] 20%|██        | 2188/10682 [28:08<1:10:01,  2.02it/s] 20%|██        | 2189/10682 [28:09<1:09:55,  2.02it/s] 21%|██        | 2190/10682 [28:09<1:10:05,  2.02it/s] 21%|██        | 2191/10682 [28:10<1:10:02,  2.02it/s] 21%|██        | 2192/10682 [28:10<1:10:05,  2.02it/s] 21%|██        | 2193/10682 [28:11<1:09:59,  2.02it/s] 21%|██        | 2194/10682 [28:11<1:09:58,  2.02it/s] 21%|██        | 2195/10682 [28:12<1:09:56,  2.02it/s] 21%|██        | 2196/10682 [28:12<1:09:56,  2.02it/s] 21%|██        | 2197/10682 [28:13<1:09:52,  2.02it/s] 21%|██        | 2198/10682 [28:13<1:09:46,  2.03it/s] 21%|██        | 2199/10682 [28:14<1:09:49,  2.03it/s] 21%|██        | 2200/10682 [28:14<1:09:41,  2.03it/s]                                                      {'loss': 3.9797, 'grad_norm': 0.22974920272827148, 'learning_rate': 0.0009662326423751136, 'epoch': 0.21}
+ 21%|██        | 2200/10682 [28:14<1:09:41,  2.03it/s] 21%|██        | 2201/10682 [28:15<1:10:00,  2.02it/s] 21%|██        | 2202/10682 [28:15<1:09:53,  2.02it/s] 21%|██        | 2203/10682 [28:16<1:09:59,  2.02it/s] 21%|██        | 2204/10682 [28:16<1:10:12,  2.01it/s] 21%|██        | 2205/10682 [28:17<1:10:07,  2.01it/s] 21%|██        | 2206/10682 [28:17<1:10:05,  2.02it/s] 21%|██        | 2207/10682 [28:18<1:10:01,  2.02it/s] 21%|██        | 2208/10682 [28:18<1:10:00,  2.02it/s] 21%|██        | 2209/10682 [28:19<1:09:55,  2.02it/s] 21%|██        | 2210/10682 [28:19<1:09:52,  2.02it/s] 21%|██        | 2211/10682 [28:20<1:09:55,  2.02it/s] 21%|██        | 2212/10682 [28:20<1:09:53,  2.02it/s] 21%|██        | 2213/10682 [28:21<1:09:48,  2.02it/s] 21%|██        | 2214/10682 [28:21<1:09:46,  2.02it/s] 21%|██        | 2215/10682 [28:22<1:09:44,  2.02it/s] 21%|██        | 2216/10682 [28:22<1:09:48,  2.02it/s] 21%|██        | 2217/10682 [28:23<1:09:43,  2.02it/s] 21%|██        | 2218/10682 [28:23<1:09:39,  2.02it/s] 21%|██        | 2219/10682 [28:24<1:09:38,  2.03it/s] 21%|██        | 2220/10682 [28:24<1:09:36,  2.03it/s] 21%|██        | 2221/10682 [28:25<1:09:34,  2.03it/s] 21%|██        | 2222/10682 [28:25<1:09:40,  2.02it/s] 21%|██        | 2223/10682 [28:26<1:09:39,  2.02it/s] 21%|██        | 2224/10682 [28:26<1:09:40,  2.02it/s] 21%|██        | 2225/10682 [28:27<1:09:34,  2.03it/s]{'loss': 3.9721, 'grad_norm': 0.2325943559408188, 'learning_rate': 0.000964741322369231, 'epoch': 0.21}                                                      
+ 21%|██        | 2225/10682 [28:27<1:09:34,  2.03it/s] 21%|██        | 2226/10682 [28:27<1:09:49,  2.02it/s] 21%|██        | 2227/10682 [28:28<1:09:44,  2.02it/s] 21%|██        | 2228/10682 [28:28<1:09:44,  2.02it/s] 21%|██        | 2229/10682 [28:29<1:09:40,  2.02it/s] 21%|██        | 2230/10682 [28:29<1:09:39,  2.02it/s] 21%|██        | 2231/10682 [28:30<1:09:31,  2.03it/s] 21%|██        | 2232/10682 [28:30<1:09:33,  2.02it/s] 21%|██        | 2233/10682 [28:31<1:09:29,  2.03it/s] 21%|██        | 2234/10682 [28:31<1:09:31,  2.03it/s] 21%|██        | 2235/10682 [28:32<1:09:28,  2.03it/s] 21%|██        | 2236/10682 [28:32<1:09:25,  2.03it/s] 21%|██        | 2237/10682 [28:32<1:09:31,  2.02it/s] 21%|██        | 2238/10682 [28:33<1:09:34,  2.02it/s] 21%|██        | 2239/10682 [28:33<1:09:34,  2.02it/s] 21%|██        | 2240/10682 [28:34<1:09:28,  2.03it/s] 21%|██        | 2241/10682 [28:34<1:09:32,  2.02it/s] 21%|██        | 2242/10682 [28:35<1:09:30,  2.02it/s] 21%|██        | 2243/10682 [28:35<1:09:28,  2.02it/s] 21%|██        | 2244/10682 [28:36<1:09:24,  2.03it/s] 21%|██        | 2245/10682 [28:36<1:09:21,  2.03it/s] 21%|██        | 2246/10682 [28:37<1:09:21,  2.03it/s] 21%|██        | 2247/10682 [28:37<1:09:20,  2.03it/s] 21%|██        | 2248/10682 [28:38<1:09:24,  2.03it/s] 21%|██        | 2249/10682 [28:38<1:09:15,  2.03it/s] 21%|██        | 2250/10682 [28:39<1:09:30,  2.02it/s]{'loss': 3.9784, 'grad_norm': 0.22690211236476898, 'learning_rate': 0.0009632189802949055, 'epoch': 0.21}                                                      
+ 21%|██        | 2250/10682 [28:39<1:09:30,  2.02it/s] 21%|██        | 2251/10682 [28:39<1:09:31,  2.02it/s] 21%|██        | 2252/10682 [28:40<1:09:31,  2.02it/s] 21%|██        | 2253/10682 [28:40<1:09:26,  2.02it/s] 21%|██        | 2254/10682 [28:41<1:09:29,  2.02it/s] 21%|██        | 2255/10682 [28:41<1:09:29,  2.02it/s] 21%|██        | 2256/10682 [28:42<1:09:25,  2.02it/s] 21%|██        | 2257/10682 [28:42<1:09:26,  2.02it/s] 21%|██        | 2258/10682 [28:43<1:09:21,  2.02it/s] 21%|██        | 2259/10682 [28:43<1:09:19,  2.03it/s] 21%|██        | 2260/10682 [28:44<1:09:18,  2.03it/s] 21%|██        | 2261/10682 [28:44<1:09:11,  2.03it/s] 21%|██        | 2262/10682 [28:45<1:09:14,  2.03it/s] 21%|██        | 2263/10682 [28:45<1:09:10,  2.03it/s] 21%|██        | 2264/10682 [28:46<1:09:15,  2.03it/s] 21%|██        | 2265/10682 [28:46<1:09:16,  2.02it/s] 21%|██        | 2266/10682 [28:47<1:09:12,  2.03it/s] 21%|██        | 2267/10682 [28:47<1:09:13,  2.03it/s] 21%|██        | 2268/10682 [28:48<1:09:11,  2.03it/s] 21%|██        | 2269/10682 [28:48<1:09:11,  2.03it/s] 21%|██▏       | 2270/10682 [28:49<1:09:15,  2.02it/s] 21%|██▏       | 2271/10682 [28:49<1:09:16,  2.02it/s] 21%|██▏       | 2272/10682 [28:50<1:09:21,  2.02it/s] 21%|██▏       | 2273/10682 [28:50<1:09:20,  2.02it/s] 21%|██▏       | 2274/10682 [28:51<1:09:15,  2.02it/s] 21%|██▏       | 2275/10682 [28:51<1:09:13,  2.02it/s]                                                      {'loss': 3.9739, 'grad_norm': 0.21651457250118256, 'learning_rate': 0.0009616657177703876, 'epoch': 0.21}
+ 21%|██▏       | 2275/10682 [28:51<1:09:13,  2.02it/s] 21%|██▏       | 2276/10682 [28:52<1:09:16,  2.02it/s] 21%|██▏       | 2277/10682 [28:52<1:09:16,  2.02it/s] 21%|██▏       | 2278/10682 [28:53<1:09:12,  2.02it/s] 21%|██▏       | 2279/10682 [28:53<1:09:16,  2.02it/s] 21%|██▏       | 2280/10682 [28:54<1:09:10,  2.02it/s] 21%|██▏       | 2281/10682 [28:54<1:09:09,  2.02it/s] 21%|██▏       | 2282/10682 [28:55<1:09:10,  2.02it/s] 21%|██▏       | 2283/10682 [28:55<1:09:13,  2.02it/s] 21%|██▏       | 2284/10682 [28:56<1:09:10,  2.02it/s] 21%|██▏       | 2285/10682 [28:56<1:09:12,  2.02it/s] 21%|██▏       | 2286/10682 [28:57<1:09:10,  2.02it/s] 21%|██▏       | 2287/10682 [28:57<1:09:13,  2.02it/s] 21%|██▏       | 2288/10682 [28:58<1:09:07,  2.02it/s] 21%|██▏       | 2289/10682 [28:58<1:09:19,  2.02it/s] 21%|██▏       | 2290/10682 [28:59<1:09:17,  2.02it/s] 21%|██▏       | 2291/10682 [28:59<1:09:23,  2.02it/s] 21%|██▏       | 2292/10682 [29:00<1:09:21,  2.02it/s] 21%|██▏       | 2293/10682 [29:00<1:09:16,  2.02it/s] 21%|██▏       | 2294/10682 [29:01<1:09:16,  2.02it/s] 21%|██▏       | 2295/10682 [29:01<1:09:10,  2.02it/s] 21%|██▏       | 2296/10682 [29:02<1:09:08,  2.02it/s] 22%|██▏       | 2297/10682 [29:02<1:09:02,  2.02it/s] 22%|██▏       | 2298/10682 [29:03<1:08:58,  2.03it/s] 22%|██▏       | 2299/10682 [29:03<1:08:59,  2.03it/s] 22%|██▏       | 2300/10682 [29:04<1:08:53,  2.03it/s]{'loss': 3.9651, 'grad_norm': 0.21474890410900116, 'learning_rate': 0.0009600816384779067, 'epoch': 0.22}
+                                                       22%|██▏       | 2300/10682 [29:04<1:08:53,  2.03it/s] 22%|██▏       | 2301/10682 [29:04<1:09:01,  2.02it/s] 22%|██▏       | 2302/10682 [29:05<1:09:03,  2.02it/s] 22%|██▏       | 2303/10682 [29:05<1:09:03,  2.02it/s] 22%|██▏       | 2304/10682 [29:06<1:09:04,  2.02it/s] 22%|██▏       | 2305/10682 [29:06<1:09:18,  2.01it/s] 22%|██▏       | 2306/10682 [29:07<1:09:23,  2.01it/s] 22%|██▏       | 2307/10682 [29:07<1:09:09,  2.02it/s] 22%|██▏       | 2308/10682 [29:08<1:09:04,  2.02it/s] 22%|██▏       | 2309/10682 [29:08<1:08:59,  2.02it/s] 22%|██▏       | 2310/10682 [29:09<1:08:55,  2.02it/s] 22%|██▏       | 2311/10682 [29:09<1:08:58,  2.02it/s] 22%|██▏       | 2312/10682 [29:10<1:08:58,  2.02it/s] 22%|██▏       | 2313/10682 [29:10<1:09:00,  2.02it/s] 22%|██▏       | 2314/10682 [29:11<1:09:04,  2.02it/s] 22%|██▏       | 2315/10682 [29:11<1:09:05,  2.02it/s] 22%|██▏       | 2316/10682 [29:12<1:09:06,  2.02it/s] 22%|██▏       | 2317/10682 [29:12<1:08:56,  2.02it/s] 22%|██▏       | 2318/10682 [29:13<1:08:55,  2.02it/s] 22%|██▏       | 2319/10682 [29:13<1:08:53,  2.02it/s] 22%|██▏       | 2320/10682 [29:14<1:08:53,  2.02it/s] 22%|██▏       | 2321/10682 [29:14<1:08:53,  2.02it/s] 22%|██▏       | 2322/10682 [29:15<1:08:58,  2.02it/s] 22%|██▏       | 2323/10682 [29:15<1:08:54,  2.02it/s] 22%|██▏       | 2324/10682 [29:16<1:08:54,  2.02it/s] 22%|██▏       | 2325/10682 [29:16<1:09:06,  2.02it/s]{'loss': 3.9542, 'grad_norm': 0.22843019664287567, 'learning_rate': 0.00095846684815675, 'epoch': 0.22}
+                                                       22%|██▏       | 2325/10682 [29:16<1:09:06,  2.02it/s] 22%|██▏       | 2326/10682 [29:17<1:09:05,  2.02it/s] 22%|██▏       | 2327/10682 [29:17<1:08:57,  2.02it/s] 22%|██▏       | 2328/10682 [29:17<1:08:54,  2.02it/s] 22%|██▏       | 2329/10682 [29:18<1:08:54,  2.02it/s] 22%|██▏       | 2330/10682 [29:18<1:08:57,  2.02it/s] 22%|██▏       | 2331/10682 [29:19<1:08:55,  2.02it/s] 22%|██▏       | 2332/10682 [29:19<1:08:48,  2.02it/s] 22%|██▏       | 2333/10682 [29:20<1:08:47,  2.02it/s] 22%|██▏       | 2334/10682 [29:20<1:08:48,  2.02it/s] 22%|██▏       | 2335/10682 [29:21<1:08:49,  2.02it/s] 22%|██▏       | 2336/10682 [29:21<1:08:47,  2.02it/s] 22%|██▏       | 2337/10682 [29:22<1:08:42,  2.02it/s] 22%|██▏       | 2338/10682 [29:22<1:08:40,  2.03it/s] 22%|██▏       | 2339/10682 [29:23<1:08:35,  2.03it/s] 22%|██▏       | 2340/10682 [29:23<1:08:38,  2.03it/s] 22%|██▏       | 2341/10682 [29:24<1:08:36,  2.03it/s] 22%|██▏       | 2342/10682 [29:24<1:08:37,  2.03it/s] 22%|██▏       | 2343/10682 [29:25<1:08:42,  2.02it/s] 22%|██▏       | 2344/10682 [29:25<1:08:48,  2.02it/s] 22%|██▏       | 2345/10682 [29:26<1:08:42,  2.02it/s] 22%|██▏       | 2346/10682 [29:26<1:08:42,  2.02it/s] 22%|██▏       | 2347/10682 [29:27<1:08:38,  2.02it/s] 22%|██▏       | 2348/10682 [29:27<1:08:37,  2.02it/s] 22%|██▏       | 2349/10682 [29:28<1:08:39,  2.02it/s] 22%|██▏       | 2350/10682 [29:28<1:08:42,  2.02it/s]{'loss': 3.9399, 'grad_norm': 0.21931542456150055, 'learning_rate': 0.0009568214545962046, 'epoch': 0.22}
+                                                       22%|██▏       | 2350/10682 [29:28<1:08:42,  2.02it/s] 22%|██▏       | 2351/10682 [29:29<1:08:43,  2.02it/s] 22%|██▏       | 2352/10682 [29:29<1:08:42,  2.02it/s] 22%|██▏       | 2353/10682 [29:30<1:08:37,  2.02it/s] 22%|██▏       | 2354/10682 [29:30<1:08:30,  2.03it/s] 22%|██▏       | 2355/10682 [29:31<1:08:34,  2.02it/s] 22%|██▏       | 2356/10682 [29:31<1:08:27,  2.03it/s] 22%|██▏       | 2357/10682 [29:32<1:08:26,  2.03it/s] 22%|██▏       | 2358/10682 [29:32<1:08:23,  2.03it/s] 22%|██▏       | 2359/10682 [29:33<1:08:27,  2.03it/s] 22%|██▏       | 2360/10682 [29:33<1:08:29,  2.03it/s] 22%|██▏       | 2361/10682 [29:34<1:08:38,  2.02it/s] 22%|██▏       | 2362/10682 [29:34<1:08:30,  2.02it/s] 22%|██▏       | 2363/10682 [29:35<1:08:31,  2.02it/s] 22%|██▏       | 2364/10682 [29:35<1:08:31,  2.02it/s] 22%|██▏       | 2365/10682 [29:36<1:08:31,  2.02it/s] 22%|██▏       | 2366/10682 [29:36<1:08:40,  2.02it/s] 22%|██▏       | 2367/10682 [29:37<1:08:36,  2.02it/s] 22%|██▏       | 2368/10682 [29:37<1:08:32,  2.02it/s] 22%|██▏       | 2369/10682 [29:38<1:08:29,  2.02it/s] 22%|██▏       | 2370/10682 [29:38<1:08:29,  2.02it/s] 22%|██▏       | 2371/10682 [29:39<1:08:29,  2.02it/s] 22%|██▏       | 2372/10682 [29:39<1:08:25,  2.02it/s] 22%|██▏       | 2373/10682 [29:40<1:08:21,  2.03it/s] 22%|██▏       | 2374/10682 [29:40<1:08:16,  2.03it/s] 22%|██▏       | 2375/10682 [29:41<1:08:19,  2.03it/s]                                                      {'loss': 3.9492, 'grad_norm': 0.2225293070077896, 'learning_rate': 0.0009551455676283627, 'epoch': 0.22}
+ 22%|██▏       | 2375/10682 [29:41<1:08:19,  2.03it/s] 22%|██▏       | 2376/10682 [29:41<1:08:39,  2.02it/s] 22%|██▏       | 2377/10682 [29:42<1:08:32,  2.02it/s] 22%|██▏       | 2378/10682 [29:42<1:08:31,  2.02it/s] 22%|██▏       | 2379/10682 [29:43<1:08:29,  2.02it/s] 22%|██▏       | 2380/10682 [29:43<1:08:29,  2.02it/s] 22%|██▏       | 2381/10682 [29:44<1:08:30,  2.02it/s] 22%|██▏       | 2382/10682 [29:44<1:08:28,  2.02it/s] 22%|██▏       | 2383/10682 [29:45<1:08:28,  2.02it/s] 22%|██▏       | 2384/10682 [29:45<1:08:26,  2.02it/s] 22%|██▏       | 2385/10682 [29:46<1:08:22,  2.02it/s] 22%|██▏       | 2386/10682 [29:46<1:08:22,  2.02it/s] 22%|██▏       | 2387/10682 [29:47<1:08:18,  2.02it/s] 22%|██▏       | 2388/10682 [29:47<1:08:13,  2.03it/s] 22%|██▏       | 2389/10682 [29:48<1:08:10,  2.03it/s] 22%|██▏       | 2390/10682 [29:48<1:08:10,  2.03it/s] 22%|██▏       | 2391/10682 [29:49<1:08:07,  2.03it/s] 22%|██▏       | 2392/10682 [29:49<1:08:17,  2.02it/s] 22%|██▏       | 2393/10682 [29:50<1:08:16,  2.02it/s] 22%|██▏       | 2394/10682 [29:50<1:08:21,  2.02it/s] 22%|██▏       | 2395/10682 [29:51<1:08:17,  2.02it/s] 22%|██▏       | 2396/10682 [29:51<1:08:23,  2.02it/s] 22%|██▏       | 2397/10682 [29:52<1:08:15,  2.02it/s] 22%|██▏       | 2398/10682 [29:52<1:08:11,  2.02it/s] 22%|██▏       | 2399/10682 [29:53<1:08:10,  2.02it/s] 22%|██▏       | 2400/10682 [29:53<1:08:07,  2.03it/s]                                                      {'loss': 3.9438, 'grad_norm': 0.22597463428974152, 'learning_rate': 0.0009534392991207893, 'epoch': 0.22}
+ 22%|██▏       | 2400/10682 [29:53<1:08:07,  2.03it/s] 22%|██▏       | 2401/10682 [29:54<1:08:11,  2.02it/s] 22%|██▏       | 2402/10682 [29:54<1:08:08,  2.02it/s] 22%|██▏       | 2403/10682 [29:55<1:08:14,  2.02it/s] 23%|██▎       | 2404/10682 [29:55<1:08:15,  2.02it/s] 23%|██▎       | 2405/10682 [29:56<1:08:14,  2.02it/s] 23%|██▎       | 2406/10682 [29:56<1:08:10,  2.02it/s] 23%|██▎       | 2407/10682 [29:57<1:08:08,  2.02it/s] 23%|██▎       | 2408/10682 [29:57<1:08:06,  2.02it/s] 23%|██▎       | 2409/10682 [29:58<1:08:08,  2.02it/s] 23%|██▎       | 2410/10682 [29:58<1:08:11,  2.02it/s] 23%|██▎       | 2411/10682 [29:59<1:08:14,  2.02it/s] 23%|██▎       | 2412/10682 [29:59<1:08:11,  2.02it/s] 23%|██▎       | 2413/10682 [30:00<1:08:09,  2.02it/s] 23%|██▎       | 2414/10682 [30:00<1:08:08,  2.02it/s] 23%|██▎       | 2415/10682 [30:00<1:08:11,  2.02it/s] 23%|██▎       | 2416/10682 [30:01<1:08:06,  2.02it/s] 23%|██▎       | 2417/10682 [30:01<1:08:06,  2.02it/s] 23%|██▎       | 2418/10682 [30:02<1:08:02,  2.02it/s] 23%|██▎       | 2419/10682 [30:02<1:08:00,  2.03it/s] 23%|██▎       | 2420/10682 [30:03<1:07:57,  2.03it/s] 23%|██▎       | 2421/10682 [30:03<1:07:52,  2.03it/s] 23%|██▎       | 2422/10682 [30:04<1:07:57,  2.03it/s] 23%|██▎       | 2423/10682 [30:04<1:08:01,  2.02it/s] 23%|██▎       | 2424/10682 [30:05<1:08:03,  2.02it/s] 23%|██▎       | 2425/10682 [30:05<1:07:58,  2.02it/s]                                                      {'loss': 3.9483, 'grad_norm': 0.21352504193782806, 'learning_rate': 0.0009517027629690559, 'epoch': 0.23}
+ 23%|██▎       | 2425/10682 [30:05<1:07:58,  2.02it/s] 23%|██▎       | 2426/10682 [30:06<1:08:08,  2.02it/s] 23%|██▎       | 2427/10682 [30:06<1:08:08,  2.02it/s] 23%|██▎       | 2428/10682 [30:07<1:08:04,  2.02it/s] 23%|██▎       | 2429/10682 [30:07<1:07:58,  2.02it/s] 23%|██▎       | 2430/10682 [30:08<1:07:57,  2.02it/s] 23%|██▎       | 2431/10682 [30:08<1:07:52,  2.03it/s] 23%|██▎       | 2432/10682 [30:09<1:07:57,  2.02it/s] 23%|██▎       | 2433/10682 [30:09<1:07:52,  2.03it/s] 23%|██▎       | 2434/10682 [30:10<1:07:58,  2.02it/s] 23%|██▎       | 2435/10682 [30:10<1:07:52,  2.02it/s] 23%|██▎       | 2436/10682 [30:11<1:07:54,  2.02it/s] 23%|██▎       | 2437/10682 [30:11<1:07:51,  2.03it/s] 23%|██▎       | 2438/10682 [30:12<1:07:52,  2.02it/s] 23%|██▎       | 2439/10682 [30:12<1:07:49,  2.03it/s] 23%|██▎       | 2440/10682 [30:13<1:07:52,  2.02it/s] 23%|██▎       | 2441/10682 [30:13<1:07:52,  2.02it/s] 23%|██▎       | 2442/10682 [30:14<1:07:54,  2.02it/s] 23%|██▎       | 2443/10682 [30:14<1:07:52,  2.02it/s] 23%|██▎       | 2444/10682 [30:15<1:07:52,  2.02it/s] 23%|██▎       | 2445/10682 [30:15<1:07:49,  2.02it/s] 23%|██▎       | 2446/10682 [30:16<1:07:46,  2.03it/s] 23%|██▎       | 2447/10682 [30:16<1:07:45,  2.03it/s] 23%|██▎       | 2448/10682 [30:17<1:07:40,  2.03it/s] 23%|██▎       | 2449/10682 [30:17<1:07:40,  2.03it/s] 23%|██▎       | 2450/10682 [30:18<1:07:38,  2.03it/s]{'loss': 3.9342, 'grad_norm': 0.21644867956638336, 'learning_rate': 0.0009499360750891371, 'epoch': 0.23}                                                      
+ 23%|██▎       | 2450/10682 [30:18<1:07:38,  2.03it/s] 23%|██▎       | 2451/10682 [30:18<1:08:03,  2.02it/s] 23%|██▎       | 2452/10682 [30:19<1:07:59,  2.02it/s] 23%|██▎       | 2453/10682 [30:19<1:07:54,  2.02it/s] 23%|██▎       | 2454/10682 [30:20<1:07:44,  2.02it/s] 23%|██▎       | 2455/10682 [30:20<1:07:46,  2.02it/s] 23%|██▎       | 2456/10682 [30:21<1:07:42,  2.02it/s] 23%|██▎       | 2457/10682 [30:21<1:07:49,  2.02it/s] 23%|██▎       | 2458/10682 [30:22<1:07:46,  2.02it/s] 23%|██▎       | 2459/10682 [30:22<1:07:50,  2.02it/s] 23%|██▎       | 2460/10682 [30:23<1:07:46,  2.02it/s] 23%|██▎       | 2461/10682 [30:23<1:07:46,  2.02it/s] 23%|██▎       | 2462/10682 [30:24<1:07:41,  2.02it/s] 23%|██▎       | 2463/10682 [30:24<1:07:43,  2.02it/s] 23%|██▎       | 2464/10682 [30:25<1:07:45,  2.02it/s] 23%|██▎       | 2465/10682 [30:25<1:07:58,  2.01it/s] 23%|██▎       | 2466/10682 [30:26<1:07:51,  2.02it/s] 23%|██▎       | 2467/10682 [30:26<1:07:46,  2.02it/s] 23%|██▎       | 2468/10682 [30:27<1:07:39,  2.02it/s] 23%|██▎       | 2469/10682 [30:27<1:07:33,  2.03it/s] 23%|██▎       | 2470/10682 [30:28<1:07:33,  2.03it/s] 23%|██▎       | 2471/10682 [30:28<1:07:29,  2.03it/s] 23%|██▎       | 2472/10682 [30:29<1:07:31,  2.03it/s] 23%|██▎       | 2473/10682 [30:29<1:07:33,  2.03it/s] 23%|██▎       | 2474/10682 [30:30<1:07:30,  2.03it/s] 23%|██▎       | 2475/10682 [30:30<1:07:35,  2.02it/s]{'loss': 3.935, 'grad_norm': 0.22047820687294006, 'learning_rate': 0.0009481393534096735, 'epoch': 0.23}
+                                                       23%|██▎       | 2475/10682 [30:30<1:07:35,  2.02it/s] 23%|██▎       | 2476/10682 [30:31<1:07:38,  2.02it/s] 23%|██▎       | 2477/10682 [30:31<1:18:24,  1.74it/s] 23%|██▎       | 2478/10682 [30:32<1:15:10,  1.82it/s] 23%|██▎       | 2479/10682 [30:32<1:12:54,  1.88it/s] 23%|██▎       | 2480/10682 [30:33<1:11:15,  1.92it/s] 23%|██▎       | 2481/10682 [30:33<1:10:16,  1.95it/s] 23%|██▎       | 2482/10682 [30:34<1:09:22,  1.97it/s] 23%|██▎       | 2483/10682 [30:34<1:09:00,  1.98it/s] 23%|██▎       | 2484/10682 [30:35<1:08:29,  2.00it/s] 23%|██▎       | 2485/10682 [30:35<1:08:13,  2.00it/s] 23%|██▎       | 2486/10682 [30:36<1:08:00,  2.01it/s] 23%|██▎       | 2487/10682 [30:36<1:07:54,  2.01it/s] 23%|██▎       | 2488/10682 [30:37<1:07:42,  2.02it/s] 23%|██▎       | 2489/10682 [30:38<1:18:28,  1.74it/s] 23%|██▎       | 2490/10682 [30:38<1:15:03,  1.82it/s] 23%|██▎       | 2491/10682 [30:39<1:12:43,  1.88it/s] 23%|██▎       | 2492/10682 [30:39<1:11:09,  1.92it/s] 23%|██▎       | 2493/10682 [30:40<1:10:10,  1.94it/s] 23%|██▎       | 2494/10682 [30:40<1:09:22,  1.97it/s] 23%|██▎       | 2495/10682 [30:41<1:08:48,  1.98it/s] 23%|██▎       | 2496/10682 [30:41<1:08:24,  1.99it/s] 23%|██▎       | 2497/10682 [30:42<1:08:07,  2.00it/s] 23%|██▎       | 2498/10682 [30:42<1:07:56,  2.01it/s] 23%|██▎       | 2499/10682 [30:43<1:07:43,  2.01it/s] 23%|██▎       | 2500/10682 [30:43<1:07:32,  2.02it/s]                                                      {'loss': 3.9319, 'grad_norm': 0.22187572717666626, 'learning_rate': 0.0009463127178640994, 'epoch': 0.23}
+ 23%|██▎       | 2500/10682 [30:43<1:07:32,  2.02it/s] 23%|██▎       | 2501/10682 [30:44<1:07:46,  2.01it/s] 23%|██▎       | 2502/10682 [30:44<1:07:33,  2.02it/s] 23%|██▎       | 2503/10682 [30:45<1:07:26,  2.02it/s] 23%|██▎       | 2504/10682 [30:45<1:07:22,  2.02it/s] 23%|██▎       | 2505/10682 [30:46<1:07:22,  2.02it/s] 23%|██▎       | 2506/10682 [30:46<1:07:23,  2.02it/s] 23%|██▎       | 2507/10682 [30:46<1:07:21,  2.02it/s] 23%|██▎       | 2508/10682 [30:47<1:07:20,  2.02it/s] 23%|██▎       | 2509/10682 [30:47<1:07:23,  2.02it/s] 23%|██▎       | 2510/10682 [30:48<1:07:27,  2.02it/s] 24%|██▎       | 2511/10682 [30:48<1:07:25,  2.02it/s] 24%|██▎       | 2512/10682 [30:49<1:07:23,  2.02it/s] 24%|██▎       | 2513/10682 [30:49<1:07:17,  2.02it/s] 24%|██▎       | 2514/10682 [30:50<1:07:20,  2.02it/s] 24%|██▎       | 2515/10682 [30:50<1:07:13,  2.03it/s] 24%|██▎       | 2516/10682 [30:51<1:07:13,  2.02it/s] 24%|██▎       | 2517/10682 [30:51<1:07:13,  2.02it/s] 24%|██▎       | 2518/10682 [30:52<1:07:12,  2.02it/s] 24%|██▎       | 2519/10682 [30:52<1:07:17,  2.02it/s] 24%|██▎       | 2520/10682 [30:53<1:07:13,  2.02it/s] 24%|██▎       | 2521/10682 [30:53<1:07:14,  2.02it/s] 24%|██▎       | 2522/10682 [30:54<1:07:08,  2.03it/s] 24%|██▎       | 2523/10682 [30:54<1:07:16,  2.02it/s] 24%|██▎       | 2524/10682 [30:55<1:07:15,  2.02it/s] 24%|██▎       | 2525/10682 [30:55<1:07:21,  2.02it/s]{'loss': 3.9328, 'grad_norm': 0.21020548045635223, 'learning_rate': 0.0009444562903826375, 'epoch': 0.24}                                                      
+ 24%|██▎       | 2525/10682 [30:55<1:07:21,  2.02it/s] 24%|██▎       | 2526/10682 [30:56<1:07:20,  2.02it/s] 24%|██▎       | 2527/10682 [30:56<1:07:19,  2.02it/s] 24%|██▎       | 2528/10682 [30:57<1:07:09,  2.02it/s] 24%|██▎       | 2529/10682 [30:57<1:07:05,  2.03it/s] 24%|██▎       | 2530/10682 [30:58<1:07:11,  2.02it/s] 24%|██▎       | 2531/10682 [30:58<1:07:05,  2.02it/s] 24%|██▎       | 2532/10682 [30:59<1:07:09,  2.02it/s] 24%|██▎       | 2533/10682 [30:59<1:07:05,  2.02it/s] 24%|██▎       | 2534/10682 [31:00<1:07:01,  2.03it/s] 24%|██▎       | 2535/10682 [31:00<1:07:05,  2.02it/s] 24%|██▎       | 2536/10682 [31:01<1:07:01,  2.03it/s] 24%|██▍       | 2537/10682 [31:01<1:07:02,  2.03it/s] 24%|██▍       | 2538/10682 [31:02<1:06:59,  2.03it/s] 24%|██▍       | 2539/10682 [31:02<1:06:52,  2.03it/s] 24%|██▍       | 2540/10682 [31:03<1:06:53,  2.03it/s] 24%|██▍       | 2541/10682 [31:03<1:06:53,  2.03it/s] 24%|██▍       | 2542/10682 [31:04<1:06:53,  2.03it/s] 24%|██▍       | 2543/10682 [31:04<1:06:53,  2.03it/s] 24%|██▍       | 2544/10682 [31:05<1:06:58,  2.03it/s] 24%|██▍       | 2545/10682 [31:05<1:07:01,  2.02it/s] 24%|██▍       | 2546/10682 [31:06<1:06:56,  2.03it/s] 24%|██▍       | 2547/10682 [31:06<1:07:04,  2.02it/s] 24%|██▍       | 2548/10682 [31:07<1:07:02,  2.02it/s] 24%|██▍       | 2549/10682 [31:07<1:07:03,  2.02it/s] 24%|██▍       | 2550/10682 [31:08<1:07:00,  2.02it/s]{'loss': 3.9208, 'grad_norm': 0.22360575199127197, 'learning_rate': 0.0009425701948841596, 'epoch': 0.24}                                                      
+ 24%|██▍       | 2550/10682 [31:08<1:07:00,  2.02it/s] 24%|██▍       | 2551/10682 [31:08<1:07:01,  2.02it/s] 24%|██▍       | 2552/10682 [31:09<1:06:55,  2.02it/s] 24%|██▍       | 2553/10682 [31:09<1:06:53,  2.03it/s] 24%|██▍       | 2554/10682 [31:10<1:06:54,  2.02it/s] 24%|██▍       | 2555/10682 [31:10<1:06:53,  2.03it/s] 24%|██▍       | 2556/10682 [31:11<1:06:50,  2.03it/s] 24%|██▍       | 2557/10682 [31:11<1:06:50,  2.03it/s] 24%|██▍       | 2558/10682 [31:12<1:06:50,  2.03it/s] 24%|██▍       | 2559/10682 [31:12<1:06:48,  2.03it/s] 24%|██▍       | 2560/10682 [31:13<1:06:55,  2.02it/s] 24%|██▍       | 2561/10682 [31:13<1:06:51,  2.02it/s] 24%|██▍       | 2562/10682 [31:14<1:06:52,  2.02it/s] 24%|██▍       | 2563/10682 [31:14<1:06:55,  2.02it/s] 24%|██▍       | 2564/10682 [31:15<1:06:52,  2.02it/s] 24%|██▍       | 2565/10682 [31:15<1:06:53,  2.02it/s] 24%|██▍       | 2566/10682 [31:16<1:06:50,  2.02it/s] 24%|██▍       | 2567/10682 [31:16<1:06:50,  2.02it/s] 24%|██▍       | 2568/10682 [31:17<1:06:50,  2.02it/s] 24%|██▍       | 2569/10682 [31:17<1:06:48,  2.02it/s] 24%|██▍       | 2570/10682 [31:18<1:06:44,  2.03it/s] 24%|██▍       | 2571/10682 [31:18<1:06:44,  2.03it/s] 24%|██▍       | 2572/10682 [31:19<1:06:38,  2.03it/s] 24%|██▍       | 2573/10682 [31:19<1:06:43,  2.03it/s] 24%|██▍       | 2574/10682 [31:20<1:06:41,  2.03it/s] 24%|██▍       | 2575/10682 [31:20<1:06:43,  2.02it/s]                                                      {'loss': 3.9206, 'grad_norm': 0.21757052838802338, 'learning_rate': 0.0009406545572679153, 'epoch': 0.24}
+ 24%|██▍       | 2575/10682 [31:20<1:06:43,  2.02it/s] 24%|██▍       | 2576/10682 [31:21<1:06:45,  2.02it/s] 24%|██▍       | 2577/10682 [31:21<1:06:43,  2.02it/s] 24%|██▍       | 2578/10682 [31:22<1:06:47,  2.02it/s] 24%|██▍       | 2579/10682 [31:22<1:06:45,  2.02it/s] 24%|██▍       | 2580/10682 [31:23<1:06:44,  2.02it/s] 24%|██▍       | 2581/10682 [31:23<1:06:37,  2.03it/s] 24%|██▍       | 2582/10682 [31:24<1:06:43,  2.02it/s] 24%|██▍       | 2583/10682 [31:24<1:06:37,  2.03it/s] 24%|██▍       | 2584/10682 [31:25<1:06:41,  2.02it/s] 24%|██▍       | 2585/10682 [31:25<1:06:36,  2.03it/s] 24%|██▍       | 2586/10682 [31:26<1:06:33,  2.03it/s] 24%|██▍       | 2587/10682 [31:26<1:06:31,  2.03it/s] 24%|██▍       | 2588/10682 [31:27<1:06:30,  2.03it/s] 24%|██▍       | 2589/10682 [31:27<1:06:31,  2.03it/s] 24%|██▍       | 2590/10682 [31:27<1:06:28,  2.03it/s] 24%|██▍       | 2591/10682 [31:28<1:06:32,  2.03it/s] 24%|██▍       | 2592/10682 [31:28<1:06:29,  2.03it/s] 24%|██▍       | 2593/10682 [31:29<1:06:29,  2.03it/s] 24%|██▍       | 2594/10682 [31:29<1:06:30,  2.03it/s] 24%|██▍       | 2595/10682 [31:30<1:06:32,  2.03it/s] 24%|██▍       | 2596/10682 [31:30<1:06:38,  2.02it/s] 24%|██▍       | 2597/10682 [31:31<1:06:43,  2.02it/s] 24%|██▍       | 2598/10682 [31:31<1:06:40,  2.02it/s] 24%|██▍       | 2599/10682 [31:32<1:06:40,  2.02it/s] 24%|██▍       | 2600/10682 [31:32<1:06:39,  2.02it/s]                                                      {'loss': 3.9144, 'grad_norm': 0.22559185326099396, 'learning_rate': 0.0009387095054051274, 'epoch': 0.24}
+ 24%|██▍       | 2600/10682 [31:32<1:06:39,  2.02it/s] 24%|██▍       | 2601/10682 [31:33<1:06:50,  2.02it/s] 24%|██▍       | 2602/10682 [31:33<1:06:40,  2.02it/s] 24%|██▍       | 2603/10682 [31:34<1:06:33,  2.02it/s] 24%|██▍       | 2604/10682 [31:34<1:06:29,  2.02it/s] 24%|██▍       | 2605/10682 [31:35<1:06:29,  2.02it/s] 24%|██▍       | 2606/10682 [31:35<1:06:30,  2.02it/s] 24%|██▍       | 2607/10682 [31:36<1:06:26,  2.03it/s] 24%|██▍       | 2608/10682 [31:36<1:06:30,  2.02it/s] 24%|██▍       | 2609/10682 [31:37<1:06:30,  2.02it/s] 24%|██▍       | 2610/10682 [31:37<1:06:33,  2.02it/s] 24%|██▍       | 2611/10682 [31:38<1:06:31,  2.02it/s] 24%|██▍       | 2612/10682 [31:38<1:06:27,  2.02it/s] 24%|██▍       | 2613/10682 [31:39<1:06:28,  2.02it/s] 24%|██▍       | 2614/10682 [31:39<1:06:28,  2.02it/s] 24%|██▍       | 2615/10682 [31:40<1:06:26,  2.02it/s] 24%|██▍       | 2616/10682 [31:40<1:06:24,  2.02it/s] 24%|██▍       | 2617/10682 [31:41<1:06:23,  2.02it/s] 25%|██▍       | 2618/10682 [31:41<1:06:22,  2.02it/s] 25%|██▍       | 2619/10682 [31:42<1:06:25,  2.02it/s] 25%|██▍       | 2620/10682 [31:42<1:06:24,  2.02it/s] 25%|██▍       | 2621/10682 [31:43<1:06:20,  2.02it/s] 25%|██▍       | 2622/10682 [31:43<1:06:21,  2.02it/s] 25%|██▍       | 2623/10682 [31:44<1:06:16,  2.03it/s] 25%|██▍       | 2624/10682 [31:44<1:06:17,  2.03it/s] 25%|██▍       | 2625/10682 [31:45<1:06:18,  2.02it/s]{'loss': 3.9155, 'grad_norm': 0.2181265652179718, 'learning_rate': 0.0009367351691304569, 'epoch': 0.25}                                                      
+ 25%|██▍       | 2625/10682 [31:45<1:06:18,  2.02it/s] 25%|██▍       | 2626/10682 [31:45<1:06:26,  2.02it/s] 25%|██▍       | 2627/10682 [31:46<1:06:27,  2.02it/s] 25%|██▍       | 2628/10682 [31:46<1:06:29,  2.02it/s] 25%|██▍       | 2629/10682 [31:47<1:06:23,  2.02it/s] 25%|██▍       | 2630/10682 [31:47<1:06:24,  2.02it/s] 25%|██▍       | 2631/10682 [31:48<1:06:21,  2.02it/s] 25%|██▍       | 2632/10682 [31:48<1:06:21,  2.02it/s] 25%|██▍       | 2633/10682 [31:49<1:06:15,  2.02it/s] 25%|██▍       | 2634/10682 [31:49<1:06:14,  2.03it/s] 25%|██▍       | 2635/10682 [31:50<1:06:15,  2.02it/s] 25%|██▍       | 2636/10682 [31:50<1:06:07,  2.03it/s] 25%|██▍       | 2637/10682 [31:51<1:06:10,  2.03it/s] 25%|██▍       | 2638/10682 [31:51<1:06:06,  2.03it/s] 25%|██▍       | 2639/10682 [31:52<1:06:04,  2.03it/s] 25%|██▍       | 2640/10682 [31:52<1:06:05,  2.03it/s] 25%|██▍       | 2641/10682 [31:53<1:06:03,  2.03it/s] 25%|██▍       | 2642/10682 [31:53<1:06:10,  2.02it/s] 25%|██▍       | 2643/10682 [31:54<1:06:08,  2.03it/s] 25%|██▍       | 2644/10682 [31:54<1:06:12,  2.02it/s] 25%|██▍       | 2645/10682 [31:55<1:06:10,  2.02it/s] 25%|██▍       | 2646/10682 [31:55<1:06:13,  2.02it/s] 25%|██▍       | 2647/10682 [31:56<1:06:06,  2.03it/s] 25%|██▍       | 2648/10682 [31:56<1:06:11,  2.02it/s] 25%|██▍       | 2649/10682 [31:57<1:06:10,  2.02it/s] 25%|██▍       | 2650/10682 [31:57<1:06:11,  2.02it/s]                                                      {'loss': 3.9063, 'grad_norm': 0.23357582092285156, 'learning_rate': 0.0009347316802333359, 'epoch': 0.25}
+ 25%|██▍       | 2650/10682 [31:57<1:06:11,  2.02it/s] 25%|██▍       | 2651/10682 [31:58<1:06:11,  2.02it/s] 25%|██▍       | 2652/10682 [31:58<1:06:11,  2.02it/s] 25%|██▍       | 2653/10682 [31:59<1:06:03,  2.03it/s] 25%|██▍       | 2654/10682 [31:59<1:06:06,  2.02it/s] 25%|██▍       | 2655/10682 [32:00<1:06:01,  2.03it/s] 25%|██▍       | 2656/10682 [32:00<1:05:57,  2.03it/s] 25%|██▍       | 2657/10682 [32:01<1:05:57,  2.03it/s] 25%|██▍       | 2658/10682 [32:01<1:05:58,  2.03it/s] 25%|██▍       | 2659/10682 [32:02<1:06:00,  2.03it/s] 25%|██▍       | 2660/10682 [32:02<1:06:03,  2.02it/s] 25%|██▍       | 2661/10682 [32:03<1:06:03,  2.02it/s] 25%|██▍       | 2662/10682 [32:03<1:06:05,  2.02it/s] 25%|██▍       | 2663/10682 [32:04<1:06:05,  2.02it/s] 25%|██▍       | 2664/10682 [32:04<1:06:07,  2.02it/s] 25%|██▍       | 2665/10682 [32:05<1:06:08,  2.02it/s] 25%|██▍       | 2666/10682 [32:05<1:06:09,  2.02it/s] 25%|██▍       | 2667/10682 [32:06<1:06:06,  2.02it/s] 25%|██▍       | 2668/10682 [32:06<1:06:08,  2.02it/s] 25%|██▍       | 2669/10682 [32:07<1:06:09,  2.02it/s] 25%|██▍       | 2670/10682 [32:07<1:06:04,  2.02it/s] 25%|██▌       | 2671/10682 [32:08<1:06:00,  2.02it/s] 25%|██▌       | 2672/10682 [32:08<1:05:57,  2.02it/s] 25%|██▌       | 2673/10682 [32:09<1:05:53,  2.03it/s] 25%|██▌       | 2674/10682 [32:09<1:05:53,  2.03it/s] 25%|██▌       | 2675/10682 [32:10<1:05:48,  2.03it/s]{'loss': 3.9086, 'grad_norm': 0.2158385068178177, 'learning_rate': 0.0009326991724491712, 'epoch': 0.25}                                                      
+ 25%|██▌       | 2675/10682 [32:10<1:05:48,  2.03it/s] 25%|██▌       | 2676/10682 [32:10<1:06:00,  2.02it/s] 25%|██▌       | 2677/10682 [32:10<1:05:54,  2.02it/s] 25%|██▌       | 2678/10682 [32:11<1:05:49,  2.03it/s] 25%|██▌       | 2679/10682 [32:11<1:05:53,  2.02it/s] 25%|██▌       | 2680/10682 [32:12<1:05:50,  2.03it/s] 25%|██▌       | 2681/10682 [32:12<1:05:55,  2.02it/s] 25%|██▌       | 2682/10682 [32:13<1:05:52,  2.02it/s] 25%|██▌       | 2683/10682 [32:13<1:05:51,  2.02it/s] 25%|██▌       | 2684/10682 [32:14<1:05:50,  2.02it/s] 25%|██▌       | 2685/10682 [32:14<1:05:48,  2.03it/s] 25%|██▌       | 2686/10682 [32:15<1:05:54,  2.02it/s] 25%|██▌       | 2687/10682 [32:15<1:05:47,  2.03it/s] 25%|██▌       | 2688/10682 [32:16<1:05:51,  2.02it/s] 25%|██▌       | 2689/10682 [32:16<1:05:47,  2.02it/s] 25%|██▌       | 2690/10682 [32:17<1:05:51,  2.02it/s] 25%|██▌       | 2691/10682 [32:17<1:05:43,  2.03it/s] 25%|██▌       | 2692/10682 [32:18<1:05:44,  2.03it/s] 25%|██▌       | 2693/10682 [32:18<1:05:43,  2.03it/s] 25%|██▌       | 2694/10682 [32:19<1:05:43,  2.03it/s] 25%|██▌       | 2695/10682 [32:19<1:05:40,  2.03it/s] 25%|██▌       | 2696/10682 [32:20<1:05:41,  2.03it/s] 25%|██▌       | 2697/10682 [32:20<1:05:42,  2.03it/s] 25%|██▌       | 2698/10682 [32:21<1:05:47,  2.02it/s] 25%|██▌       | 2699/10682 [32:21<1:05:48,  2.02it/s] 25%|██▌       | 2700/10682 [32:22<1:05:47,  2.02it/s]                                                      {'loss': 3.9031, 'grad_norm': 0.2126639038324356, 'learning_rate': 0.0009306377814504165, 'epoch': 0.25}
+ 25%|██▌       | 2700/10682 [32:22<1:05:47,  2.02it/s] 25%|██▌       | 2701/10682 [32:22<1:05:51,  2.02it/s] 25%|██▌       | 2702/10682 [32:23<1:05:46,  2.02it/s] 25%|██▌       | 2703/10682 [32:23<1:05:47,  2.02it/s] 25%|██▌       | 2704/10682 [32:24<1:05:42,  2.02it/s] 25%|██▌       | 2705/10682 [32:24<1:05:41,  2.02it/s] 25%|██▌       | 2706/10682 [32:25<1:05:37,  2.03it/s] 25%|██▌       | 2707/10682 [32:25<1:05:35,  2.03it/s] 25%|██▌       | 2708/10682 [32:26<1:05:34,  2.03it/s] 25%|██▌       | 2709/10682 [32:26<1:05:35,  2.03it/s] 25%|██▌       | 2710/10682 [32:27<1:05:40,  2.02it/s] 25%|██▌       | 2711/10682 [32:27<1:05:34,  2.03it/s] 25%|██▌       | 2712/10682 [32:28<1:05:33,  2.03it/s] 25%|██▌       | 2713/10682 [32:28<1:05:34,  2.03it/s] 25%|██▌       | 2714/10682 [32:29<1:05:36,  2.02it/s] 25%|██▌       | 2715/10682 [32:29<1:05:44,  2.02it/s] 25%|██▌       | 2716/10682 [32:30<1:05:46,  2.02it/s] 25%|██▌       | 2717/10682 [32:30<1:05:37,  2.02it/s] 25%|██▌       | 2718/10682 [32:31<1:05:42,  2.02it/s] 25%|██▌       | 2719/10682 [32:31<1:05:34,  2.02it/s] 25%|██▌       | 2720/10682 [32:32<1:05:37,  2.02it/s] 25%|██▌       | 2721/10682 [32:32<1:05:38,  2.02it/s] 25%|██▌       | 2722/10682 [32:33<1:05:40,  2.02it/s] 25%|██▌       | 2723/10682 [32:33<1:05:42,  2.02it/s] 26%|██▌       | 2724/10682 [32:34<1:05:41,  2.02it/s] 26%|██▌       | 2725/10682 [32:34<1:05:44,  2.02it/s]{'loss': 3.9029, 'grad_norm': 0.21530459821224213, 'learning_rate': 0.0009285476448375166, 'epoch': 0.26}                                                      
+ 26%|██▌       | 2725/10682 [32:34<1:05:44,  2.02it/s] 26%|██▌       | 2726/10682 [32:35<1:05:43,  2.02it/s] 26%|██▌       | 2727/10682 [32:35<1:05:39,  2.02it/s] 26%|██▌       | 2728/10682 [32:36<1:05:36,  2.02it/s] 26%|██▌       | 2729/10682 [32:36<1:05:30,  2.02it/s] 26%|██▌       | 2730/10682 [32:37<1:05:31,  2.02it/s] 26%|██▌       | 2731/10682 [32:37<1:05:27,  2.02it/s] 26%|██▌       | 2732/10682 [32:38<1:05:34,  2.02it/s] 26%|██▌       | 2733/10682 [32:38<1:05:29,  2.02it/s] 26%|██▌       | 2734/10682 [32:39<1:05:34,  2.02it/s] 26%|██▌       | 2735/10682 [32:39<1:05:29,  2.02it/s] 26%|██▌       | 2736/10682 [32:40<1:05:26,  2.02it/s] 26%|██▌       | 2737/10682 [32:40<1:05:23,  2.02it/s] 26%|██▌       | 2738/10682 [32:41<1:05:31,  2.02it/s] 26%|██▌       | 2739/10682 [32:41<1:05:25,  2.02it/s] 26%|██▌       | 2740/10682 [32:42<1:05:23,  2.02it/s] 26%|██▌       | 2741/10682 [32:42<1:05:23,  2.02it/s] 26%|██▌       | 2742/10682 [32:43<1:05:17,  2.03it/s] 26%|██▌       | 2743/10682 [32:43<1:05:17,  2.03it/s] 26%|██▌       | 2744/10682 [32:44<1:05:13,  2.03it/s] 26%|██▌       | 2745/10682 [32:44<1:05:09,  2.03it/s] 26%|██▌       | 2746/10682 [32:45<1:05:15,  2.03it/s] 26%|██▌       | 2747/10682 [32:45<1:05:13,  2.03it/s] 26%|██▌       | 2748/10682 [32:46<1:05:19,  2.02it/s] 26%|██▌       | 2749/10682 [32:46<1:05:15,  2.03it/s] 26%|██▌       | 2750/10682 [32:47<1:05:16,  2.03it/s]                                                      {'loss': 3.8964, 'grad_norm': 0.23009715974330902, 'learning_rate': 0.0009264289021297221, 'epoch': 0.26}
+ 26%|██▌       | 2750/10682 [32:47<1:05:16,  2.03it/s] 26%|██▌       | 2751/10682 [32:47<1:05:21,  2.02it/s] 26%|██▌       | 2752/10682 [32:48<1:05:19,  2.02it/s] 26%|██▌       | 2753/10682 [32:48<1:05:17,  2.02it/s] 26%|██▌       | 2754/10682 [32:49<1:05:21,  2.02it/s] 26%|██▌       | 2755/10682 [32:49<1:05:26,  2.02it/s] 26%|██▌       | 2756/10682 [32:50<1:05:22,  2.02it/s] 26%|██▌       | 2757/10682 [32:50<1:05:19,  2.02it/s] 26%|██▌       | 2758/10682 [32:51<1:05:15,  2.02it/s] 26%|██▌       | 2759/10682 [32:51<1:05:13,  2.02it/s] 26%|██▌       | 2760/10682 [32:52<1:05:12,  2.02it/s] 26%|██▌       | 2761/10682 [32:52<1:05:17,  2.02it/s] 26%|██▌       | 2762/10682 [32:53<1:05:17,  2.02it/s] 26%|██▌       | 2763/10682 [32:53<1:05:16,  2.02it/s] 26%|██▌       | 2764/10682 [32:53<1:05:15,  2.02it/s] 26%|██▌       | 2765/10682 [32:54<1:05:06,  2.03it/s] 26%|██▌       | 2766/10682 [32:54<1:05:18,  2.02it/s] 26%|██▌       | 2767/10682 [32:55<1:05:18,  2.02it/s] 26%|██▌       | 2768/10682 [32:55<1:05:23,  2.02it/s] 26%|██▌       | 2769/10682 [32:56<1:05:23,  2.02it/s] 26%|██▌       | 2770/10682 [32:56<1:05:20,  2.02it/s] 26%|██▌       | 2771/10682 [32:57<1:05:12,  2.02it/s] 26%|██▌       | 2772/10682 [32:57<1:05:08,  2.02it/s] 26%|██▌       | 2773/10682 [32:58<1:05:01,  2.03it/s] 26%|██▌       | 2774/10682 [32:58<1:05:02,  2.03it/s] 26%|██▌       | 2775/10682 [32:59<1:04:59,  2.03it/s]                                                      {'loss': 3.9001, 'grad_norm': 0.20718076825141907, 'learning_rate': 0.0009242816947557767, 'epoch': 0.26}
+ 26%|██▌       | 2775/10682 [32:59<1:04:59,  2.03it/s] 26%|██▌       | 2776/10682 [32:59<1:05:03,  2.03it/s] 26%|██▌       | 2777/10682 [33:00<1:05:03,  2.03it/s] 26%|██▌       | 2778/10682 [33:00<1:05:11,  2.02it/s] 26%|██▌       | 2779/10682 [33:01<1:05:08,  2.02it/s] 26%|██▌       | 2780/10682 [33:01<1:05:13,  2.02it/s] 26%|██▌       | 2781/10682 [33:02<1:05:17,  2.02it/s] 26%|██▌       | 2782/10682 [33:02<1:05:19,  2.02it/s] 26%|██▌       | 2783/10682 [33:03<1:05:10,  2.02it/s] 26%|██▌       | 2784/10682 [33:03<1:05:11,  2.02it/s] 26%|██▌       | 2785/10682 [33:04<1:05:03,  2.02it/s] 26%|██▌       | 2786/10682 [33:04<1:05:00,  2.02it/s] 26%|██▌       | 2787/10682 [33:05<1:04:57,  2.03it/s] 26%|██▌       | 2788/10682 [33:05<1:04:55,  2.03it/s] 26%|██▌       | 2789/10682 [33:06<1:04:55,  2.03it/s] 26%|██▌       | 2790/10682 [33:06<1:04:51,  2.03it/s] 26%|██▌       | 2791/10682 [33:07<1:04:51,  2.03it/s] 26%|██▌       | 2792/10682 [33:07<1:04:53,  2.03it/s] 26%|██▌       | 2793/10682 [33:08<1:04:50,  2.03it/s] 26%|██▌       | 2794/10682 [33:08<1:04:58,  2.02it/s] 26%|██▌       | 2795/10682 [33:09<1:04:55,  2.02it/s] 26%|██▌       | 2796/10682 [33:09<1:04:54,  2.03it/s] 26%|██▌       | 2797/10682 [33:10<1:04:52,  2.03it/s] 26%|██▌       | 2798/10682 [33:10<1:05:01,  2.02it/s] 26%|██▌       | 2799/10682 [33:11<1:04:52,  2.02it/s] 26%|██▌       | 2800/10682 [33:11<1:04:47,  2.03it/s]{'loss': 3.8886, 'grad_norm': 0.20591652393341064, 'learning_rate': 0.0009221061660444758, 'epoch': 0.26}
+                                                       26%|██▌       | 2800/10682 [33:11<1:04:47,  2.03it/s] 26%|██▌       | 2801/10682 [33:12<1:04:52,  2.02it/s] 26%|██▌       | 2802/10682 [33:12<1:04:47,  2.03it/s] 26%|██▌       | 2803/10682 [33:13<1:04:44,  2.03it/s] 26%|██▌       | 2804/10682 [33:13<1:04:45,  2.03it/s] 26%|██▋       | 2805/10682 [33:14<1:04:42,  2.03it/s] 26%|██▋       | 2806/10682 [33:14<1:04:43,  2.03it/s] 26%|██▋       | 2807/10682 [33:15<1:04:41,  2.03it/s] 26%|██▋       | 2808/10682 [33:15<1:04:45,  2.03it/s] 26%|██▋       | 2809/10682 [33:16<1:04:50,  2.02it/s] 26%|██▋       | 2810/10682 [33:16<1:04:57,  2.02it/s] 26%|██▋       | 2811/10682 [33:17<1:04:59,  2.02it/s] 26%|██▋       | 2812/10682 [33:17<1:04:57,  2.02it/s] 26%|██▋       | 2813/10682 [33:18<1:04:57,  2.02it/s] 26%|██▋       | 2814/10682 [33:18<1:04:52,  2.02it/s] 26%|██▋       | 2815/10682 [33:19<1:04:53,  2.02it/s] 26%|██▋       | 2816/10682 [33:19<1:04:50,  2.02it/s] 26%|██▋       | 2817/10682 [33:20<1:04:45,  2.02it/s] 26%|██▋       | 2818/10682 [33:20<1:04:46,  2.02it/s] 26%|██▋       | 2819/10682 [33:21<1:04:46,  2.02it/s] 26%|██▋       | 2820/10682 [33:21<1:04:46,  2.02it/s] 26%|██▋       | 2821/10682 [33:22<1:04:43,  2.02it/s] 26%|██▋       | 2822/10682 [33:22<1:04:42,  2.02it/s] 26%|██▋       | 2823/10682 [33:23<1:04:41,  2.02it/s] 26%|██▋       | 2824/10682 [33:23<1:04:37,  2.03it/s] 26%|██▋       | 2825/10682 [33:24<1:04:38,  2.03it/s]                                                      {'loss': 3.8965, 'grad_norm': 0.2413903921842575, 'learning_rate': 0.0009199024612151008, 'epoch': 0.26}
+ 26%|██▋       | 2825/10682 [33:24<1:04:38,  2.03it/s] 26%|██▋       | 2826/10682 [33:24<1:04:37,  2.03it/s] 26%|██▋       | 2827/10682 [33:25<1:04:36,  2.03it/s] 26%|██▋       | 2828/10682 [33:25<1:04:37,  2.03it/s] 26%|██▋       | 2829/10682 [33:26<1:04:42,  2.02it/s] 26%|██▋       | 2830/10682 [33:26<1:04:40,  2.02it/s] 27%|██▋       | 2831/10682 [33:27<1:04:41,  2.02it/s] 27%|██▋       | 2832/10682 [33:27<1:04:38,  2.02it/s] 27%|██▋       | 2833/10682 [33:28<1:04:39,  2.02it/s] 27%|██▋       | 2834/10682 [33:28<1:04:37,  2.02it/s] 27%|██▋       | 2835/10682 [33:29<1:04:34,  2.03it/s] 27%|██▋       | 2836/10682 [33:29<1:04:36,  2.02it/s] 27%|██▋       | 2837/10682 [33:30<1:04:33,  2.03it/s] 27%|██▋       | 2838/10682 [33:30<1:04:35,  2.02it/s] 27%|██▋       | 2839/10682 [33:31<1:04:29,  2.03it/s] 27%|██▋       | 2840/10682 [33:31<1:04:28,  2.03it/s] 27%|██▋       | 2841/10682 [33:32<1:04:24,  2.03it/s] 27%|██▋       | 2842/10682 [33:32<1:04:23,  2.03it/s] 27%|██▋       | 2843/10682 [33:33<1:04:24,  2.03it/s] 27%|██▋       | 2844/10682 [33:33<1:04:19,  2.03it/s] 27%|██▋       | 2845/10682 [33:34<1:04:22,  2.03it/s] 27%|██▋       | 2846/10682 [33:34<1:04:22,  2.03it/s] 27%|██▋       | 2847/10682 [33:34<1:04:26,  2.03it/s] 27%|██▋       | 2848/10682 [33:35<1:04:25,  2.03it/s] 27%|██▋       | 2849/10682 [33:35<1:04:33,  2.02it/s] 27%|██▋       | 2850/10682 [33:36<1:04:36,  2.02it/s]{'loss': 3.8893, 'grad_norm': 0.24617666006088257, 'learning_rate': 0.0009176707273677235, 'epoch': 0.27}
+                                                       27%|██▋       | 2850/10682 [33:36<1:04:36,  2.02it/s] 27%|██▋       | 2851/10682 [33:36<1:04:41,  2.02it/s] 27%|██▋       | 2852/10682 [33:37<1:04:37,  2.02it/s] 27%|██▋       | 2853/10682 [33:37<1:04:36,  2.02it/s] 27%|██▋       | 2854/10682 [33:38<1:04:30,  2.02it/s] 27%|██▋       | 2855/10682 [33:38<1:04:26,  2.02it/s] 27%|██▋       | 2856/10682 [33:39<1:04:27,  2.02it/s] 27%|██▋       | 2857/10682 [33:39<1:04:25,  2.02it/s] 27%|██▋       | 2858/10682 [33:40<1:04:23,  2.03it/s] 27%|██▋       | 2859/10682 [33:40<1:04:22,  2.03it/s] 27%|██▋       | 2860/10682 [33:41<1:04:19,  2.03it/s] 27%|██▋       | 2861/10682 [33:41<1:04:18,  2.03it/s] 27%|██▋       | 2862/10682 [33:42<1:04:19,  2.03it/s] 27%|██▋       | 2863/10682 [33:42<1:04:19,  2.03it/s] 27%|██▋       | 2864/10682 [33:43<1:04:21,  2.02it/s] 27%|██▋       | 2865/10682 [33:43<1:04:23,  2.02it/s] 27%|██▋       | 2866/10682 [33:44<1:04:20,  2.02it/s] 27%|██▋       | 2867/10682 [33:44<1:04:22,  2.02it/s] 27%|██▋       | 2868/10682 [33:45<1:04:22,  2.02it/s] 27%|██▋       | 2869/10682 [33:45<1:04:24,  2.02it/s] 27%|██▋       | 2870/10682 [33:46<1:04:18,  2.02it/s] 27%|██▋       | 2871/10682 [33:46<1:04:19,  2.02it/s] 27%|██▋       | 2872/10682 [33:47<1:04:18,  2.02it/s] 27%|██▋       | 2873/10682 [33:47<1:04:14,  2.03it/s] 27%|██▋       | 2874/10682 [33:48<1:04:14,  2.03it/s] 27%|██▋       | 2875/10682 [33:48<1:04:12,  2.03it/s]{'loss': 3.8792, 'grad_norm': 0.2169066220521927, 'learning_rate': 0.0009154111134733883, 'epoch': 0.27}
+                                                       27%|██▋       | 2875/10682 [33:48<1:04:12,  2.03it/s] 27%|██▋       | 2876/10682 [33:49<1:04:22,  2.02it/s] 27%|██▋       | 2877/10682 [33:49<1:04:21,  2.02it/s] 27%|██▋       | 2878/10682 [33:50<1:04:19,  2.02it/s] 27%|██▋       | 2879/10682 [33:50<1:04:16,  2.02it/s] 27%|██▋       | 2880/10682 [33:51<1:04:17,  2.02it/s] 27%|██▋       | 2881/10682 [33:51<1:04:15,  2.02it/s] 27%|██▋       | 2882/10682 [33:52<1:04:14,  2.02it/s] 27%|██▋       | 2883/10682 [33:52<1:04:14,  2.02it/s] 27%|██▋       | 2884/10682 [33:53<1:04:11,  2.02it/s] 27%|██▋       | 2885/10682 [33:53<1:04:10,  2.02it/s] 27%|██▋       | 2886/10682 [33:54<1:04:03,  2.03it/s] 27%|██▋       | 2887/10682 [33:54<1:04:04,  2.03it/s] 27%|██▋       | 2888/10682 [33:55<1:04:05,  2.03it/s] 27%|██▋       | 2889/10682 [33:55<1:04:06,  2.03it/s] 27%|██▋       | 2890/10682 [33:56<1:04:09,  2.02it/s] 27%|██▋       | 2891/10682 [33:56<1:04:09,  2.02it/s] 27%|██▋       | 2892/10682 [33:57<1:04:17,  2.02it/s] 27%|██▋       | 2893/10682 [33:57<1:04:21,  2.02it/s] 27%|██▋       | 2894/10682 [33:58<1:04:13,  2.02it/s] 27%|██▋       | 2895/10682 [33:58<1:04:13,  2.02it/s] 27%|██▋       | 2896/10682 [33:59<1:04:08,  2.02it/s] 27%|██▋       | 2897/10682 [33:59<1:04:01,  2.03it/s] 27%|██▋       | 2898/10682 [34:00<1:04:03,  2.03it/s] 27%|██▋       | 2899/10682 [34:00<1:03:58,  2.03it/s] 27%|██▋       | 2900/10682 [34:01<1:04:01,  2.03it/s]{'loss': 3.8803, 'grad_norm': 0.21792469918727875, 'learning_rate': 0.0009131237703641679, 'epoch': 0.27}
+                                                       27%|██▋       | 2900/10682 [34:01<1:04:01,  2.03it/s] 27%|██▋       | 2901/10682 [34:01<1:04:02,  2.03it/s] 27%|██▋       | 2902/10682 [34:02<1:03:59,  2.03it/s] 27%|██▋       | 2903/10682 [34:02<1:04:02,  2.02it/s] 27%|██▋       | 2904/10682 [34:03<1:04:03,  2.02it/s] 27%|██▋       | 2905/10682 [34:03<1:04:03,  2.02it/s] 27%|██▋       | 2906/10682 [34:04<1:04:00,  2.02it/s] 27%|██▋       | 2907/10682 [34:04<1:04:01,  2.02it/s] 27%|██▋       | 2908/10682 [34:05<1:04:03,  2.02it/s] 27%|██▋       | 2909/10682 [34:05<1:04:03,  2.02it/s] 27%|██▋       | 2910/10682 [34:06<1:03:58,  2.02it/s] 27%|██▋       | 2911/10682 [34:06<1:04:02,  2.02it/s] 27%|██▋       | 2912/10682 [34:07<1:03:56,  2.03it/s] 27%|██▋       | 2913/10682 [34:07<1:03:59,  2.02it/s] 27%|██▋       | 2914/10682 [34:08<1:03:55,  2.03it/s] 27%|██▋       | 2915/10682 [34:08<1:04:00,  2.02it/s] 27%|██▋       | 2916/10682 [34:09<1:04:00,  2.02it/s] 27%|██▋       | 2917/10682 [34:09<1:04:01,  2.02it/s] 27%|██▋       | 2918/10682 [34:10<1:04:01,  2.02it/s] 27%|██▋       | 2919/10682 [34:10<1:03:58,  2.02it/s] 27%|██▋       | 2920/10682 [34:11<1:04:00,  2.02it/s] 27%|██▋       | 2921/10682 [34:11<1:03:55,  2.02it/s] 27%|██▋       | 2922/10682 [34:12<1:03:52,  2.02it/s] 27%|██▋       | 2923/10682 [34:12<1:03:52,  2.02it/s] 27%|██▋       | 2924/10682 [34:13<1:03:49,  2.03it/s] 27%|██▋       | 2925/10682 [34:13<1:03:49,  2.03it/s]                                                      {'loss': 3.8775, 'grad_norm': 0.23304373025894165, 'learning_rate': 0.0009108088507230948, 'epoch': 0.27}
+ 27%|██▋       | 2925/10682 [34:13<1:03:49,  2.03it/s] 27%|██▋       | 2926/10682 [34:14<1:03:56,  2.02it/s] 27%|██▋       | 2927/10682 [34:14<1:03:52,  2.02it/s] 27%|██▋       | 2928/10682 [34:15<1:03:53,  2.02it/s] 27%|██▋       | 2929/10682 [34:15<1:03:54,  2.02it/s] 27%|██▋       | 2930/10682 [34:16<1:03:57,  2.02it/s] 27%|██▋       | 2931/10682 [34:16<1:03:54,  2.02it/s] 27%|██▋       | 2932/10682 [34:17<1:04:03,  2.02it/s] 27%|██▋       | 2933/10682 [34:17<1:03:56,  2.02it/s] 27%|██▋       | 2934/10682 [34:17<1:03:51,  2.02it/s] 27%|██▋       | 2935/10682 [34:18<1:03:51,  2.02it/s] 27%|██▋       | 2936/10682 [34:18<1:03:51,  2.02it/s] 27%|██▋       | 2937/10682 [34:19<1:03:51,  2.02it/s] 28%|██▊       | 2938/10682 [34:19<1:03:52,  2.02it/s] 28%|██▊       | 2939/10682 [34:20<1:03:46,  2.02it/s] 28%|██▊       | 2940/10682 [34:20<1:03:50,  2.02it/s] 28%|██▊       | 2941/10682 [34:21<1:03:50,  2.02it/s] 28%|██▊       | 2942/10682 [34:21<1:03:49,  2.02it/s] 28%|██▊       | 2943/10682 [34:22<1:03:52,  2.02it/s] 28%|██▊       | 2944/10682 [34:22<1:03:49,  2.02it/s] 28%|██▊       | 2945/10682 [34:23<1:03:52,  2.02it/s] 28%|██▊       | 2946/10682 [34:23<1:03:50,  2.02it/s] 28%|██▊       | 2947/10682 [34:24<1:03:43,  2.02it/s] 28%|██▊       | 2948/10682 [34:24<1:03:45,  2.02it/s] 28%|██▊       | 2949/10682 [34:25<1:03:38,  2.02it/s] 28%|██▊       | 2950/10682 [34:25<1:03:41,  2.02it/s]{'loss': 3.8671, 'grad_norm': 0.22274868190288544, 'learning_rate': 0.0009084665090739699, 'epoch': 0.28}                                                      
+ 28%|██▊       | 2950/10682 [34:25<1:03:41,  2.02it/s] 28%|██▊       | 2951/10682 [34:26<1:03:41,  2.02it/s] 28%|██▊       | 2952/10682 [34:26<1:03:37,  2.02it/s] 28%|██▊       | 2953/10682 [34:27<1:03:37,  2.02it/s] 28%|██▊       | 2954/10682 [34:27<1:03:31,  2.03it/s] 28%|██▊       | 2955/10682 [34:28<1:03:29,  2.03it/s] 28%|██▊       | 2956/10682 [34:28<1:03:31,  2.03it/s] 28%|██▊       | 2957/10682 [34:29<1:03:36,  2.02it/s] 28%|██▊       | 2958/10682 [34:29<1:03:37,  2.02it/s] 28%|██▊       | 2959/10682 [34:30<1:03:38,  2.02it/s] 28%|██▊       | 2960/10682 [34:30<1:03:41,  2.02it/s] 28%|██▊       | 2961/10682 [34:31<1:03:42,  2.02it/s] 28%|██▊       | 2962/10682 [34:31<1:03:36,  2.02it/s] 28%|██▊       | 2963/10682 [34:32<1:03:33,  2.02it/s] 28%|██▊       | 2964/10682 [34:32<1:03:37,  2.02it/s] 28%|██▊       | 2965/10682 [34:33<1:03:32,  2.02it/s] 28%|██▊       | 2966/10682 [34:33<1:03:32,  2.02it/s] 28%|██▊       | 2967/10682 [34:34<1:03:29,  2.03it/s] 28%|██▊       | 2968/10682 [34:34<1:03:29,  2.02it/s] 28%|██▊       | 2969/10682 [34:35<1:03:27,  2.03it/s] 28%|██▊       | 2970/10682 [34:35<1:03:27,  2.03it/s] 28%|██▊       | 2971/10682 [34:36<1:03:25,  2.03it/s] 28%|██▊       | 2972/10682 [34:36<1:03:24,  2.03it/s] 28%|██▊       | 2973/10682 [34:37<1:03:27,  2.02it/s] 28%|██▊       | 2974/10682 [34:37<1:03:25,  2.03it/s] 28%|██▊       | 2975/10682 [34:38<1:03:29,  2.02it/s]                                                      {'loss': 3.8717, 'grad_norm': 0.2135021984577179, 'learning_rate': 0.0009060969017710476, 'epoch': 0.28}
+ 28%|██▊       | 2975/10682 [34:38<1:03:29,  2.02it/s] 28%|██▊       | 2976/10682 [34:38<1:03:34,  2.02it/s] 28%|██▊       | 2977/10682 [34:39<1:03:34,  2.02it/s] 28%|██▊       | 2978/10682 [34:39<1:03:28,  2.02it/s] 28%|██▊       | 2979/10682 [34:40<1:03:31,  2.02it/s] 28%|██▊       | 2980/10682 [34:40<1:03:32,  2.02it/s] 28%|██▊       | 2981/10682 [34:41<1:03:31,  2.02it/s] 28%|██▊       | 2982/10682 [34:41<1:03:25,  2.02it/s] 28%|██▊       | 2983/10682 [34:42<1:03:27,  2.02it/s] 28%|██▊       | 2984/10682 [34:42<1:03:22,  2.02it/s] 28%|██▊       | 2985/10682 [34:43<1:03:21,  2.02it/s] 28%|██▊       | 2986/10682 [34:43<1:03:16,  2.03it/s] 28%|██▊       | 2987/10682 [34:44<1:03:13,  2.03it/s] 28%|██▊       | 2988/10682 [34:44<1:03:17,  2.03it/s] 28%|██▊       | 2989/10682 [34:45<1:03:12,  2.03it/s] 28%|██▊       | 2990/10682 [34:45<1:03:17,  2.03it/s] 28%|██▊       | 2991/10682 [34:46<1:03:11,  2.03it/s] 28%|██▊       | 2992/10682 [34:46<1:03:18,  2.02it/s] 28%|██▊       | 2993/10682 [34:47<1:03:18,  2.02it/s] 28%|██▊       | 2994/10682 [34:47<1:03:25,  2.02it/s] 28%|██▊       | 2995/10682 [34:48<1:03:19,  2.02it/s] 28%|██▊       | 2996/10682 [34:48<1:03:19,  2.02it/s] 28%|██▊       | 2997/10682 [34:49<1:03:14,  2.03it/s] 28%|██▊       | 2998/10682 [34:49<1:03:17,  2.02it/s] 28%|██▊       | 2999/10682 [34:50<1:03:13,  2.03it/s] 28%|██▊       | 3000/10682 [34:50<1:03:14,  2.02it/s]{'loss': 3.8526, 'grad_norm': 0.22293034195899963, 'learning_rate': 0.0009037001869885992, 'epoch': 0.28}
+                                                       28%|██▊       | 3000/10682 [34:50<1:03:14,  2.02it/s] 28%|██▊       | 3001/10682 [34:51<1:03:17,  2.02it/s] 28%|██▊       | 3002/10682 [34:51<1:03:12,  2.02it/s] 28%|██▊       | 3003/10682 [34:52<1:03:14,  2.02it/s] 28%|██▊       | 3004/10682 [34:52<1:03:09,  2.03it/s] 28%|██▊       | 3005/10682 [34:53<1:03:12,  2.02it/s] 28%|██▊       | 3006/10682 [34:53<1:03:08,  2.03it/s] 28%|██▊       | 3007/10682 [34:54<1:03:09,  2.03it/s] 28%|██▊       | 3008/10682 [34:54<1:03:09,  2.02it/s] 28%|██▊       | 3009/10682 [34:55<1:03:06,  2.03it/s] 28%|██▊       | 3010/10682 [34:55<1:03:14,  2.02it/s] 28%|██▊       | 3011/10682 [34:56<1:03:13,  2.02it/s] 28%|██▊       | 3012/10682 [34:56<1:03:15,  2.02it/s] 28%|██▊       | 3013/10682 [34:57<1:03:17,  2.02it/s] 28%|██▊       | 3014/10682 [34:57<1:03:19,  2.02it/s] 28%|██▊       | 3015/10682 [34:58<1:03:17,  2.02it/s] 28%|██▊       | 3016/10682 [34:58<1:03:18,  2.02it/s] 28%|██▊       | 3017/10682 [34:59<1:03:16,  2.02it/s] 28%|██▊       | 3018/10682 [34:59<1:03:14,  2.02it/s] 28%|██▊       | 3019/10682 [35:00<1:03:07,  2.02it/s] 28%|██▊       | 3020/10682 [35:00<1:03:09,  2.02it/s] 28%|██▊       | 3021/10682 [35:00<1:03:05,  2.02it/s] 28%|██▊       | 3022/10682 [35:01<1:03:04,  2.02it/s] 28%|██▊       | 3023/10682 [35:01<1:03:04,  2.02it/s] 28%|██▊       | 3024/10682 [35:02<1:02:59,  2.03it/s] 28%|██▊       | 3025/10682 [35:02<1:03:02,  2.02it/s]{'loss': 3.8567, 'grad_norm': 0.2203584760427475, 'learning_rate': 0.0009012765247103541, 'epoch': 0.28}
+                                                       28%|██▊       | 3025/10682 [35:02<1:03:02,  2.02it/s] 28%|██▊       | 3026/10682 [35:03<1:03:08,  2.02it/s] 28%|██▊       | 3027/10682 [35:03<1:03:08,  2.02it/s] 28%|██▊       | 3028/10682 [35:04<1:03:06,  2.02it/s] 28%|██▊       | 3029/10682 [35:04<1:03:09,  2.02it/s] 28%|██▊       | 3030/10682 [35:05<1:03:04,  2.02it/s] 28%|██▊       | 3031/10682 [35:05<1:03:07,  2.02it/s] 28%|██▊       | 3032/10682 [35:06<1:03:04,  2.02it/s] 28%|██▊       | 3033/10682 [35:06<1:03:01,  2.02it/s] 28%|██▊       | 3034/10682 [35:07<1:02:56,  2.02it/s] 28%|██▊       | 3035/10682 [35:07<1:02:53,  2.03it/s] 28%|██▊       | 3036/10682 [35:08<1:02:55,  2.03it/s] 28%|██▊       | 3037/10682 [35:08<1:02:49,  2.03it/s] 28%|██▊       | 3038/10682 [35:09<1:02:52,  2.03it/s] 28%|██▊       | 3039/10682 [35:09<1:02:48,  2.03it/s] 28%|██▊       | 3040/10682 [35:10<1:02:51,  2.03it/s] 28%|██▊       | 3041/10682 [35:10<1:02:46,  2.03it/s] 28%|██▊       | 3042/10682 [35:11<1:02:49,  2.03it/s] 28%|██▊       | 3043/10682 [35:11<1:02:50,  2.03it/s] 28%|██▊       | 3044/10682 [35:12<1:02:57,  2.02it/s] 29%|██▊       | 3045/10682 [35:12<1:02:53,  2.02it/s] 29%|██▊       | 3046/10682 [35:13<1:02:53,  2.02it/s] 29%|██▊       | 3047/10682 [35:13<1:02:54,  2.02it/s] 29%|██▊       | 3048/10682 [35:14<1:02:54,  2.02it/s] 29%|██▊       | 3049/10682 [35:14<1:02:54,  2.02it/s] 29%|██▊       | 3050/10682 [35:15<1:02:52,  2.02it/s]{'loss': 3.8599, 'grad_norm': 0.21545517444610596, 'learning_rate': 0.000898826076718821, 'epoch': 0.29}
+                                                       29%|██▊       | 3050/10682 [35:15<1:02:52,  2.02it/s] 29%|██▊       | 3051/10682 [35:15<1:02:56,  2.02it/s] 29%|██▊       | 3052/10682 [35:16<1:02:55,  2.02it/s] 29%|██▊       | 3053/10682 [35:16<1:02:54,  2.02it/s] 29%|██▊       | 3054/10682 [35:17<1:02:53,  2.02it/s] 29%|██▊       | 3055/10682 [35:17<1:02:51,  2.02it/s] 29%|██▊       | 3056/10682 [35:18<1:02:50,  2.02it/s] 29%|██▊       | 3057/10682 [35:18<1:02:49,  2.02it/s] 29%|██▊       | 3058/10682 [35:19<1:02:43,  2.03it/s] 29%|██▊       | 3059/10682 [35:19<1:02:42,  2.03it/s] 29%|██▊       | 3060/10682 [35:20<1:02:51,  2.02it/s] 29%|██▊       | 3061/10682 [35:20<1:02:46,  2.02it/s] 29%|██▊       | 3062/10682 [35:21<1:02:45,  2.02it/s] 29%|██▊       | 3063/10682 [35:21<1:02:43,  2.02it/s] 29%|██▊       | 3064/10682 [35:22<1:02:46,  2.02it/s] 29%|██▊       | 3065/10682 [35:22<1:02:46,  2.02it/s] 29%|██▊       | 3066/10682 [35:23<1:02:46,  2.02it/s] 29%|██▊       | 3067/10682 [35:23<1:02:42,  2.02it/s] 29%|██▊       | 3068/10682 [35:24<1:02:44,  2.02it/s] 29%|██▊       | 3069/10682 [35:24<1:02:40,  2.02it/s] 29%|██▊       | 3070/10682 [35:25<1:02:47,  2.02it/s] 29%|██▊       | 3071/10682 [35:25<1:02:42,  2.02it/s] 29%|██▉       | 3072/10682 [35:26<1:02:41,  2.02it/s] 29%|██▉       | 3073/10682 [35:26<1:02:35,  2.03it/s] 29%|██▉       | 3074/10682 [35:27<1:02:33,  2.03it/s] 29%|██▉       | 3075/10682 [35:27<1:02:32,  2.03it/s]{'loss': 3.8642, 'grad_norm': 0.21818895637989044, 'learning_rate': 0.0008963490065844889, 'epoch': 0.29}                                                      
+ 29%|██▉       | 3075/10682 [35:27<1:02:32,  2.03it/s] 29%|██▉       | 3076/10682 [35:28<1:02:36,  2.02it/s] 29%|██▉       | 3077/10682 [35:28<1:02:36,  2.02it/s] 29%|██▉       | 3078/10682 [35:29<1:02:38,  2.02it/s] 29%|██▉       | 3079/10682 [35:29<1:02:40,  2.02it/s] 29%|██▉       | 3080/10682 [35:30<1:02:42,  2.02it/s] 29%|██▉       | 3081/10682 [35:30<1:02:38,  2.02it/s] 29%|██▉       | 3082/10682 [35:31<1:02:37,  2.02it/s] 29%|██▉       | 3083/10682 [35:31<1:02:34,  2.02it/s] 29%|██▉       | 3084/10682 [35:32<1:02:30,  2.03it/s] 29%|██▉       | 3085/10682 [35:32<1:02:30,  2.03it/s] 29%|██▉       | 3086/10682 [35:33<1:02:31,  2.02it/s] 29%|██▉       | 3087/10682 [35:33<1:02:29,  2.03it/s] 29%|██▉       | 3088/10682 [35:34<1:02:27,  2.03it/s] 29%|██▉       | 3089/10682 [35:34<1:02:23,  2.03it/s] 29%|██▉       | 3090/10682 [35:35<1:02:30,  2.02it/s] 29%|██▉       | 3091/10682 [35:35<1:02:24,  2.03it/s] 29%|██▉       | 3092/10682 [35:36<1:02:29,  2.02it/s] 29%|██▉       | 3093/10682 [35:36<1:02:27,  2.03it/s] 29%|██▉       | 3094/10682 [35:37<1:02:30,  2.02it/s] 29%|██▉       | 3095/10682 [35:37<1:02:27,  2.02it/s] 29%|██▉       | 3096/10682 [35:38<1:02:25,  2.03it/s] 29%|██▉       | 3097/10682 [35:38<1:02:26,  2.02it/s] 29%|██▉       | 3098/10682 [35:39<1:02:19,  2.03it/s] 29%|██▉       | 3099/10682 [35:39<1:02:22,  2.03it/s] 29%|██▉       | 3100/10682 [35:40<1:02:21,  2.03it/s]                                                      {'loss': 3.8553, 'grad_norm': 0.21128380298614502, 'learning_rate': 0.0008938454796549082, 'epoch': 0.29}
+ 29%|██▉       | 3100/10682 [35:40<1:02:21,  2.03it/s] 29%|██▉       | 3101/10682 [35:40<1:02:29,  2.02it/s] 29%|██▉       | 3102/10682 [35:41<1:02:20,  2.03it/s] 29%|██▉       | 3103/10682 [35:41<1:02:20,  2.03it/s] 29%|██▉       | 3104/10682 [35:41<1:02:19,  2.03it/s] 29%|██▉       | 3105/10682 [35:42<1:02:17,  2.03it/s] 29%|██▉       | 3106/10682 [35:42<1:02:21,  2.02it/s] 29%|██▉       | 3107/10682 [35:43<1:02:19,  2.03it/s] 29%|██▉       | 3108/10682 [35:43<1:02:22,  2.02it/s] 29%|██▉       | 3109/10682 [35:44<1:02:19,  2.03it/s] 29%|██▉       | 3110/10682 [35:44<1:02:24,  2.02it/s] 29%|██▉       | 3111/10682 [35:45<1:02:28,  2.02it/s] 29%|██▉       | 3112/10682 [35:45<1:02:29,  2.02it/s] 29%|██▉       | 3113/10682 [35:46<1:02:27,  2.02it/s] 29%|██▉       | 3114/10682 [35:46<1:02:23,  2.02it/s] 29%|██▉       | 3115/10682 [35:47<1:02:19,  2.02it/s] 29%|██▉       | 3116/10682 [35:47<1:02:16,  2.03it/s] 29%|██▉       | 3117/10682 [35:48<1:02:08,  2.03it/s] 29%|██▉       | 3118/10682 [35:48<1:02:08,  2.03it/s] 29%|██▉       | 3119/10682 [35:49<1:02:07,  2.03it/s] 29%|██▉       | 3120/10682 [35:49<1:02:07,  2.03it/s] 29%|██▉       | 3121/10682 [35:50<1:02:06,  2.03it/s] 29%|██▉       | 3122/10682 [35:50<1:02:06,  2.03it/s] 29%|██▉       | 3123/10682 [35:51<1:02:06,  2.03it/s] 29%|██▉       | 3124/10682 [35:51<1:02:09,  2.03it/s] 29%|██▉       | 3125/10682 [35:52<1:02:20,  2.02it/s]                                                      {'loss': 3.8615, 'grad_norm': 0.22659720480442047, 'learning_rate': 0.000891315663043654, 'epoch': 0.29}
+ 29%|██▉       | 3125/10682 [35:52<1:02:20,  2.02it/s] 29%|██▉       | 3126/10682 [35:52<1:02:23,  2.02it/s] 29%|██▉       | 3127/10682 [35:53<1:02:21,  2.02it/s] 29%|██▉       | 3128/10682 [35:53<1:02:20,  2.02it/s] 29%|██▉       | 3129/10682 [35:54<1:02:18,  2.02it/s] 29%|██▉       | 3130/10682 [35:54<1:02:15,  2.02it/s] 29%|██▉       | 3131/10682 [35:55<1:02:09,  2.02it/s] 29%|██▉       | 3132/10682 [35:55<1:02:05,  2.03it/s] 29%|██▉       | 3133/10682 [35:56<1:02:03,  2.03it/s] 29%|██▉       | 3134/10682 [35:56<1:02:04,  2.03it/s] 29%|██▉       | 3135/10682 [35:57<1:02:02,  2.03it/s] 29%|██▉       | 3136/10682 [35:57<1:02:01,  2.03it/s] 29%|██▉       | 3137/10682 [35:58<1:01:59,  2.03it/s] 29%|██▉       | 3138/10682 [35:58<1:01:56,  2.03it/s] 29%|██▉       | 3139/10682 [35:59<1:01:57,  2.03it/s] 29%|██▉       | 3140/10682 [35:59<1:02:00,  2.03it/s] 29%|██▉       | 3141/10682 [36:00<1:02:01,  2.03it/s] 29%|██▉       | 3142/10682 [36:00<1:02:02,  2.03it/s] 29%|██▉       | 3143/10682 [36:01<1:02:04,  2.02it/s] 29%|██▉       | 3144/10682 [36:01<1:02:05,  2.02it/s] 29%|██▉       | 3145/10682 [36:02<1:02:06,  2.02it/s] 29%|██▉       | 3146/10682 [36:02<1:02:06,  2.02it/s] 29%|██▉       | 3147/10682 [36:03<1:02:04,  2.02it/s] 29%|██▉       | 3148/10682 [36:03<1:02:03,  2.02it/s] 29%|██▉       | 3149/10682 [36:04<1:01:57,  2.03it/s] 29%|██▉       | 3150/10682 [36:04<1:02:01,  2.02it/s]{'loss': 3.8552, 'grad_norm': 0.22718830406665802, 'learning_rate': 0.0008887597256191701, 'epoch': 0.29}                                                      
+ 29%|██▉       | 3150/10682 [36:04<1:02:01,  2.02it/s] 29%|██▉       | 3151/10682 [36:05<1:02:00,  2.02it/s] 30%|██▉       | 3152/10682 [36:05<1:01:58,  2.03it/s] 30%|██▉       | 3153/10682 [36:06<1:01:58,  2.02it/s] 30%|██▉       | 3154/10682 [36:06<1:02:08,  2.02it/s] 30%|██▉       | 3155/10682 [36:07<1:02:02,  2.02it/s] 30%|██▉       | 3156/10682 [36:07<1:02:02,  2.02it/s] 30%|██▉       | 3157/10682 [36:08<1:01:59,  2.02it/s] 30%|██▉       | 3158/10682 [36:08<1:01:51,  2.03it/s] 30%|██▉       | 3159/10682 [36:09<1:01:57,  2.02it/s] 30%|██▉       | 3160/10682 [36:09<1:01:58,  2.02it/s] 30%|██▉       | 3161/10682 [36:10<1:01:58,  2.02it/s] 30%|██▉       | 3162/10682 [36:10<1:01:57,  2.02it/s] 30%|██▉       | 3163/10682 [36:11<1:02:00,  2.02it/s] 30%|██▉       | 3164/10682 [36:11<1:01:59,  2.02it/s] 30%|██▉       | 3165/10682 [36:12<1:02:00,  2.02it/s] 30%|██▉       | 3166/10682 [36:12<1:01:55,  2.02it/s] 30%|██▉       | 3167/10682 [36:13<1:02:01,  2.02it/s] 30%|██▉       | 3168/10682 [36:13<1:01:57,  2.02it/s] 30%|██▉       | 3169/10682 [36:14<1:01:58,  2.02it/s] 30%|██▉       | 3170/10682 [36:14<1:02:00,  2.02it/s] 30%|██▉       | 3171/10682 [36:15<1:02:03,  2.02it/s] 30%|██▉       | 3172/10682 [36:15<1:02:00,  2.02it/s] 30%|██▉       | 3173/10682 [36:16<1:02:00,  2.02it/s] 30%|██▉       | 3174/10682 [36:16<1:01:58,  2.02it/s] 30%|██▉       | 3175/10682 [36:17<1:01:57,  2.02it/s]                                                      {'loss': 3.8558, 'grad_norm': 0.2236180305480957, 'learning_rate': 0.0008861778379934982, 'epoch': 0.3}
+ 30%|██▉       | 3175/10682 [36:17<1:01:57,  2.02it/s] 30%|██▉       | 3176/10682 [36:17<1:02:00,  2.02it/s] 30%|██▉       | 3177/10682 [36:18<1:01:56,  2.02it/s] 30%|██▉       | 3178/10682 [36:18<1:01:51,  2.02it/s] 30%|██▉       | 3179/10682 [36:19<1:01:48,  2.02it/s] 30%|██▉       | 3180/10682 [36:19<1:01:46,  2.02it/s] 30%|██▉       | 3181/10682 [36:20<1:01:42,  2.03it/s] 30%|██▉       | 3182/10682 [36:20<1:01:52,  2.02it/s] 30%|██▉       | 3183/10682 [36:21<1:01:48,  2.02it/s] 30%|██▉       | 3184/10682 [36:21<1:01:48,  2.02it/s] 30%|██▉       | 3185/10682 [36:22<1:01:47,  2.02it/s] 30%|██▉       | 3186/10682 [36:22<1:01:50,  2.02it/s] 30%|██▉       | 3187/10682 [36:23<1:01:50,  2.02it/s] 30%|██▉       | 3188/10682 [36:23<1:01:47,  2.02it/s] 30%|██▉       | 3189/10682 [36:24<1:01:44,  2.02it/s] 30%|██▉       | 3190/10682 [36:24<1:01:42,  2.02it/s] 30%|██▉       | 3191/10682 [36:25<1:02:32,  2.00it/s] 30%|██▉       | 3192/10682 [36:25<1:02:16,  2.00it/s] 30%|██▉       | 3193/10682 [36:26<1:02:02,  2.01it/s] 30%|██▉       | 3194/10682 [36:26<1:01:56,  2.01it/s] 30%|██▉       | 3195/10682 [36:26<1:01:44,  2.02it/s] 30%|██▉       | 3196/10682 [36:27<1:01:43,  2.02it/s] 30%|██▉       | 3197/10682 [36:28<1:11:59,  1.73it/s] 30%|██▉       | 3198/10682 [36:28<1:08:51,  1.81it/s] 30%|██▉       | 3199/10682 [36:29<1:06:44,  1.87it/s] 30%|██▉       | 3200/10682 [36:29<1:05:11,  1.91it/s]                                                      {'loss': 3.8461, 'grad_norm': 0.2249985933303833, 'learning_rate': 0.000883570172510888, 'epoch': 0.3}
+ 30%|██▉       | 3200/10682 [36:29<1:05:11,  1.91it/s] 30%|██▉       | 3201/10682 [36:30<1:04:22,  1.94it/s] 30%|██▉       | 3202/10682 [36:30<1:03:34,  1.96it/s] 30%|██▉       | 3203/10682 [36:31<1:02:58,  1.98it/s] 30%|██▉       | 3204/10682 [36:31<1:02:26,  2.00it/s] 30%|███       | 3205/10682 [36:32<1:02:56,  1.98it/s] 30%|███       | 3206/10682 [36:32<1:02:28,  1.99it/s] 30%|███       | 3207/10682 [36:33<1:02:06,  2.01it/s] 30%|███       | 3208/10682 [36:33<1:01:56,  2.01it/s] 30%|███       | 3209/10682 [36:34<1:01:44,  2.02it/s] 30%|███       | 3210/10682 [36:34<1:12:27,  1.72it/s] 30%|███       | 3211/10682 [36:35<1:09:03,  1.80it/s] 30%|███       | 3212/10682 [36:35<1:06:42,  1.87it/s] 30%|███       | 3213/10682 [36:36<1:05:06,  1.91it/s] 30%|███       | 3214/10682 [36:36<1:04:02,  1.94it/s] 30%|███       | 3215/10682 [36:37<1:03:15,  1.97it/s] 30%|███       | 3216/10682 [36:37<1:02:46,  1.98it/s] 30%|███       | 3217/10682 [36:38<1:02:29,  1.99it/s] 30%|███       | 3218/10682 [36:38<1:02:13,  2.00it/s] 30%|███       | 3219/10682 [36:39<1:02:11,  2.00it/s] 30%|███       | 3220/10682 [36:39<1:02:00,  2.01it/s] 30%|███       | 3221/10682 [36:40<1:01:51,  2.01it/s] 30%|███       | 3222/10682 [36:40<1:01:46,  2.01it/s] 30%|███       | 3223/10682 [36:41<1:01:37,  2.02it/s] 30%|███       | 3224/10682 [36:41<1:01:32,  2.02it/s] 30%|███       | 3225/10682 [36:42<1:01:25,  2.02it/s]                                                      {'loss': 3.8447, 'grad_norm': 0.23057498037815094, 'learning_rate': 0.0008809369032362939, 'epoch': 0.3}
+ 30%|███       | 3225/10682 [36:42<1:01:25,  2.02it/s] 30%|███       | 3226/10682 [36:42<1:01:27,  2.02it/s] 30%|███       | 3227/10682 [36:43<1:01:23,  2.02it/s] 30%|███       | 3228/10682 [36:43<1:01:16,  2.03it/s] 30%|███       | 3229/10682 [36:44<1:01:17,  2.03it/s] 30%|███       | 3230/10682 [36:44<1:01:23,  2.02it/s] 30%|███       | 3231/10682 [36:45<1:01:22,  2.02it/s] 30%|███       | 3232/10682 [36:45<1:01:25,  2.02it/s] 30%|███       | 3233/10682 [36:46<1:01:28,  2.02it/s] 30%|███       | 3234/10682 [36:46<1:03:01,  1.97it/s] 30%|███       | 3235/10682 [36:47<1:02:37,  1.98it/s] 30%|███       | 3236/10682 [36:47<1:02:19,  1.99it/s] 30%|███       | 3237/10682 [36:48<1:02:01,  2.00it/s] 30%|███       | 3238/10682 [36:48<1:01:49,  2.01it/s] 30%|███       | 3239/10682 [36:49<1:01:35,  2.01it/s] 30%|███       | 3240/10682 [36:49<1:01:32,  2.02it/s] 30%|███       | 3241/10682 [36:50<1:01:22,  2.02it/s] 30%|███       | 3242/10682 [36:50<1:01:16,  2.02it/s] 30%|███       | 3243/10682 [36:51<1:01:12,  2.03it/s] 30%|███       | 3244/10682 [36:51<1:01:06,  2.03it/s] 30%|███       | 3245/10682 [36:52<1:01:06,  2.03it/s] 30%|███       | 3246/10682 [36:52<1:01:04,  2.03it/s] 30%|███       | 3247/10682 [36:53<1:01:08,  2.03it/s] 30%|███       | 3248/10682 [36:53<1:01:08,  2.03it/s] 30%|███       | 3249/10682 [36:54<1:01:50,  2.00it/s] 30%|███       | 3250/10682 [36:54<1:01:41,  2.01it/s]                                                      {'loss': 3.8384, 'grad_norm': 0.21458952128887177, 'learning_rate': 0.0008782782059437559, 'epoch': 0.3}
+ 30%|███       | 3250/10682 [36:54<1:01:41,  2.01it/s] 30%|███       | 3251/10682 [36:55<1:01:34,  2.01it/s] 30%|███       | 3252/10682 [36:55<1:01:33,  2.01it/s] 30%|███       | 3253/10682 [36:56<1:01:28,  2.01it/s] 30%|███       | 3254/10682 [36:56<1:01:21,  2.02it/s] 30%|███       | 3255/10682 [36:57<1:01:16,  2.02it/s] 30%|███       | 3256/10682 [36:57<1:01:14,  2.02it/s] 30%|███       | 3257/10682 [36:58<1:01:07,  2.02it/s] 30%|███       | 3258/10682 [36:58<1:01:07,  2.02it/s] 31%|███       | 3259/10682 [36:59<1:01:06,  2.02it/s] 31%|███       | 3260/10682 [36:59<1:01:07,  2.02it/s] 31%|███       | 3261/10682 [37:00<1:01:05,  2.02it/s] 31%|███       | 3262/10682 [37:00<1:01:54,  2.00it/s] 31%|███       | 3263/10682 [37:01<1:01:37,  2.01it/s] 31%|███       | 3264/10682 [37:01<1:01:23,  2.01it/s] 31%|███       | 3265/10682 [37:02<1:01:23,  2.01it/s] 31%|███       | 3266/10682 [37:02<1:01:15,  2.02it/s] 31%|███       | 3267/10682 [37:03<1:01:11,  2.02it/s] 31%|███       | 3268/10682 [37:03<1:01:08,  2.02it/s] 31%|███       | 3269/10682 [37:04<1:01:07,  2.02it/s] 31%|███       | 3270/10682 [37:04<1:01:04,  2.02it/s] 31%|███       | 3271/10682 [37:05<1:01:06,  2.02it/s] 31%|███       | 3272/10682 [37:05<1:01:06,  2.02it/s] 31%|███       | 3273/10682 [37:06<1:01:04,  2.02it/s] 31%|███       | 3274/10682 [37:06<1:01:02,  2.02it/s] 31%|███       | 3275/10682 [37:07<1:01:03,  2.02it/s]{'loss': 3.834, 'grad_norm': 0.23735859990119934, 'learning_rate': 0.0008755942581046657, 'epoch': 0.31}
+                                                       31%|███       | 3275/10682 [37:07<1:01:03,  2.02it/s] 31%|███       | 3276/10682 [37:07<1:01:07,  2.02it/s] 31%|███       | 3277/10682 [37:08<1:01:10,  2.02it/s] 31%|███       | 3278/10682 [37:08<1:01:03,  2.02it/s] 31%|███       | 3279/10682 [37:09<1:01:06,  2.02it/s] 31%|███       | 3280/10682 [37:09<1:01:12,  2.02it/s] 31%|███       | 3281/10682 [37:10<1:01:15,  2.01it/s] 31%|███       | 3282/10682 [37:10<1:01:07,  2.02it/s] 31%|███       | 3283/10682 [37:11<1:01:02,  2.02it/s] 31%|███       | 3284/10682 [37:11<1:00:57,  2.02it/s] 31%|███       | 3285/10682 [37:12<1:01:00,  2.02it/s] 31%|███       | 3286/10682 [37:12<1:00:57,  2.02it/s] 31%|███       | 3287/10682 [37:13<1:01:01,  2.02it/s] 31%|███       | 3288/10682 [37:13<1:00:55,  2.02it/s] 31%|███       | 3289/10682 [37:14<1:00:50,  2.03it/s] 31%|███       | 3290/10682 [37:14<1:00:50,  2.03it/s] 31%|███       | 3291/10682 [37:15<1:00:43,  2.03it/s] 31%|███       | 3292/10682 [37:15<1:00:49,  2.03it/s] 31%|███       | 3293/10682 [37:16<1:00:46,  2.03it/s] 31%|███       | 3294/10682 [37:16<1:00:48,  2.02it/s] 31%|███       | 3295/10682 [37:17<1:00:45,  2.03it/s] 31%|███       | 3296/10682 [37:17<1:00:41,  2.03it/s] 31%|███       | 3297/10682 [37:18<1:00:47,  2.02it/s] 31%|███       | 3298/10682 [37:18<1:00:41,  2.03it/s] 31%|███       | 3299/10682 [37:19<1:00:41,  2.03it/s] 31%|███       | 3300/10682 [37:19<1:00:42,  2.03it/s]{'loss': 3.8371, 'grad_norm': 0.23883993923664093, 'learning_rate': 0.0008728852388759212, 'epoch': 0.31}                                                      
+ 31%|███       | 3300/10682 [37:19<1:00:42,  2.03it/s] 31%|███       | 3301/10682 [37:20<1:00:48,  2.02it/s] 31%|███       | 3302/10682 [37:20<1:00:46,  2.02it/s] 31%|███       | 3303/10682 [37:21<1:00:41,  2.03it/s] 31%|███       | 3304/10682 [37:21<1:00:45,  2.02it/s] 31%|███       | 3305/10682 [37:22<1:00:42,  2.03it/s] 31%|███       | 3306/10682 [37:22<1:00:43,  2.02it/s] 31%|███       | 3307/10682 [37:23<1:00:40,  2.03it/s] 31%|███       | 3308/10682 [37:23<1:00:45,  2.02it/s] 31%|███       | 3309/10682 [37:23<1:00:38,  2.03it/s] 31%|███       | 3310/10682 [37:24<1:00:43,  2.02it/s] 31%|███       | 3311/10682 [37:24<1:00:42,  2.02it/s] 31%|███       | 3312/10682 [37:25<1:00:37,  2.03it/s] 31%|███       | 3313/10682 [37:25<1:00:33,  2.03it/s] 31%|███       | 3314/10682 [37:26<1:00:32,  2.03it/s] 31%|███       | 3315/10682 [37:26<1:00:30,  2.03it/s] 31%|███       | 3316/10682 [37:27<1:00:34,  2.03it/s] 31%|███       | 3317/10682 [37:27<1:00:36,  2.03it/s] 31%|███       | 3318/10682 [37:28<1:00:40,  2.02it/s] 31%|███       | 3319/10682 [37:28<1:00:39,  2.02it/s] 31%|███       | 3320/10682 [37:29<1:00:37,  2.02it/s] 31%|███       | 3321/10682 [37:29<1:00:36,  2.02it/s] 31%|███       | 3322/10682 [37:30<1:00:41,  2.02it/s] 31%|███       | 3323/10682 [37:30<1:01:42,  1.99it/s] 31%|███       | 3324/10682 [37:31<1:01:23,  2.00it/s] 31%|███       | 3325/10682 [37:31<1:01:17,  2.00it/s]                                                      {'loss': 3.835, 'grad_norm': 0.2155744582414627, 'learning_rate': 0.0008701513290879668, 'epoch': 0.31}
+ 31%|███       | 3325/10682 [37:31<1:01:17,  2.00it/s] 31%|███       | 3326/10682 [37:32<1:01:03,  2.01it/s] 31%|███       | 3327/10682 [37:32<1:00:51,  2.01it/s] 31%|███       | 3328/10682 [37:33<1:00:40,  2.02it/s] 31%|███       | 3329/10682 [37:33<1:00:32,  2.02it/s] 31%|███       | 3330/10682 [37:34<1:00:30,  2.02it/s] 31%|███       | 3331/10682 [37:34<1:00:28,  2.03it/s] 31%|███       | 3332/10682 [37:35<1:00:54,  2.01it/s] 31%|███       | 3333/10682 [37:35<1:00:51,  2.01it/s] 31%|███       | 3334/10682 [37:36<1:00:46,  2.01it/s] 31%|███       | 3335/10682 [37:36<1:01:26,  1.99it/s] 31%|███       | 3336/10682 [37:37<1:01:05,  2.00it/s] 31%|███       | 3337/10682 [37:37<1:00:55,  2.01it/s] 31%|███       | 3338/10682 [37:38<1:00:44,  2.02it/s] 31%|███▏      | 3339/10682 [37:38<1:00:40,  2.02it/s] 31%|███▏      | 3340/10682 [37:39<1:00:34,  2.02it/s] 31%|███▏      | 3341/10682 [37:39<1:00:37,  2.02it/s] 31%|███▏      | 3342/10682 [37:40<1:00:34,  2.02it/s] 31%|███▏      | 3343/10682 [37:40<1:00:24,  2.02it/s] 31%|███▏      | 3344/10682 [37:41<1:00:25,  2.02it/s] 31%|███▏      | 3345/10682 [37:41<1:00:20,  2.03it/s] 31%|███▏      | 3346/10682 [37:42<1:00:17,  2.03it/s] 31%|███▏      | 3347/10682 [37:42<1:00:18,  2.03it/s] 31%|███▏      | 3348/10682 [37:43<1:00:17,  2.03it/s] 31%|███▏      | 3349/10682 [37:43<1:00:14,  2.03it/s] 31%|███▏      | 3350/10682 [37:44<1:00:18,  2.03it/s]                                                      {'loss': 3.8357, 'grad_norm': 0.24934151768684387, 'learning_rate': 0.0008673927112327234, 'epoch': 0.31}
+ 31%|███▏      | 3350/10682 [37:44<1:00:18,  2.03it/s] 31%|███▏      | 3351/10682 [37:44<1:00:25,  2.02it/s] 31%|███▏      | 3352/10682 [37:45<1:00:29,  2.02it/s] 31%|███▏      | 3353/10682 [37:45<1:00:21,  2.02it/s] 31%|███▏      | 3354/10682 [37:46<1:00:29,  2.02it/s] 31%|███▏      | 3355/10682 [37:46<1:00:26,  2.02it/s] 31%|███▏      | 3356/10682 [37:47<1:00:25,  2.02it/s] 31%|███▏      | 3357/10682 [37:47<1:00:29,  2.02it/s] 31%|███▏      | 3358/10682 [37:48<1:00:23,  2.02it/s] 31%|███▏      | 3359/10682 [37:48<1:00:53,  2.00it/s] 31%|███▏      | 3360/10682 [37:49<1:00:38,  2.01it/s] 31%|███▏      | 3361/10682 [37:49<1:00:30,  2.02it/s] 31%|███▏      | 3362/10682 [37:50<1:00:23,  2.02it/s] 31%|███▏      | 3363/10682 [37:50<1:00:17,  2.02it/s] 31%|███▏      | 3364/10682 [37:51<1:00:20,  2.02it/s] 32%|███▏      | 3365/10682 [37:51<1:00:20,  2.02it/s] 32%|███▏      | 3366/10682 [37:52<1:00:24,  2.02it/s] 32%|███▏      | 3367/10682 [37:52<1:00:22,  2.02it/s] 32%|███▏      | 3368/10682 [37:53<1:00:27,  2.02it/s] 32%|███▏      | 3369/10682 [37:53<1:00:19,  2.02it/s] 32%|███▏      | 3370/10682 [37:54<1:00:20,  2.02it/s] 32%|███▏      | 3371/10682 [37:54<1:00:12,  2.02it/s] 32%|███▏      | 3372/10682 [37:55<1:00:09,  2.03it/s] 32%|███▏      | 3373/10682 [37:55<1:00:07,  2.03it/s] 32%|███▏      | 3374/10682 [37:56<1:00:04,  2.03it/s] 32%|███▏      | 3375/10682 [37:56<1:00:06,  2.03it/s]                                                      {'loss': 3.8294, 'grad_norm': 0.2154206782579422, 'learning_rate': 0.000864609569451406, 'epoch': 0.32}
+ 32%|███▏      | 3375/10682 [37:56<1:00:06,  2.03it/s] 32%|███▏      | 3376/10682 [37:57<1:00:05,  2.03it/s] 32%|███▏      | 3377/10682 [37:57<1:00:05,  2.03it/s] 32%|███▏      | 3378/10682 [37:58<1:00:00,  2.03it/s] 32%|███▏      | 3379/10682 [37:58<1:00:03,  2.03it/s] 32%|███▏      | 3380/10682 [37:59<1:00:03,  2.03it/s] 32%|███▏      | 3381/10682 [37:59<1:00:05,  2.03it/s] 32%|███▏      | 3382/10682 [38:00<1:00:06,  2.02it/s] 32%|███▏      | 3383/10682 [38:00<1:00:05,  2.02it/s] 32%|███▏      | 3384/10682 [38:01<1:00:07,  2.02it/s] 32%|███▏      | 3385/10682 [38:01<1:00:04,  2.02it/s] 32%|███▏      | 3386/10682 [38:02<1:00:07,  2.02it/s] 32%|███▏      | 3387/10682 [38:02<1:00:00,  2.03it/s] 32%|███▏      | 3388/10682 [38:03<1:00:01,  2.03it/s] 32%|███▏      | 3389/10682 [38:03<59:56,  2.03it/s]   32%|███▏      | 3390/10682 [38:04<59:54,  2.03it/s] 32%|███▏      | 3391/10682 [38:04<59:55,  2.03it/s] 32%|███▏      | 3392/10682 [38:05<59:52,  2.03it/s] 32%|███▏      | 3393/10682 [38:05<59:52,  2.03it/s] 32%|███▏      | 3394/10682 [38:06<59:53,  2.03it/s] 32%|███▏      | 3395/10682 [38:06<59:55,  2.03it/s] 32%|███▏      | 3396/10682 [38:07<59:56,  2.03it/s] 32%|███▏      | 3397/10682 [38:07<59:57,  2.03it/s] 32%|███▏      | 3398/10682 [38:08<59:56,  2.03it/s] 32%|███▏      | 3399/10682 [38:08<1:00:01,  2.02it/s] 32%|███▏      | 3400/10682 [38:09<1:00:01,  2.02it/s]{'loss': 3.8257, 'grad_norm': 0.22413703799247742, 'learning_rate': 0.0008618020895222331, 'epoch': 0.32}                                                      
+ 32%|███▏      | 3400/10682 [38:09<1:00:01,  2.02it/s] 32%|███▏      | 3401/10682 [38:09<1:00:18,  2.01it/s] 32%|███▏      | 3402/10682 [38:10<1:00:10,  2.02it/s] 32%|███▏      | 3403/10682 [38:10<1:00:11,  2.02it/s] 32%|███▏      | 3404/10682 [38:11<1:00:04,  2.02it/s] 32%|███▏      | 3405/10682 [38:11<1:00:09,  2.02it/s] 32%|███▏      | 3406/10682 [38:12<1:00:02,  2.02it/s] 32%|███▏      | 3407/10682 [38:12<59:58,  2.02it/s]   32%|███▏      | 3408/10682 [38:12<59:52,  2.02it/s] 32%|███▏      | 3409/10682 [38:13<1:00:40,  2.00it/s] 32%|███▏      | 3410/10682 [38:13<1:00:24,  2.01it/s] 32%|███▏      | 3411/10682 [38:14<1:00:14,  2.01it/s] 32%|███▏      | 3412/10682 [38:14<1:00:05,  2.02it/s] 32%|███▏      | 3413/10682 [38:15<1:00:58,  1.99it/s] 32%|███▏      | 3414/10682 [38:15<1:00:35,  2.00it/s] 32%|███▏      | 3415/10682 [38:16<1:00:18,  2.01it/s] 32%|███▏      | 3416/10682 [38:16<1:00:13,  2.01it/s] 32%|███▏      | 3417/10682 [38:17<1:00:02,  2.02it/s] 32%|███▏      | 3418/10682 [38:17<59:58,  2.02it/s]   32%|███▏      | 3419/10682 [38:18<59:52,  2.02it/s] 32%|███▏      | 3420/10682 [38:18<59:48,  2.02it/s] 32%|███▏      | 3421/10682 [38:19<59:53,  2.02it/s] 32%|███▏      | 3422/10682 [38:19<59:48,  2.02it/s] 32%|███▏      | 3423/10682 [38:20<59:50,  2.02it/s] 32%|███▏      | 3424/10682 [38:20<59:46,  2.02it/s] 32%|███▏      | 3425/10682 [38:21<59:49,  2.02it/s]{'loss': 3.8192, 'grad_norm': 0.2099374234676361, 'learning_rate': 0.0008589704588480251, 'epoch': 0.32}
+                                                     32%|███▏      | 3425/10682 [38:21<59:49,  2.02it/s] 32%|███▏      | 3426/10682 [38:21<1:00:04,  2.01it/s] 32%|███▏      | 3427/10682 [38:22<59:55,  2.02it/s]   32%|███▏      | 3428/10682 [38:22<59:50,  2.02it/s] 32%|███▏      | 3429/10682 [38:23<59:47,  2.02it/s] 32%|███▏      | 3430/10682 [38:23<59:39,  2.03it/s] 32%|███▏      | 3431/10682 [38:24<59:42,  2.02it/s] 32%|███▏      | 3432/10682 [38:24<59:38,  2.03it/s] 32%|███▏      | 3433/10682 [38:25<59:35,  2.03it/s] 32%|███▏      | 3434/10682 [38:25<59:40,  2.02it/s] 32%|███▏      | 3435/10682 [38:26<59:36,  2.03it/s] 32%|███▏      | 3436/10682 [38:26<59:43,  2.02it/s] 32%|███▏      | 3437/10682 [38:27<59:40,  2.02it/s] 32%|███▏      | 3438/10682 [38:27<59:42,  2.02it/s] 32%|███▏      | 3439/10682 [38:28<59:39,  2.02it/s] 32%|███▏      | 3440/10682 [38:28<59:40,  2.02it/s] 32%|███▏      | 3441/10682 [38:29<59:43,  2.02it/s] 32%|███▏      | 3442/10682 [38:29<59:45,  2.02it/s] 32%|███▏      | 3443/10682 [38:30<59:41,  2.02it/s] 32%|███▏      | 3444/10682 [38:30<59:38,  2.02it/s] 32%|███▏      | 3445/10682 [38:31<59:37,  2.02it/s] 32%|███▏      | 3446/10682 [38:31<59:32,  2.03it/s] 32%|███▏      | 3447/10682 [38:32<59:33,  2.02it/s] 32%|███▏      | 3448/10682 [38:32<59:27,  2.03it/s] 32%|███▏      | 3449/10682 [38:33<59:26,  2.03it/s] 32%|███▏      | 3450/10682 [38:33<59:27,  2.03it/s]                                                    {'loss': 3.8278, 'grad_norm': 0.21678951382637024, 'learning_rate': 0.0008561148664436948, 'epoch': 0.32}
+ 32%|███▏      | 3450/10682 [38:33<59:27,  2.03it/s] 32%|███▏      | 3451/10682 [38:34<59:31,  2.02it/s] 32%|███▏      | 3452/10682 [38:34<59:28,  2.03it/s] 32%|███▏      | 3453/10682 [38:35<59:33,  2.02it/s] 32%|███▏      | 3454/10682 [38:35<59:32,  2.02it/s] 32%|███▏      | 3455/10682 [38:36<59:32,  2.02it/s] 32%|███▏      | 3456/10682 [38:36<59:34,  2.02it/s] 32%|███▏      | 3457/10682 [38:37<59:35,  2.02it/s] 32%|███▏      | 3458/10682 [38:37<59:33,  2.02it/s] 32%|███▏      | 3459/10682 [38:38<59:31,  2.02it/s] 32%|███▏      | 3460/10682 [38:38<1:00:41,  1.98it/s] 32%|███▏      | 3461/10682 [38:39<1:00:19,  1.99it/s] 32%|███▏      | 3462/10682 [38:39<1:00:07,  2.00it/s] 32%|███▏      | 3463/10682 [38:40<59:57,  2.01it/s]   32%|███▏      | 3464/10682 [38:40<59:45,  2.01it/s] 32%|███▏      | 3465/10682 [38:41<59:38,  2.02it/s] 32%|███▏      | 3466/10682 [38:41<59:27,  2.02it/s] 32%|███▏      | 3467/10682 [38:42<59:26,  2.02it/s] 32%|███▏      | 3468/10682 [38:42<59:18,  2.03it/s] 32%|███▏      | 3469/10682 [38:43<59:14,  2.03it/s] 32%|███▏      | 3470/10682 [38:43<59:13,  2.03it/s] 32%|███▏      | 3471/10682 [38:44<59:12,  2.03it/s] 33%|███▎      | 3472/10682 [38:44<59:13,  2.03it/s] 33%|███▎      | 3473/10682 [38:45<59:14,  2.03it/s] 33%|███▎      | 3474/10682 [38:45<59:17,  2.03it/s] 33%|███▎      | 3475/10682 [38:46<59:19,  2.02it/s]                                                    {'loss': 3.8203, 'grad_norm': 0.20912215113639832, 'learning_rate': 0.0008532355029236307, 'epoch': 0.33}
+ 33%|███▎      | 3475/10682 [38:46<59:19,  2.02it/s] 33%|███▎      | 3476/10682 [38:46<59:30,  2.02it/s] 33%|███▎      | 3477/10682 [38:47<59:28,  2.02it/s] 33%|███▎      | 3478/10682 [38:47<59:27,  2.02it/s] 33%|███▎      | 3479/10682 [38:48<59:24,  2.02it/s] 33%|███▎      | 3480/10682 [38:48<59:18,  2.02it/s] 33%|███▎      | 3481/10682 [38:49<59:21,  2.02it/s] 33%|███▎      | 3482/10682 [38:49<59:16,  2.02it/s] 33%|███▎      | 3483/10682 [38:50<59:13,  2.03it/s] 33%|███▎      | 3484/10682 [38:50<59:15,  2.02it/s] 33%|███▎      | 3485/10682 [38:51<59:09,  2.03it/s] 33%|███▎      | 3486/10682 [38:51<59:10,  2.03it/s] 33%|███▎      | 3487/10682 [38:52<59:09,  2.03it/s] 33%|███▎      | 3488/10682 [38:52<59:07,  2.03it/s] 33%|███▎      | 3489/10682 [38:53<59:05,  2.03it/s] 33%|███▎      | 3490/10682 [38:53<59:06,  2.03it/s] 33%|███▎      | 3491/10682 [38:54<59:05,  2.03it/s] 33%|███▎      | 3492/10682 [38:54<59:11,  2.02it/s] 33%|███▎      | 3493/10682 [38:55<59:11,  2.02it/s] 33%|███▎      | 3494/10682 [38:55<59:11,  2.02it/s] 33%|███▎      | 3495/10682 [38:56<59:13,  2.02it/s] 33%|███▎      | 3496/10682 [38:56<59:12,  2.02it/s] 33%|███▎      | 3497/10682 [38:57<59:10,  2.02it/s] 33%|███▎      | 3498/10682 [38:57<59:05,  2.03it/s] 33%|███▎      | 3499/10682 [38:58<59:02,  2.03it/s] 33%|███▎      | 3500/10682 [38:58<59:01,  2.03it/s]{'loss': 3.8237, 'grad_norm': 0.21167610585689545, 'learning_rate': 0.0008503325604889736, 'epoch': 0.33}
+                                                     33%|███▎      | 3500/10682 [38:58<59:01,  2.03it/s] 33%|███▎      | 3501/10682 [38:59<59:16,  2.02it/s] 33%|███▎      | 3502/10682 [38:59<59:10,  2.02it/s] 33%|███▎      | 3503/10682 [38:59<59:06,  2.02it/s] 33%|███▎      | 3504/10682 [39:00<59:06,  2.02it/s] 33%|███▎      | 3505/10682 [39:00<59:02,  2.03it/s] 33%|███▎      | 3506/10682 [39:01<59:05,  2.02it/s] 33%|███▎      | 3507/10682 [39:01<59:02,  2.03it/s] 33%|███▎      | 3508/10682 [39:02<59:04,  2.02it/s] 33%|███▎      | 3509/10682 [39:02<59:02,  2.02it/s] 33%|███▎      | 3510/10682 [39:03<59:06,  2.02it/s] 33%|███▎      | 3511/10682 [39:03<59:03,  2.02it/s] 33%|███▎      | 3512/10682 [39:04<59:02,  2.02it/s] 33%|███▎      | 3513/10682 [39:04<59:03,  2.02it/s] 33%|███▎      | 3514/10682 [39:05<59:06,  2.02it/s] 33%|███▎      | 3515/10682 [39:05<59:03,  2.02it/s] 33%|███▎      | 3516/10682 [39:06<59:07,  2.02it/s] 33%|███▎      | 3517/10682 [39:06<59:00,  2.02it/s] 33%|███▎      | 3518/10682 [39:07<58:57,  2.03it/s] 33%|███▎      | 3519/10682 [39:07<58:56,  2.03it/s] 33%|███▎      | 3520/10682 [39:08<58:51,  2.03it/s] 33%|███▎      | 3521/10682 [39:08<58:54,  2.03it/s] 33%|███▎      | 3522/10682 [39:09<58:49,  2.03it/s] 33%|███▎      | 3523/10682 [39:09<58:52,  2.03it/s] 33%|███▎      | 3524/10682 [39:10<58:51,  2.03it/s] 33%|███▎      | 3525/10682 [39:10<58:52,  2.03it/s]{'loss': 3.8154, 'grad_norm': 0.2184903770685196, 'learning_rate': 0.0008474062329147856, 'epoch': 0.33}
+                                                     33%|███▎      | 3525/10682 [39:10<58:52,  2.03it/s] 33%|███▎      | 3526/10682 [39:11<58:57,  2.02it/s] 33%|███▎      | 3527/10682 [39:11<58:54,  2.02it/s] 33%|███▎      | 3528/10682 [39:12<58:57,  2.02it/s] 33%|███▎      | 3529/10682 [39:12<58:55,  2.02it/s] 33%|███▎      | 3530/10682 [39:13<58:57,  2.02it/s] 33%|███▎      | 3531/10682 [39:13<58:55,  2.02it/s] 33%|███▎      | 3532/10682 [39:14<58:53,  2.02it/s] 33%|███▎      | 3533/10682 [39:14<58:51,  2.02it/s] 33%|███▎      | 3534/10682 [39:15<58:50,  2.02it/s] 33%|███▎      | 3535/10682 [39:15<58:49,  2.02it/s] 33%|███▎      | 3536/10682 [39:16<58:46,  2.03it/s] 33%|███▎      | 3537/10682 [39:16<58:43,  2.03it/s] 33%|███▎      | 3538/10682 [39:17<58:40,  2.03it/s] 33%|███▎      | 3539/10682 [39:17<58:41,  2.03it/s] 33%|███▎      | 3540/10682 [39:18<58:40,  2.03it/s] 33%|███▎      | 3541/10682 [39:18<58:45,  2.03it/s] 33%|███▎      | 3542/10682 [39:19<58:43,  2.03it/s] 33%|███▎      | 3543/10682 [39:19<58:44,  2.03it/s] 33%|███▎      | 3544/10682 [39:20<58:44,  2.03it/s] 33%|███▎      | 3545/10682 [39:20<58:43,  2.03it/s] 33%|███▎      | 3546/10682 [39:21<58:48,  2.02it/s] 33%|███▎      | 3547/10682 [39:21<58:44,  2.02it/s] 33%|███▎      | 3548/10682 [39:22<58:46,  2.02it/s] 33%|███▎      | 3549/10682 [39:22<58:41,  2.03it/s] 33%|███▎      | 3550/10682 [39:23<58:39,  2.03it/s]                                                    {'loss': 3.8138, 'grad_norm': 0.20994342863559723, 'learning_rate': 0.0008444567155371176, 'epoch': 0.33}
+ 33%|███▎      | 3550/10682 [39:23<58:39,  2.03it/s] 33%|███▎      | 3551/10682 [39:23<58:44,  2.02it/s] 33%|███▎      | 3552/10682 [39:24<58:39,  2.03it/s] 33%|███▎      | 3553/10682 [39:24<58:42,  2.02it/s] 33%|███▎      | 3554/10682 [39:25<58:37,  2.03it/s] 33%|███▎      | 3555/10682 [39:25<58:36,  2.03it/s] 33%|███▎      | 3556/10682 [39:26<58:36,  2.03it/s] 33%|███▎      | 3557/10682 [39:26<58:31,  2.03it/s] 33%|███▎      | 3558/10682 [39:27<58:37,  2.03it/s] 33%|███▎      | 3559/10682 [39:27<58:36,  2.03it/s] 33%|███▎      | 3560/10682 [39:28<58:40,  2.02it/s] 33%|███▎      | 3561/10682 [39:28<58:36,  2.02it/s] 33%|███▎      | 3562/10682 [39:29<58:40,  2.02it/s] 33%|███▎      | 3563/10682 [39:29<58:36,  2.02it/s] 33%|███▎      | 3564/10682 [39:30<58:42,  2.02it/s] 33%|███▎      | 3565/10682 [39:30<58:38,  2.02it/s] 33%|███▎      | 3566/10682 [39:31<58:36,  2.02it/s] 33%|███▎      | 3567/10682 [39:31<58:31,  2.03it/s] 33%|███▎      | 3568/10682 [39:32<58:29,  2.03it/s] 33%|███▎      | 3569/10682 [39:32<58:29,  2.03it/s] 33%|███▎      | 3570/10682 [39:33<58:24,  2.03it/s] 33%|███▎      | 3571/10682 [39:33<58:22,  2.03it/s] 33%|███▎      | 3572/10682 [39:34<58:26,  2.03it/s] 33%|███▎      | 3573/10682 [39:34<58:23,  2.03it/s] 33%|███▎      | 3574/10682 [39:35<58:28,  2.03it/s] 33%|███▎      | 3575/10682 [39:35<58:24,  2.03it/s]{'loss': 3.8171, 'grad_norm': 0.2132197916507721, 'learning_rate': 0.000841484205239968, 'epoch': 0.33}
+                                                     33%|███▎      | 3575/10682 [39:35<58:24,  2.03it/s] 33%|███▎      | 3576/10682 [39:36<58:35,  2.02it/s] 33%|███▎      | 3577/10682 [39:36<58:33,  2.02it/s] 33%|███▎      | 3578/10682 [39:37<58:36,  2.02it/s] 34%|███▎      | 3579/10682 [39:37<58:30,  2.02it/s] 34%|███▎      | 3580/10682 [39:38<58:27,  2.02it/s] 34%|███▎      | 3581/10682 [39:38<58:31,  2.02it/s] 34%|███▎      | 3582/10682 [39:39<58:26,  2.02it/s] 34%|███▎      | 3583/10682 [39:39<58:29,  2.02it/s] 34%|███▎      | 3584/10682 [39:40<58:29,  2.02it/s] 34%|███▎      | 3585/10682 [39:40<58:29,  2.02it/s] 34%|███▎      | 3586/10682 [39:40<58:24,  2.02it/s] 34%|███▎      | 3587/10682 [39:41<58:22,  2.03it/s] 34%|███▎      | 3588/10682 [39:41<58:20,  2.03it/s] 34%|███▎      | 3589/10682 [39:42<58:19,  2.03it/s] 34%|███▎      | 3590/10682 [39:42<58:17,  2.03it/s] 34%|███▎      | 3591/10682 [39:43<58:17,  2.03it/s] 34%|███▎      | 3592/10682 [39:43<58:16,  2.03it/s] 34%|███▎      | 3593/10682 [39:44<58:19,  2.03it/s] 34%|███▎      | 3594/10682 [39:44<58:21,  2.02it/s] 34%|███▎      | 3595/10682 [39:45<58:23,  2.02it/s] 34%|███▎      | 3596/10682 [39:45<58:25,  2.02it/s] 34%|███▎      | 3597/10682 [39:46<58:21,  2.02it/s] 34%|███▎      | 3598/10682 [39:46<58:23,  2.02it/s] 34%|███▎      | 3599/10682 [39:47<58:20,  2.02it/s] 34%|███▎      | 3600/10682 [39:47<58:26,  2.02it/s]{'loss': 3.8109, 'grad_norm': 0.21462371945381165, 'learning_rate': 0.0008384889004421422, 'epoch': 0.34}                                                    
+ 34%|███▎      | 3600/10682 [39:47<58:26,  2.02it/s] 34%|███▎      | 3601/10682 [39:48<58:29,  2.02it/s] 34%|███▎      | 3602/10682 [39:48<58:31,  2.02it/s] 34%|███▎      | 3603/10682 [39:49<58:25,  2.02it/s] 34%|███▎      | 3604/10682 [39:49<58:22,  2.02it/s] 34%|███▎      | 3605/10682 [39:50<58:14,  2.03it/s] 34%|███▍      | 3606/10682 [39:50<58:14,  2.02it/s] 34%|███▍      | 3607/10682 [39:51<58:15,  2.02it/s] 34%|███▍      | 3608/10682 [39:51<58:13,  2.02it/s] 34%|███▍      | 3609/10682 [39:52<58:15,  2.02it/s] 34%|███▍      | 3610/10682 [39:52<58:11,  2.03it/s] 34%|███▍      | 3611/10682 [39:53<58:15,  2.02it/s] 34%|███▍      | 3612/10682 [39:53<58:11,  2.02it/s] 34%|███▍      | 3613/10682 [39:54<58:16,  2.02it/s] 34%|███▍      | 3614/10682 [39:54<58:51,  2.00it/s] 34%|███▍      | 3615/10682 [39:55<58:38,  2.01it/s] 34%|███▍      | 3616/10682 [39:55<58:27,  2.01it/s] 34%|███▍      | 3617/10682 [39:56<58:17,  2.02it/s] 34%|███▍      | 3618/10682 [39:56<58:13,  2.02it/s] 34%|███▍      | 3619/10682 [39:57<58:11,  2.02it/s] 34%|███▍      | 3620/10682 [39:57<58:07,  2.02it/s] 34%|███▍      | 3621/10682 [39:58<58:11,  2.02it/s] 34%|███▍      | 3622/10682 [39:58<58:05,  2.03it/s] 34%|███▍      | 3623/10682 [39:59<58:03,  2.03it/s] 34%|███▍      | 3624/10682 [39:59<58:07,  2.02it/s] 34%|███▍      | 3625/10682 [40:00<58:08,  2.02it/s]{'loss': 3.8123, 'grad_norm': 0.21379005908966064, 'learning_rate': 0.0008354710010840066, 'epoch': 0.34}
+                                                     34%|███▍      | 3625/10682 [40:00<58:08,  2.02it/s] 34%|███▍      | 3626/10682 [40:00<58:14,  2.02it/s] 34%|███▍      | 3627/10682 [40:01<58:09,  2.02it/s] 34%|███▍      | 3628/10682 [40:01<58:08,  2.02it/s] 34%|███▍      | 3629/10682 [40:02<58:02,  2.03it/s] 34%|███▍      | 3630/10682 [40:02<58:03,  2.02it/s] 34%|███▍      | 3631/10682 [40:03<58:05,  2.02it/s] 34%|███▍      | 3632/10682 [40:03<58:08,  2.02it/s] 34%|███▍      | 3633/10682 [40:04<58:07,  2.02it/s] 34%|███▍      | 3634/10682 [40:04<58:03,  2.02it/s] 34%|███▍      | 3635/10682 [40:05<58:04,  2.02it/s] 34%|███▍      | 3636/10682 [40:05<58:00,  2.02it/s] 34%|███▍      | 3637/10682 [40:06<57:59,  2.02it/s] 34%|███▍      | 3638/10682 [40:06<57:59,  2.02it/s] 34%|███▍      | 3639/10682 [40:07<57:57,  2.03it/s] 34%|███▍      | 3640/10682 [40:07<57:56,  2.03it/s] 34%|███▍      | 3641/10682 [40:08<57:57,  2.02it/s] 34%|███▍      | 3642/10682 [40:08<57:58,  2.02it/s] 34%|███▍      | 3643/10682 [40:09<58:00,  2.02it/s] 34%|███▍      | 3644/10682 [40:09<58:01,  2.02it/s] 34%|███▍      | 3645/10682 [40:10<57:57,  2.02it/s] 34%|███▍      | 3646/10682 [40:10<58:01,  2.02it/s] 34%|███▍      | 3647/10682 [40:11<57:56,  2.02it/s] 34%|███▍      | 3648/10682 [40:11<58:00,  2.02it/s] 34%|███▍      | 3649/10682 [40:12<57:52,  2.03it/s] 34%|███▍      | 3650/10682 [40:12<57:50,  2.03it/s]                                                    {'loss': 3.8053, 'grad_norm': 0.22371667623519897, 'learning_rate': 0.0008324307086141438, 'epoch': 0.34}
+ 34%|███▍      | 3650/10682 [40:12<57:50,  2.03it/s] 34%|███▍      | 3651/10682 [40:13<57:54,  2.02it/s] 34%|███▍      | 3652/10682 [40:13<57:50,  2.03it/s] 34%|███▍      | 3653/10682 [40:14<57:50,  2.03it/s] 34%|███▍      | 3654/10682 [40:14<57:48,  2.03it/s] 34%|███▍      | 3655/10682 [40:15<57:52,  2.02it/s] 34%|███▍      | 3656/10682 [40:15<57:50,  2.02it/s] 34%|███▍      | 3657/10682 [40:16<57:53,  2.02it/s] 34%|███▍      | 3658/10682 [40:16<57:52,  2.02it/s] 34%|███▍      | 3659/10682 [40:17<57:57,  2.02it/s] 34%|███▍      | 3660/10682 [40:17<57:49,  2.02it/s] 34%|███▍      | 3661/10682 [40:18<57:52,  2.02it/s] 34%|███▍      | 3662/10682 [40:18<57:43,  2.03it/s] 34%|███▍      | 3663/10682 [40:19<57:47,  2.02it/s] 34%|███▍      | 3664/10682 [40:19<57:42,  2.03it/s] 34%|███▍      | 3665/10682 [40:20<57:41,  2.03it/s] 34%|███▍      | 3666/10682 [40:20<57:41,  2.03it/s] 34%|███▍      | 3667/10682 [40:21<57:43,  2.03it/s] 34%|███▍      | 3668/10682 [40:21<57:47,  2.02it/s] 34%|███▍      | 3669/10682 [40:22<57:43,  2.02it/s] 34%|███▍      | 3670/10682 [40:22<57:45,  2.02it/s] 34%|███▍      | 3671/10682 [40:23<57:43,  2.02it/s] 34%|███▍      | 3672/10682 [40:23<57:43,  2.02it/s] 34%|███▍      | 3673/10682 [40:23<57:42,  2.02it/s] 34%|███▍      | 3674/10682 [40:24<57:43,  2.02it/s] 34%|███▍      | 3675/10682 [40:24<57:48,  2.02it/s]{'loss': 3.7987, 'grad_norm': 0.22125689685344696, 'learning_rate': 0.000829368225975904, 'epoch': 0.34}                                                    
+ 34%|███▍      | 3675/10682 [40:24<57:48,  2.02it/s] 34%|███▍      | 3676/10682 [40:25<57:49,  2.02it/s] 34%|███▍      | 3677/10682 [40:25<57:42,  2.02it/s] 34%|███▍      | 3678/10682 [40:26<57:39,  2.02it/s] 34%|███▍      | 3679/10682 [40:26<57:34,  2.03it/s] 34%|███▍      | 3680/10682 [40:27<57:36,  2.03it/s] 34%|███▍      | 3681/10682 [40:27<57:41,  2.02it/s] 34%|███▍      | 3682/10682 [40:28<57:38,  2.02it/s] 34%|███▍      | 3683/10682 [40:28<57:39,  2.02it/s] 34%|███▍      | 3684/10682 [40:29<57:35,  2.03it/s] 34%|███▍      | 3685/10682 [40:29<57:39,  2.02it/s] 35%|███▍      | 3686/10682 [40:30<57:43,  2.02it/s] 35%|███▍      | 3687/10682 [40:30<57:41,  2.02it/s] 35%|███▍      | 3688/10682 [40:31<57:43,  2.02it/s] 35%|███▍      | 3689/10682 [40:31<57:46,  2.02it/s] 35%|███▍      | 3690/10682 [40:32<57:42,  2.02it/s] 35%|███▍      | 3691/10682 [40:32<57:46,  2.02it/s] 35%|███▍      | 3692/10682 [40:33<57:42,  2.02it/s] 35%|███▍      | 3693/10682 [40:33<57:37,  2.02it/s] 35%|███▍      | 3694/10682 [40:34<57:32,  2.02it/s] 35%|███▍      | 3695/10682 [40:34<57:33,  2.02it/s] 35%|███▍      | 3696/10682 [40:35<57:27,  2.03it/s] 35%|███▍      | 3697/10682 [40:35<57:29,  2.03it/s] 35%|███▍      | 3698/10682 [40:36<57:30,  2.02it/s] 35%|███▍      | 3699/10682 [40:36<57:26,  2.03it/s] 35%|███▍      | 3700/10682 [40:37<57:28,  2.02it/s]{'loss': 3.7998, 'grad_norm': 0.21790093183517456, 'learning_rate': 0.0008262837575938593, 'epoch': 0.35}
+                                                     35%|███▍      | 3700/10682 [40:37<57:28,  2.02it/s] 35%|███▍      | 3701/10682 [40:37<57:32,  2.02it/s] 35%|███▍      | 3702/10682 [40:38<57:38,  2.02it/s] 35%|███▍      | 3703/10682 [40:38<58:35,  1.99it/s] 35%|███▍      | 3704/10682 [40:39<58:15,  2.00it/s] 35%|███▍      | 3705/10682 [40:39<58:00,  2.00it/s] 35%|███▍      | 3706/10682 [40:40<57:44,  2.01it/s] 35%|███▍      | 3707/10682 [40:40<57:36,  2.02it/s] 35%|███▍      | 3708/10682 [40:41<57:30,  2.02it/s] 35%|███▍      | 3709/10682 [40:41<57:24,  2.02it/s] 35%|███▍      | 3710/10682 [40:42<57:20,  2.03it/s] 35%|███▍      | 3711/10682 [40:42<57:20,  2.03it/s] 35%|███▍      | 3712/10682 [40:43<57:18,  2.03it/s] 35%|███▍      | 3713/10682 [40:43<57:20,  2.03it/s] 35%|███▍      | 3714/10682 [40:44<57:25,  2.02it/s] 35%|███▍      | 3715/10682 [40:44<57:26,  2.02it/s] 35%|███▍      | 3716/10682 [40:45<57:21,  2.02it/s] 35%|███▍      | 3717/10682 [40:45<57:23,  2.02it/s] 35%|███▍      | 3718/10682 [40:46<57:22,  2.02it/s] 35%|███▍      | 3719/10682 [40:46<57:31,  2.02it/s] 35%|███▍      | 3720/10682 [40:47<57:23,  2.02it/s] 35%|███▍      | 3721/10682 [40:47<57:25,  2.02it/s] 35%|███▍      | 3722/10682 [40:48<57:17,  2.02it/s] 35%|███▍      | 3723/10682 [40:48<57:20,  2.02it/s] 35%|███▍      | 3724/10682 [40:49<57:15,  2.03it/s] 35%|███▍      | 3725/10682 [40:49<57:16,  2.02it/s]                                                    {'loss': 3.8076, 'grad_norm': 0.2062297761440277, 'learning_rate': 0.0008231775093601584, 'epoch': 0.35}
+ 35%|███▍      | 3725/10682 [40:49<57:16,  2.02it/s] 35%|███▍      | 3726/10682 [40:50<57:15,  2.02it/s] 35%|███▍      | 3727/10682 [40:50<57:11,  2.03it/s] 35%|███▍      | 3728/10682 [40:51<57:11,  2.03it/s] 35%|███▍      | 3729/10682 [40:51<57:05,  2.03it/s] 35%|███▍      | 3730/10682 [40:52<57:16,  2.02it/s] 35%|███▍      | 3731/10682 [40:52<57:14,  2.02it/s] 35%|███▍      | 3732/10682 [40:53<57:12,  2.02it/s] 35%|███▍      | 3733/10682 [40:53<57:13,  2.02it/s] 35%|███▍      | 3734/10682 [40:54<57:28,  2.01it/s] 35%|███▍      | 3735/10682 [40:54<57:34,  2.01it/s] 35%|███▍      | 3736/10682 [40:55<57:26,  2.02it/s] 35%|███▍      | 3737/10682 [40:55<57:22,  2.02it/s] 35%|███▍      | 3738/10682 [40:56<57:14,  2.02it/s] 35%|███▌      | 3739/10682 [40:56<57:10,  2.02it/s] 35%|███▌      | 3740/10682 [40:57<57:09,  2.02it/s] 35%|███▌      | 3741/10682 [40:57<57:06,  2.03it/s] 35%|███▌      | 3742/10682 [40:58<57:04,  2.03it/s] 35%|███▌      | 3743/10682 [40:58<57:00,  2.03it/s] 35%|███▌      | 3744/10682 [40:59<56:58,  2.03it/s] 35%|███▌      | 3745/10682 [40:59<57:02,  2.03it/s] 35%|███▌      | 3746/10682 [41:00<57:09,  2.02it/s] 35%|███▌      | 3747/10682 [41:00<57:08,  2.02it/s] 35%|███▌      | 3748/10682 [41:01<57:08,  2.02it/s] 35%|███▌      | 3749/10682 [41:01<57:06,  2.02it/s] 35%|███▌      | 3750/10682 [41:02<57:00,  2.03it/s]{'loss': 3.8052, 'grad_norm': 0.20749959349632263, 'learning_rate': 0.0008200496886207818, 'epoch': 0.35}
+                                                     35%|███▌      | 3750/10682 [41:02<57:00,  2.03it/s] 35%|███▌      | 3751/10682 [41:02<57:13,  2.02it/s] 35%|███▌      | 3752/10682 [41:03<57:08,  2.02it/s] 35%|███▌      | 3753/10682 [41:03<57:10,  2.02it/s] 35%|███▌      | 3754/10682 [41:04<57:07,  2.02it/s] 35%|███▌      | 3755/10682 [41:04<57:06,  2.02it/s] 35%|███▌      | 3756/10682 [41:05<57:43,  2.00it/s] 35%|███▌      | 3757/10682 [41:05<57:29,  2.01it/s] 35%|███▌      | 3758/10682 [41:06<57:20,  2.01it/s] 35%|███▌      | 3759/10682 [41:06<57:13,  2.02it/s] 35%|███▌      | 3760/10682 [41:07<57:04,  2.02it/s] 35%|███▌      | 3761/10682 [41:07<57:02,  2.02it/s] 35%|███▌      | 3762/10682 [41:08<56:58,  2.02it/s] 35%|███▌      | 3763/10682 [41:08<56:59,  2.02it/s] 35%|███▌      | 3764/10682 [41:09<57:06,  2.02it/s] 35%|███▌      | 3765/10682 [41:09<57:01,  2.02it/s] 35%|███▌      | 3766/10682 [41:10<57:03,  2.02it/s] 35%|███▌      | 3767/10682 [41:10<57:01,  2.02it/s] 35%|███▌      | 3768/10682 [41:10<57:04,  2.02it/s] 35%|███▌      | 3769/10682 [41:11<57:03,  2.02it/s] 35%|███▌      | 3770/10682 [41:11<57:03,  2.02it/s] 35%|███▌      | 3771/10682 [41:12<57:00,  2.02it/s] 35%|███▌      | 3772/10682 [41:12<57:00,  2.02it/s] 35%|███▌      | 3773/10682 [41:13<56:59,  2.02it/s] 35%|███▌      | 3774/10682 [41:13<57:00,  2.02it/s] 35%|███▌      | 3775/10682 [41:14<56:53,  2.02it/s]                                                    {'loss': 3.7968, 'grad_norm': 0.20821678638458252, 'learning_rate': 0.0008169005041617021, 'epoch': 0.35}
+ 35%|███▌      | 3775/10682 [41:14<56:53,  2.02it/s] 35%|███▌      | 3776/10682 [41:14<56:59,  2.02it/s] 35%|███▌      | 3777/10682 [41:15<56:59,  2.02it/s] 35%|███▌      | 3778/10682 [41:15<57:08,  2.01it/s] 35%|███▌      | 3779/10682 [41:16<57:03,  2.02it/s] 35%|███▌      | 3780/10682 [41:16<56:59,  2.02it/s] 35%|███▌      | 3781/10682 [41:17<56:53,  2.02it/s] 35%|███▌      | 3782/10682 [41:17<56:49,  2.02it/s] 35%|███▌      | 3783/10682 [41:18<56:47,  2.02it/s] 35%|███▌      | 3784/10682 [41:18<56:49,  2.02it/s] 35%|███▌      | 3785/10682 [41:19<56:44,  2.03it/s] 35%|███▌      | 3786/10682 [41:19<56:49,  2.02it/s] 35%|███▌      | 3787/10682 [41:20<56:48,  2.02it/s] 35%|███▌      | 3788/10682 [41:20<56:52,  2.02it/s] 35%|███▌      | 3789/10682 [41:21<56:49,  2.02it/s] 35%|███▌      | 3790/10682 [41:21<56:50,  2.02it/s] 35%|███▌      | 3791/10682 [41:22<56:48,  2.02it/s] 35%|███▌      | 3792/10682 [41:22<56:51,  2.02it/s] 36%|███▌      | 3793/10682 [41:23<56:42,  2.02it/s] 36%|███▌      | 3794/10682 [41:23<56:43,  2.02it/s] 36%|███▌      | 3795/10682 [41:24<56:39,  2.03it/s] 36%|███▌      | 3796/10682 [41:24<56:38,  2.03it/s] 36%|███▌      | 3797/10682 [41:25<56:37,  2.03it/s] 36%|███▌      | 3798/10682 [41:25<56:30,  2.03it/s] 36%|███▌      | 3799/10682 [41:26<56:30,  2.03it/s] 36%|███▌      | 3800/10682 [41:26<56:29,  2.03it/s]{'loss': 3.7905, 'grad_norm': 0.2175537347793579, 'learning_rate': 0.0008137301661949477, 'epoch': 0.36}                                                    
+ 36%|███▌      | 3800/10682 [41:26<56:29,  2.03it/s] 36%|███▌      | 3801/10682 [41:27<56:35,  2.03it/s] 36%|███▌      | 3802/10682 [41:27<56:34,  2.03it/s] 36%|███▌      | 3803/10682 [41:28<56:32,  2.03it/s] 36%|███▌      | 3804/10682 [41:28<56:35,  2.03it/s] 36%|███▌      | 3805/10682 [41:29<56:37,  2.02it/s] 36%|███▌      | 3806/10682 [41:29<56:38,  2.02it/s] 36%|███▌      | 3807/10682 [41:30<56:35,  2.02it/s] 36%|███▌      | 3808/10682 [41:30<56:39,  2.02it/s] 36%|███▌      | 3809/10682 [41:31<56:38,  2.02it/s] 36%|███▌      | 3810/10682 [41:31<56:38,  2.02it/s] 36%|███▌      | 3811/10682 [41:32<56:33,  2.02it/s] 36%|███▌      | 3812/10682 [41:32<56:34,  2.02it/s] 36%|███▌      | 3813/10682 [41:33<56:30,  2.03it/s] 36%|███▌      | 3814/10682 [41:33<56:29,  2.03it/s] 36%|███▌      | 3815/10682 [41:34<56:28,  2.03it/s] 36%|███▌      | 3816/10682 [41:34<56:28,  2.03it/s] 36%|███▌      | 3817/10682 [41:35<56:28,  2.03it/s] 36%|███▌      | 3818/10682 [41:35<56:26,  2.03it/s] 36%|███▌      | 3819/10682 [41:36<56:27,  2.03it/s] 36%|███▌      | 3820/10682 [41:36<56:36,  2.02it/s] 36%|███▌      | 3821/10682 [41:37<56:41,  2.02it/s] 36%|███▌      | 3822/10682 [41:37<56:46,  2.01it/s] 36%|███▌      | 3823/10682 [41:38<56:39,  2.02it/s] 36%|███▌      | 3824/10682 [41:38<56:37,  2.02it/s] 36%|███▌      | 3825/10682 [41:39<56:32,  2.02it/s]                                                    {'loss': 3.7812, 'grad_norm': 0.20536939799785614, 'learning_rate': 0.0008105388863445693, 'epoch': 0.36}
+ 36%|███▌      | 3825/10682 [41:39<56:32,  2.02it/s] 36%|███▌      | 3826/10682 [41:39<56:34,  2.02it/s] 36%|███▌      | 3827/10682 [41:40<56:32,  2.02it/s] 36%|███▌      | 3828/10682 [41:40<56:32,  2.02it/s] 36%|███▌      | 3829/10682 [41:41<56:30,  2.02it/s] 36%|███▌      | 3830/10682 [41:41<56:29,  2.02it/s] 36%|███▌      | 3831/10682 [41:42<56:31,  2.02it/s] 36%|███▌      | 3832/10682 [41:42<56:28,  2.02it/s] 36%|███▌      | 3833/10682 [41:43<56:34,  2.02it/s] 36%|███▌      | 3834/10682 [41:43<56:29,  2.02it/s] 36%|███▌      | 3835/10682 [41:44<56:30,  2.02it/s] 36%|███▌      | 3836/10682 [41:44<56:25,  2.02it/s] 36%|███▌      | 3837/10682 [41:45<56:33,  2.02it/s] 36%|███▌      | 3838/10682 [41:45<56:26,  2.02it/s] 36%|███▌      | 3839/10682 [41:46<56:23,  2.02it/s] 36%|███▌      | 3840/10682 [41:46<56:19,  2.02it/s] 36%|███▌      | 3841/10682 [41:47<56:21,  2.02it/s] 36%|███▌      | 3842/10682 [41:47<56:24,  2.02it/s] 36%|███▌      | 3843/10682 [41:48<56:22,  2.02it/s] 36%|███▌      | 3844/10682 [41:48<56:24,  2.02it/s] 36%|███▌      | 3845/10682 [41:49<56:23,  2.02it/s] 36%|███▌      | 3846/10682 [41:49<56:21,  2.02it/s] 36%|███▌      | 3847/10682 [41:50<56:16,  2.02it/s] 36%|███▌      | 3848/10682 [41:50<56:18,  2.02it/s] 36%|███▌      | 3849/10682 [41:51<56:13,  2.03it/s] 36%|███▌      | 3850/10682 [41:51<56:12,  2.03it/s]                                                    {'loss': 3.7869, 'grad_norm': 0.20998729765415192, 'learning_rate': 0.0008073268776325152, 'epoch': 0.36}
+ 36%|███▌      | 3850/10682 [41:51<56:12,  2.03it/s] 36%|███▌      | 3851/10682 [41:52<56:14,  2.02it/s] 36%|███▌      | 3852/10682 [41:52<56:14,  2.02it/s] 36%|███▌      | 3853/10682 [41:53<56:15,  2.02it/s] 36%|███▌      | 3854/10682 [41:53<56:12,  2.02it/s] 36%|███▌      | 3855/10682 [41:54<56:09,  2.03it/s] 36%|███▌      | 3856/10682 [41:54<56:13,  2.02it/s] 36%|███▌      | 3857/10682 [41:55<56:13,  2.02it/s] 36%|███▌      | 3858/10682 [41:55<56:14,  2.02it/s] 36%|███▌      | 3859/10682 [41:55<56:11,  2.02it/s] 36%|███▌      | 3860/10682 [41:56<56:06,  2.03it/s] 36%|███▌      | 3861/10682 [41:56<56:10,  2.02it/s] 36%|███▌      | 3862/10682 [41:57<56:08,  2.02it/s] 36%|███▌      | 3863/10682 [41:57<56:08,  2.02it/s] 36%|███▌      | 3864/10682 [41:58<56:10,  2.02it/s] 36%|███▌      | 3865/10682 [41:58<56:14,  2.02it/s] 36%|███▌      | 3866/10682 [41:59<56:13,  2.02it/s] 36%|███▌      | 3867/10682 [41:59<56:18,  2.02it/s] 36%|███▌      | 3868/10682 [42:00<56:12,  2.02it/s] 36%|███▌      | 3869/10682 [42:00<56:09,  2.02it/s] 36%|███▌      | 3870/10682 [42:01<56:09,  2.02it/s] 36%|███▌      | 3871/10682 [42:01<56:13,  2.02it/s] 36%|███▌      | 3872/10682 [42:02<56:11,  2.02it/s] 36%|███▋      | 3873/10682 [42:02<56:10,  2.02it/s] 36%|███▋      | 3874/10682 [42:03<56:10,  2.02it/s] 36%|███▋      | 3875/10682 [42:03<56:09,  2.02it/s]                                                    {'loss': 3.7777, 'grad_norm': 0.20530767738819122, 'learning_rate': 0.0008040943544644116, 'epoch': 0.36}
+ 36%|███▋      | 3875/10682 [42:03<56:09,  2.02it/s] 36%|███▋      | 3876/10682 [42:04<56:08,  2.02it/s] 36%|███▋      | 3877/10682 [42:04<56:02,  2.02it/s] 36%|███▋      | 3878/10682 [42:05<56:00,  2.02it/s] 36%|███▋      | 3879/10682 [42:05<55:55,  2.03it/s] 36%|███▋      | 3880/10682 [42:06<55:58,  2.03it/s] 36%|███▋      | 3881/10682 [42:06<55:57,  2.03it/s] 36%|███▋      | 3882/10682 [42:07<55:56,  2.03it/s] 36%|███▋      | 3883/10682 [42:07<55:54,  2.03it/s] 36%|███▋      | 3884/10682 [42:08<56:35,  2.00it/s] 36%|███▋      | 3885/10682 [42:08<56:26,  2.01it/s] 36%|███▋      | 3886/10682 [42:09<56:19,  2.01it/s] 36%|███▋      | 3887/10682 [42:09<56:15,  2.01it/s] 36%|███▋      | 3888/10682 [42:10<56:06,  2.02it/s] 36%|███▋      | 3889/10682 [42:10<56:06,  2.02it/s] 36%|███▋      | 3890/10682 [42:11<55:58,  2.02it/s] 36%|███▋      | 3891/10682 [42:11<56:01,  2.02it/s] 36%|███▋      | 3892/10682 [42:12<55:57,  2.02it/s] 36%|███▋      | 3893/10682 [42:12<55:54,  2.02it/s] 36%|███▋      | 3894/10682 [42:13<55:55,  2.02it/s] 36%|███▋      | 3895/10682 [42:13<55:50,  2.03it/s] 36%|███▋      | 3896/10682 [42:14<55:47,  2.03it/s] 36%|███▋      | 3897/10682 [42:14<55:48,  2.03it/s] 36%|███▋      | 3898/10682 [42:15<55:44,  2.03it/s] 37%|███▋      | 3899/10682 [42:15<55:46,  2.03it/s] 37%|███▋      | 3900/10682 [42:16<55:47,  2.03it/s]{'loss': 3.7822, 'grad_norm': 0.20959383249282837, 'learning_rate': 0.00080084153261525, 'epoch': 0.37}
+                                                     37%|███▋      | 3900/10682 [42:16<55:47,  2.03it/s] 37%|███▋      | 3901/10682 [42:16<55:54,  2.02it/s] 37%|███▋      | 3902/10682 [42:17<55:55,  2.02it/s] 37%|███▋      | 3903/10682 [42:17<55:53,  2.02it/s] 37%|███▋      | 3904/10682 [42:18<55:56,  2.02it/s] 37%|███▋      | 3905/10682 [42:18<55:56,  2.02it/s] 37%|███▋      | 3906/10682 [42:19<55:53,  2.02it/s] 37%|███▋      | 3907/10682 [42:19<55:52,  2.02it/s] 37%|███▋      | 3908/10682 [42:20<55:51,  2.02it/s] 37%|███▋      | 3909/10682 [42:20<55:48,  2.02it/s] 37%|███▋      | 3910/10682 [42:21<55:46,  2.02it/s] 37%|███▋      | 3911/10682 [42:21<55:45,  2.02it/s] 37%|███▋      | 3912/10682 [42:22<1:05:00,  1.74it/s] 37%|███▋      | 3913/10682 [42:22<1:02:09,  1.82it/s] 37%|███▋      | 3914/10682 [42:23<1:00:13,  1.87it/s] 37%|███▋      | 3915/10682 [42:23<58:45,  1.92it/s]   37%|███▋      | 3916/10682 [42:24<57:48,  1.95it/s] 37%|███▋      | 3917/10682 [42:24<57:09,  1.97it/s] 37%|███▋      | 3918/10682 [42:25<56:35,  1.99it/s] 37%|███▋      | 3919/10682 [42:25<56:25,  2.00it/s] 37%|███▋      | 3920/10682 [42:26<56:07,  2.01it/s] 37%|███▋      | 3921/10682 [42:26<56:00,  2.01it/s] 37%|███▋      | 3922/10682 [42:27<55:54,  2.02it/s] 37%|███▋      | 3923/10682 [42:27<55:50,  2.02it/s] 37%|███▋      | 3924/10682 [42:28<55:43,  2.02it/s] 37%|███▋      | 3925/10682 [42:28<55:40,  2.02it/s]{'loss': 3.7727, 'grad_norm': 0.20675082504749298, 'learning_rate': 0.0007975686292149845, 'epoch': 0.37}                                                    
+ 37%|███▋      | 3925/10682 [42:28<55:40,  2.02it/s] 37%|███▋      | 3926/10682 [42:29<56:02,  2.01it/s] 37%|███▋      | 3927/10682 [42:29<55:51,  2.02it/s] 37%|███▋      | 3928/10682 [42:30<55:46,  2.02it/s] 37%|███▋      | 3929/10682 [42:30<55:42,  2.02it/s] 37%|███▋      | 3930/10682 [42:31<1:04:42,  1.74it/s] 37%|███▋      | 3931/10682 [42:32<1:01:53,  1.82it/s] 37%|███▋      | 3932/10682 [42:32<59:58,  1.88it/s]   37%|███▋      | 3933/10682 [42:33<58:42,  1.92it/s] 37%|███▋      | 3934/10682 [42:33<57:46,  1.95it/s] 37%|███▋      | 3935/10682 [42:34<57:08,  1.97it/s] 37%|███▋      | 3936/10682 [42:34<56:39,  1.98it/s] 37%|███▋      | 3937/10682 [42:35<56:19,  2.00it/s] 37%|███▋      | 3938/10682 [42:35<56:07,  2.00it/s] 37%|███▋      | 3939/10682 [42:36<55:54,  2.01it/s] 37%|███▋      | 3940/10682 [42:36<55:44,  2.02it/s] 37%|███▋      | 3941/10682 [42:37<55:45,  2.01it/s] 37%|███▋      | 3942/10682 [42:37<55:40,  2.02it/s] 37%|███▋      | 3943/10682 [42:38<55:35,  2.02it/s] 37%|███▋      | 3944/10682 [42:38<55:32,  2.02it/s] 37%|███▋      | 3945/10682 [42:39<55:30,  2.02it/s] 37%|███▋      | 3946/10682 [42:39<55:33,  2.02it/s] 37%|███▋      | 3947/10682 [42:40<55:34,  2.02it/s] 37%|███▋      | 3948/10682 [42:40<55:32,  2.02it/s] 37%|███▋      | 3949/10682 [42:41<55:32,  2.02it/s] 37%|███▋      | 3950/10682 [42:41<55:29,  2.02it/s]{'loss': 3.7741, 'grad_norm': 0.20726631581783295, 'learning_rate': 0.0007942758627340383, 'epoch': 0.37}
+                                                     37%|███▋      | 3950/10682 [42:41<55:29,  2.02it/s] 37%|███▋      | 3951/10682 [42:42<55:34,  2.02it/s] 37%|███▋      | 3952/10682 [42:42<55:38,  2.02it/s] 37%|███▋      | 3953/10682 [42:43<55:33,  2.02it/s] 37%|███▋      | 3954/10682 [42:43<55:31,  2.02it/s] 37%|███▋      | 3955/10682 [42:44<55:37,  2.02it/s] 37%|███▋      | 3956/10682 [42:44<55:32,  2.02it/s] 37%|███▋      | 3957/10682 [42:44<55:27,  2.02it/s] 37%|███▋      | 3958/10682 [42:45<55:22,  2.02it/s] 37%|███▋      | 3959/10682 [42:45<55:23,  2.02it/s] 37%|███▋      | 3960/10682 [42:46<55:23,  2.02it/s] 37%|███▋      | 3961/10682 [42:46<55:25,  2.02it/s] 37%|███▋      | 3962/10682 [42:47<55:22,  2.02it/s] 37%|███▋      | 3963/10682 [42:47<55:20,  2.02it/s] 37%|███▋      | 3964/10682 [42:48<55:15,  2.03it/s] 37%|███▋      | 3965/10682 [42:48<55:15,  2.03it/s] 37%|███▋      | 3966/10682 [42:49<55:17,  2.02it/s] 37%|███▋      | 3967/10682 [42:49<55:16,  2.02it/s] 37%|███▋      | 3968/10682 [42:50<55:16,  2.02it/s] 37%|███▋      | 3969/10682 [42:50<55:15,  2.02it/s] 37%|███▋      | 3970/10682 [42:51<55:11,  2.03it/s] 37%|███▋      | 3971/10682 [42:51<55:11,  2.03it/s] 37%|███▋      | 3972/10682 [42:52<55:07,  2.03it/s] 37%|███▋      | 3973/10682 [42:52<55:10,  2.03it/s] 37%|███▋      | 3974/10682 [42:53<55:13,  2.02it/s] 37%|███▋      | 3975/10682 [42:53<55:14,  2.02it/s]{'loss': 3.7746, 'grad_norm': 0.21127179265022278, 'learning_rate': 0.00079096345296872, 'epoch': 0.37}                                                    
+ 37%|███▋      | 3975/10682 [42:53<55:14,  2.02it/s] 37%|███▋      | 3976/10682 [42:54<55:15,  2.02it/s] 37%|███▋      | 3977/10682 [42:54<55:19,  2.02it/s] 37%|███▋      | 3978/10682 [42:55<55:15,  2.02it/s] 37%|███▋      | 3979/10682 [42:55<55:15,  2.02it/s] 37%|███▋      | 3980/10682 [42:56<55:13,  2.02it/s] 37%|███▋      | 3981/10682 [42:56<55:11,  2.02it/s] 37%|███▋      | 3982/10682 [42:57<55:14,  2.02it/s] 37%|███▋      | 3983/10682 [42:57<55:10,  2.02it/s] 37%|███▋      | 3984/10682 [42:58<55:11,  2.02it/s] 37%|███▋      | 3985/10682 [42:58<55:06,  2.03it/s] 37%|███▋      | 3986/10682 [42:59<55:02,  2.03it/s] 37%|███▋      | 3987/10682 [42:59<55:05,  2.03it/s] 37%|███▋      | 3988/10682 [43:00<55:02,  2.03it/s] 37%|███▋      | 3989/10682 [43:00<55:05,  2.02it/s] 37%|███▋      | 3990/10682 [43:01<55:02,  2.03it/s] 37%|███▋      | 3991/10682 [43:01<55:03,  2.03it/s] 37%|███▋      | 3992/10682 [43:02<55:05,  2.02it/s] 37%|███▋      | 3993/10682 [43:02<55:07,  2.02it/s] 37%|███▋      | 3994/10682 [43:03<55:05,  2.02it/s] 37%|███▋      | 3995/10682 [43:03<55:06,  2.02it/s] 37%|███▋      | 3996/10682 [43:04<55:12,  2.02it/s] 37%|███▋      | 3997/10682 [43:04<55:12,  2.02it/s] 37%|███▋      | 3998/10682 [43:05<55:14,  2.02it/s] 37%|███▋      | 3999/10682 [43:05<55:21,  2.01it/s] 37%|███▋      | 4000/10682 [43:06<55:15,  2.02it/s]                                                    {'loss': 3.7699, 'grad_norm': 0.22036899626255035, 'learning_rate': 0.0007876316210265521, 'epoch': 0.37}
+ 37%|███▋      | 4000/10682 [43:06<55:15,  2.02it/s] 37%|███▋      | 4001/10682 [43:06<55:09,  2.02it/s] 37%|███▋      | 4002/10682 [43:07<55:07,  2.02it/s] 37%|███▋      | 4003/10682 [43:07<55:03,  2.02it/s] 37%|███▋      | 4004/10682 [43:08<55:02,  2.02it/s] 37%|███▋      | 4005/10682 [43:08<55:00,  2.02it/s] 38%|███▊      | 4006/10682 [43:09<55:02,  2.02it/s] 38%|███▊      | 4007/10682 [43:09<55:05,  2.02it/s] 38%|███▊      | 4008/10682 [43:10<55:01,  2.02it/s] 38%|███▊      | 4009/10682 [43:10<55:02,  2.02it/s] 38%|███▊      | 4010/10682 [43:11<55:01,  2.02it/s] 38%|███▊      | 4011/10682 [43:11<54:59,  2.02it/s] 38%|███▊      | 4012/10682 [43:12<54:58,  2.02it/s] 38%|███▊      | 4013/10682 [43:12<54:56,  2.02it/s] 38%|███▊      | 4014/10682 [43:13<54:56,  2.02it/s] 38%|███▊      | 4015/10682 [43:13<54:56,  2.02it/s] 38%|███▊      | 4016/10682 [43:14<54:50,  2.03it/s] 38%|███▊      | 4017/10682 [43:14<54:50,  2.03it/s] 38%|███▊      | 4018/10682 [43:15<54:48,  2.03it/s] 38%|███▊      | 4019/10682 [43:15<54:48,  2.03it/s] 38%|███▊      | 4020/10682 [43:16<54:49,  2.03it/s] 38%|███▊      | 4021/10682 [43:16<54:45,  2.03it/s] 38%|███▊      | 4022/10682 [43:17<54:49,  2.02it/s] 38%|███▊      | 4023/10682 [43:17<54:46,  2.03it/s] 38%|███▊      | 4024/10682 [43:18<54:51,  2.02it/s] 38%|███▊      | 4025/10682 [43:18<54:51,  2.02it/s]{'loss': 3.7675, 'grad_norm': 0.21969018876552582, 'learning_rate': 0.0007842805893115124, 'epoch': 0.38}                                                    
+ 38%|███▊      | 4025/10682 [43:18<54:51,  2.02it/s] 38%|███▊      | 4026/10682 [43:19<54:53,  2.02it/s] 38%|███▊      | 4027/10682 [43:19<54:50,  2.02it/s] 38%|███▊      | 4028/10682 [43:20<54:46,  2.02it/s] 38%|███▊      | 4029/10682 [43:20<54:48,  2.02it/s] 38%|███▊      | 4030/10682 [43:21<54:50,  2.02it/s] 38%|███▊      | 4031/10682 [43:21<54:44,  2.03it/s] 38%|███▊      | 4032/10682 [43:22<54:43,  2.03it/s] 38%|███▊      | 4033/10682 [43:22<54:42,  2.03it/s] 38%|███▊      | 4034/10682 [43:23<54:40,  2.03it/s] 38%|███▊      | 4035/10682 [43:23<54:35,  2.03it/s] 38%|███▊      | 4036/10682 [43:24<54:39,  2.03it/s] 38%|███▊      | 4037/10682 [43:24<54:39,  2.03it/s] 38%|███▊      | 4038/10682 [43:25<54:38,  2.03it/s] 38%|███▊      | 4039/10682 [43:25<54:38,  2.03it/s] 38%|███▊      | 4040/10682 [43:26<54:41,  2.02it/s] 38%|███▊      | 4041/10682 [43:26<54:43,  2.02it/s] 38%|███▊      | 4042/10682 [43:27<54:50,  2.02it/s] 38%|███▊      | 4043/10682 [43:27<54:46,  2.02it/s] 38%|███▊      | 4044/10682 [43:28<54:55,  2.01it/s] 38%|███▊      | 4045/10682 [43:28<54:45,  2.02it/s] 38%|███▊      | 4046/10682 [43:28<54:44,  2.02it/s] 38%|███▊      | 4047/10682 [43:29<54:39,  2.02it/s] 38%|███▊      | 4048/10682 [43:29<54:36,  2.02it/s] 38%|███▊      | 4049/10682 [43:30<54:35,  2.03it/s] 38%|███▊      | 4050/10682 [43:30<54:31,  2.03it/s]                                                    {'loss': 3.7742, 'grad_norm': 0.20299334824085236, 'learning_rate': 0.0007809105815091867, 'epoch': 0.38}
+ 38%|███▊      | 4050/10682 [43:30<54:31,  2.03it/s] 38%|███▊      | 4051/10682 [43:31<54:34,  2.03it/s] 38%|███▊      | 4052/10682 [43:31<54:31,  2.03it/s] 38%|███▊      | 4053/10682 [43:32<54:30,  2.03it/s] 38%|███▊      | 4054/10682 [43:32<54:35,  2.02it/s] 38%|███▊      | 4055/10682 [43:33<54:49,  2.01it/s] 38%|███▊      | 4056/10682 [43:33<54:43,  2.02it/s] 38%|███▊      | 4057/10682 [43:34<54:42,  2.02it/s] 38%|███▊      | 4058/10682 [43:34<54:44,  2.02it/s] 38%|███▊      | 4059/10682 [43:35<54:41,  2.02it/s] 38%|███▊      | 4060/10682 [43:35<54:41,  2.02it/s] 38%|███▊      | 4061/10682 [43:36<54:36,  2.02it/s] 38%|███▊      | 4062/10682 [43:36<54:34,  2.02it/s] 38%|███▊      | 4063/10682 [43:37<54:31,  2.02it/s] 38%|███▊      | 4064/10682 [43:37<54:30,  2.02it/s] 38%|███▊      | 4065/10682 [43:38<54:30,  2.02it/s] 38%|███▊      | 4066/10682 [43:38<54:28,  2.02it/s] 38%|███▊      | 4067/10682 [43:39<54:27,  2.02it/s] 38%|███▊      | 4068/10682 [43:39<54:24,  2.03it/s] 38%|███▊      | 4069/10682 [43:40<54:32,  2.02it/s] 38%|███▊      | 4070/10682 [43:40<54:30,  2.02it/s] 38%|███▊      | 4071/10682 [43:41<54:32,  2.02it/s] 38%|███▊      | 4072/10682 [43:41<54:31,  2.02it/s] 38%|███▊      | 4073/10682 [43:42<54:29,  2.02it/s] 38%|███▊      | 4074/10682 [43:42<54:27,  2.02it/s] 38%|███▊      | 4075/10682 [43:43<54:27,  2.02it/s]                                                    {'loss': 3.778, 'grad_norm': 0.20165860652923584, 'learning_rate': 0.0007775218225718394, 'epoch': 0.38}
+ 38%|███▊      | 4075/10682 [43:43<54:27,  2.02it/s] 38%|███▊      | 4076/10682 [43:43<54:29,  2.02it/s] 38%|███▊      | 4077/10682 [43:44<54:25,  2.02it/s] 38%|███▊      | 4078/10682 [43:44<54:24,  2.02it/s] 38%|███▊      | 4079/10682 [43:45<54:21,  2.02it/s] 38%|███▊      | 4080/10682 [43:45<54:21,  2.02it/s] 38%|███▊      | 4081/10682 [43:46<54:15,  2.03it/s] 38%|███▊      | 4082/10682 [43:46<54:17,  2.03it/s] 38%|███▊      | 4083/10682 [43:47<54:16,  2.03it/s] 38%|███▊      | 4084/10682 [43:47<54:17,  2.03it/s] 38%|███▊      | 4085/10682 [43:48<54:22,  2.02it/s] 38%|███▊      | 4086/10682 [43:48<54:30,  2.02it/s] 38%|███▊      | 4087/10682 [43:49<54:24,  2.02it/s] 38%|███▊      | 4088/10682 [43:49<54:22,  2.02it/s] 38%|███▊      | 4089/10682 [43:50<54:18,  2.02it/s] 38%|███▊      | 4090/10682 [43:50<54:16,  2.02it/s] 38%|███▊      | 4091/10682 [43:51<54:13,  2.03it/s] 38%|███▊      | 4092/10682 [43:51<54:10,  2.03it/s] 38%|███▊      | 4093/10682 [43:52<54:13,  2.03it/s] 38%|███▊      | 4094/10682 [43:52<54:08,  2.03it/s] 38%|███▊      | 4095/10682 [43:53<54:08,  2.03it/s] 38%|███▊      | 4096/10682 [43:53<54:08,  2.03it/s] 38%|███▊      | 4097/10682 [43:54<54:04,  2.03it/s] 38%|███▊      | 4098/10682 [43:54<54:12,  2.02it/s] 38%|███▊      | 4099/10682 [43:55<54:12,  2.02it/s] 38%|███▊      | 4100/10682 [43:55<54:21,  2.02it/s]                                                    {'loss': 3.7744, 'grad_norm': 0.21162648499011993, 'learning_rate': 0.0007741145387033967, 'epoch': 0.38}
+ 38%|███▊      | 4100/10682 [43:55<54:21,  2.02it/s] 38%|███▊      | 4101/10682 [43:56<54:38,  2.01it/s] 38%|███▊      | 4102/10682 [43:56<54:27,  2.01it/s] 38%|███▊      | 4103/10682 [43:57<54:25,  2.01it/s] 38%|███▊      | 4104/10682 [43:57<54:18,  2.02it/s] 38%|███▊      | 4105/10682 [43:58<54:15,  2.02it/s] 38%|███▊      | 4106/10682 [43:58<54:10,  2.02it/s] 38%|███▊      | 4107/10682 [43:59<54:12,  2.02it/s] 38%|███▊      | 4108/10682 [43:59<54:10,  2.02it/s] 38%|███▊      | 4109/10682 [44:00<54:10,  2.02it/s] 38%|███▊      | 4110/10682 [44:00<54:10,  2.02it/s] 38%|███▊      | 4111/10682 [44:01<54:06,  2.02it/s] 38%|███▊      | 4112/10682 [44:01<54:06,  2.02it/s] 39%|███▊      | 4113/10682 [44:02<54:03,  2.03it/s] 39%|███▊      | 4114/10682 [44:02<54:03,  2.02it/s] 39%|███▊      | 4115/10682 [44:03<54:03,  2.02it/s] 39%|███▊      | 4116/10682 [44:03<54:01,  2.03it/s] 39%|███▊      | 4117/10682 [44:04<54:02,  2.02it/s] 39%|███▊      | 4118/10682 [44:04<54:01,  2.03it/s] 39%|███▊      | 4119/10682 [44:05<54:02,  2.02it/s] 39%|███▊      | 4120/10682 [44:05<54:00,  2.03it/s] 39%|███▊      | 4121/10682 [44:06<54:01,  2.02it/s] 39%|███▊      | 4122/10682 [44:06<54:02,  2.02it/s] 39%|███▊      | 4123/10682 [44:07<54:07,  2.02it/s] 39%|███▊      | 4124/10682 [44:07<54:01,  2.02it/s] 39%|███▊      | 4125/10682 [44:08<53:56,  2.03it/s]{'loss': 3.7615, 'grad_norm': 0.20738208293914795, 'learning_rate': 0.0007706889573443467, 'epoch': 0.39}                                                    
+ 39%|███▊      | 4125/10682 [44:08<53:56,  2.03it/s] 39%|███▊      | 4126/10682 [44:08<54:02,  2.02it/s] 39%|███▊      | 4127/10682 [44:09<53:54,  2.03it/s] 39%|███▊      | 4128/10682 [44:09<53:57,  2.02it/s] 39%|███▊      | 4129/10682 [44:10<53:52,  2.03it/s] 39%|███▊      | 4130/10682 [44:10<53:51,  2.03it/s] 39%|███▊      | 4131/10682 [44:10<53:49,  2.03it/s] 39%|███▊      | 4132/10682 [44:11<53:48,  2.03it/s] 39%|███▊      | 4133/10682 [44:11<53:47,  2.03it/s] 39%|███▊      | 4134/10682 [44:12<53:48,  2.03it/s] 39%|███▊      | 4135/10682 [44:12<53:52,  2.03it/s] 39%|███▊      | 4136/10682 [44:13<53:50,  2.03it/s] 39%|███▊      | 4137/10682 [44:13<53:52,  2.02it/s] 39%|███▊      | 4138/10682 [44:14<53:52,  2.02it/s] 39%|███▊      | 4139/10682 [44:14<53:52,  2.02it/s] 39%|███▉      | 4140/10682 [44:15<53:53,  2.02it/s] 39%|███▉      | 4141/10682 [44:15<53:54,  2.02it/s] 39%|███▉      | 4142/10682 [44:16<53:55,  2.02it/s] 39%|███▉      | 4143/10682 [44:16<53:52,  2.02it/s] 39%|███▉      | 4144/10682 [44:17<53:52,  2.02it/s] 39%|███▉      | 4145/10682 [44:17<53:48,  2.02it/s] 39%|███▉      | 4146/10682 [44:18<53:48,  2.02it/s] 39%|███▉      | 4147/10682 [44:18<53:43,  2.03it/s] 39%|███▉      | 4148/10682 [44:19<53:43,  2.03it/s] 39%|███▉      | 4149/10682 [44:19<53:46,  2.02it/s] 39%|███▉      | 4150/10682 [44:20<53:43,  2.03it/s]                                                    {'loss': 3.7656, 'grad_norm': 0.21876271069049835, 'learning_rate': 0.0007672453071565586, 'epoch': 0.39}
+ 39%|███▉      | 4150/10682 [44:20<53:43,  2.03it/s] 39%|███▉      | 4151/10682 [44:20<53:46,  2.02it/s] 39%|███▉      | 4152/10682 [44:21<53:48,  2.02it/s] 39%|███▉      | 4153/10682 [44:21<53:48,  2.02it/s] 39%|███▉      | 4154/10682 [44:22<53:48,  2.02it/s] 39%|███▉      | 4155/10682 [44:22<53:50,  2.02it/s] 39%|███▉      | 4156/10682 [44:23<53:49,  2.02it/s] 39%|███▉      | 4157/10682 [44:23<53:48,  2.02it/s] 39%|███▉      | 4158/10682 [44:24<53:48,  2.02it/s] 39%|███▉      | 4159/10682 [44:24<53:48,  2.02it/s] 39%|███▉      | 4160/10682 [44:25<53:39,  2.03it/s] 39%|███▉      | 4161/10682 [44:25<53:37,  2.03it/s] 39%|███▉      | 4162/10682 [44:26<53:41,  2.02it/s] 39%|███▉      | 4163/10682 [44:26<53:36,  2.03it/s] 39%|███▉      | 4164/10682 [44:27<53:37,  2.03it/s] 39%|███▉      | 4165/10682 [44:27<53:34,  2.03it/s] 39%|███▉      | 4166/10682 [44:28<53:35,  2.03it/s] 39%|███▉      | 4167/10682 [44:28<53:36,  2.03it/s] 39%|███▉      | 4168/10682 [44:29<53:33,  2.03it/s] 39%|███▉      | 4169/10682 [44:29<53:31,  2.03it/s] 39%|███▉      | 4170/10682 [44:30<53:33,  2.03it/s] 39%|███▉      | 4171/10682 [44:30<53:34,  2.03it/s] 39%|███▉      | 4172/10682 [44:31<53:33,  2.03it/s] 39%|███▉      | 4173/10682 [44:31<53:33,  2.03it/s] 39%|███▉      | 4174/10682 [44:32<53:36,  2.02it/s] 39%|███▉      | 4175/10682 [44:32<53:37,  2.02it/s]{'loss': 3.76, 'grad_norm': 0.20657029747962952, 'learning_rate': 0.0007637838180080183, 'epoch': 0.39}
+                                                     39%|███▉      | 4175/10682 [44:32<53:37,  2.02it/s] 39%|███▉      | 4176/10682 [44:33<53:49,  2.01it/s] 39%|███▉      | 4177/10682 [44:33<53:44,  2.02it/s] 39%|███▉      | 4178/10682 [44:34<53:40,  2.02it/s] 39%|███▉      | 4179/10682 [44:34<53:39,  2.02it/s] 39%|███▉      | 4180/10682 [44:35<53:32,  2.02it/s] 39%|███▉      | 4181/10682 [44:35<53:31,  2.02it/s] 39%|███▉      | 4182/10682 [44:36<53:29,  2.03it/s] 39%|███▉      | 4183/10682 [44:36<53:32,  2.02it/s] 39%|███▉      | 4184/10682 [44:37<53:30,  2.02it/s] 39%|███▉      | 4185/10682 [44:37<53:29,  2.02it/s] 39%|███▉      | 4186/10682 [44:38<53:29,  2.02it/s] 39%|███▉      | 4187/10682 [44:38<53:25,  2.03it/s] 39%|███▉      | 4188/10682 [44:39<53:26,  2.03it/s] 39%|███▉      | 4189/10682 [44:39<53:22,  2.03it/s] 39%|███▉      | 4190/10682 [44:40<53:27,  2.02it/s] 39%|███▉      | 4191/10682 [44:40<53:27,  2.02it/s] 39%|███▉      | 4192/10682 [44:41<53:30,  2.02it/s] 39%|███▉      | 4193/10682 [44:41<53:30,  2.02it/s] 39%|███▉      | 4194/10682 [44:42<53:28,  2.02it/s] 39%|███▉      | 4195/10682 [44:42<53:23,  2.02it/s] 39%|███▉      | 4196/10682 [44:43<53:27,  2.02it/s] 39%|███▉      | 4197/10682 [44:43<53:25,  2.02it/s] 39%|███▉      | 4198/10682 [44:44<53:23,  2.02it/s] 39%|███▉      | 4199/10682 [44:44<53:21,  2.02it/s] 39%|███▉      | 4200/10682 [44:45<53:21,  2.02it/s]                                                    {'loss': 3.7602, 'grad_norm': 0.22859026491641998, 'learning_rate': 0.0007603047209574854, 'epoch': 0.39}
+ 39%|███▉      | 4200/10682 [44:45<53:21,  2.02it/s] 39%|███▉      | 4201/10682 [44:45<53:26,  2.02it/s] 39%|███▉      | 4202/10682 [44:46<53:24,  2.02it/s] 39%|███▉      | 4203/10682 [44:46<53:23,  2.02it/s] 39%|███▉      | 4204/10682 [44:47<53:21,  2.02it/s] 39%|███▉      | 4205/10682 [44:47<53:20,  2.02it/s] 39%|███▉      | 4206/10682 [44:48<53:20,  2.02it/s] 39%|███▉      | 4207/10682 [44:48<53:22,  2.02it/s] 39%|███▉      | 4208/10682 [44:49<53:23,  2.02it/s] 39%|███▉      | 4209/10682 [44:49<53:25,  2.02it/s] 39%|███▉      | 4210/10682 [44:50<53:19,  2.02it/s] 39%|███▉      | 4211/10682 [44:50<53:20,  2.02it/s] 39%|███▉      | 4212/10682 [44:51<53:19,  2.02it/s] 39%|███▉      | 4213/10682 [44:51<53:19,  2.02it/s] 39%|███▉      | 4214/10682 [44:52<53:15,  2.02it/s] 39%|███▉      | 4215/10682 [44:52<53:18,  2.02it/s] 39%|███▉      | 4216/10682 [44:53<53:14,  2.02it/s] 39%|███▉      | 4217/10682 [44:53<53:16,  2.02it/s] 39%|███▉      | 4218/10682 [44:53<53:11,  2.03it/s] 39%|███▉      | 4219/10682 [44:54<53:13,  2.02it/s] 40%|███▉      | 4220/10682 [44:54<53:10,  2.03it/s] 40%|███▉      | 4221/10682 [44:55<53:06,  2.03it/s] 40%|███▉      | 4222/10682 [44:55<53:07,  2.03it/s] 40%|███▉      | 4223/10682 [44:56<53:05,  2.03it/s] 40%|███▉      | 4224/10682 [44:56<53:06,  2.03it/s] 40%|███▉      | 4225/10682 [44:57<53:06,  2.03it/s]                                                    {'loss': 3.7628, 'grad_norm': 0.21450260281562805, 'learning_rate': 0.0007568082482390682, 'epoch': 0.4}
+ 40%|███▉      | 4225/10682 [44:57<53:06,  2.03it/s] 40%|███▉      | 4226/10682 [44:57<53:13,  2.02it/s] 40%|███▉      | 4227/10682 [44:58<53:11,  2.02it/s] 40%|███▉      | 4228/10682 [44:58<53:07,  2.02it/s] 40%|███▉      | 4229/10682 [44:59<53:09,  2.02it/s] 40%|███▉      | 4230/10682 [44:59<53:05,  2.03it/s] 40%|███▉      | 4231/10682 [45:00<53:07,  2.02it/s] 40%|███▉      | 4232/10682 [45:00<53:02,  2.03it/s] 40%|███▉      | 4233/10682 [45:01<53:02,  2.03it/s] 40%|███▉      | 4234/10682 [45:01<53:03,  2.03it/s] 40%|███▉      | 4235/10682 [45:02<52:57,  2.03it/s] 40%|███▉      | 4236/10682 [45:02<53:02,  2.03it/s] 40%|███▉      | 4237/10682 [45:03<53:01,  2.03it/s] 40%|███▉      | 4238/10682 [45:03<53:04,  2.02it/s] 40%|███▉      | 4239/10682 [45:04<53:04,  2.02it/s] 40%|███▉      | 4240/10682 [45:04<53:03,  2.02it/s] 40%|███▉      | 4241/10682 [45:05<53:01,  2.02it/s] 40%|███▉      | 4242/10682 [45:05<53:02,  2.02it/s] 40%|███▉      | 4243/10682 [45:06<53:03,  2.02it/s] 40%|███▉      | 4244/10682 [45:06<53:04,  2.02it/s] 40%|███▉      | 4245/10682 [45:07<53:00,  2.02it/s] 40%|███▉      | 4246/10682 [45:07<52:58,  2.02it/s] 40%|███▉      | 4247/10682 [45:08<53:01,  2.02it/s] 40%|███▉      | 4248/10682 [45:08<52:56,  2.03it/s] 40%|███▉      | 4249/10682 [45:09<52:54,  2.03it/s] 40%|███▉      | 4250/10682 [45:09<52:52,  2.03it/s]                                                    {'loss': 3.7562, 'grad_norm': 0.21526353061199188, 'learning_rate': 0.0007532946332467235, 'epoch': 0.4}
+ 40%|███▉      | 4250/10682 [45:09<52:52,  2.03it/s] 40%|███▉      | 4251/10682 [45:10<52:57,  2.02it/s] 40%|███▉      | 4252/10682 [45:10<52:59,  2.02it/s] 40%|███▉      | 4253/10682 [45:11<53:01,  2.02it/s] 40%|███▉      | 4254/10682 [45:11<53:01,  2.02it/s] 40%|███▉      | 4255/10682 [45:12<52:56,  2.02it/s] 40%|███▉      | 4256/10682 [45:12<52:56,  2.02it/s] 40%|███▉      | 4257/10682 [45:13<52:57,  2.02it/s] 40%|███▉      | 4258/10682 [45:13<52:58,  2.02it/s] 40%|███▉      | 4259/10682 [45:14<52:55,  2.02it/s] 40%|███▉      | 4260/10682 [45:14<52:50,  2.03it/s] 40%|███▉      | 4261/10682 [45:15<52:48,  2.03it/s] 40%|███▉      | 4262/10682 [45:15<52:45,  2.03it/s] 40%|███▉      | 4263/10682 [45:16<52:51,  2.02it/s] 40%|███▉      | 4264/10682 [45:16<52:48,  2.03it/s] 40%|███▉      | 4265/10682 [45:17<52:49,  2.02it/s] 40%|███▉      | 4266/10682 [45:17<52:44,  2.03it/s] 40%|███▉      | 4267/10682 [45:18<52:45,  2.03it/s] 40%|███▉      | 4268/10682 [45:18<52:44,  2.03it/s] 40%|███▉      | 4269/10682 [45:19<52:43,  2.03it/s] 40%|███▉      | 4270/10682 [45:19<52:42,  2.03it/s] 40%|███▉      | 4271/10682 [45:20<52:41,  2.03it/s] 40%|███▉      | 4272/10682 [45:20<52:45,  2.03it/s] 40%|████      | 4273/10682 [45:21<52:43,  2.03it/s] 40%|████      | 4274/10682 [45:21<52:47,  2.02it/s] 40%|████      | 4275/10682 [45:22<52:42,  2.03it/s]{'loss': 3.7529, 'grad_norm': 0.20569296181201935, 'learning_rate': 0.0007497641105186759, 'epoch': 0.4}
+                                                     40%|████      | 4275/10682 [45:22<52:42,  2.03it/s] 40%|████      | 4276/10682 [45:22<52:50,  2.02it/s] 40%|████      | 4277/10682 [45:23<52:44,  2.02it/s] 40%|████      | 4278/10682 [45:23<52:45,  2.02it/s] 40%|████      | 4279/10682 [45:24<52:42,  2.02it/s] 40%|████      | 4280/10682 [45:24<52:34,  2.03it/s] 40%|████      | 4281/10682 [45:25<52:34,  2.03it/s] 40%|████      | 4282/10682 [45:25<52:32,  2.03it/s] 40%|████      | 4283/10682 [45:26<52:32,  2.03it/s] 40%|████      | 4284/10682 [45:26<52:35,  2.03it/s] 40%|████      | 4285/10682 [45:27<52:35,  2.03it/s] 40%|████      | 4286/10682 [45:27<52:40,  2.02it/s] 40%|████      | 4287/10682 [45:28<52:37,  2.03it/s] 40%|████      | 4288/10682 [45:28<52:40,  2.02it/s] 40%|████      | 4289/10682 [45:29<52:39,  2.02it/s] 40%|████      | 4290/10682 [45:29<52:39,  2.02it/s] 40%|████      | 4291/10682 [45:30<52:35,  2.03it/s] 40%|████      | 4292/10682 [45:30<52:36,  2.02it/s] 40%|████      | 4293/10682 [45:31<52:34,  2.03it/s] 40%|████      | 4294/10682 [45:31<52:30,  2.03it/s] 40%|████      | 4295/10682 [45:32<52:27,  2.03it/s] 40%|████      | 4296/10682 [45:32<52:28,  2.03it/s] 40%|████      | 4297/10682 [45:32<52:26,  2.03it/s] 40%|████      | 4298/10682 [45:33<52:26,  2.03it/s] 40%|████      | 4299/10682 [45:33<52:26,  2.03it/s] 40%|████      | 4300/10682 [45:34<52:24,  2.03it/s]{'loss': 3.7439, 'grad_norm': 0.21966524422168732, 'learning_rate': 0.0007462169157217631, 'epoch': 0.4}
+                                                     40%|████      | 4300/10682 [45:34<52:24,  2.03it/s] 40%|████      | 4301/10682 [45:34<52:34,  2.02it/s] 40%|████      | 4302/10682 [45:35<52:30,  2.03it/s] 40%|████      | 4303/10682 [45:35<52:36,  2.02it/s] 40%|████      | 4304/10682 [45:36<52:31,  2.02it/s] 40%|████      | 4305/10682 [45:36<52:33,  2.02it/s] 40%|████      | 4306/10682 [45:37<52:32,  2.02it/s] 40%|████      | 4307/10682 [45:37<52:30,  2.02it/s] 40%|████      | 4308/10682 [45:38<52:26,  2.03it/s] 40%|████      | 4309/10682 [45:38<52:27,  2.02it/s] 40%|████      | 4310/10682 [45:39<52:24,  2.03it/s] 40%|████      | 4311/10682 [45:39<52:23,  2.03it/s] 40%|████      | 4312/10682 [45:40<52:21,  2.03it/s] 40%|████      | 4313/10682 [45:40<52:27,  2.02it/s] 40%|████      | 4314/10682 [45:41<52:24,  2.03it/s] 40%|████      | 4315/10682 [45:41<52:19,  2.03it/s] 40%|████      | 4316/10682 [45:42<52:21,  2.03it/s] 40%|████      | 4317/10682 [45:42<52:21,  2.03it/s] 40%|████      | 4318/10682 [45:43<52:25,  2.02it/s] 40%|████      | 4319/10682 [45:43<52:24,  2.02it/s] 40%|████      | 4320/10682 [45:44<52:28,  2.02it/s] 40%|████      | 4321/10682 [45:44<52:27,  2.02it/s] 40%|████      | 4322/10682 [45:45<52:29,  2.02it/s] 40%|████      | 4323/10682 [45:45<52:28,  2.02it/s] 40%|████      | 4324/10682 [45:46<52:29,  2.02it/s] 40%|████      | 4325/10682 [45:46<52:27,  2.02it/s]                                                    {'loss': 3.751, 'grad_norm': 0.22080130875110626, 'learning_rate': 0.0007426532856357045, 'epoch': 0.4}
+ 40%|████      | 4325/10682 [45:46<52:27,  2.02it/s] 40%|████      | 4326/10682 [45:47<52:27,  2.02it/s] 41%|████      | 4327/10682 [45:47<52:22,  2.02it/s] 41%|████      | 4328/10682 [45:48<52:21,  2.02it/s] 41%|████      | 4329/10682 [45:48<52:16,  2.03it/s] 41%|████      | 4330/10682 [45:49<52:16,  2.03it/s] 41%|████      | 4331/10682 [45:49<52:12,  2.03it/s] 41%|████      | 4332/10682 [45:50<52:09,  2.03it/s] 41%|████      | 4333/10682 [45:50<52:14,  2.03it/s] 41%|████      | 4334/10682 [45:51<52:09,  2.03it/s] 41%|████      | 4335/10682 [45:51<52:13,  2.03it/s] 41%|████      | 4336/10682 [45:52<52:10,  2.03it/s] 41%|████      | 4337/10682 [45:52<52:13,  2.02it/s] 41%|████      | 4338/10682 [45:53<52:15,  2.02it/s] 41%|████      | 4339/10682 [45:53<52:16,  2.02it/s] 41%|████      | 4340/10682 [45:54<52:10,  2.03it/s] 41%|████      | 4341/10682 [45:54<52:13,  2.02it/s] 41%|████      | 4342/10682 [45:55<52:09,  2.03it/s] 41%|████      | 4343/10682 [45:55<52:11,  2.02it/s] 41%|████      | 4344/10682 [45:56<52:10,  2.02it/s] 41%|████      | 4345/10682 [45:56<52:06,  2.03it/s] 41%|████      | 4346/10682 [45:57<52:07,  2.03it/s] 41%|████      | 4347/10682 [45:57<52:03,  2.03it/s] 41%|████      | 4348/10682 [45:58<52:05,  2.03it/s] 41%|████      | 4349/10682 [45:58<52:02,  2.03it/s] 41%|████      | 4350/10682 [45:59<52:00,  2.03it/s]{'loss': 3.7451, 'grad_norm': 0.21111810207366943, 'learning_rate': 0.0007390734581372948, 'epoch': 0.41}                                                    
+ 41%|████      | 4350/10682 [45:59<52:00,  2.03it/s] 41%|████      | 4351/10682 [45:59<52:03,  2.03it/s] 41%|████      | 4352/10682 [46:00<52:04,  2.03it/s] 41%|████      | 4353/10682 [46:00<52:06,  2.02it/s] 41%|████      | 4354/10682 [46:01<52:03,  2.03it/s] 41%|████      | 4355/10682 [46:01<52:05,  2.02it/s] 41%|████      | 4356/10682 [46:02<52:02,  2.03it/s] 41%|████      | 4357/10682 [46:02<52:06,  2.02it/s] 41%|████      | 4358/10682 [46:03<52:02,  2.03it/s] 41%|████      | 4359/10682 [46:03<52:02,  2.03it/s] 41%|████      | 4360/10682 [46:04<52:01,  2.03it/s] 41%|████      | 4361/10682 [46:04<51:59,  2.03it/s] 41%|████      | 4362/10682 [46:05<51:56,  2.03it/s] 41%|████      | 4363/10682 [46:05<51:55,  2.03it/s] 41%|████      | 4364/10682 [46:06<51:54,  2.03it/s] 41%|████      | 4365/10682 [46:06<51:54,  2.03it/s] 41%|████      | 4366/10682 [46:07<51:57,  2.03it/s] 41%|████      | 4367/10682 [46:07<51:57,  2.03it/s] 41%|████      | 4368/10682 [46:08<52:02,  2.02it/s] 41%|████      | 4369/10682 [46:08<51:58,  2.02it/s] 41%|████      | 4370/10682 [46:09<51:56,  2.03it/s] 41%|████      | 4371/10682 [46:09<51:56,  2.03it/s] 41%|███���      | 4372/10682 [46:10<51:51,  2.03it/s] 41%|████      | 4373/10682 [46:10<51:59,  2.02it/s] 41%|████      | 4374/10682 [46:11<51:54,  2.03it/s] 41%|████      | 4375/10682 [46:11<51:51,  2.03it/s]{'loss': 3.7506, 'grad_norm': 0.2060568779706955, 'learning_rate': 0.0007354776721845277, 'epoch': 0.41}
+                                                     41%|████      | 4375/10682 [46:11<51:51,  2.03it/s] 41%|████      | 4376/10682 [46:12<51:56,  2.02it/s] 41%|████      | 4377/10682 [46:12<51:53,  2.02it/s] 41%|████      | 4378/10682 [46:13<51:51,  2.03it/s] 41%|████      | 4379/10682 [46:13<51:53,  2.02it/s] 41%|████      | 4380/10682 [46:13<51:56,  2.02it/s] 41%|████      | 4381/10682 [46:14<51:55,  2.02it/s] 41%|████      | 4382/10682 [46:14<51:54,  2.02it/s] 41%|████      | 4383/10682 [46:15<51:53,  2.02it/s] 41%|████      | 4384/10682 [46:15<51:51,  2.02it/s] 41%|████      | 4385/10682 [46:16<51:49,  2.02it/s] 41%|████      | 4386/10682 [46:16<51:46,  2.03it/s] 41%|████      | 4387/10682 [46:17<51:50,  2.02it/s] 41%|████      | 4388/10682 [46:17<51:47,  2.03it/s] 41%|████      | 4389/10682 [46:18<51:44,  2.03it/s] 41%|████      | 4390/10682 [46:18<51:45,  2.03it/s] 41%|████      | 4391/10682 [46:19<51:40,  2.03it/s] 41%|████      | 4392/10682 [46:19<51:40,  2.03it/s] 41%|████      | 4393/10682 [46:20<51:42,  2.03it/s] 41%|████      | 4394/10682 [46:20<51:41,  2.03it/s] 41%|████      | 4395/10682 [46:21<51:44,  2.03it/s] 41%|████      | 4396/10682 [46:21<51:40,  2.03it/s] 41%|████      | 4397/10682 [46:22<51:42,  2.03it/s] 41%|████      | 4398/10682 [46:22<51:39,  2.03it/s] 41%|████      | 4399/10682 [46:23<51:41,  2.03it/s] 41%|████      | 4400/10682 [46:23<51:38,  2.03it/s]                                                    {'loss': 3.7484, 'grad_norm': 0.21393784880638123, 'learning_rate': 0.0007318661678006427, 'epoch': 0.41}
+ 41%|████      | 4400/10682 [46:23<51:38,  2.03it/s] 41%|████      | 4401/10682 [46:24<51:42,  2.02it/s] 41%|████      | 4402/10682 [46:24<51:39,  2.03it/s] 41%|████      | 4403/10682 [46:25<51:35,  2.03it/s] 41%|████      | 4404/10682 [46:25<51:36,  2.03it/s] 41%|████      | 4405/10682 [46:26<51:31,  2.03it/s] 41%|████      | 4406/10682 [46:26<51:33,  2.03it/s] 41%|████▏     | 4407/10682 [46:27<51:36,  2.03it/s] 41%|████▏     | 4408/10682 [46:27<51:36,  2.03it/s] 41%|████▏     | 4409/10682 [46:28<51:38,  2.02it/s] 41%|████▏     | 4410/10682 [46:28<51:43,  2.02it/s] 41%|████▏     | 4411/10682 [46:29<51:41,  2.02it/s] 41%|████▏     | 4412/10682 [46:29<51:36,  2.02it/s] 41%|████▏     | 4413/10682 [46:30<51:38,  2.02it/s] 41%|████▏     | 4414/10682 [46:30<51:33,  2.03it/s] 41%|████▏     | 4415/10682 [46:31<51:36,  2.02it/s] 41%|████▏     | 4416/10682 [46:31<51:32,  2.03it/s] 41%|████▏     | 4417/10682 [46:32<51:32,  2.03it/s] 41%|████▏     | 4418/10682 [46:32<51:30,  2.03it/s] 41%|████▏     | 4419/10682 [46:33<51:30,  2.03it/s] 41%|████▏     | 4420/10682 [46:33<51:32,  2.03it/s] 41%|████▏     | 4421/10682 [46:34<51:30,  2.03it/s] 41%|████▏     | 4422/10682 [46:34<51:31,  2.02it/s] 41%|████▏     | 4423/10682 [46:35<51:32,  2.02it/s] 41%|████▏     | 4424/10682 [46:35<51:35,  2.02it/s] 41%|████▏     | 4425/10682 [46:36<51:36,  2.02it/s]                                                    {'loss': 3.7553, 'grad_norm': 0.21232718229293823, 'learning_rate': 0.0007282391860581049, 'epoch': 0.41}
+ 41%|████▏     | 4425/10682 [46:36<51:36,  2.02it/s] 41%|████▏     | 4426/10682 [46:36<51:41,  2.02it/s] 41%|████▏     | 4427/10682 [46:37<51:37,  2.02it/s] 41%|████▏     | 4428/10682 [46:37<51:35,  2.02it/s] 41%|████▏     | 4429/10682 [46:38<51:29,  2.02it/s] 41%|████▏     | 4430/10682 [46:38<51:31,  2.02it/s] 41%|████▏     | 4431/10682 [46:39<51:26,  2.02it/s] 41%|████▏     | 4432/10682 [46:39<51:25,  2.03it/s] 41%|████▏     | 4433/10682 [46:40<51:27,  2.02it/s] 42%|████▏     | 4434/10682 [46:40<51:23,  2.03it/s] 42%|████▏     | 4435/10682 [46:41<51:29,  2.02it/s] 42%|████▏     | 4436/10682 [46:41<51:27,  2.02it/s] 42%|████▏     | 4437/10682 [46:42<51:28,  2.02it/s] 42%|████▏     | 4438/10682 [46:42<51:27,  2.02it/s] 42%|████▏     | 4439/10682 [46:43<51:26,  2.02it/s] 42%|████▏     | 4440/10682 [46:43<51:26,  2.02it/s] 42%|████▏     | 4441/10682 [46:44<51:20,  2.03it/s] 42%|████▏     | 4442/10682 [46:44<51:21,  2.02it/s] 42%|████▏     | 4443/10682 [46:45<51:24,  2.02it/s] 42%|████▏     | 4444/10682 [46:45<51:18,  2.03it/s] 42%|████▏     | 4445/10682 [46:46<51:18,  2.03it/s] 42%|████▏     | 4446/10682 [46:46<51:19,  2.03it/s] 42%|████▏     | 4447/10682 [46:47<51:19,  2.02it/s] 42%|████▏     | 4448/10682 [46:47<51:21,  2.02it/s] 42%|████▏     | 4449/10682 [46:48<51:16,  2.03it/s] 42%|████▏     | 4450/10682 [46:48<51:19,  2.02it/s]                                                    {'loss': 3.7477, 'grad_norm': 0.2059030830860138, 'learning_rate': 0.0007245969690625126, 'epoch': 0.42}
+ 42%|████▏     | 4450/10682 [46:48<51:19,  2.02it/s] 42%|████▏     | 4451/10682 [46:49<51:19,  2.02it/s] 42%|████▏     | 4452/10682 [46:49<51:20,  2.02it/s] 42%|████▏     | 4453/10682 [46:50<51:19,  2.02it/s] 42%|████▏     | 4454/10682 [46:50<51:17,  2.02it/s] 42%|████▏     | 4455/10682 [46:51<51:13,  2.03it/s] 42%|████▏     | 4456/10682 [46:51<51:10,  2.03it/s] 42%|████▏     | 4457/10682 [46:52<51:10,  2.03it/s] 42%|████▏     | 4458/10682 [46:52<51:06,  2.03it/s] 42%|████▏     | 4459/10682 [46:53<51:08,  2.03it/s] 42%|████▏     | 4460/10682 [46:53<51:09,  2.03it/s] 42%|████▏     | 4461/10682 [46:53<51:13,  2.02it/s] 42%|████▏     | 4462/10682 [46:54<51:11,  2.03it/s] 42%|████▏     | 4463/10682 [46:54<51:15,  2.02it/s] 42%|████▏     | 4464/10682 [46:55<51:14,  2.02it/s] 42%|████▏     | 4465/10682 [46:55<51:11,  2.02it/s] 42%|████▏     | 4466/10682 [46:56<51:09,  2.02it/s] 42%|████▏     | 4467/10682 [46:56<51:06,  2.03it/s] 42%|████▏     | 4468/10682 [46:57<51:08,  2.03it/s] 42%|████▏     | 4469/10682 [46:57<51:03,  2.03it/s] 42%|████▏     | 4470/10682 [46:58<51:05,  2.03it/s] 42%|████▏     | 4471/10682 [46:58<51:02,  2.03it/s] 42%|████▏     | 4472/10682 [46:59<51:02,  2.03it/s] 42%|████▏     | 4473/10682 [46:59<51:05,  2.03it/s] 42%|████▏     | 4474/10682 [47:00<51:03,  2.03it/s] 42%|████▏     | 4475/10682 [47:00<51:05,  2.03it/s]{'loss': 3.7476, 'grad_norm': 0.2081686407327652, 'learning_rate': 0.0007209397599364363, 'epoch': 0.42}                                                    
+ 42%|████▏     | 4475/10682 [47:00<51:05,  2.03it/s] 42%|████▏     | 4476/10682 [47:01<51:09,  2.02it/s] 42%|████▏     | 4477/10682 [47:01<51:10,  2.02it/s] 42%|████▏     | 4478/10682 [47:02<51:08,  2.02it/s] 42%|████▏     | 4479/10682 [47:02<51:10,  2.02it/s] 42%|████▏     | 4480/10682 [47:03<51:10,  2.02it/s] 42%|████▏     | 4481/10682 [47:03<51:08,  2.02it/s] 42%|████▏     | 4482/10682 [47:04<51:04,  2.02it/s] 42%|████▏     | 4483/10682 [47:04<51:07,  2.02it/s] 42%|████▏     | 4484/10682 [47:05<51:02,  2.02it/s] 42%|████▏     | 4485/10682 [47:05<51:06,  2.02it/s] 42%|████▏     | 4486/10682 [47:06<51:06,  2.02it/s] 42%|████▏     | 4487/10682 [47:06<51:06,  2.02it/s] 42%|████▏     | 4488/10682 [47:07<51:00,  2.02it/s] 42%|████▏     | 4489/10682 [47:07<50:58,  2.02it/s] 42%|████▏     | 4490/10682 [47:08<50:56,  2.03it/s] 42%|████▏     | 4491/10682 [47:08<50:52,  2.03it/s] 42%|████▏     | 4492/10682 [47:09<50:55,  2.03it/s] 42%|████▏     | 4493/10682 [47:09<50:51,  2.03it/s] 42%|████▏     | 4494/10682 [47:10<50:52,  2.03it/s] 42%|████▏     | 4495/10682 [47:10<50:51,  2.03it/s] 42%|████▏     | 4496/10682 [47:11<50:54,  2.03it/s] 42%|████▏     | 4497/10682 [47:11<50:52,  2.03it/s] 42%|████▏     | 4498/10682 [47:12<50:54,  2.02it/s] 42%|████▏     | 4499/10682 [47:12<50:53,  2.02it/s] 42%|████▏     | 4500/10682 [47:13<50:55,  2.02it/s]                                                    {'loss': 3.745, 'grad_norm': 0.2034536451101303, 'learning_rate': 0.0007172678028031901, 'epoch': 0.42}
+ 42%|████▏     | 4500/10682 [47:13<50:55,  2.02it/s] 42%|████▏     | 4501/10682 [47:13<50:56,  2.02it/s] 42%|████▏     | 4502/10682 [47:14<50:53,  2.02it/s] 42%|████▏     | 4503/10682 [47:14<50:53,  2.02it/s] 42%|████▏     | 4504/10682 [47:15<50:46,  2.03it/s] 42%|████▏     | 4505/10682 [47:15<50:50,  2.02it/s] 42%|████▏     | 4506/10682 [47:16<50:49,  2.03it/s] 42%|████▏     | 4507/10682 [47:16<50:51,  2.02it/s] 42%|████▏     | 4508/10682 [47:17<50:49,  2.02it/s] 42%|████▏     | 4509/10682 [47:17<50:50,  2.02it/s] 42%|████▏     | 4510/10682 [47:18<50:47,  2.03it/s] 42%|████▏     | 4511/10682 [47:18<50:45,  2.03it/s] 42%|████▏     | 4512/10682 [47:19<50:47,  2.02it/s] 42%|████▏     | 4513/10682 [47:19<50:46,  2.02it/s] 42%|████▏     | 4514/10682 [47:20<50:49,  2.02it/s] 42%|████▏     | 4515/10682 [47:20<50:47,  2.02it/s] 42%|████▏     | 4516/10682 [47:21<50:48,  2.02it/s] 42%|████▏     | 4517/10682 [47:21<50:46,  2.02it/s] 42%|████▏     | 4518/10682 [47:22<50:49,  2.02it/s] 42%|████▏     | 4519/10682 [47:22<50:44,  2.02it/s] 42%|████▏     | 4520/10682 [47:23<50:42,  2.03it/s] 42%|████▏     | 4521/10682 [47:23<50:41,  2.03it/s] 42%|████▏     | 4522/10682 [47:24<50:36,  2.03it/s] 42%|████▏     | 4523/10682 [47:24<50:39,  2.03it/s] 42%|████▏     | 4524/10682 [47:25<50:37,  2.03it/s] 42%|████▏     | 4525/10682 [47:25<50:44,  2.02it/s]{'loss': 3.7391, 'grad_norm': 0.20846305787563324, 'learning_rate': 0.0007135813427705359, 'epoch': 0.42}
+                                                     42%|████▏     | 4525/10682 [47:25<50:44,  2.02it/s] 42%|████▏     | 4526/10682 [47:26<50:46,  2.02it/s] 42%|████▏     | 4527/10682 [47:26<50:48,  2.02it/s] 42%|████▏     | 4528/10682 [47:27<50:42,  2.02it/s] 42%|████▏     | 4529/10682 [47:27<50:42,  2.02it/s] 42%|████▏     | 4530/10682 [47:28<50:38,  2.02it/s] 42%|████▏     | 4531/10682 [47:28<50:37,  2.03it/s] 42%|████▏     | 4532/10682 [47:29<50:35,  2.03it/s] 42%|████▏     | 4533/10682 [47:29<50:34,  2.03it/s] 42%|████▏     | 4534/10682 [47:30<50:35,  2.03it/s] 42%|████▏     | 4535/10682 [47:30<50:33,  2.03it/s] 42%|████▏     | 4536/10682 [47:31<50:34,  2.03it/s] 42%|████▏     | 4537/10682 [47:31<50:31,  2.03it/s] 42%|████▏     | 4538/10682 [47:32<50:30,  2.03it/s] 42%|████▏     | 4539/10682 [47:32<50:29,  2.03it/s] 43%|████▎     | 4540/10682 [47:33<50:33,  2.02it/s] 43%|████▎     | 4541/10682 [47:33<50:33,  2.02it/s] 43%|████▎     | 4542/10682 [47:34<50:34,  2.02it/s] 43%|████▎     | 4543/10682 [47:34<50:35,  2.02it/s] 43%|████▎     | 4544/10682 [47:34<50:34,  2.02it/s] 43%|████▎     | 4545/10682 [47:35<50:33,  2.02it/s] 43%|████▎     | 4546/10682 [47:35<50:31,  2.02it/s] 43%|████▎     | 4547/10682 [47:36<50:33,  2.02it/s] 43%|████▎     | 4548/10682 [47:36<50:32,  2.02it/s] 43%|████▎     | 4549/10682 [47:37<50:30,  2.02it/s] 43%|████▎     | 4550/10682 [47:37<50:27,  2.03it/s]{'loss': 3.7287, 'grad_norm': 0.20897896587848663, 'learning_rate': 0.0007098806259143232, 'epoch': 0.43}
+                                                     43%|████▎     | 4550/10682 [47:37<50:27,  2.03it/s] 43%|████▎     | 4551/10682 [47:38<50:31,  2.02it/s] 43%|████▎     | 4552/10682 [47:38<50:27,  2.02it/s] 43%|████▎     | 4553/10682 [47:39<50:24,  2.03it/s] 43%|████▎     | 4554/10682 [47:39<50:24,  2.03it/s] 43%|████▎     | 4555/10682 [47:40<50:21,  2.03it/s] 43%|████▎     | 4556/10682 [47:40<50:27,  2.02it/s] 43%|████▎     | 4557/10682 [47:41<50:25,  2.02it/s] 43%|████▎     | 4558/10682 [47:41<50:28,  2.02it/s] 43%|████▎     | 4559/10682 [47:42<50:26,  2.02it/s] 43%|████▎     | 4560/10682 [47:42<50:25,  2.02it/s] 43%|████▎     | 4561/10682 [47:43<50:25,  2.02it/s] 43%|████▎     | 4562/10682 [47:43<50:21,  2.03it/s] 43%|████▎     | 4563/10682 [47:44<50:23,  2.02it/s] 43%|████▎     | 4564/10682 [47:44<50:16,  2.03it/s] 43%|████▎     | 4565/10682 [47:45<50:17,  2.03it/s] 43%|████▎     | 4566/10682 [47:45<50:16,  2.03it/s] 43%|████▎     | 4567/10682 [47:46<50:13,  2.03it/s] 43%|████▎     | 4568/10682 [47:46<50:16,  2.03it/s] 43%|████▎     | 4569/10682 [47:47<50:14,  2.03it/s] 43%|████▎     | 4570/10682 [47:47<50:14,  2.03it/s] 43%|████▎     | 4571/10682 [47:48<50:15,  2.03it/s] 43%|████▎     | 4572/10682 [47:48<50:12,  2.03it/s] 43%|████▎     | 4573/10682 [47:49<50:13,  2.03it/s] 43%|████▎     | 4574/10682 [47:49<50:15,  2.03it/s] 43%|████▎     | 4575/10682 [47:50<50:12,  2.03it/s]                                                    {'loss': 3.7431, 'grad_norm': 0.21141181886196136, 'learning_rate': 0.0007061658992620613, 'epoch': 0.43}
+ 43%|████▎     | 4575/10682 [47:50<50:12,  2.03it/s] 43%|████▎     | 4576/10682 [47:50<50:21,  2.02it/s] 43%|████▎     | 4577/10682 [47:51<50:16,  2.02it/s] 43%|████▎     | 4578/10682 [47:51<50:13,  2.03it/s] 43%|████▎     | 4579/10682 [47:52<50:11,  2.03it/s] 43%|████▎     | 4580/10682 [47:52<50:10,  2.03it/s] 43%|████▎     | 4581/10682 [47:53<50:09,  2.03it/s] 43%|████▎     | 4582/10682 [47:53<50:07,  2.03it/s] 43%|████▎     | 4583/10682 [47:54<50:07,  2.03it/s] 43%|████▎     | 4584/10682 [47:54<50:09,  2.03it/s] 43%|████��     | 4585/10682 [47:55<50:10,  2.03it/s] 43%|████▎     | 4586/10682 [47:55<50:15,  2.02it/s] 43%|████▎     | 4587/10682 [47:56<50:13,  2.02it/s] 43%|████▎     | 4588/10682 [47:56<50:14,  2.02it/s] 43%|████▎     | 4589/10682 [47:57<50:13,  2.02it/s] 43%|████▎     | 4590/10682 [47:57<50:12,  2.02it/s] 43%|████▎     | 4591/10682 [47:58<50:09,  2.02it/s] 43%|████▎     | 4592/10682 [47:58<50:08,  2.02it/s] 43%|████▎     | 4593/10682 [47:59<50:10,  2.02it/s] 43%|████▎     | 4594/10682 [47:59<50:03,  2.03it/s] 43%|████▎     | 4595/10682 [48:00<50:02,  2.03it/s] 43%|████▎     | 4596/10682 [48:00<50:02,  2.03it/s] 43%|████▎     | 4597/10682 [48:01<50:03,  2.03it/s] 43%|████▎     | 4598/10682 [48:01<50:02,  2.03it/s] 43%|████▎     | 4599/10682 [48:02<49:59,  2.03it/s] 43%|████▎     | 4600/10682 [48:02<50:00,  2.03it/s]{'loss': 3.7419, 'grad_norm': 0.20231886208057404, 'learning_rate': 0.0007024374107764318, 'epoch': 0.43}                                                    
+ 43%|████▎     | 4600/10682 [48:02<50:00,  2.03it/s] 43%|████▎     | 4601/10682 [48:03<50:03,  2.02it/s] 43%|████▎     | 4602/10682 [48:03<50:03,  2.02it/s] 43%|████▎     | 4603/10682 [48:04<50:03,  2.02it/s] 43%|████▎     | 4604/10682 [48:04<50:03,  2.02it/s] 43%|████▎     | 4605/10682 [48:05<49:57,  2.03it/s] 43%|████▎     | 4606/10682 [48:05<50:03,  2.02it/s] 43%|████▎     | 4607/10682 [48:06<50:04,  2.02it/s] 43%|████▎     | 4608/10682 [48:06<50:09,  2.02it/s] 43%|████▎     | 4609/10682 [48:07<50:09,  2.02it/s] 43%|████▎     | 4610/10682 [48:07<50:10,  2.02it/s] 43%|████▎     | 4611/10682 [48:08<50:09,  2.02it/s] 43%|████▎     | 4612/10682 [48:08<50:03,  2.02it/s] 43%|████▎     | 4613/10682 [48:09<50:01,  2.02it/s] 43%|████▎     | 4614/10682 [48:09<49:58,  2.02it/s] 43%|████▎     | 4615/10682 [48:10<49:51,  2.03it/s] 43%|████▎     | 4616/10682 [48:10<49:52,  2.03it/s] 43%|████▎     | 4617/10682 [48:11<49:48,  2.03it/s] 43%|████▎     | 4618/10682 [48:11<49:50,  2.03it/s] 43%|████▎     | 4619/10682 [48:12<49:51,  2.03it/s] 43%|████▎     | 4620/10682 [48:12<49:52,  2.03it/s] 43%|████▎     | 4621/10682 [48:13<49:54,  2.02it/s] 43%|████▎     | 4622/10682 [48:13<49:54,  2.02it/s] 43%|████▎     | 4623/10682 [48:14<49:56,  2.02it/s] 43%|████▎     | 4624/10682 [48:14<49:58,  2.02it/s] 43%|████▎     | 4625/10682 [48:14<49:54,  2.02it/s]                                                    {'loss': 3.7305, 'grad_norm': 0.21654845774173737, 'learning_rate': 0.0006986954093387361, 'epoch': 0.43}
+ 43%|████▎     | 4625/10682 [48:15<49:54,  2.02it/s] 43%|████▎     | 4626/10682 [48:15<49:56,  2.02it/s] 43%|████▎     | 4627/10682 [48:15<49:52,  2.02it/s] 43%|████▎     | 4628/10682 [48:16<49:50,  2.02it/s] 43%|████▎     | 4629/10682 [48:16<49:51,  2.02it/s] 43%|████▎     | 4630/10682 [48:17<49:47,  2.03it/s] 43%|████▎     | 4631/10682 [48:17<49:46,  2.03it/s] 43%|████▎     | 4632/10682 [48:18<58:24,  1.73it/s] 43%|████▎     | 4633/10682 [48:19<55:45,  1.81it/s] 43%|████▎     | 4634/10682 [48:19<54:02,  1.87it/s] 43%|████▎     | 4635/10682 [48:20<52:43,  1.91it/s] 43%|████▎     | 4636/10682 [48:20<51:49,  1.94it/s] 43%|████▎     | 4637/10682 [48:21<51:11,  1.97it/s] 43%|████▎     | 4638/10682 [48:21<50:48,  1.98it/s] 43%|████▎     | 4639/10682 [48:22<50:29,  1.99it/s] 43%|████▎     | 4640/10682 [48:22<50:18,  2.00it/s] 43%|████▎     | 4641/10682 [48:23<50:05,  2.01it/s] 43%|████▎     | 4642/10682 [48:23<49:56,  2.02it/s] 43%|████▎     | 4643/10682 [48:24<49:51,  2.02it/s] 43%|████▎     | 4644/10682 [48:24<49:44,  2.02it/s] 43%|████▎     | 4645/10682 [48:25<49:40,  2.03it/s] 43%|████▎     | 4646/10682 [48:25<49:38,  2.03it/s] 44%|████▎     | 4647/10682 [48:26<50:04,  2.01it/s] 44%|████▎     | 4648/10682 [48:26<49:55,  2.01it/s] 44%|████▎     | 4649/10682 [48:27<49:50,  2.02it/s] 44%|████▎     | 4650/10682 [48:27<49:43,  2.02it/s]{'loss': 3.7326, 'grad_norm': 0.2151581346988678, 'learning_rate': 0.0006949401447322816, 'epoch': 0.44}                                                    
+ 44%|████▎     | 4650/10682 [48:27<49:43,  2.02it/s] 44%|████▎     | 4651/10682 [48:28<57:44,  1.74it/s] 44%|████▎     | 4652/10682 [48:28<55:15,  1.82it/s] 44%|████▎     | 4653/10682 [48:29<53:34,  1.88it/s] 44%|████▎     | 4654/10682 [48:29<52:22,  1.92it/s] 44%|████▎     | 4655/10682 [48:30<51:34,  1.95it/s] 44%|████▎     | 4656/10682 [48:30<50:58,  1.97it/s] 44%|████▎     | 4657/10682 [48:31<50:32,  1.99it/s] 44%|████▎     | 4658/10682 [48:31<50:14,  2.00it/s] 44%|████▎     | 4659/10682 [48:32<50:05,  2.00it/s] 44%|████▎     | 4660/10682 [48:32<49:55,  2.01it/s] 44%|████▎     | 4661/10682 [48:33<49:46,  2.02it/s] 44%|████▎     | 4662/10682 [48:33<49:39,  2.02it/s] 44%|████▎     | 4663/10682 [48:34<49:38,  2.02it/s] 44%|████▎     | 4664/10682 [48:34<49:33,  2.02it/s] 44%|████▎     | 4665/10682 [48:35<49:28,  2.03it/s] 44%|████▎     | 4666/10682 [48:35<49:29,  2.03it/s] 44%|████▎     | 4667/10682 [48:36<49:28,  2.03it/s] 44%|████▎     | 4668/10682 [48:36<49:30,  2.02it/s] 44%|████▎     | 4669/10682 [48:37<49:28,  2.03it/s] 44%|████▎     | 4670/10682 [48:37<49:31,  2.02it/s] 44%|████▎     | 4671/10682 [48:38<49:27,  2.03it/s] 44%|████▎     | 4672/10682 [48:38<49:26,  2.03it/s] 44%|████▎     | 4673/10682 [48:39<49:29,  2.02it/s] 44%|████▍     | 4674/10682 [48:39<49:28,  2.02it/s] 44%|████▍     | 4675/10682 [48:40<49:26,  2.02it/s]{'loss': 3.7251, 'grad_norm': 0.2184009999036789, 'learning_rate': 0.0006911718676257091, 'epoch': 0.44}                                                    
+ 44%|████▍     | 4675/10682 [48:40<49:26,  2.02it/s] 44%|████▍     | 4676/10682 [48:40<49:27,  2.02it/s] 44%|████▍     | 4677/10682 [48:41<49:27,  2.02it/s] 44%|████▍     | 4678/10682 [48:41<49:21,  2.03it/s] 44%|████▍     | 4679/10682 [48:42<49:23,  2.03it/s] 44%|████▍     | 4680/10682 [48:42<49:18,  2.03it/s] 44%|████▍     | 4681/10682 [48:43<49:19,  2.03it/s] 44%|████▍     | 4682/10682 [48:43<49:19,  2.03it/s] 44%|████▍     | 4683/10682 [48:44<49:18,  2.03it/s] 44%|████▍     | 4684/10682 [48:44<49:17,  2.03it/s] 44%|████▍     | 4685/10682 [48:45<49:16,  2.03it/s] 44%|████▍     | 4686/10682 [48:45<49:18,  2.03it/s] 44%|████▍     | 4687/10682 [48:46<49:19,  2.03it/s] 44%|████▍     | 4688/10682 [48:46<49:22,  2.02it/s] 44%|████▍     | 4689/10682 [48:47<49:23,  2.02it/s] 44%|████▍     | 4690/10682 [48:47<49:22,  2.02it/s] 44%|████▍     | 4691/10682 [48:48<49:22,  2.02it/s] 44%|████▍     | 4692/10682 [48:48<49:18,  2.02it/s] 44%|████▍     | 4693/10682 [48:49<49:21,  2.02it/s] 44%|████▍     | 4694/10682 [48:49<49:19,  2.02it/s] 44%|████▍     | 4695/10682 [48:50<49:19,  2.02it/s] 44%|████▍     | 4696/10682 [48:50<49:18,  2.02it/s] 44%|████▍     | 4697/10682 [48:51<49:19,  2.02it/s] 44%|████▍     | 4698/10682 [48:51<49:15,  2.02it/s] 44%|████▍     | 4699/10682 [48:52<49:15,  2.02it/s] 44%|████▍     | 4700/10682 [48:52<49:11,  2.03it/s]                                                    {'loss': 3.7225, 'grad_norm': 0.22168032824993134, 'learning_rate': 0.0006873908295562602, 'epoch': 0.44}
+ 44%|████▍     | 4700/10682 [48:52<49:11,  2.03it/s] 44%|████▍     | 4701/10682 [48:53<49:13,  2.02it/s] 44%|████▍     | 4702/10682 [48:53<49:12,  2.03it/s] 44%|████▍     | 4703/10682 [48:54<49:08,  2.03it/s] 44%|████▍     | 4704/10682 [48:54<49:09,  2.03it/s] 44%|████▍     | 4705/10682 [48:55<49:11,  2.03it/s] 44%|████▍     | 4706/10682 [48:55<49:14,  2.02it/s] 44%|████▍     | 4707/10682 [48:56<49:15,  2.02it/s] 44%|████▍     | 4708/10682 [48:56<49:14,  2.02it/s] 44%|████▍     | 4709/10682 [48:57<49:16,  2.02it/s] 44%|████▍     | 4710/10682 [48:57<49:10,  2.02it/s] 44%|████▍     | 4711/10682 [48:58<49:10,  2.02it/s] 44%|████▍     | 4712/10682 [48:58<49:06,  2.03it/s] 44%|████▍     | 4713/10682 [48:59<49:04,  2.03it/s] 44%|████▍     | 4714/10682 [48:59<49:05,  2.03it/s] 44%|████▍     | 4715/10682 [49:00<49:02,  2.03it/s] 44%|████▍     | 4716/10682 [49:00<49:02,  2.03it/s] 44%|████▍     | 4717/10682 [49:00<49:03,  2.03it/s] 44%|████▍     | 4718/10682 [49:01<49:01,  2.03it/s] 44%|████▍     | 4719/10682 [49:01<48:59,  2.03it/s] 44%|████▍     | 4720/10682 [49:02<49:02,  2.03it/s] 44%|████▍     | 4721/10682 [49:02<49:01,  2.03it/s] 44%|████▍     | 4722/10682 [49:03<49:03,  2.02it/s] 44%|████▍     | 4723/10682 [49:03<49:05,  2.02it/s] 44%|████▍     | 4724/10682 [49:04<49:03,  2.02it/s] 44%|████▍     | 4725/10682 [49:04<49:01,  2.02it/s]                                                    {'loss': 3.7271, 'grad_norm': 0.21540647745132446, 'learning_rate': 0.0006835972829129873, 'epoch': 0.44}
+ 44%|████▍     | 4725/10682 [49:04<49:01,  2.02it/s] 44%|████▍     | 4726/10682 [49:05<49:11,  2.02it/s] 44%|████▍     | 4727/10682 [49:05<49:08,  2.02it/s] 44%|████▍     | 4728/10682 [49:06<49:06,  2.02it/s] 44%|████▍     | 4729/10682 [49:06<49:01,  2.02it/s] 44%|████▍     | 4730/10682 [49:07<49:01,  2.02it/s] 44%|████▍     | 4731/10682 [49:07<48:58,  2.03it/s] 44%|████▍     | 4732/10682 [49:08<48:56,  2.03it/s] 44%|████▍     | 4733/10682 [49:08<48:57,  2.03it/s] 44%|████▍     | 4734/10682 [49:09<48:55,  2.03it/s] 44%|████▍     | 4735/10682 [49:09<48:55,  2.03it/s] 44%|████▍     | 4736/10682 [49:10<48:57,  2.02it/s] 44%|████▍     | 4737/10682 [49:10<48:59,  2.02it/s] 44%|████▍     | 4738/10682 [49:11<48:56,  2.02it/s] 44%|████▍     | 4739/10682 [49:11<48:59,  2.02it/s] 44%|████▍     | 4740/10682 [49:12<48:55,  2.02it/s] 44%|████▍     | 4741/10682 [49:12<48:56,  2.02it/s] 44%|████▍     | 4742/10682 [49:13<48:55,  2.02it/s] 44%|████▍     | 4743/10682 [49:13<48:57,  2.02it/s] 44%|████▍     | 4744/10682 [49:14<48:53,  2.02it/s] 44%|████▍     | 4745/10682 [49:14<48:50,  2.03it/s] 44%|████▍     | 4746/10682 [49:15<48:49,  2.03it/s] 44%|████▍     | 4747/10682 [49:15<48:49,  2.03it/s] 44%|████▍     | 4748/10682 [49:16<48:49,  2.03it/s] 44%|████▍     | 4749/10682 [49:16<48:49,  2.03it/s] 44%|████▍     | 4750/10682 [49:17<48:51,  2.02it/s]                                                    {'loss': 3.7189, 'grad_norm': 0.2164423167705536, 'learning_rate': 0.000679791480919905, 'epoch': 0.44}
+ 44%|████▍     | 4750/10682 [49:17<48:51,  2.02it/s] 44%|████▍     | 4751/10682 [49:17<48:52,  2.02it/s] 44%|████▍     | 4752/10682 [49:18<48:55,  2.02it/s] 44%|████▍     | 4753/10682 [49:18<49:01,  2.02it/s] 45%|████▍     | 4754/10682 [49:19<48:59,  2.02it/s] 45%|████▍     | 4755/10682 [49:19<49:01,  2.02it/s] 45%|████▍     | 4756/10682 [49:20<48:55,  2.02it/s] 45%|████▍     | 4757/10682 [49:20<48:52,  2.02it/s] 45%|████▍     | 4758/10682 [49:21<48:49,  2.02it/s] 45%|████▍     | 4759/10682 [49:21<48:47,  2.02it/s] 45%|████▍     | 4760/10682 [49:22<48:44,  2.02it/s] 45%|████▍     | 4761/10682 [49:22<48:42,  2.03it/s] 45%|████▍     | 4762/10682 [49:23<48:40,  2.03it/s] 45%|████▍     | 4763/10682 [49:23<48:40,  2.03it/s] 45%|████▍     | 4764/10682 [49:24<48:39,  2.03it/s] 45%|████▍     | 4765/10682 [49:24<48:41,  2.03it/s] 45%|████▍     | 4766/10682 [49:25<48:48,  2.02it/s] 45%|████▍     | 4767/10682 [49:25<48:45,  2.02it/s] 45%|████▍     | 4768/10682 [49:26<48:49,  2.02it/s] 45%|████▍     | 4769/10682 [49:26<48:47,  2.02it/s] 45%|████▍     | 4770/10682 [49:27<48:45,  2.02it/s] 45%|████▍     | 4771/10682 [49:27<48:44,  2.02it/s] 45%|████▍     | 4772/10682 [49:28<48:42,  2.02it/s] 45%|████▍     | 4773/10682 [49:28<48:40,  2.02it/s] 45%|████▍     | 4774/10682 [49:29<48:36,  2.03it/s] 45%|████▍     | 4775/10682 [49:29<48:34,  2.03it/s]{'loss': 3.7153, 'grad_norm': 0.21117137372493744, 'learning_rate': 0.000675973677619089, 'epoch': 0.45}
+                                                     45%|████▍     | 4775/10682 [49:29<48:34,  2.03it/s] 45%|████▍     | 4776/10682 [49:30<48:36,  2.03it/s] 45%|████▍     | 4777/10682 [49:30<48:36,  2.02it/s] 45%|████▍     | 4778/10682 [49:31<48:35,  2.03it/s] 45%|████▍     | 4779/10682 [49:31<48:34,  2.03it/s] 45%|████▍     | 4780/10682 [49:32<48:35,  2.02it/s] 45%|████▍     | 4781/10682 [49:32<48:28,  2.03it/s] 45%|████▍     | 4782/10682 [49:33<48:32,  2.03it/s] 45%|████▍     | 4783/10682 [49:33<48:33,  2.02it/s] 45%|████▍     | 4784/10682 [49:34<48:37,  2.02it/s] 45%|████▍     | 4785/10682 [49:34<48:35,  2.02it/s] 45%|████▍     | 4786/10682 [49:35<48:38,  2.02it/s] 45%|████▍     | 4787/10682 [49:35<48:33,  2.02it/s] 45%|████▍     | 4788/10682 [49:36<48:36,  2.02it/s] 45%|████▍     | 4789/10682 [49:36<48:34,  2.02it/s] 45%|████▍     | 4790/10682 [49:37<48:32,  2.02it/s] 45%|████▍     | 4791/10682 [49:37<48:30,  2.02it/s] 45%|████▍     | 4792/10682 [49:38<48:29,  2.02it/s] 45%|████▍     | 4793/10682 [49:38<48:29,  2.02it/s] 45%|████▍     | 4794/10682 [49:39<48:24,  2.03it/s] 45%|████▍     | 4795/10682 [49:39<48:22,  2.03it/s] 45%|████▍     | 4796/10682 [49:40<48:25,  2.03it/s] 45%|████▍     | 4797/10682 [49:40<48:27,  2.02it/s] 45%|████▍     | 4798/10682 [49:41<48:33,  2.02it/s] 45%|████▍     | 4799/10682 [49:41<48:38,  2.02it/s] 45%|████▍     | 4800/10682 [49:42<48:34,  2.02it/s]                                                    {'loss': 3.7186, 'grad_norm': 0.21361175179481506, 'learning_rate': 0.0006721441278537161, 'epoch': 0.45}
+ 45%|████▍     | 4800/10682 [49:42<48:34,  2.02it/s] 45%|████▍     | 4801/10682 [49:42<48:36,  2.02it/s] 45%|████▍     | 4802/10682 [49:43<48:31,  2.02it/s] 45%|████▍     | 4803/10682 [49:43<48:33,  2.02it/s] 45%|████▍     | 4804/10682 [49:43<48:28,  2.02it/s] 45%|████▍     | 4805/10682 [49:44<48:28,  2.02it/s] 45%|████▍     | 4806/10682 [49:44<48:25,  2.02it/s] 45%|████▌     | 4807/10682 [49:45<48:25,  2.02it/s] 45%|████▌     | 4808/10682 [49:45<48:20,  2.02it/s] 45%|████▌     | 4809/10682 [49:46<48:22,  2.02it/s] 45%|████▌     | 4810/10682 [49:46<48:19,  2.03it/s] 45%|████▌     | 4811/10682 [49:47<48:20,  2.02it/s] 45%|████▌     | 4812/10682 [49:47<48:21,  2.02it/s] 45%|████▌     | 4813/10682 [49:48<48:23,  2.02it/s] 45%|████▌     | 4814/10682 [49:48<48:24,  2.02it/s] 45%|████▌     | 4815/10682 [49:49<48:24,  2.02it/s] 45%|████▌     | 4816/10682 [49:49<48:22,  2.02it/s] 45%|████▌     | 4817/10682 [49:50<48:19,  2.02it/s] 45%|████▌     | 4818/10682 [49:50<48:17,  2.02it/s] 45%|████▌     | 4819/10682 [49:51<48:17,  2.02it/s] 45%|████▌     | 4820/10682 [49:51<48:17,  2.02it/s] 45%|████▌     | 4821/10682 [49:52<48:14,  2.02it/s] 45%|████▌     | 4822/10682 [49:52<48:14,  2.02it/s] 45%|████▌     | 4823/10682 [49:53<48:14,  2.02it/s] 45%|████▌     | 4824/10682 [49:53<48:13,  2.02it/s] 45%|████▌     | 4825/10682 [49:54<48:12,  2.03it/s]{'loss': 3.7267, 'grad_norm': 0.21165809035301208, 'learning_rate': 0.0006683030872510552, 'epoch': 0.45}
+                                                     45%|████▌     | 4825/10682 [49:54<48:12,  2.03it/s] 45%|████▌     | 4826/10682 [49:54<48:23,  2.02it/s] 45%|████▌     | 4827/10682 [49:55<48:19,  2.02it/s] 45%|████▌     | 4828/10682 [49:55<48:19,  2.02it/s] 45%|████▌     | 4829/10682 [49:56<48:20,  2.02it/s] 45%|████▌     | 4830/10682 [49:56<48:17,  2.02it/s] 45%|████▌     | 4831/10682 [49:57<48:14,  2.02it/s] 45%|████▌     | 4832/10682 [49:57<48:13,  2.02it/s] 45%|████▌     | 4833/10682 [49:58<48:09,  2.02it/s] 45%|████▌     | 4834/10682 [49:58<48:06,  2.03it/s] 45%|████▌     | 4835/10682 [49:59<48:06,  2.03it/s] 45%|████▌     | 4836/10682 [49:59<48:01,  2.03it/s] 45%|████▌     | 4837/10682 [50:00<48:04,  2.03it/s] 45%|████▌     | 4838/10682 [50:00<48:04,  2.03it/s] 45%|████▌     | 4839/10682 [50:01<48:05,  2.03it/s] 45%|████▌     | 4840/10682 [50:01<48:07,  2.02it/s] 45%|████▌     | 4841/10682 [50:02<48:11,  2.02it/s] 45%|████▌     | 4842/10682 [50:02<48:13,  2.02it/s] 45%|████▌     | 4843/10682 [50:03<48:12,  2.02it/s] 45%|████▌     | 4844/10682 [50:03<48:07,  2.02it/s] 45%|████▌     | 4845/10682 [50:04<48:02,  2.02it/s] 45%|████▌     | 4846/10682 [50:04<48:04,  2.02it/s] 45%|████▌     | 4847/10682 [50:05<48:02,  2.02it/s] 45%|████▌     | 4848/10682 [50:05<47:57,  2.03it/s] 45%|████▌     | 4849/10682 [50:06<48:01,  2.02it/s] 45%|████▌     | 4850/10682 [50:06<47:59,  2.03it/s]                                                    {'loss': 3.7154, 'grad_norm': 0.2031516432762146, 'learning_rate': 0.0006644508122054031, 'epoch': 0.45}
+ 45%|████▌     | 4850/10682 [50:06<47:59,  2.03it/s] 45%|████▌     | 4851/10682 [50:07<48:13,  2.02it/s] 45%|████▌     | 4852/10682 [50:07<48:06,  2.02it/s] 45%|████▌     | 4853/10682 [50:08<48:11,  2.02it/s] 45%|████▌     | 4854/10682 [50:08<48:03,  2.02it/s] 45%|████▌     | 4855/10682 [50:09<48:05,  2.02it/s] 45%|████▌     | 4856/10682 [50:09<48:01,  2.02it/s] 45%|████▌     | 4857/10682 [50:10<47:58,  2.02it/s] 45%|████▌     | 4858/10682 [50:10<47:58,  2.02it/s] 45%|████▌     | 4859/10682 [50:11<47:58,  2.02it/s] 45%|████▌     | 4860/10682 [50:11<47:54,  2.03it/s] 46%|████▌     | 4861/10682 [50:12<47:50,  2.03it/s] 46%|████▌     | 4862/10682 [50:12<47:51,  2.03it/s] 46%|████▌     | 4863/10682 [50:13<47:51,  2.03it/s] 46%|████▌     | 4864/10682 [50:13<47:49,  2.03it/s] 46%|████▌     | 4865/10682 [50:14<47:50,  2.03it/s] 46%|████▌     | 4866/10682 [50:14<47:49,  2.03it/s] 46%|████▌     | 4867/10682 [50:15<47:46,  2.03it/s] 46%|████▌     | 4868/10682 [50:15<47:44,  2.03it/s] 46%|████▌     | 4869/10682 [50:16<47:44,  2.03it/s] 46%|████▌     | 4870/10682 [50:16<47:46,  2.03it/s] 46%|████▌     | 4871/10682 [50:17<47:46,  2.03it/s] 46%|████▌     | 4872/10682 [50:17<47:49,  2.02it/s] 46%|████▌     | 4873/10682 [50:18<47:50,  2.02it/s] 46%|████▌     | 4874/10682 [50:18<47:51,  2.02it/s] 46%|████▌     | 4875/10682 [50:19<47:49,  2.02it/s]{'loss': 3.7198, 'grad_norm': 0.2075369507074356, 'learning_rate': 0.0006605875598609699, 'epoch': 0.46}
+                                                     46%|████▌     | 4875/10682 [50:19<47:49,  2.02it/s] 46%|████▌     | 4876/10682 [50:19<47:54,  2.02it/s] 46%|████▌     | 4877/10682 [50:20<47:50,  2.02it/s] 46%|████▌     | 4878/10682 [50:20<47:50,  2.02it/s] 46%|████▌     | 4879/10682 [50:21<47:50,  2.02it/s] 46%|████▌     | 4880/10682 [50:21<47:50,  2.02it/s] 46%|████▌     | 4881/10682 [50:22<47:45,  2.02it/s] 46%|████▌     | 4882/10682 [50:22<47:43,  2.03it/s] 46%|████▌     | 4883/10682 [50:23<47:44,  2.02it/s] 46%|████▌     | 4884/10682 [50:23<47:41,  2.03it/s] 46%|████▌     | 4885/10682 [50:24<47:42,  2.03it/s] 46%|████▌     | 4886/10682 [50:24<47:40,  2.03it/s] 46%|████▌     | 4887/10682 [50:25<47:40,  2.03it/s] 46%|████▌     | 4888/10682 [50:25<47:40,  2.03it/s] 46%|████▌     | 4889/10682 [50:25<47:44,  2.02it/s] 46%|████▌     | 4890/10682 [50:26<47:39,  2.03it/s] 46%|████▌     | 4891/10682 [50:26<47:41,  2.02it/s] 46%|████▌     | 4892/10682 [50:27<47:39,  2.02it/s] 46%|████▌     | 4893/10682 [50:27<47:45,  2.02it/s] 46%|████▌     | 4894/10682 [50:28<47:40,  2.02it/s] 46%|████▌     | 4895/10682 [50:28<47:40,  2.02it/s] 46%|████▌     | 4896/10682 [50:29<47:37,  2.02it/s] 46%|████▌     | 4897/10682 [50:29<47:36,  2.03it/s] 46%|████▌     | 4898/10682 [50:30<47:35,  2.03it/s] 46%|████▌     | 4899/10682 [50:30<47:33,  2.03it/s] 46%|████▌     | 4900/10682 [50:31<47:33,  2.03it/s]{'loss': 3.7135, 'grad_norm': 0.20748911798000336, 'learning_rate': 0.0006567135880947134, 'epoch': 0.46}
+                                                     46%|████▌     | 4900/10682 [50:31<47:33,  2.03it/s] 46%|████▌     | 4901/10682 [50:31<47:34,  2.02it/s] 46%|████▌     | 4902/10682 [50:32<47:34,  2.02it/s] 46%|████▌     | 4903/10682 [50:32<47:35,  2.02it/s] 46%|████▌     | 4904/10682 [50:33<47:38,  2.02it/s] 46%|████▌     | 4905/10682 [50:33<47:33,  2.02it/s] 46%|████▌     | 4906/10682 [50:34<47:37,  2.02it/s] 46%|████▌     | 4907/10682 [50:34<47:33,  2.02it/s] 46%|████▌     | 4908/10682 [50:35<47:31,  2.02it/s] 46%|████▌     | 4909/10682 [50:35<47:32,  2.02it/s] 46%|████▌     | 4910/10682 [50:36<47:32,  2.02it/s] 46%|████▌     | 4911/10682 [50:36<47:30,  2.02it/s] 46%|████▌     | 4912/10682 [50:37<47:26,  2.03it/s] 46%|████▌     | 4913/10682 [50:37<47:31,  2.02it/s] 46%|████▌     | 4914/10682 [50:38<47:25,  2.03it/s] 46%|████▌     | 4915/10682 [50:38<47:27,  2.03it/s] 46%|████▌     | 4916/10682 [50:39<47:23,  2.03it/s] 46%|████▌     | 4917/10682 [50:39<47:20,  2.03it/s] 46%|████▌     | 4918/10682 [50:40<47:23,  2.03it/s] 46%|████▌     | 4919/10682 [50:40<47:19,  2.03it/s] 46%|████▌     | 4920/10682 [50:41<47:23,  2.03it/s] 46%|████▌     | 4921/10682 [50:41<47:21,  2.03it/s] 46%|████▌     | 4922/10682 [50:42<47:23,  2.03it/s] 46%|████▌     | 4923/10682 [50:42<47:26,  2.02it/s] 46%|████▌     | 4924/10682 [50:43<47:28,  2.02it/s] 46%|████▌     | 4925/10682 [50:43<47:27,  2.02it/s]{'loss': 3.7094, 'grad_norm': 0.19819292426109314, 'learning_rate': 0.0006528291554991272, 'epoch': 0.46}
+                                                     46%|████▌     | 4925/10682 [50:43<47:27,  2.02it/s] 46%|████▌     | 4926/10682 [50:44<47:29,  2.02it/s] 46%|████▌     | 4927/10682 [50:44<47:27,  2.02it/s] 46%|████▌     | 4928/10682 [50:45<47:28,  2.02it/s] 46%|████▌     | 4929/10682 [50:45<47:28,  2.02it/s] 46%|████▌     | 4930/10682 [50:46<47:25,  2.02it/s] 46%|████▌     | 4931/10682 [50:46<47:24,  2.02it/s] 46%|████▌     | 4932/10682 [50:47<47:20,  2.02it/s] 46%|████▌     | 4933/10682 [50:47<47:20,  2.02it/s] 46%|████▌     | 4934/10682 [50:48<47:18,  2.02it/s] 46%|████▌     | 4935/10682 [50:48<47:17,  2.03it/s] 46%|████▌     | 4936/10682 [50:49<47:20,  2.02it/s] 46%|████▌     | 4937/10682 [50:49<47:22,  2.02it/s] 46%|████▌     | 4938/10682 [50:50<47:22,  2.02it/s] 46%|████▌     | 4939/10682 [50:50<47:18,  2.02it/s] 46%|████▌     | 4940/10682 [50:51<47:17,  2.02it/s] 46%|████▋     | 4941/10682 [50:51<47:12,  2.03it/s] 46%|████▋     | 4942/10682 [50:52<47:07,  2.03it/s] 46%|████▋     | 4943/10682 [50:52<47:11,  2.03it/s] 46%|████▋     | 4944/10682 [50:53<47:07,  2.03it/s] 46%|████▋     | 4945/10682 [50:53<47:08,  2.03it/s] 46%|████▋     | 4946/10682 [50:54<47:06,  2.03it/s] 46%|████▋     | 4947/10682 [50:54<47:07,  2.03it/s] 46%|████▋     | 4948/10682 [50:55<47:07,  2.03it/s] 46%|████▋     | 4949/10682 [50:55<47:06,  2.03it/s] 46%|████▋     | 4950/10682 [50:56<47:09,  2.03it/s]{'loss': 3.7067, 'grad_norm': 0.20908565819263458, 'learning_rate': 0.0006489345213649782, 'epoch': 0.46}                                                    
+ 46%|████▋     | 4950/10682 [50:56<47:09,  2.03it/s] 46%|████▋     | 4951/10682 [50:56<47:14,  2.02it/s] 46%|████▋     | 4952/10682 [50:57<47:14,  2.02it/s] 46%|████▋     | 4953/10682 [50:57<47:12,  2.02it/s] 46%|████▋     | 4954/10682 [50:58<47:12,  2.02it/s] 46%|████▋     | 4955/10682 [50:58<47:09,  2.02it/s] 46%|████▋     | 4956/10682 [50:59<47:10,  2.02it/s] 46%|████▋     | 4957/10682 [50:59<47:06,  2.03it/s] 46%|████▋     | 4958/10682 [51:00<47:08,  2.02it/s] 46%|████▋     | 4959/10682 [51:00<47:04,  2.03it/s] 46%|████▋     | 4960/10682 [51:01<47:03,  2.03it/s] 46%|████▋     | 4961/10682 [51:01<47:04,  2.03it/s] 46%|████▋     | 4962/10682 [51:02<47:00,  2.03it/s] 46%|████▋     | 4963/10682 [51:02<47:04,  2.03it/s] 46%|████▋     | 4964/10682 [51:03<47:00,  2.03it/s] 46%|████▋     | 4965/10682 [51:03<46:59,  2.03it/s] 46%|████▋     | 4966/10682 [51:04<46:59,  2.03it/s] 46%|████▋     | 4967/10682 [51:04<46:58,  2.03it/s] 47%|████▋     | 4968/10682 [51:05<46:59,  2.03it/s] 47%|████▋     | 4969/10682 [51:05<46:58,  2.03it/s] 47%|████▋     | 4970/10682 [51:06<47:04,  2.02it/s] 47%|████▋     | 4971/10682 [51:06<47:04,  2.02it/s] 47%|████▋     | 4972/10682 [51:06<47:03,  2.02it/s] 47%|████▋     | 4973/10682 [51:07<47:02,  2.02it/s] 47%|████▋     | 4974/10682 [51:07<47:03,  2.02it/s] 47%|████▋     | 4975/10682 [51:08<47:02,  2.02it/s]                                                    {'loss': 3.6994, 'grad_norm': 0.2008499652147293, 'learning_rate': 0.0006450299456639985, 'epoch': 0.47}
+ 47%|████▋     | 4975/10682 [51:08<47:02,  2.02it/s] 47%|████▋     | 4976/10682 [51:08<47:07,  2.02it/s] 47%|████▋     | 4977/10682 [51:09<47:02,  2.02it/s] 47%|████▋     | 4978/10682 [51:09<47:04,  2.02it/s] 47%|████▋     | 4979/10682 [51:10<47:02,  2.02it/s] 47%|████▋     | 4980/10682 [51:10<46:57,  2.02it/s] 47%|████▋     | 4981/10682 [51:11<46:57,  2.02it/s] 47%|████▋     | 4982/10682 [51:11<46:53,  2.03it/s] 47%|████▋     | 4983/10682 [51:12<46:52,  2.03it/s] 47%|████▋     | 4984/10682 [51:12<46:53,  2.02it/s] 47%|████▋     | 4985/10682 [51:13<46:50,  2.03it/s] 47%|████▋     | 4986/10682 [51:13<46:56,  2.02it/s] 47%|████▋     | 4987/10682 [51:14<46:54,  2.02it/s] 47%|████▋     | 4988/10682 [51:14<46:56,  2.02it/s] 47%|████▋     | 4989/10682 [51:15<46:56,  2.02it/s] 47%|████▋     | 4990/10682 [51:15<46:55,  2.02it/s] 47%|████▋     | 4991/10682 [51:16<46:54,  2.02it/s] 47%|████▋     | 4992/10682 [51:16<46:51,  2.02it/s] 47%|████▋     | 4993/10682 [51:17<46:56,  2.02it/s] 47%|████▋     | 4994/10682 [51:17<46:48,  2.03it/s] 47%|████▋     | 4995/10682 [51:18<46:45,  2.03it/s] 47%|████▋     | 4996/10682 [51:18<46:47,  2.03it/s] 47%|████▋     | 4997/10682 [51:19<46:43,  2.03it/s] 47%|████▋     | 4998/10682 [51:19<46:43,  2.03it/s] 47%|████▋     | 4999/10682 [51:20<46:42,  2.03it/s] 47%|████▋     | 5000/10682 [51:20<46:42,  2.03it/s]{'loss': 3.7079, 'grad_norm': 0.22665593028068542, 'learning_rate': 0.0006411156890315328, 'epoch': 0.47}
+                                                     47%|████▋     | 5000/10682 [51:20<46:42,  2.03it/s] 47%|████▋     | 5001/10682 [51:21<46:45,  2.02it/s] 47%|████▋     | 5002/10682 [51:21<46:43,  2.03it/s] 47%|████▋     | 5003/10682 [51:22<46:45,  2.02it/s] 47%|████▋     | 5004/10682 [51:22<46:46,  2.02it/s] 47%|████▋     | 5005/10682 [51:23<46:46,  2.02it/s] 47%|████▋     | 5006/10682 [51:23<46:41,  2.03it/s] 47%|████▋     | 5007/10682 [51:24<46:45,  2.02it/s] 47%|████▋     | 5008/10682 [51:24<46:40,  2.03it/s] 47%|████▋     | 5009/10682 [51:25<46:44,  2.02it/s] 47%|████▋     | 5010/10682 [51:25<46:40,  2.03it/s] 47%|████▋     | 5011/10682 [51:26<46:40,  2.02it/s] 47%|████▋     | 5012/10682 [51:26<46:37,  2.03it/s] 47%|████▋     | 5013/10682 [51:27<46:39,  2.03it/s] 47%|████▋     | 5014/10682 [51:27<46:37,  2.03it/s] 47%|████▋     | 5015/10682 [51:28<46:35,  2.03it/s] 47%|████▋     | 5016/10682 [51:28<46:35,  2.03it/s] 47%|████▋     | 5017/10682 [51:29<46:34,  2.03it/s] 47%|████▋     | 5018/10682 [51:29<46:34,  2.03it/s] 47%|████▋     | 5019/10682 [51:30<46:32,  2.03it/s] 47%|████▋     | 5020/10682 [51:30<46:35,  2.03it/s] 47%|████▋     | 5021/10682 [51:31<46:34,  2.03it/s] 47%|████▋     | 5022/10682 [51:31<46:34,  2.03it/s] 47%|████▋     | 5023/10682 [51:32<46:36,  2.02it/s] 47%|████▋     | 5024/10682 [51:32<46:38,  2.02it/s] 47%|████▋     | 5025/10682 [51:33<46:35,  2.02it/s]{'loss': 3.7122, 'grad_norm': 0.21035653352737427, 'learning_rate': 0.0006371920127491398, 'epoch': 0.47}
+                                                     47%|████▋     | 5025/10682 [51:33<46:35,  2.02it/s] 47%|████▋     | 5026/10682 [51:33<46:42,  2.02it/s] 47%|████▋     | 5027/10682 [51:34<46:37,  2.02it/s] 47%|████▋     | 5028/10682 [51:34<46:36,  2.02it/s] 47%|████▋     | 5029/10682 [51:35<46:35,  2.02it/s] 47%|████▋     | 5030/10682 [51:35<46:32,  2.02it/s] 47%|████▋     | 5031/10682 [51:36<46:31,  2.02it/s] 47%|████▋     | 5032/10682 [51:36<46:32,  2.02it/s] 47%|████▋     | 5033/10682 [51:37<46:34,  2.02it/s] 47%|████▋     | 5034/10682 [51:37<46:32,  2.02it/s] 47%|████▋     | 5035/10682 [51:38<46:31,  2.02it/s] 47%|████▋     | 5036/10682 [51:38<46:31,  2.02it/s] 47%|████▋     | 5037/10682 [51:39<46:32,  2.02it/s] 47%|████▋     | 5038/10682 [51:39<46:33,  2.02it/s] 47%|████▋     | 5039/10682 [51:40<46:35,  2.02it/s] 47%|████▋     | 5040/10682 [51:40<46:39,  2.02it/s] 47%|████▋     | 5041/10682 [51:41<46:33,  2.02it/s] 47%|████▋     | 5042/10682 [51:41<46:31,  2.02it/s] 47%|████▋     | 5043/10682 [51:42<46:33,  2.02it/s] 47%|████▋     | 5044/10682 [51:42<46:29,  2.02it/s] 47%|████▋     | 5045/10682 [51:43<46:30,  2.02it/s] 47%|████▋     | 5046/10682 [51:43<46:26,  2.02it/s] 47%|████▋     | 5047/10682 [51:44<46:24,  2.02it/s] 47%|████▋     | 5048/10682 [51:44<46:21,  2.03it/s] 47%|████▋     | 5049/10682 [51:45<46:16,  2.03it/s] 47%|████▋     | 5050/10682 [51:45<46:17,  2.03it/s]{'loss': 3.7042, 'grad_norm': 0.20526137948036194, 'learning_rate': 0.0006332591787271516, 'epoch': 0.47}
+                                                     47%|████▋     | 5050/10682 [51:45<46:17,  2.03it/s] 47%|████▋     | 5051/10682 [51:46<46:15,  2.03it/s] 47%|████▋     | 5052/10682 [51:46<46:13,  2.03it/s] 47%|████▋     | 5053/10682 [51:47<46:15,  2.03it/s] 47%|████▋     | 5054/10682 [51:47<46:14,  2.03it/s] 47%|████▋     | 5055/10682 [51:48<46:18,  2.03it/s] 47%|████▋     | 5056/10682 [51:48<46:16,  2.03it/s] 47%|████▋     | 5057/10682 [51:48<46:16,  2.03it/s] 47%|████▋     | 5058/10682 [51:49<46:15,  2.03it/s] 47%|████▋     | 5059/10682 [51:49<46:15,  2.03it/s] 47%|████▋     | 5060/10682 [51:50<46:14,  2.03it/s] 47%|████▋     | 5061/10682 [51:50<46:12,  2.03it/s] 47%|████▋     | 5062/10682 [51:51<46:12,  2.03it/s] 47%|████▋     | 5063/10682 [51:51<46:12,  2.03it/s] 47%|████▋     | 5064/10682 [51:52<46:14,  2.03it/s] 47%|████▋     | 5065/10682 [51:52<46:12,  2.03it/s] 47%|████▋     | 5066/10682 [51:53<46:09,  2.03it/s] 47%|████▋     | 5067/10682 [51:53<46:11,  2.03it/s] 47%|████▋     | 5068/10682 [51:54<46:10,  2.03it/s] 47%|████▋     | 5069/10682 [51:54<46:12,  2.02it/s] 47%|████▋     | 5070/10682 [51:55<46:09,  2.03it/s] 47%|████▋     | 5071/10682 [51:55<46:09,  2.03it/s] 47%|████▋     | 5072/10682 [51:56<46:09,  2.03it/s] 47%|████▋     | 5073/10682 [51:56<46:09,  2.03it/s] 48%|████▊     | 5074/10682 [51:57<46:09,  2.02it/s] 48%|████▊     | 5075/10682 [51:57<46:08,  2.03it/s]{'loss': 3.704, 'grad_norm': 0.21316096186637878, 'learning_rate': 0.0006293174494871916, 'epoch': 0.48}
+                                                     48%|████▊     | 5075/10682 [51:57<46:08,  2.03it/s] 48%|████▊     | 5076/10682 [51:58<46:14,  2.02it/s] 48%|████▊     | 5077/10682 [51:58<46:10,  2.02it/s] 48%|████▊     | 5078/10682 [51:59<46:08,  2.02it/s] 48%|████▊     | 5079/10682 [51:59<46:05,  2.03it/s] 48%|████▊     | 5080/10682 [52:00<46:04,  2.03it/s] 48%|████▊     | 5081/10682 [52:00<46:03,  2.03it/s] 48%|████▊     | 5082/10682 [52:01<46:02,  2.03it/s] 48%|████▊     | 5083/10682 [52:01<46:05,  2.02it/s] 48%|████▊     | 5084/10682 [52:02<46:04,  2.02it/s] 48%|████▊     | 5085/10682 [52:02<46:08,  2.02it/s] 48%|████▊     | 5086/10682 [52:03<46:06,  2.02it/s] 48%|████▊     | 5087/10682 [52:03<46:07,  2.02it/s] 48%|████▊     | 5088/10682 [52:04<46:04,  2.02it/s] 48%|████▊     | 5089/10682 [52:04<46:04,  2.02it/s] 48%|████▊     | 5090/10682 [52:05<46:00,  2.03it/s] 48%|████▊     | 5091/10682 [52:05<45:58,  2.03it/s] 48%|████▊     | 5092/10682 [52:06<45:59,  2.03it/s] 48%|████▊     | 5093/10682 [52:06<45:56,  2.03it/s] 48%|████▊     | 5094/10682 [52:07<45:57,  2.03it/s] 48%|████▊     | 5095/10682 [52:07<45:54,  2.03it/s] 48%|████▊     | 5096/10682 [52:08<45:54,  2.03it/s] 48%|████▊     | 5097/10682 [52:08<45:56,  2.03it/s] 48%|████▊     | 5098/10682 [52:09<45:55,  2.03it/s] 48%|████▊     | 5099/10682 [52:09<45:57,  2.02it/s] 48%|████▊     | 5100/10682 [52:10<45:54,  2.03it/s]{'loss': 3.6973, 'grad_norm': 0.2130146026611328, 'learning_rate': 0.0006253670881446494, 'epoch': 0.48}
+                                                     48%|████▊     | 5100/10682 [52:10<45:54,  2.03it/s] 48%|████▊     | 5101/10682 [52:10<45:59,  2.02it/s] 48%|████▊     | 5102/10682 [52:11<45:58,  2.02it/s] 48%|████▊     | 5103/10682 [52:11<46:00,  2.02it/s] 48%|████▊     | 5104/10682 [52:12<45:55,  2.02it/s] 48%|████▊     | 5105/10682 [52:12<45:56,  2.02it/s] 48%|████▊     | 5106/10682 [52:13<45:52,  2.03it/s] 48%|████▊     | 5107/10682 [52:13<45:53,  2.02it/s] 48%|████▊     | 5108/10682 [52:14<45:51,  2.03it/s] 48%|████▊     | 5109/10682 [52:14<45:47,  2.03it/s] 48%|████▊     | 5110/10682 [52:15<45:47,  2.03it/s] 48%|████▊     | 5111/10682 [52:15<45:49,  2.03it/s] 48%|████▊     | 5112/10682 [52:16<45:50,  2.03it/s] 48%|████▊     | 5113/10682 [52:16<45:51,  2.02it/s] 48%|████▊     | 5114/10682 [52:17<45:50,  2.02it/s] 48%|████▊     | 5115/10682 [52:17<45:52,  2.02it/s] 48%|████▊     | 5116/10682 [52:18<45:49,  2.02it/s] 48%|████▊     | 5117/10682 [52:18<45:53,  2.02it/s] 48%|████▊     | 5118/10682 [52:19<45:51,  2.02it/s] 48%|████▊     | 5119/10682 [52:19<45:50,  2.02it/s] 48%|████▊     | 5120/10682 [52:20<45:46,  2.02it/s] 48%|████▊     | 5121/10682 [52:20<45:42,  2.03it/s] 48%|████▊     | 5122/10682 [52:21<45:44,  2.03it/s] 48%|████▊     | 5123/10682 [52:21<45:45,  2.02it/s] 48%|████▊     | 5124/10682 [52:22<45:47,  2.02it/s] 48%|████▊     | 5125/10682 [52:22<45:47,  2.02it/s]                                                    {'loss': 3.7059, 'grad_norm': 0.21612754464149475, 'learning_rate': 0.0006214083583911186, 'epoch': 0.48}
+ 48%|████▊     | 5125/10682 [52:22<45:47,  2.02it/s] 48%|████▊     | 5126/10682 [52:23<45:52,  2.02it/s] 48%|████▊     | 5127/10682 [52:23<45:49,  2.02it/s] 48%|████▊     | 5128/10682 [52:24<45:47,  2.02it/s] 48%|████▊     | 5129/10682 [52:24<45:46,  2.02it/s] 48%|████▊     | 5130/10682 [52:25<45:44,  2.02it/s] 48%|████▊     | 5131/10682 [52:25<45:45,  2.02it/s] 48%|████▊     | 5132/10682 [52:26<45:45,  2.02it/s] 48%|████▊     | 5133/10682 [52:26<45:44,  2.02it/s] 48%|████▊     | 5134/10682 [52:27<45:42,  2.02it/s] 48%|████▊     | 5135/10682 [52:27<45:38,  2.03it/s] 48%|████▊     | 5136/10682 [52:28<45:40,  2.02it/s] 48%|████▊     | 5137/10682 [52:28<45:37,  2.03it/s] 48%|████▊     | 5138/10682 [52:28<45:38,  2.02it/s] 48%|████▊     | 5139/10682 [52:29<45:39,  2.02it/s] 48%|████▊     | 5140/10682 [52:29<45:38,  2.02it/s] 48%|████▊     | 5141/10682 [52:30<45:36,  2.02it/s] 48%|████▊     | 5142/10682 [52:30<45:36,  2.02it/s] 48%|████▊     | 5143/10682 [52:31<45:37,  2.02it/s] 48%|████▊     | 5144/10682 [52:31<45:38,  2.02it/s] 48%|████▊     | 5145/10682 [52:32<45:34,  2.02it/s] 48%|████▊     | 5146/10682 [52:32<45:34,  2.02it/s] 48%|████▊     | 5147/10682 [52:33<45:33,  2.02it/s] 48%|████▊     | 5148/10682 [52:33<45:31,  2.03it/s] 48%|████▊     | 5149/10682 [52:34<45:31,  2.03it/s] 48%|████▊     | 5150/10682 [52:34<45:28,  2.03it/s]                                                    {'loss': 3.6933, 'grad_norm': 0.2120669186115265, 'learning_rate': 0.0006174415244767953, 'epoch': 0.48}
+ 48%|████▊     | 5150/10682 [52:34<45:28,  2.03it/s] 48%|████▊     | 5151/10682 [52:35<45:32,  2.02it/s] 48%|████▊     | 5152/10682 [52:35<45:28,  2.03it/s] 48%|████▊     | 5153/10682 [52:36<45:34,  2.02it/s] 48%|████▊     | 5154/10682 [52:36<45:30,  2.02it/s] 48%|████▊     | 5155/10682 [52:37<45:32,  2.02it/s] 48%|████▊     | 5156/10682 [52:37<45:31,  2.02it/s] 48%|████▊     | 5157/10682 [52:38<45:30,  2.02it/s] 48%|████▊     | 5158/10682 [52:38<45:27,  2.03it/s] 48%|████▊     | 5159/10682 [52:39<45:29,  2.02it/s] 48%|████▊     | 5160/10682 [52:39<45:27,  2.02it/s] 48%|████▊     | 5161/10682 [52:40<45:26,  2.03it/s] 48%|████▊     | 5162/10682 [52:40<45:26,  2.02it/s] 48%|████▊     | 5163/10682 [52:41<45:27,  2.02it/s] 48%|████▊     | 5164/10682 [52:41<45:25,  2.02it/s] 48%|████▊     | 5165/10682 [52:42<45:23,  2.03it/s] 48%|████▊     | 5166/10682 [52:42<45:24,  2.02it/s] 48%|████▊     | 5167/10682 [52:43<45:22,  2.03it/s] 48%|████▊     | 5168/10682 [52:43<45:22,  2.03it/s] 48%|████▊     | 5169/10682 [52:44<45:20,  2.03it/s] 48%|████▊     | 5170/10682 [52:44<45:20,  2.03it/s] 48%|████▊     | 5171/10682 [52:45<45:21,  2.03it/s] 48%|████▊     | 5172/10682 [52:45<45:19,  2.03it/s] 48%|████▊     | 5173/10682 [52:46<45:21,  2.02it/s] 48%|████▊     | 5174/10682 [52:46<45:20,  2.02it/s] 48%|████▊     | 5175/10682 [52:47<45:21,  2.02it/s]                                                    {'loss': 3.6999, 'grad_norm': 0.22484762966632843, 'learning_rate': 0.0006134668511928376, 'epoch': 0.48}
+ 48%|████▊     | 5175/10682 [52:47<45:21,  2.02it/s] 48%|████▊     | 5176/10682 [52:47<45:29,  2.02it/s] 48%|████▊     | 5177/10682 [52:48<45:25,  2.02it/s] 48%|████▊     | 5178/10682 [52:48<45:24,  2.02it/s] 48%|████▊     | 5179/10682 [52:49<45:22,  2.02it/s] 48%|████▊     | 5180/10682 [52:49<45:24,  2.02it/s] 49%|████▊     | 5181/10682 [52:50<45:21,  2.02it/s] 49%|████▊     | 5182/10682 [52:50<45:20,  2.02it/s] 49%|████▊     | 5183/10682 [52:51<45:20,  2.02it/s] 49%|████▊     | 5184/10682 [52:51<45:16,  2.02it/s] 49%|████▊     | 5185/10682 [52:52<45:16,  2.02it/s] 49%|████▊     | 5186/10682 [52:52<45:13,  2.03it/s] 49%|████▊     | 5187/10682 [52:53<45:14,  2.02it/s] 49%|████▊     | 5188/10682 [52:53<45:11,  2.03it/s] 49%|████▊     | 5189/10682 [52:54<45:12,  2.03it/s] 49%|████▊     | 5190/10682 [52:54<45:13,  2.02it/s] 49%|████▊     | 5191/10682 [52:55<45:09,  2.03it/s] 49%|████▊     | 5192/10682 [52:55<45:10,  2.03it/s] 49%|████▊     | 5193/10682 [52:56<45:09,  2.03it/s] 49%|████▊     | 5194/10682 [52:56<45:09,  2.03it/s] 49%|████▊     | 5195/10682 [52:57<45:09,  2.03it/s] 49%|████▊     | 5196/10682 [52:57<45:08,  2.03it/s] 49%|████▊     | 5197/10682 [52:58<45:08,  2.03it/s] 49%|████▊     | 5198/10682 [52:58<45:05,  2.03it/s] 49%|████▊     | 5199/10682 [52:59<45:03,  2.03it/s] 49%|████▊     | 5200/10682 [52:59<45:02,  2.03it/s]{'loss': 3.6985, 'grad_norm': 0.23868003487586975, 'learning_rate': 0.0006094846038536922, 'epoch': 0.49}                                                    
+ 49%|████▊     | 5200/10682 [52:59<45:02,  2.03it/s] 49%|████▊     | 5201/10682 [53:00<45:01,  2.03it/s] 49%|████▊     | 5202/10682 [53:00<45:02,  2.03it/s] 49%|████▊     | 5203/10682 [53:01<45:02,  2.03it/s] 49%|████▊     | 5204/10682 [53:01<45:06,  2.02it/s] 49%|████▊     | 5205/10682 [53:02<45:04,  2.02it/s] 49%|████▊     | 5206/10682 [53:02<45:02,  2.03it/s] 49%|████▊     | 5207/10682 [53:03<45:06,  2.02it/s] 49%|████▉     | 5208/10682 [53:03<45:05,  2.02it/s] 49%|████▉     | 5209/10682 [53:04<45:06,  2.02it/s] 49%|████▉     | 5210/10682 [53:04<45:07,  2.02it/s] 49%|████▉     | 5211/10682 [53:05<45:09,  2.02it/s] 49%|████▉     | 5212/10682 [53:05<45:06,  2.02it/s] 49%|████▉     | 5213/10682 [53:06<45:04,  2.02it/s] 49%|████▉     | 5214/10682 [53:06<45:03,  2.02it/s] 49%|████▉     | 5215/10682 [53:07<45:00,  2.02it/s] 49%|████▉     | 5216/10682 [53:07<44:58,  2.03it/s] 49%|████▉     | 5217/10682 [53:08<44:56,  2.03it/s] 49%|████▉     | 5218/10682 [53:08<44:55,  2.03it/s] 49%|████▉     | 5219/10682 [53:09<44:54,  2.03it/s] 49%|████▉     | 5220/10682 [53:09<44:54,  2.03it/s] 49%|████▉     | 5221/10682 [53:09<44:56,  2.03it/s] 49%|████▉     | 5222/10682 [53:10<44:54,  2.03it/s] 49%|████▉     | 5223/10682 [53:10<44:58,  2.02it/s] 49%|████▉     | 5224/10682 [53:11<44:57,  2.02it/s] 49%|████▉     | 5225/10682 [53:11<44:56,  2.02it/s]                                                    {'loss': 3.6996, 'grad_norm': 0.20833349227905273, 'learning_rate': 0.000605495048279383, 'epoch': 0.49}
+ 49%|████▉     | 5225/10682 [53:11<44:56,  2.02it/s] 49%|████▉     | 5226/10682 [53:12<45:02,  2.02it/s] 49%|████▉     | 5227/10682 [53:12<44:58,  2.02it/s] 49%|████▉     | 5228/10682 [53:13<44:55,  2.02it/s] 49%|████▉     | 5229/10682 [53:13<44:56,  2.02it/s] 49%|████▉     | 5230/10682 [53:14<44:50,  2.03it/s] 49%|████▉     | 5231/10682 [53:14<44:51,  2.03it/s] 49%|████▉     | 5232/10682 [53:15<44:48,  2.03it/s] 49%|████▉     | 5233/10682 [53:15<44:51,  2.02it/s] 49%|████▉     | 5234/10682 [53:16<44:49,  2.03it/s] 49%|████▉     | 5235/10682 [53:16<44:48,  2.03it/s] 49%|████▉     | 5236/10682 [53:17<44:51,  2.02it/s] 49%|████▉     | 5237/10682 [53:17<44:50,  2.02it/s] 49%|████▉     | 5238/10682 [53:18<44:50,  2.02it/s] 49%|████▉     | 5239/10682 [53:18<44:48,  2.02it/s] 49%|████▉     | 5240/10682 [53:19<44:50,  2.02it/s] 49%|████▉     | 5241/10682 [53:19<44:47,  2.02it/s] 49%|████▉     | 5242/10682 [53:20<44:48,  2.02it/s] 49%|████▉     | 5243/10682 [53:20<44:47,  2.02it/s] 49%|████▉     | 5244/10682 [53:21<44:48,  2.02it/s] 49%|████▉     | 5245/10682 [53:21<44:41,  2.03it/s] 49%|████▉     | 5246/10682 [53:22<44:40,  2.03it/s] 49%|████▉     | 5247/10682 [53:22<44:40,  2.03it/s] 49%|████▉     | 5248/10682 [53:23<44:38,  2.03it/s] 49%|████▉     | 5249/10682 [53:23<44:40,  2.03it/s] 49%|████▉     | 5250/10682 [53:24<44:39,  2.03it/s]{'loss': 3.6929, 'grad_norm': 0.2299617975950241, 'learning_rate': 0.0006014984507777682, 'epoch': 0.49}
+                                                     49%|████▉     | 5250/10682 [53:24<44:39,  2.03it/s] 49%|████▉     | 5251/10682 [53:24<44:51,  2.02it/s] 49%|████▉     | 5252/10682 [53:25<44:50,  2.02it/s] 49%|████▉     | 5253/10682 [53:25<44:50,  2.02it/s] 49%|████▉     | 5254/10682 [53:26<44:52,  2.02it/s] 49%|████▉     | 5255/10682 [53:26<44:51,  2.02it/s] 49%|████▉     | 5256/10682 [53:27<44:47,  2.02it/s] 49%|████▉     | 5257/10682 [53:27<44:46,  2.02it/s] 49%|████▉     | 5258/10682 [53:28<44:45,  2.02it/s] 49%|████▉     | 5259/10682 [53:28<44:39,  2.02it/s] 49%|████▉     | 5260/10682 [53:29<44:38,  2.02it/s] 49%|████▉     | 5261/10682 [53:29<44:36,  2.03it/s] 49%|████▉     | 5262/10682 [53:30<44:35,  2.03it/s] 49%|████▉     | 5263/10682 [53:30<44:36,  2.02it/s] 49%|████▉     | 5264/10682 [53:31<44:36,  2.02it/s] 49%|████▉     | 5265/10682 [53:31<44:40,  2.02it/s] 49%|████▉     | 5266/10682 [53:32<44:37,  2.02it/s] 49%|████▉     | 5267/10682 [53:32<44:40,  2.02it/s] 49%|████▉     | 5268/10682 [53:33<44:38,  2.02it/s] 49%|████▉     | 5269/10682 [53:33<44:40,  2.02it/s] 49%|████▉     | 5270/10682 [53:34<44:36,  2.02it/s] 49%|████▉     | 5271/10682 [53:34<44:36,  2.02it/s] 49%|████▉     | 5272/10682 [53:35<44:35,  2.02it/s] 49%|████▉     | 5273/10682 [53:35<44:39,  2.02it/s] 49%|████▉     | 5274/10682 [53:36<44:35,  2.02it/s] 49%|████▉     | 5275/10682 [53:36<44:34,  2.02it/s]                                                    {'loss': 3.6858, 'grad_norm': 0.21420985460281372, 'learning_rate': 0.000597495078126763, 'epoch': 0.49}
+ 49%|████▉     | 5275/10682 [53:36<44:34,  2.02it/s] 49%|████▉     | 5276/10682 [53:37<44:36,  2.02it/s] 49%|████▉     | 5277/10682 [53:37<44:32,  2.02it/s] 49%|████▉     | 5278/10682 [53:38<44:29,  2.02it/s] 49%|████▉     | 5279/10682 [53:38<44:29,  2.02it/s] 49%|████▉     | 5280/10682 [53:39<44:27,  2.03it/s] 49%|████▉     | 5281/10682 [53:39<44:22,  2.03it/s] 49%|████▉     | 5282/10682 [53:40<44:26,  2.02it/s] 49%|████▉     | 5283/10682 [53:40<44:28,  2.02it/s] 49%|████▉     | 5284/10682 [53:41<44:29,  2.02it/s] 49%|████▉     | 5285/10682 [53:41<44:26,  2.02it/s] 49%|████▉     | 5286/10682 [53:42<44:28,  2.02it/s] 49%|████▉     | 5287/10682 [53:42<44:25,  2.02it/s] 50%|████▉     | 5288/10682 [53:43<44:26,  2.02it/s] 50%|████▉     | 5289/10682 [53:43<44:24,  2.02it/s] 50%|████▉     | 5290/10682 [53:44<44:24,  2.02it/s] 50%|████▉     | 5291/10682 [53:44<44:20,  2.03it/s] 50%|████▉     | 5292/10682 [53:45<44:25,  2.02it/s] 50%|████▉     | 5293/10682 [53:45<44:23,  2.02it/s] 50%|████▉     | 5294/10682 [53:46<44:23,  2.02it/s] 50%|████▉     | 5295/10682 [53:46<44:20,  2.03it/s] 50%|████▉     | 5296/10682 [53:47<44:22,  2.02it/s] 50%|████▉     | 5297/10682 [53:47<44:23,  2.02it/s] 50%|████▉     | 5298/10682 [53:48<44:29,  2.02it/s] 50%|████▉     | 5299/10682 [53:48<44:26,  2.02it/s] 50%|████▉     | 5300/10682 [53:49<44:25,  2.02it/s]{'loss': 3.6982, 'grad_norm': 0.2114003747701645, 'learning_rate': 0.000593485197556533, 'epoch': 0.5}
+                                                     50%|████▉     | 5300/10682 [53:49<44:25,  2.02it/s] 50%|████▉     | 5301/10682 [53:49<44:24,  2.02it/s] 50%|████▉     | 5302/10682 [53:50<44:24,  2.02it/s] 50%|████▉     | 5303/10682 [53:50<44:19,  2.02it/s] 50%|████▉     | 5304/10682 [53:51<44:18,  2.02it/s] 50%|████▉     | 5305/10682 [53:51<44:15,  2.02it/s] 50%|████▉     | 5306/10682 [53:52<44:15,  2.02it/s] 50%|████▉     | 5307/10682 [53:52<44:15,  2.02it/s] 50%|████▉     | 5308/10682 [53:53<44:11,  2.03it/s] 50%|████▉     | 5309/10682 [53:53<44:15,  2.02it/s] 50%|████▉     | 5310/10682 [53:53<44:14,  2.02it/s] 50%|████▉     | 5311/10682 [53:54<44:17,  2.02it/s] 50%|████▉     | 5312/10682 [53:54<44:21,  2.02it/s] 50%|████▉     | 5313/10682 [53:55<44:19,  2.02it/s] 50%|████▉     | 5314/10682 [53:55<44:18,  2.02it/s] 50%|████▉     | 5315/10682 [53:56<44:14,  2.02it/s] 50%|████▉     | 5316/10682 [53:56<44:12,  2.02it/s] 50%|████▉     | 5317/10682 [53:57<44:11,  2.02it/s] 50%|████▉     | 5318/10682 [53:57<44:07,  2.03it/s] 50%|████▉     | 5319/10682 [53:58<44:07,  2.03it/s] 50%|████▉     | 5320/10682 [53:58<44:02,  2.03it/s] 50%|████▉     | 5321/10682 [53:59<44:06,  2.03it/s] 50%|████▉     | 5322/10682 [53:59<44:07,  2.02it/s] 50%|████▉     | 5323/10682 [54:00<44:08,  2.02it/s] 50%|████▉     | 5324/10682 [54:00<44:10,  2.02it/s] 50%|████▉     | 5325/10682 [54:01<44:08,  2.02it/s]{'loss': 3.6891, 'grad_norm': 0.23870448768138885, 'learning_rate': 0.0005894690767316552, 'epoch': 0.5}
+                                                     50%|████▉     | 5325/10682 [54:01<44:08,  2.02it/s] 50%|████▉     | 5326/10682 [54:01<44:15,  2.02it/s] 50%|████▉     | 5327/10682 [54:02<44:12,  2.02it/s] 50%|████▉     | 5328/10682 [54:02<44:09,  2.02it/s] 50%|████▉     | 5329/10682 [54:03<44:06,  2.02it/s] 50%|████▉     | 5330/10682 [54:03<44:02,  2.03it/s] 50%|████▉     | 5331/10682 [54:04<44:02,  2.02it/s] 50%|████▉     | 5332/10682 [54:04<43:59,  2.03it/s] 50%|████▉     | 5333/10682 [54:05<44:01,  2.03it/s] 50%|████▉     | 5334/10682 [54:05<43:58,  2.03it/s] 50%|████▉     | 5335/10682 [54:06<43:55,  2.03it/s] 50%|████▉     | 5336/10682 [54:06<43:57,  2.03it/s] 50%|████▉     | 5337/10682 [54:07<43:57,  2.03it/s] 50%|████▉     | 5338/10682 [54:07<43:58,  2.03it/s] 50%|████▉     | 5339/10682 [54:08<43:58,  2.02it/s] 50%|████▉     | 5340/10682 [54:08<44:02,  2.02it/s] 50%|█████     | 5341/10682 [54:09<44:01,  2.02it/s] 50%|█████     | 5342/10682 [54:09<44:03,  2.02it/s] 50%|█████     | 5343/10682 [54:10<43:59,  2.02it/s] 50%|█████     | 5344/10682 [54:10<44:00,  2.02it/s] 50%|█████     | 5345/10682 [54:11<43:55,  2.03it/s] 50%|█████     | 5346/10682 [54:11<43:56,  2.02it/s] 50%|█████     | 5347/10682 [54:12<51:09,  1.74it/s] 50%|█████     | 5348/10682 [54:13<48:58,  1.82it/s] 50%|█████     | 5349/10682 [54:13<47:23,  1.88it/s] 50%|█████     | 5350/10682 [54:14<46:22,  1.92it/s]{'loss': 3.6856, 'grad_norm': 0.20080001652240753, 'learning_rate': 0.0005854469837332512, 'epoch': 0.5}
+                                                     50%|█████     | 5350/10682 [54:14<46:22,  1.92it/s] 50%|█████     | 5351/10682 [54:14<45:39,  1.95it/s] 50%|█████     | 5352/10682 [54:15<45:06,  1.97it/s] 50%|█████     | 5353/10682 [54:15<44:45,  1.98it/s] 50%|█████     | 5354/10682 [54:16<44:32,  1.99it/s] 50%|█████     | 5355/10682 [54:16<44:23,  2.00it/s] 50%|█████     | 5356/10682 [54:17<44:16,  2.01it/s] 50%|█████     | 5357/10682 [54:17<44:08,  2.01it/s] 50%|█████     | 5358/10682 [54:17<44:06,  2.01it/s] 50%|█████     | 5359/10682 [54:18<43:58,  2.02it/s] 50%|█████     | 5360/10682 [54:18<43:54,  2.02it/s] 50%|█████     | 5361/10682 [54:19<43:51,  2.02it/s] 50%|█████     | 5362/10682 [54:19<43:47,  2.02it/s] 50%|█████     | 5363/10682 [54:20<43:47,  2.02it/s] 50%|█████     | 5364/10682 [54:20<43:44,  2.03it/s] 50%|█████     | 5365/10682 [54:21<43:43,  2.03it/s] 50%|█████     | 5366/10682 [54:21<43:41,  2.03it/s] 50%|█████     | 5367/10682 [54:22<43:39,  2.03it/s] 50%|█████     | 5368/10682 [54:22<43:41,  2.03it/s] 50%|█████     | 5369/10682 [54:23<43:41,  2.03it/s] 50%|█████     | 5370/10682 [54:23<43:47,  2.02it/s] 50%|█████     | 5371/10682 [54:24<50:46,  1.74it/s] 50%|█████     | 5372/10682 [54:25<48:40,  1.82it/s] 50%|█████     | 5373/10682 [54:25<47:18,  1.87it/s] 50%|█████     | 5374/10682 [54:26<46:12,  1.91it/s] 50%|█████     | 5375/10682 [54:26<45:25,  1.95it/s]                                                    {'loss': 3.6969, 'grad_norm': 0.22893981635570526, 'learning_rate': 0.0005814191870410933, 'epoch': 0.5}
+ 50%|█████     | 5375/10682 [54:26<45:25,  1.95it/s] 50%|█████     | 5376/10682 [54:27<44:56,  1.97it/s] 50%|█████     | 5377/10682 [54:27<44:30,  1.99it/s] 50%|█████     | 5378/10682 [54:28<44:13,  2.00it/s] 50%|█████     | 5379/10682 [54:28<44:00,  2.01it/s] 50%|█████     | 5380/10682 [54:29<43:50,  2.02it/s] 50%|█████     | 5381/10682 [54:29<43:45,  2.02it/s] 50%|█████     | 5382/10682 [54:30<43:39,  2.02it/s] 50%|█████     | 5383/10682 [54:30<43:37,  2.02it/s] 50%|█████     | 5384/10682 [54:31<43:39,  2.02it/s] 50%|█████     | 5385/10682 [54:31<43:46,  2.02it/s] 50%|█████     | 5386/10682 [54:32<43:51,  2.01it/s] 50%|█████     | 5387/10682 [54:32<43:49,  2.01it/s] 50%|█████     | 5388/10682 [54:33<43:44,  2.02it/s] 50%|█████     | 5389/10682 [54:33<43:42,  2.02it/s] 50%|█████     | 5390/10682 [54:34<43:35,  2.02it/s] 50%|█████     | 5391/10682 [54:34<43:30,  2.03it/s] 50%|█████     | 5392/10682 [54:35<43:26,  2.03it/s] 50%|█████     | 5393/10682 [54:35<43:27,  2.03it/s] 50%|█████     | 5394/10682 [54:36<43:25,  2.03it/s] 51%|█████     | 5395/10682 [54:36<43:25,  2.03it/s] 51%|█████     | 5396/10682 [54:37<43:32,  2.02it/s] 51%|█████     | 5397/10682 [54:37<43:29,  2.03it/s] 51%|█████     | 5398/10682 [54:38<43:31,  2.02it/s] 51%|█████     | 5399/10682 [54:38<43:33,  2.02it/s] 51%|█████     | 5400/10682 [54:39<43:35,  2.02it/s]{'loss': 3.6861, 'grad_norm': 0.2224399298429489, 'learning_rate': 0.0005773859555156823, 'epoch': 0.51}
+                                                     51%|█████     | 5400/10682 [54:39<43:35,  2.02it/s] 51%|█████     | 5401/10682 [54:39<43:36,  2.02it/s] 51%|█████     | 5402/10682 [54:39<43:32,  2.02it/s] 51%|█████     | 5403/10682 [54:40<43:32,  2.02it/s] 51%|█████     | 5404/10682 [54:40<43:29,  2.02it/s] 51%|█████     | 5405/10682 [54:41<43:24,  2.03it/s] 51%|█████     | 5406/10682 [54:41<43:21,  2.03it/s] 51%|█████     | 5407/10682 [54:42<43:22,  2.03it/s] 51%|█████     | 5408/10682 [54:42<43:20,  2.03it/s] 51%|█████     | 5409/10682 [54:43<43:17,  2.03it/s] 51%|█████     | 5410/10682 [54:43<43:17,  2.03it/s] 51%|█████     | 5411/10682 [54:44<43:18,  2.03it/s] 51%|█████     | 5412/10682 [54:44<43:18,  2.03it/s] 51%|█████     | 5413/10682 [54:45<43:18,  2.03it/s] 51%|█████     | 5414/10682 [54:45<43:22,  2.02it/s] 51%|█████     | 5415/10682 [54:46<43:20,  2.03it/s] 51%|█████     | 5416/10682 [54:46<43:23,  2.02it/s] 51%|█████     | 5417/10682 [54:47<43:18,  2.03it/s] 51%|█████     | 5418/10682 [54:47<43:16,  2.03it/s] 51%|█████     | 5419/10682 [54:48<43:15,  2.03it/s] 51%|█████     | 5420/10682 [54:48<43:11,  2.03it/s] 51%|█████     | 5421/10682 [54:49<43:14,  2.03it/s] 51%|█████     | 5422/10682 [54:49<43:10,  2.03it/s] 51%|█████     | 5423/10682 [54:50<43:11,  2.03it/s] 51%|█████     | 5424/10682 [54:50<43:10,  2.03it/s] 51%|█████     | 5425/10682 [54:51<43:10,  2.03it/s]{'loss': 3.6787, 'grad_norm': 0.20316949486732483, 'learning_rate': 0.0005733475583803009, 'epoch': 0.51}                                                    
+ 51%|█████     | 5425/10682 [54:51<43:10,  2.03it/s] 51%|█████     | 5426/10682 [54:51<43:15,  2.02it/s] 51%|█████     | 5427/10682 [54:52<43:13,  2.03it/s] 51%|█████     | 5428/10682 [54:52<43:13,  2.03it/s] 51%|█████     | 5429/10682 [54:53<43:13,  2.03it/s] 51%|█████     | 5430/10682 [54:53<43:11,  2.03it/s] 51%|█████     | 5431/10682 [54:54<43:11,  2.03it/s] 51%|█████     | 5432/10682 [54:54<43:12,  2.03it/s] 51%|█████     | 5433/10682 [54:55<43:12,  2.02it/s] 51%|█████     | 5434/10682 [54:55<43:10,  2.03it/s] 51%|█████     | 5435/10682 [54:56<43:10,  2.03it/s] 51%|█████     | 5436/10682 [54:56<43:12,  2.02it/s] 51%|█████     | 5437/10682 [54:57<43:14,  2.02it/s] 51%|█████     | 5438/10682 [54:57<43:11,  2.02it/s] 51%|█████     | 5439/10682 [54:58<43:13,  2.02it/s] 51%|█████     | 5440/10682 [54:58<43:14,  2.02it/s] 51%|█████     | 5441/10682 [54:59<43:18,  2.02it/s] 51%|█████     | 5442/10682 [54:59<43:13,  2.02it/s] 51%|█████     | 5443/10682 [55:00<43:14,  2.02it/s] 51%|█████     | 5444/10682 [55:00<43:12,  2.02it/s] 51%|█████     | 5445/10682 [55:01<43:08,  2.02it/s] 51%|█████     | 5446/10682 [55:01<43:06,  2.02it/s] 51%|█████     | 5447/10682 [55:02<43:03,  2.03it/s] 51%|█████     | 5448/10682 [55:02<43:02,  2.03it/s] 51%|█████     | 5449/10682 [55:03<43:03,  2.03it/s] 51%|█████     | 5450/10682 [55:03<43:03,  2.03it/s]{'loss': 3.682, 'grad_norm': 0.22794170677661896, 'learning_rate': 0.0005693042652030427, 'epoch': 0.51}                                                    
+ 51%|█████     | 5450/10682 [55:03<43:03,  2.03it/s] 51%|█████     | 5451/10682 [55:04<43:06,  2.02it/s] 51%|█████     | 5452/10682 [55:04<43:05,  2.02it/s] 51%|█████     | 5453/10682 [55:05<43:07,  2.02it/s] 51%|█████     | 5454/10682 [55:05<43:05,  2.02it/s] 51%|█████     | 5455/10682 [55:06<43:05,  2.02it/s] 51%|█████     | 5456/10682 [55:06<43:05,  2.02it/s] 51%|█████     | 5457/10682 [55:07<43:02,  2.02it/s] 51%|█████     | 5458/10682 [55:07<43:04,  2.02it/s] 51%|█████     | 5459/10682 [55:08<43:01,  2.02it/s] 51%|█████     | 5460/10682 [55:08<42:57,  2.03it/s] 51%|█████     | 5461/10682 [55:09<42:56,  2.03it/s] 51%|█████     | 5462/10682 [55:09<42:52,  2.03it/s] 51%|█████     | 5463/10682 [55:10<42:56,  2.03it/s] 51%|█████     | 5464/10682 [55:10<42:54,  2.03it/s] 51%|█████     | 5465/10682 [55:11<42:54,  2.03it/s] 51%|█████     | 5466/10682 [55:11<42:54,  2.03it/s] 51%|█████     | 5467/10682 [55:12<42:52,  2.03it/s] 51%|█████     | 5468/10682 [55:12<42:53,  2.03it/s] 51%|█████     | 5469/10682 [55:13<42:50,  2.03it/s] 51%|█████     | 5470/10682 [55:13<42:56,  2.02it/s] 51%|█████     | 5471/10682 [55:14<42:53,  2.03it/s] 51%|█████     | 5472/10682 [55:14<42:49,  2.03it/s] 51%|█████     | 5473/10682 [55:15<42:50,  2.03it/s] 51%|█████     | 5474/10682 [55:15<42:47,  2.03it/s] 51%|█████▏    | 5475/10682 [55:16<42:46,  2.03it/s]{'loss': 3.6796, 'grad_norm': 0.20761606097221375, 'learning_rate': 0.0005652563458788184, 'epoch': 0.51}
+                                                     51%|█████▏    | 5475/10682 [55:16<42:46,  2.03it/s] 51%|█████▏    | 5476/10682 [55:16<42:49,  2.03it/s] 51%|█████▏    | 5477/10682 [55:17<42:50,  2.03it/s] 51%|█████▏    | 5478/10682 [55:17<42:48,  2.03it/s] 51%|█████▏    | 5479/10682 [55:18<42:45,  2.03it/s] 51%|█████▏    | 5480/10682 [55:18<42:45,  2.03it/s] 51%|█████▏    | 5481/10682 [55:18<42:43,  2.03it/s] 51%|█████▏    | 5482/10682 [55:19<42:47,  2.03it/s] 51%|█████▏    | 5483/10682 [55:19<42:48,  2.02it/s] 51%|█████▏    | 5484/10682 [55:20<42:47,  2.02it/s] 51%|█████▏    | 5485/10682 [55:20<42:56,  2.02it/s] 51%|█████▏    | 5486/10682 [55:21<42:59,  2.01it/s] 51%|█████▏    | 5487/10682 [55:21<42:54,  2.02it/s] 51%|█████▏    | 5488/10682 [55:22<42:55,  2.02it/s] 51%|█████▏    | 5489/10682 [55:22<42:54,  2.02it/s] 51%|█████▏    | 5490/10682 [55:23<42:52,  2.02it/s] 51%|█████▏    | 5491/10682 [55:23<42:47,  2.02it/s] 51%|█████▏    | 5492/10682 [55:24<42:43,  2.02it/s] 51%|█████▏    | 5493/10682 [55:24<42:43,  2.02it/s] 51%|█████▏    | 5494/10682 [55:25<42:44,  2.02it/s] 51%|█████▏    | 5495/10682 [55:25<42:41,  2.03it/s] 51%|█████▏    | 5496/10682 [55:26<42:44,  2.02it/s] 51%|█████▏    | 5497/10682 [55:26<42:49,  2.02it/s] 51%|█████▏    | 5498/10682 [55:27<42:51,  2.02it/s] 51%|█████▏    | 5499/10682 [55:27<42:45,  2.02it/s] 51%|█████▏    | 5500/10682 [55:28<42:47,  2.02it/s]{'loss': 3.6774, 'grad_norm': 0.2158098816871643, 'learning_rate': 0.0005612040706113396, 'epoch': 0.51}                                                    
+ 51%|█████▏    | 5500/10682 [55:28<42:47,  2.02it/s] 51%|█████▏    | 5501/10682 [55:28<42:45,  2.02it/s] 52%|█████▏    | 5502/10682 [55:29<42:42,  2.02it/s] 52%|█████▏    | 5503/10682 [55:29<42:44,  2.02it/s] 52%|█████▏    | 5504/10682 [55:30<42:41,  2.02it/s] 52%|█████▏    | 5505/10682 [55:30<42:36,  2.03it/s] 52%|█████▏    | 5506/10682 [55:31<42:36,  2.02it/s] 52%|█████▏    | 5507/10682 [55:31<42:35,  2.02it/s] 52%|█████▏    | 5508/10682 [55:32<42:31,  2.03it/s] 52%|█████▏    | 5509/10682 [55:32<42:33,  2.03it/s] 52%|█████▏    | 5510/10682 [55:33<42:29,  2.03it/s] 52%|█████▏    | 5511/10682 [55:33<42:31,  2.03it/s] 52%|█████▏    | 5512/10682 [55:34<42:30,  2.03it/s] 52%|█████▏    | 5513/10682 [55:34<42:32,  2.02it/s] 52%|█████▏    | 5514/10682 [55:35<42:33,  2.02it/s] 52%|█████▏    | 5515/10682 [55:35<42:29,  2.03it/s] 52%|█████▏    | 5516/10682 [55:36<42:33,  2.02it/s] 52%|█████▏    | 5517/10682 [55:36<42:35,  2.02it/s] 52%|█████▏    | 5518/10682 [55:37<42:35,  2.02it/s] 52%|█████▏    | 5519/10682 [55:37<42:32,  2.02it/s] 52%|█████▏    | 5520/10682 [55:38<42:32,  2.02it/s] 52%|█████▏    | 5521/10682 [55:38<42:29,  2.02it/s] 52%|█████▏    | 5522/10682 [55:39<42:31,  2.02it/s] 52%|█████▏    | 5523/10682 [55:39<42:32,  2.02it/s] 52%|█████▏    | 5524/10682 [55:40<42:30,  2.02it/s] 52%|█████▏    | 5525/10682 [55:40<42:29,  2.02it/s]{'loss': 3.679, 'grad_norm': 0.21987083554267883, 'learning_rate': 0.0005571477098950832, 'epoch': 0.52}                                                    
+ 52%|█████▏    | 5525/10682 [55:40<42:29,  2.02it/s] 52%|█████▏    | 5526/10682 [55:41<42:29,  2.02it/s] 52%|█████▏    | 5527/10682 [55:41<42:24,  2.03it/s] 52%|█████▏    | 5528/10682 [55:42<42:24,  2.03it/s] 52%|█████▏    | 5529/10682 [55:42<42:22,  2.03it/s] 52%|█████▏    | 5530/10682 [55:43<42:22,  2.03it/s] 52%|█████▏    | 5531/10682 [55:43<42:20,  2.03it/s] 52%|█████▏    | 5532/10682 [55:44<42:22,  2.03it/s] 52%|█████▏    | 5533/10682 [55:44<42:23,  2.02it/s] 52%|█████▏    | 5534/10682 [55:45<42:20,  2.03it/s] 52%|█████▏    | 5535/10682 [55:45<42:20,  2.03it/s] 52%|█████▏    | 5536/10682 [55:46<42:19,  2.03it/s] 52%|█████▏    | 5537/10682 [55:46<42:17,  2.03it/s] 52%|█████▏    | 5538/10682 [55:47<42:17,  2.03it/s] 52%|█████▏    | 5539/10682 [55:47<42:14,  2.03it/s] 52%|█████▏    | 5540/10682 [55:48<42:15,  2.03it/s] 52%|█████▏    | 5541/10682 [55:48<42:18,  2.02it/s] 52%|█████▏    | 5542/10682 [55:49<42:30,  2.02it/s] 52%|█████▏    | 5543/10682 [55:49<42:29,  2.02it/s] 52%|█████▏    | 5544/10682 [55:50<42:25,  2.02it/s] 52%|█████▏    | 5545/10682 [55:50<42:22,  2.02it/s] 52%|█████▏    | 5546/10682 [55:51<42:20,  2.02it/s] 52%|█████▏    | 5547/10682 [55:51<42:20,  2.02it/s] 52%|█████▏    | 5548/10682 [55:52<42:20,  2.02it/s] 52%|█████▏    | 5549/10682 [55:52<42:19,  2.02it/s] 52%|█████▏    | 5550/10682 [55:53<42:17,  2.02it/s]{'loss': 3.6797, 'grad_norm': 0.2102128118276596, 'learning_rate': 0.0005530875344972343, 'epoch': 0.52}                                                    
+ 52%|█████▏    | 5550/10682 [55:53<42:17,  2.02it/s] 52%|█████▏    | 5551/10682 [55:53<42:17,  2.02it/s] 52%|█████▏    | 5552/10682 [55:54<42:14,  2.02it/s] 52%|█████▏    | 5553/10682 [55:54<42:13,  2.02it/s] 52%|█████▏    | 5554/10682 [55:55<42:11,  2.03it/s] 52%|█████▏    | 5555/10682 [55:55<42:15,  2.02it/s] 52%|█████▏    | 5556/10682 [55:56<42:11,  2.02it/s] 52%|█████▏    | 5557/10682 [55:56<42:12,  2.02it/s] 52%|█████▏    | 5558/10682 [55:57<42:09,  2.03it/s] 52%|█████▏    | 5559/10682 [55:57<42:15,  2.02it/s] 52%|█████▏    | 5560/10682 [55:58<42:13,  2.02it/s] 52%|█████▏    | 5561/10682 [55:58<42:11,  2.02it/s] 52%|█████▏    | 5562/10682 [55:59<42:08,  2.03it/s] 52%|█████▏    | 5563/10682 [55:59<42:08,  2.02it/s] 52%|█████▏    | 5564/10682 [56:00<42:07,  2.02it/s] 52%|█████▏    | 5565/10682 [56:00<42:04,  2.03it/s] 52%|█████▏    | 5566/10682 [56:01<42:07,  2.02it/s] 52%|█████▏    | 5567/10682 [56:01<42:05,  2.03it/s] 52%|█████▏    | 5568/10682 [56:01<42:03,  2.03it/s] 52%|█████▏    | 5569/10682 [56:02<42:00,  2.03it/s] 52%|█████▏    | 5570/10682 [56:02<42:05,  2.02it/s] 52%|█████▏    | 5571/10682 [56:03<41:59,  2.03it/s] 52%|█████▏    | 5572/10682 [56:03<42:00,  2.03it/s] 52%|█████▏    | 5573/10682 [56:04<42:00,  2.03it/s] 52%|█████▏    | 5574/10682 [56:04<41:59,  2.03it/s] 52%|█████▏    | 5575/10682 [56:05<42:00,  2.03it/s]{'loss': 3.6757, 'grad_norm': 0.20247891545295715, 'learning_rate': 0.0005490238154396129, 'epoch': 0.52}                                                    
+ 52%|█████▏    | 5575/10682 [56:05<42:00,  2.03it/s] 52%|█████▏    | 5576/10682 [56:05<42:01,  2.02it/s] 52%|█████▏    | 5577/10682 [56:06<42:04,  2.02it/s] 52%|█████▏    | 5578/10682 [56:06<42:02,  2.02it/s] 52%|█████▏    | 5579/10682 [56:07<42:03,  2.02it/s] 52%|█████▏    | 5580/10682 [56:07<41:59,  2.03it/s] 52%|█████▏    | 5581/10682 [56:08<41:58,  2.03it/s] 52%|█████▏    | 5582/10682 [56:08<41:59,  2.02it/s] 52%|█████▏    | 5583/10682 [56:09<41:57,  2.03it/s] 52%|█████▏    | 5584/10682 [56:09<41:59,  2.02it/s] 52%|█████▏    | 5585/10682 [56:10<42:04,  2.02it/s] 52%|█████▏    | 5586/10682 [56:10<42:05,  2.02it/s] 52%|█████▏    | 5587/10682 [56:11<42:02,  2.02it/s] 52%|█████▏    | 5588/10682 [56:11<41:56,  2.02it/s] 52%|█████▏    | 5589/10682 [56:12<41:55,  2.02it/s] 52%|█████▏    | 5590/10682 [56:12<41:54,  2.03it/s] 52%|█████▏    | 5591/10682 [56:13<41:49,  2.03it/s] 52%|█████▏    | 5592/10682 [56:13<41:51,  2.03it/s] 52%|█████▏    | 5593/10682 [56:14<41:49,  2.03it/s] 52%|█████▏    | 5594/10682 [56:14<41:51,  2.03it/s] 52%|█████▏    | 5595/10682 [56:15<41:50,  2.03it/s] 52%|█████▏    | 5596/10682 [56:15<41:50,  2.03it/s] 52%|█████▏    | 5597/10682 [56:16<42:00,  2.02it/s] 52%|█████▏    | 5598/10682 [56:16<42:02,  2.02it/s] 52%|█████▏    | 5599/10682 [56:17<42:01,  2.02it/s] 52%|█████▏    | 5600/10682 [56:17<41:56,  2.02it/s]{'loss': 3.6719, 'grad_norm': 0.2026912271976471, 'learning_rate': 0.0005449568239805831, 'epoch': 0.52}                                                    
+ 52%|█████▏    | 5600/10682 [56:17<41:56,  2.02it/s] 52%|█████▏    | 5601/10682 [56:18<41:55,  2.02it/s] 52%|█████▏    | 5602/10682 [56:18<41:55,  2.02it/s] 52%|█████▏    | 5603/10682 [56:19<41:52,  2.02it/s] 52%|█████▏    | 5604/10682 [56:19<41:49,  2.02it/s] 52%|█████▏    | 5605/10682 [56:20<41:49,  2.02it/s] 52%|█████▏    | 5606/10682 [56:20<41:48,  2.02it/s] 52%|█████▏    | 5607/10682 [56:21<41:49,  2.02it/s] 52%|█████▏    | 5608/10682 [56:21<41:49,  2.02it/s] 53%|█████▎    | 5609/10682 [56:22<41:47,  2.02it/s] 53%|█████▎    | 5610/10682 [56:22<41:45,  2.02it/s] 53%|█████▎    | 5611/10682 [56:23<41:47,  2.02it/s] 53%|█████▎    | 5612/10682 [56:23<41:49,  2.02it/s] 53%|█████▎    | 5613/10682 [56:24<41:48,  2.02it/s] 53%|█████▎    | 5614/10682 [56:24<41:49,  2.02it/s] 53%|█████▎    | 5615/10682 [56:25<41:45,  2.02it/s] 53%|█████▎    | 5616/10682 [56:25<41:45,  2.02it/s] 53%|█████▎    | 5617/10682 [56:26<41:40,  2.03it/s] 53%|█████▎    | 5618/10682 [56:26<41:39,  2.03it/s] 53%|█████▎    | 5619/10682 [56:27<41:36,  2.03it/s] 53%|█████▎    | 5620/10682 [56:27<41:34,  2.03it/s] 53%|█████▎    | 5621/10682 [56:28<41:36,  2.03it/s] 53%|█████▎    | 5622/10682 [56:28<41:35,  2.03it/s] 53%|█████▎    | 5623/10682 [56:29<41:38,  2.02it/s] 53%|█████▎    | 5624/10682 [56:29<41:37,  2.03it/s] 53%|█████▎    | 5625/10682 [56:30<41:42,  2.02it/s]{'loss': 3.6713, 'grad_norm': 0.22307263314723969, 'learning_rate': 0.0005408868315969458, 'epoch': 0.53}                                                    
+ 53%|█████▎    | 5625/10682 [56:30<41:42,  2.02it/s] 53%|█████▎    | 5626/10682 [56:30<41:45,  2.02it/s] 53%|█████▎    | 5627/10682 [56:31<41:41,  2.02it/s] 53%|█████▎    | 5628/10682 [56:31<41:36,  2.02it/s] 53%|█████▎    | 5629/10682 [56:32<41:37,  2.02it/s] 53%|█████▎    | 5630/10682 [56:32<41:38,  2.02it/s] 53%|█████▎    | 5631/10682 [56:33<41:41,  2.02it/s] 53%|█████▎    | 5632/10682 [56:33<41:36,  2.02it/s] 53%|█████▎    | 5633/10682 [56:34<41:35,  2.02it/s] 53%|█████▎    | 5634/10682 [56:34<41:31,  2.03it/s] 53%|█████▎    | 5635/10682 [56:35<41:30,  2.03it/s] 53%|█████▎    | 5636/10682 [56:35<41:30,  2.03it/s] 53%|█████▎    | 5637/10682 [56:36<41:30,  2.03it/s] 53%|█████▎    | 5638/10682 [56:36<41:32,  2.02it/s] 53%|█████▎    | 5639/10682 [56:37<41:32,  2.02it/s] 53%|█████▎    | 5640/10682 [56:37<41:31,  2.02it/s] 53%|█████▎    | 5641/10682 [56:38<41:33,  2.02it/s] 53%|█████▎    | 5642/10682 [56:38<41:39,  2.02it/s] 53%|█████▎    | 5643/10682 [56:39<41:44,  2.01it/s] 53%|█████▎    | 5644/10682 [56:39<41:41,  2.01it/s] 53%|█████▎    | 5645/10682 [56:40<41:36,  2.02it/s] 53%|█████▎    | 5646/10682 [56:40<41:36,  2.02it/s] 53%|█████▎    | 5647/10682 [56:41<41:35,  2.02it/s] 53%|█████▎    | 5648/10682 [56:41<41:34,  2.02it/s] 53%|█████▎    | 5649/10682 [56:42<41:31,  2.02it/s] 53%|█████▎    | 5650/10682 [56:42<41:28,  2.02it/s]{'loss': 3.6812, 'grad_norm': 0.21522778272628784, 'learning_rate': 0.0005368141099658168, 'epoch': 0.53}                                                    
+ 53%|█████▎    | 5650/10682 [56:42<41:28,  2.02it/s] 53%|█████▎    | 5651/10682 [56:43<41:30,  2.02it/s] 53%|█████▎    | 5652/10682 [56:43<41:27,  2.02it/s] 53%|█████▎    | 5653/10682 [56:44<41:29,  2.02it/s] 53%|█████▎    | 5654/10682 [56:44<41:25,  2.02it/s] 53%|█████▎    | 5655/10682 [56:45<41:26,  2.02it/s] 53%|█████▎    | 5656/10682 [56:45<41:25,  2.02it/s] 53%|█████▎    | 5657/10682 [56:45<41:23,  2.02it/s] 53%|█████▎    | 5658/10682 [56:46<41:24,  2.02it/s] 53%|█████▎    | 5659/10682 [56:46<41:24,  2.02it/s] 53%|█████▎    | 5660/10682 [56:47<41:19,  2.03it/s] 53%|█████▎    | 5661/10682 [56:47<41:16,  2.03it/s] 53%|█████▎    | 5662/10682 [56:48<41:16,  2.03it/s] 53%|█████▎    | 5663/10682 [56:48<41:19,  2.02it/s] 53%|█████▎    | 5664/10682 [56:49<41:17,  2.03it/s] 53%|█████▎    | 5665/10682 [56:49<41:16,  2.03it/s] 53%|█████▎    | 5666/10682 [56:50<41:14,  2.03it/s] 53%|█████▎    | 5667/10682 [56:50<41:14,  2.03it/s] 53%|█████▎    | 5668/10682 [56:51<41:12,  2.03it/s] 53%|█████▎    | 5669/10682 [56:51<41:12,  2.03it/s] 53%|█████▎    | 5670/10682 [56:52<41:11,  2.03it/s] 53%|█████▎    | 5671/10682 [56:52<41:10,  2.03it/s] 53%|█████▎    | 5672/10682 [56:53<41:14,  2.02it/s] 53%|█████▎    | 5673/10682 [56:53<41:14,  2.02it/s] 53%|█████▎    | 5674/10682 [56:54<41:15,  2.02it/s] 53%|█████▎    | 5675/10682 [56:54<41:11,  2.03it/s]{'loss': 3.6714, 'grad_norm': 0.20760932564735413, 'learning_rate': 0.0005327389309464938, 'epoch': 0.53}                                                    
+ 53%|█████▎    | 5675/10682 [56:54<41:11,  2.03it/s] 53%|█████▎    | 5676/10682 [56:55<41:15,  2.02it/s] 53%|█████▎    | 5677/10682 [56:55<41:11,  2.02it/s] 53%|█████▎    | 5678/10682 [56:56<41:11,  2.02it/s] 53%|█████▎    | 5679/10682 [56:56<41:08,  2.03it/s] 53%|█████▎    | 5680/10682 [56:57<41:10,  2.02it/s] 53%|█████▎    | 5681/10682 [56:57<41:07,  2.03it/s] 53%|█████▎    | 5682/10682 [56:58<41:08,  2.03it/s] 53%|█████▎    | 5683/10682 [56:58<41:07,  2.03it/s] 53%|█████▎    | 5684/10682 [56:59<41:04,  2.03it/s] 53%|█████▎    | 5685/10682 [56:59<41:06,  2.03it/s] 53%|█████▎    | 5686/10682 [57:00<41:04,  2.03it/s] 53%|█████▎    | 5687/10682 [57:00<41:03,  2.03it/s] 53%|█████▎    | 5688/10682 [57:01<41:01,  2.03it/s] 53%|█████▎    | 5689/10682 [57:01<41:01,  2.03it/s] 53%|█████▎    | 5690/10682 [57:02<41:02,  2.03it/s] 53%|█████▎    | 5691/10682 [57:02<40:58,  2.03it/s] 53%|█████▎    | 5692/10682 [57:03<41:05,  2.02it/s] 53%|█████▎    | 5693/10682 [57:03<41:01,  2.03it/s] 53%|█████▎    | 5694/10682 [57:04<41:04,  2.02it/s] 53%|█████▎    | 5695/10682 [57:04<41:01,  2.03it/s] 53%|█████▎    | 5696/10682 [57:05<41:03,  2.02it/s] 53%|█████▎    | 5697/10682 [57:05<41:03,  2.02it/s] 53%|█████▎    | 5698/10682 [57:06<41:02,  2.02it/s] 53%|█████▎    | 5699/10682 [57:06<41:02,  2.02it/s] 53%|█████▎    | 5700/10682 [57:07<40:59,  2.03it/s]{'loss': 3.6696, 'grad_norm': 0.22951866686344147, 'learning_rate': 0.0005286615665623071, 'epoch': 0.53}
+                                                     53%|█████▎    | 5700/10682 [57:07<40:59,  2.03it/s] 53%|█████▎    | 5701/10682 [57:07<41:02,  2.02it/s] 53%|█████▎    | 5702/10682 [57:08<40:58,  2.03it/s] 53%|█████▎    | 5703/10682 [57:08<40:59,  2.02it/s] 53%|█████▎    | 5704/10682 [57:09<40:56,  2.03it/s] 53%|█████▎    | 5705/10682 [57:09<40:57,  2.03it/s] 53%|█████▎    | 5706/10682 [57:10<40:55,  2.03it/s] 53%|█████▎    | 5707/10682 [57:10<40:56,  2.03it/s] 53%|█████▎    | 5708/10682 [57:11<40:56,  2.03it/s] 53%|█████▎    | 5709/10682 [57:11<40:56,  2.02it/s] 53%|█████▎    | 5710/10682 [57:12<40:57,  2.02it/s] 53%|█████▎    | 5711/10682 [57:12<40:57,  2.02it/s] 53%|█████▎    | 5712/10682 [57:13<40:57,  2.02it/s] 53%|█████▎    | 5713/10682 [57:13<40:53,  2.03it/s] 53%|█████▎    | 5714/10682 [57:14<40:53,  2.02it/s] 54%|█████▎    | 5715/10682 [57:14<40:53,  2.02it/s] 54%|█████▎    | 5716/10682 [57:15<40:53,  2.02it/s] 54%|█████▎    | 5717/10682 [57:15<40:52,  2.02it/s] 54%|█████▎    | 5718/10682 [57:16<40:52,  2.02it/s] 54%|█████▎    | 5719/10682 [57:16<40:51,  2.02it/s] 54%|█████▎    | 5720/10682 [57:17<40:51,  2.02it/s] 54%|█████▎    | 5721/10682 [57:17<40:54,  2.02it/s] 54%|█████▎    | 5722/10682 [57:18<40:57,  2.02it/s] 54%|█████▎    | 5723/10682 [57:18<40:55,  2.02it/s] 54%|█████▎    | 5724/10682 [57:19<40:56,  2.02it/s] 54%|█████▎    | 5725/10682 [57:19<40:56,  2.02it/s]                                                    {'loss': 3.6666, 'grad_norm': 0.20613126456737518, 'learning_rate': 0.0005245822889824633, 'epoch': 0.54}
+ 54%|█████▎    | 5725/10682 [57:19<40:56,  2.02it/s] 54%|█████▎    | 5726/10682 [57:20<40:57,  2.02it/s] 54%|█████▎    | 5727/10682 [57:20<40:52,  2.02it/s] 54%|█████▎    | 5728/10682 [57:21<40:51,  2.02it/s] 54%|█████▎    | 5729/10682 [57:21<40:48,  2.02it/s] 54%|█████▎    | 5730/10682 [57:22<40:46,  2.02it/s] 54%|█████▎    | 5731/10682 [57:22<40:44,  2.03it/s] 54%|█████▎    | 5732/10682 [57:23<40:44,  2.03it/s] 54%|█████▎    | 5733/10682 [57:23<40:43,  2.03it/s] 54%|█████▎    | 5734/10682 [57:24<40:42,  2.03it/s] 54%|█████▎    | 5735/10682 [57:24<40:40,  2.03it/s] 54%|█████▎    | 5736/10682 [57:25<40:40,  2.03it/s] 54%|█████▎    | 5737/10682 [57:25<40:38,  2.03it/s] 54%|█████▎    | 5738/10682 [57:26<40:39,  2.03it/s] 54%|█████▎    | 5739/10682 [57:26<40:39,  2.03it/s] 54%|█████▎    | 5740/10682 [57:26<40:37,  2.03it/s] 54%|█████▎    | 5741/10682 [57:27<40:38,  2.03it/s] 54%|█████▍    | 5742/10682 [57:27<40:44,  2.02it/s] 54%|█████▍    | 5743/10682 [57:28<40:40,  2.02it/s] 54%|█████▍    | 5744/10682 [57:28<40:41,  2.02it/s] 54%|█████▍    | 5745/10682 [57:29<40:40,  2.02it/s] 54%|█████▍    | 5746/10682 [57:29<40:38,  2.02it/s] 54%|█████▍    | 5747/10682 [57:30<40:37,  2.02it/s] 54%|█████▍    | 5748/10682 [57:30<40:33,  2.03it/s] 54%|█████▍    | 5749/10682 [57:31<40:32,  2.03it/s] 54%|█████▍    | 5750/10682 [57:31<40:33,  2.03it/s]{'loss': 3.6654, 'grad_norm': 0.21254834532737732, 'learning_rate': 0.0005205013705038776, 'epoch': 0.54}
+                                                     54%|█████▍    | 5750/10682 [57:31<40:33,  2.03it/s] 54%|█████▍    | 5751/10682 [57:32<40:36,  2.02it/s] 54%|█████▍    | 5752/10682 [57:32<40:38,  2.02it/s] 54%|█████▍    | 5753/10682 [57:33<40:35,  2.02it/s] 54%|█████▍    | 5754/10682 [57:33<40:36,  2.02it/s] 54%|█████▍    | 5755/10682 [57:34<40:37,  2.02it/s] 54%|█████▍    | 5756/10682 [57:34<40:36,  2.02it/s] 54%|█████▍    | 5757/10682 [57:35<40:38,  2.02it/s] 54%|█████▍    | 5758/10682 [57:35<40:38,  2.02it/s] 54%|█████▍    | 5759/10682 [57:36<40:36,  2.02it/s] 54%|█████▍    | 5760/10682 [57:36<40:37,  2.02it/s] 54%|█████▍    | 5761/10682 [57:37<40:36,  2.02it/s] 54%|█████▍    | 5762/10682 [57:37<40:36,  2.02it/s] 54%|█████▍    | 5763/10682 [57:38<40:30,  2.02it/s] 54%|█████▍    | 5764/10682 [57:38<40:30,  2.02it/s] 54%|█████▍    | 5765/10682 [57:39<40:28,  2.02it/s] 54%|█████▍    | 5766/10682 [57:39<40:28,  2.02it/s] 54%|█████▍    | 5767/10682 [57:40<40:27,  2.02it/s] 54%|█████▍    | 5768/10682 [57:40<40:27,  2.02it/s] 54%|█████▍    | 5769/10682 [57:41<40:26,  2.02it/s] 54%|█████▍    | 5770/10682 [57:41<40:24,  2.03it/s] 54%|█████▍    | 5771/10682 [57:42<40:25,  2.03it/s] 54%|█████▍    | 5772/10682 [57:42<40:25,  2.02it/s] 54%|█████▍    | 5773/10682 [57:43<40:26,  2.02it/s] 54%|█████▍    | 5774/10682 [57:43<40:23,  2.02it/s] 54%|█████▍    | 5775/10682 [57:44<40:25,  2.02it/s]                                                    {'loss': 3.668, 'grad_norm': 0.22501885890960693, 'learning_rate': 0.0005164190835329964, 'epoch': 0.54}
+ 54%|█████▍    | 5775/10682 [57:44<40:25,  2.02it/s] 54%|█████▍    | 5776/10682 [57:44<40:27,  2.02it/s] 54%|█████▍    | 5777/10682 [57:45<40:25,  2.02it/s] 54%|█████▍    | 5778/10682 [57:45<40:22,  2.02it/s] 54%|█████▍    | 5779/10682 [57:46<40:23,  2.02it/s] 54%|█████▍    | 5780/10682 [57:46<40:20,  2.03it/s] 54%|█████▍    | 5781/10682 [57:47<40:17,  2.03it/s] 54%|█████▍    | 5782/10682 [57:47<40:19,  2.03it/s] 54%|█████▍    | 5783/10682 [57:48<40:16,  2.03it/s] 54%|█████▍    | 5784/10682 [57:48<40:17,  2.03it/s] 54%|█████▍    | 5785/10682 [57:49<40:17,  2.03it/s] 54%|█████▍    | 5786/10682 [57:49<40:19,  2.02it/s] 54%|█████▍    | 5787/10682 [57:50<40:15,  2.03it/s] 54%|█████▍    | 5788/10682 [57:50<40:14,  2.03it/s] 54%|█████▍    | 5789/10682 [57:51<40:14,  2.03it/s] 54%|█████▍    | 5790/10682 [57:51<40:13,  2.03it/s] 54%|█████▍    | 5791/10682 [57:52<40:17,  2.02it/s] 54%|█████▍    | 5792/10682 [57:52<40:13,  2.03it/s] 54%|█████▍    | 5793/10682 [57:53<40:17,  2.02it/s] 54%|█████▍    | 5794/10682 [57:53<40:16,  2.02it/s] 54%|█████▍    | 5795/10682 [57:54<40:17,  2.02it/s] 54%|█████▍    | 5796/10682 [57:54<40:14,  2.02it/s] 54%|█████▍    | 5797/10682 [57:55<40:17,  2.02it/s] 54%|█████▍    | 5798/10682 [57:55<40:15,  2.02it/s] 54%|█████▍    | 5799/10682 [57:56<40:12,  2.02it/s] 54%|█████▍    | 5800/10682 [57:56<40:13,  2.02it/s]                                                    {'loss': 3.6593, 'grad_norm': 0.2032850682735443, 'learning_rate': 0.0005123357005676156, 'epoch': 0.54}
+ 54%|█████▍    | 5800/10682 [57:56<40:13,  2.02it/s] 54%|█████▍    | 5801/10682 [57:57<40:12,  2.02it/s] 54%|█████▍    | 5802/10682 [57:57<40:11,  2.02it/s] 54%|█████▍    | 5803/10682 [57:58<40:10,  2.02it/s] 54%|█████▍    | 5804/10682 [57:58<40:06,  2.03it/s] 54%|█████▍    | 5805/10682 [57:59<40:07,  2.03it/s] 54%|█████▍    | 5806/10682 [57:59<40:05,  2.03it/s] 54%|█████▍    | 5807/10682 [58:00<40:07,  2.03it/s] 54%|█████▍    | 5808/10682 [58:00<40:08,  2.02it/s] 54%|█████▍    | 5809/10682 [58:01<40:10,  2.02it/s] 54%|█████▍    | 5810/10682 [58:01<40:11,  2.02it/s] 54%|█████▍    | 5811/10682 [58:02<40:13,  2.02it/s] 54%|█████▍    | 5812/10682 [58:02<40:12,  2.02it/s] 54%|█████▍    | 5813/10682 [58:03<40:09,  2.02it/s] 54%|█████▍    | 5814/10682 [58:03<40:08,  2.02it/s] 54%|█████▍    | 5815/10682 [58:04<40:06,  2.02it/s] 54%|█████▍    | 5816/10682 [58:04<40:05,  2.02it/s] 54%|█████▍    | 5817/10682 [58:05<40:04,  2.02it/s] 54%|█████▍    | 5818/10682 [58:05<40:03,  2.02it/s] 54%|█████▍    | 5819/10682 [58:06<40:02,  2.02it/s] 54%|█████▍    | 5820/10682 [58:06<39:58,  2.03it/s] 54%|█████▍    | 5821/10682 [58:07<39:59,  2.03it/s] 55%|█████▍    | 5822/10682 [58:07<39:59,  2.03it/s] 55%|█████▍    | 5823/10682 [58:08<40:00,  2.02it/s] 55%|█████▍    | 5824/10682 [58:08<39:58,  2.03it/s] 55%|█████▍    | 5825/10682 [58:08<40:01,  2.02it/s]{'loss': 3.6558, 'grad_norm': 0.19885431230068207, 'learning_rate': 0.0005082514941786895, 'epoch': 0.55}                                                    
+ 55%|█████▍    | 5825/10682 [58:08<40:01,  2.02it/s] 55%|█████▍    | 5826/10682 [58:09<40:02,  2.02it/s] 55%|█████▍    | 5827/10682 [58:09<40:03,  2.02it/s] 55%|█████▍    | 5828/10682 [58:10<40:00,  2.02it/s] 55%|█████▍    | 5829/10682 [58:10<40:00,  2.02it/s] 55%|█████▍    | 5830/10682 [58:11<39:57,  2.02it/s] 55%|█████▍    | 5831/10682 [58:11<39:57,  2.02it/s] 55%|█████▍    | 5832/10682 [58:12<39:57,  2.02it/s] 55%|█████▍    | 5833/10682 [58:12<39:55,  2.02it/s] 55%|█████▍    | 5834/10682 [58:13<39:53,  2.03it/s] 55%|█████▍    | 5835/10682 [58:13<39:51,  2.03it/s] 55%|█████▍    | 5836/10682 [58:14<39:53,  2.03it/s] 55%|█████▍    | 5837/10682 [58:14<39:49,  2.03it/s] 55%|█████▍    | 5838/10682 [58:15<39:50,  2.03it/s] 55%|█████▍    | 5839/10682 [58:15<39:50,  2.03it/s] 55%|█████▍    | 5840/10682 [58:16<39:52,  2.02it/s] 55%|█████▍    | 5841/10682 [58:16<39:53,  2.02it/s] 55%|█████▍    | 5842/10682 [58:17<39:53,  2.02it/s] 55%|█████▍    | 5843/10682 [58:17<39:52,  2.02it/s] 55%|█████▍    | 5844/10682 [58:18<39:53,  2.02it/s] 55%|█████▍    | 5845/10682 [58:18<39:51,  2.02it/s] 55%|█████▍    | 5846/10682 [58:19<39:50,  2.02it/s] 55%|█████▍    | 5847/10682 [58:19<39:48,  2.02it/s] 55%|█████▍    | 5848/10682 [58:20<39:47,  2.02it/s] 55%|█████▍    | 5849/10682 [58:20<39:46,  2.03it/s] 55%|█████▍    | 5850/10682 [58:21<39:43,  2.03it/s]{'loss': 3.6657, 'grad_norm': 0.1940658688545227, 'learning_rate': 0.0005041667369921374, 'epoch': 0.55}
+                                                     55%|█████▍    | 5850/10682 [58:21<39:43,  2.03it/s] 55%|█████▍    | 5851/10682 [58:21<39:48,  2.02it/s] 55%|█████▍    | 5852/10682 [58:22<39:46,  2.02it/s] 55%|█████▍    | 5853/10682 [58:22<39:46,  2.02it/s] 55%|█████▍    | 5854/10682 [58:23<39:43,  2.03it/s] 55%|█████▍    | 5855/10682 [58:23<39:50,  2.02it/s] 55%|█████▍    | 5856/10682 [58:24<39:45,  2.02it/s] 55%|█████▍    | 5857/10682 [58:24<39:46,  2.02it/s] 55%|█████▍    | 5858/10682 [58:25<39:43,  2.02it/s] 55%|█████▍    | 5859/10682 [58:25<39:44,  2.02it/s] 55%|█████▍    | 5860/10682 [58:26<39:40,  2.03it/s] 55%|█████▍    | 5861/10682 [58:26<39:43,  2.02it/s] 55%|█████▍    | 5862/10682 [58:27<39:41,  2.02it/s] 55%|█████▍    | 5863/10682 [58:27<39:39,  2.03it/s] 55%|█████▍    | 5864/10682 [58:28<39:36,  2.03it/s] 55%|█████▍    | 5865/10682 [58:28<39:35,  2.03it/s] 55%|█████▍    | 5866/10682 [58:29<39:37,  2.03it/s] 55%|█████▍    | 5867/10682 [58:29<39:35,  2.03it/s] 55%|█████▍    | 5868/10682 [58:30<39:34,  2.03it/s] 55%|█████▍    | 5869/10682 [58:30<39:35,  2.03it/s] 55%|█████▍    | 5870/10682 [58:31<39:33,  2.03it/s] 55%|█████▍    | 5871/10682 [58:31<39:36,  2.02it/s] 55%|█████▍    | 5872/10682 [58:32<39:34,  2.03it/s] 55%|█████▍    | 5873/10682 [58:32<39:37,  2.02it/s] 55%|█████▍    | 5874/10682 [58:33<39:34,  2.02it/s] 55%|█████▍    | 5875/10682 [58:33<39:36,  2.02it/s]{'loss': 3.6526, 'grad_norm': 0.22250564396381378, 'learning_rate': 0.0005000817016706441, 'epoch': 0.55}                                                    
+ 55%|█████▍    | 5875/10682 [58:33<39:36,  2.02it/s] 55%|█████▌    | 5876/10682 [58:34<39:37,  2.02it/s] 55%|█████▌    | 5877/10682 [58:34<39:35,  2.02it/s] 55%|█████▌    | 5878/10682 [58:35<39:33,  2.02it/s] 55%|█████▌    | 5879/10682 [58:35<39:33,  2.02it/s] 55%|█████▌    | 5880/10682 [58:36<39:33,  2.02it/s] 55%|█████▌    | 5881/10682 [58:36<39:34,  2.02it/s] 55%|█████▌    | 5882/10682 [58:37<39:37,  2.02it/s] 55%|█████▌    | 5883/10682 [58:37<39:33,  2.02it/s] 55%|█████▌    | 5884/10682 [58:38<39:32,  2.02it/s] 55%|█████▌    | 5885/10682 [58:38<39:31,  2.02it/s] 55%|█████▌    | 5886/10682 [58:39<39:30,  2.02it/s] 55%|█████▌    | 5887/10682 [58:39<39:29,  2.02it/s] 55%|█████▌    | 5888/10682 [58:40<39:28,  2.02it/s] 55%|█████▌    | 5889/10682 [58:40<39:26,  2.03it/s] 55%|█████▌    | 5890/10682 [58:41<39:23,  2.03it/s] 55%|█████▌    | 5891/10682 [58:41<39:24,  2.03it/s] 55%|█████▌    | 5892/10682 [58:42<39:23,  2.03it/s] 55%|█████▌    | 5893/10682 [58:42<39:24,  2.03it/s] 55%|█████▌    | 5894/10682 [58:43<39:25,  2.02it/s] 55%|█████▌    | 5895/10682 [58:43<39:30,  2.02it/s] 55%|█████▌    | 5896/10682 [58:44<39:26,  2.02it/s] 55%|█████▌    | 5897/10682 [58:44<39:27,  2.02it/s] 55%|█████▌    | 5898/10682 [58:45<39:26,  2.02it/s] 55%|█████▌    | 5899/10682 [58:45<39:25,  2.02it/s] 55%|█████▌    | 5900/10682 [58:46<39:20,  2.03it/s]{'loss': 3.6541, 'grad_norm': 0.21026842296123505, 'learning_rate': 0.0004959966608954618, 'epoch': 0.55}
+                                                     55%|█████▌    | 5900/10682 [58:46<39:20,  2.03it/s] 55%|█████▌    | 5901/10682 [58:46<39:25,  2.02it/s] 55%|█████▌    | 5902/10682 [58:47<39:22,  2.02it/s] 55%|█████▌    | 5903/10682 [58:47<39:21,  2.02it/s] 55%|█████▌    | 5904/10682 [58:48<39:17,  2.03it/s] 55%|█████▌    | 5905/10682 [58:48<39:18,  2.03it/s] 55%|█████▌    | 5906/10682 [58:49<39:17,  2.03it/s] 55%|█████▌    | 5907/10682 [58:49<39:13,  2.03it/s] 55%|█████▌    | 5908/10682 [58:49<39:15,  2.03it/s] 55%|█████▌    | 5909/10682 [58:50<39:13,  2.03it/s] 55%|█████▌    | 5910/10682 [58:50<39:15,  2.03it/s] 55%|█████▌    | 5911/10682 [58:51<39:13,  2.03it/s] 55%|█████▌    | 5912/10682 [58:51<39:13,  2.03it/s] 55%|█████▌    | 5913/10682 [58:52<39:15,  2.02it/s] 55%|█████▌    | 5914/10682 [58:52<39:20,  2.02it/s] 55%|█████▌    | 5915/10682 [58:53<39:18,  2.02it/s] 55%|█████▌    | 5916/10682 [58:53<39:18,  2.02it/s] 55%|█████▌    | 5917/10682 [58:54<39:18,  2.02it/s] 55%|█████▌    | 5918/10682 [58:54<39:17,  2.02it/s] 55%|█████▌    | 5919/10682 [58:55<39:15,  2.02it/s] 55%|█████▌    | 5920/10682 [58:55<39:16,  2.02it/s] 55%|█████▌    | 5921/10682 [58:56<39:18,  2.02it/s] 55%|█████▌    | 5922/10682 [58:56<39:17,  2.02it/s] 55%|█████▌    | 5923/10682 [58:57<39:15,  2.02it/s] 55%|█████▌    | 5924/10682 [58:57<39:13,  2.02it/s] 55%|█████▌    | 5925/10682 [58:58<39:13,  2.02it/s]{'loss': 3.6534, 'grad_norm': 0.20561513304710388, 'learning_rate': 0.0004919118873482054, 'epoch': 0.55}
+                                                     55%|█████▌    | 5925/10682 [58:58<39:13,  2.02it/s] 55%|█████▌    | 5926/10682 [58:58<39:14,  2.02it/s] 55%|█████▌    | 5927/10682 [58:59<39:13,  2.02it/s] 55%|█████▌    | 5928/10682 [58:59<39:10,  2.02it/s] 56%|█████▌    | 5929/10682 [59:00<39:09,  2.02it/s] 56%|█████▌    | 5930/10682 [59:00<39:07,  2.02it/s] 56%|█████▌    | 5931/10682 [59:01<39:06,  2.02it/s] 56%|█████▌    | 5932/10682 [59:01<39:07,  2.02it/s] 56%|█████▌    | 5933/10682 [59:02<39:03,  2.03it/s] 56%|█████▌    | 5934/10682 [59:02<39:05,  2.02it/s] 56%|█████▌    | 5935/10682 [59:03<39:06,  2.02it/s] 56%|█████▌    | 5936/10682 [59:03<39:03,  2.03it/s] 56%|█████▌    | 5937/10682 [59:04<39:04,  2.02it/s] 56%|█████▌    | 5938/10682 [59:04<39:05,  2.02it/s] 56%|█████▌    | 5939/10682 [59:05<39:03,  2.02it/s] 56%|█████▌    | 5940/10682 [59:05<39:03,  2.02it/s] 56%|█████▌    | 5941/10682 [59:06<39:01,  2.03it/s] 56%|█████▌    | 5942/10682 [59:06<39:00,  2.03it/s] 56%|█████▌    | 5943/10682 [59:07<38:59,  2.03it/s] 56%|█████▌    | 5944/10682 [59:07<38:56,  2.03it/s] 56%|█████▌    | 5945/10682 [59:08<38:58,  2.03it/s] 56%|█████▌    | 5946/10682 [59:08<38:56,  2.03it/s] 56%|█████▌    | 5947/10682 [59:09<38:58,  2.03it/s] 56%|█████▌    | 5948/10682 [59:09<38:55,  2.03it/s] 56%|█████▌    | 5949/10682 [59:10<38:57,  2.03it/s] 56%|█████▌    | 5950/10682 [59:10<38:56,  2.03it/s]{'loss': 3.6612, 'grad_norm': 0.2184705138206482, 'learning_rate': 0.0004878276536926525, 'epoch': 0.56}                                                    
+ 56%|█████▌    | 5950/10682 [59:10<38:56,  2.03it/s] 56%|█████▌    | 5951/10682 [59:11<39:02,  2.02it/s] 56%|█████▌    | 5952/10682 [59:11<38:58,  2.02it/s] 56%|█████▌    | 5953/10682 [59:12<38:55,  2.02it/s] 56%|█████▌    | 5954/10682 [59:12<38:54,  2.03it/s] 56%|█████▌    | 5955/10682 [59:13<38:54,  2.03it/s] 56%|█████▌    | 5956/10682 [59:13<38:53,  2.03it/s] 56%|█████▌    | 5957/10682 [59:14<38:50,  2.03it/s] 56%|█████▌    | 5958/10682 [59:14<38:49,  2.03it/s] 56%|█████▌    | 5959/10682 [59:15<38:48,  2.03it/s] 56%|█████▌    | 5960/10682 [59:15<38:47,  2.03it/s] 56%|█████▌    | 5961/10682 [59:16<38:49,  2.03it/s] 56%|█████▌    | 5962/10682 [59:16<38:51,  2.02it/s] 56%|█████▌    | 5963/10682 [59:17<38:53,  2.02it/s] 56%|█████▌    | 5964/10682 [59:17<38:54,  2.02it/s] 56%|█████▌    | 5965/10682 [59:18<38:53,  2.02it/s] 56%|█████▌    | 5966/10682 [59:18<38:51,  2.02it/s] 56%|█████▌    | 5967/10682 [59:19<38:49,  2.02it/s] 56%|█████▌    | 5968/10682 [59:19<38:51,  2.02it/s] 56%|█████▌    | 5969/10682 [59:20<38:49,  2.02it/s] 56%|█████▌    | 5970/10682 [59:20<38:48,  2.02it/s] 56%|█████▌    | 5971/10682 [59:21<38:50,  2.02it/s] 56%|█████▌    | 5972/10682 [59:21<38:48,  2.02it/s] 56%|█████▌    | 5973/10682 [59:22<38:49,  2.02it/s] 56%|█████▌    | 5974/10682 [59:22<38:46,  2.02it/s] 56%|█████▌    | 5975/10682 [59:23<38:43,  2.03it/s]                                                    {'loss': 3.6617, 'grad_norm': 0.218989297747612, 'learning_rate': 0.0004837442325565422, 'epoch': 0.56}
+ 56%|█████▌    | 5975/10682 [59:23<38:43,  2.03it/s] 56%|█████▌    | 5976/10682 [59:23<38:46,  2.02it/s] 56%|█████▌    | 5977/10682 [59:24<38:45,  2.02it/s] 56%|█████▌    | 5978/10682 [59:24<38:42,  2.03it/s] 56%|█████▌    | 5979/10682 [59:25<38:41,  2.03it/s] 56%|█████▌    | 5980/10682 [59:25<38:44,  2.02it/s] 56%|█████▌    | 5981/10682 [59:26<38:45,  2.02it/s] 56%|█████▌    | 5982/10682 [59:26<38:44,  2.02it/s] 56%|█████▌    | 5983/10682 [59:27<38:42,  2.02it/s] 56%|█████▌    | 5984/10682 [59:27<38:44,  2.02it/s] 56%|█████▌    | 5985/10682 [59:28<38:40,  2.02it/s] 56%|█████▌    | 5986/10682 [59:28<38:40,  2.02it/s] 56%|█████▌    | 5987/10682 [59:29<38:36,  2.03it/s] 56%|█████▌    | 5988/10682 [59:29<38:34,  2.03it/s] 56%|█████▌    | 5989/10682 [59:30<38:34,  2.03it/s] 56%|█████▌    | 5990/10682 [59:30<38:31,  2.03it/s] 56%|█████▌    | 5991/10682 [59:31<38:33,  2.03it/s] 56%|█████▌    | 5992/10682 [59:31<38:31,  2.03it/s] 56%|█████▌    | 5993/10682 [59:31<38:32,  2.03it/s] 56%|█████▌    | 5994/10682 [59:32<38:34,  2.03it/s] 56%|█████▌    | 5995/10682 [59:32<38:36,  2.02it/s] 56%|█████▌    | 5996/10682 [59:33<38:35,  2.02it/s] 56%|█████▌    | 5997/10682 [59:33<38:36,  2.02it/s] 56%|█████▌    | 5998/10682 [59:34<38:33,  2.02it/s] 56%|█████▌    | 5999/10682 [59:34<38:29,  2.03it/s] 56%|█████▌    | 6000/10682 [59:35<38:31,  2.03it/s]{'loss': 3.6523, 'grad_norm': 0.21047747135162354, 'learning_rate': 0.00047966189651337725, 'epoch': 0.56}
+                                                     56%|█████▌    | 6000/10682 [59:35<38:31,  2.03it/s] 56%|█████▌    | 6001/10682 [59:35<38:33,  2.02it/s] 56%|█████▌    | 6002/10682 [59:36<38:32,  2.02it/s] 56%|█████▌    | 6003/10682 [59:36<38:30,  2.03it/s] 56%|█████▌    | 6004/10682 [59:37<38:27,  2.03it/s] 56%|█████▌    | 6005/10682 [59:37<38:28,  2.03it/s] 56%|█████▌    | 6006/10682 [59:38<38:24,  2.03it/s] 56%|█████▌    | 6007/10682 [59:38<38:25,  2.03it/s] 56%|█████▌    | 6008/10682 [59:39<38:24,  2.03it/s] 56%|█████▋    | 6009/10682 [59:39<38:24,  2.03it/s] 56%|█████▋    | 6010/10682 [59:40<38:25,  2.03it/s] 56%|█████▋    | 6011/10682 [59:40<38:23,  2.03it/s] 56%|█████▋    | 6012/10682 [59:41<38:23,  2.03it/s] 56%|█████▋    | 6013/10682 [59:41<38:23,  2.03it/s] 56%|█████▋    | 6014/10682 [59:42<38:24,  2.03it/s] 56%|█████▋    | 6015/10682 [59:42<38:27,  2.02it/s] 56%|█████▋    | 6016/10682 [59:43<38:24,  2.03it/s] 56%|█████▋    | 6017/10682 [59:43<38:26,  2.02it/s] 56%|█████▋    | 6018/10682 [59:44<38:24,  2.02it/s] 56%|█████▋    | 6019/10682 [59:44<38:25,  2.02it/s] 56%|█████▋    | 6020/10682 [59:45<38:24,  2.02it/s] 56%|█████▋    | 6021/10682 [59:45<38:28,  2.02it/s] 56%|█████▋    | 6022/10682 [59:46<38:25,  2.02it/s] 56%|█████▋    | 6023/10682 [59:46<38:23,  2.02it/s] 56%|█████▋    | 6024/10682 [59:47<38:21,  2.02it/s] 56%|█████▋    | 6025/10682 [59:47<38:19,  2.03it/s]{'loss': 3.6523, 'grad_norm': 0.2051728218793869, 'learning_rate': 0.0004755809180642286, 'epoch': 0.56}                                                    
+ 56%|█████▋    | 6025/10682 [59:47<38:19,  2.03it/s] 56%|█████▋    | 6026/10682 [59:48<38:22,  2.02it/s] 56%|█████▋    | 6027/10682 [59:48<38:19,  2.02it/s] 56%|█████▋    | 6028/10682 [59:49<38:19,  2.02it/s] 56%|█████▋    | 6029/10682 [59:49<38:15,  2.03it/s] 56%|█████▋    | 6030/10682 [59:50<38:15,  2.03it/s] 56%|█████▋    | 6031/10682 [59:50<38:17,  2.02it/s] 56%|█████▋    | 6032/10682 [59:51<38:14,  2.03it/s] 56%|█████▋    | 6033/10682 [59:51<38:15,  2.03it/s] 56%|█████▋    | 6034/10682 [59:52<38:15,  2.03it/s] 56%|█████▋    | 6035/10682 [59:52<38:17,  2.02it/s] 57%|█████▋    | 6036/10682 [59:53<38:16,  2.02it/s] 57%|█████▋    | 6037/10682 [59:53<38:16,  2.02it/s] 57%|█████▋    | 6038/10682 [59:54<38:11,  2.03it/s] 57%|█████▋    | 6039/10682 [59:54<38:14,  2.02it/s] 57%|█████▋    | 6040/10682 [59:55<38:12,  2.02it/s] 57%|█████▋    | 6041/10682 [59:55<38:15,  2.02it/s] 57%|█████▋    | 6042/10682 [59:56<38:13,  2.02it/s] 57%|█████▋    | 6043/10682 [59:56<38:10,  2.03it/s] 57%|█████▋    | 6044/10682 [59:57<38:11,  2.02it/s] 57%|█████▋    | 6045/10682 [59:57<38:06,  2.03it/s] 57%|█████▋    | 6046/10682 [59:58<38:07,  2.03it/s] 57%|█████▋    | 6047/10682 [59:58<38:04,  2.03it/s] 57%|█████▋    | 6048/10682 [59:59<38:05,  2.03it/s] 57%|█████▋    | 6049/10682 [59:59<38:05,  2.03it/s] 57%|█████▋    | 6050/10682 [1:00:00<38:05,  2.03it/s]{'loss': 3.6564, 'grad_norm': 0.2185763120651245, 'learning_rate': 0.00047150156961954607, 'epoch': 0.57}                                                      
+ 57%|█████▋    | 6050/10682 [1:00:00<38:05,  2.03it/s] 57%|█████▋    | 6051/10682 [1:00:00<38:09,  2.02it/s] 57%|█████▋    | 6052/10682 [1:00:01<38:09,  2.02it/s] 57%|█████▋    | 6053/10682 [1:00:01<38:08,  2.02it/s] 57%|█████▋    | 6054/10682 [1:00:02<38:06,  2.02it/s] 57%|█████▋    | 6055/10682 [1:00:02<38:04,  2.02it/s] 57%|█████▋    | 6056/10682 [1:00:03<38:03,  2.03it/s] 57%|█████▋    | 6057/10682 [1:00:03<38:04,  2.02it/s] 57%|█████▋    | 6058/10682 [1:00:04<38:00,  2.03it/s] 57%|█████▋    | 6059/10682 [1:00:04<37:58,  2.03it/s] 57%|█████▋    | 6060/10682 [1:00:05<37:59,  2.03it/s] 57%|█████▋    | 6061/10682 [1:00:05<38:02,  2.02it/s] 57%|█████▋    | 6062/10682 [1:00:06<38:03,  2.02it/s] 57%|█████▋    | 6063/10682 [1:00:06<38:03,  2.02it/s] 57%|█████▋    | 6064/10682 [1:00:07<38:04,  2.02it/s] 57%|█████▋    | 6065/10682 [1:00:07<38:01,  2.02it/s] 57%|█████▋    | 6066/10682 [1:00:08<38:02,  2.02it/s] 57%|█████▋    | 6067/10682 [1:00:08<44:21,  1.73it/s] 57%|█████▋    | 6068/10682 [1:00:09<42:24,  1.81it/s] 57%|█████▋    | 6069/10682 [1:00:09<41:03,  1.87it/s] 57%|█████▋    | 6070/10682 [1:00:10<40:09,  1.91it/s] 57%|█████▋    | 6071/10682 [1:00:10<39:28,  1.95it/s] 57%|█████▋    | 6072/10682 [1:00:11<38:59,  1.97it/s] 57%|█████▋    | 6073/10682 [1:00:11<38:37,  1.99it/s] 57%|█████▋    | 6074/10682 [1:00:12<38:22,  2.00it/s] 57%|█████▋    | 6075/10682 [1:00:12<38:17,  2.01it/s]                                                      {'loss': 3.6541, 'grad_norm': 0.22366584837436676, 'learning_rate': 0.0004674241234809751, 'epoch': 0.57}
+ 57%|█████▋    | 6075/10682 [1:00:12<38:17,  2.01it/s] 57%|█████▋    | 6076/10682 [1:00:13<38:13,  2.01it/s] 57%|█████▋    | 6077/10682 [1:00:13<38:10,  2.01it/s] 57%|█████▋    | 6078/10682 [1:00:14<38:06,  2.01it/s] 57%|█████▋    | 6079/10682 [1:00:14<38:07,  2.01it/s] 57%|█████▋    | 6080/10682 [1:00:15<38:01,  2.02it/s] 57%|█████▋    | 6081/10682 [1:00:15<38:01,  2.02it/s] 57%|█████▋    | 6082/10682 [1:00:16<37:58,  2.02it/s] 57%|█████▋    | 6083/10682 [1:00:16<37:57,  2.02it/s] 57%|█████▋    | 6084/10682 [1:00:17<37:54,  2.02it/s] 57%|█████▋    | 6085/10682 [1:00:17<37:54,  2.02it/s] 57%|█████▋    | 6086/10682 [1:00:18<37:53,  2.02it/s] 57%|█████▋    | 6087/10682 [1:00:18<37:48,  2.03it/s] 57%|█████▋    | 6088/10682 [1:00:19<37:48,  2.03it/s] 57%|█████▋    | 6089/10682 [1:00:19<37:43,  2.03it/s] 57%|█████▋    | 6090/10682 [1:00:20<37:44,  2.03it/s] 57%|█████▋    | 6091/10682 [1:00:20<37:42,  2.03it/s] 57%|█████▋    | 6092/10682 [1:00:21<43:59,  1.74it/s] 57%|█████▋    | 6093/10682 [1:00:21<42:05,  1.82it/s] 57%|█████▋    | 6094/10682 [1:00:22<40:50,  1.87it/s] 57%|█████▋    | 6095/10682 [1:00:22<39:54,  1.92it/s] 57%|█████▋    | 6096/10682 [1:00:23<39:18,  1.94it/s] 57%|█████▋    | 6097/10682 [1:00:23<38:47,  1.97it/s] 57%|█████▋    | 6098/10682 [1:00:24<38:29,  1.99it/s] 57%|█████▋    | 6099/10682 [1:00:24<38:12,  2.00it/s] 57%|█████▋    | 6100/10682 [1:00:25<38:04,  2.01it/s]{'loss': 3.6458, 'grad_norm': 0.2160438597202301, 'learning_rate': 0.0004633488518231793, 'epoch': 0.57}                                                      
+ 57%|█████▋    | 6100/10682 [1:00:25<38:04,  2.01it/s] 57%|█████▋    | 6101/10682 [1:00:25<38:00,  2.01it/s] 57%|█████▋    | 6102/10682 [1:00:26<37:55,  2.01it/s] 57%|█████▋    | 6103/10682 [1:00:26<37:49,  2.02it/s] 57%|█████▋    | 6104/10682 [1:00:27<37:47,  2.02it/s] 57%|█████▋    | 6105/10682 [1:00:27<37:46,  2.02it/s] 57%|█████▋    | 6106/10682 [1:00:28<37:40,  2.02it/s] 57%|█████▋    | 6107/10682 [1:00:28<37:39,  2.02it/s] 57%|█████▋    | 6108/10682 [1:00:29<37:35,  2.03it/s] 57%|█████▋    | 6109/10682 [1:00:29<37:36,  2.03it/s] 57%|█████▋    | 6110/10682 [1:00:30<37:38,  2.02it/s] 57%|█████▋    | 6111/10682 [1:00:30<37:37,  2.02it/s] 57%|█████▋    | 6112/10682 [1:00:31<37:38,  2.02it/s] 57%|█████▋    | 6113/10682 [1:00:31<37:40,  2.02it/s] 57%|█████▋    | 6114/10682 [1:00:32<37:38,  2.02it/s] 57%|█████▋    | 6115/10682 [1:00:32<37:38,  2.02it/s] 57%|█████▋    | 6116/10682 [1:00:33<37:38,  2.02it/s] 57%|█████▋    | 6117/10682 [1:00:33<37:36,  2.02it/s] 57%|█████▋    | 6118/10682 [1:00:34<37:33,  2.03it/s] 57%|█████▋    | 6119/10682 [1:00:34<37:32,  2.03it/s] 57%|█████▋    | 6120/10682 [1:00:35<37:30,  2.03it/s] 57%|█████▋    | 6121/10682 [1:00:35<37:30,  2.03it/s] 57%|█████▋    | 6122/10682 [1:00:36<37:30,  2.03it/s] 57%|█████▋    | 6123/10682 [1:00:36<37:31,  2.02it/s] 57%|█████▋    | 6124/10682 [1:00:37<37:30,  2.02it/s] 57%|█████▋    | 6125/10682 [1:00:37<37:31,  2.02it/s]{'loss': 3.6441, 'grad_norm': 0.22076064348220825, 'learning_rate': 0.00045927602667567333, 'epoch': 0.57}                                                      
+ 57%|█████▋    | 6125/10682 [1:00:37<37:31,  2.02it/s] 57%|█████▋    | 6126/10682 [1:00:38<37:31,  2.02it/s] 57%|█████▋    | 6127/10682 [1:00:38<37:29,  2.02it/s] 57%|█████▋    | 6128/10682 [1:00:39<37:29,  2.02it/s] 57%|█████▋    | 6129/10682 [1:00:39<37:28,  2.02it/s] 57%|█████▋    | 6130/10682 [1:00:40<37:28,  2.02it/s] 57%|█████▋    | 6131/10682 [1:00:40<37:27,  2.03it/s] 57%|█████▋    | 6132/10682 [1:00:41<37:26,  2.03it/s] 57%|█████▋    | 6133/10682 [1:00:41<37:24,  2.03it/s] 57%|█████▋    | 6134/10682 [1:00:42<37:24,  2.03it/s] 57%|█████▋    | 6135/10682 [1:00:42<37:20,  2.03it/s] 57%|█████▋    | 6136/10682 [1:00:43<37:19,  2.03it/s] 57%|█████▋    | 6137/10682 [1:00:43<37:19,  2.03it/s] 57%|█████▋    | 6138/10682 [1:00:44<37:18,  2.03it/s] 57%|█████▋    | 6139/10682 [1:00:44<37:16,  2.03it/s] 57%|█████▋    | 6140/10682 [1:00:45<37:18,  2.03it/s] 57%|█████▋    | 6141/10682 [1:00:45<37:16,  2.03it/s] 57%|█████▋    | 6142/10682 [1:00:46<37:20,  2.03it/s] 58%|█████▊    | 6143/10682 [1:00:46<37:18,  2.03it/s] 58%|█████▊    | 6144/10682 [1:00:47<37:21,  2.02it/s] 58%|█████▊    | 6145/10682 [1:00:47<37:19,  2.03it/s] 58%|█████▊    | 6146/10682 [1:00:48<37:19,  2.03it/s] 58%|█████▊    | 6147/10682 [1:00:48<37:17,  2.03it/s] 58%|█████▊    | 6148/10682 [1:00:49<37:16,  2.03it/s] 58%|█████▊    | 6149/10682 [1:00:49<37:15,  2.03it/s] 58%|█████▊    | 6150/10682 [1:00:50<37:14,  2.03it/s]{'loss': 3.6432, 'grad_norm': 0.21950304508209229, 'learning_rate': 0.00045520591990466365, 'epoch': 0.58}                                                      
+ 58%|█████▊    | 6150/10682 [1:00:50<37:14,  2.03it/s] 58%|█████▊    | 6151/10682 [1:00:50<37:17,  2.02it/s] 58%|█████▊    | 6152/10682 [1:00:51<37:14,  2.03it/s] 58%|█████▊    | 6153/10682 [1:00:51<37:14,  2.03it/s] 58%|█████▊    | 6154/10682 [1:00:52<37:14,  2.03it/s] 58%|█████▊    | 6155/10682 [1:00:52<37:11,  2.03it/s] 58%|█████▊    | 6156/10682 [1:00:53<37:09,  2.03it/s] 58%|█████▊    | 6157/10682 [1:00:53<37:10,  2.03it/s] 58%|█████▊    | 6158/10682 [1:00:54<37:10,  2.03it/s] 58%|█████▊    | 6159/10682 [1:00:54<37:12,  2.03it/s] 58%|█████▊    | 6160/10682 [1:00:55<37:14,  2.02it/s] 58%|█████▊    | 6161/10682 [1:00:55<37:16,  2.02it/s] 58%|█████▊    | 6162/10682 [1:00:55<37:14,  2.02it/s] 58%|█████▊    | 6163/10682 [1:00:56<37:16,  2.02it/s] 58%|█████▊    | 6164/10682 [1:00:56<37:16,  2.02it/s] 58%|█████▊    | 6165/10682 [1:00:57<37:17,  2.02it/s] 58%|█████▊    | 6166/10682 [1:00:57<37:14,  2.02it/s] 58%|█████▊    | 6167/10682 [1:00:58<37:14,  2.02it/s] 58%|█████▊    | 6168/10682 [1:00:58<37:09,  2.02it/s] 58%|█████▊    | 6169/10682 [1:00:59<37:05,  2.03it/s] 58%|█████▊    | 6170/10682 [1:00:59<37:05,  2.03it/s] 58%|█████▊    | 6171/10682 [1:01:00<37:03,  2.03it/s] 58%|█████▊    | 6172/10682 [1:01:00<37:04,  2.03it/s] 58%|█████▊    | 6173/10682 [1:01:01<37:02,  2.03it/s] 58%|█████▊    | 6174/10682 [1:01:01<37:03,  2.03it/s] 58%|█████▊    | 6175/10682 [1:01:02<37:03,  2.03it/s]{'loss': 3.6529, 'grad_norm': 0.2283448576927185, 'learning_rate': 0.00045113880319490264, 'epoch': 0.58}                                                      
+ 58%|█████▊    | 6175/10682 [1:01:02<37:03,  2.03it/s] 58%|█████▊    | 6176/10682 [1:01:02<37:06,  2.02it/s] 58%|█████▊    | 6177/10682 [1:01:03<37:05,  2.02it/s] 58%|█████▊    | 6178/10682 [1:01:03<37:02,  2.03it/s] 58%|█████▊    | 6179/10682 [1:01:04<37:02,  2.03it/s] 58%|█████▊    | 6180/10682 [1:01:04<36:58,  2.03it/s] 58%|█████▊    | 6181/10682 [1:01:05<36:58,  2.03it/s] 58%|█████▊    | 6182/10682 [1:01:05<36:59,  2.03it/s] 58%|█████▊    | 6183/10682 [1:01:06<36:56,  2.03it/s] 58%|█████▊    | 6184/10682 [1:01:06<36:58,  2.03it/s] 58%|█████▊    | 6185/10682 [1:01:07<36:58,  2.03it/s] 58%|█████▊    | 6186/10682 [1:01:07<36:59,  2.03it/s] 58%|█████▊    | 6187/10682 [1:01:08<36:58,  2.03it/s] 58%|█████▊    | 6188/10682 [1:01:08<36:59,  2.02it/s] 58%|█████▊    | 6189/10682 [1:01:09<36:58,  2.03it/s] 58%|█████▊    | 6190/10682 [1:01:09<36:59,  2.02it/s] 58%|█████▊    | 6191/10682 [1:01:10<37:00,  2.02it/s] 58%|█████▊    | 6192/10682 [1:01:10<36:55,  2.03it/s] 58%|█████▊    | 6193/10682 [1:01:11<36:55,  2.03it/s] 58%|█████▊    | 6194/10682 [1:01:11<36:51,  2.03it/s] 58%|█████▊    | 6195/10682 [1:01:12<36:51,  2.03it/s] 58%|█████▊    | 6196/10682 [1:01:12<36:52,  2.03it/s] 58%|█████▊    | 6197/10682 [1:01:13<36:50,  2.03it/s] 58%|█████▊    | 6198/10682 [1:01:13<36:50,  2.03it/s] 58%|█████▊    | 6199/10682 [1:01:14<36:51,  2.03it/s] 58%|█████▊    | 6200/10682 [1:01:14<36:52,  2.03it/s]                                                      {'loss': 3.6487, 'grad_norm': 0.2054712325334549, 'learning_rate': 0.00044707494803155137, 'epoch': 0.58}
+ 58%|█████▊    | 6200/10682 [1:01:14<36:52,  2.03it/s] 58%|█████▊    | 6201/10682 [1:01:15<36:56,  2.02it/s] 58%|█████▊    | 6202/10682 [1:01:15<36:53,  2.02it/s] 58%|█████▊    | 6203/10682 [1:01:16<36:53,  2.02it/s] 58%|█████▊    | 6204/10682 [1:01:16<36:52,  2.02it/s] 58%|█████▊    | 6205/10682 [1:01:17<36:53,  2.02it/s] 58%|█████▊    | 6206/10682 [1:01:17<36:49,  2.03it/s] 58%|█████▊    | 6207/10682 [1:01:18<36:46,  2.03it/s] 58%|█████▊    | 6208/10682 [1:01:18<36:47,  2.03it/s] 58%|█████▊    | 6209/10682 [1:01:19<36:46,  2.03it/s] 58%|█████▊    | 6210/10682 [1:01:19<36:45,  2.03it/s] 58%|█████▊    | 6211/10682 [1:01:20<36:47,  2.03it/s] 58%|█████▊    | 6212/10682 [1:01:20<36:43,  2.03it/s] 58%|█████▊    | 6213/10682 [1:01:21<36:43,  2.03it/s] 58%|█████▊    | 6214/10682 [1:01:21<36:45,  2.03it/s] 58%|█████▊    | 6215/10682 [1:01:22<36:46,  2.02it/s] 58%|█████▊    | 6216/10682 [1:01:22<36:47,  2.02it/s] 58%|█████▊    | 6217/10682 [1:01:23<36:47,  2.02it/s] 58%|█████▊    | 6218/10682 [1:01:23<36:48,  2.02it/s] 58%|█████▊    | 6219/10682 [1:01:24<36:45,  2.02it/s] 58%|█████▊    | 6220/10682 [1:01:24<36:44,  2.02it/s] 58%|█████▊    | 6221/10682 [1:01:25<36:46,  2.02it/s] 58%|█████▊    | 6222/10682 [1:01:25<36:45,  2.02it/s] 58%|█████▊    | 6223/10682 [1:01:26<36:43,  2.02it/s] 58%|█████▊    | 6224/10682 [1:01:26<36:40,  2.03it/s] 58%|█████▊    | 6225/10682 [1:01:27<36:39,  2.03it/s]{'loss': 3.646, 'grad_norm': 0.2025814652442932, 'learning_rate': 0.00044301462568205915, 'epoch': 0.58}
+                                                       58%|█████▊    | 6225/10682 [1:01:27<36:39,  2.03it/s] 58%|█████▊    | 6226/10682 [1:01:27<36:46,  2.02it/s] 58%|█████▊    | 6227/10682 [1:01:28<36:44,  2.02it/s] 58%|█████▊    | 6228/10682 [1:01:28<36:41,  2.02it/s] 58%|█████▊    | 6229/10682 [1:01:29<36:42,  2.02it/s] 58%|█████▊    | 6230/10682 [1:01:29<36:40,  2.02it/s] 58%|█████▊    | 6231/10682 [1:01:30<36:40,  2.02it/s] 58%|█████▊    | 6232/10682 [1:01:30<36:38,  2.02it/s] 58%|█████▊    | 6233/10682 [1:01:31<36:38,  2.02it/s] 58%|█████▊    | 6234/10682 [1:01:31<36:38,  2.02it/s] 58%|█████▊    | 6235/10682 [1:01:32<36:40,  2.02it/s] 58%|█████▊    | 6236/10682 [1:01:32<36:39,  2.02it/s] 58%|█████▊    | 6237/10682 [1:01:33<36:42,  2.02it/s] 58%|█████▊    | 6238/10682 [1:01:33<36:36,  2.02it/s] 58%|█████▊    | 6239/10682 [1:01:34<36:35,  2.02it/s] 58%|█████▊    | 6240/10682 [1:01:34<36:34,  2.02it/s] 58%|█████▊    | 6241/10682 [1:01:35<36:39,  2.02it/s] 58%|█████▊    | 6242/10682 [1:01:35<36:37,  2.02it/s] 58%|█████▊    | 6243/10682 [1:01:36<36:38,  2.02it/s] 58%|█████▊    | 6244/10682 [1:01:36<36:34,  2.02it/s] 58%|█████▊    | 6245/10682 [1:01:36<36:33,  2.02it/s] 58%|█████▊    | 6246/10682 [1:01:37<36:30,  2.03it/s] 58%|█████▊    | 6247/10682 [1:01:37<36:29,  2.03it/s] 58%|█████▊    | 6248/10682 [1:01:38<36:26,  2.03it/s] 59%|█████▊    | 6249/10682 [1:01:38<36:23,  2.03it/s] 59%|█████▊    | 6250/10682 [1:01:39<36:25,  2.03it/s]{'loss': 3.6412, 'grad_norm': 0.21415773034095764, 'learning_rate': 0.0004389581071780553, 'epoch': 0.59}                                                      
+ 59%|█████▊    | 6250/10682 [1:01:39<36:25,  2.03it/s] 59%|█████▊    | 6251/10682 [1:01:39<36:28,  2.02it/s] 59%|█████▊    | 6252/10682 [1:01:40<36:28,  2.02it/s] 59%|█████▊    | 6253/10682 [1:01:40<36:25,  2.03it/s] 59%|█████▊    | 6254/10682 [1:01:41<36:28,  2.02it/s] 59%|█████▊    | 6255/10682 [1:01:41<36:24,  2.03it/s] 59%|█████▊    | 6256/10682 [1:01:42<36:26,  2.02it/s] 59%|█████▊    | 6257/10682 [1:01:42<36:24,  2.03it/s] 59%|█████▊    | 6258/10682 [1:01:43<36:21,  2.03it/s] 59%|█████▊    | 6259/10682 [1:01:43<36:20,  2.03it/s] 59%|█████▊    | 6260/10682 [1:01:44<36:17,  2.03it/s] 59%|█████▊    | 6261/10682 [1:01:44<36:18,  2.03it/s] 59%|█████▊    | 6262/10682 [1:01:45<36:18,  2.03it/s] 59%|█████▊    | 6263/10682 [1:01:45<36:15,  2.03it/s] 59%|█████▊    | 6264/10682 [1:01:46<36:18,  2.03it/s] 59%|█████▊    | 6265/10682 [1:01:46<36:15,  2.03it/s] 59%|█████▊    | 6266/10682 [1:01:47<36:17,  2.03it/s] 59%|█████▊    | 6267/10682 [1:01:47<36:18,  2.03it/s] 59%|█████▊    | 6268/10682 [1:01:48<36:19,  2.03it/s] 59%|█████▊    | 6269/10682 [1:01:48<36:22,  2.02it/s] 59%|█████▊    | 6270/10682 [1:01:49<36:23,  2.02it/s] 59%|█████▊    | 6271/10682 [1:01:49<36:20,  2.02it/s] 59%|█████▊    | 6272/10682 [1:01:50<36:17,  2.03it/s] 59%|█████▊    | 6273/10682 [1:01:50<36:18,  2.02it/s] 59%|█████▊    | 6274/10682 [1:01:51<36:16,  2.03it/s] 59%|█████▊    | 6275/10682 [1:01:51<36:17,  2.02it/s]{'loss': 3.6392, 'grad_norm': 0.210343599319458, 'learning_rate': 0.0004349056632972576, 'epoch': 0.59}                                                      
+ 59%|█████▊    | 6275/10682 [1:01:51<36:17,  2.02it/s] 59%|█████▉    | 6276/10682 [1:01:52<36:17,  2.02it/s] 59%|█████▉    | 6277/10682 [1:01:52<36:16,  2.02it/s] 59%|█████▉    | 6278/10682 [1:01:53<36:13,  2.03it/s] 59%|█████▉    | 6279/10682 [1:01:53<36:15,  2.02it/s] 59%|█████▉    | 6280/10682 [1:01:54<36:12,  2.03it/s] 59%|█████▉    | 6281/10682 [1:01:54<36:13,  2.02it/s] 59%|█████▉    | 6282/10682 [1:01:55<36:13,  2.02it/s] 59%|█████▉    | 6283/10682 [1:01:55<36:09,  2.03it/s] 59%|█████▉    | 6284/10682 [1:01:56<36:11,  2.03it/s] 59%|█████▉    | 6285/10682 [1:01:56<36:11,  2.03it/s] 59%|█████▉    | 6286/10682 [1:01:57<36:12,  2.02it/s] 59%|█████▉    | 6287/10682 [1:01:57<36:12,  2.02it/s] 59%|█████▉    | 6288/10682 [1:01:58<36:12,  2.02it/s] 59%|█████▉    | 6289/10682 [1:01:58<36:11,  2.02it/s] 59%|█████▉    | 6290/10682 [1:01:59<36:09,  2.02it/s] 59%|█████▉    | 6291/10682 [1:01:59<36:12,  2.02it/s] 59%|█████▉    | 6292/10682 [1:02:00<36:10,  2.02it/s] 59%|█████▉    | 6293/10682 [1:02:00<36:11,  2.02it/s] 59%|█████▉    | 6294/10682 [1:02:01<36:11,  2.02it/s] 59%|█████▉    | 6295/10682 [1:02:01<36:11,  2.02it/s] 59%|█████▉    | 6296/10682 [1:02:02<36:10,  2.02it/s] 59%|█████▉    | 6297/10682 [1:02:02<36:09,  2.02it/s] 59%|█████▉    | 6298/10682 [1:02:03<36:06,  2.02it/s] 59%|█████▉    | 6299/10682 [1:02:03<36:03,  2.03it/s] 59%|█████▉    | 6300/10682 [1:02:04<36:03,  2.03it/s]{'loss': 3.6373, 'grad_norm': 0.20621977746486664, 'learning_rate': 0.00043085756454539745, 'epoch': 0.59}                                                      
+ 59%|█████▉    | 6300/10682 [1:02:04<36:03,  2.03it/s] 59%|█████▉    | 6301/10682 [1:02:04<36:06,  2.02it/s] 59%|█████▉    | 6302/10682 [1:02:05<36:05,  2.02it/s] 59%|█████▉    | 6303/10682 [1:02:05<36:02,  2.03it/s] 59%|█████▉    | 6304/10682 [1:02:06<36:04,  2.02it/s] 59%|█████▉    | 6305/10682 [1:02:06<36:05,  2.02it/s] 59%|█████▉    | 6306/10682 [1:02:07<36:03,  2.02it/s] 59%|█████▉    | 6307/10682 [1:02:07<36:03,  2.02it/s] 59%|█████▉    | 6308/10682 [1:02:08<36:04,  2.02it/s] 59%|█████▉    | 6309/10682 [1:02:08<36:00,  2.02it/s] 59%|█████▉    | 6310/10682 [1:02:09<36:00,  2.02it/s] 59%|█████▉    | 6311/10682 [1:02:09<36:00,  2.02it/s] 59%|█████▉    | 6312/10682 [1:02:10<36:01,  2.02it/s] 59%|█████▉    | 6313/10682 [1:02:10<35:57,  2.03it/s] 59%|█████▉    | 6314/10682 [1:02:11<35:56,  2.03it/s] 59%|█████▉    | 6315/10682 [1:02:11<35:56,  2.03it/s] 59%|█████▉    | 6316/10682 [1:02:12<35:52,  2.03it/s] 59%|█████▉    | 6317/10682 [1:02:12<35:52,  2.03it/s] 59%|█████▉    | 6318/10682 [1:02:13<35:49,  2.03it/s] 59%|█████▉    | 6319/10682 [1:02:13<35:51,  2.03it/s] 59%|█████▉    | 6320/10682 [1:02:14<35:52,  2.03it/s] 59%|█████▉    | 6321/10682 [1:02:14<35:51,  2.03it/s] 59%|█████▉    | 6322/10682 [1:02:15<35:54,  2.02it/s] 59%|█████▉    | 6323/10682 [1:02:15<35:51,  2.03it/s] 59%|█████▉    | 6324/10682 [1:02:16<35:54,  2.02it/s] 59%|█████▉    | 6325/10682 [1:02:16<35:49,  2.03it/s]{'loss': 3.6343, 'grad_norm': 0.20966407656669617, 'learning_rate': 0.0004268140811381641, 'epoch': 0.59}                                                      
+ 59%|█████▉    | 6325/10682 [1:02:16<35:49,  2.03it/s] 59%|█████▉    | 6326/10682 [1:02:16<35:53,  2.02it/s] 59%|█████▉    | 6327/10682 [1:02:17<35:50,  2.03it/s] 59%|█████▉    | 6328/10682 [1:02:17<35:49,  2.03it/s] 59%|█████▉    | 6329/10682 [1:02:18<35:49,  2.03it/s] 59%|█████▉    | 6330/10682 [1:02:18<35:48,  2.03it/s] 59%|█████▉    | 6331/10682 [1:02:19<35:50,  2.02it/s] 59%|█████▉    | 6332/10682 [1:02:19<35:51,  2.02it/s] 59%|█████▉    | 6333/10682 [1:02:20<35:50,  2.02it/s] 59%|█████▉    | 6334/10682 [1:02:20<35:47,  2.02it/s] 59%|█████▉    | 6335/10682 [1:02:21<35:50,  2.02it/s] 59%|█████▉    | 6336/10682 [1:02:21<35:46,  2.02it/s] 59%|█████▉    | 6337/10682 [1:02:22<35:45,  2.03it/s] 59%|█████▉    | 6338/10682 [1:02:22<35:46,  2.02it/s] 59%|█████▉    | 6339/10682 [1:02:23<35:44,  2.03it/s] 59%|█████▉    | 6340/10682 [1:02:23<35:44,  2.02it/s] 59%|█████▉    | 6341/10682 [1:02:24<35:41,  2.03it/s] 59%|█████▉    | 6342/10682 [1:02:24<35:42,  2.03it/s] 59%|█████▉    | 6343/10682 [1:02:25<35:42,  2.02it/s] 59%|█████▉    | 6344/10682 [1:02:25<35:40,  2.03it/s] 59%|█████▉    | 6345/10682 [1:02:26<35:39,  2.03it/s] 59%|█████▉    | 6346/10682 [1:02:26<35:40,  2.03it/s] 59%|█████▉    | 6347/10682 [1:02:27<35:42,  2.02it/s] 59%|█████▉    | 6348/10682 [1:02:27<35:45,  2.02it/s] 59%|█████▉    | 6349/10682 [1:02:28<35:44,  2.02it/s] 59%|█████▉    | 6350/10682 [1:02:28<35:44,  2.02it/s]{'loss': 3.6383, 'grad_norm': 0.20658192038536072, 'learning_rate': 0.0004227754829831662, 'epoch': 0.59}                                                      
+ 59%|█████▉    | 6350/10682 [1:02:28<35:44,  2.02it/s] 59%|█████▉    | 6351/10682 [1:02:29<35:44,  2.02it/s] 59%|█████▉    | 6352/10682 [1:02:29<35:45,  2.02it/s] 59%|█████▉    | 6353/10682 [1:02:30<35:40,  2.02it/s] 59%|█████▉    | 6354/10682 [1:02:30<35:41,  2.02it/s] 59%|█████▉    | 6355/10682 [1:02:31<35:40,  2.02it/s] 60%|█████▉    | 6356/10682 [1:02:31<35:36,  2.02it/s] 60%|█████▉    | 6357/10682 [1:02:32<35:37,  2.02it/s] 60%|█████▉    | 6358/10682 [1:02:32<35:33,  2.03it/s] 60%|█████▉    | 6359/10682 [1:02:33<35:35,  2.02it/s] 60%|█████▉    | 6360/10682 [1:02:33<35:31,  2.03it/s] 60%|█████▉    | 6361/10682 [1:02:34<35:32,  2.03it/s] 60%|█████▉    | 6362/10682 [1:02:34<35:32,  2.03it/s] 60%|█████▉    | 6363/10682 [1:02:35<35:30,  2.03it/s] 60%|█████▉    | 6364/10682 [1:02:35<35:31,  2.03it/s] 60%|█████▉    | 6365/10682 [1:02:36<35:29,  2.03it/s] 60%|█████▉    | 6366/10682 [1:02:36<35:33,  2.02it/s] 60%|█████▉    | 6367/10682 [1:02:37<35:31,  2.02it/s] 60%|█████▉    | 6368/10682 [1:02:37<35:31,  2.02it/s] 60%|█████▉    | 6369/10682 [1:02:38<35:28,  2.03it/s] 60%|█████▉    | 6370/10682 [1:02:38<35:28,  2.03it/s] 60%|█████▉    | 6371/10682 [1:02:39<35:25,  2.03it/s] 60%|█████▉    | 6372/10682 [1:02:39<35:27,  2.03it/s] 60%|█████▉    | 6373/10682 [1:02:40<35:26,  2.03it/s] 60%|█████▉    | 6374/10682 [1:02:40<35:25,  2.03it/s] 60%|█████▉    | 6375/10682 [1:02:41<35:28,  2.02it/s]{'loss': 3.6302, 'grad_norm': 0.2089586704969406, 'learning_rate': 0.0004187420396619156, 'epoch': 0.6}                                                      
+ 60%|█████▉    | 6375/10682 [1:02:41<35:28,  2.02it/s] 60%|█████▉    | 6376/10682 [1:02:41<35:29,  2.02it/s] 60%|█████▉    | 6377/10682 [1:02:42<35:29,  2.02it/s] 60%|█████▉    | 6378/10682 [1:02:42<35:24,  2.03it/s] 60%|█████▉    | 6379/10682 [1:02:43<35:25,  2.02it/s] 60%|█████▉    | 6380/10682 [1:02:43<35:21,  2.03it/s] 60%|█████▉    | 6381/10682 [1:02:44<35:21,  2.03it/s] 60%|█████▉    | 6382/10682 [1:02:44<35:24,  2.02it/s] 60%|█████▉    | 6383/10682 [1:02:45<35:23,  2.02it/s] 60%|█████▉    | 6384/10682 [1:02:45<35:23,  2.02it/s] 60%|█████▉    | 6385/10682 [1:02:46<35:25,  2.02it/s] 60%|█████▉    | 6386/10682 [1:02:46<35:23,  2.02it/s] 60%|█████▉    | 6387/10682 [1:02:47<35:20,  2.03it/s] 60%|█████▉    | 6388/10682 [1:02:47<35:20,  2.03it/s] 60%|█████▉    | 6389/10682 [1:02:48<35:20,  2.02it/s] 60%|█████▉    | 6390/10682 [1:02:48<35:20,  2.02it/s] 60%|█████▉    | 6391/10682 [1:02:49<35:17,  2.03it/s] 60%|█████▉    | 6392/10682 [1:02:49<35:18,  2.02it/s] 60%|█████▉    | 6393/10682 [1:02:50<35:15,  2.03it/s] 60%|█████▉    | 6394/10682 [1:02:50<35:15,  2.03it/s] 60%|█████▉    | 6395/10682 [1:02:51<35:16,  2.03it/s] 60%|█████▉    | 6396/10682 [1:02:51<35:16,  2.03it/s] 60%|█████▉    | 6397/10682 [1:02:52<35:16,  2.02it/s] 60%|█████▉    | 6398/10682 [1:02:52<35:16,  2.02it/s] 60%|█████▉    | 6399/10682 [1:02:53<35:18,  2.02it/s] 60%|█████���    | 6400/10682 [1:02:53<35:17,  2.02it/s]{'loss': 3.6406, 'grad_norm': 0.21040184795856476, 'learning_rate': 0.00041471402041183287, 'epoch': 0.6}                                                      
+ 60%|█████▉    | 6400/10682 [1:02:53<35:17,  2.02it/s] 60%|█████▉    | 6401/10682 [1:02:54<35:19,  2.02it/s] 60%|█████▉    | 6402/10682 [1:02:54<35:19,  2.02it/s] 60%|█████▉    | 6403/10682 [1:02:55<35:16,  2.02it/s] 60%|█████▉    | 6404/10682 [1:02:55<35:15,  2.02it/s] 60%|█████▉    | 6405/10682 [1:02:56<35:13,  2.02it/s] 60%|█████▉    | 6406/10682 [1:02:56<35:12,  2.02it/s] 60%|█████▉    | 6407/10682 [1:02:57<35:11,  2.02it/s] 60%|█████▉    | 6408/10682 [1:02:57<35:09,  2.03it/s] 60%|█████▉    | 6409/10682 [1:02:57<35:06,  2.03it/s] 60%|██████    | 6410/10682 [1:02:58<35:10,  2.02it/s] 60%|██████    | 6411/10682 [1:02:58<35:07,  2.03it/s] 60%|██████    | 6412/10682 [1:02:59<35:09,  2.02it/s] 60%|██████    | 6413/10682 [1:02:59<35:08,  2.02it/s] 60%|██████    | 6414/10682 [1:03:00<35:10,  2.02it/s] 60%|██████    | 6415/10682 [1:03:00<35:08,  2.02it/s] 60%|██████    | 6416/10682 [1:03:01<35:11,  2.02it/s] 60%|██████    | 6417/10682 [1:03:01<35:07,  2.02it/s] 60%|██████    | 6418/10682 [1:03:02<35:04,  2.03it/s] 60%|██████    | 6419/10682 [1:03:02<35:05,  2.02it/s] 60%|██████    | 6420/10682 [1:03:03<35:02,  2.03it/s] 60%|██████    | 6421/10682 [1:03:03<35:03,  2.03it/s] 60%|██████    | 6422/10682 [1:03:04<35:02,  2.03it/s] 60%|██████    | 6423/10682 [1:03:04<34:59,  2.03it/s] 60%|██████    | 6424/10682 [1:03:05<35:02,  2.03it/s] 60%|██████    | 6425/10682 [1:03:05<34:59,  2.03it/s]{'loss': 3.6333, 'grad_norm': 0.20194946229457855, 'learning_rate': 0.0004106916941082745, 'epoch': 0.6}                                                      
+ 60%|██████    | 6425/10682 [1:03:05<34:59,  2.03it/s] 60%|██████    | 6426/10682 [1:03:06<35:03,  2.02it/s] 60%|██████    | 6427/10682 [1:03:06<34:59,  2.03it/s] 60%|██████    | 6428/10682 [1:03:07<34:59,  2.03it/s] 60%|██████    | 6429/10682 [1:03:07<35:00,  2.03it/s] 60%|██████    | 6430/10682 [1:03:08<34:59,  2.03it/s] 60%|██████    | 6431/10682 [1:03:08<35:00,  2.02it/s] 60%|██████    | 6432/10682 [1:03:09<35:01,  2.02it/s] 60%|██████    | 6433/10682 [1:03:09<35:00,  2.02it/s] 60%|██████    | 6434/10682 [1:03:10<35:01,  2.02it/s] 60%|██████    | 6435/10682 [1:03:10<34:59,  2.02it/s] 60%|██████    | 6436/10682 [1:03:11<34:58,  2.02it/s] 60%|██████    | 6437/10682 [1:03:11<34:56,  2.02it/s] 60%|██████    | 6438/10682 [1:03:12<34:56,  2.02it/s] 60%|██████    | 6439/10682 [1:03:12<34:54,  2.03it/s] 60%|██████    | 6440/10682 [1:03:13<34:53,  2.03it/s] 60%|██████    | 6441/10682 [1:03:13<34:51,  2.03it/s] 60%|██████    | 6442/10682 [1:03:14<34:52,  2.03it/s] 60%|██████    | 6443/10682 [1:03:14<34:51,  2.03it/s] 60%|██████    | 6444/10682 [1:03:15<34:51,  2.03it/s] 60%|██████    | 6445/10682 [1:03:15<34:51,  2.03it/s] 60%|██████    | 6446/10682 [1:03:16<34:52,  2.02it/s] 60%|██████    | 6447/10682 [1:03:16<34:52,  2.02it/s] 60%|██████    | 6448/10682 [1:03:17<34:50,  2.03it/s] 60%|██████    | 6449/10682 [1:03:17<34:50,  2.03it/s] 60%|██████    | 6450/10682 [1:03:18<34:51,  2.02it/s]                                                      {'loss': 3.6279, 'grad_norm': 0.21333785355091095, 'learning_rate': 0.0004066753292465861, 'epoch': 0.6}
+ 60%|██████    | 6450/10682 [1:03:18<34:51,  2.02it/s] 60%|██████    | 6451/10682 [1:03:18<34:53,  2.02it/s] 60%|██████    | 6452/10682 [1:03:19<34:50,  2.02it/s] 60%|██████    | 6453/10682 [1:03:19<34:49,  2.02it/s] 60%|██████    | 6454/10682 [1:03:20<34:45,  2.03it/s] 60%|██████    | 6455/10682 [1:03:20<34:44,  2.03it/s] 60%|██████    | 6456/10682 [1:03:21<34:44,  2.03it/s] 60%|██████    | 6457/10682 [1:03:21<34:41,  2.03it/s] 60%|██████    | 6458/10682 [1:03:22<34:45,  2.03it/s] 60%|██████    | 6459/10682 [1:03:22<34:41,  2.03it/s] 60%|██████    | 6460/10682 [1:03:23<34:42,  2.03it/s] 60%|██████    | 6461/10682 [1:03:23<34:43,  2.03it/s] 60%|██████    | 6462/10682 [1:03:24<34:43,  2.03it/s] 61%|██████    | 6463/10682 [1:03:24<34:44,  2.02it/s] 61%|██████    | 6464/10682 [1:03:25<34:44,  2.02it/s] 61%|██████    | 6465/10682 [1:03:25<34:44,  2.02it/s] 61%|██████    | 6466/10682 [1:03:26<34:41,  2.03it/s] 61%|██████    | 6467/10682 [1:03:26<34:41,  2.02it/s] 61%|██████    | 6468/10682 [1:03:27<34:38,  2.03it/s] 61%|██████    | 6469/10682 [1:03:27<34:38,  2.03it/s] 61%|██████    | 6470/10682 [1:03:28<34:40,  2.02it/s] 61%|██████    | 6471/10682 [1:03:28<34:37,  2.03it/s] 61%|██████    | 6472/10682 [1:03:29<34:38,  2.03it/s] 61%|██████    | 6473/10682 [1:03:29<34:35,  2.03it/s] 61%|██████    | 6474/10682 [1:03:30<34:36,  2.03it/s] 61%|██████    | 6475/10682 [1:03:30<34:35,  2.03it/s]                                                      {'loss': 3.6309, 'grad_norm': 0.21840351819992065, 'learning_rate': 0.00040266519392417936, 'epoch': 0.61}
+ 61%|██████    | 6475/10682 [1:03:30<34:35,  2.03it/s] 61%|██████    | 6476/10682 [1:03:31<34:37,  2.02it/s] 61%|██████    | 6477/10682 [1:03:31<34:37,  2.02it/s] 61%|██████    | 6478/10682 [1:03:32<34:34,  2.03it/s] 61%|██████    | 6479/10682 [1:03:32<34:32,  2.03it/s] 61%|██████    | 6480/10682 [1:03:33<34:37,  2.02it/s] 61%|██████    | 6481/10682 [1:03:33<34:32,  2.03it/s] 61%|██████    | 6482/10682 [1:03:34<34:33,  2.03it/s] 61%|██████    | 6483/10682 [1:03:34<34:32,  2.03it/s] 61%|██████    | 6484/10682 [1:03:35<34:33,  2.02it/s] 61%|██████    | 6485/10682 [1:03:35<34:33,  2.02it/s] 61%|██████    | 6486/10682 [1:03:36<34:32,  2.02it/s] 61%|██████    | 6487/10682 [1:03:36<34:34,  2.02it/s] 61%|██████    | 6488/10682 [1:03:37<34:36,  2.02it/s] 61%|██████    | 6489/10682 [1:03:37<34:34,  2.02it/s] 61%|██████    | 6490/10682 [1:03:37<34:31,  2.02it/s] 61%|██████    | 6491/10682 [1:03:38<34:28,  2.03it/s] 61%|██████    | 6492/10682 [1:03:38<34:28,  2.03it/s] 61%|██████    | 6493/10682 [1:03:39<34:27,  2.03it/s] 61%|██████    | 6494/10682 [1:03:39<34:26,  2.03it/s] 61%|██████    | 6495/10682 [1:03:40<34:26,  2.03it/s] 61%|██████    | 6496/10682 [1:03:40<34:24,  2.03it/s] 61%|██████    | 6497/10682 [1:03:41<34:25,  2.03it/s] 61%|██████    | 6498/10682 [1:03:41<34:26,  2.03it/s] 61%|██████    | 6499/10682 [1:03:42<34:26,  2.02it/s] 61%|██████    | 6500/10682 [1:03:42<34:25,  2.02it/s]{'loss': 3.6274, 'grad_norm': 0.23304417729377747, 'learning_rate': 0.00039866155582263653, 'epoch': 0.61}                                                      
+ 61%|██████    | 6500/10682 [1:03:42<34:25,  2.02it/s] 61%|██████    | 6501/10682 [1:03:43<34:29,  2.02it/s] 61%|██████    | 6502/10682 [1:03:43<34:27,  2.02it/s] 61%|██████    | 6503/10682 [1:03:44<34:25,  2.02it/s] 61%|██████    | 6504/10682 [1:03:44<34:24,  2.02it/s] 61%|██████    | 6505/10682 [1:03:45<34:24,  2.02it/s] 61%|██████    | 6506/10682 [1:03:45<34:22,  2.02it/s] 61%|██████    | 6507/10682 [1:03:46<34:21,  2.02it/s] 61%|██████    | 6508/10682 [1:03:46<34:22,  2.02it/s] 61%|██████    | 6509/10682 [1:03:47<34:20,  2.02it/s] 61%|██████    | 6510/10682 [1:03:47<34:20,  2.03it/s] 61%|██████    | 6511/10682 [1:03:48<34:16,  2.03it/s] 61%|██████    | 6512/10682 [1:03:48<34:17,  2.03it/s] 61%|██████    | 6513/10682 [1:03:49<34:15,  2.03it/s] 61%|██████    | 6514/10682 [1:03:49<34:15,  2.03it/s] 61%|██████    | 6515/10682 [1:03:50<34:16,  2.03it/s] 61%|██████    | 6516/10682 [1:03:50<34:17,  2.02it/s] 61%|██████    | 6517/10682 [1:03:51<34:17,  2.02it/s] 61%|██████    | 6518/10682 [1:03:51<34:15,  2.03it/s] 61%|██████    | 6519/10682 [1:03:52<34:16,  2.02it/s] 61%|██████    | 6520/10682 [1:03:52<34:13,  2.03it/s] 61%|██████    | 6521/10682 [1:03:53<34:13,  2.03it/s] 61%|██████    | 6522/10682 [1:03:53<34:10,  2.03it/s] 61%|██████    | 6523/10682 [1:03:54<34:11,  2.03it/s] 61%|██████    | 6524/10682 [1:03:54<34:09,  2.03it/s] 61%|██████    | 6525/10682 [1:03:55<34:07,  2.03it/s]                                                      {'loss': 3.6279, 'grad_norm': 0.20090648531913757, 'learning_rate': 0.0003946646821898418, 'epoch': 0.61}
+ 61%|██████    | 6525/10682 [1:03:55<34:07,  2.03it/s] 61%|██████    | 6526/10682 [1:03:55<34:10,  2.03it/s] 61%|██████    | 6527/10682 [1:03:56<34:09,  2.03it/s] 61%|██████    | 6528/10682 [1:03:56<34:10,  2.03it/s] 61%|██████    | 6529/10682 [1:03:57<34:07,  2.03it/s] 61%|██████    | 6530/10682 [1:03:57<34:14,  2.02it/s] 61%|██████    | 6531/10682 [1:03:58<34:10,  2.02it/s] 61%|██████    | 6532/10682 [1:03:58<34:10,  2.02it/s] 61%|██████    | 6533/10682 [1:03:59<34:07,  2.03it/s] 61%|██████    | 6534/10682 [1:03:59<34:13,  2.02it/s] 61%|██████    | 6535/10682 [1:04:00<34:09,  2.02it/s] 61%|██████    | 6536/10682 [1:04:00<34:09,  2.02it/s] 61%|██████    | 6537/10682 [1:04:01<34:06,  2.03it/s] 61%|██████    | 6538/10682 [1:04:01<34:08,  2.02it/s] 61%|██████    | 6539/10682 [1:04:02<34:05,  2.03it/s] 61%|██████    | 6540/10682 [1:04:02<34:04,  2.03it/s] 61%|██████    | 6541/10682 [1:04:03<34:03,  2.03it/s] 61%|██████    | 6542/10682 [1:04:03<34:01,  2.03it/s] 61%|██████▏   | 6543/10682 [1:04:04<34:03,  2.03it/s] 61%|██████▏   | 6544/10682 [1:04:04<34:02,  2.03it/s] 61%|██████▏   | 6545/10682 [1:04:05<34:02,  2.03it/s] 61%|██████▏   | 6546/10682 [1:04:05<34:03,  2.02it/s] 61%|██████▏   | 6547/10682 [1:04:06<34:07,  2.02it/s] 61%|██████▏   | 6548/10682 [1:04:06<34:04,  2.02it/s] 61%|██████▏   | 6549/10682 [1:04:07<34:02,  2.02it/s] 61%|██████▏   | 6550/10682 [1:04:07<34:01,  2.02it/s]{'loss': 3.6217, 'grad_norm': 0.20445531606674194, 'learning_rate': 0.0003906748398221429, 'epoch': 0.61}                                                      
+ 61%|██████▏   | 6550/10682 [1:04:07<34:01,  2.02it/s] 61%|██████▏   | 6551/10682 [1:04:08<34:01,  2.02it/s] 61%|██████▏   | 6552/10682 [1:04:08<34:00,  2.02it/s] 61%|██████▏   | 6553/10682 [1:04:09<33:58,  2.03it/s] 61%|██████▏   | 6554/10682 [1:04:09<33:57,  2.03it/s] 61%|██████▏   | 6555/10682 [1:04:10<33:56,  2.03it/s] 61%|██████▏   | 6556/10682 [1:04:10<33:55,  2.03it/s] 61%|██████▏   | 6557/10682 [1:04:11<33:56,  2.03it/s] 61%|██████▏   | 6558/10682 [1:04:11<33:56,  2.02it/s] 61%|██████▏   | 6559/10682 [1:04:12<33:55,  2.03it/s] 61%|██████▏   | 6560/10682 [1:04:12<33:56,  2.02it/s] 61%|██████▏   | 6561/10682 [1:04:13<33:58,  2.02it/s] 61%|██████▏   | 6562/10682 [1:04:13<33:56,  2.02it/s] 61%|██████▏   | 6563/10682 [1:04:14<33:57,  2.02it/s] 61%|██████▏   | 6564/10682 [1:04:14<33:56,  2.02it/s] 61%|██████▏   | 6565/10682 [1:04:15<33:54,  2.02it/s] 61%|██████▏   | 6566/10682 [1:04:15<33:53,  2.02it/s] 61%|██████▏   | 6567/10682 [1:04:16<33:49,  2.03it/s] 61%|██████▏   | 6568/10682 [1:04:16<33:47,  2.03it/s] 61%|██████▏   | 6569/10682 [1:04:17<33:47,  2.03it/s] 62%|██████▏   | 6570/10682 [1:04:17<33:47,  2.03it/s] 62%|██████▏   | 6571/10682 [1:04:17<33:49,  2.03it/s] 62%|██████▏   | 6572/10682 [1:04:18<33:46,  2.03it/s] 62%|██████▏   | 6573/10682 [1:04:18<33:48,  2.03it/s] 62%|██████▏   | 6574/10682 [1:04:19<33:48,  2.03it/s] 62%|██████▏   | 6575/10682 [1:04:19<33:48,  2.02it/s]{'loss': 3.6293, 'grad_norm': 0.21061381697654724, 'learning_rate': 0.00038669229504654146, 'epoch': 0.62}                                                      
+ 62%|██████▏   | 6575/10682 [1:04:19<33:48,  2.02it/s] 62%|██████▏   | 6576/10682 [1:04:20<33:52,  2.02it/s] 62%|██████▏   | 6577/10682 [1:04:20<33:51,  2.02it/s] 62%|██████▏   | 6578/10682 [1:04:21<33:50,  2.02it/s] 62%|██████▏   | 6579/10682 [1:04:21<33:48,  2.02it/s] 62%|██████▏   | 6580/10682 [1:04:22<33:48,  2.02it/s] 62%|██████▏   | 6581/10682 [1:04:22<33:46,  2.02it/s] 62%|██████▏   | 6582/10682 [1:04:23<33:45,  2.02it/s] 62%|██████▏   | 6583/10682 [1:04:23<33:45,  2.02it/s] 62%|██████▏   | 6584/10682 [1:04:24<33:45,  2.02it/s] 62%|██████▏   | 6585/10682 [1:04:24<33:43,  2.02it/s] 62%|██████▏   | 6586/10682 [1:04:25<33:42,  2.03it/s] 62%|██████▏   | 6587/10682 [1:04:25<33:38,  2.03it/s] 62%|██████▏   | 6588/10682 [1:04:26<33:42,  2.02it/s] 62%|██████▏   | 6589/10682 [1:04:26<33:41,  2.02it/s] 62%|██████▏   | 6590/10682 [1:04:27<33:39,  2.03it/s] 62%|██████▏   | 6591/10682 [1:04:27<33:40,  2.02it/s] 62%|██████▏   | 6592/10682 [1:04:28<33:39,  2.03it/s] 62%|██████▏   | 6593/10682 [1:04:28<33:41,  2.02it/s] 62%|██████▏   | 6594/10682 [1:04:29<33:39,  2.02it/s] 62%|██████▏   | 6595/10682 [1:04:29<33:40,  2.02it/s] 62%|██████▏   | 6596/10682 [1:04:30<33:37,  2.03it/s] 62%|██████▏   | 6597/10682 [1:04:30<33:36,  2.03it/s] 62%|██████▏   | 6598/10682 [1:04:31<33:37,  2.02it/s] 62%|██████▏   | 6599/10682 [1:04:31<33:32,  2.03it/s] 62%|█████��▏   | 6600/10682 [1:04:32<33:33,  2.03it/s]                                                      {'loss': 3.6258, 'grad_norm': 0.20445843040943146, 'learning_rate': 0.00038271731370291583, 'epoch': 0.62}
+ 62%|██████▏   | 6600/10682 [1:04:32<33:33,  2.03it/s] 62%|██████▏   | 6601/10682 [1:04:32<33:35,  2.03it/s] 62%|██████▏   | 6602/10682 [1:04:33<33:33,  2.03it/s] 62%|██████▏   | 6603/10682 [1:04:33<33:33,  2.03it/s] 62%|██████▏   | 6604/10682 [1:04:34<33:32,  2.03it/s] 62%|██████▏   | 6605/10682 [1:04:34<33:35,  2.02it/s] 62%|██████▏   | 6606/10682 [1:04:35<33:32,  2.03it/s] 62%|██████▏   | 6607/10682 [1:04:35<33:33,  2.02it/s] 62%|██████▏   | 6608/10682 [1:04:36<33:31,  2.03it/s] 62%|██████▏   | 6609/10682 [1:04:36<33:31,  2.02it/s] 62%|██████▏   | 6610/10682 [1:04:37<33:31,  2.02it/s] 62%|██████▏   | 6611/10682 [1:04:37<33:32,  2.02it/s] 62%|██████▏   | 6612/10682 [1:04:38<33:31,  2.02it/s] 62%|██████▏   | 6613/10682 [1:04:38<33:30,  2.02it/s] 62%|██████▏   | 6614/10682 [1:04:39<33:30,  2.02it/s] 62%|██████▏   | 6615/10682 [1:04:39<33:28,  2.03it/s] 62%|██████▏   | 6616/10682 [1:04:40<33:26,  2.03it/s] 62%|██████▏   | 6617/10682 [1:04:40<33:27,  2.02it/s] 62%|██████▏   | 6618/10682 [1:04:41<33:24,  2.03it/s] 62%|██████▏   | 6619/10682 [1:04:41<33:23,  2.03it/s] 62%|██████▏   | 6620/10682 [1:04:42<33:24,  2.03it/s] 62%|██████▏   | 6621/10682 [1:04:42<33:20,  2.03it/s] 62%|██████▏   | 6622/10682 [1:04:43<33:20,  2.03it/s] 62%|██████▏   | 6623/10682 [1:04:43<33:21,  2.03it/s] 62%|██████▏   | 6624/10682 [1:04:44<33:23,  2.03it/s] 62%|██████▏   | 6625/10682 [1:04:44<33:24,  2.02it/s]{'loss': 3.6219, 'grad_norm': 0.21613910794258118, 'learning_rate': 0.0003787501611262762, 'epoch': 0.62}                                                      
+ 62%|██████▏   | 6625/10682 [1:04:44<33:24,  2.02it/s] 62%|██████▏   | 6626/10682 [1:04:45<33:28,  2.02it/s] 62%|██████▏   | 6627/10682 [1:04:45<33:26,  2.02it/s] 62%|██████▏   | 6628/10682 [1:04:46<33:26,  2.02it/s] 62%|██████▏   | 6629/10682 [1:04:46<33:24,  2.02it/s] 62%|██████▏   | 6630/10682 [1:04:47<33:24,  2.02it/s] 62%|██████▏   | 6631/10682 [1:04:47<33:23,  2.02it/s] 62%|██████▏   | 6632/10682 [1:04:48<33:22,  2.02it/s] 62%|██████▏   | 6633/10682 [1:04:48<33:19,  2.03it/s] 62%|██████▏   | 6634/10682 [1:04:49<33:19,  2.02it/s] 62%|██████▏   | 6635/10682 [1:04:49<33:18,  2.03it/s] 62%|██████▏   | 6636/10682 [1:04:50<33:18,  2.02it/s] 62%|██████▏   | 6637/10682 [1:04:50<33:14,  2.03it/s] 62%|██████▏   | 6638/10682 [1:04:51<33:12,  2.03it/s] 62%|██████▏   | 6639/10682 [1:04:51<33:13,  2.03it/s] 62%|██████▏   | 6640/10682 [1:04:52<33:18,  2.02it/s] 62%|██████▏   | 6641/10682 [1:04:52<33:17,  2.02it/s] 62%|██████▏   | 6642/10682 [1:04:53<33:17,  2.02it/s] 62%|██████▏   | 6643/10682 [1:04:53<33:15,  2.02it/s] 62%|██████▏   | 6644/10682 [1:04:54<33:16,  2.02it/s] 62%|██████▏   | 6645/10682 [1:04:54<33:15,  2.02it/s] 62%|██████▏   | 6646/10682 [1:04:55<33:13,  2.02it/s] 62%|██████▏   | 6647/10682 [1:04:55<33:11,  2.03it/s] 62%|██████▏   | 6648/10682 [1:04:56<33:09,  2.03it/s] 62%|██████▏   | 6649/10682 [1:04:56<33:09,  2.03it/s] 62%|██████▏   | 6650/10682 [1:04:57<33:10,  2.03it/s]{'loss': 3.6243, 'grad_norm': 0.21680542826652527, 'learning_rate': 0.0003747911021290519, 'epoch': 0.62}
+                                                       62%|██████▏   | 6650/10682 [1:04:57<33:10,  2.03it/s] 62%|██████▏   | 6651/10682 [1:04:57<33:12,  2.02it/s] 62%|██████▏   | 6652/10682 [1:04:57<33:11,  2.02it/s] 62%|██████▏   | 6653/10682 [1:04:58<33:11,  2.02it/s] 62%|██████▏   | 6654/10682 [1:04:58<33:11,  2.02it/s] 62%|██████▏   | 6655/10682 [1:04:59<33:10,  2.02it/s] 62%|██████▏   | 6656/10682 [1:04:59<33:08,  2.02it/s] 62%|██████▏   | 6657/10682 [1:05:00<33:07,  2.02it/s] 62%|██████▏   | 6658/10682 [1:05:00<33:08,  2.02it/s] 62%|██████▏   | 6659/10682 [1:05:01<33:05,  2.03it/s] 62%|██████▏   | 6660/10682 [1:05:01<33:07,  2.02it/s] 62%|██████▏   | 6661/10682 [1:05:02<33:05,  2.02it/s] 62%|██████▏   | 6662/10682 [1:05:02<33:03,  2.03it/s] 62%|██████▏   | 6663/10682 [1:05:03<33:04,  2.03it/s] 62%|██████▏   | 6664/10682 [1:05:03<33:03,  2.03it/s] 62%|██████▏   | 6665/10682 [1:05:04<33:03,  2.02it/s] 62%|██████▏   | 6666/10682 [1:05:04<33:01,  2.03it/s] 62%|██████▏   | 6667/10682 [1:05:05<33:02,  2.03it/s] 62%|██████▏   | 6668/10682 [1:05:05<33:02,  2.03it/s] 62%|██████▏   | 6669/10682 [1:05:06<33:09,  2.02it/s] 62%|██████▏   | 6670/10682 [1:05:06<33:04,  2.02it/s] 62%|██████▏   | 6671/10682 [1:05:07<33:04,  2.02it/s] 62%|██████▏   | 6672/10682 [1:05:07<33:02,  2.02it/s] 62%|██████▏   | 6673/10682 [1:05:08<33:02,  2.02it/s] 62%|██████▏   | 6674/10682 [1:05:08<32:58,  2.03it/s] 62%|██████▏   | 6675/10682 [1:05:09<32:59,  2.02it/s]                                                      {'loss': 3.6257, 'grad_norm': 0.21112240850925446, 'learning_rate': 0.0003708404009834161, 'epoch': 0.62}
+ 62%|██████▏   | 6675/10682 [1:05:09<32:59,  2.02it/s] 62%|██████▏   | 6676/10682 [1:05:09<32:59,  2.02it/s] 63%|██████▎   | 6677/10682 [1:05:10<33:03,  2.02it/s] 63%|██████▎   | 6678/10682 [1:05:10<33:01,  2.02it/s] 63%|██████▎   | 6679/10682 [1:05:11<32:59,  2.02it/s] 63%|██████▎   | 6680/10682 [1:05:11<32:57,  2.02it/s] 63%|██████▎   | 6681/10682 [1:05:12<32:57,  2.02it/s] 63%|██████▎   | 6682/10682 [1:05:12<32:54,  2.03it/s] 63%|██████▎   | 6683/10682 [1:05:13<32:52,  2.03it/s] 63%|██████▎   | 6684/10682 [1:05:13<32:53,  2.03it/s] 63%|██████▎   | 6685/10682 [1:05:14<32:50,  2.03it/s] 63%|██████▎   | 6686/10682 [1:05:14<32:53,  2.02it/s] 63%|██████▎   | 6687/10682 [1:05:15<32:53,  2.02it/s] 63%|██████▎   | 6688/10682 [1:05:15<32:55,  2.02it/s] 63%|██████▎   | 6689/10682 [1:05:16<32:55,  2.02it/s] 63%|██████▎   | 6690/10682 [1:05:16<32:54,  2.02it/s] 63%|██████▎   | 6691/10682 [1:05:17<32:53,  2.02it/s] 63%|██████▎   | 6692/10682 [1:05:17<32:53,  2.02it/s] 63%|██████▎   | 6693/10682 [1:05:18<32:54,  2.02it/s] 63%|██████▎   | 6694/10682 [1:05:18<32:54,  2.02it/s] 63%|██████▎   | 6695/10682 [1:05:19<32:53,  2.02it/s] 63%|██████▎   | 6696/10682 [1:05:19<32:51,  2.02it/s] 63%|██████▎   | 6697/10682 [1:05:20<32:50,  2.02it/s] 63%|██████▎   | 6698/10682 [1:05:20<32:47,  2.02it/s] 63%|██████▎   | 6699/10682 [1:05:21<32:47,  2.02it/s] 63%|██████▎   | 6700/10682 [1:05:21<32:44,  2.03it/s]{'loss': 3.6214, 'grad_norm': 0.21304473280906677, 'learning_rate': 0.0003668983214036445, 'epoch': 0.63}                                                      
+ 63%|██████▎   | 6700/10682 [1:05:21<32:44,  2.03it/s] 63%|██████▎   | 6701/10682 [1:05:22<32:44,  2.03it/s] 63%|██████▎   | 6702/10682 [1:05:22<32:45,  2.03it/s] 63%|██████▎   | 6703/10682 [1:05:23<32:43,  2.03it/s] 63%|██████▎   | 6704/10682 [1:05:23<32:43,  2.03it/s] 63%|██████▎   | 6705/10682 [1:05:24<32:44,  2.02it/s] 63%|██████▎   | 6706/10682 [1:05:24<32:43,  2.03it/s] 63%|██████▎   | 6707/10682 [1:05:25<32:44,  2.02it/s] 63%|██████▎   | 6708/10682 [1:05:25<32:47,  2.02it/s] 63%|██████▎   | 6709/10682 [1:05:26<32:48,  2.02it/s] 63%|██████▎   | 6710/10682 [1:05:26<32:52,  2.01it/s] 63%|██████▎   | 6711/10682 [1:05:27<32:49,  2.02it/s] 63%|██████▎   | 6712/10682 [1:05:27<32:46,  2.02it/s] 63%|██████▎   | 6713/10682 [1:05:28<32:44,  2.02it/s] 63%|██████▎   | 6714/10682 [1:05:28<32:42,  2.02it/s] 63%|██████▎   | 6715/10682 [1:05:29<32:40,  2.02it/s] 63%|██████▎   | 6716/10682 [1:05:29<32:37,  2.03it/s] 63%|██████▎   | 6717/10682 [1:05:30<32:37,  2.03it/s] 63%|██████▎   | 6718/10682 [1:05:30<32:34,  2.03it/s] 63%|██████▎   | 6719/10682 [1:05:31<32:33,  2.03it/s] 63%|██████▎   | 6720/10682 [1:05:31<32:34,  2.03it/s] 63%|██████▎   | 6721/10682 [1:05:32<32:36,  2.02it/s] 63%|██████▎   | 6722/10682 [1:05:32<32:38,  2.02it/s] 63%|██████▎   | 6723/10682 [1:05:33<32:40,  2.02it/s] 63%|██████▎   | 6724/10682 [1:05:33<32:39,  2.02it/s] 63%|██████▎   | 6725/10682 [1:05:34<32:37,  2.02it/s]                                                      {'loss': 3.62, 'grad_norm': 0.22026865184307098, 'learning_rate': 0.00036296512652851323, 'epoch': 0.63}
+ 63%|██████▎   | 6725/10682 [1:05:34<32:37,  2.02it/s] 63%|██████▎   | 6726/10682 [1:05:34<32:39,  2.02it/s] 63%|██████▎   | 6727/10682 [1:05:35<32:35,  2.02it/s] 63%|██████▎   | 6728/10682 [1:05:35<32:35,  2.02it/s] 63%|██████▎   | 6729/10682 [1:05:36<32:36,  2.02it/s] 63%|██████▎   | 6730/10682 [1:05:36<32:35,  2.02it/s] 63%|██████▎   | 6731/10682 [1:05:37<32:33,  2.02it/s] 63%|██████▎   | 6732/10682 [1:05:37<32:31,  2.02it/s] 63%|██████▎   | 6733/10682 [1:05:38<32:28,  2.03it/s] 63%|██████▎   | 6734/10682 [1:05:38<32:28,  2.03it/s] 63%|██████▎   | 6735/10682 [1:05:39<32:26,  2.03it/s] 63%|██████▎   | 6736/10682 [1:05:39<32:24,  2.03it/s] 63%|██████▎   | 6737/10682 [1:05:40<32:27,  2.03it/s] 63%|██████▎   | 6738/10682 [1:05:40<32:28,  2.02it/s] 63%|██████▎   | 6739/10682 [1:05:40<32:30,  2.02it/s] 63%|██████▎   | 6740/10682 [1:05:41<32:28,  2.02it/s] 63%|██████▎   | 6741/10682 [1:05:41<32:28,  2.02it/s] 63%|██████▎   | 6742/10682 [1:05:42<32:27,  2.02it/s] 63%|██████▎   | 6743/10682 [1:05:42<32:30,  2.02it/s] 63%|██████▎   | 6744/10682 [1:05:43<32:27,  2.02it/s] 63%|██████▎   | 6745/10682 [1:05:43<32:25,  2.02it/s] 63%|██████▎   | 6746/10682 [1:05:44<32:23,  2.03it/s] 63%|██████▎   | 6747/10682 [1:05:44<32:20,  2.03it/s] 63%|██████▎   | 6748/10682 [1:05:45<32:21,  2.03it/s] 63%|██████▎   | 6749/10682 [1:05:45<32:19,  2.03it/s] 63%|██████▎   | 6750/10682 [1:05:46<32:17,  2.03it/s]                                                      {'loss': 3.6174, 'grad_norm': 0.21252231299877167, 'learning_rate': 0.00035904107890373196, 'epoch': 0.63}
+ 63%|██████▎   | 6750/10682 [1:05:46<32:17,  2.03it/s] 63%|██████▎   | 6751/10682 [1:05:46<32:21,  2.02it/s] 63%|██████▎   | 6752/10682 [1:05:47<32:21,  2.02it/s] 63%|██████▎   | 6753/10682 [1:05:47<32:21,  2.02it/s] 63%|██████▎   | 6754/10682 [1:05:48<32:21,  2.02it/s] 63%|██████▎   | 6755/10682 [1:05:48<32:20,  2.02it/s] 63%|██████▎   | 6756/10682 [1:05:49<32:21,  2.02it/s] 63%|██████▎   | 6757/10682 [1:05:49<32:19,  2.02it/s] 63%|██████▎   | 6758/10682 [1:05:50<32:18,  2.02it/s] 63%|██████▎   | 6759/10682 [1:05:50<32:17,  2.02it/s] 63%|██████▎   | 6760/10682 [1:05:51<32:17,  2.02it/s] 63%|██████▎   | 6761/10682 [1:05:51<32:18,  2.02it/s] 63%|██████▎   | 6762/10682 [1:05:52<32:16,  2.02it/s] 63%|██████▎   | 6763/10682 [1:05:52<32:21,  2.02it/s] 63%|██████▎   | 6764/10682 [1:05:53<32:18,  2.02it/s] 63%|██████▎   | 6765/10682 [1:05:53<32:19,  2.02it/s] 63%|██████▎   | 6766/10682 [1:05:54<32:17,  2.02it/s] 63%|██████▎   | 6767/10682 [1:05:54<32:15,  2.02it/s] 63%|██████▎   | 6768/10682 [1:05:55<32:13,  2.02it/s] 63%|██████▎   | 6769/10682 [1:05:55<32:12,  2.02it/s] 63%|██████▎   | 6770/10682 [1:05:56<32:14,  2.02it/s] 63%|██████▎   | 6771/10682 [1:05:56<32:14,  2.02it/s] 63%|██████▎   | 6772/10682 [1:05:57<32:12,  2.02it/s] 63%|██████▎   | 6773/10682 [1:05:57<32:12,  2.02it/s] 63%|██████▎   | 6774/10682 [1:05:58<32:11,  2.02it/s] 63%|██████▎   | 6775/10682 [1:05:58<32:09,  2.03it/s]{'loss': 3.6139, 'grad_norm': 0.23346999287605286, 'learning_rate': 0.00035512644046442116, 'epoch': 0.63}                                                      
+ 63%|██████▎   | 6775/10682 [1:05:58<32:09,  2.03it/s] 63%|██████▎   | 6776/10682 [1:05:59<32:10,  2.02it/s] 63%|██████▎   | 6777/10682 [1:05:59<32:08,  2.03it/s] 63%|██████▎   | 6778/10682 [1:06:00<32:09,  2.02it/s] 63%|██████▎   | 6779/10682 [1:06:00<32:06,  2.03it/s] 63%|██████▎   | 6780/10682 [1:06:01<32:07,  2.02it/s] 63%|██████▎   | 6781/10682 [1:06:01<32:05,  2.03it/s] 63%|██████▎   | 6782/10682 [1:06:02<37:24,  1.74it/s] 63%|██████▎   | 6783/10682 [1:06:03<35:44,  1.82it/s] 64%|██████▎   | 6784/10682 [1:06:03<34:38,  1.88it/s] 64%|██████▎   | 6785/10682 [1:06:03<33:49,  1.92it/s] 64%|██████▎   | 6786/10682 [1:06:04<33:17,  1.95it/s] 64%|██████▎   | 6787/10682 [1:06:04<32:53,  1.97it/s] 64%|██████▎   | 6788/10682 [1:06:05<32:35,  1.99it/s] 64%|██████▎   | 6789/10682 [1:06:05<32:27,  2.00it/s] 64%|██████▎   | 6790/10682 [1:06:06<32:18,  2.01it/s] 64%|██████▎   | 6791/10682 [1:06:06<32:15,  2.01it/s] 64%|██████▎   | 6792/10682 [1:06:07<32:09,  2.02it/s] 64%|██████▎   | 6793/10682 [1:06:07<32:07,  2.02it/s] 64%|██████▎   | 6794/10682 [1:06:08<32:04,  2.02it/s] 64%|██████▎   | 6795/10682 [1:06:08<32:08,  2.02it/s] 64%|██████▎   | 6796/10682 [1:06:09<32:09,  2.01it/s] 64%|██████▎   | 6797/10682 [1:06:09<32:05,  2.02it/s] 64%|██████▎   | 6798/10682 [1:06:10<32:05,  2.02it/s] 64%|██████▎   | 6799/10682 [1:06:10<32:03,  2.02it/s] 64%|██████▎   | 6800/10682 [1:06:11<32:01,  2.02it/s]{'loss': 3.6141, 'grad_norm': 0.20538482069969177, 'learning_rate': 0.00035122147251762554, 'epoch': 0.64}
+                                                       64%|██████▎   | 6800/10682 [1:06:11<32:01,  2.02it/s] 64%|██████▎   | 6801/10682 [1:06:11<32:01,  2.02it/s] 64%|██████▎   | 6802/10682 [1:06:12<31:57,  2.02it/s] 64%|██████▎   | 6803/10682 [1:06:12<31:57,  2.02it/s] 64%|██████▎   | 6804/10682 [1:06:13<31:54,  2.03it/s] 64%|██████▎   | 6805/10682 [1:06:13<31:54,  2.03it/s] 64%|██████▎   | 6806/10682 [1:06:14<31:51,  2.03it/s] 64%|██████▎   | 6807/10682 [1:06:14<31:50,  2.03it/s] 64%|██████▎   | 6808/10682 [1:06:15<31:51,  2.03it/s] 64%|██████▎   | 6809/10682 [1:06:15<31:53,  2.02it/s] 64%|██████▍   | 6810/10682 [1:06:16<31:54,  2.02it/s] 64%|██████▍   | 6811/10682 [1:06:16<31:52,  2.02it/s] 64%|██████▍   | 6812/10682 [1:06:17<36:59,  1.74it/s] 64%|██████▍   | 6813/10682 [1:06:18<35:26,  1.82it/s] 64%|██████▍   | 6814/10682 [1:06:18<34:20,  1.88it/s] 64%|██████▍   | 6815/10682 [1:06:19<33:35,  1.92it/s] 64%|██████▍   | 6816/10682 [1:06:19<33:00,  1.95it/s] 64%|██████▍   | 6817/10682 [1:06:20<32:40,  1.97it/s] 64%|██████▍   | 6818/10682 [1:06:20<32:22,  1.99it/s] 64%|██████▍   | 6819/10682 [1:06:21<32:08,  2.00it/s] 64%|██████▍   | 6820/10682 [1:06:21<32:02,  2.01it/s] 64%|██████▍   | 6821/10682 [1:06:22<31:54,  2.02it/s] 64%|██████▍   | 6822/10682 [1:06:22<31:52,  2.02it/s] 64%|██████▍   | 6823/10682 [1:06:23<31:50,  2.02it/s] 64%|██████▍   | 6824/10682 [1:06:23<31:50,  2.02it/s] 64%|██████▍   | 6825/10682 [1:06:24<31:46,  2.02it/s]{'loss': 3.6141, 'grad_norm': 0.232397198677063, 'learning_rate': 0.00034732643572487243, 'epoch': 0.64}                                                      
+ 64%|██████▍   | 6825/10682 [1:06:24<31:46,  2.02it/s] 64%|██████▍   | 6826/10682 [1:06:24<31:49,  2.02it/s] 64%|██████▍   | 6827/10682 [1:06:25<31:48,  2.02it/s] 64%|██████▍   | 6828/10682 [1:06:25<31:47,  2.02it/s] 64%|██████▍   | 6829/10682 [1:06:25<31:44,  2.02it/s] 64%|██████▍   | 6830/10682 [1:06:26<31:42,  2.03it/s] 64%|██████▍   | 6831/10682 [1:06:26<31:40,  2.03it/s] 64%|██████▍   | 6832/10682 [1:06:27<31:40,  2.03it/s] 64%|██████▍   | 6833/10682 [1:06:27<31:38,  2.03it/s] 64%|██████▍   | 6834/10682 [1:06:28<31:39,  2.03it/s] 64%|██████▍   | 6835/10682 [1:06:28<31:36,  2.03it/s] 64%|██████▍   | 6836/10682 [1:06:29<31:38,  2.03it/s] 64%|██████▍   | 6837/10682 [1:06:29<31:38,  2.03it/s] 64%|██████▍   | 6838/10682 [1:06:30<31:39,  2.02it/s] 64%|██████▍   | 6839/10682 [1:06:30<31:38,  2.02it/s] 64%|██████▍   | 6840/10682 [1:06:31<31:37,  2.02it/s] 64%|██████▍   | 6841/10682 [1:06:31<31:38,  2.02it/s] 64%|██████▍   | 6842/10682 [1:06:32<31:37,  2.02it/s] 64%|██████▍   | 6843/10682 [1:06:32<31:40,  2.02it/s] 64%|██████▍   | 6844/10682 [1:06:33<31:36,  2.02it/s] 64%|██████▍   | 6845/10682 [1:06:33<31:35,  2.02it/s] 64%|██████▍   | 6846/10682 [1:06:34<31:35,  2.02it/s] 64%|██████▍   | 6847/10682 [1:06:34<31:33,  2.03it/s] 64%|██████▍   | 6848/10682 [1:06:35<31:31,  2.03it/s] 64%|██████▍   | 6849/10682 [1:06:35<31:31,  2.03it/s] 64%|██████▍   | 6850/10682 [1:06:36<31:32,  2.02it/s]{'loss': 3.613, 'grad_norm': 0.2244432121515274, 'learning_rate': 0.000343441590084772, 'epoch': 0.64}
+                                                       64%|██████▍   | 6850/10682 [1:06:36<31:32,  2.02it/s] 64%|██████▍   | 6851/10682 [1:06:36<31:32,  2.02it/s] 64%|██████▍   | 6852/10682 [1:06:37<31:31,  2.03it/s] 64%|██████▍   | 6853/10682 [1:06:37<31:30,  2.03it/s] 64%|██████▍   | 6854/10682 [1:06:38<31:29,  2.03it/s] 64%|██████▍   | 6855/10682 [1:06:38<31:28,  2.03it/s] 64%|██████▍   | 6856/10682 [1:06:39<31:25,  2.03it/s] 64%|██████▍   | 6857/10682 [1:06:39<31:29,  2.02it/s] 64%|██████▍   | 6858/10682 [1:06:40<31:26,  2.03it/s] 64%|██████▍   | 6859/10682 [1:06:40<31:28,  2.02it/s] 64%|██████▍   | 6860/10682 [1:06:41<31:26,  2.03it/s] 64%|██████▍   | 6861/10682 [1:06:41<31:25,  2.03it/s] 64%|██████▍   | 6862/10682 [1:06:42<31:22,  2.03it/s] 64%|██████▍   | 6863/10682 [1:06:42<31:21,  2.03it/s] 64%|██████▍   | 6864/10682 [1:06:43<31:23,  2.03it/s] 64%|██████▍   | 6865/10682 [1:06:43<31:21,  2.03it/s] 64%|██████▍   | 6866/10682 [1:06:44<31:22,  2.03it/s] 64%|██████▍   | 6867/10682 [1:06:44<31:22,  2.03it/s] 64%|██████▍   | 6868/10682 [1:06:45<31:21,  2.03it/s] 64%|██████▍   | 6869/10682 [1:06:45<31:21,  2.03it/s] 64%|██████▍   | 6870/10682 [1:06:46<31:21,  2.03it/s] 64%|██████▍   | 6871/10682 [1:06:46<31:22,  2.02it/s] 64%|██████▍   | 6872/10682 [1:06:47<31:19,  2.03it/s] 64%|██████▍   | 6873/10682 [1:06:47<31:20,  2.03it/s] 64%|██████▍   | 6874/10682 [1:06:48<31:17,  2.03it/s] 64%|██████▍   | 6875/10682 [1:06:48<31:16,  2.03it/s]{'loss': 3.6144, 'grad_norm': 0.20402033627033234, 'learning_rate': 0.0003395671949156626, 'epoch': 0.64}
+                                                       64%|██████▍   | 6875/10682 [1:06:48<31:16,  2.03it/s] 64%|██████▍   | 6876/10682 [1:06:49<31:20,  2.02it/s] 64%|██████▍   | 6877/10682 [1:06:49<31:16,  2.03it/s] 64%|██████▍   | 6878/10682 [1:06:50<31:17,  2.03it/s] 64%|██████▍   | 6879/10682 [1:06:50<31:15,  2.03it/s] 64%|██████▍   | 6880/10682 [1:06:51<31:17,  2.02it/s] 64%|██████▍   | 6881/10682 [1:06:51<31:16,  2.03it/s] 64%|██████▍   | 6882/10682 [1:06:52<31:14,  2.03it/s] 64%|██████▍   | 6883/10682 [1:06:52<31:16,  2.02it/s] 64%|██████▍   | 6884/10682 [1:06:53<31:15,  2.03it/s] 64%|██████▍   | 6885/10682 [1:06:53<31:15,  2.02it/s] 64%|██████▍   | 6886/10682 [1:06:54<31:14,  2.03it/s] 64%|██████▍   | 6887/10682 [1:06:54<31:11,  2.03it/s] 64%|██████▍   | 6888/10682 [1:06:55<31:11,  2.03it/s] 64%|██████▍   | 6889/10682 [1:06:55<31:11,  2.03it/s] 65%|██████▍   | 6890/10682 [1:06:56<31:11,  2.03it/s] 65%|██████▍   | 6891/10682 [1:06:56<31:10,  2.03it/s] 65%|██████▍   | 6892/10682 [1:06:57<31:08,  2.03it/s] 65%|██████▍   | 6893/10682 [1:06:57<31:08,  2.03it/s] 65%|██████▍   | 6894/10682 [1:06:58<31:09,  2.03it/s] 65%|██████▍   | 6895/10682 [1:06:58<31:09,  2.03it/s] 65%|██████▍   | 6896/10682 [1:06:59<31:11,  2.02it/s] 65%|██████▍   | 6897/10682 [1:06:59<31:11,  2.02it/s] 65%|██████▍   | 6898/10682 [1:07:00<31:11,  2.02it/s] 65%|██████▍   | 6899/10682 [1:07:00<31:09,  2.02it/s] 65%|██████▍   | 6900/10682 [1:07:01<31:07,  2.03it/s]{'loss': 3.6042, 'grad_norm': 0.21591141819953918, 'learning_rate': 0.0003357035088382997, 'epoch': 0.65}                                                      
+ 65%|██████▍   | 6900/10682 [1:07:01<31:07,  2.03it/s] 65%|██████▍   | 6901/10682 [1:07:01<31:16,  2.02it/s] 65%|██████▍   | 6902/10682 [1:07:02<31:12,  2.02it/s] 65%|██████▍   | 6903/10682 [1:07:02<31:09,  2.02it/s] 65%|██████▍   | 6904/10682 [1:07:03<31:06,  2.02it/s] 65%|██████▍   | 6905/10682 [1:07:03<31:05,  2.02it/s] 65%|██████▍   | 6906/10682 [1:07:04<31:02,  2.03it/s] 65%|██████▍   | 6907/10682 [1:07:04<31:03,  2.03it/s] 65%|██████▍   | 6908/10682 [1:07:04<31:00,  2.03it/s] 65%|██████▍   | 6909/10682 [1:07:05<30:59,  2.03it/s] 65%|██████▍   | 6910/10682 [1:07:05<31:00,  2.03it/s] 65%|██████▍   | 6911/10682 [1:07:06<31:00,  2.03it/s] 65%|██████▍   | 6912/10682 [1:07:06<31:00,  2.03it/s] 65%|██████▍   | 6913/10682 [1:07:07<31:01,  2.02it/s] 65%|██████▍   | 6914/10682 [1:07:07<31:02,  2.02it/s] 65%|██████▍   | 6915/10682 [1:07:08<31:00,  2.02it/s] 65%|██████▍   | 6916/10682 [1:07:08<31:02,  2.02it/s] 65%|██████▍   | 6917/10682 [1:07:09<31:01,  2.02it/s] 65%|██████▍   | 6918/10682 [1:07:09<31:00,  2.02it/s] 65%|██████▍   | 6919/10682 [1:07:10<30:57,  2.03it/s] 65%|██████▍   | 6920/10682 [1:07:10<30:58,  2.02it/s] 65%|██████▍   | 6921/10682 [1:07:11<30:56,  2.03it/s] 65%|██████▍   | 6922/10682 [1:07:11<30:53,  2.03it/s] 65%|██████▍   | 6923/10682 [1:07:12<30:54,  2.03it/s] 65%|██████▍   | 6924/10682 [1:07:12<30:53,  2.03it/s] 65%|██████▍   | 6925/10682 [1:07:13<30:55,  2.02it/s]{'loss': 3.615, 'grad_norm': 0.20798562467098236, 'learning_rate': 0.0003318507897585944, 'epoch': 0.65}                                                      
+ 65%|██████▍   | 6925/10682 [1:07:13<30:55,  2.02it/s] 65%|██████▍   | 6926/10682 [1:07:13<30:56,  2.02it/s] 65%|██████▍   | 6927/10682 [1:07:14<30:56,  2.02it/s] 65%|██████▍   | 6928/10682 [1:07:14<30:54,  2.02it/s] 65%|██████▍   | 6929/10682 [1:07:15<30:54,  2.02it/s] 65%|██████▍   | 6930/10682 [1:07:15<30:56,  2.02it/s] 65%|██████▍   | 6931/10682 [1:07:16<30:54,  2.02it/s] 65%|██████▍   | 6932/10682 [1:07:16<30:50,  2.03it/s] 65%|██████▍   | 6933/10682 [1:07:17<30:50,  2.03it/s] 65%|██████▍   | 6934/10682 [1:07:17<30:48,  2.03it/s] 65%|██████▍   | 6935/10682 [1:07:18<30:46,  2.03it/s] 65%|██████▍   | 6936/10682 [1:07:18<30:46,  2.03it/s] 65%|██████▍   | 6937/10682 [1:07:19<30:47,  2.03it/s] 65%|██████▍   | 6938/10682 [1:07:19<30:49,  2.02it/s] 65%|██████▍   | 6939/10682 [1:07:20<30:49,  2.02it/s] 65%|██████▍   | 6940/10682 [1:07:20<30:50,  2.02it/s] 65%|██████▍   | 6941/10682 [1:07:21<30:50,  2.02it/s] 65%|██████▍   | 6942/10682 [1:07:21<30:48,  2.02it/s] 65%|██████▍   | 6943/10682 [1:07:22<30:48,  2.02it/s] 65%|██████▌   | 6944/10682 [1:07:22<30:46,  2.02it/s] 65%|██████▌   | 6945/10682 [1:07:23<30:47,  2.02it/s] 65%|██████▌   | 6946/10682 [1:07:23<30:46,  2.02it/s] 65%|██████▌   | 6947/10682 [1:07:24<30:46,  2.02it/s] 65%|██████▌   | 6948/10682 [1:07:24<30:45,  2.02it/s] 65%|██████▌   | 6949/10682 [1:07:25<30:42,  2.03it/s] 65%|██████▌   | 6950/10682 [1:07:25<30:44,  2.02it/s]{'loss': 3.6083, 'grad_norm': 0.21409976482391357, 'learning_rate': 0.0003280092948503962, 'epoch': 0.65}                                                      
+ 65%|██████▌   | 6950/10682 [1:07:25<30:44,  2.02it/s] 65%|██████▌   | 6951/10682 [1:07:26<30:50,  2.02it/s] 65%|██████▌   | 6952/10682 [1:07:26<30:45,  2.02it/s] 65%|██████▌   | 6953/10682 [1:07:27<30:46,  2.02it/s] 65%|██████▌   | 6954/10682 [1:07:27<30:44,  2.02it/s] 65%|██████▌   | 6955/10682 [1:07:28<30:45,  2.02it/s] 65%|██████▌   | 6956/10682 [1:07:28<30:43,  2.02it/s] 65%|██████▌   | 6957/10682 [1:07:29<30:44,  2.02it/s] 65%|██████▌   | 6958/10682 [1:07:29<30:42,  2.02it/s] 65%|██████▌   | 6959/10682 [1:07:30<30:41,  2.02it/s] 65%|██████▌   | 6960/10682 [1:07:30<30:42,  2.02it/s] 65%|██████▌   | 6961/10682 [1:07:31<30:39,  2.02it/s] 65%|██████▌   | 6962/10682 [1:07:31<30:41,  2.02it/s] 65%|██████▌   | 6963/10682 [1:07:32<30:39,  2.02it/s] 65%|██████▌   | 6964/10682 [1:07:32<30:37,  2.02it/s] 65%|██████▌   | 6965/10682 [1:07:33<30:35,  2.03it/s] 65%|██████▌   | 6966/10682 [1:07:33<30:40,  2.02it/s] 65%|██████▌   | 6967/10682 [1:07:34<30:37,  2.02it/s] 65%|██████▌   | 6968/10682 [1:07:34<30:39,  2.02it/s] 65%|██████▌   | 6969/10682 [1:07:35<30:35,  2.02it/s] 65%|██████▌   | 6970/10682 [1:07:35<30:37,  2.02it/s] 65%|██████▌   | 6971/10682 [1:07:36<30:35,  2.02it/s] 65%|██████▌   | 6972/10682 [1:07:36<30:34,  2.02it/s] 65%|██████▌   | 6973/10682 [1:07:37<30:34,  2.02it/s] 65%|██████▌   | 6974/10682 [1:07:37<30:31,  2.02it/s] 65%|██████▌   | 6975/10682 [1:07:38<30:31,  2.02it/s]{'loss': 3.6035, 'grad_norm': 0.2251884490251541, 'learning_rate': 0.00032417928053832723, 'epoch': 0.65}                                                      
+ 65%|██████▌   | 6975/10682 [1:07:38<30:31,  2.02it/s] 65%|██████▌   | 6976/10682 [1:07:38<30:31,  2.02it/s] 65%|██████▌   | 6977/10682 [1:07:39<30:33,  2.02it/s] 65%|██████▌   | 6978/10682 [1:07:39<30:28,  2.03it/s] 65%|██████▌   | 6979/10682 [1:07:40<30:31,  2.02it/s] 65%|██████▌   | 6980/10682 [1:07:40<30:27,  2.03it/s] 65%|██████▌   | 6981/10682 [1:07:41<30:29,  2.02it/s] 65%|██████▌   | 6982/10682 [1:07:41<30:28,  2.02it/s] 65%|██████▌   | 6983/10682 [1:07:42<30:28,  2.02it/s] 65%|██████▌   | 6984/10682 [1:07:42<30:29,  2.02it/s] 65%|██████▌   | 6985/10682 [1:07:43<30:27,  2.02it/s] 65%|██████▌   | 6986/10682 [1:07:43<30:26,  2.02it/s] 65%|██████▌   | 6987/10682 [1:07:44<30:24,  2.03it/s] 65%|██████▌   | 6988/10682 [1:07:44<30:25,  2.02it/s] 65%|██████▌   | 6989/10682 [1:07:45<30:23,  2.03it/s] 65%|██████▌   | 6990/10682 [1:07:45<30:22,  2.03it/s] 65%|██████▌   | 6991/10682 [1:07:46<30:22,  2.03it/s] 65%|██████▌   | 6992/10682 [1:07:46<30:18,  2.03it/s] 65%|██████▌   | 6993/10682 [1:07:46<30:21,  2.03it/s] 65%|██████▌   | 6994/10682 [1:07:47<30:19,  2.03it/s] 65%|██████▌   | 6995/10682 [1:07:47<30:20,  2.03it/s] 65%|██████▌   | 6996/10682 [1:07:48<30:19,  2.03it/s] 66%|██████▌   | 6997/10682 [1:07:48<30:20,  2.02it/s] 66%|██████▌   | 6998/10682 [1:07:49<30:21,  2.02it/s] 66%|██████▌   | 6999/10682 [1:07:49<30:22,  2.02it/s] 66%|██████▌   | 7000/10682 [1:07:50<30:21,  2.02it/s]{'loss': 3.614, 'grad_norm': 0.21320948004722595, 'learning_rate': 0.0003203610024806651, 'epoch': 0.66}
+                                                       66%|██████▌   | 7000/10682 [1:07:50<30:21,  2.02it/s] 66%|██████▌   | 7001/10682 [1:07:50<30:24,  2.02it/s] 66%|██████▌   | 7002/10682 [1:07:51<30:20,  2.02it/s] 66%|██████▌   | 7003/10682 [1:07:51<30:22,  2.02it/s] 66%|██████▌   | 7004/10682 [1:07:52<30:18,  2.02it/s] 66%|██████▌   | 7005/10682 [1:07:52<30:20,  2.02it/s] 66%|██████▌   | 7006/10682 [1:07:53<30:17,  2.02it/s] 66%|██████▌   | 7007/10682 [1:07:53<30:21,  2.02it/s] 66%|██████▌   | 7008/10682 [1:07:54<30:16,  2.02it/s] 66%|██████▌   | 7009/10682 [1:07:54<30:18,  2.02it/s] 66%|██████▌   | 7010/10682 [1:07:55<30:16,  2.02it/s] 66%|██████▌   | 7011/10682 [1:07:55<30:22,  2.01it/s] 66%|██████▌   | 7012/10682 [1:07:56<30:18,  2.02it/s] 66%|██████▌   | 7013/10682 [1:07:56<30:18,  2.02it/s] 66%|██████▌   | 7014/10682 [1:07:57<30:15,  2.02it/s] 66%|██████▌   | 7015/10682 [1:07:57<30:15,  2.02it/s] 66%|██████▌   | 7016/10682 [1:07:58<30:13,  2.02it/s] 66%|██████▌   | 7017/10682 [1:07:58<30:11,  2.02it/s] 66%|██████▌   | 7018/10682 [1:07:59<30:10,  2.02it/s] 66%|██████▌   | 7019/10682 [1:07:59<30:07,  2.03it/s] 66%|██████▌   | 7020/10682 [1:08:00<30:08,  2.02it/s] 66%|██████▌   | 7021/10682 [1:08:00<30:07,  2.03it/s] 66%|██████▌   | 7022/10682 [1:08:01<30:12,  2.02it/s] 66%|██████▌   | 7023/10682 [1:08:01<30:09,  2.02it/s] 66%|██████▌   | 7024/10682 [1:08:02<30:07,  2.02it/s] 66%|██████▌   | 7025/10682 [1:08:02<30:07,  2.02it/s]{'loss': 3.6077, 'grad_norm': 0.211024209856987, 'learning_rate': 0.0003165547155522783, 'epoch': 0.66}                                                      
+ 66%|██████▌   | 7025/10682 [1:08:02<30:07,  2.02it/s] 66%|██████▌   | 7026/10682 [1:08:03<30:09,  2.02it/s] 66%|██████▌   | 7027/10682 [1:08:03<30:09,  2.02it/s] 66%|██████▌   | 7028/10682 [1:08:04<30:06,  2.02it/s] 66%|██████▌   | 7029/10682 [1:08:04<30:05,  2.02it/s] 66%|██████▌   | 7030/10682 [1:08:05<30:06,  2.02it/s] 66%|██████▌   | 7031/10682 [1:08:05<30:06,  2.02it/s] 66%|██████▌   | 7032/10682 [1:08:06<30:07,  2.02it/s] 66%|██████▌   | 7033/10682 [1:08:06<30:06,  2.02it/s] 66%|██████▌   | 7034/10682 [1:08:07<30:07,  2.02it/s] 66%|██████▌   | 7035/10682 [1:08:07<30:06,  2.02it/s] 66%|██████▌   | 7036/10682 [1:08:08<30:08,  2.02it/s] 66%|██████▌   | 7037/10682 [1:08:08<30:06,  2.02it/s] 66%|██████▌   | 7038/10682 [1:08:09<30:04,  2.02it/s] 66%|██████▌   | 7039/10682 [1:08:09<30:01,  2.02it/s] 66%|██████▌   | 7040/10682 [1:08:10<30:03,  2.02it/s] 66%|██████▌   | 7041/10682 [1:08:10<29:59,  2.02it/s] 66%|██████▌   | 7042/10682 [1:08:11<29:58,  2.02it/s] 66%|██████▌   | 7043/10682 [1:08:11<29:57,  2.02it/s] 66%|██████▌   | 7044/10682 [1:08:12<29:58,  2.02it/s] 66%|██████▌   | 7045/10682 [1:08:12<29:59,  2.02it/s] 66%|██████▌   | 7046/10682 [1:08:13<29:58,  2.02it/s] 66%|██████▌   | 7047/10682 [1:08:13<29:59,  2.02it/s] 66%|██████▌   | 7048/10682 [1:08:14<29:59,  2.02it/s] 66%|██████▌   | 7049/10682 [1:08:14<29:59,  2.02it/s] 66%|██████▌   | 7050/10682 [1:08:15<29:59,  2.02it/s]{'loss': 3.6042, 'grad_norm': 0.20326925814151764, 'learning_rate': 0.0003127606738276115, 'epoch': 0.66}                                                      
+ 66%|██████▌   | 7050/10682 [1:08:15<29:59,  2.02it/s] 66%|██████▌   | 7051/10682 [1:08:15<29:57,  2.02it/s] 66%|██████▌   | 7052/10682 [1:08:16<29:59,  2.02it/s] 66%|██████▌   | 7053/10682 [1:08:16<29:57,  2.02it/s] 66%|██████▌   | 7054/10682 [1:08:17<30:04,  2.01it/s] 66%|██████▌   | 7055/10682 [1:08:17<29:59,  2.02it/s] 66%|██████▌   | 7056/10682 [1:08:18<29:55,  2.02it/s] 66%|██████▌   | 7057/10682 [1:08:18<29:51,  2.02it/s] 66%|██████▌   | 7058/10682 [1:08:19<29:50,  2.02it/s] 66%|██████▌   | 7059/10682 [1:08:19<29:48,  2.03it/s] 66%|██████▌   | 7060/10682 [1:08:20<29:50,  2.02it/s] 66%|██████▌   | 7061/10682 [1:08:20<29:48,  2.02it/s] 66%|██████▌   | 7062/10682 [1:08:21<29:49,  2.02it/s] 66%|██████▌   | 7063/10682 [1:08:21<29:49,  2.02it/s] 66%|██████▌   | 7064/10682 [1:08:22<29:51,  2.02it/s] 66%|██████▌   | 7065/10682 [1:08:22<29:51,  2.02it/s] 66%|██████▌   | 7066/10682 [1:08:23<29:49,  2.02it/s] 66%|██████▌   | 7067/10682 [1:08:23<29:46,  2.02it/s] 66%|██████▌   | 7068/10682 [1:08:24<29:46,  2.02it/s] 66%|██████▌   | 7069/10682 [1:08:24<29:44,  2.02it/s] 66%|██████▌   | 7070/10682 [1:08:25<29:46,  2.02it/s] 66%|██████▌   | 7071/10682 [1:08:25<29:42,  2.03it/s] 66%|██████▌   | 7072/10682 [1:08:26<29:41,  2.03it/s] 66%|██████▌   | 7073/10682 [1:08:26<29:40,  2.03it/s] 66%|██████▌   | 7074/10682 [1:08:27<29:39,  2.03it/s] 66%|██████▌   | 7075/10682 [1:08:27<29:41,  2.03it/s]{'loss': 3.6081, 'grad_norm': 0.21712812781333923, 'learning_rate': 0.00030897913056372755, 'epoch': 0.66}                                                      
+ 66%|██████▌   | 7075/10682 [1:08:27<29:41,  2.03it/s] 66%|██████▌   | 7076/10682 [1:08:28<29:43,  2.02it/s] 66%|██████▋   | 7077/10682 [1:08:28<29:42,  2.02it/s] 66%|██████▋   | 7078/10682 [1:08:29<29:40,  2.02it/s] 66%|██████▋   | 7079/10682 [1:08:29<29:40,  2.02it/s] 66%|██████▋   | 7080/10682 [1:08:30<29:38,  2.02it/s] 66%|██████▋   | 7081/10682 [1:08:30<29:40,  2.02it/s] 66%|██████▋   | 7082/10682 [1:08:31<29:36,  2.03it/s] 66%|██████▋   | 7083/10682 [1:08:31<29:36,  2.03it/s] 66%|██████▋   | 7084/10682 [1:08:32<29:35,  2.03it/s] 66%|██████▋   | 7085/10682 [1:08:32<29:33,  2.03it/s] 66%|██████▋   | 7086/10682 [1:08:32<29:33,  2.03it/s] 66%|██████▋   | 7087/10682 [1:08:33<29:31,  2.03it/s] 66%|██████▋   | 7088/10682 [1:08:33<29:33,  2.03it/s] 66%|██████▋   | 7089/10682 [1:08:34<29:32,  2.03it/s] 66%|██████▋   | 7090/10682 [1:08:34<29:35,  2.02it/s] 66%|██████▋   | 7091/10682 [1:08:35<29:33,  2.02it/s] 66%|██████▋   | 7092/10682 [1:08:35<29:35,  2.02it/s] 66%|██████▋   | 7093/10682 [1:08:36<29:35,  2.02it/s] 66%|██████▋   | 7094/10682 [1:08:36<29:38,  2.02it/s] 66%|██████▋   | 7095/10682 [1:08:37<29:36,  2.02it/s] 66%|██████▋   | 7096/10682 [1:08:37<29:35,  2.02it/s] 66%|██████▋   | 7097/10682 [1:08:38<29:32,  2.02it/s] 66%|██████▋   | 7098/10682 [1:08:38<29:31,  2.02it/s] 66%|██████▋   | 7099/10682 [1:08:39<29:30,  2.02it/s] 66%|██████▋   | 7100/10682 [1:08:39<29:29,  2.02it/s]{'loss': 3.606, 'grad_norm': 0.2323276400566101, 'learning_rate': 0.00030521033818340054, 'epoch': 0.66}                                                      
+ 66%|██████▋   | 7100/10682 [1:08:39<29:29,  2.02it/s] 66%|██████▋   | 7101/10682 [1:08:40<29:32,  2.02it/s] 66%|██████▋   | 7102/10682 [1:08:40<29:32,  2.02it/s] 66%|██████▋   | 7103/10682 [1:08:41<29:33,  2.02it/s] 67%|██████▋   | 7104/10682 [1:08:41<29:30,  2.02it/s] 67%|██████▋   | 7105/10682 [1:08:42<29:30,  2.02it/s] 67%|██████▋   | 7106/10682 [1:08:42<29:30,  2.02it/s] 67%|██████▋   | 7107/10682 [1:08:43<29:29,  2.02it/s] 67%|██████▋   | 7108/10682 [1:08:43<29:28,  2.02it/s] 67%|██████▋   | 7109/10682 [1:08:44<29:27,  2.02it/s] 67%|██████▋   | 7110/10682 [1:08:44<29:31,  2.02it/s] 67%|██████▋   | 7111/10682 [1:08:45<29:28,  2.02it/s] 67%|██████▋   | 7112/10682 [1:08:45<29:25,  2.02it/s] 67%|██████▋   | 7113/10682 [1:08:46<29:23,  2.02it/s] 67%|██████▋   | 7114/10682 [1:08:46<29:22,  2.02it/s] 67%|██████▋   | 7115/10682 [1:08:47<29:21,  2.03it/s] 67%|██████▋   | 7116/10682 [1:08:47<29:23,  2.02it/s] 67%|██████▋   | 7117/10682 [1:08:48<29:20,  2.03it/s] 67%|██████▋   | 7118/10682 [1:08:48<29:21,  2.02it/s] 67%|██████▋   | 7119/10682 [1:08:49<29:22,  2.02it/s] 67%|██████▋   | 7120/10682 [1:08:49<29:22,  2.02it/s] 67%|██████▋   | 7121/10682 [1:08:50<29:19,  2.02it/s] 67%|██████▋   | 7122/10682 [1:08:50<29:18,  2.02it/s] 67%|██████▋   | 7123/10682 [1:08:51<29:16,  2.03it/s] 67%|██████▋   | 7124/10682 [1:08:51<29:15,  2.03it/s] 67%|██████▋   | 7125/10682 [1:08:52<29:15,  2.03it/s]{'loss': 3.6076, 'grad_norm': 0.20196880400180817, 'learning_rate': 0.0003014545482582672, 'epoch': 0.67}                                                      
+ 67%|██████▋   | 7125/10682 [1:08:52<29:15,  2.03it/s] 67%|██████▋   | 7126/10682 [1:08:52<29:18,  2.02it/s] 67%|██████▋   | 7127/10682 [1:08:53<29:16,  2.02it/s] 67%|██████▋   | 7128/10682 [1:08:53<29:14,  2.03it/s] 67%|██████▋   | 7129/10682 [1:08:54<29:16,  2.02it/s] 67%|██████▋   | 7130/10682 [1:08:54<29:15,  2.02it/s] 67%|██████▋   | 7131/10682 [1:08:55<29:16,  2.02it/s] 67%|██████▋   | 7132/10682 [1:08:55<29:17,  2.02it/s] 67%|██████▋   | 7133/10682 [1:08:56<29:15,  2.02it/s] 67%|██████▋   | 7134/10682 [1:08:56<29:16,  2.02it/s] 67%|██████▋   | 7135/10682 [1:08:57<29:15,  2.02it/s] 67%|██████▋   | 7136/10682 [1:08:57<29:13,  2.02it/s] 67%|██████▋   | 7137/10682 [1:08:58<29:12,  2.02it/s] 67%|██████▋   | 7138/10682 [1:08:58<29:10,  2.02it/s] 67%|██████▋   | 7139/10682 [1:08:59<29:11,  2.02it/s] 67%|██████▋   | 7140/10682 [1:08:59<29:10,  2.02it/s] 67%|██████▋   | 7141/10682 [1:09:00<29:13,  2.02it/s] 67%|██████▋   | 7142/10682 [1:09:00<29:11,  2.02it/s] 67%|██████▋   | 7143/10682 [1:09:01<29:09,  2.02it/s] 67%|██████▋   | 7144/10682 [1:09:01<29:07,  2.02it/s] 67%|██████▋   | 7145/10682 [1:09:02<29:04,  2.03it/s] 67%|██████▋   | 7146/10682 [1:09:02<29:04,  2.03it/s] 67%|██████▋   | 7147/10682 [1:09:03<29:03,  2.03it/s] 67%|██████▋   | 7148/10682 [1:09:03<29:04,  2.03it/s] 67%|██████▋   | 7149/10682 [1:09:04<29:05,  2.02it/s] 67%|██████▋   | 7150/10682 [1:09:04<29:05,  2.02it/s]                                                      {'loss': 3.6015, 'grad_norm': 0.20563794672489166, 'learning_rate': 0.0002977120114920343, 'epoch': 0.67}
+ 67%|██████▋   | 7150/10682 [1:09:04<29:05,  2.02it/s] 67%|██████▋   | 7151/10682 [1:09:05<29:07,  2.02it/s] 67%|██████▋   | 7152/10682 [1:09:05<29:06,  2.02it/s] 67%|██████▋   | 7153/10682 [1:09:06<29:04,  2.02it/s] 67%|██████▋   | 7154/10682 [1:09:06<29:03,  2.02it/s] 67%|██████▋   | 7155/10682 [1:09:07<29:02,  2.02it/s] 67%|██████▋   | 7156/10682 [1:09:07<29:01,  2.03it/s] 67%|██████▋   | 7157/10682 [1:09:08<29:01,  2.02it/s] 67%|██████▋   | 7158/10682 [1:09:08<28:58,  2.03it/s] 67%|██████▋   | 7159/10682 [1:09:09<28:58,  2.03it/s] 67%|██████▋   | 7160/10682 [1:09:09<28:57,  2.03it/s] 67%|██████▋   | 7161/10682 [1:09:10<28:54,  2.03it/s] 67%|██████▋   | 7162/10682 [1:09:10<28:54,  2.03it/s] 67%|██████▋   | 7163/10682 [1:09:11<28:56,  2.03it/s] 67%|██████▋   | 7164/10682 [1:09:11<28:55,  2.03it/s] 67%|██████▋   | 7165/10682 [1:09:12<28:58,  2.02it/s] 67%|██████▋   | 7166/10682 [1:09:12<28:57,  2.02it/s] 67%|██████▋   | 7167/10682 [1:09:13<28:56,  2.02it/s] 67%|██████▋   | 7168/10682 [1:09:13<28:55,  2.02it/s] 67%|██████▋   | 7169/10682 [1:09:14<28:55,  2.02it/s] 67%|██████▋   | 7170/10682 [1:09:14<28:55,  2.02it/s] 67%|██████▋   | 7171/10682 [1:09:15<28:54,  2.02it/s] 67%|██████▋   | 7172/10682 [1:09:15<28:55,  2.02it/s] 67%|██████▋   | 7173/10682 [1:09:15<28:54,  2.02it/s] 67%|██████▋   | 7174/10682 [1:09:16<28:52,  2.02it/s] 67%|██████▋   | 7175/10682 [1:09:16<28:52,  2.02it/s]                                                      {'loss': 3.5914, 'grad_norm': 0.20954489707946777, 'learning_rate': 0.00029398297770374336, 'epoch': 0.67}
+ 67%|██████▋   | 7175/10682 [1:09:16<28:52,  2.02it/s] 67%|██████▋   | 7176/10682 [1:09:17<28:52,  2.02it/s] 67%|██████▋   | 7177/10682 [1:09:17<28:52,  2.02it/s] 67%|██████▋   | 7178/10682 [1:09:18<28:49,  2.03it/s] 67%|██████▋   | 7179/10682 [1:09:18<28:50,  2.02it/s] 67%|██████▋   | 7180/10682 [1:09:19<28:47,  2.03it/s] 67%|██████▋   | 7181/10682 [1:09:19<28:46,  2.03it/s] 67%|██████▋   | 7182/10682 [1:09:20<28:46,  2.03it/s] 67%|██████▋   | 7183/10682 [1:09:20<28:45,  2.03it/s] 67%|██████▋   | 7184/10682 [1:09:21<28:46,  2.03it/s] 67%|██████▋   | 7185/10682 [1:09:21<28:44,  2.03it/s] 67%|██████▋   | 7186/10682 [1:09:22<28:45,  2.03it/s] 67%|██████▋   | 7187/10682 [1:09:22<28:45,  2.03it/s] 67%|██████▋   | 7188/10682 [1:09:23<28:46,  2.02it/s] 67%|██████▋   | 7189/10682 [1:09:23<28:45,  2.02it/s] 67%|██████▋   | 7190/10682 [1:09:24<28:45,  2.02it/s] 67%|██████▋   | 7191/10682 [1:09:24<28:47,  2.02it/s] 67%|██████▋   | 7192/10682 [1:09:25<28:45,  2.02it/s] 67%|██████▋   | 7193/10682 [1:09:25<28:44,  2.02it/s] 67%|██████▋   | 7194/10682 [1:09:26<28:43,  2.02it/s] 67%|██████▋   | 7195/10682 [1:09:26<28:42,  2.02it/s] 67%|██████▋   | 7196/10682 [1:09:27<28:41,  2.03it/s] 67%|██████▋   | 7197/10682 [1:09:27<28:38,  2.03it/s] 67%|██████▋   | 7198/10682 [1:09:28<28:38,  2.03it/s] 67%|██████▋   | 7199/10682 [1:09:28<28:40,  2.02it/s] 67%|██████▋   | 7200/10682 [1:09:29<28:41,  2.02it/s]{'loss': 3.6053, 'grad_norm': 0.20137502253055573, 'learning_rate': 0.0002902676958110948, 'epoch': 0.67}                                                      
+ 67%|██████▋   | 7200/10682 [1:09:29<28:41,  2.02it/s] 67%|██████▋   | 7201/10682 [1:09:29<28:43,  2.02it/s] 67%|██████▋   | 7202/10682 [1:09:30<28:41,  2.02it/s] 67%|██████▋   | 7203/10682 [1:09:30<28:41,  2.02it/s] 67%|██████▋   | 7204/10682 [1:09:31<28:40,  2.02it/s] 67%|██████▋   | 7205/10682 [1:09:31<28:37,  2.02it/s] 67%|██████▋   | 7206/10682 [1:09:32<28:37,  2.02it/s] 67%|██████▋   | 7207/10682 [1:09:32<28:34,  2.03it/s] 67%|██████▋   | 7208/10682 [1:09:33<28:34,  2.03it/s] 67%|██████▋   | 7209/10682 [1:09:33<28:32,  2.03it/s] 67%|██████▋   | 7210/10682 [1:09:34<28:30,  2.03it/s] 68%|██████▊   | 7211/10682 [1:09:34<28:31,  2.03it/s] 68%|██████▊   | 7212/10682 [1:09:35<28:29,  2.03it/s] 68%|██████▊   | 7213/10682 [1:09:35<28:31,  2.03it/s] 68%|██████▊   | 7214/10682 [1:09:36<28:32,  2.02it/s] 68%|██████▊   | 7215/10682 [1:09:36<28:33,  2.02it/s] 68%|██████▊   | 7216/10682 [1:09:37<28:32,  2.02it/s] 68%|██████▊   | 7217/10682 [1:09:37<28:31,  2.02it/s] 68%|██████▊   | 7218/10682 [1:09:38<28:29,  2.03it/s] 68%|██████▊   | 7219/10682 [1:09:38<28:32,  2.02it/s] 68%|██████▊   | 7220/10682 [1:09:39<28:30,  2.02it/s] 68%|██████▊   | 7221/10682 [1:09:39<28:29,  2.02it/s] 68%|██████▊   | 7222/10682 [1:09:40<28:28,  2.02it/s] 68%|██████▊   | 7223/10682 [1:09:40<28:25,  2.03it/s] 68%|██████▊   | 7224/10682 [1:09:41<28:27,  2.03it/s] 68%|██████▊   | 7225/10682 [1:09:41<28:24,  2.03it/s]{'loss': 3.5884, 'grad_norm': 0.2048375904560089, 'learning_rate': 0.0002865664138138335, 'epoch': 0.68}
+                                                       68%|██████▊   | 7225/10682 [1:09:41<28:24,  2.03it/s] 68%|██████▊   | 7226/10682 [1:09:42<28:28,  2.02it/s] 68%|██████▊   | 7227/10682 [1:09:42<28:25,  2.03it/s] 68%|██████▊   | 7228/10682 [1:09:43<28:26,  2.02it/s] 68%|██████▊   | 7229/10682 [1:09:43<28:25,  2.02it/s] 68%|██████▊   | 7230/10682 [1:09:44<28:26,  2.02it/s] 68%|██████▊   | 7231/10682 [1:09:44<28:26,  2.02it/s] 68%|██████▊   | 7232/10682 [1:09:45<28:25,  2.02it/s] 68%|██████▊   | 7233/10682 [1:09:45<28:24,  2.02it/s] 68%|██████▊   | 7234/10682 [1:09:46<28:23,  2.02it/s] 68%|██████▊   | 7235/10682 [1:09:46<28:23,  2.02it/s] 68%|██████▊   | 7236/10682 [1:09:47<28:20,  2.03it/s] 68%|██████▊   | 7237/10682 [1:09:47<28:18,  2.03it/s] 68%|██████▊   | 7238/10682 [1:09:48<28:18,  2.03it/s] 68%|██████▊   | 7239/10682 [1:09:48<28:17,  2.03it/s] 68%|██████▊   | 7240/10682 [1:09:49<28:18,  2.03it/s] 68%|██████▊   | 7241/10682 [1:09:49<28:16,  2.03it/s] 68%|██████▊   | 7242/10682 [1:09:50<28:19,  2.02it/s] 68%|██████▊   | 7243/10682 [1:09:50<28:17,  2.03it/s] 68%|██████▊   | 7244/10682 [1:09:51<28:18,  2.02it/s] 68%|██████▊   | 7245/10682 [1:09:51<28:16,  2.03it/s] 68%|██████▊   | 7246/10682 [1:09:52<28:15,  2.03it/s] 68%|██████▊   | 7247/10682 [1:09:52<28:16,  2.03it/s] 68%|██████▊   | 7248/10682 [1:09:53<28:14,  2.03it/s] 68%|██████▊   | 7249/10682 [1:09:53<28:13,  2.03it/s] 68%|██████▊   | 7250/10682 [1:09:54<28:12,  2.03it/s]{'loss': 3.6065, 'grad_norm': 0.2020212560892105, 'learning_rate': 0.0002828793787771929, 'epoch': 0.68}                                                      
+ 68%|██████▊   | 7250/10682 [1:09:54<28:12,  2.03it/s] 68%|██████▊   | 7251/10682 [1:09:54<28:14,  2.02it/s] 68%|██████▊   | 7252/10682 [1:09:55<28:11,  2.03it/s] 68%|██████▊   | 7253/10682 [1:09:55<28:12,  2.03it/s] 68%|██████▊   | 7254/10682 [1:09:55<28:13,  2.02it/s] 68%|██████▊   | 7255/10682 [1:09:56<28:12,  2.02it/s] 68%|██████▊   | 7256/10682 [1:09:56<28:12,  2.02it/s] 68%|██████▊   | 7257/10682 [1:09:57<28:11,  2.03it/s] 68%|██████▊   | 7258/10682 [1:09:57<28:11,  2.02it/s] 68%|██████▊   | 7259/10682 [1:09:58<28:11,  2.02it/s] 68%|██████▊   | 7260/10682 [1:09:58<28:13,  2.02it/s] 68%|██████▊   | 7261/10682 [1:09:59<28:11,  2.02it/s] 68%|██████▊   | 7262/10682 [1:09:59<28:11,  2.02it/s] 68%|██████▊   | 7263/10682 [1:10:00<28:11,  2.02it/s] 68%|██████▊   | 7264/10682 [1:10:00<28:09,  2.02it/s] 68%|██████▊   | 7265/10682 [1:10:01<28:09,  2.02it/s] 68%|██████▊   | 7266/10682 [1:10:01<28:06,  2.03it/s] 68%|██████▊   | 7267/10682 [1:10:02<28:06,  2.03it/s] 68%|██████▊   | 7268/10682 [1:10:02<28:03,  2.03it/s] 68%|██████▊   | 7269/10682 [1:10:03<28:03,  2.03it/s] 68%|██████▊   | 7270/10682 [1:10:03<28:02,  2.03it/s] 68%|██████▊   | 7271/10682 [1:10:04<28:01,  2.03it/s] 68%|██████▊   | 7272/10682 [1:10:04<28:02,  2.03it/s] 68%|██████▊   | 7273/10682 [1:10:05<28:04,  2.02it/s] 68%|██████▊   | 7274/10682 [1:10:05<28:05,  2.02it/s] 68%|██████▊   | 7275/10682 [1:10:06<28:03,  2.02it/s]                                                      {'loss': 3.5899, 'grad_norm': 0.20955775678157806, 'learning_rate': 0.0002792068368154043, 'epoch': 0.68}
+ 68%|██████▊   | 7275/10682 [1:10:06<28:03,  2.02it/s] 68%|██████▊   | 7276/10682 [1:10:06<28:06,  2.02it/s] 68%|██████▊   | 7277/10682 [1:10:07<28:02,  2.02it/s] 68%|██████▊   | 7278/10682 [1:10:07<28:03,  2.02it/s] 68%|██████▊   | 7279/10682 [1:10:08<28:01,  2.02it/s] 68%|██████▊   | 7280/10682 [1:10:08<28:01,  2.02it/s] 68%|██████▊   | 7281/10682 [1:10:09<28:03,  2.02it/s] 68%|██████▊   | 7282/10682 [1:10:09<28:04,  2.02it/s] 68%|██████▊   | 7283/10682 [1:10:10<28:00,  2.02it/s] 68%|██████▊   | 7284/10682 [1:10:10<27:59,  2.02it/s] 68%|██████▊   | 7285/10682 [1:10:11<27:56,  2.03it/s] 68%|██████▊   | 7286/10682 [1:10:11<27:53,  2.03it/s] 68%|██████▊   | 7287/10682 [1:10:12<27:53,  2.03it/s] 68%|██████▊   | 7288/10682 [1:10:12<27:52,  2.03it/s] 68%|██████▊   | 7289/10682 [1:10:13<27:53,  2.03it/s] 68%|██████▊   | 7290/10682 [1:10:13<27:54,  2.03it/s] 68%|██████▊   | 7291/10682 [1:10:14<27:53,  2.03it/s] 68%|██████▊   | 7292/10682 [1:10:14<27:53,  2.03it/s] 68%|██████▊   | 7293/10682 [1:10:15<27:53,  2.03it/s] 68%|██████▊   | 7294/10682 [1:10:15<27:53,  2.02it/s] 68%|██████▊   | 7295/10682 [1:10:16<27:55,  2.02it/s] 68%|██████▊   | 7296/10682 [1:10:16<27:55,  2.02it/s] 68%|██████▊   | 7297/10682 [1:10:17<27:53,  2.02it/s] 68%|██████▊   | 7298/10682 [1:10:17<27:50,  2.03it/s] 68%|██████▊   | 7299/10682 [1:10:18<27:49,  2.03it/s] 68%|██████▊   | 7300/10682 [1:10:18<27:50,  2.02it/s]{'loss': 3.603, 'grad_norm': 0.20815975964069366, 'learning_rate': 0.0002755490330752679, 'epoch': 0.68}                                                      
+ 68%|██████▊   | 7300/10682 [1:10:18<27:50,  2.02it/s] 68%|██████▊   | 7301/10682 [1:10:19<27:50,  2.02it/s] 68%|██████▊   | 7302/10682 [1:10:19<27:49,  2.02it/s] 68%|██████▊   | 7303/10682 [1:10:20<27:49,  2.02it/s] 68%|██████▊   | 7304/10682 [1:10:20<27:46,  2.03it/s] 68%|██████▊   | 7305/10682 [1:10:21<27:47,  2.03it/s] 68%|██████▊   | 7306/10682 [1:10:21<27:47,  2.02it/s] 68%|██████▊   | 7307/10682 [1:10:22<27:48,  2.02it/s] 68%|██████▊   | 7308/10682 [1:10:22<27:46,  2.03it/s] 68%|██████▊   | 7309/10682 [1:10:23<27:45,  2.03it/s] 68%|██████▊   | 7310/10682 [1:10:23<27:48,  2.02it/s] 68%|██████▊   | 7311/10682 [1:10:24<27:56,  2.01it/s] 68%|██████▊   | 7312/10682 [1:10:24<27:49,  2.02it/s] 68%|██████▊   | 7313/10682 [1:10:25<27:50,  2.02it/s] 68%|██████▊   | 7314/10682 [1:10:25<27:46,  2.02it/s] 68%|██████▊   | 7315/10682 [1:10:26<27:43,  2.02it/s] 68%|██████▊   | 7316/10682 [1:10:26<27:43,  2.02it/s] 68%|██████▊   | 7317/10682 [1:10:27<27:39,  2.03it/s] 69%|██████▊   | 7318/10682 [1:10:27<27:41,  2.03it/s] 69%|█��████▊   | 7319/10682 [1:10:28<27:39,  2.03it/s] 69%|██████▊   | 7320/10682 [1:10:28<27:39,  2.03it/s] 69%|██████▊   | 7321/10682 [1:10:29<27:39,  2.02it/s] 69%|██████▊   | 7322/10682 [1:10:29<27:43,  2.02it/s] 69%|██████▊   | 7323/10682 [1:10:30<27:40,  2.02it/s] 69%|██████▊   | 7324/10682 [1:10:30<27:39,  2.02it/s] 69%|██████▊   | 7325/10682 [1:10:31<27:43,  2.02it/s]                                                      {'loss': 3.5878, 'grad_norm': 0.20695380866527557, 'learning_rate': 0.0002719062117197888, 'epoch': 0.69}
+ 69%|██████▊   | 7325/10682 [1:10:31<27:43,  2.02it/s] 69%|██████▊   | 7326/10682 [1:10:31<27:45,  2.02it/s] 69%|██████▊   | 7327/10682 [1:10:32<27:41,  2.02it/s] 69%|██████▊   | 7328/10682 [1:10:32<27:40,  2.02it/s] 69%|██████▊   | 7329/10682 [1:10:33<27:40,  2.02it/s] 69%|██████▊   | 7330/10682 [1:10:33<27:37,  2.02it/s] 69%|██████▊   | 7331/10682 [1:10:34<27:36,  2.02it/s] 69%|██████▊   | 7332/10682 [1:10:34<27:34,  2.02it/s] 69%|██████▊   | 7333/10682 [1:10:35<27:32,  2.03it/s] 69%|██████▊   | 7334/10682 [1:10:35<27:32,  2.03it/s] 69%|██████▊   | 7335/10682 [1:10:36<27:32,  2.03it/s] 69%|██████▊   | 7336/10682 [1:10:36<27:31,  2.03it/s] 69%|██████▊   | 7337/10682 [1:10:37<27:32,  2.02it/s] 69%|██████▊   | 7338/10682 [1:10:37<27:31,  2.02it/s] 69%|██████▊   | 7339/10682 [1:10:37<27:34,  2.02it/s] 69%|██████▊   | 7340/10682 [1:10:38<27:32,  2.02it/s] 69%|██████▊   | 7341/10682 [1:10:38<27:31,  2.02it/s] 69%|██████▊   | 7342/10682 [1:10:39<27:30,  2.02it/s] 69%|██████▊   | 7343/10682 [1:10:39<27:32,  2.02it/s] 69%|██████▉   | 7344/10682 [1:10:40<27:30,  2.02it/s] 69%|██████▉   | 7345/10682 [1:10:40<27:28,  2.02it/s] 69%|██████▉   | 7346/10682 [1:10:41<27:27,  2.02it/s] 69%|██████▉   | 7347/10682 [1:10:41<27:26,  2.03it/s] 69%|██████▉   | 7348/10682 [1:10:42<27:26,  2.02it/s] 69%|██████▉   | 7349/10682 [1:10:42<27:27,  2.02it/s] 69%|██████▉   | 7350/10682 [1:10:43<27:25,  2.02it/s]{'loss': 3.6016, 'grad_norm': 0.20802149176597595, 'learning_rate': 0.00026827861591187944, 'epoch': 0.69}                                                      
+ 69%|██████▉   | 7350/10682 [1:10:43<27:25,  2.02it/s] 69%|██████▉   | 7351/10682 [1:10:43<27:27,  2.02it/s] 69%|██████▉   | 7352/10682 [1:10:44<27:27,  2.02it/s] 69%|██████▉   | 7353/10682 [1:10:44<27:25,  2.02it/s] 69%|██████▉   | 7354/10682 [1:10:45<27:26,  2.02it/s] 69%|██████▉   | 7355/10682 [1:10:45<27:24,  2.02it/s] 69%|██████▉   | 7356/10682 [1:10:46<27:25,  2.02it/s] 69%|██████▉   | 7357/10682 [1:10:46<27:21,  2.03it/s] 69%|██████▉   | 7358/10682 [1:10:47<27:20,  2.03it/s] 69%|██████▉   | 7359/10682 [1:10:47<27:20,  2.03it/s] 69%|██████▉   | 7360/10682 [1:10:48<27:20,  2.02it/s] 69%|██████▉   | 7361/10682 [1:10:48<27:20,  2.02it/s] 69%|██████▉   | 7362/10682 [1:10:49<27:17,  2.03it/s] 69%|██████▉   | 7363/10682 [1:10:49<27:17,  2.03it/s] 69%|██████▉   | 7364/10682 [1:10:50<27:16,  2.03it/s] 69%|██████▉   | 7365/10682 [1:10:50<27:15,  2.03it/s] 69%|██████▉   | 7366/10682 [1:10:51<27:14,  2.03it/s] 69%|██████▉   | 7367/10682 [1:10:51<27:11,  2.03it/s] 69%|██████▉   | 7368/10682 [1:10:52<27:12,  2.03it/s] 69%|██████▉   | 7369/10682 [1:10:52<27:12,  2.03it/s] 69%|██████▉   | 7370/10682 [1:10:53<27:13,  2.03it/s] 69%|██████▉   | 7371/10682 [1:10:53<27:15,  2.02it/s] 69%|██████▉   | 7372/10682 [1:10:54<27:13,  2.03it/s] 69%|██████▉   | 7373/10682 [1:10:54<27:14,  2.02it/s] 69%|██████▉   | 7374/10682 [1:10:55<27:13,  2.02it/s] 69%|██████▉   | 7375/10682 [1:10:55<27:15,  2.02it/s]{'loss': 3.5985, 'grad_norm': 0.2218542844057083, 'learning_rate': 0.00026466648779812794, 'epoch': 0.69}                                                      
+ 69%|██████▉   | 7375/10682 [1:10:55<27:15,  2.02it/s] 69%|██████▉   | 7376/10682 [1:10:56<27:16,  2.02it/s] 69%|██████▉   | 7377/10682 [1:10:56<27:14,  2.02it/s] 69%|██████▉   | 7378/10682 [1:10:57<27:12,  2.02it/s] 69%|██████▉   | 7379/10682 [1:10:57<27:11,  2.02it/s] 69%|██████▉   | 7380/10682 [1:10:58<27:11,  2.02it/s] 69%|██████▉   | 7381/10682 [1:10:58<27:09,  2.03it/s] 69%|██████▉   | 7382/10682 [1:10:59<27:08,  2.03it/s] 69%|██████▉   | 7383/10682 [1:10:59<27:09,  2.02it/s] 69%|██████▉   | 7384/10682 [1:11:00<27:09,  2.02it/s] 69%|██████▉   | 7385/10682 [1:11:00<27:08,  2.02it/s] 69%|██████▉   | 7386/10682 [1:11:01<27:08,  2.02it/s] 69%|██████▉   | 7387/10682 [1:11:01<27:09,  2.02it/s] 69%|██████▉   | 7388/10682 [1:11:02<27:07,  2.02it/s] 69%|██████▉   | 7389/10682 [1:11:02<27:08,  2.02it/s] 69%|██████▉   | 7390/10682 [1:11:03<27:06,  2.02it/s] 69%|██████▉   | 7391/10682 [1:11:03<27:05,  2.02it/s] 69%|██████▉   | 7392/10682 [1:11:04<27:03,  2.03it/s] 69%|██████▉   | 7393/10682 [1:11:04<27:02,  2.03it/s] 69%|██████▉   | 7394/10682 [1:11:05<27:01,  2.03it/s] 69%|██████▉   | 7395/10682 [1:11:05<27:00,  2.03it/s] 69%|██████▉   | 7396/10682 [1:11:06<26:58,  2.03it/s] 69%|██████▉   | 7397/10682 [1:11:06<26:58,  2.03it/s] 69%|██████▉   | 7398/10682 [1:11:07<26:57,  2.03it/s] 69%|██████▉   | 7399/10682 [1:11:07<27:00,  2.03it/s] 69%|██████▉   | 7400/10682 [1:11:08<26:58,  2.03it/s]{'loss': 3.591, 'grad_norm': 0.20714382827281952, 'learning_rate': 0.0002610700684926339, 'epoch': 0.69}
+                                                       69%|██████▉   | 7400/10682 [1:11:08<26:58,  2.03it/s] 69%|██████▉   | 7401/10682 [1:11:08<27:00,  2.02it/s] 69%|██████▉   | 7402/10682 [1:11:09<26:58,  2.03it/s] 69%|██████▉   | 7403/10682 [1:11:09<27:02,  2.02it/s] 69%|██████▉   | 7404/10682 [1:11:10<27:01,  2.02it/s] 69%|██████▉   | 7405/10682 [1:11:10<26:59,  2.02it/s] 69%|██████▉   | 7406/10682 [1:11:11<26:57,  2.03it/s] 69%|██████▉   | 7407/10682 [1:11:11<26:55,  2.03it/s] 69%|██████▉   | 7408/10682 [1:11:12<26:55,  2.03it/s] 69%|██████▉   | 7409/10682 [1:11:12<26:53,  2.03it/s] 69%|██████▉   | 7410/10682 [1:11:13<26:53,  2.03it/s] 69%|██████▉   | 7411/10682 [1:11:13<26:52,  2.03it/s] 69%|██████▉   | 7412/10682 [1:11:14<26:51,  2.03it/s] 69%|██████▉   | 7413/10682 [1:11:14<26:54,  2.02it/s] 69%|██████▉   | 7414/10682 [1:11:15<26:55,  2.02it/s] 69%|██████▉   | 7415/10682 [1:11:15<26:54,  2.02it/s] 69%|██████▉   | 7416/10682 [1:11:16<26:55,  2.02it/s] 69%|██████▉   | 7417/10682 [1:11:16<26:54,  2.02it/s] 69%|██████▉   | 7418/10682 [1:11:17<26:53,  2.02it/s] 69%|██████▉   | 7419/10682 [1:11:17<26:53,  2.02it/s] 69%|██████▉   | 7420/10682 [1:11:17<26:50,  2.03it/s] 69%|██████▉   | 7421/10682 [1:11:18<26:50,  2.03it/s] 69%|██████▉   | 7422/10682 [1:11:18<26:48,  2.03it/s] 69%|██████▉   | 7423/10682 [1:11:19<26:50,  2.02it/s] 70%|██████▉   | 7424/10682 [1:11:19<26:47,  2.03it/s] 70%|██████▉   | 7425/10682 [1:11:20<26:48,  2.02it/s]{'loss': 3.5925, 'grad_norm': 0.21471565961837769, 'learning_rate': 0.00025748959806091423, 'epoch': 0.7}                                                      
+ 70%|██████▉   | 7425/10682 [1:11:20<26:48,  2.02it/s] 70%|██████▉   | 7426/10682 [1:11:20<26:50,  2.02it/s] 70%|██████▉   | 7427/10682 [1:11:21<26:47,  2.02it/s] 70%|██████▉   | 7428/10682 [1:11:21<26:49,  2.02it/s] 70%|██████▉   | 7429/10682 [1:11:22<26:46,  2.03it/s] 70%|██████▉   | 7430/10682 [1:11:22<26:45,  2.03it/s] 70%|██████▉   | 7431/10682 [1:11:23<26:45,  2.02it/s] 70%|██████▉   | 7432/10682 [1:11:23<26:42,  2.03it/s] 70%|██████▉   | 7433/10682 [1:11:24<26:45,  2.02it/s] 70%|██████▉   | 7434/10682 [1:11:24<26:43,  2.03it/s] 70%|██████▉   | 7435/10682 [1:11:25<26:42,  2.03it/s] 70%|██████▉   | 7436/10682 [1:11:25<26:42,  2.03it/s] 70%|██████▉   | 7437/10682 [1:11:26<26:39,  2.03it/s] 70%|██████▉   | 7438/10682 [1:11:26<26:39,  2.03it/s] 70%|██████▉   | 7439/10682 [1:11:27<26:40,  2.03it/s] 70%|██████▉   | 7440/10682 [1:11:27<26:41,  2.02it/s] 70%|██████▉   | 7441/10682 [1:11:28<26:40,  2.03it/s] 70%|██████▉   | 7442/10682 [1:11:28<26:40,  2.02it/s] 70%|██████▉   | 7443/10682 [1:11:29<26:39,  2.03it/s] 70%|██████▉   | 7444/10682 [1:11:29<26:39,  2.02it/s] 70%|██████▉   | 7445/10682 [1:11:30<26:37,  2.03it/s] 70%|██████▉   | 7446/10682 [1:11:30<26:35,  2.03it/s] 70%|██████▉   | 7447/10682 [1:11:31<26:34,  2.03it/s] 70%|██████▉   | 7448/10682 [1:11:31<26:32,  2.03it/s] 70%|██████▉   | 7449/10682 [1:11:32<26:33,  2.03it/s] 70%|██████▉   | 7450/10682 [1:11:32<26:31,  2.03it/s]{'loss': 3.5944, 'grad_norm': 0.22063614428043365, 'learning_rate': 0.00025392531550387867, 'epoch': 0.7}                                                      
+ 70%|██████▉   | 7450/10682 [1:11:32<26:31,  2.03it/s] 70%|██████▉   | 7451/10682 [1:11:33<26:35,  2.02it/s] 70%|██████▉   | 7452/10682 [1:11:33<26:34,  2.03it/s] 70%|██████▉   | 7453/10682 [1:11:34<26:33,  2.03it/s] 70%|██████▉   | 7454/10682 [1:11:34<26:34,  2.02it/s] 70%|██████▉   | 7455/10682 [1:11:35<26:33,  2.02it/s] 70%|██████▉   | 7456/10682 [1:11:35<26:34,  2.02it/s] 70%|██████▉   | 7457/10682 [1:11:36<26:32,  2.02it/s] 70%|██████▉   | 7458/10682 [1:11:36<26:34,  2.02it/s] 70%|██████▉   | 7459/10682 [1:11:37<26:30,  2.03it/s] 70%|██████▉   | 7460/10682 [1:11:37<26:30,  2.03it/s] 70%|██████▉   | 7461/10682 [1:11:38<26:30,  2.03it/s] 70%|██████▉   | 7462/10682 [1:11:38<26:29,  2.03it/s] 70%|██████▉   | 7463/10682 [1:11:39<26:28,  2.03it/s] 70%|██████▉   | 7464/10682 [1:11:39<26:29,  2.02it/s] 70%|██████▉   | 7465/10682 [1:11:40<26:29,  2.02it/s] 70%|██████▉   | 7466/10682 [1:11:40<26:26,  2.03it/s] 70%|██████▉   | 7467/10682 [1:11:41<26:27,  2.02it/s] 70%|██████▉   | 7468/10682 [1:11:41<26:25,  2.03it/s] 70%|██████▉   | 7469/10682 [1:11:42<26:25,  2.03it/s] 70%|██████▉   | 7470/10682 [1:11:42<26:22,  2.03it/s] 70%|██████▉   | 7471/10682 [1:11:43<26:22,  2.03it/s] 70%|██████▉   | 7472/10682 [1:11:43<26:22,  2.03it/s] 70%|██████▉   | 7473/10682 [1:11:44<26:21,  2.03it/s] 70%|██████▉   | 7474/10682 [1:11:44<26:22,  2.03it/s] 70%|██████▉   | 7475/10682 [1:11:45<26:21,  2.03it/s]{'loss': 3.5825, 'grad_norm': 0.2000824362039566, 'learning_rate': 0.0002503774587418758, 'epoch': 0.7}                                                      
+ 70%|██████▉   | 7475/10682 [1:11:45<26:21,  2.03it/s] 70%|██████▉   | 7476/10682 [1:11:45<26:26,  2.02it/s] 70%|██████▉   | 7477/10682 [1:11:46<26:27,  2.02it/s] 70%|███████   | 7478/10682 [1:11:46<26:24,  2.02it/s] 70%|███████   | 7479/10682 [1:11:47<26:24,  2.02it/s] 70%|███████   | 7480/10682 [1:11:47<26:24,  2.02it/s] 70%|███████   | 7481/10682 [1:11:48<26:23,  2.02it/s] 70%|███████   | 7482/10682 [1:11:48<26:22,  2.02it/s] 70%|███████   | 7483/10682 [1:11:49<26:22,  2.02it/s] 70%|███████   | 7484/10682 [1:11:49<26:22,  2.02it/s] 70%|███████   | 7485/10682 [1:11:50<26:19,  2.02it/s] 70%|███████   | 7486/10682 [1:11:50<26:19,  2.02it/s] 70%|███████   | 7487/10682 [1:11:51<26:17,  2.03it/s] 70%|███████   | 7488/10682 [1:11:51<26:16,  2.03it/s] 70%|███████   | 7489/10682 [1:11:52<26:16,  2.03it/s] 70%|███████   | 7490/10682 [1:11:52<26:14,  2.03it/s] 70%|███████   | 7491/10682 [1:11:53<26:17,  2.02it/s] 70%|███████   | 7492/10682 [1:11:53<26:14,  2.03it/s] 70%|███████   | 7493/10682 [1:11:54<26:15,  2.02it/s] 70%|███████   | 7494/10682 [1:11:54<26:15,  2.02it/s] 70%|███████   | 7495/10682 [1:11:55<26:16,  2.02it/s] 70%|███████   | 7496/10682 [1:11:55<26:14,  2.02it/s] 70%|███████   | 7497/10682 [1:11:56<26:14,  2.02it/s] 70%|███████   | 7498/10682 [1:11:56<26:14,  2.02it/s] 70%|███████   | 7499/10682 [1:11:57<26:13,  2.02it/s] 70%|███████   | 7500/10682 [1:11:57<26:13,  2.02it/s]{'loss': 3.5836, 'grad_norm': 0.2120663970708847, 'learning_rate': 0.00024684626459881156, 'epoch': 0.7}
+                                                       70%|███████   | 7500/10682 [1:11:57<26:13,  2.02it/s] 70%|███████   | 7501/10682 [1:11:57<26:17,  2.02it/s] 70%|███████   | 7502/10682 [1:11:58<30:25,  1.74it/s] 70%|███████   | 7503/10682 [1:11:59<29:09,  1.82it/s] 70%|███████   | 7504/10682 [1:11:59<28:13,  1.88it/s] 70%|███████   | 7505/10682 [1:12:00<27:34,  1.92it/s] 70%|███████   | 7506/10682 [1:12:00<27:06,  1.95it/s] 70%|███████   | 7507/10682 [1:12:01<26:47,  1.98it/s] 70%|███████   | 7508/10682 [1:12:01<26:32,  1.99it/s] 70%|███████   | 7509/10682 [1:12:02<26:24,  2.00it/s] 70%|███████   | 7510/10682 [1:12:02<26:16,  2.01it/s] 70%|███████   | 7511/10682 [1:12:03<26:18,  2.01it/s] 70%|███████   | 7512/10682 [1:12:03<26:12,  2.02it/s] 70%|███████   | 7513/10682 [1:12:04<26:11,  2.02it/s] 70%|███████   | 7514/10682 [1:12:04<26:07,  2.02it/s] 70%|███████   | 7515/10682 [1:12:05<26:08,  2.02it/s] 70%|███████   | 7516/10682 [1:12:05<26:05,  2.02it/s] 70%|███████   | 7517/10682 [1:12:06<26:06,  2.02it/s] 70%|███████   | 7518/10682 [1:12:06<26:04,  2.02it/s] 70%|███████   | 7519/10682 [1:12:07<26:00,  2.03it/s] 70%|███████   | 7520/10682 [1:12:07<25:59,  2.03it/s] 70%|███████   | 7521/10682 [1:12:08<25:59,  2.03it/s] 70%|███████   | 7522/10682 [1:12:08<25:59,  2.03it/s] 70%|███████   | 7523/10682 [1:12:09<25:59,  2.03it/s] 70%|███████   | 7524/10682 [1:12:09<26:00,  2.02it/s] 70%|███████   | 7525/10682 [1:12:10<25:59,  2.02it/s]                                                      {'loss': 3.5853, 'grad_norm': 0.2128744274377823, 'learning_rate': 0.00024333196878634163, 'epoch': 0.7}
+ 70%|███████   | 7525/10682 [1:12:10<25:59,  2.02it/s] 70%|███████   | 7526/10682 [1:12:10<26:02,  2.02it/s] 70%|███████   | 7527/10682 [1:12:11<26:02,  2.02it/s] 70%|███████   | 7528/10682 [1:12:11<25:59,  2.02it/s] 70%|███████   | 7529/10682 [1:12:12<25:58,  2.02it/s] 70%|███████   | 7530/10682 [1:12:12<25:56,  2.02it/s] 71%|███████   | 7531/10682 [1:12:13<25:57,  2.02it/s] 71%|███████   | 7532/10682 [1:12:13<25:55,  2.02it/s] 71%|███████   | 7533/10682 [1:12:14<30:07,  1.74it/s] 71%|███████   | 7534/10682 [1:12:14<28:51,  1.82it/s] 71%|███████   | 7535/10682 [1:12:15<27:57,  1.88it/s] 71%|███████   | 7536/10682 [1:12:15<27:21,  1.92it/s] 71%|███████   | 7537/10682 [1:12:16<26:53,  1.95it/s] 71%|███████   | 7538/10682 [1:12:16<26:35,  1.97it/s] 71%|███████   | 7539/10682 [1:12:17<26:21,  1.99it/s] 71%|███████   | 7540/10682 [1:12:17<26:13,  2.00it/s] 71%|███████   | 7541/10682 [1:12:18<26:05,  2.01it/s] 71%|███████   | 7542/10682 [1:12:18<26:00,  2.01it/s] 71%|███████   | 7543/10682 [1:12:19<25:56,  2.02it/s] 71%|███████   | 7544/10682 [1:12:19<25:51,  2.02it/s] 71%|███████   | 7545/10682 [1:12:20<25:50,  2.02it/s] 71%|███████   | 7546/10682 [1:12:20<25:47,  2.03it/s] 71%|███████   | 7547/10682 [1:12:21<25:46,  2.03it/s] 71%|███████   | 7548/10682 [1:12:21<25:46,  2.03it/s] 71%|███████   | 7549/10682 [1:12:22<25:45,  2.03it/s] 71%|███████   | 7550/10682 [1:12:22<25:47,  2.02it/s]{'loss': 3.5816, 'grad_norm': 0.21348872780799866, 'learning_rate': 0.00023983480588813622, 'epoch': 0.71}                                                      
+ 71%|███████   | 7550/10682 [1:12:22<25:47,  2.02it/s] 71%|███████   | 7551/10682 [1:12:23<25:47,  2.02it/s] 71%|███████   | 7552/10682 [1:12:23<25:47,  2.02it/s] 71%|███████   | 7553/10682 [1:12:24<25:46,  2.02it/s] 71%|███████   | 7554/10682 [1:12:24<25:47,  2.02it/s] 71%|███████   | 7555/10682 [1:12:25<25:45,  2.02it/s] 71%|███████   | 7556/10682 [1:12:25<25:44,  2.02it/s] 71%|███████   | 7557/10682 [1:12:26<25:42,  2.03it/s] 71%|███████   | 7558/10682 [1:12:26<25:41,  2.03it/s] 71%|███████   | 7559/10682 [1:12:27<25:40,  2.03it/s] 71%|███████   | 7560/10682 [1:12:27<25:38,  2.03it/s] 71%|███████   | 7561/10682 [1:12:28<25:38,  2.03it/s] 71%|███████   | 7562/10682 [1:12:28<25:38,  2.03it/s] 71%|███████   | 7563/10682 [1:12:29<25:37,  2.03it/s] 71%|███████   | 7564/10682 [1:12:29<25:40,  2.02it/s] 71%|███████   | 7565/10682 [1:12:30<25:37,  2.03it/s] 71%|███████   | 7566/10682 [1:12:30<25:37,  2.03it/s] 71%|███████   | 7567/10682 [1:12:31<25:39,  2.02it/s] 71%|███████   | 7568/10682 [1:12:31<25:36,  2.03it/s] 71%|███████   | 7569/10682 [1:12:32<25:38,  2.02it/s] 71%|███████   | 7570/10682 [1:12:32<25:36,  2.03it/s] 71%|███████   | 7571/10682 [1:12:33<25:37,  2.02it/s] 71%|███████   | 7572/10682 [1:12:33<25:35,  2.03it/s] 71%|███████   | 7573/10682 [1:12:34<25:34,  2.03it/s] 71%|███████   | 7574/10682 [1:12:34<25:35,  2.02it/s] 71%|███████   | 7575/10682 [1:12:35<25:33,  2.03it/s]                                                      {'loss': 3.5886, 'grad_norm': 0.20270884037017822, 'learning_rate': 0.00023635500934422239, 'epoch': 0.71}
+ 71%|███████   | 7575/10682 [1:12:35<25:33,  2.03it/s] 71%|███████   | 7576/10682 [1:12:35<25:36,  2.02it/s] 71%|███████   | 7577/10682 [1:12:36<25:34,  2.02it/s] 71%|███████   | 7578/10682 [1:12:36<25:33,  2.02it/s] 71%|███████   | 7579/10682 [1:12:37<25:33,  2.02it/s] 71%|███████   | 7580/10682 [1:12:37<25:35,  2.02it/s] 71%|███████   | 7581/10682 [1:12:38<25:36,  2.02it/s] 71%|███████   | 7582/10682 [1:12:38<25:37,  2.02it/s] 71%|███████   | 7583/10682 [1:12:39<25:37,  2.02it/s] 71%|███████   | 7584/10682 [1:12:39<25:34,  2.02it/s] 71%|███████   | 7585/10682 [1:12:40<25:32,  2.02it/s] 71%|███████   | 7586/10682 [1:12:40<25:30,  2.02it/s] 71%|███████   | 7587/10682 [1:12:41<25:29,  2.02it/s] 71%|███████   | 7588/10682 [1:12:41<25:27,  2.03it/s] 71%|███████   | 7589/10682 [1:12:41<25:26,  2.03it/s] 71%|███████   | 7590/10682 [1:12:42<25:25,  2.03it/s] 71%|███████   | 7591/10682 [1:12:42<25:23,  2.03it/s] 71%|███████   | 7592/10682 [1:12:43<25:24,  2.03it/s] 71%|███████   | 7593/10682 [1:12:43<25:22,  2.03it/s] 71%|███████   | 7594/10682 [1:12:44<25:26,  2.02it/s] 71%|███████   | 7595/10682 [1:12:44<25:24,  2.02it/s] 71%|███████   | 7596/10682 [1:12:45<25:25,  2.02it/s] 71%|███████   | 7597/10682 [1:12:45<25:24,  2.02it/s] 71%|███████   | 7598/10682 [1:12:46<25:26,  2.02it/s] 71%|███████   | 7599/10682 [1:12:46<25:24,  2.02it/s] 71%|███████   | 7600/10682 [1:12:47<25:23,  2.02it/s]{'loss': 3.5815, 'grad_norm': 0.22242911159992218, 'learning_rate': 0.00023289281143540065, 'epoch': 0.71}                                                      
+ 71%|███████   | 7600/10682 [1:12:47<25:23,  2.02it/s] 71%|███████   | 7601/10682 [1:12:47<25:24,  2.02it/s] 71%|███████   | 7602/10682 [1:12:48<25:24,  2.02it/s] 71%|███████   | 7603/10682 [1:12:48<25:21,  2.02it/s] 71%|███████   | 7604/10682 [1:12:49<25:22,  2.02it/s] 71%|███████   | 7605/10682 [1:12:49<25:19,  2.02it/s] 71%|███████   | 7606/10682 [1:12:50<25:20,  2.02it/s] 71%|███████   | 7607/10682 [1:12:50<25:17,  2.03it/s] 71%|███████   | 7608/10682 [1:12:51<25:16,  2.03it/s] 71%|███████   | 7609/10682 [1:12:51<25:18,  2.02it/s] 71%|███████   | 7610/10682 [1:12:52<25:17,  2.02it/s] 71%|███████▏  | 7611/10682 [1:12:52<25:17,  2.02it/s] 71%|███████▏  | 7612/10682 [1:12:53<25:18,  2.02it/s] 71%|███████▏  | 7613/10682 [1:12:53<25:17,  2.02it/s] 71%|███████▏  | 7614/10682 [1:12:54<25:18,  2.02it/s] 71%|███████▏  | 7615/10682 [1:12:54<25:18,  2.02it/s] 71%|███████▏  | 7616/10682 [1:12:55<25:17,  2.02it/s] 71%|███████▏  | 7617/10682 [1:12:55<25:15,  2.02it/s] 71%|███████▏  | 7618/10682 [1:12:56<25:13,  2.02it/s] 71%|███████▏  | 7619/10682 [1:12:56<25:12,  2.03it/s] 71%|███████▏  | 7620/10682 [1:12:57<25:12,  2.02it/s] 71%|███████▏  | 7621/10682 [1:12:57<25:12,  2.02it/s] 71%|███████▏  | 7622/10682 [1:12:58<25:11,  2.02it/s] 71%|███████▏  | 7623/10682 [1:12:58<25:09,  2.03it/s] 71%|███████▏  | 7624/10682 [1:12:59<25:11,  2.02it/s] 71%|███████▏  | 7625/10682 [1:12:59<25:09,  2.02it/s]{'loss': 3.5782, 'grad_norm': 0.20567776262760162, 'learning_rate': 0.00022944844326774121, 'epoch': 0.71}                                                      
+ 71%|███████▏  | 7625/10682 [1:12:59<25:09,  2.02it/s] 71%|███████▏  | 7626/10682 [1:13:00<25:12,  2.02it/s] 71%|███████▏  | 7627/10682 [1:13:00<25:11,  2.02it/s] 71%|███████▏  | 7628/10682 [1:13:01<25:09,  2.02it/s] 71%|███████▏  | 7629/10682 [1:13:01<25:08,  2.02it/s] 71%|███████▏  | 7630/10682 [1:13:02<25:08,  2.02it/s] 71%|███████▏  | 7631/10682 [1:13:02<25:07,  2.02it/s] 71%|███████▏  | 7632/10682 [1:13:03<25:08,  2.02it/s] 71%|███████▏  | 7633/10682 [1:13:03<25:05,  2.03it/s] 71%|███████▏  | 7634/10682 [1:13:04<25:05,  2.02it/s] 71%|███████▏  | 7635/10682 [1:13:04<25:02,  2.03it/s] 71%|███████▏  | 7636/10682 [1:13:05<25:02,  2.03it/s] 71%|███████▏  | 7637/10682 [1:13:05<25:02,  2.03it/s] 72%|███████▏  | 7638/10682 [1:13:06<25:02,  2.03it/s] 72%|███████▏  | 7639/10682 [1:13:06<25:01,  2.03it/s] 72%|███████▏  | 7640/10682 [1:13:07<25:03,  2.02it/s] 72%|███████▏  | 7641/10682 [1:13:07<25:03,  2.02it/s] 72%|███████▏  | 7642/10682 [1:13:08<25:03,  2.02it/s] 72%|███████▏  | 7643/10682 [1:13:08<25:01,  2.02it/s] 72%|███████▏  | 7644/10682 [1:13:09<25:02,  2.02it/s] 72%|███████▏  | 7645/10682 [1:13:09<25:00,  2.02it/s] 72%|███████▏  | 7646/10682 [1:13:10<25:01,  2.02it/s] 72%|███████▏  | 7647/10682 [1:13:10<25:01,  2.02it/s] 72%|███████▏  | 7648/10682 [1:13:11<25:01,  2.02it/s] 72%|███████▏  | 7649/10682 [1:13:11<24:58,  2.02it/s] 72%|███████▏  | 7650/10682 [1:13:12<24:57,  2.02it/s]{'loss': 3.5759, 'grad_norm': 0.21422812342643738, 'learning_rate': 0.00022602213475715589, 'epoch': 0.72}
+                                                       72%|███████▏  | 7650/10682 [1:13:12<24:57,  2.02it/s] 72%|███████▏  | 7651/10682 [1:13:12<24:58,  2.02it/s] 72%|███████▏  | 7652/10682 [1:13:13<24:57,  2.02it/s] 72%|███████▏  | 7653/10682 [1:13:13<24:56,  2.02it/s] 72%|███████▏  | 7654/10682 [1:13:14<24:54,  2.03it/s] 72%|███████▏  | 7655/10682 [1:13:14<24:54,  2.03it/s] 72%|███████▏  | 7656/10682 [1:13:15<24:51,  2.03it/s] 72%|███████▏  | 7657/10682 [1:13:15<24:51,  2.03it/s] 72%|███████▏  | 7658/10682 [1:13:16<24:51,  2.03it/s] 72%|███████▏  | 7659/10682 [1:13:16<24:49,  2.03it/s] 72%|███████▏  | 7660/10682 [1:13:17<24:49,  2.03it/s] 72%|███████▏  | 7661/10682 [1:13:17<24:48,  2.03it/s] 72%|███████▏  | 7662/10682 [1:13:18<24:48,  2.03it/s] 72%|███████▏  | 7663/10682 [1:13:18<24:48,  2.03it/s] 72%|███████▏  | 7664/10682 [1:13:19<24:47,  2.03it/s] 72%|███████▏  | 7665/10682 [1:13:19<24:47,  2.03it/s] 72%|███████▏  | 7666/10682 [1:13:20<24:47,  2.03it/s] 72%|███████▏  | 7667/10682 [1:13:20<24:46,  2.03it/s] 72%|███████▏  | 7668/10682 [1:13:21<24:46,  2.03it/s] 72%|███████▏  | 7669/10682 [1:13:21<24:44,  2.03it/s] 72%|███████▏  | 7670/10682 [1:13:21<24:43,  2.03it/s] 72%|███████▏  | 7671/10682 [1:13:22<24:44,  2.03it/s] 72%|███████▏  | 7672/10682 [1:13:22<24:41,  2.03it/s] 72%|███████▏  | 7673/10682 [1:13:23<24:42,  2.03it/s] 72%|███████▏  | 7674/10682 [1:13:23<24:40,  2.03it/s] 72%|███████▏  | 7675/10682 [1:13:24<24:41,  2.03it/s]{'loss': 3.5793, 'grad_norm': 0.20938314497470856, 'learning_rate': 0.0002226141146140523, 'epoch': 0.72}
+                                                       72%|███████▏  | 7675/10682 [1:13:24<24:41,  2.03it/s] 72%|███████▏  | 7676/10682 [1:13:24<24:42,  2.03it/s] 72%|███████▏  | 7677/10682 [1:13:25<24:41,  2.03it/s] 72%|███████▏  | 7678/10682 [1:13:25<24:41,  2.03it/s] 72%|███████▏  | 7679/10682 [1:13:26<24:38,  2.03it/s] 72%|███████▏  | 7680/10682 [1:13:26<24:38,  2.03it/s] 72%|███████▏  | 7681/10682 [1:13:27<24:39,  2.03it/s] 72%|███████▏  | 7682/10682 [1:13:27<24:37,  2.03it/s] 72%|███████▏  | 7683/10682 [1:13:28<24:38,  2.03it/s] 72%|███████▏  | 7684/10682 [1:13:28<24:36,  2.03it/s] 72%|███████▏  | 7685/10682 [1:13:29<24:37,  2.03it/s] 72%|███████▏  | 7686/10682 [1:13:29<24:36,  2.03it/s] 72%|███████▏  | 7687/10682 [1:13:30<24:35,  2.03it/s] 72%|███████▏  | 7688/10682 [1:13:30<24:35,  2.03it/s] 72%|███████▏  | 7689/10682 [1:13:31<24:34,  2.03it/s] 72%|███████▏  | 7690/10682 [1:13:31<24:33,  2.03it/s] 72%|███████▏  | 7691/10682 [1:13:32<24:34,  2.03it/s] 72%|███████▏  | 7692/10682 [1:13:32<24:33,  2.03it/s] 72%|███████▏  | 7693/10682 [1:13:33<24:33,  2.03it/s] 72%|███████▏  | 7694/10682 [1:13:33<24:33,  2.03it/s] 72%|███████▏  | 7695/10682 [1:13:34<24:32,  2.03it/s] 72%|███████▏  | 7696/10682 [1:13:34<24:31,  2.03it/s] 72%|███████▏  | 7697/10682 [1:13:35<24:29,  2.03it/s] 72%|███████▏  | 7698/10682 [1:13:35<24:30,  2.03it/s] 72%|███████▏  | 7699/10682 [1:13:36<24:30,  2.03it/s] 72%|███████▏  | 7700/10682 [1:13:36<24:30,  2.03it/s]{'loss': 3.5751, 'grad_norm': 0.2010488510131836, 'learning_rate': 0.00021922461032806601, 'epoch': 0.72}
+                                                       72%|███████▏  | 7700/10682 [1:13:36<24:30,  2.03it/s] 72%|███████▏  | 7701/10682 [1:13:37<24:33,  2.02it/s] 72%|███████▏  | 7702/10682 [1:13:37<24:30,  2.03it/s] 72%|███████▏  | 7703/10682 [1:13:38<24:29,  2.03it/s] 72%|███████▏  | 7704/10682 [1:13:38<24:29,  2.03it/s] 72%|███████▏  | 7705/10682 [1:13:39<24:29,  2.03it/s] 72%|███████▏  | 7706/10682 [1:13:39<24:27,  2.03it/s] 72%|███████▏  | 7707/10682 [1:13:40<24:26,  2.03it/s] 72%|███████▏  | 7708/10682 [1:13:40<24:25,  2.03it/s] 72%|███████▏  | 7709/10682 [1:13:41<24:27,  2.03it/s] 72%|███████▏  | 7710/10682 [1:13:41<24:24,  2.03it/s] 72%|███████▏  | 7711/10682 [1:13:42<24:26,  2.03it/s] 72%|███████▏  | 7712/10682 [1:13:42<24:25,  2.03it/s] 72%|███████▏  | 7713/10682 [1:13:43<24:23,  2.03it/s] 72%|███████▏  | 7714/10682 [1:13:43<24:24,  2.03it/s] 72%|███████▏  | 7715/10682 [1:13:44<24:23,  2.03it/s] 72%|███████▏  | 7716/10682 [1:13:44<24:21,  2.03it/s] 72%|███████▏  | 7717/10682 [1:13:45<24:21,  2.03it/s] 72%|███████▏  | 7718/10682 [1:13:45<24:19,  2.03it/s] 72%|███████▏  | 7719/10682 [1:13:46<24:20,  2.03it/s] 72%|███████▏  | 7720/10682 [1:13:46<24:19,  2.03it/s] 72%|███████▏  | 7721/10682 [1:13:47<24:19,  2.03it/s] 72%|███████▏  | 7722/10682 [1:13:47<24:18,  2.03it/s] 72%|███████▏  | 7723/10682 [1:13:48<24:17,  2.03it/s] 72%|███████▏  | 7724/10682 [1:13:48<24:19,  2.03it/s] 72%|███████▏  | 7725/10682 [1:13:49<24:18,  2.03it/s]{'loss': 3.5685, 'grad_norm': 0.1958448886871338, 'learning_rate': 0.0002158538481528759, 'epoch': 0.72}
+                                                       72%|███████▏  | 7725/10682 [1:13:49<24:18,  2.03it/s] 72%|███████▏  | 7726/10682 [1:13:49<24:20,  2.02it/s] 72%|███████▏  | 7727/10682 [1:13:50<24:18,  2.03it/s] 72%|███████▏  | 7728/10682 [1:13:50<24:17,  2.03it/s] 72%|███████▏  | 7729/10682 [1:13:51<24:16,  2.03it/s] 72%|███████▏  | 7730/10682 [1:13:51<24:17,  2.03it/s] 72%|███████▏  | 7731/10682 [1:13:52<24:18,  2.02it/s] 72%|███████▏  | 7732/10682 [1:13:52<24:16,  2.03it/s] 72%|███████▏  | 7733/10682 [1:13:53<24:16,  2.03it/s] 72%|███████▏  | 7734/10682 [1:13:53<24:16,  2.02it/s] 72%|███████▏  | 7735/10682 [1:13:54<24:15,  2.02it/s] 72%|███████▏  | 7736/10682 [1:13:54<24:13,  2.03it/s] 72%|███████▏  | 7737/10682 [1:13:55<24:13,  2.03it/s] 72%|███████▏  | 7738/10682 [1:13:55<24:13,  2.03it/s] 72%|███████▏  | 7739/10682 [1:13:56<24:11,  2.03it/s] 72%|███████▏  | 7740/10682 [1:13:56<24:10,  2.03it/s] 72%|███████▏  | 7741/10682 [1:13:57<24:10,  2.03it/s] 72%|███████▏  | 7742/10682 [1:13:57<24:09,  2.03it/s] 72%|███████▏  | 7743/10682 [1:13:57<24:09,  2.03it/s] 72%|███████▏  | 7744/10682 [1:13:58<24:08,  2.03it/s] 73%|███████▎  | 7745/10682 [1:13:58<24:08,  2.03it/s] 73%|███████▎  | 7746/10682 [1:13:59<24:08,  2.03it/s] 73%|███████▎  | 7747/10682 [1:13:59<24:09,  2.03it/s] 73%|███████▎  | 7748/10682 [1:14:00<24:10,  2.02it/s] 73%|███████▎  | 7749/10682 [1:14:00<24:10,  2.02it/s] 73%|███████▎  | 7750/10682 [1:14:01<24:08,  2.02it/s]{'loss': 3.5792, 'grad_norm': 0.22428849339485168, 'learning_rate': 0.00021250205309110155, 'epoch': 0.73}                                                      
+ 73%|███████▎  | 7750/10682 [1:14:01<24:08,  2.02it/s] 73%|███████▎  | 7751/10682 [1:14:01<24:12,  2.02it/s] 73%|███████▎  | 7752/10682 [1:14:02<24:08,  2.02it/s] 73%|███████▎  | 7753/10682 [1:14:02<24:10,  2.02it/s] 73%|███████▎  | 7754/10682 [1:14:03<24:06,  2.02it/s] 73%|███████▎  | 7755/10682 [1:14:03<24:05,  2.02it/s] 73%|███████▎  | 7756/10682 [1:14:04<24:03,  2.03it/s] 73%|███████▎  | 7757/10682 [1:14:04<24:02,  2.03it/s] 73%|███████▎  | 7758/10682 [1:14:05<24:02,  2.03it/s] 73%|███████▎  | 7759/10682 [1:14:05<23:59,  2.03it/s] 73%|███████▎  | 7760/10682 [1:14:06<24:00,  2.03it/s] 73%|███████▎  | 7761/10682 [1:14:06<24:01,  2.03it/s] 73%|███████▎  | 7762/10682 [1:14:07<24:01,  2.03it/s] 73%|███████▎  | 7763/10682 [1:14:07<24:01,  2.03it/s] 73%|███████▎  | 7764/10682 [1:14:08<23:59,  2.03it/s] 73%|███████▎  | 7765/10682 [1:14:08<24:00,  2.03it/s] 73%|███████▎  | 7766/10682 [1:14:09<23:59,  2.03it/s] 73%|███████▎  | 7767/10682 [1:14:09<23:59,  2.03it/s] 73%|███████▎  | 7768/10682 [1:14:10<23:57,  2.03it/s] 73%|███████▎  | 7769/10682 [1:14:10<23:58,  2.02it/s] 73%|███████▎  | 7770/10682 [1:14:11<23:56,  2.03it/s] 73%|███████▎  | 7771/10682 [1:14:11<23:55,  2.03it/s] 73%|███████▎  | 7772/10682 [1:14:12<23:55,  2.03it/s] 73%|███████▎  | 7773/10682 [1:14:12<23:54,  2.03it/s] 73%|███████▎  | 7774/10682 [1:14:13<23:54,  2.03it/s] 73%|███████▎  | 7775/10682 [1:14:13<23:54,  2.03it/s]{'loss': 3.5728, 'grad_norm': 0.2075696885585785, 'learning_rate': 0.00020916944887928359, 'epoch': 0.73}                                                      
+ 73%|███████▎  | 7775/10682 [1:14:13<23:54,  2.03it/s] 73%|███████▎  | 7776/10682 [1:14:14<23:56,  2.02it/s] 73%|███████▎  | 7777/10682 [1:14:14<23:55,  2.02it/s] 73%|███████▎  | 7778/10682 [1:14:15<23:54,  2.02it/s] 73%|███████▎  | 7779/10682 [1:14:15<23:54,  2.02it/s] 73%|███████▎  | 7780/10682 [1:14:16<23:54,  2.02it/s] 73%|███████▎  | 7781/10682 [1:14:16<23:56,  2.02it/s] 73%|███████▎  | 7782/10682 [1:14:17<23:55,  2.02it/s] 73%|███████▎  | 7783/10682 [1:14:17<23:55,  2.02it/s] 73%|███████▎  | 7784/10682 [1:14:18<23:53,  2.02it/s] 73%|███████▎  | 7785/10682 [1:14:18<23:53,  2.02it/s] 73%|███████▎  | 7786/10682 [1:14:19<23:52,  2.02it/s] 73%|███████▎  | 7787/10682 [1:14:19<23:53,  2.02it/s] 73%|███████▎  | 7788/10682 [1:14:20<23:50,  2.02it/s] 73%|███████▎  | 7789/10682 [1:14:20<23:50,  2.02it/s] 73%|███████▎  | 7790/10682 [1:14:21<23:47,  2.03it/s] 73%|███████▎  | 7791/10682 [1:14:21<23:46,  2.03it/s] 73%|███████▎  | 7792/10682 [1:14:22<23:46,  2.03it/s] 73%|███████▎  | 7793/10682 [1:14:22<23:47,  2.02it/s] 73%|███████▎  | 7794/10682 [1:14:23<23:46,  2.02it/s] 73%|███████▎  | 7795/10682 [1:14:23<23:45,  2.03it/s] 73%|███████▎  | 7796/10682 [1:14:24<23:44,  2.03it/s] 73%|███████▎  | 7797/10682 [1:14:24<23:42,  2.03it/s] 73%|███████▎  | 7798/10682 [1:14:25<23:43,  2.03it/s] 73%|███████▎  | 7799/10682 [1:14:25<23:43,  2.03it/s] 73%|███████▎  | 7800/10682 [1:14:26<23:41,  2.03it/s]{'loss': 3.5776, 'grad_norm': 0.21293644607067108, 'learning_rate': 0.00020585625797294927, 'epoch': 0.73}                                                      
+ 73%|███████▎  | 7800/10682 [1:14:26<23:41,  2.03it/s] 73%|███████▎  | 7801/10682 [1:14:26<23:46,  2.02it/s] 73%|███████▎  | 7802/10682 [1:14:27<23:43,  2.02it/s] 73%|███████▎  | 7803/10682 [1:14:27<23:42,  2.02it/s] 73%|███████▎  | 7804/10682 [1:14:28<23:41,  2.02it/s] 73%|███████▎  | 7805/10682 [1:14:28<23:42,  2.02it/s] 73%|███████▎  | 7806/10682 [1:14:29<23:40,  2.02it/s] 73%|███████▎  | 7807/10682 [1:14:29<23:39,  2.03it/s] 73%|███████▎  | 7808/10682 [1:14:30<23:37,  2.03it/s] 73%|███████▎  | 7809/10682 [1:14:30<23:35,  2.03it/s] 73%|███████▎  | 7810/10682 [1:14:31<23:35,  2.03it/s] 73%|███████▎  | 7811/10682 [1:14:31<23:33,  2.03it/s] 73%|███████▎  | 7812/10682 [1:14:32<23:34,  2.03it/s] 73%|███████▎  | 7813/10682 [1:14:32<23:34,  2.03it/s] 73%|███████▎  | 7814/10682 [1:14:33<23:34,  2.03it/s] 73%|███████▎  | 7815/10682 [1:14:33<23:36,  2.02it/s] 73%|███████▎  | 7816/10682 [1:14:34<23:33,  2.03it/s] 73%|███████▎  | 7817/10682 [1:14:34<23:33,  2.03it/s] 73%|███████▎  | 7818/10682 [1:14:35<23:33,  2.03it/s] 73%|███████▎  | 7819/10682 [1:14:35<23:33,  2.03it/s] 73%|███████▎  | 7820/10682 [1:14:36<23:32,  2.03it/s] 73%|███████▎  | 7821/10682 [1:14:36<23:32,  2.03it/s] 73%|███████▎  | 7822/10682 [1:14:37<23:32,  2.03it/s] 73%|███████▎  | 7823/10682 [1:14:37<23:30,  2.03it/s] 73%|███████▎  | 7824/10682 [1:14:37<23:29,  2.03it/s] 73%|███████▎  | 7825/10682 [1:14:38<23:28,  2.03it/s]{'loss': 3.5758, 'grad_norm': 0.20903237164020538, 'learning_rate': 0.00020256270153176371, 'epoch': 0.73}                                                      
+ 73%|███████▎  | 7825/10682 [1:14:38<23:28,  2.03it/s] 73%|███████▎  | 7826/10682 [1:14:38<23:31,  2.02it/s] 73%|███████▎  | 7827/10682 [1:14:39<23:29,  2.03it/s] 73%|███████▎  | 7828/10682 [1:14:39<23:28,  2.03it/s] 73%|███████▎  | 7829/10682 [1:14:40<23:28,  2.03it/s] 73%|███████▎  | 7830/10682 [1:14:40<23:28,  2.03it/s] 73%|███████▎  | 7831/10682 [1:14:41<23:29,  2.02it/s] 73%|███████▎  | 7832/10682 [1:14:41<23:27,  2.02it/s] 73%|███████▎  | 7833/10682 [1:14:42<23:28,  2.02it/s] 73%|███████▎  | 7834/10682 [1:14:42<23:25,  2.03it/s] 73%|██████��▎  | 7835/10682 [1:14:43<23:26,  2.02it/s] 73%|███████▎  | 7836/10682 [1:14:43<23:25,  2.02it/s] 73%|███████▎  | 7837/10682 [1:14:44<23:22,  2.03it/s] 73%|███████▎  | 7838/10682 [1:14:44<23:22,  2.03it/s] 73%|███████▎  | 7839/10682 [1:14:45<23:21,  2.03it/s] 73%|███████▎  | 7840/10682 [1:14:45<23:20,  2.03it/s] 73%|███████▎  | 7841/10682 [1:14:46<23:19,  2.03it/s] 73%|███████▎  | 7842/10682 [1:14:46<23:20,  2.03it/s] 73%|███████▎  | 7843/10682 [1:14:47<23:19,  2.03it/s] 73%|███████▎  | 7844/10682 [1:14:47<23:19,  2.03it/s] 73%|███████▎  | 7845/10682 [1:14:48<23:20,  2.03it/s] 73%|███████▎  | 7846/10682 [1:14:48<23:21,  2.02it/s] 73%|███████▎  | 7847/10682 [1:14:49<23:20,  2.02it/s] 73%|███████▎  | 7848/10682 [1:14:49<23:22,  2.02it/s] 73%|███████▎  | 7849/10682 [1:14:50<23:20,  2.02it/s] 73%|███████▎  | 7850/10682 [1:14:50<23:20,  2.02it/s]{'loss': 3.5771, 'grad_norm': 0.2053404003381729, 'learning_rate': 0.00019928899940476624, 'epoch': 0.73}                                                      
+ 73%|███████▎  | 7850/10682 [1:14:50<23:20,  2.02it/s] 73%|███████▎  | 7851/10682 [1:14:51<23:22,  2.02it/s] 74%|███████▎  | 7852/10682 [1:14:51<23:21,  2.02it/s] 74%|███████▎  | 7853/10682 [1:14:52<23:20,  2.02it/s] 74%|███████▎  | 7854/10682 [1:14:52<23:17,  2.02it/s] 74%|███████▎  | 7855/10682 [1:14:53<23:15,  2.03it/s] 74%|███████▎  | 7856/10682 [1:14:53<23:15,  2.03it/s] 74%|███████▎  | 7857/10682 [1:14:54<23:12,  2.03it/s] 74%|███████▎  | 7858/10682 [1:14:54<23:11,  2.03it/s] 74%|███████▎  | 7859/10682 [1:14:55<23:12,  2.03it/s] 74%|███████▎  | 7860/10682 [1:14:55<23:10,  2.03it/s] 74%|███████▎  | 7861/10682 [1:14:56<23:12,  2.03it/s] 74%|███████▎  | 7862/10682 [1:14:56<23:13,  2.02it/s] 74%|███████▎  | 7863/10682 [1:14:57<23:14,  2.02it/s] 74%|███████▎  | 7864/10682 [1:14:57<23:13,  2.02it/s] 74%|███████▎  | 7865/10682 [1:14:58<23:14,  2.02it/s] 74%|███████▎  | 7866/10682 [1:14:58<23:12,  2.02it/s] 74%|███████▎  | 7867/10682 [1:14:59<23:12,  2.02it/s] 74%|███████▎  | 7868/10682 [1:14:59<23:10,  2.02it/s] 74%|███████▎  | 7869/10682 [1:15:00<23:07,  2.03it/s] 74%|███████▎  | 7870/10682 [1:15:00<23:06,  2.03it/s] 74%|███████▎  | 7871/10682 [1:15:01<23:07,  2.03it/s] 74%|███████▎  | 7872/10682 [1:15:01<23:07,  2.02it/s] 74%|███████▎  | 7873/10682 [1:15:02<23:07,  2.03it/s] 74%|███████▎  | 7874/10682 [1:15:02<23:06,  2.03it/s] 74%|███████▎  | 7875/10682 [1:15:03<23:06,  2.02it/s]                                                      {'loss': 3.5821, 'grad_norm': 0.21049731969833374, 'learning_rate': 0.00019603537011569566, 'epoch': 0.74}
+ 74%|███████▎  | 7875/10682 [1:15:03<23:06,  2.02it/s] 74%|███████▎  | 7876/10682 [1:15:03<23:08,  2.02it/s] 74%|███████▎  | 7877/10682 [1:15:04<23:07,  2.02it/s] 74%|███████▍  | 7878/10682 [1:15:04<23:08,  2.02it/s] 74%|███████▍  | 7879/10682 [1:15:05<23:07,  2.02it/s] 74%|███████▍  | 7880/10682 [1:15:05<23:06,  2.02it/s] 74%|███████▍  | 7881/10682 [1:15:06<23:05,  2.02it/s] 74%|███████▍  | 7882/10682 [1:15:06<23:04,  2.02it/s] 74%|███████▍  | 7883/10682 [1:15:07<23:02,  2.02it/s] 74%|███████▍  | 7884/10682 [1:15:07<23:02,  2.02it/s] 74%|███████▍  | 7885/10682 [1:15:08<23:00,  2.03it/s] 74%|███████▍  | 7886/10682 [1:15:08<23:00,  2.02it/s] 74%|███████▍  | 7887/10682 [1:15:09<22:59,  2.03it/s] 74%|███████▍  | 7888/10682 [1:15:09<22:58,  2.03it/s] 74%|███████▍  | 7889/10682 [1:15:10<22:57,  2.03it/s] 74%|███████▍  | 7890/10682 [1:15:10<22:57,  2.03it/s] 74%|███████▍  | 7891/10682 [1:15:11<22:58,  2.02it/s] 74%|███████▍  | 7892/10682 [1:15:11<22:58,  2.02it/s] 74%|███████▍  | 7893/10682 [1:15:12<22:58,  2.02it/s] 74%|███████▍  | 7894/10682 [1:15:12<22:58,  2.02it/s] 74%|███████▍  | 7895/10682 [1:15:13<22:58,  2.02it/s] 74%|███████▍  | 7896/10682 [1:15:13<22:56,  2.02it/s] 74%|███████▍  | 7897/10682 [1:15:14<22:56,  2.02it/s] 74%|███████▍  | 7898/10682 [1:15:14<22:55,  2.02it/s] 74%|███████▍  | 7899/10682 [1:15:15<22:56,  2.02it/s] 74%|███████▍  | 7900/10682 [1:15:15<22:54,  2.02it/s]                                                      {'loss': 3.5768, 'grad_norm': 0.21626333892345428, 'learning_rate': 0.0001928020308484042, 'epoch': 0.74}
+ 74%|███████▍  | 7900/10682 [1:15:15<22:54,  2.02it/s] 74%|███████▍  | 7901/10682 [1:15:16<22:57,  2.02it/s] 74%|███████▍  | 7902/10682 [1:15:16<22:55,  2.02it/s] 74%|███████▍  | 7903/10682 [1:15:17<22:54,  2.02it/s] 74%|███████▍  | 7904/10682 [1:15:17<22:52,  2.02it/s] 74%|███████▍  | 7905/10682 [1:15:17<22:52,  2.02it/s] 74%|███████▍  | 7906/10682 [1:15:18<22:50,  2.02it/s] 74%|███████▍  | 7907/10682 [1:15:18<22:50,  2.02it/s] 74%|███████▍  | 7908/10682 [1:15:19<22:52,  2.02it/s] 74%|███████▍  | 7909/10682 [1:15:19<22:51,  2.02it/s] 74%|███████▍  | 7910/10682 [1:15:20<22:51,  2.02it/s] 74%|███████▍  | 7911/10682 [1:15:20<22:48,  2.02it/s] 74%|███████▍  | 7912/10682 [1:15:21<22:50,  2.02it/s] 74%|███████▍  | 7913/10682 [1:15:21<22:48,  2.02it/s] 74%|███████▍  | 7914/10682 [1:15:22<22:46,  2.03it/s] 74%|███████▍  | 7915/10682 [1:15:22<22:45,  2.03it/s] 74%|███████▍  | 7916/10682 [1:15:23<22:43,  2.03it/s] 74%|███████▍  | 7917/10682 [1:15:23<22:43,  2.03it/s] 74%|███████▍  | 7918/10682 [1:15:24<22:42,  2.03it/s] 74%|███████▍  | 7919/10682 [1:15:24<22:40,  2.03it/s] 74%|███████▍  | 7920/10682 [1:15:25<22:42,  2.03it/s] 74%|███████▍  | 7921/10682 [1:15:25<22:42,  2.03it/s] 74%|███████▍  | 7922/10682 [1:15:26<22:44,  2.02it/s] 74%|███████▍  | 7923/10682 [1:15:26<22:41,  2.03it/s] 74%|███████▍  | 7924/10682 [1:15:27<22:43,  2.02it/s] 74%|███████▍  | 7925/10682 [1:15:27<22:42,  2.02it/s]                                                      {'loss': 3.5801, 'grad_norm': 0.2008773386478424, 'learning_rate': 0.00018958919743235897, 'epoch': 0.74}
+ 74%|███████▍  | 7925/10682 [1:15:27<22:42,  2.02it/s] 74%|███████▍  | 7926/10682 [1:15:28<22:45,  2.02it/s] 74%|███████▍  | 7927/10682 [1:15:28<22:42,  2.02it/s] 74%|███████▍  | 7928/10682 [1:15:29<22:42,  2.02it/s] 74%|███████▍  | 7929/10682 [1:15:29<22:39,  2.02it/s] 74%|███████▍  | 7930/10682 [1:15:30<22:39,  2.02it/s] 74%|███████▍  | 7931/10682 [1:15:30<22:38,  2.02it/s] 74%|███████▍  | 7932/10682 [1:15:31<22:38,  2.02it/s] 74%|███████▍  | 7933/10682 [1:15:31<22:38,  2.02it/s] 74%|███████▍  | 7934/10682 [1:15:32<22:38,  2.02it/s] 74%|███████▍  | 7935/10682 [1:15:32<22:38,  2.02it/s] 74%|███████▍  | 7936/10682 [1:15:33<22:37,  2.02it/s] 74%|███████▍  | 7937/10682 [1:15:33<22:37,  2.02it/s] 74%|███████▍  | 7938/10682 [1:15:34<22:36,  2.02it/s] 74%|███████▍  | 7939/10682 [1:15:34<22:35,  2.02it/s] 74%|███████▍  | 7940/10682 [1:15:35<22:34,  2.02it/s] 74%|███████▍  | 7941/10682 [1:15:35<22:33,  2.03it/s] 74%|███████▍  | 7942/10682 [1:15:36<22:33,  2.02it/s] 74%|███████▍  | 7943/10682 [1:15:36<22:31,  2.03it/s] 74%|███████▍  | 7944/10682 [1:15:37<22:31,  2.03it/s] 74%|███████▍  | 7945/10682 [1:15:37<22:30,  2.03it/s] 74%|███████▍  | 7946/10682 [1:15:38<22:29,  2.03it/s] 74%|███████▍  | 7947/10682 [1:15:38<22:28,  2.03it/s] 74%|███████▍  | 7948/10682 [1:15:39<22:28,  2.03it/s] 74%|███████▍  | 7949/10682 [1:15:39<22:28,  2.03it/s] 74%|███████▍  | 7950/10682 [1:15:40<22:26,  2.03it/s]{'loss': 3.5742, 'grad_norm': 0.20898720622062683, 'learning_rate': 0.0001863970843282357, 'epoch': 0.74}                                                      
+ 74%|███████▍  | 7950/10682 [1:15:40<22:26,  2.03it/s] 74%|███████▍  | 7951/10682 [1:15:40<22:29,  2.02it/s] 74%|███████▍  | 7952/10682 [1:15:41<22:28,  2.03it/s] 74%|███████▍  | 7953/10682 [1:15:41<22:29,  2.02it/s] 74%|███████▍  | 7954/10682 [1:15:42<22:26,  2.03it/s] 74%|███████▍  | 7955/10682 [1:15:42<22:28,  2.02it/s] 74%|███████▍  | 7956/10682 [1:15:43<22:26,  2.02it/s] 74%|███████▍  | 7957/10682 [1:15:43<22:26,  2.02it/s] 74%|███████▍  | 7958/10682 [1:15:44<22:25,  2.02it/s] 75%|███████▍  | 7959/10682 [1:15:44<22:25,  2.02it/s] 75%|███████▍  | 7960/10682 [1:15:45<22:25,  2.02it/s] 75%|███████▍  | 7961/10682 [1:15:45<22:24,  2.02it/s] 75%|███████▍  | 7962/10682 [1:15:46<22:24,  2.02it/s] 75%|���██████▍  | 7963/10682 [1:15:46<22:21,  2.03it/s] 75%|███████▍  | 7964/10682 [1:15:47<22:21,  2.03it/s] 75%|███████▍  | 7965/10682 [1:15:47<22:20,  2.03it/s] 75%|███████▍  | 7966/10682 [1:15:48<22:20,  2.03it/s] 75%|███████▍  | 7967/10682 [1:15:48<22:19,  2.03it/s] 75%|███████▍  | 7968/10682 [1:15:49<22:18,  2.03it/s] 75%|███████▍  | 7969/10682 [1:15:49<22:20,  2.02it/s] 75%|███████▍  | 7970/10682 [1:15:50<22:18,  2.03it/s] 75%|███████▍  | 7971/10682 [1:15:50<22:19,  2.02it/s] 75%|███████▍  | 7972/10682 [1:15:51<22:18,  2.02it/s] 75%|███████▍  | 7973/10682 [1:15:51<22:17,  2.02it/s] 75%|███████▍  | 7974/10682 [1:15:52<22:16,  2.03it/s] 75%|███████▍  | 7975/10682 [1:15:52<22:15,  2.03it/s]{'loss': 3.5636, 'grad_norm': 0.21115253865718842, 'learning_rate': 0.00018322590461360383, 'epoch': 0.75}                                                      
+ 75%|███████▍  | 7975/10682 [1:15:52<22:15,  2.03it/s] 75%|███████▍  | 7976/10682 [1:15:53<22:18,  2.02it/s] 75%|███████▍  | 7977/10682 [1:15:53<22:16,  2.02it/s] 75%|███████▍  | 7978/10682 [1:15:54<22:16,  2.02it/s] 75%|███████▍  | 7979/10682 [1:15:54<22:15,  2.02it/s] 75%|███████▍  | 7980/10682 [1:15:55<22:13,  2.03it/s] 75%|███████▍  | 7981/10682 [1:15:55<22:12,  2.03it/s] 75%|███████▍  | 7982/10682 [1:15:56<22:12,  2.03it/s] 75%|███████▍  | 7983/10682 [1:15:56<22:10,  2.03it/s] 75%|███████▍  | 7984/10682 [1:15:57<22:12,  2.03it/s] 75%|███████▍  | 7985/10682 [1:15:57<22:10,  2.03it/s] 75%|███████▍  | 7986/10682 [1:15:58<22:11,  2.02it/s] 75%|███████▍  | 7987/10682 [1:15:58<22:11,  2.02it/s] 75%|███████▍  | 7988/10682 [1:15:58<22:11,  2.02it/s] 75%|███████▍  | 7989/10682 [1:15:59<22:11,  2.02it/s] 75%|███████▍  | 7990/10682 [1:15:59<22:10,  2.02it/s] 75%|███████▍  | 7991/10682 [1:16:00<22:10,  2.02it/s] 75%|███████▍  | 7992/10682 [1:16:00<22:10,  2.02it/s] 75%|███████▍  | 7993/10682 [1:16:01<22:10,  2.02it/s] 75%|███████▍  | 7994/10682 [1:16:01<22:08,  2.02it/s] 75%|███████▍  | 7995/10682 [1:16:02<22:06,  2.03it/s] 75%|███████▍  | 7996/10682 [1:16:02<22:05,  2.03it/s] 75%|███████▍  | 7997/10682 [1:16:03<22:04,  2.03it/s] 75%|███████▍  | 7998/10682 [1:16:03<22:04,  2.03it/s] 75%|███████▍  | 7999/10682 [1:16:04<22:02,  2.03it/s] 75%|███████▍  | 8000/10682 [1:16:04<22:02,  2.03it/s]{'loss': 3.5808, 'grad_norm': 0.2138487696647644, 'learning_rate': 0.00018007586996870206, 'epoch': 0.75}
+                                                       75%|███████▍  | 8000/10682 [1:16:04<22:02,  2.03it/s] 75%|███████▍  | 8001/10682 [1:16:05<22:04,  2.02it/s] 75%|███████▍  | 8002/10682 [1:16:05<22:04,  2.02it/s] 75%|███████▍  | 8003/10682 [1:16:06<22:03,  2.02it/s] 75%|███████▍  | 8004/10682 [1:16:06<22:04,  2.02it/s] 75%|███████▍  | 8005/10682 [1:16:07<22:02,  2.02it/s] 75%|███████▍  | 8006/10682 [1:16:07<22:02,  2.02it/s] 75%|███████▍  | 8007/10682 [1:16:08<22:02,  2.02it/s] 75%|███████▍  | 8008/10682 [1:16:08<21:58,  2.03it/s] 75%|███████▍  | 8009/10682 [1:16:09<22:00,  2.02it/s] 75%|███████▍  | 8010/10682 [1:16:09<21:58,  2.03it/s] 75%|███████▍  | 8011/10682 [1:16:10<21:58,  2.03it/s] 75%|███████▌  | 8012/10682 [1:16:10<21:57,  2.03it/s] 75%|███████▌  | 8013/10682 [1:16:11<21:56,  2.03it/s] 75%|███████▌  | 8014/10682 [1:16:11<21:56,  2.03it/s] 75%|███████▌  | 8015/10682 [1:16:12<21:56,  2.03it/s] 75%|███████▌  | 8016/10682 [1:16:12<21:56,  2.03it/s] 75%|███████▌  | 8017/10682 [1:16:13<21:53,  2.03it/s] 75%|███████▌  | 8018/10682 [1:16:13<21:53,  2.03it/s] 75%|███████▌  | 8019/10682 [1:16:14<21:53,  2.03it/s] 75%|███████▌  | 8020/10682 [1:16:14<21:54,  2.03it/s] 75%|███████▌  | 8021/10682 [1:16:15<21:53,  2.03it/s] 75%|███████▌  | 8022/10682 [1:16:15<21:54,  2.02it/s] 75%|███████▌  | 8023/10682 [1:16:16<21:54,  2.02it/s] 75%|███████▌  | 8024/10682 [1:16:16<21:53,  2.02it/s] 75%|███████▌  | 8025/10682 [1:16:17<21:53,  2.02it/s]{'loss': 3.5774, 'grad_norm': 0.21315300464630127, 'learning_rate': 0.00017694719066230924, 'epoch': 0.75}                                                      
+ 75%|███████▌  | 8025/10682 [1:16:17<21:53,  2.02it/s] 75%|███████▌  | 8026/10682 [1:16:17<21:56,  2.02it/s] 75%|███████▌  | 8027/10682 [1:16:18<21:54,  2.02it/s] 75%|███████▌  | 8028/10682 [1:16:18<21:54,  2.02it/s] 75%|███████▌  | 8029/10682 [1:16:19<21:52,  2.02it/s] 75%|███████▌  | 8030/10682 [1:16:19<21:51,  2.02it/s] 75%|███████▌  | 8031/10682 [1:16:20<21:50,  2.02it/s] 75%|███████▌  | 8032/10682 [1:16:20<21:49,  2.02it/s] 75%|███████▌  | 8033/10682 [1:16:21<21:48,  2.02it/s] 75%|███████▌  | 8034/10682 [1:16:21<21:47,  2.03it/s] 75%|███████▌  | 8035/10682 [1:16:22<21:46,  2.03it/s] 75%|███████▌  | 8036/10682 [1:16:22<21:45,  2.03it/s] 75%|███████▌  | 8037/10682 [1:16:23<21:44,  2.03it/s] 75%|███████▌  | 8038/10682 [1:16:23<21:44,  2.03it/s] 75%|███████▌  | 8039/10682 [1:16:24<21:43,  2.03it/s] 75%|███████▌  | 8040/10682 [1:16:24<21:44,  2.03it/s] 75%|███████▌  | 8041/10682 [1:16:25<21:44,  2.03it/s] 75%|███████▌  | 8042/10682 [1:16:25<21:46,  2.02it/s] 75%|███████▌  | 8043/10682 [1:16:26<21:44,  2.02it/s] 75%|███████▌  | 8044/10682 [1:16:26<21:45,  2.02it/s] 75%|███████▌  | 8045/10682 [1:16:27<21:45,  2.02it/s] 75%|███████▌  | 8046/10682 [1:16:27<21:45,  2.02it/s] 75%|███████▌  | 8047/10682 [1:16:28<21:43,  2.02it/s] 75%|███████▌  | 8048/10682 [1:16:28<21:44,  2.02it/s] 75%|███████▌  | 8049/10682 [1:16:29<21:42,  2.02it/s] 75%|███████▌  | 8050/10682 [1:16:29<21:41,  2.02it/s]{'loss': 3.5699, 'grad_norm': 0.20053675770759583, 'learning_rate': 0.00017384007553770858, 'epoch': 0.75}
+                                                       75%|███████▌  | 8050/10682 [1:16:29<21:41,  2.02it/s] 75%|███████▌  | 8051/10682 [1:16:30<21:42,  2.02it/s] 75%|███████▌  | 8052/10682 [1:16:30<21:41,  2.02it/s] 75%|███████▌  | 8053/10682 [1:16:31<21:39,  2.02it/s] 75%|███████▌  | 8054/10682 [1:16:31<21:38,  2.02it/s] 75%|███████▌  | 8055/10682 [1:16:32<21:38,  2.02it/s] 75%|███████▌  | 8056/10682 [1:16:32<21:36,  2.03it/s] 75%|███████▌  | 8057/10682 [1:16:33<21:36,  2.02it/s] 75%|███████▌  | 8058/10682 [1:16:33<21:35,  2.03it/s] 75%|███████▌  | 8059/10682 [1:16:34<21:34,  2.03it/s] 75%|███████▌  | 8060/10682 [1:16:34<21:34,  2.02it/s] 75%|███████▌  | 8061/10682 [1:16:35<21:34,  2.03it/s] 75%|███████▌  | 8062/10682 [1:16:35<21:35,  2.02it/s] 75%|███████▌  | 8063/10682 [1:16:36<21:34,  2.02it/s] 75%|███████▌  | 8064/10682 [1:16:36<21:34,  2.02it/s] 76%|███████▌  | 8065/10682 [1:16:37<21:32,  2.02it/s] 76%|███████▌  | 8066/10682 [1:16:37<21:32,  2.02it/s] 76%|███████▌  | 8067/10682 [1:16:38<21:30,  2.03it/s] 76%|███████▌  | 8068/10682 [1:16:38<21:29,  2.03it/s] 76%|███████▌  | 8069/10682 [1:16:39<21:29,  2.03it/s] 76%|███████▌  | 8070/10682 [1:16:39<21:28,  2.03it/s] 76%|███████▌  | 8071/10682 [1:16:39<21:27,  2.03it/s] 76%|███████▌  | 8072/10682 [1:16:40<21:27,  2.03it/s] 76%|███████▌  | 8073/10682 [1:16:40<21:26,  2.03it/s] 76%|███████▌  | 8074/10682 [1:16:41<21:29,  2.02it/s] 76%|███████▌  | 8075/10682 [1:16:41<21:27,  2.03it/s]{'loss': 3.5678, 'grad_norm': 0.20144762098789215, 'learning_rate': 0.00017075473199874692, 'epoch': 0.76}                                                      
+ 76%|███████▌  | 8075/10682 [1:16:41<21:27,  2.03it/s] 76%|███████▌  | 8076/10682 [1:16:42<21:29,  2.02it/s] 76%|███████▌  | 8077/10682 [1:16:42<21:26,  2.02it/s] 76%|███████▌  | 8078/10682 [1:16:43<21:26,  2.02it/s] 76%|███████▌  | 8079/10682 [1:16:43<21:25,  2.02it/s] 76%|███████▌  | 8080/10682 [1:16:44<21:24,  2.03it/s] 76%|███████▌  | 8081/10682 [1:16:44<21:24,  2.03it/s] 76%|███████▌  | 8082/10682 [1:16:45<21:22,  2.03it/s] 76%|███████▌  | 8083/10682 [1:16:45<21:22,  2.03it/s] 76%|███████▌  | 8084/10682 [1:16:46<21:21,  2.03it/s] 76%|███████▌  | 8085/10682 [1:16:46<21:21,  2.03it/s] 76%|███████▌  | 8086/10682 [1:16:47<21:21,  2.03it/s] 76%|███████▌  | 8087/10682 [1:16:47<21:21,  2.03it/s] 76%|███████▌  | 8088/10682 [1:16:48<21:19,  2.03it/s] 76%|███████▌  | 8089/10682 [1:16:48<21:19,  2.03it/s] 76%|███████▌  | 8090/10682 [1:16:49<21:20,  2.02it/s] 76%|███████▌  | 8091/10682 [1:16:49<21:19,  2.02it/s] 76%|███████▌  | 8092/10682 [1:16:50<21:20,  2.02it/s] 76%|███████▌  | 8093/10682 [1:16:50<21:19,  2.02it/s] 76%|███████▌  | 8094/10682 [1:16:51<21:19,  2.02it/s] 76%|███████▌  | 8095/10682 [1:16:51<21:17,  2.02it/s] 76%|███████▌  | 8096/10682 [1:16:52<21:17,  2.02it/s] 76%|███████▌  | 8097/10682 [1:16:52<21:16,  2.03it/s] 76%|███████▌  | 8098/10682 [1:16:53<21:16,  2.02it/s] 76%|███████▌  | 8099/10682 [1:16:53<21:15,  2.03it/s] 76%|███████▌  | 8100/10682 [1:16:54<21:14,  2.03it/s]                                                      {'loss': 3.5614, 'grad_norm': 0.20186598598957062, 'learning_rate': 0.00016769136599599017, 'epoch': 0.76}
+ 76%|███████▌  | 8100/10682 [1:16:54<21:14,  2.03it/s] 76%|███████▌  | 8101/10682 [1:16:54<21:15,  2.02it/s] 76%|███████▌  | 8102/10682 [1:16:55<21:13,  2.03it/s] 76%|███████▌  | 8103/10682 [1:16:55<21:14,  2.02it/s] 76%|███████▌  | 8104/10682 [1:16:56<21:11,  2.03it/s] 76%|███████▌  | 8105/10682 [1:16:56<21:10,  2.03it/s] 76%|███████▌  | 8106/10682 [1:16:57<21:11,  2.03it/s] 76%|███████▌  | 8107/10682 [1:16:57<21:10,  2.03it/s] 76%|███████▌  | 8108/10682 [1:16:58<21:10,  2.03it/s] 76%|███████▌  | 8109/10682 [1:16:58<21:09,  2.03it/s] 76%|███████▌  | 8110/10682 [1:16:59<21:10,  2.02it/s] 76%|███████▌  | 8111/10682 [1:16:59<21:10,  2.02it/s] 76%|███████▌  | 8112/10682 [1:17:00<21:10,  2.02it/s] 76%|███████▌  | 8113/10682 [1:17:00<21:10,  2.02it/s] 76%|███████▌  | 8114/10682 [1:17:01<21:08,  2.03it/s] 76%|███████▌  | 8115/10682 [1:17:01<21:07,  2.02it/s] 76%|███████▌  | 8116/10682 [1:17:02<21:07,  2.02it/s] 76%|███████▌  | 8117/10682 [1:17:02<21:08,  2.02it/s] 76%|███████▌  | 8118/10682 [1:17:03<21:07,  2.02it/s] 76%|███████▌  | 8119/10682 [1:17:03<21:05,  2.03it/s] 76%|███████▌  | 8120/10682 [1:17:04<21:04,  2.03it/s] 76%|███████▌  | 8121/10682 [1:17:04<21:03,  2.03it/s] 76%|███████▌  | 8122/10682 [1:17:05<21:03,  2.03it/s] 76%|███████▌  | 8123/10682 [1:17:05<21:02,  2.03it/s] 76%|███████▌  | 8124/10682 [1:17:06<21:01,  2.03it/s] 76%|███████▌  | 8125/10682 [1:17:06<21:01,  2.03it/s]                                                      {'loss': 3.5641, 'grad_norm': 0.20630207657814026, 'learning_rate': 0.0001646501820129766, 'epoch': 0.76}
+ 76%|███████▌  | 8125/10682 [1:17:06<21:01,  2.03it/s] 76%|███████▌  | 8126/10682 [1:17:07<21:04,  2.02it/s] 76%|███████▌  | 8127/10682 [1:17:07<21:03,  2.02it/s] 76%|███████▌  | 8128/10682 [1:17:08<21:02,  2.02it/s] 76%|███████▌  | 8129/10682 [1:17:08<21:01,  2.02it/s] 76%|███████▌  | 8130/10682 [1:17:09<21:01,  2.02it/s] 76%|███████▌  | 8131/10682 [1:17:09<21:00,  2.02it/s] 76%|███████▌  | 8132/10682 [1:17:10<21:02,  2.02it/s] 76%|███████▌  | 8133/10682 [1:17:10<21:00,  2.02it/s] 76%|███████▌  | 8134/10682 [1:17:11<21:00,  2.02it/s] 76%|███████▌  | 8135/10682 [1:17:11<20:58,  2.02it/s] 76%|███████▌  | 8136/10682 [1:17:12<20:58,  2.02it/s] 76%|███████▌  | 8137/10682 [1:17:12<20:57,  2.02it/s] 76%|███████▌  | 8138/10682 [1:17:13<20:55,  2.03it/s] 76%|███████▌  | 8139/10682 [1:17:13<20:54,  2.03it/s] 76%|███████▌  | 8140/10682 [1:17:14<20:52,  2.03it/s] 76%|███████▌  | 8141/10682 [1:17:14<20:54,  2.03it/s] 76%|███████▌  | 8142/10682 [1:17:15<20:54,  2.03it/s] 76%|███████▌  | 8143/10682 [1:17:15<20:54,  2.02it/s] 76%|███████▌  | 8144/10682 [1:17:16<20:53,  2.02it/s] 76%|███████▌  | 8145/10682 [1:17:16<20:53,  2.02it/s] 76%|███████▋  | 8146/10682 [1:17:17<20:53,  2.02it/s] 76%|███████▋  | 8147/10682 [1:17:17<20:53,  2.02it/s] 76%|███████▋  | 8148/10682 [1:17:18<20:51,  2.02it/s] 76%|███████▋  | 8149/10682 [1:17:18<20:49,  2.03it/s] 76%|███████▋  | 8150/10682 [1:17:19<20:48,  2.03it/s]                                                      {'loss': 3.5589, 'grad_norm': 0.20910252630710602, 'learning_rate': 0.00016163138305256598, 'epoch': 0.76}
+ 76%|███████▋  | 8150/10682 [1:17:19<20:48,  2.03it/s] 76%|███████▋  | 8151/10682 [1:17:19<20:55,  2.02it/s] 76%|███████▋  | 8152/10682 [1:17:20<20:52,  2.02it/s] 76%|███████▋  | 8153/10682 [1:17:20<20:50,  2.02it/s] 76%|███████▋  | 8154/10682 [1:17:20<20:49,  2.02it/s] 76%|███████▋  | 8155/10682 [1:17:21<20:47,  2.03it/s] 76%|███████▋  | 8156/10682 [1:17:21<20:48,  2.02it/s] 76%|███████▋  | 8157/10682 [1:17:22<20:46,  2.03it/s] 76%|███████▋  | 8158/10682 [1:17:22<20:47,  2.02it/s] 76%|███████▋  | 8159/10682 [1:17:23<20:47,  2.02it/s] 76%|███████▋  | 8160/10682 [1:17:23<20:48,  2.02it/s] 76%|███████▋  | 8161/10682 [1:17:24<20:45,  2.02it/s] 76%|███████▋  | 8162/10682 [1:17:24<20:46,  2.02it/s] 76%|███████▋  | 8163/10682 [1:17:25<20:45,  2.02it/s] 76%|███████▋  | 8164/10682 [1:17:25<20:45,  2.02it/s] 76%|███████▋  | 8165/10682 [1:17:26<20:41,  2.03it/s] 76%|███████▋  | 8166/10682 [1:17:26<20:42,  2.02it/s] 76%|███████▋  | 8167/10682 [1:17:27<20:41,  2.03it/s] 76%|███████▋  | 8168/10682 [1:17:27<20:41,  2.03it/s] 76%|███████▋  | 8169/10682 [1:17:28<20:40,  2.03it/s] 76%|███████▋  | 8170/10682 [1:17:28<20:38,  2.03it/s] 76%|███████▋  | 8171/10682 [1:17:29<20:38,  2.03it/s] 77%|███████▋  | 8172/10682 [1:17:29<20:37,  2.03it/s] 77%|███████▋  | 8173/10682 [1:17:30<20:37,  2.03it/s] 77%|███████▋  | 8174/10682 [1:17:30<20:38,  2.03it/s] 77%|███████▋  | 8175/10682 [1:17:31<20:37,  2.03it/s]{'loss': 3.5753, 'grad_norm': 0.20656056702136993, 'learning_rate': 0.00015863517062339038, 'epoch': 0.77}
+                                                       77%|███████▋  | 8175/10682 [1:17:31<20:37,  2.03it/s] 77%|███████▋  | 8176/10682 [1:17:31<20:41,  2.02it/s] 77%|███████▋  | 8177/10682 [1:17:32<20:39,  2.02it/s] 77%|███████▋  | 8178/10682 [1:17:32<20:38,  2.02it/s] 77%|███████▋  | 8179/10682 [1:17:33<20:36,  2.02it/s] 77%|███████▋  | 8180/10682 [1:17:33<20:36,  2.02it/s] 77%|███████▋  | 8181/10682 [1:17:34<20:33,  2.03it/s] 77%|███████▋  | 8182/10682 [1:17:34<20:34,  2.03it/s] 77%|███████▋  | 8183/10682 [1:17:35<20:33,  2.03it/s] 77%|███████▋  | 8184/10682 [1:17:35<20:32,  2.03it/s] 77%|███████▋  | 8185/10682 [1:17:36<20:32,  2.03it/s] 77%|███████▋  | 8186/10682 [1:17:36<20:33,  2.02it/s] 77%|███████▋  | 8187/10682 [1:17:37<20:33,  2.02it/s] 77%|███████▋  | 8188/10682 [1:17:37<20:32,  2.02it/s] 77%|███████▋  | 8189/10682 [1:17:38<20:33,  2.02it/s] 77%|███████▋  | 8190/10682 [1:17:38<20:32,  2.02it/s] 77%|███████▋  | 8191/10682 [1:17:39<20:33,  2.02it/s] 77%|███████▋  | 8192/10682 [1:17:39<20:33,  2.02it/s] 77%|███████▋  | 8193/10682 [1:17:40<20:32,  2.02it/s] 77%|███████▋  | 8194/10682 [1:17:40<20:31,  2.02it/s] 77%|███████▋  | 8195/10682 [1:17:41<20:29,  2.02it/s] 77%|███████▋  | 8196/10682 [1:17:41<20:28,  2.02it/s] 77%|███████▋  | 8197/10682 [1:17:42<20:27,  2.02it/s] 77%|███████▋  | 8198/10682 [1:17:42<20:26,  2.03it/s] 77%|███████▋  | 8199/10682 [1:17:43<20:24,  2.03it/s] 77%|███████▋  | 8200/10682 [1:17:43<20:24,  2.03it/s]{'loss': 3.5635, 'grad_norm': 0.20122094452381134, 'learning_rate': 0.00015566174472640188, 'epoch': 0.77}                                                      
+ 77%|███████▋  | 8200/10682 [1:17:43<20:24,  2.03it/s] 77%|███████▋  | 8201/10682 [1:17:44<20:25,  2.02it/s] 77%|███████▋  | 8202/10682 [1:17:44<20:24,  2.03it/s] 77%|███████▋  | 8203/10682 [1:17:45<20:23,  2.03it/s] 77%|███████▋  | 8204/10682 [1:17:45<20:21,  2.03it/s] 77%|███████▋  | 8205/10682 [1:17:46<20:22,  2.03it/s] 77%|███████▋  | 8206/10682 [1:17:46<20:22,  2.03it/s] 77%|███████▋  | 8207/10682 [1:17:47<20:22,  2.02it/s] 77%|███████▋  | 8208/10682 [1:17:47<20:23,  2.02it/s] 77%|███████▋  | 8209/10682 [1:17:48<20:24,  2.02it/s] 77%|███████▋  | 8210/10682 [1:17:48<20:22,  2.02it/s] 77%|███████▋  | 8211/10682 [1:17:49<20:21,  2.02it/s] 77%|███████▋  | 8212/10682 [1:17:49<20:19,  2.03it/s] 77%|███████▋  | 8213/10682 [1:17:50<20:20,  2.02it/s] 77%|███████▋  | 8214/10682 [1:17:50<20:19,  2.02it/s] 77%|███████▋  | 8215/10682 [1:17:51<20:18,  2.02it/s] 77%|███████▋  | 8216/10682 [1:17:51<20:19,  2.02it/s] 77%|███████▋  | 8217/10682 [1:17:52<23:39,  1.74it/s] 77%|███████▋  | 8218/10682 [1:17:52<22:37,  1.82it/s] 77%|███████▋  | 8219/10682 [1:17:53<21:53,  1.87it/s] 77%|███████▋  | 8220/10682 [1:17:53<21:22,  1.92it/s] 77%|███████▋  | 8221/10682 [1:17:54<21:01,  1.95it/s] 77%|███████▋  | 8222/10682 [1:17:54<20:47,  1.97it/s] 77%|███████▋  | 8223/10682 [1:17:55<20:37,  1.99it/s] 77%|███████▋  | 8224/10682 [1:17:55<20:30,  2.00it/s] 77%|███████▋  | 8225/10682 [1:17:56<20:25,  2.01it/s]                                                      {'loss': 3.5692, 'grad_norm': 0.2093537300825119, 'learning_rate': 0.0001527113038415231, 'epoch': 0.77}
+ 77%|███████▋  | 8225/10682 [1:17:56<20:25,  2.01it/s] 77%|███████▋  | 8226/10682 [1:17:56<20:23,  2.01it/s] 77%|███████▋  | 8227/10682 [1:17:57<20:20,  2.01it/s] 77%|███████▋  | 8228/10682 [1:17:57<20:18,  2.01it/s] 77%|███████▋  | 8229/10682 [1:17:58<20:16,  2.02it/s] 77%|███████▋  | 8230/10682 [1:17:58<20:14,  2.02it/s] 77%|███████▋  | 8231/10682 [1:17:59<20:12,  2.02it/s] 77%|███████▋  | 8232/10682 [1:17:59<20:10,  2.02it/s] 77%|███████▋  | 8233/10682 [1:18:00<20:09,  2.03it/s] 77%|███████▋  | 8234/10682 [1:18:00<20:07,  2.03it/s] 77%|███████▋  | 8235/10682 [1:18:01<20:08,  2.02it/s] 77%|███████▋  | 8236/10682 [1:18:01<20:06,  2.03it/s] 77%|███████▋  | 8237/10682 [1:18:02<20:06,  2.03it/s] 77%|███████▋  | 8238/10682 [1:18:02<20:06,  2.03it/s] 77%|███████▋  | 8239/10682 [1:18:03<20:06,  2.02it/s] 77%|███████▋  | 8240/10682 [1:18:03<20:05,  2.03it/s] 77%|███████▋  | 8241/10682 [1:18:04<20:04,  2.03it/s] 77%|███████▋  | 8242/10682 [1:18:04<20:04,  2.03it/s] 77%|███████▋  | 8243/10682 [1:18:05<20:02,  2.03it/s] 77%|███████▋  | 8244/10682 [1:18:05<20:05,  2.02it/s] 77%|███████▋  | 8245/10682 [1:18:06<20:02,  2.03it/s] 77%|███████▋  | 8246/10682 [1:18:06<20:02,  2.03it/s] 77%|███████▋  | 8247/10682 [1:18:07<20:02,  2.03it/s] 77%|███████▋  | 8248/10682 [1:18:07<20:02,  2.02it/s] 77%|███████▋  | 8249/10682 [1:18:08<20:01,  2.03it/s] 77%|███████▋  | 8250/10682 [1:18:08<19:59,  2.03it/s]{'loss': 3.5601, 'grad_norm': 0.20593059062957764, 'learning_rate': 0.00014978404491439802, 'epoch': 0.77}                                                      
+ 77%|███████▋  | 8250/10682 [1:18:08<19:59,  2.03it/s] 77%|███████▋  | 8251/10682 [1:18:09<20:01,  2.02it/s] 77%|███████▋  | 8252/10682 [1:18:09<20:01,  2.02it/s] 77%|███████▋  | 8253/10682 [1:18:10<23:25,  1.73it/s] 77%|███████▋  | 8254/10682 [1:18:10<22:23,  1.81it/s] 77%|███████▋  | 8255/10682 [1:18:11<21:40,  1.87it/s] 77%|███████▋  | 8256/10682 [1:18:11<21:09,  1.91it/s] 77%|███████▋  | 8257/10682 [1:18:12<20:49,  1.94it/s] 77%|███████▋  | 8258/10682 [1:18:12<20:32,  1.97it/s] 77%|███████▋  | 8259/10682 [1:18:13<20:21,  1.98it/s] 77%|███████▋  | 8260/10682 [1:18:13<20:12,  2.00it/s] 77%|███████▋  | 8261/10682 [1:18:14<20:06,  2.01it/s] 77%|███████▋  | 8262/10682 [1:18:14<20:03,  2.01it/s] 77%|███████▋  | 8263/10682 [1:18:15<19:59,  2.02it/s] 77%|███████▋  | 8264/10682 [1:18:15<19:57,  2.02it/s] 77%|███████▋  | 8265/10682 [1:18:16<19:55,  2.02it/s] 77%|███████▋  | 8266/10682 [1:18:16<19:52,  2.03it/s] 77%|███████▋  | 8267/10682 [1:18:17<19:54,  2.02it/s] 77%|███████▋  | 8268/10682 [1:18:17<19:53,  2.02it/s] 77%|███████▋  | 8269/10682 [1:18:18<19:53,  2.02it/s] 77%|███████▋  | 8270/10682 [1:18:18<19:54,  2.02it/s] 77%|███████▋  | 8271/10682 [1:18:19<19:53,  2.02it/s] 77%|███████▋  | 8272/10682 [1:18:19<19:51,  2.02it/s] 77%|███████▋  | 8273/10682 [1:18:20<19:51,  2.02it/s] 77%|███████▋  | 8274/10682 [1:18:20<19:50,  2.02it/s] 77%|███████▋  | 8275/10682 [1:18:21<19:50,  2.02it/s]{'loss': 3.5601, 'grad_norm': 0.2037288397550583, 'learning_rate': 0.00014688016334324605, 'epoch': 0.77}                                                      
+ 77%|███████▋  | 8275/10682 [1:18:21<19:50,  2.02it/s] 77%|███████▋  | 8276/10682 [1:18:21<19:49,  2.02it/s] 77%|███████▋  | 8277/10682 [1:18:22<19:49,  2.02it/s] 77%|███████▋  | 8278/10682 [1:18:22<19:48,  2.02it/s] 78%|███████▊  | 8279/10682 [1:18:23<19:47,  2.02it/s] 78%|███████▊  | 8280/10682 [1:18:23<19:46,  2.02it/s] 78%|███████▊  | 8281/10682 [1:18:24<19:46,  2.02it/s] 78%|███████▊  | 8282/10682 [1:18:24<19:46,  2.02it/s] 78%|███████▊  | 8283/10682 [1:18:25<19:46,  2.02it/s] 78%|███████▊  | 8284/10682 [1:18:25<19:45,  2.02it/s] 78%|███████▊  | 8285/10682 [1:18:26<19:43,  2.03it/s] 78%|███████▊  | 8286/10682 [1:18:26<19:43,  2.03it/s] 78%|███████▊  | 8287/10682 [1:18:27<19:41,  2.03it/s] 78%|███████▊  | 8288/10682 [1:18:27<19:42,  2.02it/s] 78%|███████▊  | 8289/10682 [1:18:28<19:41,  2.03it/s] 78%|███████▊  | 8290/10682 [1:18:28<19:40,  2.03it/s] 78%|███████▊  | 8291/10682 [1:18:29<19:40,  2.03it/s] 78%|███████▊  | 8292/10682 [1:18:29<19:38,  2.03it/s] 78%|███████▊  | 8293/10682 [1:18:30<19:39,  2.03it/s] 78%|███████▊  | 8294/10682 [1:18:30<19:39,  2.02it/s] 78%|███████▊  | 8295/10682 [1:18:31<19:40,  2.02it/s] 78%|███████▊  | 8296/10682 [1:18:31<19:38,  2.03it/s] 78%|███████▊  | 8297/10682 [1:18:32<19:38,  2.02it/s] 78%|███████▊  | 8298/10682 [1:18:32<19:37,  2.02it/s] 78%|███████▊  | 8299/10682 [1:18:33<19:38,  2.02it/s] 78%|███████▊  | 8300/10682 [1:18:33<19:36,  2.02it/s]{'loss': 3.5547, 'grad_norm': 0.20644982159137726, 'learning_rate': 0.00014399985296581835, 'epoch': 0.78}
+                                                       78%|███████▊  | 8300/10682 [1:18:33<19:36,  2.02it/s] 78%|███████▊  | 8301/10682 [1:18:34<19:38,  2.02it/s] 78%|███████▊  | 8302/10682 [1:18:34<19:34,  2.03it/s] 78%|███████▊  | 8303/10682 [1:18:35<19:35,  2.02it/s] 78%|███████▊  | 8304/10682 [1:18:35<19:34,  2.03it/s] 78%|███████▊  | 8305/10682 [1:18:36<19:33,  2.03it/s] 78%|███████▊  | 8306/10682 [1:18:36<19:33,  2.03it/s] 78%|███████▊  | 8307/10682 [1:18:37<19:32,  2.03it/s] 78%|███████▊  | 8308/10682 [1:18:37<19:32,  2.02it/s] 78%|███████▊  | 8309/10682 [1:18:38<19:31,  2.03it/s] 78%|███████▊  | 8310/10682 [1:18:38<19:32,  2.02it/s] 78%|███████▊  | 8311/10682 [1:18:39<19:30,  2.03it/s] 78%|███████▊  | 8312/10682 [1:18:39<19:31,  2.02it/s] 78%|███████▊  | 8313/10682 [1:18:40<19:29,  2.03it/s] 78%|███████▊  | 8314/10682 [1:18:40<19:30,  2.02it/s] 78%|███████▊  | 8315/10682 [1:18:41<19:28,  2.02it/s] 78%|███████▊  | 8316/10682 [1:18:41<19:28,  2.02it/s] 78%|███████▊  | 8317/10682 [1:18:42<19:28,  2.02it/s] 78%|███████▊  | 8318/10682 [1:18:42<19:26,  2.03it/s] 78%|███████▊  | 8319/10682 [1:18:43<19:27,  2.02it/s] 78%|███████▊  | 8320/10682 [1:18:43<19:25,  2.03it/s] 78%|███████▊  | 8321/10682 [1:18:44<19:25,  2.03it/s] 78%|███████▊  | 8322/10682 [1:18:44<19:24,  2.03it/s] 78%|███████▊  | 8323/10682 [1:18:45<19:22,  2.03it/s] 78%|███████▊  | 8324/10682 [1:18:45<19:24,  2.03it/s] 78%|███████▊  | 8325/10682 [1:18:46<19:22,  2.03it/s]{'loss': 3.5632, 'grad_norm': 0.20424576103687286, 'learning_rate': 0.00014114330604645943, 'epoch': 0.78}
+                                                       78%|███████▊  | 8325/10682 [1:18:46<19:22,  2.03it/s] 78%|███████▊  | 8326/10682 [1:18:46<19:24,  2.02it/s] 78%|███████▊  | 8327/10682 [1:18:47<19:23,  2.02it/s] 78%|███████▊  | 8328/10682 [1:18:47<19:23,  2.02it/s] 78%|███████▊  | 8329/10682 [1:18:47<19:22,  2.02it/s] 78%|███████▊  | 8330/10682 [1:18:48<19:23,  2.02it/s] 78%|███████▊  | 8331/10682 [1:18:48<19:22,  2.02it/s] 78%|███████▊  | 8332/10682 [1:18:49<19:21,  2.02it/s] 78%|███████▊  | 8333/10682 [1:18:49<19:21,  2.02it/s] 78%|███████▊  | 8334/10682 [1:18:50<19:21,  2.02it/s] 78%|███████▊  | 8335/10682 [1:18:50<19:21,  2.02it/s] 78%|███████▊  | 8336/10682 [1:18:51<19:19,  2.02it/s] 78%|███████▊  | 8337/10682 [1:18:51<19:18,  2.02it/s] 78%|███████▊  | 8338/10682 [1:18:52<19:16,  2.03it/s] 78%|███████▊  | 8339/10682 [1:18:52<19:15,  2.03it/s] 78%|███████▊  | 8340/10682 [1:18:53<19:16,  2.03it/s] 78%|███████▊  | 8341/10682 [1:18:53<19:15,  2.03it/s] 78%|███████▊  | 8342/10682 [1:18:54<19:14,  2.03it/s] 78%|███████▊  | 8343/10682 [1:18:54<19:13,  2.03it/s] 78%|███████▊  | 8344/10682 [1:18:55<19:13,  2.03it/s] 78%|███████▊  | 8345/10682 [1:18:55<19:13,  2.03it/s] 78%|██��████▊  | 8346/10682 [1:18:56<19:12,  2.03it/s] 78%|███████▊  | 8347/10682 [1:18:56<19:13,  2.02it/s] 78%|███████▊  | 8348/10682 [1:18:57<19:12,  2.03it/s] 78%|███████▊  | 8349/10682 [1:18:57<19:14,  2.02it/s] 78%|███████▊  | 8350/10682 [1:18:58<19:12,  2.02it/s]{'loss': 3.5646, 'grad_norm': 0.20660266280174255, 'learning_rate': 0.00013831071326327282, 'epoch': 0.78}                                                      
+ 78%|███████▊  | 8350/10682 [1:18:58<19:12,  2.02it/s] 78%|███████▊  | 8351/10682 [1:18:58<19:13,  2.02it/s] 78%|███████▊  | 8352/10682 [1:18:59<19:10,  2.02it/s] 78%|███████▊  | 8353/10682 [1:18:59<19:11,  2.02it/s] 78%|███████▊  | 8354/10682 [1:19:00<19:10,  2.02it/s] 78%|███████▊  | 8355/10682 [1:19:00<19:09,  2.02it/s] 78%|███████▊  | 8356/10682 [1:19:01<19:08,  2.03it/s] 78%|███████▊  | 8357/10682 [1:19:01<19:08,  2.03it/s] 78%|███████▊  | 8358/10682 [1:19:02<19:07,  2.03it/s] 78%|███████▊  | 8359/10682 [1:19:02<19:06,  2.03it/s] 78%|███████▊  | 8360/10682 [1:19:03<19:06,  2.03it/s] 78%|███████▊  | 8361/10682 [1:19:03<19:04,  2.03it/s] 78%|███████▊  | 8362/10682 [1:19:04<19:04,  2.03it/s] 78%|███████▊  | 8363/10682 [1:19:04<19:03,  2.03it/s] 78%|███████▊  | 8364/10682 [1:19:05<19:05,  2.02it/s] 78%|███████▊  | 8365/10682 [1:19:05<19:04,  2.02it/s] 78%|███████▊  | 8366/10682 [1:19:06<19:04,  2.02it/s] 78%|███████▊  | 8367/10682 [1:19:06<19:04,  2.02it/s] 78%|███████▊  | 8368/10682 [1:19:07<19:04,  2.02it/s] 78%|███████▊  | 8369/10682 [1:19:07<19:03,  2.02it/s] 78%|███████▊  | 8370/10682 [1:19:08<19:01,  2.03it/s] 78%|███████▊  | 8371/10682 [1:19:08<19:00,  2.03it/s] 78%|███████▊  | 8372/10682 [1:19:09<18:58,  2.03it/s] 78%|███████▊  | 8373/10682 [1:19:09<18:58,  2.03it/s] 78%|███████▊  | 8374/10682 [1:19:10<18:59,  2.03it/s] 78%|███████▊  | 8375/10682 [1:19:10<18:56,  2.03it/s]{'loss': 3.5652, 'grad_norm': 0.2022607922554016, 'learning_rate': 0.0001355022636953933, 'epoch': 0.78}                                                      
+ 78%|███████▊  | 8375/10682 [1:19:10<18:56,  2.03it/s] 78%|███████▊  | 8376/10682 [1:19:11<18:59,  2.02it/s] 78%|███████▊  | 8377/10682 [1:19:11<18:57,  2.03it/s] 78%|███████▊  | 8378/10682 [1:19:12<18:59,  2.02it/s] 78%|███████▊  | 8379/10682 [1:19:12<18:58,  2.02it/s] 78%|███████▊  | 8380/10682 [1:19:13<18:58,  2.02it/s] 78%|███████▊  | 8381/10682 [1:19:13<18:57,  2.02it/s] 78%|███████▊  | 8382/10682 [1:19:14<18:56,  2.02it/s] 78%|███████▊  | 8383/10682 [1:19:14<18:55,  2.02it/s] 78%|███████▊  | 8384/10682 [1:19:15<18:55,  2.02it/s] 78%|███████▊  | 8385/10682 [1:19:15<18:54,  2.02it/s] 79%|███████▊  | 8386/10682 [1:19:16<18:53,  2.03it/s] 79%|███████▊  | 8387/10682 [1:19:16<18:51,  2.03it/s] 79%|███████▊  | 8388/10682 [1:19:17<18:51,  2.03it/s] 79%|███████▊  | 8389/10682 [1:19:17<18:50,  2.03it/s] 79%|███████▊  | 8390/10682 [1:19:18<18:48,  2.03it/s] 79%|███████▊  | 8391/10682 [1:19:18<18:49,  2.03it/s] 79%|███████▊  | 8392/10682 [1:19:19<18:48,  2.03it/s] 79%|███████▊  | 8393/10682 [1:19:19<18:48,  2.03it/s] 79%|███████▊  | 8394/10682 [1:19:20<18:50,  2.02it/s] 79%|███████▊  | 8395/10682 [1:19:20<18:48,  2.03it/s] 79%|███████▊  | 8396/10682 [1:19:21<18:49,  2.02it/s] 79%|███████▊  | 8397/10682 [1:19:21<18:48,  2.03it/s] 79%|███████▊  | 8398/10682 [1:19:22<18:47,  2.03it/s] 79%|███████▊  | 8399/10682 [1:19:22<18:48,  2.02it/s] 79%|███████▊  | 8400/10682 [1:19:23<18:46,  2.03it/s]                                                      {'loss': 3.5529, 'grad_norm': 0.20978114008903503, 'learning_rate': 0.0001327181448103661, 'epoch': 0.79}
+ 79%|███████▊  | 8400/10682 [1:19:23<18:46,  2.03it/s] 79%|███████▊  | 8401/10682 [1:19:23<18:49,  2.02it/s] 79%|███████▊  | 8402/10682 [1:19:24<18:47,  2.02it/s] 79%|███████▊  | 8403/10682 [1:19:24<18:47,  2.02it/s] 79%|███████▊  | 8404/10682 [1:19:25<18:45,  2.02it/s] 79%|███████▊  | 8405/10682 [1:19:25<18:44,  2.02it/s] 79%|███████▊  | 8406/10682 [1:19:26<18:43,  2.03it/s] 79%|███████▊  | 8407/10682 [1:19:26<18:42,  2.03it/s] 79%|███████▊  | 8408/10682 [1:19:27<18:42,  2.03it/s] 79%|███████▊  | 8409/10682 [1:19:27<18:40,  2.03it/s] 79%|███████▊  | 8410/10682 [1:19:27<18:41,  2.03it/s] 79%|███████▊  | 8411/10682 [1:19:28<18:39,  2.03it/s] 79%|███████▊  | 8412/10682 [1:19:28<18:39,  2.03it/s] 79%|███████▉  | 8413/10682 [1:19:29<18:39,  2.03it/s] 79%|███████▉  | 8414/10682 [1:19:29<18:38,  2.03it/s] 79%|███████▉  | 8415/10682 [1:19:30<18:38,  2.03it/s] 79%|███████▉  | 8416/10682 [1:19:30<18:37,  2.03it/s] 79%|███████▉  | 8417/10682 [1:19:31<18:38,  2.03it/s] 79%|███████▉  | 8418/10682 [1:19:31<18:37,  2.03it/s] 79%|███████▉  | 8419/10682 [1:19:32<18:38,  2.02it/s] 79%|███████▉  | 8420/10682 [1:19:32<18:36,  2.03it/s] 79%|███████▉  | 8421/10682 [1:19:33<18:37,  2.02it/s] 79%|███████▉  | 8422/10682 [1:19:33<18:35,  2.03it/s] 79%|███████▉  | 8423/10682 [1:19:34<18:34,  2.03it/s] 79%|███████▉  | 8424/10682 [1:19:34<18:34,  2.03it/s] 79%|███████▉  | 8425/10682 [1:19:35<18:32,  2.03it/s]                                                      {'loss': 3.557, 'grad_norm': 0.20549732446670532, 'learning_rate': 0.00012995854245163207, 'epoch': 0.79}
+ 79%|███████▉  | 8425/10682 [1:19:35<18:32,  2.03it/s] 79%|███████▉  | 8426/10682 [1:19:35<18:34,  2.02it/s] 79%|███████▉  | 8427/10682 [1:19:36<18:33,  2.03it/s] 79%|███████▉  | 8428/10682 [1:19:36<18:33,  2.02it/s] 79%|███████▉  | 8429/10682 [1:19:37<18:32,  2.02it/s] 79%|███████▉  | 8430/10682 [1:19:37<18:32,  2.02it/s] 79%|███████▉  | 8431/10682 [1:19:38<18:29,  2.03it/s] 79%|███████▉  | 8432/10682 [1:19:38<18:30,  2.03it/s] 79%|███████▉  | 8433/10682 [1:19:39<18:28,  2.03it/s] 79%|███████▉  | 8434/10682 [1:19:39<18:29,  2.03it/s] 79%|███████▉  | 8435/10682 [1:19:40<18:29,  2.03it/s] 79%|███████▉  | 8436/10682 [1:19:40<18:30,  2.02it/s] 79%|███████▉  | 8437/10682 [1:19:41<18:29,  2.02it/s] 79%|███████▉  | 8438/10682 [1:19:41<18:30,  2.02it/s] 79%|███████▉  | 8439/10682 [1:19:42<18:30,  2.02it/s] 79%|███████▉  | 8440/10682 [1:19:42<18:29,  2.02it/s] 79%|███████▉  | 8441/10682 [1:19:43<18:28,  2.02it/s] 79%|███████▉  | 8442/10682 [1:19:43<18:27,  2.02it/s] 79%|███████▉  | 8443/10682 [1:19:44<18:26,  2.02it/s] 79%|███████▉  | 8444/10682 [1:19:44<18:25,  2.03it/s] 79%|███████▉  | 8445/10682 [1:19:45<18:24,  2.03it/s] 79%|███████▉  | 8446/10682 [1:19:45<18:23,  2.03it/s] 79%|███████▉  | 8447/10682 [1:19:46<18:22,  2.03it/s] 79%|███████▉  | 8448/10682 [1:19:46<18:22,  2.03it/s] 79%|███████▉  | 8449/10682 [1:19:47<18:20,  2.03it/s] 79%|███████▉  | 8450/10682 [1:19:47<18:22,  2.02it/s]{'loss': 3.5516, 'grad_norm': 0.21124078333377838, 'learning_rate': 0.0001272236408261237, 'epoch': 0.79}                                                      
+ 79%|███████▉  | 8450/10682 [1:19:47<18:22,  2.02it/s] 79%|███████▉  | 8451/10682 [1:19:48<18:24,  2.02it/s] 79%|███████▉  | 8452/10682 [1:19:48<18:23,  2.02it/s] 79%|███████▉  | 8453/10682 [1:19:49<18:23,  2.02it/s] 79%|███████▉  | 8454/10682 [1:19:49<18:23,  2.02it/s] 79%|███████▉  | 8455/10682 [1:19:50<18:21,  2.02it/s] 79%|███████▉  | 8456/10682 [1:19:50<18:22,  2.02it/s] 79%|███████▉  | 8457/10682 [1:19:51<18:21,  2.02it/s] 79%|███████▉  | 8458/10682 [1:19:51<18:20,  2.02it/s] 79%|███████▉  | 8459/10682 [1:19:52<18:19,  2.02it/s] 79%|███████▉  | 8460/10682 [1:19:52<18:17,  2.02it/s] 79%|███████▉  | 8461/10682 [1:19:53<18:16,  2.03it/s] 79%|███████▉  | 8462/10682 [1:19:53<18:15,  2.03it/s] 79%|███████▉  | 8463/10682 [1:19:54<18:14,  2.03it/s] 79%|███████▉  | 8464/10682 [1:19:54<18:14,  2.03it/s] 79%|███████▉  | 8465/10682 [1:19:55<18:13,  2.03it/s] 79%|███████▉  | 8466/10682 [1:19:55<18:14,  2.03it/s] 79%|███████▉  | 8467/10682 [1:19:56<18:13,  2.03it/s] 79%|███████▉  | 8468/10682 [1:19:56<18:14,  2.02it/s] 79%|███████▉  | 8469/10682 [1:19:57<18:13,  2.02it/s] 79%|███████▉  | 8470/10682 [1:19:57<18:14,  2.02it/s] 79%|███████▉  | 8471/10682 [1:19:58<18:12,  2.02it/s] 79%|███████▉  | 8472/10682 [1:19:58<18:13,  2.02it/s] 79%|███████▉  | 8473/10682 [1:19:59<18:11,  2.02it/s] 79%|███████▉  | 8474/10682 [1:19:59<18:11,  2.02it/s] 79%|███████▉  | 8475/10682 [1:20:00<18:10,  2.02it/s]{'loss': 3.549, 'grad_norm': 0.20311614871025085, 'learning_rate': 0.00012451362249196797, 'epoch': 0.79}                                                      
+ 79%|███████▉  | 8475/10682 [1:20:00<18:10,  2.02it/s] 79%|███████▉  | 8476/10682 [1:20:00<18:11,  2.02it/s] 79%|███████▉  | 8477/10682 [1:20:01<18:10,  2.02it/s] 79%|███████▉  | 8478/10682 [1:20:01<18:09,  2.02it/s] 79%|███████▉  | 8479/10682 [1:20:02<18:09,  2.02it/s] 79%|███████▉  | 8480/10682 [1:20:02<18:07,  2.02it/s] 79%|███████▉  | 8481/10682 [1:20:03<18:07,  2.02it/s] 79%|███████▉  | 8482/10682 [1:20:03<18:06,  2.03it/s] 79%|███████▉  | 8483/10682 [1:20:04<18:05,  2.03it/s] 79%|███████▉  | 8484/10682 [1:20:04<18:04,  2.03it/s] 79%|███████▉  | 8485/10682 [1:20:05<18:04,  2.03it/s] 79%|███████▉  | 8486/10682 [1:20:05<18:04,  2.02it/s] 79%|███████▉  | 8487/10682 [1:20:06<18:05,  2.02it/s] 79%|███████▉  | 8488/10682 [1:20:06<18:05,  2.02it/s] 79%|███████▉  | 8489/10682 [1:20:07<18:05,  2.02it/s] 79%|███████▉  | 8490/10682 [1:20:07<18:03,  2.02it/s] 79%|███████▉  | 8491/10682 [1:20:08<18:03,  2.02it/s] 79%|███████▉  | 8492/10682 [1:20:08<18:02,  2.02it/s] 80%|███████▉  | 8493/10682 [1:20:08<18:00,  2.03it/s] 80%|███████▉  | 8494/10682 [1:20:09<18:00,  2.03it/s] 80%|███████▉  | 8495/10682 [1:20:09<17:59,  2.03it/s] 80%|███████▉  | 8496/10682 [1:20:10<17:59,  2.02it/s] 80%|███████▉  | 8497/10682 [1:20:10<17:59,  2.02it/s] 80%|███████▉  | 8498/10682 [1:20:11<17:59,  2.02it/s] 80%|███████▉  | 8499/10682 [1:20:11<17:59,  2.02it/s] 80%|███████▉  | 8500/10682 [1:20:12<18:04,  2.01it/s]{'loss': 3.5507, 'grad_norm': 0.20721855759620667, 'learning_rate': 0.00012182866834630096, 'epoch': 0.8}                                                      
+ 80%|███████▉  | 8500/10682 [1:20:12<18:04,  2.01it/s] 80%|███████▉  | 8501/10682 [1:20:12<18:03,  2.01it/s] 80%|███████▉  | 8502/10682 [1:20:13<18:01,  2.02it/s] 80%|███████▉  | 8503/10682 [1:20:13<17:59,  2.02it/s] 80%|███████▉  | 8504/10682 [1:20:14<17:59,  2.02it/s] 80%|███████▉  | 8505/10682 [1:20:14<17:56,  2.02it/s] 80%|███████▉  | 8506/10682 [1:20:15<17:56,  2.02it/s] 80%|███████▉  | 8507/10682 [1:20:15<17:54,  2.03it/s] 80%|███████▉  | 8508/10682 [1:20:16<17:54,  2.02it/s] 80%|███████▉  | 8509/10682 [1:20:16<17:57,  2.02it/s] 80%|███████▉  | 8510/10682 [1:20:17<17:56,  2.02it/s] 80%|███████▉  | 8511/10682 [1:20:17<17:53,  2.02it/s] 80%|███████▉  | 8512/10682 [1:20:18<17:51,  2.02it/s] 80%|███████▉  | 8513/10682 [1:20:18<17:51,  2.02it/s] 80%|███████▉  | 8514/10682 [1:20:19<17:53,  2.02it/s] 80%|███████▉  | 8515/10682 [1:20:19<17:52,  2.02it/s] 80%|███████▉  | 8516/10682 [1:20:20<17:53,  2.02it/s] 80%|███████▉  | 8517/10682 [1:20:20<17:50,  2.02it/s] 80%|███████▉  | 8518/10682 [1:20:21<17:51,  2.02it/s] 80%|███████▉  | 8519/10682 [1:20:21<17:50,  2.02it/s] 80%|███████▉  | 8520/10682 [1:20:22<17:50,  2.02it/s] 80%|███████▉  | 8521/10682 [1:20:22<17:48,  2.02it/s] 80%|███████▉  | 8522/10682 [1:20:23<17:47,  2.02it/s] 80%|███████▉  | 8523/10682 [1:20:23<17:46,  2.02it/s] 80%|███████▉  | 8524/10682 [1:20:24<17:46,  2.02it/s] 80%|███████▉  | 8525/10682 [1:20:24<17:46,  2.02it/s]{'loss': 3.5639, 'grad_norm': 0.21201471984386444, 'learning_rate': 0.00011916895761319264, 'epoch': 0.8}                                                      
+ 80%|███████▉  | 8525/10682 [1:20:24<17:46,  2.02it/s] 80%|███████▉  | 8526/10682 [1:20:25<17:46,  2.02it/s] 80%|███████▉  | 8527/10682 [1:20:25<17:44,  2.02it/s] 80%|███████▉  | 8528/10682 [1:20:26<17:44,  2.02it/s] 80%|███████▉  | 8529/10682 [1:20:26<17:43,  2.02it/s] 80%|███████▉  | 8530/10682 [1:20:27<17:42,  2.03it/s] 80%|███████▉  | 8531/10682 [1:20:27<17:43,  2.02it/s] 80%|███████▉  | 8532/10682 [1:20:28<17:42,  2.02it/s] 80%|███████▉  | 8533/10682 [1:20:28<17:44,  2.02it/s] 80%|███████▉  | 8534/10682 [1:20:29<17:43,  2.02it/s] 80%|███████▉  | 8535/10682 [1:20:29<17:44,  2.02it/s] 80%|███████▉  | 8536/10682 [1:20:30<17:43,  2.02it/s] 80%|███████▉  | 8537/10682 [1:20:30<17:42,  2.02it/s] 80%|███████▉  | 8538/10682 [1:20:31<17:41,  2.02it/s] 80%|███████▉  | 8539/10682 [1:20:31<17:40,  2.02it/s] 80%|███████▉  | 8540/10682 [1:20:32<17:40,  2.02it/s] 80%|███████▉  | 8541/10682 [1:20:32<17:38,  2.02it/s] 80%|███████▉  | 8542/10682 [1:20:33<17:37,  2.02it/s] 80%|███████▉  | 8543/10682 [1:20:33<17:37,  2.02it/s] 80%|███████▉  | 8544/10682 [1:20:34<17:35,  2.03it/s] 80%|███████▉  | 8545/10682 [1:20:34<17:35,  2.02it/s] 80%|████████  | 8546/10682 [1:20:35<17:34,  2.03it/s] 80%|████████  | 8547/10682 [1:20:35<17:34,  2.03it/s] 80%|████████  | 8548/10682 [1:20:36<17:33,  2.03it/s] 80%|████████  | 8549/10682 [1:20:36<17:33,  2.02it/s] 80%|████████  | 8550/10682 [1:20:37<17:33,  2.02it/s]{'loss': 3.5559, 'grad_norm': 0.20266488194465637, 'learning_rate': 0.0001165346678316832, 'epoch': 0.8}                                                      
+ 80%|████████  | 8550/10682 [1:20:37<17:33,  2.02it/s] 80%|████████  | 8551/10682 [1:20:37<17:38,  2.01it/s] 80%|████████  | 8552/10682 [1:20:38<17:35,  2.02it/s] 80%|████████  | 8553/10682 [1:20:38<17:34,  2.02it/s] 80%|████████  | 8554/10682 [1:20:39<17:33,  2.02it/s] 80%|████████  | 8555/10682 [1:20:39<17:32,  2.02it/s] 80%|████████  | 8556/10682 [1:20:40<17:32,  2.02it/s] 80%|████████  | 8557/10682 [1:20:40<17:31,  2.02it/s] 80%|████████  | 8558/10682 [1:20:41<17:30,  2.02it/s] 80%|████████  | 8559/10682 [1:20:41<17:31,  2.02it/s] 80%|████████  | 8560/10682 [1:20:42<17:28,  2.02it/s] 80%|████████  | 8561/10682 [1:20:42<17:27,  2.02it/s] 80%|████████  | 8562/10682 [1:20:43<17:26,  2.03it/s] 80%|████████  | 8563/10682 [1:20:43<17:24,  2.03it/s] 80%|████████  | 8564/10682 [1:20:44<17:25,  2.03it/s] 80%|████████  | 8565/10682 [1:20:44<17:24,  2.03it/s] 80%|████████  | 8566/10682 [1:20:45<17:25,  2.02it/s] 80%|████████  | 8567/10682 [1:20:45<17:23,  2.03it/s] 80%|████████  | 8568/10682 [1:20:46<17:24,  2.02it/s] 80%|████████  | 8569/10682 [1:20:46<17:23,  2.02it/s] 80%|████████  | 8570/10682 [1:20:47<17:24,  2.02it/s] 80%|████████  | 8571/10682 [1:20:47<17:23,  2.02it/s] 80%|████████  | 8572/10682 [1:20:48<17:23,  2.02it/s] 80%|████████  | 8573/10682 [1:20:48<17:20,  2.03it/s] 80%|████████  | 8574/10682 [1:20:49<17:20,  2.03it/s] 80%|████████  | 8575/10682 [1:20:49<17:20,  2.03it/s]{'loss': 3.5541, 'grad_norm': 0.21025705337524414, 'learning_rate': 0.00011392597484393285, 'epoch': 0.8}                                                      
+ 80%|████████  | 8575/10682 [1:20:49<17:20,  2.03it/s] 80%|████████  | 8576/10682 [1:20:50<17:23,  2.02it/s] 80%|████████  | 8577/10682 [1:20:50<17:20,  2.02it/s] 80%|████████  | 8578/10682 [1:20:51<17:20,  2.02it/s] 80%|████████  | 8579/10682 [1:20:51<17:19,  2.02it/s] 80%|████████  | 8580/10682 [1:20:52<17:17,  2.03it/s] 80%|████████  | 8581/10682 [1:20:52<17:17,  2.03it/s] 80%|████████  | 8582/10682 [1:20:52<17:15,  2.03it/s] 80%|████████  | 8583/10682 [1:20:53<17:15,  2.03it/s] 80%|████████  | 8584/10682 [1:20:53<17:15,  2.03it/s] 80%|████████  | 8585/10682 [1:20:54<17:15,  2.02it/s] 80%|████████  | 8586/10682 [1:20:54<17:15,  2.02it/s] 80%|████████  | 8587/10682 [1:20:55<17:13,  2.03it/s] 80%|████████  | 8588/10682 [1:20:55<17:15,  2.02it/s] 80%|████████  | 8589/10682 [1:20:56<17:15,  2.02it/s] 80%|████████  | 8590/10682 [1:20:56<17:15,  2.02it/s] 80%|████████  | 8591/10682 [1:20:57<17:13,  2.02it/s] 80%|████████  | 8592/10682 [1:20:57<17:12,  2.02it/s] 80%|████████  | 8593/10682 [1:20:58<17:11,  2.02it/s] 80%|████████  | 8594/10682 [1:20:58<17:12,  2.02it/s] 80%|████████  | 8595/10682 [1:20:59<17:10,  2.02it/s] 80%|████████  | 8596/10682 [1:20:59<17:10,  2.02it/s] 80%|████████  | 8597/10682 [1:21:00<17:09,  2.03it/s] 80%|████████  | 8598/10682 [1:21:00<17:08,  2.03it/s] 80%|████████  | 8599/10682 [1:21:01<17:08,  2.02it/s] 81%|████████  | 8600/10682 [1:21:01<17:06,  2.03it/s]                                                      {'loss': 3.5578, 'grad_norm': 0.20274990797042847, 'learning_rate': 0.00011134305278348312, 'epoch': 0.81}
+ 81%|████████  | 8600/10682 [1:21:01<17:06,  2.03it/s] 81%|████████  | 8601/10682 [1:21:02<17:08,  2.02it/s] 81%|████████  | 8602/10682 [1:21:02<17:06,  2.03it/s] 81%|████████  | 8603/10682 [1:21:03<17:06,  2.02it/s] 81%|████████  | 8604/10682 [1:21:03<17:07,  2.02it/s] 81%|████████  | 8605/10682 [1:21:04<17:07,  2.02it/s] 81%|████████  | 8606/10682 [1:21:04<17:06,  2.02it/s] 81%|████████  | 8607/10682 [1:21:05<17:05,  2.02it/s] 81%|████████  | 8608/10682 [1:21:05<17:06,  2.02it/s] 81%|████████  | 8609/10682 [1:21:06<17:06,  2.02it/s] 81%|████████  | 8610/10682 [1:21:06<17:06,  2.02it/s] 81%|████████  | 8611/10682 [1:21:07<17:04,  2.02it/s] 81%|████████  | 8612/10682 [1:21:07<17:03,  2.02it/s] 81%|████████  | 8613/10682 [1:21:08<17:01,  2.02it/s] 81%|████████  | 8614/10682 [1:21:08<17:00,  2.03it/s] 81%|████████  | 8615/10682 [1:21:09<17:01,  2.02it/s] 81%|████████  | 8616/10682 [1:21:09<16:59,  2.03it/s] 81%|████████  | 8617/10682 [1:21:10<16:59,  2.02it/s] 81%|████████  | 8618/10682 [1:21:10<16:58,  2.03it/s] 81%|████████  | 8619/10682 [1:21:11<16:59,  2.02it/s] 81%|████████  | 8620/10682 [1:21:11<16:57,  2.03it/s] 81%|████████  | 8621/10682 [1:21:12<16:59,  2.02it/s] 81%|████████  | 8622/10682 [1:21:12<16:57,  2.02it/s] 81%|████████  | 8623/10682 [1:21:13<16:58,  2.02it/s] 81%|████████  | 8624/10682 [1:21:13<16:57,  2.02it/s] 81%|████████  | 8625/10682 [1:21:14<16:57,  2.02it/s]{'loss': 3.5487, 'grad_norm': 0.20976576209068298, 'learning_rate': 0.00010878607406363367, 'epoch': 0.81}                                                      
+ 81%|████████  | 8625/10682 [1:21:14<16:57,  2.02it/s] 81%|████████  | 8626/10682 [1:21:14<16:56,  2.02it/s] 81%|████████  | 8627/10682 [1:21:15<16:54,  2.03it/s] 81%|████████  | 8628/10682 [1:21:15<16:53,  2.03it/s] 81%|████████  | 8629/10682 [1:21:16<16:52,  2.03it/s] 81%|████████  | 8630/10682 [1:21:16<16:52,  2.03it/s] 81%|████████  | 8631/10682 [1:21:17<16:51,  2.03it/s] 81%|████████  | 8632/10682 [1:21:17<16:52,  2.03it/s] 81%|████████  | 8633/10682 [1:21:18<16:50,  2.03it/s] 81%|████████  | 8634/10682 [1:21:18<16:51,  2.03it/s] 81%|████████  | 8635/10682 [1:21:19<16:50,  2.02it/s] 81%|████████  | 8636/10682 [1:21:19<16:51,  2.02it/s] 81%|████████  | 8637/10682 [1:21:20<16:49,  2.03it/s] 81%|████████  | 8638/10682 [1:21:20<16:49,  2.02it/s] 81%|████████  | 8639/10682 [1:21:21<16:48,  2.02it/s] 81%|████████  | 8640/10682 [1:21:21<16:49,  2.02it/s] 81%|████████  | 8641/10682 [1:21:22<16:49,  2.02it/s] 81%|████████  | 8642/10682 [1:21:22<16:48,  2.02it/s] 81%|████████  | 8643/10682 [1:21:23<16:46,  2.02it/s] 81%|████████  | 8644/10682 [1:21:23<16:46,  2.02it/s] 81%|████████  | 8645/10682 [1:21:24<16:46,  2.02it/s] 81%|████████  | 8646/10682 [1:21:24<16:45,  2.03it/s] 81%|████████  | 8647/10682 [1:21:25<16:44,  2.03it/s] 81%|████████  | 8648/10682 [1:21:25<16:44,  2.02it/s] 81%|████████  | 8649/10682 [1:21:26<16:43,  2.03it/s] 81%|████████  | 8650/10682 [1:21:26<16:43,  2.03it/s]                                                      {'loss': 3.5518, 'grad_norm': 0.21432042121887207, 'learning_rate': 0.00010625520936593375, 'epoch': 0.81}
+ 81%|████████  | 8650/10682 [1:21:26<16:43,  2.03it/s] 81%|████████  | 8651/10682 [1:21:27<16:43,  2.02it/s] 81%|████████  | 8652/10682 [1:21:27<16:43,  2.02it/s] 81%|████████  | 8653/10682 [1:21:28<16:41,  2.03it/s] 81%|████████  | 8654/10682 [1:21:28<16:42,  2.02it/s] 81%|████████  | 8655/10682 [1:21:29<16:42,  2.02it/s] 81%|████████  | 8656/10682 [1:21:29<16:41,  2.02it/s] 81%|████████  | 8657/10682 [1:21:30<16:41,  2.02it/s] 81%|████████  | 8658/10682 [1:21:30<16:40,  2.02it/s] 81%|████████  | 8659/10682 [1:21:31<16:40,  2.02it/s] 81%|████████  | 8660/10682 [1:21:31<16:38,  2.02it/s] 81%|████████  | 8661/10682 [1:21:32<16:37,  2.03it/s] 81%|████████  | 8662/10682 [1:21:32<16:37,  2.02it/s] 81%|████████  | 8663/10682 [1:21:33<16:35,  2.03it/s] 81%|████████  | 8664/10682 [1:21:33<16:35,  2.03it/s] 81%|████████  | 8665/10682 [1:21:34<16:36,  2.02it/s] 81%|████████  | 8666/10682 [1:21:34<16:35,  2.03it/s] 81%|████████  | 8667/10682 [1:21:34<16:34,  2.03it/s] 81%|████████  | 8668/10682 [1:21:35<16:34,  2.03it/s] 81%|████████  | 8669/10682 [1:21:35<16:33,  2.03it/s] 81%|████████  | 8670/10682 [1:21:36<16:33,  2.03it/s] 81%|████████  | 8671/10682 [1:21:36<16:32,  2.03it/s] 81%|████████  | 8672/10682 [1:21:37<16:33,  2.02it/s] 81%|████████  | 8673/10682 [1:21:37<16:32,  2.02it/s] 81%|████████  | 8674/10682 [1:21:38<16:33,  2.02it/s] 81%|████████  | 8675/10682 [1:21:38<16:32,  2.02it/s]{'loss': 3.5501, 'grad_norm': 0.1991213709115982, 'learning_rate': 0.0001037506276287885, 'epoch': 0.81}                                                      
+ 81%|████████  | 8675/10682 [1:21:38<16:32,  2.02it/s] 81%|████████  | 8676/10682 [1:21:39<16:32,  2.02it/s] 81%|████████  | 8677/10682 [1:21:39<16:31,  2.02it/s] 81%|████████  | 8678/10682 [1:21:40<16:31,  2.02it/s] 81%|████████  | 8679/10682 [1:21:40<16:29,  2.02it/s] 81%|████████▏ | 8680/10682 [1:21:41<16:30,  2.02it/s] 81%|████████▏ | 8681/10682 [1:21:41<16:28,  2.02it/s] 81%|████████▏ | 8682/10682 [1:21:42<16:26,  2.03it/s] 81%|████████▏ | 8683/10682 [1:21:42<16:26,  2.03it/s] 81%|████████▏ | 8684/10682 [1:21:43<16:24,  2.03it/s] 81%|████████▏ | 8685/10682 [1:21:43<16:25,  2.03it/s] 81%|████████▏ | 8686/10682 [1:21:44<16:24,  2.03it/s] 81%|████████▏ | 8687/10682 [1:21:44<16:26,  2.02it/s] 81%|████████▏ | 8688/10682 [1:21:45<16:25,  2.02it/s] 81%|████████▏ | 8689/10682 [1:21:45<16:24,  2.02it/s] 81%|████████▏ | 8690/10682 [1:21:46<16:23,  2.03it/s] 81%|████████▏ | 8691/10682 [1:21:46<16:22,  2.03it/s] 81%|████████▏ | 8692/10682 [1:21:47<16:23,  2.02it/s] 81%|████████▏ | 8693/10682 [1:21:47<16:23,  2.02it/s] 81%|████████▏ | 8694/10682 [1:21:48<16:22,  2.02it/s] 81%|████████▏ | 8695/10682 [1:21:48<16:22,  2.02it/s] 81%|████████▏ | 8696/10682 [1:21:49<16:21,  2.02it/s] 81%|████████▏ | 8697/10682 [1:21:49<16:22,  2.02it/s] 81%|████████▏ | 8698/10682 [1:21:50<16:21,  2.02it/s] 81%|████████▏ | 8699/10682 [1:21:50<16:20,  2.02it/s] 81%|████████▏ | 8700/10682 [1:21:51<16:20,  2.02it/s]{'loss': 3.5505, 'grad_norm': 0.20582009851932526, 'learning_rate': 0.0001012724960361826, 'epoch': 0.81}
+                                                       81%|████████▏ | 8700/10682 [1:21:51<16:20,  2.02it/s] 81%|████████▏ | 8701/10682 [1:21:51<16:20,  2.02it/s] 81%|████████▏ | 8702/10682 [1:21:52<16:19,  2.02it/s] 81%|████████▏ | 8703/10682 [1:21:52<16:19,  2.02it/s] 81%|████████▏ | 8704/10682 [1:21:53<16:18,  2.02it/s] 81%|████████▏ | 8705/10682 [1:21:53<16:17,  2.02it/s] 82%|████████▏ | 8706/10682 [1:21:54<16:17,  2.02it/s] 82%|████████▏ | 8707/10682 [1:21:54<16:17,  2.02it/s] 82%|████████▏ | 8708/10682 [1:21:55<16:16,  2.02it/s] 82%|████████▏ | 8709/10682 [1:21:55<16:15,  2.02it/s] 82%|████████▏ | 8710/10682 [1:21:56<16:16,  2.02it/s] 82%|████████▏ | 8711/10682 [1:21:56<16:15,  2.02it/s] 82%|████████▏ | 8712/10682 [1:21:57<16:15,  2.02it/s] 82%|████████▏ | 8713/10682 [1:21:57<16:14,  2.02it/s] 82%|████████▏ | 8714/10682 [1:21:58<16:13,  2.02it/s] 82%|████████▏ | 8715/10682 [1:21:58<16:11,  2.02it/s] 82%|████████▏ | 8716/10682 [1:21:59<16:10,  2.03it/s] 82%|████████▏ | 8717/10682 [1:21:59<16:09,  2.03it/s] 82%|████████▏ | 8718/10682 [1:22:00<16:08,  2.03it/s] 82%|████████▏ | 8719/10682 [1:22:00<16:08,  2.03it/s] 82%|████████▏ | 8720/10682 [1:22:01<16:07,  2.03it/s] 82%|████████▏ | 8721/10682 [1:22:01<16:08,  2.03it/s] 82%|████████▏ | 8722/10682 [1:22:02<16:07,  2.03it/s] 82%|████████▏ | 8723/10682 [1:22:02<16:07,  2.03it/s] 82%|████████▏ | 8724/10682 [1:22:03<16:06,  2.03it/s] 82%|████████▏ | 8725/10682 [1:22:03<16:06,  2.02it/s]{'loss': 3.5382, 'grad_norm': 0.19991101324558258, 'learning_rate': 9.882098000652034e-05, 'epoch': 0.82}                                                      
+ 82%|████████▏ | 8725/10682 [1:22:03<16:06,  2.02it/s] 82%|████████▏ | 8726/10682 [1:22:04<16:07,  2.02it/s] 82%|████████▏ | 8727/10682 [1:22:04<16:07,  2.02it/s] 82%|████████▏ | 8728/10682 [1:22:05<16:06,  2.02it/s] 82%|████████▏ | 8729/10682 [1:22:05<16:05,  2.02it/s] 82%|████████▏ | 8730/10682 [1:22:06<16:04,  2.02it/s] 82%|████████▏ | 8731/10682 [1:22:06<16:03,  2.03it/s] 82%|████████▏ | 8732/10682 [1:22:07<16:03,  2.02it/s] 82%|████████▏ | 8733/10682 [1:22:07<16:02,  2.02it/s] 82%|████████▏ | 8734/10682 [1:22:08<16:02,  2.02it/s] 82%|████████▏ | 8735/10682 [1:22:08<16:02,  2.02it/s] 82%|████████▏ | 8736/10682 [1:22:09<16:01,  2.02it/s] 82%|████████▏ | 8737/10682 [1:22:09<16:01,  2.02it/s] 82%|████████▏ | 8738/10682 [1:22:10<16:01,  2.02it/s] 82%|████████▏ | 8739/10682 [1:22:10<16:01,  2.02it/s] 82%|████████▏ | 8740/10682 [1:22:11<16:00,  2.02it/s] 82%|████████▏ | 8741/10682 [1:22:11<16:00,  2.02it/s] 82%|████████▏ | 8742/10682 [1:22:12<15:58,  2.02it/s] 82%|████████▏ | 8743/10682 [1:22:12<15:58,  2.02it/s] 82%|████████▏ | 8744/10682 [1:22:13<15:57,  2.02it/s] 82%|████████▏ | 8745/10682 [1:22:13<15:58,  2.02it/s] 82%|████████▏ | 8746/10682 [1:22:14<15:56,  2.02it/s] 82%|████████▏ | 8747/10682 [1:22:14<15:55,  2.02it/s] 82%|████████▏ | 8748/10682 [1:22:15<15:55,  2.02it/s] 82%|████████▏ | 8749/10682 [1:22:15<15:54,  2.02it/s] 82%|████████▏ | 8750/10682 [1:22:16<15:54,  2.02it/s]                                                      {'loss': 3.5509, 'grad_norm': 0.21237409114837646, 'learning_rate': 9.639624318158335e-05, 'epoch': 0.82}
+ 82%|████████▏ | 8750/10682 [1:22:16<15:54,  2.02it/s] 82%|████████▏ | 8751/10682 [1:22:16<15:56,  2.02it/s] 82%|████████▏ | 8752/10682 [1:22:17<15:56,  2.02it/s] 82%|████████▏ | 8753/10682 [1:22:17<15:54,  2.02it/s] 82%|████████▏ | 8754/10682 [1:22:17<15:54,  2.02it/s] 82%|████████▏ | 8755/10682 [1:22:18<15:53,  2.02it/s] 82%|████████▏ | 8756/10682 [1:22:18<15:53,  2.02it/s] 82%|████████▏ | 8757/10682 [1:22:19<15:51,  2.02it/s] 82%|████████▏ | 8758/10682 [1:22:19<15:51,  2.02it/s] 82%|████████▏ | 8759/10682 [1:22:20<15:49,  2.02it/s] 82%|████████▏ | 8760/10682 [1:22:20<15:49,  2.02it/s] 82%|████████▏ | 8761/10682 [1:22:21<15:48,  2.03it/s] 82%|████████▏ | 8762/10682 [1:22:21<15:47,  2.03it/s] 82%|████████▏ | 8763/10682 [1:22:22<15:47,  2.03it/s] 82%|████████▏ | 8764/10682 [1:22:22<15:45,  2.03it/s] 82%|████████▏ | 8765/10682 [1:22:23<15:45,  2.03it/s] 82%|████████▏ | 8766/10682 [1:22:23<15:44,  2.03it/s] 82%|████████▏ | 8767/10682 [1:22:24<15:44,  2.03it/s] 82%|████████▏ | 8768/10682 [1:22:24<15:44,  2.03it/s] 82%|████████▏ | 8769/10682 [1:22:25<15:44,  2.03it/s] 82%|████████▏ | 8770/10682 [1:22:25<15:43,  2.03it/s] 82%|████████▏ | 8771/10682 [1:22:26<15:42,  2.03it/s] 82%|████████▏ | 8772/10682 [1:22:26<15:42,  2.03it/s] 82%|████████▏ | 8773/10682 [1:22:27<15:41,  2.03it/s] 82%|████████▏ | 8774/10682 [1:22:27<15:41,  2.03it/s] 82%|████████▏ | 8775/10682 [1:22:28<15:41,  2.03it/s]                                                      {'loss': 3.5479, 'grad_norm': 0.20339708030223846, 'learning_rate': 9.399844741560781e-05, 'epoch': 0.82}
+ 82%|████████▏ | 8775/10682 [1:22:28<15:41,  2.03it/s] 82%|████████▏ | 8776/10682 [1:22:28<15:42,  2.02it/s] 82%|████████▏ | 8777/10682 [1:22:29<15:42,  2.02it/s] 82%|████████▏ | 8778/10682 [1:22:29<15:41,  2.02it/s] 82%|████████▏ | 8779/10682 [1:22:30<15:41,  2.02it/s] 82%|████████▏ | 8780/10682 [1:22:30<15:41,  2.02it/s] 82%|████████▏ | 8781/10682 [1:22:31<15:40,  2.02it/s] 82%|████████▏ | 8782/10682 [1:22:31<15:40,  2.02it/s] 82%|████████▏ | 8783/10682 [1:22:32<15:39,  2.02it/s] 82%|████████▏ | 8784/10682 [1:22:32<15:38,  2.02it/s] 82%|████████▏ | 8785/10682 [1:22:33<15:37,  2.02it/s] 82%|████████▏ | 8786/10682 [1:22:33<15:36,  2.03it/s] 82%|████████▏ | 8787/10682 [1:22:34<15:36,  2.02it/s] 82%|████████▏ | 8788/10682 [1:22:34<15:34,  2.03it/s] 82%|████████▏ | 8789/10682 [1:22:35<15:33,  2.03it/s] 82%|████████▏ | 8790/10682 [1:22:35<15:33,  2.03it/s] 82%|████████▏ | 8791/10682 [1:22:36<15:32,  2.03it/s] 82%|████████▏ | 8792/10682 [1:22:36<15:32,  2.03it/s] 82%|████████▏ | 8793/10682 [1:22:37<15:32,  2.03it/s] 82%|████████▏ | 8794/10682 [1:22:37<15:31,  2.03it/s] 82%|████████▏ | 8795/10682 [1:22:38<15:31,  2.03it/s] 82%|████████▏ | 8796/10682 [1:22:38<15:30,  2.03it/s] 82%|████████▏ | 8797/10682 [1:22:39<15:31,  2.02it/s] 82%|████████▏ | 8798/10682 [1:22:39<15:30,  2.03it/s] 82%|████████▏ | 8799/10682 [1:22:40<15:30,  2.02it/s] 82%|████████▏ | 8800/10682 [1:22:40<15:30,  2.02it/s]                                                      {'loss': 3.5417, 'grad_norm': 0.20382283627986908, 'learning_rate': 9.162775276448015e-05, 'epoch': 0.82}
+ 82%|████████▏ | 8800/10682 [1:22:40<15:30,  2.02it/s] 82%|████████▏ | 8801/10682 [1:22:41<15:31,  2.02it/s] 82%|████████▏ | 8802/10682 [1:22:41<15:30,  2.02it/s] 82%|████████▏ | 8803/10682 [1:22:42<15:29,  2.02it/s] 82%|████████▏ | 8804/10682 [1:22:42<15:28,  2.02it/s] 82%|████████▏ | 8805/10682 [1:22:43<15:28,  2.02it/s] 82%|████████▏ | 8806/10682 [1:22:43<15:26,  2.02it/s] 82%|████████▏ | 8807/10682 [1:22:44<15:26,  2.02it/s] 82%|████████▏ | 8808/10682 [1:22:44<15:25,  2.03it/s] 82%|████████▏ | 8809/10682 [1:22:45<15:26,  2.02it/s] 82%|████████▏ | 8810/10682 [1:22:45<15:25,  2.02it/s] 82%|████████▏ | 8811/10682 [1:22:46<15:26,  2.02it/s] 82%|████████▏ | 8812/10682 [1:22:46<15:24,  2.02it/s] 83%|████████▎ | 8813/10682 [1:22:47<15:24,  2.02it/s] 83%|████████▎ | 8814/10682 [1:22:47<15:23,  2.02it/s] 83%|████████▎ | 8815/10682 [1:22:48<15:23,  2.02it/s] 83%|████████▎ | 8816/10682 [1:22:48<15:21,  2.02it/s] 83%|████████▎ | 8817/10682 [1:22:49<15:21,  2.02it/s] 83%|████████▎ | 8818/10682 [1:22:49<15:20,  2.02it/s] 83%|████████▎ | 8819/10682 [1:22:50<15:21,  2.02it/s] 83%|████████▎ | 8820/10682 [1:22:50<15:19,  2.02it/s] 83%|████████▎ | 8821/10682 [1:22:51<15:19,  2.02it/s] 83%|████████▎ | 8822/10682 [1:22:51<15:18,  2.02it/s] 83%|████████▎ | 8823/10682 [1:22:52<15:18,  2.02it/s] 83%|████████▎ | 8824/10682 [1:22:52<15:18,  2.02it/s] 83%|████████▎ | 8825/10682 [1:22:53<15:18,  2.02it/s]{'loss': 3.5445, 'grad_norm': 0.20464368164539337, 'learning_rate': 8.928431747505355e-05, 'epoch': 0.83}                                                      
+ 83%|████████▎ | 8825/10682 [1:22:53<15:18,  2.02it/s] 83%|████████▎ | 8826/10682 [1:22:53<15:18,  2.02it/s] 83%|████████▎ | 8827/10682 [1:22:54<15:16,  2.02it/s] 83%|████████▎ | 8828/10682 [1:22:54<15:16,  2.02it/s] 83%|████████▎ | 8829/10682 [1:22:55<15:15,  2.02it/s] 83%|████████▎ | 8830/10682 [1:22:55<15:15,  2.02it/s] 83%|████████▎ | 8831/10682 [1:22:56<15:14,  2.02it/s] 83%|████████▎ | 8832/10682 [1:22:56<15:14,  2.02it/s] 83%|████████▎ | 8833/10682 [1:22:57<15:12,  2.03it/s] 83%|████████▎ | 8834/10682 [1:22:57<15:12,  2.02it/s] 83%|████████▎ | 8835/10682 [1:22:58<15:11,  2.03it/s] 83%|████████▎ | 8836/10682 [1:22:58<15:11,  2.03it/s] 83%|████████▎ | 8837/10682 [1:22:59<15:11,  2.02it/s] 83%|████████▎ | 8838/10682 [1:22:59<15:10,  2.03it/s] 83%|████████▎ | 8839/10682 [1:22:59<15:10,  2.02it/s] 83%|████████▎ | 8840/10682 [1:23:00<15:09,  2.03it/s] 83%|████████▎ | 8841/10682 [1:23:00<15:08,  2.03it/s] 83%|████████▎ | 8842/10682 [1:23:01<15:07,  2.03it/s] 83%|████████▎ | 8843/10682 [1:23:01<15:07,  2.03it/s] 83%|████████▎ | 8844/10682 [1:23:02<15:07,  2.03it/s] 83%|████████▎ | 8845/10682 [1:23:02<15:06,  2.03it/s] 83%|████████▎ | 8846/10682 [1:23:03<15:06,  2.02it/s] 83%|████████▎ | 8847/10682 [1:23:03<15:05,  2.03it/s] 83%|████████▎ | 8848/10682 [1:23:04<15:05,  2.03it/s] 83%|████████▎ | 8849/10682 [1:23:04<15:05,  2.02it/s] 83%|████████▎ | 8850/10682 [1:23:05<15:05,  2.02it/s]{'loss': 3.5478, 'grad_norm': 0.20495674014091492, 'learning_rate': 8.6968297974584e-05, 'epoch': 0.83}                                                      
+ 83%|████████▎ | 8850/10682 [1:23:05<15:05,  2.02it/s] 83%|████████▎ | 8851/10682 [1:23:05<15:06,  2.02it/s] 83%|████████▎ | 8852/10682 [1:23:06<15:05,  2.02it/s] 83%|████████▎ | 8853/10682 [1:23:06<15:03,  2.02it/s] 83%|████████▎ | 8854/10682 [1:23:07<15:03,  2.02it/s] 83%|████████▎ | 8855/10682 [1:23:07<15:02,  2.02it/s] 83%|████████▎ | 8856/10682 [1:23:08<15:01,  2.03it/s] 83%|████████▎ | 8857/10682 [1:23:08<15:01,  2.03it/s] 83%|████████▎ | 8858/10682 [1:23:09<15:00,  2.03it/s] 83%|████████▎ | 8859/10682 [1:23:09<15:00,  2.02it/s] 83%|████████▎ | 8860/10682 [1:23:10<14:59,  2.03it/s] 83%|████████▎ | 8861/10682 [1:23:10<15:01,  2.02it/s] 83%|████████▎ | 8862/10682 [1:23:11<15:00,  2.02it/s] 83%|████████▎ | 8863/10682 [1:23:11<15:00,  2.02it/s] 83%|████████▎ | 8864/10682 [1:23:12<14:59,  2.02it/s] 83%|████████▎ | 8865/10682 [1:23:12<14:58,  2.02it/s] 83%|████████▎ | 8866/10682 [1:23:13<14:57,  2.02it/s] 83%|████████▎ | 8867/10682 [1:23:13<14:57,  2.02it/s] 83%|████████▎ | 8868/10682 [1:23:14<14:56,  2.02it/s] 83%|████████▎ | 8869/10682 [1:23:14<14:54,  2.03it/s] 83%|████████▎ | 8870/10682 [1:23:15<14:55,  2.02it/s] 83%|████████▎ | 8871/10682 [1:23:15<14:53,  2.03it/s] 83%|████████▎ | 8872/10682 [1:23:16<14:53,  2.03it/s] 83%|████████▎ | 8873/10682 [1:23:16<14:52,  2.03it/s] 83%|████████▎ | 8874/10682 [1:23:17<14:51,  2.03it/s] 83%|████████▎ | 8875/10682 [1:23:17<14:51,  2.03it/s]{'loss': 3.536, 'grad_norm': 0.2031855285167694, 'learning_rate': 8.467984886028967e-05, 'epoch': 0.83}
+                                                       83%|████████▎ | 8875/10682 [1:23:17<14:51,  2.03it/s] 83%|████████▎ | 8876/10682 [1:23:18<14:52,  2.02it/s] 83%|████████▎ | 8877/10682 [1:23:18<14:52,  2.02it/s] 83%|████████▎ | 8878/10682 [1:23:19<14:50,  2.02it/s] 83%|████████▎ | 8879/10682 [1:23:19<14:51,  2.02it/s] 83%|████████▎ | 8880/10682 [1:23:20<14:50,  2.02it/s] 83%|████████▎ | 8881/10682 [1:23:20<14:50,  2.02it/s] 83%|████████▎ | 8882/10682 [1:23:21<14:49,  2.02it/s] 83%|████████▎ | 8883/10682 [1:23:21<14:48,  2.02it/s] 83%|████████▎ | 8884/10682 [1:23:22<14:48,  2.02it/s] 83%|████████▎ | 8885/10682 [1:23:22<14:47,  2.02it/s] 83%|████████▎ | 8886/10682 [1:23:23<14:47,  2.02it/s] 83%|████████▎ | 8887/10682 [1:23:23<14:46,  2.02it/s] 83%|████████▎ | 8888/10682 [1:23:24<14:46,  2.02it/s] 83%|████████▎ | 8889/10682 [1:23:24<14:45,  2.02it/s] 83%|████████▎ | 8890/10682 [1:23:25<14:45,  2.02it/s] 83%|████████▎ | 8891/10682 [1:23:25<14:44,  2.02it/s] 83%|████████▎ | 8892/10682 [1:23:26<14:45,  2.02it/s] 83%|████████▎ | 8893/10682 [1:23:26<14:45,  2.02it/s] 83%|████████▎ | 8894/10682 [1:23:27<14:44,  2.02it/s] 83%|████████▎ | 8895/10682 [1:23:27<14:43,  2.02it/s] 83%|████████▎ | 8896/10682 [1:23:28<14:44,  2.02it/s] 83%|████████▎ | 8897/10682 [1:23:28<14:43,  2.02it/s] 83%|████████▎ | 8898/10682 [1:23:29<14:42,  2.02it/s] 83%|████████▎ | 8899/10682 [1:23:29<14:41,  2.02it/s] 83%|████████▎ | 8900/10682 [1:23:30<14:40,  2.02it/s]{'loss': 3.5515, 'grad_norm': 0.19947654008865356, 'learning_rate': 8.24191228890303e-05, 'epoch': 0.83}
+                                                       83%|████████▎ | 8900/10682 [1:23:30<14:40,  2.02it/s] 83%|████████▎ | 8901/10682 [1:23:30<14:40,  2.02it/s] 83%|████████▎ | 8902/10682 [1:23:31<14:39,  2.02it/s] 83%|████████▎ | 8903/10682 [1:23:31<14:38,  2.02it/s] 83%|████████▎ | 8904/10682 [1:23:32<14:36,  2.03it/s] 83%|████████▎ | 8905/10682 [1:23:32<14:36,  2.03it/s] 83%|████████▎ | 8906/10682 [1:23:33<14:35,  2.03it/s] 83%|████████▎ | 8907/10682 [1:23:33<14:35,  2.03it/s] 83%|████████▎ | 8908/10682 [1:23:34<14:36,  2.03it/s] 83%|████████▎ | 8909/10682 [1:23:34<14:35,  2.02it/s] 83%|████████▎ | 8910/10682 [1:23:35<14:35,  2.02it/s] 83%|████████▎ | 8911/10682 [1:23:35<14:34,  2.02it/s] 83%|████████▎ | 8912/10682 [1:23:36<14:35,  2.02it/s] 83%|████████▎ | 8913/10682 [1:23:36<14:34,  2.02it/s] 83%|████████▎ | 8914/10682 [1:23:37<14:35,  2.02it/s] 83%|████████▎ | 8915/10682 [1:23:37<14:33,  2.02it/s] 83%|████████▎ | 8916/10682 [1:23:38<14:33,  2.02it/s] 83%|████████▎ | 8917/10682 [1:23:38<14:31,  2.02it/s] 83%|████████▎ | 8918/10682 [1:23:39<14:31,  2.02it/s] 83%|████████▎ | 8919/10682 [1:23:39<14:30,  2.03it/s] 84%|████████▎ | 8920/10682 [1:23:40<14:28,  2.03it/s] 84%|████████▎ | 8921/10682 [1:23:40<14:28,  2.03it/s] 84%|████████▎ | 8922/10682 [1:23:40<14:27,  2.03it/s] 84%|████████▎ | 8923/10682 [1:23:41<14:26,  2.03it/s] 84%|████████▎ | 8924/10682 [1:23:41<14:26,  2.03it/s] 84%|████████▎ | 8925/10682 [1:23:42<14:25,  2.03it/s]{'loss': 3.5506, 'grad_norm': 0.20096661150455475, 'learning_rate': 8.018627096711106e-05, 'epoch': 0.84}
+                                                       84%|████████▎ | 8925/10682 [1:23:42<14:25,  2.03it/s] 84%|████████▎ | 8926/10682 [1:23:42<14:27,  2.02it/s] 84%|████████▎ | 8927/10682 [1:23:43<14:25,  2.03it/s] 84%|████████▎ | 8928/10682 [1:23:43<14:25,  2.03it/s] 84%|████████▎ | 8929/10682 [1:23:44<14:26,  2.02it/s] 84%|████████▎ | 8930/10682 [1:23:44<14:25,  2.02it/s] 84%|████████▎ | 8931/10682 [1:23:45<14:26,  2.02it/s] 84%|████████▎ | 8932/10682 [1:23:45<14:25,  2.02it/s] 84%|████████▎ | 8933/10682 [1:23:46<14:24,  2.02it/s] 84%|████████▎ | 8934/10682 [1:23:46<14:24,  2.02it/s] 84%|████████▎ | 8935/10682 [1:23:47<14:22,  2.02it/s] 84%|████████▎ | 8936/10682 [1:23:47<14:25,  2.02it/s] 84%|████████▎ | 8937/10682 [1:23:48<16:47,  1.73it/s] 84%|████████▎ | 8938/10682 [1:23:49<16:03,  1.81it/s] 84%|████████▎ | 8939/10682 [1:23:49<15:32,  1.87it/s] 84%|████████▎ | 8940/10682 [1:23:50<15:10,  1.91it/s] 84%|████████▎ | 8941/10682 [1:23:50<14:54,  1.95it/s] 84%|████████▎ | 8942/10682 [1:23:51<14:43,  1.97it/s] 84%|████████▎ | 8943/10682 [1:23:51<14:34,  1.99it/s] 84%|████████▎ | 8944/10682 [1:23:52<14:30,  2.00it/s] 84%|████████▎ | 8945/10682 [1:23:52<14:25,  2.01it/s] 84%|████████▎ | 8946/10682 [1:23:53<14:22,  2.01it/s] 84%|████████▍ | 8947/10682 [1:23:53<14:21,  2.01it/s] 84%|████████▍ | 8948/10682 [1:23:54<14:20,  2.02it/s] 84%|████████▍ | 8949/10682 [1:23:54<14:18,  2.02it/s] 84%|████████▍ | 8950/10682 [1:23:55<14:17,  2.02it/s]{'loss': 3.5432, 'grad_norm': 0.20327843725681305, 'learning_rate': 7.798144214020909e-05, 'epoch': 0.84}                                                      
+ 84%|████████▍ | 8950/10682 [1:23:55<14:17,  2.02it/s] 84%|████████▍ | 8951/10682 [1:23:55<14:17,  2.02it/s] 84%|████████▍ | 8952/10682 [1:23:56<14:15,  2.02it/s] 84%|████████▍ | 8953/10682 [1:23:56<14:14,  2.02it/s] 84%|████████▍ | 8954/10682 [1:23:57<14:12,  2.03it/s] 84%|████████▍ | 8955/10682 [1:23:57<14:12,  2.03it/s] 84%|████████▍ | 8956/10682 [1:23:58<14:11,  2.03it/s] 84%|████████▍ | 8957/10682 [1:23:58<14:10,  2.03it/s] 84%|████████▍ | 8958/10682 [1:23:59<14:10,  2.03it/s] 84%|████████▍ | 8959/10682 [1:23:59<14:09,  2.03it/s] 84%|████████▍ | 8960/10682 [1:24:00<14:09,  2.03it/s] 84%|████████▍ | 8961/10682 [1:24:00<14:08,  2.03it/s] 84%|████████▍ | 8962/10682 [1:24:01<14:08,  2.03it/s] 84%|████████▍ | 8963/10682 [1:24:01<14:07,  2.03it/s] 84%|████████▍ | 8964/10682 [1:24:02<14:06,  2.03it/s] 84%|████████▍ | 8965/10682 [1:24:02<14:06,  2.03it/s] 84%|████████▍ | 8966/10682 [1:24:02<14:05,  2.03it/s] 84%|████████▍ | 8967/10682 [1:24:03<14:06,  2.03it/s] 84%|████████▍ | 8968/10682 [1:24:03<14:05,  2.03it/s] 84%|████████▍ | 8969/10682 [1:24:04<14:05,  2.03it/s] 84%|████████▍ | 8970/10682 [1:24:04<14:05,  2.03it/s] 84%|████████▍ | 8971/10682 [1:24:05<14:05,  2.02it/s] 84%|████████▍ | 8972/10682 [1:24:05<14:05,  2.02it/s] 84%|████████▍ | 8973/10682 [1:24:06<14:04,  2.02it/s] 84%|████████▍ | 8974/10682 [1:24:07<16:19,  1.74it/s] 84%|████████▍ | 8975/10682 [1:24:07<15:37,  1.82it/s]{'loss': 3.5447, 'grad_norm': 0.2007489651441574, 'learning_rate': 7.58047835834249e-05, 'epoch': 0.84}                                                      
+ 84%|████████▍ | 8975/10682 [1:24:07<15:37,  1.82it/s] 84%|████████▍ | 8976/10682 [1:24:08<15:10,  1.87it/s] 84%|████████▍ | 8977/10682 [1:24:08<14:49,  1.92it/s] 84%|████████▍ | 8978/10682 [1:24:09<14:35,  1.95it/s] 84%|████████▍ | 8979/10682 [1:24:09<14:24,  1.97it/s] 84%|████████▍ | 8980/10682 [1:24:10<14:17,  1.98it/s] 84%|████████▍ | 8981/10682 [1:24:10<14:12,  2.00it/s] 84%|████████▍ | 8982/10682 [1:24:11<14:08,  2.00it/s] 84%|████████▍ | 8983/10682 [1:24:11<14:05,  2.01it/s] 84%|████████▍ | 8984/10682 [1:24:12<14:03,  2.01it/s] 84%|████████▍ | 8985/10682 [1:24:12<14:02,  2.01it/s] 84%|████████▍ | 8986/10682 [1:24:13<14:01,  2.02it/s] 84%|████████▍ | 8987/10682 [1:24:13<14:00,  2.02it/s] 84%|████████▍ | 8988/10682 [1:24:14<13:59,  2.02it/s] 84%|████████▍ | 8989/10682 [1:24:14<13:57,  2.02it/s] 84%|████████▍ | 8990/10682 [1:24:15<13:57,  2.02it/s] 84%|████████▍ | 8991/10682 [1:24:15<13:55,  2.02it/s] 84%|████████▍ | 8992/10682 [1:24:16<13:54,  2.03it/s] 84%|████████▍ | 8993/10682 [1:24:16<13:53,  2.03it/s] 84%|████████▍ | 8994/10682 [1:24:17<13:52,  2.03it/s] 84%|████████▍ | 8995/10682 [1:24:17<13:52,  2.03it/s] 84%|████████▍ | 8996/10682 [1:24:18<13:52,  2.03it/s] 84%|████████▍ | 8997/10682 [1:24:18<13:53,  2.02it/s] 84%|████████▍ | 8998/10682 [1:24:19<13:52,  2.02it/s] 84%|████████▍ | 8999/10682 [1:24:19<13:52,  2.02it/s] 84%|████████▍ | 9000/10682 [1:24:20<13:51,  2.02it/s]{'loss': 3.5395, 'grad_norm': 0.20713521540164948, 'learning_rate': 7.365644059145782e-05, 'epoch': 0.84}                                                      
+ 84%|████████▍ | 9000/10682 [1:24:20<13:51,  2.02it/s] 84%|████████▍ | 9001/10682 [1:24:20<13:53,  2.02it/s] 84%|████████▍ | 9002/10682 [1:24:21<13:51,  2.02it/s] 84%|████████▍ | 9003/10682 [1:24:21<13:51,  2.02it/s] 84%|████████▍ | 9004/10682 [1:24:22<13:49,  2.02it/s] 84%|████████▍ | 9005/10682 [1:24:22<13:47,  2.03it/s] 84%|████████▍ | 9006/10682 [1:24:23<13:47,  2.03it/s] 84%|████████▍ | 9007/10682 [1:24:23<13:45,  2.03it/s] 84%|████████▍ | 9008/10682 [1:24:24<13:44,  2.03it/s] 84%|████████▍ | 9009/10682 [1:24:24<13:44,  2.03it/s] 84%|████████▍ | 9010/10682 [1:24:25<13:44,  2.03it/s] 84%|████████▍ | 9011/10682 [1:24:25<13:45,  2.03it/s] 84%|████████▍ | 9012/10682 [1:24:25<13:44,  2.03it/s] 84%|████████▍ | 9013/10682 [1:24:26<13:44,  2.02it/s] 84%|████████▍ | 9014/10682 [1:24:26<13:42,  2.03it/s] 84%|████████▍ | 9015/10682 [1:24:27<13:41,  2.03it/s] 84%|████████▍ | 9016/10682 [1:24:27<13:42,  2.03it/s] 84%|████████▍ | 9017/10682 [1:24:28<13:41,  2.03it/s] 84%|████████▍ | 9018/10682 [1:24:28<13:41,  2.03it/s] 84%|████████▍ | 9019/10682 [1:24:29<13:40,  2.03it/s] 84%|████████▍ | 9020/10682 [1:24:29<13:39,  2.03it/s] 84%|████████▍ | 9021/10682 [1:24:30<13:39,  2.03it/s] 84%|████████▍ | 9022/10682 [1:24:30<13:39,  2.03it/s] 84%|████████▍ | 9023/10682 [1:24:31<13:39,  2.02it/s] 84%|████████▍ | 9024/10682 [1:24:31<13:38,  2.03it/s] 84%|████████▍ | 9025/10682 [1:24:32<13:37,  2.03it/s]                                                      {'loss': 3.5467, 'grad_norm': 0.19913846254348755, 'learning_rate': 7.153655656890773e-05, 'epoch': 0.84}
+ 84%|████████▍ | 9025/10682 [1:24:32<13:37,  2.03it/s] 84%|████████▍ | 9026/10682 [1:24:32<13:38,  2.02it/s] 85%|████████▍ | 9027/10682 [1:24:33<13:39,  2.02it/s] 85%|████████▍ | 9028/10682 [1:24:33<13:38,  2.02it/s] 85%|████████▍ | 9029/10682 [1:24:34<13:39,  2.02it/s] 85%|████████▍ | 9030/10682 [1:24:34<13:37,  2.02it/s] 85%|████████▍ | 9031/10682 [1:24:35<13:37,  2.02it/s] 85%|████████▍ | 9032/10682 [1:24:35<13:36,  2.02it/s] 85%|████████▍ | 9033/10682 [1:24:36<13:35,  2.02it/s] 85%|████████▍ | 9034/10682 [1:24:36<13:34,  2.02it/s] 85%|████████▍ | 9035/10682 [1:24:37<13:34,  2.02it/s] 85%|████████▍ | 9036/10682 [1:24:37<13:34,  2.02it/s] 85%|████████▍ | 9037/10682 [1:24:38<13:33,  2.02it/s] 85%|████████▍ | 9038/10682 [1:24:38<13:32,  2.02it/s] 85%|████████▍ | 9039/10682 [1:24:39<13:30,  2.03it/s] 85%|████████▍ | 9040/10682 [1:24:39<13:30,  2.03it/s] 85%|████████▍ | 9041/10682 [1:24:40<13:29,  2.03it/s] 85%|████████▍ | 9042/10682 [1:24:40<13:29,  2.03it/s] 85%|████████▍ | 9043/10682 [1:24:41<13:28,  2.03it/s] 85%|████████▍ | 9044/10682 [1:24:41<13:27,  2.03it/s] 85%|████████▍ | 9045/10682 [1:24:42<13:27,  2.03it/s] 85%|████████▍ | 9046/10682 [1:24:42<13:26,  2.03it/s] 85%|████████▍ | 9047/10682 [1:24:43<13:27,  2.02it/s] 85%|████████▍ | 9048/10682 [1:24:43<13:26,  2.03it/s] 85%|████████▍ | 9049/10682 [1:24:44<13:27,  2.02it/s] 85%|████████▍ | 9050/10682 [1:24:44<13:26,  2.02it/s]{'loss': 3.536, 'grad_norm': 0.19886551797389984, 'learning_rate': 6.94452730207023e-05, 'epoch': 0.85}                                                      
+ 85%|████████▍ | 9050/10682 [1:24:44<13:26,  2.02it/s] 85%|████████▍ | 9051/10682 [1:24:45<13:28,  2.02it/s] 85%|████████▍ | 9052/10682 [1:24:45<13:28,  2.02it/s] 85%|████████▍ | 9053/10682 [1:24:46<13:27,  2.02it/s] 85%|████████▍ | 9054/10682 [1:24:46<13:25,  2.02it/s] 85%|████████▍ | 9055/10682 [1:24:47<13:25,  2.02it/s] 85%|████████▍ | 9056/10682 [1:24:47<13:23,  2.02it/s] 85%|████████▍ | 9057/10682 [1:24:48<13:23,  2.02it/s] 85%|████████▍ | 9058/10682 [1:24:48<13:21,  2.03it/s] 85%|████████▍ | 9059/10682 [1:24:49<13:20,  2.03it/s] 85%|████████▍ | 9060/10682 [1:24:49<13:20,  2.03it/s] 85%|████████▍ | 9061/10682 [1:24:50<13:19,  2.03it/s] 85%|████████▍ | 9062/10682 [1:24:50<13:18,  2.03it/s] 85%|████████▍ | 9063/10682 [1:24:51<13:18,  2.03it/s] 85%|████████▍ | 9064/10682 [1:24:51<13:18,  2.03it/s] 85%|████████▍ | 9065/10682 [1:24:52<13:17,  2.03it/s] 85%|████████▍ | 9066/10682 [1:24:52<13:17,  2.03it/s] 85%|████████▍ | 9067/10682 [1:24:53<13:17,  2.02it/s] 85%|████████▍ | 9068/10682 [1:24:53<13:17,  2.02it/s] 85%|████████▍ | 9069/10682 [1:24:54<13:16,  2.02it/s] 85%|████████▍ | 9070/10682 [1:24:54<13:16,  2.02it/s] 85%|████████▍ | 9071/10682 [1:24:55<13:15,  2.02it/s] 85%|████████▍ | 9072/10682 [1:24:55<13:15,  2.02it/s] 85%|████████▍ | 9073/10682 [1:24:56<13:14,  2.03it/s] 85%|████████▍ | 9074/10682 [1:24:56<13:13,  2.03it/s] 85%|████████▍ | 9075/10682 [1:24:57<13:12,  2.03it/s]                                                      {'loss': 3.5363, 'grad_norm': 0.2000787854194641, 'learning_rate': 6.738272954265156e-05, 'epoch': 0.85}
+ 85%|████████▍ | 9075/10682 [1:24:57<13:12,  2.03it/s] 85%|████████▍ | 9076/10682 [1:24:57<13:14,  2.02it/s] 85%|████████▍ | 9077/10682 [1:24:58<13:13,  2.02it/s] 85%|████████▍ | 9078/10682 [1:24:58<13:12,  2.02it/s] 85%|████████▍ | 9079/10682 [1:24:59<13:11,  2.03it/s] 85%|████████▌ | 9080/10682 [1:24:59<13:10,  2.03it/s] 85%|████████▌ | 9081/10682 [1:25:00<13:10,  2.03it/s] 85%|████████▌ | 9082/10682 [1:25:00<13:09,  2.03it/s] 85%|████████▌ | 9083/10682 [1:25:01<13:09,  2.03it/s] 85%|████████▌ | 9084/10682 [1:25:01<13:08,  2.03it/s] 85%|████████▌ | 9085/10682 [1:25:02<13:08,  2.03it/s] 85%|████████▌ | 9086/10682 [1:25:02<13:07,  2.03it/s] 85%|████████▌ | 9087/10682 [1:25:03<13:06,  2.03it/s] 85%|████████▌ | 9088/10682 [1:25:03<13:07,  2.02it/s] 85%|████████▌ | 9089/10682 [1:25:04<13:08,  2.02it/s] 85%|████████▌ | 9090/10682 [1:25:04<13:07,  2.02it/s] 85%|████████▌ | 9091/10682 [1:25:05<13:06,  2.02it/s] 85%|████████▌ | 9092/10682 [1:25:05<13:06,  2.02it/s] 85%|████████▌ | 9093/10682 [1:25:06<13:05,  2.02it/s] 85%|████████▌ | 9094/10682 [1:25:06<13:05,  2.02it/s] 85%|████████▌ | 9095/10682 [1:25:06<13:04,  2.02it/s] 85%|████████▌ | 9096/10682 [1:25:07<13:03,  2.02it/s] 85%|████████▌ | 9097/10682 [1:25:07<13:03,  2.02it/s] 85%|████████▌ | 9098/10682 [1:25:08<13:02,  2.03it/s] 85%|████████▌ | 9099/10682 [1:25:08<13:00,  2.03it/s] 85%|████████▌ | 9100/10682 [1:25:09<13:01,  2.02it/s]{'loss': 3.5352, 'grad_norm': 0.20057529211044312, 'learning_rate': 6.534906381212979e-05, 'epoch': 0.85}                                                      
+ 85%|████████▌ | 9100/10682 [1:25:09<13:01,  2.02it/s] 85%|████████▌ | 9101/10682 [1:25:09<13:01,  2.02it/s] 85%|████████▌ | 9102/10682 [1:25:10<13:01,  2.02it/s] 85%|████████▌ | 9103/10682 [1:25:10<13:00,  2.02it/s] 85%|████████▌ | 9104/10682 [1:25:11<13:00,  2.02it/s] 85%|████████▌ | 9105/10682 [1:25:11<12:58,  2.02it/s] 85%|████████▌ | 9106/10682 [1:25:12<12:57,  2.03it/s] 85%|████████▌ | 9107/10682 [1:25:12<12:57,  2.02it/s] 85%|████████▌ | 9108/10682 [1:25:13<12:56,  2.03it/s] 85%|████████▌ | 9109/10682 [1:25:13<12:56,  2.02it/s] 85%|████████▌ | 9110/10682 [1:25:14<12:55,  2.03it/s] 85%|████████▌ | 9111/10682 [1:25:14<12:55,  2.03it/s] 85%|████████▌ | 9112/10682 [1:25:15<12:54,  2.03it/s] 85%|████████▌ | 9113/10682 [1:25:15<12:54,  2.03it/s] 85%|████████▌ | 9114/10682 [1:25:16<12:54,  2.02it/s] 85%|████████▌ | 9115/10682 [1:25:16<12:54,  2.02it/s] 85%|████████▌ | 9116/10682 [1:25:17<12:53,  2.02it/s] 85%|████████▌ | 9117/10682 [1:25:17<12:52,  2.03it/s] 85%|████████▌ | 9118/10682 [1:25:18<12:52,  2.02it/s] 85%|████████▌ | 9119/10682 [1:25:18<12:51,  2.03it/s] 85%|████████▌ | 9120/10682 [1:25:19<12:50,  2.03it/s] 85%|████████▌ | 9121/10682 [1:25:19<12:50,  2.03it/s] 85%|████████▌ | 9122/10682 [1:25:20<12:50,  2.02it/s] 85%|████████▌ | 9123/10682 [1:25:20<12:50,  2.02it/s] 85%|████████▌ | 9124/10682 [1:25:21<12:50,  2.02it/s] 85%|████████▌ | 9125/10682 [1:25:21<12:50,  2.02it/s]{'loss': 3.5395, 'grad_norm': 0.2024228423833847, 'learning_rate': 6.334441157888504e-05, 'epoch': 0.85}                                                      
+ 85%|████████▌ | 9125/10682 [1:25:21<12:50,  2.02it/s] 85%|████████▌ | 9126/10682 [1:25:22<12:51,  2.02it/s] 85%|████████▌ | 9127/10682 [1:25:22<12:50,  2.02it/s] 85%|████████▌ | 9128/10682 [1:25:23<12:49,  2.02it/s] 85%|████████▌ | 9129/10682 [1:25:23<12:48,  2.02it/s] 85%|████████▌ | 9130/10682 [1:25:24<12:46,  2.03it/s] 85%|████████▌ | 9131/10682 [1:25:24<12:47,  2.02it/s] 85%|████████▌ | 9132/10682 [1:25:25<12:45,  2.02it/s] 85%|████████▌ | 9133/10682 [1:25:25<12:45,  2.02it/s] 86%|████████▌ | 9134/10682 [1:25:26<12:44,  2.03it/s] 86%|████████▌ | 9135/10682 [1:25:26<12:43,  2.03it/s] 86%|████████▌ | 9136/10682 [1:25:27<12:44,  2.02it/s] 86%|████████▌ | 9137/10682 [1:25:27<12:43,  2.02it/s] 86%|████████▌ | 9138/10682 [1:25:28<12:43,  2.02it/s] 86%|████████▌ | 9139/10682 [1:25:28<12:42,  2.02it/s] 86%|████████▌ | 9140/10682 [1:25:29<12:43,  2.02it/s] 86%|████████▌ | 9141/10682 [1:25:29<12:42,  2.02it/s] 86%|████████▌ | 9142/10682 [1:25:30<12:41,  2.02it/s] 86%|████████▌ | 9143/10682 [1:25:30<12:40,  2.02it/s] 86%|████████▌ | 9144/10682 [1:25:31<12:39,  2.02it/s] 86%|████████▌ | 9145/10682 [1:25:31<12:38,  2.03it/s] 86%|████████▌ | 9146/10682 [1:25:32<12:37,  2.03it/s] 86%|████████▌ | 9147/10682 [1:25:32<12:37,  2.03it/s] 86%|████████▌ | 9148/10682 [1:25:33<12:36,  2.03it/s] 86%|████████▌ | 9149/10682 [1:25:33<12:36,  2.03it/s] 86%|████████▌ | 9150/10682 [1:25:34<12:35,  2.03it/s]{'loss': 3.5436, 'grad_norm': 0.20144730806350708, 'learning_rate': 6.1368906655978e-05, 'epoch': 0.86}                                                      
+ 86%|████████▌ | 9150/10682 [1:25:34<12:35,  2.03it/s] 86%|████████▌ | 9151/10682 [1:25:34<12:36,  2.02it/s] 86%|████████▌ | 9152/10682 [1:25:35<12:35,  2.02it/s] 86%|████████▌ | 9153/10682 [1:25:35<12:35,  2.02it/s] 86%|████████▌ | 9154/10682 [1:25:36<12:35,  2.02it/s] 86%|████████▌ | 9155/10682 [1:25:36<12:34,  2.02it/s] 86%|████████▌ | 9156/10682 [1:25:37<12:35,  2.02it/s] 86%|████████▌ | 9157/10682 [1:25:37<12:34,  2.02it/s] 86%|████████▌ | 9158/10682 [1:25:38<12:33,  2.02it/s] 86%|████████▌ | 9159/10682 [1:25:38<12:33,  2.02it/s] 86%|████████▌ | 9160/10682 [1:25:39<12:33,  2.02it/s] 86%|████████▌ | 9161/10682 [1:25:39<12:32,  2.02it/s] 86%|████████▌ | 9162/10682 [1:25:40<12:31,  2.02it/s] 86%|████████▌ | 9163/10682 [1:25:40<12:30,  2.02it/s] 86%|████████▌ | 9164/10682 [1:25:41<12:30,  2.02it/s] 86%|████████▌ | 9165/10682 [1:25:41<12:29,  2.02it/s] 86%|████████▌ | 9166/10682 [1:25:42<12:28,  2.03it/s] 86%|████████▌ | 9167/10682 [1:25:42<12:27,  2.03it/s] 86%|████████▌ | 9168/10682 [1:25:43<12:26,  2.03it/s] 86%|████████▌ | 9169/10682 [1:25:43<12:26,  2.03it/s] 86%|████████▌ | 9170/10682 [1:25:44<12:25,  2.03it/s] 86%|████████▌ | 9171/10682 [1:25:44<12:26,  2.02it/s] 86%|████████▌ | 9172/10682 [1:25:45<12:26,  2.02it/s] 86%|████████▌ | 9173/10682 [1:25:45<12:25,  2.02it/s] 86%|████████▌ | 9174/10682 [1:25:46<12:24,  2.02it/s] 86%|████████▌ | 9175/10682 [1:25:46<12:24,  2.03it/s]{'loss': 3.5476, 'grad_norm': 0.19951239228248596, 'learning_rate': 5.94226809108499e-05, 'epoch': 0.86}                                                      
+ 86%|████████▌ | 9175/10682 [1:25:46<12:24,  2.03it/s] 86%|████████▌ | 9176/10682 [1:25:47<12:24,  2.02it/s] 86%|████████▌ | 9177/10682 [1:25:47<12:23,  2.02it/s] 86%|████████▌ | 9178/10682 [1:25:47<12:22,  2.02it/s] 86%|████████▌ | 9179/10682 [1:25:48<12:22,  2.02it/s] 86%|████████▌ | 9180/10682 [1:25:48<12:22,  2.02it/s] 86%|████████▌ | 9181/10682 [1:25:49<12:20,  2.03it/s] 86%|████████▌ | 9182/10682 [1:25:49<12:20,  2.02it/s] 86%|████████▌ | 9183/10682 [1:25:50<12:19,  2.03it/s] 86%|████████▌ | 9184/10682 [1:25:50<12:18,  2.03it/s] 86%|████████▌ | 9185/10682 [1:25:51<12:18,  2.03it/s] 86%|████████▌ | 9186/10682 [1:25:51<12:17,  2.03it/s] 86%|████████▌ | 9187/10682 [1:25:52<12:17,  2.03it/s] 86%|████████▌ | 9188/10682 [1:25:52<12:16,  2.03it/s] 86%|████████▌ | 9189/10682 [1:25:53<12:16,  2.03it/s] 86%|████████▌ | 9190/10682 [1:25:53<12:16,  2.03it/s] 86%|████████▌ | 9191/10682 [1:25:54<12:15,  2.03it/s] 86%|████████▌ | 9192/10682 [1:25:54<12:15,  2.02it/s] 86%|████████▌ | 9193/10682 [1:25:55<12:15,  2.03it/s] 86%|████████▌ | 9194/10682 [1:25:55<12:15,  2.02it/s] 86%|████████▌ | 9195/10682 [1:25:56<12:14,  2.03it/s] 86%|████████▌ | 9196/10682 [1:25:56<12:13,  2.02it/s] 86%|████████▌ | 9197/10682 [1:25:57<12:13,  2.02it/s] 86%|████████▌ | 9198/10682 [1:25:57<12:13,  2.02it/s] 86%|████████▌ | 9199/10682 [1:25:58<12:12,  2.02it/s] 86%|████████▌ | 9200/10682 [1:25:58<12:11,  2.03it/s]{'loss': 3.541, 'grad_norm': 0.2085140198469162, 'learning_rate': 5.7505864256519716e-05, 'epoch': 0.86}
+                                                       86%|████████▌ | 9200/10682 [1:25:58<12:11,  2.03it/s] 86%|████████▌ | 9201/10682 [1:25:59<12:12,  2.02it/s] 86%|████████▌ | 9202/10682 [1:25:59<12:11,  2.02it/s] 86%|████████▌ | 9203/10682 [1:26:00<12:09,  2.03it/s] 86%|████████▌ | 9204/10682 [1:26:00<12:09,  2.03it/s] 86%|████████▌ | 9205/10682 [1:26:01<12:08,  2.03it/s] 86%|████████▌ | 9206/10682 [1:26:01<12:07,  2.03it/s] 86%|████████▌ | 9207/10682 [1:26:02<12:07,  2.03it/s] 86%|████████▌ | 9208/10682 [1:26:02<12:07,  2.03it/s] 86%|████████▌ | 9209/10682 [1:26:03<12:07,  2.02it/s] 86%|████████▌ | 9210/10682 [1:26:03<12:07,  2.02it/s] 86%|████████▌ | 9211/10682 [1:26:04<12:06,  2.02it/s] 86%|████████▌ | 9212/10682 [1:26:04<12:06,  2.02it/s] 86%|████████▌ | 9213/10682 [1:26:05<12:05,  2.02it/s] 86%|████████▋ | 9214/10682 [1:26:05<12:06,  2.02it/s] 86%|████████▋ | 9215/10682 [1:26:06<12:05,  2.02it/s] 86%|████████▋ | 9216/10682 [1:26:06<12:05,  2.02it/s] 86%|████████▋ | 9217/10682 [1:26:07<12:04,  2.02it/s] 86%|████████▋ | 9218/10682 [1:26:07<12:03,  2.02it/s] 86%|████████▋ | 9219/10682 [1:26:08<12:02,  2.02it/s] 86%|████████▋ | 9220/10682 [1:26:08<12:01,  2.03it/s] 86%|████████▋ | 9221/10682 [1:26:09<12:01,  2.03it/s] 86%|████████▋ | 9222/10682 [1:26:09<11:59,  2.03it/s] 86%|████████▋ | 9223/10682 [1:26:10<12:00,  2.02it/s] 86%|████████▋ | 9224/10682 [1:26:10<11:59,  2.03it/s] 86%|████████▋ | 9225/10682 [1:26:11<11:59,  2.02it/s]                                                      {'loss': 3.5363, 'grad_norm': 0.2103968858718872, 'learning_rate': 5.561858464291258e-05, 'epoch': 0.86}
+ 86%|████████▋ | 9225/10682 [1:26:11<11:59,  2.02it/s] 86%|████████▋ | 9226/10682 [1:26:11<12:00,  2.02it/s] 86%|████████▋ | 9227/10682 [1:26:12<12:00,  2.02it/s] 86%|████████▋ | 9228/10682 [1:26:12<11:59,  2.02it/s] 86%|████████▋ | 9229/10682 [1:26:13<11:59,  2.02it/s] 86%|████████▋ | 9230/10682 [1:26:13<11:57,  2.02it/s] 86%|████████▋ | 9231/10682 [1:26:14<11:58,  2.02it/s] 86%|████████▋ | 9232/10682 [1:26:14<11:56,  2.02it/s] 86%|████████▋ | 9233/10682 [1:26:15<11:56,  2.02it/s] 86%|████████▋ | 9234/10682 [1:26:15<11:54,  2.03it/s] 86%|████████▋ | 9235/10682 [1:26:16<11:54,  2.03it/s] 86%|████████▋ | 9236/10682 [1:26:16<11:53,  2.03it/s] 86%|████████▋ | 9237/10682 [1:26:17<11:53,  2.02it/s] 86%|████████▋ | 9238/10682 [1:26:17<11:54,  2.02it/s] 86%|████████▋ | 9239/10682 [1:26:18<11:53,  2.02it/s] 87%|████████▋ | 9240/10682 [1:26:18<11:52,  2.02it/s] 87%|████████▋ | 9241/10682 [1:26:19<11:52,  2.02it/s] 87%|████████▋ | 9242/10682 [1:26:19<11:52,  2.02it/s] 87%|████████▋ | 9243/10682 [1:26:20<11:51,  2.02it/s] 87%|████████▋ | 9244/10682 [1:26:20<11:51,  2.02it/s] 87%|████████▋ | 9245/10682 [1:26:21<11:49,  2.02it/s] 87%|████████▋ | 9246/10682 [1:26:21<11:49,  2.02it/s] 87%|████████▋ | 9247/10682 [1:26:22<11:48,  2.03it/s] 87%|████████▋ | 9248/10682 [1:26:22<11:48,  2.03it/s] 87%|████████▋ | 9249/10682 [1:26:23<11:47,  2.02it/s] 87%|████████▋ | 9250/10682 [1:26:23<11:47,  2.02it/s]{'loss': 3.5371, 'grad_norm': 0.20852410793304443, 'learning_rate': 5.3760968048319145e-05, 'epoch': 0.87}                                                      
+ 87%|████████▋ | 9250/10682 [1:26:23<11:47,  2.02it/s] 87%|████████▋ | 9251/10682 [1:26:24<11:48,  2.02it/s] 87%|████████▋ | 9252/10682 [1:26:24<11:48,  2.02it/s] 87%|████████▋ | 9253/10682 [1:26:25<11:47,  2.02it/s] 87%|████████▋ | 9254/10682 [1:26:25<11:47,  2.02it/s] 87%|████████▋ | 9255/10682 [1:26:26<11:46,  2.02it/s] 87%|████████▋ | 9256/10682 [1:26:26<11:46,  2.02it/s] 87%|████████▋ | 9257/10682 [1:26:27<11:44,  2.02it/s] 87%|████████▋ | 9258/10682 [1:26:27<11:43,  2.02it/s] 87%|████████▋ | 9259/10682 [1:26:28<11:42,  2.02it/s] 87%|████████▋ | 9260/10682 [1:26:28<11:41,  2.03it/s] 87%|████████▋ | 9261/10682 [1:26:29<11:41,  2.03it/s] 87%|████████▋ | 9262/10682 [1:26:29<11:40,  2.03it/s] 87%|████████▋ | 9263/10682 [1:26:29<11:40,  2.03it/s] 87%|████████▋ | 9264/10682 [1:26:30<11:40,  2.03it/s] 87%|████████▋ | 9265/10682 [1:26:30<11:40,  2.02it/s] 87%|████████▋ | 9266/10682 [1:26:31<11:39,  2.03it/s] 87%|████████▋ | 9267/10682 [1:26:31<11:38,  2.03it/s] 87%|████████▋ | 9268/10682 [1:26:32<11:38,  2.03it/s] 87%|████████▋ | 9269/10682 [1:26:32<11:38,  2.02it/s] 87%|████████▋ | 9270/10682 [1:26:33<11:38,  2.02it/s] 87%|████████▋ | 9271/10682 [1:26:33<11:36,  2.02it/s] 87%|████████▋ | 9272/10682 [1:26:34<11:36,  2.02it/s] 87%|████████▋ | 9273/10682 [1:26:34<11:35,  2.02it/s] 87%|████████▋ | 9274/10682 [1:26:35<11:35,  2.02it/s] 87%|████████▋ | 9275/10682 [1:26:35<11:34,  2.03it/s]{'loss': 3.5377, 'grad_norm': 0.20233918726444244, 'learning_rate': 5.193313847098613e-05, 'epoch': 0.87}
+                                                       87%|████████▋ | 9275/10682 [1:26:35<11:34,  2.03it/s] 87%|████████▋ | 9276/10682 [1:26:36<11:35,  2.02it/s] 87%|████████▋ | 9277/10682 [1:26:36<11:34,  2.02it/s] 87%|████████▋ | 9278/10682 [1:26:37<11:33,  2.02it/s] 87%|████████▋ | 9279/10682 [1:26:37<11:33,  2.02it/s] 87%|████████▋ | 9280/10682 [1:26:38<11:33,  2.02it/s] 87%|████████▋ | 9281/10682 [1:26:38<11:32,  2.02it/s] 87%|████████▋ | 9282/10682 [1:26:39<11:31,  2.02it/s] 87%|████████▋ | 9283/10682 [1:26:39<11:31,  2.02it/s] 87%|████████▋ | 9284/10682 [1:26:40<11:30,  2.02it/s] 87%|████████▋ | 9285/10682 [1:26:40<11:30,  2.02it/s] 87%|████████▋ | 9286/10682 [1:26:41<11:30,  2.02it/s] 87%|████████▋ | 9287/10682 [1:26:41<11:29,  2.02it/s] 87%|████████▋ | 9288/10682 [1:26:42<11:28,  2.02it/s] 87%|████████▋ | 9289/10682 [1:26:42<11:28,  2.02it/s] 87%|████████▋ | 9290/10682 [1:26:43<11:28,  2.02it/s] 87%|████████▋ | 9291/10682 [1:26:43<11:27,  2.02it/s] 87%|████████▋ | 9292/10682 [1:26:44<11:26,  2.02it/s] 87%|████████▋ | 9293/10682 [1:26:44<11:25,  2.03it/s] 87%|████████▋ | 9294/10682 [1:26:45<11:24,  2.03it/s] 87%|████████▋ | 9295/10682 [1:26:45<11:24,  2.03it/s] 87%|████████▋ | 9296/10682 [1:26:46<11:23,  2.03it/s] 87%|████████▋ | 9297/10682 [1:26:46<11:23,  2.02it/s] 87%|████████▋ | 9298/10682 [1:26:47<11:23,  2.02it/s] 87%|████████▋ | 9299/10682 [1:26:47<11:22,  2.03it/s] 87%|████████▋ | 9300/10682 [1:26:48<11:22,  2.02it/s]{'loss': 3.5408, 'grad_norm': 0.19918692111968994, 'learning_rate': 5.0135217920839137e-05, 'epoch': 0.87}                                                      
+ 87%|████████▋ | 9300/10682 [1:26:48<11:22,  2.02it/s] 87%|████████▋ | 9301/10682 [1:26:48<11:23,  2.02it/s] 87%|████████▋ | 9302/10682 [1:26:49<11:22,  2.02it/s] 87%|████████▋ | 9303/10682 [1:26:49<11:22,  2.02it/s] 87%|████████▋ | 9304/10682 [1:26:50<11:21,  2.02it/s] 87%|████████▋ | 9305/10682 [1:26:50<11:21,  2.02it/s] 87%|████████▋ | 9306/10682 [1:26:51<11:19,  2.02it/s] 87%|████████▋ | 9307/10682 [1:26:51<11:19,  2.02it/s] 87%|████████▋ | 9308/10682 [1:26:52<11:18,  2.02it/s] 87%|████████▋ | 9309/10682 [1:26:52<11:17,  2.03it/s] 87%|████████▋ | 9310/10682 [1:26:53<11:17,  2.02it/s] 87%|████████▋ | 9311/10682 [1:26:53<11:16,  2.03it/s] 87%|████████▋ | 9312/10682 [1:26:54<11:16,  2.03it/s] 87%|████████▋ | 9313/10682 [1:26:54<11:15,  2.03it/s] 87%|████████▋ | 9314/10682 [1:26:55<11:15,  2.03it/s] 87%|████████▋ | 9315/10682 [1:26:55<11:15,  2.02it/s] 87%|████████▋ | 9316/10682 [1:26:56<11:15,  2.02it/s] 87%|████████▋ | 9317/10682 [1:26:56<11:14,  2.02it/s] 87%|████████▋ | 9318/10682 [1:26:57<11:14,  2.02it/s] 87%|████████▋ | 9319/10682 [1:26:57<11:13,  2.02it/s] 87%|████████▋ | 9320/10682 [1:26:58<11:14,  2.02it/s] 87%|████████▋ | 9321/10682 [1:26:58<11:13,  2.02it/s] 87%|████████▋ | 9322/10682 [1:26:59<11:11,  2.02it/s] 87%|████████▋ | 9323/10682 [1:26:59<11:11,  2.02it/s] 87%|████████▋ | 9324/10682 [1:27:00<11:11,  2.02it/s] 87%|████████▋ | 9325/10682 [1:27:00<11:10,  2.02it/s]{'loss': 3.5376, 'grad_norm': 0.20414087176322937, 'learning_rate': 4.836732641133895e-05, 'epoch': 0.87}                                                      
+ 87%|████████▋ | 9325/10682 [1:27:00<11:10,  2.02it/s] 87%|████████▋ | 9326/10682 [1:27:01<11:11,  2.02it/s] 87%|████████▋ | 9327/10682 [1:27:01<11:10,  2.02it/s] 87%|████████▋ | 9328/10682 [1:27:02<11:09,  2.02it/s] 87%|████████▋ | 9329/10682 [1:27:02<11:09,  2.02it/s] 87%|████████▋ | 9330/10682 [1:27:03<11:07,  2.03it/s] 87%|████████▋ | 9331/10682 [1:27:03<11:06,  2.03it/s] 87%|████████▋ | 9332/10682 [1:27:04<11:06,  2.03it/s] 87%|████████▋ | 9333/10682 [1:27:04<11:05,  2.03it/s] 87%|████████▋ | 9334/10682 [1:27:05<11:05,  2.02it/s] 87%|████████▋ | 9335/10682 [1:27:05<11:05,  2.02it/s] 87%|████████▋ | 9336/10682 [1:27:06<11:06,  2.02it/s] 87%|████████▋ | 9337/10682 [1:27:06<11:05,  2.02it/s] 87%|████████▋ | 9338/10682 [1:27:07<11:05,  2.02it/s] 87%|████████▋ | 9339/10682 [1:27:07<11:03,  2.02it/s] 87%|████████▋ | 9340/10682 [1:27:08<11:03,  2.02it/s] 87%|████████▋ | 9341/10682 [1:27:08<11:03,  2.02it/s] 87%|████████▋ | 9342/10682 [1:27:09<11:01,  2.02it/s] 87%|████████▋ | 9343/10682 [1:27:09<11:02,  2.02it/s] 87%|████████▋ | 9344/10682 [1:27:10<11:01,  2.02it/s] 87%|████████▋ | 9345/10682 [1:27:10<11:00,  2.02it/s] 87%|████████▋ | 9346/10682 [1:27:11<11:00,  2.02it/s] 88%|████████▊ | 9347/10682 [1:27:11<10:59,  2.03it/s] 88%|████████▊ | 9348/10682 [1:27:11<10:59,  2.02it/s] 88%|████████▊ | 9349/10682 [1:27:12<10:58,  2.02it/s] 88%|████████▊ | 9350/10682 [1:27:12<10:58,  2.02it/s]{'loss': 3.5498, 'grad_norm': 0.20134609937667847, 'learning_rate': 4.662958195146971e-05, 'epoch': 0.88}                                                      
+ 88%|████████▊ | 9350/10682 [1:27:12<10:58,  2.02it/s] 88%|████████▊ | 9351/10682 [1:27:13<10:58,  2.02it/s] 88%|████████▊ | 9352/10682 [1:27:13<10:57,  2.02it/s] 88%|████████▊ | 9353/10682 [1:27:14<10:57,  2.02it/s] 88%|████████▊ | 9354/10682 [1:27:14<10:57,  2.02it/s] 88%|████████▊ | 9355/10682 [1:27:15<10:56,  2.02it/s] 88%|████████▊ | 9356/10682 [1:27:15<10:57,  2.02it/s] 88%|████████▊ | 9357/10682 [1:27:16<10:55,  2.02it/s] 88%|████████▊ | 9358/10682 [1:27:16<10:54,  2.02it/s] 88%|████████▊ | 9359/10682 [1:27:17<10:53,  2.02it/s] 88%|████████▊ | 9360/10682 [1:27:17<10:52,  2.03it/s] 88%|████████▊ | 9361/10682 [1:27:18<10:52,  2.02it/s] 88%|████████▊ | 9362/10682 [1:27:18<10:51,  2.03it/s] 88%|████████▊ | 9363/10682 [1:27:19<10:51,  2.03it/s] 88%|████████▊ | 9364/10682 [1:27:19<10:50,  2.03it/s] 88%|████████▊ | 9365/10682 [1:27:20<10:50,  2.03it/s] 88%|████████▊ | 9366/10682 [1:27:20<10:49,  2.02it/s] 88%|████████▊ | 9367/10682 [1:27:21<10:49,  2.02it/s] 88%|████████▊ | 9368/10682 [1:27:21<10:49,  2.02it/s] 88%|████████▊ | 9369/10682 [1:27:22<10:49,  2.02it/s] 88%|████████▊ | 9370/10682 [1:27:22<10:49,  2.02it/s] 88%|████████▊ | 9371/10682 [1:27:23<10:48,  2.02it/s] 88%|████████▊ | 9372/10682 [1:27:23<10:48,  2.02it/s] 88%|████████▊ | 9373/10682 [1:27:24<10:47,  2.02it/s] 88%|████████▊ | 9374/10682 [1:27:24<10:46,  2.02it/s] 88%|████████▊ | 9375/10682 [1:27:25<10:46,  2.02it/s]{'loss': 3.5422, 'grad_norm': 0.19851647317409515, 'learning_rate': 4.492210053786228e-05, 'epoch': 0.88}                                                      
+ 88%|████████▊ | 9375/10682 [1:27:25<10:46,  2.02it/s] 88%|████████▊ | 9376/10682 [1:27:25<10:46,  2.02it/s] 88%|████████▊ | 9377/10682 [1:27:26<10:45,  2.02it/s] 88%|████████▊ | 9378/10682 [1:27:26<10:44,  2.02it/s] 88%|████████▊ | 9379/10682 [1:27:27<10:43,  2.02it/s] 88%|████████▊ | 9380/10682 [1:27:27<10:43,  2.02it/s] 88%|████████▊ | 9381/10682 [1:27:28<10:42,  2.02it/s] 88%|████████▊ | 9382/10682 [1:27:28<10:41,  2.02it/s] 88%|████████▊ | 9383/10682 [1:27:29<10:41,  2.03it/s] 88%|████████▊ | 9384/10682 [1:27:29<10:41,  2.02it/s] 88%|████████▊ | 9385/10682 [1:27:30<10:41,  2.02it/s] 88%|████████▊ | 9386/10682 [1:27:30<10:41,  2.02it/s] 88%|████████▊ | 9387/10682 [1:27:31<10:40,  2.02it/s] 88%|████████▊ | 9388/10682 [1:27:31<10:40,  2.02it/s] 88%|████████▊ | 9389/10682 [1:27:32<10:39,  2.02it/s] 88%|████████▊ | 9390/10682 [1:27:32<10:39,  2.02it/s] 88%|████████▊ | 9391/10682 [1:27:33<10:39,  2.02it/s] 88%|████████▊ | 9392/10682 [1:27:33<10:38,  2.02it/s] 88%|████████▊ | 9393/10682 [1:27:34<10:37,  2.02it/s] 88%|████████▊ | 9394/10682 [1:27:34<10:37,  2.02it/s] 88%|████████▊ | 9395/10682 [1:27:35<10:36,  2.02it/s] 88%|████████▊ | 9396/10682 [1:27:35<10:34,  2.03it/s] 88%|████████▊ | 9397/10682 [1:27:36<10:34,  2.03it/s] 88%|████████▊ | 9398/10682 [1:27:36<10:33,  2.03it/s] 88%|████████▊ | 9399/10682 [1:27:37<10:34,  2.02it/s] 88%|████████▊ | 9400/10682 [1:27:37<10:32,  2.03it/s]{'loss': 3.5402, 'grad_norm': 0.20167270302772522, 'learning_rate': 4.3244996147050855e-05, 'epoch': 0.88}
+                                                       88%|████████▊ | 9400/10682 [1:27:37<10:32,  2.03it/s] 88%|████████▊ | 9401/10682 [1:27:38<10:33,  2.02it/s] 88%|████████▊ | 9402/10682 [1:27:38<10:32,  2.02it/s] 88%|████████▊ | 9403/10682 [1:27:39<10:32,  2.02it/s] 88%|████████▊ | 9404/10682 [1:27:39<10:31,  2.02it/s] 88%|████████▊ | 9405/10682 [1:27:40<10:30,  2.03it/s] 88%|████████▊ | 9406/10682 [1:27:40<10:30,  2.03it/s] 88%|████████▊ | 9407/10682 [1:27:41<10:30,  2.02it/s] 88%|████████▊ | 9408/10682 [1:27:41<10:29,  2.02it/s] 88%|████████▊ | 9409/10682 [1:27:42<10:28,  2.03it/s] 88%|████████▊ | 9410/10682 [1:27:42<10:28,  2.03it/s] 88%|████████▊ | 9411/10682 [1:27:43<10:27,  2.03it/s] 88%|████████▊ | 9412/10682 [1:27:43<10:27,  2.03it/s] 88%|████████▊ | 9413/10682 [1:27:44<10:26,  2.02it/s] 88%|████████▊ | 9414/10682 [1:27:44<10:26,  2.03it/s] 88%|████████▊ | 9415/10682 [1:27:45<10:26,  2.02it/s] 88%|████████▊ | 9416/10682 [1:27:45<10:26,  2.02it/s] 88%|████████▊ | 9417/10682 [1:27:46<10:26,  2.02it/s] 88%|████████▊ | 9418/10682 [1:27:46<10:24,  2.02it/s] 88%|████████▊ | 9419/10682 [1:27:47<10:24,  2.02it/s] 88%|████████▊ | 9420/10682 [1:27:47<10:23,  2.02it/s] 88%|████████▊ | 9421/10682 [1:27:48<10:22,  2.02it/s] 88%|████████▊ | 9422/10682 [1:27:48<10:22,  2.02it/s] 88%|████████▊ | 9423/10682 [1:27:49<10:21,  2.02it/s] 88%|████████▊ | 9424/10682 [1:27:49<10:21,  2.02it/s] 88%|████████▊ | 9425/10682 [1:27:50<10:20,  2.02it/s]{'loss': 3.5427, 'grad_norm': 0.19912447035312653, 'learning_rate': 4.1598380727865315e-05, 'epoch': 0.88}                                                      
+ 88%|████████▊ | 9425/10682 [1:27:50<10:20,  2.02it/s] 88%|████████▊ | 9426/10682 [1:27:50<10:20,  2.02it/s] 88%|████████▊ | 9427/10682 [1:27:51<10:21,  2.02it/s] 88%|████████▊ | 9428/10682 [1:27:51<10:20,  2.02it/s] 88%|████████▊ | 9429/10682 [1:27:52<10:19,  2.02it/s] 88%|████████▊ | 9430/10682 [1:27:52<10:19,  2.02it/s] 88%|████████▊ | 9431/10682 [1:27:53<10:19,  2.02it/s] 88%|████████▊ | 9432/10682 [1:27:53<10:19,  2.02it/s] 88%|████████▊ | 9433/10682 [1:27:54<10:17,  2.02it/s] 88%|████████▊ | 9434/10682 [1:27:54<10:17,  2.02it/s] 88%|████████▊ | 9435/10682 [1:27:55<10:15,  2.02it/s] 88%|████████▊ | 9436/10682 [1:27:55<10:14,  2.03it/s] 88%|████████▊ | 9437/10682 [1:27:55<10:14,  2.02it/s] 88%|████████▊ | 9438/10682 [1:27:56<10:13,  2.03it/s] 88%|████████▊ | 9439/10682 [1:27:56<10:13,  2.03it/s] 88%|████████▊ | 9440/10682 [1:27:57<10:12,  2.03it/s] 88%|████████▊ | 9441/10682 [1:27:57<10:12,  2.03it/s] 88%|████████▊ | 9442/10682 [1:27:58<10:12,  2.03it/s] 88%|████████▊ | 9443/10682 [1:27:58<10:12,  2.02it/s] 88%|████████▊ | 9444/10682 [1:27:59<10:11,  2.02it/s] 88%|████████▊ | 9445/10682 [1:27:59<10:11,  2.02it/s] 88%|████████▊ | 9446/10682 [1:28:00<10:10,  2.02it/s] 88%|████████▊ | 9447/10682 [1:28:00<10:10,  2.02it/s] 88%|████████▊ | 9448/10682 [1:28:01<10:10,  2.02it/s] 88%|████████▊ | 9449/10682 [1:28:01<10:09,  2.02it/s] 88%|████████▊ | 9450/10682 [1:28:02<10:09,  2.02it/s]{'loss': 3.5349, 'grad_norm': 0.20152272284030914, 'learning_rate': 3.998236419395806e-05, 'epoch': 0.88}                                                      
+ 88%|████████▊ | 9450/10682 [1:28:02<10:09,  2.02it/s] 88%|████████▊ | 9451/10682 [1:28:02<10:09,  2.02it/s] 88%|████████▊ | 9452/10682 [1:28:03<10:08,  2.02it/s] 88%|████████▊ | 9453/10682 [1:28:03<10:08,  2.02it/s] 89%|████████▊ | 9454/10682 [1:28:04<10:07,  2.02it/s] 89%|████████▊ | 9455/10682 [1:28:04<10:06,  2.02it/s] 89%|████████▊ | 9456/10682 [1:28:05<10:05,  2.02it/s] 89%|████████▊ | 9457/10682 [1:28:05<10:05,  2.02it/s] 89%|████████▊ | 9458/10682 [1:28:06<10:04,  2.02it/s] 89%|████████▊ | 9459/10682 [1:28:06<10:03,  2.03it/s] 89%|████████▊ | 9460/10682 [1:28:07<10:03,  2.03it/s] 89%|████████▊ | 9461/10682 [1:28:07<10:03,  2.02it/s] 89%|████████▊ | 9462/10682 [1:28:08<10:03,  2.02it/s] 89%|████████▊ | 9463/10682 [1:28:08<10:02,  2.02it/s] 89%|████████▊ | 9464/10682 [1:28:09<10:02,  2.02it/s] 89%|████████▊ | 9465/10682 [1:28:09<10:02,  2.02it/s] 89%|████████▊ | 9466/10682 [1:28:10<10:01,  2.02it/s] 89%|████████▊ | 9467/10682 [1:28:10<10:00,  2.02it/s] 89%|████████▊ | 9468/10682 [1:28:11<09:59,  2.02it/s] 89%|████████▊ | 9469/10682 [1:28:11<09:58,  2.03it/s] 89%|████████▊ | 9470/10682 [1:28:12<09:58,  2.03it/s] 89%|████████▊ | 9471/10682 [1:28:12<09:57,  2.03it/s] 89%|████████▊ | 9472/10682 [1:28:13<09:57,  2.03it/s] 89%|████████▊ | 9473/10682 [1:28:13<09:55,  2.03it/s] 89%|████████▊ | 9474/10682 [1:28:14<09:55,  2.03it/s] 89%|████████▊ | 9475/10682 [1:28:14<09:55,  2.03it/s]{'loss': 3.532, 'grad_norm': 0.19622594118118286, 'learning_rate': 3.839705441646779e-05, 'epoch': 0.89}                                                      
+ 89%|████████▊ | 9475/10682 [1:28:14<09:55,  2.03it/s] 89%|████████▊ | 9476/10682 [1:28:15<09:56,  2.02it/s] 89%|████████▊ | 9477/10682 [1:28:15<09:56,  2.02it/s] 89%|████████▊ | 9478/10682 [1:28:16<09:56,  2.02it/s] 89%|████████▊ | 9479/10682 [1:28:16<09:56,  2.02it/s] 89%|████████▊ | 9480/10682 [1:28:17<09:55,  2.02it/s] 89%|████████▉ | 9481/10682 [1:28:17<09:54,  2.02it/s] 89%|████████▉ | 9482/10682 [1:28:18<09:54,  2.02it/s] 89%|████████▉ | 9483/10682 [1:28:18<09:53,  2.02it/s] 89%|████████▉ | 9484/10682 [1:28:19<09:52,  2.02it/s] 89%|████████▉ | 9485/10682 [1:28:19<09:51,  2.02it/s] 89%|████████▉ | 9486/10682 [1:28:20<09:50,  2.02it/s] 89%|████████▉ | 9487/10682 [1:28:20<09:50,  2.02it/s] 89%|████████▉ | 9488/10682 [1:28:21<09:49,  2.03it/s] 89%|████████▉ | 9489/10682 [1:28:21<09:48,  2.03it/s] 89%|████████▉ | 9490/10682 [1:28:22<09:48,  2.03it/s] 89%|████████▉ | 9491/10682 [1:28:22<09:47,  2.03it/s] 89%|████████▉ | 9492/10682 [1:28:23<09:47,  2.03it/s] 89%|████████▉ | 9493/10682 [1:28:23<09:46,  2.03it/s] 89%|████████▉ | 9494/10682 [1:28:24<09:47,  2.02it/s] 89%|████████▉ | 9495/10682 [1:28:24<09:46,  2.02it/s] 89%|████████▉ | 9496/10682 [1:28:25<09:46,  2.02it/s] 89%|████████▉ | 9497/10682 [1:28:25<09:45,  2.02it/s] 89%|████████▉ | 9498/10682 [1:28:26<09:45,  2.02it/s] 89%|████████▉ | 9499/10682 [1:28:26<09:45,  2.02it/s] 89%|████████▉ | 9500/10682 [1:28:27<09:45,  2.02it/s]{'loss': 3.5396, 'grad_norm': 0.20122914016246796, 'learning_rate': 3.6842557216818006e-05, 'epoch': 0.89}                                                      
+ 89%|████████▉ | 9500/10682 [1:28:27<09:45,  2.02it/s] 89%|████████▉ | 9501/10682 [1:28:27<09:44,  2.02it/s] 89%|████████▉ | 9502/10682 [1:28:28<09:44,  2.02it/s] 89%|████████▉ | 9503/10682 [1:28:28<09:42,  2.02it/s] 89%|████████▉ | 9504/10682 [1:28:29<09:42,  2.02it/s] 89%|████████▉ | 9505/10682 [1:28:29<09:41,  2.02it/s] 89%|████████▉ | 9506/10682 [1:28:30<09:40,  2.03it/s] 89%|████████▉ | 9507/10682 [1:28:30<09:40,  2.03it/s] 89%|████████▉ | 9508/10682 [1:28:31<09:39,  2.03it/s] 89%|████████▉ | 9509/10682 [1:28:31<09:39,  2.03it/s] 89%|████████▉ | 9510/10682 [1:28:32<09:37,  2.03it/s] 89%|████████▉ | 9511/10682 [1:28:32<09:37,  2.03it/s] 89%|████████▉ | 9512/10682 [1:28:33<09:37,  2.03it/s] 89%|████████▉ | 9513/10682 [1:28:33<09:38,  2.02it/s] 89%|████████▉ | 9514/10682 [1:28:34<09:37,  2.02it/s] 89%|████████▉ | 9515/10682 [1:28:34<09:37,  2.02it/s] 89%|████████▉ | 9516/10682 [1:28:35<09:36,  2.02it/s] 89%|████████▉ | 9517/10682 [1:28:35<09:35,  2.02it/s] 89%|████████▉ | 9518/10682 [1:28:36<09:35,  2.02it/s] 89%|████████▉ | 9519/10682 [1:28:36<09:35,  2.02it/s] 89%|████████▉ | 9520/10682 [1:28:37<09:34,  2.02it/s] 89%|████████▉ | 9521/10682 [1:28:37<09:33,  2.03it/s] 89%|████████▉ | 9522/10682 [1:28:37<09:33,  2.02it/s] 89%|████████▉ | 9523/10682 [1:28:38<09:31,  2.03it/s] 89%|████████▉ | 9524/10682 [1:28:38<09:31,  2.02it/s] 89%|████████▉ | 9525/10682 [1:28:39<09:30,  2.03it/s]{'loss': 3.5365, 'grad_norm': 0.19825617969036102, 'learning_rate': 3.531897635965431e-05, 'epoch': 0.89}                                                      
+ 89%|████████▉ | 9525/10682 [1:28:39<09:30,  2.03it/s] 89%|████████▉ | 9526/10682 [1:28:39<09:31,  2.02it/s] 89%|████████▉ | 9527/10682 [1:28:40<09:29,  2.03it/s] 89%|████████▉ | 9528/10682 [1:28:40<09:29,  2.02it/s] 89%|████████▉ | 9529/10682 [1:28:41<09:29,  2.03it/s] 89%|████████▉ | 9530/10682 [1:28:41<09:29,  2.02it/s] 89%|████████▉ | 9531/10682 [1:28:42<09:28,  2.02it/s] 89%|████████▉ | 9532/10682 [1:28:42<09:28,  2.02it/s] 89%|█████���██▉ | 9533/10682 [1:28:43<09:28,  2.02it/s] 89%|████████▉ | 9534/10682 [1:28:43<09:27,  2.02it/s] 89%|████████▉ | 9535/10682 [1:28:44<09:27,  2.02it/s] 89%|████████▉ | 9536/10682 [1:28:44<09:26,  2.02it/s] 89%|████████▉ | 9537/10682 [1:28:45<09:26,  2.02it/s] 89%|████████▉ | 9538/10682 [1:28:45<09:24,  2.03it/s] 89%|████████▉ | 9539/10682 [1:28:46<09:24,  2.02it/s] 89%|████████▉ | 9540/10682 [1:28:46<09:23,  2.03it/s] 89%|████████▉ | 9541/10682 [1:28:47<09:23,  2.03it/s] 89%|████████▉ | 9542/10682 [1:28:47<09:25,  2.02it/s] 89%|████████▉ | 9543/10682 [1:28:48<09:24,  2.02it/s] 89%|████████▉ | 9544/10682 [1:28:48<09:22,  2.02it/s] 89%|████████▉ | 9545/10682 [1:28:49<09:22,  2.02it/s] 89%|████████▉ | 9546/10682 [1:28:49<09:21,  2.02it/s] 89%|████████▉ | 9547/10682 [1:28:50<09:21,  2.02it/s] 89%|████████▉ | 9548/10682 [1:28:50<09:20,  2.02it/s] 89%|████████▉ | 9549/10682 [1:28:51<09:20,  2.02it/s] 89%|████████▉ | 9550/10682 [1:28:51<09:20,  2.02it/s]{'loss': 3.5394, 'grad_norm': 0.1979847401380539, 'learning_rate': 3.382641354591731e-05, 'epoch': 0.89}                                                      
+ 89%|████████▉ | 9550/10682 [1:28:51<09:20,  2.02it/s] 89%|████████▉ | 9551/10682 [1:28:52<09:20,  2.02it/s] 89%|████████▉ | 9552/10682 [1:28:52<09:19,  2.02it/s] 89%|████████▉ | 9553/10682 [1:28:53<09:18,  2.02it/s] 89%|████████▉ | 9554/10682 [1:28:53<09:17,  2.02it/s] 89%|████████▉ | 9555/10682 [1:28:54<09:16,  2.02it/s] 89%|████████▉ | 9556/10682 [1:28:54<09:15,  2.03it/s] 89%|████████▉ | 9557/10682 [1:28:55<09:15,  2.03it/s] 89%|████████▉ | 9558/10682 [1:28:55<09:14,  2.03it/s] 89%|████████▉ | 9559/10682 [1:28:56<09:13,  2.03it/s] 89%|████████▉ | 9560/10682 [1:28:56<09:12,  2.03it/s] 90%|████████▉ | 9561/10682 [1:28:57<09:12,  2.03it/s] 90%|████████▉ | 9562/10682 [1:28:57<09:12,  2.03it/s] 90%|████████▉ | 9563/10682 [1:28:58<09:12,  2.03it/s] 90%|████████▉ | 9564/10682 [1:28:58<09:12,  2.03it/s] 90%|████████▉ | 9565/10682 [1:28:59<09:11,  2.02it/s] 90%|████████▉ | 9566/10682 [1:28:59<09:11,  2.02it/s] 90%|████████▉ | 9567/10682 [1:29:00<09:10,  2.02it/s] 90%|████████▉ | 9568/10682 [1:29:00<09:09,  2.03it/s] 90%|████████▉ | 9569/10682 [1:29:01<09:09,  2.02it/s] 90%|████████▉ | 9570/10682 [1:29:01<09:08,  2.03it/s] 90%|████████▉ | 9571/10682 [1:29:02<09:07,  2.03it/s] 90%|████████▉ | 9572/10682 [1:29:02<09:07,  2.03it/s] 90%|████████▉ | 9573/10682 [1:29:03<09:07,  2.03it/s] 90%|████████▉ | 9574/10682 [1:29:03<09:06,  2.03it/s] 90%|████████▉ | 9575/10682 [1:29:04<09:05,  2.03it/s]{'loss': 3.5341, 'grad_norm': 0.20018455386161804, 'learning_rate': 3.2364968406054075e-05, 'epoch': 0.9}                                                      
+ 90%|████████▉ | 9575/10682 [1:29:04<09:05,  2.03it/s] 90%|████████▉ | 9576/10682 [1:29:04<09:06,  2.02it/s] 90%|████████▉ | 9577/10682 [1:29:05<09:05,  2.02it/s] 90%|████████▉ | 9578/10682 [1:29:05<09:05,  2.02it/s] 90%|████████▉ | 9579/10682 [1:29:06<09:04,  2.02it/s] 90%|████████▉ | 9580/10682 [1:29:06<09:05,  2.02it/s] 90%|████████▉ | 9581/10682 [1:29:07<09:06,  2.02it/s] 90%|████████▉ | 9582/10682 [1:29:07<09:05,  2.02it/s] 90%|████████▉ | 9583/10682 [1:29:08<09:04,  2.02it/s] 90%|████████▉ | 9584/10682 [1:29:08<09:03,  2.02it/s] 90%|████████▉ | 9585/10682 [1:29:09<09:02,  2.02it/s] 90%|████████▉ | 9586/10682 [1:29:09<09:02,  2.02it/s] 90%|████████▉ | 9587/10682 [1:29:10<09:01,  2.02it/s] 90%|████████▉ | 9588/10682 [1:29:10<09:00,  2.02it/s] 90%|████████▉ | 9589/10682 [1:29:11<08:59,  2.02it/s] 90%|████████▉ | 9590/10682 [1:29:11<08:58,  2.03it/s] 90%|████████▉ | 9591/10682 [1:29:12<08:59,  2.02it/s] 90%|████████▉ | 9592/10682 [1:29:12<08:58,  2.03it/s] 90%|████████▉ | 9593/10682 [1:29:13<08:57,  2.02it/s] 90%|████████▉ | 9594/10682 [1:29:13<08:56,  2.03it/s] 90%|████████▉ | 9595/10682 [1:29:14<08:56,  2.03it/s] 90%|████████▉ | 9596/10682 [1:29:14<08:55,  2.03it/s] 90%|████████▉ | 9597/10682 [1:29:15<08:55,  2.03it/s] 90%|████████▉ | 9598/10682 [1:29:15<08:54,  2.03it/s] 90%|████████▉ | 9599/10682 [1:29:16<08:55,  2.02it/s] 90%|████████▉ | 9600/10682 [1:29:16<08:54,  2.02it/s]                                                      {'loss': 3.5354, 'grad_norm': 0.19871465861797333, 'learning_rate': 3.093473849336781e-05, 'epoch': 0.9}
+ 90%|████████▉ | 9600/10682 [1:29:16<08:54,  2.02it/s] 90%|████████▉ | 9601/10682 [1:29:17<08:54,  2.02it/s] 90%|████████▉ | 9602/10682 [1:29:17<08:53,  2.02it/s] 90%|████████▉ | 9603/10682 [1:29:18<08:52,  2.03it/s] 90%|████████▉ | 9604/10682 [1:29:18<08:52,  2.02it/s] 90%|████████▉ | 9605/10682 [1:29:19<08:51,  2.03it/s] 90%|████████▉ | 9606/10682 [1:29:19<08:51,  2.03it/s] 90%|████████▉ | 9607/10682 [1:29:19<08:50,  2.03it/s] 90%|████████▉ | 9608/10682 [1:29:20<08:49,  2.03it/s] 90%|████████▉ | 9609/10682 [1:29:20<08:49,  2.03it/s] 90%|████████▉ | 9610/10682 [1:29:21<08:48,  2.03it/s] 90%|████████▉ | 9611/10682 [1:29:21<08:48,  2.03it/s] 90%|████████▉ | 9612/10682 [1:29:22<08:48,  2.03it/s] 90%|████████▉ | 9613/10682 [1:29:22<08:47,  2.03it/s] 90%|█████████ | 9614/10682 [1:29:23<08:47,  2.03it/s] 90%|█████████ | 9615/10682 [1:29:23<08:47,  2.02it/s] 90%|█████████ | 9616/10682 [1:29:24<08:46,  2.03it/s] 90%|█████████ | 9617/10682 [1:29:24<08:46,  2.02it/s] 90%|█████████ | 9618/10682 [1:29:25<08:45,  2.03it/s] 90%|█████████ | 9619/10682 [1:29:25<08:45,  2.02it/s] 90%|█████████ | 9620/10682 [1:29:26<08:45,  2.02it/s] 90%|█████████ | 9621/10682 [1:29:26<08:44,  2.02it/s] 90%|█████████ | 9622/10682 [1:29:27<08:43,  2.02it/s] 90%|█████████ | 9623/10682 [1:29:27<08:42,  2.03it/s] 90%|█████████ | 9624/10682 [1:29:28<08:41,  2.03it/s] 90%|█████████ | 9625/10682 [1:29:28<08:41,  2.03it/s]                                                      {'loss': 3.5364, 'grad_norm': 0.20390182733535767, 'learning_rate': 2.9535819277506203e-05, 'epoch': 0.9}
+ 90%|█████████ | 9625/10682 [1:29:28<08:41,  2.03it/s] 90%|█████████ | 9626/10682 [1:29:29<08:41,  2.03it/s] 90%|█████████ | 9627/10682 [1:29:29<08:40,  2.03it/s] 90%|█████████ | 9628/10682 [1:29:30<08:40,  2.03it/s] 90%|█████████ | 9629/10682 [1:29:30<08:40,  2.02it/s] 90%|█████████ | 9630/10682 [1:29:31<08:39,  2.02it/s] 90%|█████████ | 9631/10682 [1:29:31<08:40,  2.02it/s] 90%|█████████ | 9632/10682 [1:29:32<08:39,  2.02it/s] 90%|█████████ | 9633/10682 [1:29:32<08:39,  2.02it/s] 90%|█████████ | 9634/10682 [1:29:33<08:37,  2.02it/s] 90%|█████████ | 9635/10682 [1:29:33<08:37,  2.02it/s] 90%|█████████ | 9636/10682 [1:29:34<08:37,  2.02it/s] 90%|█████████ | 9637/10682 [1:29:34<08:37,  2.02it/s] 90%|█████████ | 9638/10682 [1:29:35<08:35,  2.02it/s] 90%|█████████ | 9639/10682 [1:29:35<08:35,  2.03it/s] 90%|█████████ | 9640/10682 [1:29:36<08:34,  2.02it/s] 90%|█████████ | 9641/10682 [1:29:36<08:33,  2.03it/s] 90%|█████████ | 9642/10682 [1:29:37<08:33,  2.03it/s] 90%|█████████ | 9643/10682 [1:29:37<08:32,  2.03it/s] 90%|█████████ | 9644/10682 [1:29:38<08:31,  2.03it/s] 90%|█████████ | 9645/10682 [1:29:38<08:31,  2.03it/s] 90%|█████████ | 9646/10682 [1:29:39<08:31,  2.03it/s] 90%|█████████ | 9647/10682 [1:29:39<08:30,  2.03it/s] 90%|█████████ | 9648/10682 [1:29:40<08:31,  2.02it/s] 90%|█████████ | 9649/10682 [1:29:40<08:30,  2.02it/s] 90%|█████████ | 9650/10682 [1:29:41<08:30,  2.02it/s]{'loss': 3.5277, 'grad_norm': 0.20151354372501373, 'learning_rate': 2.8168304138088295e-05, 'epoch': 0.9}                                                      
+ 90%|█████████ | 9650/10682 [1:29:41<08:30,  2.02it/s] 90%|█████████ | 9651/10682 [1:29:41<08:32,  2.01it/s] 90%|█████████ | 9652/10682 [1:29:42<09:53,  1.74it/s] 90%|█████████ | 9653/10682 [1:29:42<09:27,  1.81it/s] 90%|█████████ | 9654/10682 [1:29:43<09:09,  1.87it/s] 90%|█████████ | 9655/10682 [1:29:43<08:56,  1.92it/s] 90%|█████████ | 9656/10682 [1:29:44<08:46,  1.95it/s] 90%|████████�� | 9657/10682 [1:29:44<08:40,  1.97it/s] 90%|█████████ | 9658/10682 [1:29:45<08:35,  1.99it/s] 90%|█████████ | 9659/10682 [1:29:45<08:31,  2.00it/s] 90%|█████████ | 9660/10682 [1:29:46<08:29,  2.01it/s] 90%|█████████ | 9661/10682 [1:29:46<08:27,  2.01it/s] 90%|█████████ | 9662/10682 [1:29:47<08:25,  2.02it/s] 90%|█████████ | 9663/10682 [1:29:47<08:24,  2.02it/s] 90%|█████████ | 9664/10682 [1:29:48<08:23,  2.02it/s] 90%|█████████ | 9665/10682 [1:29:48<08:23,  2.02it/s] 90%|█████████ | 9666/10682 [1:29:49<08:22,  2.02it/s] 90%|█████████ | 9667/10682 [1:29:49<08:22,  2.02it/s] 91%|█████████ | 9668/10682 [1:29:50<08:21,  2.02it/s] 91%|█████████ | 9669/10682 [1:29:50<08:22,  2.02it/s] 91%|█████████ | 9670/10682 [1:29:51<08:20,  2.02it/s] 91%|█████████ | 9671/10682 [1:29:51<08:19,  2.02it/s] 91%|█████████ | 9672/10682 [1:29:52<08:19,  2.02it/s] 91%|█████████ | 9673/10682 [1:29:52<08:18,  2.02it/s] 91%|█████████ | 9674/10682 [1:29:53<08:18,  2.02it/s] 91%|█████████ | 9675/10682 [1:29:53<08:16,  2.03it/s]                                                      {'loss': 3.5362, 'grad_norm': 0.2015979140996933, 'learning_rate': 2.6832284358471516e-05, 'epoch': 0.91}
+ 91%|█████████ | 9675/10682 [1:29:53<08:16,  2.03it/s] 91%|█████████ | 9676/10682 [1:29:54<08:17,  2.02it/s] 91%|█████████ | 9677/10682 [1:29:54<08:16,  2.03it/s] 91%|█████████ | 9678/10682 [1:29:55<08:15,  2.02it/s] 91%|█████████ | 9679/10682 [1:29:55<08:15,  2.03it/s] 91%|█████████ | 9680/10682 [1:29:56<08:13,  2.03it/s] 91%|█████████ | 9681/10682 [1:29:56<08:14,  2.03it/s] 91%|█████████ | 9682/10682 [1:29:57<08:13,  2.03it/s] 91%|█████████ | 9683/10682 [1:29:57<08:13,  2.03it/s] 91%|█████████ | 9684/10682 [1:29:58<08:12,  2.03it/s] 91%|█████████ | 9685/10682 [1:29:58<08:12,  2.03it/s] 91%|█████████ | 9686/10682 [1:29:59<08:11,  2.03it/s] 91%|█████████ | 9687/10682 [1:29:59<08:10,  2.03it/s] 91%|█████████ | 9688/10682 [1:30:00<08:10,  2.03it/s] 91%|█████████ | 9689/10682 [1:30:00<08:09,  2.03it/s] 91%|█████████ | 9690/10682 [1:30:01<08:10,  2.02it/s] 91%|█████████ | 9691/10682 [1:30:01<08:09,  2.03it/s] 91%|█████████ | 9692/10682 [1:30:02<08:08,  2.02it/s] 91%|█████████ | 9693/10682 [1:30:02<08:08,  2.03it/s] 91%|█████████ | 9694/10682 [1:30:03<09:27,  1.74it/s] 91%|█████████ | 9695/10682 [1:30:03<09:02,  1.82it/s] 91%|█████████ | 9696/10682 [1:30:04<08:44,  1.88it/s] 91%|█████████ | 9697/10682 [1:30:04<08:33,  1.92it/s] 91%|█████████ | 9698/10682 [1:30:05<08:23,  1.95it/s] 91%|█████████ | 9699/10682 [1:30:05<08:18,  1.97it/s] 91%|█████████ | 9700/10682 [1:30:06<08:14,  1.99it/s]{'loss': 3.5387, 'grad_norm': 0.19450503587722778, 'learning_rate': 2.5527849119658387e-05, 'epoch': 0.91}                                                      
+ 91%|█████████ | 9700/10682 [1:30:06<08:14,  1.99it/s] 91%|█████████ | 9701/10682 [1:30:06<08:12,  1.99it/s] 91%|█████████ | 9702/10682 [1:30:07<08:09,  2.00it/s] 91%|█████████ | 9703/10682 [1:30:07<08:07,  2.01it/s] 91%|█████████ | 9704/10682 [1:30:08<08:05,  2.01it/s] 91%|█████████ | 9705/10682 [1:30:08<08:04,  2.02it/s] 91%|█████████ | 9706/10682 [1:30:09<08:03,  2.02it/s] 91%|█████████ | 9707/10682 [1:30:09<08:02,  2.02it/s] 91%|█████████ | 9708/10682 [1:30:10<08:02,  2.02it/s] 91%|█████████ | 9709/10682 [1:30:10<08:01,  2.02it/s] 91%|█████████ | 9710/10682 [1:30:11<08:00,  2.02it/s] 91%|█████████ | 9711/10682 [1:30:11<07:59,  2.02it/s] 91%|█████████ | 9712/10682 [1:30:12<07:59,  2.02it/s] 91%|█████████ | 9713/10682 [1:30:12<07:58,  2.03it/s] 91%|█████████ | 9714/10682 [1:30:13<07:58,  2.02it/s] 91%|█████████ | 9715/10682 [1:30:13<07:57,  2.02it/s] 91%|█████████ | 9716/10682 [1:30:14<07:57,  2.02it/s] 91%|█████████ | 9717/10682 [1:30:14<07:56,  2.02it/s] 91%|█████████ | 9718/10682 [1:30:15<07:56,  2.02it/s] 91%|█████████ | 9719/10682 [1:30:15<07:56,  2.02it/s] 91%|█████████ | 9720/10682 [1:30:16<07:55,  2.02it/s] 91%|���████████ | 9721/10682 [1:30:16<07:55,  2.02it/s] 91%|█████████ | 9722/10682 [1:30:17<07:54,  2.02it/s] 91%|█████████ | 9723/10682 [1:30:17<07:53,  2.02it/s] 91%|█████████ | 9724/10682 [1:30:18<07:53,  2.03it/s] 91%|█████████ | 9725/10682 [1:30:18<07:52,  2.02it/s]{'loss': 3.5364, 'grad_norm': 0.19790011644363403, 'learning_rate': 2.4255085494343522e-05, 'epoch': 0.91}                                                      
+ 91%|█████████ | 9725/10682 [1:30:18<07:52,  2.02it/s] 91%|█████████ | 9726/10682 [1:30:19<07:52,  2.02it/s] 91%|█████████ | 9727/10682 [1:30:19<07:52,  2.02it/s] 91%|█████████ | 9728/10682 [1:30:20<07:51,  2.03it/s] 91%|█████████ | 9729/10682 [1:30:20<07:50,  2.02it/s] 91%|█████████ | 9730/10682 [1:30:21<07:49,  2.03it/s] 91%|█████████ | 9731/10682 [1:30:21<07:49,  2.02it/s] 91%|█████████ | 9732/10682 [1:30:22<07:49,  2.03it/s] 91%|█████████ | 9733/10682 [1:30:22<07:48,  2.03it/s] 91%|█████████ | 9734/10682 [1:30:23<07:48,  2.02it/s] 91%|█████████ | 9735/10682 [1:30:23<07:47,  2.02it/s] 91%|█████████ | 9736/10682 [1:30:24<07:47,  2.02it/s] 91%|█████████ | 9737/10682 [1:30:24<07:47,  2.02it/s] 91%|█████████ | 9738/10682 [1:30:25<07:46,  2.02it/s] 91%|█████████ | 9739/10682 [1:30:25<07:45,  2.02it/s] 91%|█████████ | 9740/10682 [1:30:26<07:45,  2.02it/s] 91%|█████████ | 9741/10682 [1:30:26<07:45,  2.02it/s] 91%|█████████ | 9742/10682 [1:30:27<07:44,  2.03it/s] 91%|█████████ | 9743/10682 [1:30:27<07:44,  2.02it/s] 91%|█████████ | 9744/10682 [1:30:28<07:43,  2.02it/s] 91%|█████████ | 9745/10682 [1:30:28<07:42,  2.02it/s] 91%|█████████ | 9746/10682 [1:30:29<07:41,  2.03it/s] 91%|█████████ | 9747/10682 [1:30:29<07:41,  2.03it/s] 91%|█████████▏| 9748/10682 [1:30:30<07:40,  2.03it/s] 91%|█████████▏| 9749/10682 [1:30:30<07:40,  2.03it/s] 91%|█████████▏| 9750/10682 [1:30:31<07:40,  2.02it/s]{'loss': 3.5355, 'grad_norm': 0.2029191553592682, 'learning_rate': 2.301407844110154e-05, 'epoch': 0.91}                                                      
+ 91%|█████████▏| 9750/10682 [1:30:31<07:40,  2.02it/s] 91%|█████████▏| 9751/10682 [1:30:31<07:40,  2.02it/s] 91%|█████████▏| 9752/10682 [1:30:32<07:40,  2.02it/s] 91%|█████████▏| 9753/10682 [1:30:32<07:39,  2.02it/s] 91%|█████████▏| 9754/10682 [1:30:33<07:39,  2.02it/s] 91%|█████████▏| 9755/10682 [1:30:33<07:38,  2.02it/s] 91%|█████████▏| 9756/10682 [1:30:34<07:37,  2.02it/s] 91%|█████████▏| 9757/10682 [1:30:34<07:37,  2.02it/s] 91%|█████████▏| 9758/10682 [1:30:35<07:36,  2.03it/s] 91%|█████████▏| 9759/10682 [1:30:35<07:35,  2.03it/s] 91%|█████████▏| 9760/10682 [1:30:36<07:35,  2.03it/s] 91%|█████████▏| 9761/10682 [1:30:36<07:35,  2.02it/s] 91%|█████████▏| 9762/10682 [1:30:37<07:34,  2.03it/s] 91%|█████████▏| 9763/10682 [1:30:37<07:33,  2.03it/s] 91%|█████████▏| 9764/10682 [1:30:38<07:33,  2.02it/s] 91%|█████████▏| 9765/10682 [1:30:38<07:33,  2.02it/s] 91%|█████████▏| 9766/10682 [1:30:39<07:32,  2.02it/s] 91%|█████████▏| 9767/10682 [1:30:39<07:32,  2.02it/s] 91%|█████████▏| 9768/10682 [1:30:40<07:31,  2.02it/s] 91%|█████████▏| 9769/10682 [1:30:40<07:31,  2.02it/s] 91%|█████████▏| 9770/10682 [1:30:41<07:30,  2.03it/s] 91%|█████████▏| 9771/10682 [1:30:41<07:30,  2.02it/s] 91%|█████████▏| 9772/10682 [1:30:42<07:29,  2.02it/s] 91%|█████████▏| 9773/10682 [1:30:42<07:29,  2.02it/s] 91%|█████████▏| 9774/10682 [1:30:43<07:28,  2.03it/s] 92%|█████████▏| 9775/10682 [1:30:43<07:27,  2.03it/s]{'loss': 3.5424, 'grad_norm': 0.20219208300113678, 'learning_rate': 2.1804910798715826e-05, 'epoch': 0.92}                                                      
+ 92%|█████████▏| 9775/10682 [1:30:43<07:27,  2.03it/s] 92%|█████████▏| 9776/10682 [1:30:44<07:27,  2.02it/s] 92%|█████████▏| 9777/10682 [1:30:44<07:26,  2.03it/s] 92%|█████████▏| 9778/10682 [1:30:45<07:26,  2.03it/s] 92%|█████████▏| 9779/10682 [1:30:45<07:25,  2.03it/s] 92%|█████████▏| 9780/10682 [1:30:45<07:25,  2.03it/s] 92%|█████████▏| 9781/10682 [1:30:46<07:24,  2.03it/s] 92%|█████████▏| 9782/10682 [1:30:46<07:24,  2.02it/s] 92%|█████████▏| 9783/10682 [1:30:47<07:23,  2.03it/s] 92%|█████████▏| 9784/10682 [1:30:47<07:23,  2.03it/s] 92%|█████████▏| 9785/10682 [1:30:48<07:23,  2.02it/s] 92%|█████████▏| 9786/10682 [1:30:48<07:23,  2.02it/s] 92%|█████████▏| 9787/10682 [1:30:49<07:22,  2.02it/s] 92%|█████████▏| 9788/10682 [1:30:49<07:22,  2.02it/s] 92%|█████████▏| 9789/10682 [1:30:50<07:21,  2.02it/s] 92%|█████████▏| 9790/10682 [1:30:50<07:20,  2.02it/s] 92%|█████████▏| 9791/10682 [1:30:51<07:19,  2.03it/s] 92%|█████████▏| 9792/10682 [1:30:51<07:18,  2.03it/s] 92%|█████████▏| 9793/10682 [1:30:52<07:18,  2.03it/s] 92%|█████████▏| 9794/10682 [1:30:52<07:18,  2.03it/s] 92%|█████████▏| 9795/10682 [1:30:53<07:18,  2.02it/s] 92%|█████████▏| 9796/10682 [1:30:53<07:17,  2.03it/s] 92%|█████████▏| 9797/10682 [1:30:54<07:17,  2.02it/s] 92%|█████████▏| 9798/10682 [1:30:54<07:16,  2.02it/s] 92%|█████████▏| 9799/10682 [1:30:55<07:16,  2.02it/s] 92%|█████████▏| 9800/10682 [1:30:55<07:15,  2.02it/s]{'loss': 3.5334, 'grad_norm': 0.19749592244625092, 'learning_rate': 2.0627663280649135e-05, 'epoch': 0.92}                                                      
+ 92%|█████████▏| 9800/10682 [1:30:55<07:15,  2.02it/s] 92%|█████████▏| 9801/10682 [1:30:56<07:16,  2.02it/s] 92%|█████████▏| 9802/10682 [1:30:56<07:14,  2.02it/s] 92%|█████████▏| 9803/10682 [1:30:57<07:14,  2.02it/s] 92%|█████████▏| 9804/10682 [1:30:57<07:13,  2.02it/s] 92%|█████████▏| 9805/10682 [1:30:58<07:13,  2.02it/s] 92%|█████████▏| 9806/10682 [1:30:58<07:12,  2.02it/s] 92%|█████████▏| 9807/10682 [1:30:59<07:12,  2.02it/s] 92%|█████████▏| 9808/10682 [1:30:59<07:11,  2.03it/s] 92%|█████████▏| 9809/10682 [1:31:00<07:10,  2.03it/s] 92%|█████████▏| 9810/10682 [1:31:00<07:10,  2.03it/s] 92%|█████████▏| 9811/10682 [1:31:01<07:10,  2.02it/s] 92%|█████████▏| 9812/10682 [1:31:01<07:10,  2.02it/s] 92%|█████████▏| 9813/10682 [1:31:02<07:09,  2.02it/s] 92%|█████████▏| 9814/10682 [1:31:02<07:08,  2.02it/s] 92%|█████████▏| 9815/10682 [1:31:03<07:08,  2.02it/s] 92%|█████████▏| 9816/10682 [1:31:03<07:08,  2.02it/s] 92%|█████████▏| 9817/10682 [1:31:04<07:07,  2.02it/s] 92%|█████████▏| 9818/10682 [1:31:04<07:07,  2.02it/s] 92%|█████████▏| 9819/10682 [1:31:05<07:07,  2.02it/s] 92%|█████████▏| 9820/10682 [1:31:05<07:06,  2.02it/s] 92%|█████████▏| 9821/10682 [1:31:06<07:05,  2.02it/s] 92%|█████████▏| 9822/10682 [1:31:06<07:05,  2.02it/s] 92%|█████████▏| 9823/10682 [1:31:07<07:04,  2.02it/s] 92%|█████████▏| 9824/10682 [1:31:07<07:04,  2.02it/s] 92%|█████████▏| 9825/10682 [1:31:08<07:03,  2.02it/s]{'loss': 3.5263, 'grad_norm': 0.19902397692203522, 'learning_rate': 1.9482414469655486e-05, 'epoch': 0.92}                                                      
+ 92%|█████████▏| 9825/10682 [1:31:08<07:03,  2.02it/s] 92%|█████████▏| 9826/10682 [1:31:08<07:03,  2.02it/s] 92%|█████████▏| 9827/10682 [1:31:09<07:02,  2.02it/s] 92%|█████████▏| 9828/10682 [1:31:09<07:02,  2.02it/s] 92%|█████████▏| 9829/10682 [1:31:10<07:01,  2.02it/s] 92%|█████████▏| 9830/10682 [1:31:10<07:01,  2.02it/s] 92%|█████████▏| 9831/10682 [1:31:11<07:01,  2.02it/s] 92%|█████████▏| 9832/10682 [1:31:11<07:00,  2.02it/s] 92%|█████████▏| 9833/10682 [1:31:12<06:59,  2.02it/s] 92%|█████████▏| 9834/10682 [1:31:12<06:59,  2.02it/s] 92%|█████████▏| 9835/10682 [1:31:13<06:58,  2.02it/s] 92%|█████████▏| 9836/10682 [1:31:13<06:59,  2.02it/s] 92%|█████████▏| 9837/10682 [1:31:14<06:57,  2.02it/s] 92%|█████████▏| 9838/10682 [1:31:14<06:57,  2.02it/s] 92%|█████████▏| 9839/10682 [1:31:15<06:56,  2.02it/s] 92%|█████████▏| 9840/10682 [1:31:15<06:56,  2.02it/s] 92%|█████████▏| 9841/10682 [1:31:16<06:55,  2.02it/s] 92%|█████████��| 9842/10682 [1:31:16<06:55,  2.02it/s] 92%|█████████▏| 9843/10682 [1:31:17<06:54,  2.03it/s] 92%|█████████▏| 9844/10682 [1:31:17<06:53,  2.03it/s] 92%|█████████▏| 9845/10682 [1:31:18<06:53,  2.03it/s] 92%|█████████▏| 9846/10682 [1:31:18<06:52,  2.03it/s] 92%|█████████▏| 9847/10682 [1:31:19<06:52,  2.03it/s] 92%|█████████▏| 9848/10682 [1:31:19<06:52,  2.02it/s] 92%|█████████▏| 9849/10682 [1:31:20<06:51,  2.02it/s] 92%|█████████▏| 9850/10682 [1:31:20<06:51,  2.02it/s]{'loss': 3.5222, 'grad_norm': 0.19902461767196655, 'learning_rate': 1.8369240812535104e-05, 'epoch': 0.92}                                                      
+ 92%|█████████▏| 9850/10682 [1:31:20<06:51,  2.02it/s] 92%|█████████▏| 9851/10682 [1:31:21<06:51,  2.02it/s] 92%|█████████▏| 9852/10682 [1:31:21<06:50,  2.02it/s] 92%|█████████▏| 9853/10682 [1:31:22<06:49,  2.03it/s] 92%|█████████▏| 9854/10682 [1:31:22<06:49,  2.02it/s] 92%|█████████▏| 9855/10682 [1:31:23<06:48,  2.02it/s] 92%|█████████▏| 9856/10682 [1:31:23<06:48,  2.02it/s] 92%|█████████▏| 9857/10682 [1:31:24<06:47,  2.02it/s] 92%|█████████▏| 9858/10682 [1:31:24<06:47,  2.02it/s] 92%|█████████▏| 9859/10682 [1:31:25<06:46,  2.02it/s] 92%|█████████▏| 9860/10682 [1:31:25<06:46,  2.02it/s] 92%|█████████▏| 9861/10682 [1:31:26<06:45,  2.02it/s] 92%|█████████▏| 9862/10682 [1:31:26<06:45,  2.02it/s] 92%|█████████▏| 9863/10682 [1:31:27<06:44,  2.02it/s] 92%|█████████▏| 9864/10682 [1:31:27<06:44,  2.02it/s] 92%|█████████▏| 9865/10682 [1:31:27<06:44,  2.02it/s] 92%|█████████▏| 9866/10682 [1:31:28<06:43,  2.02it/s] 92%|█████████▏| 9867/10682 [1:31:28<06:43,  2.02it/s] 92%|█████████▏| 9868/10682 [1:31:29<06:41,  2.03it/s] 92%|█████████▏| 9869/10682 [1:31:29<06:41,  2.02it/s] 92%|█████████▏| 9870/10682 [1:31:30<06:40,  2.03it/s] 92%|█████████▏| 9871/10682 [1:31:30<06:40,  2.03it/s] 92%|█████████▏| 9872/10682 [1:31:31<06:39,  2.03it/s] 92%|█████████▏| 9873/10682 [1:31:31<06:39,  2.02it/s] 92%|█████████▏| 9874/10682 [1:31:32<06:38,  2.03it/s] 92%|█████████▏| 9875/10682 [1:31:32<06:38,  2.03it/s]                                                      {'loss': 3.5359, 'grad_norm': 0.199530690908432, 'learning_rate': 1.7288216615031272e-05, 'epoch': 0.92}
+ 92%|█████████▏| 9875/10682 [1:31:32<06:38,  2.03it/s] 92%|█████████▏| 9876/10682 [1:31:33<06:38,  2.02it/s] 92%|█████████▏| 9877/10682 [1:31:33<06:38,  2.02it/s] 92%|█████████▏| 9878/10682 [1:31:34<06:37,  2.02it/s] 92%|█████████▏| 9879/10682 [1:31:34<06:36,  2.02it/s] 92%|█████████▏| 9880/10682 [1:31:35<06:36,  2.02it/s] 93%|█████████▎| 9881/10682 [1:31:35<06:35,  2.02it/s] 93%|█████████▎| 9882/10682 [1:31:36<06:35,  2.02it/s] 93%|█████████▎| 9883/10682 [1:31:36<06:35,  2.02it/s] 93%|█████████▎| 9884/10682 [1:31:37<06:34,  2.02it/s] 93%|█████████▎| 9885/10682 [1:31:37<06:34,  2.02it/s] 93%|█████████▎| 9886/10682 [1:31:38<06:33,  2.02it/s] 93%|█████████▎| 9887/10682 [1:31:38<06:32,  2.02it/s] 93%|█████████▎| 9888/10682 [1:31:39<06:32,  2.03it/s] 93%|█████████▎| 9889/10682 [1:31:39<06:31,  2.03it/s] 93%|█████████▎| 9890/10682 [1:31:40<06:31,  2.02it/s] 93%|█████████▎| 9891/10682 [1:31:40<06:30,  2.02it/s] 93%|█████████▎| 9892/10682 [1:31:41<06:30,  2.02it/s] 93%|█████████▎| 9893/10682 [1:31:41<06:29,  2.02it/s] 93%|█████████▎| 9894/10682 [1:31:42<06:29,  2.02it/s] 93%|█████████▎| 9895/10682 [1:31:42<06:29,  2.02it/s] 93%|█████████▎| 9896/10682 [1:31:43<06:28,  2.02it/s] 93%|█████████▎| 9897/10682 [1:31:43<06:28,  2.02it/s] 93%|█████████▎| 9898/10682 [1:31:44<06:27,  2.02it/s] 93%|█████████▎| 9899/10682 [1:31:44<06:27,  2.02it/s] 93%|█████████▎| 9900/10682 [1:31:45<06:26,  2.02it/s]{'loss': 3.54, 'grad_norm': 0.19944651424884796, 'learning_rate': 1.6239414036870183e-05, 'epoch': 0.93}                                                      
+ 93%|█████████▎| 9900/10682 [1:31:45<06:26,  2.02it/s] 93%|███��█████▎| 9901/10682 [1:31:45<06:26,  2.02it/s] 93%|█████████▎| 9902/10682 [1:31:46<06:25,  2.02it/s] 93%|█████████▎| 9903/10682 [1:31:46<06:24,  2.03it/s] 93%|█████████▎| 9904/10682 [1:31:47<06:23,  2.03it/s] 93%|█████████▎| 9905/10682 [1:31:47<06:22,  2.03it/s] 93%|█████████▎| 9906/10682 [1:31:48<06:22,  2.03it/s] 93%|█████████▎| 9907/10682 [1:31:48<06:22,  2.03it/s] 93%|█████████▎| 9908/10682 [1:31:49<06:22,  2.02it/s] 93%|█████████▎| 9909/10682 [1:31:49<06:21,  2.03it/s] 93%|█████████▎| 9910/10682 [1:31:50<06:20,  2.03it/s] 93%|█████████▎| 9911/10682 [1:31:50<06:21,  2.02it/s] 93%|█████████▎| 9912/10682 [1:31:51<06:19,  2.03it/s] 93%|█████████▎| 9913/10682 [1:31:51<06:19,  2.03it/s] 93%|█████████▎| 9914/10682 [1:31:52<06:18,  2.03it/s] 93%|█████████▎| 9915/10682 [1:31:52<06:18,  2.03it/s] 93%|█████████▎| 9916/10682 [1:31:53<06:17,  2.03it/s] 93%|█████████▎| 9917/10682 [1:31:53<06:17,  2.03it/s] 93%|█████████▎| 9918/10682 [1:31:54<06:17,  2.03it/s] 93%|█████████▎| 9919/10682 [1:31:54<06:16,  2.03it/s] 93%|█████████▎| 9920/10682 [1:31:55<06:15,  2.03it/s] 93%|█████████▎| 9921/10682 [1:31:55<06:15,  2.03it/s] 93%|█████████▎| 9922/10682 [1:31:56<06:14,  2.03it/s] 93%|█████████▎| 9923/10682 [1:31:56<06:14,  2.03it/s] 93%|█████████▎| 9924/10682 [1:31:57<06:14,  2.03it/s] 93%|█████████▎| 9925/10682 [1:31:57<06:14,  2.02it/s]{'loss': 3.5381, 'grad_norm': 0.19446982443332672, 'learning_rate': 1.5222903086944684e-05, 'epoch': 0.93}                                                      
+ 93%|█████████▎| 9925/10682 [1:31:57<06:14,  2.02it/s] 93%|█████████▎| 9926/10682 [1:31:58<06:13,  2.02it/s] 93%|█████████▎| 9927/10682 [1:31:58<06:13,  2.02it/s] 93%|█████████▎| 9928/10682 [1:31:59<06:12,  2.02it/s] 93%|█████████▎| 9929/10682 [1:31:59<06:12,  2.02it/s] 93%|█████████▎| 9930/10682 [1:32:00<06:11,  2.03it/s] 93%|█████████▎| 9931/10682 [1:32:00<06:11,  2.02it/s] 93%|█████████▎| 9932/10682 [1:32:01<06:10,  2.03it/s] 93%|█████████▎| 9933/10682 [1:32:01<06:09,  2.03it/s] 93%|█████████▎| 9934/10682 [1:32:02<06:09,  2.03it/s] 93%|█████████▎| 9935/10682 [1:32:02<06:08,  2.03it/s] 93%|█████████▎| 9936/10682 [1:32:03<06:08,  2.03it/s] 93%|█████████▎| 9937/10682 [1:32:03<06:07,  2.03it/s] 93%|█████████▎| 9938/10682 [1:32:04<06:06,  2.03it/s] 93%|█████████▎| 9939/10682 [1:32:04<06:06,  2.03it/s] 93%|█████████▎| 9940/10682 [1:32:05<06:05,  2.03it/s] 93%|█████████▎| 9941/10682 [1:32:05<06:05,  2.03it/s] 93%|█████████▎| 9942/10682 [1:32:06<06:05,  2.03it/s] 93%|█████████▎| 9943/10682 [1:32:06<06:05,  2.02it/s] 93%|█████████▎| 9944/10682 [1:32:07<06:04,  2.02it/s] 93%|█████████▎| 9945/10682 [1:32:07<06:04,  2.02it/s] 93%|█████████▎| 9946/10682 [1:32:08<06:03,  2.02it/s] 93%|█████████▎| 9947/10682 [1:32:08<06:02,  2.03it/s] 93%|█████████▎| 9948/10682 [1:32:08<06:02,  2.02it/s] 93%|█████████▎| 9949/10682 [1:32:09<06:01,  2.02it/s] 93%|█████████▎| 9950/10682 [1:32:09<06:01,  2.02it/s]                                                      {'loss': 3.5259, 'grad_norm': 0.197474867105484, 'learning_rate': 1.4238751618640577e-05, 'epoch': 0.93}
+ 93%|█████████▎| 9950/10682 [1:32:09<06:01,  2.02it/s] 93%|█████████▎| 9951/10682 [1:32:10<06:01,  2.02it/s] 93%|█████████▎| 9952/10682 [1:32:10<06:00,  2.02it/s] 93%|█████████▎| 9953/10682 [1:32:11<06:00,  2.02it/s] 93%|█████████▎| 9954/10682 [1:32:11<06:00,  2.02it/s] 93%|█████████▎| 9955/10682 [1:32:12<05:59,  2.02it/s] 93%|█████████▎| 9956/10682 [1:32:12<05:59,  2.02it/s] 93%|█████████▎| 9957/10682 [1:32:13<05:58,  2.02it/s] 93%|█████████▎| 9958/10682 [1:32:13<05:57,  2.02it/s] 93%|█████████▎| 9959/10682 [1:32:14<05:57,  2.02it/s] 93%|█████████▎| 9960/10682 [1:32:14<05:56,  2.03it/s] 93%|█████████▎| 9961/10682 [1:32:15<05:56,  2.02it/s] 93%|█████████▎| 9962/10682 [1:32:15<05:55,  2.02it/s] 93%|█��███████▎| 9963/10682 [1:32:16<05:55,  2.02it/s] 93%|█████████▎| 9964/10682 [1:32:16<05:54,  2.02it/s] 93%|█████████▎| 9965/10682 [1:32:17<05:54,  2.02it/s] 93%|█████████▎| 9966/10682 [1:32:17<05:54,  2.02it/s] 93%|█████████▎| 9967/10682 [1:32:18<05:53,  2.02it/s] 93%|█████████▎| 9968/10682 [1:32:18<05:52,  2.02it/s] 93%|█████████▎| 9969/10682 [1:32:19<05:52,  2.02it/s] 93%|█████████▎| 9970/10682 [1:32:19<05:51,  2.02it/s] 93%|█████████▎| 9971/10682 [1:32:20<05:51,  2.02it/s] 93%|█████████▎| 9972/10682 [1:32:20<05:50,  2.02it/s] 93%|█████████▎| 9973/10682 [1:32:21<05:49,  2.03it/s] 93%|█████████▎| 9974/10682 [1:32:21<05:49,  2.03it/s] 93%|█████████▎| 9975/10682 [1:32:22<05:48,  2.03it/s]                                                      {'loss': 3.5327, 'grad_norm': 0.198598250746727, 'learning_rate': 1.3287025325307511e-05, 'epoch': 0.93}
+ 93%|█████████▎| 9975/10682 [1:32:22<05:48,  2.03it/s] 93%|█████████▎| 9976/10682 [1:32:22<05:48,  2.03it/s] 93%|█████████▎| 9977/10682 [1:32:23<05:48,  2.03it/s] 93%|█████████▎| 9978/10682 [1:32:23<05:47,  2.02it/s] 93%|█████████▎| 9979/10682 [1:32:24<05:47,  2.02it/s] 93%|█████████▎| 9980/10682 [1:32:24<05:47,  2.02it/s] 93%|█████████▎| 9981/10682 [1:32:25<05:47,  2.02it/s] 93%|█████████▎| 9982/10682 [1:32:25<05:46,  2.02it/s] 93%|█████████▎| 9983/10682 [1:32:26<05:45,  2.02it/s] 93%|█████████▎| 9984/10682 [1:32:26<05:45,  2.02it/s] 93%|█████████▎| 9985/10682 [1:32:27<05:44,  2.02it/s] 93%|█████████▎| 9986/10682 [1:32:27<05:43,  2.02it/s] 93%|█████████▎| 9987/10682 [1:32:28<05:43,  2.02it/s] 94%|█████████▎| 9988/10682 [1:32:28<05:42,  2.02it/s] 94%|█████████▎| 9989/10682 [1:32:29<05:41,  2.03it/s] 94%|█████████▎| 9990/10682 [1:32:29<05:41,  2.03it/s] 94%|█████████▎| 9991/10682 [1:32:30<05:41,  2.03it/s] 94%|█████████▎| 9992/10682 [1:32:30<05:40,  2.02it/s] 94%|█████████▎| 9993/10682 [1:32:31<05:40,  2.02it/s] 94%|█████████▎| 9994/10682 [1:32:31<05:40,  2.02it/s] 94%|█████████▎| 9995/10682 [1:32:32<05:39,  2.02it/s] 94%|█████████▎| 9996/10682 [1:32:32<05:39,  2.02it/s] 94%|█████████▎| 9997/10682 [1:32:33<05:38,  2.02it/s] 94%|█████████▎| 9998/10682 [1:32:33<05:38,  2.02it/s] 94%|█████████▎| 9999/10682 [1:32:34<05:37,  2.03it/s] 94%|█████████▎| 10000/10682 [1:32:34<05:36,  2.02it/s]                                                       {'loss': 3.5285, 'grad_norm': 0.19704172015190125, 'learning_rate': 1.2367787735873993e-05, 'epoch': 0.94}
+ 94%|█████████▎| 10000/10682 [1:32:34<05:36,  2.02it/s] 94%|█████████▎| 10001/10682 [1:32:35<05:36,  2.02it/s] 94%|█████████▎| 10002/10682 [1:32:35<05:35,  2.02it/s] 94%|█████████▎| 10003/10682 [1:32:36<05:35,  2.02it/s] 94%|█████████▎| 10004/10682 [1:32:36<05:34,  2.03it/s] 94%|█████████▎| 10005/10682 [1:32:37<05:34,  2.02it/s] 94%|█████████▎| 10006/10682 [1:32:37<05:33,  2.03it/s] 94%|█████████▎| 10007/10682 [1:32:38<05:33,  2.03it/s] 94%|█████████▎| 10008/10682 [1:32:38<05:32,  2.03it/s] 94%|█████████▎| 10009/10682 [1:32:39<05:32,  2.03it/s] 94%|█████████▎| 10010/10682 [1:32:39<05:31,  2.02it/s] 94%|█████████▎| 10011/10682 [1:32:40<05:31,  2.02it/s] 94%|█████████▎| 10012/10682 [1:32:40<05:31,  2.02it/s] 94%|█████████▎| 10013/10682 [1:32:41<05:30,  2.02it/s] 94%|█████████▎| 10014/10682 [1:32:41<05:30,  2.02it/s] 94%|█████████▍| 10015/10682 [1:32:42<05:29,  2.03it/s] 94%|█████████▍| 10016/10682 [1:32:42<05:28,  2.02it/s] 94%|█████████▍| 10017/10682 [1:32:43<05:28,  2.03it/s] 94%|█████████▍| 10018/10682 [1:32:43<05:27,  2.03it/s] 94%|█████████▍| 10019/10682 [1:32:44<05:26,  2.03it/s] 94%|█████████▍| 10020/10682 [1:32:44<05:26,  2.03it/s] 94%|█████████▍| 10021/10682 [1:32:45<05:25,  2.03it/s] 94%|█████████▍| 10022/10682 [1:32:45<05:25,  2.03it/s] 94%|█████████▍| 10023/10682 [1:32:46<05:25,  2.03it/s] 94%|█████████▍| 10024/10682 [1:32:46<05:24,  2.03it/s] 94%|█████████▍| 10025/10682 [1:32:47<05:24,  2.03it/s]{'loss': 3.5371, 'grad_norm': 0.19656114280223846, 'learning_rate': 1.1481100210606388e-05, 'epoch': 0.94}
+                                                        94%|█████████▍| 10025/10682 [1:32:47<05:24,  2.03it/s] 94%|█████████▍| 10026/10682 [1:32:47<05:24,  2.02it/s] 94%|█████████▍| 10027/10682 [1:32:48<05:24,  2.02it/s] 94%|█████████▍| 10028/10682 [1:32:48<05:23,  2.02it/s] 94%|█████████▍| 10029/10682 [1:32:49<05:23,  2.02it/s] 94%|█████████▍| 10030/10682 [1:32:49<05:22,  2.02it/s] 94%|█████████▍| 10031/10682 [1:32:49<05:21,  2.03it/s] 94%|█████████▍| 10032/10682 [1:32:50<05:20,  2.03it/s] 94%|█████████▍| 10033/10682 [1:32:50<05:20,  2.03it/s] 94%|█████████▍| 10034/10682 [1:32:51<05:19,  2.03it/s] 94%|█████████▍| 10035/10682 [1:32:51<05:19,  2.03it/s] 94%|█████████▍| 10036/10682 [1:32:52<05:18,  2.03it/s] 94%|█████████▍| 10037/10682 [1:32:52<05:18,  2.03it/s] 94%|█████████▍| 10038/10682 [1:32:53<05:17,  2.03it/s] 94%|█████████▍| 10039/10682 [1:32:53<05:17,  2.03it/s] 94%|█████████▍| 10040/10682 [1:32:54<05:16,  2.03it/s] 94%|█████████▍| 10041/10682 [1:32:54<05:16,  2.03it/s] 94%|█████████▍| 10042/10682 [1:32:55<05:15,  2.03it/s] 94%|█████████▍| 10043/10682 [1:32:55<05:15,  2.02it/s] 94%|█████████▍| 10044/10682 [1:32:56<05:15,  2.02it/s] 94%|█████████▍| 10045/10682 [1:32:56<05:15,  2.02it/s] 94%|█████████▍| 10046/10682 [1:32:57<05:14,  2.02it/s] 94%|█████████▍| 10047/10682 [1:32:57<05:13,  2.02it/s] 94%|█████████▍| 10048/10682 [1:32:58<05:13,  2.02it/s] 94%|█████████▍| 10049/10682 [1:32:58<05:12,  2.02it/s] 94%|█████████▍| 10050/10682 [1:32:59<05:12,  2.02it/s]{'loss': 3.5301, 'grad_norm': 0.19762495160102844, 'learning_rate': 1.0627021937013704e-05, 'epoch': 0.94}                                                       
+ 94%|█████████▍| 10050/10682 [1:32:59<05:12,  2.02it/s] 94%|█████████▍| 10051/10682 [1:32:59<05:11,  2.02it/s] 94%|█████████▍| 10052/10682 [1:33:00<05:11,  2.02it/s] 94%|█████████▍| 10053/10682 [1:33:00<05:10,  2.03it/s] 94%|█████████▍| 10054/10682 [1:33:01<05:10,  2.02it/s] 94%|█████████▍| 10055/10682 [1:33:01<05:09,  2.03it/s] 94%|█████████▍| 10056/10682 [1:33:02<05:08,  2.03it/s] 94%|█████████▍| 10057/10682 [1:33:02<05:08,  2.03it/s] 94%|█████████▍| 10058/10682 [1:33:03<05:08,  2.02it/s] 94%|█████████▍| 10059/10682 [1:33:03<05:07,  2.02it/s] 94%|█████████▍| 10060/10682 [1:33:04<05:07,  2.02it/s] 94%|█████████▍| 10061/10682 [1:33:04<05:07,  2.02it/s] 94%|█████████▍| 10062/10682 [1:33:05<05:06,  2.02it/s] 94%|█████████▍| 10063/10682 [1:33:05<05:06,  2.02it/s] 94%|█████████▍| 10064/10682 [1:33:06<05:05,  2.02it/s] 94%|█████████▍| 10065/10682 [1:33:06<05:05,  2.02it/s] 94%|█████████▍| 10066/10682 [1:33:07<05:04,  2.02it/s] 94%|█████████▍| 10067/10682 [1:33:07<05:04,  2.02it/s] 94%|█████████▍| 10068/10682 [1:33:08<05:03,  2.02it/s] 94%|█████████▍| 10069/10682 [1:33:08<05:03,  2.02it/s] 94%|█████████▍| 10070/10682 [1:33:09<05:02,  2.02it/s] 94%|█████████▍| 10071/10682 [1:33:09<05:01,  2.03it/s] 94%|█████████▍| 10072/10682 [1:33:10<05:01,  2.03it/s] 94%|█████████▍| 10073/10682 [1:33:10<05:00,  2.03it/s] 94%|█████████▍| 10074/10682 [1:33:11<05:00,  2.03it/s] 94%|█████████▍| 10075/10682 [1:33:11<04:59,  2.03it/s]{'loss': 3.5311, 'grad_norm': 0.19348052144050598, 'learning_rate': 9.805609925895964e-06, 'epoch': 0.94}
+                                                        94%|█████████▍| 10075/10682 [1:33:11<04:59,  2.03it/s] 94%|█████████▍| 10076/10682 [1:33:12<05:00,  2.02it/s] 94%|█████████▍| 10077/10682 [1:33:12<04:59,  2.02it/s] 94%|█████████▍| 10078/10682 [1:33:13<04:59,  2.02it/s] 94%|█████████▍| 10079/10682 [1:33:13<04:58,  2.02it/s] 94%|█████████▍| 10080/10682 [1:33:14<04:58,  2.02it/s] 94%|█████████▍| 10081/10682 [1:33:14<04:57,  2.02it/s] 94%|█████████▍| 10082/10682 [1:33:15<04:56,  2.02it/s] 94%|█████████▍| 10083/10682 [1:33:15<04:55,  2.02it/s] 94%|█████████▍| 10084/10682 [1:33:16<04:55,  2.02it/s] 94%|█████████▍| 10085/10682 [1:33:16<04:54,  2.03it/s] 94%|█████████▍| 10086/10682 [1:33:17<04:54,  2.03it/s] 94%|█████████▍| 10087/10682 [1:33:17<04:53,  2.03it/s] 94%|█████████▍| 10088/10682 [1:33:18<04:53,  2.03it/s] 94%|█████████▍| 10089/10682 [1:33:18<04:52,  2.03it/s] 94%|█████████▍| 10090/10682 [1:33:19<04:52,  2.03it/s] 94%|█████████▍| 10091/10682 [1:33:19<04:51,  2.02it/s] 94%|█████████▍| 10092/10682 [1:33:20<04:51,  2.03it/s] 94%|█████████▍| 10093/10682 [1:33:20<04:51,  2.02it/s] 94%|█████████▍| 10094/10682 [1:33:21<04:50,  2.02it/s] 95%|█████████▍| 10095/10682 [1:33:21<04:50,  2.02it/s] 95%|█████████▍| 10096/10682 [1:33:22<04:49,  2.02it/s] 95%|█████████▍| 10097/10682 [1:33:22<04:48,  2.02it/s] 95%|█████████▍| 10098/10682 [1:33:23<04:48,  2.03it/s] 95%|█████████▍| 10099/10682 [1:33:23<04:47,  2.03it/s] 95%|█████████▍| 10100/10682 [1:33:24<04:47,  2.03it/s]{'loss': 3.5343, 'grad_norm': 0.19416256248950958, 'learning_rate': 9.01691900753926e-06, 'epoch': 0.95}                                                       
+ 95%|█████████▍| 10100/10682 [1:33:24<04:47,  2.03it/s] 95%|█████████▍| 10101/10682 [1:33:24<04:46,  2.03it/s] 95%|█████████▍| 10102/10682 [1:33:25<04:46,  2.03it/s] 95%|█████████▍| 10103/10682 [1:33:25<04:45,  2.03it/s] 95%|█████████▍| 10104/10682 [1:33:26<04:45,  2.02it/s] 95%|█████████▍| 10105/10682 [1:33:26<04:45,  2.02it/s] 95%|█████████▍| 10106/10682 [1:33:27<04:44,  2.02it/s] 95%|█████████▍| 10107/10682 [1:33:27<04:44,  2.02it/s] 95%|█████████▍| 10108/10682 [1:33:28<04:43,  2.02it/s] 95%|█████████▍| 10109/10682 [1:33:28<04:43,  2.02it/s] 95%|█████████▍| 10110/10682 [1:33:29<04:42,  2.02it/s] 95%|█████████▍| 10111/10682 [1:33:29<04:41,  2.02it/s] 95%|█████████▍| 10112/10682 [1:33:30<04:41,  2.03it/s] 95%|█████████▍| 10113/10682 [1:33:30<04:40,  2.03it/s] 95%|█████████▍| 10114/10682 [1:33:30<04:40,  2.03it/s] 95%|█████████▍| 10115/10682 [1:33:31<04:39,  2.03it/s] 95%|█████████▍| 10116/10682 [1:33:31<04:39,  2.03it/s] 95%|█████████▍| 10117/10682 [1:33:32<04:39,  2.02it/s] 95%|█████████▍| 10118/10682 [1:33:32<04:38,  2.03it/s] 95%|█████████▍| 10119/10682 [1:33:33<04:38,  2.02it/s] 95%|█████████▍| 10120/10682 [1:33:33<04:37,  2.02it/s] 95%|█████████▍| 10121/10682 [1:33:34<04:37,  2.02it/s] 95%|█████████▍| 10122/10682 [1:33:34<04:36,  2.02it/s] 95%|█████████▍| 10123/10682 [1:33:35<04:36,  2.02it/s] 95%|█████████▍| 10124/10682 [1:33:35<04:35,  2.02it/s] 95%|█████████▍| 10125/10682 [1:33:36<04:35,  2.02it/s]{'loss': 3.5371, 'grad_norm': 0.19430579245090485, 'learning_rate': 8.261001828055447e-06, 'epoch': 0.95}
+                                                        95%|█████████▍| 10125/10682 [1:33:36<04:35,  2.02it/s] 95%|█████████▍| 10126/10682 [1:33:36<04:34,  2.02it/s] 95%|█████████▍| 10127/10682 [1:33:37<04:34,  2.02it/s] 95%|█████████▍| 10128/10682 [1:33:37<04:33,  2.02it/s] 95%|█████████▍| 10129/10682 [1:33:38<04:33,  2.02it/s] 95%|█████████▍| 10130/10682 [1:33:38<04:32,  2.03it/s] 95%|█████████▍| 10131/10682 [1:33:39<04:31,  2.03it/s] 95%|█████████▍| 10132/10682 [1:33:39<04:31,  2.03it/s] 95%|█████████▍| 10133/10682 [1:33:40<04:30,  2.03it/s] 95%|█████████▍| 10134/10682 [1:33:40<04:30,  2.03it/s] 95%|█████████▍| 10135/10682 [1:33:41<04:29,  2.03it/s] 95%|█████████▍| 10136/10682 [1:33:41<04:29,  2.02it/s] 95%|█████████▍| 10137/10682 [1:33:42<04:29,  2.02it/s] 95%|█████████▍| 10138/10682 [1:33:42<04:28,  2.02it/s] 95%|█████████▍| 10139/10682 [1:33:43<04:28,  2.02it/s] 95%|█████████▍| 10140/10682 [1:33:43<04:28,  2.02it/s] 95%|█████████▍| 10141/10682 [1:33:44<04:27,  2.02it/s] 95%|█████████▍| 10142/10682 [1:33:44<04:26,  2.02it/s] 95%|█████████▍| 10143/10682 [1:33:45<04:26,  2.02it/s] 95%|█████████▍| 10144/10682 [1:33:45<04:25,  2.03it/s] 95%|█████████▍| 10145/10682 [1:33:46<04:25,  2.02it/s] 95%|█████████▍| 10146/10682 [1:33:46<04:24,  2.03it/s] 95%|█████████▍| 10147/10682 [1:33:47<04:23,  2.03it/s] 95%|█████████▌| 10148/10682 [1:33:47<04:23,  2.03it/s] 95%|█████████▌| 10149/10682 [1:33:48<04:22,  2.03it/s] 95%|█████████▌| 10150/10682 [1:33:48<04:22,  2.03it/s]{'loss': 3.5325, 'grad_norm': 0.19691675901412964, 'learning_rate': 7.537908845868024e-06, 'epoch': 0.95}                                                       
+ 95%|█████████▌| 10150/10682 [1:33:48<04:22,  2.03it/s] 95%|█████████▌| 10151/10682 [1:33:49<04:22,  2.02it/s] 95%|█████████▌| 10152/10682 [1:33:49<04:21,  2.02it/s] 95%|█████████▌| 10153/10682 [1:33:50<04:21,  2.02it/s] 95%|█████████▌| 10154/10682 [1:33:50<04:20,  2.02it/s] 95%|█████████▌| 10155/10682 [1:33:51<04:20,  2.02it/s] 95%|█████████▌| 10156/10682 [1:33:51<04:19,  2.02it/s] 95%|█████████▌| 10157/10682 [1:33:52<04:19,  2.02it/s] 95%|█████████▌| 10158/10682 [1:33:52<04:18,  2.03it/s] 95%|█████████▌| 10159/10682 [1:33:53<04:18,  2.03it/s] 95%|█████████▌| 10160/10682 [1:33:53<04:17,  2.03it/s] 95%|█████████▌| 10161/10682 [1:33:54<04:16,  2.03it/s] 95%|█████████▌| 10162/10682 [1:33:54<04:16,  2.03it/s] 95%|█████████▌| 10163/10682 [1:33:55<04:16,  2.03it/s] 95%|█████████▌| 10164/10682 [1:33:55<04:15,  2.03it/s] 95%|█████████▌| 10165/10682 [1:33:56<04:15,  2.03it/s] 95%|█████████▌| 10166/10682 [1:33:56<04:14,  2.03it/s] 95%|█████████▌| 10167/10682 [1:33:57<04:14,  2.03it/s] 95%|█████████▌| 10168/10682 [1:33:57<04:13,  2.03it/s] 95%|█████████▌| 10169/10682 [1:33:58<04:13,  2.02it/s] 95%|█████████▌| 10170/10682 [1:33:58<04:13,  2.02it/s] 95%|█████████▌| 10171/10682 [1:33:59<04:12,  2.02it/s] 95%|█████████▌| 10172/10682 [1:33:59<04:12,  2.02it/s] 95%|█████████▌| 10173/10682 [1:34:00<04:11,  2.02it/s] 95%|█████████▌| 10174/10682 [1:34:00<04:11,  2.02it/s] 95%|█████████▌| 10175/10682 [1:34:01<04:10,  2.02it/s]{'loss': 3.5354, 'grad_norm': 0.19944950938224792, 'learning_rate': 6.847688328344037e-06, 'epoch': 0.95}                                                       
+ 95%|█████████▌| 10175/10682 [1:34:01<04:10,  2.02it/s] 95%|█████████▌| 10176/10682 [1:34:01<04:10,  2.02it/s] 95%|█████████▌| 10177/10682 [1:34:02<04:09,  2.02it/s] 95%|█████████▌| 10178/10682 [1:34:02<04:09,  2.02it/s] 95%|█████████▌| 10179/10682 [1:34:03<04:08,  2.03it/s] 95%|█████████▌| 10180/10682 [1:34:03<04:07,  2.03it/s] 95%|█████████▌| 10181/10682 [1:34:04<04:07,  2.03it/s] 95%|█████████▌| 10182/10682 [1:34:04<04:06,  2.03it/s] 95%|█████████▌| 10183/10682 [1:34:05<04:06,  2.03it/s] 95%|█████████▌| 10184/10682 [1:34:05<04:05,  2.03it/s] 95%|█████████▌| 10185/10682 [1:34:06<04:05,  2.03it/s] 95%|█████████▌| 10186/10682 [1:34:06<04:05,  2.02it/s] 95%|█████████▌| 10187/10682 [1:34:07<04:04,  2.02it/s] 95%|█████████▌| 10188/10682 [1:34:07<04:04,  2.02it/s] 95%|█████████▌| 10189/10682 [1:34:08<04:03,  2.02it/s] 95%|█████████▌| 10190/10682 [1:34:08<04:03,  2.02it/s] 95%|█████████▌| 10191/10682 [1:34:09<04:02,  2.02it/s] 95%|█████████▌| 10192/10682 [1:34:09<04:02,  2.02it/s] 95%|█████████▌| 10193/10682 [1:34:10<04:01,  2.02it/s] 95%|█████████▌| 10194/10682 [1:34:10<04:01,  2.02it/s] 95%|█████████▌| 10195/10682 [1:34:11<04:00,  2.02it/s] 95%|█████████▌| 10196/10682 [1:34:11<04:00,  2.02it/s] 95%|█████████▌| 10197/10682 [1:34:11<03:59,  2.02it/s] 95%|█████████▌| 10198/10682 [1:34:12<03:59,  2.02it/s] 95%|█████████▌| 10199/10682 [1:34:12<03:58,  2.03it/s] 95%|█████████▌| 10200/10682 [1:34:13<03:58,  2.02it/s]{'loss': 3.5359, 'grad_norm': 0.19844520092010498, 'learning_rate': 6.190386348572108e-06, 'epoch': 0.95}                                                       
+ 95%|█████████▌| 10200/10682 [1:34:13<03:58,  2.02it/s] 95%|█████████▌| 10201/10682 [1:34:13<03:57,  2.02it/s] 96%|█████████▌| 10202/10682 [1:34:14<03:57,  2.02it/s] 96%|█████████▌| 10203/10682 [1:34:14<03:56,  2.02it/s] 96%|█████████▌| 10204/10682 [1:34:15<03:56,  2.02it/s] 96%|█████████▌| 10205/10682 [1:34:15<03:56,  2.02it/s] 96%|█████████▌| 10206/10682 [1:34:16<03:55,  2.02it/s] 96%|█████████▌| 10207/10682 [1:34:16<03:55,  2.02it/s] 96%|█████████▌| 10208/10682 [1:34:17<03:54,  2.02it/s] 96%|█████████▌| 10209/10682 [1:34:17<03:54,  2.02it/s] 96%|█████████▌| 10210/10682 [1:34:18<03:53,  2.02it/s] 96%|█████████▌| 10211/10682 [1:34:18<03:53,  2.02it/s] 96%|█████████▌| 10212/10682 [1:34:19<03:52,  2.02it/s] 96%|█████████▌| 10213/10682 [1:34:19<03:51,  2.02it/s] 96%|█████████▌| 10214/10682 [1:34:20<03:51,  2.02it/s] 96%|█████████▌| 10215/10682 [1:34:20<03:50,  2.02it/s] 96%|█████████▌| 10216/10682 [1:34:21<03:50,  2.02it/s] 96%|█████████▌| 10217/10682 [1:34:21<03:49,  2.02it/s] 96%|█████████▌| 10218/10682 [1:34:22<03:49,  2.02it/s] 96%|█████████▌| 10219/10682 [1:34:22<03:48,  2.02it/s] 96%|█████████▌| 10220/10682 [1:34:23<03:48,  2.02it/s] 96%|█████████▌| 10221/10682 [1:34:23<03:47,  2.02it/s] 96%|█████████▌| 10222/10682 [1:34:24<03:47,  2.03it/s] 96%|█████████▌| 10223/10682 [1:34:24<03:46,  2.02it/s] 96%|█████████▌| 10224/10682 [1:34:25<03:46,  2.02it/s] 96%|█████████▌| 10225/10682 [1:34:25<03:45,  2.02it/s]                                                       {'loss': 3.5297, 'grad_norm': 0.19298093020915985, 'learning_rate': 5.56604678228706e-06, 'epoch': 0.96}
+ 96%|█████████▌| 10225/10682 [1:34:25<03:45,  2.02it/s] 96%|█████████▌| 10226/10682 [1:34:26<03:45,  2.02it/s] 96%|█████████▌| 10227/10682 [1:34:26<03:44,  2.02it/s] 96%|█████████▌| 10228/10682 [1:34:27<03:44,  2.02it/s] 96%|█████████▌| 10229/10682 [1:34:27<03:43,  2.02it/s] 96%|█████████▌| 10230/10682 [1:34:28<03:43,  2.02it/s] 96%|█████████▌| 10231/10682 [1:34:28<03:42,  2.02it/s] 96%|█████████▌| 10232/10682 [1:34:29<03:42,  2.02it/s] 96%|█████████▌| 10233/10682 [1:34:29<03:41,  2.02it/s] 96%|█████████▌| 10234/10682 [1:34:30<03:41,  2.02it/s] 96%|█████████▌| 10235/10682 [1:34:30<03:40,  2.02it/s] 96%|█████████▌| 10236/10682 [1:34:31<03:40,  2.02it/s] 96%|█████████▌| 10237/10682 [1:34:31<03:39,  2.02it/s] 96%|█████████▌| 10238/10682 [1:34:32<03:39,  2.02it/s] 96%|█████████▌| 10239/10682 [1:34:32<03:38,  2.02it/s] 96%|█████████▌| 10240/10682 [1:34:33<03:38,  2.03it/s] 96%|█████████▌| 10241/10682 [1:34:33<03:37,  2.03it/s] 96%|█████████▌| 10242/10682 [1:34:34<03:36,  2.03it/s] 96%|█████████▌| 10243/10682 [1:34:34<03:36,  2.03it/s] 96%|█████████▌| 10244/10682 [1:34:35<03:36,  2.02it/s] 96%|█████████▌| 10245/10682 [1:34:35<03:35,  2.02it/s] 96%|█████████▌| 10246/10682 [1:34:36<03:35,  2.02it/s] 96%|█████████▌| 10247/10682 [1:34:36<03:35,  2.02it/s] 96%|█████████▌| 10248/10682 [1:34:37<03:34,  2.02it/s] 96%|█████████▌| 10249/10682 [1:34:37<03:33,  2.02it/s] 96%|█████████▌| 10250/10682 [1:34:38<03:33,  2.02it/s]{'loss': 3.5301, 'grad_norm': 0.1974184364080429, 'learning_rate': 4.974711304941093e-06, 'epoch': 0.96}                                                       
+ 96%|█████████▌| 10250/10682 [1:34:38<03:33,  2.02it/s] 96%|█████████▌| 10251/10682 [1:34:38<03:32,  2.02it/s] 96%|█████████▌| 10252/10682 [1:34:39<03:32,  2.02it/s] 96%|█████████▌| 10253/10682 [1:34:39<03:31,  2.02it/s] 96%|█████████▌| 10254/10682 [1:34:40<03:31,  2.02it/s] 96%|█████████▌| 10255/10682 [1:34:40<03:30,  2.03it/s] 96%|█████████▌| 10256/10682 [1:34:41<03:30,  2.03it/s] 96%|█████████▌| 10257/10682 [1:34:41<03:29,  2.03it/s] 96%|█████████▌| 10258/10682 [1:34:42<03:29,  2.03it/s] 96%|█████████▌| 10259/10682 [1:34:42<03:28,  2.03it/s] 96%|█████████▌| 10260/10682 [1:34:43<03:28,  2.03it/s] 96%|█████████▌| 10261/10682 [1:34:43<03:27,  2.03it/s] 96%|█████████▌| 10262/10682 [1:34:44<03:27,  2.03it/s] 96%|█████████▌| 10263/10682 [1:34:44<03:26,  2.03it/s] 96%|█████████▌| 10264/10682 [1:34:45<03:26,  2.02it/s] 96%|█████████▌| 10265/10682 [1:34:45<03:26,  2.02it/s] 96%|█████████▌| 10266/10682 [1:34:46<03:25,  2.02it/s] 96%|█████████▌| 10267/10682 [1:34:46<03:25,  2.02it/s] 96%|█████████▌| 10268/10682 [1:34:47<03:24,  2.02it/s] 96%|█████████▌| 10269/10682 [1:34:47<03:24,  2.02it/s] 96%|█████████▌| 10270/10682 [1:34:48<03:23,  2.02it/s] 96%|█████████▌| 10271/10682 [1:34:48<03:23,  2.02it/s] 96%|█████████▌| 10272/10682 [1:34:49<03:22,  2.02it/s] 96%|█████████▌| 10273/10682 [1:34:49<03:22,  2.02it/s] 96%|█████████▌| 10274/10682 [1:34:50<03:21,  2.02it/s] 96%|█████████▌| 10275/10682 [1:34:50<03:21,  2.02it/s]{'loss': 3.5293, 'grad_norm': 0.1991850882768631, 'learning_rate': 4.416419388921844e-06, 'epoch': 0.96}                                                       
+ 96%|█████████▌| 10275/10682 [1:34:50<03:21,  2.02it/s] 96%|█████████▌| 10276/10682 [1:34:51<03:20,  2.02it/s] 96%|█████████▌| 10277/10682 [1:34:51<03:20,  2.02it/s] 96%|█████████▌| 10278/10682 [1:34:52<03:19,  2.02it/s] 96%|█████████▌| 10279/10682 [1:34:52<03:19,  2.02it/s] 96%|█████████▌| 10280/10682 [1:34:53<03:18,  2.02it/s] 96%|█████████▌| 10281/10682 [1:34:53<03:18,  2.02it/s] 96%|█████████▋| 10282/10682 [1:34:54<03:17,  2.02it/s] 96%|█████████▋| 10283/10682 [1:34:54<03:17,  2.02it/s] 96%|█████████▋| 10284/10682 [1:34:55<03:16,  2.02it/s] 96%|█████████▋| 10285/10682 [1:34:55<03:16,  2.02it/s] 96%|█████████▋| 10286/10682 [1:34:55<03:15,  2.02it/s] 96%|█████████▋| 10287/10682 [1:34:56<03:15,  2.02it/s] 96%|█████████▋| 10288/10682 [1:34:56<03:14,  2.03it/s] 96%|█████████▋| 10289/10682 [1:34:57<03:14,  2.02it/s] 96%|█████████▋| 10290/10682 [1:34:57<03:13,  2.02it/s] 96%|█████████▋| 10291/10682 [1:34:58<03:13,  2.03it/s] 96%|█████████▋| 10292/10682 [1:34:58<03:12,  2.03it/s] 96%|█████████▋| 10293/10682 [1:34:59<03:12,  2.03it/s] 96%|█████████▋| 10294/10682 [1:34:59<03:11,  2.03it/s] 96%|█████████▋| 10295/10682 [1:35:00<03:11,  2.02it/s] 96%|█████████▋| 10296/10682 [1:35:00<03:10,  2.02it/s] 96%|█████████▋| 10297/10682 [1:35:01<03:10,  2.02it/s] 96%|█████████▋| 10298/10682 [1:35:01<03:10,  2.02it/s] 96%|█████████▋| 10299/10682 [1:35:02<03:09,  2.02it/s] 96%|█████████▋| 10300/10682 [1:35:02<03:09,  2.02it/s]{'loss': 3.5212, 'grad_norm': 0.19601494073867798, 'learning_rate': 3.891208300917604e-06, 'epoch': 0.96}                                                       
+ 96%|█████████▋| 10300/10682 [1:35:02<03:09,  2.02it/s] 96%|█████████▋| 10301/10682 [1:35:03<03:08,  2.02it/s] 96%|█████████▋| 10302/10682 [1:35:03<03:08,  2.02it/s] 96%|█████████▋| 10303/10682 [1:35:04<03:07,  2.02it/s] 96%|█████████▋| 10304/10682 [1:35:04<03:06,  2.02it/s] 96%|█████████▋| 10305/10682 [1:35:05<03:06,  2.02it/s] 96%|█████████▋| 10306/10682 [1:35:05<03:05,  2.02it/s] 96%|█████████▋| 10307/10682 [1:35:06<03:05,  2.03it/s] 96%|█████████▋| 10308/10682 [1:35:06<03:04,  2.03it/s] 97%|█████████▋| 10309/10682 [1:35:07<03:04,  2.03it/s] 97%|█████████▋| 10310/10682 [1:35:07<03:03,  2.02it/s] 97%|█████████▋| 10311/10682 [1:35:08<03:03,  2.02it/s] 97%|█████████▋| 10312/10682 [1:35:08<03:02,  2.02it/s] 97%|█████████▋| 10313/10682 [1:35:09<03:02,  2.02it/s] 97%|█████████▋| 10314/10682 [1:35:09<03:02,  2.02it/s] 97%|█████████▋| 10315/10682 [1:35:10<03:01,  2.02it/s] 97%|█████████▋| 10316/10682 [1:35:10<03:00,  2.02it/s] 97%|█████████▋| 10317/10682 [1:35:11<03:00,  2.02it/s] 97%|█████████▋| 10318/10682 [1:35:11<02:59,  2.03it/s] 97%|█████████▋| 10319/10682 [1:35:12<02:59,  2.03it/s] 97%|█████████▋| 10320/10682 [1:35:12<02:58,  2.03it/s] 97%|█████████▋| 10321/10682 [1:35:13<02:57,  2.03it/s] 97%|█████████▋| 10322/10682 [1:35:13<02:57,  2.03it/s] 97%|█████████▋| 10323/10682 [1:35:14<02:57,  2.03it/s] 97%|█████████▋| 10324/10682 [1:35:14<02:56,  2.02it/s] 97%|█████████▋| 10325/10682 [1:35:15<02:56,  2.02it/s]{'loss': 3.5354, 'grad_norm': 0.19711841642856598, 'learning_rate': 3.3991130994299734e-06, 'epoch': 0.97}                                                       
+ 97%|█████████▋| 10325/10682 [1:35:15<02:56,  2.02it/s] 97%|█████████▋| 10326/10682 [1:35:15<02:56,  2.02it/s] 97%|█████████▋| 10327/10682 [1:35:16<02:55,  2.02it/s] 97%|█████████▋| 10328/10682 [1:35:16<02:55,  2.02it/s] 97%|█████████▋| 10329/10682 [1:35:17<02:54,  2.03it/s] 97%|█████████▋| 10330/10682 [1:35:17<02:54,  2.02it/s] 97%|█████████▋| 10331/10682 [1:35:18<02:53,  2.02it/s] 97%|█████████▋| 10332/10682 [1:35:18<02:53,  2.02it/s] 97%|█████████▋| 10333/10682 [1:35:19<02:52,  2.02it/s] 97%|█████████▋| 10334/10682 [1:35:19<02:51,  2.03it/s] 97%|█████████▋| 10335/10682 [1:35:20<02:51,  2.02it/s] 97%|█████████▋| 10336/10682 [1:35:20<02:50,  2.03it/s] 97%|█████████▋| 10337/10682 [1:35:21<02:50,  2.03it/s] 97%|█████████▋| 10338/10682 [1:35:21<02:49,  2.03it/s] 97%|█████████▋| 10339/10682 [1:35:22<02:49,  2.03it/s] 97%|█████████▋| 10340/10682 [1:35:22<02:48,  2.02it/s] 97%|█████████▋| 10341/10682 [1:35:23<02:48,  2.02it/s] 97%|█████████▋| 10342/10682 [1:35:23<02:48,  2.02it/s] 97%|█████████▋| 10343/10682 [1:35:24<02:47,  2.02it/s] 97%|█████████▋| 10344/10682 [1:35:24<02:46,  2.02it/s] 97%|█████████▋| 10345/10682 [1:35:25<02:46,  2.02it/s] 97%|█████████▋| 10346/10682 [1:35:25<02:46,  2.02it/s] 97%|█████████▋| 10347/10682 [1:35:26<02:45,  2.02it/s] 97%|█████████▋| 10348/10682 [1:35:26<02:44,  2.03it/s] 97%|█████████▋| 10349/10682 [1:35:27<02:44,  2.03it/s] 97%|█████████▋| 10350/10682 [1:35:27<02:43,  2.03it/s]{'loss': 3.5338, 'grad_norm': 0.1939994990825653, 'learning_rate': 2.940166632433183e-06, 'epoch': 0.97}                                                       
+ 97%|█████████▋| 10350/10682 [1:35:27<02:43,  2.03it/s] 97%|█████████▋| 10351/10682 [1:35:28<02:43,  2.02it/s] 97%|█████████▋| 10352/10682 [1:35:28<02:43,  2.02it/s] 97%|█████████▋| 10353/10682 [1:35:29<02:42,  2.03it/s] 97%|█████████▋| 10354/10682 [1:35:29<02:42,  2.02it/s] 97%|█████████▋| 10355/10682 [1:35:30<02:41,  2.02it/s] 97%|█████████▋| 10356/10682 [1:35:30<02:41,  2.02it/s] 97%|█████████▋| 10357/10682 [1:35:31<02:40,  2.02it/s] 97%|█████████▋| 10358/10682 [1:35:31<02:40,  2.02it/s] 97%|█████████▋| 10359/10682 [1:35:32<02:39,  2.02it/s] 97%|█████████▋| 10360/10682 [1:35:32<02:39,  2.02it/s] 97%|█████████▋| 10361/10682 [1:35:33<02:38,  2.02it/s] 97%|█████████▋| 10362/10682 [1:35:33<02:38,  2.02it/s] 97%|█████████▋| 10363/10682 [1:35:34<02:37,  2.02it/s] 97%|█████████▋| 10364/10682 [1:35:34<02:37,  2.02it/s] 97%|█████████▋| 10365/10682 [1:35:35<02:36,  2.02it/s] 97%|█████████▋| 10366/10682 [1:35:35<02:36,  2.02it/s] 97%|█████████▋| 10367/10682 [1:35:36<02:35,  2.02it/s] 97%|█████████▋| 10368/10682 [1:35:36<02:35,  2.02it/s] 97%|█████████▋| 10369/10682 [1:35:37<02:34,  2.02it/s] 97%|█████████▋| 10370/10682 [1:35:37<02:34,  2.03it/s] 97%|█████████▋| 10371/10682 [1:35:37<02:33,  2.03it/s] 97%|█████████▋| 10372/10682 [1:35:38<02:57,  1.74it/s] 97%|█████████▋| 10373/10682 [1:35:39<02:49,  1.82it/s] 97%|█████████▋| 10374/10682 [1:35:39<02:44,  1.88it/s] 97%|█████████▋| 10375/10682 [1:35:40<02:39,  1.92it/s]                                                       {'loss': 3.5362, 'grad_norm': 0.19582685828208923, 'learning_rate': 2.5143995351817882e-06, 'epoch': 0.97} 97%|█████████▋| 10375/10682 [1:35:40<02:39,  1.92it/s]
+ 97%|█████████▋| 10376/10682 [1:35:40<02:37,  1.95it/s] 97%|█████████▋| 10377/10682 [1:35:41<02:34,  1.97it/s] 97%|█████████▋| 10378/10682 [1:35:41<02:33,  1.98it/s] 97%|█████████▋| 10379/10682 [1:35:42<02:31,  2.00it/s] 97%|█████████▋| 10380/10682 [1:35:42<02:30,  2.01it/s] 97%|█████████▋| 10381/10682 [1:35:43<02:29,  2.01it/s] 97%|█████████▋| 10382/10682 [1:35:43<02:28,  2.02it/s] 97%|█████████▋| 10383/10682 [1:35:44<02:27,  2.02it/s] 97%|█████████▋| 10384/10682 [1:35:44<02:27,  2.03it/s] 97%|█████████▋| 10385/10682 [1:35:45<02:26,  2.03it/s] 97%|█████████▋| 10386/10682 [1:35:45<02:26,  2.03it/s] 97%|█████████▋| 10387/10682 [1:35:46<02:25,  2.03it/s] 97%|█████████▋| 10388/10682 [1:35:46<02:25,  2.03it/s] 97%|█████████▋| 10389/10682 [1:35:47<02:24,  2.03it/s] 97%|█████████▋| 10390/10682 [1:35:47<02:24,  2.02it/s] 97%|█████████▋| 10391/10682 [1:35:48<02:23,  2.02it/s] 97%|█████████▋| 10392/10682 [1:35:48<02:23,  2.02it/s] 97%|█████████▋| 10393/10682 [1:35:49<02:22,  2.02it/s] 97%|█████████▋| 10394/10682 [1:35:49<02:22,  2.02it/s] 97%|█████████▋| 10395/10682 [1:35:50<02:21,  2.02it/s] 97%|█████████▋| 10396/10682 [1:35:50<02:21,  2.02it/s] 97%|█████████▋| 10397/10682 [1:35:51<02:20,  2.02it/s] 97%|█████████▋| 10398/10682 [1:35:51<02:20,  2.02it/s] 97%|█████████▋| 10399/10682 [1:35:52<02:19,  2.02it/s] 97%|█████████▋| 10400/10682 [1:35:52<02:19,  2.02it/s]{'loss': 3.5366, 'grad_norm': 0.19607190787792206, 'learning_rate': 2.1218402281655835e-06, 'epoch': 0.97}                                                       
+ 97%|█████████▋| 10400/10682 [1:35:52<02:19,  2.02it/s] 97%|█████████▋| 10401/10682 [1:35:53<02:19,  2.02it/s] 97%|█████████▋| 10402/10682 [1:35:53<02:18,  2.02it/s] 97%|█████████▋| 10403/10682 [1:35:54<02:17,  2.02it/s] 97%|█████████▋| 10404/10682 [1:35:54<02:17,  2.02it/s] 97%|█████████▋| 10405/10682 [1:35:55<02:17,  2.02it/s] 97%|█████████▋| 10406/10682 [1:35:55<02:16,  2.02it/s] 97%|█████████▋| 10407/10682 [1:35:56<02:15,  2.02it/s] 97%|█████████▋| 10408/10682 [1:35:56<02:15,  2.02it/s] 97%|█████████▋| 10409/10682 [1:35:57<02:14,  2.02it/s] 97%|█████████▋| 10410/10682 [1:35:57<02:14,  2.02it/s] 97%|█████████▋| 10411/10682 [1:35:58<02:13,  2.02it/s] 97%|█████████▋| 10412/10682 [1:35:58<02:13,  2.02it/s] 97%|█████████▋| 10413/10682 [1:35:59<02:12,  2.02it/s] 97%|█████████▋| 10414/10682 [1:35:59<02:12,  2.02it/s] 98%|█████████▊| 10415/10682 [1:36:00<02:33,  1.74it/s] 98%|█████████▊| 10416/10682 [1:36:00<02:26,  1.82it/s] 98%|█████████▊| 10417/10682 [1:36:01<02:21,  1.88it/s] 98%|█████████▊| 10418/10682 [1:36:01<02:17,  1.92it/s] 98%|█████████▊| 10419/10682 [1:36:02<02:14,  1.95it/s] 98%|█████████▊| 10420/10682 [1:36:02<02:12,  1.97it/s] 98%|█████████▊| 10421/10682 [1:36:03<02:11,  1.98it/s] 98%|█████████▊| 10422/10682 [1:36:03<02:10,  1.99it/s] 98%|█████████▊| 10423/10682 [1:36:04<02:09,  2.00it/s] 98%|█████████▊| 10424/10682 [1:36:04<02:08,  2.01it/s] 98%|█████████▊| 10425/10682 [1:36:05<02:07,  2.01it/s]                                                       {'loss': 3.5269, 'grad_norm': 0.19379498064517975, 'learning_rate': 1.7625149152127318e-06, 'epoch': 0.98}
+ 98%|█████████▊| 10425/10682 [1:36:05<02:07,  2.01it/s] 98%|█████████▊| 10426/10682 [1:36:05<02:07,  2.01it/s] 98%|█████████▊| 10427/10682 [1:36:06<02:06,  2.02it/s] 98%|█████████▊| 10428/10682 [1:36:06<02:05,  2.02it/s] 98%|█████████▊| 10429/10682 [1:36:07<02:05,  2.02it/s] 98%|█████████▊| 10430/10682 [1:36:07<02:04,  2.02it/s] 98%|█████████▊| 10431/10682 [1:36:08<02:04,  2.02it/s] 98%|█████████▊| 10432/10682 [1:36:08<02:03,  2.02it/s] 98%|█████████▊| 10433/10682 [1:36:09<02:03,  2.02it/s] 98%|█████████▊| 10434/10682 [1:36:09<02:02,  2.02it/s] 98%|█████████▊| 10435/10682 [1:36:10<02:02,  2.02it/s] 98%|█████████▊| 10436/10682 [1:36:10<02:01,  2.02it/s] 98%|█████████▊| 10437/10682 [1:36:11<02:01,  2.02it/s] 98%|█████████▊| 10438/10682 [1:36:11<02:00,  2.02it/s] 98%|█████████▊| 10439/10682 [1:36:12<02:00,  2.02it/s] 98%|█████████▊| 10440/10682 [1:36:12<01:59,  2.02it/s] 98%|█████████▊| 10441/10682 [1:36:13<01:59,  2.02it/s] 98%|█████████▊| 10442/10682 [1:36:13<01:58,  2.03it/s] 98%|█████████▊| 10443/10682 [1:36:14<01:58,  2.02it/s] 98%|█████████▊| 10444/10682 [1:36:14<01:57,  2.02it/s] 98%|█████████▊| 10445/10682 [1:36:15<01:57,  2.02it/s] 98%|█████████▊| 10446/10682 [1:36:15<01:56,  2.03it/s] 98%|█████████▊| 10447/10682 [1:36:16<01:56,  2.02it/s] 98%|█████████▊| 10448/10682 [1:36:16<01:55,  2.03it/s] 98%|█████████▊| 10449/10682 [1:36:17<01:55,  2.03it/s] 98%|█████████▊| 10450/10682 [1:36:17<01:54,  2.02it/s]{'loss': 3.5266, 'grad_norm': 0.19597648084163666, 'learning_rate': 1.4364475817401635e-06, 'epoch': 0.98}                                                       
+ 98%|█████████▊| 10450/10682 [1:36:17<01:54,  2.02it/s] 98%|█████████▊| 10451/10682 [1:36:18<01:54,  2.02it/s] 98%|█████████▊| 10452/10682 [1:36:18<01:53,  2.02it/s] 98%|█████████▊| 10453/10682 [1:36:19<01:53,  2.02it/s] 98%|█████████▊| 10454/10682 [1:36:19<01:52,  2.02it/s] 98%|█████████▊| 10455/10682 [1:36:20<01:52,  2.02it/s] 98%|█████████▊| 10456/10682 [1:36:20<01:51,  2.02it/s] 98%|█████████▊| 10457/10682 [1:36:21<01:51,  2.02it/s] 98%|█████████▊| 10458/10682 [1:36:21<01:50,  2.02it/s] 98%|█████████▊| 10459/10682 [1:36:22<01:50,  2.02it/s] 98%|█████████▊| 10460/10682 [1:36:22<01:49,  2.02it/s] 98%|█████████▊| 10461/10682 [1:36:22<01:49,  2.02it/s] 98%|█████████▊| 10462/10682 [1:36:23<01:48,  2.03it/s] 98%|█████████▊| 10463/10682 [1:36:23<01:48,  2.02it/s] 98%|█████████▊| 10464/10682 [1:36:24<01:47,  2.03it/s] 98%|█████████▊| 10465/10682 [1:36:24<01:47,  2.02it/s] 98%|█████████▊| 10466/10682 [1:36:25<01:46,  2.03it/s] 98%|█████████▊| 10467/10682 [1:36:25<01:46,  2.02it/s] 98%|█████████▊| 10468/10682 [1:36:26<01:45,  2.03it/s] 98%|█████████▊| 10469/10682 [1:36:26<01:45,  2.02it/s] 98%|█████████▊| 10470/10682 [1:36:27<01:44,  2.02it/s] 98%|█████████▊| 10471/10682 [1:36:27<01:44,  2.02it/s] 98%|█████████▊| 10472/10682 [1:36:28<01:43,  2.02it/s] 98%|█████████▊| 10473/10682 [1:36:28<01:43,  2.02it/s] 98%|█████████▊| 10474/10682 [1:36:29<01:42,  2.02it/s] 98%|█████████▊| 10475/10682 [1:36:29<01:42,  2.02it/s]{'loss': 3.532, 'grad_norm': 0.1922038495540619, 'learning_rate': 1.143659993153079e-06, 'epoch': 0.98}
+                                                        98%|█████████▊| 10475/10682 [1:36:29<01:42,  2.02it/s] 98%|█████████▊| 10476/10682 [1:36:30<01:41,  2.02it/s] 98%|█████████▊| 10477/10682 [1:36:30<01:41,  2.02it/s] 98%|█████████▊| 10478/10682 [1:36:31<01:40,  2.02it/s] 98%|█████████▊| 10479/10682 [1:36:31<01:40,  2.02it/s] 98%|█████████▊| 10480/10682 [1:36:32<01:39,  2.03it/s] 98%|█████████▊| 10481/10682 [1:36:32<01:39,  2.03it/s] 98%|█████████▊| 10482/10682 [1:36:33<01:38,  2.02it/s] 98%|█████████▊| 10483/10682 [1:36:33<01:38,  2.03it/s] 98%|█████████▊| 10484/10682 [1:36:34<01:37,  2.02it/s] 98%|█████████▊| 10485/10682 [1:36:34<01:37,  2.02it/s] 98%|█████████▊| 10486/10682 [1:36:35<01:37,  2.02it/s] 98%|█████████▊| 10487/10682 [1:36:35<01:36,  2.02it/s] 98%|█████████▊| 10488/10682 [1:36:36<01:35,  2.02it/s] 98%|█████████▊| 10489/10682 [1:36:36<01:35,  2.02it/s] 98%|█████████▊| 10490/10682 [1:36:37<01:34,  2.02it/s] 98%|█████████▊| 10491/10682 [1:36:37<01:34,  2.02it/s] 98%|█████████▊| 10492/10682 [1:36:38<01:33,  2.03it/s] 98%|█████████▊| 10493/10682 [1:36:38<01:33,  2.03it/s] 98%|█████████▊| 10494/10682 [1:36:39<01:32,  2.03it/s] 98%|█████████▊| 10495/10682 [1:36:39<01:32,  2.03it/s] 98%|█████████▊| 10496/10682 [1:36:40<01:31,  2.03it/s] 98%|█████████▊| 10497/10682 [1:36:40<01:31,  2.03it/s] 98%|█████████▊| 10498/10682 [1:36:41<01:30,  2.03it/s] 98%|█████████▊| 10499/10682 [1:36:41<01:30,  2.03it/s] 98%|█████████▊| 10500/10682 [1:36:42<01:29,  2.03it/s]{'loss': 3.5278, 'grad_norm': 0.19554489850997925, 'learning_rate': 8.841716933915555e-07, 'epoch': 0.98}                                                       
+ 98%|█████████▊| 10500/10682 [1:36:42<01:29,  2.03it/s] 98%|█████████▊| 10501/10682 [1:36:42<01:29,  2.02it/s] 98%|█████████▊| 10502/10682 [1:36:43<01:29,  2.02it/s] 98%|█████████▊| 10503/10682 [1:36:43<01:28,  2.02it/s] 98%|█████████▊| 10504/10682 [1:36:44<01:28,  2.02it/s] 98%|█████████▊| 10505/10682 [1:36:44<01:27,  2.02it/s] 98%|█████████▊| 10506/10682 [1:36:45<01:27,  2.02it/s] 98%|█████████▊| 10507/10682 [1:36:45<01:26,  2.02it/s] 98%|█████████▊| 10508/10682 [1:36:46<01:25,  2.02it/s] 98%|█████████▊| 10509/10682 [1:36:46<01:25,  2.02it/s] 98%|█████████▊| 10510/10682 [1:36:47<01:24,  2.03it/s] 98%|█████████▊| 10511/10682 [1:36:47<01:24,  2.03it/s] 98%|█████████▊| 10512/10682 [1:36:48<01:23,  2.03it/s] 98%|█████████▊| 10513/10682 [1:36:48<01:23,  2.03it/s] 98%|█████████▊| 10514/10682 [1:36:49<01:22,  2.03it/s] 98%|█████████▊| 10515/10682 [1:36:49<01:22,  2.02it/s] 98%|█████████▊| 10516/10682 [1:36:50<01:21,  2.03it/s] 98%|█████████▊| 10517/10682 [1:36:50<01:21,  2.02it/s] 98%|█████████▊| 10518/10682 [1:36:51<01:21,  2.02it/s] 98%|█████████▊| 10519/10682 [1:36:51<01:20,  2.02it/s] 98%|█████████▊| 10520/10682 [1:36:52<01:20,  2.02it/s] 98%|█████████▊| 10521/10682 [1:36:52<01:19,  2.02it/s] 99%|█████████▊| 10522/10682 [1:36:53<01:19,  2.02it/s] 99%|█████████▊| 10523/10682 [1:36:53<01:18,  2.02it/s] 99%|█████████▊| 10524/10682 [1:36:54<01:18,  2.02it/s] 99%|█████████▊| 10525/10682 [1:36:54<01:17,  2.02it/s]                                                       {'loss': 3.5248, 'grad_norm': 0.1948244571685791, 'learning_rate': 6.580000036264244e-07, 'epoch': 0.99}
+ 99%|█████████▊| 10525/10682 [1:36:54<01:17,  2.02it/s] 99%|█████████▊| 10526/10682 [1:36:55<01:17,  2.02it/s] 99%|█████████▊| 10527/10682 [1:36:55<01:16,  2.02it/s] 99%|█████████▊| 10528/10682 [1:36:56<01:16,  2.02it/s] 99%|█████████▊| 10529/10682 [1:36:56<01:15,  2.02it/s] 99%|█████████▊| 10530/10682 [1:36:57<01:14,  2.03it/s] 99%|█████████▊| 10531/10682 [1:36:57<01:14,  2.02it/s] 99%|█████████▊| 10532/10682 [1:36:58<01:14,  2.03it/s] 99%|█████████▊| 10533/10682 [1:36:58<01:13,  2.02it/s] 99%|█████████▊| 10534/10682 [1:36:59<01:13,  2.03it/s] 99%|█████████▊| 10535/10682 [1:36:59<01:12,  2.02it/s] 99%|█████████▊| 10536/10682 [1:37:00<01:12,  2.02it/s] 99%|█████████▊| 10537/10682 [1:37:00<01:11,  2.02it/s] 99%|█████████▊| 10538/10682 [1:37:01<01:11,  2.02it/s] 99%|█████████▊| 10539/10682 [1:37:01<01:10,  2.02it/s] 99%|█████████▊| 10540/10682 [1:37:02<01:10,  2.02it/s] 99%|█████████▊| 10541/10682 [1:37:02<01:09,  2.03it/s] 99%|█████████▊| 10542/10682 [1:37:03<01:09,  2.03it/s] 99%|█████████▊| 10543/10682 [1:37:03<01:08,  2.03it/s] 99%|█████████▊| 10544/10682 [1:37:04<01:08,  2.03it/s] 99%|█████████▊| 10545/10682 [1:37:04<01:07,  2.03it/s] 99%|█████████▊| 10546/10682 [1:37:04<01:07,  2.03it/s] 99%|█████████▊| 10547/10682 [1:37:05<01:06,  2.03it/s] 99%|█████████▊| 10548/10682 [1:37:05<01:06,  2.03it/s] 99%|█████████▉| 10549/10682 [1:37:06<01:05,  2.03it/s] 99%|█████████▉| 10550/10682 [1:37:06<01:05,  2.03it/s]{'loss': 3.5213, 'grad_norm': 0.19768542051315308, 'learning_rate': 4.651600211027507e-07, 'epoch': 0.99}                                                       
+ 99%|█████████▉| 10550/10682 [1:37:06<01:05,  2.03it/s] 99%|█████████▉| 10551/10682 [1:37:07<01:04,  2.02it/s] 99%|█████████▉| 10552/10682 [1:37:07<01:04,  2.02it/s] 99%|█████████▉| 10553/10682 [1:37:08<01:03,  2.02it/s] 99%|█████████▉| 10554/10682 [1:37:08<01:03,  2.02it/s] 99%|█████████▉| 10555/10682 [1:37:09<01:02,  2.02it/s] 99%|█████████▉| 10556/10682 [1:37:09<01:02,  2.02it/s] 99%|█████████▉| 10557/10682 [1:37:10<01:01,  2.02it/s] 99%|█████████▉| 10558/10682 [1:37:10<01:01,  2.02it/s] 99%|█████████▉| 10559/10682 [1:37:11<01:00,  2.02it/s] 99%|█████████▉| 10560/10682 [1:37:11<01:00,  2.02it/s] 99%|█████████▉| 10561/10682 [1:37:12<00:59,  2.03it/s] 99%|█████████▉| 10562/10682 [1:37:12<00:59,  2.02it/s] 99%|█████████▉| 10563/10682 [1:37:13<00:58,  2.03it/s] 99%|█████████▉| 10564/10682 [1:37:13<00:58,  2.03it/s] 99%|█████████▉| 10565/10682 [1:37:14<00:57,  2.03it/s] 99%|█████████▉| 10566/10682 [1:37:14<00:57,  2.03it/s] 99%|█████████▉| 10567/10682 [1:37:15<00:56,  2.03it/s] 99%|█████████▉| 10568/10682 [1:37:15<00:56,  2.03it/s] 99%|█████████▉| 10569/10682 [1:37:16<00:55,  2.03it/s] 99%|█████████▉| 10570/10682 [1:37:16<00:55,  2.02it/s] 99%|█████████▉| 10571/10682 [1:37:17<00:54,  2.02it/s] 99%|█████████▉| 10572/10682 [1:37:17<00:54,  2.02it/s] 99%|█████████▉| 10573/10682 [1:37:18<00:53,  2.02it/s] 99%|█████████▉| 10574/10682 [1:37:18<00:53,  2.02it/s] 99%|█████████▉| 10575/10682 [1:37:19<00:52,  2.02it/s]{'loss': 3.5486, 'grad_norm': 0.19592593610286713, 'learning_rate': 3.0566461813213986e-07, 'epoch': 0.99}
+                                                        99%|█████████▉| 10575/10682 [1:37:19<00:52,  2.02it/s] 99%|█████████▉| 10576/10682 [1:37:19<00:52,  2.02it/s] 99%|█████████▉| 10577/10682 [1:37:20<00:51,  2.02it/s] 99%|█████████▉| 10578/10682 [1:37:20<00:51,  2.02it/s] 99%|█████████▉| 10579/10682 [1:37:21<00:50,  2.02it/s] 99%|█████████▉| 10580/10682 [1:37:21<00:50,  2.03it/s] 99%|█████████▉| 10581/10682 [1:37:22<00:49,  2.03it/s] 99%|█████████▉| 10582/10682 [1:37:22<00:49,  2.03it/s] 99%|█████████▉| 10583/10682 [1:37:23<00:48,  2.03it/s] 99%|█████████▉| 10584/10682 [1:37:23<00:48,  2.03it/s] 99%|█████████▉| 10585/10682 [1:37:24<00:47,  2.02it/s] 99%|█████████▉| 10586/10682 [1:37:24<00:47,  2.02it/s] 99%|█████████▉| 10587/10682 [1:37:25<00:47,  2.02it/s] 99%|█████████▉| 10588/10682 [1:37:25<00:46,  2.02it/s] 99%|█████████▉| 10589/10682 [1:37:26<00:46,  2.02it/s] 99%|█████████▉| 10590/10682 [1:37:26<00:45,  2.02it/s] 99%|█████████▉| 10591/10682 [1:37:27<00:45,  2.02it/s] 99%|█████████▉| 10592/10682 [1:37:27<00:44,  2.02it/s] 99%|█████████▉| 10593/10682 [1:37:28<00:43,  2.02it/s] 99%|█████████▉| 10594/10682 [1:37:28<00:43,  2.02it/s] 99%|█████████▉| 10595/10682 [1:37:29<00:42,  2.02it/s] 99%|█████████▉| 10596/10682 [1:37:29<00:42,  2.02it/s] 99%|█████████▉| 10597/10682 [1:37:30<00:41,  2.03it/s] 99%|█████████▉| 10598/10682 [1:37:30<00:41,  2.02it/s] 99%|█████████▉| 10599/10682 [1:37:31<00:40,  2.03it/s] 99%|█████████▉| 10600/10682 [1:37:31<00:40,  2.03it/s]{'loss': 3.5218, 'grad_norm': 0.19825558364391327, 'learning_rate': 1.7952444123359167e-07, 'epoch': 0.99}                                                       
+ 99%|█████████▉| 10600/10682 [1:37:31<00:40,  2.03it/s] 99%|█████████▉| 10601/10682 [1:37:32<00:40,  2.02it/s] 99%|█████████▉| 10602/10682 [1:37:32<00:39,  2.02it/s] 99%|█████████▉| 10603/10682 [1:37:33<00:39,  2.02it/s] 99%|█████████▉| 10604/10682 [1:37:33<00:38,  2.02it/s] 99%|█████████▉| 10605/10682 [1:37:34<00:38,  2.02it/s] 99%|█████████▉| 10606/10682 [1:37:34<00:37,  2.02it/s] 99%|█████████▉| 10607/10682 [1:37:35<00:37,  2.02it/s] 99%|█████████▉| 10608/10682 [1:37:35<00:36,  2.03it/s] 99%|█████████▉| 10609/10682 [1:37:36<00:36,  2.02it/s] 99%|█████████▉| 10610/10682 [1:37:36<00:35,  2.03it/s] 99%|█████████▉| 10611/10682 [1:37:37<00:35,  2.02it/s] 99%|█████████▉| 10612/10682 [1:37:37<00:34,  2.03it/s] 99%|█████████▉| 10613/10682 [1:37:38<00:34,  2.03it/s] 99%|█████████▉| 10614/10682 [1:37:38<00:33,  2.03it/s] 99%|█████████▉| 10615/10682 [1:37:39<00:33,  2.03it/s] 99%|█████████▉| 10616/10682 [1:37:39<00:32,  2.03it/s] 99%|█████████▉| 10617/10682 [1:37:40<00:32,  2.03it/s] 99%|█████████▉| 10618/10682 [1:37:40<00:31,  2.02it/s] 99%|█████████▉| 10619/10682 [1:37:41<00:31,  2.02it/s] 99%|█████████▉| 10620/10682 [1:37:41<00:30,  2.02it/s] 99%|█████████▉| 10621/10682 [1:37:42<00:30,  2.02it/s] 99%|█████████▉| 10622/10682 [1:37:42<00:29,  2.02it/s] 99%|█████████▉| 10623/10682 [1:37:43<00:29,  2.02it/s] 99%|█████████▉| 10624/10682 [1:37:43<00:28,  2.02it/s] 99%|█████████▉| 10625/10682 [1:37:44<00:28,  2.03it/s]{'loss': 3.5312, 'grad_norm': 0.1934206634759903, 'learning_rate': 8.674791042273533e-08, 'epoch': 0.99}                                                       
+ 99%|█████████▉| 10625/10682 [1:37:44<00:28,  2.03it/s] 99%|█████████▉| 10626/10682 [1:37:44<00:27,  2.02it/s] 99%|█████████▉| 10627/10682 [1:37:45<00:27,  2.03it/s] 99%|█████████▉| 10628/10682 [1:37:45<00:26,  2.03it/s]100%|█████████▉| 10629/10682 [1:37:46<00:26,  2.03it/s]100%|█████████▉| 10630/10682 [1:37:46<00:25,  2.03it/s]100%|█████████▉| 10631/10682 [1:37:46<00:25,  2.03it/s]100%|█████████▉| 10632/10682 [1:37:47<00:24,  2.03it/s]100%|█████████▉| 10633/10682 [1:37:47<00:24,  2.03it/s]100%|█████████▉| 10634/10682 [1:37:48<00:23,  2.02it/s]100%|█████████▉| 10635/10682 [1:37:48<00:23,  2.02it/s]100%|█████████▉| 10636/10682 [1:37:49<00:22,  2.02it/s]100%|█████████▉| 10637/10682 [1:37:49<00:22,  2.02it/s]100%|█████████▉| 10638/10682 [1:37:50<00:21,  2.02it/s]100%|█████████▉| 10639/10682 [1:37:50<00:21,  2.02it/s]100%|█████████▉| 10640/10682 [1:37:51<00:20,  2.02it/s]100%|█████████▉| 10641/10682 [1:37:51<00:20,  2.02it/s]100%|█████████▉| 10642/10682 [1:37:52<00:19,  2.02it/s]100%|█████████▉| 10643/10682 [1:37:52<00:19,  2.03it/s]100%|█████████▉| 10644/10682 [1:37:53<00:18,  2.03it/s]100%|█████████▉| 10645/10682 [1:37:53<00:18,  2.03it/s]100%|█████████▉| 10646/10682 [1:37:54<00:17,  2.03it/s]100%|█████████▉| 10647/10682 [1:37:54<00:17,  2.03it/s]100%|█████████▉| 10648/10682 [1:37:55<00:16,  2.03it/s]100%|█████████▉| 10649/10682 [1:37:55<00:16,  2.03it/s]100%|█████████▉| 10650/10682 [1:37:56<00:15,  2.03it/s]                                                       {'loss': 3.5214, 'grad_norm': 0.19294361770153046, 'learning_rate': 2.7341218649834522e-08, 'epoch': 1.0}
+100%|█████████▉| 10650/10682 [1:37:56<00:15,  2.03it/s]100%|█████████▉| 10651/10682 [1:37:56<00:15,  2.02it/s]100%|█████████▉| 10652/10682 [1:37:57<00:14,  2.02it/s]100%|█████████▉| 10653/10682 [1:37:57<00:14,  2.02it/s]100%|█████████▉| 10654/10682 [1:37:58<00:13,  2.02it/s]100%|█████████▉| 10655/10682 [1:37:58<00:13,  2.02it/s]100%|█████████▉| 10656/10682 [1:37:59<00:12,  2.02it/s]100%|█████████▉| 10657/10682 [1:37:59<00:12,  2.03it/s]100%|█████████▉| 10658/10682 [1:38:00<00:11,  2.03it/s]100%|█████████▉| 10659/10682 [1:38:00<00:11,  2.02it/s]100%|█████████▉| 10660/10682 [1:38:01<00:10,  2.03it/s]100%|█████████▉| 10661/10682 [1:38:01<00:10,  2.03it/s]100%|█████████▉| 10662/10682 [1:38:02<00:09,  2.03it/s]100%|█████████▉| 10663/10682 [1:38:02<00:09,  2.03it/s]100%|█████████▉| 10664/10682 [1:38:03<00:08,  2.03it/s]100%|█████████▉| 10665/10682 [1:38:03<00:08,  2.03it/s]100%|█████████▉| 10666/10682 [1:38:04<00:07,  2.02it/s]100%|█████████▉| 10667/10682 [1:38:04<00:07,  2.02it/s]100%|█████████▉| 10668/10682 [1:38:05<00:06,  2.02it/s]100%|█████████▉| 10669/10682 [1:38:05<00:06,  2.02it/s]100%|█████████▉| 10670/10682 [1:38:06<00:05,  2.02it/s]100%|█████████▉| 10671/10682 [1:38:06<00:05,  2.02it/s]100%|█████████▉| 10672/10682 [1:38:07<00:04,  2.02it/s]100%|█████████▉| 10673/10682 [1:38:07<00:04,  2.02it/s]100%|█████████▉| 10674/10682 [1:38:08<00:03,  2.02it/s]100%|█████████▉| 10675/10682 [1:38:08<00:03,  2.02it/s]{'loss': 3.5266, 'grad_norm': 0.19526982307434082, 'learning_rate': 1.3083313863404555e-09, 'epoch': 1.0}                                                       
+100%|█████████▉| 10675/10682 [1:38:08<00:03,  2.02it/s]100%|█████████▉| 10676/10682 [1:38:09<00:02,  2.02it/s]100%|█████████▉| 10677/10682 [1:38:09<00:02,  2.02it/s]100%|█████████▉| 10678/10682 [1:38:10<00:01,  2.02it/s]100%|█████████▉| 10679/10682 [1:38:10<00:01,  2.02it/s]100%|█████████▉| 10680/10682 [1:38:11<00:00,  2.03it/s]100%|█████████▉| 10681/10682 [1:38:11<00:00,  2.03it/s]100%|██████████| 10682/10682 [1:38:13<00:00,  1.35it/s]                                                       {'train_runtime': 5904.9238, 'train_samples_per_second': 1852.376, 'train_steps_per_second': 1.809, 'train_loss': 3.915034937113105, 'epoch': 1.0}
+100%|██████████| 10682/10682 [1:38:24<00:00,  1.35it/s]100%|██████████| 10682/10682 [1:38:24<00:00,  1.81it/s]
 Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.