diff --git "a/competition/08c_InterLM_finetuning_NV4080_p2.ipynb" "b/competition/08c_InterLM_finetuning_NV4080_p2.ipynb"
--- "a/competition/08c_InterLM_finetuning_NV4080_p2.ipynb"
+++ "b/competition/08c_InterLM_finetuning_NV4080_p2.ipynb"
@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 1,
    "metadata": {
     "application/vnd.databricks.v1+cell": {
      "cellMetadata": {
@@ -15,7 +15,15 @@
      "title": ""
     }
    },
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Python 3.11.9\n"
+     ]
+    }
+   ],
    "source": [
     "if 'dbutils' in locals():\n",
     "    dbutils.library.restartPython()\n",
@@ -25,7 +33,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 2,
    "metadata": {
     "application/vnd.databricks.v1+cell": {
      "cellMetadata": {
@@ -46,7 +54,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 3,
    "metadata": {
     "application/vnd.databricks.v1+cell": {
      "cellMetadata": {
@@ -59,7 +67,15 @@
      "title": ""
     }
    },
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "workding dir: /home/inflaton/code/projects/courses/logical-reasoning\n"
+     ]
+    }
+   ],
    "source": [
     "import os\n",
     "import sys\n",
@@ -73,7 +89,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 4,
    "metadata": {
     "application/vnd.databricks.v1+cell": {
      "cellMetadata": {
@@ -86,7 +102,18 @@
      "title": ""
     }
    },
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "False"
+      ]
+     },
+     "execution_count": 4,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
     "need_to_setup_env = False\n",
     "need_to_setup_env"
@@ -94,7 +121,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 5,
    "metadata": {
     "application/vnd.databricks.v1+cell": {
      "cellMetadata": {
@@ -119,7 +146,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 6,
    "metadata": {
     "application/vnd.databricks.v1+cell": {
      "cellMetadata": {
@@ -132,7 +159,15 @@
      "title": ""
     }
    },
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "workding dir: /home/inflaton/code/projects/courses/logical-reasoning\n"
+     ]
+    }
+   ],
    "source": [
     "os.chdir(workding_dir)\n",
     "sys.path.append(workding_dir)\n",
@@ -141,7 +176,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 7,
    "metadata": {
     "application/vnd.databricks.v1+cell": {
      "cellMetadata": {
@@ -154,7 +189,25 @@
      "title": ""
     }
    },
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "loading env vars from: /home/inflaton/code/projects/courses/logical-reasoning/.env\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "True"
+      ]
+     },
+     "execution_count": 7,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
     "from dotenv import find_dotenv, load_dotenv\n",
     "\n",
@@ -168,7 +221,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 8,
    "metadata": {
     "application/vnd.databricks.v1+cell": {
      "cellMetadata": {
@@ -181,7 +234,15 @@
      "title": ""
     }
    },
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "internlm/internlm2_5-7b-chat-1m None True datasets/mgtv results/mgtv-results_nv4080_p2.csv\n"
+     ]
+    }
+   ],
    "source": [
     "import os\n",
     "\n",
@@ -197,7 +258,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 9,
    "metadata": {
     "application/vnd.databricks.v1+cell": {
      "cellMetadata": {
@@ -210,14 +271,41 @@
      "title": ""
     }
    },
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Thu Jul 11 13:53:26 2024       \n",
+      "+---------------------------------------------------------------------------------------+\n",
+      "| NVIDIA-SMI 545.23.07              Driver Version: 546.12       CUDA Version: 12.3     |\n",
+      "|-----------------------------------------+----------------------+----------------------+\n",
+      "| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |\n",
+      "| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |\n",
+      "|                                         |                      |               MIG M. |\n",
+      "|=========================================+======================+======================|\n",
+      "|   0  NVIDIA GeForce RTX 4080 ...    On  | 00000000:01:00.0 Off |                  N/A |\n",
+      "| N/A   52C    P8               3W / 150W |      0MiB / 12282MiB |      0%      Default |\n",
+      "|                                         |                      |                  N/A |\n",
+      "+-----------------------------------------+----------------------+----------------------+\n",
+      "                                                                                         \n",
+      "+---------------------------------------------------------------------------------------+\n",
+      "| Processes:                                                                            |\n",
+      "|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |\n",
+      "|        ID   ID                                                             Usage      |\n",
+      "|=======================================================================================|\n",
+      "|  No running processes found                                                           |\n",
+      "+---------------------------------------------------------------------------------------+\n"
+     ]
+    }
+   ],
    "source": [
     "!nvidia-smi"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 10,
    "metadata": {
     "application/vnd.databricks.v1+cell": {
      "cellMetadata": {
@@ -230,7 +318,18 @@
      "title": ""
     }
    },
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Python 3.11.9\n",
+      "\u001b[33mWARNING: Package(s) not found: flash-attn\u001b[0m\u001b[33m\n",
+      "\u001b[0mCPU times: user 9.31 ms, sys: 0 ns, total: 9.31 ms\n",
+      "Wall time: 553 ms\n"
+     ]
+    }
+   ],
    "source": [
     "%%time\n",
     "!python --version\n",
@@ -239,9 +338,17 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 11,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "loading /home/inflaton/code/projects/courses/logical-reasoning/llm_toolkit/logical_reasoning_utils.py\n"
+     ]
+    }
+   ],
    "source": [
     "import os\n",
     "import pandas as pd\n",
@@ -274,9 +381,42 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 12,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "loading existing data from: llama-factory/data/alpaca_mgtv_p2.json\n",
+      "--------------------------------------------------\n",
+      "instruction: 你是一个情景猜谜游戏的主持人。游戏规则如下：\n",
+      "\n",
+      "1. 参与者会得到一个谜面，谜面会描述一个简单又难以理解的事件。\n",
+      "2. 主持人知道谜底，谜底是谜面的答案。\n",
+      "3. 参与者可以询问任何封闭式问题来找寻事件的真相。\n",
+      "4. 对于每个问题，主持人将根据实际情况回答以下五个选项之一：是、不是、不重要、回答正确、问法错误。各回答的判断标准如下：\n",
+      "   - 若谜面和谜底能找到问题的答案，回答：是或者不是\n",
+      "   - 若谜面和谜底不能直接或者间接推断出问题的答案，回答：不重要\n",
+      "   - 若参与者提问不是一个封闭式问题或者问题难以理解，回答：问法错误\n",
+      "   - 若参与者提问基本还原了谜底真相，回答：回答正确\n",
+      "5. 回答中不能添加任何其它信息，也不能省略选项中的任何一个字。例如，不可以把“不是”省略成“不”。\n",
+      "\n",
+      "请严格按照这些规则回答参与者提出的问题。\n",
+      "\n",
+      "**谜面:** 在甄家村里，有一个古老的传说：每年南瓜丰收的季节，南瓜田里总有一个最大的南瓜会不翼而飞，村民们对此现象困惑不解。请找出南瓜失踪背后的原因。\n",
+      "\n",
+      "**谜底:** 真相原来与一位年迈的农夫有关。这位农夫年轻时，曾与一位美丽的姑娘相恋。他们约定在南瓜丰收的季节结婚。然而，命运弄人，姑娘在婚礼前的一场意外中离世。悲伤的农夫为了纪念心爱的姑娘，每年都会将最大的南瓜偷走，放到姑娘的墓前，以此寄托自己的哀思。这一行为延续了多年，成为了乡村里一个神秘的传说。\n",
+      "\n",
+      "**参与者提出的问题:** 偷的人信神吗\n",
+      "\n",
+      "--------------------------------------------------\n",
+      "input: \n",
+      "--------------------------------------------------\n",
+      "output: 不是\n"
+     ]
+    }
+   ],
    "source": [
     "df_alpaca = load_data()\n",
     "print_row_details(df_alpaca)"
@@ -284,9 +424,861 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 13,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Current Directory:\n",
+      "/home/inflaton/code/projects/courses/logical-reasoning/llama-factory\n",
+      "config/internlm2_5_7b_lora_sft_4bit_p2.yaml:\n",
+      " {\n",
+      "  \"model_name_or_path\": \"internlm/internlm2_5-7b-chat-1m\",\n",
+      "  \"stage\": \"sft\",\n",
+      "  \"do_train\": true,\n",
+      "  \"finetuning_type\": \"lora\",\n",
+      "  \"lora_target\": \"all\",\n",
+      "  \"quantization_bit\": 4,\n",
+      "  \"loraplus_lr_ratio\": 16.0,\n",
+      "  \"upcast_layernorm\": true,\n",
+      "  \"dataset\": \"alpaca_mgtv_p2\",\n",
+      "  \"template\": \"chatml\",\n",
+      "  \"cutoff_len\": 1024,\n",
+      "  \"max_samples\": 5000,\n",
+      "  \"overwrite_cache\": true,\n",
+      "  \"preprocessing_num_workers\": 16,\n",
+      "  \"output_dir\": \"saves/internlm2_5_7b/lora/sft_p2\",\n",
+      "  \"logging_steps\": 100,\n",
+      "  \"save_steps\": 562,\n",
+      "  \"plot_loss\": true,\n",
+      "  \"overwrite_output_dir\": true,\n",
+      "  \"per_device_train_batch_size\": 1,\n",
+      "  \"gradient_accumulation_steps\": 8,\n",
+      "  \"learning_rate\": 0.0001,\n",
+      "  \"num_train_epochs\": 6.0,\n",
+      "  \"lr_scheduler_type\": \"cosine\",\n",
+      "  \"warmup_ratio\": 0.1,\n",
+      "  \"bf16\": true,\n",
+      "  \"ddp_timeout\": 180000000,\n",
+      "  \"val_size\": 0.1,\n",
+      "  \"per_device_eval_batch_size\": 1,\n",
+      "  \"eval_strategy\": \"steps\",\n",
+      "  \"eval_steps\": 562,\n",
+      "  \"report_to\": \"none\",\n",
+      "  \"run_name\": \"internlm2_5_7b\"\n",
+      "}\n",
+      "07/11/2024 13:53:37 - INFO - llamafactory.hparams.parser - Process rank: 0, device: cuda:0, n_gpu: 1, distributed training: False, compute dtype: torch.bfloat16\n",
+      "[INFO|tokenization_utils_base.py:2161] 2024-07-11 13:53:43,438 >> loading file ./tokenizer.model from cache at /home/inflaton/.cache/huggingface/hub/models--internlm--internlm2_5-7b-chat-1m/snapshots/8d1a709a04d71440ef3df6ebbe204672f411c8b6/./tokenizer.model\n",
+      "[INFO|tokenization_utils_base.py:2161] 2024-07-11 13:53:43,438 >> loading file added_tokens.json from cache at None\n",
+      "[INFO|tokenization_utils_base.py:2161] 2024-07-11 13:53:43,438 >> loading file special_tokens_map.json from cache at /home/inflaton/.cache/huggingface/hub/models--internlm--internlm2_5-7b-chat-1m/snapshots/8d1a709a04d71440ef3df6ebbe204672f411c8b6/special_tokens_map.json\n",
+      "[INFO|tokenization_utils_base.py:2161] 2024-07-11 13:53:43,438 >> loading file tokenizer_config.json from cache at /home/inflaton/.cache/huggingface/hub/models--internlm--internlm2_5-7b-chat-1m/snapshots/8d1a709a04d71440ef3df6ebbe204672f411c8b6/tokenizer_config.json\n",
+      "[INFO|tokenization_utils_base.py:2161] 2024-07-11 13:53:43,438 >> loading file tokenizer.json from cache at None\n",
+      "07/11/2024 13:53:44 - INFO - llamafactory.data.template - Replace eos token: <|im_end|>\n",
+      "07/11/2024 13:53:44 - INFO - llamafactory.data.template - Add <|im_start|> to stop words.\n",
+      "07/11/2024 13:53:44 - INFO - llamafactory.data.loader - Loading dataset alpaca_mgtv_p2.json...\n",
+      "Generating train split: 25000 examples [00:00, 43158.06 examples/s]\n",
+      "Converting format of dataset (num_proc=16): 100%|█| 5000/5000 [00:00<00:00, 1422\n",
+      "Running tokenizer on dataset (num_proc=16): 100%|█| 5000/5000 [00:01<00:00, 3141\n",
+      "input_ids:\n",
+      "[92543, 1008, 364, 60403, 68625, 77794, 62591, 63352, 68309, 69323, 60687, 60364, 60355, 68309, 69776, 68411, 60387, 402, 312, 281, 262, 69102, 60497, 60382, 89428, 63352, 60388, 60353, 63352, 60388, 60382, 69401, 68252, 87114, 70436, 68865, 82168, 60355, 364, 314, 281, 262, 74243, 68290, 63352, 60930, 60353, 63352, 60930, 60357, 63352, 68421, 69059, 60355, 364, 308, 281, 262, 69102, 60497, 68251, 73477, 68574, 74004, 60550, 68287, 89214, 61683, 88840, 73687, 60355, 364, 319, 281, 262, 68390, 68772, 68287, 60353, 74243, 60530, 68420, 74740, 68855, 68544, 72719, 68423, 68538, 60387, 60357, 60359, 68278, 60359, 82568, 60359, 68855, 69077, 60359, 60593, 60408, 69583, 60355, 60684, 68855, 60354, 69844, 68559, 68411, 60387, 364, 393, 285, 262, 61369, 63352, 81953, 63352, 60930, 91085, 70670, 69059, 60353, 68855, 60387, 60357, 68319, 68278, 364, 393, 285, 262, 61369, 63352, 81953, 63352, 60930, 68336, 68376, 68319, 80078, 60876, 61015, 60389, 70670, 69059, 60353, 68855, 60387, 82568, 364, 393, 285, 262, 61369, 69102, 60497, 73912, 79865, 74004, 60550, 68287, 68319, 68287, 70436, 68865, 60353, 68855, 60387, 60593, 60408, 69583, 364, 393, 285, 262, 61369, 69102, 60497, 73912, 68406, 71940, 60362, 63352, 60930, 73687, 60353, 68855, 60387, 68855, 69077, 364, 317, 281, 262, 68855, 60366, 68336, 68535, 68574, 69344, 68347, 60353, 71452, 81256, 68423, 68322, 78818, 60666, 60355, 69192, 60353, 73263, 60581, 60419, 68278, 60420, 81256, 60397, 60419, 60358, 60420, 60355, 402, 60836, 86910, 68374, 69776, 68855, 69102, 60497, 74743, 68287, 60355, 402, 465, 63352, 60388, 334, 465, 262, 60361, 63840, 60396, 78165, 60353, 68935, 79406, 70952, 60387, 69731, 71150, 88982, 82620, 60353, 71150, 61329, 60425, 60649, 68935, 69410, 71150, 60382, 60358, 62273, 60458, 61217, 60353, 71479, 60400, 72593, 69380, 79594, 90209, 60355, 60836, 75326, 71150, 82066, 79202, 68540, 60355, 402, 465, 63352, 60930, 334, 465, 262, 73687, 69607, 60510, 70226, 60372, 62650, 60354, 61044, 61066, 69045, 60355, 71389, 61044, 61066, 89463, 60353, 61002, 60510, 70226, 73027, 70134, 60544, 61422, 60355, 68310, 74907, 60361, 71150, 88982, 82620, 68980, 60355, 69104, 60353, 71062, 61976, 60364, 60353, 70134, 60361, 72325, 60463, 68294, 60612, 70623, 60366, 60877, 60668, 60355, 74726, 60354, 61044, 61066, 68394, 70367, 60447, 69126, 70134, 60353, 69731, 68549, 60530, 69410, 71150, 61882, 60825, 60353, 70395, 70134, 60354, 62296, 60463, 60353, 72069, 86407, 68304, 63024, 60880, 60355, 68597, 68891, 73936, 60362, 69372, 60353, 71093, 72276, 60425, 68252, 82569, 70952, 60355, 402, 465, 69102, 60497, 74743, 68287, 334, 465, 262, 61882, 68279, 60548, 60780, 61076, 364, 92542, 364, 92543, 525, 11353, 364, 68278, 92542]\n",
+      "inputs:\n",
+      "<|im_start|>user\n",
+      "你是一个情景猜谜游戏的主持人。游戏规则如下：\n",
+      "\n",
+      "1. 参与者会得到一个谜面，谜面会描述一个简单又难以理解的事件。\n",
+      "2. 主持人知道谜底，谜底是谜面的答案。\n",
+      "3. 参与者可以询问任何封闭式问题来找寻事件的真相。\n",
+      "4. 对于每个问题，主持人将根据实际情况回答以下五个选项之一：是、不是、不重要、回答正确、问法错误。各回答的判断标准如下：\n",
+      "   - 若谜面和谜底能找到问题的答案，回答：是或者不是\n",
+      "   - 若谜面和谜底不能直接或者间接推断出问题的答案，回答：不重要\n",
+      "   - 若参与者提问不是一个封闭式问题或者问题难以理解，回答：问法错误\n",
+      "   - 若参与者提问基本还原了谜底真相，回答：回答正确\n",
+      "5. 回答中不能添加任何其它信息，也不能省略选项中的任何一个字。例如，不可以把“不是”省略成“不”。\n",
+      "\n",
+      "请严格按照这些规则回答参与者提出的问题。\n",
+      "\n",
+      "**谜面:** 在甄家村里，有一个古老的传说：每年南瓜丰收的季节，南瓜田里总有一个最大的南瓜会不翼而飞，村民们对此现象困惑不解。请找出南瓜失踪背后的原因。\n",
+      "\n",
+      "**谜底:** 真相原来与一位年迈的农夫有关。这位农夫年轻时，曾与一位美丽的姑娘相恋。他们约定在南瓜丰收的季节结婚。然而，命运弄人，姑娘在婚礼前的一场意外中离世。悲伤的农夫为了纪念心爱的姑娘，每年都会将最大的南瓜偷走，放到姑娘的墓前，以此寄托自己的哀思。这一行为延续了多年，成为了乡村里一个神秘的传说。\n",
+      "\n",
+      "**参与者提出的问题:** 偷的人信神吗\n",
+      "<|im_end|>\n",
+      "<|im_start|>assistant\n",
+      "不是<|im_end|>\n",
+      "label_ids:\n",
+      "[-100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, 68278, 92542]\n",
+      "labels:\n",
+      "不是<|im_end|>\n",
+      "[INFO|configuration_utils.py:733] 2024-07-11 13:53:56,968 >> loading configuration file config.json from cache at /home/inflaton/.cache/huggingface/hub/models--internlm--internlm2_5-7b-chat-1m/snapshots/8d1a709a04d71440ef3df6ebbe204672f411c8b6/config.json\n",
+      "[INFO|configuration_utils.py:733] 2024-07-11 13:54:00,093 >> loading configuration file config.json from cache at /home/inflaton/.cache/huggingface/hub/models--internlm--internlm2_5-7b-chat-1m/snapshots/8d1a709a04d71440ef3df6ebbe204672f411c8b6/config.json\n",
+      "[INFO|configuration_utils.py:800] 2024-07-11 13:54:00,094 >> Model config InternLM2Config {\n",
+      "  \"_name_or_path\": \"internlm/internlm2_5-7b-chat-1m\",\n",
+      "  \"architectures\": [\n",
+      "    \"InternLM2ForCausalLM\"\n",
+      "  ],\n",
+      "  \"attn_implementation\": \"eager\",\n",
+      "  \"auto_map\": {\n",
+      "    \"AutoConfig\": \"internlm/internlm2_5-7b-chat-1m--configuration_internlm2.InternLM2Config\",\n",
+      "    \"AutoModel\": \"internlm/internlm2_5-7b-chat-1m--modeling_internlm2.InternLM2ForCausalLM\",\n",
+      "    \"AutoModelForCausalLM\": \"internlm/internlm2_5-7b-chat-1m--modeling_internlm2.InternLM2ForCausalLM\"\n",
+      "  },\n",
+      "  \"bias\": false,\n",
+      "  \"bos_token_id\": 1,\n",
+      "  \"eos_token_id\": 2,\n",
+      "  \"hidden_act\": \"silu\",\n",
+      "  \"hidden_size\": 4096,\n",
+      "  \"initializer_range\": 0.02,\n",
+      "  \"intermediate_size\": 14336,\n",
+      "  \"max_position_embeddings\": 262144,\n",
+      "  \"model_type\": \"internlm2\",\n",
+      "  \"num_attention_heads\": 32,\n",
+      "  \"num_hidden_layers\": 32,\n",
+      "  \"num_key_value_heads\": 8,\n",
+      "  \"pad_token_id\": 2,\n",
+      "  \"pretraining_tp\": 1,\n",
+      "  \"rms_norm_eps\": 1e-05,\n",
+      "  \"rope_scaling\": {\n",
+      "    \"factor\": 2.5,\n",
+      "    \"type\": \"dynamic\"\n",
+      "  },\n",
+      "  \"rope_theta\": 50000000,\n",
+      "  \"tie_word_embeddings\": false,\n",
+      "  \"torch_dtype\": \"bfloat16\",\n",
+      "  \"transformers_version\": \"4.42.3\",\n",
+      "  \"use_cache\": true,\n",
+      "  \"vocab_size\": 92544\n",
+      "}\n",
+      "\n",
+      "07/11/2024 13:54:00 - INFO - llamafactory.model.model_utils.quantization - Quantizing model to 4 bit with bitsandbytes.\n",
+      "[INFO|modeling_utils.py:3556] 2024-07-11 13:54:02,069 >> loading weights file model.safetensors from cache at /home/inflaton/.cache/huggingface/hub/models--internlm--internlm2_5-7b-chat-1m/snapshots/8d1a709a04d71440ef3df6ebbe204672f411c8b6/model.safetensors.index.json\n",
+      "[INFO|modeling_utils.py:1531] 2024-07-11 13:54:02,217 >> Instantiating InternLM2ForCausalLM model under default dtype torch.bfloat16.\n",
+      "[INFO|configuration_utils.py:1000] 2024-07-11 13:54:02,217 >> Generate config GenerationConfig {\n",
+      "  \"bos_token_id\": 1,\n",
+      "  \"eos_token_id\": 2,\n",
+      "  \"pad_token_id\": 2\n",
+      "}\n",
+      "\n",
+      "Loading checkpoint shards: 100%|██████████████████| 8/8 [11:33<00:00, 86.64s/it]\n",
+      "[INFO|modeling_utils.py:4364] 2024-07-11 14:05:35,470 >> All model checkpoint weights were used when initializing InternLM2ForCausalLM.\n",
+      "\n",
+      "[INFO|modeling_utils.py:4372] 2024-07-11 14:05:35,470 >> All the weights of InternLM2ForCausalLM were initialized from the model checkpoint at internlm/internlm2_5-7b-chat-1m.\n",
+      "If your task is similar to the task the model of the checkpoint was trained on, you can already use InternLM2ForCausalLM for predictions without further training.\n",
+      "[INFO|configuration_utils.py:955] 2024-07-11 14:05:36,035 >> loading configuration file generation_config.json from cache at /home/inflaton/.cache/huggingface/hub/models--internlm--internlm2_5-7b-chat-1m/snapshots/8d1a709a04d71440ef3df6ebbe204672f411c8b6/generation_config.json\n",
+      "[INFO|configuration_utils.py:1000] 2024-07-11 14:05:36,035 >> Generate config GenerationConfig {\n",
+      "  \"bos_token_id\": 1,\n",
+      "  \"eos_token_id\": [\n",
+      "    2,\n",
+      "    92542\n",
+      "  ],\n",
+      "  \"pad_token_id\": 2\n",
+      "}\n",
+      "\n",
+      "07/11/2024 14:05:36 - INFO - llamafactory.model.model_utils.checkpointing - Upcasting layernorm weights in float32.\n",
+      "07/11/2024 14:05:36 - INFO - llamafactory.model.model_utils.checkpointing - Gradient checkpointing enabled.\n",
+      "07/11/2024 14:05:36 - INFO - llamafactory.model.model_utils.attention - Using vanilla attention implementation.\n",
+      "07/11/2024 14:05:36 - INFO - llamafactory.model.adapter - Upcasting trainable params to float32.\n",
+      "07/11/2024 14:05:36 - INFO - llamafactory.model.adapter - Fine-tuning method: LoRA\n",
+      "07/11/2024 14:05:36 - INFO - llamafactory.model.model_utils.misc - Found linear modules: w1,wqkv,w3,wo,w2\n",
+      "07/11/2024 14:05:36 - INFO - llamafactory.model.loader - trainable params: 18,874,368 || all params: 7,756,582,912 || trainable%: 0.2433\n",
+      "[INFO|trainer.py:642] 2024-07-11 14:05:36,681 >> Using auto half precision backend\n",
+      "07/11/2024 14:05:36 - INFO - llamafactory.train.trainer_utils - Using LoRA+ optimizer with loraplus lr ratio 16.00.\n",
+      "[INFO|trainer.py:2128] 2024-07-11 14:05:36,907 >> ***** Running training *****\n",
+      "[INFO|trainer.py:2129] 2024-07-11 14:05:36,907 >>   Num examples = 4,500\n",
+      "[INFO|trainer.py:2130] 2024-07-11 14:05:36,907 >>   Num Epochs = 6\n",
+      "[INFO|trainer.py:2131] 2024-07-11 14:05:36,907 >>   Instantaneous batch size per device = 1\n",
+      "[INFO|trainer.py:2134] 2024-07-11 14:05:36,907 >>   Total train batch size (w. parallel, distributed & accumulation) = 8\n",
+      "[INFO|trainer.py:2135] 2024-07-11 14:05:36,907 >>   Gradient Accumulation steps = 8\n",
+      "[INFO|trainer.py:2136] 2024-07-11 14:05:36,907 >>   Total optimization steps = 3,372\n",
+      "[INFO|trainer.py:2137] 2024-07-11 14:05:36,909 >>   Number of trainable parameters = 18,874,368\n",
+      "{'loss': 0.4566, 'grad_norm': 2.716310501098633, 'learning_rate': 2.958579881656805e-05, 'epoch': 0.18}\n",
+      "{'loss': 0.3644, 'grad_norm': 4.124796390533447, 'learning_rate': 5.91715976331361e-05, 'epoch': 0.36}\n",
+      "{'loss': 0.3789, 'grad_norm': 2.9282803535461426, 'learning_rate': 8.875739644970414e-05, 'epoch': 0.53}\n",
+      "{'loss': 0.37, 'grad_norm': 2.6953532695770264, 'learning_rate': 9.989699867437137e-05, 'epoch': 0.71}\n",
+      "{'loss': 0.3485, 'grad_norm': 6.001204013824463, 'learning_rate': 9.92981892269398e-05, 'epoch': 0.89}\n",
+      " 17%|█████▊                             | 562/3372 [2:40:33<13:23:16, 17.15s/it][INFO|trainer.py:3788] 2024-07-11 16:46:10,114 >> \n",
+      "***** Running Evaluation *****\n",
+      "[INFO|trainer.py:3790] 2024-07-11 16:46:10,115 >>   Num examples = 500\n",
+      "[INFO|trainer.py:3793] 2024-07-11 16:46:10,115 >>   Batch size = 1\n",
+      "\n",
+      "  0%|                                                   | 0/500 [00:00<?, ?it/s]\u001b[A\n",
+      "  0%|▏                                          | 2/500 [00:00<03:20,  2.48it/s]\u001b[A\n",
+      "  1%|▎                                          | 3/500 [00:01<04:42,  1.76it/s]\u001b[A\n",
+      "  1%|▎                                          | 4/500 [00:02<05:31,  1.50it/s]\u001b[A\n",
+      "  1%|▍                                          | 5/500 [00:03<05:53,  1.40it/s]\u001b[A\n",
+      "  1%|▌                                          | 6/500 [00:04<06:07,  1.34it/s]\u001b[A\n",
+      "  1%|▌                                          | 7/500 [00:04<06:17,  1.30it/s]\u001b[A\n",
+      "  2%|▋                                          | 8/500 [00:05<06:24,  1.28it/s]\u001b[A\n",
+      "  2%|▊                                          | 9/500 [00:06<06:27,  1.27it/s]\u001b[A\n",
+      "  2%|▊                                         | 10/500 [00:07<06:29,  1.26it/s]\u001b[A\n",
+      "  2%|▉                                         | 11/500 [00:08<06:30,  1.25it/s]\u001b[A\n",
+      "  2%|█                                         | 12/500 [00:08<06:32,  1.24it/s]\u001b[A\n",
+      "  3%|█                                         | 13/500 [00:09<06:32,  1.24it/s]\u001b[A\n",
+      "  3%|█▏                                        | 14/500 [00:10<06:34,  1.23it/s]\u001b[A\n",
+      "  3%|█▎                                        | 15/500 [00:11<06:33,  1.23it/s]\u001b[A\n",
+      "  3%|█▎                                        | 16/500 [00:12<06:31,  1.24it/s]\u001b[A\n",
+      "  3%|█▍                                        | 17/500 [00:12<06:30,  1.24it/s]\u001b[A\n",
+      "  4%|█▌                                        | 18/500 [00:13<06:32,  1.23it/s]\u001b[A\n",
+      "  4%|█▌                                        | 19/500 [00:14<06:32,  1.22it/s]\u001b[A\n",
+      "  4%|█▋                                        | 20/500 [00:15<06:32,  1.22it/s]\u001b[A\n",
+      "  4%|█▊                                        | 21/500 [00:16<06:31,  1.22it/s]\u001b[A\n",
+      "  4%|█▊                                        | 22/500 [00:17<06:30,  1.22it/s]\u001b[A\n",
+      "  5%|█▉                                        | 23/500 [00:17<06:29,  1.22it/s]\u001b[A\n",
+      "  5%|██                                        | 24/500 [00:18<06:29,  1.22it/s]\u001b[A\n",
+      "  5%|██                                        | 25/500 [00:19<06:26,  1.23it/s]\u001b[A\n",
+      "  5%|██▏                                       | 26/500 [00:20<06:27,  1.22it/s]\u001b[A\n",
+      "  5%|██▎                                       | 27/500 [00:21<06:25,  1.23it/s]\u001b[A\n",
+      "  6%|██▎                                       | 28/500 [00:21<06:25,  1.22it/s]\u001b[A\n",
+      "  6%|██▍                                       | 29/500 [00:22<06:22,  1.23it/s]\u001b[A\n",
+      "  6%|██▌                                       | 30/500 [00:23<06:24,  1.22it/s]\u001b[A\n",
+      "  6%|██▌                                       | 31/500 [00:24<06:20,  1.23it/s]\u001b[A\n",
+      "  6%|██▋                                       | 32/500 [00:25<06:19,  1.23it/s]\u001b[A\n",
+      "  7%|██▊                                       | 33/500 [00:26<06:21,  1.22it/s]\u001b[A\n",
+      "  7%|██▊                                       | 34/500 [00:26<06:20,  1.22it/s]\u001b[A\n",
+      "  7%|██▉                                       | 35/500 [00:27<06:21,  1.22it/s]\u001b[A\n",
+      "  7%|███                                       | 36/500 [00:28<06:16,  1.23it/s]\u001b[A\n",
+      "  7%|███                                       | 37/500 [00:29<06:17,  1.23it/s]\u001b[A\n",
+      "  8%|███▏                                      | 38/500 [00:30<06:17,  1.22it/s]\u001b[A\n",
+      "  8%|███▎                                      | 39/500 [00:30<06:16,  1.22it/s]\u001b[A\n",
+      "  8%|███▎                                      | 40/500 [00:31<06:14,  1.23it/s]\u001b[A\n",
+      "  8%|███▍                                      | 41/500 [00:32<06:14,  1.22it/s]\u001b[A\n",
+      "  8%|███▌                                      | 42/500 [00:33<06:14,  1.22it/s]\u001b[A\n",
+      "  9%|███▌                                      | 43/500 [00:34<06:14,  1.22it/s]\u001b[A\n",
+      "  9%|███▋                                      | 44/500 [00:35<06:10,  1.23it/s]\u001b[A\n",
+      "  9%|███▊                                      | 45/500 [00:35<06:08,  1.23it/s]\u001b[A\n",
+      "  9%|███▊                                      | 46/500 [00:36<06:09,  1.23it/s]\u001b[A\n",
+      "  9%|███▉                                      | 47/500 [00:37<06:06,  1.24it/s]\u001b[A\n",
+      " 10%|████                                      | 48/500 [00:38<06:04,  1.24it/s]\u001b[A\n",
+      " 10%|████                                      | 49/500 [00:39<06:03,  1.24it/s]\u001b[A\n",
+      " 10%|████▏                                     | 50/500 [00:39<06:04,  1.23it/s]\u001b[A\n",
+      " 10%|████▎                                     | 51/500 [00:40<06:03,  1.23it/s]\u001b[A\n",
+      " 10%|████▎                                     | 52/500 [00:41<06:03,  1.23it/s]\u001b[A\n",
+      " 11%|████▍                                     | 53/500 [00:42<06:03,  1.23it/s]\u001b[A\n",
+      " 11%|████▌                                     | 54/500 [00:43<06:00,  1.24it/s]\u001b[A\n",
+      " 11%|████▌                                     | 55/500 [00:43<06:00,  1.23it/s]\u001b[A\n",
+      " 11%|████▋                                     | 56/500 [00:44<05:58,  1.24it/s]\u001b[A\n",
+      " 11%|████▊                                     | 57/500 [00:45<05:59,  1.23it/s]\u001b[A\n",
+      " 12%|████▊                                     | 58/500 [00:46<06:00,  1.23it/s]\u001b[A\n",
+      " 12%|████▉                                     | 59/500 [00:47<05:58,  1.23it/s]\u001b[A\n",
+      " 12%|█████                                     | 60/500 [00:47<05:58,  1.23it/s]\u001b[A\n",
+      " 12%|█████                                     | 61/500 [00:48<05:56,  1.23it/s]\u001b[A\n",
+      " 12%|█████▏                                    | 62/500 [00:49<05:55,  1.23it/s]\u001b[A\n",
+      " 13%|█████▎                                    | 63/500 [00:50<05:55,  1.23it/s]\u001b[A\n",
+      " 13%|█████▍                                    | 64/500 [00:51<05:54,  1.23it/s]\u001b[A\n",
+      " 13%|█████▍                                    | 65/500 [00:52<05:53,  1.23it/s]\u001b[A\n",
+      " 13%|█████▌                                    | 66/500 [00:52<05:53,  1.23it/s]\u001b[A\n",
+      " 13%|█████▋                                    | 67/500 [00:53<05:52,  1.23it/s]\u001b[A\n",
+      " 14%|█████▋                                    | 68/500 [00:54<05:52,  1.23it/s]\u001b[A\n",
+      " 14%|█████▊                                    | 69/500 [00:55<05:52,  1.22it/s]\u001b[A\n",
+      " 14%|█████▉                                    | 70/500 [00:56<05:49,  1.23it/s]\u001b[A\n",
+      " 14%|█████▉                                    | 71/500 [00:56<05:47,  1.24it/s]\u001b[A\n",
+      " 14%|██████                                    | 72/500 [00:57<05:46,  1.24it/s]\u001b[A\n",
+      " 15%|██████▏                                   | 73/500 [00:58<05:47,  1.23it/s]\u001b[A\n",
+      " 15%|██████▏                                   | 74/500 [00:59<05:46,  1.23it/s]\u001b[A\n",
+      " 15%|██████▎                                   | 75/500 [01:00<05:47,  1.22it/s]\u001b[A\n",
+      " 15%|██████▍                                   | 76/500 [01:01<05:45,  1.23it/s]\u001b[A\n",
+      " 15%|██████▍                                   | 77/500 [01:01<05:43,  1.23it/s]\u001b[A\n",
+      " 16%|██████▌                                   | 78/500 [01:02<05:41,  1.24it/s]\u001b[A\n",
+      " 16%|██████▋                                   | 79/500 [01:03<05:41,  1.23it/s]\u001b[A\n",
+      " 16%|██████▋                                   | 80/500 [01:04<05:39,  1.24it/s]\u001b[A\n",
+      " 16%|██████▊                                   | 81/500 [01:05<05:38,  1.24it/s]\u001b[A\n",
+      " 16%|██████▉                                   | 82/500 [01:05<05:36,  1.24it/s]\u001b[A\n",
+      " 17%|██████▉                                   | 83/500 [01:06<05:37,  1.23it/s]\u001b[A\n",
+      " 17%|███████                                   | 84/500 [01:07<05:38,  1.23it/s]\u001b[A\n",
+      " 17%|███████▏                                  | 85/500 [01:08<05:38,  1.23it/s]\u001b[A\n",
+      " 17%|███████▏                                  | 86/500 [01:09<05:38,  1.22it/s]\u001b[A\n",
+      " 17%|███████▎                                  | 87/500 [01:09<05:36,  1.23it/s]\u001b[A\n",
+      " 18%|███████▍                                  | 88/500 [01:10<05:35,  1.23it/s]\u001b[A\n",
+      " 18%|███████▍                                  | 89/500 [01:11<05:35,  1.23it/s]\u001b[A\n",
+      " 18%|███████▌                                  | 90/500 [01:12<05:34,  1.23it/s]\u001b[A\n",
+      " 18%|███████▋                                  | 91/500 [01:13<05:32,  1.23it/s]\u001b[A\n",
+      " 18%|███████▋                                  | 92/500 [01:13<05:32,  1.23it/s]\u001b[A\n",
+      " 19%|███████▊                                  | 93/500 [01:14<05:30,  1.23it/s]\u001b[A\n",
+      " 19%|███████▉                                  | 94/500 [01:15<05:28,  1.23it/s]\u001b[A\n",
+      " 19%|███████▉                                  | 95/500 [01:16<05:28,  1.23it/s]\u001b[A\n",
+      " 19%|████████                                  | 96/500 [01:17<05:27,  1.23it/s]\u001b[A\n",
+      " 19%|████████▏                                 | 97/500 [01:18<05:27,  1.23it/s]\u001b[A\n",
+      " 20%|████████▏                                 | 98/500 [01:18<05:26,  1.23it/s]\u001b[A\n",
+      " 20%|████████▎                                 | 99/500 [01:19<05:24,  1.23it/s]\u001b[A\n",
+      " 20%|████████▏                                | 100/500 [01:20<05:24,  1.23it/s]\u001b[A\n",
+      " 20%|████████▎                                | 101/500 [01:21<05:23,  1.23it/s]\u001b[A\n",
+      " 20%|████████▎                                | 102/500 [01:22<05:20,  1.24it/s]\u001b[A\n",
+      " 21%|████████▍                                | 103/500 [01:22<05:21,  1.23it/s]\u001b[A\n",
+      " 21%|████████▌                                | 104/500 [01:23<05:21,  1.23it/s]\u001b[A\n",
+      " 21%|████████▌                                | 105/500 [01:24<05:20,  1.23it/s]\u001b[A\n",
+      " 21%|████████▋                                | 106/500 [01:25<05:20,  1.23it/s]\u001b[A\n",
+      " 21%|████████▊                                | 107/500 [01:26<05:19,  1.23it/s]\u001b[A\n",
+      " 22%|████████▊                                | 108/500 [01:26<05:19,  1.23it/s]\u001b[A\n",
+      " 22%|████████▉                                | 109/500 [01:27<05:18,  1.23it/s]\u001b[A\n",
+      " 22%|█████████                                | 110/500 [01:28<05:18,  1.23it/s]\u001b[A\n",
+      " 22%|█████████                                | 111/500 [01:29<05:16,  1.23it/s]\u001b[A\n",
+      " 22%|█████████▏                               | 112/500 [01:30<05:17,  1.22it/s]\u001b[A\n",
+      " 23%|█████████▎                               | 113/500 [01:31<05:15,  1.23it/s]\u001b[A\n",
+      " 23%|█████████▎                               | 114/500 [01:31<05:15,  1.22it/s]\u001b[A\n",
+      " 23%|█████████▍                               | 115/500 [01:32<05:13,  1.23it/s]\u001b[A\n",
+      " 23%|█████████▌                               | 116/500 [01:33<05:12,  1.23it/s]\u001b[A\n",
+      " 23%|█████████▌                               | 117/500 [01:34<05:12,  1.23it/s]\u001b[A\n",
+      " 24%|█████████▋                               | 118/500 [01:35<05:10,  1.23it/s]\u001b[A\n",
+      " 24%|█████████▊                               | 119/500 [01:35<05:08,  1.24it/s]\u001b[A\n",
+      " 24%|█████████▊                               | 120/500 [01:36<05:07,  1.24it/s]\u001b[A\n",
+      " 24%|█████████▉                               | 121/500 [01:37<05:08,  1.23it/s]\u001b[A\n",
+      " 24%|██████████                               | 122/500 [01:38<05:08,  1.23it/s]\u001b[A\n",
+      " 25%|██████████                               | 123/500 [01:39<05:08,  1.22it/s]\u001b[A\n",
+      " 25%|██████████▏                              | 124/500 [01:40<05:06,  1.23it/s]\u001b[A\n",
+      " 25%|██████████▎                              | 125/500 [01:40<05:04,  1.23it/s]\u001b[A\n",
+      " 25%|██████████▎                              | 126/500 [01:41<05:06,  1.22it/s]\u001b[A\n",
+      " 25%|██████████▍                              | 127/500 [01:42<05:04,  1.22it/s]\u001b[A\n",
+      " 26%|██████████▍                              | 128/500 [01:43<05:01,  1.23it/s]\u001b[A\n",
+      " 26%|██████████▌                              | 129/500 [01:44<05:01,  1.23it/s]\u001b[A\n",
+      " 26%|██████████▋                              | 130/500 [01:44<05:01,  1.23it/s]\u001b[A\n",
+      " 26%|██████████▋                              | 131/500 [01:45<05:00,  1.23it/s]\u001b[A\n",
+      " 26%|██████████▊                              | 132/500 [01:46<04:58,  1.23it/s]\u001b[A\n",
+      " 27%|██████████▉                              | 133/500 [01:47<04:58,  1.23it/s]\u001b[A\n",
+      " 27%|██████████▉                              | 134/500 [01:48<04:57,  1.23it/s]\u001b[A\n",
+      " 27%|███████████                              | 135/500 [01:48<04:56,  1.23it/s]\u001b[A\n",
+      " 27%|███████████▏                             | 136/500 [01:49<04:55,  1.23it/s]\u001b[A\n",
+      " 27%|███████████▏                             | 137/500 [01:50<04:54,  1.23it/s]\u001b[A\n",
+      " 28%|███████████▎                             | 138/500 [01:51<04:52,  1.24it/s]\u001b[A\n",
+      " 28%|███████████▍                             | 139/500 [01:52<04:51,  1.24it/s]\u001b[A\n",
+      " 28%|███████████▍                             | 140/500 [01:52<04:50,  1.24it/s]\u001b[A\n",
+      " 28%|███████████▌                             | 141/500 [01:53<04:51,  1.23it/s]\u001b[A\n",
+      " 28%|███████████▋                             | 142/500 [01:54<04:49,  1.24it/s]\u001b[A\n",
+      " 29%|███████████▋                             | 143/500 [01:55<04:50,  1.23it/s]\u001b[A\n",
+      " 29%|███████████▊                             | 144/500 [01:56<04:49,  1.23it/s]\u001b[A\n",
+      " 29%|███████████▉                             | 145/500 [01:57<04:48,  1.23it/s]\u001b[A\n",
+      " 29%|███████████▉                             | 146/500 [01:57<04:49,  1.22it/s]\u001b[A\n",
+      " 29%|████████████                             | 147/500 [01:58<04:46,  1.23it/s]\u001b[A\n",
+      " 30%|████████████▏                            | 148/500 [01:59<04:46,  1.23it/s]\u001b[A\n",
+      " 30%|████████████▏                            | 149/500 [02:00<04:46,  1.22it/s]\u001b[A\n",
+      " 30%|████████████▎                            | 150/500 [02:01<04:44,  1.23it/s]\u001b[A\n",
+      " 30%|████████████▍                            | 151/500 [02:01<04:43,  1.23it/s]\u001b[A\n",
+      " 30%|████████████▍                            | 152/500 [02:02<04:42,  1.23it/s]\u001b[A\n",
+      " 31%|████████████▌                            | 153/500 [02:03<04:41,  1.23it/s]\u001b[A\n",
+      " 31%|████████████▋                            | 154/500 [02:04<04:41,  1.23it/s]\u001b[A\n",
+      " 31%|████████████▋                            | 155/500 [02:05<04:41,  1.23it/s]\u001b[A\n",
+      " 31%|████████████▊                            | 156/500 [02:06<04:42,  1.22it/s]\u001b[A\n",
+      " 31%|████████████▊                            | 157/500 [02:06<04:41,  1.22it/s]\u001b[A\n",
+      " 32%|████████████▉                            | 158/500 [02:07<04:41,  1.22it/s]\u001b[A\n",
+      " 32%|█████████████                            | 159/500 [02:08<04:38,  1.22it/s]\u001b[A\n",
+      " 32%|█████████████                            | 160/500 [02:09<04:38,  1.22it/s]\u001b[A\n",
+      " 32%|█████████████▏                           | 161/500 [02:10<04:35,  1.23it/s]\u001b[A\n",
+      " 32%|█████████████▎                           | 162/500 [02:10<04:35,  1.23it/s]\u001b[A\n",
+      " 33%|█████████████▎                           | 163/500 [02:11<04:33,  1.23it/s]\u001b[A\n",
+      " 33%|█████████████▍                           | 164/500 [02:12<04:33,  1.23it/s]\u001b[A\n",
+      " 33%|█████████████▌                           | 165/500 [02:13<04:33,  1.22it/s]\u001b[A\n",
+      " 33%|█████████████▌                           | 166/500 [02:14<04:31,  1.23it/s]\u001b[A\n",
+      " 33%|█████████████▋                           | 167/500 [02:15<04:31,  1.23it/s]\u001b[A\n",
+      " 34%|█████████████▊                           | 168/500 [02:15<04:30,  1.23it/s]\u001b[A\n",
+      " 34%|█████████████▊                           | 169/500 [02:16<04:30,  1.22it/s]\u001b[A\n",
+      " 34%|█████████████▉                           | 170/500 [02:17<04:29,  1.23it/s]\u001b[A\n",
+      " 34%|██████████████                           | 171/500 [02:18<04:29,  1.22it/s]\u001b[A\n",
+      " 34%|██████████████                           | 172/500 [02:19<04:28,  1.22it/s]\u001b[A\n",
+      " 35%|██████████████▏                          | 173/500 [02:19<04:27,  1.22it/s]\u001b[A\n",
+      " 35%|██████████████▎                          | 174/500 [02:20<04:27,  1.22it/s]\u001b[A\n",
+      " 35%|██████████████▎                          | 175/500 [02:21<04:25,  1.22it/s]\u001b[A\n",
+      " 35%|██████████████▍                          | 176/500 [02:22<04:23,  1.23it/s]\u001b[A\n",
+      " 35%|██████████████▌                          | 177/500 [02:23<04:23,  1.23it/s]\u001b[A\n",
+      " 36%|██████████████▌                          | 178/500 [02:24<04:22,  1.22it/s]\u001b[A\n",
+      " 36%|██████████████▋                          | 179/500 [02:24<04:22,  1.22it/s]\u001b[A\n",
+      " 36%|██████████████▊                          | 180/500 [02:25<04:22,  1.22it/s]\u001b[A\n",
+      " 36%|██████████████▊                          | 181/500 [02:26<04:21,  1.22it/s]\u001b[A\n",
+      " 36%|██████████████▉                          | 182/500 [02:27<04:20,  1.22it/s]\u001b[A\n",
+      " 37%|███████████████                          | 183/500 [02:28<04:18,  1.22it/s]\u001b[A\n",
+      " 37%|███████████████                          | 184/500 [02:28<04:18,  1.22it/s]\u001b[A\n",
+      " 37%|███████████████▏                         | 185/500 [02:29<04:17,  1.22it/s]\u001b[A\n",
+      " 37%|███████████████▎                         | 186/500 [02:30<04:17,  1.22it/s]\u001b[A\n",
+      " 37%|███████████████▎                         | 187/500 [02:31<04:16,  1.22it/s]\u001b[A\n",
+      " 38%|███████████████▍                         | 188/500 [02:32<04:14,  1.22it/s]\u001b[A\n",
+      " 38%|███████████████▍                         | 189/500 [02:32<04:11,  1.23it/s]\u001b[A\n",
+      " 38%|███████████████▌                         | 190/500 [02:33<04:12,  1.23it/s]\u001b[A\n",
+      " 38%|███████████████▋                         | 191/500 [02:34<04:10,  1.23it/s]\u001b[A\n",
+      " 38%|███████████████▋                         | 192/500 [02:35<04:10,  1.23it/s]\u001b[A\n",
+      " 39%|███████████████▊                         | 193/500 [02:36<04:10,  1.23it/s]\u001b[A\n",
+      " 39%|███████████████▉                         | 194/500 [02:37<04:09,  1.23it/s]\u001b[A\n",
+      " 39%|███████████████▉                         | 195/500 [02:37<04:08,  1.23it/s]\u001b[A\n",
+      " 39%|████████████████                         | 196/500 [02:38<04:07,  1.23it/s]\u001b[A\n",
+      " 39%|████████████████▏                        | 197/500 [02:39<04:07,  1.23it/s]\u001b[A\n",
+      " 40%|████████████████▏                        | 198/500 [02:40<04:06,  1.22it/s]\u001b[A\n",
+      " 40%|████████████████▎                        | 199/500 [02:41<04:06,  1.22it/s]\u001b[A\n",
+      " 40%|████████████████▍                        | 200/500 [02:41<04:05,  1.22it/s]\u001b[A\n",
+      " 40%|████████████████▍                        | 201/500 [02:42<04:04,  1.22it/s]\u001b[A\n",
+      " 40%|████████████████▌                        | 202/500 [02:43<04:04,  1.22it/s]\u001b[A\n",
+      " 41%|████████████████▋                        | 203/500 [02:44<04:03,  1.22it/s]\u001b[A\n",
+      " 41%|████████████████▋                        | 204/500 [02:45<04:03,  1.22it/s]\u001b[A\n",
+      " 41%|████████████████▊                        | 205/500 [02:46<04:03,  1.21it/s]\u001b[A\n",
+      " 41%|████████████████▉                        | 206/500 [02:46<04:01,  1.22it/s]\u001b[A\n",
+      " 41%|████████████████▉                        | 207/500 [02:47<04:01,  1.21it/s]\u001b[A\n",
+      " 42%|█████████████████                        | 208/500 [02:48<04:01,  1.21it/s]\u001b[A\n",
+      " 42%|█████████████████▏                       | 209/500 [02:49<03:58,  1.22it/s]\u001b[A\n",
+      " 42%|█████████████████▏                       | 210/500 [02:50<03:56,  1.23it/s]\u001b[A\n",
+      " 42%|█████████████████▎                       | 211/500 [02:51<03:56,  1.22it/s]\u001b[A\n",
+      " 42%|█████████████████▍                       | 212/500 [02:51<03:55,  1.23it/s]\u001b[A\n",
+      " 43%|█████████████████▍                       | 213/500 [02:52<03:54,  1.23it/s]\u001b[A\n",
+      " 43%|█████████████████▌                       | 214/500 [02:53<03:54,  1.22it/s]\u001b[A\n",
+      " 43%|█████████████████▋                       | 215/500 [02:54<03:52,  1.23it/s]\u001b[A\n",
+      " 43%|█████████████████▋                       | 216/500 [02:55<03:53,  1.22it/s]\u001b[A\n",
+      " 43%|█████████████████▊                       | 217/500 [02:55<03:50,  1.23it/s]\u001b[A\n",
+      " 44%|█████████████████▉                       | 218/500 [02:56<03:50,  1.22it/s]\u001b[A\n",
+      " 44%|█████████████████▉                       | 219/500 [02:57<03:49,  1.23it/s]\u001b[A\n",
+      " 44%|██████████████████                       | 220/500 [02:58<03:46,  1.23it/s]\u001b[A\n",
+      " 44%|██████████████████                       | 221/500 [02:59<03:46,  1.23it/s]\u001b[A\n",
+      " 44%|██████████████████▏                      | 222/500 [02:59<03:46,  1.23it/s]\u001b[A\n",
+      " 45%|██████████████████▎                      | 223/500 [03:00<03:44,  1.23it/s]\u001b[A\n",
+      " 45%|██████████████████▎                      | 224/500 [03:01<03:43,  1.23it/s]\u001b[A\n",
+      " 45%|██████████████████▍                      | 225/500 [03:02<03:43,  1.23it/s]\u001b[A\n",
+      " 45%|██████████████████▌                      | 226/500 [03:03<03:43,  1.23it/s]\u001b[A\n",
+      " 45%|██████████████████▌                      | 227/500 [03:04<03:42,  1.23it/s]\u001b[A\n",
+      " 46%|██████████████████▋                      | 228/500 [03:04<03:41,  1.23it/s]\u001b[A\n",
+      " 46%|██████████████████▊                      | 229/500 [03:05<03:39,  1.23it/s]\u001b[A\n",
+      " 46%|██████████████████▊                      | 230/500 [03:06<03:39,  1.23it/s]\u001b[A\n",
+      " 46%|██████████████████▉                      | 231/500 [03:07<03:39,  1.22it/s]\u001b[A\n",
+      " 46%|███████████████████                      | 232/500 [03:08<03:39,  1.22it/s]\u001b[A\n",
+      " 47%|███████████████████                      | 233/500 [03:08<03:38,  1.22it/s]\u001b[A\n",
+      " 47%|███████████████████▏                     | 234/500 [03:09<03:37,  1.22it/s]\u001b[A\n",
+      " 47%|███████████████████▎                     | 235/500 [03:10<03:37,  1.22it/s]\u001b[A\n",
+      " 47%|███████████████████▎                     | 236/500 [03:11<03:37,  1.21it/s]\u001b[A\n",
+      " 47%|███████████████████▍                     | 237/500 [03:12<03:34,  1.22it/s]\u001b[A\n",
+      " 48%|███████████████████▌                     | 238/500 [03:13<03:33,  1.22it/s]\u001b[A\n",
+      " 48%|███████████████████▌                     | 239/500 [03:13<03:32,  1.23it/s]\u001b[A\n",
+      " 48%|███████████████████▋                     | 240/500 [03:14<03:31,  1.23it/s]\u001b[A\n",
+      " 48%|███████████████████▊                     | 241/500 [03:15<03:31,  1.23it/s]\u001b[A\n",
+      " 48%|███████████████████▊                     | 242/500 [03:16<03:29,  1.23it/s]\u001b[A\n",
+      " 49%|███████████████████▉                     | 243/500 [03:17<03:27,  1.24it/s]\u001b[A\n",
+      " 49%|████████████████████                     | 244/500 [03:17<03:26,  1.24it/s]\u001b[A\n",
+      " 49%|████████████████████                     | 245/500 [03:18<03:27,  1.23it/s]\u001b[A\n",
+      " 49%|████████████████████▏                    | 246/500 [03:19<03:26,  1.23it/s]\u001b[A\n",
+      " 49%|████████████████████▎                    | 247/500 [03:20<03:25,  1.23it/s]\u001b[A\n",
+      " 50%|████████████████████▎                    | 248/500 [03:21<03:25,  1.23it/s]\u001b[A\n",
+      " 50%|████████████████████▍                    | 249/500 [03:21<03:24,  1.22it/s]\u001b[A\n",
+      " 50%|████████████████████▌                    | 250/500 [03:22<03:23,  1.23it/s]\u001b[A\n",
+      " 50%|████████████████████▌                    | 251/500 [03:23<03:22,  1.23it/s]\u001b[A\n",
+      " 50%|████████████████████▋                    | 252/500 [03:24<03:21,  1.23it/s]\u001b[A\n",
+      " 51%|████████████████████▋                    | 253/500 [03:25<03:21,  1.23it/s]\u001b[A\n",
+      " 51%|████████████████████▊                    | 254/500 [03:26<03:20,  1.23it/s]\u001b[A\n",
+      " 51%|████████████████████▉                    | 255/500 [03:26<03:18,  1.23it/s]\u001b[A\n",
+      " 51%|████████████████████▉                    | 256/500 [03:27<03:17,  1.23it/s]\u001b[A\n",
+      " 51%|█████████████████████                    | 257/500 [03:28<03:16,  1.23it/s]\u001b[A\n",
+      " 52%|█████████████████████▏                   | 258/500 [03:29<03:16,  1.23it/s]\u001b[A\n",
+      " 52%|█████████████████████▏                   | 259/500 [03:30<03:15,  1.23it/s]\u001b[A\n",
+      " 52%|█████████████████████▎                   | 260/500 [03:30<03:14,  1.23it/s]\u001b[A\n",
+      " 52%|█████████████████████▍                   | 261/500 [03:31<03:14,  1.23it/s]\u001b[A\n",
+      " 52%|█████████████████████▍                   | 262/500 [03:32<03:13,  1.23it/s]\u001b[A\n",
+      " 53%|█████████████████████▌                   | 263/500 [03:33<03:13,  1.22it/s]\u001b[A\n",
+      " 53%|█████████████████████▋                   | 264/500 [03:34<03:11,  1.23it/s]\u001b[A\n",
+      " 53%|█████████████████████▋                   | 265/500 [03:34<03:11,  1.23it/s]\u001b[A\n",
+      " 53%|█████████████████████▊                   | 266/500 [03:35<03:11,  1.22it/s]\u001b[A\n",
+      " 53%|█████████████████████▉                   | 267/500 [03:36<03:10,  1.22it/s]\u001b[A\n",
+      " 54%|█████████████████████▉                   | 268/500 [03:37<03:10,  1.22it/s]\u001b[A\n",
+      " 54%|██████████████████████                   | 269/500 [03:38<03:08,  1.23it/s]\u001b[A\n",
+      " 54%|█████��████████████████▏                  | 270/500 [03:39<03:08,  1.22it/s]\u001b[A\n",
+      " 54%|██████████████████████▏                  | 271/500 [03:39<03:06,  1.23it/s]\u001b[A\n",
+      " 54%|██████████████████████▎                  | 272/500 [03:40<03:05,  1.23it/s]\u001b[A\n",
+      " 55%|██████████████████████▍                  | 273/500 [03:41<03:04,  1.23it/s]\u001b[A\n",
+      " 55%|██████████████████████▍                  | 274/500 [03:42<03:03,  1.23it/s]\u001b[A\n",
+      " 55%|██████████████████████▌                  | 275/500 [03:43<03:03,  1.23it/s]\u001b[A\n",
+      " 55%|██████████████████████▋                  | 276/500 [03:43<03:02,  1.23it/s]\u001b[A\n",
+      " 55%|██████████████████████▋                  | 277/500 [03:44<03:02,  1.22it/s]\u001b[A\n",
+      " 56%|██████████████████████▊                  | 278/500 [03:45<03:01,  1.22it/s]\u001b[A\n",
+      " 56%|██████████████████████▉                  | 279/500 [03:46<03:00,  1.23it/s]\u001b[A\n",
+      " 56%|██████████████████████▉                  | 280/500 [03:47<02:59,  1.23it/s]\u001b[A\n",
+      " 56%|███████████████████████                  | 281/500 [03:48<02:59,  1.22it/s]\u001b[A\n",
+      " 56%|███████████████████████                  | 282/500 [03:48<02:57,  1.23it/s]\u001b[A\n",
+      " 57%|███████████████████████▏                 | 283/500 [03:49<02:57,  1.22it/s]\u001b[A\n",
+      " 57%|███████████████████████▎                 | 284/500 [03:50<02:57,  1.22it/s]\u001b[A\n",
+      " 57%|███████████████████████▎                 | 285/500 [03:51<02:55,  1.22it/s]\u001b[A\n",
+      " 57%|███████████████████████▍                 | 286/500 [03:52<02:54,  1.22it/s]\u001b[A\n",
+      " 57%|███████████████████████▌                 | 287/500 [03:52<02:54,  1.22it/s]\u001b[A\n",
+      " 58%|███████████████████████▌                 | 288/500 [03:53<02:52,  1.23it/s]\u001b[A\n",
+      " 58%|███████████████████████▋                 | 289/500 [03:54<02:52,  1.22it/s]\u001b[A\n",
+      " 58%|███████████████████████▊                 | 290/500 [03:55<02:51,  1.22it/s]\u001b[A\n",
+      " 58%|███████████████████████▊                 | 291/500 [03:56<02:50,  1.22it/s]\u001b[A\n",
+      " 58%|███████████████████████▉                 | 292/500 [03:57<02:50,  1.22it/s]\u001b[A\n",
+      " 59%|████████████████████████                 | 293/500 [03:57<02:49,  1.22it/s]\u001b[A\n",
+      " 59%|████████████████████████                 | 294/500 [03:58<02:49,  1.22it/s]\u001b[A\n",
+      " 59%|████████████████████████▏                | 295/500 [03:59<02:47,  1.22it/s]\u001b[A\n",
+      " 59%|████████████████████████▎                | 296/500 [04:00<02:47,  1.22it/s]\u001b[A\n",
+      " 59%|████████████████████████▎                | 297/500 [04:01<02:46,  1.22it/s]\u001b[A\n",
+      " 60%|████████████████████████▍                | 298/500 [04:01<02:44,  1.23it/s]\u001b[A\n",
+      " 60%|████████████████████████▌                | 299/500 [04:02<02:43,  1.23it/s]\u001b[A\n",
+      " 60%|████████████████████████▌                | 300/500 [04:03<02:43,  1.23it/s]\u001b[A\n",
+      " 60%|████████████████████████▋                | 301/500 [04:04<02:42,  1.23it/s]\u001b[A\n",
+      " 60%|████████████████████████▊                | 302/500 [04:05<02:41,  1.23it/s]\u001b[A\n",
+      " 61%|████████████████████████▊                | 303/500 [04:06<02:39,  1.23it/s]\u001b[A\n",
+      " 61%|████████████████████████▉                | 304/500 [04:06<02:39,  1.23it/s]\u001b[A\n",
+      " 61%|█████████████████████████                | 305/500 [04:07<02:39,  1.22it/s]\u001b[A\n",
+      " 61%|█████████████████████████                | 306/500 [04:08<02:37,  1.23it/s]\u001b[A\n",
+      " 61%|█████████████████████████▏               | 307/500 [04:09<02:37,  1.23it/s]\u001b[A\n",
+      " 62%|█████████████████████████▎               | 308/500 [04:10<02:36,  1.23it/s]\u001b[A\n",
+      " 62%|█████████████████████████▎               | 309/500 [04:10<02:35,  1.23it/s]\u001b[A\n",
+      " 62%|█████████████████████████▍               | 310/500 [04:11<02:35,  1.22it/s]\u001b[A\n",
+      " 62%|█████████████████████████▌               | 311/500 [04:12<02:33,  1.23it/s]\u001b[A\n",
+      " 62%|█████████████████████████▌               | 312/500 [04:13<02:32,  1.23it/s]\u001b[A\n",
+      " 63%|█████████████████████████▋               | 313/500 [04:14<02:33,  1.22it/s]\u001b[A\n",
+      " 63%|█████████████████████████▋               | 314/500 [04:15<02:33,  1.21it/s]\u001b[A\n",
+      " 63%|█████████████████████████▊               | 315/500 [04:15<02:33,  1.21it/s]\u001b[A\n",
+      " 63%|█████████████████████████▉               | 316/500 [04:16<02:31,  1.22it/s]\u001b[A\n",
+      " 63%|█████████████████████████▉               | 317/500 [04:17<02:30,  1.22it/s]\u001b[A\n",
+      " 64%|██████████████████████████               | 318/500 [04:18<02:29,  1.22it/s]\u001b[A\n",
+      " 64%|██████████████████████████▏              | 319/500 [04:19<02:28,  1.22it/s]\u001b[A\n",
+      " 64%|██████████████████████████▏              | 320/500 [04:19<02:27,  1.22it/s]\u001b[A\n",
+      " 64%|██████████████████████████▎              | 321/500 [04:20<02:26,  1.22it/s]\u001b[A\n",
+      " 64%|██████████████████████████▍              | 322/500 [04:21<02:25,  1.22it/s]\u001b[A\n",
+      " 65%|██████████████████████████▍              | 323/500 [04:22<02:24,  1.22it/s]\u001b[A\n",
+      " 65%|██████████████████████████▌              | 324/500 [04:23<02:24,  1.22it/s]\u001b[A\n",
+      " 65%|██████████████████████████▋              | 325/500 [04:24<02:23,  1.22it/s]\u001b[A\n",
+      " 65%|██████████████████████████▋              | 326/500 [04:24<02:22,  1.22it/s]\u001b[A\n",
+      " 65%|██████████████████████████▊              | 327/500 [04:25<02:21,  1.23it/s]\u001b[A\n",
+      " 66%|██████████████████████████▉              | 328/500 [04:26<02:19,  1.23it/s]\u001b[A\n",
+      " 66%|██████████████████████████▉              | 329/500 [04:27<02:18,  1.23it/s]\u001b[A\n",
+      " 66%|███████████████████████████              | 330/500 [04:28<02:18,  1.23it/s]\u001b[A\n",
+      " 66%|███████████████████████████▏             | 331/500 [04:28<02:17,  1.23it/s]\u001b[A\n",
+      " 66%|███████████████████████████▏             | 332/500 [04:29<02:16,  1.23it/s]\u001b[A\n",
+      " 67%|███████████████████████████▎             | 333/500 [04:30<02:16,  1.22it/s]\u001b[A\n",
+      " 67%|███████████████████████████▍             | 334/500 [04:31<02:16,  1.21it/s]\u001b[A\n",
+      " 67%|███████████████████████████▍             | 335/500 [04:32<02:15,  1.22it/s]\u001b[A\n",
+      " 67%|███████████████████████████▌             | 336/500 [04:33<02:14,  1.22it/s]\u001b[A\n",
+      " 67%|███████████████████████████▋             | 337/500 [04:33<02:13,  1.22it/s]\u001b[A\n",
+      " 68%|███████████████████████████▋             | 338/500 [04:34<02:12,  1.22it/s]\u001b[A\n",
+      " 68%|███████████████████████████▊             | 339/500 [04:35<02:12,  1.22it/s]\u001b[A\n",
+      " 68%|███████████████████████████▉             | 340/500 [04:36<02:11,  1.22it/s]\u001b[A\n",
+      " 68%|███████████████████████████▉             | 341/500 [04:37<02:09,  1.23it/s]\u001b[A\n",
+      " 68%|████████████████████████████             | 342/500 [04:37<02:08,  1.23it/s]\u001b[A\n",
+      " 69%|████████████████████████████▏            | 343/500 [04:38<02:07,  1.23it/s]\u001b[A\n",
+      " 69%|████████████████████████████▏            | 344/500 [04:39<02:06,  1.23it/s]\u001b[A\n",
+      " 69%|████████████████████████████▎            | 345/500 [04:40<02:06,  1.23it/s]\u001b[A\n",
+      " 69%|████████████████████████████▎            | 346/500 [04:41<02:05,  1.23it/s]\u001b[A\n",
+      " 69%|████████████████████████████▍            | 347/500 [04:41<02:04,  1.23it/s]\u001b[A\n",
+      " 70%|████████████████████████████▌            | 348/500 [04:42<02:03,  1.23it/s]\u001b[A\n",
+      " 70%|████████████████████████████▌            | 349/500 [04:43<02:02,  1.23it/s]\u001b[A\n",
+      " 70%|████████████████████████████▋            | 350/500 [04:44<02:01,  1.24it/s]\u001b[A\n",
+      " 70%|████████████████████████████▊            | 351/500 [04:45<02:00,  1.24it/s]\u001b[A\n",
+      " 70%|████████████████████████████▊            | 352/500 [04:46<01:59,  1.23it/s]\u001b[A\n",
+      " 71%|████████████████████████████▉            | 353/500 [04:46<01:58,  1.24it/s]\u001b[A\n",
+      " 71%|█████████████████████████████            | 354/500 [04:47<01:57,  1.24it/s]\u001b[A\n",
+      " 71%|█████████████████████████████            | 355/500 [04:48<01:57,  1.23it/s]\u001b[A\n",
+      " 71%|█████████████████████████████▏           | 356/500 [04:49<01:56,  1.24it/s]\u001b[A\n",
+      " 71%|█████████████████████████████▎           | 357/500 [04:50<01:56,  1.23it/s]\u001b[A\n",
+      " 72%|█████████████████████████████▎           | 358/500 [04:50<01:56,  1.22it/s]\u001b[A\n",
+      " 72%|█████████████████████████████▍           | 359/500 [04:51<01:55,  1.22it/s]\u001b[A\n",
+      " 72%|█████████████████████████████▌           | 360/500 [04:52<01:54,  1.22it/s]\u001b[A\n",
+      " 72%|█████████████████████████████▌           | 361/500 [04:53<01:53,  1.22it/s]\u001b[A\n",
+      " 72%|█████████████████████████████▋           | 362/500 [04:54<01:52,  1.23it/s]\u001b[A\n",
+      " 73%|█████████████████████████████▊           | 363/500 [04:54<01:51,  1.23it/s]\u001b[A\n",
+      " 73%|█████████████████████████████▊           | 364/500 [04:55<01:49,  1.24it/s]\u001b[A\n",
+      " 73%|█████████████████████████████▉           | 365/500 [04:56<01:49,  1.23it/s]\u001b[A\n",
+      " 73%|██████████████████████████████           | 366/500 [04:57<01:48,  1.23it/s]\u001b[A\n",
+      " 73%|██████████████████████████████           | 367/500 [04:58<01:47,  1.24it/s]\u001b[A\n",
+      " 74%|██████████████████████████████▏          | 368/500 [04:59<01:46,  1.23it/s]\u001b[A\n",
+      " 74%|██████████████████████████████▎          | 369/500 [04:59<01:46,  1.23it/s]\u001b[A\n",
+      " 74%|██████████████████████████████▎          | 370/500 [05:00<01:45,  1.24it/s]\u001b[A\n",
+      " 74%|██████████████████████████████▍          | 371/500 [05:01<01:44,  1.24it/s]\u001b[A\n",
+      " 74%|██████████████████████████████▌          | 372/500 [05:02<01:43,  1.23it/s]\u001b[A\n",
+      " 75%|██████████████████████████████▌          | 373/500 [05:03<01:42,  1.24it/s]\u001b[A\n",
+      " 75%|██████████████████████████████▋          | 374/500 [05:03<01:42,  1.23it/s]\u001b[A\n",
+      " 75%|██████████████████████████████▊          | 375/500 [05:04<01:41,  1.23it/s]\u001b[A\n",
+      " 75%|██████████████████████████████▊          | 376/500 [05:05<01:40,  1.23it/s]\u001b[A\n",
+      " 75%|██████████████████████████████▉          | 377/500 [05:06<01:40,  1.23it/s]\u001b[A\n",
+      " 76%|██████████████████████████████▉          | 378/500 [05:07<01:39,  1.22it/s]\u001b[A\n",
+      " 76%|███████████████████████████████          | 379/500 [05:07<01:38,  1.22it/s]\u001b[A\n",
+      " 76%|███████████████████████████████▏         | 380/500 [05:08<01:38,  1.22it/s]\u001b[A\n",
+      " 76%|███████████████████████████████▏         | 381/500 [05:09<01:37,  1.22it/s]\u001b[A\n",
+      " 76%|███████████████████████████████▎         | 382/500 [05:10<01:36,  1.23it/s]\u001b[A\n",
+      " 77%|███████████████████████████████▍         | 383/500 [05:11<01:35,  1.23it/s]\u001b[A\n",
+      " 77%|███████████████████████████████▍         | 384/500 [05:12<01:34,  1.23it/s]\u001b[A\n",
+      " 77%|███████████████████████████████▌         | 385/500 [05:12<01:33,  1.23it/s]\u001b[A\n",
+      " 77%|███████████████████████████████▋         | 386/500 [05:13<01:32,  1.23it/s]\u001b[A\n",
+      " 77%|███████████████████████████████▋         | 387/500 [05:14<01:31,  1.23it/s]\u001b[A\n",
+      " 78%|███████████████████████████████▊         | 388/500 [05:15<01:30,  1.23it/s]\u001b[A\n",
+      " 78%|███████████████████████████████▉         | 389/500 [05:16<01:30,  1.23it/s]\u001b[A\n",
+      " 78%|███████████████████████████████▉         | 390/500 [05:16<01:29,  1.23it/s]\u001b[A\n",
+      " 78%|████████████████████████████████         | 391/500 [05:17<01:28,  1.23it/s]\u001b[A\n",
+      " 78%|████████████████████████████████▏        | 392/500 [05:18<01:28,  1.23it/s]\u001b[A\n",
+      " 79%|████████████████████████████████▏        | 393/500 [05:19<01:26,  1.23it/s]\u001b[A\n",
+      " 79%|████████████████████████████████▎        | 394/500 [05:20<01:25,  1.24it/s]\u001b[A\n",
+      " 79%|████████████████████████████████▍        | 395/500 [05:20<01:25,  1.23it/s]\u001b[A\n",
+      " 79%|████████████████████████████████▍        | 396/500 [05:21<01:24,  1.23it/s]\u001b[A\n",
+      " 79%|████████████████████████████████▌        | 397/500 [05:22<01:24,  1.23it/s]\u001b[A\n",
+      " 80%|████████████████████████████████▋        | 398/500 [05:23<01:22,  1.23it/s]\u001b[A\n",
+      " 80%|████████████████████████████████▋        | 399/500 [05:24<01:21,  1.23it/s]\u001b[A\n",
+      " 80%|████████████████████████████████▊        | 400/500 [05:25<01:20,  1.24it/s]\u001b[A\n",
+      " 80%|████████████████████████████████▉        | 401/500 [05:25<01:20,  1.23it/s]\u001b[A\n",
+      " 80%|████████████████████████████████▉        | 402/500 [05:26<01:19,  1.24it/s]\u001b[A\n",
+      " 81%|█████████████████████████████████        | 403/500 [05:27<01:18,  1.24it/s]\u001b[A\n",
+      " 81%|█████████████████████████████████▏       | 404/500 [05:28<01:17,  1.24it/s]\u001b[A\n",
+      " 81%|█████████████████████████████████▏       | 405/500 [05:29<01:16,  1.24it/s]\u001b[A\n",
+      " 81%|█████████████████████████████████▎       | 406/500 [05:29<01:15,  1.24it/s]\u001b[A\n",
+      " 81%|█████████████████████████████████▎       | 407/500 [05:30<01:15,  1.24it/s]\u001b[A\n",
+      " 82%|█████████████████████████████████▍       | 408/500 [05:31<01:14,  1.23it/s]\u001b[A\n",
+      " 82%|█████████████████████████████████▌       | 409/500 [05:32<01:13,  1.24it/s]\u001b[A\n",
+      " 82%|█████████████████████████████████▌       | 410/500 [05:33<01:12,  1.24it/s]\u001b[A\n",
+      " 82%|█████████████████████████████████▋       | 411/500 [05:33<01:12,  1.23it/s]\u001b[A\n",
+      " 82%|█████████████████████████████████▊       | 412/500 [05:34<01:11,  1.23it/s]\u001b[A\n",
+      " 83%|█████████████████████████████████▊       | 413/500 [05:35<01:10,  1.23it/s]\u001b[A\n",
+      " 83%|█████████████████████████████████▉       | 414/500 [05:36<01:09,  1.24it/s]\u001b[A\n",
+      " 83%|██████████████████████████████████       | 415/500 [05:37<01:08,  1.24it/s]\u001b[A\n",
+      " 83%|██████████████████████████████████       | 416/500 [05:37<01:07,  1.24it/s]\u001b[A\n",
+      " 83%|██████████████████████████████████▏      | 417/500 [05:38<01:07,  1.24it/s]\u001b[A\n",
+      " 84%|██████████████████████████████████▎      | 418/500 [05:39<01:06,  1.23it/s]\u001b[A\n",
+      " 84%|██████████████████████████████████▎      | 419/500 [05:40<01:05,  1.24it/s]\u001b[A\n",
+      " 84%|██████████████████████████████████▍      | 420/500 [05:41<01:04,  1.24it/s]\u001b[A\n",
+      " 84%|██████████████████████████████████▌      | 421/500 [05:42<01:03,  1.24it/s]\u001b[A\n",
+      " 84%|██████████████████████████████████▌      | 422/500 [05:42<01:03,  1.24it/s]\u001b[A\n",
+      " 85%|██████████████████████████████████▋      | 423/500 [05:43<01:02,  1.23it/s]\u001b[A\n",
+      " 85%|██████████████████████████████████▊      | 424/500 [05:44<01:01,  1.23it/s]\u001b[A\n",
+      " 85%|██████████████████████████████████▊      | 425/500 [05:45<01:01,  1.23it/s]\u001b[A\n",
+      " 85%|██████████████████████████████████▉      | 426/500 [05:46<01:00,  1.23it/s]\u001b[A\n",
+      " 85%|███████████████████████████████████      | 427/500 [05:46<00:59,  1.23it/s]\u001b[A\n",
+      " 86%|███████████████████████████████████      | 428/500 [05:47<00:58,  1.23it/s]\u001b[A\n",
+      " 86%|███████████████████████████████████▏     | 429/500 [05:48<00:57,  1.23it/s]\u001b[A\n",
+      " 86%|███████████████████████████████████▎     | 430/500 [05:49<00:57,  1.23it/s]\u001b[A\n",
+      " 86%|███████████████████████████████████▎     | 431/500 [05:50<00:56,  1.23it/s]\u001b[A\n",
+      " 86%|███████████████████████████████████▍     | 432/500 [05:50<00:55,  1.22it/s]\u001b[A\n",
+      " 87%|███████████████████████████████████▌     | 433/500 [05:51<00:54,  1.23it/s]\u001b[A\n",
+      " 87%|███████████████████████████████████▌     | 434/500 [05:52<00:53,  1.23it/s]\u001b[A\n",
+      " 87%|███████████████████████████████████▋     | 435/500 [05:53<00:52,  1.23it/s]\u001b[A\n",
+      " 87%|███████████████████████████████████▊     | 436/500 [05:54<00:52,  1.23it/s]\u001b[A\n",
+      " 87%|███████████████████████████████████▊     | 437/500 [05:55<00:51,  1.23it/s]\u001b[A\n",
+      " 88%|███████████████████████████████████▉     | 438/500 [05:55<00:50,  1.23it/s]\u001b[A\n",
+      " 88%|███████████████████████████████████▉     | 439/500 [05:56<00:49,  1.23it/s]\u001b[A\n",
+      " 88%|████████████████████████████████████     | 440/500 [05:57<00:49,  1.22it/s]\u001b[A\n",
+      " 88%|████████████████████████████████████▏    | 441/500 [05:58<00:48,  1.23it/s]\u001b[A\n",
+      " 88%|████████████████████████████████████▏    | 442/500 [05:59<00:47,  1.23it/s]\u001b[A\n",
+      " 89%|████████████████████████████████████▎    | 443/500 [05:59<00:46,  1.23it/s]\u001b[A\n",
+      " 89%|████████████████████████████████████▍    | 444/500 [06:00<00:45,  1.24it/s]\u001b[A\n",
+      " 89%|████████████████████████████████████▍    | 445/500 [06:01<00:44,  1.24it/s]\u001b[A\n",
+      " 89%|████████████████████████████████████▌    | 446/500 [06:02<00:43,  1.23it/s]\u001b[A\n",
+      " 89%|████████████████████████████████████▋    | 447/500 [06:03<00:42,  1.23it/s]\u001b[A\n",
+      " 90%|████████████████████████████████████▋    | 448/500 [06:03<00:42,  1.23it/s]\u001b[A\n",
+      " 90%|████████████████████████████████████▊    | 449/500 [06:04<00:41,  1.23it/s]\u001b[A\n",
+      " 90%|████████████████████████████████████▉    | 450/500 [06:05<00:40,  1.23it/s]\u001b[A\n",
+      " 90%|████████████████████████████████████▉    | 451/500 [06:06<00:39,  1.23it/s]\u001b[A\n",
+      " 90%|█████████████████████████████████████    | 452/500 [06:07<00:38,  1.23it/s]\u001b[A\n",
+      " 91%|█████████████████████████████████████▏   | 453/500 [06:08<00:38,  1.23it/s]\u001b[A\n",
+      " 91%|█████████████████████████████████████▏   | 454/500 [06:08<00:37,  1.23it/s]\u001b[A\n",
+      " 91%|█████████████████████████████████████▎   | 455/500 [06:09<00:36,  1.23it/s]\u001b[A\n",
+      " 91%|█████████████████████████████████████▍   | 456/500 [06:10<00:35,  1.22it/s]\u001b[A\n",
+      " 91%|█████████████████████████████████████▍   | 457/500 [06:11<00:35,  1.23it/s]\u001b[A\n",
+      " 92%|█████████████████████████████████████▌   | 458/500 [06:12<00:34,  1.23it/s]\u001b[A\n",
+      " 92%|█████████████████████████████████████▋   | 459/500 [06:12<00:33,  1.24it/s]\u001b[A\n",
+      " 92%|██████████████���██████████████████████▋   | 460/500 [06:13<00:32,  1.22it/s]\u001b[A\n",
+      " 92%|█████████████████████████████████████▊   | 461/500 [06:14<00:31,  1.23it/s]\u001b[A\n",
+      " 92%|█████████████████████████████████████▉   | 462/500 [06:15<00:30,  1.23it/s]\u001b[A\n",
+      " 93%|█████████████████████████████████████▉   | 463/500 [06:16<00:29,  1.23it/s]\u001b[A\n",
+      " 93%|██████████████████████████████████████   | 464/500 [06:16<00:29,  1.23it/s]\u001b[A\n",
+      " 93%|██████████████████████████████████████▏  | 465/500 [06:17<00:28,  1.23it/s]\u001b[A\n",
+      " 93%|██████████████████████████████████████▏  | 466/500 [06:18<00:27,  1.23it/s]\u001b[A\n",
+      " 93%|██████████████████████████████████████▎  | 467/500 [06:19<00:26,  1.23it/s]\u001b[A\n",
+      " 94%|██████████████████████████████████████▍  | 468/500 [06:20<00:26,  1.23it/s]\u001b[A\n",
+      " 94%|██████████████████████████████████████▍  | 469/500 [06:21<00:25,  1.23it/s]\u001b[A\n",
+      " 94%|██████████████████████████████████████▌  | 470/500 [06:21<00:24,  1.24it/s]\u001b[A\n",
+      " 94%|██████████████████████████████████████▌  | 471/500 [06:22<00:23,  1.24it/s]\u001b[A\n",
+      " 94%|██████████████████████████████████████▋  | 472/500 [06:23<00:22,  1.24it/s]\u001b[A\n",
+      " 95%|██████████████████████████████████████▊  | 473/500 [06:24<00:21,  1.24it/s]\u001b[A\n",
+      " 95%|██████████████████████████████████████▊  | 474/500 [06:25<00:20,  1.24it/s]\u001b[A\n",
+      " 95%|██████████████████████████████████████▉  | 475/500 [06:25<00:20,  1.24it/s]\u001b[A\n",
+      " 95%|███████████████████████████████████████  | 476/500 [06:26<00:19,  1.24it/s]\u001b[A\n",
+      " 95%|███████████████████████████████████████  | 477/500 [06:27<00:18,  1.23it/s]\u001b[A\n",
+      " 96%|███████████████████████████████████████▏ | 478/500 [06:28<00:17,  1.23it/s]\u001b[A\n",
+      " 96%|███████████████████████████████████████▎ | 479/500 [06:29<00:17,  1.23it/s]\u001b[A\n",
+      " 96%|███████████████████████████████████████▎ | 480/500 [06:29<00:16,  1.22it/s]\u001b[A\n",
+      " 96%|███████████████████████████████████████▍ | 481/500 [06:30<00:15,  1.22it/s]\u001b[A\n",
+      " 96%|███████████████████████████████████████▌ | 482/500 [06:31<00:14,  1.23it/s]\u001b[A\n",
+      " 97%|███████████████████████████████████████▌ | 483/500 [06:32<00:13,  1.23it/s]\u001b[A\n",
+      " 97%|███████████████████████████████████████▋ | 484/500 [06:33<00:12,  1.23it/s]\u001b[A\n",
+      " 97%|███████████████████████████████████████▊ | 485/500 [06:34<00:12,  1.23it/s]\u001b[A\n",
+      " 97%|███████████████████████████████████████▊ | 486/500 [06:34<00:11,  1.23it/s]\u001b[A\n",
+      " 97%|███████████████████████████████████████▉ | 487/500 [06:35<00:10,  1.23it/s]\u001b[A\n",
+      " 98%|████████████████████████████████████████ | 488/500 [06:36<00:09,  1.23it/s]\u001b[A\n",
+      " 98%|████████████████████████████████████████ | 489/500 [06:37<00:08,  1.23it/s]\u001b[A\n",
+      " 98%|████████████████████████████████████████▏| 490/500 [06:38<00:08,  1.22it/s]\u001b[A\n",
+      " 98%|████████████████████████████████████████▎| 491/500 [06:38<00:07,  1.23it/s]\u001b[A\n",
+      " 98%|████████████████████████████████████████▎| 492/500 [06:39<00:06,  1.23it/s]\u001b[A\n",
+      " 99%|████████████████████████████████████████▍| 493/500 [06:40<00:05,  1.23it/s]\u001b[A\n",
+      " 99%|████████████████████████████████████████▌| 494/500 [06:41<00:04,  1.23it/s]\u001b[A\n",
+      " 99%|████████████████████████████████████████▌| 495/500 [06:42<00:04,  1.23it/s]\u001b[A\n",
+      " 99%|████████████████████████████████████████▋| 496/500 [06:42<00:03,  1.23it/s]\u001b[A\n",
+      " 99%|████████████████████████████████████████▊| 497/500 [06:43<00:02,  1.23it/s]\u001b[A\n",
+      "100%|████████████████████████████████████████▊| 498/500 [06:44<00:01,  1.23it/s]\u001b[A\n",
+      "100%|████████████████████████████████████████▉| 499/500 [06:45<00:00,  1.23it/s]\u001b[A\n",
+      "                                                                                \u001b[A\n",
+      "\u001b[A{'eval_loss': 0.47765806317329407, 'eval_runtime': 407.079, 'eval_samples_per_second': 1.228, 'eval_steps_per_second': 1.228, 'epoch': 1.0}\n",
+      " 17%|█████▊                             | 562/3372 [2:47:20<13:23:16, 17.15s/it]\n",
+      "100%|█████████████████████████████████████████| 500/500 [06:46<00:00,  1.23it/s]\u001b[A\n",
+      "                                                                                \u001b[A[INFO|trainer.py:3478] 2024-07-11 16:52:57,193 >> Saving model checkpoint to saves/internlm2_5_7b/lora/sft_p2/checkpoint-562\n",
+      "[INFO|configuration_utils.py:733] 2024-07-11 16:52:57,877 >> loading configuration file config.json from cache at /home/inflaton/.cache/huggingface/hub/models--internlm--internlm2_5-7b-chat-1m/snapshots/8d1a709a04d71440ef3df6ebbe204672f411c8b6/config.json\n",
+      "[INFO|configuration_utils.py:800] 2024-07-11 16:52:57,878 >> Model config InternLM2Config {\n",
+      "  \"architectures\": [\n",
+      "    \"InternLM2ForCausalLM\"\n",
+      "  ],\n",
+      "  \"attn_implementation\": \"eager\",\n",
+      "  \"auto_map\": {\n",
+      "    \"AutoConfig\": \"internlm/internlm2_5-7b-chat-1m--configuration_internlm2.InternLM2Config\",\n",
+      "    \"AutoModel\": \"internlm/internlm2_5-7b-chat-1m--modeling_internlm2.InternLM2ForCausalLM\",\n",
+      "    \"AutoModelForCausalLM\": \"internlm/internlm2_5-7b-chat-1m--modeling_internlm2.InternLM2ForCausalLM\"\n",
+      "  },\n",
+      "  \"bias\": false,\n",
+      "  \"bos_token_id\": 1,\n",
+      "  \"eos_token_id\": 2,\n",
+      "  \"hidden_act\": \"silu\",\n",
+      "  \"hidden_size\": 4096,\n",
+      "  \"initializer_range\": 0.02,\n",
+      "  \"intermediate_size\": 14336,\n",
+      "  \"max_position_embeddings\": 262144,\n",
+      "  \"model_type\": \"internlm2\",\n",
+      "  \"num_attention_heads\": 32,\n",
+      "  \"num_hidden_layers\": 32,\n",
+      "  \"num_key_value_heads\": 8,\n",
+      "  \"pad_token_id\": 2,\n",
+      "  \"pretraining_tp\": 1,\n",
+      "  \"rms_norm_eps\": 1e-05,\n",
+      "  \"rope_scaling\": {\n",
+      "    \"factor\": 2.5,\n",
+      "    \"type\": \"dynamic\"\n",
+      "  },\n",
+      "  \"rope_theta\": 50000000,\n",
+      "  \"tie_word_embeddings\": false,\n",
+      "  \"torch_dtype\": \"bfloat16\",\n",
+      "  \"transformers_version\": \"4.42.3\",\n",
+      "  \"use_cache\": true,\n",
+      "  \"vocab_size\": 92544\n",
+      "}\n",
+      "\n",
+      "[INFO|tokenization_utils_base.py:2574] 2024-07-11 16:52:58,318 >> tokenizer config file saved in saves/internlm2_5_7b/lora/sft_p2/checkpoint-562/tokenizer_config.json\n",
+      "[INFO|tokenization_utils_base.py:2583] 2024-07-11 16:52:58,318 >> Special tokens file saved in saves/internlm2_5_7b/lora/sft_p2/checkpoint-562/special_tokens_map.json\n",
+      "{'loss': 0.3563, 'grad_norm': 5.8297953605651855, 'learning_rate': 9.817128546774103e-05, 'epoch': 1.07}\n",
+      " 18%|██████▍                            | 619/3372 [3:03:42<13:13:23, 17.29s/it]^C\n",
+      "Traceback (most recent call last):\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/bin/llamafactory-cli\", line 8, in <module>\n",
+      "    sys.exit(main())\n",
+      "             ^^^^^^\n",
+      "  File \"/home/inflaton/code/projects/courses/LLaMA-Factory/src/llamafactory/cli.py\", line 111, in main\n",
+      "    run_exp()\n",
+      "  File \"/home/inflaton/code/projects/courses/LLaMA-Factory/src/llamafactory/train/tuner.py\", line 50, in run_exp\n",
+      "    run_sft(model_args, data_args, training_args, finetuning_args, generating_args, callbacks)\n",
+      "  File \"/home/inflaton/code/projects/courses/LLaMA-Factory/src/llamafactory/train/sft/workflow.py\", line 88, in run_sft\n",
+      "    train_result = trainer.train(resume_from_checkpoint=training_args.resume_from_checkpoint)\n",
+      "                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/transformers/trainer.py\", line 1932, in train\n",
+      "    return inner_training_loop(\n",
+      "           ^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/transformers/trainer.py\", line 2268, in _inner_training_loop\n",
+      "    tr_loss_step = self.training_step(model, inputs)\n",
+      "                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/transformers/trainer.py\", line 3307, in training_step\n",
+      "    loss = self.compute_loss(model, inputs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/transformers/trainer.py\", line 3338, in compute_loss\n",
+      "    outputs = model(**inputs)\n",
+      "              ^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/nn/modules/module.py\", line 1532, in _wrapped_call_impl\n",
+      "    return self._call_impl(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/nn/modules/module.py\", line 1541, in _call_impl\n",
+      "    return forward_call(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/accelerate/utils/operations.py\", line 822, in forward\n",
+      "    return model_forward(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/accelerate/utils/operations.py\", line 810, in __call__\n",
+      "    return convert_to_fp32(self.model_forward(*args, **kwargs))\n",
+      "                           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/amp/autocast_mode.py\", line 16, in decorate_autocast\n",
+      "    return func(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/peft/peft_model.py\", line 1430, in forward\n",
+      "    return self.base_model(\n",
+      "           ^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/nn/modules/module.py\", line 1532, in _wrapped_call_impl\n",
+      "    return self._call_impl(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/nn/modules/module.py\", line 1541, in _call_impl\n",
+      "    return forward_call(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/peft/tuners/tuners_utils.py\", line 179, in forward\n",
+      "    return self.model.forward(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/accelerate/hooks.py\", line 166, in new_forward\n",
+      "    output = module._old_forward(*args, **kwargs)\n",
+      "             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/.cache/huggingface/modules/transformers_modules/internlm/internlm2_5-7b-chat-1m/8d1a709a04d71440ef3df6ebbe204672f411c8b6/modeling_internlm2.py\", line 1204, in forward\n",
+      "    outputs = self.model(\n",
+      "              ^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/nn/modules/module.py\", line 1532, in _wrapped_call_impl\n",
+      "    return self._call_impl(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/nn/modules/module.py\", line 1541, in _call_impl\n",
+      "    return forward_call(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/accelerate/hooks.py\", line 166, in new_forward\n",
+      "    output = module._old_forward(*args, **kwargs)\n",
+      "             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/.cache/huggingface/modules/transformers_modules/internlm/internlm2_5-7b-chat-1m/8d1a709a04d71440ef3df6ebbe204672f411c8b6/modeling_internlm2.py\", line 993, in forward\n",
+      "    layer_outputs = self._gradient_checkpointing_func(\n",
+      "                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/code/projects/courses/LLaMA-Factory/src/llamafactory/model/model_utils/checkpointing.py\", line 65, in custom_gradient_checkpointing_func\n",
+      "    return gradient_checkpointing_func(func, *args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/_compile.py\", line 24, in inner\n",
+      "    return torch._dynamo.disable(fn, recursive)(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/_dynamo/eval_frame.py\", line 451, in _fn\n",
+      "    return fn(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/_dynamo/external_utils.py\", line 36, in inner\n",
+      "    return fn(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/utils/checkpoint.py\", line 487, in checkpoint\n",
+      "    return CheckpointFunction.apply(function, preserve, *args)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/autograd/function.py\", line 598, in apply\n",
+      "    return super().apply(*args, **kwargs)  # type: ignore[misc]\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/utils/checkpoint.py\", line 262, in forward\n",
+      "    outputs = run_function(*args)\n",
+      "              ^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/nn/modules/module.py\", line 1532, in _wrapped_call_impl\n",
+      "    return self._call_impl(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/nn/modules/module.py\", line 1541, in _call_impl\n",
+      "    return forward_call(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/accelerate/hooks.py\", line 166, in new_forward\n",
+      "    output = module._old_forward(*args, **kwargs)\n",
+      "             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/.cache/huggingface/modules/transformers_modules/internlm/internlm2_5-7b-chat-1m/8d1a709a04d71440ef3df6ebbe204672f411c8b6/modeling_internlm2.py\", line 752, in forward\n",
+      "    hidden_states = self.feed_forward(hidden_states)\n",
+      "                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/nn/modules/module.py\", line 1532, in _wrapped_call_impl\n",
+      "    return self._call_impl(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/nn/modules/module.py\", line 1541, in _call_impl\n",
+      "    return forward_call(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/accelerate/hooks.py\", line 166, in new_forward\n",
+      "    output = module._old_forward(*args, **kwargs)\n",
+      "             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/.cache/huggingface/modules/transformers_modules/internlm/internlm2_5-7b-chat-1m/8d1a709a04d71440ef3df6ebbe204672f411c8b6/modeling_internlm2.py\", line 206, in forward\n",
+      "    down_proj = self.w2(self.act_fn(self.w1(x)) * self.w3(x))\n",
+      "                ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/nn/modules/module.py\", line 1532, in _wrapped_call_impl\n",
+      "    return self._call_impl(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/torch/nn/modules/module.py\", line 1541, in _call_impl\n",
+      "    return forward_call(*args, **kwargs)\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/peft/tuners/lora/bnb.py\", line 460, in forward\n",
+      "    for active_adapter in self.active_adapters:\n",
+      "                          ^^^^^^^^^^^^^^^^^^^^\n",
+      "  File \"/home/inflaton/miniconda3/envs/llama-factory/lib/python3.11/site-packages/peft/tuners/tuners_utils.py\", line 528, in active_adapters\n",
+      "    @property\n",
+      "\n",
+      "KeyboardInterrupt\n",
+      "CPU times: user 4min 41s, sys: 1min 43s, total: 6min 24s\n",
+      "Wall time: 3h 16min\n"
+     ]
+    }
+   ],
    "source": [
     "%%time\n",
     "\n",