sqllama
/

lora-spider-dono

Model card Files Files and versions Community

chrisdono commited on May 1, 2023

Commit

e6bf7a9

•

1 Parent(s): 5dcd322

model 3

Browse files

Files changed (28) hide show

README.md +25 -180
adapter_model.bin +1 -1
{checkpoint-200 → checkpoint-1000}/optimizer.pt +1 -1
{checkpoint-400 → checkpoint-1000}/pytorch_model.bin +1 -1
{checkpoint-400 → checkpoint-1000}/rng_state_0.pth +1 -1
{checkpoint-400 → checkpoint-1000}/rng_state_1.pth +1 -1
{checkpoint-200 → checkpoint-1000}/scaler.pt +1 -1
{checkpoint-200 → checkpoint-1000}/scheduler.pt +1 -1
checkpoint-1000/trainer_state.json +656 -0
{checkpoint-400 → checkpoint-1000}/training_args.bin +1 -1
{checkpoint-400 → checkpoint-1200}/optimizer.pt +1 -1
{checkpoint-200 → checkpoint-1200}/pytorch_model.bin +1 -1
{checkpoint-200 → checkpoint-1200}/rng_state_0.pth +1 -1
{checkpoint-200 → checkpoint-1200}/rng_state_1.pth +1 -1
{checkpoint-400 → checkpoint-1200}/scaler.pt +1 -1
{checkpoint-400 → checkpoint-1200}/scheduler.pt +1 -1
checkpoint-1200/trainer_state.json +784 -0
{checkpoint-200 → checkpoint-1200}/training_args.bin +1 -1
checkpoint-1400/optimizer.pt +3 -0
checkpoint-1400/pytorch_model.bin +3 -0
checkpoint-1400/rng_state_0.pth +3 -0
checkpoint-1400/rng_state_1.pth +3 -0
checkpoint-1400/scaler.pt +3 -0
checkpoint-1400/scheduler.pt +3 -0
checkpoint-1400/trainer_state.json +912 -0
checkpoint-1400/training_args.bin +3 -0
checkpoint-200/trainer_state.json +0 -144
checkpoint-400/trainer_state.json +0 -272

README.md CHANGED Viewed

@@ -6,186 +6,31 @@ Note 1. Output directory was initially lora-alpaca and then contents were moved
 ## Log
-(sqltest) chrisdono@deep-learning-duo-t4-3:~/alpaca-lora$ WORLD_SIZE=2 CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=2 --master_port=1234 finetune.py --base_model 'decapoda-research/llam
-a-7b-hf' --data_path 'spider' --output_dir './lora-alpaca' --num_epochs 3 --batch_size 32 --micro_batch_size 16 --learning_rate '1e-4'
-WARNING:torch.distributed.run:
-*****************************************
-Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your appli
-cation as needed.
-*****************************************
-===================================BUG REPORT===================================
-Welcome to bitsandbytes. For bug reports, please submit your error trace to: https://github.com/TimDettmers/bitsandbytes/issues
-================================================================================
-===================================BUG REPORT===================================
-Welcome to bitsandbytes. For bug reports, please submit your error trace to: https://github.com/TimDettmers/bitsandbytes/issues
-================================================================================
-/opt/conda/envs/sqltest/lib/python3.10/site-packages/bitsandbytes/cuda_setup/main.py:136: UserWarning: /opt/conda/envs/sqltest did not contain libcudart.so as expected! Searching further path
-s...
-  warn(msg)
-/opt/conda/envs/sqltest/lib/python3.10/site-packages/bitsandbytes/cuda_setup/main.py:136: UserWarning: /opt/conda/envs/sqltest did not contain libcudart.so as expected! Searching further path
-s...
-  warn(msg)
-CUDA SETUP: CUDA runtime path found: /usr/local/cuda/lib64/libcudart.so
-CUDA SETUP: Highest compute capability among GPUs detected: 7.5
-CUDA SETUP: Detected CUDA version 113
-CUDA SETUP: Loading binary /opt/conda/envs/sqltest/lib/python3.10/site-packages/bitsandbytes/libbitsandbytes_cuda113.so...
-CUDA SETUP: CUDA runtime path found: /usr/local/cuda/lib64/libcudart.so
-CUDA SETUP: Highest compute capability among GPUs detected: 7.5
-CUDA SETUP: Detected CUDA version 113
-CUDA SETUP: Loading binary /opt/conda/envs/sqltest/lib/python3.10/site-packages/bitsandbytes/libbitsandbytes_cuda113.so...
-Training Alpaca-LoRA model with params:
-base_model: decapoda-research/llama-7b-hf
-data_path: spider
-output_dir: ./lora-alpaca
-batch_size: 32
-micro_batch_size: 16
-num_epochs: 3
-learning_rate: 0.0001
-cutoff_len: 256
-val_set_size: 2000
-lora_r: 8
-lora_alpha: 16
-lora_dropout: 0.05
-lora_target_modules: ['q_proj', 'v_proj']
-train_on_inputs: True
-add_eos_token: False
-group_by_length: False
-wandb_project:
-wandb_run_name:
-wandb_watch:
-wandb_log_model:
-resume_from_checkpoint: False
-prompt template: alpaca
-Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 33/33 [01:19<00:00,  2.42s/it]
-Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 33/33 [01:19<00:00,  2.42s/it]
-The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization.
-The tokenizer class you load from this checkpoint is 'LLaMATokenizer'.
-The class this function is called from is 'LlamaTokenizer'.
-The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization.
-The tokenizer class you load from this checkpoint is 'LLaMATokenizer'.
-The class this function is called from is 'LlamaTokenizer'.
-Found cached dataset spider (/home/chrisdono/.cache/huggingface/datasets/spider/spider/1.0.0/4e5143d825a3895451569c8b9b55432b91a4bc2d04d390376c950837f4680daa)
-  0%|                                                                                                                                                                    | 0/2 [00:00<?, ?it/s]
-Found cached dataset spider (/home/chrisdono/.cache/huggingface/datasets/spider/spider/1.0.0/4e5143d825a3895451569c8b9b55432b91a4bc2d04d390376c950837f4680daa)
-100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████| 2/2 [00:00<00:00, 113.71it/s]
-100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 56.18it/s]
-Found cached dataset csv (/home/chrisdono/.cache/huggingface/datasets/csv/default-68889607ac077205/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1)
-100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 214.92it/s]
-trainable params: 4194304 || all params: 6742609920 || trainable%: 0.06220594176090199
-Loading cached split indices for dataset at /home/chrisdono/.cache/huggingface/datasets/csv/default-68889607ac077205/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cac
-he-b310cf91933dea79.arrow and /home/chrisdono/.cache/huggingface/datasets/csv/default-68889607ac077205/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-9632dc43aab
-73df2.arrow
-Found cached dataset csv (/home/chrisdono/.cache/huggingface/datasets/csv/default-68889607ac077205/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1)
-100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 787.74it/s]
-trainable params: 4194304 || all params: 6742609920 || trainable%: 0.06220594176090199
-Loading cached split indices for dataset at /home/chrisdono/.cache/huggingface/datasets/csv/default-68889607ac077205/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cac
-he-b310cf91933dea79.arrow and /home/chrisdono/.cache/huggingface/datasets/csv/default-68889607ac077205/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-9632dc43aab
-73df2.arrow
-TRAIN DATA
-{'Unnamed: 0': 2621, 'db_id': 'inn_1', 'query': 'SELECT decor , avg(basePrice) ,  min(basePrice) FROM Rooms GROUP BY decor;', 'question': 'What is the average minimum and price of the rooms f
-or each different decor.', 'query_toks': "['SELECT' 'decor' ',' 'avg' '(' 'basePrice' ')' ',' 'min' '(' 'basePrice'\n ')' 'FROM' 'Rooms' 'GROUP' 'BY' 'decor' ';']", 'query_toks_no_value': "['
-select' 'decor' ',' 'avg' '(' 'baseprice' ')' ',' 'min' '(' 'baseprice'\n ')' 'from' 'rooms' 'group' 'by' 'decor']", 'question_toks': "['What' 'is' 'the' 'average' 'minimum' 'and' 'price' 'of
-' 'the' 'rooms'\n 'for' 'each' 'different' 'decor' '.']", 'db_context': "['room id', 'room name', 'beds', 'bed type', 'max occupancy', 'base price', 'decor', 'code', 'room', 'check in', 'chec
-k out', 'rate', 'last name', 'first name', 'adults', 'kids']", 'input_ids': [0, 13866, 338, 385, 15278, 393, 16612, 263, 3414, 29892, 3300, 2859, 411, 385, 1881, 393, 8128, 4340, 3030, 29889,
- 14350, 263, 2933, 393, 7128, 2486, 1614, 2167, 278, 2009, 29889, 13, 13, 2277, 29937, 2799, 4080, 29901, 13, 5618, 338, 278, 6588, 9212, 322, 8666, 310, 278, 19600, 363, 1269, 1422, 10200, 2
-9889, 13, 13, 2277, 29937, 10567, 29901, 13, 1839, 8345, 1178, 742, 525, 8345, 1024, 742, 525, 2580, 29879, 742, 525, 2580, 1134, 742, 525, 3317, 6919, 6906, 742, 525, 3188, 8666, 742, 525, 1
-9557, 742, 525, 401, 742, 525, 8345, 742, 525, 3198, 297, 742, 525, 3198, 714, 742, 525, 10492, 742, 525, 4230, 1024, 742, 525, 4102, 1024, 742, 525, 328, 499, 29879, 742, 525, 29895, 4841, 2
-033, 13, 13, 2277, 29937, 13291, 29901, 13, 6404, 10200, 1919, 1029, 29887, 29898, 3188, 13026, 29897, 1919, 29871, 1375, 29898, 3188, 13026, 29897, 3895, 1528, 4835, 15345, 6770, 10200, 2993
-6, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
-1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
- 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': [0, 13866, 338, 385, 15278, 393, 16612, 263, 3414, 29892, 3300, 2859, 411,
- 385, 1881, 393, 8128, 4340, 3030, 29889, 14350, 263, 2933, 393, 7128, 2486, 1614, 2167, 278, 2009, 29889, 13, 13, 2277, 29937, 2799, 4080, 29901, 13, 5618, 338, 278, 6588, 9212, 322, 8666, 3
-10, 278, 19600, 363, 1269, 1422, 10200, 29889, 13, 13, 2277, 29937, 10567, 29901, 13, 1839, 8345, 1178, 742, 525, 8345, 1024, 742, 525, 2580, 29879, 742, 525, 2580, 1134, 742, 525, 3317, 6919
-, 6906, 742, 525, 3188, 8666, 742, 525, 19557, 742, 525, 401, 742, 525, 8345, 742, 525, 3198, 297, 742, 525, 3198, 714, 742, 525, 10492, 742, 525, 4230, 1024, 742, 525, 4102, 1024, 742, 525,
-328, 499, 29879, 742, 525, 29895, 4841, 2033, 13, 13, 2277, 29937, 13291, 29901, 13, 6404, 10200, 1919, 1029, 29887, 29898, 3188, 13026, 29897, 1919, 29871, 1375, 29898, 3188, 13026, 29897, 3
-895, 1528, 4835, 15345, 6770, 10200, 29936, 0]}
-TRAIN DATA
-{'Unnamed: 0': 4767, 'db_id': 'department_store', 'query': 'SELECT product_id FROM Order_Items GROUP BY product_id HAVING count(*)  >  3 UNION SELECT product_id FROM Product_Suppliers GROUP B
-Y product_id HAVING sum(total_amount_purchased)  >  80000', 'question': 'Return the ids of all products that were ordered more than three times or supplied more than 80000.', 'query_toks': "[
-'SELECT' 'product_id' 'FROM' 'Order_Items' 'GROUP' 'BY' 'product_id'\n 'HAVING' 'count' '(' '*' ')' '>' '3' 'UNION' 'SELECT' 'product_id' 'FROM'\n 'Product_Suppliers' 'GROUP' 'BY' 'product_id
-' 'HAVING' 'sum' '('\n 'total_amount_purchased' ')' '>' '80000']", 'query_toks_no_value': "['select' 'product_id' 'from' 'order_items' 'group' 'by' 'product_id'\n 'having' 'count' '(' '*' ')'
- '>' 'value' 'union' 'select' 'product_id'\n 'from' 'product_suppliers' 'group' 'by' 'product_id' 'having' 'sum' '('\n 'total_amount_purchased' ')' '>' 'value']", 'question_toks': "['Return'
-'the' 'ids' 'of' 'all' 'products' 'that' 'were' 'ordered' 'more'\n 'than' 'three' 'times' 'or' 'supplied' 'more' 'than' '80000' '.']", 'db_context': "['address id', 'address details', 'staff
-id', 'staff gender', 'staff name', 'supplier id', 'supplier name', 'supplier phone', 'department store chain id', 'department store chain name', 'customer id', 'payment method code', 'custome
-r code', 'customer name', 'customer address', 'customer phone', 'customer email', 'product id', 'product type code', 'product name', 'product price', 'supplier id', 'address id', 'date from',
- 'date to', 'customer id', 'address id', 'date from', 'date to', 'order id', 'customer id', 'order status code', 'order date', 'department store id', 'department store chain id', 'store name'
-, 'store address', 'store phone', 'store email', 'department id', 'department store id', 'department name', 'order item id', 'order id', 'product id', 'product id', 'supplier id', 'date suppl
-ied from', 'date supplied to', 'total amount purchased', 'total value purchased', 'staff id', 'department id', 'date assigned from', 'job title code', 'date assigned to']", 'input_ids': [0, 1
-3866, 338, 385, 15278, 393, 16612, 263, 3414, 29892, 3300, 2859, 411, 385, 1881, 393, 8128, 4340, 3030, 29889, 14350, 263, 2933, 393, 7128, 2486, 1614, 2167, 278, 2009, 29889, 13, 13, 2277, 2
-9937, 2799, 4080, 29901, 13, 11609, 278, 18999, 310, 599, 9316, 393, 892, 10372, 901, 1135, 2211, 3064, 470, 19056, 901, 1135, 29871, 29947, 29900, 29900, 29900, 29900, 29889, 13, 13, 2277, 2
-9937, 10567, 29901, 13, 1839, 7328, 1178, 742, 525, 7328, 4902, 742, 525, 303, 3470, 1178, 742, 525, 303, 3470, 23346, 742, 525, 303, 3470, 1024, 742, 525, 19303, 4926, 1178, 742, 525, 19303,
- 4926, 1024, 742, 525, 19303, 4926, 9008, 742, 525, 311, 8076, 3787, 9704, 1178, 742, 525, 311, 8076, 3787, 9704, 1024, 742, 525, 15539, 1178, 742, 525, 27825, 1158, 775, 742, 525, 15539, 775
-, 742, 525, 15539, 1024, 742, 525, 15539, 3211, 742, 525, 15539, 9008, 742, 525, 15539, 4876, 742, 525, 4704, 1178, 742, 525, 4704, 1134, 775, 742, 525, 4704, 1024, 742, 525, 4704, 8666, 742,
- 525, 19303, 4926, 1178, 742, 525, 7328, 1178, 742, 525, 1256, 515, 742, 525, 1256, 304, 742, 525, 15539, 1178, 742, 525, 7328, 1178, 742, 525, 1256, 515, 742, 525, 1256, 304, 742, 525, 2098,
- 1178, 742, 525, 15539, 1178, 742, 525, 2098, 4660, 775, 742, 525, 2098, 2635, 742, 525, 311, 8076, 3787, 1178, 742, 525, 311, 8076, 3787, 9704, 1178, 742, 525, 8899, 1024, 742, 525, 8899, 32
-11, 742, 525, 8899, 9008, 742, 525, 8899, 4876, 742, 525, 311, 8076, 1178, 742, 525, 311, 8076, 3787], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
-1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
- 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
-, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
-1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': [0, 13866, 338, 385, 15278, 393, 16612, 263, 3414, 298
-92, 3300, 2859, 411, 385, 1881, 393, 8128, 4340, 3030, 29889, 14350, 263, 2933, 393, 7128, 2486, 1614, 2167, 278, 2009, 29889, 13, 13, 2277, 29937, 2799, 4080, 29901, 13, 11609, 278, 18999, 3
-10, 599, 9316, 393, 892, 10372, 901, 1135, 2211, 3064, 470, 19056, 901, 1135, 29871, 29947, 29900, 29900, 29900, 29900, 29889, 13, 13, 2277, 29937, 10567, 29901, 13, 1839, 7328, 1178, 742, 52
-5, 7328, 4902, 742, 525, 303, 3470, 1178, 742, 525, 303, 3470, 23346, 742, 525, 303, 3470, 1024, 742, 525, 19303, 4926, 1178, 742, 525, 19303, 4926, 1024, 742, 525, 19303, 4926, 9008, 742, 52
-5, 311, 8076, 3787, 9704, 1178, 742, 525, 311, 8076, 3787, 9704, 1024, 742, 525, 15539, 1178, 742, 525, 27825, 1158, 775, 742, 525, 15539, 775, 742, 525, 15539, 1024, 742, 525, 15539, 3211, 7
-42, 525, 15539, 9008, 742, 525, 15539, 4876, 742, 525, 4704, 1178, 742, 525, 4704, 1134, 775, 742, 525, 4704, 1024, 742, 525, 4704, 8666, 742, 525, 19303, 4926, 1178, 742, 525, 7328, 1178, 74
-2, 525, 1256, 515, 742, 525, 1256, 304, 742, 525, 15539, 1178, 742, 525, 7328, 1178, 742, 525, 1256, 515, 742, 525, 1256, 304, 742, 525, 2098, 1178, 742, 525, 15539, 1178, 742, 525, 2098, 466
-0, 775, 742, 525, 2098, 2635, 742, 525, 311, 8076, 3787, 1178, 742, 525, 311, 8076, 3787, 9704, 1178, 742, 525, 8899, 1024, 742, 525, 8899, 3211, 742, 525, 8899, 9008, 742, 525, 8899, 4876, 7
-42, 525, 311, 8076, 1178, 742, 525, 311, 8076, 3787]}
-{'loss': 2.2228, 'learning_rate': 8.000000000000001e-06, 'epoch': 0.06}
-{'loss': 2.185, 'learning_rate': 1.8e-05, 'epoch': 0.13}
-{'loss': 2.1452, 'learning_rate': 2.8000000000000003e-05, 'epoch': 0.19}
-{'loss': 2.0232, 'learning_rate': 3.8e-05, 'epoch': 0.25}
-{'loss': 1.884, 'learning_rate': 4.8e-05, 'epoch': 0.32}
-{'loss': 1.62, 'learning_rate': 5.6000000000000006e-05, 'epoch': 0.38}
-{'loss': 1.3664, 'learning_rate': 6.6e-05, 'epoch': 0.45}
-{'loss': 1.2159, 'learning_rate': 7.6e-05, 'epoch': 0.51}
-{'loss': 1.1656, 'learning_rate': 8.6e-05, 'epoch': 0.57}
-{'loss': 1.0664, 'learning_rate': 9.6e-05, 'epoch': 0.64}
-{'loss': 1.0253, 'learning_rate': 9.838274932614556e-05, 'epoch': 0.7}
-{'loss': 0.9716, 'learning_rate': 9.568733153638815e-05, 'epoch': 0.76}
-{'loss': 0.9162, 'learning_rate': 9.299191374663073e-05, 'epoch': 0.83}
-{'loss': 0.8849, 'learning_rate': 9.029649595687331e-05, 'epoch': 0.89}
-{'loss': 0.8648, 'learning_rate': 8.76010781671159e-05, 'epoch': 0.96}
-{'loss': 0.8077, 'learning_rate': 8.49056603773585e-05, 'epoch': 1.02}
-{'loss': 0.7443, 'learning_rate': 8.221024258760108e-05, 'epoch': 1.08}
-{'loss': 0.7253, 'learning_rate': 7.951482479784367e-05, 'epoch': 1.15}
-{'loss': 0.6845, 'learning_rate': 7.681940700808625e-05, 'epoch': 1.21}
-{'loss': 0.6956, 'learning_rate': 7.412398921832885e-05, 'epoch': 1.27}
-{'eval_loss': 0.6555210947990417, 'eval_runtime': 179.8763, 'eval_samples_per_second': 11.119, 'eval_steps_per_second': 0.695, 'epoch': 1.27}
-{'loss': 0.6293, 'learning_rate': 7.142857142857143e-05, 'epoch': 1.34}
-{'loss': 0.5948, 'learning_rate': 6.873315363881401e-05, 'epoch': 1.4}
-{'loss': 0.5306, 'learning_rate': 6.60377358490566e-05, 'epoch': 1.46}
-{'loss': 0.5607, 'learning_rate': 6.33423180592992e-05, 'epoch': 1.53}
-{'loss': 0.5095, 'learning_rate': 6.0646900269541785e-05, 'epoch': 1.59}
-{'loss': 0.4947, 'learning_rate': 5.795148247978437e-05, 'epoch': 1.66}
-{'loss': 0.4856, 'learning_rate': 5.525606469002696e-05, 'epoch': 1.72}
-{'loss': 0.4878, 'learning_rate': 5.2560646900269536e-05, 'epoch': 1.78}
-{'loss': 0.4496, 'learning_rate': 4.986522911051213e-05, 'epoch': 1.85}
-{'loss': 0.4544, 'learning_rate': 4.716981132075472e-05, 'epoch': 1.91}
-{'loss': 0.4542, 'learning_rate': 4.447439353099731e-05, 'epoch': 1.97}
-{'loss': 0.4556, 'learning_rate': 4.1778975741239893e-05, 'epoch': 2.04}
-{'loss': 0.4014, 'learning_rate': 3.908355795148248e-05, 'epoch': 2.1}
-{'loss': 0.3893, 'learning_rate': 3.638814016172507e-05, 'epoch': 2.17}
-{'loss': 0.4197, 'learning_rate': 3.369272237196766e-05, 'epoch': 2.23}
-{'loss': 0.3942, 'learning_rate': 3.0997304582210244e-05, 'epoch': 2.29}
-{'loss': 0.3967, 'learning_rate': 2.830188679245283e-05, 'epoch': 2.36}
-{'loss': 0.3848, 'learning_rate': 2.5606469002695423e-05, 'epoch': 2.42}
-{'loss': 0.3834, 'learning_rate': 2.2911051212938006e-05, 'epoch': 2.48}
-{'loss': 0.3647, 'learning_rate': 2.0215633423180595e-05, 'epoch': 2.55}
-{'eval_loss': 0.3913075923919678, 'eval_runtime': 179.5793, 'eval_samples_per_second': 11.137, 'eval_steps_per_second': 0.696, 'epoch': 2.55}
-{'loss': 0.3703, 'learning_rate': 1.752021563342318e-05, 'epoch': 2.61}
-{'loss': 0.3776, 'learning_rate': 1.4824797843665769e-05, 'epoch': 2.68}
-{'loss': 0.3509, 'learning_rate': 1.2129380053908356e-05, 'epoch': 2.74}
-{'loss': 0.3622, 'learning_rate': 9.433962264150944e-06, 'epoch': 2.8}
-{'loss': 0.351, 'learning_rate': 6.738544474393531e-06, 'epoch': 2.87}
-{'loss': 0.351, 'learning_rate': 6.738544474393531e-06, 'epoch': 2.87}
-{'loss': 0.3497, 'learning_rate': 4.0431266846361185e-06, 'epoch': 2.93}
-{'loss': 0.369, 'learning_rate': 1.3477088948787064e-06, 'epoch': 2.99}
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 471/471 [1:25:47<00:00,  8.04s/it]
-{'train_runtime': 5148.4044, 'train_samples_per_second': 2.914, 'train_steps_per_second': 0.091, 'train_loss': 0.7860396517057074, 'epoch': 3.0}
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 471/471 [1:25:47<00:00, 10.93s/it]

 ## Log
+(sqltest) chrisdono@deep-learning-duo-t4-3:~/alpaca-lora$ WORLD_SIZE=2 CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=2 --master_port=1234 finetune.py --base_model 'decapoda-research/llama-7b-hf' --data_path 'spider' --output_dir './lora-alpaca' --num_epochs 10 --batch_size 32 --micro_batch_size 16 --learning_rate '9e-5' --add_eos_token
+Adding last loss values not included in trainer json file from last checkpoint.
+{'loss': 0.241, 'learning_rate': 1.0040816326530613e-05, 'epoch': 8.98}
+{'loss': 0.2343, 'learning_rate': 9.42857142857143e-06, 'epoch': 9.04}
+{'loss': 0.2376, 'learning_rate': 8.816326530612245e-06, 'epoch': 9.11}
+{'loss': 0.2355, 'learning_rate': 8.204081632653062e-06, 'epoch': 9.17}
+{'loss': 0.229, 'learning_rate': 7.591836734693877e-06, 'epoch': 9.24}
+{'loss': 0.2325, 'learning_rate': 6.979591836734694e-06, 'epoch': 9.3}
+{'loss': 0.24, 'learning_rate': 6.367346938775511e-06, 'epoch': 9.36}
+{'loss': 0.2438, 'learning_rate': 5.755102040816327e-06, 'epoch': 9.43}
+{'loss': 0.2391, 'learning_rate': 5.142857142857143e-06, 'epoch': 9.49}
+{'loss': 0.2351, 'learning_rate': 4.530612244897959e-06, 'epoch': 9.55}
+{'loss': 0.2289, 'learning_rate': 3.9183673469387755e-06, 'epoch': 9.62}
+{'loss': 0.2294, 'learning_rate': 3.3061224489795924e-06, 'epoch': 9.68}
+{'loss': 0.2344, 'learning_rate': 2.693877551020408e-06, 'epoch': 9.75}
+{'loss': 0.2358, 'learning_rate': 2.0816326530612247e-06, 'epoch': 9.81}
+{'loss': 0.2365, 'learning_rate': 1.469387755102041e-06, 'epoch': 9.87}
+{'loss': 0.2309, 'learning_rate': 8.571428571428572e-07, 'epoch': 9.94}
+{'loss': 0.2438, 'learning_rate': 2.4489795918367347e-07, 'epoch': 10.0}
+100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1570
+{'train_runtime': 17144.6766, 'train_samples_per_second': 2.916, 'train_steps_per_second': 0.092, 'train_loss': 0.41175747267000234, 'epoch': 10.0}
+100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1570
+100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1570
+/1570 [4:45:44<00:00, 10.92s/it]

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37fb54e8d75f814d5ffae04ff5f8644acdcdad19275a21db211de2ecb76670dd
 size 16822989

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e81348636200bed953a7d22b8739df02326f7214568cb23543c97d607744996
 size 16822989

{checkpoint-200 → checkpoint-1000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68d211e82d8f1900537c205ef1633ac3840314f169f4adc5809db0bb719c102a
 size 33661637

 version https://git-lfs.github.com/spec/v1
+oid sha256:ada108aeb75370253e0951853ba7679a2e83ece2a0fb62fa917cfc8b801a6e05
 size 33661637

{checkpoint-400 → checkpoint-1000}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:355dd19124112f4ec4f4a9e72231b69569dc35413a301bd92e0ee46c98cc1662
 size 16822989

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a446829eac1cfe55026072d9943915b7e04e92ec658726682e785ee4cdd2913
 size 16822989

{checkpoint-400 → checkpoint-1000}/rng_state_0.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be48128cb3aa02832be14199e42efe7eb640a1beb7d0d3b97912e5eb5e87bb89
 size 14583

 version https://git-lfs.github.com/spec/v1
+oid sha256:c577fb5890f86350227d881b094a3f4caad4d67e203b55f7ff03a77b90ab0cef
 size 14583

{checkpoint-400 → checkpoint-1000}/rng_state_1.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64252d7c9f810680b0e74199d8ca1e448242a8f23f43a16f542dd555b08c5cfb
 size 14583

 version https://git-lfs.github.com/spec/v1
+oid sha256:4714127c9b51c424cf4b38037eeee13e70666b411e45a04809165e1ffbd0d4b0
 size 14583

{checkpoint-200 → checkpoint-1000}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:426980f072dd7d4413cef6ecb824723d008ee9b3a98c121abdc77d7a7149e621
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:52e4fb9b07eb9216477d8718b3245f228285c2168e19863ec6206be844186973
 size 557

{checkpoint-200 → checkpoint-1000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dedd1e40b864a676379ea22469f5f6b7a5fc35c2603f57148a91444b58be0f81
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:67f4442b507c07c88aff26c2e96c490aeb9a0158825e369330c7aae60a905187
 size 627

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,656 @@

+{
+  "best_metric": 0.2628234326839447,
+  "best_model_checkpoint": "./lora-alpaca/checkpoint-1000",
+  "epoch": 6.369426751592357,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 2.2569,
+      "step": 10
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.62e-05,
+      "loss": 2.1837,
+      "step": 20
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.5200000000000003e-05,
+      "loss": 2.0973,
+      "step": 30
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.4200000000000005e-05,
+      "loss": 2.0635,
+      "step": 40
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.32e-05,
+      "loss": 1.9233,
+      "step": 50
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 5.13e-05,
+      "loss": 1.6655,
+      "step": 60
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 5.940000000000001e-05,
+      "loss": 1.4289,
+      "step": 70
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 6.840000000000001e-05,
+      "loss": 1.2303,
+      "step": 80
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 7.74e-05,
+      "loss": 1.1787,
+      "step": 90
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 8.64e-05,
+      "loss": 1.0882,
+      "step": 100
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 8.96326530612245e-05,
+      "loss": 1.0611,
+      "step": 110
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.902040816326531e-05,
+      "loss": 0.9818,
+      "step": 120
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.840816326530614e-05,
+      "loss": 0.9416,
+      "step": 130
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 8.779591836734695e-05,
+      "loss": 0.9049,
+      "step": 140
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 8.718367346938777e-05,
+      "loss": 0.8774,
+      "step": 150
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 8.657142857142858e-05,
+      "loss": 0.8507,
+      "step": 160
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 8.59591836734694e-05,
+      "loss": 0.7797,
+      "step": 170
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 8.534693877551022e-05,
+      "loss": 0.7334,
+      "step": 180
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 8.473469387755103e-05,
+      "loss": 0.712,
+      "step": 190
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 8.412244897959185e-05,
+      "loss": 0.6587,
+      "step": 200
+    },
+    {
+      "epoch": 1.27,
+      "eval_loss": 0.6659865379333496,
+      "eval_runtime": 179.3178,
+      "eval_samples_per_second": 11.153,
+      "eval_steps_per_second": 0.697,
+      "step": 200
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 8.351020408163266e-05,
+      "loss": 0.6116,
+      "step": 210
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 8.289795918367348e-05,
+      "loss": 0.6065,
+      "step": 220
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 8.228571428571429e-05,
+      "loss": 0.6109,
+      "step": 230
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 8.167346938775511e-05,
+      "loss": 0.5603,
+      "step": 240
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 8.106122448979592e-05,
+      "loss": 0.5223,
+      "step": 250
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 8.044897959183674e-05,
+      "loss": 0.5039,
+      "step": 260
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 7.983673469387757e-05,
+      "loss": 0.4482,
+      "step": 270
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 7.922448979591838e-05,
+      "loss": 0.4494,
+      "step": 280
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 7.86122448979592e-05,
+      "loss": 0.4578,
+      "step": 290
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 0.4346,
+      "step": 300
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 7.738775510204083e-05,
+      "loss": 0.4274,
+      "step": 310
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 7.677551020408164e-05,
+      "loss": 0.3999,
+      "step": 320
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 7.616326530612246e-05,
+      "loss": 0.3825,
+      "step": 330
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 7.555102040816327e-05,
+      "loss": 0.382,
+      "step": 340
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.493877551020409e-05,
+      "loss": 0.3652,
+      "step": 350
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.43265306122449e-05,
+      "loss": 0.3732,
+      "step": 360
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 7.371428571428572e-05,
+      "loss": 0.3422,
+      "step": 370
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 7.310204081632653e-05,
+      "loss": 0.3661,
+      "step": 380
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 7.248979591836735e-05,
+      "loss": 0.3461,
+      "step": 390
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 7.187755102040816e-05,
+      "loss": 0.3594,
+      "step": 400
+    },
+    {
+      "epoch": 2.55,
+      "eval_loss": 0.35238778591156006,
+      "eval_runtime": 179.1609,
+      "eval_samples_per_second": 11.163,
+      "eval_steps_per_second": 0.698,
+      "step": 400
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 7.126530612244898e-05,
+      "loss": 0.3472,
+      "step": 410
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 7.065306122448981e-05,
+      "loss": 0.3314,
+      "step": 420
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 7.004081632653062e-05,
+      "loss": 0.3323,
+      "step": 430
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 6.942857142857144e-05,
+      "loss": 0.3141,
+      "step": 440
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 6.881632653061225e-05,
+      "loss": 0.3242,
+      "step": 450
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 6.820408163265307e-05,
+      "loss": 0.329,
+      "step": 460
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 6.759183673469389e-05,
+      "loss": 0.3146,
+      "step": 470
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 6.69795918367347e-05,
+      "loss": 0.289,
+      "step": 480
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 6.636734693877552e-05,
+      "loss": 0.2973,
+      "step": 490
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 6.575510204081633e-05,
+      "loss": 0.313,
+      "step": 500
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 6.514285714285715e-05,
+      "loss": 0.2974,
+      "step": 510
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 6.453061224489796e-05,
+      "loss": 0.2822,
+      "step": 520
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 6.391836734693878e-05,
+      "loss": 0.2925,
+      "step": 530
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 6.330612244897959e-05,
+      "loss": 0.2951,
+      "step": 540
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 6.269387755102041e-05,
+      "loss": 0.2875,
+      "step": 550
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 6.208163265306124e-05,
+      "loss": 0.2889,
+      "step": 560
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 6.146938775510205e-05,
+      "loss": 0.2871,
+      "step": 570
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 6.085714285714287e-05,
+      "loss": 0.2718,
+      "step": 580
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 6.024489795918368e-05,
+      "loss": 0.285,
+      "step": 590
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 5.96326530612245e-05,
+      "loss": 0.2705,
+      "step": 600
+    },
+    {
+      "epoch": 3.82,
+      "eval_loss": 0.2906799912452698,
+      "eval_runtime": 178.9594,
+      "eval_samples_per_second": 11.176,
+      "eval_steps_per_second": 0.698,
+      "step": 600
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 5.902040816326531e-05,
+      "loss": 0.2794,
+      "step": 610
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 5.840816326530613e-05,
+      "loss": 0.2784,
+      "step": 620
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 5.779591836734694e-05,
+      "loss": 0.2862,
+      "step": 630
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 5.718367346938776e-05,
+      "loss": 0.2695,
+      "step": 640
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 5.6571428571428574e-05,
+      "loss": 0.2732,
+      "step": 650
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 5.595918367346939e-05,
+      "loss": 0.265,
+      "step": 660
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 5.5346938775510204e-05,
+      "loss": 0.2703,
+      "step": 670
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 5.473469387755102e-05,
+      "loss": 0.2683,
+      "step": 680
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 5.4122448979591835e-05,
+      "loss": 0.2666,
+      "step": 690
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 5.351020408163265e-05,
+      "loss": 0.2571,
+      "step": 700
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 5.289795918367348e-05,
+      "loss": 0.2723,
+      "step": 710
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 5.2285714285714294e-05,
+      "loss": 0.2739,
+      "step": 720
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 5.167346938775511e-05,
+      "loss": 0.2592,
+      "step": 730
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 5.1061224489795925e-05,
+      "loss": 0.261,
+      "step": 740
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 5.044897959183674e-05,
+      "loss": 0.2613,
+      "step": 750
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 4.9836734693877555e-05,
+      "loss": 0.2641,
+      "step": 760
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 4.922448979591837e-05,
+      "loss": 0.2648,
+      "step": 770
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 4.8612244897959186e-05,
+      "loss": 0.2632,
+      "step": 780
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 4.8e-05,
+      "loss": 0.2692,
+      "step": 790
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 4.7387755102040816e-05,
+      "loss": 0.2526,
+      "step": 800
+    },
+    {
+      "epoch": 5.1,
+      "eval_loss": 0.273679256439209,
+      "eval_runtime": 179.1874,
+      "eval_samples_per_second": 11.162,
+      "eval_steps_per_second": 0.698,
+      "step": 800
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 4.677551020408163e-05,
+      "loss": 0.261,
+      "step": 810
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 4.616326530612245e-05,
+      "loss": 0.2459,
+      "step": 820
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 4.555102040816326e-05,
+      "loss": 0.2595,
+      "step": 830
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 4.4938775510204084e-05,
+      "loss": 0.2545,
+      "step": 840
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 4.43265306122449e-05,
+      "loss": 0.2628,
+      "step": 850
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 4.3714285714285715e-05,
+      "loss": 0.2606,
+      "step": 860
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 4.310204081632653e-05,
+      "loss": 0.2512,
+      "step": 870
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 4.2489795918367345e-05,
+      "loss": 0.2566,
+      "step": 880
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 4.187755102040816e-05,
+      "loss": 0.2572,
+      "step": 890
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 4.126530612244898e-05,
+      "loss": 0.247,
+      "step": 900
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 4.06530612244898e-05,
+      "loss": 0.255,
+      "step": 910
+    },
+    {
+      "epoch": 5.86,
+      "learning_rate": 4.004081632653061e-05,
+      "loss": 0.263,
+      "step": 920
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 3.942857142857143e-05,
+      "loss": 0.2622,
+      "step": 930
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 3.8816326530612244e-05,
+      "loss": 0.2496,
+      "step": 940
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 3.820408163265306e-05,
+      "loss": 0.258,
+      "step": 950
+    },
+    {
+      "epoch": 6.11,
+      "learning_rate": 3.7591836734693874e-05,
+      "loss": 0.2425,
+      "step": 960
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 3.6979591836734696e-05,
+      "loss": 0.2444,
+      "step": 970
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 3.636734693877551e-05,
+      "loss": 0.2476,
+      "step": 980
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 3.575510204081633e-05,
+      "loss": 0.2429,
+      "step": 990
+    },
+    {
+      "epoch": 6.37,
+      "learning_rate": 3.514285714285714e-05,
+      "loss": 0.2512,
+      "step": 1000
+    },
+    {
+      "epoch": 6.37,
+      "eval_loss": 0.2628234326839447,
+      "eval_runtime": 178.8184,
+      "eval_samples_per_second": 11.185,
+      "eval_steps_per_second": 0.699,
+      "step": 1000
+    }
+  ],
+  "max_steps": 1570,
+  "num_train_epochs": 10,
+  "total_flos": 3.234749529446154e+17,
+  "trial_name": null,
+  "trial_params": null
+}

{checkpoint-400 → checkpoint-1000}/training_args.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dd968ac3692484ae7ef48f2fe56fbc52fc522e7cedd7f98c741d309d92c7408
 size 3579

 version https://git-lfs.github.com/spec/v1
+oid sha256:6db1d76c8c58296c6ccd7f8675679f24bb5bc1caeeabf527135e316aab994bff
 size 3579

{checkpoint-400 → checkpoint-1200}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91fdba9bd1d20770960aca4e84fef26f9b5ec078297805aad30b770488200e18
 size 33661637

 version https://git-lfs.github.com/spec/v1
+oid sha256:87fa5d20358c5c3180f5c58aee72fe1a6695eb24b03f5c28b90d121c651b08c8
 size 33661637

{checkpoint-200 → checkpoint-1200}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e98feaf29bcad5a4514ce4c0e7c421f687c009a6f047d60103c350dc3efacc7
 size 16822989

 version https://git-lfs.github.com/spec/v1
+oid sha256:cea7c1a7489ecc6765f9e09d47c1d7a0d638820a4225f61509e1de25fa1556ba
 size 16822989

{checkpoint-200 → checkpoint-1200}/rng_state_0.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22272e3838963bad9b0a3193dce5b231ec52af46288ed966f9c19fee3d2ae2ad
 size 14583

 version https://git-lfs.github.com/spec/v1
+oid sha256:f40f510d83877d97169e3e7017e6351d58d653fc20f9328aa70ee78cf702d017
 size 14583

{checkpoint-200 → checkpoint-1200}/rng_state_1.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a84efcd3c2c174f123d98c04e7f9972f182f515c9aeafef4e77248e60e90d277
 size 14583

 version https://git-lfs.github.com/spec/v1
+oid sha256:eda8c300e110c272548bc6247cb827107d9abdf72de04ad474e06742c3dcf7d5
 size 14583

{checkpoint-400 → checkpoint-1200}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:800eaaad24101923b7afda0cde67e8241ab9447a6c388a7805b55fd6229bcf13
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:39d51ec17e1ddffa554b673fbc942280df63b8160e8267e949a87258ac2e47d9
 size 557

{checkpoint-400 → checkpoint-1200}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b5433e62027d6b49a231a798638a7c2420ff2f540a1905be487feea51a17236
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e8b99cd5679e5a59eba6034ebb2efd6f1fbca5d7a9715bb0e51e65eb0b1fc9d
 size 627

checkpoint-1200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,784 @@

+{
+  "best_metric": 0.25768929719924927,
+  "best_model_checkpoint": "./lora-alpaca/checkpoint-1200",
+  "epoch": 7.643312101910828,
+  "global_step": 1200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 2.2569,
+      "step": 10
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.62e-05,
+      "loss": 2.1837,
+      "step": 20
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.5200000000000003e-05,
+      "loss": 2.0973,
+      "step": 30
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.4200000000000005e-05,
+      "loss": 2.0635,
+      "step": 40
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.32e-05,
+      "loss": 1.9233,
+      "step": 50
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 5.13e-05,
+      "loss": 1.6655,
+      "step": 60
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 5.940000000000001e-05,
+      "loss": 1.4289,
+      "step": 70
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 6.840000000000001e-05,
+      "loss": 1.2303,
+      "step": 80
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 7.74e-05,
+      "loss": 1.1787,
+      "step": 90
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 8.64e-05,
+      "loss": 1.0882,
+      "step": 100
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 8.96326530612245e-05,
+      "loss": 1.0611,
+      "step": 110
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.902040816326531e-05,
+      "loss": 0.9818,
+      "step": 120
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.840816326530614e-05,
+      "loss": 0.9416,
+      "step": 130
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 8.779591836734695e-05,
+      "loss": 0.9049,
+      "step": 140
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 8.718367346938777e-05,
+      "loss": 0.8774,
+      "step": 150
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 8.657142857142858e-05,
+      "loss": 0.8507,
+      "step": 160
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 8.59591836734694e-05,
+      "loss": 0.7797,
+      "step": 170
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 8.534693877551022e-05,
+      "loss": 0.7334,
+      "step": 180
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 8.473469387755103e-05,
+      "loss": 0.712,
+      "step": 190
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 8.412244897959185e-05,
+      "loss": 0.6587,
+      "step": 200
+    },
+    {
+      "epoch": 1.27,
+      "eval_loss": 0.6659865379333496,
+      "eval_runtime": 179.3178,
+      "eval_samples_per_second": 11.153,
+      "eval_steps_per_second": 0.697,
+      "step": 200
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 8.351020408163266e-05,
+      "loss": 0.6116,
+      "step": 210
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 8.289795918367348e-05,
+      "loss": 0.6065,
+      "step": 220
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 8.228571428571429e-05,
+      "loss": 0.6109,
+      "step": 230
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 8.167346938775511e-05,
+      "loss": 0.5603,
+      "step": 240
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 8.106122448979592e-05,
+      "loss": 0.5223,
+      "step": 250
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 8.044897959183674e-05,
+      "loss": 0.5039,
+      "step": 260
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 7.983673469387757e-05,
+      "loss": 0.4482,
+      "step": 270
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 7.922448979591838e-05,
+      "loss": 0.4494,
+      "step": 280
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 7.86122448979592e-05,
+      "loss": 0.4578,
+      "step": 290
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 0.4346,
+      "step": 300
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 7.738775510204083e-05,
+      "loss": 0.4274,
+      "step": 310
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 7.677551020408164e-05,
+      "loss": 0.3999,
+      "step": 320
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 7.616326530612246e-05,
+      "loss": 0.3825,
+      "step": 330
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 7.555102040816327e-05,
+      "loss": 0.382,
+      "step": 340
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.493877551020409e-05,
+      "loss": 0.3652,
+      "step": 350
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.43265306122449e-05,
+      "loss": 0.3732,
+      "step": 360
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 7.371428571428572e-05,
+      "loss": 0.3422,
+      "step": 370
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 7.310204081632653e-05,
+      "loss": 0.3661,
+      "step": 380
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 7.248979591836735e-05,
+      "loss": 0.3461,
+      "step": 390
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 7.187755102040816e-05,
+      "loss": 0.3594,
+      "step": 400
+    },
+    {
+      "epoch": 2.55,
+      "eval_loss": 0.35238778591156006,
+      "eval_runtime": 179.1609,
+      "eval_samples_per_second": 11.163,
+      "eval_steps_per_second": 0.698,
+      "step": 400
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 7.126530612244898e-05,
+      "loss": 0.3472,
+      "step": 410
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 7.065306122448981e-05,
+      "loss": 0.3314,
+      "step": 420
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 7.004081632653062e-05,
+      "loss": 0.3323,
+      "step": 430
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 6.942857142857144e-05,
+      "loss": 0.3141,
+      "step": 440
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 6.881632653061225e-05,
+      "loss": 0.3242,
+      "step": 450
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 6.820408163265307e-05,
+      "loss": 0.329,
+      "step": 460
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 6.759183673469389e-05,
+      "loss": 0.3146,
+      "step": 470
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 6.69795918367347e-05,
+      "loss": 0.289,
+      "step": 480
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 6.636734693877552e-05,
+      "loss": 0.2973,
+      "step": 490
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 6.575510204081633e-05,
+      "loss": 0.313,
+      "step": 500
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 6.514285714285715e-05,
+      "loss": 0.2974,
+      "step": 510
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 6.453061224489796e-05,
+      "loss": 0.2822,
+      "step": 520
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 6.391836734693878e-05,
+      "loss": 0.2925,
+      "step": 530
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 6.330612244897959e-05,
+      "loss": 0.2951,
+      "step": 540
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 6.269387755102041e-05,
+      "loss": 0.2875,
+      "step": 550
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 6.208163265306124e-05,
+      "loss": 0.2889,
+      "step": 560
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 6.146938775510205e-05,
+      "loss": 0.2871,
+      "step": 570
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 6.085714285714287e-05,
+      "loss": 0.2718,
+      "step": 580
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 6.024489795918368e-05,
+      "loss": 0.285,
+      "step": 590
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 5.96326530612245e-05,
+      "loss": 0.2705,
+      "step": 600
+    },
+    {
+      "epoch": 3.82,
+      "eval_loss": 0.2906799912452698,
+      "eval_runtime": 178.9594,
+      "eval_samples_per_second": 11.176,
+      "eval_steps_per_second": 0.698,
+      "step": 600
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 5.902040816326531e-05,
+      "loss": 0.2794,
+      "step": 610
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 5.840816326530613e-05,
+      "loss": 0.2784,
+      "step": 620
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 5.779591836734694e-05,
+      "loss": 0.2862,
+      "step": 630
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 5.718367346938776e-05,
+      "loss": 0.2695,
+      "step": 640
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 5.6571428571428574e-05,
+      "loss": 0.2732,
+      "step": 650
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 5.595918367346939e-05,
+      "loss": 0.265,
+      "step": 660
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 5.5346938775510204e-05,
+      "loss": 0.2703,
+      "step": 670
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 5.473469387755102e-05,
+      "loss": 0.2683,
+      "step": 680
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 5.4122448979591835e-05,
+      "loss": 0.2666,
+      "step": 690
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 5.351020408163265e-05,
+      "loss": 0.2571,
+      "step": 700
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 5.289795918367348e-05,
+      "loss": 0.2723,
+      "step": 710
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 5.2285714285714294e-05,
+      "loss": 0.2739,
+      "step": 720
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 5.167346938775511e-05,
+      "loss": 0.2592,
+      "step": 730
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 5.1061224489795925e-05,
+      "loss": 0.261,
+      "step": 740
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 5.044897959183674e-05,
+      "loss": 0.2613,
+      "step": 750
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 4.9836734693877555e-05,
+      "loss": 0.2641,
+      "step": 760
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 4.922448979591837e-05,
+      "loss": 0.2648,
+      "step": 770
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 4.8612244897959186e-05,
+      "loss": 0.2632,
+      "step": 780
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 4.8e-05,
+      "loss": 0.2692,
+      "step": 790
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 4.7387755102040816e-05,
+      "loss": 0.2526,
+      "step": 800
+    },
+    {
+      "epoch": 5.1,
+      "eval_loss": 0.273679256439209,
+      "eval_runtime": 179.1874,
+      "eval_samples_per_second": 11.162,
+      "eval_steps_per_second": 0.698,
+      "step": 800
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 4.677551020408163e-05,
+      "loss": 0.261,
+      "step": 810
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 4.616326530612245e-05,
+      "loss": 0.2459,
+      "step": 820
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 4.555102040816326e-05,
+      "loss": 0.2595,
+      "step": 830
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 4.4938775510204084e-05,
+      "loss": 0.2545,
+      "step": 840
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 4.43265306122449e-05,
+      "loss": 0.2628,
+      "step": 850
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 4.3714285714285715e-05,
+      "loss": 0.2606,
+      "step": 860
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 4.310204081632653e-05,
+      "loss": 0.2512,
+      "step": 870
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 4.2489795918367345e-05,
+      "loss": 0.2566,
+      "step": 880
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 4.187755102040816e-05,
+      "loss": 0.2572,
+      "step": 890
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 4.126530612244898e-05,
+      "loss": 0.247,
+      "step": 900
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 4.06530612244898e-05,
+      "loss": 0.255,
+      "step": 910
+    },
+    {
+      "epoch": 5.86,
+      "learning_rate": 4.004081632653061e-05,
+      "loss": 0.263,
+      "step": 920
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 3.942857142857143e-05,
+      "loss": 0.2622,
+      "step": 930
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 3.8816326530612244e-05,
+      "loss": 0.2496,
+      "step": 940
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 3.820408163265306e-05,
+      "loss": 0.258,
+      "step": 950
+    },
+    {
+      "epoch": 6.11,
+      "learning_rate": 3.7591836734693874e-05,
+      "loss": 0.2425,
+      "step": 960
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 3.6979591836734696e-05,
+      "loss": 0.2444,
+      "step": 970
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 3.636734693877551e-05,
+      "loss": 0.2476,
+      "step": 980
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 3.575510204081633e-05,
+      "loss": 0.2429,
+      "step": 990
+    },
+    {
+      "epoch": 6.37,
+      "learning_rate": 3.514285714285714e-05,
+      "loss": 0.2512,
+      "step": 1000
+    },
+    {
+      "epoch": 6.37,
+      "eval_loss": 0.2628234326839447,
+      "eval_runtime": 178.8184,
+      "eval_samples_per_second": 11.185,
+      "eval_steps_per_second": 0.699,
+      "step": 1000
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 3.453061224489796e-05,
+      "loss": 0.2484,
+      "step": 1010
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 3.391836734693878e-05,
+      "loss": 0.2448,
+      "step": 1020
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 3.3306122448979595e-05,
+      "loss": 0.2355,
+      "step": 1030
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 3.269387755102041e-05,
+      "loss": 0.2445,
+      "step": 1040
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 3.2081632653061225e-05,
+      "loss": 0.2477,
+      "step": 1050
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 3.146938775510204e-05,
+      "loss": 0.2442,
+      "step": 1060
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 3.0857142857142856e-05,
+      "loss": 0.2449,
+      "step": 1070
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 3.0244897959183675e-05,
+      "loss": 0.2382,
+      "step": 1080
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 2.963265306122449e-05,
+      "loss": 0.2392,
+      "step": 1090
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 2.9020408163265305e-05,
+      "loss": 0.2418,
+      "step": 1100
+    },
+    {
+      "epoch": 7.07,
+      "learning_rate": 2.840816326530612e-05,
+      "loss": 0.2387,
+      "step": 1110
+    },
+    {
+      "epoch": 7.13,
+      "learning_rate": 2.7795918367346943e-05,
+      "loss": 0.2431,
+      "step": 1120
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 2.7183673469387758e-05,
+      "loss": 0.2453,
+      "step": 1130
+    },
+    {
+      "epoch": 7.26,
+      "learning_rate": 2.6571428571428573e-05,
+      "loss": 0.2452,
+      "step": 1140
+    },
+    {
+      "epoch": 7.32,
+      "learning_rate": 2.595918367346939e-05,
+      "loss": 0.2411,
+      "step": 1150
+    },
+    {
+      "epoch": 7.39,
+      "learning_rate": 2.5346938775510204e-05,
+      "loss": 0.2448,
+      "step": 1160
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 2.473469387755102e-05,
+      "loss": 0.2407,
+      "step": 1170
+    },
+    {
+      "epoch": 7.52,
+      "learning_rate": 2.4122448979591838e-05,
+      "loss": 0.2428,
+      "step": 1180
+    },
+    {
+      "epoch": 7.58,
+      "learning_rate": 2.3510204081632656e-05,
+      "loss": 0.2434,
+      "step": 1190
+    },
+    {
+      "epoch": 7.64,
+      "learning_rate": 2.289795918367347e-05,
+      "loss": 0.2435,
+      "step": 1200
+    },
+    {
+      "epoch": 7.64,
+      "eval_loss": 0.25768929719924927,
+      "eval_runtime": 179.2212,
+      "eval_samples_per_second": 11.159,
+      "eval_steps_per_second": 0.697,
+      "step": 1200
+    }
+  ],
+  "max_steps": 1570,
+  "num_train_epochs": 10,
+  "total_flos": 3.882151346962432e+17,
+  "trial_name": null,
+  "trial_params": null
+}

{checkpoint-200 → checkpoint-1200}/training_args.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dd968ac3692484ae7ef48f2fe56fbc52fc522e7cedd7f98c741d309d92c7408
 size 3579

 version https://git-lfs.github.com/spec/v1
+oid sha256:6db1d76c8c58296c6ccd7f8675679f24bb5bc1caeeabf527135e316aab994bff
 size 3579

checkpoint-1400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bbaee1746d307e046d56259f91baf7c3620ed7f1755c0c8e13e53a65fa9f5a24
+size 33661637

checkpoint-1400/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5b34574739dc0db6163cd0340442562a180e8a6ea7c97efaeb9a7a7a295999b
+size 16822989

checkpoint-1400/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8df4712fb96da9516182a13dcca9fe77e2d570a5eb7182924dbd8d17b6330900
+size 14583

checkpoint-1400/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b60d9cf614eb8a06e3c140ef91cf08487cf6a5eb292e2bc44a9b26d184472cf7
+size 14583

checkpoint-1400/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51b0c632f8bb35328924fe2936840fcb014f196c4a6f71dcd86e89c10b1a5342
+size 557

checkpoint-1400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1374d0569a391f02ab3ad7de4ced2a5779221864e779ce80936fee4d4059e245
+size 627

checkpoint-1400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,912 @@

+{
+  "best_metric": 0.25404658913612366,
+  "best_model_checkpoint": "./lora-alpaca/checkpoint-1400",
+  "epoch": 8.9171974522293,
+  "global_step": 1400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 2.2569,
+      "step": 10
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.62e-05,
+      "loss": 2.1837,
+      "step": 20
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.5200000000000003e-05,
+      "loss": 2.0973,
+      "step": 30
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.4200000000000005e-05,
+      "loss": 2.0635,
+      "step": 40
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.32e-05,
+      "loss": 1.9233,
+      "step": 50
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 5.13e-05,
+      "loss": 1.6655,
+      "step": 60
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 5.940000000000001e-05,
+      "loss": 1.4289,
+      "step": 70
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 6.840000000000001e-05,
+      "loss": 1.2303,
+      "step": 80
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 7.74e-05,
+      "loss": 1.1787,
+      "step": 90
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 8.64e-05,
+      "loss": 1.0882,
+      "step": 100
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 8.96326530612245e-05,
+      "loss": 1.0611,
+      "step": 110
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.902040816326531e-05,
+      "loss": 0.9818,
+      "step": 120
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.840816326530614e-05,
+      "loss": 0.9416,
+      "step": 130
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 8.779591836734695e-05,
+      "loss": 0.9049,
+      "step": 140
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 8.718367346938777e-05,
+      "loss": 0.8774,
+      "step": 150
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 8.657142857142858e-05,
+      "loss": 0.8507,
+      "step": 160
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 8.59591836734694e-05,
+      "loss": 0.7797,
+      "step": 170
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 8.534693877551022e-05,
+      "loss": 0.7334,
+      "step": 180
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 8.473469387755103e-05,
+      "loss": 0.712,
+      "step": 190
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 8.412244897959185e-05,
+      "loss": 0.6587,
+      "step": 200
+    },
+    {
+      "epoch": 1.27,
+      "eval_loss": 0.6659865379333496,
+      "eval_runtime": 179.3178,
+      "eval_samples_per_second": 11.153,
+      "eval_steps_per_second": 0.697,
+      "step": 200
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 8.351020408163266e-05,
+      "loss": 0.6116,
+      "step": 210
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 8.289795918367348e-05,
+      "loss": 0.6065,
+      "step": 220
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 8.228571428571429e-05,
+      "loss": 0.6109,
+      "step": 230
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 8.167346938775511e-05,
+      "loss": 0.5603,
+      "step": 240
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 8.106122448979592e-05,
+      "loss": 0.5223,
+      "step": 250
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 8.044897959183674e-05,
+      "loss": 0.5039,
+      "step": 260
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 7.983673469387757e-05,
+      "loss": 0.4482,
+      "step": 270
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 7.922448979591838e-05,
+      "loss": 0.4494,
+      "step": 280
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 7.86122448979592e-05,
+      "loss": 0.4578,
+      "step": 290
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 0.4346,
+      "step": 300
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 7.738775510204083e-05,
+      "loss": 0.4274,
+      "step": 310
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 7.677551020408164e-05,
+      "loss": 0.3999,
+      "step": 320
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 7.616326530612246e-05,
+      "loss": 0.3825,
+      "step": 330
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 7.555102040816327e-05,
+      "loss": 0.382,
+      "step": 340
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.493877551020409e-05,
+      "loss": 0.3652,
+      "step": 350
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.43265306122449e-05,
+      "loss": 0.3732,
+      "step": 360
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 7.371428571428572e-05,
+      "loss": 0.3422,
+      "step": 370
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 7.310204081632653e-05,
+      "loss": 0.3661,
+      "step": 380
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 7.248979591836735e-05,
+      "loss": 0.3461,
+      "step": 390
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 7.187755102040816e-05,
+      "loss": 0.3594,
+      "step": 400
+    },
+    {
+      "epoch": 2.55,
+      "eval_loss": 0.35238778591156006,
+      "eval_runtime": 179.1609,
+      "eval_samples_per_second": 11.163,
+      "eval_steps_per_second": 0.698,
+      "step": 400
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 7.126530612244898e-05,
+      "loss": 0.3472,
+      "step": 410
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 7.065306122448981e-05,
+      "loss": 0.3314,
+      "step": 420
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 7.004081632653062e-05,
+      "loss": 0.3323,
+      "step": 430
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 6.942857142857144e-05,
+      "loss": 0.3141,
+      "step": 440
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 6.881632653061225e-05,
+      "loss": 0.3242,
+      "step": 450
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 6.820408163265307e-05,
+      "loss": 0.329,
+      "step": 460
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 6.759183673469389e-05,
+      "loss": 0.3146,
+      "step": 470
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 6.69795918367347e-05,
+      "loss": 0.289,
+      "step": 480
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 6.636734693877552e-05,
+      "loss": 0.2973,
+      "step": 490
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 6.575510204081633e-05,
+      "loss": 0.313,
+      "step": 500
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 6.514285714285715e-05,
+      "loss": 0.2974,
+      "step": 510
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 6.453061224489796e-05,
+      "loss": 0.2822,
+      "step": 520
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 6.391836734693878e-05,
+      "loss": 0.2925,
+      "step": 530
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 6.330612244897959e-05,
+      "loss": 0.2951,
+      "step": 540
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 6.269387755102041e-05,
+      "loss": 0.2875,
+      "step": 550
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 6.208163265306124e-05,
+      "loss": 0.2889,
+      "step": 560
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 6.146938775510205e-05,
+      "loss": 0.2871,
+      "step": 570
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 6.085714285714287e-05,
+      "loss": 0.2718,
+      "step": 580
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 6.024489795918368e-05,
+      "loss": 0.285,
+      "step": 590
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 5.96326530612245e-05,
+      "loss": 0.2705,
+      "step": 600
+    },
+    {
+      "epoch": 3.82,
+      "eval_loss": 0.2906799912452698,
+      "eval_runtime": 178.9594,
+      "eval_samples_per_second": 11.176,
+      "eval_steps_per_second": 0.698,
+      "step": 600
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 5.902040816326531e-05,
+      "loss": 0.2794,
+      "step": 610
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 5.840816326530613e-05,
+      "loss": 0.2784,
+      "step": 620
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 5.779591836734694e-05,
+      "loss": 0.2862,
+      "step": 630
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 5.718367346938776e-05,
+      "loss": 0.2695,
+      "step": 640
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 5.6571428571428574e-05,
+      "loss": 0.2732,
+      "step": 650
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 5.595918367346939e-05,
+      "loss": 0.265,
+      "step": 660
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 5.5346938775510204e-05,
+      "loss": 0.2703,
+      "step": 670
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 5.473469387755102e-05,
+      "loss": 0.2683,
+      "step": 680
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 5.4122448979591835e-05,
+      "loss": 0.2666,
+      "step": 690
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 5.351020408163265e-05,
+      "loss": 0.2571,
+      "step": 700
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 5.289795918367348e-05,
+      "loss": 0.2723,
+      "step": 710
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 5.2285714285714294e-05,
+      "loss": 0.2739,
+      "step": 720
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 5.167346938775511e-05,
+      "loss": 0.2592,
+      "step": 730
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 5.1061224489795925e-05,
+      "loss": 0.261,
+      "step": 740
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 5.044897959183674e-05,
+      "loss": 0.2613,
+      "step": 750
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 4.9836734693877555e-05,
+      "loss": 0.2641,
+      "step": 760
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 4.922448979591837e-05,
+      "loss": 0.2648,
+      "step": 770
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 4.8612244897959186e-05,
+      "loss": 0.2632,
+      "step": 780
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 4.8e-05,
+      "loss": 0.2692,
+      "step": 790
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 4.7387755102040816e-05,
+      "loss": 0.2526,
+      "step": 800
+    },
+    {
+      "epoch": 5.1,
+      "eval_loss": 0.273679256439209,
+      "eval_runtime": 179.1874,
+      "eval_samples_per_second": 11.162,
+      "eval_steps_per_second": 0.698,
+      "step": 800
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 4.677551020408163e-05,
+      "loss": 0.261,
+      "step": 810
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 4.616326530612245e-05,
+      "loss": 0.2459,
+      "step": 820
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 4.555102040816326e-05,
+      "loss": 0.2595,
+      "step": 830
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 4.4938775510204084e-05,
+      "loss": 0.2545,
+      "step": 840
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 4.43265306122449e-05,
+      "loss": 0.2628,
+      "step": 850
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 4.3714285714285715e-05,
+      "loss": 0.2606,
+      "step": 860
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 4.310204081632653e-05,
+      "loss": 0.2512,
+      "step": 870
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 4.2489795918367345e-05,
+      "loss": 0.2566,
+      "step": 880
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 4.187755102040816e-05,
+      "loss": 0.2572,
+      "step": 890
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 4.126530612244898e-05,
+      "loss": 0.247,
+      "step": 900
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 4.06530612244898e-05,
+      "loss": 0.255,
+      "step": 910
+    },
+    {
+      "epoch": 5.86,
+      "learning_rate": 4.004081632653061e-05,
+      "loss": 0.263,
+      "step": 920
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 3.942857142857143e-05,
+      "loss": 0.2622,
+      "step": 930
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 3.8816326530612244e-05,
+      "loss": 0.2496,
+      "step": 940
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 3.820408163265306e-05,
+      "loss": 0.258,
+      "step": 950
+    },
+    {
+      "epoch": 6.11,
+      "learning_rate": 3.7591836734693874e-05,
+      "loss": 0.2425,
+      "step": 960
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 3.6979591836734696e-05,
+      "loss": 0.2444,
+      "step": 970
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 3.636734693877551e-05,
+      "loss": 0.2476,
+      "step": 980
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 3.575510204081633e-05,
+      "loss": 0.2429,
+      "step": 990
+    },
+    {
+      "epoch": 6.37,
+      "learning_rate": 3.514285714285714e-05,
+      "loss": 0.2512,
+      "step": 1000
+    },
+    {
+      "epoch": 6.37,
+      "eval_loss": 0.2628234326839447,
+      "eval_runtime": 178.8184,
+      "eval_samples_per_second": 11.185,
+      "eval_steps_per_second": 0.699,
+      "step": 1000
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 3.453061224489796e-05,
+      "loss": 0.2484,
+      "step": 1010
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 3.391836734693878e-05,
+      "loss": 0.2448,
+      "step": 1020
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 3.3306122448979595e-05,
+      "loss": 0.2355,
+      "step": 1030
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 3.269387755102041e-05,
+      "loss": 0.2445,
+      "step": 1040
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 3.2081632653061225e-05,
+      "loss": 0.2477,
+      "step": 1050
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 3.146938775510204e-05,
+      "loss": 0.2442,
+      "step": 1060
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 3.0857142857142856e-05,
+      "loss": 0.2449,
+      "step": 1070
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 3.0244897959183675e-05,
+      "loss": 0.2382,
+      "step": 1080
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 2.963265306122449e-05,
+      "loss": 0.2392,
+      "step": 1090
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 2.9020408163265305e-05,
+      "loss": 0.2418,
+      "step": 1100
+    },
+    {
+      "epoch": 7.07,
+      "learning_rate": 2.840816326530612e-05,
+      "loss": 0.2387,
+      "step": 1110
+    },
+    {
+      "epoch": 7.13,
+      "learning_rate": 2.7795918367346943e-05,
+      "loss": 0.2431,
+      "step": 1120
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 2.7183673469387758e-05,
+      "loss": 0.2453,
+      "step": 1130
+    },
+    {
+      "epoch": 7.26,
+      "learning_rate": 2.6571428571428573e-05,
+      "loss": 0.2452,
+      "step": 1140
+    },
+    {
+      "epoch": 7.32,
+      "learning_rate": 2.595918367346939e-05,
+      "loss": 0.2411,
+      "step": 1150
+    },
+    {
+      "epoch": 7.39,
+      "learning_rate": 2.5346938775510204e-05,
+      "loss": 0.2448,
+      "step": 1160
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 2.473469387755102e-05,
+      "loss": 0.2407,
+      "step": 1170
+    },
+    {
+      "epoch": 7.52,
+      "learning_rate": 2.4122448979591838e-05,
+      "loss": 0.2428,
+      "step": 1180
+    },
+    {
+      "epoch": 7.58,
+      "learning_rate": 2.3510204081632656e-05,
+      "loss": 0.2434,
+      "step": 1190
+    },
+    {
+      "epoch": 7.64,
+      "learning_rate": 2.289795918367347e-05,
+      "loss": 0.2435,
+      "step": 1200
+    },
+    {
+      "epoch": 7.64,
+      "eval_loss": 0.25768929719924927,
+      "eval_runtime": 179.2212,
+      "eval_samples_per_second": 11.159,
+      "eval_steps_per_second": 0.697,
+      "step": 1200
+    },
+    {
+      "epoch": 7.71,
+      "learning_rate": 2.2285714285714287e-05,
+      "loss": 0.2428,
+      "step": 1210
+    },
+    {
+      "epoch": 7.77,
+      "learning_rate": 2.1673469387755102e-05,
+      "loss": 0.2424,
+      "step": 1220
+    },
+    {
+      "epoch": 7.83,
+      "learning_rate": 2.106122448979592e-05,
+      "loss": 0.2354,
+      "step": 1230
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 2.0448979591836736e-05,
+      "loss": 0.2402,
+      "step": 1240
+    },
+    {
+      "epoch": 7.96,
+      "learning_rate": 1.983673469387755e-05,
+      "loss": 0.2428,
+      "step": 1250
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 1.922448979591837e-05,
+      "loss": 0.2302,
+      "step": 1260
+    },
+    {
+      "epoch": 8.09,
+      "learning_rate": 1.8612244897959185e-05,
+      "loss": 0.2252,
+      "step": 1270
+    },
+    {
+      "epoch": 8.15,
+      "learning_rate": 1.8e-05,
+      "loss": 0.2469,
+      "step": 1280
+    },
+    {
+      "epoch": 8.22,
+      "learning_rate": 1.738775510204082e-05,
+      "loss": 0.2455,
+      "step": 1290
+    },
+    {
+      "epoch": 8.28,
+      "learning_rate": 1.6775510204081634e-05,
+      "loss": 0.231,
+      "step": 1300
+    },
+    {
+      "epoch": 8.34,
+      "learning_rate": 1.616326530612245e-05,
+      "loss": 0.2331,
+      "step": 1310
+    },
+    {
+      "epoch": 8.41,
+      "learning_rate": 1.555102040816327e-05,
+      "loss": 0.2368,
+      "step": 1320
+    },
+    {
+      "epoch": 8.47,
+      "learning_rate": 1.4938775510204082e-05,
+      "loss": 0.2341,
+      "step": 1330
+    },
+    {
+      "epoch": 8.54,
+      "learning_rate": 1.4326530612244899e-05,
+      "loss": 0.2439,
+      "step": 1340
+    },
+    {
+      "epoch": 8.6,
+      "learning_rate": 1.3714285714285716e-05,
+      "loss": 0.2457,
+      "step": 1350
+    },
+    {
+      "epoch": 8.66,
+      "learning_rate": 1.3102040816326533e-05,
+      "loss": 0.2289,
+      "step": 1360
+    },
+    {
+      "epoch": 8.73,
+      "learning_rate": 1.2489795918367348e-05,
+      "loss": 0.2334,
+      "step": 1370
+    },
+    {
+      "epoch": 8.79,
+      "learning_rate": 1.1877551020408163e-05,
+      "loss": 0.2342,
+      "step": 1380
+    },
+    {
+      "epoch": 8.85,
+      "learning_rate": 1.1265306122448982e-05,
+      "loss": 0.2327,
+      "step": 1390
+    },
+    {
+      "epoch": 8.92,
+      "learning_rate": 1.0653061224489797e-05,
+      "loss": 0.2294,
+      "step": 1400
+    },
+    {
+      "epoch": 8.92,
+      "eval_loss": 0.25404658913612366,
+      "eval_runtime": 178.5583,
+      "eval_samples_per_second": 11.201,
+      "eval_steps_per_second": 0.7,
+      "step": 1400
+    }
+  ],
+  "max_steps": 1570,
+  "num_train_epochs": 10,
+  "total_flos": 4.529654718980424e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6db1d76c8c58296c6ccd7f8675679f24bb5bc1caeeabf527135e316aab994bff
+size 3579

checkpoint-200/trainer_state.json DELETED Viewed

@@ -1,144 +0,0 @@
-{
-  "best_metric": 0.6555210947990417,
-  "best_model_checkpoint": "./lora-alpaca/checkpoint-200",
-  "epoch": 1.2738853503184713,
-  "global_step": 200,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.06,
-      "learning_rate": 8.000000000000001e-06,
-      "loss": 2.2228,
-      "step": 10
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 1.8e-05,
-      "loss": 2.185,
-      "step": 20
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 2.8000000000000003e-05,
-      "loss": 2.1452,
-      "step": 30
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 3.8e-05,
-      "loss": 2.0232,
-      "step": 40
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 4.8e-05,
-      "loss": 1.884,
-      "step": 50
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 5.6000000000000006e-05,
-      "loss": 1.62,
-      "step": 60
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 6.6e-05,
-      "loss": 1.3664,
-      "step": 70
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 7.6e-05,
-      "loss": 1.2159,
-      "step": 80
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 8.6e-05,
-      "loss": 1.1656,
-      "step": 90
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 9.6e-05,
-      "loss": 1.0664,
-      "step": 100
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 9.838274932614556e-05,
-      "loss": 1.0253,
-      "step": 110
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 9.568733153638815e-05,
-      "loss": 0.9716,
-      "step": 120
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 9.299191374663073e-05,
-      "loss": 0.9162,
-      "step": 130
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 9.029649595687331e-05,
-      "loss": 0.8849,
-      "step": 140
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 8.76010781671159e-05,
-      "loss": 0.8648,
-      "step": 150
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 8.49056603773585e-05,
-      "loss": 0.8077,
-      "step": 160
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 8.221024258760108e-05,
-      "loss": 0.7443,
-      "step": 170
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 7.951482479784367e-05,
-      "loss": 0.7253,
-      "step": 180
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 7.681940700808625e-05,
-      "loss": 0.6845,
-      "step": 190
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 7.412398921832885e-05,
-      "loss": 0.6956,
-      "step": 200
-    },
-    {
-      "epoch": 1.27,
-      "eval_loss": 0.6555210947990417,
-      "eval_runtime": 179.8763,
-      "eval_samples_per_second": 11.119,
-      "eval_steps_per_second": 0.695,
-      "step": 200
-    }
-  ],
-  "max_steps": 471,
-  "num_train_epochs": 3,
-  "total_flos": 6.475033720179917e+16,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-400/trainer_state.json DELETED Viewed

@@ -1,272 +0,0 @@
-{
-  "best_metric": 0.3913075923919678,
-  "best_model_checkpoint": "./lora-alpaca/checkpoint-400",
-  "epoch": 2.5477707006369426,
-  "global_step": 400,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.06,
-      "learning_rate": 8.000000000000001e-06,
-      "loss": 2.2228,
-      "step": 10
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 1.8e-05,
-      "loss": 2.185,
-      "step": 20
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 2.8000000000000003e-05,
-      "loss": 2.1452,
-      "step": 30
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 3.8e-05,
-      "loss": 2.0232,
-      "step": 40
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 4.8e-05,
-      "loss": 1.884,
-      "step": 50
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 5.6000000000000006e-05,
-      "loss": 1.62,
-      "step": 60
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 6.6e-05,
-      "loss": 1.3664,
-      "step": 70
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 7.6e-05,
-      "loss": 1.2159,
-      "step": 80
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 8.6e-05,
-      "loss": 1.1656,
-      "step": 90
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 9.6e-05,
-      "loss": 1.0664,
-      "step": 100
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 9.838274932614556e-05,
-      "loss": 1.0253,
-      "step": 110
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 9.568733153638815e-05,
-      "loss": 0.9716,
-      "step": 120
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 9.299191374663073e-05,
-      "loss": 0.9162,
-      "step": 130
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 9.029649595687331e-05,
-      "loss": 0.8849,
-      "step": 140
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 8.76010781671159e-05,
-      "loss": 0.8648,
-      "step": 150
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 8.49056603773585e-05,
-      "loss": 0.8077,
-      "step": 160
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 8.221024258760108e-05,
-      "loss": 0.7443,
-      "step": 170
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 7.951482479784367e-05,
-      "loss": 0.7253,
-      "step": 180
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 7.681940700808625e-05,
-      "loss": 0.6845,
-      "step": 190
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 7.412398921832885e-05,
-      "loss": 0.6956,
-      "step": 200
-    },
-    {
-      "epoch": 1.27,
-      "eval_loss": 0.6555210947990417,
-      "eval_runtime": 179.8763,
-      "eval_samples_per_second": 11.119,
-      "eval_steps_per_second": 0.695,
-      "step": 200
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 7.142857142857143e-05,
-      "loss": 0.6293,
-      "step": 210
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 6.873315363881401e-05,
-      "loss": 0.5948,
-      "step": 220
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 6.60377358490566e-05,
-      "loss": 0.5306,
-      "step": 230
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 6.33423180592992e-05,
-      "loss": 0.5607,
-      "step": 240
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 6.0646900269541785e-05,
-      "loss": 0.5095,
-      "step": 250
-    },
-    {
-      "epoch": 1.66,
-      "learning_rate": 5.795148247978437e-05,
-      "loss": 0.4947,
-      "step": 260
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 5.525606469002696e-05,
-      "loss": 0.4856,
-      "step": 270
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 5.2560646900269536e-05,
-      "loss": 0.4878,
-      "step": 280
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 4.986522911051213e-05,
-      "loss": 0.4496,
-      "step": 290
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 4.716981132075472e-05,
-      "loss": 0.4544,
-      "step": 300
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 4.447439353099731e-05,
-      "loss": 0.4542,
-      "step": 310
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 4.1778975741239893e-05,
-      "loss": 0.4556,
-      "step": 320
-    },
-    {
-      "epoch": 2.1,
-      "learning_rate": 3.908355795148248e-05,
-      "loss": 0.4014,
-      "step": 330
-    },
-    {
-      "epoch": 2.17,
-      "learning_rate": 3.638814016172507e-05,
-      "loss": 0.3893,
-      "step": 340
-    },
-    {
-      "epoch": 2.23,
-      "learning_rate": 3.369272237196766e-05,
-      "loss": 0.4197,
-      "step": 350
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 3.0997304582210244e-05,
-      "loss": 0.3942,
-      "step": 360
-    },
-    {
-      "epoch": 2.36,
-      "learning_rate": 2.830188679245283e-05,
-      "loss": 0.3967,
-      "step": 370
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 2.5606469002695423e-05,
-      "loss": 0.3848,
-      "step": 380
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 2.2911051212938006e-05,
-      "loss": 0.3834,
-      "step": 390
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 2.0215633423180595e-05,
-      "loss": 0.3647,
-      "step": 400
-    },
-    {
-      "epoch": 2.55,
-      "eval_loss": 0.3913075923919678,
-      "eval_runtime": 179.5793,
-      "eval_samples_per_second": 11.137,
-      "eval_steps_per_second": 0.696,
-      "step": 400
-    }
-  ],
-  "max_steps": 471,
-  "num_train_epochs": 3,
-  "total_flos": 1.2948924952215552e+17,
-  "trial_name": null,
-  "trial_params": null
-}