End of training

Browse files

Files changed (7) hide show

README.md +456 -0
pytorch_model-00001-of-00005.bin +3 -0
pytorch_model-00002-of-00005.bin +3 -0
pytorch_model-00003-of-00005.bin +3 -0
pytorch_model-00004-of-00005.bin +3 -0
pytorch_model-00005-of-00005.bin +3 -0
pytorch_model.bin.index.json +370 -0

README.md ADDED Viewed

	@@ -0,0 +1,456 @@

+---
+library_name: transformers
+base_model: Dans-DiscountModels/Mistral-Nemo-Base-2407-ChatML-Mod
+tags:
+- axolotl
+- generated_from_trainer
+datasets:
+- PocketDoc/Dans-MemoryCore-CoreCurriculum-Small
+- AquaV/Energetic-Materials-Sharegpt
+- AquaV/Chemical-Biological-Safety-Applications-Sharegpt
+- AquaV/US-Army-Survival-Sharegpt
+- AquaV/Resistance-Sharegpt
+- AquaV/Interrogation-Sharegpt
+- AquaV/Multi-Environment-Operations-Sharegpt
+- PocketDoc/Dans-Mathmaxx
+- PocketDoc/Dans-Mathmaxx-Numina-CoT
+- PJMixers/Math-Multiturn-1K-ShareGPT
+- PocketDoc/Dans-Benchmaxx
+- PocketDoc/Dans-Benchmaxx-COT
+- PocketDoc/Dans-Codemaxx-LeetCode
+- PocketDoc/Dans-Codemaxx-CodeFeedback-Conversations
+- PocketDoc/Dans-Codemaxx-CodeFeedback-SingleTurn
+- PocketDoc/Dans-Codemaxx-Bigcode-SelfInstruct
+- PocketDoc/Dans-Taskmaxx
+- PocketDoc/Dans-Taskmaxx-DataPrepper
+- PocketDoc/Dans-Taskmaxx-ConcurrentQA-Reworked
+- PocketDoc/Dans-Taskmaxx-TableGPT
+- PocketDoc/Dans-Taskmaxx-SciRIFF
+- PocketDoc/Dans-Taskmaxx-Edit
+- PocketDoc/Dans-Systemmaxx
+- PocketDoc/Dans-Toolmaxx-Agent
+- PocketDoc/Dans-Toolmaxx-ShellCommands
+- PocketDoc/Dans-Toolmaxx-Functions-Toolbench
+- PocketDoc/Dans-Toolmaxx-Functions-ToolACE
+- PocketDoc/Dans-Toolmaxx-Functions-apigen
+- PocketDoc/Dans-ASCIIMaxx-Wordart
+- PocketDoc/Dans-Prosemaxx-Gutenberg
+- PocketDoc/Dans-Prosemaxx-Cowriter-M
+- PocketDoc/Dans-Prosemaxx-Adventure
+- PocketDoc/Dans-Prosemaxx-Gryphe-GPT4o-WritingPrompts
+- PocketDoc/Dans-Assistantmaxx-Sharegpt
+- PocketDoc/Dans-Assistantmaxx-OpenAssistant2
+- PocketDoc/Dans-Assistantmaxx-Opus-Merge
+- PocketDoc/Dans-Assistantmaxx-sonnetorca-subset
+- PocketDoc/Dans-Assistantmaxx-sonnetorca-subset-2
+- PocketDoc/Dans-Assistantmaxx-NoRobots
+- PocketDoc/Dans-Assistantmaxx-Synthia
+- PocketDoc/Dans-Assistantmaxx-ASL
+- PocketDoc/Dans-Assistantmaxx-PersonaLLM-Opus
+- PocketDoc/Dans-Assistantmaxx-UnnaturalInstructions-GPT4
+- PocketDoc/Dans-Assistantmaxx-LongAlign
+- PocketDoc/Dans-Assistantmaxx-EvolKit
+- PocketDoc/Dans-Assistantmaxx-Camel-GPT4
+- PocketDoc/Dans-Assistantmaxx-Tulu3-IF
+- PocketDoc/Dans-Logicmaxx-Skunkworks
+- PocketDoc/Dans-Logicmaxx-SAT-AP
+- PocketDoc/Dans-Logicmaxx-Magpie-Ultra
+- PJMixers/grimulkan_theory-of-mind-ShareGPT
+- PJMixers/grimulkan_physical-reasoning-ShareGPT
+- PocketDoc/Dans-Personamaxx
+- PocketDoc/Dans-Personamaxx-Rainy
+- PocketDoc/Dans-Personamaxx-Aesir
+- PocketDoc/Dans-Kinomaxx-VanillaBackrooms
+model-index:
+- name: Mistral-12b-Test-V0.0.3
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/axolotl-ai-cloud/axolotl/main/image/axolotl-badge-web.png" alt="Built with Axolotl" width="200" height="32"/>](https://github.com/axolotl-ai-cloud/axolotl)
+<details><summary>See axolotl config</summary>
+axolotl version: `0.2.1.dev1343+g8e11cb1`
+```yaml
+base_model: Dans-DiscountModels/Mistral-Nemo-Base-2407-ChatML-Mod
+model_type: AutoModelForCausalLM
+tokenizer_type: AutoTokenizer
+trust_remote_code:
+# wandb configuration
+wandb_project: mistral-12b-dans-test
+wandb_watch:
+wandb_run_id: V0.0.3-4-1 # V{Version}-{Run Number}-{Attempt Number}
+wandb_log_model:
+# push checkpoints to hub
+hub_model_id: PocketDoc/Mistral-12b-Test-V0.0.3
+# how to push checkpoints to hub
+# https://huggingface.co/docs/transformers/v4.31.0/en/main_classes/trainer#transformers.TrainingArguments.hub_strategy
+hub_strategy: "every_save"
+# Whether to use hf `use_auth_token` for loading datasets. Useful for fetching private datasets
+# Required to be true when used in combination with `push_dataset_to_hub`
+hf_use_auth_token: true
+# where to save the finished model to
+output_dir: ./mistral-12b-dans-test
+# dataset settings (local or huggingface repo)
+datasets:
+  - path: PocketDoc/Dans-MemoryCore-CoreCurriculum-Small
+    type: dan-chat-advanced
+  - path: AquaV/Energetic-Materials-Sharegpt
+    type: dan-chat-advanced
+  - path: AquaV/Chemical-Biological-Safety-Applications-Sharegpt
+    type: dan-chat-advanced
+  - path: AquaV/US-Army-Survival-Sharegpt
+    type: dan-chat-advanced
+  - path: AquaV/Resistance-Sharegpt
+    type: dan-chat-advanced
+  - path: AquaV/Interrogation-Sharegpt
+    type: dan-chat-advanced
+  - path: AquaV/Multi-Environment-Operations-Sharegpt
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Mathmaxx
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Mathmaxx-Numina-CoT
+    type: dan-chat-advanced
+  - path: PJMixers/Math-Multiturn-1K-ShareGPT
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Benchmaxx
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Benchmaxx-COT
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Codemaxx-LeetCode
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Codemaxx-CodeFeedback-Conversations
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Codemaxx-CodeFeedback-SingleTurn
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Codemaxx-Bigcode-SelfInstruct
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Taskmaxx
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Taskmaxx-DataPrepper
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Taskmaxx-ConcurrentQA-Reworked
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Taskmaxx-TableGPT
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Taskmaxx-SciRIFF
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Taskmaxx-Edit
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Systemmaxx
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Toolmaxx-Agent
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Toolmaxx-ShellCommands
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Toolmaxx-Functions-Toolbench
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Toolmaxx-Functions-ToolACE
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Toolmaxx-Functions-apigen
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-ASCIIMaxx-Wordart
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Prosemaxx-Gutenberg
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Prosemaxx-Cowriter-M
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Prosemaxx-Adventure
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Prosemaxx-Gryphe-GPT4o-WritingPrompts
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-Sharegpt
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-OpenAssistant2
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-Opus-Merge
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-sonnetorca-subset
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-sonnetorca-subset-2
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-NoRobots
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-Synthia
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-ASL
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-PersonaLLM-Opus
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-UnnaturalInstructions-GPT4
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-LongAlign
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-EvolKit
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-Camel-GPT4
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Assistantmaxx-Tulu3-IF
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Logicmaxx-Skunkworks
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Logicmaxx-SAT-AP
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Logicmaxx-Magpie-Ultra
+    type: dan-chat-advanced
+  - path: PJMixers/grimulkan_theory-of-mind-ShareGPT
+    type: dan-chat-advanced
+  - path: PJMixers/grimulkan_physical-reasoning-ShareGPT
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Personamaxx
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Personamaxx-Rainy
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Personamaxx-Aesir
+    type: dan-chat-advanced
+  - path: PocketDoc/Dans-Kinomaxx-VanillaBackrooms
+    type: dan-chat-advanced
+chat_template: chatml
+plugins:
+  - axolotl.integrations.liger.LigerPlugin
+liger_rope: true
+liger_rms_norm: true
+liger_swiglu: true
+liger_fused_linear_cross_entropy: true
+load_in_8bit: false
+load_in_4bit: false
+strict: false
+adapter:
+lora_model_dir:
+lora_r: 128
+lora_alpha: 128
+lora_dropout: 0.1
+lora_target_linear: True
+lora_target_modules:
+lora_modules_to_save:
+  - embed_tokens
+  - lm_head
+lora_fan_in_fan_out:
+peft_use_rslora: true
+dataset_prepared_path: ./mistral-12b-dans-test-data
+val_set_size: 0.003
+sequence_len: 32768
+sample_packing: true
+eval_sample_packing: true
+pad_to_sequence_len: true
+gradient_checkpointing: true
+gradient_checkpointing_kwargs:
+  use_reentrant: false
+gradient_accumulation_steps: 8
+micro_batch_size: 1
+num_epochs: 2
+optimizer: adamw_torch
+lr_scheduler: cosine
+learning_rate: 0.000012
+cosine_min_lr_ratio: 0.1
+weight_decay: 0.1
+max_grad_norm: 10
+train_on_inputs: false
+group_by_length: true
+bf16: true
+fp16: false
+tf32: false
+early_stopping_patience:
+resume_from_checkpoint:
+auto_resume_from_checkpoints: true
+local_rank:
+logging_steps: 1
+xformers_attention:
+flash_attention: true
+warmup_ratio: 0.05
+evals_per_epoch: 50
+eval_table_size:
+eval_max_new_tokens:
+saves_per_epoch: 40
+save_total_limit: 2
+debug: false
+# deepspeed: deepspeed_configs/zero2.json
+fsdp:
+fsdp_config:
+special_tokens:
+  pad_token: "<pad>"
+```
+</details><br>
+# Mistral-12b-Test-V0.0.3
+This model is a fine-tuned version of [Dans-DiscountModels/Mistral-Nemo-Base-2407-ChatML-Mod](https://huggingface.co/Dans-DiscountModels/Mistral-Nemo-Base-2407-ChatML-Mod) on the PocketDoc/Dans-MemoryCore-CoreCurriculum-Small, the AquaV/Energetic-Materials-Sharegpt, the AquaV/Chemical-Biological-Safety-Applications-Sharegpt, the AquaV/US-Army-Survival-Sharegpt, the AquaV/Resistance-Sharegpt, the AquaV/Interrogation-Sharegpt, the AquaV/Multi-Environment-Operations-Sharegpt, the PocketDoc/Dans-Mathmaxx, the PocketDoc/Dans-Mathmaxx-Numina-CoT, the PJMixers/Math-Multiturn-1K-ShareGPT, the PocketDoc/Dans-Benchmaxx, the PocketDoc/Dans-Benchmaxx-COT, the PocketDoc/Dans-Codemaxx-LeetCode, the PocketDoc/Dans-Codemaxx-CodeFeedback-Conversations, the PocketDoc/Dans-Codemaxx-CodeFeedback-SingleTurn, the PocketDoc/Dans-Codemaxx-Bigcode-SelfInstruct, the PocketDoc/Dans-Taskmaxx, the PocketDoc/Dans-Taskmaxx-DataPrepper, the PocketDoc/Dans-Taskmaxx-ConcurrentQA-Reworked, the PocketDoc/Dans-Taskmaxx-TableGPT, the PocketDoc/Dans-Taskmaxx-SciRIFF, the PocketDoc/Dans-Taskmaxx-Edit, the PocketDoc/Dans-Systemmaxx, the PocketDoc/Dans-Toolmaxx-Agent, the PocketDoc/Dans-Toolmaxx-ShellCommands, the PocketDoc/Dans-Toolmaxx-Functions-Toolbench, the PocketDoc/Dans-Toolmaxx-Functions-ToolACE, the PocketDoc/Dans-Toolmaxx-Functions-apigen, the PocketDoc/Dans-ASCIIMaxx-Wordart, the PocketDoc/Dans-Prosemaxx-Gutenberg, the PocketDoc/Dans-Prosemaxx-Cowriter-M, the PocketDoc/Dans-Prosemaxx-Adventure, the PocketDoc/Dans-Prosemaxx-Gryphe-GPT4o-WritingPrompts, the PocketDoc/Dans-Assistantmaxx-Sharegpt, the PocketDoc/Dans-Assistantmaxx-OpenAssistant2, the PocketDoc/Dans-Assistantmaxx-Opus-Merge, the PocketDoc/Dans-Assistantmaxx-sonnetorca-subset, the PocketDoc/Dans-Assistantmaxx-sonnetorca-subset-2, the PocketDoc/Dans-Assistantmaxx-NoRobots, the PocketDoc/Dans-Assistantmaxx-Synthia, the PocketDoc/Dans-Assistantmaxx-ASL, the PocketDoc/Dans-Assistantmaxx-PersonaLLM-Opus, the PocketDoc/Dans-Assistantmaxx-UnnaturalInstructions-GPT4, the PocketDoc/Dans-Assistantmaxx-LongAlign, the PocketDoc/Dans-Assistantmaxx-EvolKit, the PocketDoc/Dans-Assistantmaxx-Camel-GPT4, the PocketDoc/Dans-Assistantmaxx-Tulu3-IF, the PocketDoc/Dans-Logicmaxx-Skunkworks, the PocketDoc/Dans-Logicmaxx-SAT-AP, the PocketDoc/Dans-Logicmaxx-Magpie-Ultra, the PJMixers/grimulkan_theory-of-mind-ShareGPT, the PJMixers/grimulkan_physical-reasoning-ShareGPT, the PocketDoc/Dans-Personamaxx, the PocketDoc/Dans-Personamaxx-Rainy, the PocketDoc/Dans-Personamaxx-Aesir and the PocketDoc/Dans-Kinomaxx-VanillaBackrooms datasets.
+It achieves the following results on the evaluation set:
+- Loss: 0.9245
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1.2e-05
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 8
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 323
+- num_epochs: 2
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 1.0434        | 0.0201 | 65   | 1.0926          |
+| 0.921         | 0.0403 | 130  | 1.0358          |
+| 1.2079        | 0.0604 | 195  | 1.0140          |
+| 0.8875        | 0.0805 | 260  | 1.0010          |
+| 0.9807        | 0.1006 | 325  | 0.9937          |
+| 1.1095        | 0.1208 | 390  | 0.9873          |
+| 1.1175        | 0.1409 | 455  | 0.9797          |
+| 1.1872        | 0.1610 | 520  | 0.9761          |
+| 0.9521        | 0.1811 | 585  | 0.9717          |
+| 1.0389        | 0.2013 | 650  | 0.9677          |
+| 0.8448        | 0.2214 | 715  | 0.9668          |
+| 0.9762        | 0.2415 | 780  | 0.9623          |
+| 1.0434        | 0.2617 | 845  | 0.9618          |
+| 0.9349        | 0.2818 | 910  | 0.9583          |
+| 0.9665        | 0.3019 | 975  | 0.9563          |
+| 0.9301        | 0.3220 | 1040 | 0.9536          |
+| 0.9949        | 0.3422 | 1105 | 0.9518          |
+| 0.8425        | 0.3623 | 1170 | 0.9508          |
+| 0.7933        | 0.3824 | 1235 | 0.9497          |
+| 1.0998        | 0.4026 | 1300 | 0.9484          |
+| 0.9383        | 0.4227 | 1365 | 0.9462          |
+| 0.8035        | 0.4428 | 1430 | 0.9463          |
+| 1.1832        | 0.4629 | 1495 | 0.9451          |
+| 0.9757        | 0.4831 | 1560 | 0.9460          |
+| 0.9442        | 0.5032 | 1625 | 0.9426          |
+| 0.7945        | 0.5233 | 1690 | 0.9407          |
+| 0.7675        | 0.5434 | 1755 | 0.9401          |
+| 1.0714        | 0.5636 | 1820 | 0.9396          |
+| 1.0514        | 0.5837 | 1885 | 0.9391          |
+| 1.0412        | 0.6038 | 1950 | 0.9384          |
+| 0.9938        | 0.6240 | 2015 | 0.9365          |
+| 0.9127        | 0.6441 | 2080 | 0.9361          |
+| 1.0269        | 0.6642 | 2145 | 0.9346          |
+| 1.0585        | 0.6843 | 2210 | 0.9336          |
+| 0.9536        | 0.7045 | 2275 | 0.9339          |
+| 1.1411        | 0.7246 | 2340 | 0.9332          |
+| 0.8952        | 0.7447 | 2405 | 0.9322          |
+| 0.8552        | 0.7649 | 2470 | 0.9317          |
+| 0.9325        | 0.7850 | 2535 | 0.9321          |
+| 1.0898        | 0.8051 | 2600 | 0.9318          |
+| 1.0294        | 0.8252 | 2665 | 0.9312          |
+| 0.8656        | 0.8454 | 2730 | 0.9306          |
+| 1.0665        | 0.8655 | 2795 | 0.9298          |
+| 0.9063        | 0.8856 | 2860 | 0.9290          |
+| 0.9511        | 0.9057 | 2925 | 0.9282          |
+| 1.265         | 0.9259 | 2990 | 0.9280          |
+| 0.9484        | 0.9460 | 3055 | 0.9276          |
+| 0.6954        | 0.9661 | 3120 | 0.9274          |
+| 0.9956        | 0.9863 | 3185 | 0.9272          |
+| 1.1228        | 1.0064 | 3250 | 0.9274          |
+| 0.8879        | 1.0265 | 3315 | 0.9273          |
+| 0.8009        | 1.0466 | 3380 | 0.9275          |
+| 0.7103        | 1.0668 | 3445 | 0.9274          |
+| 0.722         | 1.0869 | 3510 | 0.9272          |
+| 0.8266        | 1.1070 | 3575 | 0.9270          |
+| 0.8938        | 1.1272 | 3640 | 0.9269          |
+| 0.9929        | 1.1473 | 3705 | 0.9268          |
+| 0.9501        | 1.1674 | 3770 | 0.9265          |
+| 0.7072        | 1.1875 | 3835 | 0.9266          |
+| 0.9863        | 1.2077 | 3900 | 0.9264          |
+| 0.9762        | 1.2278 | 3965 | 0.9264          |
+| 0.8581        | 1.2479 | 4030 | 0.9262          |
+| 0.6733        | 1.2680 | 4095 | 0.9260          |
+| 0.8357        | 1.2882 | 4160 | 0.9258          |
+| 0.939         | 1.3083 | 4225 | 0.9258          |
+| 0.7996        | 1.3284 | 4290 | 0.9259          |
+| 0.9214        | 1.3486 | 4355 | 0.9255          |
+| 0.825         | 1.3687 | 4420 | 0.9255          |
+| 1.0337        | 1.3888 | 4485 | 0.9254          |
+| 0.8741        | 1.4089 | 4550 | 0.9252          |
+| 0.8318        | 1.4291 | 4615 | 0.9252          |
+| 0.8853        | 1.4492 | 4680 | 0.9251          |
+| 0.7564        | 1.4693 | 4745 | 0.9250          |
+| 0.9914        | 1.4895 | 4810 | 0.9250          |
+| 0.9055        | 1.5096 | 4875 | 0.9249          |
+| 0.7521        | 1.5297 | 4940 | 0.9249          |
+| 0.8773        | 1.5498 | 5005 | 0.9248          |
+| 0.6887        | 1.5700 | 5070 | 0.9248          |
+| 0.8286        | 1.5901 | 5135 | 0.9248          |
+| 0.8133        | 1.6102 | 5200 | 0.9247          |
+| 0.8619        | 1.6303 | 5265 | 0.9248          |
+| 0.829         | 1.6505 | 5330 | 0.9248          |
+| 0.8122        | 1.6706 | 5395 | 0.9247          |
+| 0.9736        | 1.6907 | 5460 | 0.9247          |
+| 0.9063        | 1.7109 | 5525 | 0.9247          |
+| 0.8728        | 1.7310 | 5590 | 0.9246          |
+| 0.9878        | 1.7511 | 5655 | 0.9246          |
+| 0.7732        | 1.7712 | 5720 | 0.9246          |
+| 0.7927        | 1.7914 | 5785 | 0.9246          |
+| 0.93          | 1.8115 | 5850 | 0.9247          |
+| 0.7857        | 1.8316 | 5915 | 0.9246          |
+| 0.9063        | 1.8518 | 5980 | 0.9246          |
+| 0.731         | 1.8719 | 6045 | 0.9246          |
+| 1.0279        | 1.8920 | 6110 | 0.9246          |
+| 0.8261        | 1.9121 | 6175 | 0.9245          |
+| 0.8415        | 1.9323 | 6240 | 0.9246          |
+| 0.8725        | 1.9524 | 6305 | 0.9245          |
+| 0.9803        | 1.9725 | 6370 | 0.9245          |
+| 1.0718        | 1.9926 | 6435 | 0.9245          |
+### Framework versions
+- Transformers 4.46.3
+- Pytorch 2.5.1+cu124
+- Datasets 3.1.0
+- Tokenizers 0.20.3

pytorch_model-00001-of-00005.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0d068e8c379b218242401dbda4623feb88cfc3a9e5e9f5235bae8c9fbee2908
+size 4865537030

pytorch_model-00002-of-00005.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:705a299420a3a80e462050a5617e8e056c363204cad3e20138e5cab29e33c65d
+size 4907548904

pytorch_model-00003-of-00005.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:172e9d7e61606571b4e3a1e1d062183c2622b8f9c87606edb64a1b2708648630
+size 4907548968

pytorch_model-00004-of-00005.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48fe5298c33c19621ae8b80455a81ff895190a8ae212fe5a1e0bc1eed6d2aa53
+size 4907548968

pytorch_model-00005-of-00005.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7437507e44bf95a0d52006d5ebc5255dd62e6a7646938382100529d73c7f7d3c
+size 4907510770

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,370 @@

+{
+  "metadata": {
+    "total_size": 24495564800
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00005-of-00005.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00003-of-00005.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.32.input_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.32.mlp.down_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.32.mlp.gate_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.32.mlp.up_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.32.post_attention_layernorm.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.32.self_attn.k_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.32.self_attn.o_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.32.self_attn.q_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.32.self_attn.v_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.33.input_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.33.mlp.down_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.33.mlp.gate_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.33.mlp.up_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.33.post_attention_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.33.self_attn.k_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.33.self_attn.o_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.33.self_attn.q_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.33.self_attn.v_proj.weight": "pytorch_model-00004-of-00005.bin",
+    "model.layers.34.input_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.34.mlp.down_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.34.mlp.gate_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.34.mlp.up_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.34.post_attention_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.34.self_attn.k_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.34.self_attn.o_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.34.self_attn.q_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.34.self_attn.v_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.35.input_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.35.mlp.down_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.35.mlp.gate_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.35.mlp.up_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.35.post_attention_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.35.self_attn.k_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.35.self_attn.o_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.35.self_attn.q_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.35.self_attn.v_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.36.input_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.36.mlp.down_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.36.mlp.gate_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.36.mlp.up_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.36.post_attention_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.36.self_attn.k_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.36.self_attn.o_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.36.self_attn.q_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.36.self_attn.v_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.37.input_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.37.mlp.down_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.37.mlp.gate_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.37.mlp.up_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.37.post_attention_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.37.self_attn.k_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.37.self_attn.o_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.37.self_attn.q_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.37.self_attn.v_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.38.input_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.38.mlp.down_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.38.mlp.gate_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.38.mlp.up_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.38.post_attention_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.38.self_attn.k_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.38.self_attn.o_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.38.self_attn.q_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.38.self_attn.v_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.39.input_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.39.mlp.down_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.39.mlp.gate_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.39.mlp.up_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.39.post_attention_layernorm.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.39.self_attn.k_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.39.self_attn.o_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.39.self_attn.q_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.39.self_attn.v_proj.weight": "pytorch_model-00005-of-00005.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00005.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00002-of-00005.bin",
+    "model.norm.weight": "pytorch_model-00005-of-00005.bin"
+  }
+}