update 0423

Browse files

Files changed (15) hide show

added_tokens.json +1 -0
config.json +2 -2
generation_config.json +0 -5
model-00001-of-00002.safetensors +0 -3
model-00002-of-00002.safetensors +0 -3
model.safetensors +2 -2
model.safetensors.index.json +0 -348
optimizer.pt +0 -3
rng_state.pth +0 -3
scheduler.pt +0 -3
special_tokens_map.json +7 -1
tokenizer.json +9 -0
tokenizer_config.json +10 -1
trainer_state.json +0 -0
training_args.bin +0 -3

added_tokens.json CHANGED Viewed

@@ -436,6 +436,7 @@
   "99年": 71427,
   "9年": 71050,
   "9月": 71196,
   "<|im_end|>": 70976,
   "<|im_start|>": 70975,
   "CAUDIO_TAG_0": 70775,

   "99年": 71427,
   "9年": 71050,
   "9月": 71196,
+  "<pad>": 80980,
   "<|im_end|>": 70976,
   "<|im_start|>": 70975,
   "CAUDIO_TAG_0": 70775,

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "voidful/phi-1_5_base",
   "architectures": [
     "PhiForCausalLM"
   ],
@@ -33,5 +33,5 @@
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.3",
   "use_cache": true,
-  "vocab_size": 80980
 }

 {
+  "_name_or_path": "logs/ctaide/phi-1.5-extended-32k/checkpoints/hf/epoch=0-step=19668",
   "architectures": [
     "PhiForCausalLM"
   ],
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.3",
   "use_cache": true,
+  "vocab_size": 81024
 }

generation_config.json CHANGED Viewed

@@ -1,9 +1,4 @@
 {
   "_from_model_config": true,
-  "eos_token_id": [
-    70976,
-    50256,
-    70977
-  ],
   "transformers_version": "4.39.3"
 }

 {
   "_from_model_config": true,
   "transformers_version": "4.39.3"
 }

model-00001-of-00002.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:5c643397a1fffd256f28678860c5658452141b39b6b2558c486d49be1132fc84
-size 4984916152

model-00002-of-00002.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:dff6572c722e6b21ba240230fc49f692453ecd8d4319d4cf36f895d50783cea4
-size 688204064

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7d2244ddd5aa279f73a6ad82ae37bc7a6bf22bba887835edf66681ff9838636
-size 3080596424

 version https://git-lfs.github.com/spec/v1
+oid sha256:0eaeb1b17075de468790b53fefc19f21e0db7b6bbc8789e72184d61017cf1c0e
+size 3080956960

model.safetensors.index.json DELETED Viewed

@@ -1,348 +0,0 @@
-{
-  "metadata": {
-    "total_size": 5673082880
-  },
-  "weight_map": {
-    "lm_head.bias": "model-00002-of-00002.safetensors",
-    "lm_head.weight": "model-00002-of-00002.safetensors",
-    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
-    "model.final_layernorm.bias": "model-00002-of-00002.safetensors",
-    "model.final_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.0.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.input_layernorm.bias": "model-00002-of-00002.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.mlp.fc2.bias": "model-00002-of-00002.safetensors",
-    "model.layers.22.mlp.fc2.weight": "model-00002-of-00002.safetensors",
-    "model.layers.22.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.input_layernorm.bias": "model-00002-of-00002.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.mlp.fc1.bias": "model-00002-of-00002.safetensors",
-    "model.layers.23.mlp.fc1.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.mlp.fc2.bias": "model-00002-of-00002.safetensors",
-    "model.layers.23.mlp.fc2.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.dense.bias": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.dense.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors"
-  }
-}

optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:11fd9afbff20dd67ac90614140cf0b2effeb1e423992640bee161835c92a75f4
-size 6941946

rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4ab4d6ec20bec3a16655d77b94ac385b652b4da0e30f6d3e44e127f1fc637909
-size 14244

scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:039fd0bbeb7958658a63bff37f302d7272f58d0930171b578163e620632ea095
-size 1064

special_tokens_map.json CHANGED Viewed

@@ -13,7 +13,13 @@
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": "<|endoftext|>",
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,

     "rstrip": false,
     "single_word": false
   },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,

tokenizer.json CHANGED Viewed

@@ -276518,6 +276518,15 @@
       "rstrip": false,
       "normalized": true,
       "special": false
     }
   ],
   "normalizer": null,

       "rstrip": false,
       "normalized": true,
       "special": false
+    },
+    {
+      "id": 80980,
+      "content": "<pad>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
     }
   ],
   "normalizer": null,

tokenizer_config.json CHANGED Viewed

@@ -245792,13 +245792,22 @@
       "rstrip": false,
       "single_word": false,
       "special": false
     }
   },
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 2048,
-  "pad_token": "<|endoftext|>",
   "tokenizer_class": "CodeGenTokenizer",
   "unk_token": "<|endoftext|>"
 }

       "rstrip": false,
       "single_word": false,
       "special": false
+    },
+    "80980": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
   "bos_token": "<|endoftext|>",
+  "chat_template": "{% for message in messages %}\n    {% if message['role'] == 'assistant' %}\n        {% if messages|length > 1 %}\n            {{- '<|im_start|>assistant\\n' -}}\n        {% endif %}\n        {{- message['content'] + '<|im_end|>\\n' -}}\n    {% else %}\n        {{- '<|im_start|>' + message['role'] + '\\n' + message['content'] + '<|im_end|>\\n' -}}\n    {% endif %}\n{% endfor %}\n{% if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' -}}\n{% endif %}\n",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 2048,
+  "pad_token": "<pad>",
   "tokenizer_class": "CodeGenTokenizer",
   "unk_token": "<|endoftext|>"
 }

trainer_state.json DELETED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9a2d042032cb263d8f9cf730c340737ea1f4023b58c311d50f4c6d86198289b1
-size 4920