Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

added_tokens.json +40 -0
config.json +34 -0
generation_config.json +4 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +348 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer_config.json +324 -0
trainer_state.json +2821 -0
training_args.bin +3 -0
vocab.json +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "\t\t": 50294,
+  "\t\t\t": 50293,
+  "\t\t\t\t": 50292,
+  "\t\t\t\t\t": 50291,
+  "\t\t\t\t\t\t": 50290,
+  "\t\t\t\t\t\t\t": 50289,
+  "\t\t\t\t\t\t\t\t": 50288,
+  "\t\t\t\t\t\t\t\t\t": 50287,
+  "  ": 50286,
+  "   ": 50285,
+  "    ": 50284,
+  "     ": 50283,
+  "      ": 50282,
+  "       ": 50281,
+  "        ": 50280,
+  "         ": 50279,
+  "          ": 50278,
+  "           ": 50277,
+  "            ": 50276,
+  "             ": 50275,
+  "              ": 50274,
+  "               ": 50273,
+  "                ": 50272,
+  "                 ": 50271,
+  "                  ": 50270,
+  "                   ": 50269,
+  "                    ": 50268,
+  "                     ": 50267,
+  "                      ": 50266,
+  "                       ": 50265,
+  "                        ": 50264,
+  "                         ": 50263,
+  "                          ": 50262,
+  "                           ": 50261,
+  "                            ": 50260,
+  "                             ": 50259,
+  "                              ": 50258,
+  "                               ": 50257
+}

config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "microsoft/phi-1_5",
+  "architectures": [
+    "PhiForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "microsoft/phi-1_5--configuration_phi.PhiConfig",
+    "AutoModelForCausalLM": "microsoft/phi-1_5--modeling_phi.PhiForCausalLM"
+  },
+  "bos_token_id": null,
+  "embd_pdrop": 0.0,
+  "eos_token_id": null,
+  "hidden_act": "gelu_new",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "phi",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 32,
+  "partial_rotary_factor": 0.5,
+  "qk_layernorm": false,
+  "resid_pdrop": 0.0,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0.dev0",
+  "use_cache": true,
+  "vocab_size": 51200
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.40.0.dev0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c643397a1fffd256f28678860c5658452141b39b6b2558c486d49be1132fc84
+size 4984916152

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dff6572c722e6b21ba240230fc49f692453ecd8d4319d4cf36f895d50783cea4
+size 688204064

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,348 @@

+{
+  "metadata": {
+    "total_size": 5673082880
+  },
+  "weight_map": {
+    "lm_head.bias": "model-00002-of-00002.safetensors",
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.final_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.final_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.0.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.dense.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.dense.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors"
+  }
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4ca90f3f877b5498eecfa0ce9da5dea4c9f0e414f2d9b532c103d3462123e8f
+size 6583930

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9196a1e708bf24d6abba41cce3f8558820acc3e50f9394c5955e29eb41ffea3d
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a45c96fd3949f68c33124ac2bd0d0b4975eb375c304d25e9fb175936010afb1f
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,324 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50257": {
+      "content": "                               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "                         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50277": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50278": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50279": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50280": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50281": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50282": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50283": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50284": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50285": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50286": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50287": {
+      "content": "\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50288": {
+      "content": "\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50289": {
+      "content": "\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50290": {
+      "content": "\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50291": {
+      "content": "\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50292": {
+      "content": "\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50293": {
+      "content": "\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50294": {
+      "content": "\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 2048,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "CodeGenTokenizer",
+  "unk_token": "<|endoftext|>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2821 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.7681277767781762,
+  "eval_steps": 500,
+  "global_step": 40000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "grad_norm": 1.627527117729187,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 1.6515,
+      "step": 100
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 3.3607966899871826,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 1.5943,
+      "step": 200
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 2.29317569732666,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 1.5328,
+      "step": 300
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 2.983344793319702,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 1.442,
+      "step": 400
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 1.250658392906189,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 1.4485,
+      "step": 500
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 2.972992181777954,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 1.4266,
+      "step": 600
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 1.000815987586975,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 1.4383,
+      "step": 700
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 2.1002461910247803,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 1.3659,
+      "step": 800
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 3.4979097843170166,
+      "learning_rate": 1.8000000000000001e-06,
+      "loss": 1.3398,
+      "step": 900
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 1.488598108291626,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 1.3205,
+      "step": 1000
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 2.3284659385681152,
+      "learning_rate": 2.2e-06,
+      "loss": 1.3387,
+      "step": 1100
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.0155582427978516,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 1.3109,
+      "step": 1200
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.5492284297943115,
+      "learning_rate": 2.6e-06,
+      "loss": 1.3412,
+      "step": 1300
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 2.186521053314209,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 1.2986,
+      "step": 1400
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 2.881683826446533,
+      "learning_rate": 3e-06,
+      "loss": 1.2885,
+      "step": 1500
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.8918137550354004,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 1.2758,
+      "step": 1600
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.7110064029693604,
+      "learning_rate": 3.4000000000000005e-06,
+      "loss": 1.25,
+      "step": 1700
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.2428609132766724,
+      "learning_rate": 3.6000000000000003e-06,
+      "loss": 1.2522,
+      "step": 1800
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 1.486438274383545,
+      "learning_rate": 3.8000000000000005e-06,
+      "loss": 1.2921,
+      "step": 1900
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 1.3330516815185547,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 1.2726,
+      "step": 2000
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.2707250118255615,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 1.2611,
+      "step": 2100
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.2464886903762817,
+      "learning_rate": 4.4e-06,
+      "loss": 1.1845,
+      "step": 2200
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 2.0787854194641113,
+      "learning_rate": 4.600000000000001e-06,
+      "loss": 1.232,
+      "step": 2300
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.1252142190933228,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 1.2238,
+      "step": 2400
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 2.1759724617004395,
+      "learning_rate": 5e-06,
+      "loss": 1.2241,
+      "step": 2500
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.2348289489746094,
+      "learning_rate": 5.2e-06,
+      "loss": 1.2061,
+      "step": 2600
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.6029518842697144,
+      "learning_rate": 5.400000000000001e-06,
+      "loss": 1.231,
+      "step": 2700
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.6929903030395508,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 1.2483,
+      "step": 2800
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.3111672401428223,
+      "learning_rate": 5.8e-06,
+      "loss": 1.1867,
+      "step": 2900
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.8920849561691284,
+      "learning_rate": 6e-06,
+      "loss": 1.2196,
+      "step": 3000
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.2619389295578003,
+      "learning_rate": 6.200000000000001e-06,
+      "loss": 1.1967,
+      "step": 3100
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.2584483623504639,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 1.2241,
+      "step": 3200
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 2.4540085792541504,
+      "learning_rate": 6.600000000000001e-06,
+      "loss": 1.2085,
+      "step": 3300
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.9549946784973145,
+      "learning_rate": 6.800000000000001e-06,
+      "loss": 1.2147,
+      "step": 3400
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.6350594758987427,
+      "learning_rate": 7e-06,
+      "loss": 1.1885,
+      "step": 3500
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.2129911184310913,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 1.1798,
+      "step": 3600
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 1.8281323909759521,
+      "learning_rate": 7.4e-06,
+      "loss": 1.2138,
+      "step": 3700
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 1.2283638715744019,
+      "learning_rate": 7.600000000000001e-06,
+      "loss": 1.1912,
+      "step": 3800
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 1.0899721384048462,
+      "learning_rate": 7.800000000000002e-06,
+      "loss": 1.1669,
+      "step": 3900
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 2.278108835220337,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 1.1874,
+      "step": 4000
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.3872917890548706,
+      "learning_rate": 8.2e-06,
+      "loss": 1.137,
+      "step": 4100
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 1.3998219966888428,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 1.195,
+      "step": 4200
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.7483501434326172,
+      "learning_rate": 8.6e-06,
+      "loss": 1.1831,
+      "step": 4300
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.5719019174575806,
+      "learning_rate": 8.8e-06,
+      "loss": 1.1504,
+      "step": 4400
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 2.4657835960388184,
+      "learning_rate": 9e-06,
+      "loss": 1.1649,
+      "step": 4500
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.1862558126449585,
+      "learning_rate": 9.200000000000002e-06,
+      "loss": 1.171,
+      "step": 4600
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 1.7354410886764526,
+      "learning_rate": 9.4e-06,
+      "loss": 1.1662,
+      "step": 4700
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 1.0458894968032837,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 1.1723,
+      "step": 4800
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 1.53070068359375,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 1.142,
+      "step": 4900
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 1.8468633890151978,
+      "learning_rate": 1e-05,
+      "loss": 1.1439,
+      "step": 5000
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 3.052553415298462,
+      "learning_rate": 9.998862920520419e-06,
+      "loss": 1.1258,
+      "step": 5100
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.6377853155136108,
+      "learning_rate": 9.997725841040839e-06,
+      "loss": 1.158,
+      "step": 5200
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 1.6240949630737305,
+      "learning_rate": 9.996588761561257e-06,
+      "loss": 1.1527,
+      "step": 5300
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 1.140751838684082,
+      "learning_rate": 9.995451682081675e-06,
+      "loss": 1.1249,
+      "step": 5400
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.3971983194351196,
+      "learning_rate": 9.994314602602093e-06,
+      "loss": 1.1209,
+      "step": 5500
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.5263160467147827,
+      "learning_rate": 9.993177523122513e-06,
+      "loss": 1.143,
+      "step": 5600
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.9025936126708984,
+      "learning_rate": 9.992040443642932e-06,
+      "loss": 1.1446,
+      "step": 5700
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.5196770429611206,
+      "learning_rate": 9.99090336416335e-06,
+      "loss": 1.128,
+      "step": 5800
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.6052297353744507,
+      "learning_rate": 9.989766284683768e-06,
+      "loss": 1.1516,
+      "step": 5900
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.380449891090393,
+      "learning_rate": 9.988629205204186e-06,
+      "loss": 1.145,
+      "step": 6000
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 2.3284366130828857,
+      "learning_rate": 9.987492125724604e-06,
+      "loss": 1.1037,
+      "step": 6100
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.3824948072433472,
+      "learning_rate": 9.986355046245022e-06,
+      "loss": 1.1199,
+      "step": 6200
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.4291472434997559,
+      "learning_rate": 9.98521796676544e-06,
+      "loss": 1.1105,
+      "step": 6300
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.066612720489502,
+      "learning_rate": 9.98408088728586e-06,
+      "loss": 1.1156,
+      "step": 6400
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.5840893983840942,
+      "learning_rate": 9.982943807806279e-06,
+      "loss": 1.1309,
+      "step": 6500
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.7354705333709717,
+      "learning_rate": 9.981806728326697e-06,
+      "loss": 1.1295,
+      "step": 6600
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.6103971004486084,
+      "learning_rate": 9.980669648847115e-06,
+      "loss": 1.0882,
+      "step": 6700
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 1.776055097579956,
+      "learning_rate": 9.979532569367535e-06,
+      "loss": 1.1341,
+      "step": 6800
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.616837501525879,
+      "learning_rate": 9.978395489887953e-06,
+      "loss": 1.1135,
+      "step": 6900
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.9637792110443115,
+      "learning_rate": 9.977258410408371e-06,
+      "loss": 1.1072,
+      "step": 7000
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.27550208568573,
+      "learning_rate": 9.97612133092879e-06,
+      "loss": 1.106,
+      "step": 7100
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.0396106243133545,
+      "learning_rate": 9.97498425144921e-06,
+      "loss": 1.1229,
+      "step": 7200
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.9161854982376099,
+      "learning_rate": 9.973847171969628e-06,
+      "loss": 1.1276,
+      "step": 7300
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 1.9152147769927979,
+      "learning_rate": 9.972710092490046e-06,
+      "loss": 1.0951,
+      "step": 7400
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.0047073364257812,
+      "learning_rate": 9.971573013010464e-06,
+      "loss": 1.1064,
+      "step": 7500
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 1.2931337356567383,
+      "learning_rate": 9.970435933530884e-06,
+      "loss": 1.0791,
+      "step": 7600
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 1.5274972915649414,
+      "learning_rate": 9.969298854051302e-06,
+      "loss": 1.0997,
+      "step": 7700
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 0.8224054574966431,
+      "learning_rate": 9.96816177457172e-06,
+      "loss": 1.1097,
+      "step": 7800
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 2.06256365776062,
+      "learning_rate": 9.967024695092138e-06,
+      "loss": 1.097,
+      "step": 7900
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.4321802854537964,
+      "learning_rate": 9.965887615612557e-06,
+      "loss": 1.0709,
+      "step": 8000
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.9085447788238525,
+      "learning_rate": 9.964750536132975e-06,
+      "loss": 1.0864,
+      "step": 8100
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 0.9192917346954346,
+      "learning_rate": 9.963613456653393e-06,
+      "loss": 1.0833,
+      "step": 8200
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.2630648612976074,
+      "learning_rate": 9.962476377173811e-06,
+      "loss": 1.0876,
+      "step": 8300
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 1.2019109725952148,
+      "learning_rate": 9.961339297694231e-06,
+      "loss": 1.1205,
+      "step": 8400
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 1.5144940614700317,
+      "learning_rate": 9.96020221821465e-06,
+      "loss": 1.0736,
+      "step": 8500
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.3178256750106812,
+      "learning_rate": 9.959065138735068e-06,
+      "loss": 1.0578,
+      "step": 8600
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.9414783716201782,
+      "learning_rate": 9.957928059255486e-06,
+      "loss": 1.0648,
+      "step": 8700
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 1.009035587310791,
+      "learning_rate": 9.956790979775906e-06,
+      "loss": 1.1005,
+      "step": 8800
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 2.1268045902252197,
+      "learning_rate": 9.955653900296324e-06,
+      "loss": 1.0857,
+      "step": 8900
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.950700283050537,
+      "learning_rate": 9.954516820816742e-06,
+      "loss": 1.0715,
+      "step": 9000
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 1.882338047027588,
+      "learning_rate": 9.953379741337162e-06,
+      "loss": 1.0584,
+      "step": 9100
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 2.4511005878448486,
+      "learning_rate": 9.95224266185758e-06,
+      "loss": 1.1142,
+      "step": 9200
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.4707541465759277,
+      "learning_rate": 9.951105582377998e-06,
+      "loss": 1.0862,
+      "step": 9300
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.9369533061981201,
+      "learning_rate": 9.949968502898416e-06,
+      "loss": 1.0902,
+      "step": 9400
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.7777900695800781,
+      "learning_rate": 9.948831423418836e-06,
+      "loss": 1.0858,
+      "step": 9500
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.0641835927963257,
+      "learning_rate": 9.947694343939254e-06,
+      "loss": 1.0954,
+      "step": 9600
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 2.4711039066314697,
+      "learning_rate": 9.946557264459673e-06,
+      "loss": 1.052,
+      "step": 9700
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.4093924760818481,
+      "learning_rate": 9.945420184980091e-06,
+      "loss": 1.0951,
+      "step": 9800
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 1.1232469081878662,
+      "learning_rate": 9.944283105500509e-06,
+      "loss": 1.0856,
+      "step": 9900
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 1.0345300436019897,
+      "learning_rate": 9.943146026020927e-06,
+      "loss": 1.0577,
+      "step": 10000
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 1.1365901231765747,
+      "learning_rate": 9.942008946541345e-06,
+      "loss": 1.0579,
+      "step": 10100
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 0.9016490578651428,
+      "learning_rate": 9.940871867061764e-06,
+      "loss": 1.0661,
+      "step": 10200
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 1.1943278312683105,
+      "learning_rate": 9.939734787582184e-06,
+      "loss": 1.0778,
+      "step": 10300
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.2874445915222168,
+      "learning_rate": 9.938597708102602e-06,
+      "loss": 1.1045,
+      "step": 10400
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.7601507902145386,
+      "learning_rate": 9.93746062862302e-06,
+      "loss": 1.0521,
+      "step": 10500
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.2193288803100586,
+      "learning_rate": 9.936323549143438e-06,
+      "loss": 1.0855,
+      "step": 10600
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.0256872177124023,
+      "learning_rate": 9.935186469663858e-06,
+      "loss": 1.0768,
+      "step": 10700
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 1.682442307472229,
+      "learning_rate": 9.934049390184276e-06,
+      "loss": 1.0736,
+      "step": 10800
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 1.5826842784881592,
+      "learning_rate": 9.932912310704694e-06,
+      "loss": 1.0808,
+      "step": 10900
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.4181288480758667,
+      "learning_rate": 9.931775231225113e-06,
+      "loss": 1.0662,
+      "step": 11000
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 1.71955144405365,
+      "learning_rate": 9.930638151745532e-06,
+      "loss": 1.0682,
+      "step": 11100
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.7443710565567017,
+      "learning_rate": 9.92950107226595e-06,
+      "loss": 1.044,
+      "step": 11200
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.341009259223938,
+      "learning_rate": 9.928363992786369e-06,
+      "loss": 1.0687,
+      "step": 11300
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 2.1241507530212402,
+      "learning_rate": 9.927226913306787e-06,
+      "loss": 1.0528,
+      "step": 11400
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.1826814413070679,
+      "learning_rate": 9.926089833827207e-06,
+      "loss": 1.0714,
+      "step": 11500
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.4907405376434326,
+      "learning_rate": 9.924952754347625e-06,
+      "loss": 1.0646,
+      "step": 11600
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.9846525192260742,
+      "learning_rate": 9.923815674868043e-06,
+      "loss": 1.0336,
+      "step": 11700
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.6937077045440674,
+      "learning_rate": 9.922678595388461e-06,
+      "loss": 1.0621,
+      "step": 11800
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.8943909406661987,
+      "learning_rate": 9.92154151590888e-06,
+      "loss": 1.0664,
+      "step": 11900
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.0186892747879028,
+      "learning_rate": 9.920404436429298e-06,
+      "loss": 1.0676,
+      "step": 12000
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.0398705005645752,
+      "learning_rate": 9.919267356949716e-06,
+      "loss": 1.0734,
+      "step": 12100
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.8972682356834412,
+      "learning_rate": 9.918130277470134e-06,
+      "loss": 1.0375,
+      "step": 12200
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 1.8658572435379028,
+      "learning_rate": 9.916993197990554e-06,
+      "loss": 1.0504,
+      "step": 12300
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.9073976874351501,
+      "learning_rate": 9.915856118510972e-06,
+      "loss": 1.067,
+      "step": 12400
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.9834826588630676,
+      "learning_rate": 9.91471903903139e-06,
+      "loss": 1.0523,
+      "step": 12500
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1.1358979940414429,
+      "learning_rate": 9.913581959551809e-06,
+      "loss": 1.0493,
+      "step": 12600
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.9334028959274292,
+      "learning_rate": 9.912444880072229e-06,
+      "loss": 1.0238,
+      "step": 12700
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 1.7353044748306274,
+      "learning_rate": 9.911307800592647e-06,
+      "loss": 1.0596,
+      "step": 12800
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 0.8831369280815125,
+      "learning_rate": 9.910170721113065e-06,
+      "loss": 1.0315,
+      "step": 12900
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.3458607196807861,
+      "learning_rate": 9.909033641633485e-06,
+      "loss": 1.0433,
+      "step": 13000
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 1.3131276369094849,
+      "learning_rate": 9.907896562153903e-06,
+      "loss": 1.0351,
+      "step": 13100
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 1.3655180931091309,
+      "learning_rate": 9.906759482674321e-06,
+      "loss": 1.0285,
+      "step": 13200
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.9609765410423279,
+      "learning_rate": 9.90562240319474e-06,
+      "loss": 1.0576,
+      "step": 13300
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.7138615846633911,
+      "learning_rate": 9.904485323715158e-06,
+      "loss": 1.0398,
+      "step": 13400
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.7960714101791382,
+      "learning_rate": 9.903348244235577e-06,
+      "loss": 1.0295,
+      "step": 13500
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.0612984895706177,
+      "learning_rate": 9.902211164755996e-06,
+      "loss": 1.0227,
+      "step": 13600
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.1201436519622803,
+      "learning_rate": 9.901074085276414e-06,
+      "loss": 1.0059,
+      "step": 13700
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.7197813987731934,
+      "learning_rate": 9.899937005796832e-06,
+      "loss": 1.0301,
+      "step": 13800
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.7565794587135315,
+      "learning_rate": 9.89879992631725e-06,
+      "loss": 1.0067,
+      "step": 13900
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 1.3532627820968628,
+      "learning_rate": 9.897662846837668e-06,
+      "loss": 1.0246,
+      "step": 14000
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 2.138787031173706,
+      "learning_rate": 9.896525767358087e-06,
+      "loss": 1.0198,
+      "step": 14100
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 1.3896641731262207,
+      "learning_rate": 9.895388687878506e-06,
+      "loss": 1.0398,
+      "step": 14200
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 1.6460121870040894,
+      "learning_rate": 9.894251608398925e-06,
+      "loss": 1.0256,
+      "step": 14300
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.1678521633148193,
+      "learning_rate": 9.893114528919343e-06,
+      "loss": 1.0554,
+      "step": 14400
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.9618099331855774,
+      "learning_rate": 9.891977449439761e-06,
+      "loss": 0.9914,
+      "step": 14500
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 1.1903871297836304,
+      "learning_rate": 9.890840369960181e-06,
+      "loss": 0.9472,
+      "step": 14600
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 1.767334222793579,
+      "learning_rate": 9.889703290480599e-06,
+      "loss": 0.9224,
+      "step": 14700
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 1.2896144390106201,
+      "learning_rate": 9.888566211001017e-06,
+      "loss": 0.9282,
+      "step": 14800
+    },
+    {
+      "epoch": 1.03,
+      "grad_norm": 1.1667003631591797,
+      "learning_rate": 9.887429131521435e-06,
+      "loss": 0.937,
+      "step": 14900
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 2.0861318111419678,
+      "learning_rate": 9.886292052041855e-06,
+      "loss": 0.9305,
+      "step": 15000
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 1.5151538848876953,
+      "learning_rate": 9.885154972562274e-06,
+      "loss": 0.9057,
+      "step": 15100
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 1.0254782438278198,
+      "learning_rate": 9.884017893082692e-06,
+      "loss": 0.9261,
+      "step": 15200
+    },
+    {
+      "epoch": 1.06,
+      "grad_norm": 1.060323715209961,
+      "learning_rate": 9.88288081360311e-06,
+      "loss": 0.9385,
+      "step": 15300
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 2.0122482776641846,
+      "learning_rate": 9.881743734123528e-06,
+      "loss": 0.9131,
+      "step": 15400
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 0.8877888917922974,
+      "learning_rate": 9.880606654643948e-06,
+      "loss": 0.9137,
+      "step": 15500
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 1.576613187789917,
+      "learning_rate": 9.879469575164366e-06,
+      "loss": 0.9269,
+      "step": 15600
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 1.2704845666885376,
+      "learning_rate": 9.878332495684784e-06,
+      "loss": 0.9551,
+      "step": 15700
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 1.7557117938995361,
+      "learning_rate": 9.877195416205203e-06,
+      "loss": 0.9283,
+      "step": 15800
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 1.1681592464447021,
+      "learning_rate": 9.87605833672562e-06,
+      "loss": 0.9225,
+      "step": 15900
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 1.4231480360031128,
+      "learning_rate": 9.874921257246039e-06,
+      "loss": 0.9428,
+      "step": 16000
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 1.051456332206726,
+      "learning_rate": 9.873784177766457e-06,
+      "loss": 0.9181,
+      "step": 16100
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 0.7242355942726135,
+      "learning_rate": 9.872647098286877e-06,
+      "loss": 0.9314,
+      "step": 16200
+    },
+    {
+      "epoch": 1.13,
+      "grad_norm": 0.947436511516571,
+      "learning_rate": 9.871510018807295e-06,
+      "loss": 0.9006,
+      "step": 16300
+    },
+    {
+      "epoch": 1.13,
+      "grad_norm": 1.7714190483093262,
+      "learning_rate": 9.870372939327713e-06,
+      "loss": 0.9091,
+      "step": 16400
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 1.1276748180389404,
+      "learning_rate": 9.869235859848132e-06,
+      "loss": 0.9062,
+      "step": 16500
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 0.9799456000328064,
+      "learning_rate": 9.868098780368551e-06,
+      "loss": 0.9307,
+      "step": 16600
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 1.2444039583206177,
+      "learning_rate": 9.86696170088897e-06,
+      "loss": 0.9035,
+      "step": 16700
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 1.5004302263259888,
+      "learning_rate": 9.865824621409388e-06,
+      "loss": 0.9264,
+      "step": 16800
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 0.9542568922042847,
+      "learning_rate": 9.864687541929808e-06,
+      "loss": 0.9377,
+      "step": 16900
+    },
+    {
+      "epoch": 1.18,
+      "grad_norm": 1.1164984703063965,
+      "learning_rate": 9.863550462450226e-06,
+      "loss": 0.9018,
+      "step": 17000
+    },
+    {
+      "epoch": 1.18,
+      "grad_norm": 1.2734311819076538,
+      "learning_rate": 9.862413382970644e-06,
+      "loss": 0.9087,
+      "step": 17100
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 0.9980836510658264,
+      "learning_rate": 9.861276303491062e-06,
+      "loss": 0.9053,
+      "step": 17200
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 1.1885040998458862,
+      "learning_rate": 9.86013922401148e-06,
+      "loss": 0.9205,
+      "step": 17300
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 2.014282464981079,
+      "learning_rate": 9.859002144531899e-06,
+      "loss": 0.8998,
+      "step": 17400
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 1.1313024759292603,
+      "learning_rate": 9.857865065052319e-06,
+      "loss": 0.9457,
+      "step": 17500
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 1.415302038192749,
+      "learning_rate": 9.856727985572737e-06,
+      "loss": 0.8939,
+      "step": 17600
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 1.4687055349349976,
+      "learning_rate": 9.855590906093155e-06,
+      "loss": 0.89,
+      "step": 17700
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 1.1880871057510376,
+      "learning_rate": 9.854453826613573e-06,
+      "loss": 0.9006,
+      "step": 17800
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 1.7778316736221313,
+      "learning_rate": 9.853316747133991e-06,
+      "loss": 0.8958,
+      "step": 17900
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.280698299407959,
+      "learning_rate": 9.85217966765441e-06,
+      "loss": 0.9095,
+      "step": 18000
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.3831247091293335,
+      "learning_rate": 9.85104258817483e-06,
+      "loss": 0.8949,
+      "step": 18100
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 1.5787330865859985,
+      "learning_rate": 9.849905508695248e-06,
+      "loss": 0.9068,
+      "step": 18200
+    },
+    {
+      "epoch": 1.27,
+      "grad_norm": 1.9541946649551392,
+      "learning_rate": 9.848768429215666e-06,
+      "loss": 0.9017,
+      "step": 18300
+    },
+    {
+      "epoch": 1.27,
+      "grad_norm": 1.1015405654907227,
+      "learning_rate": 9.847631349736084e-06,
+      "loss": 0.9105,
+      "step": 18400
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 1.1862188577651978,
+      "learning_rate": 9.846494270256504e-06,
+      "loss": 0.9022,
+      "step": 18500
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 1.726610541343689,
+      "learning_rate": 9.845357190776922e-06,
+      "loss": 0.8913,
+      "step": 18600
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 2.2111854553222656,
+      "learning_rate": 9.84422011129734e-06,
+      "loss": 0.9308,
+      "step": 18700
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 1.4199172258377075,
+      "learning_rate": 9.843083031817758e-06,
+      "loss": 0.9016,
+      "step": 18800
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 1.193987250328064,
+      "learning_rate": 9.841945952338178e-06,
+      "loss": 0.9231,
+      "step": 18900
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 1.3451498746871948,
+      "learning_rate": 9.840808872858597e-06,
+      "loss": 0.9353,
+      "step": 19000
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 2.0807037353515625,
+      "learning_rate": 9.839671793379015e-06,
+      "loss": 0.89,
+      "step": 19100
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 0.9238150119781494,
+      "learning_rate": 9.838534713899433e-06,
+      "loss": 0.899,
+      "step": 19200
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 1.6666918992996216,
+      "learning_rate": 9.837397634419851e-06,
+      "loss": 0.895,
+      "step": 19300
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 1.6730952262878418,
+      "learning_rate": 9.83626055494027e-06,
+      "loss": 0.9387,
+      "step": 19400
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 1.3776484727859497,
+      "learning_rate": 9.835123475460689e-06,
+      "loss": 0.8894,
+      "step": 19500
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 1.1120022535324097,
+      "learning_rate": 9.833986395981107e-06,
+      "loss": 0.9263,
+      "step": 19600
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 1.3148831129074097,
+      "learning_rate": 9.832849316501526e-06,
+      "loss": 0.9168,
+      "step": 19700
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 0.9045352935791016,
+      "learning_rate": 9.831712237021944e-06,
+      "loss": 0.925,
+      "step": 19800
+    },
+    {
+      "epoch": 1.38,
+      "grad_norm": 1.147387981414795,
+      "learning_rate": 9.830575157542362e-06,
+      "loss": 0.9148,
+      "step": 19900
+    },
+    {
+      "epoch": 1.38,
+      "grad_norm": 0.984752893447876,
+      "learning_rate": 9.82943807806278e-06,
+      "loss": 0.9066,
+      "step": 20000
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 1.0837643146514893,
+      "learning_rate": 9.8283009985832e-06,
+      "loss": 0.9082,
+      "step": 20100
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 1.017741322517395,
+      "learning_rate": 9.827163919103618e-06,
+      "loss": 0.9204,
+      "step": 20200
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 1.281540036201477,
+      "learning_rate": 9.826026839624036e-06,
+      "loss": 0.8799,
+      "step": 20300
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 2.103954792022705,
+      "learning_rate": 9.824889760144455e-06,
+      "loss": 0.9065,
+      "step": 20400
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 1.3087769746780396,
+      "learning_rate": 9.823752680664874e-06,
+      "loss": 0.8975,
+      "step": 20500
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 3.2738139629364014,
+      "learning_rate": 9.822615601185293e-06,
+      "loss": 0.9209,
+      "step": 20600
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 1.9032375812530518,
+      "learning_rate": 9.82147852170571e-06,
+      "loss": 0.9078,
+      "step": 20700
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 0.9968279004096985,
+      "learning_rate": 9.82034144222613e-06,
+      "loss": 0.9237,
+      "step": 20800
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 1.273147702217102,
+      "learning_rate": 9.819204362746549e-06,
+      "loss": 0.9031,
+      "step": 20900
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 1.0796046257019043,
+      "learning_rate": 9.818067283266967e-06,
+      "loss": 0.8912,
+      "step": 21000
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 1.3366023302078247,
+      "learning_rate": 9.816930203787385e-06,
+      "loss": 0.9101,
+      "step": 21100
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 1.4351803064346313,
+      "learning_rate": 9.815793124307803e-06,
+      "loss": 0.8803,
+      "step": 21200
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 0.9139238595962524,
+      "learning_rate": 9.814656044828222e-06,
+      "loss": 0.913,
+      "step": 21300
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 1.4106611013412476,
+      "learning_rate": 9.81351896534864e-06,
+      "loss": 0.9046,
+      "step": 21400
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 1.4196314811706543,
+      "learning_rate": 9.81238188586906e-06,
+      "loss": 0.9064,
+      "step": 21500
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 2.133652687072754,
+      "learning_rate": 9.811244806389478e-06,
+      "loss": 0.9176,
+      "step": 21600
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 1.1416988372802734,
+      "learning_rate": 9.810107726909896e-06,
+      "loss": 0.8887,
+      "step": 21700
+    },
+    {
+      "epoch": 1.51,
+      "grad_norm": 1.0987539291381836,
+      "learning_rate": 9.808970647430314e-06,
+      "loss": 0.8923,
+      "step": 21800
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 1.660126805305481,
+      "learning_rate": 9.807833567950732e-06,
+      "loss": 0.8997,
+      "step": 21900
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 1.923581838607788,
+      "learning_rate": 9.806696488471152e-06,
+      "loss": 0.9102,
+      "step": 22000
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 2.376243829727173,
+      "learning_rate": 9.80555940899157e-06,
+      "loss": 0.9137,
+      "step": 22100
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 1.3887842893600464,
+      "learning_rate": 9.804422329511989e-06,
+      "loss": 0.9365,
+      "step": 22200
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 1.7829182147979736,
+      "learning_rate": 9.803285250032407e-06,
+      "loss": 0.8967,
+      "step": 22300
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 2.1731655597686768,
+      "learning_rate": 9.802148170552827e-06,
+      "loss": 0.8714,
+      "step": 22400
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.6525793075561523,
+      "learning_rate": 9.801011091073245e-06,
+      "loss": 0.9253,
+      "step": 22500
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.4795466661453247,
+      "learning_rate": 9.799874011593663e-06,
+      "loss": 0.8951,
+      "step": 22600
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 1.6822344064712524,
+      "learning_rate": 9.798736932114081e-06,
+      "loss": 0.9116,
+      "step": 22700
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 1.9475494623184204,
+      "learning_rate": 9.797599852634501e-06,
+      "loss": 0.9008,
+      "step": 22800
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 1.5294418334960938,
+      "learning_rate": 9.79646277315492e-06,
+      "loss": 0.8961,
+      "step": 22900
+    },
+    {
+      "epoch": 1.59,
+      "grad_norm": 1.5802712440490723,
+      "learning_rate": 9.795325693675338e-06,
+      "loss": 0.9188,
+      "step": 23000
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.4192116260528564,
+      "learning_rate": 9.794188614195756e-06,
+      "loss": 0.8709,
+      "step": 23100
+    },
+    {
+      "epoch": 1.61,
+      "grad_norm": 0.9766781330108643,
+      "learning_rate": 9.793051534716174e-06,
+      "loss": 0.8785,
+      "step": 23200
+    },
+    {
+      "epoch": 1.61,
+      "grad_norm": 1.2057669162750244,
+      "learning_rate": 9.791914455236592e-06,
+      "loss": 0.9029,
+      "step": 23300
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 1.041031837463379,
+      "learning_rate": 9.790777375757012e-06,
+      "loss": 0.9188,
+      "step": 23400
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 1.1729304790496826,
+      "learning_rate": 9.78964029627743e-06,
+      "loss": 0.8952,
+      "step": 23500
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 1.5667890310287476,
+      "learning_rate": 9.788503216797848e-06,
+      "loss": 0.9055,
+      "step": 23600
+    },
+    {
+      "epoch": 1.64,
+      "grad_norm": 1.3759227991104126,
+      "learning_rate": 9.787366137318267e-06,
+      "loss": 0.8754,
+      "step": 23700
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 0.9667372107505798,
+      "learning_rate": 9.786229057838685e-06,
+      "loss": 0.8957,
+      "step": 23800
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 0.901483952999115,
+      "learning_rate": 9.785091978359103e-06,
+      "loss": 0.8859,
+      "step": 23900
+    },
+    {
+      "epoch": 1.66,
+      "grad_norm": 1.2951709032058716,
+      "learning_rate": 9.783954898879523e-06,
+      "loss": 0.8729,
+      "step": 24000
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 1.6786147356033325,
+      "learning_rate": 9.782817819399941e-06,
+      "loss": 0.8855,
+      "step": 24100
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 1.43426513671875,
+      "learning_rate": 9.78168073992036e-06,
+      "loss": 0.9136,
+      "step": 24200
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 2.1875064373016357,
+      "learning_rate": 9.780543660440778e-06,
+      "loss": 0.8972,
+      "step": 24300
+    },
+    {
+      "epoch": 1.69,
+      "grad_norm": 1.5822653770446777,
+      "learning_rate": 9.779406580961197e-06,
+      "loss": 0.8803,
+      "step": 24400
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 1.4301044940948486,
+      "learning_rate": 9.778269501481616e-06,
+      "loss": 0.9092,
+      "step": 24500
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 1.7241953611373901,
+      "learning_rate": 9.777132422002034e-06,
+      "loss": 0.888,
+      "step": 24600
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 1.6373679637908936,
+      "learning_rate": 9.775995342522454e-06,
+      "loss": 0.9205,
+      "step": 24700
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 2.0019736289978027,
+      "learning_rate": 9.774858263042872e-06,
+      "loss": 0.918,
+      "step": 24800
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 0.8956846594810486,
+      "learning_rate": 9.77372118356329e-06,
+      "loss": 0.8772,
+      "step": 24900
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 1.0477770566940308,
+      "learning_rate": 9.772584104083708e-06,
+      "loss": 0.9064,
+      "step": 25000
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 1.1832882165908813,
+      "learning_rate": 9.771447024604126e-06,
+      "loss": 0.8985,
+      "step": 25100
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 1.3693238496780396,
+      "learning_rate": 9.770309945124545e-06,
+      "loss": 0.885,
+      "step": 25200
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 1.1425739526748657,
+      "learning_rate": 9.769172865644963e-06,
+      "loss": 0.9147,
+      "step": 25300
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 1.2872096300125122,
+      "learning_rate": 9.768035786165383e-06,
+      "loss": 0.8638,
+      "step": 25400
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 1.7341827154159546,
+      "learning_rate": 9.766898706685801e-06,
+      "loss": 0.9283,
+      "step": 25500
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 1.4707129001617432,
+      "learning_rate": 9.765761627206219e-06,
+      "loss": 0.8996,
+      "step": 25600
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 1.0794835090637207,
+      "learning_rate": 9.764624547726637e-06,
+      "loss": 0.8979,
+      "step": 25700
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 1.6539565324783325,
+      "learning_rate": 9.763487468247055e-06,
+      "loss": 0.8903,
+      "step": 25800
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 0.811819314956665,
+      "learning_rate": 9.762350388767475e-06,
+      "loss": 0.8835,
+      "step": 25900
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 1.258812665939331,
+      "learning_rate": 9.761213309287894e-06,
+      "loss": 0.8811,
+      "step": 26000
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 1.6438548564910889,
+      "learning_rate": 9.760076229808312e-06,
+      "loss": 0.8932,
+      "step": 26100
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 2.2002038955688477,
+      "learning_rate": 9.75893915032873e-06,
+      "loss": 0.899,
+      "step": 26200
+    },
+    {
+      "epoch": 1.82,
+      "grad_norm": 1.6393821239471436,
+      "learning_rate": 9.75780207084915e-06,
+      "loss": 0.9077,
+      "step": 26300
+    },
+    {
+      "epoch": 1.83,
+      "grad_norm": 1.0851778984069824,
+      "learning_rate": 9.756664991369568e-06,
+      "loss": 0.8809,
+      "step": 26400
+    },
+    {
+      "epoch": 1.83,
+      "grad_norm": 1.0167458057403564,
+      "learning_rate": 9.755527911889986e-06,
+      "loss": 0.8785,
+      "step": 26500
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 1.453165888786316,
+      "learning_rate": 9.754390832410404e-06,
+      "loss": 0.8669,
+      "step": 26600
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 1.2992256879806519,
+      "learning_rate": 9.753253752930824e-06,
+      "loss": 0.9003,
+      "step": 26700
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 1.559043049812317,
+      "learning_rate": 9.752116673451242e-06,
+      "loss": 0.8969,
+      "step": 26800
+    },
+    {
+      "epoch": 1.86,
+      "grad_norm": 0.9057093858718872,
+      "learning_rate": 9.75097959397166e-06,
+      "loss": 0.8917,
+      "step": 26900
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 2.022493600845337,
+      "learning_rate": 9.749842514492079e-06,
+      "loss": 0.8981,
+      "step": 27000
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.9346056580543518,
+      "learning_rate": 9.748705435012497e-06,
+      "loss": 0.8784,
+      "step": 27100
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.9903109073638916,
+      "learning_rate": 9.747568355532915e-06,
+      "loss": 0.8796,
+      "step": 27200
+    },
+    {
+      "epoch": 1.89,
+      "grad_norm": 1.170636534690857,
+      "learning_rate": 9.746431276053333e-06,
+      "loss": 0.8838,
+      "step": 27300
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 0.965701162815094,
+      "learning_rate": 9.745294196573753e-06,
+      "loss": 0.8845,
+      "step": 27400
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 1.3994944095611572,
+      "learning_rate": 9.744157117094171e-06,
+      "loss": 0.8898,
+      "step": 27500
+    },
+    {
+      "epoch": 1.91,
+      "grad_norm": 1.881723165512085,
+      "learning_rate": 9.74302003761459e-06,
+      "loss": 0.8674,
+      "step": 27600
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 1.5024915933609009,
+      "learning_rate": 9.741882958135008e-06,
+      "loss": 0.8786,
+      "step": 27700
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 1.1712627410888672,
+      "learning_rate": 9.740745878655426e-06,
+      "loss": 0.9035,
+      "step": 27800
+    },
+    {
+      "epoch": 1.93,
+      "grad_norm": 1.244718313217163,
+      "learning_rate": 9.739608799175846e-06,
+      "loss": 0.9025,
+      "step": 27900
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 0.9487987756729126,
+      "learning_rate": 9.738471719696264e-06,
+      "loss": 0.873,
+      "step": 28000
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 1.7128610610961914,
+      "learning_rate": 9.737334640216682e-06,
+      "loss": 0.8922,
+      "step": 28100
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 1.2584545612335205,
+      "learning_rate": 9.7361975607371e-06,
+      "loss": 0.8837,
+      "step": 28200
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 2.9237279891967773,
+      "learning_rate": 9.73506048125752e-06,
+      "loss": 0.8869,
+      "step": 28300
+    },
+    {
+      "epoch": 1.97,
+      "grad_norm": 1.2407294511795044,
+      "learning_rate": 9.733923401777939e-06,
+      "loss": 0.8946,
+      "step": 28400
+    },
+    {
+      "epoch": 1.97,
+      "grad_norm": 1.7751291990280151,
+      "learning_rate": 9.732786322298357e-06,
+      "loss": 0.8887,
+      "step": 28500
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 1.5226610898971558,
+      "learning_rate": 9.731649242818777e-06,
+      "loss": 0.8781,
+      "step": 28600
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 1.1699825525283813,
+      "learning_rate": 9.730512163339195e-06,
+      "loss": 0.8943,
+      "step": 28700
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 1.861343502998352,
+      "learning_rate": 9.729375083859613e-06,
+      "loss": 0.8881,
+      "step": 28800
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.4747081995010376,
+      "learning_rate": 9.728238004380031e-06,
+      "loss": 0.8886,
+      "step": 28900
+    },
+    {
+      "epoch": 2.01,
+      "grad_norm": 1.088890552520752,
+      "learning_rate": 9.72710092490045e-06,
+      "loss": 0.7441,
+      "step": 29000
+    },
+    {
+      "epoch": 2.01,
+      "grad_norm": 0.9987432956695557,
+      "learning_rate": 9.725963845420868e-06,
+      "loss": 0.7582,
+      "step": 29100
+    },
+    {
+      "epoch": 2.02,
+      "grad_norm": 1.0923954248428345,
+      "learning_rate": 9.724826765941286e-06,
+      "loss": 0.7519,
+      "step": 29200
+    },
+    {
+      "epoch": 2.03,
+      "grad_norm": 1.1200125217437744,
+      "learning_rate": 9.723689686461704e-06,
+      "loss": 0.7418,
+      "step": 29300
+    },
+    {
+      "epoch": 2.03,
+      "grad_norm": 1.1910890340805054,
+      "learning_rate": 9.722552606982124e-06,
+      "loss": 0.7468,
+      "step": 29400
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 1.258558750152588,
+      "learning_rate": 9.721415527502542e-06,
+      "loss": 0.7504,
+      "step": 29500
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 1.5713021755218506,
+      "learning_rate": 9.72027844802296e-06,
+      "loss": 0.7535,
+      "step": 29600
+    },
+    {
+      "epoch": 2.06,
+      "grad_norm": 1.168602705001831,
+      "learning_rate": 9.719141368543378e-06,
+      "loss": 0.7585,
+      "step": 29700
+    },
+    {
+      "epoch": 2.06,
+      "grad_norm": 1.3702242374420166,
+      "learning_rate": 9.718004289063798e-06,
+      "loss": 0.7292,
+      "step": 29800
+    },
+    {
+      "epoch": 2.07,
+      "grad_norm": 1.2426716089248657,
+      "learning_rate": 9.716867209584216e-06,
+      "loss": 0.7463,
+      "step": 29900
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 1.0902788639068604,
+      "learning_rate": 9.715730130104635e-06,
+      "loss": 0.7719,
+      "step": 30000
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 1.0159074068069458,
+      "learning_rate": 9.714593050625053e-06,
+      "loss": 0.734,
+      "step": 30100
+    },
+    {
+      "epoch": 2.09,
+      "grad_norm": 1.5543040037155151,
+      "learning_rate": 9.713455971145473e-06,
+      "loss": 0.7672,
+      "step": 30200
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 1.5157111883163452,
+      "learning_rate": 9.712318891665891e-06,
+      "loss": 0.7537,
+      "step": 30300
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 1.1269359588623047,
+      "learning_rate": 9.711181812186309e-06,
+      "loss": 0.7299,
+      "step": 30400
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 1.2218953371047974,
+      "learning_rate": 9.710044732706727e-06,
+      "loss": 0.7467,
+      "step": 30500
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 1.5376088619232178,
+      "learning_rate": 9.708907653227147e-06,
+      "loss": 0.7743,
+      "step": 30600
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 0.9877933859825134,
+      "learning_rate": 9.707770573747565e-06,
+      "loss": 0.748,
+      "step": 30700
+    },
+    {
+      "epoch": 2.13,
+      "grad_norm": 1.4562112092971802,
+      "learning_rate": 9.706633494267984e-06,
+      "loss": 0.7289,
+      "step": 30800
+    },
+    {
+      "epoch": 2.14,
+      "grad_norm": 1.0615695714950562,
+      "learning_rate": 9.705496414788402e-06,
+      "loss": 0.7461,
+      "step": 30900
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 1.3564727306365967,
+      "learning_rate": 9.70435933530882e-06,
+      "loss": 0.7548,
+      "step": 31000
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 1.1372426748275757,
+      "learning_rate": 9.703222255829238e-06,
+      "loss": 0.7657,
+      "step": 31100
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 1.0807079076766968,
+      "learning_rate": 9.702085176349656e-06,
+      "loss": 0.7405,
+      "step": 31200
+    },
+    {
+      "epoch": 2.17,
+      "grad_norm": 1.3630435466766357,
+      "learning_rate": 9.700948096870074e-06,
+      "loss": 0.7564,
+      "step": 31300
+    },
+    {
+      "epoch": 2.17,
+      "grad_norm": 1.4270291328430176,
+      "learning_rate": 9.699811017390494e-06,
+      "loss": 0.7568,
+      "step": 31400
+    },
+    {
+      "epoch": 2.18,
+      "grad_norm": 1.4675869941711426,
+      "learning_rate": 9.698673937910913e-06,
+      "loss": 0.7449,
+      "step": 31500
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 1.6441352367401123,
+      "learning_rate": 9.69753685843133e-06,
+      "loss": 0.7377,
+      "step": 31600
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 0.9643974304199219,
+      "learning_rate": 9.696399778951749e-06,
+      "loss": 0.7444,
+      "step": 31700
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 1.1708444356918335,
+      "learning_rate": 9.695262699472169e-06,
+      "loss": 0.735,
+      "step": 31800
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 1.3973842859268188,
+      "learning_rate": 9.694125619992587e-06,
+      "loss": 0.7431,
+      "step": 31900
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 1.874589443206787,
+      "learning_rate": 9.692988540513005e-06,
+      "loss": 0.7351,
+      "step": 32000
+    },
+    {
+      "epoch": 2.22,
+      "grad_norm": 1.3498945236206055,
+      "learning_rate": 9.691851461033423e-06,
+      "loss": 0.7634,
+      "step": 32100
+    },
+    {
+      "epoch": 2.23,
+      "grad_norm": 0.9219258427619934,
+      "learning_rate": 9.690714381553843e-06,
+      "loss": 0.7463,
+      "step": 32200
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 1.0574524402618408,
+      "learning_rate": 9.689577302074261e-06,
+      "loss": 0.7614,
+      "step": 32300
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 1.3175101280212402,
+      "learning_rate": 9.68844022259468e-06,
+      "loss": 0.7596,
+      "step": 32400
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 1.9520835876464844,
+      "learning_rate": 9.6873031431151e-06,
+      "loss": 0.7389,
+      "step": 32500
+    },
+    {
+      "epoch": 2.26,
+      "grad_norm": 1.323140025138855,
+      "learning_rate": 9.686166063635518e-06,
+      "loss": 0.752,
+      "step": 32600
+    },
+    {
+      "epoch": 2.26,
+      "grad_norm": 1.7792108058929443,
+      "learning_rate": 9.685028984155936e-06,
+      "loss": 0.7344,
+      "step": 32700
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 1.1545817852020264,
+      "learning_rate": 9.683891904676354e-06,
+      "loss": 0.7491,
+      "step": 32800
+    },
+    {
+      "epoch": 2.28,
+      "grad_norm": 1.9984090328216553,
+      "learning_rate": 9.682754825196772e-06,
+      "loss": 0.7483,
+      "step": 32900
+    },
+    {
+      "epoch": 2.28,
+      "grad_norm": 1.0549036264419556,
+      "learning_rate": 9.68161774571719e-06,
+      "loss": 0.746,
+      "step": 33000
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 1.4079967737197876,
+      "learning_rate": 9.680480666237609e-06,
+      "loss": 0.7523,
+      "step": 33100
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 1.9782769680023193,
+      "learning_rate": 9.679343586758027e-06,
+      "loss": 0.7441,
+      "step": 33200
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 1.1346936225891113,
+      "learning_rate": 9.678206507278447e-06,
+      "loss": 0.7471,
+      "step": 33300
+    },
+    {
+      "epoch": 2.31,
+      "grad_norm": 1.1705242395401,
+      "learning_rate": 9.677069427798865e-06,
+      "loss": 0.7464,
+      "step": 33400
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 1.5971590280532837,
+      "learning_rate": 9.675932348319283e-06,
+      "loss": 0.7304,
+      "step": 33500
+    },
+    {
+      "epoch": 2.33,
+      "grad_norm": 1.3200665712356567,
+      "learning_rate": 9.674795268839701e-06,
+      "loss": 0.751,
+      "step": 33600
+    },
+    {
+      "epoch": 2.33,
+      "grad_norm": 1.4499751329421997,
+      "learning_rate": 9.673658189360121e-06,
+      "loss": 0.7511,
+      "step": 33700
+    },
+    {
+      "epoch": 2.34,
+      "grad_norm": 1.175971269607544,
+      "learning_rate": 9.67252110988054e-06,
+      "loss": 0.7543,
+      "step": 33800
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 1.4881532192230225,
+      "learning_rate": 9.671384030400958e-06,
+      "loss": 0.7638,
+      "step": 33900
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 1.8659014701843262,
+      "learning_rate": 9.670246950921376e-06,
+      "loss": 0.7568,
+      "step": 34000
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 1.0910565853118896,
+      "learning_rate": 9.669109871441796e-06,
+      "loss": 0.7309,
+      "step": 34100
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 1.7868353128433228,
+      "learning_rate": 9.667972791962214e-06,
+      "loss": 0.7526,
+      "step": 34200
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 1.785824179649353,
+      "learning_rate": 9.666835712482632e-06,
+      "loss": 0.7407,
+      "step": 34300
+    },
+    {
+      "epoch": 2.38,
+      "grad_norm": 1.1215893030166626,
+      "learning_rate": 9.66569863300305e-06,
+      "loss": 0.7661,
+      "step": 34400
+    },
+    {
+      "epoch": 2.39,
+      "grad_norm": 1.122859239578247,
+      "learning_rate": 9.66456155352347e-06,
+      "loss": 0.7699,
+      "step": 34500
+    },
+    {
+      "epoch": 2.39,
+      "grad_norm": 1.5451531410217285,
+      "learning_rate": 9.663424474043888e-06,
+      "loss": 0.7674,
+      "step": 34600
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 1.5229209661483765,
+      "learning_rate": 9.662287394564307e-06,
+      "loss": 0.769,
+      "step": 34700
+    },
+    {
+      "epoch": 2.41,
+      "grad_norm": 1.0651535987854004,
+      "learning_rate": 9.661150315084725e-06,
+      "loss": 0.773,
+      "step": 34800
+    },
+    {
+      "epoch": 2.42,
+      "grad_norm": 1.4791786670684814,
+      "learning_rate": 9.660013235605143e-06,
+      "loss": 0.7367,
+      "step": 34900
+    },
+    {
+      "epoch": 2.42,
+      "grad_norm": 1.1090731620788574,
+      "learning_rate": 9.658876156125561e-06,
+      "loss": 0.7548,
+      "step": 35000
+    },
+    {
+      "epoch": 2.43,
+      "grad_norm": 2.275923728942871,
+      "learning_rate": 9.65773907664598e-06,
+      "loss": 0.731,
+      "step": 35100
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 1.143157958984375,
+      "learning_rate": 9.656601997166397e-06,
+      "loss": 0.7414,
+      "step": 35200
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 1.456304907798767,
+      "learning_rate": 9.655464917686817e-06,
+      "loss": 0.7658,
+      "step": 35300
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 1.6997617483139038,
+      "learning_rate": 9.654327838207236e-06,
+      "loss": 0.7433,
+      "step": 35400
+    },
+    {
+      "epoch": 2.46,
+      "grad_norm": 1.1651383638381958,
+      "learning_rate": 9.653190758727654e-06,
+      "loss": 0.7524,
+      "step": 35500
+    },
+    {
+      "epoch": 2.46,
+      "grad_norm": 1.3326326608657837,
+      "learning_rate": 9.652053679248072e-06,
+      "loss": 0.7567,
+      "step": 35600
+    },
+    {
+      "epoch": 2.47,
+      "grad_norm": 2.015740156173706,
+      "learning_rate": 9.650916599768492e-06,
+      "loss": 0.7521,
+      "step": 35700
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 1.1610100269317627,
+      "learning_rate": 9.64977952028891e-06,
+      "loss": 0.7534,
+      "step": 35800
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 1.8438266515731812,
+      "learning_rate": 9.648642440809328e-06,
+      "loss": 0.7596,
+      "step": 35900
+    },
+    {
+      "epoch": 2.49,
+      "grad_norm": 1.3691192865371704,
+      "learning_rate": 9.647505361329746e-06,
+      "loss": 0.7555,
+      "step": 36000
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 1.08921480178833,
+      "learning_rate": 9.646368281850166e-06,
+      "loss": 0.7555,
+      "step": 36100
+    },
+    {
+      "epoch": 2.51,
+      "grad_norm": 1.491302490234375,
+      "learning_rate": 9.645231202370584e-06,
+      "loss": 0.7493,
+      "step": 36200
+    },
+    {
+      "epoch": 2.51,
+      "grad_norm": 1.3344277143478394,
+      "learning_rate": 9.644094122891003e-06,
+      "loss": 0.7324,
+      "step": 36300
+    },
+    {
+      "epoch": 2.52,
+      "grad_norm": 1.5226786136627197,
+      "learning_rate": 9.642957043411423e-06,
+      "loss": 0.7627,
+      "step": 36400
+    },
+    {
+      "epoch": 2.53,
+      "grad_norm": 1.1613144874572754,
+      "learning_rate": 9.64181996393184e-06,
+      "loss": 0.761,
+      "step": 36500
+    },
+    {
+      "epoch": 2.53,
+      "grad_norm": 1.027484655380249,
+      "learning_rate": 9.640682884452259e-06,
+      "loss": 0.7402,
+      "step": 36600
+    },
+    {
+      "epoch": 2.54,
+      "grad_norm": 1.2822198867797852,
+      "learning_rate": 9.639545804972677e-06,
+      "loss": 0.7431,
+      "step": 36700
+    },
+    {
+      "epoch": 2.55,
+      "grad_norm": 1.3637478351593018,
+      "learning_rate": 9.638408725493095e-06,
+      "loss": 0.7379,
+      "step": 36800
+    },
+    {
+      "epoch": 2.55,
+      "grad_norm": 1.5146301984786987,
+      "learning_rate": 9.637271646013513e-06,
+      "loss": 0.7418,
+      "step": 36900
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 2.1688733100891113,
+      "learning_rate": 9.636134566533932e-06,
+      "loss": 0.7502,
+      "step": 37000
+    },
+    {
+      "epoch": 2.57,
+      "grad_norm": 1.2492934465408325,
+      "learning_rate": 9.63499748705435e-06,
+      "loss": 0.7559,
+      "step": 37100
+    },
+    {
+      "epoch": 2.57,
+      "grad_norm": 1.2392542362213135,
+      "learning_rate": 9.63386040757477e-06,
+      "loss": 0.7577,
+      "step": 37200
+    },
+    {
+      "epoch": 2.58,
+      "grad_norm": 1.7133578062057495,
+      "learning_rate": 9.632723328095188e-06,
+      "loss": 0.7445,
+      "step": 37300
+    },
+    {
+      "epoch": 2.59,
+      "grad_norm": 1.3718565702438354,
+      "learning_rate": 9.631586248615606e-06,
+      "loss": 0.7497,
+      "step": 37400
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.1081408262252808,
+      "learning_rate": 9.630449169136024e-06,
+      "loss": 0.7497,
+      "step": 37500
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.456451177597046,
+      "learning_rate": 9.629312089656444e-06,
+      "loss": 0.7602,
+      "step": 37600
+    },
+    {
+      "epoch": 2.61,
+      "grad_norm": 1.5611923933029175,
+      "learning_rate": 9.628175010176862e-06,
+      "loss": 0.7491,
+      "step": 37700
+    },
+    {
+      "epoch": 2.62,
+      "grad_norm": 1.4570584297180176,
+      "learning_rate": 9.62703793069728e-06,
+      "loss": 0.7284,
+      "step": 37800
+    },
+    {
+      "epoch": 2.62,
+      "grad_norm": 1.5079962015151978,
+      "learning_rate": 9.625900851217699e-06,
+      "loss": 0.7444,
+      "step": 37900
+    },
+    {
+      "epoch": 2.63,
+      "grad_norm": 1.2449984550476074,
+      "learning_rate": 9.624763771738119e-06,
+      "loss": 0.7434,
+      "step": 38000
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 1.5426061153411865,
+      "learning_rate": 9.623626692258537e-06,
+      "loss": 0.7236,
+      "step": 38100
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 0.9547230005264282,
+      "learning_rate": 9.622489612778955e-06,
+      "loss": 0.7658,
+      "step": 38200
+    },
+    {
+      "epoch": 2.65,
+      "grad_norm": 2.019867420196533,
+      "learning_rate": 9.621352533299373e-06,
+      "loss": 0.7639,
+      "step": 38300
+    },
+    {
+      "epoch": 2.66,
+      "grad_norm": 1.23647141456604,
+      "learning_rate": 9.620215453819793e-06,
+      "loss": 0.7394,
+      "step": 38400
+    },
+    {
+      "epoch": 2.66,
+      "grad_norm": 1.0223355293273926,
+      "learning_rate": 9.619078374340211e-06,
+      "loss": 0.7504,
+      "step": 38500
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 1.6476218700408936,
+      "learning_rate": 9.61794129486063e-06,
+      "loss": 0.7399,
+      "step": 38600
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 1.613430380821228,
+      "learning_rate": 9.616804215381048e-06,
+      "loss": 0.7516,
+      "step": 38700
+    },
+    {
+      "epoch": 2.69,
+      "grad_norm": 1.429872989654541,
+      "learning_rate": 9.615667135901466e-06,
+      "loss": 0.7447,
+      "step": 38800
+    },
+    {
+      "epoch": 2.69,
+      "grad_norm": 1.2421847581863403,
+      "learning_rate": 9.614530056421884e-06,
+      "loss": 0.7277,
+      "step": 38900
+    },
+    {
+      "epoch": 2.7,
+      "grad_norm": 0.9920752048492432,
+      "learning_rate": 9.613392976942302e-06,
+      "loss": 0.7593,
+      "step": 39000
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 1.0799416303634644,
+      "learning_rate": 9.61225589746272e-06,
+      "loss": 0.7356,
+      "step": 39100
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 1.5203379392623901,
+      "learning_rate": 9.61111881798314e-06,
+      "loss": 0.7244,
+      "step": 39200
+    },
+    {
+      "epoch": 2.72,
+      "grad_norm": 1.0241066217422485,
+      "learning_rate": 9.609981738503558e-06,
+      "loss": 0.7461,
+      "step": 39300
+    },
+    {
+      "epoch": 2.73,
+      "grad_norm": 1.334892749786377,
+      "learning_rate": 9.608844659023977e-06,
+      "loss": 0.7389,
+      "step": 39400
+    },
+    {
+      "epoch": 2.73,
+      "grad_norm": 1.5321505069732666,
+      "learning_rate": 9.607707579544395e-06,
+      "loss": 0.7576,
+      "step": 39500
+    },
+    {
+      "epoch": 2.74,
+      "grad_norm": 1.002794861793518,
+      "learning_rate": 9.606570500064815e-06,
+      "loss": 0.7433,
+      "step": 39600
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 1.5852782726287842,
+      "learning_rate": 9.605433420585233e-06,
+      "loss": 0.727,
+      "step": 39700
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 1.0254426002502441,
+      "learning_rate": 9.604296341105651e-06,
+      "loss": 0.7325,
+      "step": 39800
+    },
+    {
+      "epoch": 2.76,
+      "grad_norm": 1.2515307664871216,
+      "learning_rate": 9.60315926162607e-06,
+      "loss": 0.7474,
+      "step": 39900
+    },
+    {
+      "epoch": 2.77,
+      "grad_norm": 1.156690239906311,
+      "learning_rate": 9.60202218214649e-06,
+      "loss": 0.7277,
+      "step": 40000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 884446,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 62,
+  "save_steps": 10000,
+  "total_flos": 3.9504708298170163e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:316c850def51c89ae3e4422ac179bdf90da7d51c0dc61744b2dde9f216af468f
+size 4920

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff