AALF commited on Nov 11, 2024

Commit

57b0a15

verified ·

1 Parent(s): d68ea4c

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

added_tokens.json +24 -0
all_results.json +8 -0
config.json +28 -0
generation_config.json +14 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +346 -0
special_tokens_map.json +31 -0
tokenizer.json +0 -0
tokenizer_config.json +208 -0
train_results.json +8 -0
trainer_state.json +3143 -0
training_args.bin +3 -0
training_loss.png +0 -0
vocab.json +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "total_flos": 565924994220032.0,
+    "train_loss": 0.40345258044938437,
+    "train_runtime": 19496.0677,
+    "train_samples_per_second": 14.547,
+    "train_steps_per_second": 0.114
+}

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "/GLOBALFS/gznwp_3/qxj/yangzy/models/Qwen2.5-7B-Instruct",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.43.4",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.43.4"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be899ddcaf4fad8ff935ba64a0b7a95851400df84d9cdd406bd300af5635a94f
+size 4877660776

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f62b26c67b2e4b24ece144c8901266765769860b927411ae9bbf1a506d1586f
+size 4932751008

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:add05665fc7354eb24866dae8613815382e42a7cb0b386ea3d8412e50c0184a0
+size 4330865200

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d63a96253b7c444457776046123f16a86365dbc415d10cc7041515d5d4e22136
+size 1089994880

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 15231233024
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "total_flos": 565924994220032.0,
+    "train_loss": 0.40345258044938437,
+    "train_runtime": 19496.0677,
+    "train_samples_per_second": 14.547,
+    "train_steps_per_second": 0.114
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3143 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 2217,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.006765899864682003,
+      "grad_norm": 3.135589967489332,
+      "learning_rate": 4.504504504504504e-08,
+      "loss": 0.5889,
+      "step": 5
+    },
+    {
+      "epoch": 0.013531799729364006,
+      "grad_norm": 3.3916614305848145,
+      "learning_rate": 9.009009009009008e-08,
+      "loss": 0.5883,
+      "step": 10
+    },
+    {
+      "epoch": 0.02029769959404601,
+      "grad_norm": 3.011762592649042,
+      "learning_rate": 1.3513513513513515e-07,
+      "loss": 0.5923,
+      "step": 15
+    },
+    {
+      "epoch": 0.02706359945872801,
+      "grad_norm": 3.5555831352532232,
+      "learning_rate": 1.8018018018018017e-07,
+      "loss": 0.604,
+      "step": 20
+    },
+    {
+      "epoch": 0.03382949932341001,
+      "grad_norm": 3.0499549612868475,
+      "learning_rate": 2.2522522522522522e-07,
+      "loss": 0.5755,
+      "step": 25
+    },
+    {
+      "epoch": 0.04059539918809202,
+      "grad_norm": 3.256982410861394,
+      "learning_rate": 2.702702702702703e-07,
+      "loss": 0.5911,
+      "step": 30
+    },
+    {
+      "epoch": 0.04736129905277402,
+      "grad_norm": 2.3622646307377106,
+      "learning_rate": 3.153153153153153e-07,
+      "loss": 0.5885,
+      "step": 35
+    },
+    {
+      "epoch": 0.05412719891745602,
+      "grad_norm": 2.2144614106610048,
+      "learning_rate": 3.6036036036036033e-07,
+      "loss": 0.5974,
+      "step": 40
+    },
+    {
+      "epoch": 0.06089309878213803,
+      "grad_norm": 1.9217781582980473,
+      "learning_rate": 4.054054054054054e-07,
+      "loss": 0.5593,
+      "step": 45
+    },
+    {
+      "epoch": 0.06765899864682003,
+      "grad_norm": 1.7294092935247658,
+      "learning_rate": 4.5045045045045043e-07,
+      "loss": 0.5252,
+      "step": 50
+    },
+    {
+      "epoch": 0.07442489851150202,
+      "grad_norm": 1.4219327632393917,
+      "learning_rate": 4.954954954954955e-07,
+      "loss": 0.5235,
+      "step": 55
+    },
+    {
+      "epoch": 0.08119079837618404,
+      "grad_norm": 1.292733402475732,
+      "learning_rate": 5.405405405405406e-07,
+      "loss": 0.525,
+      "step": 60
+    },
+    {
+      "epoch": 0.08795669824086604,
+      "grad_norm": 1.2144730441744807,
+      "learning_rate": 5.855855855855856e-07,
+      "loss": 0.5005,
+      "step": 65
+    },
+    {
+      "epoch": 0.09472259810554803,
+      "grad_norm": 1.1048367369062588,
+      "learning_rate": 6.306306306306306e-07,
+      "loss": 0.4703,
+      "step": 70
+    },
+    {
+      "epoch": 0.10148849797023005,
+      "grad_norm": 1.1189786437671039,
+      "learning_rate": 6.756756756756756e-07,
+      "loss": 0.4948,
+      "step": 75
+    },
+    {
+      "epoch": 0.10825439783491204,
+      "grad_norm": 1.055978988962422,
+      "learning_rate": 7.207207207207207e-07,
+      "loss": 0.4998,
+      "step": 80
+    },
+    {
+      "epoch": 0.11502029769959404,
+      "grad_norm": 1.0477308297406855,
+      "learning_rate": 7.657657657657657e-07,
+      "loss": 0.4972,
+      "step": 85
+    },
+    {
+      "epoch": 0.12178619756427606,
+      "grad_norm": 0.9769236190811056,
+      "learning_rate": 8.108108108108108e-07,
+      "loss": 0.4835,
+      "step": 90
+    },
+    {
+      "epoch": 0.12855209742895804,
+      "grad_norm": 0.9848724930156647,
+      "learning_rate": 8.558558558558558e-07,
+      "loss": 0.5145,
+      "step": 95
+    },
+    {
+      "epoch": 0.13531799729364005,
+      "grad_norm": 0.9772511369345566,
+      "learning_rate": 9.009009009009009e-07,
+      "loss": 0.4831,
+      "step": 100
+    },
+    {
+      "epoch": 0.14208389715832206,
+      "grad_norm": 1.0193282501281582,
+      "learning_rate": 9.459459459459459e-07,
+      "loss": 0.4792,
+      "step": 105
+    },
+    {
+      "epoch": 0.14884979702300405,
+      "grad_norm": 1.0020101535342332,
+      "learning_rate": 9.90990990990991e-07,
+      "loss": 0.4998,
+      "step": 110
+    },
+    {
+      "epoch": 0.15561569688768606,
+      "grad_norm": 0.9777889345956751,
+      "learning_rate": 1.0360360360360361e-06,
+      "loss": 0.4441,
+      "step": 115
+    },
+    {
+      "epoch": 0.16238159675236807,
+      "grad_norm": 0.9932598050355732,
+      "learning_rate": 1.0810810810810812e-06,
+      "loss": 0.5092,
+      "step": 120
+    },
+    {
+      "epoch": 0.16914749661705006,
+      "grad_norm": 0.9245471401140536,
+      "learning_rate": 1.1261261261261262e-06,
+      "loss": 0.4678,
+      "step": 125
+    },
+    {
+      "epoch": 0.17591339648173207,
+      "grad_norm": 1.024692892557143,
+      "learning_rate": 1.1711711711711712e-06,
+      "loss": 0.4725,
+      "step": 130
+    },
+    {
+      "epoch": 0.18267929634641408,
+      "grad_norm": 1.1972845292771366,
+      "learning_rate": 1.2162162162162162e-06,
+      "loss": 0.4853,
+      "step": 135
+    },
+    {
+      "epoch": 0.18944519621109607,
+      "grad_norm": 0.9896589031551587,
+      "learning_rate": 1.2612612612612613e-06,
+      "loss": 0.4826,
+      "step": 140
+    },
+    {
+      "epoch": 0.19621109607577808,
+      "grad_norm": 0.9765510674259122,
+      "learning_rate": 1.3063063063063063e-06,
+      "loss": 0.4755,
+      "step": 145
+    },
+    {
+      "epoch": 0.2029769959404601,
+      "grad_norm": 1.047291746383402,
+      "learning_rate": 1.3513513513513513e-06,
+      "loss": 0.4755,
+      "step": 150
+    },
+    {
+      "epoch": 0.20974289580514208,
+      "grad_norm": 0.9364478913196832,
+      "learning_rate": 1.3963963963963963e-06,
+      "loss": 0.4492,
+      "step": 155
+    },
+    {
+      "epoch": 0.2165087956698241,
+      "grad_norm": 1.0142879981253994,
+      "learning_rate": 1.4414414414414413e-06,
+      "loss": 0.4803,
+      "step": 160
+    },
+    {
+      "epoch": 0.2232746955345061,
+      "grad_norm": 1.0014449407179122,
+      "learning_rate": 1.4864864864864864e-06,
+      "loss": 0.4844,
+      "step": 165
+    },
+    {
+      "epoch": 0.23004059539918809,
+      "grad_norm": 0.9871888333407092,
+      "learning_rate": 1.5315315315315314e-06,
+      "loss": 0.457,
+      "step": 170
+    },
+    {
+      "epoch": 0.2368064952638701,
+      "grad_norm": 1.0141271652920374,
+      "learning_rate": 1.5765765765765766e-06,
+      "loss": 0.4903,
+      "step": 175
+    },
+    {
+      "epoch": 0.2435723951285521,
+      "grad_norm": 0.9347234253741529,
+      "learning_rate": 1.6216216216216216e-06,
+      "loss": 0.4652,
+      "step": 180
+    },
+    {
+      "epoch": 0.2503382949932341,
+      "grad_norm": 0.9501435317491856,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.4308,
+      "step": 185
+    },
+    {
+      "epoch": 0.2571041948579161,
+      "grad_norm": 0.9581596031904549,
+      "learning_rate": 1.7117117117117117e-06,
+      "loss": 0.4598,
+      "step": 190
+    },
+    {
+      "epoch": 0.2638700947225981,
+      "grad_norm": 0.9786305503763357,
+      "learning_rate": 1.7567567567567567e-06,
+      "loss": 0.4714,
+      "step": 195
+    },
+    {
+      "epoch": 0.2706359945872801,
+      "grad_norm": 0.9291456736083413,
+      "learning_rate": 1.8018018018018017e-06,
+      "loss": 0.443,
+      "step": 200
+    },
+    {
+      "epoch": 0.2774018944519621,
+      "grad_norm": 0.9255877911105075,
+      "learning_rate": 1.8468468468468467e-06,
+      "loss": 0.4432,
+      "step": 205
+    },
+    {
+      "epoch": 0.28416779431664413,
+      "grad_norm": 0.9606736815164055,
+      "learning_rate": 1.8918918918918918e-06,
+      "loss": 0.4585,
+      "step": 210
+    },
+    {
+      "epoch": 0.29093369418132614,
+      "grad_norm": 0.9624440866895722,
+      "learning_rate": 1.936936936936937e-06,
+      "loss": 0.4904,
+      "step": 215
+    },
+    {
+      "epoch": 0.2976995940460081,
+      "grad_norm": 1.0330049416664429,
+      "learning_rate": 1.981981981981982e-06,
+      "loss": 0.4561,
+      "step": 220
+    },
+    {
+      "epoch": 0.3044654939106901,
+      "grad_norm": 1.00109448379537,
+      "learning_rate": 1.9999888409903946e-06,
+      "loss": 0.4577,
+      "step": 225
+    },
+    {
+      "epoch": 0.3112313937753721,
+      "grad_norm": 0.9859765544158723,
+      "learning_rate": 1.9999206479447045e-06,
+      "loss": 0.4614,
+      "step": 230
+    },
+    {
+      "epoch": 0.31799729364005414,
+      "grad_norm": 0.9877323608217358,
+      "learning_rate": 1.9997904655255597e-06,
+      "loss": 0.4545,
+      "step": 235
+    },
+    {
+      "epoch": 0.32476319350473615,
+      "grad_norm": 0.9576930627586866,
+      "learning_rate": 1.9995983018035276e-06,
+      "loss": 0.465,
+      "step": 240
+    },
+    {
+      "epoch": 0.33152909336941816,
+      "grad_norm": 0.9687733447404366,
+      "learning_rate": 1.9993441686916623e-06,
+      "loss": 0.4437,
+      "step": 245
+    },
+    {
+      "epoch": 0.3382949932341001,
+      "grad_norm": 0.9301714141243771,
+      "learning_rate": 1.9990280819447657e-06,
+      "loss": 0.474,
+      "step": 250
+    },
+    {
+      "epoch": 0.34506089309878213,
+      "grad_norm": 0.9405794290628846,
+      "learning_rate": 1.998650061158413e-06,
+      "loss": 0.4449,
+      "step": 255
+    },
+    {
+      "epoch": 0.35182679296346414,
+      "grad_norm": 0.9636134406434878,
+      "learning_rate": 1.998210129767735e-06,
+      "loss": 0.458,
+      "step": 260
+    },
+    {
+      "epoch": 0.35859269282814615,
+      "grad_norm": 0.9144322841515368,
+      "learning_rate": 1.9977083150459674e-06,
+      "loss": 0.4481,
+      "step": 265
+    },
+    {
+      "epoch": 0.36535859269282817,
+      "grad_norm": 0.8714040160746531,
+      "learning_rate": 1.997144648102759e-06,
+      "loss": 0.449,
+      "step": 270
+    },
+    {
+      "epoch": 0.3721244925575101,
+      "grad_norm": 0.9100045164534543,
+      "learning_rate": 1.996519163882243e-06,
+      "loss": 0.4597,
+      "step": 275
+    },
+    {
+      "epoch": 0.37889039242219213,
+      "grad_norm": 0.9878984240608611,
+      "learning_rate": 1.9958319011608715e-06,
+      "loss": 0.4704,
+      "step": 280
+    },
+    {
+      "epoch": 0.38565629228687415,
+      "grad_norm": 0.9923465451164459,
+      "learning_rate": 1.9950829025450113e-06,
+      "loss": 0.4509,
+      "step": 285
+    },
+    {
+      "epoch": 0.39242219215155616,
+      "grad_norm": 1.0383680352925826,
+      "learning_rate": 1.9942722144683016e-06,
+      "loss": 0.4635,
+      "step": 290
+    },
+    {
+      "epoch": 0.39918809201623817,
+      "grad_norm": 0.9992922298254648,
+      "learning_rate": 1.993399887188776e-06,
+      "loss": 0.4461,
+      "step": 295
+    },
+    {
+      "epoch": 0.4059539918809202,
+      "grad_norm": 0.9169501385233226,
+      "learning_rate": 1.992465974785748e-06,
+      "loss": 0.4307,
+      "step": 300
+    },
+    {
+      "epoch": 0.41271989174560214,
+      "grad_norm": 0.9501202965215437,
+      "learning_rate": 1.9914705351564566e-06,
+      "loss": 0.4479,
+      "step": 305
+    },
+    {
+      "epoch": 0.41948579161028415,
+      "grad_norm": 1.0148297138789613,
+      "learning_rate": 1.990413630012477e-06,
+      "loss": 0.4859,
+      "step": 310
+    },
+    {
+      "epoch": 0.42625169147496617,
+      "grad_norm": 1.0739431040090432,
+      "learning_rate": 1.9892953248758966e-06,
+      "loss": 0.4614,
+      "step": 315
+    },
+    {
+      "epoch": 0.4330175913396482,
+      "grad_norm": 0.9229950410193872,
+      "learning_rate": 1.9881156890752514e-06,
+      "loss": 0.4418,
+      "step": 320
+    },
+    {
+      "epoch": 0.4397834912043302,
+      "grad_norm": 0.9066806182817697,
+      "learning_rate": 1.986874795741229e-06,
+      "loss": 0.4471,
+      "step": 325
+    },
+    {
+      "epoch": 0.4465493910690122,
+      "grad_norm": 0.9445088154404362,
+      "learning_rate": 1.985572721802134e-06,
+      "loss": 0.4583,
+      "step": 330
+    },
+    {
+      "epoch": 0.45331529093369416,
+      "grad_norm": 0.9429094985987705,
+      "learning_rate": 1.984209547979119e-06,
+      "loss": 0.4336,
+      "step": 335
+    },
+    {
+      "epoch": 0.46008119079837617,
+      "grad_norm": 0.8808347399108184,
+      "learning_rate": 1.9827853587811816e-06,
+      "loss": 0.4506,
+      "step": 340
+    },
+    {
+      "epoch": 0.4668470906630582,
+      "grad_norm": 0.8852604972614782,
+      "learning_rate": 1.9813002424999237e-06,
+      "loss": 0.446,
+      "step": 345
+    },
+    {
+      "epoch": 0.4736129905277402,
+      "grad_norm": 0.948491996554019,
+      "learning_rate": 1.979754291204079e-06,
+      "loss": 0.4217,
+      "step": 350
+    },
+    {
+      "epoch": 0.4803788903924222,
+      "grad_norm": 0.9995196615839442,
+      "learning_rate": 1.9781476007338054e-06,
+      "loss": 0.4548,
+      "step": 355
+    },
+    {
+      "epoch": 0.4871447902571042,
+      "grad_norm": 0.9740073385493772,
+      "learning_rate": 1.9764802706947418e-06,
+      "loss": 0.4445,
+      "step": 360
+    },
+    {
+      "epoch": 0.4939106901217862,
+      "grad_norm": 0.9563912716625128,
+      "learning_rate": 1.974752404451835e-06,
+      "loss": 0.4604,
+      "step": 365
+    },
+    {
+      "epoch": 0.5006765899864682,
+      "grad_norm": 0.9762637234366424,
+      "learning_rate": 1.972964109122931e-06,
+      "loss": 0.4479,
+      "step": 370
+    },
+    {
+      "epoch": 0.5074424898511503,
+      "grad_norm": 0.930767783738052,
+      "learning_rate": 1.9711154955721335e-06,
+      "loss": 0.4468,
+      "step": 375
+    },
+    {
+      "epoch": 0.5142083897158322,
+      "grad_norm": 0.906296179421201,
+      "learning_rate": 1.9692066784029327e-06,
+      "loss": 0.4194,
+      "step": 380
+    },
+    {
+      "epoch": 0.5209742895805142,
+      "grad_norm": 1.0298233079259136,
+      "learning_rate": 1.9672377759510997e-06,
+      "loss": 0.4436,
+      "step": 385
+    },
+    {
+      "epoch": 0.5277401894451962,
+      "grad_norm": 1.0285715764917238,
+      "learning_rate": 1.9652089102773484e-06,
+      "loss": 0.4458,
+      "step": 390
+    },
+    {
+      "epoch": 0.5345060893098782,
+      "grad_norm": 1.0035891832603154,
+      "learning_rate": 1.963120207159773e-06,
+      "loss": 0.4571,
+      "step": 395
+    },
+    {
+      "epoch": 0.5412719891745602,
+      "grad_norm": 0.9043446816114864,
+      "learning_rate": 1.9609717960860447e-06,
+      "loss": 0.4365,
+      "step": 400
+    },
+    {
+      "epoch": 0.5480378890392422,
+      "grad_norm": 0.8567918991275345,
+      "learning_rate": 1.9587638102453897e-06,
+      "loss": 0.4522,
+      "step": 405
+    },
+    {
+      "epoch": 0.5548037889039242,
+      "grad_norm": 1.0896706916639896,
+      "learning_rate": 1.9564963865203286e-06,
+      "loss": 0.4486,
+      "step": 410
+    },
+    {
+      "epoch": 0.5615696887686062,
+      "grad_norm": 1.0243921674345242,
+      "learning_rate": 1.954169665478192e-06,
+      "loss": 0.4733,
+      "step": 415
+    },
+    {
+      "epoch": 0.5683355886332883,
+      "grad_norm": 0.938461425371989,
+      "learning_rate": 1.9517837913624046e-06,
+      "loss": 0.4539,
+      "step": 420
+    },
+    {
+      "epoch": 0.5751014884979703,
+      "grad_norm": 0.8437598260090776,
+      "learning_rate": 1.949338912083546e-06,
+      "loss": 0.4367,
+      "step": 425
+    },
+    {
+      "epoch": 0.5818673883626523,
+      "grad_norm": 1.005446735593706,
+      "learning_rate": 1.9468351792101772e-06,
+      "loss": 0.4362,
+      "step": 430
+    },
+    {
+      "epoch": 0.5886332882273342,
+      "grad_norm": 0.9862664792523975,
+      "learning_rate": 1.9442727479594483e-06,
+      "loss": 0.4452,
+      "step": 435
+    },
+    {
+      "epoch": 0.5953991880920162,
+      "grad_norm": 0.899687219440517,
+      "learning_rate": 1.9416517771874715e-06,
+      "loss": 0.4442,
+      "step": 440
+    },
+    {
+      "epoch": 0.6021650879566982,
+      "grad_norm": 0.9353741691182778,
+      "learning_rate": 1.938972429379477e-06,
+      "loss": 0.4495,
+      "step": 445
+    },
+    {
+      "epoch": 0.6089309878213802,
+      "grad_norm": 0.9948820456618889,
+      "learning_rate": 1.936234870639737e-06,
+      "loss": 0.4306,
+      "step": 450
+    },
+    {
+      "epoch": 0.6156968876860622,
+      "grad_norm": 0.8704179591830725,
+      "learning_rate": 1.9334392706812702e-06,
+      "loss": 0.4505,
+      "step": 455
+    },
+    {
+      "epoch": 0.6224627875507442,
+      "grad_norm": 1.0450367914596947,
+      "learning_rate": 1.9305858028153185e-06,
+      "loss": 0.4522,
+      "step": 460
+    },
+    {
+      "epoch": 0.6292286874154263,
+      "grad_norm": 0.9281390514278819,
+      "learning_rate": 1.9276746439406045e-06,
+      "loss": 0.4559,
+      "step": 465
+    },
+    {
+      "epoch": 0.6359945872801083,
+      "grad_norm": 0.8350910022375151,
+      "learning_rate": 1.924705974532364e-06,
+      "loss": 0.4089,
+      "step": 470
+    },
+    {
+      "epoch": 0.6427604871447903,
+      "grad_norm": 0.9262743643853244,
+      "learning_rate": 1.921679978631158e-06,
+      "loss": 0.4567,
+      "step": 475
+    },
+    {
+      "epoch": 0.6495263870094723,
+      "grad_norm": 0.9746893310950089,
+      "learning_rate": 1.9185968438314613e-06,
+      "loss": 0.4422,
+      "step": 480
+    },
+    {
+      "epoch": 0.6562922868741543,
+      "grad_norm": 0.9995267328814453,
+      "learning_rate": 1.915456761270037e-06,
+      "loss": 0.4599,
+      "step": 485
+    },
+    {
+      "epoch": 0.6630581867388363,
+      "grad_norm": 0.9622695089455472,
+      "learning_rate": 1.912259925614082e-06,
+      "loss": 0.4791,
+      "step": 490
+    },
+    {
+      "epoch": 0.6698240866035182,
+      "grad_norm": 0.9096507775563442,
+      "learning_rate": 1.9090065350491626e-06,
+      "loss": 0.4519,
+      "step": 495
+    },
+    {
+      "epoch": 0.6765899864682002,
+      "grad_norm": 0.8664437664900746,
+      "learning_rate": 1.9056967912669254e-06,
+      "loss": 0.4398,
+      "step": 500
+    },
+    {
+      "epoch": 0.6833558863328822,
+      "grad_norm": 0.9076600979521202,
+      "learning_rate": 1.9023308994525963e-06,
+      "loss": 0.4209,
+      "step": 505
+    },
+    {
+      "epoch": 0.6901217861975643,
+      "grad_norm": 1.0222052042745708,
+      "learning_rate": 1.8989090682722582e-06,
+      "loss": 0.4281,
+      "step": 510
+    },
+    {
+      "epoch": 0.6968876860622463,
+      "grad_norm": 0.9723615567805167,
+      "learning_rate": 1.8954315098599146e-06,
+      "loss": 0.4189,
+      "step": 515
+    },
+    {
+      "epoch": 0.7036535859269283,
+      "grad_norm": 0.9835862508331336,
+      "learning_rate": 1.8918984398043408e-06,
+      "loss": 0.4312,
+      "step": 520
+    },
+    {
+      "epoch": 0.7104194857916103,
+      "grad_norm": 1.0012687152736872,
+      "learning_rate": 1.8883100771357157e-06,
+      "loss": 0.4501,
+      "step": 525
+    },
+    {
+      "epoch": 0.7171853856562923,
+      "grad_norm": 1.0216291302343823,
+      "learning_rate": 1.8846666443120457e-06,
+      "loss": 0.4258,
+      "step": 530
+    },
+    {
+      "epoch": 0.7239512855209743,
+      "grad_norm": 0.9276135754152084,
+      "learning_rate": 1.8809683672053724e-06,
+      "loss": 0.4333,
+      "step": 535
+    },
+    {
+      "epoch": 0.7307171853856563,
+      "grad_norm": 0.8724955540199736,
+      "learning_rate": 1.8772154750877695e-06,
+      "loss": 0.4312,
+      "step": 540
+    },
+    {
+      "epoch": 0.7374830852503383,
+      "grad_norm": 0.872211189190211,
+      "learning_rate": 1.8734082006171296e-06,
+      "loss": 0.4471,
+      "step": 545
+    },
+    {
+      "epoch": 0.7442489851150202,
+      "grad_norm": 0.892122792957958,
+      "learning_rate": 1.8695467798227415e-06,
+      "loss": 0.4472,
+      "step": 550
+    },
+    {
+      "epoch": 0.7510148849797023,
+      "grad_norm": 0.9140022143978676,
+      "learning_rate": 1.8656314520906568e-06,
+      "loss": 0.4371,
+      "step": 555
+    },
+    {
+      "epoch": 0.7577807848443843,
+      "grad_norm": 1.0633456017168574,
+      "learning_rate": 1.8616624601488492e-06,
+      "loss": 0.4463,
+      "step": 560
+    },
+    {
+      "epoch": 0.7645466847090663,
+      "grad_norm": 0.9391100031862615,
+      "learning_rate": 1.8576400500521669e-06,
+      "loss": 0.4427,
+      "step": 565
+    },
+    {
+      "epoch": 0.7713125845737483,
+      "grad_norm": 0.8735867416829584,
+      "learning_rate": 1.8535644711670801e-06,
+      "loss": 0.4301,
+      "step": 570
+    },
+    {
+      "epoch": 0.7780784844384303,
+      "grad_norm": 1.0132502644824264,
+      "learning_rate": 1.8494359761562194e-06,
+      "loss": 0.4474,
+      "step": 575
+    },
+    {
+      "epoch": 0.7848443843031123,
+      "grad_norm": 0.9062675810803181,
+      "learning_rate": 1.8452548209627132e-06,
+      "loss": 0.4243,
+      "step": 580
+    },
+    {
+      "epoch": 0.7916102841677943,
+      "grad_norm": 0.9274228694676224,
+      "learning_rate": 1.8410212647943213e-06,
+      "loss": 0.4333,
+      "step": 585
+    },
+    {
+      "epoch": 0.7983761840324763,
+      "grad_norm": 0.9007238654849733,
+      "learning_rate": 1.8367355701073644e-06,
+      "loss": 0.4368,
+      "step": 590
+    },
+    {
+      "epoch": 0.8051420838971584,
+      "grad_norm": 0.855747677050306,
+      "learning_rate": 1.8323980025904535e-06,
+      "loss": 0.4501,
+      "step": 595
+    },
+    {
+      "epoch": 0.8119079837618404,
+      "grad_norm": 0.8969982308552745,
+      "learning_rate": 1.82800883114802e-06,
+      "loss": 0.4507,
+      "step": 600
+    },
+    {
+      "epoch": 0.8186738836265224,
+      "grad_norm": 0.9410929974505499,
+      "learning_rate": 1.8235683278836432e-06,
+      "loss": 0.4422,
+      "step": 605
+    },
+    {
+      "epoch": 0.8254397834912043,
+      "grad_norm": 0.8931321462996165,
+      "learning_rate": 1.819076768083183e-06,
+      "loss": 0.4416,
+      "step": 610
+    },
+    {
+      "epoch": 0.8322056833558863,
+      "grad_norm": 0.8980849337160435,
+      "learning_rate": 1.8145344301977126e-06,
+      "loss": 0.4388,
+      "step": 615
+    },
+    {
+      "epoch": 0.8389715832205683,
+      "grad_norm": 1.0536891441098302,
+      "learning_rate": 1.8099415958262574e-06,
+      "loss": 0.4187,
+      "step": 620
+    },
+    {
+      "epoch": 0.8457374830852503,
+      "grad_norm": 0.9271582768046711,
+      "learning_rate": 1.8052985496983361e-06,
+      "loss": 0.4146,
+      "step": 625
+    },
+    {
+      "epoch": 0.8525033829499323,
+      "grad_norm": 0.8968055840445154,
+      "learning_rate": 1.8006055796563101e-06,
+      "loss": 0.4495,
+      "step": 630
+    },
+    {
+      "epoch": 0.8592692828146143,
+      "grad_norm": 0.9744203544956539,
+      "learning_rate": 1.7958629766375384e-06,
+      "loss": 0.4383,
+      "step": 635
+    },
+    {
+      "epoch": 0.8660351826792964,
+      "grad_norm": 0.9258362621278792,
+      "learning_rate": 1.7910710346563413e-06,
+      "loss": 0.454,
+      "step": 640
+    },
+    {
+      "epoch": 0.8728010825439784,
+      "grad_norm": 0.9503525869701483,
+      "learning_rate": 1.786230050785773e-06,
+      "loss": 0.441,
+      "step": 645
+    },
+    {
+      "epoch": 0.8795669824086604,
+      "grad_norm": 0.9642519341637562,
+      "learning_rate": 1.7813403251392055e-06,
+      "loss": 0.4373,
+      "step": 650
+    },
+    {
+      "epoch": 0.8863328822733424,
+      "grad_norm": 0.9057502587296233,
+      "learning_rate": 1.7764021608517222e-06,
+      "loss": 0.424,
+      "step": 655
+    },
+    {
+      "epoch": 0.8930987821380244,
+      "grad_norm": 0.9749023291888076,
+      "learning_rate": 1.7714158640613257e-06,
+      "loss": 0.4598,
+      "step": 660
+    },
+    {
+      "epoch": 0.8998646820027063,
+      "grad_norm": 0.9538712934377249,
+      "learning_rate": 1.7663817438899598e-06,
+      "loss": 0.4058,
+      "step": 665
+    },
+    {
+      "epoch": 0.9066305818673883,
+      "grad_norm": 0.8979955158802797,
+      "learning_rate": 1.7613001124243444e-06,
+      "loss": 0.4387,
+      "step": 670
+    },
+    {
+      "epoch": 0.9133964817320703,
+      "grad_norm": 1.0118313665664034,
+      "learning_rate": 1.7561712846966287e-06,
+      "loss": 0.4368,
+      "step": 675
+    },
+    {
+      "epoch": 0.9201623815967523,
+      "grad_norm": 0.9031964169386388,
+      "learning_rate": 1.7509955786648606e-06,
+      "loss": 0.425,
+      "step": 680
+    },
+    {
+      "epoch": 0.9269282814614344,
+      "grad_norm": 0.9178062035086288,
+      "learning_rate": 1.7457733151932757e-06,
+      "loss": 0.4305,
+      "step": 685
+    },
+    {
+      "epoch": 0.9336941813261164,
+      "grad_norm": 0.8690556201891485,
+      "learning_rate": 1.7405048180324043e-06,
+      "loss": 0.4661,
+      "step": 690
+    },
+    {
+      "epoch": 0.9404600811907984,
+      "grad_norm": 1.0262205903854127,
+      "learning_rate": 1.7351904137990026e-06,
+      "loss": 0.466,
+      "step": 695
+    },
+    {
+      "epoch": 0.9472259810554804,
+      "grad_norm": 0.9713876210934629,
+      "learning_rate": 1.7298304319558029e-06,
+      "loss": 0.4437,
+      "step": 700
+    },
+    {
+      "epoch": 0.9539918809201624,
+      "grad_norm": 0.9597126572586364,
+      "learning_rate": 1.724425204791089e-06,
+      "loss": 0.4466,
+      "step": 705
+    },
+    {
+      "epoch": 0.9607577807848444,
+      "grad_norm": 0.9232932420981798,
+      "learning_rate": 1.7189750673980962e-06,
+      "loss": 0.4278,
+      "step": 710
+    },
+    {
+      "epoch": 0.9675236806495264,
+      "grad_norm": 0.9490372547781128,
+      "learning_rate": 1.7134803576542387e-06,
+      "loss": 0.4415,
+      "step": 715
+    },
+    {
+      "epoch": 0.9742895805142084,
+      "grad_norm": 0.9147397103374635,
+      "learning_rate": 1.7079414162001614e-06,
+      "loss": 0.433,
+      "step": 720
+    },
+    {
+      "epoch": 0.9810554803788903,
+      "grad_norm": 0.8209401461011373,
+      "learning_rate": 1.7023585864186218e-06,
+      "loss": 0.4317,
+      "step": 725
+    },
+    {
+      "epoch": 0.9878213802435724,
+      "grad_norm": 0.9324496307161872,
+      "learning_rate": 1.6967322144132053e-06,
+      "loss": 0.4306,
+      "step": 730
+    },
+    {
+      "epoch": 0.9945872801082544,
+      "grad_norm": 0.9568936294834373,
+      "learning_rate": 1.6910626489868648e-06,
+      "loss": 0.4432,
+      "step": 735
+    },
+    {
+      "epoch": 1.0013531799729365,
+      "grad_norm": 0.8919678793527602,
+      "learning_rate": 1.6853502416202998e-06,
+      "loss": 0.4143,
+      "step": 740
+    },
+    {
+      "epoch": 1.0081190798376185,
+      "grad_norm": 0.8529794447193302,
+      "learning_rate": 1.6795953464501652e-06,
+      "loss": 0.4169,
+      "step": 745
+    },
+    {
+      "epoch": 1.0148849797023005,
+      "grad_norm": 0.9642624694066111,
+      "learning_rate": 1.6737983202471179e-06,
+      "loss": 0.4006,
+      "step": 750
+    },
+    {
+      "epoch": 1.0216508795669823,
+      "grad_norm": 0.9261361922756723,
+      "learning_rate": 1.6679595223936974e-06,
+      "loss": 0.3804,
+      "step": 755
+    },
+    {
+      "epoch": 1.0284167794316643,
+      "grad_norm": 0.9435858313783809,
+      "learning_rate": 1.6620793148620477e-06,
+      "loss": 0.4042,
+      "step": 760
+    },
+    {
+      "epoch": 1.0351826792963463,
+      "grad_norm": 0.8659115290032953,
+      "learning_rate": 1.6561580621914763e-06,
+      "loss": 0.39,
+      "step": 765
+    },
+    {
+      "epoch": 1.0419485791610283,
+      "grad_norm": 0.9027318646544147,
+      "learning_rate": 1.6501961314658556e-06,
+      "loss": 0.39,
+      "step": 770
+    },
+    {
+      "epoch": 1.0487144790257104,
+      "grad_norm": 0.8801713126531726,
+      "learning_rate": 1.6441938922908643e-06,
+      "loss": 0.3879,
+      "step": 775
+    },
+    {
+      "epoch": 1.0554803788903924,
+      "grad_norm": 0.8690398100964812,
+      "learning_rate": 1.6381517167710755e-06,
+      "loss": 0.3686,
+      "step": 780
+    },
+    {
+      "epoch": 1.0622462787550744,
+      "grad_norm": 0.8928355050042257,
+      "learning_rate": 1.632069979486888e-06,
+      "loss": 0.3821,
+      "step": 785
+    },
+    {
+      "epoch": 1.0690121786197564,
+      "grad_norm": 0.9243774519293337,
+      "learning_rate": 1.6259490574713039e-06,
+      "loss": 0.3923,
+      "step": 790
+    },
+    {
+      "epoch": 1.0757780784844384,
+      "grad_norm": 0.9518159427324314,
+      "learning_rate": 1.6197893301865548e-06,
+      "loss": 0.4039,
+      "step": 795
+    },
+    {
+      "epoch": 1.0825439783491204,
+      "grad_norm": 0.9017392296122674,
+      "learning_rate": 1.6135911795005778e-06,
+      "loss": 0.3944,
+      "step": 800
+    },
+    {
+      "epoch": 1.0893098782138024,
+      "grad_norm": 0.8944011042734086,
+      "learning_rate": 1.6073549896633417e-06,
+      "loss": 0.3955,
+      "step": 805
+    },
+    {
+      "epoch": 1.0960757780784844,
+      "grad_norm": 0.8713755352849273,
+      "learning_rate": 1.601081147283025e-06,
+      "loss": 0.3944,
+      "step": 810
+    },
+    {
+      "epoch": 1.1028416779431665,
+      "grad_norm": 0.8834252130947557,
+      "learning_rate": 1.5947700413020499e-06,
+      "loss": 0.4077,
+      "step": 815
+    },
+    {
+      "epoch": 1.1096075778078485,
+      "grad_norm": 0.905512482701169,
+      "learning_rate": 1.5884220629729684e-06,
+      "loss": 0.3766,
+      "step": 820
+    },
+    {
+      "epoch": 1.1163734776725305,
+      "grad_norm": 0.9197629272415658,
+      "learning_rate": 1.5820376058342076e-06,
+      "loss": 0.3782,
+      "step": 825
+    },
+    {
+      "epoch": 1.1231393775372125,
+      "grad_norm": 0.8973668351839411,
+      "learning_rate": 1.5756170656856736e-06,
+      "loss": 0.3773,
+      "step": 830
+    },
+    {
+      "epoch": 1.1299052774018945,
+      "grad_norm": 0.8720688085326816,
+      "learning_rate": 1.5691608405642118e-06,
+      "loss": 0.3941,
+      "step": 835
+    },
+    {
+      "epoch": 1.1366711772665765,
+      "grad_norm": 0.9325347489570095,
+      "learning_rate": 1.5626693307189334e-06,
+      "loss": 0.392,
+      "step": 840
+    },
+    {
+      "epoch": 1.1434370771312585,
+      "grad_norm": 0.9613056534113457,
+      "learning_rate": 1.5561429385864004e-06,
+      "loss": 0.3931,
+      "step": 845
+    },
+    {
+      "epoch": 1.1502029769959405,
+      "grad_norm": 0.9476474133207962,
+      "learning_rate": 1.5495820687656779e-06,
+      "loss": 0.3865,
+      "step": 850
+    },
+    {
+      "epoch": 1.1569688768606226,
+      "grad_norm": 0.8410245152598218,
+      "learning_rate": 1.5429871279932513e-06,
+      "loss": 0.3914,
+      "step": 855
+    },
+    {
+      "epoch": 1.1637347767253043,
+      "grad_norm": 0.90704455105413,
+      "learning_rate": 1.536358525117809e-06,
+      "loss": 0.3981,
+      "step": 860
+    },
+    {
+      "epoch": 1.1705006765899864,
+      "grad_norm": 0.8795664591215215,
+      "learning_rate": 1.5296966710748991e-06,
+      "loss": 0.3969,
+      "step": 865
+    },
+    {
+      "epoch": 1.1772665764546684,
+      "grad_norm": 0.9079956406987619,
+      "learning_rate": 1.5230019788614525e-06,
+      "loss": 0.3764,
+      "step": 870
+    },
+    {
+      "epoch": 1.1840324763193504,
+      "grad_norm": 0.937151868457195,
+      "learning_rate": 1.516274863510178e-06,
+      "loss": 0.4166,
+      "step": 875
+    },
+    {
+      "epoch": 1.1907983761840324,
+      "grad_norm": 0.9897153293459969,
+      "learning_rate": 1.5095157420638348e-06,
+      "loss": 0.4029,
+      "step": 880
+    },
+    {
+      "epoch": 1.1975642760487144,
+      "grad_norm": 0.8694929721417238,
+      "learning_rate": 1.5027250335493768e-06,
+      "loss": 0.3922,
+      "step": 885
+    },
+    {
+      "epoch": 1.2043301759133964,
+      "grad_norm": 0.8624368444297611,
+      "learning_rate": 1.4959031589519771e-06,
+      "loss": 0.3868,
+      "step": 890
+    },
+    {
+      "epoch": 1.2110960757780784,
+      "grad_norm": 0.9783773172234542,
+      "learning_rate": 1.4890505411889262e-06,
+      "loss": 0.3959,
+      "step": 895
+    },
+    {
+      "epoch": 1.2178619756427604,
+      "grad_norm": 0.8586490376747702,
+      "learning_rate": 1.4821676050834165e-06,
+      "loss": 0.4099,
+      "step": 900
+    },
+    {
+      "epoch": 1.2246278755074425,
+      "grad_norm": 0.9873452647620673,
+      "learning_rate": 1.4752547773382046e-06,
+      "loss": 0.4052,
+      "step": 905
+    },
+    {
+      "epoch": 1.2313937753721245,
+      "grad_norm": 0.931013191247582,
+      "learning_rate": 1.4683124865091582e-06,
+      "loss": 0.3966,
+      "step": 910
+    },
+    {
+      "epoch": 1.2381596752368065,
+      "grad_norm": 0.9088451005172162,
+      "learning_rate": 1.4613411629786878e-06,
+      "loss": 0.4095,
+      "step": 915
+    },
+    {
+      "epoch": 1.2449255751014885,
+      "grad_norm": 0.933842302782043,
+      "learning_rate": 1.4543412389290652e-06,
+      "loss": 0.4064,
+      "step": 920
+    },
+    {
+      "epoch": 1.2516914749661705,
+      "grad_norm": 0.9264951771291722,
+      "learning_rate": 1.4473131483156324e-06,
+      "loss": 0.3953,
+      "step": 925
+    },
+    {
+      "epoch": 1.2584573748308525,
+      "grad_norm": 0.8656181839555152,
+      "learning_rate": 1.4402573268398967e-06,
+      "loss": 0.3871,
+      "step": 930
+    },
+    {
+      "epoch": 1.2652232746955345,
+      "grad_norm": 0.9325404987949689,
+      "learning_rate": 1.4331742119225208e-06,
+      "loss": 0.3974,
+      "step": 935
+    },
+    {
+      "epoch": 1.2719891745602165,
+      "grad_norm": 0.9349821607837454,
+      "learning_rate": 1.426064242676205e-06,
+      "loss": 0.3772,
+      "step": 940
+    },
+    {
+      "epoch": 1.2787550744248986,
+      "grad_norm": 0.9662738792593973,
+      "learning_rate": 1.4189278598784647e-06,
+      "loss": 0.3965,
+      "step": 945
+    },
+    {
+      "epoch": 1.2855209742895806,
+      "grad_norm": 0.9355003820186909,
+      "learning_rate": 1.411765505944305e-06,
+      "loss": 0.4088,
+      "step": 950
+    },
+    {
+      "epoch": 1.2922868741542626,
+      "grad_norm": 0.9611454952608084,
+      "learning_rate": 1.4045776248987926e-06,
+      "loss": 0.4052,
+      "step": 955
+    },
+    {
+      "epoch": 1.2990527740189446,
+      "grad_norm": 0.9391968087837165,
+      "learning_rate": 1.3973646623495304e-06,
+      "loss": 0.3934,
+      "step": 960
+    },
+    {
+      "epoch": 1.3058186738836266,
+      "grad_norm": 0.8616113630480078,
+      "learning_rate": 1.3901270654590305e-06,
+      "loss": 0.3784,
+      "step": 965
+    },
+    {
+      "epoch": 1.3125845737483086,
+      "grad_norm": 0.9088758722774395,
+      "learning_rate": 1.382865282916994e-06,
+      "loss": 0.3928,
+      "step": 970
+    },
+    {
+      "epoch": 1.3193504736129906,
+      "grad_norm": 0.8427315585885556,
+      "learning_rate": 1.3755797649124943e-06,
+      "loss": 0.3863,
+      "step": 975
+    },
+    {
+      "epoch": 1.3261163734776726,
+      "grad_norm": 0.9546236341704651,
+      "learning_rate": 1.3682709631060681e-06,
+      "loss": 0.3877,
+      "step": 980
+    },
+    {
+      "epoch": 1.3328822733423547,
+      "grad_norm": 0.8416794527532842,
+      "learning_rate": 1.3609393306017147e-06,
+      "loss": 0.3931,
+      "step": 985
+    },
+    {
+      "epoch": 1.3396481732070367,
+      "grad_norm": 0.8749985758813793,
+      "learning_rate": 1.3535853219188063e-06,
+      "loss": 0.398,
+      "step": 990
+    },
+    {
+      "epoch": 1.3464140730717187,
+      "grad_norm": 0.8792969209283309,
+      "learning_rate": 1.346209392963911e-06,
+      "loss": 0.39,
+      "step": 995
+    },
+    {
+      "epoch": 1.3531799729364005,
+      "grad_norm": 0.9113248154091527,
+      "learning_rate": 1.3388120010025282e-06,
+      "loss": 0.3842,
+      "step": 1000
+    },
+    {
+      "epoch": 1.3599458728010825,
+      "grad_norm": 0.9324920865211859,
+      "learning_rate": 1.331393604630741e-06,
+      "loss": 0.3851,
+      "step": 1005
+    },
+    {
+      "epoch": 1.3667117726657645,
+      "grad_norm": 0.8788605853963569,
+      "learning_rate": 1.3239546637467867e-06,
+      "loss": 0.3714,
+      "step": 1010
+    },
+    {
+      "epoch": 1.3734776725304465,
+      "grad_norm": 0.9474461573531726,
+      "learning_rate": 1.3164956395225448e-06,
+      "loss": 0.3865,
+      "step": 1015
+    },
+    {
+      "epoch": 1.3802435723951285,
+      "grad_norm": 0.950616657690431,
+      "learning_rate": 1.3090169943749473e-06,
+      "loss": 0.4,
+      "step": 1020
+    },
+    {
+      "epoch": 1.3870094722598105,
+      "grad_norm": 0.8710395901265745,
+      "learning_rate": 1.3015191919373114e-06,
+      "loss": 0.4001,
+      "step": 1025
+    },
+    {
+      "epoch": 1.3937753721244925,
+      "grad_norm": 0.9295057515627859,
+      "learning_rate": 1.2940026970305971e-06,
+      "loss": 0.385,
+      "step": 1030
+    },
+    {
+      "epoch": 1.4005412719891746,
+      "grad_norm": 0.9497712482103777,
+      "learning_rate": 1.2864679756345904e-06,
+      "loss": 0.3826,
+      "step": 1035
+    },
+    {
+      "epoch": 1.4073071718538566,
+      "grad_norm": 0.8900456235637327,
+      "learning_rate": 1.278915494859016e-06,
+      "loss": 0.3752,
+      "step": 1040
+    },
+    {
+      "epoch": 1.4140730717185386,
+      "grad_norm": 0.8621856389351029,
+      "learning_rate": 1.2713457229145788e-06,
+      "loss": 0.3967,
+      "step": 1045
+    },
+    {
+      "epoch": 1.4208389715832206,
+      "grad_norm": 0.8814482248735523,
+      "learning_rate": 1.2637591290839375e-06,
+      "loss": 0.3845,
+      "step": 1050
+    },
+    {
+      "epoch": 1.4276048714479026,
+      "grad_norm": 0.879645946614646,
+      "learning_rate": 1.2561561836926113e-06,
+      "loss": 0.3866,
+      "step": 1055
+    },
+    {
+      "epoch": 1.4343707713125846,
+      "grad_norm": 0.8945557437244527,
+      "learning_rate": 1.2485373580798233e-06,
+      "loss": 0.3904,
+      "step": 1060
+    },
+    {
+      "epoch": 1.4411366711772666,
+      "grad_norm": 0.8750818708402736,
+      "learning_rate": 1.2409031245692796e-06,
+      "loss": 0.3852,
+      "step": 1065
+    },
+    {
+      "epoch": 1.4479025710419486,
+      "grad_norm": 0.8337419858719565,
+      "learning_rate": 1.233253956439888e-06,
+      "loss": 0.3724,
+      "step": 1070
+    },
+    {
+      "epoch": 1.4546684709066307,
+      "grad_norm": 0.8083630226083286,
+      "learning_rate": 1.2255903278964174e-06,
+      "loss": 0.4014,
+      "step": 1075
+    },
+    {
+      "epoch": 1.4614343707713127,
+      "grad_norm": 0.863082692969674,
+      "learning_rate": 1.2179127140400996e-06,
+      "loss": 0.3935,
+      "step": 1080
+    },
+    {
+      "epoch": 1.4682002706359945,
+      "grad_norm": 0.9104663949991169,
+      "learning_rate": 1.2102215908391763e-06,
+      "loss": 0.3981,
+      "step": 1085
+    },
+    {
+      "epoch": 1.4749661705006765,
+      "grad_norm": 0.9014641500086444,
+      "learning_rate": 1.202517435099392e-06,
+      "loss": 0.3843,
+      "step": 1090
+    },
+    {
+      "epoch": 1.4817320703653585,
+      "grad_norm": 0.9615464937722836,
+      "learning_rate": 1.194800724434433e-06,
+      "loss": 0.3866,
+      "step": 1095
+    },
+    {
+      "epoch": 1.4884979702300405,
+      "grad_norm": 0.9825667306537842,
+      "learning_rate": 1.1870719372363198e-06,
+      "loss": 0.3908,
+      "step": 1100
+    },
+    {
+      "epoch": 1.4952638700947225,
+      "grad_norm": 1.0189787725216968,
+      "learning_rate": 1.17933155264575e-06,
+      "loss": 0.3828,
+      "step": 1105
+    },
+    {
+      "epoch": 1.5020297699594045,
+      "grad_norm": 0.9189839476027799,
+      "learning_rate": 1.1715800505223917e-06,
+      "loss": 0.4112,
+      "step": 1110
+    },
+    {
+      "epoch": 1.5087956698240865,
+      "grad_norm": 0.9794129089161191,
+      "learning_rate": 1.1638179114151377e-06,
+      "loss": 0.4067,
+      "step": 1115
+    },
+    {
+      "epoch": 1.5155615696887685,
+      "grad_norm": 0.8638590545865593,
+      "learning_rate": 1.1560456165323127e-06,
+      "loss": 0.3804,
+      "step": 1120
+    },
+    {
+      "epoch": 1.5223274695534506,
+      "grad_norm": 0.9055017037010111,
+      "learning_rate": 1.1482636477118419e-06,
+      "loss": 0.385,
+      "step": 1125
+    },
+    {
+      "epoch": 1.5290933694181326,
+      "grad_norm": 0.9788468174934404,
+      "learning_rate": 1.140472487391379e-06,
+      "loss": 0.4002,
+      "step": 1130
+    },
+    {
+      "epoch": 1.5358592692828146,
+      "grad_norm": 0.9238387023019937,
+      "learning_rate": 1.132672618578398e-06,
+      "loss": 0.3996,
+      "step": 1135
+    },
+    {
+      "epoch": 1.5426251691474966,
+      "grad_norm": 0.925865354307862,
+      "learning_rate": 1.124864524820251e-06,
+      "loss": 0.4023,
+      "step": 1140
+    },
+    {
+      "epoch": 1.5493910690121786,
+      "grad_norm": 0.8715040921687067,
+      "learning_rate": 1.117048690174188e-06,
+      "loss": 0.3812,
+      "step": 1145
+    },
+    {
+      "epoch": 1.5561569688768606,
+      "grad_norm": 0.8532191896467279,
+      "learning_rate": 1.109225599177351e-06,
+      "loss": 0.398,
+      "step": 1150
+    },
+    {
+      "epoch": 1.5629228687415426,
+      "grad_norm": 1.0083536965890316,
+      "learning_rate": 1.101395736816734e-06,
+      "loss": 0.4151,
+      "step": 1155
+    },
+    {
+      "epoch": 1.5696887686062246,
+      "grad_norm": 1.0274507360142706,
+      "learning_rate": 1.0935595884991177e-06,
+      "loss": 0.3744,
+      "step": 1160
+    },
+    {
+      "epoch": 1.5764546684709067,
+      "grad_norm": 0.872809069084303,
+      "learning_rate": 1.085717640020975e-06,
+      "loss": 0.3637,
+      "step": 1165
+    },
+    {
+      "epoch": 1.5832205683355887,
+      "grad_norm": 0.8471076023010404,
+      "learning_rate": 1.0778703775383558e-06,
+      "loss": 0.4052,
+      "step": 1170
+    },
+    {
+      "epoch": 1.5899864682002707,
+      "grad_norm": 0.8694480718214083,
+      "learning_rate": 1.0700182875367492e-06,
+      "loss": 0.3839,
+      "step": 1175
+    },
+    {
+      "epoch": 1.5967523680649527,
+      "grad_norm": 0.9381676990921416,
+      "learning_rate": 1.0621618568009214e-06,
+      "loss": 0.3894,
+      "step": 1180
+    },
+    {
+      "epoch": 1.6035182679296347,
+      "grad_norm": 0.8741467636065935,
+      "learning_rate": 1.0543015723847401e-06,
+      "loss": 0.3776,
+      "step": 1185
+    },
+    {
+      "epoch": 1.6102841677943167,
+      "grad_norm": 0.9244213487087418,
+      "learning_rate": 1.0464379215809798e-06,
+      "loss": 0.3943,
+      "step": 1190
+    },
+    {
+      "epoch": 1.6170500676589987,
+      "grad_norm": 0.913333754548404,
+      "learning_rate": 1.0385713918911104e-06,
+      "loss": 0.4141,
+      "step": 1195
+    },
+    {
+      "epoch": 1.6238159675236807,
+      "grad_norm": 0.8237850803809569,
+      "learning_rate": 1.0307024709950774e-06,
+      "loss": 0.3862,
+      "step": 1200
+    },
+    {
+      "epoch": 1.6305818673883627,
+      "grad_norm": 0.9139036747755613,
+      "learning_rate": 1.0228316467210667e-06,
+      "loss": 0.3917,
+      "step": 1205
+    },
+    {
+      "epoch": 1.6373477672530448,
+      "grad_norm": 0.9341295496482261,
+      "learning_rate": 1.0149594070152636e-06,
+      "loss": 0.3993,
+      "step": 1210
+    },
+    {
+      "epoch": 1.6441136671177268,
+      "grad_norm": 0.9399367673088488,
+      "learning_rate": 1.0070862399116014e-06,
+      "loss": 0.3998,
+      "step": 1215
+    },
+    {
+      "epoch": 1.6508795669824088,
+      "grad_norm": 0.921159455500775,
+      "learning_rate": 9.992126335015071e-07,
+      "loss": 0.389,
+      "step": 1220
+    },
+    {
+      "epoch": 1.6576454668470908,
+      "grad_norm": 0.9107999089055216,
+      "learning_rate": 9.913390759036422e-07,
+      "loss": 0.3799,
+      "step": 1225
+    },
+    {
+      "epoch": 1.6644113667117728,
+      "grad_norm": 0.901141809972551,
+      "learning_rate": 9.834660552336415e-07,
+      "loss": 0.3757,
+      "step": 1230
+    },
+    {
+      "epoch": 1.6711772665764548,
+      "grad_norm": 0.9560266625798542,
+      "learning_rate": 9.755940595738546e-07,
+      "loss": 0.3856,
+      "step": 1235
+    },
+    {
+      "epoch": 1.6779431664411368,
+      "grad_norm": 1.0125208525598048,
+      "learning_rate": 9.677235769430848e-07,
+      "loss": 0.4192,
+      "step": 1240
+    },
+    {
+      "epoch": 1.6847090663058186,
+      "grad_norm": 0.8749432846189713,
+      "learning_rate": 9.598550952663382e-07,
+      "loss": 0.379,
+      "step": 1245
+    },
+    {
+      "epoch": 1.6914749661705006,
+      "grad_norm": 0.9094027020153335,
+      "learning_rate": 9.519891023445708e-07,
+      "loss": 0.3973,
+      "step": 1250
+    },
+    {
+      "epoch": 1.6982408660351827,
+      "grad_norm": 0.8656063012094934,
+      "learning_rate": 9.441260858244516e-07,
+      "loss": 0.3776,
+      "step": 1255
+    },
+    {
+      "epoch": 1.7050067658998647,
+      "grad_norm": 0.9630365808446638,
+      "learning_rate": 9.362665331681293e-07,
+      "loss": 0.4059,
+      "step": 1260
+    },
+    {
+      "epoch": 1.7117726657645467,
+      "grad_norm": 0.8560840132471816,
+      "learning_rate": 9.284109316230132e-07,
+      "loss": 0.3825,
+      "step": 1265
+    },
+    {
+      "epoch": 1.7185385656292287,
+      "grad_norm": 0.8884669375620078,
+      "learning_rate": 9.205597681915649e-07,
+      "loss": 0.3863,
+      "step": 1270
+    },
+    {
+      "epoch": 1.7253044654939107,
+      "grad_norm": 0.8869036574445737,
+      "learning_rate": 9.127135296011101e-07,
+      "loss": 0.397,
+      "step": 1275
+    },
+    {
+      "epoch": 1.7320703653585927,
+      "grad_norm": 1.0142273356966363,
+      "learning_rate": 9.048727022736608e-07,
+      "loss": 0.3994,
+      "step": 1280
+    },
+    {
+      "epoch": 1.7388362652232747,
+      "grad_norm": 0.8138559777002394,
+      "learning_rate": 8.970377722957633e-07,
+      "loss": 0.3822,
+      "step": 1285
+    },
+    {
+      "epoch": 1.7456021650879567,
+      "grad_norm": 0.910905469203534,
+      "learning_rate": 8.8920922538836e-07,
+      "loss": 0.3892,
+      "step": 1290
+    },
+    {
+      "epoch": 1.7523680649526387,
+      "grad_norm": 0.8991452761716875,
+      "learning_rate": 8.81387546876681e-07,
+      "loss": 0.4106,
+      "step": 1295
+    },
+    {
+      "epoch": 1.7591339648173205,
+      "grad_norm": 0.9184956093497766,
+      "learning_rate": 8.735732216601537e-07,
+      "loss": 0.3838,
+      "step": 1300
+    },
+    {
+      "epoch": 1.7658998646820026,
+      "grad_norm": 0.994764601785883,
+      "learning_rate": 8.657667341823448e-07,
+      "loss": 0.3961,
+      "step": 1305
+    },
+    {
+      "epoch": 1.7726657645466846,
+      "grad_norm": 0.8883903294248982,
+      "learning_rate": 8.579685684009239e-07,
+      "loss": 0.3651,
+      "step": 1310
+    },
+    {
+      "epoch": 1.7794316644113666,
+      "grad_norm": 0.9540694691628696,
+      "learning_rate": 8.501792077576647e-07,
+      "loss": 0.4192,
+      "step": 1315
+    },
+    {
+      "epoch": 1.7861975642760486,
+      "grad_norm": 0.9014935126575736,
+      "learning_rate": 8.423991351484715e-07,
+      "loss": 0.3911,
+      "step": 1320
+    },
+    {
+      "epoch": 1.7929634641407306,
+      "grad_norm": 0.8986386045883553,
+      "learning_rate": 8.346288328934441e-07,
+      "loss": 0.3686,
+      "step": 1325
+    },
+    {
+      "epoch": 1.7997293640054126,
+      "grad_norm": 0.9023874034737512,
+      "learning_rate": 8.268687827069756e-07,
+      "loss": 0.4049,
+      "step": 1330
+    },
+    {
+      "epoch": 1.8064952638700946,
+      "grad_norm": 0.954637951088703,
+      "learning_rate": 8.191194656678904e-07,
+      "loss": 0.4076,
+      "step": 1335
+    },
+    {
+      "epoch": 1.8132611637347766,
+      "grad_norm": 0.8976380430093307,
+      "learning_rate": 8.11381362189617e-07,
+      "loss": 0.3757,
+      "step": 1340
+    },
+    {
+      "epoch": 1.8200270635994586,
+      "grad_norm": 0.9344916430869354,
+      "learning_rate": 8.036549519904094e-07,
+      "loss": 0.3799,
+      "step": 1345
+    },
+    {
+      "epoch": 1.8267929634641407,
+      "grad_norm": 0.8700034359899684,
+      "learning_rate": 7.959407140636033e-07,
+      "loss": 0.3857,
+      "step": 1350
+    },
+    {
+      "epoch": 1.8335588633288227,
+      "grad_norm": 0.8897089435750585,
+      "learning_rate": 7.882391266479245e-07,
+      "loss": 0.3787,
+      "step": 1355
+    },
+    {
+      "epoch": 1.8403247631935047,
+      "grad_norm": 0.9165583694720448,
+      "learning_rate": 7.805506671978374e-07,
+      "loss": 0.397,
+      "step": 1360
+    },
+    {
+      "epoch": 1.8470906630581867,
+      "grad_norm": 0.950838246714343,
+      "learning_rate": 7.728758123539497e-07,
+      "loss": 0.3957,
+      "step": 1365
+    },
+    {
+      "epoch": 1.8538565629228687,
+      "grad_norm": 1.0044028986361484,
+      "learning_rate": 7.652150379134591e-07,
+      "loss": 0.4127,
+      "step": 1370
+    },
+    {
+      "epoch": 1.8606224627875507,
+      "grad_norm": 0.8715490174956787,
+      "learning_rate": 7.575688188006604e-07,
+      "loss": 0.4047,
+      "step": 1375
+    },
+    {
+      "epoch": 1.8673883626522327,
+      "grad_norm": 0.9059006037968131,
+      "learning_rate": 7.499376290374993e-07,
+      "loss": 0.4031,
+      "step": 1380
+    },
+    {
+      "epoch": 1.8741542625169147,
+      "grad_norm": 0.8725062161398816,
+      "learning_rate": 7.423219417141895e-07,
+      "loss": 0.4169,
+      "step": 1385
+    },
+    {
+      "epoch": 1.8809201623815968,
+      "grad_norm": 0.8855228111731603,
+      "learning_rate": 7.347222289598805e-07,
+      "loss": 0.388,
+      "step": 1390
+    },
+    {
+      "epoch": 1.8876860622462788,
+      "grad_norm": 0.9265490155160274,
+      "learning_rate": 7.271389619133908e-07,
+      "loss": 0.3941,
+      "step": 1395
+    },
+    {
+      "epoch": 1.8944519621109608,
+      "grad_norm": 0.8939476434830451,
+      "learning_rate": 7.195726106939973e-07,
+      "loss": 0.3914,
+      "step": 1400
+    },
+    {
+      "epoch": 1.9012178619756428,
+      "grad_norm": 0.9395408646459109,
+      "learning_rate": 7.12023644372294e-07,
+      "loss": 0.4072,
+      "step": 1405
+    },
+    {
+      "epoch": 1.9079837618403248,
+      "grad_norm": 1.0920933521729903,
+      "learning_rate": 7.044925309411092e-07,
+      "loss": 0.401,
+      "step": 1410
+    },
+    {
+      "epoch": 1.9147496617050068,
+      "grad_norm": 0.9076234780549212,
+      "learning_rate": 6.969797372864945e-07,
+      "loss": 0.404,
+      "step": 1415
+    },
+    {
+      "epoch": 1.9215155615696888,
+      "grad_norm": 0.900522588076206,
+      "learning_rate": 6.894857291587794e-07,
+      "loss": 0.3932,
+      "step": 1420
+    },
+    {
+      "epoch": 1.9282814614343708,
+      "grad_norm": 1.010739298384273,
+      "learning_rate": 6.820109711436988e-07,
+      "loss": 0.3979,
+      "step": 1425
+    },
+    {
+      "epoch": 1.9350473612990529,
+      "grad_norm": 0.9395627108691667,
+      "learning_rate": 6.745559266335892e-07,
+      "loss": 0.4121,
+      "step": 1430
+    },
+    {
+      "epoch": 1.9418132611637349,
+      "grad_norm": 0.9103115645368586,
+      "learning_rate": 6.671210577986634e-07,
+      "loss": 0.3782,
+      "step": 1435
+    },
+    {
+      "epoch": 1.9485791610284169,
+      "grad_norm": 0.8721394849691637,
+      "learning_rate": 6.597068255583569e-07,
+      "loss": 0.3816,
+      "step": 1440
+    },
+    {
+      "epoch": 1.955345060893099,
+      "grad_norm": 0.9038701387052045,
+      "learning_rate": 6.523136895527549e-07,
+      "loss": 0.3838,
+      "step": 1445
+    },
+    {
+      "epoch": 1.962110960757781,
+      "grad_norm": 0.8578094858505428,
+      "learning_rate": 6.449421081140948e-07,
+      "loss": 0.3691,
+      "step": 1450
+    },
+    {
+      "epoch": 1.968876860622463,
+      "grad_norm": 0.9076324104629191,
+      "learning_rate": 6.37592538238356e-07,
+      "loss": 0.3836,
+      "step": 1455
+    },
+    {
+      "epoch": 1.975642760487145,
+      "grad_norm": 0.9184634251231552,
+      "learning_rate": 6.302654355569248e-07,
+      "loss": 0.3867,
+      "step": 1460
+    },
+    {
+      "epoch": 1.982408660351827,
+      "grad_norm": 0.9163040619324928,
+      "learning_rate": 6.22961254308351e-07,
+      "loss": 0.4021,
+      "step": 1465
+    },
+    {
+      "epoch": 1.989174560216509,
+      "grad_norm": 0.9380255468363818,
+      "learning_rate": 6.15680447310185e-07,
+      "loss": 0.3963,
+      "step": 1470
+    },
+    {
+      "epoch": 1.9959404600811907,
+      "grad_norm": 0.9574939151427282,
+      "learning_rate": 6.084234659309088e-07,
+      "loss": 0.3929,
+      "step": 1475
+    },
+    {
+      "epoch": 2.002706359945873,
+      "grad_norm": 0.9156087269694912,
+      "learning_rate": 6.011907600619504e-07,
+      "loss": 0.3956,
+      "step": 1480
+    },
+    {
+      "epoch": 2.009472259810555,
+      "grad_norm": 0.875971871785139,
+      "learning_rate": 5.939827780897959e-07,
+      "loss": 0.379,
+      "step": 1485
+    },
+    {
+      "epoch": 2.016238159675237,
+      "grad_norm": 0.8159214721131471,
+      "learning_rate": 5.867999668681895e-07,
+      "loss": 0.3506,
+      "step": 1490
+    },
+    {
+      "epoch": 2.023004059539919,
+      "grad_norm": 0.9174917517678726,
+      "learning_rate": 5.796427716904346e-07,
+      "loss": 0.3779,
+      "step": 1495
+    },
+    {
+      "epoch": 2.029769959404601,
+      "grad_norm": 0.8591678568764226,
+      "learning_rate": 5.725116362617839e-07,
+      "loss": 0.3565,
+      "step": 1500
+    },
+    {
+      "epoch": 2.0365358592692826,
+      "grad_norm": 0.9878580712143971,
+      "learning_rate": 5.654070026719364e-07,
+      "loss": 0.3696,
+      "step": 1505
+    },
+    {
+      "epoch": 2.0433017591339646,
+      "grad_norm": 0.9413067221983138,
+      "learning_rate": 5.58329311367626e-07,
+      "loss": 0.3668,
+      "step": 1510
+    },
+    {
+      "epoch": 2.0500676589986466,
+      "grad_norm": 0.8587038445515364,
+      "learning_rate": 5.51279001125321e-07,
+      "loss": 0.3758,
+      "step": 1515
+    },
+    {
+      "epoch": 2.0568335588633286,
+      "grad_norm": 0.8954453845877244,
+      "learning_rate": 5.442565090240188e-07,
+      "loss": 0.384,
+      "step": 1520
+    },
+    {
+      "epoch": 2.0635994587280106,
+      "grad_norm": 0.8259704513043766,
+      "learning_rate": 5.372622704181511e-07,
+      "loss": 0.3617,
+      "step": 1525
+    },
+    {
+      "epoch": 2.0703653585926927,
+      "grad_norm": 0.8911849990272597,
+      "learning_rate": 5.302967189105941e-07,
+      "loss": 0.3702,
+      "step": 1530
+    },
+    {
+      "epoch": 2.0771312584573747,
+      "grad_norm": 0.8634991898547424,
+      "learning_rate": 5.233602863257876e-07,
+      "loss": 0.3589,
+      "step": 1535
+    },
+    {
+      "epoch": 2.0838971583220567,
+      "grad_norm": 0.8637626757163477,
+      "learning_rate": 5.164534026829643e-07,
+      "loss": 0.3258,
+      "step": 1540
+    },
+    {
+      "epoch": 2.0906630581867387,
+      "grad_norm": 0.905130901378235,
+      "learning_rate": 5.095764961694922e-07,
+      "loss": 0.3572,
+      "step": 1545
+    },
+    {
+      "epoch": 2.0974289580514207,
+      "grad_norm": 0.9058444521016042,
+      "learning_rate": 5.027299931143261e-07,
+      "loss": 0.3533,
+      "step": 1550
+    },
+    {
+      "epoch": 2.1041948579161027,
+      "grad_norm": 0.8675087994193276,
+      "learning_rate": 4.959143179615822e-07,
+      "loss": 0.348,
+      "step": 1555
+    },
+    {
+      "epoch": 2.1109607577807847,
+      "grad_norm": 0.9042563270234917,
+      "learning_rate": 4.891298932442216e-07,
+      "loss": 0.3788,
+      "step": 1560
+    },
+    {
+      "epoch": 2.1177266576454667,
+      "grad_norm": 0.9358828384910657,
+      "learning_rate": 4.823771395578569e-07,
+      "loss": 0.3717,
+      "step": 1565
+    },
+    {
+      "epoch": 2.1244925575101488,
+      "grad_norm": 0.8851948103471653,
+      "learning_rate": 4.7565647553467725e-07,
+      "loss": 0.3694,
+      "step": 1570
+    },
+    {
+      "epoch": 2.1312584573748308,
+      "grad_norm": 0.891875348598499,
+      "learning_rate": 4.6896831781749636e-07,
+      "loss": 0.3457,
+      "step": 1575
+    },
+    {
+      "epoch": 2.138024357239513,
+      "grad_norm": 0.8522713088841705,
+      "learning_rate": 4.6231308103392184e-07,
+      "loss": 0.3628,
+      "step": 1580
+    },
+    {
+      "epoch": 2.144790257104195,
+      "grad_norm": 0.9412889621997113,
+      "learning_rate": 4.5569117777065234e-07,
+      "loss": 0.3464,
+      "step": 1585
+    },
+    {
+      "epoch": 2.151556156968877,
+      "grad_norm": 0.826356962960735,
+      "learning_rate": 4.4910301854789755e-07,
+      "loss": 0.3461,
+      "step": 1590
+    },
+    {
+      "epoch": 2.158322056833559,
+      "grad_norm": 0.9199096689188995,
+      "learning_rate": 4.4254901179392945e-07,
+      "loss": 0.3602,
+      "step": 1595
+    },
+    {
+      "epoch": 2.165087956698241,
+      "grad_norm": 0.9183160950676039,
+      "learning_rate": 4.3602956381976206e-07,
+      "loss": 0.3626,
+      "step": 1600
+    },
+    {
+      "epoch": 2.171853856562923,
+      "grad_norm": 0.8892593488875539,
+      "learning_rate": 4.2954507879396217e-07,
+      "loss": 0.3502,
+      "step": 1605
+    },
+    {
+      "epoch": 2.178619756427605,
+      "grad_norm": 0.8728431260824027,
+      "learning_rate": 4.2309595871759284e-07,
+      "loss": 0.3445,
+      "step": 1610
+    },
+    {
+      "epoch": 2.185385656292287,
+      "grad_norm": 0.8623083307979081,
+      "learning_rate": 4.1668260339929383e-07,
+      "loss": 0.3529,
+      "step": 1615
+    },
+    {
+      "epoch": 2.192151556156969,
+      "grad_norm": 0.9173369135444095,
+      "learning_rate": 4.1030541043049115e-07,
+      "loss": 0.3302,
+      "step": 1620
+    },
+    {
+      "epoch": 2.198917456021651,
+      "grad_norm": 0.9673789018678042,
+      "learning_rate": 4.0396477516075424e-07,
+      "loss": 0.3744,
+      "step": 1625
+    },
+    {
+      "epoch": 2.205683355886333,
+      "grad_norm": 0.8537745012760256,
+      "learning_rate": 3.9766109067328247e-07,
+      "loss": 0.3785,
+      "step": 1630
+    },
+    {
+      "epoch": 2.212449255751015,
+      "grad_norm": 0.8895901838570139,
+      "learning_rate": 3.9139474776053773e-07,
+      "loss": 0.3644,
+      "step": 1635
+    },
+    {
+      "epoch": 2.219215155615697,
+      "grad_norm": 0.8836993928349348,
+      "learning_rate": 3.851661349000176e-07,
+      "loss": 0.3407,
+      "step": 1640
+    },
+    {
+      "epoch": 2.225981055480379,
+      "grad_norm": 0.8805252807237185,
+      "learning_rate": 3.7897563823017176e-07,
+      "loss": 0.3574,
+      "step": 1645
+    },
+    {
+      "epoch": 2.232746955345061,
+      "grad_norm": 0.8781818320057839,
+      "learning_rate": 3.7282364152646295e-07,
+      "loss": 0.3446,
+      "step": 1650
+    },
+    {
+      "epoch": 2.239512855209743,
+      "grad_norm": 0.8626076762810555,
+      "learning_rate": 3.667105261775775e-07,
+      "loss": 0.3634,
+      "step": 1655
+    },
+    {
+      "epoch": 2.246278755074425,
+      "grad_norm": 0.8917443670660926,
+      "learning_rate": 3.6063667116177707e-07,
+      "loss": 0.355,
+      "step": 1660
+    },
+    {
+      "epoch": 2.253044654939107,
+      "grad_norm": 0.9299602990136241,
+      "learning_rate": 3.546024530234091e-07,
+      "loss": 0.3515,
+      "step": 1665
+    },
+    {
+      "epoch": 2.259810554803789,
+      "grad_norm": 0.8787189659356113,
+      "learning_rate": 3.486082458495595e-07,
+      "loss": 0.3523,
+      "step": 1670
+    },
+    {
+      "epoch": 2.266576454668471,
+      "grad_norm": 0.9333220173472558,
+      "learning_rate": 3.4265442124686305e-07,
+      "loss": 0.3634,
+      "step": 1675
+    },
+    {
+      "epoch": 2.273342354533153,
+      "grad_norm": 0.8215582852085173,
+      "learning_rate": 3.3674134831846533e-07,
+      "loss": 0.3501,
+      "step": 1680
+    },
+    {
+      "epoch": 2.280108254397835,
+      "grad_norm": 0.9232223365504585,
+      "learning_rate": 3.308693936411421e-07,
+      "loss": 0.358,
+      "step": 1685
+    },
+    {
+      "epoch": 2.286874154262517,
+      "grad_norm": 0.9069920544014858,
+      "learning_rate": 3.250389212425696e-07,
+      "loss": 0.3572,
+      "step": 1690
+    },
+    {
+      "epoch": 2.293640054127199,
+      "grad_norm": 0.9535520151023128,
+      "learning_rate": 3.19250292578762e-07,
+      "loss": 0.3644,
+      "step": 1695
+    },
+    {
+      "epoch": 2.300405953991881,
+      "grad_norm": 0.9424253380169826,
+      "learning_rate": 3.135038665116596e-07,
+      "loss": 0.3752,
+      "step": 1700
+    },
+    {
+      "epoch": 2.307171853856563,
+      "grad_norm": 0.8695354259584979,
+      "learning_rate": 3.0779999928688274e-07,
+      "loss": 0.3517,
+      "step": 1705
+    },
+    {
+      "epoch": 2.313937753721245,
+      "grad_norm": 0.8767863111337912,
+      "learning_rate": 3.021390445116462e-07,
+      "loss": 0.3584,
+      "step": 1710
+    },
+    {
+      "epoch": 2.320703653585927,
+      "grad_norm": 0.9538944333861298,
+      "learning_rate": 2.965213531328382e-07,
+      "loss": 0.3357,
+      "step": 1715
+    },
+    {
+      "epoch": 2.3274695534506087,
+      "grad_norm": 0.9012237139243202,
+      "learning_rate": 2.909472734152627e-07,
+      "loss": 0.3598,
+      "step": 1720
+    },
+    {
+      "epoch": 2.3342354533152907,
+      "grad_norm": 0.8794003284313425,
+      "learning_rate": 2.854171509200509e-07,
+      "loss": 0.3629,
+      "step": 1725
+    },
+    {
+      "epoch": 2.3410013531799727,
+      "grad_norm": 0.9108471443593894,
+      "learning_rate": 2.799313284832349e-07,
+      "loss": 0.365,
+      "step": 1730
+    },
+    {
+      "epoch": 2.3477672530446547,
+      "grad_norm": 0.8628691711197035,
+      "learning_rate": 2.7449014619449816e-07,
+      "loss": 0.3762,
+      "step": 1735
+    },
+    {
+      "epoch": 2.3545331529093367,
+      "grad_norm": 0.8889581492098664,
+      "learning_rate": 2.6909394137608865e-07,
+      "loss": 0.3917,
+      "step": 1740
+    },
+    {
+      "epoch": 2.3612990527740187,
+      "grad_norm": 0.9162608879081252,
+      "learning_rate": 2.63743048561908e-07,
+      "loss": 0.3709,
+      "step": 1745
+    },
+    {
+      "epoch": 2.3680649526387008,
+      "grad_norm": 0.9486497453708593,
+      "learning_rate": 2.584377994767718e-07,
+      "loss": 0.3571,
+      "step": 1750
+    },
+    {
+      "epoch": 2.3748308525033828,
+      "grad_norm": 0.8572179042515599,
+      "learning_rate": 2.5317852301584643e-07,
+      "loss": 0.3404,
+      "step": 1755
+    },
+    {
+      "epoch": 2.381596752368065,
+      "grad_norm": 0.9011248732995363,
+      "learning_rate": 2.479655452242555e-07,
+      "loss": 0.3596,
+      "step": 1760
+    },
+    {
+      "epoch": 2.388362652232747,
+      "grad_norm": 0.932371619225593,
+      "learning_rate": 2.4279918927687183e-07,
+      "loss": 0.3619,
+      "step": 1765
+    },
+    {
+      "epoch": 2.395128552097429,
+      "grad_norm": 0.9694624709106541,
+      "learning_rate": 2.3767977545827844e-07,
+      "loss": 0.346,
+      "step": 1770
+    },
+    {
+      "epoch": 2.401894451962111,
+      "grad_norm": 0.9227560987428661,
+      "learning_rate": 2.3260762114291464e-07,
+      "loss": 0.3521,
+      "step": 1775
+    },
+    {
+      "epoch": 2.408660351826793,
+      "grad_norm": 0.9231311018936468,
+      "learning_rate": 2.2758304077540058e-07,
+      "loss": 0.3618,
+      "step": 1780
+    },
+    {
+      "epoch": 2.415426251691475,
+      "grad_norm": 0.8804559100386078,
+      "learning_rate": 2.2260634585104276e-07,
+      "loss": 0.3718,
+      "step": 1785
+    },
+    {
+      "epoch": 2.422192151556157,
+      "grad_norm": 0.8784001311753498,
+      "learning_rate": 2.176778448965234e-07,
+      "loss": 0.3546,
+      "step": 1790
+    },
+    {
+      "epoch": 2.428958051420839,
+      "grad_norm": 0.8846592322806809,
+      "learning_rate": 2.1279784345077467e-07,
+      "loss": 0.3506,
+      "step": 1795
+    },
+    {
+      "epoch": 2.435723951285521,
+      "grad_norm": 0.9426336768174957,
+      "learning_rate": 2.0796664404603415e-07,
+      "loss": 0.3683,
+      "step": 1800
+    },
+    {
+      "epoch": 2.442489851150203,
+      "grad_norm": 0.8508700326395159,
+      "learning_rate": 2.031845461890932e-07,
+      "loss": 0.3544,
+      "step": 1805
+    },
+    {
+      "epoch": 2.449255751014885,
+      "grad_norm": 0.9213255691041613,
+      "learning_rate": 1.9845184634272637e-07,
+      "loss": 0.3478,
+      "step": 1810
+    },
+    {
+      "epoch": 2.456021650879567,
+      "grad_norm": 0.894728000876127,
+      "learning_rate": 1.9376883790731412e-07,
+      "loss": 0.3658,
+      "step": 1815
+    },
+    {
+      "epoch": 2.462787550744249,
+      "grad_norm": 0.8771209642086485,
+      "learning_rate": 1.8913581120265232e-07,
+      "loss": 0.3449,
+      "step": 1820
+    },
+    {
+      "epoch": 2.469553450608931,
+      "grad_norm": 0.8627384742243402,
+      "learning_rate": 1.845530534499552e-07,
+      "loss": 0.3544,
+      "step": 1825
+    },
+    {
+      "epoch": 2.476319350473613,
+      "grad_norm": 0.9029783159250494,
+      "learning_rate": 1.8002084875404932e-07,
+      "loss": 0.3477,
+      "step": 1830
+    },
+    {
+      "epoch": 2.483085250338295,
+      "grad_norm": 0.897086339298961,
+      "learning_rate": 1.7553947808575942e-07,
+      "loss": 0.3539,
+      "step": 1835
+    },
+    {
+      "epoch": 2.489851150202977,
+      "grad_norm": 0.8725586565025141,
+      "learning_rate": 1.7110921926449096e-07,
+      "loss": 0.3383,
+      "step": 1840
+    },
+    {
+      "epoch": 2.496617050067659,
+      "grad_norm": 0.8898431694766527,
+      "learning_rate": 1.667303469410065e-07,
+      "loss": 0.3687,
+      "step": 1845
+    },
+    {
+      "epoch": 2.503382949932341,
+      "grad_norm": 0.9307339791361531,
+      "learning_rate": 1.6240313258039974e-07,
+      "loss": 0.3601,
+      "step": 1850
+    },
+    {
+      "epoch": 2.510148849797023,
+      "grad_norm": 0.8244256916902624,
+      "learning_rate": 1.5812784444526395e-07,
+      "loss": 0.3616,
+      "step": 1855
+    },
+    {
+      "epoch": 2.516914749661705,
+      "grad_norm": 0.9133789100954895,
+      "learning_rate": 1.5390474757906448e-07,
+      "loss": 0.3527,
+      "step": 1860
+    },
+    {
+      "epoch": 2.523680649526387,
+      "grad_norm": 0.8697835383455038,
+      "learning_rate": 1.4973410378970487e-07,
+      "loss": 0.3601,
+      "step": 1865
+    },
+    {
+      "epoch": 2.530446549391069,
+      "grad_norm": 0.8705483261045093,
+      "learning_rate": 1.4561617163329732e-07,
+      "loss": 0.3515,
+      "step": 1870
+    },
+    {
+      "epoch": 2.537212449255751,
+      "grad_norm": 0.919448196025797,
+      "learning_rate": 1.415512063981339e-07,
+      "loss": 0.376,
+      "step": 1875
+    },
+    {
+      "epoch": 2.543978349120433,
+      "grad_norm": 0.9204743110179746,
+      "learning_rate": 1.3753946008885974e-07,
+      "loss": 0.3456,
+      "step": 1880
+    },
+    {
+      "epoch": 2.550744248985115,
+      "grad_norm": 0.8844139758771496,
+      "learning_rate": 1.3358118141085019e-07,
+      "loss": 0.352,
+      "step": 1885
+    },
+    {
+      "epoch": 2.557510148849797,
+      "grad_norm": 0.9073647175564544,
+      "learning_rate": 1.2967661575479316e-07,
+      "loss": 0.3595,
+      "step": 1890
+    },
+    {
+      "epoch": 2.564276048714479,
+      "grad_norm": 0.912299137249197,
+      "learning_rate": 1.2582600518147445e-07,
+      "loss": 0.357,
+      "step": 1895
+    },
+    {
+      "epoch": 2.571041948579161,
+      "grad_norm": 0.8934567351315978,
+      "learning_rate": 1.2202958840677423e-07,
+      "loss": 0.3477,
+      "step": 1900
+    },
+    {
+      "epoch": 2.577807848443843,
+      "grad_norm": 0.8725713687816349,
+      "learning_rate": 1.1828760078686561e-07,
+      "loss": 0.3428,
+      "step": 1905
+    },
+    {
+      "epoch": 2.584573748308525,
+      "grad_norm": 0.8864928887002194,
+      "learning_rate": 1.1460027430362474e-07,
+      "loss": 0.3662,
+      "step": 1910
+    },
+    {
+      "epoch": 2.591339648173207,
+      "grad_norm": 0.9005929910622671,
+      "learning_rate": 1.1096783755024941e-07,
+      "loss": 0.3623,
+      "step": 1915
+    },
+    {
+      "epoch": 2.598105548037889,
+      "grad_norm": 0.7848033650671071,
+      "learning_rate": 1.0739051571708735e-07,
+      "loss": 0.3415,
+      "step": 1920
+    },
+    {
+      "epoch": 2.604871447902571,
+      "grad_norm": 0.9406222456253095,
+      "learning_rate": 1.0386853057767575e-07,
+      "loss": 0.3339,
+      "step": 1925
+    },
+    {
+      "epoch": 2.611637347767253,
+      "grad_norm": 0.8932668100486848,
+      "learning_rate": 1.0040210047499287e-07,
+      "loss": 0.3425,
+      "step": 1930
+    },
+    {
+      "epoch": 2.618403247631935,
+      "grad_norm": 0.8560450293626012,
+      "learning_rate": 9.699144030792162e-08,
+      "loss": 0.343,
+      "step": 1935
+    },
+    {
+      "epoch": 2.6251691474966172,
+      "grad_norm": 0.9280954344172404,
+      "learning_rate": 9.363676151792687e-08,
+      "loss": 0.3572,
+      "step": 1940
+    },
+    {
+      "epoch": 2.6319350473612992,
+      "grad_norm": 0.8851171087981926,
+      "learning_rate": 9.033827207594813e-08,
+      "loss": 0.3479,
+      "step": 1945
+    },
+    {
+      "epoch": 2.6387009472259813,
+      "grad_norm": 0.873019296823441,
+      "learning_rate": 8.709617646950562e-08,
+      "loss": 0.344,
+      "step": 1950
+    },
+    {
+      "epoch": 2.6454668470906633,
+      "grad_norm": 0.9468559776953464,
+      "learning_rate": 8.391067569002352e-08,
+      "loss": 0.3554,
+      "step": 1955
+    },
+    {
+      "epoch": 2.6522327469553453,
+      "grad_norm": 0.8450634408899407,
+      "learning_rate": 8.078196722037067e-08,
+      "loss": 0.3468,
+      "step": 1960
+    },
+    {
+      "epoch": 2.6589986468200273,
+      "grad_norm": 0.8375145305560932,
+      "learning_rate": 7.771024502261525e-08,
+      "loss": 0.3639,
+      "step": 1965
+    },
+    {
+      "epoch": 2.6657645466847093,
+      "grad_norm": 0.9112475747346906,
+      "learning_rate": 7.46956995260033e-08,
+      "loss": 0.35,
+      "step": 1970
+    },
+    {
+      "epoch": 2.6725304465493913,
+      "grad_norm": 0.859041632643226,
+      "learning_rate": 7.173851761515082e-08,
+      "loss": 0.3711,
+      "step": 1975
+    },
+    {
+      "epoch": 2.6792963464140733,
+      "grad_norm": 0.8561917409031371,
+      "learning_rate": 6.883888261845915e-08,
+      "loss": 0.3671,
+      "step": 1980
+    },
+    {
+      "epoch": 2.6860622462787553,
+      "grad_norm": 0.8583158468278882,
+      "learning_rate": 6.599697429674945e-08,
+      "loss": 0.3457,
+      "step": 1985
+    },
+    {
+      "epoch": 2.6928281461434374,
+      "grad_norm": 0.8384662131217968,
+      "learning_rate": 6.321296883211835e-08,
+      "loss": 0.3663,
+      "step": 1990
+    },
+    {
+      "epoch": 2.699594046008119,
+      "grad_norm": 0.8644210144891801,
+      "learning_rate": 6.048703881701578e-08,
+      "loss": 0.3243,
+      "step": 1995
+    },
+    {
+      "epoch": 2.706359945872801,
+      "grad_norm": 0.9116612932026876,
+      "learning_rate": 5.7819353243545696e-08,
+      "loss": 0.3589,
+      "step": 2000
+    },
+    {
+      "epoch": 2.713125845737483,
+      "grad_norm": 0.8384136634045634,
+      "learning_rate": 5.5210077492988115e-08,
+      "loss": 0.3432,
+      "step": 2005
+    },
+    {
+      "epoch": 2.719891745602165,
+      "grad_norm": 0.9319361595683447,
+      "learning_rate": 5.265937332554848e-08,
+      "loss": 0.3589,
+      "step": 2010
+    },
+    {
+      "epoch": 2.726657645466847,
+      "grad_norm": 0.802460954171383,
+      "learning_rate": 5.0167398870327726e-08,
+      "loss": 0.348,
+      "step": 2015
+    },
+    {
+      "epoch": 2.733423545331529,
+      "grad_norm": 0.929694180627026,
+      "learning_rate": 4.773430861551997e-08,
+      "loss": 0.3672,
+      "step": 2020
+    },
+    {
+      "epoch": 2.740189445196211,
+      "grad_norm": 0.8795630676030876,
+      "learning_rate": 4.5360253398834756e-08,
+      "loss": 0.3732,
+      "step": 2025
+    },
+    {
+      "epoch": 2.746955345060893,
+      "grad_norm": 0.869675604203364,
+      "learning_rate": 4.304538039814676e-08,
+      "loss": 0.3593,
+      "step": 2030
+    },
+    {
+      "epoch": 2.753721244925575,
+      "grad_norm": 0.9280278511458073,
+      "learning_rate": 4.078983312237017e-08,
+      "loss": 0.3514,
+      "step": 2035
+    },
+    {
+      "epoch": 2.760487144790257,
+      "grad_norm": 0.9251375596608773,
+      "learning_rate": 3.8593751402563715e-08,
+      "loss": 0.3553,
+      "step": 2040
+    },
+    {
+      "epoch": 2.767253044654939,
+      "grad_norm": 0.8501667188191246,
+      "learning_rate": 3.6457271383260376e-08,
+      "loss": 0.349,
+      "step": 2045
+    },
+    {
+      "epoch": 2.774018944519621,
+      "grad_norm": 0.8947009529337395,
+      "learning_rate": 3.4380525514028144e-08,
+      "loss": 0.3599,
+      "step": 2050
+    },
+    {
+      "epoch": 2.780784844384303,
+      "grad_norm": 0.902704782288395,
+      "learning_rate": 3.2363642541258675e-08,
+      "loss": 0.3561,
+      "step": 2055
+    },
+    {
+      "epoch": 2.787550744248985,
+      "grad_norm": 0.963940672315911,
+      "learning_rate": 3.040674750018535e-08,
+      "loss": 0.3612,
+      "step": 2060
+    },
+    {
+      "epoch": 2.794316644113667,
+      "grad_norm": 0.894606555268814,
+      "learning_rate": 2.8509961707132492e-08,
+      "loss": 0.3514,
+      "step": 2065
+    },
+    {
+      "epoch": 2.801082543978349,
+      "grad_norm": 0.9311795802321609,
+      "learning_rate": 2.6673402751994255e-08,
+      "loss": 0.3606,
+      "step": 2070
+    },
+    {
+      "epoch": 2.807848443843031,
+      "grad_norm": 1.0076137323244092,
+      "learning_rate": 2.48971844909438e-08,
+      "loss": 0.3486,
+      "step": 2075
+    },
+    {
+      "epoch": 2.814614343707713,
+      "grad_norm": 0.8753583766452628,
+      "learning_rate": 2.3181417039376482e-08,
+      "loss": 0.3443,
+      "step": 2080
+    },
+    {
+      "epoch": 2.821380243572395,
+      "grad_norm": 0.8223102875665893,
+      "learning_rate": 2.15262067650821e-08,
+      "loss": 0.3556,
+      "step": 2085
+    },
+    {
+      "epoch": 2.828146143437077,
+      "grad_norm": 0.8715707540967064,
+      "learning_rate": 1.9931656281651054e-08,
+      "loss": 0.3485,
+      "step": 2090
+    },
+    {
+      "epoch": 2.834912043301759,
+      "grad_norm": 0.8888143673047149,
+      "learning_rate": 1.8397864442112665e-08,
+      "loss": 0.3612,
+      "step": 2095
+    },
+    {
+      "epoch": 2.841677943166441,
+      "grad_norm": 0.8947023829029207,
+      "learning_rate": 1.6924926332807954e-08,
+      "loss": 0.3541,
+      "step": 2100
+    },
+    {
+      "epoch": 2.848443843031123,
+      "grad_norm": 0.9867169660230928,
+      "learning_rate": 1.5512933267492813e-08,
+      "loss": 0.363,
+      "step": 2105
+    },
+    {
+      "epoch": 2.855209742895805,
+      "grad_norm": 0.9507111411496869,
+      "learning_rate": 1.4161972781679077e-08,
+      "loss": 0.3615,
+      "step": 2110
+    },
+    {
+      "epoch": 2.861975642760487,
+      "grad_norm": 0.8696673010896974,
+      "learning_rate": 1.2872128627206768e-08,
+      "loss": 0.3794,
+      "step": 2115
+    },
+    {
+      "epoch": 2.8687415426251692,
+      "grad_norm": 0.9178924738160209,
+      "learning_rate": 1.1643480767052016e-08,
+      "loss": 0.3613,
+      "step": 2120
+    },
+    {
+      "epoch": 2.8755074424898512,
+      "grad_norm": 0.9732956801022098,
+      "learning_rate": 1.0476105370370026e-08,
+      "loss": 0.3821,
+      "step": 2125
+    },
+    {
+      "epoch": 2.8822733423545333,
+      "grad_norm": 0.8422961892585796,
+      "learning_rate": 9.370074807772964e-09,
+      "loss": 0.3564,
+      "step": 2130
+    },
+    {
+      "epoch": 2.8890392422192153,
+      "grad_norm": 1.0056681655421627,
+      "learning_rate": 8.325457646843336e-09,
+      "loss": 0.3576,
+      "step": 2135
+    },
+    {
+      "epoch": 2.8958051420838973,
+      "grad_norm": 0.9160677102542483,
+      "learning_rate": 7.342318647883594e-09,
+      "loss": 0.3583,
+      "step": 2140
+    },
+    {
+      "epoch": 2.9025710419485793,
+      "grad_norm": 0.8384135309890947,
+      "learning_rate": 6.4207187599003566e-09,
+      "loss": 0.3458,
+      "step": 2145
+    },
+    {
+      "epoch": 2.9093369418132613,
+      "grad_norm": 0.9131471524708257,
+      "learning_rate": 5.560715116827319e-09,
+      "loss": 0.3593,
+      "step": 2150
+    },
+    {
+      "epoch": 2.9161028416779433,
+      "grad_norm": 0.8427821295783314,
+      "learning_rate": 4.762361033981865e-09,
+      "loss": 0.3535,
+      "step": 2155
+    },
+    {
+      "epoch": 2.9228687415426253,
+      "grad_norm": 0.958969130052595,
+      "learning_rate": 4.025706004760931e-09,
+      "loss": 0.3632,
+      "step": 2160
+    },
+    {
+      "epoch": 2.9296346414073073,
+      "grad_norm": 0.880733912248139,
+      "learning_rate": 3.3507956975721285e-09,
+      "loss": 0.3573,
+      "step": 2165
+    },
+    {
+      "epoch": 2.936400541271989,
+      "grad_norm": 0.8980919212381985,
+      "learning_rate": 2.737671953002674e-09,
+      "loss": 0.3456,
+      "step": 2170
+    },
+    {
+      "epoch": 2.943166441136671,
+      "grad_norm": 0.9349123295902202,
+      "learning_rate": 2.186372781225465e-09,
+      "loss": 0.3736,
+      "step": 2175
+    },
+    {
+      "epoch": 2.949932341001353,
+      "grad_norm": 0.9203651581039981,
+      "learning_rate": 1.6969323596427442e-09,
+      "loss": 0.3521,
+      "step": 2180
+    },
+    {
+      "epoch": 2.956698240866035,
+      "grad_norm": 0.9299621034628416,
+      "learning_rate": 1.269381030767458e-09,
+      "loss": 0.3438,
+      "step": 2185
+    },
+    {
+      "epoch": 2.963464140730717,
+      "grad_norm": 0.8732781547569741,
+      "learning_rate": 9.037453003418738e-10,
+      "loss": 0.3359,
+      "step": 2190
+    },
+    {
+      "epoch": 2.970230040595399,
+      "grad_norm": 0.8769262323474034,
+      "learning_rate": 6.000478356944505e-10,
+      "loss": 0.345,
+      "step": 2195
+    },
+    {
+      "epoch": 2.976995940460081,
+      "grad_norm": 0.8652522596459068,
+      "learning_rate": 3.583074643348505e-10,
+      "loss": 0.3625,
+      "step": 2200
+    },
+    {
+      "epoch": 2.983761840324763,
+      "grad_norm": 0.8940927170049301,
+      "learning_rate": 1.7853917278631835e-10,
+      "loss": 0.3546,
+      "step": 2205
+    },
+    {
+      "epoch": 2.990527740189445,
+      "grad_norm": 0.8790726403704445,
+      "learning_rate": 6.075410565697936e-11,
+      "loss": 0.3458,
+      "step": 2210
+    },
+    {
+      "epoch": 2.997293640054127,
+      "grad_norm": 0.8943284329808556,
+      "learning_rate": 4.959564948947559e-12,
+      "loss": 0.3778,
+      "step": 2215
+    },
+    {
+      "epoch": 3.0,
+      "step": 2217,
+      "total_flos": 565924994220032.0,
+      "train_loss": 0.40345258044938437,
+      "train_runtime": 19496.0677,
+      "train_samples_per_second": 14.547,
+      "train_steps_per_second": 0.114
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 2217,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 10086,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 565924994220032.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe4d49f4ccfda21c23bc47b8ae9957a0cff91e94ba80289ad089aa39e5f5de03
+size 7160

training_loss.png ADDED Viewed

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff