aaabiao commited on 21 days ago

Commit

1c46159

1 Parent(s): b29c48e

add model

Files changed (21) hide show

.gitattributes +1 -0
README.md +61 -0
added_tokens.json +24 -0
all_results.json +8 -0
config.json +29 -0
generation_config.json +6 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +346 -0
special_tokens_map.json +31 -0
tokenizer.json +0 -0
tokenizer_config.json +208 -0
train_results.json +8 -0
trainer_log.jsonl +3 -0
trainer_state.json +3416 -0
training_args.bin +3 -0
training_loss.png +0 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.jsonl filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,61 @@

+---
+library_name: transformers
+license: other
+base_model: /gpfs/public/01/models/hf_models/Qwen2.5-7B
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: dag_qwen_sft_v0
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# dag_qwen_sft_v0
+This model is a fine-tuned version of [/gpfs/public/01/models/hf_models/Qwen2.5-7B](https://huggingface.co//gpfs/public/01/models/hf_models/Qwen2.5-7B) on the DAG_sft_v0 dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 4
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 128
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 2.0
+### Training results
+### Framework versions
+- Transformers 4.44.2
+- Pytorch 2.4.1+cu121
+- Datasets 2.21.0
+- Tokenizers 0.19.1

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.9937952430196484,
+    "total_flos": 3.6089290785072087e+18,
+    "train_loss": 0.3119487636316861,
+    "train_runtime": 2571.753,
+    "train_samples_per_second": 24.051,
+    "train_steps_per_second": 0.187
+}

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "/gpfs/public/01/models/hf_models/Qwen2.5-7B",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 131072,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.44.2",
+  "use_cache": false,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_new_tokens": 2048,
+  "transformers_version": "4.44.2"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e37854e61baf2ee8d6ee5125d330b182d8529fabe5b8a1d455c0b0b714ecb5d9
+size 4877660776

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8cdc90b617a003617bcfd3315fd46156aa1b5dd49c1bd5106ae685cc65d9e09
+size 4932751008

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48a4bd1cbdd432329b190d51fa60e39a72a472a198228a971e90b34aea828223
+size 4330865200

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c776016651374c06d0e8e4606b68d6304d1be80a1c779fb619a16f9475be4fe2
+size 1089994880

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 15231233024
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'You are a helpful assistant.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nYou are a helpful assistant.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.9937952430196484,
+    "total_flos": 3.6089290785072087e+18,
+    "train_loss": 0.3119487636316861,
+    "train_runtime": 2571.753,
+    "train_samples_per_second": 24.051,
+    "train_steps_per_second": 0.187
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04c620f09efa8f9889b6c331d1d4a5dad9ac6315e6dab56a72993cdc0db75ad3
+size 93396

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3416 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9937952430196484,
+  "eval_steps": 500,
+  "global_step": 482,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004136504653567736,
+      "grad_norm": 8.454320907592773,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 0.4689,
+      "step": 1
+    },
+    {
+      "epoch": 0.008273009307135471,
+      "grad_norm": 8.755942344665527,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 0.4625,
+      "step": 2
+    },
+    {
+      "epoch": 0.012409513960703205,
+      "grad_norm": 13.382512092590332,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 0.4319,
+      "step": 3
+    },
+    {
+      "epoch": 0.016546018614270942,
+      "grad_norm": 11.072649955749512,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 0.471,
+      "step": 4
+    },
+    {
+      "epoch": 0.020682523267838676,
+      "grad_norm": 4.4571709632873535,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.4341,
+      "step": 5
+    },
+    {
+      "epoch": 0.02481902792140641,
+      "grad_norm": 4.237286567687988,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 0.4637,
+      "step": 6
+    },
+    {
+      "epoch": 0.028955532574974147,
+      "grad_norm": 3.21901535987854,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 0.4598,
+      "step": 7
+    },
+    {
+      "epoch": 0.033092037228541885,
+      "grad_norm": 2.7905218601226807,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.4174,
+      "step": 8
+    },
+    {
+      "epoch": 0.03722854188210962,
+      "grad_norm": 2.5547449588775635,
+      "learning_rate": 3.6000000000000003e-06,
+      "loss": 0.4488,
+      "step": 9
+    },
+    {
+      "epoch": 0.04136504653567735,
+      "grad_norm": 2.075817584991455,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.4323,
+      "step": 10
+    },
+    {
+      "epoch": 0.045501551189245086,
+      "grad_norm": 1.1852331161499023,
+      "learning_rate": 4.4e-06,
+      "loss": 0.404,
+      "step": 11
+    },
+    {
+      "epoch": 0.04963805584281282,
+      "grad_norm": 1.370549201965332,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.3687,
+      "step": 12
+    },
+    {
+      "epoch": 0.05377456049638056,
+      "grad_norm": 0.7430139780044556,
+      "learning_rate": 5.2e-06,
+      "loss": 0.3812,
+      "step": 13
+    },
+    {
+      "epoch": 0.057911065149948295,
+      "grad_norm": 0.8032243251800537,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.373,
+      "step": 14
+    },
+    {
+      "epoch": 0.06204756980351603,
+      "grad_norm": 2.7111802101135254,
+      "learning_rate": 6e-06,
+      "loss": 0.371,
+      "step": 15
+    },
+    {
+      "epoch": 0.06618407445708377,
+      "grad_norm": 0.8430923819541931,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.3891,
+      "step": 16
+    },
+    {
+      "epoch": 0.0703205791106515,
+      "grad_norm": 0.6954956650733948,
+      "learning_rate": 6.800000000000001e-06,
+      "loss": 0.376,
+      "step": 17
+    },
+    {
+      "epoch": 0.07445708376421924,
+      "grad_norm": 0.7058322429656982,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 0.3958,
+      "step": 18
+    },
+    {
+      "epoch": 0.07859358841778696,
+      "grad_norm": 0.5975633859634399,
+      "learning_rate": 7.600000000000001e-06,
+      "loss": 0.3674,
+      "step": 19
+    },
+    {
+      "epoch": 0.0827300930713547,
+      "grad_norm": 0.6905612945556641,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.3925,
+      "step": 20
+    },
+    {
+      "epoch": 0.08686659772492245,
+      "grad_norm": 0.6662179827690125,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 0.3837,
+      "step": 21
+    },
+    {
+      "epoch": 0.09100310237849017,
+      "grad_norm": 0.9616004824638367,
+      "learning_rate": 8.8e-06,
+      "loss": 0.3805,
+      "step": 22
+    },
+    {
+      "epoch": 0.09513960703205791,
+      "grad_norm": 1.6762669086456299,
+      "learning_rate": 9.200000000000002e-06,
+      "loss": 0.3661,
+      "step": 23
+    },
+    {
+      "epoch": 0.09927611168562564,
+      "grad_norm": 3.642876148223877,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.3723,
+      "step": 24
+    },
+    {
+      "epoch": 0.10341261633919338,
+      "grad_norm": 22.331893920898438,
+      "learning_rate": 1e-05,
+      "loss": 0.4012,
+      "step": 25
+    },
+    {
+      "epoch": 0.10754912099276112,
+      "grad_norm": 4.078958034515381,
+      "learning_rate": 9.999881857639567e-06,
+      "loss": 0.4019,
+      "step": 26
+    },
+    {
+      "epoch": 0.11168562564632885,
+      "grad_norm": 2.163355827331543,
+      "learning_rate": 9.999527436141312e-06,
+      "loss": 0.4275,
+      "step": 27
+    },
+    {
+      "epoch": 0.11582213029989659,
+      "grad_norm": 1.0988469123840332,
+      "learning_rate": 9.998936752254111e-06,
+      "loss": 0.3885,
+      "step": 28
+    },
+    {
+      "epoch": 0.11995863495346432,
+      "grad_norm": 1.299137830734253,
+      "learning_rate": 9.998109833891883e-06,
+      "loss": 0.388,
+      "step": 29
+    },
+    {
+      "epoch": 0.12409513960703206,
+      "grad_norm": 5.283950328826904,
+      "learning_rate": 9.997046720132262e-06,
+      "loss": 0.4219,
+      "step": 30
+    },
+    {
+      "epoch": 0.1282316442605998,
+      "grad_norm": 0.8062543869018555,
+      "learning_rate": 9.995747461214752e-06,
+      "loss": 0.3589,
+      "step": 31
+    },
+    {
+      "epoch": 0.13236814891416754,
+      "grad_norm": 0.7722073793411255,
+      "learning_rate": 9.994212118538364e-06,
+      "loss": 0.3486,
+      "step": 32
+    },
+    {
+      "epoch": 0.13650465356773525,
+      "grad_norm": 0.762801468372345,
+      "learning_rate": 9.992440764658697e-06,
+      "loss": 0.3676,
+      "step": 33
+    },
+    {
+      "epoch": 0.140641158221303,
+      "grad_norm": 0.745180606842041,
+      "learning_rate": 9.990433483284527e-06,
+      "loss": 0.4115,
+      "step": 34
+    },
+    {
+      "epoch": 0.14477766287487073,
+      "grad_norm": 0.8027282953262329,
+      "learning_rate": 9.988190369273834e-06,
+      "loss": 0.4001,
+      "step": 35
+    },
+    {
+      "epoch": 0.14891416752843847,
+      "grad_norm": 0.6682556867599487,
+      "learning_rate": 9.985711528629332e-06,
+      "loss": 0.3637,
+      "step": 36
+    },
+    {
+      "epoch": 0.15305067218200621,
+      "grad_norm": 0.6948946714401245,
+      "learning_rate": 9.982997078493457e-06,
+      "loss": 0.3488,
+      "step": 37
+    },
+    {
+      "epoch": 0.15718717683557393,
+      "grad_norm": 0.7381304502487183,
+      "learning_rate": 9.980047147142824e-06,
+      "loss": 0.3777,
+      "step": 38
+    },
+    {
+      "epoch": 0.16132368148914167,
+      "grad_norm": 0.6775998473167419,
+      "learning_rate": 9.976861873982177e-06,
+      "loss": 0.3904,
+      "step": 39
+    },
+    {
+      "epoch": 0.1654601861427094,
+      "grad_norm": 0.8822210431098938,
+      "learning_rate": 9.973441409537795e-06,
+      "loss": 0.383,
+      "step": 40
+    },
+    {
+      "epoch": 0.16959669079627715,
+      "grad_norm": 0.657383382320404,
+      "learning_rate": 9.969785915450368e-06,
+      "loss": 0.3882,
+      "step": 41
+    },
+    {
+      "epoch": 0.1737331954498449,
+      "grad_norm": 0.6214635372161865,
+      "learning_rate": 9.965895564467381e-06,
+      "loss": 0.3922,
+      "step": 42
+    },
+    {
+      "epoch": 0.1778697001034126,
+      "grad_norm": 0.6440220475196838,
+      "learning_rate": 9.961770540434931e-06,
+      "loss": 0.3796,
+      "step": 43
+    },
+    {
+      "epoch": 0.18200620475698034,
+      "grad_norm": 0.6130467653274536,
+      "learning_rate": 9.95741103828905e-06,
+      "loss": 0.3562,
+      "step": 44
+    },
+    {
+      "epoch": 0.18614270941054809,
+      "grad_norm": 0.6214406490325928,
+      "learning_rate": 9.952817264046486e-06,
+      "loss": 0.396,
+      "step": 45
+    },
+    {
+      "epoch": 0.19027921406411583,
+      "grad_norm": 0.5837990641593933,
+      "learning_rate": 9.947989434794973e-06,
+      "loss": 0.3455,
+      "step": 46
+    },
+    {
+      "epoch": 0.19441571871768357,
+      "grad_norm": 0.6432331800460815,
+      "learning_rate": 9.942927778682968e-06,
+      "loss": 0.3791,
+      "step": 47
+    },
+    {
+      "epoch": 0.19855222337125128,
+      "grad_norm": 0.6208926439285278,
+      "learning_rate": 9.937632534908872e-06,
+      "loss": 0.4059,
+      "step": 48
+    },
+    {
+      "epoch": 0.20268872802481902,
+      "grad_norm": 0.6121624112129211,
+      "learning_rate": 9.932103953709724e-06,
+      "loss": 0.3693,
+      "step": 49
+    },
+    {
+      "epoch": 0.20682523267838676,
+      "grad_norm": 0.5415109395980835,
+      "learning_rate": 9.926342296349378e-06,
+      "loss": 0.3192,
+      "step": 50
+    },
+    {
+      "epoch": 0.2109617373319545,
+      "grad_norm": 0.5551713109016418,
+      "learning_rate": 9.920347835106152e-06,
+      "loss": 0.3563,
+      "step": 51
+    },
+    {
+      "epoch": 0.21509824198552224,
+      "grad_norm": 0.6338883638381958,
+      "learning_rate": 9.914120853259968e-06,
+      "loss": 0.3917,
+      "step": 52
+    },
+    {
+      "epoch": 0.21923474663908996,
+      "grad_norm": 0.6104925274848938,
+      "learning_rate": 9.90766164507896e-06,
+      "loss": 0.3983,
+      "step": 53
+    },
+    {
+      "epoch": 0.2233712512926577,
+      "grad_norm": 0.592183530330658,
+      "learning_rate": 9.900970515805564e-06,
+      "loss": 0.341,
+      "step": 54
+    },
+    {
+      "epoch": 0.22750775594622544,
+      "grad_norm": 0.513282060623169,
+      "learning_rate": 9.89404778164211e-06,
+      "loss": 0.3581,
+      "step": 55
+    },
+    {
+      "epoch": 0.23164426059979318,
+      "grad_norm": 0.5831045508384705,
+      "learning_rate": 9.886893769735852e-06,
+      "loss": 0.3561,
+      "step": 56
+    },
+    {
+      "epoch": 0.23578076525336092,
+      "grad_norm": 0.5578728914260864,
+      "learning_rate": 9.879508818163536e-06,
+      "loss": 0.3615,
+      "step": 57
+    },
+    {
+      "epoch": 0.23991726990692863,
+      "grad_norm": 0.6278296709060669,
+      "learning_rate": 9.871893275915408e-06,
+      "loss": 0.3675,
+      "step": 58
+    },
+    {
+      "epoch": 0.24405377456049637,
+      "grad_norm": 0.7174540758132935,
+      "learning_rate": 9.864047502878717e-06,
+      "loss": 0.3633,
+      "step": 59
+    },
+    {
+      "epoch": 0.2481902792140641,
+      "grad_norm": 0.5807657837867737,
+      "learning_rate": 9.855971869820726e-06,
+      "loss": 0.3567,
+      "step": 60
+    },
+    {
+      "epoch": 0.25232678386763185,
+      "grad_norm": 0.5903241038322449,
+      "learning_rate": 9.847666758371175e-06,
+      "loss": 0.3864,
+      "step": 61
+    },
+    {
+      "epoch": 0.2564632885211996,
+      "grad_norm": 0.5542154312133789,
+      "learning_rate": 9.83913256100425e-06,
+      "loss": 0.3763,
+      "step": 62
+    },
+    {
+      "epoch": 0.26059979317476734,
+      "grad_norm": 0.6011348962783813,
+      "learning_rate": 9.830369681020043e-06,
+      "loss": 0.363,
+      "step": 63
+    },
+    {
+      "epoch": 0.2647362978283351,
+      "grad_norm": 0.5147583484649658,
+      "learning_rate": 9.821378532525479e-06,
+      "loss": 0.3634,
+      "step": 64
+    },
+    {
+      "epoch": 0.2688728024819028,
+      "grad_norm": 0.5299031734466553,
+      "learning_rate": 9.812159540414766e-06,
+      "loss": 0.3703,
+      "step": 65
+    },
+    {
+      "epoch": 0.2730093071354705,
+      "grad_norm": 0.525841474533081,
+      "learning_rate": 9.802713140349294e-06,
+      "loss": 0.3592,
+      "step": 66
+    },
+    {
+      "epoch": 0.27714581178903824,
+      "grad_norm": 0.47922268509864807,
+      "learning_rate": 9.79303977873707e-06,
+      "loss": 0.3484,
+      "step": 67
+    },
+    {
+      "epoch": 0.281282316442606,
+      "grad_norm": 0.5722537636756897,
+      "learning_rate": 9.783139912711597e-06,
+      "loss": 0.3435,
+      "step": 68
+    },
+    {
+      "epoch": 0.2854188210961737,
+      "grad_norm": 0.603398859500885,
+      "learning_rate": 9.773014010110298e-06,
+      "loss": 0.3995,
+      "step": 69
+    },
+    {
+      "epoch": 0.28955532574974147,
+      "grad_norm": 0.529694139957428,
+      "learning_rate": 9.76266254945238e-06,
+      "loss": 0.3934,
+      "step": 70
+    },
+    {
+      "epoch": 0.2936918304033092,
+      "grad_norm": 0.5173729062080383,
+      "learning_rate": 9.752086019916246e-06,
+      "loss": 0.3618,
+      "step": 71
+    },
+    {
+      "epoch": 0.29782833505687695,
+      "grad_norm": 0.5737492442131042,
+      "learning_rate": 9.74128492131636e-06,
+      "loss": 0.377,
+      "step": 72
+    },
+    {
+      "epoch": 0.3019648397104447,
+      "grad_norm": 0.6340614557266235,
+      "learning_rate": 9.730259764079636e-06,
+      "loss": 0.3887,
+      "step": 73
+    },
+    {
+      "epoch": 0.30610134436401243,
+      "grad_norm": 0.5502659678459167,
+      "learning_rate": 9.719011069221316e-06,
+      "loss": 0.3749,
+      "step": 74
+    },
+    {
+      "epoch": 0.31023784901758017,
+      "grad_norm": 0.48107632994651794,
+      "learning_rate": 9.70753936832034e-06,
+      "loss": 0.3445,
+      "step": 75
+    },
+    {
+      "epoch": 0.31437435367114785,
+      "grad_norm": 0.47837021946907043,
+      "learning_rate": 9.695845203494242e-06,
+      "loss": 0.3566,
+      "step": 76
+    },
+    {
+      "epoch": 0.3185108583247156,
+      "grad_norm": 0.5170641541481018,
+      "learning_rate": 9.683929127373514e-06,
+      "loss": 0.3878,
+      "step": 77
+    },
+    {
+      "epoch": 0.32264736297828334,
+      "grad_norm": 0.5370326638221741,
+      "learning_rate": 9.671791703075502e-06,
+      "loss": 0.3545,
+      "step": 78
+    },
+    {
+      "epoch": 0.3267838676318511,
+      "grad_norm": 0.5362874865531921,
+      "learning_rate": 9.659433504177786e-06,
+      "loss": 0.3947,
+      "step": 79
+    },
+    {
+      "epoch": 0.3309203722854188,
+      "grad_norm": 0.5446822047233582,
+      "learning_rate": 9.646855114691081e-06,
+      "loss": 0.3777,
+      "step": 80
+    },
+    {
+      "epoch": 0.33505687693898656,
+      "grad_norm": 0.5000081658363342,
+      "learning_rate": 9.63405712903164e-06,
+      "loss": 0.3713,
+      "step": 81
+    },
+    {
+      "epoch": 0.3391933815925543,
+      "grad_norm": 0.4431915581226349,
+      "learning_rate": 9.621040151993153e-06,
+      "loss": 0.3508,
+      "step": 82
+    },
+    {
+      "epoch": 0.34332988624612204,
+      "grad_norm": 0.51210618019104,
+      "learning_rate": 9.607804798718182e-06,
+      "loss": 0.3702,
+      "step": 83
+    },
+    {
+      "epoch": 0.3474663908996898,
+      "grad_norm": 0.49018731713294983,
+      "learning_rate": 9.59435169466907e-06,
+      "loss": 0.3796,
+      "step": 84
+    },
+    {
+      "epoch": 0.3516028955532575,
+      "grad_norm": 0.5700220465660095,
+      "learning_rate": 9.580681475598413e-06,
+      "loss": 0.3882,
+      "step": 85
+    },
+    {
+      "epoch": 0.3557394002068252,
+      "grad_norm": 0.48753252625465393,
+      "learning_rate": 9.566794787518986e-06,
+      "loss": 0.3773,
+      "step": 86
+    },
+    {
+      "epoch": 0.35987590486039295,
+      "grad_norm": 0.47645437717437744,
+      "learning_rate": 9.552692286673231e-06,
+      "loss": 0.3478,
+      "step": 87
+    },
+    {
+      "epoch": 0.3640124095139607,
+      "grad_norm": 0.4645499587059021,
+      "learning_rate": 9.538374639502247e-06,
+      "loss": 0.3523,
+      "step": 88
+    },
+    {
+      "epoch": 0.36814891416752843,
+      "grad_norm": 0.4936198890209198,
+      "learning_rate": 9.523842522614285e-06,
+      "loss": 0.3233,
+      "step": 89
+    },
+    {
+      "epoch": 0.37228541882109617,
+      "grad_norm": 0.47896862030029297,
+      "learning_rate": 9.509096622752781e-06,
+      "loss": 0.3583,
+      "step": 90
+    },
+    {
+      "epoch": 0.3764219234746639,
+      "grad_norm": 0.4804452955722809,
+      "learning_rate": 9.4941376367639e-06,
+      "loss": 0.3441,
+      "step": 91
+    },
+    {
+      "epoch": 0.38055842812823165,
+      "grad_norm": 0.47014203667640686,
+      "learning_rate": 9.478966271563614e-06,
+      "loss": 0.3406,
+      "step": 92
+    },
+    {
+      "epoch": 0.3846949327817994,
+      "grad_norm": 0.5452392101287842,
+      "learning_rate": 9.463583244104274e-06,
+      "loss": 0.3658,
+      "step": 93
+    },
+    {
+      "epoch": 0.38883143743536713,
+      "grad_norm": 0.49594131112098694,
+      "learning_rate": 9.447989281340753e-06,
+      "loss": 0.3644,
+      "step": 94
+    },
+    {
+      "epoch": 0.3929679420889349,
+      "grad_norm": 0.48177802562713623,
+      "learning_rate": 9.43218512019608e-06,
+      "loss": 0.364,
+      "step": 95
+    },
+    {
+      "epoch": 0.39710444674250256,
+      "grad_norm": 0.4789188504219055,
+      "learning_rate": 9.416171507526615e-06,
+      "loss": 0.3724,
+      "step": 96
+    },
+    {
+      "epoch": 0.4012409513960703,
+      "grad_norm": 0.5925107598304749,
+      "learning_rate": 9.399949200086757e-06,
+      "loss": 0.3799,
+      "step": 97
+    },
+    {
+      "epoch": 0.40537745604963804,
+      "grad_norm": 0.540553092956543,
+      "learning_rate": 9.383518964493183e-06,
+      "loss": 0.3913,
+      "step": 98
+    },
+    {
+      "epoch": 0.4095139607032058,
+      "grad_norm": 0.5033954977989197,
+      "learning_rate": 9.36688157718862e-06,
+      "loss": 0.3882,
+      "step": 99
+    },
+    {
+      "epoch": 0.4136504653567735,
+      "grad_norm": 0.4835229218006134,
+      "learning_rate": 9.350037824405151e-06,
+      "loss": 0.357,
+      "step": 100
+    },
+    {
+      "epoch": 0.41778697001034126,
+      "grad_norm": 0.5028110146522522,
+      "learning_rate": 9.332988502127063e-06,
+      "loss": 0.3395,
+      "step": 101
+    },
+    {
+      "epoch": 0.421923474663909,
+      "grad_norm": 0.6103828549385071,
+      "learning_rate": 9.315734416053223e-06,
+      "loss": 0.3832,
+      "step": 102
+    },
+    {
+      "epoch": 0.42605997931747674,
+      "grad_norm": 0.4925767481327057,
+      "learning_rate": 9.298276381559015e-06,
+      "loss": 0.3414,
+      "step": 103
+    },
+    {
+      "epoch": 0.4301964839710445,
+      "grad_norm": 0.5328059792518616,
+      "learning_rate": 9.280615223657801e-06,
+      "loss": 0.3887,
+      "step": 104
+    },
+    {
+      "epoch": 0.4343329886246122,
+      "grad_norm": 0.5046906471252441,
+      "learning_rate": 9.262751776961936e-06,
+      "loss": 0.3608,
+      "step": 105
+    },
+    {
+      "epoch": 0.4384694932781799,
+      "grad_norm": 0.4689864218235016,
+      "learning_rate": 9.24468688564332e-06,
+      "loss": 0.3734,
+      "step": 106
+    },
+    {
+      "epoch": 0.44260599793174765,
+      "grad_norm": 0.46193334460258484,
+      "learning_rate": 9.226421403393513e-06,
+      "loss": 0.3557,
+      "step": 107
+    },
+    {
+      "epoch": 0.4467425025853154,
+      "grad_norm": 0.518205463886261,
+      "learning_rate": 9.207956193383392e-06,
+      "loss": 0.3293,
+      "step": 108
+    },
+    {
+      "epoch": 0.45087900723888313,
+      "grad_norm": 0.5061272978782654,
+      "learning_rate": 9.189292128222355e-06,
+      "loss": 0.3477,
+      "step": 109
+    },
+    {
+      "epoch": 0.4550155118924509,
+      "grad_norm": 0.46607810258865356,
+      "learning_rate": 9.170430089917089e-06,
+      "loss": 0.3978,
+      "step": 110
+    },
+    {
+      "epoch": 0.4591520165460186,
+      "grad_norm": 0.4538101851940155,
+      "learning_rate": 9.151370969829883e-06,
+      "loss": 0.3525,
+      "step": 111
+    },
+    {
+      "epoch": 0.46328852119958636,
+      "grad_norm": 0.4456521272659302,
+      "learning_rate": 9.132115668636512e-06,
+      "loss": 0.3575,
+      "step": 112
+    },
+    {
+      "epoch": 0.4674250258531541,
+      "grad_norm": 0.5219409465789795,
+      "learning_rate": 9.112665096283668e-06,
+      "loss": 0.3703,
+      "step": 113
+    },
+    {
+      "epoch": 0.47156153050672184,
+      "grad_norm": 0.5195448398590088,
+      "learning_rate": 9.093020171945966e-06,
+      "loss": 0.3651,
+      "step": 114
+    },
+    {
+      "epoch": 0.4756980351602896,
+      "grad_norm": 0.5239256620407104,
+      "learning_rate": 9.073181823982495e-06,
+      "loss": 0.3555,
+      "step": 115
+    },
+    {
+      "epoch": 0.47983453981385726,
+      "grad_norm": 0.4262794852256775,
+      "learning_rate": 9.05315098989296e-06,
+      "loss": 0.3303,
+      "step": 116
+    },
+    {
+      "epoch": 0.483971044467425,
+      "grad_norm": 0.4619412422180176,
+      "learning_rate": 9.032928616273369e-06,
+      "loss": 0.3612,
+      "step": 117
+    },
+    {
+      "epoch": 0.48810754912099275,
+      "grad_norm": 0.468650758266449,
+      "learning_rate": 9.012515658771301e-06,
+      "loss": 0.3725,
+      "step": 118
+    },
+    {
+      "epoch": 0.4922440537745605,
+      "grad_norm": 0.4874132573604584,
+      "learning_rate": 8.991913082040752e-06,
+      "loss": 0.3671,
+      "step": 119
+    },
+    {
+      "epoch": 0.4963805584281282,
+      "grad_norm": 0.48114946484565735,
+      "learning_rate": 8.971121859696539e-06,
+      "loss": 0.3603,
+      "step": 120
+    },
+    {
+      "epoch": 0.500517063081696,
+      "grad_norm": 0.5342724919319153,
+      "learning_rate": 8.950142974268295e-06,
+      "loss": 0.3561,
+      "step": 121
+    },
+    {
+      "epoch": 0.5046535677352637,
+      "grad_norm": 0.5296602845191956,
+      "learning_rate": 8.928977417154037e-06,
+      "loss": 0.3552,
+      "step": 122
+    },
+    {
+      "epoch": 0.5087900723888314,
+      "grad_norm": 0.47604137659072876,
+      "learning_rate": 8.907626188573319e-06,
+      "loss": 0.3751,
+      "step": 123
+    },
+    {
+      "epoch": 0.5129265770423992,
+      "grad_norm": 0.544127345085144,
+      "learning_rate": 8.886090297519956e-06,
+      "loss": 0.39,
+      "step": 124
+    },
+    {
+      "epoch": 0.5170630816959669,
+      "grad_norm": 0.495714396238327,
+      "learning_rate": 8.864370761714348e-06,
+      "loss": 0.3764,
+      "step": 125
+    },
+    {
+      "epoch": 0.5211995863495347,
+      "grad_norm": 0.45246466994285583,
+      "learning_rate": 8.842468607555389e-06,
+      "loss": 0.3273,
+      "step": 126
+    },
+    {
+      "epoch": 0.5253360910031024,
+      "grad_norm": 0.46964627504348755,
+      "learning_rate": 8.820384870071951e-06,
+      "loss": 0.3712,
+      "step": 127
+    },
+    {
+      "epoch": 0.5294725956566702,
+      "grad_norm": 0.5150438547134399,
+      "learning_rate": 8.79812059287399e-06,
+      "loss": 0.3676,
+      "step": 128
+    },
+    {
+      "epoch": 0.5336091003102379,
+      "grad_norm": 0.48608115315437317,
+      "learning_rate": 8.775676828103205e-06,
+      "loss": 0.3862,
+      "step": 129
+    },
+    {
+      "epoch": 0.5377456049638056,
+      "grad_norm": 0.5238416790962219,
+      "learning_rate": 8.753054636383336e-06,
+      "loss": 0.3927,
+      "step": 130
+    },
+    {
+      "epoch": 0.5418821096173733,
+      "grad_norm": 0.4756030738353729,
+      "learning_rate": 8.730255086770037e-06,
+      "loss": 0.3429,
+      "step": 131
+    },
+    {
+      "epoch": 0.546018614270941,
+      "grad_norm": 0.46515801548957825,
+      "learning_rate": 8.707279256700348e-06,
+      "loss": 0.3367,
+      "step": 132
+    },
+    {
+      "epoch": 0.5501551189245087,
+      "grad_norm": 0.5517006516456604,
+      "learning_rate": 8.684128231941789e-06,
+      "loss": 0.3688,
+      "step": 133
+    },
+    {
+      "epoch": 0.5542916235780765,
+      "grad_norm": 0.5072327852249146,
+      "learning_rate": 8.660803106541044e-06,
+      "loss": 0.3224,
+      "step": 134
+    },
+    {
+      "epoch": 0.5584281282316442,
+      "grad_norm": 0.4414540231227875,
+      "learning_rate": 8.637304982772263e-06,
+      "loss": 0.3166,
+      "step": 135
+    },
+    {
+      "epoch": 0.562564632885212,
+      "grad_norm": 0.5401909351348877,
+      "learning_rate": 8.613634971084967e-06,
+      "loss": 0.3697,
+      "step": 136
+    },
+    {
+      "epoch": 0.5667011375387797,
+      "grad_norm": 0.502416729927063,
+      "learning_rate": 8.589794190051582e-06,
+      "loss": 0.3647,
+      "step": 137
+    },
+    {
+      "epoch": 0.5708376421923474,
+      "grad_norm": 0.49979519844055176,
+      "learning_rate": 8.56578376631456e-06,
+      "loss": 0.3542,
+      "step": 138
+    },
+    {
+      "epoch": 0.5749741468459152,
+      "grad_norm": 0.4783455431461334,
+      "learning_rate": 8.541604834533159e-06,
+      "loss": 0.3577,
+      "step": 139
+    },
+    {
+      "epoch": 0.5791106514994829,
+      "grad_norm": 0.4866260886192322,
+      "learning_rate": 8.51725853732981e-06,
+      "loss": 0.3567,
+      "step": 140
+    },
+    {
+      "epoch": 0.5832471561530507,
+      "grad_norm": 0.480307012796402,
+      "learning_rate": 8.492746025236113e-06,
+      "loss": 0.335,
+      "step": 141
+    },
+    {
+      "epoch": 0.5873836608066184,
+      "grad_norm": 0.4932575821876526,
+      "learning_rate": 8.468068456638491e-06,
+      "loss": 0.3411,
+      "step": 142
+    },
+    {
+      "epoch": 0.5915201654601862,
+      "grad_norm": 0.49242812395095825,
+      "learning_rate": 8.443226997723426e-06,
+      "loss": 0.3589,
+      "step": 143
+    },
+    {
+      "epoch": 0.5956566701137539,
+      "grad_norm": 0.5170210599899292,
+      "learning_rate": 8.418222822422348e-06,
+      "loss": 0.385,
+      "step": 144
+    },
+    {
+      "epoch": 0.5997931747673216,
+      "grad_norm": 0.45948079228401184,
+      "learning_rate": 8.393057112356181e-06,
+      "loss": 0.3502,
+      "step": 145
+    },
+    {
+      "epoch": 0.6039296794208894,
+      "grad_norm": 0.47525444626808167,
+      "learning_rate": 8.367731056779476e-06,
+      "loss": 0.3387,
+      "step": 146
+    },
+    {
+      "epoch": 0.6080661840744571,
+      "grad_norm": 0.4996655583381653,
+      "learning_rate": 8.342245852524229e-06,
+      "loss": 0.3243,
+      "step": 147
+    },
+    {
+      "epoch": 0.6122026887280249,
+      "grad_norm": 0.4717055559158325,
+      "learning_rate": 8.316602703943315e-06,
+      "loss": 0.3696,
+      "step": 148
+    },
+    {
+      "epoch": 0.6163391933815926,
+      "grad_norm": 0.5229761600494385,
+      "learning_rate": 8.290802822853576e-06,
+      "loss": 0.4026,
+      "step": 149
+    },
+    {
+      "epoch": 0.6204756980351603,
+      "grad_norm": 0.4920945465564728,
+      "learning_rate": 8.26484742847855e-06,
+      "loss": 0.3555,
+      "step": 150
+    },
+    {
+      "epoch": 0.6246122026887281,
+      "grad_norm": 0.416532963514328,
+      "learning_rate": 8.238737747390859e-06,
+      "loss": 0.3145,
+      "step": 151
+    },
+    {
+      "epoch": 0.6287487073422957,
+      "grad_norm": 0.4948025941848755,
+      "learning_rate": 8.212475013454249e-06,
+      "loss": 0.3603,
+      "step": 152
+    },
+    {
+      "epoch": 0.6328852119958635,
+      "grad_norm": 0.4692654013633728,
+      "learning_rate": 8.186060467765268e-06,
+      "loss": 0.3541,
+      "step": 153
+    },
+    {
+      "epoch": 0.6370217166494312,
+      "grad_norm": 0.4930100440979004,
+      "learning_rate": 8.159495358594627e-06,
+      "loss": 0.328,
+      "step": 154
+    },
+    {
+      "epoch": 0.6411582213029989,
+      "grad_norm": 0.46493637561798096,
+      "learning_rate": 8.13278094132821e-06,
+      "loss": 0.3514,
+      "step": 155
+    },
+    {
+      "epoch": 0.6452947259565667,
+      "grad_norm": 0.5059131383895874,
+      "learning_rate": 8.10591847840774e-06,
+      "loss": 0.3522,
+      "step": 156
+    },
+    {
+      "epoch": 0.6494312306101344,
+      "grad_norm": 0.5415008664131165,
+      "learning_rate": 8.078909239271127e-06,
+      "loss": 0.345,
+      "step": 157
+    },
+    {
+      "epoch": 0.6535677352637022,
+      "grad_norm": 0.49019861221313477,
+      "learning_rate": 8.051754500292479e-06,
+      "loss": 0.3526,
+      "step": 158
+    },
+    {
+      "epoch": 0.6577042399172699,
+      "grad_norm": 0.4391830563545227,
+      "learning_rate": 8.024455544721778e-06,
+      "loss": 0.3368,
+      "step": 159
+    },
+    {
+      "epoch": 0.6618407445708376,
+      "grad_norm": 0.5758143663406372,
+      "learning_rate": 7.997013662624246e-06,
+      "loss": 0.3606,
+      "step": 160
+    },
+    {
+      "epoch": 0.6659772492244054,
+      "grad_norm": 0.46434131264686584,
+      "learning_rate": 7.969430150819372e-06,
+      "loss": 0.3263,
+      "step": 161
+    },
+    {
+      "epoch": 0.6701137538779731,
+      "grad_norm": 0.5234054923057556,
+      "learning_rate": 7.941706312819632e-06,
+      "loss": 0.3635,
+      "step": 162
+    },
+    {
+      "epoch": 0.6742502585315409,
+      "grad_norm": 0.46102845668792725,
+      "learning_rate": 7.913843458768892e-06,
+      "loss": 0.3487,
+      "step": 163
+    },
+    {
+      "epoch": 0.6783867631851086,
+      "grad_norm": 0.505272388458252,
+      "learning_rate": 7.88584290538049e-06,
+      "loss": 0.3687,
+      "step": 164
+    },
+    {
+      "epoch": 0.6825232678386763,
+      "grad_norm": 0.5247129797935486,
+      "learning_rate": 7.857705975875015e-06,
+      "loss": 0.3575,
+      "step": 165
+    },
+    {
+      "epoch": 0.6866597724922441,
+      "grad_norm": 0.4995476007461548,
+      "learning_rate": 7.829433999917773e-06,
+      "loss": 0.3583,
+      "step": 166
+    },
+    {
+      "epoch": 0.6907962771458118,
+      "grad_norm": 0.478943407535553,
+      "learning_rate": 7.801028313555954e-06,
+      "loss": 0.3539,
+      "step": 167
+    },
+    {
+      "epoch": 0.6949327817993796,
+      "grad_norm": 0.4750828146934509,
+      "learning_rate": 7.772490259155493e-06,
+      "loss": 0.3317,
+      "step": 168
+    },
+    {
+      "epoch": 0.6990692864529473,
+      "grad_norm": 0.4754940867424011,
+      "learning_rate": 7.743821185337634e-06,
+      "loss": 0.3209,
+      "step": 169
+    },
+    {
+      "epoch": 0.703205791106515,
+      "grad_norm": 0.4950121343135834,
+      "learning_rate": 7.715022446915195e-06,
+      "loss": 0.3341,
+      "step": 170
+    },
+    {
+      "epoch": 0.7073422957600828,
+      "grad_norm": 0.48745468258857727,
+      "learning_rate": 7.686095404828552e-06,
+      "loss": 0.3602,
+      "step": 171
+    },
+    {
+      "epoch": 0.7114788004136504,
+      "grad_norm": 0.48764947056770325,
+      "learning_rate": 7.65704142608132e-06,
+      "loss": 0.3624,
+      "step": 172
+    },
+    {
+      "epoch": 0.7156153050672182,
+      "grad_norm": 0.5114070773124695,
+      "learning_rate": 7.627861883675748e-06,
+      "loss": 0.3449,
+      "step": 173
+    },
+    {
+      "epoch": 0.7197518097207859,
+      "grad_norm": 0.4847152829170227,
+      "learning_rate": 7.598558156547842e-06,
+      "loss": 0.3318,
+      "step": 174
+    },
+    {
+      "epoch": 0.7238883143743536,
+      "grad_norm": 0.5162774920463562,
+      "learning_rate": 7.569131629502201e-06,
+      "loss": 0.3539,
+      "step": 175
+    },
+    {
+      "epoch": 0.7280248190279214,
+      "grad_norm": 0.49352213740348816,
+      "learning_rate": 7.53958369314657e-06,
+      "loss": 0.3504,
+      "step": 176
+    },
+    {
+      "epoch": 0.7321613236814891,
+      "grad_norm": 0.4514661133289337,
+      "learning_rate": 7.509915743826128e-06,
+      "loss": 0.3602,
+      "step": 177
+    },
+    {
+      "epoch": 0.7362978283350569,
+      "grad_norm": 0.5056818127632141,
+      "learning_rate": 7.480129183557499e-06,
+      "loss": 0.3511,
+      "step": 178
+    },
+    {
+      "epoch": 0.7404343329886246,
+      "grad_norm": 0.5009995102882385,
+      "learning_rate": 7.450225419962498e-06,
+      "loss": 0.3299,
+      "step": 179
+    },
+    {
+      "epoch": 0.7445708376421923,
+      "grad_norm": 0.5529451966285706,
+      "learning_rate": 7.4202058662016155e-06,
+      "loss": 0.3605,
+      "step": 180
+    },
+    {
+      "epoch": 0.7487073422957601,
+      "grad_norm": 0.5108004212379456,
+      "learning_rate": 7.390071940907222e-06,
+      "loss": 0.3497,
+      "step": 181
+    },
+    {
+      "epoch": 0.7528438469493278,
+      "grad_norm": 0.45150938630104065,
+      "learning_rate": 7.3598250681165485e-06,
+      "loss": 0.347,
+      "step": 182
+    },
+    {
+      "epoch": 0.7569803516028956,
+      "grad_norm": 0.49005162715911865,
+      "learning_rate": 7.329466677204371e-06,
+      "loss": 0.3485,
+      "step": 183
+    },
+    {
+      "epoch": 0.7611168562564633,
+      "grad_norm": 0.4927361011505127,
+      "learning_rate": 7.298998202815474e-06,
+      "loss": 0.3432,
+      "step": 184
+    },
+    {
+      "epoch": 0.765253360910031,
+      "grad_norm": 0.48336061835289,
+      "learning_rate": 7.268421084796852e-06,
+      "loss": 0.3443,
+      "step": 185
+    },
+    {
+      "epoch": 0.7693898655635988,
+      "grad_norm": 0.48736652731895447,
+      "learning_rate": 7.237736768129663e-06,
+      "loss": 0.3418,
+      "step": 186
+    },
+    {
+      "epoch": 0.7735263702171665,
+      "grad_norm": 0.4602266252040863,
+      "learning_rate": 7.206946702860948e-06,
+      "loss": 0.3322,
+      "step": 187
+    },
+    {
+      "epoch": 0.7776628748707343,
+      "grad_norm": 0.4475662410259247,
+      "learning_rate": 7.176052344035101e-06,
+      "loss": 0.3519,
+      "step": 188
+    },
+    {
+      "epoch": 0.781799379524302,
+      "grad_norm": 0.46669697761535645,
+      "learning_rate": 7.145055151625113e-06,
+      "loss": 0.3623,
+      "step": 189
+    },
+    {
+      "epoch": 0.7859358841778697,
+      "grad_norm": 0.4729274809360504,
+      "learning_rate": 7.1139565904635755e-06,
+      "loss": 0.3517,
+      "step": 190
+    },
+    {
+      "epoch": 0.7900723888314375,
+      "grad_norm": 0.49703437089920044,
+      "learning_rate": 7.082758130173456e-06,
+      "loss": 0.3732,
+      "step": 191
+    },
+    {
+      "epoch": 0.7942088934850051,
+      "grad_norm": 0.5119916200637817,
+      "learning_rate": 7.051461245098654e-06,
+      "loss": 0.3421,
+      "step": 192
+    },
+    {
+      "epoch": 0.7983453981385729,
+      "grad_norm": 0.4503278434276581,
+      "learning_rate": 7.020067414234315e-06,
+      "loss": 0.3342,
+      "step": 193
+    },
+    {
+      "epoch": 0.8024819027921406,
+      "grad_norm": 0.46572044491767883,
+      "learning_rate": 6.988578121156956e-06,
+      "loss": 0.3314,
+      "step": 194
+    },
+    {
+      "epoch": 0.8066184074457083,
+      "grad_norm": 0.49221017956733704,
+      "learning_rate": 6.956994853954342e-06,
+      "loss": 0.3634,
+      "step": 195
+    },
+    {
+      "epoch": 0.8107549120992761,
+      "grad_norm": 0.5337055921554565,
+      "learning_rate": 6.925319105155165e-06,
+      "loss": 0.346,
+      "step": 196
+    },
+    {
+      "epoch": 0.8148914167528438,
+      "grad_norm": 0.4575997591018677,
+      "learning_rate": 6.8935523716585195e-06,
+      "loss": 0.3538,
+      "step": 197
+    },
+    {
+      "epoch": 0.8190279214064116,
+      "grad_norm": 0.5041812062263489,
+      "learning_rate": 6.8616961546631575e-06,
+      "loss": 0.3548,
+      "step": 198
+    },
+    {
+      "epoch": 0.8231644260599793,
+      "grad_norm": 0.4733670651912689,
+      "learning_rate": 6.829751959596544e-06,
+      "loss": 0.3414,
+      "step": 199
+    },
+    {
+      "epoch": 0.827300930713547,
+      "grad_norm": 0.48330968618392944,
+      "learning_rate": 6.797721296043727e-06,
+      "loss": 0.325,
+      "step": 200
+    },
+    {
+      "epoch": 0.8314374353671148,
+      "grad_norm": 0.4963349997997284,
+      "learning_rate": 6.765605677675982e-06,
+      "loss": 0.3858,
+      "step": 201
+    },
+    {
+      "epoch": 0.8355739400206825,
+      "grad_norm": 0.5333994626998901,
+      "learning_rate": 6.733406622179295e-06,
+      "loss": 0.3538,
+      "step": 202
+    },
+    {
+      "epoch": 0.8397104446742503,
+      "grad_norm": 0.4624415338039398,
+      "learning_rate": 6.701125651182631e-06,
+      "loss": 0.3025,
+      "step": 203
+    },
+    {
+      "epoch": 0.843846949327818,
+      "grad_norm": 0.45845648646354675,
+      "learning_rate": 6.668764290186039e-06,
+      "loss": 0.3458,
+      "step": 204
+    },
+    {
+      "epoch": 0.8479834539813857,
+      "grad_norm": 0.5057909488677979,
+      "learning_rate": 6.6363240684885465e-06,
+      "loss": 0.33,
+      "step": 205
+    },
+    {
+      "epoch": 0.8521199586349535,
+      "grad_norm": 0.5474227666854858,
+      "learning_rate": 6.603806519115899e-06,
+      "loss": 0.3386,
+      "step": 206
+    },
+    {
+      "epoch": 0.8562564632885212,
+      "grad_norm": 0.5117132067680359,
+      "learning_rate": 6.571213178748112e-06,
+      "loss": 0.3775,
+      "step": 207
+    },
+    {
+      "epoch": 0.860392967942089,
+      "grad_norm": 0.4669731557369232,
+      "learning_rate": 6.538545587646854e-06,
+      "loss": 0.3575,
+      "step": 208
+    },
+    {
+      "epoch": 0.8645294725956567,
+      "grad_norm": 0.4318840503692627,
+      "learning_rate": 6.50580528958265e-06,
+      "loss": 0.3201,
+      "step": 209
+    },
+    {
+      "epoch": 0.8686659772492245,
+      "grad_norm": 0.5034843683242798,
+      "learning_rate": 6.47299383176194e-06,
+      "loss": 0.3169,
+      "step": 210
+    },
+    {
+      "epoch": 0.8728024819027922,
+      "grad_norm": 0.5146070122718811,
+      "learning_rate": 6.440112764753956e-06,
+      "loss": 0.3653,
+      "step": 211
+    },
+    {
+      "epoch": 0.8769389865563598,
+      "grad_norm": 0.49277129769325256,
+      "learning_rate": 6.4071636424174435e-06,
+      "loss": 0.3485,
+      "step": 212
+    },
+    {
+      "epoch": 0.8810754912099276,
+      "grad_norm": 0.4620700776576996,
+      "learning_rate": 6.374148021827237e-06,
+      "loss": 0.3525,
+      "step": 213
+    },
+    {
+      "epoch": 0.8852119958634953,
+      "grad_norm": 0.5235023498535156,
+      "learning_rate": 6.341067463200678e-06,
+      "loss": 0.3638,
+      "step": 214
+    },
+    {
+      "epoch": 0.889348500517063,
+      "grad_norm": 0.4999266564846039,
+      "learning_rate": 6.307923529823876e-06,
+      "loss": 0.3692,
+      "step": 215
+    },
+    {
+      "epoch": 0.8934850051706308,
+      "grad_norm": 0.46116530895233154,
+      "learning_rate": 6.2747177879778424e-06,
+      "loss": 0.3316,
+      "step": 216
+    },
+    {
+      "epoch": 0.8976215098241985,
+      "grad_norm": 0.4651578664779663,
+      "learning_rate": 6.241451806864465e-06,
+      "loss": 0.3176,
+      "step": 217
+    },
+    {
+      "epoch": 0.9017580144777663,
+      "grad_norm": 0.45744726061820984,
+      "learning_rate": 6.208127158532358e-06,
+      "loss": 0.3261,
+      "step": 218
+    },
+    {
+      "epoch": 0.905894519131334,
+      "grad_norm": 0.4478837549686432,
+      "learning_rate": 6.174745417802563e-06,
+      "loss": 0.3357,
+      "step": 219
+    },
+    {
+      "epoch": 0.9100310237849017,
+      "grad_norm": 0.49428898096084595,
+      "learning_rate": 6.141308162194141e-06,
+      "loss": 0.321,
+      "step": 220
+    },
+    {
+      "epoch": 0.9141675284384695,
+      "grad_norm": 0.4366098642349243,
+      "learning_rate": 6.1078169718496164e-06,
+      "loss": 0.3132,
+      "step": 221
+    },
+    {
+      "epoch": 0.9183040330920372,
+      "grad_norm": 0.5066491365432739,
+      "learning_rate": 6.074273429460296e-06,
+      "loss": 0.3342,
+      "step": 222
+    },
+    {
+      "epoch": 0.922440537745605,
+      "grad_norm": 0.4254951775074005,
+      "learning_rate": 6.040679120191491e-06,
+      "loss": 0.3089,
+      "step": 223
+    },
+    {
+      "epoch": 0.9265770423991727,
+      "grad_norm": 0.46807774901390076,
+      "learning_rate": 6.007035631607605e-06,
+      "loss": 0.3182,
+      "step": 224
+    },
+    {
+      "epoch": 0.9307135470527405,
+      "grad_norm": 0.4610796570777893,
+      "learning_rate": 5.9733445535970915e-06,
+      "loss": 0.3239,
+      "step": 225
+    },
+    {
+      "epoch": 0.9348500517063082,
+      "grad_norm": 0.5245600342750549,
+      "learning_rate": 5.939607478297347e-06,
+      "loss": 0.3818,
+      "step": 226
+    },
+    {
+      "epoch": 0.9389865563598759,
+      "grad_norm": 0.45463472604751587,
+      "learning_rate": 5.905826000019458e-06,
+      "loss": 0.3109,
+      "step": 227
+    },
+    {
+      "epoch": 0.9431230610134437,
+      "grad_norm": 0.46084877848625183,
+      "learning_rate": 5.8720017151728526e-06,
+      "loss": 0.3475,
+      "step": 228
+    },
+    {
+      "epoch": 0.9472595656670114,
+      "grad_norm": 0.46296611428260803,
+      "learning_rate": 5.838136222189874e-06,
+      "loss": 0.3343,
+      "step": 229
+    },
+    {
+      "epoch": 0.9513960703205792,
+      "grad_norm": 0.458286315202713,
+      "learning_rate": 5.804231121450235e-06,
+      "loss": 0.3454,
+      "step": 230
+    },
+    {
+      "epoch": 0.9555325749741469,
+      "grad_norm": 0.42349058389663696,
+      "learning_rate": 5.770288015205385e-06,
+      "loss": 0.329,
+      "step": 231
+    },
+    {
+      "epoch": 0.9596690796277145,
+      "grad_norm": 0.4541251063346863,
+      "learning_rate": 5.736308507502805e-06,
+      "loss": 0.3296,
+      "step": 232
+    },
+    {
+      "epoch": 0.9638055842812823,
+      "grad_norm": 0.4887123107910156,
+      "learning_rate": 5.702294204110191e-06,
+      "loss": 0.3374,
+      "step": 233
+    },
+    {
+      "epoch": 0.96794208893485,
+      "grad_norm": 0.46135684847831726,
+      "learning_rate": 5.668246712439579e-06,
+      "loss": 0.3426,
+      "step": 234
+    },
+    {
+      "epoch": 0.9720785935884177,
+      "grad_norm": 0.4848094582557678,
+      "learning_rate": 5.634167641471383e-06,
+      "loss": 0.3626,
+      "step": 235
+    },
+    {
+      "epoch": 0.9762150982419855,
+      "grad_norm": 0.4424203932285309,
+      "learning_rate": 5.600058601678357e-06,
+      "loss": 0.302,
+      "step": 236
+    },
+    {
+      "epoch": 0.9803516028955532,
+      "grad_norm": 0.46382346749305725,
+      "learning_rate": 5.5659212049494915e-06,
+      "loss": 0.3357,
+      "step": 237
+    },
+    {
+      "epoch": 0.984488107549121,
+      "grad_norm": 0.4296742379665375,
+      "learning_rate": 5.531757064513837e-06,
+      "loss": 0.3162,
+      "step": 238
+    },
+    {
+      "epoch": 0.9886246122026887,
+      "grad_norm": 0.42605388164520264,
+      "learning_rate": 5.4975677948642704e-06,
+      "loss": 0.3204,
+      "step": 239
+    },
+    {
+      "epoch": 0.9927611168562565,
+      "grad_norm": 0.4539097547531128,
+      "learning_rate": 5.4633550116812e-06,
+      "loss": 0.327,
+      "step": 240
+    },
+    {
+      "epoch": 0.9968976215098242,
+      "grad_norm": 0.4806179404258728,
+      "learning_rate": 5.429120331756208e-06,
+      "loss": 0.3469,
+      "step": 241
+    },
+    {
+      "epoch": 1.001034126163392,
+      "grad_norm": 0.4494527280330658,
+      "learning_rate": 5.394865372915656e-06,
+      "loss": 0.3304,
+      "step": 242
+    },
+    {
+      "epoch": 1.0051706308169597,
+      "grad_norm": 0.5063448548316956,
+      "learning_rate": 5.360591753944221e-06,
+      "loss": 0.2792,
+      "step": 243
+    },
+    {
+      "epoch": 1.0093071354705274,
+      "grad_norm": 0.47153183817863464,
+      "learning_rate": 5.3263010945083994e-06,
+      "loss": 0.2593,
+      "step": 244
+    },
+    {
+      "epoch": 1.0134436401240952,
+      "grad_norm": 0.5729573369026184,
+      "learning_rate": 5.291995015079969e-06,
+      "loss": 0.2884,
+      "step": 245
+    },
+    {
+      "epoch": 1.017580144777663,
+      "grad_norm": 0.5748021602630615,
+      "learning_rate": 5.257675136859415e-06,
+      "loss": 0.2852,
+      "step": 246
+    },
+    {
+      "epoch": 1.0217166494312306,
+      "grad_norm": 0.49926644563674927,
+      "learning_rate": 5.223343081699302e-06,
+      "loss": 0.2947,
+      "step": 247
+    },
+    {
+      "epoch": 1.0258531540847984,
+      "grad_norm": 0.5036705732345581,
+      "learning_rate": 5.189000472027645e-06,
+      "loss": 0.2747,
+      "step": 248
+    },
+    {
+      "epoch": 1.0299896587383661,
+      "grad_norm": 0.557823896408081,
+      "learning_rate": 5.1546489307712345e-06,
+      "loss": 0.2724,
+      "step": 249
+    },
+    {
+      "epoch": 1.0341261633919339,
+      "grad_norm": 0.49561646580696106,
+      "learning_rate": 5.1202900812789346e-06,
+      "loss": 0.263,
+      "step": 250
+    },
+    {
+      "epoch": 1.0382626680455016,
+      "grad_norm": 0.46465885639190674,
+      "learning_rate": 5.085925547244978e-06,
+      "loss": 0.263,
+      "step": 251
+    },
+    {
+      "epoch": 1.0423991726990693,
+      "grad_norm": 0.5004085302352905,
+      "learning_rate": 5.051556952632235e-06,
+      "loss": 0.2831,
+      "step": 252
+    },
+    {
+      "epoch": 1.046535677352637,
+      "grad_norm": 0.5784794688224792,
+      "learning_rate": 5.0171859215954575e-06,
+      "loss": 0.2835,
+      "step": 253
+    },
+    {
+      "epoch": 1.0506721820062048,
+      "grad_norm": 0.4798305332660675,
+      "learning_rate": 4.982814078404543e-06,
+      "loss": 0.2382,
+      "step": 254
+    },
+    {
+      "epoch": 1.0548086866597726,
+      "grad_norm": 0.47284895181655884,
+      "learning_rate": 4.948443047367767e-06,
+      "loss": 0.2491,
+      "step": 255
+    },
+    {
+      "epoch": 1.0589451913133403,
+      "grad_norm": 0.4997791051864624,
+      "learning_rate": 4.9140744527550225e-06,
+      "loss": 0.2484,
+      "step": 256
+    },
+    {
+      "epoch": 1.063081695966908,
+      "grad_norm": 0.4812958836555481,
+      "learning_rate": 4.879709918721067e-06,
+      "loss": 0.2674,
+      "step": 257
+    },
+    {
+      "epoch": 1.0672182006204758,
+      "grad_norm": 0.4800451099872589,
+      "learning_rate": 4.845351069228767e-06,
+      "loss": 0.2625,
+      "step": 258
+    },
+    {
+      "epoch": 1.0713547052740435,
+      "grad_norm": 0.5013061165809631,
+      "learning_rate": 4.8109995279723556e-06,
+      "loss": 0.2739,
+      "step": 259
+    },
+    {
+      "epoch": 1.0754912099276113,
+      "grad_norm": 0.5202277898788452,
+      "learning_rate": 4.776656918300699e-06,
+      "loss": 0.2857,
+      "step": 260
+    },
+    {
+      "epoch": 1.079627714581179,
+      "grad_norm": 0.46747156977653503,
+      "learning_rate": 4.742324863140587e-06,
+      "loss": 0.2902,
+      "step": 261
+    },
+    {
+      "epoch": 1.0837642192347468,
+      "grad_norm": 0.4724840223789215,
+      "learning_rate": 4.70800498492003e-06,
+      "loss": 0.2845,
+      "step": 262
+    },
+    {
+      "epoch": 1.0879007238883145,
+      "grad_norm": 0.5077059864997864,
+      "learning_rate": 4.673698905491602e-06,
+      "loss": 0.297,
+      "step": 263
+    },
+    {
+      "epoch": 1.092037228541882,
+      "grad_norm": 0.4432675540447235,
+      "learning_rate": 4.639408246055781e-06,
+      "loss": 0.2286,
+      "step": 264
+    },
+    {
+      "epoch": 1.0961737331954498,
+      "grad_norm": 0.4326833188533783,
+      "learning_rate": 4.605134627084345e-06,
+      "loss": 0.2418,
+      "step": 265
+    },
+    {
+      "epoch": 1.1003102378490175,
+      "grad_norm": 0.4976271092891693,
+      "learning_rate": 4.570879668243792e-06,
+      "loss": 0.2825,
+      "step": 266
+    },
+    {
+      "epoch": 1.1044467425025852,
+      "grad_norm": 0.4635002613067627,
+      "learning_rate": 4.536644988318802e-06,
+      "loss": 0.2503,
+      "step": 267
+    },
+    {
+      "epoch": 1.108583247156153,
+      "grad_norm": 0.4908175766468048,
+      "learning_rate": 4.502432205135731e-06,
+      "loss": 0.298,
+      "step": 268
+    },
+    {
+      "epoch": 1.1127197518097207,
+      "grad_norm": 0.4961640238761902,
+      "learning_rate": 4.468242935486164e-06,
+      "loss": 0.2696,
+      "step": 269
+    },
+    {
+      "epoch": 1.1168562564632885,
+      "grad_norm": 0.49413740634918213,
+      "learning_rate": 4.434078795050509e-06,
+      "loss": 0.2938,
+      "step": 270
+    },
+    {
+      "epoch": 1.1209927611168562,
+      "grad_norm": 0.48604297637939453,
+      "learning_rate": 4.3999413983216434e-06,
+      "loss": 0.2884,
+      "step": 271
+    },
+    {
+      "epoch": 1.125129265770424,
+      "grad_norm": 0.4502314329147339,
+      "learning_rate": 4.365832358528618e-06,
+      "loss": 0.2514,
+      "step": 272
+    },
+    {
+      "epoch": 1.1292657704239917,
+      "grad_norm": 0.46243977546691895,
+      "learning_rate": 4.331753287560423e-06,
+      "loss": 0.2473,
+      "step": 273
+    },
+    {
+      "epoch": 1.1334022750775594,
+      "grad_norm": 0.48582252860069275,
+      "learning_rate": 4.29770579588981e-06,
+      "loss": 0.2926,
+      "step": 274
+    },
+    {
+      "epoch": 1.1375387797311272,
+      "grad_norm": 0.4945797622203827,
+      "learning_rate": 4.263691492497197e-06,
+      "loss": 0.2803,
+      "step": 275
+    },
+    {
+      "epoch": 1.141675284384695,
+      "grad_norm": 0.5017898082733154,
+      "learning_rate": 4.229711984794614e-06,
+      "loss": 0.2695,
+      "step": 276
+    },
+    {
+      "epoch": 1.1458117890382626,
+      "grad_norm": 0.44951367378234863,
+      "learning_rate": 4.195768878549766e-06,
+      "loss": 0.2548,
+      "step": 277
+    },
+    {
+      "epoch": 1.1499482936918304,
+      "grad_norm": 0.4264715611934662,
+      "learning_rate": 4.161863777810128e-06,
+      "loss": 0.2304,
+      "step": 278
+    },
+    {
+      "epoch": 1.1540847983453981,
+      "grad_norm": 0.4864782392978668,
+      "learning_rate": 4.127998284827148e-06,
+      "loss": 0.2883,
+      "step": 279
+    },
+    {
+      "epoch": 1.1582213029989659,
+      "grad_norm": 0.48877304792404175,
+      "learning_rate": 4.094173999980544e-06,
+      "loss": 0.2696,
+      "step": 280
+    },
+    {
+      "epoch": 1.1623578076525336,
+      "grad_norm": 0.4845278859138489,
+      "learning_rate": 4.060392521702655e-06,
+      "loss": 0.2696,
+      "step": 281
+    },
+    {
+      "epoch": 1.1664943123061013,
+      "grad_norm": 0.4687557816505432,
+      "learning_rate": 4.026655446402912e-06,
+      "loss": 0.2242,
+      "step": 282
+    },
+    {
+      "epoch": 1.170630816959669,
+      "grad_norm": 0.4510751962661743,
+      "learning_rate": 3.9929643683923965e-06,
+      "loss": 0.2534,
+      "step": 283
+    },
+    {
+      "epoch": 1.1747673216132368,
+      "grad_norm": 0.456969678401947,
+      "learning_rate": 3.9593208798085094e-06,
+      "loss": 0.239,
+      "step": 284
+    },
+    {
+      "epoch": 1.1789038262668046,
+      "grad_norm": 0.5285021066665649,
+      "learning_rate": 3.9257265705397065e-06,
+      "loss": 0.2706,
+      "step": 285
+    },
+    {
+      "epoch": 1.1830403309203723,
+      "grad_norm": 0.5108174085617065,
+      "learning_rate": 3.892183028150384e-06,
+      "loss": 0.292,
+      "step": 286
+    },
+    {
+      "epoch": 1.18717683557394,
+      "grad_norm": 0.4737439751625061,
+      "learning_rate": 3.8586918378058595e-06,
+      "loss": 0.2666,
+      "step": 287
+    },
+    {
+      "epoch": 1.1913133402275078,
+      "grad_norm": 0.46854445338249207,
+      "learning_rate": 3.8252545821974385e-06,
+      "loss": 0.2473,
+      "step": 288
+    },
+    {
+      "epoch": 1.1954498448810755,
+      "grad_norm": 0.5152525305747986,
+      "learning_rate": 3.791872841467643e-06,
+      "loss": 0.2787,
+      "step": 289
+    },
+    {
+      "epoch": 1.1995863495346433,
+      "grad_norm": 0.4602268636226654,
+      "learning_rate": 3.758548193135536e-06,
+      "loss": 0.2447,
+      "step": 290
+    },
+    {
+      "epoch": 1.203722854188211,
+      "grad_norm": 0.4676779806613922,
+      "learning_rate": 3.7252822120221592e-06,
+      "loss": 0.2715,
+      "step": 291
+    },
+    {
+      "epoch": 1.2078593588417788,
+      "grad_norm": 0.48289844393730164,
+      "learning_rate": 3.6920764701761263e-06,
+      "loss": 0.283,
+      "step": 292
+    },
+    {
+      "epoch": 1.2119958634953465,
+      "grad_norm": 0.4726490080356598,
+      "learning_rate": 3.6589325367993243e-06,
+      "loss": 0.2807,
+      "step": 293
+    },
+    {
+      "epoch": 1.2161323681489142,
+      "grad_norm": 0.5170783996582031,
+      "learning_rate": 3.625851978172765e-06,
+      "loss": 0.2636,
+      "step": 294
+    },
+    {
+      "epoch": 1.220268872802482,
+      "grad_norm": 0.46776092052459717,
+      "learning_rate": 3.59283635758256e-06,
+      "loss": 0.2457,
+      "step": 295
+    },
+    {
+      "epoch": 1.2244053774560497,
+      "grad_norm": 0.45310357213020325,
+      "learning_rate": 3.5598872352460457e-06,
+      "loss": 0.2538,
+      "step": 296
+    },
+    {
+      "epoch": 1.2285418821096175,
+      "grad_norm": 0.4700476825237274,
+      "learning_rate": 3.527006168238061e-06,
+      "loss": 0.2722,
+      "step": 297
+    },
+    {
+      "epoch": 1.2326783867631852,
+      "grad_norm": 0.4869045913219452,
+      "learning_rate": 3.4941947104173514e-06,
+      "loss": 0.2695,
+      "step": 298
+    },
+    {
+      "epoch": 1.236814891416753,
+      "grad_norm": 0.4840319752693176,
+      "learning_rate": 3.4614544123531476e-06,
+      "loss": 0.2671,
+      "step": 299
+    },
+    {
+      "epoch": 1.2409513960703205,
+      "grad_norm": 0.4536275565624237,
+      "learning_rate": 3.428786821251888e-06,
+      "loss": 0.2512,
+      "step": 300
+    },
+    {
+      "epoch": 1.2450879007238882,
+      "grad_norm": 0.4808495342731476,
+      "learning_rate": 3.3961934808841023e-06,
+      "loss": 0.2531,
+      "step": 301
+    },
+    {
+      "epoch": 1.249224405377456,
+      "grad_norm": 0.48514485359191895,
+      "learning_rate": 3.363675931511455e-06,
+      "loss": 0.2695,
+      "step": 302
+    },
+    {
+      "epoch": 1.2533609100310237,
+      "grad_norm": 0.48374173045158386,
+      "learning_rate": 3.331235709813962e-06,
+      "loss": 0.2706,
+      "step": 303
+    },
+    {
+      "epoch": 1.2574974146845914,
+      "grad_norm": 0.4591769278049469,
+      "learning_rate": 3.29887434881737e-06,
+      "loss": 0.2578,
+      "step": 304
+    },
+    {
+      "epoch": 1.2616339193381592,
+      "grad_norm": 0.4645506739616394,
+      "learning_rate": 3.2665933778207082e-06,
+      "loss": 0.2717,
+      "step": 305
+    },
+    {
+      "epoch": 1.265770423991727,
+      "grad_norm": 0.5053009986877441,
+      "learning_rate": 3.234394322324019e-06,
+      "loss": 0.2713,
+      "step": 306
+    },
+    {
+      "epoch": 1.2699069286452946,
+      "grad_norm": 0.46575117111206055,
+      "learning_rate": 3.2022787039562745e-06,
+      "loss": 0.2445,
+      "step": 307
+    },
+    {
+      "epoch": 1.2740434332988624,
+      "grad_norm": 0.4733026623725891,
+      "learning_rate": 3.170248040403457e-06,
+      "loss": 0.2602,
+      "step": 308
+    },
+    {
+      "epoch": 1.2781799379524301,
+      "grad_norm": 0.4547727406024933,
+      "learning_rate": 3.138303845336844e-06,
+      "loss": 0.2545,
+      "step": 309
+    },
+    {
+      "epoch": 1.2823164426059979,
+      "grad_norm": 0.5043481588363647,
+      "learning_rate": 3.1064476283414818e-06,
+      "loss": 0.2848,
+      "step": 310
+    },
+    {
+      "epoch": 1.2864529472595656,
+      "grad_norm": 0.49556779861450195,
+      "learning_rate": 3.074680894844837e-06,
+      "loss": 0.2659,
+      "step": 311
+    },
+    {
+      "epoch": 1.2905894519131333,
+      "grad_norm": 0.4662742614746094,
+      "learning_rate": 3.04300514604566e-06,
+      "loss": 0.2696,
+      "step": 312
+    },
+    {
+      "epoch": 1.294725956566701,
+      "grad_norm": 0.46650293469429016,
+      "learning_rate": 3.011421878843044e-06,
+      "loss": 0.2573,
+      "step": 313
+    },
+    {
+      "epoch": 1.2988624612202688,
+      "grad_norm": 0.471865177154541,
+      "learning_rate": 2.9799325857656856e-06,
+      "loss": 0.2598,
+      "step": 314
+    },
+    {
+      "epoch": 1.3029989658738366,
+      "grad_norm": 0.49665728211402893,
+      "learning_rate": 2.948538754901349e-06,
+      "loss": 0.285,
+      "step": 315
+    },
+    {
+      "epoch": 1.3071354705274043,
+      "grad_norm": 0.47322675585746765,
+      "learning_rate": 2.917241869826545e-06,
+      "loss": 0.2523,
+      "step": 316
+    },
+    {
+      "epoch": 1.311271975180972,
+      "grad_norm": 0.4811559021472931,
+      "learning_rate": 2.8860434095364266e-06,
+      "loss": 0.2762,
+      "step": 317
+    },
+    {
+      "epoch": 1.3154084798345398,
+      "grad_norm": 0.48528894782066345,
+      "learning_rate": 2.8549448483748888e-06,
+      "loss": 0.2812,
+      "step": 318
+    },
+    {
+      "epoch": 1.3195449844881075,
+      "grad_norm": 0.47023531794548035,
+      "learning_rate": 2.8239476559649013e-06,
+      "loss": 0.2857,
+      "step": 319
+    },
+    {
+      "epoch": 1.3236814891416753,
+      "grad_norm": 0.4679359793663025,
+      "learning_rate": 2.7930532971390543e-06,
+      "loss": 0.2639,
+      "step": 320
+    },
+    {
+      "epoch": 1.327817993795243,
+      "grad_norm": 0.4885619580745697,
+      "learning_rate": 2.762263231870339e-06,
+      "loss": 0.2919,
+      "step": 321
+    },
+    {
+      "epoch": 1.3319544984488108,
+      "grad_norm": 0.4528388977050781,
+      "learning_rate": 2.7315789152031504e-06,
+      "loss": 0.2491,
+      "step": 322
+    },
+    {
+      "epoch": 1.3360910031023785,
+      "grad_norm": 0.43351301550865173,
+      "learning_rate": 2.7010017971845267e-06,
+      "loss": 0.2334,
+      "step": 323
+    },
+    {
+      "epoch": 1.3402275077559462,
+      "grad_norm": 0.4791943430900574,
+      "learning_rate": 2.6705333227956304e-06,
+      "loss": 0.2759,
+      "step": 324
+    },
+    {
+      "epoch": 1.344364012409514,
+      "grad_norm": 0.42758721113204956,
+      "learning_rate": 2.6401749318834528e-06,
+      "loss": 0.2574,
+      "step": 325
+    },
+    {
+      "epoch": 1.3485005170630817,
+      "grad_norm": 0.4758831858634949,
+      "learning_rate": 2.609928059092779e-06,
+      "loss": 0.2459,
+      "step": 326
+    },
+    {
+      "epoch": 1.3526370217166495,
+      "grad_norm": 0.45820891857147217,
+      "learning_rate": 2.579794133798388e-06,
+      "loss": 0.2678,
+      "step": 327
+    },
+    {
+      "epoch": 1.3567735263702172,
+      "grad_norm": 0.4830312132835388,
+      "learning_rate": 2.549774580037504e-06,
+      "loss": 0.2627,
+      "step": 328
+    },
+    {
+      "epoch": 1.360910031023785,
+      "grad_norm": 0.48166197538375854,
+      "learning_rate": 2.5198708164425046e-06,
+      "loss": 0.2524,
+      "step": 329
+    },
+    {
+      "epoch": 1.3650465356773527,
+      "grad_norm": 0.48581820726394653,
+      "learning_rate": 2.4900842561738736e-06,
+      "loss": 0.2527,
+      "step": 330
+    },
+    {
+      "epoch": 1.3691830403309204,
+      "grad_norm": 0.49055343866348267,
+      "learning_rate": 2.4604163068534313e-06,
+      "loss": 0.2541,
+      "step": 331
+    },
+    {
+      "epoch": 1.3733195449844882,
+      "grad_norm": 0.4789126217365265,
+      "learning_rate": 2.4308683704978e-06,
+      "loss": 0.2597,
+      "step": 332
+    },
+    {
+      "epoch": 1.377456049638056,
+      "grad_norm": 0.5069748759269714,
+      "learning_rate": 2.401441843452159e-06,
+      "loss": 0.2842,
+      "step": 333
+    },
+    {
+      "epoch": 1.3815925542916236,
+      "grad_norm": 0.49611082673072815,
+      "learning_rate": 2.372138116324254e-06,
+      "loss": 0.2648,
+      "step": 334
+    },
+    {
+      "epoch": 1.3857290589451914,
+      "grad_norm": 0.4773513376712799,
+      "learning_rate": 2.342958573918682e-06,
+      "loss": 0.2846,
+      "step": 335
+    },
+    {
+      "epoch": 1.3898655635987591,
+      "grad_norm": 0.49834293127059937,
+      "learning_rate": 2.3139045951714473e-06,
+      "loss": 0.288,
+      "step": 336
+    },
+    {
+      "epoch": 1.3940020682523269,
+      "grad_norm": 0.46547529101371765,
+      "learning_rate": 2.2849775530848057e-06,
+      "loss": 0.242,
+      "step": 337
+    },
+    {
+      "epoch": 1.3981385729058946,
+      "grad_norm": 0.46302109956741333,
+      "learning_rate": 2.256178814662368e-06,
+      "loss": 0.2553,
+      "step": 338
+    },
+    {
+      "epoch": 1.4022750775594623,
+      "grad_norm": 0.5011090636253357,
+      "learning_rate": 2.227509740844508e-06,
+      "loss": 0.281,
+      "step": 339
+    },
+    {
+      "epoch": 1.40641158221303,
+      "grad_norm": 0.43727773427963257,
+      "learning_rate": 2.198971686444047e-06,
+      "loss": 0.2409,
+      "step": 340
+    },
+    {
+      "epoch": 1.4105480868665978,
+      "grad_norm": 0.4928194582462311,
+      "learning_rate": 2.1705660000822286e-06,
+      "loss": 0.299,
+      "step": 341
+    },
+    {
+      "epoch": 1.4146845915201656,
+      "grad_norm": 0.4691973328590393,
+      "learning_rate": 2.1422940241249875e-06,
+      "loss": 0.2552,
+      "step": 342
+    },
+    {
+      "epoch": 1.4188210961737333,
+      "grad_norm": 0.4593028724193573,
+      "learning_rate": 2.1141570946195106e-06,
+      "loss": 0.255,
+      "step": 343
+    },
+    {
+      "epoch": 1.422957600827301,
+      "grad_norm": 0.4884447753429413,
+      "learning_rate": 2.086156541231109e-06,
+      "loss": 0.2601,
+      "step": 344
+    },
+    {
+      "epoch": 1.4270941054808688,
+      "grad_norm": 0.5032863616943359,
+      "learning_rate": 2.0582936871803692e-06,
+      "loss": 0.2888,
+      "step": 345
+    },
+    {
+      "epoch": 1.4312306101344365,
+      "grad_norm": 0.46444255113601685,
+      "learning_rate": 2.0305698491806297e-06,
+      "loss": 0.2402,
+      "step": 346
+    },
+    {
+      "epoch": 1.4353671147880043,
+      "grad_norm": 0.4745306074619293,
+      "learning_rate": 2.0029863373757553e-06,
+      "loss": 0.2665,
+      "step": 347
+    },
+    {
+      "epoch": 1.4395036194415718,
+      "grad_norm": 0.4591853618621826,
+      "learning_rate": 1.9755444552782228e-06,
+      "loss": 0.2209,
+      "step": 348
+    },
+    {
+      "epoch": 1.4436401240951395,
+      "grad_norm": 0.4660813808441162,
+      "learning_rate": 1.948245499707523e-06,
+      "loss": 0.2559,
+      "step": 349
+    },
+    {
+      "epoch": 1.4477766287487073,
+      "grad_norm": 0.4885343909263611,
+      "learning_rate": 1.9210907607288728e-06,
+      "loss": 0.281,
+      "step": 350
+    },
+    {
+      "epoch": 1.451913133402275,
+      "grad_norm": 0.4733608365058899,
+      "learning_rate": 1.8940815215922609e-06,
+      "loss": 0.2762,
+      "step": 351
+    },
+    {
+      "epoch": 1.4560496380558428,
+      "grad_norm": 0.46303790807724,
+      "learning_rate": 1.867219058671791e-06,
+      "loss": 0.2626,
+      "step": 352
+    },
+    {
+      "epoch": 1.4601861427094105,
+      "grad_norm": 0.4606141149997711,
+      "learning_rate": 1.8405046414053728e-06,
+      "loss": 0.2434,
+      "step": 353
+    },
+    {
+      "epoch": 1.4643226473629782,
+      "grad_norm": 0.4833987057209015,
+      "learning_rate": 1.8139395322347335e-06,
+      "loss": 0.2546,
+      "step": 354
+    },
+    {
+      "epoch": 1.468459152016546,
+      "grad_norm": 0.44073909521102905,
+      "learning_rate": 1.787524986545753e-06,
+      "loss": 0.2511,
+      "step": 355
+    },
+    {
+      "epoch": 1.4725956566701137,
+      "grad_norm": 0.45749855041503906,
+      "learning_rate": 1.7612622526091406e-06,
+      "loss": 0.2391,
+      "step": 356
+    },
+    {
+      "epoch": 1.4767321613236815,
+      "grad_norm": 0.4941197633743286,
+      "learning_rate": 1.7351525715214512e-06,
+      "loss": 0.2607,
+      "step": 357
+    },
+    {
+      "epoch": 1.4808686659772492,
+      "grad_norm": 0.4428948760032654,
+      "learning_rate": 1.709197177146425e-06,
+      "loss": 0.2477,
+      "step": 358
+    },
+    {
+      "epoch": 1.485005170630817,
+      "grad_norm": 0.5241663455963135,
+      "learning_rate": 1.6833972960566868e-06,
+      "loss": 0.258,
+      "step": 359
+    },
+    {
+      "epoch": 1.4891416752843847,
+      "grad_norm": 0.48429349064826965,
+      "learning_rate": 1.6577541474757712e-06,
+      "loss": 0.2709,
+      "step": 360
+    },
+    {
+      "epoch": 1.4932781799379524,
+      "grad_norm": 0.49429482221603394,
+      "learning_rate": 1.6322689432205252e-06,
+      "loss": 0.2787,
+      "step": 361
+    },
+    {
+      "epoch": 1.4974146845915202,
+      "grad_norm": 0.487251341342926,
+      "learning_rate": 1.6069428876438203e-06,
+      "loss": 0.2612,
+      "step": 362
+    },
+    {
+      "epoch": 1.501551189245088,
+      "grad_norm": 0.4490973949432373,
+      "learning_rate": 1.5817771775776508e-06,
+      "loss": 0.2516,
+      "step": 363
+    },
+    {
+      "epoch": 1.5056876938986556,
+      "grad_norm": 0.48428958654403687,
+      "learning_rate": 1.5567730022765753e-06,
+      "loss": 0.2773,
+      "step": 364
+    },
+    {
+      "epoch": 1.5098241985522234,
+      "grad_norm": 0.4671989381313324,
+      "learning_rate": 1.5319315433615101e-06,
+      "loss": 0.267,
+      "step": 365
+    },
+    {
+      "epoch": 1.5139607032057911,
+      "grad_norm": 0.5202347636222839,
+      "learning_rate": 1.5072539747638887e-06,
+      "loss": 0.294,
+      "step": 366
+    },
+    {
+      "epoch": 1.5180972078593589,
+      "grad_norm": 0.45074182748794556,
+      "learning_rate": 1.482741462670193e-06,
+      "loss": 0.2363,
+      "step": 367
+    },
+    {
+      "epoch": 1.5222337125129266,
+      "grad_norm": 0.5174707174301147,
+      "learning_rate": 1.4583951654668416e-06,
+      "loss": 0.2767,
+      "step": 368
+    },
+    {
+      "epoch": 1.5263702171664943,
+      "grad_norm": 0.4842411279678345,
+      "learning_rate": 1.434216233685441e-06,
+      "loss": 0.2858,
+      "step": 369
+    },
+    {
+      "epoch": 1.530506721820062,
+      "grad_norm": 0.4314868450164795,
+      "learning_rate": 1.4102058099484188e-06,
+      "loss": 0.2356,
+      "step": 370
+    },
+    {
+      "epoch": 1.5346432264736298,
+      "grad_norm": 0.47764474153518677,
+      "learning_rate": 1.3863650289150338e-06,
+      "loss": 0.2632,
+      "step": 371
+    },
+    {
+      "epoch": 1.5387797311271976,
+      "grad_norm": 0.4491686522960663,
+      "learning_rate": 1.3626950172277398e-06,
+      "loss": 0.2443,
+      "step": 372
+    },
+    {
+      "epoch": 1.542916235780765,
+      "grad_norm": 0.4948718249797821,
+      "learning_rate": 1.3391968934589573e-06,
+      "loss": 0.2772,
+      "step": 373
+    },
+    {
+      "epoch": 1.5470527404343328,
+      "grad_norm": 0.4696827828884125,
+      "learning_rate": 1.3158717680582128e-06,
+      "loss": 0.2568,
+      "step": 374
+    },
+    {
+      "epoch": 1.5511892450879006,
+      "grad_norm": 0.43921521306037903,
+      "learning_rate": 1.292720743299654e-06,
+      "loss": 0.229,
+      "step": 375
+    },
+    {
+      "epoch": 1.5553257497414683,
+      "grad_norm": 0.4529230296611786,
+      "learning_rate": 1.2697449132299649e-06,
+      "loss": 0.2445,
+      "step": 376
+    },
+    {
+      "epoch": 1.559462254395036,
+      "grad_norm": 0.4936879873275757,
+      "learning_rate": 1.2469453636166645e-06,
+      "loss": 0.2579,
+      "step": 377
+    },
+    {
+      "epoch": 1.5635987590486038,
+      "grad_norm": 0.48198625445365906,
+      "learning_rate": 1.224323171896797e-06,
+      "loss": 0.2542,
+      "step": 378
+    },
+    {
+      "epoch": 1.5677352637021715,
+      "grad_norm": 0.4886031448841095,
+      "learning_rate": 1.201879407126012e-06,
+      "loss": 0.2707,
+      "step": 379
+    },
+    {
+      "epoch": 1.5718717683557393,
+      "grad_norm": 0.47718653082847595,
+      "learning_rate": 1.1796151299280483e-06,
+      "loss": 0.2747,
+      "step": 380
+    },
+    {
+      "epoch": 1.576008273009307,
+      "grad_norm": 0.46224093437194824,
+      "learning_rate": 1.1575313924446123e-06,
+      "loss": 0.247,
+      "step": 381
+    },
+    {
+      "epoch": 1.5801447776628748,
+      "grad_norm": 0.4610908329486847,
+      "learning_rate": 1.1356292382856531e-06,
+      "loss": 0.2624,
+      "step": 382
+    },
+    {
+      "epoch": 1.5842812823164425,
+      "grad_norm": 0.46388930082321167,
+      "learning_rate": 1.113909702480046e-06,
+      "loss": 0.2485,
+      "step": 383
+    },
+    {
+      "epoch": 1.5884177869700102,
+      "grad_norm": 0.4562687575817108,
+      "learning_rate": 1.0923738114266824e-06,
+      "loss": 0.2503,
+      "step": 384
+    },
+    {
+      "epoch": 1.592554291623578,
+      "grad_norm": 0.44876885414123535,
+      "learning_rate": 1.0710225828459642e-06,
+      "loss": 0.2453,
+      "step": 385
+    },
+    {
+      "epoch": 1.5966907962771457,
+      "grad_norm": 0.45502784848213196,
+      "learning_rate": 1.0498570257317075e-06,
+      "loss": 0.2595,
+      "step": 386
+    },
+    {
+      "epoch": 1.6008273009307135,
+      "grad_norm": 0.47724854946136475,
+      "learning_rate": 1.028878140303462e-06,
+      "loss": 0.2541,
+      "step": 387
+    },
+    {
+      "epoch": 1.6049638055842812,
+      "grad_norm": 0.45897573232650757,
+      "learning_rate": 1.008086917959249e-06,
+      "loss": 0.2628,
+      "step": 388
+    },
+    {
+      "epoch": 1.609100310237849,
+      "grad_norm": 0.4865526258945465,
+      "learning_rate": 9.874843412286994e-07,
+      "loss": 0.2693,
+      "step": 389
+    },
+    {
+      "epoch": 1.6132368148914167,
+      "grad_norm": 0.46964144706726074,
+      "learning_rate": 9.670713837266322e-07,
+      "loss": 0.2498,
+      "step": 390
+    },
+    {
+      "epoch": 1.6173733195449844,
+      "grad_norm": 0.42305079102516174,
+      "learning_rate": 9.46849010107041e-07,
+      "loss": 0.2262,
+      "step": 391
+    },
+    {
+      "epoch": 1.6215098241985522,
+      "grad_norm": 0.4819132089614868,
+      "learning_rate": 9.26818176017506e-07,
+      "loss": 0.2617,
+      "step": 392
+    },
+    {
+      "epoch": 1.62564632885212,
+      "grad_norm": 0.4843488037586212,
+      "learning_rate": 9.069798280540348e-07,
+      "loss": 0.2636,
+      "step": 393
+    },
+    {
+      "epoch": 1.6297828335056876,
+      "grad_norm": 0.4789119064807892,
+      "learning_rate": 8.87334903716332e-07,
+      "loss": 0.2869,
+      "step": 394
+    },
+    {
+      "epoch": 1.6339193381592554,
+      "grad_norm": 0.42331403493881226,
+      "learning_rate": 8.678843313634894e-07,
+      "loss": 0.2192,
+      "step": 395
+    },
+    {
+      "epoch": 1.6380558428128231,
+      "grad_norm": 0.45914411544799805,
+      "learning_rate": 8.486290301701183e-07,
+      "loss": 0.2654,
+      "step": 396
+    },
+    {
+      "epoch": 1.6421923474663909,
+      "grad_norm": 0.4775830805301666,
+      "learning_rate": 8.295699100829124e-07,
+      "loss": 0.2434,
+      "step": 397
+    },
+    {
+      "epoch": 1.6463288521199586,
+      "grad_norm": 0.5007808804512024,
+      "learning_rate": 8.107078717776457e-07,
+      "loss": 0.2697,
+      "step": 398
+    },
+    {
+      "epoch": 1.6504653567735263,
+      "grad_norm": 0.4754742681980133,
+      "learning_rate": 7.920438066166097e-07,
+      "loss": 0.2626,
+      "step": 399
+    },
+    {
+      "epoch": 1.654601861427094,
+      "grad_norm": 0.46346259117126465,
+      "learning_rate": 7.735785966064885e-07,
+      "loss": 0.2268,
+      "step": 400
+    },
+    {
+      "epoch": 1.6587383660806618,
+      "grad_norm": 0.4413525462150574,
+      "learning_rate": 7.553131143566822e-07,
+      "loss": 0.2373,
+      "step": 401
+    },
+    {
+      "epoch": 1.6628748707342296,
+      "grad_norm": 0.447625994682312,
+      "learning_rate": 7.372482230380657e-07,
+      "loss": 0.2546,
+      "step": 402
+    },
+    {
+      "epoch": 1.6670113753877973,
+      "grad_norm": 0.4605792462825775,
+      "learning_rate": 7.193847763421991e-07,
+      "loss": 0.2656,
+      "step": 403
+    },
+    {
+      "epoch": 1.671147880041365,
+      "grad_norm": 0.4576088786125183,
+      "learning_rate": 7.017236184409859e-07,
+      "loss": 0.2576,
+      "step": 404
+    },
+    {
+      "epoch": 1.6752843846949328,
+      "grad_norm": 0.5075780153274536,
+      "learning_rate": 6.842655839467787e-07,
+      "loss": 0.3023,
+      "step": 405
+    },
+    {
+      "epoch": 1.6794208893485005,
+      "grad_norm": 0.4650248885154724,
+      "learning_rate": 6.670114978729392e-07,
+      "loss": 0.2753,
+      "step": 406
+    },
+    {
+      "epoch": 1.6835573940020683,
+      "grad_norm": 0.4480326175689697,
+      "learning_rate": 6.499621755948487e-07,
+      "loss": 0.2448,
+      "step": 407
+    },
+    {
+      "epoch": 1.687693898655636,
+      "grad_norm": 0.48435285687446594,
+      "learning_rate": 6.331184228113801e-07,
+      "loss": 0.2729,
+      "step": 408
+    },
+    {
+      "epoch": 1.6918304033092038,
+      "grad_norm": 0.4679297208786011,
+      "learning_rate": 6.164810355068179e-07,
+      "loss": 0.2394,
+      "step": 409
+    },
+    {
+      "epoch": 1.6959669079627715,
+      "grad_norm": 0.5232973694801331,
+      "learning_rate": 6.000507999132444e-07,
+      "loss": 0.2761,
+      "step": 410
+    },
+    {
+      "epoch": 1.7001034126163392,
+      "grad_norm": 0.43717169761657715,
+      "learning_rate": 5.838284924733866e-07,
+      "loss": 0.2476,
+      "step": 411
+    },
+    {
+      "epoch": 1.704239917269907,
+      "grad_norm": 0.4989730417728424,
+      "learning_rate": 5.678148798039213e-07,
+      "loss": 0.2723,
+      "step": 412
+    },
+    {
+      "epoch": 1.7083764219234747,
+      "grad_norm": 0.4776909649372101,
+      "learning_rate": 5.520107186592477e-07,
+      "loss": 0.2394,
+      "step": 413
+    },
+    {
+      "epoch": 1.7125129265770425,
+      "grad_norm": 0.49704718589782715,
+      "learning_rate": 5.364167558957267e-07,
+      "loss": 0.2674,
+      "step": 414
+    },
+    {
+      "epoch": 1.7166494312306102,
+      "grad_norm": 0.5080196857452393,
+      "learning_rate": 5.210337284363876e-07,
+      "loss": 0.2846,
+      "step": 415
+    },
+    {
+      "epoch": 1.720785935884178,
+      "grad_norm": 0.5011091828346252,
+      "learning_rate": 5.058623632361004e-07,
+      "loss": 0.276,
+      "step": 416
+    },
+    {
+      "epoch": 1.7249224405377457,
+      "grad_norm": 0.4899991750717163,
+      "learning_rate": 4.909033772472204e-07,
+      "loss": 0.2465,
+      "step": 417
+    },
+    {
+      "epoch": 1.7290589451913134,
+      "grad_norm": 0.47677579522132874,
+      "learning_rate": 4.7615747738571636e-07,
+      "loss": 0.2547,
+      "step": 418
+    },
+    {
+      "epoch": 1.7331954498448812,
+      "grad_norm": 0.4679698050022125,
+      "learning_rate": 4.6162536049775387e-07,
+      "loss": 0.2687,
+      "step": 419
+    },
+    {
+      "epoch": 1.737331954498449,
+      "grad_norm": 0.4611322283744812,
+      "learning_rate": 4.473077133267684e-07,
+      "loss": 0.2517,
+      "step": 420
+    },
+    {
+      "epoch": 1.7414684591520166,
+      "grad_norm": 0.45688915252685547,
+      "learning_rate": 4.3320521248101487e-07,
+      "loss": 0.2449,
+      "step": 421
+    },
+    {
+      "epoch": 1.7456049638055844,
+      "grad_norm": 0.44202756881713867,
+      "learning_rate": 4.193185244015879e-07,
+      "loss": 0.2274,
+      "step": 422
+    },
+    {
+      "epoch": 1.7497414684591521,
+      "grad_norm": 0.488298237323761,
+      "learning_rate": 4.0564830533093014e-07,
+      "loss": 0.2706,
+      "step": 423
+    },
+    {
+      "epoch": 1.7538779731127199,
+      "grad_norm": 0.44502395391464233,
+      "learning_rate": 3.9219520128182087e-07,
+      "loss": 0.2343,
+      "step": 424
+    },
+    {
+      "epoch": 1.7580144777662876,
+      "grad_norm": 0.4559187889099121,
+      "learning_rate": 3.789598480068479e-07,
+      "loss": 0.2477,
+      "step": 425
+    },
+    {
+      "epoch": 1.7621509824198553,
+      "grad_norm": 0.43528175354003906,
+      "learning_rate": 3.659428709683621e-07,
+      "loss": 0.2279,
+      "step": 426
+    },
+    {
+      "epoch": 1.766287487073423,
+      "grad_norm": 0.47880756855010986,
+      "learning_rate": 3.531448853089192e-07,
+      "loss": 0.2631,
+      "step": 427
+    },
+    {
+      "epoch": 1.7704239917269908,
+      "grad_norm": 0.49789199233055115,
+      "learning_rate": 3.40566495822216e-07,
+      "loss": 0.2925,
+      "step": 428
+    },
+    {
+      "epoch": 1.7745604963805586,
+      "grad_norm": 0.4378401041030884,
+      "learning_rate": 3.2820829692449984e-07,
+      "loss": 0.227,
+      "step": 429
+    },
+    {
+      "epoch": 1.7786970010341263,
+      "grad_norm": 0.4724928140640259,
+      "learning_rate": 3.160708726264855e-07,
+      "loss": 0.2657,
+      "step": 430
+    },
+    {
+      "epoch": 1.782833505687694,
+      "grad_norm": 0.43662911653518677,
+      "learning_rate": 3.0415479650575783e-07,
+      "loss": 0.2399,
+      "step": 431
+    },
+    {
+      "epoch": 1.7869700103412618,
+      "grad_norm": 0.46386146545410156,
+      "learning_rate": 2.9246063167965963e-07,
+      "loss": 0.2447,
+      "step": 432
+    },
+    {
+      "epoch": 1.7911065149948295,
+      "grad_norm": 0.47366079688072205,
+      "learning_rate": 2.809889307786856e-07,
+      "loss": 0.2449,
+      "step": 433
+    },
+    {
+      "epoch": 1.795243019648397,
+      "grad_norm": 0.4846685826778412,
+      "learning_rate": 2.697402359203638e-07,
+      "loss": 0.2559,
+      "step": 434
+    },
+    {
+      "epoch": 1.7993795243019648,
+      "grad_norm": 0.4788161516189575,
+      "learning_rate": 2.587150786836407e-07,
+      "loss": 0.2749,
+      "step": 435
+    },
+    {
+      "epoch": 1.8035160289555325,
+      "grad_norm": 0.49820560216903687,
+      "learning_rate": 2.4791398008375545e-07,
+      "loss": 0.2748,
+      "step": 436
+    },
+    {
+      "epoch": 1.8076525336091003,
+      "grad_norm": 0.45833131670951843,
+      "learning_rate": 2.3733745054762059e-07,
+      "loss": 0.2293,
+      "step": 437
+    },
+    {
+      "epoch": 1.811789038262668,
+      "grad_norm": 0.5000050067901611,
+      "learning_rate": 2.2698598988970422e-07,
+      "loss": 0.2634,
+      "step": 438
+    },
+    {
+      "epoch": 1.8159255429162358,
+      "grad_norm": 0.45837461948394775,
+      "learning_rate": 2.1686008728840301e-07,
+      "loss": 0.2525,
+      "step": 439
+    },
+    {
+      "epoch": 1.8200620475698035,
+      "grad_norm": 0.4396543800830841,
+      "learning_rate": 2.0696022126293126e-07,
+      "loss": 0.2374,
+      "step": 440
+    },
+    {
+      "epoch": 1.8241985522233712,
+      "grad_norm": 0.4914761483669281,
+      "learning_rate": 1.9728685965070604e-07,
+      "loss": 0.2992,
+      "step": 441
+    },
+    {
+      "epoch": 1.828335056876939,
+      "grad_norm": 0.5126286745071411,
+      "learning_rate": 1.8784045958523623e-07,
+      "loss": 0.2795,
+      "step": 442
+    },
+    {
+      "epoch": 1.8324715615305067,
+      "grad_norm": 0.44213420152664185,
+      "learning_rate": 1.786214674745218e-07,
+      "loss": 0.2247,
+      "step": 443
+    },
+    {
+      "epoch": 1.8366080661840745,
+      "grad_norm": 0.4569559693336487,
+      "learning_rate": 1.6963031897995863e-07,
+      "loss": 0.2451,
+      "step": 444
+    },
+    {
+      "epoch": 1.8407445708376422,
+      "grad_norm": 0.4845653474330902,
+      "learning_rate": 1.6086743899575042e-07,
+      "loss": 0.2818,
+      "step": 445
+    },
+    {
+      "epoch": 1.84488107549121,
+      "grad_norm": 0.4564604163169861,
+      "learning_rate": 1.523332416288259e-07,
+      "loss": 0.2539,
+      "step": 446
+    },
+    {
+      "epoch": 1.8490175801447777,
+      "grad_norm": 0.4548117518424988,
+      "learning_rate": 1.4402813017927396e-07,
+      "loss": 0.2554,
+      "step": 447
+    },
+    {
+      "epoch": 1.8531540847983454,
+      "grad_norm": 0.4759480655193329,
+      "learning_rate": 1.3595249712128334e-07,
+      "loss": 0.2661,
+      "step": 448
+    },
+    {
+      "epoch": 1.8572905894519132,
+      "grad_norm": 0.46541112661361694,
+      "learning_rate": 1.28106724084594e-07,
+      "loss": 0.2486,
+      "step": 449
+    },
+    {
+      "epoch": 1.861427094105481,
+      "grad_norm": 0.4635773003101349,
+      "learning_rate": 1.2049118183646403e-07,
+      "loss": 0.2653,
+      "step": 450
+    },
+    {
+      "epoch": 1.8655635987590486,
+      "grad_norm": 0.44061151146888733,
+      "learning_rate": 1.1310623026414891e-07,
+      "loss": 0.2255,
+      "step": 451
+    },
+    {
+      "epoch": 1.8697001034126164,
+      "grad_norm": 0.45572927594184875,
+      "learning_rate": 1.059522183578926e-07,
+      "loss": 0.2533,
+      "step": 452
+    },
+    {
+      "epoch": 1.8738366080661841,
+      "grad_norm": 0.4822574853897095,
+      "learning_rate": 9.902948419443669e-08,
+      "loss": 0.2767,
+      "step": 453
+    },
+    {
+      "epoch": 1.8779731127197516,
+      "grad_norm": 0.4398654103279114,
+      "learning_rate": 9.233835492104326e-08,
+      "loss": 0.2492,
+      "step": 454
+    },
+    {
+      "epoch": 1.8821096173733194,
+      "grad_norm": 0.4548628032207489,
+      "learning_rate": 8.587914674003384e-08,
+      "loss": 0.254,
+      "step": 455
+    },
+    {
+      "epoch": 1.8862461220268871,
+      "grad_norm": 0.45040181279182434,
+      "learning_rate": 7.965216489384919e-08,
+      "loss": 0.2721,
+      "step": 456
+    },
+    {
+      "epoch": 1.8903826266804549,
+      "grad_norm": 0.47080284357070923,
+      "learning_rate": 7.365770365062308e-08,
+      "loss": 0.2718,
+      "step": 457
+    },
+    {
+      "epoch": 1.8945191313340226,
+      "grad_norm": 0.48404160141944885,
+      "learning_rate": 6.789604629027614e-08,
+      "loss": 0.2924,
+      "step": 458
+    },
+    {
+      "epoch": 1.8986556359875904,
+      "grad_norm": 0.46306654810905457,
+      "learning_rate": 6.236746509112824e-08,
+      "loss": 0.2531,
+      "step": 459
+    },
+    {
+      "epoch": 1.902792140641158,
+      "grad_norm": 0.4330954849720001,
+      "learning_rate": 5.707222131703216e-08,
+      "loss": 0.2388,
+      "step": 460
+    },
+    {
+      "epoch": 1.9069286452947258,
+      "grad_norm": 0.46021175384521484,
+      "learning_rate": 5.201056520502734e-08,
+      "loss": 0.2468,
+      "step": 461
+    },
+    {
+      "epoch": 1.9110651499482936,
+      "grad_norm": 0.5022516250610352,
+      "learning_rate": 4.718273595351486e-08,
+      "loss": 0.263,
+      "step": 462
+    },
+    {
+      "epoch": 1.9152016546018613,
+      "grad_norm": 0.47739377617836,
+      "learning_rate": 4.25889617109515e-08,
+      "loss": 0.2718,
+      "step": 463
+    },
+    {
+      "epoch": 1.919338159255429,
+      "grad_norm": 0.4588397741317749,
+      "learning_rate": 3.8229459565070074e-08,
+      "loss": 0.2412,
+      "step": 464
+    },
+    {
+      "epoch": 1.9234746639089968,
+      "grad_norm": 0.4719136953353882,
+      "learning_rate": 3.410443553262033e-08,
+      "loss": 0.2722,
+      "step": 465
+    },
+    {
+      "epoch": 1.9276111685625645,
+      "grad_norm": 0.4567975401878357,
+      "learning_rate": 3.0214084549632925e-08,
+      "loss": 0.2536,
+      "step": 466
+    },
+    {
+      "epoch": 1.9317476732161323,
+      "grad_norm": 0.4981779158115387,
+      "learning_rate": 2.6558590462207322e-08,
+      "loss": 0.27,
+      "step": 467
+    },
+    {
+      "epoch": 1.9358841778697,
+      "grad_norm": 0.4779011309146881,
+      "learning_rate": 2.3138126017822614e-08,
+      "loss": 0.2707,
+      "step": 468
+    },
+    {
+      "epoch": 1.9400206825232678,
+      "grad_norm": 0.4619957506656647,
+      "learning_rate": 1.99528528571763e-08,
+      "loss": 0.2516,
+      "step": 469
+    },
+    {
+      "epoch": 1.9441571871768355,
+      "grad_norm": 0.47019270062446594,
+      "learning_rate": 1.7002921506544812e-08,
+      "loss": 0.2762,
+      "step": 470
+    },
+    {
+      "epoch": 1.9482936918304032,
+      "grad_norm": 0.48734498023986816,
+      "learning_rate": 1.4288471370669244e-08,
+      "loss": 0.2779,
+      "step": 471
+    },
+    {
+      "epoch": 1.952430196483971,
+      "grad_norm": 0.5020056366920471,
+      "learning_rate": 1.1809630726167808e-08,
+      "loss": 0.2731,
+      "step": 472
+    },
+    {
+      "epoch": 1.9565667011375387,
+      "grad_norm": 0.4687701165676117,
+      "learning_rate": 9.566516715474594e-09,
+      "loss": 0.2584,
+      "step": 473
+    },
+    {
+      "epoch": 1.9607032057911065,
+      "grad_norm": 0.4735799729824066,
+      "learning_rate": 7.559235341302872e-09,
+      "loss": 0.2663,
+      "step": 474
+    },
+    {
+      "epoch": 1.9648397104446742,
+      "grad_norm": 0.4657973349094391,
+      "learning_rate": 5.787881461636891e-09,
+      "loss": 0.2597,
+      "step": 475
+    },
+    {
+      "epoch": 1.968976215098242,
+      "grad_norm": 0.43754643201828003,
+      "learning_rate": 4.252538785248228e-09,
+      "loss": 0.2198,
+      "step": 476
+    },
+    {
+      "epoch": 1.9731127197518097,
+      "grad_norm": 0.45479777455329895,
+      "learning_rate": 2.9532798677395226e-09,
+      "loss": 0.2456,
+      "step": 477
+    },
+    {
+      "epoch": 1.9772492244053774,
+      "grad_norm": 0.4745938181877136,
+      "learning_rate": 1.8901661081172084e-09,
+      "loss": 0.2719,
+      "step": 478
+    },
+    {
+      "epoch": 1.9813857290589452,
+      "grad_norm": 0.4496646225452423,
+      "learning_rate": 1.0632477458888401e-09,
+      "loss": 0.2545,
+      "step": 479
+    },
+    {
+      "epoch": 1.985522233712513,
+      "grad_norm": 0.5044782757759094,
+      "learning_rate": 4.725638586894344e-10,
+      "loss": 0.2904,
+      "step": 480
+    },
+    {
+      "epoch": 1.9896587383660806,
+      "grad_norm": 0.45781707763671875,
+      "learning_rate": 1.1814236043405924e-10,
+      "loss": 0.2429,
+      "step": 481
+    },
+    {
+      "epoch": 1.9937952430196484,
+      "grad_norm": 0.4693934917449951,
+      "learning_rate": 0.0,
+      "loss": 0.2602,
+      "step": 482
+    },
+    {
+      "epoch": 1.9937952430196484,
+      "step": 482,
+      "total_flos": 3.6089290785072087e+18,
+      "train_loss": 0.3119487636316861,
+      "train_runtime": 2571.753,
+      "train_samples_per_second": 24.051,
+      "train_steps_per_second": 0.187
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 482,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.6089290785072087e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d98d9cd2eedc86e7156c05455d96e638d997b565b9c01d1193d728b0508fc90f
+size 6712

training_loss.png ADDED Viewed

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff