Jiexing commited on May 8, 2022

Commit

29ceb5b

•

1 Parent(s): d463a0a

submit for max EX in SParC

Browse files

Files changed (17) hide show

config.json +60 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
rng_state_3.pth +3 -0
rng_state_4.pth +3 -0
rng_state_5.pth +3 -0
rng_state_6.pth +3 -0
rng_state_7.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
trainer_state.json +2074 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "t5-3b",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 16384,
+  "d_kv": 128,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "diversity_penalty": null,
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "layer_norm_epsilon": 1e-06,
+  "max_length": 512,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_beams": 4,
+  "num_decoder_layers": 24,
+  "num_heads": 32,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.17.0",
+  "use_cache": false,
+  "vocab_size": 32102
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1820e9f12030909a5a03616ca42f41011efb7a77c22711b3c1ca677cc1e82e62
+size 13613718

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60af3f5320a1bf766ada933781269b2110eb51da4b8e89dbc6363368cda8edb7
+size 11406576835

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f956a9cf987a59b3f3a1fa2cc22b9a8df69a862458c71ac2b1c21aabd385ca0
+size 14503

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e354c43ea23e99bf27a56d5783e75e574ba9d248ee690650c07ead10c6af77d
+size 14503

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b123df7045ef87ce59e784032e9d80e7644941b958996f6bfe575b13208c8d8
+size 14503

rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ed28902aa51a2407905d46c0ec092e2c84eafb8d09f46450b847c2bc69d1a7a
+size 14503

rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2197f13e9f3fa575ddcc68dd390cab73eb1f8db70fe340d63b81403de3899f8d
+size 14503

rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d79aea9badbc5558d4eaf7d524d7435cf1ad0c71c52ea6951b095fdc349263ba
+size 14503

rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1b88131de0867e0068adeb4521701a8137d69c14decec62c5db3c1302a8bdeb
+size 14503

rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:489c0c6bba2a8d33b3c97fdc9c21ff179a0274029b7b88e0f76558c3b65acf0a
+size 14503

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ac15ce6ca89432d059ee479e43a0b52ed372774e3b8158aac5909adc2268e06
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "additional_special_tokens": ["<extra_id_0>", "<extra_id_1>", "<extra_id_2>", "<extra_id_3>", "<extra_id_4>", "<extra_id_5>", "<extra_id_6>", "<extra_id_7>", "<extra_id_8>", "<extra_id_9>", "<extra_id_10>", "<extra_id_11>", "<extra_id_12>", "<extra_id_13>", "<extra_id_14>", "<extra_id_15>", "<extra_id_16>", "<extra_id_17>", "<extra_id_18>", "<extra_id_19>", "<extra_id_20>", "<extra_id_21>", "<extra_id_22>", "<extra_id_23>", "<extra_id_24>", "<extra_id_25>", "<extra_id_26>", "<extra_id_27>", "<extra_id_28>", "<extra_id_29>", "<extra_id_30>", "<extra_id_31>", "<extra_id_32>", "<extra_id_33>", "<extra_id_34>", "<extra_id_35>", "<extra_id_36>", "<extra_id_37>", "<extra_id_38>", "<extra_id_39>", "<extra_id_40>", "<extra_id_41>", "<extra_id_42>", "<extra_id_43>", "<extra_id_44>", "<extra_id_45>", "<extra_id_46>", "<extra_id_47>", "<extra_id_48>", "<extra_id_49>", "<extra_id_50>", "<extra_id_51>", "<extra_id_52>", "<extra_id_53>", "<extra_id_54>", "<extra_id_55>", "<extra_id_56>", "<extra_id_57>", "<extra_id_58>", "<extra_id_59>", "<extra_id_60>", "<extra_id_61>", "<extra_id_62>", "<extra_id_63>", "<extra_id_64>", "<extra_id_65>", "<extra_id_66>", "<extra_id_67>", "<extra_id_68>", "<extra_id_69>", "<extra_id_70>", "<extra_id_71>", "<extra_id_72>", "<extra_id_73>", "<extra_id_74>", "<extra_id_75>", "<extra_id_76>", "<extra_id_77>", "<extra_id_78>", "<extra_id_79>", "<extra_id_80>", "<extra_id_81>", "<extra_id_82>", "<extra_id_83>", "<extra_id_84>", "<extra_id_85>", "<extra_id_86>", "<extra_id_87>", "<extra_id_88>", "<extra_id_89>", "<extra_id_90>", "<extra_id_91>", "<extra_id_92>", "<extra_id_93>", "<extra_id_94>", "<extra_id_95>", "<extra_id_96>", "<extra_id_97>", "<extra_id_98>", "<extra_id_99>"]}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "extra_ids": 100, "additional_special_tokens": ["<extra_id_0>", "<extra_id_1>", "<extra_id_2>", "<extra_id_3>", "<extra_id_4>", "<extra_id_5>", "<extra_id_6>", "<extra_id_7>", "<extra_id_8>", "<extra_id_9>", "<extra_id_10>", "<extra_id_11>", "<extra_id_12>", "<extra_id_13>", "<extra_id_14>", "<extra_id_15>", "<extra_id_16>", "<extra_id_17>", "<extra_id_18>", "<extra_id_19>", "<extra_id_20>", "<extra_id_21>", "<extra_id_22>", "<extra_id_23>", "<extra_id_24>", "<extra_id_25>", "<extra_id_26>", "<extra_id_27>", "<extra_id_28>", "<extra_id_29>", "<extra_id_30>", "<extra_id_31>", "<extra_id_32>", "<extra_id_33>", "<extra_id_34>", "<extra_id_35>", "<extra_id_36>", "<extra_id_37>", "<extra_id_38>", "<extra_id_39>", "<extra_id_40>", "<extra_id_41>", "<extra_id_42>", "<extra_id_43>", "<extra_id_44>", "<extra_id_45>", "<extra_id_46>", "<extra_id_47>", "<extra_id_48>", "<extra_id_49>", "<extra_id_50>", "<extra_id_51>", "<extra_id_52>", "<extra_id_53>", "<extra_id_54>", "<extra_id_55>", "<extra_id_56>", "<extra_id_57>", "<extra_id_58>", "<extra_id_59>", "<extra_id_60>", "<extra_id_61>", "<extra_id_62>", "<extra_id_63>", "<extra_id_64>", "<extra_id_65>", "<extra_id_66>", "<extra_id_67>", "<extra_id_68>", "<extra_id_69>", "<extra_id_70>", "<extra_id_71>", "<extra_id_72>", "<extra_id_73>", "<extra_id_74>", "<extra_id_75>", "<extra_id_76>", "<extra_id_77>", "<extra_id_78>", "<extra_id_79>", "<extra_id_80>", "<extra_id_81>", "<extra_id_82>", "<extra_id_83>", "<extra_id_84>", "<extra_id_85>", "<extra_id_86>", "<extra_id_87>", "<extra_id_88>", "<extra_id_89>", "<extra_id_90>", "<extra_id_91>", "<extra_id_92>", "<extra_id_93>", "<extra_id_94>", "<extra_id_95>", "<extra_id_96>", "<extra_id_97>", "<extra_id_98>", "<extra_id_99>"], "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "t5-3b", "tokenizer_class": "T5Tokenizer"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2074 @@

+{
+  "best_metric": 0.6359102244389028,
+  "best_model_checkpoint": "./experiment/train_0501_sparc_add_coref_denpendency/checkpoint-2304",
+  "epoch": 255.96644295302013,
+  "global_step": 2304,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001,
+      "loss": 3.6078,
+      "step": 1
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0001,
+      "loss": 1.5566,
+      "step": 8
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0001,
+      "loss": 0.5692,
+      "step": 16
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.0001,
+      "loss": 0.3415,
+      "step": 24
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 0.0001,
+      "loss": 0.2727,
+      "step": 32
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 0.0001,
+      "loss": 0.2052,
+      "step": 40
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 0.0001,
+      "loss": 0.1592,
+      "step": 48
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 0.0001,
+      "loss": 0.1344,
+      "step": 56
+    },
+    {
+      "epoch": 7.11,
+      "learning_rate": 0.0001,
+      "loss": 0.1275,
+      "step": 64
+    },
+    {
+      "epoch": 7.11,
+      "eval_exact_match": 0.48129675810473815,
+      "eval_exec": 0.5386533665835411,
+      "eval_loss": 0.17057272791862488,
+      "eval_runtime": 517.9951,
+      "eval_samples_per_second": 3.137,
+      "step": 64
+    },
+    {
+      "epoch": 7.97,
+      "learning_rate": 0.0001,
+      "loss": 0.094,
+      "step": 72
+    },
+    {
+      "epoch": 8.86,
+      "learning_rate": 0.0001,
+      "loss": 0.1076,
+      "step": 80
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0796,
+      "step": 88
+    },
+    {
+      "epoch": 10.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0729,
+      "step": 96
+    },
+    {
+      "epoch": 11.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0847,
+      "step": 104
+    },
+    {
+      "epoch": 12.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0582,
+      "step": 112
+    },
+    {
+      "epoch": 13.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0533,
+      "step": 120
+    },
+    {
+      "epoch": 14.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0504,
+      "step": 128
+    },
+    {
+      "epoch": 14.21,
+      "eval_exact_match": 0.5469659185369908,
+      "eval_exec": 0.600166251039069,
+      "eval_loss": 0.18190230429172516,
+      "eval_runtime": 531.6846,
+      "eval_samples_per_second": 3.056,
+      "step": 128
+    },
+    {
+      "epoch": 15.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0441,
+      "step": 136
+    },
+    {
+      "epoch": 15.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0423,
+      "step": 144
+    },
+    {
+      "epoch": 16.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0371,
+      "step": 152
+    },
+    {
+      "epoch": 17.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0354,
+      "step": 160
+    },
+    {
+      "epoch": 18.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0315,
+      "step": 168
+    },
+    {
+      "epoch": 19.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0277,
+      "step": 176
+    },
+    {
+      "epoch": 20.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0274,
+      "step": 184
+    },
+    {
+      "epoch": 21.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0257,
+      "step": 192
+    },
+    {
+      "epoch": 21.32,
+      "eval_exact_match": 0.5627597672485453,
+      "eval_exec": 0.6217788861180382,
+      "eval_loss": 0.21687868237495422,
+      "eval_runtime": 659.6767,
+      "eval_samples_per_second": 2.463,
+      "step": 192
+    },
+    {
+      "epoch": 22.21,
+      "learning_rate": 0.0001,
+      "loss": 0.022,
+      "step": 200
+    },
+    {
+      "epoch": 23.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0203,
+      "step": 208
+    },
+    {
+      "epoch": 23.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0181,
+      "step": 216
+    },
+    {
+      "epoch": 24.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0181,
+      "step": 224
+    },
+    {
+      "epoch": 25.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0176,
+      "step": 232
+    },
+    {
+      "epoch": 26.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0145,
+      "step": 240
+    },
+    {
+      "epoch": 27.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0132,
+      "step": 248
+    },
+    {
+      "epoch": 28.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0156,
+      "step": 256
+    },
+    {
+      "epoch": 28.43,
+      "eval_exact_match": 0.4239401496259352,
+      "eval_exec": 0.4397339983374896,
+      "eval_loss": 0.3322429060935974,
+      "eval_runtime": 617.5714,
+      "eval_samples_per_second": 2.631,
+      "step": 256
+    },
+    {
+      "epoch": 29.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0295,
+      "step": 264
+    },
+    {
+      "epoch": 30.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0102,
+      "step": 272
+    },
+    {
+      "epoch": 31.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0094,
+      "step": 280
+    },
+    {
+      "epoch": 31.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0082,
+      "step": 288
+    },
+    {
+      "epoch": 32.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0088,
+      "step": 296
+    },
+    {
+      "epoch": 33.75,
+      "learning_rate": 0.0001,
+      "loss": 0.011,
+      "step": 304
+    },
+    {
+      "epoch": 34.64,
+      "learning_rate": 0.0001,
+      "loss": 0.01,
+      "step": 312
+    },
+    {
+      "epoch": 35.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0082,
+      "step": 320
+    },
+    {
+      "epoch": 35.54,
+      "eval_exact_match": 0.6018287614297589,
+      "eval_exec": 0.6458852867830424,
+      "eval_loss": 0.2703750431537628,
+      "eval_runtime": 591.5567,
+      "eval_samples_per_second": 2.747,
+      "step": 320
+    },
+    {
+      "epoch": 36.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0072,
+      "step": 328
+    },
+    {
+      "epoch": 37.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0063,
+      "step": 336
+    },
+    {
+      "epoch": 38.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0061,
+      "step": 344
+    },
+    {
+      "epoch": 39.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0062,
+      "step": 352
+    },
+    {
+      "epoch": 39.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0051,
+      "step": 360
+    },
+    {
+      "epoch": 40.86,
+      "learning_rate": 0.0001,
+      "loss": 0.005,
+      "step": 368
+    },
+    {
+      "epoch": 41.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0051,
+      "step": 376
+    },
+    {
+      "epoch": 42.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0054,
+      "step": 384
+    },
+    {
+      "epoch": 42.64,
+      "eval_exact_match": 0.600997506234414,
+      "eval_exec": 0.6500415627597672,
+      "eval_loss": 0.2921164035797119,
+      "eval_runtime": 612.6538,
+      "eval_samples_per_second": 2.652,
+      "step": 384
+    },
+    {
+      "epoch": 43.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0106,
+      "step": 392
+    },
+    {
+      "epoch": 44.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0053,
+      "step": 400
+    },
+    {
+      "epoch": 45.32,
+      "learning_rate": 0.0001,
+      "loss": 0.005,
+      "step": 408
+    },
+    {
+      "epoch": 46.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0043,
+      "step": 416
+    },
+    {
+      "epoch": 47.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0043,
+      "step": 424
+    },
+    {
+      "epoch": 47.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0037,
+      "step": 432
+    },
+    {
+      "epoch": 48.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0043,
+      "step": 440
+    },
+    {
+      "epoch": 49.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0077,
+      "step": 448
+    },
+    {
+      "epoch": 49.75,
+      "eval_exact_match": 0.6101413133832086,
+      "eval_exec": 0.6483790523690773,
+      "eval_loss": 0.29036417603492737,
+      "eval_runtime": 632.4401,
+      "eval_samples_per_second": 2.569,
+      "step": 448
+    },
+    {
+      "epoch": 50.64,
+      "learning_rate": 0.0001,
+      "loss": 0.004,
+      "step": 456
+    },
+    {
+      "epoch": 51.54,
+      "learning_rate": 0.0001,
+      "loss": 0.004,
+      "step": 464
+    },
+    {
+      "epoch": 52.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0141,
+      "step": 472
+    },
+    {
+      "epoch": 53.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0131,
+      "step": 480
+    },
+    {
+      "epoch": 54.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0034,
+      "step": 488
+    },
+    {
+      "epoch": 55.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0033,
+      "step": 496
+    },
+    {
+      "epoch": 55.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0029,
+      "step": 504
+    },
+    {
+      "epoch": 56.86,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 512
+    },
+    {
+      "epoch": 56.86,
+      "eval_exact_match": 0.6176226101413134,
+      "eval_exec": 0.6716541978387365,
+      "eval_loss": 0.3254193067550659,
+      "eval_runtime": 623.8474,
+      "eval_samples_per_second": 2.605,
+      "step": 512
+    },
+    {
+      "epoch": 57.75,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 520
+    },
+    {
+      "epoch": 58.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0027,
+      "step": 528
+    },
+    {
+      "epoch": 59.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0026,
+      "step": 536
+    },
+    {
+      "epoch": 60.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 544
+    },
+    {
+      "epoch": 61.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 552
+    },
+    {
+      "epoch": 62.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0026,
+      "step": 560
+    },
+    {
+      "epoch": 63.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 568
+    },
+    {
+      "epoch": 63.97,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 576
+    },
+    {
+      "epoch": 63.97,
+      "eval_exact_match": 0.6176226101413134,
+      "eval_exec": 0.6600166251039069,
+      "eval_loss": 0.34047040343284607,
+      "eval_runtime": 625.6853,
+      "eval_samples_per_second": 2.597,
+      "step": 576
+    },
+    {
+      "epoch": 64.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0026,
+      "step": 584
+    },
+    {
+      "epoch": 65.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 592
+    },
+    {
+      "epoch": 66.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 600
+    },
+    {
+      "epoch": 67.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0026,
+      "step": 608
+    },
+    {
+      "epoch": 68.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0031,
+      "step": 616
+    },
+    {
+      "epoch": 69.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 624
+    },
+    {
+      "epoch": 70.21,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 632
+    },
+    {
+      "epoch": 71.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 640
+    },
+    {
+      "epoch": 71.11,
+      "eval_exact_match": 0.5935162094763092,
+      "eval_exec": 0.6367414796342478,
+      "eval_loss": 0.3419930040836334,
+      "eval_runtime": 628.956,
+      "eval_samples_per_second": 2.584,
+      "step": 640
+    },
+    {
+      "epoch": 71.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 648
+    },
+    {
+      "epoch": 72.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 656
+    },
+    {
+      "epoch": 73.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 664
+    },
+    {
+      "epoch": 74.64,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 672
+    },
+    {
+      "epoch": 75.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 680
+    },
+    {
+      "epoch": 76.43,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 688
+    },
+    {
+      "epoch": 77.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0066,
+      "step": 696
+    },
+    {
+      "epoch": 78.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0081,
+      "step": 704
+    },
+    {
+      "epoch": 78.21,
+      "eval_exact_match": 0.6101413133832086,
+      "eval_exec": 0.6658354114713217,
+      "eval_loss": 0.3075915575027466,
+      "eval_runtime": 610.1005,
+      "eval_samples_per_second": 2.663,
+      "step": 704
+    },
+    {
+      "epoch": 79.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 712
+    },
+    {
+      "epoch": 79.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 720
+    },
+    {
+      "epoch": 80.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 728
+    },
+    {
+      "epoch": 81.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 736
+    },
+    {
+      "epoch": 82.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 744
+    },
+    {
+      "epoch": 83.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 752
+    },
+    {
+      "epoch": 84.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 760
+    },
+    {
+      "epoch": 85.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0085,
+      "step": 768
+    },
+    {
+      "epoch": 85.32,
+      "eval_exact_match": 0.6267664172901081,
+      "eval_exec": 0.6783042394014963,
+      "eval_loss": 0.34360331296920776,
+      "eval_runtime": 719.9169,
+      "eval_samples_per_second": 2.257,
+      "step": 768
+    },
+    {
+      "epoch": 86.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 776
+    },
+    {
+      "epoch": 87.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 784
+    },
+    {
+      "epoch": 87.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0036,
+      "step": 792
+    },
+    {
+      "epoch": 88.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 800
+    },
+    {
+      "epoch": 89.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 808
+    },
+    {
+      "epoch": 90.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 816
+    },
+    {
+      "epoch": 91.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0035,
+      "step": 824
+    },
+    {
+      "epoch": 92.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0053,
+      "step": 832
+    },
+    {
+      "epoch": 92.43,
+      "eval_exact_match": 0.6051537822111388,
+      "eval_exec": 0.6674979218620116,
+      "eval_loss": 0.3258628249168396,
+      "eval_runtime": 632.8345,
+      "eval_samples_per_second": 2.568,
+      "step": 832
+    },
+    {
+      "epoch": 93.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 840
+    },
+    {
+      "epoch": 94.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0063,
+      "step": 848
+    },
+    {
+      "epoch": 95.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 856
+    },
+    {
+      "epoch": 95.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 864
+    },
+    {
+      "epoch": 96.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 872
+    },
+    {
+      "epoch": 97.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 880
+    },
+    {
+      "epoch": 98.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 888
+    },
+    {
+      "epoch": 99.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 896
+    },
+    {
+      "epoch": 99.54,
+      "eval_exact_match": 0.6126350789692435,
+      "eval_exec": 0.6625103906899418,
+      "eval_loss": 0.3495762348175049,
+      "eval_runtime": 646.5878,
+      "eval_samples_per_second": 2.513,
+      "step": 896
+    },
+    {
+      "epoch": 100.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 904
+    },
+    {
+      "epoch": 101.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 912
+    },
+    {
+      "epoch": 102.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 920
+    },
+    {
+      "epoch": 103.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 928
+    },
+    {
+      "epoch": 103.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 936
+    },
+    {
+      "epoch": 104.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 944
+    },
+    {
+      "epoch": 105.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 952
+    },
+    {
+      "epoch": 106.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 960
+    },
+    {
+      "epoch": 106.64,
+      "eval_exact_match": 0.6267664172901081,
+      "eval_exec": 0.6749792186201163,
+      "eval_loss": 0.3583427369594574,
+      "eval_runtime": 675.9856,
+      "eval_samples_per_second": 2.404,
+      "step": 960
+    },
+    {
+      "epoch": 107.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 968
+    },
+    {
+      "epoch": 108.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 976
+    },
+    {
+      "epoch": 109.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 984
+    },
+    {
+      "epoch": 110.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 992
+    },
+    {
+      "epoch": 111.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0039,
+      "step": 1000
+    },
+    {
+      "epoch": 111.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1008
+    },
+    {
+      "epoch": 112.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1016
+    },
+    {
+      "epoch": 113.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1024
+    },
+    {
+      "epoch": 113.75,
+      "eval_exact_match": 0.6134663341645885,
+      "eval_exec": 0.6625103906899418,
+      "eval_loss": 0.36480623483657837,
+      "eval_runtime": 687.3703,
+      "eval_samples_per_second": 2.364,
+      "step": 1024
+    },
+    {
+      "epoch": 114.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1032
+    },
+    {
+      "epoch": 115.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 1040
+    },
+    {
+      "epoch": 116.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1048
+    },
+    {
+      "epoch": 117.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1056
+    },
+    {
+      "epoch": 118.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1064
+    },
+    {
+      "epoch": 119.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1072
+    },
+    {
+      "epoch": 119.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1080
+    },
+    {
+      "epoch": 120.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1088
+    },
+    {
+      "epoch": 120.86,
+      "eval_exact_match": 0.6034912718204489,
+      "eval_exec": 0.6525353283458022,
+      "eval_loss": 0.38511478900909424,
+      "eval_runtime": 1089.0696,
+      "eval_samples_per_second": 1.492,
+      "step": 1088
+    },
+    {
+      "epoch": 121.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1096
+    },
+    {
+      "epoch": 122.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0088,
+      "step": 1104
+    },
+    {
+      "epoch": 123.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 1112
+    },
+    {
+      "epoch": 124.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1120
+    },
+    {
+      "epoch": 125.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1128
+    },
+    {
+      "epoch": 126.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1136
+    },
+    {
+      "epoch": 127.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1144
+    },
+    {
+      "epoch": 127.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1152
+    },
+    {
+      "epoch": 127.97,
+      "eval_exact_match": 0.6126350789692435,
+      "eval_exec": 0.6616791354945969,
+      "eval_loss": 0.3620198965072632,
+      "eval_runtime": 625.7472,
+      "eval_samples_per_second": 2.597,
+      "step": 1152
+    },
+    {
+      "epoch": 128.86,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1160
+    },
+    {
+      "epoch": 129.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 1168
+    },
+    {
+      "epoch": 130.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1176
+    },
+    {
+      "epoch": 131.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1184
+    },
+    {
+      "epoch": 132.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1192
+    },
+    {
+      "epoch": 133.32,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1200
+    },
+    {
+      "epoch": 134.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1208
+    },
+    {
+      "epoch": 135.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1216
+    },
+    {
+      "epoch": 135.11,
+      "eval_exact_match": 0.6109725685785536,
+      "eval_exec": 0.6625103906899418,
+      "eval_loss": 0.38990598917007446,
+      "eval_runtime": 672.2153,
+      "eval_samples_per_second": 2.417,
+      "step": 1216
+    },
+    {
+      "epoch": 135.97,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1224
+    },
+    {
+      "epoch": 136.86,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1232
+    },
+    {
+      "epoch": 137.75,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1240
+    },
+    {
+      "epoch": 138.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1248
+    },
+    {
+      "epoch": 139.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1256
+    },
+    {
+      "epoch": 140.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1264
+    },
+    {
+      "epoch": 141.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1272
+    },
+    {
+      "epoch": 142.21,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1280
+    },
+    {
+      "epoch": 142.21,
+      "eval_exact_match": 0.6192851205320034,
+      "eval_exec": 0.6766417290108063,
+      "eval_loss": 0.3710319697856903,
+      "eval_runtime": 681.1968,
+      "eval_samples_per_second": 2.386,
+      "step": 1280
+    },
+    {
+      "epoch": 143.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1288
+    },
+    {
+      "epoch": 143.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1296
+    },
+    {
+      "epoch": 144.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1304
+    },
+    {
+      "epoch": 145.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0059,
+      "step": 1312
+    },
+    {
+      "epoch": 146.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 1320
+    },
+    {
+      "epoch": 147.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1328
+    },
+    {
+      "epoch": 148.43,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1336
+    },
+    {
+      "epoch": 149.32,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1344
+    },
+    {
+      "epoch": 149.32,
+      "eval_exact_match": 0.6126350789692435,
+      "eval_exec": 0.6541978387364921,
+      "eval_loss": 0.38512444496154785,
+      "eval_runtime": 658.6422,
+      "eval_samples_per_second": 2.467,
+      "step": 1344
+    },
+    {
+      "epoch": 150.21,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1352
+    },
+    {
+      "epoch": 151.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1360
+    },
+    {
+      "epoch": 151.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1368
+    },
+    {
+      "epoch": 152.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1376
+    },
+    {
+      "epoch": 153.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1384
+    },
+    {
+      "epoch": 154.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 1392
+    },
+    {
+      "epoch": 155.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1400
+    },
+    {
+      "epoch": 156.43,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1408
+    },
+    {
+      "epoch": 156.43,
+      "eval_exact_match": 0.6134663341645885,
+      "eval_exec": 0.6716541978387365,
+      "eval_loss": 0.37701520323753357,
+      "eval_runtime": 671.9945,
+      "eval_samples_per_second": 2.418,
+      "step": 1408
+    },
+    {
+      "epoch": 157.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1416
+    },
+    {
+      "epoch": 158.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1424
+    },
+    {
+      "epoch": 159.11,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1432
+    },
+    {
+      "epoch": 159.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1440
+    },
+    {
+      "epoch": 160.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1448
+    },
+    {
+      "epoch": 161.75,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1456
+    },
+    {
+      "epoch": 162.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1464
+    },
+    {
+      "epoch": 163.54,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1472
+    },
+    {
+      "epoch": 163.54,
+      "eval_exact_match": 0.6093100581878637,
+      "eval_exec": 0.6683291770573566,
+      "eval_loss": 0.38139888644218445,
+      "eval_runtime": 629.7005,
+      "eval_samples_per_second": 2.581,
+      "step": 1472
+    },
+    {
+      "epoch": 164.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1480
+    },
+    {
+      "epoch": 165.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1488
+    },
+    {
+      "epoch": 166.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1496
+    },
+    {
+      "epoch": 167.11,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1504
+    },
+    {
+      "epoch": 167.97,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1512
+    },
+    {
+      "epoch": 168.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1520
+    },
+    {
+      "epoch": 169.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1528
+    },
+    {
+      "epoch": 170.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1536
+    },
+    {
+      "epoch": 170.64,
+      "eval_exact_match": 0.6259351620947631,
+      "eval_exec": 0.6683291770573566,
+      "eval_loss": 0.3713288903236389,
+      "eval_runtime": 663.4255,
+      "eval_samples_per_second": 2.449,
+      "step": 1536
+    },
+    {
+      "epoch": 171.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1544
+    },
+    {
+      "epoch": 172.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1552
+    },
+    {
+      "epoch": 173.32,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1560
+    },
+    {
+      "epoch": 174.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1568
+    },
+    {
+      "epoch": 175.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1576
+    },
+    {
+      "epoch": 175.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1584
+    },
+    {
+      "epoch": 176.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1592
+    },
+    {
+      "epoch": 177.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1600
+    },
+    {
+      "epoch": 177.75,
+      "eval_exact_match": 0.6251039068994181,
+      "eval_exec": 0.6674979218620116,
+      "eval_loss": 0.37738731503486633,
+      "eval_runtime": 559.3099,
+      "eval_samples_per_second": 2.905,
+      "step": 1600
+    },
+    {
+      "epoch": 178.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1608
+    },
+    {
+      "epoch": 179.54,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1616
+    },
+    {
+      "epoch": 180.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1624
+    },
+    {
+      "epoch": 181.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1632
+    },
+    {
+      "epoch": 182.21,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1640
+    },
+    {
+      "epoch": 183.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1648
+    },
+    {
+      "epoch": 183.97,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 1656
+    },
+    {
+      "epoch": 184.86,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1664
+    },
+    {
+      "epoch": 184.86,
+      "eval_exact_match": 0.6118038237738986,
+      "eval_exec": 0.6616791354945969,
+      "eval_loss": 0.37692150473594666,
+      "eval_runtime": 654.8531,
+      "eval_samples_per_second": 2.481,
+      "step": 1664
+    },
+    {
+      "epoch": 185.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1672
+    },
+    {
+      "epoch": 186.64,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1680
+    },
+    {
+      "epoch": 187.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1688
+    },
+    {
+      "epoch": 188.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 1696
+    },
+    {
+      "epoch": 189.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1704
+    },
+    {
+      "epoch": 190.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1712
+    },
+    {
+      "epoch": 191.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1720
+    },
+    {
+      "epoch": 191.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1728
+    },
+    {
+      "epoch": 191.97,
+      "eval_exact_match": 0.6226101413133832,
+      "eval_exec": 0.6758104738154613,
+      "eval_loss": 0.3892926275730133,
+      "eval_runtime": 604.6134,
+      "eval_samples_per_second": 2.688,
+      "step": 1728
+    },
+    {
+      "epoch": 192.86,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1736
+    },
+    {
+      "epoch": 193.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1744
+    },
+    {
+      "epoch": 194.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1752
+    },
+    {
+      "epoch": 195.54,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1760
+    },
+    {
+      "epoch": 196.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1768
+    },
+    {
+      "epoch": 197.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1776
+    },
+    {
+      "epoch": 198.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1784
+    },
+    {
+      "epoch": 199.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1792
+    },
+    {
+      "epoch": 199.11,
+      "eval_exact_match": 0.6275976724854531,
+      "eval_exec": 0.6758104738154613,
+      "eval_loss": 0.3943491578102112,
+      "eval_runtime": 616.8463,
+      "eval_samples_per_second": 2.634,
+      "step": 1792
+    },
+    {
+      "epoch": 199.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1800
+    },
+    {
+      "epoch": 200.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0033,
+      "step": 1808
+    },
+    {
+      "epoch": 201.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1816
+    },
+    {
+      "epoch": 202.64,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 1824
+    },
+    {
+      "epoch": 203.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1832
+    },
+    {
+      "epoch": 204.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1840
+    },
+    {
+      "epoch": 205.32,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1848
+    },
+    {
+      "epoch": 206.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1856
+    },
+    {
+      "epoch": 206.21,
+      "eval_exact_match": 0.6350789692435578,
+      "eval_exec": 0.6816292601828762,
+      "eval_loss": 0.3747319281101227,
+      "eval_runtime": 608.1838,
+      "eval_samples_per_second": 2.672,
+      "step": 1856
+    },
+    {
+      "epoch": 207.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1864
+    },
+    {
+      "epoch": 207.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1872
+    },
+    {
+      "epoch": 208.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1880
+    },
+    {
+      "epoch": 209.75,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1888
+    },
+    {
+      "epoch": 210.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1896
+    },
+    {
+      "epoch": 211.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0204,
+      "step": 1904
+    },
+    {
+      "epoch": 212.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1912
+    },
+    {
+      "epoch": 213.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1920
+    },
+    {
+      "epoch": 213.32,
+      "eval_exact_match": 0.628428927680798,
+      "eval_exec": 0.6749792186201163,
+      "eval_loss": 0.3832400143146515,
+      "eval_runtime": 602.0466,
+      "eval_samples_per_second": 2.699,
+      "step": 1920
+    },
+    {
+      "epoch": 214.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1928
+    },
+    {
+      "epoch": 215.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1936
+    },
+    {
+      "epoch": 215.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1944
+    },
+    {
+      "epoch": 216.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1952
+    },
+    {
+      "epoch": 217.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1960
+    },
+    {
+      "epoch": 218.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1968
+    },
+    {
+      "epoch": 219.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1976
+    },
+    {
+      "epoch": 220.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1984
+    },
+    {
+      "epoch": 220.43,
+      "eval_exact_match": 0.6275976724854531,
+      "eval_exec": 0.6758104738154613,
+      "eval_loss": 0.3946389853954315,
+      "eval_runtime": 614.3111,
+      "eval_samples_per_second": 2.645,
+      "step": 1984
+    },
+    {
+      "epoch": 221.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1992
+    },
+    {
+      "epoch": 222.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2000
+    },
+    {
+      "epoch": 223.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2008
+    },
+    {
+      "epoch": 223.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2016
+    },
+    {
+      "epoch": 224.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2024
+    },
+    {
+      "epoch": 225.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0085,
+      "step": 2032
+    },
+    {
+      "epoch": 226.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 2040
+    },
+    {
+      "epoch": 227.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2048
+    },
+    {
+      "epoch": 227.54,
+      "eval_exact_match": 0.6334164588528678,
+      "eval_exec": 0.6749792186201163,
+      "eval_loss": 0.3720964789390564,
+      "eval_runtime": 625.9541,
+      "eval_samples_per_second": 2.596,
+      "step": 2048
+    },
+    {
+      "epoch": 228.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2056
+    },
+    {
+      "epoch": 229.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2064
+    },
+    {
+      "epoch": 230.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2072
+    },
+    {
+      "epoch": 231.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2080
+    },
+    {
+      "epoch": 231.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2088
+    },
+    {
+      "epoch": 232.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2096
+    },
+    {
+      "epoch": 233.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2104
+    },
+    {
+      "epoch": 234.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 2112
+    },
+    {
+      "epoch": 234.64,
+      "eval_exact_match": 0.6226101413133832,
+      "eval_exec": 0.6766417290108063,
+      "eval_loss": 0.3971711993217468,
+      "eval_runtime": 618.6026,
+      "eval_samples_per_second": 2.627,
+      "step": 2112
+    },
+    {
+      "epoch": 235.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 2120
+    },
+    {
+      "epoch": 236.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2128
+    },
+    {
+      "epoch": 237.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 2136
+    },
+    {
+      "epoch": 238.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2144
+    },
+    {
+      "epoch": 239.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2152
+    },
+    {
+      "epoch": 239.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2160
+    },
+    {
+      "epoch": 240.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2168
+    },
+    {
+      "epoch": 241.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 2176
+    },
+    {
+      "epoch": 241.75,
+      "eval_exact_match": 0.6292601828761429,
+      "eval_exec": 0.6783042394014963,
+      "eval_loss": 0.3668304681777954,
+      "eval_runtime": 553.3572,
+      "eval_samples_per_second": 2.937,
+      "step": 2176
+    },
+    {
+      "epoch": 242.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2184
+    },
+    {
+      "epoch": 243.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 2192
+    },
+    {
+      "epoch": 244.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2200
+    },
+    {
+      "epoch": 245.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 2208
+    },
+    {
+      "epoch": 246.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 2216
+    },
+    {
+      "epoch": 247.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2224
+    },
+    {
+      "epoch": 247.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2232
+    },
+    {
+      "epoch": 248.86,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2240
+    },
+    {
+      "epoch": 248.86,
+      "eval_exact_match": 0.6217788861180382,
+      "eval_exec": 0.6741479634247715,
+      "eval_loss": 0.3940756320953369,
+      "eval_runtime": 599.5801,
+      "eval_samples_per_second": 2.71,
+      "step": 2240
+    },
+    {
+      "epoch": 249.75,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2248
+    },
+    {
+      "epoch": 250.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2256
+    },
+    {
+      "epoch": 251.54,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2264
+    },
+    {
+      "epoch": 252.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2272
+    },
+    {
+      "epoch": 253.32,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2280
+    },
+    {
+      "epoch": 254.21,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2288
+    },
+    {
+      "epoch": 255.11,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2296
+    },
+    {
+      "epoch": 255.97,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2304
+    },
+    {
+      "epoch": 255.97,
+      "eval_exact_match": 0.6359102244389028,
+      "eval_exec": 0.686616791354946,
+      "eval_loss": 0.39379316568374634,
+      "eval_runtime": 602.7618,
+      "eval_samples_per_second": 2.696,
+      "step": 2304
+    }
+  ],
+  "max_steps": 27648,
+  "num_train_epochs": 3072,
+  "total_flos": 1.7577156158550966e+19,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e93f286a6e00a4925bce29e7e7d788007d56bf677afec65728af3c30fd4a1b7c
+size 3247