Patil commited on
Commit
801b279
1 Parent(s): e5c946d

Upload folder using huggingface_hub

Browse files
added_tokens.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "<ctc_blank>": 80,
3
+ "<mask>": 79
4
+ }
config.json ADDED
@@ -0,0 +1,92 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "microsoft/speecht5_tts",
3
+ "activation_dropout": 0.1,
4
+ "apply_spec_augment": true,
5
+ "architectures": [
6
+ "SpeechT5ForTextToSpeech"
7
+ ],
8
+ "attention_dropout": 0.1,
9
+ "bos_token_id": 0,
10
+ "conv_bias": false,
11
+ "conv_dim": [
12
+ 512,
13
+ 512,
14
+ 512,
15
+ 512,
16
+ 512,
17
+ 512,
18
+ 512
19
+ ],
20
+ "conv_kernel": [
21
+ 10,
22
+ 3,
23
+ 3,
24
+ 3,
25
+ 3,
26
+ 2,
27
+ 2
28
+ ],
29
+ "conv_stride": [
30
+ 5,
31
+ 2,
32
+ 2,
33
+ 2,
34
+ 2,
35
+ 2,
36
+ 2
37
+ ],
38
+ "decoder_attention_heads": 12,
39
+ "decoder_ffn_dim": 3072,
40
+ "decoder_layerdrop": 0.1,
41
+ "decoder_layers": 6,
42
+ "decoder_start_token_id": 2,
43
+ "encoder_attention_heads": 12,
44
+ "encoder_ffn_dim": 3072,
45
+ "encoder_layerdrop": 0.1,
46
+ "encoder_layers": 12,
47
+ "encoder_max_relative_position": 160,
48
+ "eos_token_id": 2,
49
+ "feat_extract_activation": "gelu",
50
+ "feat_extract_norm": "group",
51
+ "feat_proj_dropout": 0.0,
52
+ "guided_attention_loss_num_heads": 2,
53
+ "guided_attention_loss_scale": 10.0,
54
+ "guided_attention_loss_sigma": 0.4,
55
+ "hidden_act": "gelu",
56
+ "hidden_dropout": 0.1,
57
+ "hidden_size": 768,
58
+ "initializer_range": 0.02,
59
+ "is_encoder_decoder": true,
60
+ "layer_norm_eps": 1e-05,
61
+ "mask_feature_length": 10,
62
+ "mask_feature_min_masks": 0,
63
+ "mask_feature_prob": 0.0,
64
+ "mask_time_length": 10,
65
+ "mask_time_min_masks": 2,
66
+ "mask_time_prob": 0.05,
67
+ "max_length": 1876,
68
+ "max_speech_positions": 1876,
69
+ "max_text_positions": 600,
70
+ "model_type": "speecht5",
71
+ "num_conv_pos_embedding_groups": 16,
72
+ "num_conv_pos_embeddings": 128,
73
+ "num_feat_extract_layers": 7,
74
+ "num_mel_bins": 80,
75
+ "pad_token_id": 1,
76
+ "positional_dropout": 0.1,
77
+ "reduction_factor": 2,
78
+ "scale_embedding": false,
79
+ "speaker_embedding_dim": 512,
80
+ "speech_decoder_postnet_dropout": 0.5,
81
+ "speech_decoder_postnet_kernel": 5,
82
+ "speech_decoder_postnet_layers": 5,
83
+ "speech_decoder_postnet_units": 256,
84
+ "speech_decoder_prenet_dropout": 0.5,
85
+ "speech_decoder_prenet_layers": 2,
86
+ "speech_decoder_prenet_units": 256,
87
+ "torch_dtype": "float32",
88
+ "transformers_version": "4.32.0.dev0",
89
+ "use_cache": false,
90
+ "use_guided_attention_loss": true,
91
+ "vocab_size": 81
92
+ }
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e56a21d8dd1b01ef1e62b0a14344e0a1a6802e9a24a05e6619b13685250fe347
3
+ size 1155771732
pytorch_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d370f26bab21bc670c5679cae03095f52086aaa3fab59300cf4f627916e2b997
3
+ size 577878333
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9fb525cd196d4924ee5b4f90c75e5b0fcbce15fa3a4e7a59349af54e51260562
3
+ size 14575
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e6d1159e734022db17e0b4c87327f48e7b4ca68fc53c221b9fb438c7c19a5799
3
+ size 627
special_tokens_map.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<s>",
3
+ "eos_token": "</s>",
4
+ "mask_token": {
5
+ "content": "<mask>",
6
+ "lstrip": true,
7
+ "normalized": true,
8
+ "rstrip": false,
9
+ "single_word": false
10
+ },
11
+ "pad_token": "<pad>",
12
+ "unk_token": "<unk>"
13
+ }
spm_char.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7fcc48f3e225f627b1641db410ceb0c8649bd2b0c982e150b03f8be3728ab560
3
+ size 238473
tokenizer_config.json ADDED
@@ -0,0 +1,11 @@
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<s>",
3
+ "clean_up_tokenization_spaces": true,
4
+ "eos_token": "</s>",
5
+ "model_max_length": 600,
6
+ "pad_token": "<pad>",
7
+ "processor_class": "SpeechT5Processor",
8
+ "sp_model_kwargs": {},
9
+ "tokenizer_class": "SpeechT5Tokenizer",
10
+ "unk_token": "<unk>"
11
+ }
trainer_state.json ADDED
@@ -0,0 +1,2000 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.50015789270401,
3
+ "best_model_checkpoint": "./speecht5_tts_marathi/checkpoint-8000",
4
+ "epoch": 55.94405594405595,
5
+ "global_step": 8000,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.17,
12
+ "learning_rate": 4.4e-07,
13
+ "loss": 3.7309,
14
+ "step": 25
15
+ },
16
+ {
17
+ "epoch": 0.35,
18
+ "learning_rate": 9.400000000000001e-07,
19
+ "loss": 3.4455,
20
+ "step": 50
21
+ },
22
+ {
23
+ "epoch": 0.52,
24
+ "learning_rate": 1.44e-06,
25
+ "loss": 3.1035,
26
+ "step": 75
27
+ },
28
+ {
29
+ "epoch": 0.7,
30
+ "learning_rate": 1.94e-06,
31
+ "loss": 2.7149,
32
+ "step": 100
33
+ },
34
+ {
35
+ "epoch": 0.87,
36
+ "learning_rate": 2.4400000000000004e-06,
37
+ "loss": 2.5068,
38
+ "step": 125
39
+ },
40
+ {
41
+ "epoch": 1.05,
42
+ "learning_rate": 2.9400000000000002e-06,
43
+ "loss": 2.2706,
44
+ "step": 150
45
+ },
46
+ {
47
+ "epoch": 1.22,
48
+ "learning_rate": 3.44e-06,
49
+ "loss": 2.0356,
50
+ "step": 175
51
+ },
52
+ {
53
+ "epoch": 1.4,
54
+ "learning_rate": 3.94e-06,
55
+ "loss": 1.9272,
56
+ "step": 200
57
+ },
58
+ {
59
+ "epoch": 1.57,
60
+ "learning_rate": 4.440000000000001e-06,
61
+ "loss": 1.7545,
62
+ "step": 225
63
+ },
64
+ {
65
+ "epoch": 1.75,
66
+ "learning_rate": 4.94e-06,
67
+ "loss": 1.4878,
68
+ "step": 250
69
+ },
70
+ {
71
+ "epoch": 1.92,
72
+ "learning_rate": 5.4400000000000004e-06,
73
+ "loss": 1.3988,
74
+ "step": 275
75
+ },
76
+ {
77
+ "epoch": 2.1,
78
+ "learning_rate": 5.94e-06,
79
+ "loss": 1.3391,
80
+ "step": 300
81
+ },
82
+ {
83
+ "epoch": 2.27,
84
+ "learning_rate": 6.440000000000001e-06,
85
+ "loss": 1.2586,
86
+ "step": 325
87
+ },
88
+ {
89
+ "epoch": 2.45,
90
+ "learning_rate": 6.9400000000000005e-06,
91
+ "loss": 1.2337,
92
+ "step": 350
93
+ },
94
+ {
95
+ "epoch": 2.62,
96
+ "learning_rate": 7.440000000000001e-06,
97
+ "loss": 1.1138,
98
+ "step": 375
99
+ },
100
+ {
101
+ "epoch": 2.8,
102
+ "learning_rate": 7.94e-06,
103
+ "loss": 1.0617,
104
+ "step": 400
105
+ },
106
+ {
107
+ "epoch": 2.97,
108
+ "learning_rate": 8.44e-06,
109
+ "loss": 0.9826,
110
+ "step": 425
111
+ },
112
+ {
113
+ "epoch": 3.15,
114
+ "learning_rate": 8.94e-06,
115
+ "loss": 0.99,
116
+ "step": 450
117
+ },
118
+ {
119
+ "epoch": 3.32,
120
+ "learning_rate": 9.440000000000001e-06,
121
+ "loss": 1.0055,
122
+ "step": 475
123
+ },
124
+ {
125
+ "epoch": 3.5,
126
+ "learning_rate": 9.940000000000001e-06,
127
+ "loss": 0.9456,
128
+ "step": 500
129
+ },
130
+ {
131
+ "epoch": 3.67,
132
+ "learning_rate": 9.970666666666668e-06,
133
+ "loss": 0.9652,
134
+ "step": 525
135
+ },
136
+ {
137
+ "epoch": 3.85,
138
+ "learning_rate": 9.937333333333334e-06,
139
+ "loss": 0.9212,
140
+ "step": 550
141
+ },
142
+ {
143
+ "epoch": 4.02,
144
+ "learning_rate": 9.904e-06,
145
+ "loss": 0.8983,
146
+ "step": 575
147
+ },
148
+ {
149
+ "epoch": 4.2,
150
+ "learning_rate": 9.870666666666667e-06,
151
+ "loss": 0.8698,
152
+ "step": 600
153
+ },
154
+ {
155
+ "epoch": 4.37,
156
+ "learning_rate": 9.837333333333335e-06,
157
+ "loss": 0.8109,
158
+ "step": 625
159
+ },
160
+ {
161
+ "epoch": 4.55,
162
+ "learning_rate": 9.804000000000001e-06,
163
+ "loss": 0.8212,
164
+ "step": 650
165
+ },
166
+ {
167
+ "epoch": 4.72,
168
+ "learning_rate": 9.770666666666668e-06,
169
+ "loss": 0.8304,
170
+ "step": 675
171
+ },
172
+ {
173
+ "epoch": 4.9,
174
+ "learning_rate": 9.737333333333334e-06,
175
+ "loss": 0.7869,
176
+ "step": 700
177
+ },
178
+ {
179
+ "epoch": 5.07,
180
+ "learning_rate": 9.704e-06,
181
+ "loss": 0.7694,
182
+ "step": 725
183
+ },
184
+ {
185
+ "epoch": 5.24,
186
+ "learning_rate": 9.670666666666667e-06,
187
+ "loss": 0.7624,
188
+ "step": 750
189
+ },
190
+ {
191
+ "epoch": 5.42,
192
+ "learning_rate": 9.637333333333333e-06,
193
+ "loss": 0.739,
194
+ "step": 775
195
+ },
196
+ {
197
+ "epoch": 5.59,
198
+ "learning_rate": 9.604000000000002e-06,
199
+ "loss": 0.7689,
200
+ "step": 800
201
+ },
202
+ {
203
+ "epoch": 5.77,
204
+ "learning_rate": 9.570666666666666e-06,
205
+ "loss": 0.7693,
206
+ "step": 825
207
+ },
208
+ {
209
+ "epoch": 5.94,
210
+ "learning_rate": 9.537333333333334e-06,
211
+ "loss": 0.7393,
212
+ "step": 850
213
+ },
214
+ {
215
+ "epoch": 6.12,
216
+ "learning_rate": 9.504e-06,
217
+ "loss": 0.7409,
218
+ "step": 875
219
+ },
220
+ {
221
+ "epoch": 6.29,
222
+ "learning_rate": 9.470666666666667e-06,
223
+ "loss": 0.7305,
224
+ "step": 900
225
+ },
226
+ {
227
+ "epoch": 6.47,
228
+ "learning_rate": 9.437333333333334e-06,
229
+ "loss": 0.7133,
230
+ "step": 925
231
+ },
232
+ {
233
+ "epoch": 6.64,
234
+ "learning_rate": 9.404e-06,
235
+ "loss": 0.7129,
236
+ "step": 950
237
+ },
238
+ {
239
+ "epoch": 6.82,
240
+ "learning_rate": 9.370666666666668e-06,
241
+ "loss": 0.7038,
242
+ "step": 975
243
+ },
244
+ {
245
+ "epoch": 6.99,
246
+ "learning_rate": 9.337333333333335e-06,
247
+ "loss": 0.708,
248
+ "step": 1000
249
+ },
250
+ {
251
+ "epoch": 6.99,
252
+ "eval_loss": 0.631787121295929,
253
+ "eval_runtime": 9.3815,
254
+ "eval_samples_per_second": 54.256,
255
+ "eval_steps_per_second": 6.822,
256
+ "step": 1000
257
+ },
258
+ {
259
+ "epoch": 7.17,
260
+ "learning_rate": 9.304000000000001e-06,
261
+ "loss": 0.691,
262
+ "step": 1025
263
+ },
264
+ {
265
+ "epoch": 7.34,
266
+ "learning_rate": 9.270666666666667e-06,
267
+ "loss": 0.7311,
268
+ "step": 1050
269
+ },
270
+ {
271
+ "epoch": 7.52,
272
+ "learning_rate": 9.237333333333334e-06,
273
+ "loss": 0.6825,
274
+ "step": 1075
275
+ },
276
+ {
277
+ "epoch": 7.69,
278
+ "learning_rate": 9.204e-06,
279
+ "loss": 0.6797,
280
+ "step": 1100
281
+ },
282
+ {
283
+ "epoch": 7.87,
284
+ "learning_rate": 9.170666666666668e-06,
285
+ "loss": 0.6805,
286
+ "step": 1125
287
+ },
288
+ {
289
+ "epoch": 8.04,
290
+ "learning_rate": 9.137333333333333e-06,
291
+ "loss": 0.7003,
292
+ "step": 1150
293
+ },
294
+ {
295
+ "epoch": 8.22,
296
+ "learning_rate": 9.104000000000001e-06,
297
+ "loss": 0.6917,
298
+ "step": 1175
299
+ },
300
+ {
301
+ "epoch": 8.39,
302
+ "learning_rate": 9.070666666666668e-06,
303
+ "loss": 0.6911,
304
+ "step": 1200
305
+ },
306
+ {
307
+ "epoch": 8.57,
308
+ "learning_rate": 9.037333333333334e-06,
309
+ "loss": 0.6842,
310
+ "step": 1225
311
+ },
312
+ {
313
+ "epoch": 8.74,
314
+ "learning_rate": 9.004e-06,
315
+ "loss": 0.6657,
316
+ "step": 1250
317
+ },
318
+ {
319
+ "epoch": 8.92,
320
+ "learning_rate": 8.970666666666667e-06,
321
+ "loss": 0.6766,
322
+ "step": 1275
323
+ },
324
+ {
325
+ "epoch": 9.09,
326
+ "learning_rate": 8.937333333333335e-06,
327
+ "loss": 0.7175,
328
+ "step": 1300
329
+ },
330
+ {
331
+ "epoch": 9.27,
332
+ "learning_rate": 8.904e-06,
333
+ "loss": 0.6764,
334
+ "step": 1325
335
+ },
336
+ {
337
+ "epoch": 9.44,
338
+ "learning_rate": 8.870666666666668e-06,
339
+ "loss": 0.6623,
340
+ "step": 1350
341
+ },
342
+ {
343
+ "epoch": 9.62,
344
+ "learning_rate": 8.837333333333334e-06,
345
+ "loss": 0.6567,
346
+ "step": 1375
347
+ },
348
+ {
349
+ "epoch": 9.79,
350
+ "learning_rate": 8.804e-06,
351
+ "loss": 0.647,
352
+ "step": 1400
353
+ },
354
+ {
355
+ "epoch": 9.97,
356
+ "learning_rate": 8.770666666666667e-06,
357
+ "loss": 0.6595,
358
+ "step": 1425
359
+ },
360
+ {
361
+ "epoch": 10.14,
362
+ "learning_rate": 8.737333333333334e-06,
363
+ "loss": 0.6373,
364
+ "step": 1450
365
+ },
366
+ {
367
+ "epoch": 10.31,
368
+ "learning_rate": 8.704e-06,
369
+ "loss": 0.6547,
370
+ "step": 1475
371
+ },
372
+ {
373
+ "epoch": 10.49,
374
+ "learning_rate": 8.670666666666666e-06,
375
+ "loss": 0.6663,
376
+ "step": 1500
377
+ },
378
+ {
379
+ "epoch": 10.66,
380
+ "learning_rate": 8.637333333333335e-06,
381
+ "loss": 0.6607,
382
+ "step": 1525
383
+ },
384
+ {
385
+ "epoch": 10.84,
386
+ "learning_rate": 8.604000000000001e-06,
387
+ "loss": 0.6375,
388
+ "step": 1550
389
+ },
390
+ {
391
+ "epoch": 11.01,
392
+ "learning_rate": 8.570666666666667e-06,
393
+ "loss": 0.6662,
394
+ "step": 1575
395
+ },
396
+ {
397
+ "epoch": 11.19,
398
+ "learning_rate": 8.537333333333334e-06,
399
+ "loss": 0.6602,
400
+ "step": 1600
401
+ },
402
+ {
403
+ "epoch": 11.36,
404
+ "learning_rate": 8.504000000000002e-06,
405
+ "loss": 0.6607,
406
+ "step": 1625
407
+ },
408
+ {
409
+ "epoch": 11.54,
410
+ "learning_rate": 8.470666666666667e-06,
411
+ "loss": 0.6276,
412
+ "step": 1650
413
+ },
414
+ {
415
+ "epoch": 11.71,
416
+ "learning_rate": 8.437333333333335e-06,
417
+ "loss": 0.6585,
418
+ "step": 1675
419
+ },
420
+ {
421
+ "epoch": 11.89,
422
+ "learning_rate": 8.404000000000001e-06,
423
+ "loss": 0.6464,
424
+ "step": 1700
425
+ },
426
+ {
427
+ "epoch": 12.06,
428
+ "learning_rate": 8.370666666666668e-06,
429
+ "loss": 0.6303,
430
+ "step": 1725
431
+ },
432
+ {
433
+ "epoch": 12.24,
434
+ "learning_rate": 8.337333333333334e-06,
435
+ "loss": 0.6242,
436
+ "step": 1750
437
+ },
438
+ {
439
+ "epoch": 12.41,
440
+ "learning_rate": 8.304e-06,
441
+ "loss": 0.6643,
442
+ "step": 1775
443
+ },
444
+ {
445
+ "epoch": 12.59,
446
+ "learning_rate": 8.270666666666667e-06,
447
+ "loss": 0.6218,
448
+ "step": 1800
449
+ },
450
+ {
451
+ "epoch": 12.76,
452
+ "learning_rate": 8.237333333333333e-06,
453
+ "loss": 0.6461,
454
+ "step": 1825
455
+ },
456
+ {
457
+ "epoch": 12.94,
458
+ "learning_rate": 8.204000000000001e-06,
459
+ "loss": 0.6341,
460
+ "step": 1850
461
+ },
462
+ {
463
+ "epoch": 13.11,
464
+ "learning_rate": 8.170666666666668e-06,
465
+ "loss": 0.6314,
466
+ "step": 1875
467
+ },
468
+ {
469
+ "epoch": 13.29,
470
+ "learning_rate": 8.137333333333334e-06,
471
+ "loss": 0.6229,
472
+ "step": 1900
473
+ },
474
+ {
475
+ "epoch": 13.46,
476
+ "learning_rate": 8.104e-06,
477
+ "loss": 0.6206,
478
+ "step": 1925
479
+ },
480
+ {
481
+ "epoch": 13.64,
482
+ "learning_rate": 8.070666666666667e-06,
483
+ "loss": 0.6138,
484
+ "step": 1950
485
+ },
486
+ {
487
+ "epoch": 13.81,
488
+ "learning_rate": 8.037333333333334e-06,
489
+ "loss": 0.6129,
490
+ "step": 1975
491
+ },
492
+ {
493
+ "epoch": 13.99,
494
+ "learning_rate": 8.004e-06,
495
+ "loss": 0.6169,
496
+ "step": 2000
497
+ },
498
+ {
499
+ "epoch": 13.99,
500
+ "eval_loss": 0.563312292098999,
501
+ "eval_runtime": 8.5208,
502
+ "eval_samples_per_second": 59.737,
503
+ "eval_steps_per_second": 7.511,
504
+ "step": 2000
505
+ },
506
+ {
507
+ "epoch": 14.16,
508
+ "learning_rate": 7.970666666666668e-06,
509
+ "loss": 0.6624,
510
+ "step": 2025
511
+ },
512
+ {
513
+ "epoch": 14.34,
514
+ "learning_rate": 7.937333333333333e-06,
515
+ "loss": 0.6202,
516
+ "step": 2050
517
+ },
518
+ {
519
+ "epoch": 14.51,
520
+ "learning_rate": 7.904000000000001e-06,
521
+ "loss": 0.6107,
522
+ "step": 2075
523
+ },
524
+ {
525
+ "epoch": 14.69,
526
+ "learning_rate": 7.870666666666667e-06,
527
+ "loss": 0.6046,
528
+ "step": 2100
529
+ },
530
+ {
531
+ "epoch": 14.86,
532
+ "learning_rate": 7.837333333333334e-06,
533
+ "loss": 0.6267,
534
+ "step": 2125
535
+ },
536
+ {
537
+ "epoch": 15.03,
538
+ "learning_rate": 7.804e-06,
539
+ "loss": 0.6104,
540
+ "step": 2150
541
+ },
542
+ {
543
+ "epoch": 15.21,
544
+ "learning_rate": 7.770666666666668e-06,
545
+ "loss": 0.6303,
546
+ "step": 2175
547
+ },
548
+ {
549
+ "epoch": 15.38,
550
+ "learning_rate": 7.737333333333335e-06,
551
+ "loss": 0.6293,
552
+ "step": 2200
553
+ },
554
+ {
555
+ "epoch": 15.56,
556
+ "learning_rate": 7.704000000000001e-06,
557
+ "loss": 0.6153,
558
+ "step": 2225
559
+ },
560
+ {
561
+ "epoch": 15.73,
562
+ "learning_rate": 7.670666666666668e-06,
563
+ "loss": 0.6058,
564
+ "step": 2250
565
+ },
566
+ {
567
+ "epoch": 15.91,
568
+ "learning_rate": 7.637333333333334e-06,
569
+ "loss": 0.6229,
570
+ "step": 2275
571
+ },
572
+ {
573
+ "epoch": 16.08,
574
+ "learning_rate": 7.604e-06,
575
+ "loss": 0.6089,
576
+ "step": 2300
577
+ },
578
+ {
579
+ "epoch": 16.26,
580
+ "learning_rate": 7.570666666666668e-06,
581
+ "loss": 0.6091,
582
+ "step": 2325
583
+ },
584
+ {
585
+ "epoch": 16.43,
586
+ "learning_rate": 7.537333333333334e-06,
587
+ "loss": 0.6207,
588
+ "step": 2350
589
+ },
590
+ {
591
+ "epoch": 16.61,
592
+ "learning_rate": 7.5040000000000005e-06,
593
+ "loss": 0.6107,
594
+ "step": 2375
595
+ },
596
+ {
597
+ "epoch": 16.78,
598
+ "learning_rate": 7.470666666666667e-06,
599
+ "loss": 0.6175,
600
+ "step": 2400
601
+ },
602
+ {
603
+ "epoch": 16.96,
604
+ "learning_rate": 7.437333333333334e-06,
605
+ "loss": 0.5958,
606
+ "step": 2425
607
+ },
608
+ {
609
+ "epoch": 17.13,
610
+ "learning_rate": 7.404e-06,
611
+ "loss": 0.6262,
612
+ "step": 2450
613
+ },
614
+ {
615
+ "epoch": 17.31,
616
+ "learning_rate": 7.370666666666667e-06,
617
+ "loss": 0.5983,
618
+ "step": 2475
619
+ },
620
+ {
621
+ "epoch": 17.48,
622
+ "learning_rate": 7.337333333333334e-06,
623
+ "loss": 0.6045,
624
+ "step": 2500
625
+ },
626
+ {
627
+ "epoch": 17.66,
628
+ "learning_rate": 7.304000000000001e-06,
629
+ "loss": 0.6067,
630
+ "step": 2525
631
+ },
632
+ {
633
+ "epoch": 17.83,
634
+ "learning_rate": 7.270666666666667e-06,
635
+ "loss": 0.6096,
636
+ "step": 2550
637
+ },
638
+ {
639
+ "epoch": 18.01,
640
+ "learning_rate": 7.237333333333334e-06,
641
+ "loss": 0.588,
642
+ "step": 2575
643
+ },
644
+ {
645
+ "epoch": 18.18,
646
+ "learning_rate": 7.204000000000001e-06,
647
+ "loss": 0.6042,
648
+ "step": 2600
649
+ },
650
+ {
651
+ "epoch": 18.36,
652
+ "learning_rate": 7.170666666666667e-06,
653
+ "loss": 0.6126,
654
+ "step": 2625
655
+ },
656
+ {
657
+ "epoch": 18.53,
658
+ "learning_rate": 7.137333333333334e-06,
659
+ "loss": 0.629,
660
+ "step": 2650
661
+ },
662
+ {
663
+ "epoch": 18.71,
664
+ "learning_rate": 7.104000000000001e-06,
665
+ "loss": 0.6084,
666
+ "step": 2675
667
+ },
668
+ {
669
+ "epoch": 18.88,
670
+ "learning_rate": 7.0706666666666665e-06,
671
+ "loss": 0.5957,
672
+ "step": 2700
673
+ },
674
+ {
675
+ "epoch": 19.06,
676
+ "learning_rate": 7.037333333333334e-06,
677
+ "loss": 0.6041,
678
+ "step": 2725
679
+ },
680
+ {
681
+ "epoch": 19.23,
682
+ "learning_rate": 7.005333333333334e-06,
683
+ "loss": 0.5946,
684
+ "step": 2750
685
+ },
686
+ {
687
+ "epoch": 19.41,
688
+ "learning_rate": 6.972000000000001e-06,
689
+ "loss": 0.5848,
690
+ "step": 2775
691
+ },
692
+ {
693
+ "epoch": 19.58,
694
+ "learning_rate": 6.938666666666667e-06,
695
+ "loss": 0.5914,
696
+ "step": 2800
697
+ },
698
+ {
699
+ "epoch": 19.76,
700
+ "learning_rate": 6.905333333333334e-06,
701
+ "loss": 0.5828,
702
+ "step": 2825
703
+ },
704
+ {
705
+ "epoch": 19.93,
706
+ "learning_rate": 6.872000000000001e-06,
707
+ "loss": 0.5835,
708
+ "step": 2850
709
+ },
710
+ {
711
+ "epoch": 20.1,
712
+ "learning_rate": 6.838666666666667e-06,
713
+ "loss": 0.5875,
714
+ "step": 2875
715
+ },
716
+ {
717
+ "epoch": 20.28,
718
+ "learning_rate": 6.805333333333334e-06,
719
+ "loss": 0.58,
720
+ "step": 2900
721
+ },
722
+ {
723
+ "epoch": 20.45,
724
+ "learning_rate": 6.7720000000000006e-06,
725
+ "loss": 0.5853,
726
+ "step": 2925
727
+ },
728
+ {
729
+ "epoch": 20.63,
730
+ "learning_rate": 6.738666666666667e-06,
731
+ "loss": 0.5958,
732
+ "step": 2950
733
+ },
734
+ {
735
+ "epoch": 20.8,
736
+ "learning_rate": 6.705333333333333e-06,
737
+ "loss": 0.5883,
738
+ "step": 2975
739
+ },
740
+ {
741
+ "epoch": 20.98,
742
+ "learning_rate": 6.672000000000001e-06,
743
+ "loss": 0.6221,
744
+ "step": 3000
745
+ },
746
+ {
747
+ "epoch": 20.98,
748
+ "eval_loss": 0.5357241630554199,
749
+ "eval_runtime": 9.653,
750
+ "eval_samples_per_second": 52.73,
751
+ "eval_steps_per_second": 6.63,
752
+ "step": 3000
753
+ },
754
+ {
755
+ "epoch": 21.15,
756
+ "learning_rate": 6.638666666666668e-06,
757
+ "loss": 0.5813,
758
+ "step": 3025
759
+ },
760
+ {
761
+ "epoch": 21.33,
762
+ "learning_rate": 6.6053333333333335e-06,
763
+ "loss": 0.5852,
764
+ "step": 3050
765
+ },
766
+ {
767
+ "epoch": 21.5,
768
+ "learning_rate": 6.572000000000001e-06,
769
+ "loss": 0.58,
770
+ "step": 3075
771
+ },
772
+ {
773
+ "epoch": 21.68,
774
+ "learning_rate": 6.538666666666667e-06,
775
+ "loss": 0.5806,
776
+ "step": 3100
777
+ },
778
+ {
779
+ "epoch": 21.85,
780
+ "learning_rate": 6.505333333333334e-06,
781
+ "loss": 0.5945,
782
+ "step": 3125
783
+ },
784
+ {
785
+ "epoch": 22.03,
786
+ "learning_rate": 6.472000000000001e-06,
787
+ "loss": 0.5908,
788
+ "step": 3150
789
+ },
790
+ {
791
+ "epoch": 22.2,
792
+ "learning_rate": 6.438666666666667e-06,
793
+ "loss": 0.5808,
794
+ "step": 3175
795
+ },
796
+ {
797
+ "epoch": 22.38,
798
+ "learning_rate": 6.405333333333334e-06,
799
+ "loss": 0.5805,
800
+ "step": 3200
801
+ },
802
+ {
803
+ "epoch": 22.55,
804
+ "learning_rate": 6.372e-06,
805
+ "loss": 0.5862,
806
+ "step": 3225
807
+ },
808
+ {
809
+ "epoch": 22.73,
810
+ "learning_rate": 6.338666666666667e-06,
811
+ "loss": 0.5882,
812
+ "step": 3250
813
+ },
814
+ {
815
+ "epoch": 22.9,
816
+ "learning_rate": 6.305333333333333e-06,
817
+ "loss": 0.5674,
818
+ "step": 3275
819
+ },
820
+ {
821
+ "epoch": 23.08,
822
+ "learning_rate": 6.272e-06,
823
+ "loss": 0.5686,
824
+ "step": 3300
825
+ },
826
+ {
827
+ "epoch": 23.25,
828
+ "learning_rate": 6.2386666666666675e-06,
829
+ "loss": 0.5761,
830
+ "step": 3325
831
+ },
832
+ {
833
+ "epoch": 23.43,
834
+ "learning_rate": 6.205333333333334e-06,
835
+ "loss": 0.5975,
836
+ "step": 3350
837
+ },
838
+ {
839
+ "epoch": 23.6,
840
+ "learning_rate": 6.172e-06,
841
+ "loss": 0.5719,
842
+ "step": 3375
843
+ },
844
+ {
845
+ "epoch": 23.78,
846
+ "learning_rate": 6.138666666666668e-06,
847
+ "loss": 0.59,
848
+ "step": 3400
849
+ },
850
+ {
851
+ "epoch": 23.95,
852
+ "learning_rate": 6.105333333333334e-06,
853
+ "loss": 0.5858,
854
+ "step": 3425
855
+ },
856
+ {
857
+ "epoch": 24.13,
858
+ "learning_rate": 6.0720000000000005e-06,
859
+ "loss": 0.5786,
860
+ "step": 3450
861
+ },
862
+ {
863
+ "epoch": 24.3,
864
+ "learning_rate": 6.038666666666667e-06,
865
+ "loss": 0.5823,
866
+ "step": 3475
867
+ },
868
+ {
869
+ "epoch": 24.48,
870
+ "learning_rate": 6.005333333333334e-06,
871
+ "loss": 0.5774,
872
+ "step": 3500
873
+ },
874
+ {
875
+ "epoch": 24.65,
876
+ "learning_rate": 5.972e-06,
877
+ "loss": 0.5739,
878
+ "step": 3525
879
+ },
880
+ {
881
+ "epoch": 24.83,
882
+ "learning_rate": 5.938666666666667e-06,
883
+ "loss": 0.5782,
884
+ "step": 3550
885
+ },
886
+ {
887
+ "epoch": 25.0,
888
+ "learning_rate": 5.905333333333334e-06,
889
+ "loss": 0.5797,
890
+ "step": 3575
891
+ },
892
+ {
893
+ "epoch": 25.17,
894
+ "learning_rate": 5.872000000000001e-06,
895
+ "loss": 0.5735,
896
+ "step": 3600
897
+ },
898
+ {
899
+ "epoch": 25.35,
900
+ "learning_rate": 5.838666666666667e-06,
901
+ "loss": 0.5828,
902
+ "step": 3625
903
+ },
904
+ {
905
+ "epoch": 25.52,
906
+ "learning_rate": 5.8053333333333335e-06,
907
+ "loss": 0.5749,
908
+ "step": 3650
909
+ },
910
+ {
911
+ "epoch": 25.7,
912
+ "learning_rate": 5.772000000000001e-06,
913
+ "loss": 0.5674,
914
+ "step": 3675
915
+ },
916
+ {
917
+ "epoch": 25.87,
918
+ "learning_rate": 5.738666666666667e-06,
919
+ "loss": 0.5722,
920
+ "step": 3700
921
+ },
922
+ {
923
+ "epoch": 26.05,
924
+ "learning_rate": 5.705333333333334e-06,
925
+ "loss": 0.5809,
926
+ "step": 3725
927
+ },
928
+ {
929
+ "epoch": 26.22,
930
+ "learning_rate": 5.672000000000001e-06,
931
+ "loss": 0.5742,
932
+ "step": 3750
933
+ },
934
+ {
935
+ "epoch": 26.4,
936
+ "learning_rate": 5.6386666666666665e-06,
937
+ "loss": 0.5776,
938
+ "step": 3775
939
+ },
940
+ {
941
+ "epoch": 26.57,
942
+ "learning_rate": 5.605333333333334e-06,
943
+ "loss": 0.569,
944
+ "step": 3800
945
+ },
946
+ {
947
+ "epoch": 26.75,
948
+ "learning_rate": 5.572000000000001e-06,
949
+ "loss": 0.5934,
950
+ "step": 3825
951
+ },
952
+ {
953
+ "epoch": 26.92,
954
+ "learning_rate": 5.538666666666667e-06,
955
+ "loss": 0.5644,
956
+ "step": 3850
957
+ },
958
+ {
959
+ "epoch": 27.1,
960
+ "learning_rate": 5.505333333333334e-06,
961
+ "loss": 0.5668,
962
+ "step": 3875
963
+ },
964
+ {
965
+ "epoch": 27.27,
966
+ "learning_rate": 5.472e-06,
967
+ "loss": 0.5728,
968
+ "step": 3900
969
+ },
970
+ {
971
+ "epoch": 27.45,
972
+ "learning_rate": 5.4386666666666676e-06,
973
+ "loss": 0.5585,
974
+ "step": 3925
975
+ },
976
+ {
977
+ "epoch": 27.62,
978
+ "learning_rate": 5.405333333333333e-06,
979
+ "loss": 0.5702,
980
+ "step": 3950
981
+ },
982
+ {
983
+ "epoch": 27.8,
984
+ "learning_rate": 5.372e-06,
985
+ "loss": 0.5628,
986
+ "step": 3975
987
+ },
988
+ {
989
+ "epoch": 27.97,
990
+ "learning_rate": 5.338666666666668e-06,
991
+ "loss": 0.5706,
992
+ "step": 4000
993
+ },
994
+ {
995
+ "epoch": 27.97,
996
+ "eval_loss": 0.5210701823234558,
997
+ "eval_runtime": 8.821,
998
+ "eval_samples_per_second": 57.703,
999
+ "eval_steps_per_second": 7.255,
1000
+ "step": 4000
1001
+ },
1002
+ {
1003
+ "epoch": 28.15,
1004
+ "learning_rate": 5.305333333333333e-06,
1005
+ "loss": 0.5592,
1006
+ "step": 4025
1007
+ },
1008
+ {
1009
+ "epoch": 28.32,
1010
+ "learning_rate": 5.2720000000000005e-06,
1011
+ "loss": 0.5722,
1012
+ "step": 4050
1013
+ },
1014
+ {
1015
+ "epoch": 28.5,
1016
+ "learning_rate": 5.238666666666668e-06,
1017
+ "loss": 0.5539,
1018
+ "step": 4075
1019
+ },
1020
+ {
1021
+ "epoch": 28.67,
1022
+ "learning_rate": 5.205333333333333e-06,
1023
+ "loss": 0.5627,
1024
+ "step": 4100
1025
+ },
1026
+ {
1027
+ "epoch": 28.85,
1028
+ "learning_rate": 5.172000000000001e-06,
1029
+ "loss": 0.5851,
1030
+ "step": 4125
1031
+ },
1032
+ {
1033
+ "epoch": 29.02,
1034
+ "learning_rate": 5.138666666666667e-06,
1035
+ "loss": 0.568,
1036
+ "step": 4150
1037
+ },
1038
+ {
1039
+ "epoch": 29.2,
1040
+ "learning_rate": 5.1053333333333335e-06,
1041
+ "loss": 0.5631,
1042
+ "step": 4175
1043
+ },
1044
+ {
1045
+ "epoch": 29.37,
1046
+ "learning_rate": 5.072e-06,
1047
+ "loss": 0.5672,
1048
+ "step": 4200
1049
+ },
1050
+ {
1051
+ "epoch": 29.55,
1052
+ "learning_rate": 5.038666666666667e-06,
1053
+ "loss": 0.5766,
1054
+ "step": 4225
1055
+ },
1056
+ {
1057
+ "epoch": 29.72,
1058
+ "learning_rate": 5.0053333333333344e-06,
1059
+ "loss": 0.5696,
1060
+ "step": 4250
1061
+ },
1062
+ {
1063
+ "epoch": 29.9,
1064
+ "learning_rate": 4.972e-06,
1065
+ "loss": 0.56,
1066
+ "step": 4275
1067
+ },
1068
+ {
1069
+ "epoch": 30.07,
1070
+ "learning_rate": 4.938666666666667e-06,
1071
+ "loss": 0.5655,
1072
+ "step": 4300
1073
+ },
1074
+ {
1075
+ "epoch": 30.24,
1076
+ "learning_rate": 4.905333333333334e-06,
1077
+ "loss": 0.5803,
1078
+ "step": 4325
1079
+ },
1080
+ {
1081
+ "epoch": 30.42,
1082
+ "learning_rate": 4.872000000000001e-06,
1083
+ "loss": 0.5743,
1084
+ "step": 4350
1085
+ },
1086
+ {
1087
+ "epoch": 30.59,
1088
+ "learning_rate": 4.838666666666667e-06,
1089
+ "loss": 0.5603,
1090
+ "step": 4375
1091
+ },
1092
+ {
1093
+ "epoch": 30.77,
1094
+ "learning_rate": 4.805333333333334e-06,
1095
+ "loss": 0.565,
1096
+ "step": 4400
1097
+ },
1098
+ {
1099
+ "epoch": 30.94,
1100
+ "learning_rate": 4.772e-06,
1101
+ "loss": 0.5561,
1102
+ "step": 4425
1103
+ },
1104
+ {
1105
+ "epoch": 31.12,
1106
+ "learning_rate": 4.738666666666667e-06,
1107
+ "loss": 0.5602,
1108
+ "step": 4450
1109
+ },
1110
+ {
1111
+ "epoch": 31.29,
1112
+ "learning_rate": 4.705333333333334e-06,
1113
+ "loss": 0.565,
1114
+ "step": 4475
1115
+ },
1116
+ {
1117
+ "epoch": 31.47,
1118
+ "learning_rate": 4.672e-06,
1119
+ "loss": 0.5755,
1120
+ "step": 4500
1121
+ },
1122
+ {
1123
+ "epoch": 31.64,
1124
+ "learning_rate": 4.638666666666667e-06,
1125
+ "loss": 0.5554,
1126
+ "step": 4525
1127
+ },
1128
+ {
1129
+ "epoch": 31.82,
1130
+ "learning_rate": 4.605333333333334e-06,
1131
+ "loss": 0.5818,
1132
+ "step": 4550
1133
+ },
1134
+ {
1135
+ "epoch": 31.99,
1136
+ "learning_rate": 4.5720000000000004e-06,
1137
+ "loss": 0.5701,
1138
+ "step": 4575
1139
+ },
1140
+ {
1141
+ "epoch": 32.17,
1142
+ "learning_rate": 4.538666666666667e-06,
1143
+ "loss": 0.578,
1144
+ "step": 4600
1145
+ },
1146
+ {
1147
+ "epoch": 32.34,
1148
+ "learning_rate": 4.505333333333334e-06,
1149
+ "loss": 0.5526,
1150
+ "step": 4625
1151
+ },
1152
+ {
1153
+ "epoch": 32.52,
1154
+ "learning_rate": 4.4720000000000006e-06,
1155
+ "loss": 0.5818,
1156
+ "step": 4650
1157
+ },
1158
+ {
1159
+ "epoch": 32.69,
1160
+ "learning_rate": 4.438666666666667e-06,
1161
+ "loss": 0.5623,
1162
+ "step": 4675
1163
+ },
1164
+ {
1165
+ "epoch": 32.87,
1166
+ "learning_rate": 4.405333333333333e-06,
1167
+ "loss": 0.572,
1168
+ "step": 4700
1169
+ },
1170
+ {
1171
+ "epoch": 33.04,
1172
+ "learning_rate": 4.372e-06,
1173
+ "loss": 0.5817,
1174
+ "step": 4725
1175
+ },
1176
+ {
1177
+ "epoch": 33.22,
1178
+ "learning_rate": 4.338666666666667e-06,
1179
+ "loss": 0.5591,
1180
+ "step": 4750
1181
+ },
1182
+ {
1183
+ "epoch": 33.39,
1184
+ "learning_rate": 4.3053333333333335e-06,
1185
+ "loss": 0.5599,
1186
+ "step": 4775
1187
+ },
1188
+ {
1189
+ "epoch": 33.57,
1190
+ "learning_rate": 4.272000000000001e-06,
1191
+ "loss": 0.5526,
1192
+ "step": 4800
1193
+ },
1194
+ {
1195
+ "epoch": 33.74,
1196
+ "learning_rate": 4.238666666666667e-06,
1197
+ "loss": 0.5582,
1198
+ "step": 4825
1199
+ },
1200
+ {
1201
+ "epoch": 33.92,
1202
+ "learning_rate": 4.205333333333334e-06,
1203
+ "loss": 0.5722,
1204
+ "step": 4850
1205
+ },
1206
+ {
1207
+ "epoch": 34.09,
1208
+ "learning_rate": 4.172000000000001e-06,
1209
+ "loss": 0.5451,
1210
+ "step": 4875
1211
+ },
1212
+ {
1213
+ "epoch": 34.27,
1214
+ "learning_rate": 4.138666666666667e-06,
1215
+ "loss": 0.5516,
1216
+ "step": 4900
1217
+ },
1218
+ {
1219
+ "epoch": 34.44,
1220
+ "learning_rate": 4.105333333333334e-06,
1221
+ "loss": 0.5523,
1222
+ "step": 4925
1223
+ },
1224
+ {
1225
+ "epoch": 34.62,
1226
+ "learning_rate": 4.072e-06,
1227
+ "loss": 0.5596,
1228
+ "step": 4950
1229
+ },
1230
+ {
1231
+ "epoch": 34.79,
1232
+ "learning_rate": 4.0386666666666666e-06,
1233
+ "loss": 0.5717,
1234
+ "step": 4975
1235
+ },
1236
+ {
1237
+ "epoch": 34.97,
1238
+ "learning_rate": 4.005333333333334e-06,
1239
+ "loss": 0.6105,
1240
+ "step": 5000
1241
+ },
1242
+ {
1243
+ "epoch": 34.97,
1244
+ "eval_loss": 0.5116514563560486,
1245
+ "eval_runtime": 9.5439,
1246
+ "eval_samples_per_second": 53.333,
1247
+ "eval_steps_per_second": 6.706,
1248
+ "step": 5000
1249
+ },
1250
+ {
1251
+ "epoch": 35.14,
1252
+ "learning_rate": 3.972e-06,
1253
+ "loss": 0.5836,
1254
+ "step": 5025
1255
+ },
1256
+ {
1257
+ "epoch": 35.31,
1258
+ "learning_rate": 3.938666666666667e-06,
1259
+ "loss": 0.5545,
1260
+ "step": 5050
1261
+ },
1262
+ {
1263
+ "epoch": 35.49,
1264
+ "learning_rate": 3.905333333333334e-06,
1265
+ "loss": 0.5727,
1266
+ "step": 5075
1267
+ },
1268
+ {
1269
+ "epoch": 35.66,
1270
+ "learning_rate": 3.872e-06,
1271
+ "loss": 0.5529,
1272
+ "step": 5100
1273
+ },
1274
+ {
1275
+ "epoch": 35.84,
1276
+ "learning_rate": 3.838666666666667e-06,
1277
+ "loss": 0.5553,
1278
+ "step": 5125
1279
+ },
1280
+ {
1281
+ "epoch": 36.01,
1282
+ "learning_rate": 3.8053333333333336e-06,
1283
+ "loss": 0.5535,
1284
+ "step": 5150
1285
+ },
1286
+ {
1287
+ "epoch": 36.19,
1288
+ "learning_rate": 3.772e-06,
1289
+ "loss": 0.5515,
1290
+ "step": 5175
1291
+ },
1292
+ {
1293
+ "epoch": 36.36,
1294
+ "learning_rate": 3.7386666666666673e-06,
1295
+ "loss": 0.5486,
1296
+ "step": 5200
1297
+ },
1298
+ {
1299
+ "epoch": 36.54,
1300
+ "learning_rate": 3.7053333333333337e-06,
1301
+ "loss": 0.5644,
1302
+ "step": 5225
1303
+ },
1304
+ {
1305
+ "epoch": 36.71,
1306
+ "learning_rate": 3.6720000000000006e-06,
1307
+ "loss": 0.5649,
1308
+ "step": 5250
1309
+ },
1310
+ {
1311
+ "epoch": 36.89,
1312
+ "learning_rate": 3.638666666666667e-06,
1313
+ "loss": 0.5674,
1314
+ "step": 5275
1315
+ },
1316
+ {
1317
+ "epoch": 37.06,
1318
+ "learning_rate": 3.6053333333333334e-06,
1319
+ "loss": 0.5513,
1320
+ "step": 5300
1321
+ },
1322
+ {
1323
+ "epoch": 37.24,
1324
+ "learning_rate": 3.5720000000000003e-06,
1325
+ "loss": 0.5525,
1326
+ "step": 5325
1327
+ },
1328
+ {
1329
+ "epoch": 37.41,
1330
+ "learning_rate": 3.538666666666667e-06,
1331
+ "loss": 0.5481,
1332
+ "step": 5350
1333
+ },
1334
+ {
1335
+ "epoch": 37.59,
1336
+ "learning_rate": 3.5053333333333335e-06,
1337
+ "loss": 0.5534,
1338
+ "step": 5375
1339
+ },
1340
+ {
1341
+ "epoch": 37.76,
1342
+ "learning_rate": 3.4720000000000004e-06,
1343
+ "loss": 0.5501,
1344
+ "step": 5400
1345
+ },
1346
+ {
1347
+ "epoch": 37.94,
1348
+ "learning_rate": 3.438666666666667e-06,
1349
+ "loss": 0.5533,
1350
+ "step": 5425
1351
+ },
1352
+ {
1353
+ "epoch": 38.11,
1354
+ "learning_rate": 3.4053333333333337e-06,
1355
+ "loss": 0.6,
1356
+ "step": 5450
1357
+ },
1358
+ {
1359
+ "epoch": 38.29,
1360
+ "learning_rate": 3.372e-06,
1361
+ "loss": 0.5616,
1362
+ "step": 5475
1363
+ },
1364
+ {
1365
+ "epoch": 38.46,
1366
+ "learning_rate": 3.338666666666667e-06,
1367
+ "loss": 0.5937,
1368
+ "step": 5500
1369
+ },
1370
+ {
1371
+ "epoch": 38.64,
1372
+ "learning_rate": 3.3053333333333338e-06,
1373
+ "loss": 0.5513,
1374
+ "step": 5525
1375
+ },
1376
+ {
1377
+ "epoch": 38.81,
1378
+ "learning_rate": 3.272e-06,
1379
+ "loss": 0.5612,
1380
+ "step": 5550
1381
+ },
1382
+ {
1383
+ "epoch": 38.99,
1384
+ "learning_rate": 3.238666666666667e-06,
1385
+ "loss": 0.5595,
1386
+ "step": 5575
1387
+ },
1388
+ {
1389
+ "epoch": 39.16,
1390
+ "learning_rate": 3.2053333333333334e-06,
1391
+ "loss": 0.55,
1392
+ "step": 5600
1393
+ },
1394
+ {
1395
+ "epoch": 39.34,
1396
+ "learning_rate": 3.172e-06,
1397
+ "loss": 0.5561,
1398
+ "step": 5625
1399
+ },
1400
+ {
1401
+ "epoch": 39.51,
1402
+ "learning_rate": 3.138666666666667e-06,
1403
+ "loss": 0.5493,
1404
+ "step": 5650
1405
+ },
1406
+ {
1407
+ "epoch": 39.69,
1408
+ "learning_rate": 3.1053333333333336e-06,
1409
+ "loss": 0.5568,
1410
+ "step": 5675
1411
+ },
1412
+ {
1413
+ "epoch": 39.86,
1414
+ "learning_rate": 3.072e-06,
1415
+ "loss": 0.5568,
1416
+ "step": 5700
1417
+ },
1418
+ {
1419
+ "epoch": 40.03,
1420
+ "learning_rate": 3.038666666666667e-06,
1421
+ "loss": 0.5569,
1422
+ "step": 5725
1423
+ },
1424
+ {
1425
+ "epoch": 40.21,
1426
+ "learning_rate": 3.0053333333333332e-06,
1427
+ "loss": 0.5532,
1428
+ "step": 5750
1429
+ },
1430
+ {
1431
+ "epoch": 40.38,
1432
+ "learning_rate": 2.9720000000000005e-06,
1433
+ "loss": 0.5605,
1434
+ "step": 5775
1435
+ },
1436
+ {
1437
+ "epoch": 40.56,
1438
+ "learning_rate": 2.938666666666667e-06,
1439
+ "loss": 0.558,
1440
+ "step": 5800
1441
+ },
1442
+ {
1443
+ "epoch": 40.73,
1444
+ "learning_rate": 2.9053333333333334e-06,
1445
+ "loss": 0.5553,
1446
+ "step": 5825
1447
+ },
1448
+ {
1449
+ "epoch": 40.91,
1450
+ "learning_rate": 2.872e-06,
1451
+ "loss": 0.5562,
1452
+ "step": 5850
1453
+ },
1454
+ {
1455
+ "epoch": 41.08,
1456
+ "learning_rate": 2.8386666666666666e-06,
1457
+ "loss": 0.5463,
1458
+ "step": 5875
1459
+ },
1460
+ {
1461
+ "epoch": 41.26,
1462
+ "learning_rate": 2.805333333333334e-06,
1463
+ "loss": 0.559,
1464
+ "step": 5900
1465
+ },
1466
+ {
1467
+ "epoch": 41.43,
1468
+ "learning_rate": 2.7720000000000003e-06,
1469
+ "loss": 0.5727,
1470
+ "step": 5925
1471
+ },
1472
+ {
1473
+ "epoch": 41.61,
1474
+ "learning_rate": 2.7386666666666667e-06,
1475
+ "loss": 0.5502,
1476
+ "step": 5950
1477
+ },
1478
+ {
1479
+ "epoch": 41.78,
1480
+ "learning_rate": 2.7053333333333336e-06,
1481
+ "loss": 0.5517,
1482
+ "step": 5975
1483
+ },
1484
+ {
1485
+ "epoch": 41.96,
1486
+ "learning_rate": 2.672e-06,
1487
+ "loss": 0.5689,
1488
+ "step": 6000
1489
+ },
1490
+ {
1491
+ "epoch": 41.96,
1492
+ "eval_loss": 0.5035538077354431,
1493
+ "eval_runtime": 9.4525,
1494
+ "eval_samples_per_second": 53.848,
1495
+ "eval_steps_per_second": 6.771,
1496
+ "step": 6000
1497
+ },
1498
+ {
1499
+ "epoch": 42.13,
1500
+ "learning_rate": 2.6386666666666673e-06,
1501
+ "loss": 0.5845,
1502
+ "step": 6025
1503
+ },
1504
+ {
1505
+ "epoch": 42.31,
1506
+ "learning_rate": 2.6053333333333337e-06,
1507
+ "loss": 0.5457,
1508
+ "step": 6050
1509
+ },
1510
+ {
1511
+ "epoch": 42.48,
1512
+ "learning_rate": 2.572e-06,
1513
+ "loss": 0.547,
1514
+ "step": 6075
1515
+ },
1516
+ {
1517
+ "epoch": 42.66,
1518
+ "learning_rate": 2.538666666666667e-06,
1519
+ "loss": 0.5536,
1520
+ "step": 6100
1521
+ },
1522
+ {
1523
+ "epoch": 42.83,
1524
+ "learning_rate": 2.5053333333333334e-06,
1525
+ "loss": 0.5489,
1526
+ "step": 6125
1527
+ },
1528
+ {
1529
+ "epoch": 43.01,
1530
+ "learning_rate": 2.4720000000000002e-06,
1531
+ "loss": 0.5429,
1532
+ "step": 6150
1533
+ },
1534
+ {
1535
+ "epoch": 43.18,
1536
+ "learning_rate": 2.438666666666667e-06,
1537
+ "loss": 0.5575,
1538
+ "step": 6175
1539
+ },
1540
+ {
1541
+ "epoch": 43.36,
1542
+ "learning_rate": 2.4053333333333335e-06,
1543
+ "loss": 0.5591,
1544
+ "step": 6200
1545
+ },
1546
+ {
1547
+ "epoch": 43.53,
1548
+ "learning_rate": 2.3720000000000003e-06,
1549
+ "loss": 0.5376,
1550
+ "step": 6225
1551
+ },
1552
+ {
1553
+ "epoch": 43.71,
1554
+ "learning_rate": 2.3386666666666668e-06,
1555
+ "loss": 0.5511,
1556
+ "step": 6250
1557
+ },
1558
+ {
1559
+ "epoch": 43.88,
1560
+ "learning_rate": 2.3053333333333336e-06,
1561
+ "loss": 0.5487,
1562
+ "step": 6275
1563
+ },
1564
+ {
1565
+ "epoch": 44.06,
1566
+ "learning_rate": 2.2720000000000004e-06,
1567
+ "loss": 0.5616,
1568
+ "step": 6300
1569
+ },
1570
+ {
1571
+ "epoch": 44.23,
1572
+ "learning_rate": 2.238666666666667e-06,
1573
+ "loss": 0.5494,
1574
+ "step": 6325
1575
+ },
1576
+ {
1577
+ "epoch": 44.41,
1578
+ "learning_rate": 2.2053333333333333e-06,
1579
+ "loss": 0.5498,
1580
+ "step": 6350
1581
+ },
1582
+ {
1583
+ "epoch": 44.58,
1584
+ "learning_rate": 2.172e-06,
1585
+ "loss": 0.5437,
1586
+ "step": 6375
1587
+ },
1588
+ {
1589
+ "epoch": 44.76,
1590
+ "learning_rate": 2.138666666666667e-06,
1591
+ "loss": 0.5522,
1592
+ "step": 6400
1593
+ },
1594
+ {
1595
+ "epoch": 44.93,
1596
+ "learning_rate": 2.1053333333333334e-06,
1597
+ "loss": 0.5416,
1598
+ "step": 6425
1599
+ },
1600
+ {
1601
+ "epoch": 45.1,
1602
+ "learning_rate": 2.0720000000000002e-06,
1603
+ "loss": 0.5658,
1604
+ "step": 6450
1605
+ },
1606
+ {
1607
+ "epoch": 45.28,
1608
+ "learning_rate": 2.0386666666666667e-06,
1609
+ "loss": 0.5434,
1610
+ "step": 6475
1611
+ },
1612
+ {
1613
+ "epoch": 45.45,
1614
+ "learning_rate": 2.0053333333333335e-06,
1615
+ "loss": 0.5544,
1616
+ "step": 6500
1617
+ },
1618
+ {
1619
+ "epoch": 45.63,
1620
+ "learning_rate": 1.972e-06,
1621
+ "loss": 0.5545,
1622
+ "step": 6525
1623
+ },
1624
+ {
1625
+ "epoch": 45.8,
1626
+ "learning_rate": 1.9386666666666668e-06,
1627
+ "loss": 0.534,
1628
+ "step": 6550
1629
+ },
1630
+ {
1631
+ "epoch": 45.98,
1632
+ "learning_rate": 1.9053333333333334e-06,
1633
+ "loss": 0.5419,
1634
+ "step": 6575
1635
+ },
1636
+ {
1637
+ "epoch": 46.15,
1638
+ "learning_rate": 1.8720000000000002e-06,
1639
+ "loss": 0.5538,
1640
+ "step": 6600
1641
+ },
1642
+ {
1643
+ "epoch": 46.33,
1644
+ "learning_rate": 1.8386666666666669e-06,
1645
+ "loss": 0.542,
1646
+ "step": 6625
1647
+ },
1648
+ {
1649
+ "epoch": 46.5,
1650
+ "learning_rate": 1.8053333333333333e-06,
1651
+ "loss": 0.5394,
1652
+ "step": 6650
1653
+ },
1654
+ {
1655
+ "epoch": 46.68,
1656
+ "learning_rate": 1.7720000000000001e-06,
1657
+ "loss": 0.5404,
1658
+ "step": 6675
1659
+ },
1660
+ {
1661
+ "epoch": 46.85,
1662
+ "learning_rate": 1.7386666666666668e-06,
1663
+ "loss": 0.5449,
1664
+ "step": 6700
1665
+ },
1666
+ {
1667
+ "epoch": 47.03,
1668
+ "learning_rate": 1.7053333333333336e-06,
1669
+ "loss": 0.5484,
1670
+ "step": 6725
1671
+ },
1672
+ {
1673
+ "epoch": 47.2,
1674
+ "learning_rate": 1.672e-06,
1675
+ "loss": 0.5428,
1676
+ "step": 6750
1677
+ },
1678
+ {
1679
+ "epoch": 47.38,
1680
+ "learning_rate": 1.6386666666666667e-06,
1681
+ "loss": 0.547,
1682
+ "step": 6775
1683
+ },
1684
+ {
1685
+ "epoch": 47.55,
1686
+ "learning_rate": 1.6053333333333335e-06,
1687
+ "loss": 0.5454,
1688
+ "step": 6800
1689
+ },
1690
+ {
1691
+ "epoch": 47.73,
1692
+ "learning_rate": 1.5720000000000002e-06,
1693
+ "loss": 0.5476,
1694
+ "step": 6825
1695
+ },
1696
+ {
1697
+ "epoch": 47.9,
1698
+ "learning_rate": 1.538666666666667e-06,
1699
+ "loss": 0.5501,
1700
+ "step": 6850
1701
+ },
1702
+ {
1703
+ "epoch": 48.08,
1704
+ "learning_rate": 1.5053333333333334e-06,
1705
+ "loss": 0.5438,
1706
+ "step": 6875
1707
+ },
1708
+ {
1709
+ "epoch": 48.25,
1710
+ "learning_rate": 1.472e-06,
1711
+ "loss": 0.5335,
1712
+ "step": 6900
1713
+ },
1714
+ {
1715
+ "epoch": 48.43,
1716
+ "learning_rate": 1.438666666666667e-06,
1717
+ "loss": 0.5512,
1718
+ "step": 6925
1719
+ },
1720
+ {
1721
+ "epoch": 48.6,
1722
+ "learning_rate": 1.4053333333333335e-06,
1723
+ "loss": 0.5435,
1724
+ "step": 6950
1725
+ },
1726
+ {
1727
+ "epoch": 48.78,
1728
+ "learning_rate": 1.372e-06,
1729
+ "loss": 0.55,
1730
+ "step": 6975
1731
+ },
1732
+ {
1733
+ "epoch": 48.95,
1734
+ "learning_rate": 1.3386666666666668e-06,
1735
+ "loss": 0.5552,
1736
+ "step": 7000
1737
+ },
1738
+ {
1739
+ "epoch": 48.95,
1740
+ "eval_loss": 0.5017138123512268,
1741
+ "eval_runtime": 7.9583,
1742
+ "eval_samples_per_second": 63.959,
1743
+ "eval_steps_per_second": 8.042,
1744
+ "step": 7000
1745
+ },
1746
+ {
1747
+ "epoch": 49.13,
1748
+ "learning_rate": 1.3053333333333334e-06,
1749
+ "loss": 0.5534,
1750
+ "step": 7025
1751
+ },
1752
+ {
1753
+ "epoch": 49.3,
1754
+ "learning_rate": 1.2720000000000003e-06,
1755
+ "loss": 0.5383,
1756
+ "step": 7050
1757
+ },
1758
+ {
1759
+ "epoch": 49.48,
1760
+ "learning_rate": 1.2386666666666667e-06,
1761
+ "loss": 0.5415,
1762
+ "step": 7075
1763
+ },
1764
+ {
1765
+ "epoch": 49.65,
1766
+ "learning_rate": 1.2053333333333335e-06,
1767
+ "loss": 0.5421,
1768
+ "step": 7100
1769
+ },
1770
+ {
1771
+ "epoch": 49.83,
1772
+ "learning_rate": 1.1720000000000002e-06,
1773
+ "loss": 0.5748,
1774
+ "step": 7125
1775
+ },
1776
+ {
1777
+ "epoch": 50.0,
1778
+ "learning_rate": 1.1386666666666668e-06,
1779
+ "loss": 0.5407,
1780
+ "step": 7150
1781
+ },
1782
+ {
1783
+ "epoch": 50.17,
1784
+ "learning_rate": 1.1053333333333334e-06,
1785
+ "loss": 0.5439,
1786
+ "step": 7175
1787
+ },
1788
+ {
1789
+ "epoch": 50.35,
1790
+ "learning_rate": 1.072e-06,
1791
+ "loss": 0.5448,
1792
+ "step": 7200
1793
+ },
1794
+ {
1795
+ "epoch": 50.52,
1796
+ "learning_rate": 1.04e-06,
1797
+ "loss": 0.5696,
1798
+ "step": 7225
1799
+ },
1800
+ {
1801
+ "epoch": 50.7,
1802
+ "learning_rate": 1.0066666666666668e-06,
1803
+ "loss": 0.5484,
1804
+ "step": 7250
1805
+ },
1806
+ {
1807
+ "epoch": 50.87,
1808
+ "learning_rate": 9.733333333333333e-07,
1809
+ "loss": 0.5711,
1810
+ "step": 7275
1811
+ },
1812
+ {
1813
+ "epoch": 51.05,
1814
+ "learning_rate": 9.400000000000001e-07,
1815
+ "loss": 0.5433,
1816
+ "step": 7300
1817
+ },
1818
+ {
1819
+ "epoch": 51.22,
1820
+ "learning_rate": 9.066666666666668e-07,
1821
+ "loss": 0.5446,
1822
+ "step": 7325
1823
+ },
1824
+ {
1825
+ "epoch": 51.4,
1826
+ "learning_rate": 8.733333333333334e-07,
1827
+ "loss": 0.5523,
1828
+ "step": 7350
1829
+ },
1830
+ {
1831
+ "epoch": 51.57,
1832
+ "learning_rate": 8.400000000000001e-07,
1833
+ "loss": 0.5475,
1834
+ "step": 7375
1835
+ },
1836
+ {
1837
+ "epoch": 51.75,
1838
+ "learning_rate": 8.066666666666667e-07,
1839
+ "loss": 0.5363,
1840
+ "step": 7400
1841
+ },
1842
+ {
1843
+ "epoch": 51.92,
1844
+ "learning_rate": 7.733333333333335e-07,
1845
+ "loss": 0.5388,
1846
+ "step": 7425
1847
+ },
1848
+ {
1849
+ "epoch": 52.1,
1850
+ "learning_rate": 7.4e-07,
1851
+ "loss": 0.5387,
1852
+ "step": 7450
1853
+ },
1854
+ {
1855
+ "epoch": 52.27,
1856
+ "learning_rate": 7.066666666666667e-07,
1857
+ "loss": 0.5555,
1858
+ "step": 7475
1859
+ },
1860
+ {
1861
+ "epoch": 52.45,
1862
+ "learning_rate": 6.733333333333334e-07,
1863
+ "loss": 0.5381,
1864
+ "step": 7500
1865
+ },
1866
+ {
1867
+ "epoch": 52.62,
1868
+ "learning_rate": 6.4e-07,
1869
+ "loss": 0.5559,
1870
+ "step": 7525
1871
+ },
1872
+ {
1873
+ "epoch": 52.8,
1874
+ "learning_rate": 6.066666666666668e-07,
1875
+ "loss": 0.5332,
1876
+ "step": 7550
1877
+ },
1878
+ {
1879
+ "epoch": 52.97,
1880
+ "learning_rate": 5.733333333333334e-07,
1881
+ "loss": 0.5539,
1882
+ "step": 7575
1883
+ },
1884
+ {
1885
+ "epoch": 53.15,
1886
+ "learning_rate": 5.4e-07,
1887
+ "loss": 0.5384,
1888
+ "step": 7600
1889
+ },
1890
+ {
1891
+ "epoch": 53.32,
1892
+ "learning_rate": 5.066666666666667e-07,
1893
+ "loss": 0.5429,
1894
+ "step": 7625
1895
+ },
1896
+ {
1897
+ "epoch": 53.5,
1898
+ "learning_rate": 4.7333333333333334e-07,
1899
+ "loss": 0.5344,
1900
+ "step": 7650
1901
+ },
1902
+ {
1903
+ "epoch": 53.67,
1904
+ "learning_rate": 4.4e-07,
1905
+ "loss": 0.5402,
1906
+ "step": 7675
1907
+ },
1908
+ {
1909
+ "epoch": 53.85,
1910
+ "learning_rate": 4.0666666666666666e-07,
1911
+ "loss": 0.5425,
1912
+ "step": 7700
1913
+ },
1914
+ {
1915
+ "epoch": 54.02,
1916
+ "learning_rate": 3.733333333333334e-07,
1917
+ "loss": 0.5481,
1918
+ "step": 7725
1919
+ },
1920
+ {
1921
+ "epoch": 54.2,
1922
+ "learning_rate": 3.4000000000000003e-07,
1923
+ "loss": 0.5382,
1924
+ "step": 7750
1925
+ },
1926
+ {
1927
+ "epoch": 54.37,
1928
+ "learning_rate": 3.0666666666666666e-07,
1929
+ "loss": 0.5564,
1930
+ "step": 7775
1931
+ },
1932
+ {
1933
+ "epoch": 54.55,
1934
+ "learning_rate": 2.7333333333333335e-07,
1935
+ "loss": 0.536,
1936
+ "step": 7800
1937
+ },
1938
+ {
1939
+ "epoch": 54.72,
1940
+ "learning_rate": 2.4000000000000003e-07,
1941
+ "loss": 0.5713,
1942
+ "step": 7825
1943
+ },
1944
+ {
1945
+ "epoch": 54.9,
1946
+ "learning_rate": 2.066666666666667e-07,
1947
+ "loss": 0.5499,
1948
+ "step": 7850
1949
+ },
1950
+ {
1951
+ "epoch": 55.07,
1952
+ "learning_rate": 1.7333333333333335e-07,
1953
+ "loss": 0.5458,
1954
+ "step": 7875
1955
+ },
1956
+ {
1957
+ "epoch": 55.24,
1958
+ "learning_rate": 1.4e-07,
1959
+ "loss": 0.5532,
1960
+ "step": 7900
1961
+ },
1962
+ {
1963
+ "epoch": 55.42,
1964
+ "learning_rate": 1.0666666666666667e-07,
1965
+ "loss": 0.5339,
1966
+ "step": 7925
1967
+ },
1968
+ {
1969
+ "epoch": 55.59,
1970
+ "learning_rate": 7.333333333333334e-08,
1971
+ "loss": 0.5345,
1972
+ "step": 7950
1973
+ },
1974
+ {
1975
+ "epoch": 55.77,
1976
+ "learning_rate": 4e-08,
1977
+ "loss": 0.5443,
1978
+ "step": 7975
1979
+ },
1980
+ {
1981
+ "epoch": 55.94,
1982
+ "learning_rate": 6.666666666666667e-09,
1983
+ "loss": 0.5357,
1984
+ "step": 8000
1985
+ },
1986
+ {
1987
+ "epoch": 55.94,
1988
+ "eval_loss": 0.50015789270401,
1989
+ "eval_runtime": 8.0071,
1990
+ "eval_samples_per_second": 63.569,
1991
+ "eval_steps_per_second": 7.993,
1992
+ "step": 8000
1993
+ }
1994
+ ],
1995
+ "max_steps": 8000,
1996
+ "num_train_epochs": 56,
1997
+ "total_flos": 5211409572842616.0,
1998
+ "trial_name": null,
1999
+ "trial_params": null
2000
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fed8f6b85115fee6981398c630c6940a15c3b3362e9b7c5c00c610f10467dbb8
3
+ size 4155