jssky commited on
Commit
17946b7
·
verified ·
1 Parent(s): 7538e04

Training in progress, step 864, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:96349fb3a3e74bd1d001a87731ac4d9ee3c3f83708fee87cf6d2ab8ca5c9fc5a
3
  size 83945296
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:bcdb9cb208ebb75e860a377cc3bf001ca45cff167681ab6b6dbdf44c76471274
3
  size 83945296
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d0dbce4b892a1ffdda80b5f6d1ca36a5ec2666b88aae7f618b01522a9deca4a1
3
  size 43123028
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:568a18c89520fe1f6fd6e6493501eb7298f38eb3b112826e2a05c1183470dec9
3
  size 43123028
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:688a7ec250ed89f6825c96a90f8819f96410dcaa872ac5a085957a8867ad3534
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d09d7adcedf3287181f669217e74088a48babf4de561c51e83cb3dd6c8b9b5c2
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7563d050253c01a8c054b531000b9afd7adb92e743bf8c89bb2906d75ba0a715
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:09aa92b7b6de13a857c8971fde89595b685a9abe0c0f4e2242f281b0e90222f5
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.5,
5
  "eval_steps": 288,
6
- "global_step": 576,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4055,6 +4055,2030 @@
4055
  "eval_samples_per_second": 17.705,
4056
  "eval_steps_per_second": 8.871,
4057
  "step": 576
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4058
  }
4059
  ],
4060
  "logging_steps": 1,
@@ -4074,7 +6098,7 @@
4074
  "attributes": {}
4075
  }
4076
  },
4077
- "total_flos": 2.0190755934122803e+17,
4078
  "train_batch_size": 2,
4079
  "trial_name": null,
4080
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.75,
5
  "eval_steps": 288,
6
+ "global_step": 864,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4055
  "eval_samples_per_second": 17.705,
4056
  "eval_steps_per_second": 8.871,
4057
  "step": 576
4058
+ },
4059
+ {
4060
+ "epoch": 0.5008680555555556,
4061
+ "grad_norm": 15.022905349731445,
4062
+ "learning_rate": 0.00010110036050943203,
4063
+ "loss": 1.8069,
4064
+ "step": 577
4065
+ },
4066
+ {
4067
+ "epoch": 0.5017361111111112,
4068
+ "grad_norm": 14.939796447753906,
4069
+ "learning_rate": 0.00010082527766851151,
4070
+ "loss": 1.8282,
4071
+ "step": 578
4072
+ },
4073
+ {
4074
+ "epoch": 0.5026041666666666,
4075
+ "grad_norm": 15.488813400268555,
4076
+ "learning_rate": 0.00010055018858208886,
4077
+ "loss": 1.8347,
4078
+ "step": 579
4079
+ },
4080
+ {
4081
+ "epoch": 0.5034722222222222,
4082
+ "grad_norm": 14.688309669494629,
4083
+ "learning_rate": 0.00010027509533197197,
4084
+ "loss": 1.7819,
4085
+ "step": 580
4086
+ },
4087
+ {
4088
+ "epoch": 0.5043402777777778,
4089
+ "grad_norm": 12.491915702819824,
4090
+ "learning_rate": 0.0001,
4091
+ "loss": 1.9216,
4092
+ "step": 581
4093
+ },
4094
+ {
4095
+ "epoch": 0.5052083333333334,
4096
+ "grad_norm": 15.511882781982422,
4097
+ "learning_rate": 9.972490466802805e-05,
4098
+ "loss": 1.9545,
4099
+ "step": 582
4100
+ },
4101
+ {
4102
+ "epoch": 0.5060763888888888,
4103
+ "grad_norm": 16.1308650970459,
4104
+ "learning_rate": 9.944981141791115e-05,
4105
+ "loss": 1.7643,
4106
+ "step": 583
4107
+ },
4108
+ {
4109
+ "epoch": 0.5069444444444444,
4110
+ "grad_norm": 16.254255294799805,
4111
+ "learning_rate": 9.917472233148851e-05,
4112
+ "loss": 1.875,
4113
+ "step": 584
4114
+ },
4115
+ {
4116
+ "epoch": 0.5078125,
4117
+ "grad_norm": 13.440431594848633,
4118
+ "learning_rate": 9.889963949056799e-05,
4119
+ "loss": 1.7714,
4120
+ "step": 585
4121
+ },
4122
+ {
4123
+ "epoch": 0.5086805555555556,
4124
+ "grad_norm": 14.32579231262207,
4125
+ "learning_rate": 9.862456497691003e-05,
4126
+ "loss": 2.0208,
4127
+ "step": 586
4128
+ },
4129
+ {
4130
+ "epoch": 0.5095486111111112,
4131
+ "grad_norm": 16.822589874267578,
4132
+ "learning_rate": 9.834950087221216e-05,
4133
+ "loss": 1.9641,
4134
+ "step": 587
4135
+ },
4136
+ {
4137
+ "epoch": 0.5104166666666666,
4138
+ "grad_norm": 20.17698860168457,
4139
+ "learning_rate": 9.807444925809306e-05,
4140
+ "loss": 1.7131,
4141
+ "step": 588
4142
+ },
4143
+ {
4144
+ "epoch": 0.5112847222222222,
4145
+ "grad_norm": 14.65821647644043,
4146
+ "learning_rate": 9.77994122160769e-05,
4147
+ "loss": 2.01,
4148
+ "step": 589
4149
+ },
4150
+ {
4151
+ "epoch": 0.5121527777777778,
4152
+ "grad_norm": 14.805367469787598,
4153
+ "learning_rate": 9.752439182757764e-05,
4154
+ "loss": 2.0834,
4155
+ "step": 590
4156
+ },
4157
+ {
4158
+ "epoch": 0.5130208333333334,
4159
+ "grad_norm": 16.649839401245117,
4160
+ "learning_rate": 9.724939017388313e-05,
4161
+ "loss": 1.9286,
4162
+ "step": 591
4163
+ },
4164
+ {
4165
+ "epoch": 0.5138888888888888,
4166
+ "grad_norm": 16.793479919433594,
4167
+ "learning_rate": 9.697440933613946e-05,
4168
+ "loss": 1.9679,
4169
+ "step": 592
4170
+ },
4171
+ {
4172
+ "epoch": 0.5147569444444444,
4173
+ "grad_norm": 18.385112762451172,
4174
+ "learning_rate": 9.669945139533524e-05,
4175
+ "loss": 2.1764,
4176
+ "step": 593
4177
+ },
4178
+ {
4179
+ "epoch": 0.515625,
4180
+ "grad_norm": 16.447195053100586,
4181
+ "learning_rate": 9.642451843228568e-05,
4182
+ "loss": 2.2571,
4183
+ "step": 594
4184
+ },
4185
+ {
4186
+ "epoch": 0.5164930555555556,
4187
+ "grad_norm": 15.659928321838379,
4188
+ "learning_rate": 9.614961252761713e-05,
4189
+ "loss": 2.1288,
4190
+ "step": 595
4191
+ },
4192
+ {
4193
+ "epoch": 0.5173611111111112,
4194
+ "grad_norm": 16.766855239868164,
4195
+ "learning_rate": 9.587473576175103e-05,
4196
+ "loss": 2.0009,
4197
+ "step": 596
4198
+ },
4199
+ {
4200
+ "epoch": 0.5182291666666666,
4201
+ "grad_norm": 21.079097747802734,
4202
+ "learning_rate": 9.559989021488838e-05,
4203
+ "loss": 1.7899,
4204
+ "step": 597
4205
+ },
4206
+ {
4207
+ "epoch": 0.5190972222222222,
4208
+ "grad_norm": 20.679733276367188,
4209
+ "learning_rate": 9.532507796699388e-05,
4210
+ "loss": 1.9093,
4211
+ "step": 598
4212
+ },
4213
+ {
4214
+ "epoch": 0.5199652777777778,
4215
+ "grad_norm": 20.416423797607422,
4216
+ "learning_rate": 9.505030109778023e-05,
4217
+ "loss": 2.0236,
4218
+ "step": 599
4219
+ },
4220
+ {
4221
+ "epoch": 0.5208333333333334,
4222
+ "grad_norm": 30.040443420410156,
4223
+ "learning_rate": 9.47755616866925e-05,
4224
+ "loss": 1.7996,
4225
+ "step": 600
4226
+ },
4227
+ {
4228
+ "epoch": 0.5217013888888888,
4229
+ "grad_norm": 9.230992317199707,
4230
+ "learning_rate": 9.450086181289213e-05,
4231
+ "loss": 2.108,
4232
+ "step": 601
4233
+ },
4234
+ {
4235
+ "epoch": 0.5225694444444444,
4236
+ "grad_norm": 11.033724784851074,
4237
+ "learning_rate": 9.422620355524144e-05,
4238
+ "loss": 1.9422,
4239
+ "step": 602
4240
+ },
4241
+ {
4242
+ "epoch": 0.5234375,
4243
+ "grad_norm": 11.256922721862793,
4244
+ "learning_rate": 9.395158899228777e-05,
4245
+ "loss": 1.9754,
4246
+ "step": 603
4247
+ },
4248
+ {
4249
+ "epoch": 0.5243055555555556,
4250
+ "grad_norm": 14.465068817138672,
4251
+ "learning_rate": 9.367702020224782e-05,
4252
+ "loss": 1.8877,
4253
+ "step": 604
4254
+ },
4255
+ {
4256
+ "epoch": 0.5251736111111112,
4257
+ "grad_norm": 10.427090644836426,
4258
+ "learning_rate": 9.340249926299192e-05,
4259
+ "loss": 1.8378,
4260
+ "step": 605
4261
+ },
4262
+ {
4263
+ "epoch": 0.5260416666666666,
4264
+ "grad_norm": 11.574509620666504,
4265
+ "learning_rate": 9.312802825202817e-05,
4266
+ "loss": 1.8754,
4267
+ "step": 606
4268
+ },
4269
+ {
4270
+ "epoch": 0.5269097222222222,
4271
+ "grad_norm": 11.767155647277832,
4272
+ "learning_rate": 9.285360924648695e-05,
4273
+ "loss": 1.8248,
4274
+ "step": 607
4275
+ },
4276
+ {
4277
+ "epoch": 0.5277777777777778,
4278
+ "grad_norm": 11.879499435424805,
4279
+ "learning_rate": 9.257924432310497e-05,
4280
+ "loss": 1.8081,
4281
+ "step": 608
4282
+ },
4283
+ {
4284
+ "epoch": 0.5286458333333334,
4285
+ "grad_norm": 13.207613945007324,
4286
+ "learning_rate": 9.230493555820971e-05,
4287
+ "loss": 2.1181,
4288
+ "step": 609
4289
+ },
4290
+ {
4291
+ "epoch": 0.5295138888888888,
4292
+ "grad_norm": 11.93727970123291,
4293
+ "learning_rate": 9.203068502770371e-05,
4294
+ "loss": 2.1128,
4295
+ "step": 610
4296
+ },
4297
+ {
4298
+ "epoch": 0.5303819444444444,
4299
+ "grad_norm": 11.551005363464355,
4300
+ "learning_rate": 9.17564948070487e-05,
4301
+ "loss": 1.9466,
4302
+ "step": 611
4303
+ },
4304
+ {
4305
+ "epoch": 0.53125,
4306
+ "grad_norm": 12.332575798034668,
4307
+ "learning_rate": 9.148236697125008e-05,
4308
+ "loss": 1.809,
4309
+ "step": 612
4310
+ },
4311
+ {
4312
+ "epoch": 0.5321180555555556,
4313
+ "grad_norm": 12.674099922180176,
4314
+ "learning_rate": 9.120830359484105e-05,
4315
+ "loss": 1.8998,
4316
+ "step": 613
4317
+ },
4318
+ {
4319
+ "epoch": 0.5329861111111112,
4320
+ "grad_norm": 13.731175422668457,
4321
+ "learning_rate": 9.093430675186708e-05,
4322
+ "loss": 1.8718,
4323
+ "step": 614
4324
+ },
4325
+ {
4326
+ "epoch": 0.5338541666666666,
4327
+ "grad_norm": 14.158843040466309,
4328
+ "learning_rate": 9.066037851587015e-05,
4329
+ "loss": 1.834,
4330
+ "step": 615
4331
+ },
4332
+ {
4333
+ "epoch": 0.5347222222222222,
4334
+ "grad_norm": 14.000466346740723,
4335
+ "learning_rate": 9.038652095987294e-05,
4336
+ "loss": 1.7906,
4337
+ "step": 616
4338
+ },
4339
+ {
4340
+ "epoch": 0.5355902777777778,
4341
+ "grad_norm": 13.29843807220459,
4342
+ "learning_rate": 9.01127361563633e-05,
4343
+ "loss": 1.7885,
4344
+ "step": 617
4345
+ },
4346
+ {
4347
+ "epoch": 0.5364583333333334,
4348
+ "grad_norm": 13.127632141113281,
4349
+ "learning_rate": 8.983902617727852e-05,
4350
+ "loss": 2.044,
4351
+ "step": 618
4352
+ },
4353
+ {
4354
+ "epoch": 0.5373263888888888,
4355
+ "grad_norm": 13.030488014221191,
4356
+ "learning_rate": 8.956539309398957e-05,
4357
+ "loss": 1.7404,
4358
+ "step": 619
4359
+ },
4360
+ {
4361
+ "epoch": 0.5381944444444444,
4362
+ "grad_norm": 15.269593238830566,
4363
+ "learning_rate": 8.92918389772856e-05,
4364
+ "loss": 1.917,
4365
+ "step": 620
4366
+ },
4367
+ {
4368
+ "epoch": 0.5390625,
4369
+ "grad_norm": 13.017799377441406,
4370
+ "learning_rate": 8.901836589735807e-05,
4371
+ "loss": 2.0645,
4372
+ "step": 621
4373
+ },
4374
+ {
4375
+ "epoch": 0.5399305555555556,
4376
+ "grad_norm": 12.069060325622559,
4377
+ "learning_rate": 8.87449759237852e-05,
4378
+ "loss": 1.8962,
4379
+ "step": 622
4380
+ },
4381
+ {
4382
+ "epoch": 0.5407986111111112,
4383
+ "grad_norm": 15.789977073669434,
4384
+ "learning_rate": 8.847167112551627e-05,
4385
+ "loss": 1.7837,
4386
+ "step": 623
4387
+ },
4388
+ {
4389
+ "epoch": 0.5416666666666666,
4390
+ "grad_norm": 13.995849609375,
4391
+ "learning_rate": 8.819845357085598e-05,
4392
+ "loss": 1.8621,
4393
+ "step": 624
4394
+ },
4395
+ {
4396
+ "epoch": 0.5425347222222222,
4397
+ "grad_norm": 13.478865623474121,
4398
+ "learning_rate": 8.792532532744885e-05,
4399
+ "loss": 1.9676,
4400
+ "step": 625
4401
+ },
4402
+ {
4403
+ "epoch": 0.5434027777777778,
4404
+ "grad_norm": 15.19690990447998,
4405
+ "learning_rate": 8.765228846226341e-05,
4406
+ "loss": 1.6361,
4407
+ "step": 626
4408
+ },
4409
+ {
4410
+ "epoch": 0.5442708333333334,
4411
+ "grad_norm": 14.974311828613281,
4412
+ "learning_rate": 8.737934504157675e-05,
4413
+ "loss": 1.9447,
4414
+ "step": 627
4415
+ },
4416
+ {
4417
+ "epoch": 0.5451388888888888,
4418
+ "grad_norm": 15.628581047058105,
4419
+ "learning_rate": 8.710649713095872e-05,
4420
+ "loss": 1.8223,
4421
+ "step": 628
4422
+ },
4423
+ {
4424
+ "epoch": 0.5460069444444444,
4425
+ "grad_norm": 13.494054794311523,
4426
+ "learning_rate": 8.683374679525644e-05,
4427
+ "loss": 1.8148,
4428
+ "step": 629
4429
+ },
4430
+ {
4431
+ "epoch": 0.546875,
4432
+ "grad_norm": 14.555102348327637,
4433
+ "learning_rate": 8.656109609857854e-05,
4434
+ "loss": 1.8495,
4435
+ "step": 630
4436
+ },
4437
+ {
4438
+ "epoch": 0.5477430555555556,
4439
+ "grad_norm": 14.314188957214355,
4440
+ "learning_rate": 8.628854710427968e-05,
4441
+ "loss": 1.7517,
4442
+ "step": 631
4443
+ },
4444
+ {
4445
+ "epoch": 0.5486111111111112,
4446
+ "grad_norm": 13.424491882324219,
4447
+ "learning_rate": 8.601610187494484e-05,
4448
+ "loss": 1.8415,
4449
+ "step": 632
4450
+ },
4451
+ {
4452
+ "epoch": 0.5494791666666666,
4453
+ "grad_norm": 19.24957847595215,
4454
+ "learning_rate": 8.574376247237367e-05,
4455
+ "loss": 1.6742,
4456
+ "step": 633
4457
+ },
4458
+ {
4459
+ "epoch": 0.5503472222222222,
4460
+ "grad_norm": 14.664512634277344,
4461
+ "learning_rate": 8.547153095756503e-05,
4462
+ "loss": 2.1591,
4463
+ "step": 634
4464
+ },
4465
+ {
4466
+ "epoch": 0.5512152777777778,
4467
+ "grad_norm": 17.534164428710938,
4468
+ "learning_rate": 8.519940939070121e-05,
4469
+ "loss": 1.8432,
4470
+ "step": 635
4471
+ },
4472
+ {
4473
+ "epoch": 0.5520833333333334,
4474
+ "grad_norm": 15.532064437866211,
4475
+ "learning_rate": 8.49273998311326e-05,
4476
+ "loss": 2.0388,
4477
+ "step": 636
4478
+ },
4479
+ {
4480
+ "epoch": 0.5529513888888888,
4481
+ "grad_norm": 15.507984161376953,
4482
+ "learning_rate": 8.46555043373618e-05,
4483
+ "loss": 2.1336,
4484
+ "step": 637
4485
+ },
4486
+ {
4487
+ "epoch": 0.5538194444444444,
4488
+ "grad_norm": 17.11254119873047,
4489
+ "learning_rate": 8.438372496702826e-05,
4490
+ "loss": 2.1056,
4491
+ "step": 638
4492
+ },
4493
+ {
4494
+ "epoch": 0.5546875,
4495
+ "grad_norm": 16.4410400390625,
4496
+ "learning_rate": 8.41120637768926e-05,
4497
+ "loss": 2.143,
4498
+ "step": 639
4499
+ },
4500
+ {
4501
+ "epoch": 0.5555555555555556,
4502
+ "grad_norm": 14.77703857421875,
4503
+ "learning_rate": 8.384052282282107e-05,
4504
+ "loss": 1.9428,
4505
+ "step": 640
4506
+ },
4507
+ {
4508
+ "epoch": 0.5564236111111112,
4509
+ "grad_norm": 17.501911163330078,
4510
+ "learning_rate": 8.356910415977008e-05,
4511
+ "loss": 1.8171,
4512
+ "step": 641
4513
+ },
4514
+ {
4515
+ "epoch": 0.5572916666666666,
4516
+ "grad_norm": 16.587329864501953,
4517
+ "learning_rate": 8.329780984177053e-05,
4518
+ "loss": 2.1078,
4519
+ "step": 642
4520
+ },
4521
+ {
4522
+ "epoch": 0.5581597222222222,
4523
+ "grad_norm": 15.023578643798828,
4524
+ "learning_rate": 8.302664192191225e-05,
4525
+ "loss": 2.2078,
4526
+ "step": 643
4527
+ },
4528
+ {
4529
+ "epoch": 0.5590277777777778,
4530
+ "grad_norm": 15.555996894836426,
4531
+ "learning_rate": 8.27556024523286e-05,
4532
+ "loss": 1.9277,
4533
+ "step": 644
4534
+ },
4535
+ {
4536
+ "epoch": 0.5598958333333334,
4537
+ "grad_norm": 17.908096313476562,
4538
+ "learning_rate": 8.248469348418076e-05,
4539
+ "loss": 2.0114,
4540
+ "step": 645
4541
+ },
4542
+ {
4543
+ "epoch": 0.5607638888888888,
4544
+ "grad_norm": 18.860708236694336,
4545
+ "learning_rate": 8.221391706764245e-05,
4546
+ "loss": 2.079,
4547
+ "step": 646
4548
+ },
4549
+ {
4550
+ "epoch": 0.5616319444444444,
4551
+ "grad_norm": 20.25312614440918,
4552
+ "learning_rate": 8.194327525188419e-05,
4553
+ "loss": 1.9205,
4554
+ "step": 647
4555
+ },
4556
+ {
4557
+ "epoch": 0.5625,
4558
+ "grad_norm": 26.201187133789062,
4559
+ "learning_rate": 8.167277008505783e-05,
4560
+ "loss": 1.9173,
4561
+ "step": 648
4562
+ },
4563
+ {
4564
+ "epoch": 0.5633680555555556,
4565
+ "grad_norm": 18.467588424682617,
4566
+ "learning_rate": 8.140240361428119e-05,
4567
+ "loss": 2.0093,
4568
+ "step": 649
4569
+ },
4570
+ {
4571
+ "epoch": 0.5642361111111112,
4572
+ "grad_norm": 28.01093101501465,
4573
+ "learning_rate": 8.113217788562235e-05,
4574
+ "loss": 1.8234,
4575
+ "step": 650
4576
+ },
4577
+ {
4578
+ "epoch": 0.5651041666666666,
4579
+ "grad_norm": 9.87932014465332,
4580
+ "learning_rate": 8.086209494408443e-05,
4581
+ "loss": 1.6589,
4582
+ "step": 651
4583
+ },
4584
+ {
4585
+ "epoch": 0.5659722222222222,
4586
+ "grad_norm": 11.396955490112305,
4587
+ "learning_rate": 8.059215683358991e-05,
4588
+ "loss": 2.0744,
4589
+ "step": 652
4590
+ },
4591
+ {
4592
+ "epoch": 0.5668402777777778,
4593
+ "grad_norm": 10.34410285949707,
4594
+ "learning_rate": 8.032236559696517e-05,
4595
+ "loss": 1.6944,
4596
+ "step": 653
4597
+ },
4598
+ {
4599
+ "epoch": 0.5677083333333334,
4600
+ "grad_norm": 12.291624069213867,
4601
+ "learning_rate": 8.005272327592517e-05,
4602
+ "loss": 1.7822,
4603
+ "step": 654
4604
+ },
4605
+ {
4606
+ "epoch": 0.5685763888888888,
4607
+ "grad_norm": 12.043850898742676,
4608
+ "learning_rate": 7.978323191105781e-05,
4609
+ "loss": 1.8903,
4610
+ "step": 655
4611
+ },
4612
+ {
4613
+ "epoch": 0.5694444444444444,
4614
+ "grad_norm": 10.367390632629395,
4615
+ "learning_rate": 7.951389354180871e-05,
4616
+ "loss": 1.8261,
4617
+ "step": 656
4618
+ },
4619
+ {
4620
+ "epoch": 0.5703125,
4621
+ "grad_norm": 10.694307327270508,
4622
+ "learning_rate": 7.924471020646559e-05,
4623
+ "loss": 1.8233,
4624
+ "step": 657
4625
+ },
4626
+ {
4627
+ "epoch": 0.5711805555555556,
4628
+ "grad_norm": 12.436077117919922,
4629
+ "learning_rate": 7.897568394214292e-05,
4630
+ "loss": 1.9725,
4631
+ "step": 658
4632
+ },
4633
+ {
4634
+ "epoch": 0.5720486111111112,
4635
+ "grad_norm": 11.22568416595459,
4636
+ "learning_rate": 7.87068167847665e-05,
4637
+ "loss": 1.7682,
4638
+ "step": 659
4639
+ },
4640
+ {
4641
+ "epoch": 0.5729166666666666,
4642
+ "grad_norm": 11.406827926635742,
4643
+ "learning_rate": 7.8438110769058e-05,
4644
+ "loss": 2.1154,
4645
+ "step": 660
4646
+ },
4647
+ {
4648
+ "epoch": 0.5737847222222222,
4649
+ "grad_norm": 13.207112312316895,
4650
+ "learning_rate": 7.81695679285197e-05,
4651
+ "loss": 1.8807,
4652
+ "step": 661
4653
+ },
4654
+ {
4655
+ "epoch": 0.5746527777777778,
4656
+ "grad_norm": 12.020392417907715,
4657
+ "learning_rate": 7.790119029541893e-05,
4658
+ "loss": 1.7712,
4659
+ "step": 662
4660
+ },
4661
+ {
4662
+ "epoch": 0.5755208333333334,
4663
+ "grad_norm": 12.263861656188965,
4664
+ "learning_rate": 7.76329799007728e-05,
4665
+ "loss": 1.7847,
4666
+ "step": 663
4667
+ },
4668
+ {
4669
+ "epoch": 0.5763888888888888,
4670
+ "grad_norm": 12.855914115905762,
4671
+ "learning_rate": 7.736493877433285e-05,
4672
+ "loss": 1.8194,
4673
+ "step": 664
4674
+ },
4675
+ {
4676
+ "epoch": 0.5772569444444444,
4677
+ "grad_norm": 13.804559707641602,
4678
+ "learning_rate": 7.709706894456949e-05,
4679
+ "loss": 1.9374,
4680
+ "step": 665
4681
+ },
4682
+ {
4683
+ "epoch": 0.578125,
4684
+ "grad_norm": 12.961804389953613,
4685
+ "learning_rate": 7.682937243865701e-05,
4686
+ "loss": 2.0661,
4687
+ "step": 666
4688
+ },
4689
+ {
4690
+ "epoch": 0.5789930555555556,
4691
+ "grad_norm": 13.783415794372559,
4692
+ "learning_rate": 7.656185128245786e-05,
4693
+ "loss": 1.8875,
4694
+ "step": 667
4695
+ },
4696
+ {
4697
+ "epoch": 0.5798611111111112,
4698
+ "grad_norm": 14.353681564331055,
4699
+ "learning_rate": 7.62945075005075e-05,
4700
+ "loss": 2.1549,
4701
+ "step": 668
4702
+ },
4703
+ {
4704
+ "epoch": 0.5807291666666666,
4705
+ "grad_norm": 15.880180358886719,
4706
+ "learning_rate": 7.602734311599918e-05,
4707
+ "loss": 1.5437,
4708
+ "step": 669
4709
+ },
4710
+ {
4711
+ "epoch": 0.5815972222222222,
4712
+ "grad_norm": 17.51071548461914,
4713
+ "learning_rate": 7.576036015076837e-05,
4714
+ "loss": 1.9075,
4715
+ "step": 670
4716
+ },
4717
+ {
4718
+ "epoch": 0.5824652777777778,
4719
+ "grad_norm": 12.360156059265137,
4720
+ "learning_rate": 7.549356062527773e-05,
4721
+ "loss": 1.8808,
4722
+ "step": 671
4723
+ },
4724
+ {
4725
+ "epoch": 0.5833333333333334,
4726
+ "grad_norm": 14.916133880615234,
4727
+ "learning_rate": 7.52269465586016e-05,
4728
+ "loss": 1.772,
4729
+ "step": 672
4730
+ },
4731
+ {
4732
+ "epoch": 0.5842013888888888,
4733
+ "grad_norm": 14.223649024963379,
4734
+ "learning_rate": 7.496051996841084e-05,
4735
+ "loss": 1.959,
4736
+ "step": 673
4737
+ },
4738
+ {
4739
+ "epoch": 0.5850694444444444,
4740
+ "grad_norm": 15.88371753692627,
4741
+ "learning_rate": 7.469428287095757e-05,
4742
+ "loss": 1.7439,
4743
+ "step": 674
4744
+ },
4745
+ {
4746
+ "epoch": 0.5859375,
4747
+ "grad_norm": 13.079479217529297,
4748
+ "learning_rate": 7.442823728105979e-05,
4749
+ "loss": 1.8794,
4750
+ "step": 675
4751
+ },
4752
+ {
4753
+ "epoch": 0.5868055555555556,
4754
+ "grad_norm": 17.964012145996094,
4755
+ "learning_rate": 7.416238521208634e-05,
4756
+ "loss": 1.5014,
4757
+ "step": 676
4758
+ },
4759
+ {
4760
+ "epoch": 0.5876736111111112,
4761
+ "grad_norm": 14.494117736816406,
4762
+ "learning_rate": 7.389672867594142e-05,
4763
+ "loss": 2.2386,
4764
+ "step": 677
4765
+ },
4766
+ {
4767
+ "epoch": 0.5885416666666666,
4768
+ "grad_norm": 16.09971809387207,
4769
+ "learning_rate": 7.363126968304955e-05,
4770
+ "loss": 1.8013,
4771
+ "step": 678
4772
+ },
4773
+ {
4774
+ "epoch": 0.5894097222222222,
4775
+ "grad_norm": 13.50377368927002,
4776
+ "learning_rate": 7.336601024234028e-05,
4777
+ "loss": 1.7716,
4778
+ "step": 679
4779
+ },
4780
+ {
4781
+ "epoch": 0.5902777777777778,
4782
+ "grad_norm": 17.585285186767578,
4783
+ "learning_rate": 7.310095236123295e-05,
4784
+ "loss": 2.0324,
4785
+ "step": 680
4786
+ },
4787
+ {
4788
+ "epoch": 0.5911458333333334,
4789
+ "grad_norm": 15.79974365234375,
4790
+ "learning_rate": 7.283609804562168e-05,
4791
+ "loss": 2.0764,
4792
+ "step": 681
4793
+ },
4794
+ {
4795
+ "epoch": 0.5920138888888888,
4796
+ "grad_norm": 15.37767505645752,
4797
+ "learning_rate": 7.257144929985988e-05,
4798
+ "loss": 1.6588,
4799
+ "step": 682
4800
+ },
4801
+ {
4802
+ "epoch": 0.5928819444444444,
4803
+ "grad_norm": 16.093576431274414,
4804
+ "learning_rate": 7.230700812674538e-05,
4805
+ "loss": 2.0325,
4806
+ "step": 683
4807
+ },
4808
+ {
4809
+ "epoch": 0.59375,
4810
+ "grad_norm": 18.15459442138672,
4811
+ "learning_rate": 7.204277652750512e-05,
4812
+ "loss": 1.7897,
4813
+ "step": 684
4814
+ },
4815
+ {
4816
+ "epoch": 0.5946180555555556,
4817
+ "grad_norm": 12.621081352233887,
4818
+ "learning_rate": 7.177875650177998e-05,
4819
+ "loss": 1.7661,
4820
+ "step": 685
4821
+ },
4822
+ {
4823
+ "epoch": 0.5954861111111112,
4824
+ "grad_norm": 14.055307388305664,
4825
+ "learning_rate": 7.15149500476098e-05,
4826
+ "loss": 1.9542,
4827
+ "step": 686
4828
+ },
4829
+ {
4830
+ "epoch": 0.5963541666666666,
4831
+ "grad_norm": 18.60757064819336,
4832
+ "learning_rate": 7.12513591614181e-05,
4833
+ "loss": 1.9329,
4834
+ "step": 687
4835
+ },
4836
+ {
4837
+ "epoch": 0.5972222222222222,
4838
+ "grad_norm": 15.511977195739746,
4839
+ "learning_rate": 7.098798583799701e-05,
4840
+ "loss": 1.9413,
4841
+ "step": 688
4842
+ },
4843
+ {
4844
+ "epoch": 0.5980902777777778,
4845
+ "grad_norm": 17.695068359375,
4846
+ "learning_rate": 7.072483207049232e-05,
4847
+ "loss": 1.9205,
4848
+ "step": 689
4849
+ },
4850
+ {
4851
+ "epoch": 0.5989583333333334,
4852
+ "grad_norm": 39.13572692871094,
4853
+ "learning_rate": 7.046189985038807e-05,
4854
+ "loss": 1.7923,
4855
+ "step": 690
4856
+ },
4857
+ {
4858
+ "epoch": 0.5998263888888888,
4859
+ "grad_norm": 13.981321334838867,
4860
+ "learning_rate": 7.01991911674919e-05,
4861
+ "loss": 1.999,
4862
+ "step": 691
4863
+ },
4864
+ {
4865
+ "epoch": 0.6006944444444444,
4866
+ "grad_norm": 16.080123901367188,
4867
+ "learning_rate": 6.99367080099196e-05,
4868
+ "loss": 1.8519,
4869
+ "step": 692
4870
+ },
4871
+ {
4872
+ "epoch": 0.6015625,
4873
+ "grad_norm": 16.789819717407227,
4874
+ "learning_rate": 6.967445236408037e-05,
4875
+ "loss": 2.07,
4876
+ "step": 693
4877
+ },
4878
+ {
4879
+ "epoch": 0.6024305555555556,
4880
+ "grad_norm": 18.676746368408203,
4881
+ "learning_rate": 6.941242621466157e-05,
4882
+ "loss": 1.8944,
4883
+ "step": 694
4884
+ },
4885
+ {
4886
+ "epoch": 0.6032986111111112,
4887
+ "grad_norm": 18.478113174438477,
4888
+ "learning_rate": 6.915063154461379e-05,
4889
+ "loss": 2.1065,
4890
+ "step": 695
4891
+ },
4892
+ {
4893
+ "epoch": 0.6041666666666666,
4894
+ "grad_norm": 15.811859130859375,
4895
+ "learning_rate": 6.888907033513592e-05,
4896
+ "loss": 2.0354,
4897
+ "step": 696
4898
+ },
4899
+ {
4900
+ "epoch": 0.6050347222222222,
4901
+ "grad_norm": 21.135038375854492,
4902
+ "learning_rate": 6.862774456565999e-05,
4903
+ "loss": 1.9646,
4904
+ "step": 697
4905
+ },
4906
+ {
4907
+ "epoch": 0.6059027777777778,
4908
+ "grad_norm": 27.442007064819336,
4909
+ "learning_rate": 6.836665621383635e-05,
4910
+ "loss": 1.7368,
4911
+ "step": 698
4912
+ },
4913
+ {
4914
+ "epoch": 0.6067708333333334,
4915
+ "grad_norm": 21.151498794555664,
4916
+ "learning_rate": 6.810580725551853e-05,
4917
+ "loss": 1.8765,
4918
+ "step": 699
4919
+ },
4920
+ {
4921
+ "epoch": 0.6076388888888888,
4922
+ "grad_norm": 29.93486213684082,
4923
+ "learning_rate": 6.784519966474845e-05,
4924
+ "loss": 2.1535,
4925
+ "step": 700
4926
+ },
4927
+ {
4928
+ "epoch": 0.6085069444444444,
4929
+ "grad_norm": 9.31676959991455,
4930
+ "learning_rate": 6.758483541374148e-05,
4931
+ "loss": 1.8469,
4932
+ "step": 701
4933
+ },
4934
+ {
4935
+ "epoch": 0.609375,
4936
+ "grad_norm": 11.149514198303223,
4937
+ "learning_rate": 6.732471647287133e-05,
4938
+ "loss": 1.9865,
4939
+ "step": 702
4940
+ },
4941
+ {
4942
+ "epoch": 0.6102430555555556,
4943
+ "grad_norm": 10.093915939331055,
4944
+ "learning_rate": 6.706484481065539e-05,
4945
+ "loss": 1.7877,
4946
+ "step": 703
4947
+ },
4948
+ {
4949
+ "epoch": 0.6111111111111112,
4950
+ "grad_norm": 10.389727592468262,
4951
+ "learning_rate": 6.680522239373953e-05,
4952
+ "loss": 1.7289,
4953
+ "step": 704
4954
+ },
4955
+ {
4956
+ "epoch": 0.6119791666666666,
4957
+ "grad_norm": 10.033374786376953,
4958
+ "learning_rate": 6.654585118688356e-05,
4959
+ "loss": 1.9985,
4960
+ "step": 705
4961
+ },
4962
+ {
4963
+ "epoch": 0.6128472222222222,
4964
+ "grad_norm": 10.770398139953613,
4965
+ "learning_rate": 6.628673315294616e-05,
4966
+ "loss": 1.9511,
4967
+ "step": 706
4968
+ },
4969
+ {
4970
+ "epoch": 0.6137152777777778,
4971
+ "grad_norm": 10.429977416992188,
4972
+ "learning_rate": 6.602787025286998e-05,
4973
+ "loss": 2.0326,
4974
+ "step": 707
4975
+ },
4976
+ {
4977
+ "epoch": 0.6145833333333334,
4978
+ "grad_norm": 10.858638763427734,
4979
+ "learning_rate": 6.576926444566698e-05,
4980
+ "loss": 2.0785,
4981
+ "step": 708
4982
+ },
4983
+ {
4984
+ "epoch": 0.6154513888888888,
4985
+ "grad_norm": 12.585272789001465,
4986
+ "learning_rate": 6.551091768840338e-05,
4987
+ "loss": 2.1141,
4988
+ "step": 709
4989
+ },
4990
+ {
4991
+ "epoch": 0.6163194444444444,
4992
+ "grad_norm": 12.708643913269043,
4993
+ "learning_rate": 6.525283193618508e-05,
4994
+ "loss": 1.6813,
4995
+ "step": 710
4996
+ },
4997
+ {
4998
+ "epoch": 0.6171875,
4999
+ "grad_norm": 11.747328758239746,
5000
+ "learning_rate": 6.499500914214276e-05,
5001
+ "loss": 1.9528,
5002
+ "step": 711
5003
+ },
5004
+ {
5005
+ "epoch": 0.6180555555555556,
5006
+ "grad_norm": 15.570380210876465,
5007
+ "learning_rate": 6.473745125741701e-05,
5008
+ "loss": 1.7305,
5009
+ "step": 712
5010
+ },
5011
+ {
5012
+ "epoch": 0.6189236111111112,
5013
+ "grad_norm": 12.348931312561035,
5014
+ "learning_rate": 6.448016023114372e-05,
5015
+ "loss": 1.7636,
5016
+ "step": 713
5017
+ },
5018
+ {
5019
+ "epoch": 0.6197916666666666,
5020
+ "grad_norm": 12.029678344726562,
5021
+ "learning_rate": 6.422313801043922e-05,
5022
+ "loss": 1.7962,
5023
+ "step": 714
5024
+ },
5025
+ {
5026
+ "epoch": 0.6206597222222222,
5027
+ "grad_norm": 13.390205383300781,
5028
+ "learning_rate": 6.396638654038557e-05,
5029
+ "loss": 1.8049,
5030
+ "step": 715
5031
+ },
5032
+ {
5033
+ "epoch": 0.6215277777777778,
5034
+ "grad_norm": 12.542319297790527,
5035
+ "learning_rate": 6.370990776401597e-05,
5036
+ "loss": 1.69,
5037
+ "step": 716
5038
+ },
5039
+ {
5040
+ "epoch": 0.6223958333333334,
5041
+ "grad_norm": 14.50907039642334,
5042
+ "learning_rate": 6.34537036222998e-05,
5043
+ "loss": 1.7879,
5044
+ "step": 717
5045
+ },
5046
+ {
5047
+ "epoch": 0.6232638888888888,
5048
+ "grad_norm": 14.686508178710938,
5049
+ "learning_rate": 6.319777605412816e-05,
5050
+ "loss": 1.685,
5051
+ "step": 718
5052
+ },
5053
+ {
5054
+ "epoch": 0.6241319444444444,
5055
+ "grad_norm": 12.963170051574707,
5056
+ "learning_rate": 6.294212699629902e-05,
5057
+ "loss": 1.8536,
5058
+ "step": 719
5059
+ },
5060
+ {
5061
+ "epoch": 0.625,
5062
+ "grad_norm": 10.97075366973877,
5063
+ "learning_rate": 6.268675838350273e-05,
5064
+ "loss": 1.7408,
5065
+ "step": 720
5066
+ },
5067
+ {
5068
+ "epoch": 0.6258680555555556,
5069
+ "grad_norm": 12.989684104919434,
5070
+ "learning_rate": 6.243167214830733e-05,
5071
+ "loss": 1.9632,
5072
+ "step": 721
5073
+ },
5074
+ {
5075
+ "epoch": 0.6267361111111112,
5076
+ "grad_norm": 16.108964920043945,
5077
+ "learning_rate": 6.217687022114377e-05,
5078
+ "loss": 1.6076,
5079
+ "step": 722
5080
+ },
5081
+ {
5082
+ "epoch": 0.6276041666666666,
5083
+ "grad_norm": 13.303749084472656,
5084
+ "learning_rate": 6.192235453029155e-05,
5085
+ "loss": 1.7805,
5086
+ "step": 723
5087
+ },
5088
+ {
5089
+ "epoch": 0.6284722222222222,
5090
+ "grad_norm": 17.04582405090332,
5091
+ "learning_rate": 6.166812700186389e-05,
5092
+ "loss": 1.9505,
5093
+ "step": 724
5094
+ },
5095
+ {
5096
+ "epoch": 0.6293402777777778,
5097
+ "grad_norm": 14.280027389526367,
5098
+ "learning_rate": 6.141418955979339e-05,
5099
+ "loss": 1.7364,
5100
+ "step": 725
5101
+ },
5102
+ {
5103
+ "epoch": 0.6302083333333334,
5104
+ "grad_norm": 14.48975658416748,
5105
+ "learning_rate": 6.116054412581722e-05,
5106
+ "loss": 2.0984,
5107
+ "step": 726
5108
+ },
5109
+ {
5110
+ "epoch": 0.6310763888888888,
5111
+ "grad_norm": 12.331202507019043,
5112
+ "learning_rate": 6.090719261946279e-05,
5113
+ "loss": 1.7384,
5114
+ "step": 727
5115
+ },
5116
+ {
5117
+ "epoch": 0.6319444444444444,
5118
+ "grad_norm": 20.513586044311523,
5119
+ "learning_rate": 6.065413695803316e-05,
5120
+ "loss": 1.4269,
5121
+ "step": 728
5122
+ },
5123
+ {
5124
+ "epoch": 0.6328125,
5125
+ "grad_norm": 14.325490951538086,
5126
+ "learning_rate": 6.0401379056592375e-05,
5127
+ "loss": 1.878,
5128
+ "step": 729
5129
+ },
5130
+ {
5131
+ "epoch": 0.6336805555555556,
5132
+ "grad_norm": 13.367268562316895,
5133
+ "learning_rate": 6.014892082795127e-05,
5134
+ "loss": 2.1823,
5135
+ "step": 730
5136
+ },
5137
+ {
5138
+ "epoch": 0.6345486111111112,
5139
+ "grad_norm": 17.7767276763916,
5140
+ "learning_rate": 5.9896764182652654e-05,
5141
+ "loss": 1.9079,
5142
+ "step": 731
5143
+ },
5144
+ {
5145
+ "epoch": 0.6354166666666666,
5146
+ "grad_norm": 17.653276443481445,
5147
+ "learning_rate": 5.9644911028957196e-05,
5148
+ "loss": 1.9413,
5149
+ "step": 732
5150
+ },
5151
+ {
5152
+ "epoch": 0.6362847222222222,
5153
+ "grad_norm": 15.516522407531738,
5154
+ "learning_rate": 5.939336327282874e-05,
5155
+ "loss": 1.9241,
5156
+ "step": 733
5157
+ },
5158
+ {
5159
+ "epoch": 0.6371527777777778,
5160
+ "grad_norm": 14.670297622680664,
5161
+ "learning_rate": 5.914212281791989e-05,
5162
+ "loss": 2.0385,
5163
+ "step": 734
5164
+ },
5165
+ {
5166
+ "epoch": 0.6380208333333334,
5167
+ "grad_norm": 14.384023666381836,
5168
+ "learning_rate": 5.889119156555778e-05,
5169
+ "loss": 1.9389,
5170
+ "step": 735
5171
+ },
5172
+ {
5173
+ "epoch": 0.6388888888888888,
5174
+ "grad_norm": 15.61893367767334,
5175
+ "learning_rate": 5.8640571414729486e-05,
5176
+ "loss": 1.9736,
5177
+ "step": 736
5178
+ },
5179
+ {
5180
+ "epoch": 0.6397569444444444,
5181
+ "grad_norm": 15.846280097961426,
5182
+ "learning_rate": 5.839026426206782e-05,
5183
+ "loss": 1.6474,
5184
+ "step": 737
5185
+ },
5186
+ {
5187
+ "epoch": 0.640625,
5188
+ "grad_norm": 15.824593544006348,
5189
+ "learning_rate": 5.814027200183685e-05,
5190
+ "loss": 1.8774,
5191
+ "step": 738
5192
+ },
5193
+ {
5194
+ "epoch": 0.6414930555555556,
5195
+ "grad_norm": 16.56097984313965,
5196
+ "learning_rate": 5.7890596525917593e-05,
5197
+ "loss": 1.9392,
5198
+ "step": 739
5199
+ },
5200
+ {
5201
+ "epoch": 0.6423611111111112,
5202
+ "grad_norm": 19.102895736694336,
5203
+ "learning_rate": 5.7641239723793814e-05,
5204
+ "loss": 2.1913,
5205
+ "step": 740
5206
+ },
5207
+ {
5208
+ "epoch": 0.6432291666666666,
5209
+ "grad_norm": 18.151823043823242,
5210
+ "learning_rate": 5.739220348253753e-05,
5211
+ "loss": 1.9148,
5212
+ "step": 741
5213
+ },
5214
+ {
5215
+ "epoch": 0.6440972222222222,
5216
+ "grad_norm": 16.493192672729492,
5217
+ "learning_rate": 5.714348968679483e-05,
5218
+ "loss": 1.9077,
5219
+ "step": 742
5220
+ },
5221
+ {
5222
+ "epoch": 0.6449652777777778,
5223
+ "grad_norm": 18.61972999572754,
5224
+ "learning_rate": 5.689510021877173e-05,
5225
+ "loss": 2.1327,
5226
+ "step": 743
5227
+ },
5228
+ {
5229
+ "epoch": 0.6458333333333334,
5230
+ "grad_norm": 17.50888442993164,
5231
+ "learning_rate": 5.664703695821965e-05,
5232
+ "loss": 2.013,
5233
+ "step": 744
5234
+ },
5235
+ {
5236
+ "epoch": 0.6467013888888888,
5237
+ "grad_norm": 16.999921798706055,
5238
+ "learning_rate": 5.639930178242152e-05,
5239
+ "loss": 2.0242,
5240
+ "step": 745
5241
+ },
5242
+ {
5243
+ "epoch": 0.6475694444444444,
5244
+ "grad_norm": 15.626893997192383,
5245
+ "learning_rate": 5.6151896566177275e-05,
5246
+ "loss": 2.1479,
5247
+ "step": 746
5248
+ },
5249
+ {
5250
+ "epoch": 0.6484375,
5251
+ "grad_norm": 23.982009887695312,
5252
+ "learning_rate": 5.590482318178982e-05,
5253
+ "loss": 1.8645,
5254
+ "step": 747
5255
+ },
5256
+ {
5257
+ "epoch": 0.6493055555555556,
5258
+ "grad_norm": 20.309349060058594,
5259
+ "learning_rate": 5.56580834990509e-05,
5260
+ "loss": 1.7871,
5261
+ "step": 748
5262
+ },
5263
+ {
5264
+ "epoch": 0.6501736111111112,
5265
+ "grad_norm": 20.062475204467773,
5266
+ "learning_rate": 5.54116793852268e-05,
5267
+ "loss": 1.9625,
5268
+ "step": 749
5269
+ },
5270
+ {
5271
+ "epoch": 0.6510416666666666,
5272
+ "grad_norm": 22.787874221801758,
5273
+ "learning_rate": 5.5165612705044386e-05,
5274
+ "loss": 1.9159,
5275
+ "step": 750
5276
+ },
5277
+ {
5278
+ "epoch": 0.6519097222222222,
5279
+ "grad_norm": 8.314199447631836,
5280
+ "learning_rate": 5.491988532067687e-05,
5281
+ "loss": 2.0528,
5282
+ "step": 751
5283
+ },
5284
+ {
5285
+ "epoch": 0.6527777777777778,
5286
+ "grad_norm": 8.974541664123535,
5287
+ "learning_rate": 5.467449909172966e-05,
5288
+ "loss": 1.9216,
5289
+ "step": 752
5290
+ },
5291
+ {
5292
+ "epoch": 0.6536458333333334,
5293
+ "grad_norm": 9.058680534362793,
5294
+ "learning_rate": 5.442945587522659e-05,
5295
+ "loss": 1.8281,
5296
+ "step": 753
5297
+ },
5298
+ {
5299
+ "epoch": 0.6545138888888888,
5300
+ "grad_norm": 22.46303367614746,
5301
+ "learning_rate": 5.418475752559544e-05,
5302
+ "loss": 1.8423,
5303
+ "step": 754
5304
+ },
5305
+ {
5306
+ "epoch": 0.6553819444444444,
5307
+ "grad_norm": 9.852974891662598,
5308
+ "learning_rate": 5.394040589465431e-05,
5309
+ "loss": 1.7332,
5310
+ "step": 755
5311
+ },
5312
+ {
5313
+ "epoch": 0.65625,
5314
+ "grad_norm": 11.416216850280762,
5315
+ "learning_rate": 5.369640283159729e-05,
5316
+ "loss": 1.8474,
5317
+ "step": 756
5318
+ },
5319
+ {
5320
+ "epoch": 0.6571180555555556,
5321
+ "grad_norm": 11.507524490356445,
5322
+ "learning_rate": 5.3452750182980625e-05,
5323
+ "loss": 1.9673,
5324
+ "step": 757
5325
+ },
5326
+ {
5327
+ "epoch": 0.6579861111111112,
5328
+ "grad_norm": 10.947381019592285,
5329
+ "learning_rate": 5.320944979270868e-05,
5330
+ "loss": 1.8135,
5331
+ "step": 758
5332
+ },
5333
+ {
5334
+ "epoch": 0.6588541666666666,
5335
+ "grad_norm": 10.233997344970703,
5336
+ "learning_rate": 5.296650350202008e-05,
5337
+ "loss": 2.0056,
5338
+ "step": 759
5339
+ },
5340
+ {
5341
+ "epoch": 0.6597222222222222,
5342
+ "grad_norm": 10.532794952392578,
5343
+ "learning_rate": 5.2723913149473737e-05,
5344
+ "loss": 1.831,
5345
+ "step": 760
5346
+ },
5347
+ {
5348
+ "epoch": 0.6605902777777778,
5349
+ "grad_norm": 12.286763191223145,
5350
+ "learning_rate": 5.248168057093478e-05,
5351
+ "loss": 1.9529,
5352
+ "step": 761
5353
+ },
5354
+ {
5355
+ "epoch": 0.6614583333333334,
5356
+ "grad_norm": 10.542374610900879,
5357
+ "learning_rate": 5.223980759956089e-05,
5358
+ "loss": 1.7063,
5359
+ "step": 762
5360
+ },
5361
+ {
5362
+ "epoch": 0.6623263888888888,
5363
+ "grad_norm": 12.384016036987305,
5364
+ "learning_rate": 5.199829606578823e-05,
5365
+ "loss": 1.8829,
5366
+ "step": 763
5367
+ },
5368
+ {
5369
+ "epoch": 0.6631944444444444,
5370
+ "grad_norm": 13.105708122253418,
5371
+ "learning_rate": 5.175714779731782e-05,
5372
+ "loss": 1.7577,
5373
+ "step": 764
5374
+ },
5375
+ {
5376
+ "epoch": 0.6640625,
5377
+ "grad_norm": 14.688854217529297,
5378
+ "learning_rate": 5.151636461910154e-05,
5379
+ "loss": 1.961,
5380
+ "step": 765
5381
+ },
5382
+ {
5383
+ "epoch": 0.6649305555555556,
5384
+ "grad_norm": 14.315075874328613,
5385
+ "learning_rate": 5.127594835332831e-05,
5386
+ "loss": 1.8002,
5387
+ "step": 766
5388
+ },
5389
+ {
5390
+ "epoch": 0.6657986111111112,
5391
+ "grad_norm": 13.88724136352539,
5392
+ "learning_rate": 5.1035900819410346e-05,
5393
+ "loss": 1.7724,
5394
+ "step": 767
5395
+ },
5396
+ {
5397
+ "epoch": 0.6666666666666666,
5398
+ "grad_norm": 13.456408500671387,
5399
+ "learning_rate": 5.079622383396938e-05,
5400
+ "loss": 1.8523,
5401
+ "step": 768
5402
+ },
5403
+ {
5404
+ "epoch": 0.6675347222222222,
5405
+ "grad_norm": 14.679458618164062,
5406
+ "learning_rate": 5.055691921082299e-05,
5407
+ "loss": 1.8991,
5408
+ "step": 769
5409
+ },
5410
+ {
5411
+ "epoch": 0.6684027777777778,
5412
+ "grad_norm": 12.704297065734863,
5413
+ "learning_rate": 5.0317988760970804e-05,
5414
+ "loss": 1.8636,
5415
+ "step": 770
5416
+ },
5417
+ {
5418
+ "epoch": 0.6692708333333334,
5419
+ "grad_norm": 12.467072486877441,
5420
+ "learning_rate": 5.007943429258073e-05,
5421
+ "loss": 1.8262,
5422
+ "step": 771
5423
+ },
5424
+ {
5425
+ "epoch": 0.6701388888888888,
5426
+ "grad_norm": 16.064525604248047,
5427
+ "learning_rate": 4.9841257610975364e-05,
5428
+ "loss": 1.6718,
5429
+ "step": 772
5430
+ },
5431
+ {
5432
+ "epoch": 0.6710069444444444,
5433
+ "grad_norm": 14.80754566192627,
5434
+ "learning_rate": 4.9603460518618274e-05,
5435
+ "loss": 1.8804,
5436
+ "step": 773
5437
+ },
5438
+ {
5439
+ "epoch": 0.671875,
5440
+ "grad_norm": 13.693035125732422,
5441
+ "learning_rate": 4.936604481510045e-05,
5442
+ "loss": 1.9249,
5443
+ "step": 774
5444
+ },
5445
+ {
5446
+ "epoch": 0.6727430555555556,
5447
+ "grad_norm": 14.119590759277344,
5448
+ "learning_rate": 4.912901229712665e-05,
5449
+ "loss": 1.8726,
5450
+ "step": 775
5451
+ },
5452
+ {
5453
+ "epoch": 0.6736111111111112,
5454
+ "grad_norm": 11.714713096618652,
5455
+ "learning_rate": 4.889236475850169e-05,
5456
+ "loss": 1.9406,
5457
+ "step": 776
5458
+ },
5459
+ {
5460
+ "epoch": 0.6744791666666666,
5461
+ "grad_norm": 13.115860939025879,
5462
+ "learning_rate": 4.865610399011696e-05,
5463
+ "loss": 1.9581,
5464
+ "step": 777
5465
+ },
5466
+ {
5467
+ "epoch": 0.6753472222222222,
5468
+ "grad_norm": 14.199614524841309,
5469
+ "learning_rate": 4.8420231779936885e-05,
5470
+ "loss": 1.964,
5471
+ "step": 778
5472
+ },
5473
+ {
5474
+ "epoch": 0.6762152777777778,
5475
+ "grad_norm": 14.712546348571777,
5476
+ "learning_rate": 4.818474991298541e-05,
5477
+ "loss": 2.0005,
5478
+ "step": 779
5479
+ },
5480
+ {
5481
+ "epoch": 0.6770833333333334,
5482
+ "grad_norm": 14.282362937927246,
5483
+ "learning_rate": 4.7949660171332475e-05,
5484
+ "loss": 1.8183,
5485
+ "step": 780
5486
+ },
5487
+ {
5488
+ "epoch": 0.6779513888888888,
5489
+ "grad_norm": 20.02650260925293,
5490
+ "learning_rate": 4.771496433408043e-05,
5491
+ "loss": 2.0001,
5492
+ "step": 781
5493
+ },
5494
+ {
5495
+ "epoch": 0.6788194444444444,
5496
+ "grad_norm": 16.86726188659668,
5497
+ "learning_rate": 4.748066417735068e-05,
5498
+ "loss": 1.8494,
5499
+ "step": 782
5500
+ },
5501
+ {
5502
+ "epoch": 0.6796875,
5503
+ "grad_norm": 16.731599807739258,
5504
+ "learning_rate": 4.724676147427018e-05,
5505
+ "loss": 2.0999,
5506
+ "step": 783
5507
+ },
5508
+ {
5509
+ "epoch": 0.6805555555555556,
5510
+ "grad_norm": 12.958636283874512,
5511
+ "learning_rate": 4.701325799495817e-05,
5512
+ "loss": 1.9338,
5513
+ "step": 784
5514
+ },
5515
+ {
5516
+ "epoch": 0.6814236111111112,
5517
+ "grad_norm": 16.30995750427246,
5518
+ "learning_rate": 4.678015550651258e-05,
5519
+ "loss": 1.934,
5520
+ "step": 785
5521
+ },
5522
+ {
5523
+ "epoch": 0.6822916666666666,
5524
+ "grad_norm": 15.418025970458984,
5525
+ "learning_rate": 4.654745577299674e-05,
5526
+ "loss": 1.6663,
5527
+ "step": 786
5528
+ },
5529
+ {
5530
+ "epoch": 0.6831597222222222,
5531
+ "grad_norm": 13.731332778930664,
5532
+ "learning_rate": 4.631516055542601e-05,
5533
+ "loss": 1.8579,
5534
+ "step": 787
5535
+ },
5536
+ {
5537
+ "epoch": 0.6840277777777778,
5538
+ "grad_norm": 12.98118782043457,
5539
+ "learning_rate": 4.6083271611754476e-05,
5540
+ "loss": 2.1614,
5541
+ "step": 788
5542
+ },
5543
+ {
5544
+ "epoch": 0.6848958333333334,
5545
+ "grad_norm": 12.849787712097168,
5546
+ "learning_rate": 4.585179069686171e-05,
5547
+ "loss": 1.8389,
5548
+ "step": 789
5549
+ },
5550
+ {
5551
+ "epoch": 0.6857638888888888,
5552
+ "grad_norm": 15.817699432373047,
5553
+ "learning_rate": 4.5620719562539314e-05,
5554
+ "loss": 1.9226,
5555
+ "step": 790
5556
+ },
5557
+ {
5558
+ "epoch": 0.6866319444444444,
5559
+ "grad_norm": 14.717578887939453,
5560
+ "learning_rate": 4.5390059957477904e-05,
5561
+ "loss": 1.8674,
5562
+ "step": 791
5563
+ },
5564
+ {
5565
+ "epoch": 0.6875,
5566
+ "grad_norm": 17.49150276184082,
5567
+ "learning_rate": 4.515981362725361e-05,
5568
+ "loss": 1.8261,
5569
+ "step": 792
5570
+ },
5571
+ {
5572
+ "epoch": 0.6883680555555556,
5573
+ "grad_norm": 19.413713455200195,
5574
+ "learning_rate": 4.4929982314315024e-05,
5575
+ "loss": 1.7202,
5576
+ "step": 793
5577
+ },
5578
+ {
5579
+ "epoch": 0.6892361111111112,
5580
+ "grad_norm": 19.134525299072266,
5581
+ "learning_rate": 4.470056775797008e-05,
5582
+ "loss": 1.9247,
5583
+ "step": 794
5584
+ },
5585
+ {
5586
+ "epoch": 0.6901041666666666,
5587
+ "grad_norm": 16.60801124572754,
5588
+ "learning_rate": 4.447157169437267e-05,
5589
+ "loss": 2.0034,
5590
+ "step": 795
5591
+ },
5592
+ {
5593
+ "epoch": 0.6909722222222222,
5594
+ "grad_norm": 16.824369430541992,
5595
+ "learning_rate": 4.424299585650977e-05,
5596
+ "loss": 1.9362,
5597
+ "step": 796
5598
+ },
5599
+ {
5600
+ "epoch": 0.6918402777777778,
5601
+ "grad_norm": 17.961692810058594,
5602
+ "learning_rate": 4.401484197418807e-05,
5603
+ "loss": 1.8643,
5604
+ "step": 797
5605
+ },
5606
+ {
5607
+ "epoch": 0.6927083333333334,
5608
+ "grad_norm": 21.15089988708496,
5609
+ "learning_rate": 4.3787111774021014e-05,
5610
+ "loss": 1.9506,
5611
+ "step": 798
5612
+ },
5613
+ {
5614
+ "epoch": 0.6935763888888888,
5615
+ "grad_norm": 24.73053550720215,
5616
+ "learning_rate": 4.355980697941584e-05,
5617
+ "loss": 2.0877,
5618
+ "step": 799
5619
+ },
5620
+ {
5621
+ "epoch": 0.6944444444444444,
5622
+ "grad_norm": 34.46087646484375,
5623
+ "learning_rate": 4.3332929310560265e-05,
5624
+ "loss": 1.8522,
5625
+ "step": 800
5626
+ },
5627
+ {
5628
+ "epoch": 0.6953125,
5629
+ "grad_norm": 8.951723098754883,
5630
+ "learning_rate": 4.310648048440975e-05,
5631
+ "loss": 1.9765,
5632
+ "step": 801
5633
+ },
5634
+ {
5635
+ "epoch": 0.6961805555555556,
5636
+ "grad_norm": 8.993708610534668,
5637
+ "learning_rate": 4.2880462214674287e-05,
5638
+ "loss": 1.8379,
5639
+ "step": 802
5640
+ },
5641
+ {
5642
+ "epoch": 0.6970486111111112,
5643
+ "grad_norm": 9.19201946258545,
5644
+ "learning_rate": 4.2654876211805527e-05,
5645
+ "loss": 1.7827,
5646
+ "step": 803
5647
+ },
5648
+ {
5649
+ "epoch": 0.6979166666666666,
5650
+ "grad_norm": 9.752361297607422,
5651
+ "learning_rate": 4.2429724182983935e-05,
5652
+ "loss": 1.7326,
5653
+ "step": 804
5654
+ },
5655
+ {
5656
+ "epoch": 0.6987847222222222,
5657
+ "grad_norm": 11.15304183959961,
5658
+ "learning_rate": 4.220500783210559e-05,
5659
+ "loss": 2.0252,
5660
+ "step": 805
5661
+ },
5662
+ {
5663
+ "epoch": 0.6996527777777778,
5664
+ "grad_norm": 11.194067001342773,
5665
+ "learning_rate": 4.198072885976966e-05,
5666
+ "loss": 1.9484,
5667
+ "step": 806
5668
+ },
5669
+ {
5670
+ "epoch": 0.7005208333333334,
5671
+ "grad_norm": 9.688783645629883,
5672
+ "learning_rate": 4.1756888963265194e-05,
5673
+ "loss": 1.9918,
5674
+ "step": 807
5675
+ },
5676
+ {
5677
+ "epoch": 0.7013888888888888,
5678
+ "grad_norm": 11.591280937194824,
5679
+ "learning_rate": 4.153348983655844e-05,
5680
+ "loss": 1.806,
5681
+ "step": 808
5682
+ },
5683
+ {
5684
+ "epoch": 0.7022569444444444,
5685
+ "grad_norm": 11.173543930053711,
5686
+ "learning_rate": 4.1310533170280084e-05,
5687
+ "loss": 1.8658,
5688
+ "step": 809
5689
+ },
5690
+ {
5691
+ "epoch": 0.703125,
5692
+ "grad_norm": 14.811725616455078,
5693
+ "learning_rate": 4.108802065171229e-05,
5694
+ "loss": 1.8853,
5695
+ "step": 810
5696
+ },
5697
+ {
5698
+ "epoch": 0.7039930555555556,
5699
+ "grad_norm": 15.026256561279297,
5700
+ "learning_rate": 4.086595396477611e-05,
5701
+ "loss": 2.0679,
5702
+ "step": 811
5703
+ },
5704
+ {
5705
+ "epoch": 0.7048611111111112,
5706
+ "grad_norm": 10.38699722290039,
5707
+ "learning_rate": 4.064433479001857e-05,
5708
+ "loss": 1.9456,
5709
+ "step": 812
5710
+ },
5711
+ {
5712
+ "epoch": 0.7057291666666666,
5713
+ "grad_norm": 13.468440055847168,
5714
+ "learning_rate": 4.042316480460001e-05,
5715
+ "loss": 1.9493,
5716
+ "step": 813
5717
+ },
5718
+ {
5719
+ "epoch": 0.7065972222222222,
5720
+ "grad_norm": 15.555776596069336,
5721
+ "learning_rate": 4.020244568228155e-05,
5722
+ "loss": 1.8852,
5723
+ "step": 814
5724
+ },
5725
+ {
5726
+ "epoch": 0.7074652777777778,
5727
+ "grad_norm": 11.897953987121582,
5728
+ "learning_rate": 3.998217909341213e-05,
5729
+ "loss": 2.0327,
5730
+ "step": 815
5731
+ },
5732
+ {
5733
+ "epoch": 0.7083333333333334,
5734
+ "grad_norm": 12.633040428161621,
5735
+ "learning_rate": 3.9762366704916165e-05,
5736
+ "loss": 1.709,
5737
+ "step": 816
5738
+ },
5739
+ {
5740
+ "epoch": 0.7092013888888888,
5741
+ "grad_norm": 12.071878433227539,
5742
+ "learning_rate": 3.954301018028068e-05,
5743
+ "loss": 1.7543,
5744
+ "step": 817
5745
+ },
5746
+ {
5747
+ "epoch": 0.7100694444444444,
5748
+ "grad_norm": 12.684844017028809,
5749
+ "learning_rate": 3.932411117954286e-05,
5750
+ "loss": 1.7642,
5751
+ "step": 818
5752
+ },
5753
+ {
5754
+ "epoch": 0.7109375,
5755
+ "grad_norm": 11.684479713439941,
5756
+ "learning_rate": 3.9105671359277517e-05,
5757
+ "loss": 2.0108,
5758
+ "step": 819
5759
+ },
5760
+ {
5761
+ "epoch": 0.7118055555555556,
5762
+ "grad_norm": 22.061206817626953,
5763
+ "learning_rate": 3.8887692372584405e-05,
5764
+ "loss": 1.6975,
5765
+ "step": 820
5766
+ },
5767
+ {
5768
+ "epoch": 0.7126736111111112,
5769
+ "grad_norm": 13.567614555358887,
5770
+ "learning_rate": 3.867017586907591e-05,
5771
+ "loss": 1.9444,
5772
+ "step": 821
5773
+ },
5774
+ {
5775
+ "epoch": 0.7135416666666666,
5776
+ "grad_norm": 13.34210205078125,
5777
+ "learning_rate": 3.845312349486437e-05,
5778
+ "loss": 1.619,
5779
+ "step": 822
5780
+ },
5781
+ {
5782
+ "epoch": 0.7144097222222222,
5783
+ "grad_norm": 12.922858238220215,
5784
+ "learning_rate": 3.82365368925497e-05,
5785
+ "loss": 1.9284,
5786
+ "step": 823
5787
+ },
5788
+ {
5789
+ "epoch": 0.7152777777777778,
5790
+ "grad_norm": 12.862595558166504,
5791
+ "learning_rate": 3.8020417701207056e-05,
5792
+ "loss": 1.9332,
5793
+ "step": 824
5794
+ },
5795
+ {
5796
+ "epoch": 0.7161458333333334,
5797
+ "grad_norm": 14.289531707763672,
5798
+ "learning_rate": 3.780476755637421e-05,
5799
+ "loss": 1.7273,
5800
+ "step": 825
5801
+ },
5802
+ {
5803
+ "epoch": 0.7170138888888888,
5804
+ "grad_norm": 12.516698837280273,
5805
+ "learning_rate": 3.758958809003945e-05,
5806
+ "loss": 1.9387,
5807
+ "step": 826
5808
+ },
5809
+ {
5810
+ "epoch": 0.7178819444444444,
5811
+ "grad_norm": 14.04725456237793,
5812
+ "learning_rate": 3.7374880930628986e-05,
5813
+ "loss": 1.824,
5814
+ "step": 827
5815
+ },
5816
+ {
5817
+ "epoch": 0.71875,
5818
+ "grad_norm": 13.029735565185547,
5819
+ "learning_rate": 3.71606477029947e-05,
5820
+ "loss": 2.0721,
5821
+ "step": 828
5822
+ },
5823
+ {
5824
+ "epoch": 0.7196180555555556,
5825
+ "grad_norm": 16.414342880249023,
5826
+ "learning_rate": 3.694689002840198e-05,
5827
+ "loss": 2.0021,
5828
+ "step": 829
5829
+ },
5830
+ {
5831
+ "epoch": 0.7204861111111112,
5832
+ "grad_norm": 15.33515739440918,
5833
+ "learning_rate": 3.673360952451722e-05,
5834
+ "loss": 2.2091,
5835
+ "step": 830
5836
+ },
5837
+ {
5838
+ "epoch": 0.7213541666666666,
5839
+ "grad_norm": 13.48131275177002,
5840
+ "learning_rate": 3.652080780539584e-05,
5841
+ "loss": 1.8521,
5842
+ "step": 831
5843
+ },
5844
+ {
5845
+ "epoch": 0.7222222222222222,
5846
+ "grad_norm": 13.361886024475098,
5847
+ "learning_rate": 3.6308486481469805e-05,
5848
+ "loss": 2.0773,
5849
+ "step": 832
5850
+ },
5851
+ {
5852
+ "epoch": 0.7230902777777778,
5853
+ "grad_norm": 11.877111434936523,
5854
+ "learning_rate": 3.609664715953559e-05,
5855
+ "loss": 2.1115,
5856
+ "step": 833
5857
+ },
5858
+ {
5859
+ "epoch": 0.7239583333333334,
5860
+ "grad_norm": 12.948386192321777,
5861
+ "learning_rate": 3.5885291442742084e-05,
5862
+ "loss": 1.9481,
5863
+ "step": 834
5864
+ },
5865
+ {
5866
+ "epoch": 0.7248263888888888,
5867
+ "grad_norm": 16.159982681274414,
5868
+ "learning_rate": 3.567442093057825e-05,
5869
+ "loss": 1.9765,
5870
+ "step": 835
5871
+ },
5872
+ {
5873
+ "epoch": 0.7256944444444444,
5874
+ "grad_norm": 14.263628005981445,
5875
+ "learning_rate": 3.546403721886126e-05,
5876
+ "loss": 2.0117,
5877
+ "step": 836
5878
+ },
5879
+ {
5880
+ "epoch": 0.7265625,
5881
+ "grad_norm": 16.48017120361328,
5882
+ "learning_rate": 3.5254141899724194e-05,
5883
+ "loss": 1.8066,
5884
+ "step": 837
5885
+ },
5886
+ {
5887
+ "epoch": 0.7274305555555556,
5888
+ "grad_norm": 13.726114273071289,
5889
+ "learning_rate": 3.50447365616041e-05,
5890
+ "loss": 2.1094,
5891
+ "step": 838
5892
+ },
5893
+ {
5894
+ "epoch": 0.7282986111111112,
5895
+ "grad_norm": 14.276023864746094,
5896
+ "learning_rate": 3.483582278923007e-05,
5897
+ "loss": 1.8664,
5898
+ "step": 839
5899
+ },
5900
+ {
5901
+ "epoch": 0.7291666666666666,
5902
+ "grad_norm": 18.12653923034668,
5903
+ "learning_rate": 3.462740216361101e-05,
5904
+ "loss": 1.8786,
5905
+ "step": 840
5906
+ },
5907
+ {
5908
+ "epoch": 0.7300347222222222,
5909
+ "grad_norm": 21.137271881103516,
5910
+ "learning_rate": 3.4419476262023956e-05,
5911
+ "loss": 1.8441,
5912
+ "step": 841
5913
+ },
5914
+ {
5915
+ "epoch": 0.7309027777777778,
5916
+ "grad_norm": 17.655916213989258,
5917
+ "learning_rate": 3.421204665800186e-05,
5918
+ "loss": 1.8011,
5919
+ "step": 842
5920
+ },
5921
+ {
5922
+ "epoch": 0.7317708333333334,
5923
+ "grad_norm": 18.322494506835938,
5924
+ "learning_rate": 3.400511492132186e-05,
5925
+ "loss": 1.8712,
5926
+ "step": 843
5927
+ },
5928
+ {
5929
+ "epoch": 0.7326388888888888,
5930
+ "grad_norm": 17.434764862060547,
5931
+ "learning_rate": 3.3798682617993405e-05,
5932
+ "loss": 2.154,
5933
+ "step": 844
5934
+ },
5935
+ {
5936
+ "epoch": 0.7335069444444444,
5937
+ "grad_norm": 19.5579891204834,
5938
+ "learning_rate": 3.359275131024625e-05,
5939
+ "loss": 1.9943,
5940
+ "step": 845
5941
+ },
5942
+ {
5943
+ "epoch": 0.734375,
5944
+ "grad_norm": 17.29096794128418,
5945
+ "learning_rate": 3.338732255651887e-05,
5946
+ "loss": 1.9581,
5947
+ "step": 846
5948
+ },
5949
+ {
5950
+ "epoch": 0.7352430555555556,
5951
+ "grad_norm": 18.496713638305664,
5952
+ "learning_rate": 3.3182397911446436e-05,
5953
+ "loss": 2.2199,
5954
+ "step": 847
5955
+ },
5956
+ {
5957
+ "epoch": 0.7361111111111112,
5958
+ "grad_norm": 18.556528091430664,
5959
+ "learning_rate": 3.297797892584912e-05,
5960
+ "loss": 1.9854,
5961
+ "step": 848
5962
+ },
5963
+ {
5964
+ "epoch": 0.7369791666666666,
5965
+ "grad_norm": 25.773399353027344,
5966
+ "learning_rate": 3.277406714672049e-05,
5967
+ "loss": 1.9984,
5968
+ "step": 849
5969
+ },
5970
+ {
5971
+ "epoch": 0.7378472222222222,
5972
+ "grad_norm": 25.727313995361328,
5973
+ "learning_rate": 3.25706641172156e-05,
5974
+ "loss": 2.1087,
5975
+ "step": 850
5976
+ },
5977
+ {
5978
+ "epoch": 0.7387152777777778,
5979
+ "grad_norm": 7.924264907836914,
5980
+ "learning_rate": 3.236777137663951e-05,
5981
+ "loss": 1.934,
5982
+ "step": 851
5983
+ },
5984
+ {
5985
+ "epoch": 0.7395833333333334,
5986
+ "grad_norm": 9.656967163085938,
5987
+ "learning_rate": 3.216539046043544e-05,
5988
+ "loss": 1.9493,
5989
+ "step": 852
5990
+ },
5991
+ {
5992
+ "epoch": 0.7404513888888888,
5993
+ "grad_norm": 11.180512428283691,
5994
+ "learning_rate": 3.1963522900173294e-05,
5995
+ "loss": 1.757,
5996
+ "step": 853
5997
+ },
5998
+ {
5999
+ "epoch": 0.7413194444444444,
6000
+ "grad_norm": 10.119717597961426,
6001
+ "learning_rate": 3.176217022353798e-05,
6002
+ "loss": 1.8852,
6003
+ "step": 854
6004
+ },
6005
+ {
6006
+ "epoch": 0.7421875,
6007
+ "grad_norm": 9.676684379577637,
6008
+ "learning_rate": 3.156133395431795e-05,
6009
+ "loss": 1.9624,
6010
+ "step": 855
6011
+ },
6012
+ {
6013
+ "epoch": 0.7430555555555556,
6014
+ "grad_norm": 11.20287799835205,
6015
+ "learning_rate": 3.136101561239363e-05,
6016
+ "loss": 1.9457,
6017
+ "step": 856
6018
+ },
6019
+ {
6020
+ "epoch": 0.7439236111111112,
6021
+ "grad_norm": 11.181528091430664,
6022
+ "learning_rate": 3.116121671372582e-05,
6023
+ "loss": 1.7557,
6024
+ "step": 857
6025
+ },
6026
+ {
6027
+ "epoch": 0.7447916666666666,
6028
+ "grad_norm": 10.499610900878906,
6029
+ "learning_rate": 3.09619387703443e-05,
6030
+ "loss": 1.9088,
6031
+ "step": 858
6032
+ },
6033
+ {
6034
+ "epoch": 0.7456597222222222,
6035
+ "grad_norm": 11.516838073730469,
6036
+ "learning_rate": 3.076318329033643e-05,
6037
+ "loss": 1.8707,
6038
+ "step": 859
6039
+ },
6040
+ {
6041
+ "epoch": 0.7465277777777778,
6042
+ "grad_norm": 10.864989280700684,
6043
+ "learning_rate": 3.056495177783567e-05,
6044
+ "loss": 1.8237,
6045
+ "step": 860
6046
+ },
6047
+ {
6048
+ "epoch": 0.7473958333333334,
6049
+ "grad_norm": 11.022418022155762,
6050
+ "learning_rate": 3.0367245733010298e-05,
6051
+ "loss": 1.8337,
6052
+ "step": 861
6053
+ },
6054
+ {
6055
+ "epoch": 0.7482638888888888,
6056
+ "grad_norm": 11.150386810302734,
6057
+ "learning_rate": 3.0170066652051866e-05,
6058
+ "loss": 1.7956,
6059
+ "step": 862
6060
+ },
6061
+ {
6062
+ "epoch": 0.7491319444444444,
6063
+ "grad_norm": 13.350703239440918,
6064
+ "learning_rate": 2.9973416027164025e-05,
6065
+ "loss": 2.0799,
6066
+ "step": 863
6067
+ },
6068
+ {
6069
+ "epoch": 0.75,
6070
+ "grad_norm": 11.85857105255127,
6071
+ "learning_rate": 2.9777295346551194e-05,
6072
+ "loss": 1.8546,
6073
+ "step": 864
6074
+ },
6075
+ {
6076
+ "epoch": 0.75,
6077
+ "eval_loss": 1.9340541362762451,
6078
+ "eval_runtime": 27.3912,
6079
+ "eval_samples_per_second": 17.706,
6080
+ "eval_steps_per_second": 8.871,
6081
+ "step": 864
6082
  }
6083
  ],
6084
  "logging_steps": 1,
 
6098
  "attributes": {}
6099
  }
6100
  },
6101
+ "total_flos": 3.0286133901184205e+17,
6102
  "train_batch_size": 2,
6103
  "trial_name": null,
6104
  "trial_params": null