fats-fme commited on
Commit
b3dd5e7
·
verified ·
1 Parent(s): e003ada

Training in progress, step 1011, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9e2f868768643e63b1d7a65f62a683737c0cb42fc3a7e7aa914e5c6bb57cce80
3
  size 159967880
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b662b0fc7aac68525d0f688f390c8ad9870852fbf2dd6cb97fbfc1ece7c5d598
3
  size 159967880
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a2c9c33751a6941a98625792b02e771593f141d2b81cd4149ce69165d7ab461a
3
  size 320194002
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b7f474172a83fcd8820c4f98277a6048b8181d77934e81481cd77060814392c6
3
  size 320194002
last-checkpoint/rng_state_0.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e4ab2a36fb66154965e15dcff0d99905b1f18e4e3436d5568b511d66e53588bd
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:58265f7d6bfa2f240115921535bdab2d9168829e78e7fcd7bbfd4c601b33fc1e
3
  size 14512
last-checkpoint/rng_state_1.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:74e993a680332c36b37bae068bddbf5a812b863194bf5bf858fa9f3c5e37e846
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7d3366f225c3d2f610762730db695898cfa0429711eba5664413a852bccb0150
3
  size 14512
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:40f5d075ff4333bff1c0384fd6c0fb60736f3a4770555b3863e38e7569ae94be
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7d2ae9412584d60dfb3a14dc71755f8ba52a5c928738cf6019a6761ddc1e1565
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.500556999628667,
5
  "eval_steps": 337,
6
- "global_step": 674,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4749,6 +4749,2373 @@
4749
  "eval_samples_per_second": 5.949,
4750
  "eval_steps_per_second": 2.975,
4751
  "step": 674
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4752
  }
4753
  ],
4754
  "logging_steps": 1,
@@ -4768,7 +7135,7 @@
4768
  "attributes": {}
4769
  }
4770
  },
4771
- "total_flos": 8.808703405892567e+17,
4772
  "train_batch_size": 1,
4773
  "trial_name": null,
4774
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.7508354994430003,
5
  "eval_steps": 337,
6
+ "global_step": 1011,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4749
  "eval_samples_per_second": 5.949,
4750
  "eval_steps_per_second": 2.975,
4751
  "step": 674
4752
+ },
4753
+ {
4754
+ "epoch": 0.5012996658002228,
4755
+ "grad_norm": 0.0007262330618686974,
4756
+ "learning_rate": 5.2786234659122726e-05,
4757
+ "loss": 0.0001,
4758
+ "step": 675
4759
+ },
4760
+ {
4761
+ "epoch": 0.5020423319717787,
4762
+ "grad_norm": 0.007732240483164787,
4763
+ "learning_rate": 5.266521150051492e-05,
4764
+ "loss": 0.0003,
4765
+ "step": 676
4766
+ },
4767
+ {
4768
+ "epoch": 0.5027849981433345,
4769
+ "grad_norm": 0.0026611273642629385,
4770
+ "learning_rate": 5.254417268084514e-05,
4771
+ "loss": 0.0001,
4772
+ "step": 677
4773
+ },
4774
+ {
4775
+ "epoch": 0.5035276643148905,
4776
+ "grad_norm": 0.00148585916031152,
4777
+ "learning_rate": 5.242311891135016e-05,
4778
+ "loss": 0.0002,
4779
+ "step": 678
4780
+ },
4781
+ {
4782
+ "epoch": 0.5042703304864463,
4783
+ "grad_norm": 0.0006069787195883691,
4784
+ "learning_rate": 5.2302050903354606e-05,
4785
+ "loss": 0.0001,
4786
+ "step": 679
4787
+ },
4788
+ {
4789
+ "epoch": 0.5050129966580023,
4790
+ "grad_norm": 0.002375812502577901,
4791
+ "learning_rate": 5.218096936826681e-05,
4792
+ "loss": 0.0002,
4793
+ "step": 680
4794
+ },
4795
+ {
4796
+ "epoch": 0.5057556628295581,
4797
+ "grad_norm": 0.003138911910355091,
4798
+ "learning_rate": 5.205987501757452e-05,
4799
+ "loss": 0.0002,
4800
+ "step": 681
4801
+ },
4802
+ {
4803
+ "epoch": 0.506498329001114,
4804
+ "grad_norm": 0.001015645801089704,
4805
+ "learning_rate": 5.193876856284085e-05,
4806
+ "loss": 0.0001,
4807
+ "step": 682
4808
+ },
4809
+ {
4810
+ "epoch": 0.5072409951726699,
4811
+ "grad_norm": 0.005205164197832346,
4812
+ "learning_rate": 5.1817650715699994e-05,
4813
+ "loss": 0.0002,
4814
+ "step": 683
4815
+ },
4816
+ {
4817
+ "epoch": 0.5079836613442258,
4818
+ "grad_norm": 0.0015316219069063663,
4819
+ "learning_rate": 5.1696522187853126e-05,
4820
+ "loss": 0.0002,
4821
+ "step": 684
4822
+ },
4823
+ {
4824
+ "epoch": 0.5087263275157816,
4825
+ "grad_norm": 0.0026633795350790024,
4826
+ "learning_rate": 5.157538369106414e-05,
4827
+ "loss": 0.0002,
4828
+ "step": 685
4829
+ },
4830
+ {
4831
+ "epoch": 0.5094689936873376,
4832
+ "grad_norm": 0.0016374588012695312,
4833
+ "learning_rate": 5.145423593715557e-05,
4834
+ "loss": 0.0001,
4835
+ "step": 686
4836
+ },
4837
+ {
4838
+ "epoch": 0.5102116598588934,
4839
+ "grad_norm": 0.002312192926183343,
4840
+ "learning_rate": 5.133307963800429e-05,
4841
+ "loss": 0.0002,
4842
+ "step": 687
4843
+ },
4844
+ {
4845
+ "epoch": 0.5109543260304493,
4846
+ "grad_norm": 0.004305702168494463,
4847
+ "learning_rate": 5.121191550553741e-05,
4848
+ "loss": 0.0002,
4849
+ "step": 688
4850
+ },
4851
+ {
4852
+ "epoch": 0.5116969922020052,
4853
+ "grad_norm": 0.005227786023169756,
4854
+ "learning_rate": 5.1090744251728064e-05,
4855
+ "loss": 0.0002,
4856
+ "step": 689
4857
+ },
4858
+ {
4859
+ "epoch": 0.5124396583735611,
4860
+ "grad_norm": 0.0004952704184688628,
4861
+ "learning_rate": 5.096956658859122e-05,
4862
+ "loss": 0.0001,
4863
+ "step": 690
4864
+ },
4865
+ {
4866
+ "epoch": 0.5131823245451169,
4867
+ "grad_norm": 0.0006610776763409376,
4868
+ "learning_rate": 5.084838322817954e-05,
4869
+ "loss": 0.0001,
4870
+ "step": 691
4871
+ },
4872
+ {
4873
+ "epoch": 0.5139249907166729,
4874
+ "grad_norm": 0.002141596982255578,
4875
+ "learning_rate": 5.072719488257914e-05,
4876
+ "loss": 0.0002,
4877
+ "step": 692
4878
+ },
4879
+ {
4880
+ "epoch": 0.5146676568882287,
4881
+ "grad_norm": 0.0008098665275610983,
4882
+ "learning_rate": 5.060600226390543e-05,
4883
+ "loss": 0.0001,
4884
+ "step": 693
4885
+ },
4886
+ {
4887
+ "epoch": 0.5154103230597846,
4888
+ "grad_norm": 0.0018381529953330755,
4889
+ "learning_rate": 5.048480608429893e-05,
4890
+ "loss": 0.0001,
4891
+ "step": 694
4892
+ },
4893
+ {
4894
+ "epoch": 0.5161529892313406,
4895
+ "grad_norm": 0.0011757278116419911,
4896
+ "learning_rate": 5.0363607055921094e-05,
4897
+ "loss": 0.0002,
4898
+ "step": 695
4899
+ },
4900
+ {
4901
+ "epoch": 0.5168956554028964,
4902
+ "grad_norm": 0.00043161376379430294,
4903
+ "learning_rate": 5.0242405890950093e-05,
4904
+ "loss": 0.0001,
4905
+ "step": 696
4906
+ },
4907
+ {
4908
+ "epoch": 0.5176383215744523,
4909
+ "grad_norm": 0.0008273344719782472,
4910
+ "learning_rate": 5.01212033015767e-05,
4911
+ "loss": 0.0001,
4912
+ "step": 697
4913
+ },
4914
+ {
4915
+ "epoch": 0.5183809877460082,
4916
+ "grad_norm": 0.0035381957422941923,
4917
+ "learning_rate": 5e-05,
4918
+ "loss": 0.0002,
4919
+ "step": 698
4920
+ },
4921
+ {
4922
+ "epoch": 0.5191236539175641,
4923
+ "grad_norm": 0.0015232819132506847,
4924
+ "learning_rate": 4.9878796698423324e-05,
4925
+ "loss": 0.0001,
4926
+ "step": 699
4927
+ },
4928
+ {
4929
+ "epoch": 0.5198663200891199,
4930
+ "grad_norm": 0.0007589098531752825,
4931
+ "learning_rate": 4.975759410904992e-05,
4932
+ "loss": 0.0001,
4933
+ "step": 700
4934
+ },
4935
+ {
4936
+ "epoch": 0.5206089862606759,
4937
+ "grad_norm": 0.0017526590963825583,
4938
+ "learning_rate": 4.963639294407893e-05,
4939
+ "loss": 0.0001,
4940
+ "step": 701
4941
+ },
4942
+ {
4943
+ "epoch": 0.5213516524322317,
4944
+ "grad_norm": 0.0024000522680580616,
4945
+ "learning_rate": 4.951519391570108e-05,
4946
+ "loss": 0.0001,
4947
+ "step": 702
4948
+ },
4949
+ {
4950
+ "epoch": 0.5220943186037876,
4951
+ "grad_norm": 0.027467429637908936,
4952
+ "learning_rate": 4.9393997736094596e-05,
4953
+ "loss": 0.0002,
4954
+ "step": 703
4955
+ },
4956
+ {
4957
+ "epoch": 0.5228369847753435,
4958
+ "grad_norm": 0.000491057347971946,
4959
+ "learning_rate": 4.9272805117420865e-05,
4960
+ "loss": 0.0001,
4961
+ "step": 704
4962
+ },
4963
+ {
4964
+ "epoch": 0.5235796509468994,
4965
+ "grad_norm": 0.0012586608063429594,
4966
+ "learning_rate": 4.915161677182048e-05,
4967
+ "loss": 0.0001,
4968
+ "step": 705
4969
+ },
4970
+ {
4971
+ "epoch": 0.5243223171184552,
4972
+ "grad_norm": 0.0025400435552001,
4973
+ "learning_rate": 4.903043341140879e-05,
4974
+ "loss": 0.0001,
4975
+ "step": 706
4976
+ },
4977
+ {
4978
+ "epoch": 0.5250649832900112,
4979
+ "grad_norm": 0.0027627914678305387,
4980
+ "learning_rate": 4.890925574827195e-05,
4981
+ "loss": 0.0002,
4982
+ "step": 707
4983
+ },
4984
+ {
4985
+ "epoch": 0.525807649461567,
4986
+ "grad_norm": 0.0010417604353278875,
4987
+ "learning_rate": 4.878808449446259e-05,
4988
+ "loss": 0.0001,
4989
+ "step": 708
4990
+ },
4991
+ {
4992
+ "epoch": 0.5265503156331229,
4993
+ "grad_norm": 0.0006638254853896797,
4994
+ "learning_rate": 4.866692036199572e-05,
4995
+ "loss": 0.0001,
4996
+ "step": 709
4997
+ },
4998
+ {
4999
+ "epoch": 0.5272929818046788,
5000
+ "grad_norm": 0.0013286214089021087,
5001
+ "learning_rate": 4.854576406284443e-05,
5002
+ "loss": 0.0001,
5003
+ "step": 710
5004
+ },
5005
+ {
5006
+ "epoch": 0.5280356479762347,
5007
+ "grad_norm": 0.004056660924106836,
5008
+ "learning_rate": 4.8424616308935875e-05,
5009
+ "loss": 0.0001,
5010
+ "step": 711
5011
+ },
5012
+ {
5013
+ "epoch": 0.5287783141477905,
5014
+ "grad_norm": 0.0007322711171582341,
5015
+ "learning_rate": 4.830347781214689e-05,
5016
+ "loss": 0.0001,
5017
+ "step": 712
5018
+ },
5019
+ {
5020
+ "epoch": 0.5295209803193465,
5021
+ "grad_norm": 0.004066810943186283,
5022
+ "learning_rate": 4.8182349284300024e-05,
5023
+ "loss": 0.0002,
5024
+ "step": 713
5025
+ },
5026
+ {
5027
+ "epoch": 0.5302636464909023,
5028
+ "grad_norm": 0.0007455990416929126,
5029
+ "learning_rate": 4.806123143715916e-05,
5030
+ "loss": 0.0001,
5031
+ "step": 714
5032
+ },
5033
+ {
5034
+ "epoch": 0.5310063126624582,
5035
+ "grad_norm": 0.0005849769804626703,
5036
+ "learning_rate": 4.7940124982425497e-05,
5037
+ "loss": 0.0001,
5038
+ "step": 715
5039
+ },
5040
+ {
5041
+ "epoch": 0.5317489788340141,
5042
+ "grad_norm": 0.0005887853913009167,
5043
+ "learning_rate": 4.781903063173321e-05,
5044
+ "loss": 0.0001,
5045
+ "step": 716
5046
+ },
5047
+ {
5048
+ "epoch": 0.53249164500557,
5049
+ "grad_norm": 0.0007402475457638502,
5050
+ "learning_rate": 4.76979490966454e-05,
5051
+ "loss": 0.0001,
5052
+ "step": 717
5053
+ },
5054
+ {
5055
+ "epoch": 0.5332343111771258,
5056
+ "grad_norm": 0.0029941131360828876,
5057
+ "learning_rate": 4.757688108864986e-05,
5058
+ "loss": 0.0002,
5059
+ "step": 718
5060
+ },
5061
+ {
5062
+ "epoch": 0.5339769773486818,
5063
+ "grad_norm": 0.0025099741760641336,
5064
+ "learning_rate": 4.7455827319154873e-05,
5065
+ "loss": 0.0002,
5066
+ "step": 719
5067
+ },
5068
+ {
5069
+ "epoch": 0.5347196435202377,
5070
+ "grad_norm": 0.0005227324436418712,
5071
+ "learning_rate": 4.73347884994851e-05,
5072
+ "loss": 0.0001,
5073
+ "step": 720
5074
+ },
5075
+ {
5076
+ "epoch": 0.5354623096917935,
5077
+ "grad_norm": 0.0016509697306901217,
5078
+ "learning_rate": 4.7213765340877286e-05,
5079
+ "loss": 0.0001,
5080
+ "step": 721
5081
+ },
5082
+ {
5083
+ "epoch": 0.5362049758633495,
5084
+ "grad_norm": 0.0011602011509239674,
5085
+ "learning_rate": 4.709275855447621e-05,
5086
+ "loss": 0.0001,
5087
+ "step": 722
5088
+ },
5089
+ {
5090
+ "epoch": 0.5369476420349053,
5091
+ "grad_norm": 0.0008615905535407364,
5092
+ "learning_rate": 4.697176885133042e-05,
5093
+ "loss": 0.0001,
5094
+ "step": 723
5095
+ },
5096
+ {
5097
+ "epoch": 0.5376903082064612,
5098
+ "grad_norm": 0.005168153438717127,
5099
+ "learning_rate": 4.6850796942388106e-05,
5100
+ "loss": 0.0002,
5101
+ "step": 724
5102
+ },
5103
+ {
5104
+ "epoch": 0.5384329743780171,
5105
+ "grad_norm": 0.0014478538651019335,
5106
+ "learning_rate": 4.6729843538492847e-05,
5107
+ "loss": 0.0001,
5108
+ "step": 725
5109
+ },
5110
+ {
5111
+ "epoch": 0.539175640549573,
5112
+ "grad_norm": 0.8397618532180786,
5113
+ "learning_rate": 4.660890935037954e-05,
5114
+ "loss": 0.013,
5115
+ "step": 726
5116
+ },
5117
+ {
5118
+ "epoch": 0.5399183067211288,
5119
+ "grad_norm": 0.0026152590289711952,
5120
+ "learning_rate": 4.648799508867012e-05,
5121
+ "loss": 0.0002,
5122
+ "step": 727
5123
+ },
5124
+ {
5125
+ "epoch": 0.5406609728926848,
5126
+ "grad_norm": 0.007058785296976566,
5127
+ "learning_rate": 4.636710146386947e-05,
5128
+ "loss": 0.0002,
5129
+ "step": 728
5130
+ },
5131
+ {
5132
+ "epoch": 0.5414036390642406,
5133
+ "grad_norm": 0.00043141836067661643,
5134
+ "learning_rate": 4.6246229186361184e-05,
5135
+ "loss": 0.0001,
5136
+ "step": 729
5137
+ },
5138
+ {
5139
+ "epoch": 0.5421463052357965,
5140
+ "grad_norm": 0.0015156837180256844,
5141
+ "learning_rate": 4.612537896640346e-05,
5142
+ "loss": 0.0002,
5143
+ "step": 730
5144
+ },
5145
+ {
5146
+ "epoch": 0.5428889714073524,
5147
+ "grad_norm": 0.0005109444609843194,
5148
+ "learning_rate": 4.600455151412482e-05,
5149
+ "loss": 0.0001,
5150
+ "step": 731
5151
+ },
5152
+ {
5153
+ "epoch": 0.5436316375789083,
5154
+ "grad_norm": 0.0052424585446715355,
5155
+ "learning_rate": 4.588374753952001e-05,
5156
+ "loss": 0.0003,
5157
+ "step": 732
5158
+ },
5159
+ {
5160
+ "epoch": 0.5443743037504641,
5161
+ "grad_norm": 0.0008050160249695182,
5162
+ "learning_rate": 4.576296775244588e-05,
5163
+ "loss": 0.0001,
5164
+ "step": 733
5165
+ },
5166
+ {
5167
+ "epoch": 0.5451169699220201,
5168
+ "grad_norm": 0.0020469501614570618,
5169
+ "learning_rate": 4.564221286261709e-05,
5170
+ "loss": 0.0002,
5171
+ "step": 734
5172
+ },
5173
+ {
5174
+ "epoch": 0.5458596360935759,
5175
+ "grad_norm": 0.000345387845300138,
5176
+ "learning_rate": 4.552148357960205e-05,
5177
+ "loss": 0.0001,
5178
+ "step": 735
5179
+ },
5180
+ {
5181
+ "epoch": 0.5466023022651318,
5182
+ "grad_norm": 0.002280315151438117,
5183
+ "learning_rate": 4.5400780612818626e-05,
5184
+ "loss": 0.0002,
5185
+ "step": 736
5186
+ },
5187
+ {
5188
+ "epoch": 0.5473449684366877,
5189
+ "grad_norm": 0.0018161894986405969,
5190
+ "learning_rate": 4.528010467153016e-05,
5191
+ "loss": 0.0002,
5192
+ "step": 737
5193
+ },
5194
+ {
5195
+ "epoch": 0.5480876346082436,
5196
+ "grad_norm": 0.0008220197050832212,
5197
+ "learning_rate": 4.515945646484105e-05,
5198
+ "loss": 0.0001,
5199
+ "step": 738
5200
+ },
5201
+ {
5202
+ "epoch": 0.5488303007797994,
5203
+ "grad_norm": 0.000890806782990694,
5204
+ "learning_rate": 4.503883670169285e-05,
5205
+ "loss": 0.0001,
5206
+ "step": 739
5207
+ },
5208
+ {
5209
+ "epoch": 0.5495729669513554,
5210
+ "grad_norm": 0.0015704066026955843,
5211
+ "learning_rate": 4.491824609085991e-05,
5212
+ "loss": 0.0002,
5213
+ "step": 740
5214
+ },
5215
+ {
5216
+ "epoch": 0.5503156331229112,
5217
+ "grad_norm": 0.003599775955080986,
5218
+ "learning_rate": 4.4797685340945295e-05,
5219
+ "loss": 0.0002,
5220
+ "step": 741
5221
+ },
5222
+ {
5223
+ "epoch": 0.5510582992944671,
5224
+ "grad_norm": 0.0044060661457479,
5225
+ "learning_rate": 4.467715516037659e-05,
5226
+ "loss": 0.0002,
5227
+ "step": 742
5228
+ },
5229
+ {
5230
+ "epoch": 0.551800965466023,
5231
+ "grad_norm": 0.0007429459365084767,
5232
+ "learning_rate": 4.4556656257401786e-05,
5233
+ "loss": 0.0001,
5234
+ "step": 743
5235
+ },
5236
+ {
5237
+ "epoch": 0.5525436316375789,
5238
+ "grad_norm": 0.0007204132853075862,
5239
+ "learning_rate": 4.443618934008502e-05,
5240
+ "loss": 0.0001,
5241
+ "step": 744
5242
+ },
5243
+ {
5244
+ "epoch": 0.5532862978091347,
5245
+ "grad_norm": 0.05012976750731468,
5246
+ "learning_rate": 4.4315755116302554e-05,
5247
+ "loss": 0.0007,
5248
+ "step": 745
5249
+ },
5250
+ {
5251
+ "epoch": 0.5540289639806907,
5252
+ "grad_norm": 0.0010998403886333108,
5253
+ "learning_rate": 4.4195354293738484e-05,
5254
+ "loss": 0.0001,
5255
+ "step": 746
5256
+ },
5257
+ {
5258
+ "epoch": 0.5547716301522466,
5259
+ "grad_norm": 0.0022817838471382856,
5260
+ "learning_rate": 4.4074987579880685e-05,
5261
+ "loss": 0.0002,
5262
+ "step": 747
5263
+ },
5264
+ {
5265
+ "epoch": 0.5555142963238024,
5266
+ "grad_norm": 0.009643745608627796,
5267
+ "learning_rate": 4.395465568201655e-05,
5268
+ "loss": 0.0005,
5269
+ "step": 748
5270
+ },
5271
+ {
5272
+ "epoch": 0.5562569624953584,
5273
+ "grad_norm": 0.0010438463650643826,
5274
+ "learning_rate": 4.38343593072289e-05,
5275
+ "loss": 0.0001,
5276
+ "step": 749
5277
+ },
5278
+ {
5279
+ "epoch": 0.5569996286669142,
5280
+ "grad_norm": 0.0021892802324146032,
5281
+ "learning_rate": 4.3714099162391875e-05,
5282
+ "loss": 0.0001,
5283
+ "step": 750
5284
+ },
5285
+ {
5286
+ "epoch": 0.5577422948384702,
5287
+ "grad_norm": 0.04245134815573692,
5288
+ "learning_rate": 4.359387595416665e-05,
5289
+ "loss": 0.001,
5290
+ "step": 751
5291
+ },
5292
+ {
5293
+ "epoch": 0.558484961010026,
5294
+ "grad_norm": 0.001306456862948835,
5295
+ "learning_rate": 4.347369038899744e-05,
5296
+ "loss": 0.0001,
5297
+ "step": 752
5298
+ },
5299
+ {
5300
+ "epoch": 0.5592276271815819,
5301
+ "grad_norm": 0.0017448252765461802,
5302
+ "learning_rate": 4.335354317310715e-05,
5303
+ "loss": 0.0001,
5304
+ "step": 753
5305
+ },
5306
+ {
5307
+ "epoch": 0.5599702933531377,
5308
+ "grad_norm": 0.014149321243166924,
5309
+ "learning_rate": 4.323343501249346e-05,
5310
+ "loss": 0.0002,
5311
+ "step": 754
5312
+ },
5313
+ {
5314
+ "epoch": 0.5607129595246937,
5315
+ "grad_norm": 0.0010777488350868225,
5316
+ "learning_rate": 4.3113366612924465e-05,
5317
+ "loss": 0.0001,
5318
+ "step": 755
5319
+ },
5320
+ {
5321
+ "epoch": 0.5614556256962495,
5322
+ "grad_norm": 0.0005878026131540537,
5323
+ "learning_rate": 4.299333867993469e-05,
5324
+ "loss": 0.0001,
5325
+ "step": 756
5326
+ },
5327
+ {
5328
+ "epoch": 0.5621982918678055,
5329
+ "grad_norm": 0.004690335597842932,
5330
+ "learning_rate": 4.287335191882083e-05,
5331
+ "loss": 0.0003,
5332
+ "step": 757
5333
+ },
5334
+ {
5335
+ "epoch": 0.5629409580393613,
5336
+ "grad_norm": 0.002779589965939522,
5337
+ "learning_rate": 4.275340703463767e-05,
5338
+ "loss": 0.0002,
5339
+ "step": 758
5340
+ },
5341
+ {
5342
+ "epoch": 0.5636836242109172,
5343
+ "grad_norm": 0.01008251216262579,
5344
+ "learning_rate": 4.2633504732193896e-05,
5345
+ "loss": 0.0003,
5346
+ "step": 759
5347
+ },
5348
+ {
5349
+ "epoch": 0.564426290382473,
5350
+ "grad_norm": 0.0012684455141425133,
5351
+ "learning_rate": 4.2513645716048025e-05,
5352
+ "loss": 0.0002,
5353
+ "step": 760
5354
+ },
5355
+ {
5356
+ "epoch": 0.565168956554029,
5357
+ "grad_norm": 0.0006100367172621191,
5358
+ "learning_rate": 4.239383069050417e-05,
5359
+ "loss": 0.0001,
5360
+ "step": 761
5361
+ },
5362
+ {
5363
+ "epoch": 0.5659116227255848,
5364
+ "grad_norm": 0.0015486053889617324,
5365
+ "learning_rate": 4.227406035960798e-05,
5366
+ "loss": 0.0001,
5367
+ "step": 762
5368
+ },
5369
+ {
5370
+ "epoch": 0.5666542888971408,
5371
+ "grad_norm": 0.0052903578616678715,
5372
+ "learning_rate": 4.215433542714248e-05,
5373
+ "loss": 0.0003,
5374
+ "step": 763
5375
+ },
5376
+ {
5377
+ "epoch": 0.5673969550686966,
5378
+ "grad_norm": 0.005356297362595797,
5379
+ "learning_rate": 4.203465659662388e-05,
5380
+ "loss": 0.0002,
5381
+ "step": 764
5382
+ },
5383
+ {
5384
+ "epoch": 0.5681396212402525,
5385
+ "grad_norm": 0.003509636502712965,
5386
+ "learning_rate": 4.191502457129756e-05,
5387
+ "loss": 0.0001,
5388
+ "step": 765
5389
+ },
5390
+ {
5391
+ "epoch": 0.5688822874118084,
5392
+ "grad_norm": 0.013686946593225002,
5393
+ "learning_rate": 4.17954400541338e-05,
5394
+ "loss": 0.0004,
5395
+ "step": 766
5396
+ },
5397
+ {
5398
+ "epoch": 0.5696249535833643,
5399
+ "grad_norm": 0.0035359973553568125,
5400
+ "learning_rate": 4.16759037478238e-05,
5401
+ "loss": 0.0002,
5402
+ "step": 767
5403
+ },
5404
+ {
5405
+ "epoch": 0.5703676197549201,
5406
+ "grad_norm": 0.0006897081038914621,
5407
+ "learning_rate": 4.1556416354775364e-05,
5408
+ "loss": 0.0001,
5409
+ "step": 768
5410
+ },
5411
+ {
5412
+ "epoch": 0.5711102859264761,
5413
+ "grad_norm": 0.000840733468066901,
5414
+ "learning_rate": 4.1436978577108975e-05,
5415
+ "loss": 0.0001,
5416
+ "step": 769
5417
+ },
5418
+ {
5419
+ "epoch": 0.5718529520980319,
5420
+ "grad_norm": 0.001890829997137189,
5421
+ "learning_rate": 4.131759111665349e-05,
5422
+ "loss": 0.0001,
5423
+ "step": 770
5424
+ },
5425
+ {
5426
+ "epoch": 0.5725956182695878,
5427
+ "grad_norm": 0.006861279718577862,
5428
+ "learning_rate": 4.1198254674942154e-05,
5429
+ "loss": 0.0003,
5430
+ "step": 771
5431
+ },
5432
+ {
5433
+ "epoch": 0.5733382844411437,
5434
+ "grad_norm": 0.020367255434393883,
5435
+ "learning_rate": 4.107896995320839e-05,
5436
+ "loss": 0.0001,
5437
+ "step": 772
5438
+ },
5439
+ {
5440
+ "epoch": 0.5740809506126996,
5441
+ "grad_norm": 0.0010303305462002754,
5442
+ "learning_rate": 4.095973765238175e-05,
5443
+ "loss": 0.0001,
5444
+ "step": 773
5445
+ },
5446
+ {
5447
+ "epoch": 0.5748236167842555,
5448
+ "grad_norm": 0.0006230950239114463,
5449
+ "learning_rate": 4.0840558473083664e-05,
5450
+ "loss": 0.0001,
5451
+ "step": 774
5452
+ },
5453
+ {
5454
+ "epoch": 0.5755662829558114,
5455
+ "grad_norm": 0.06197100505232811,
5456
+ "learning_rate": 4.0721433115623544e-05,
5457
+ "loss": 0.0016,
5458
+ "step": 775
5459
+ },
5460
+ {
5461
+ "epoch": 0.5763089491273673,
5462
+ "grad_norm": 0.015006426721811295,
5463
+ "learning_rate": 4.060236227999441e-05,
5464
+ "loss": 0.0003,
5465
+ "step": 776
5466
+ },
5467
+ {
5468
+ "epoch": 0.5770516152989231,
5469
+ "grad_norm": 0.0008427058928646147,
5470
+ "learning_rate": 4.0483346665869e-05,
5471
+ "loss": 0.0001,
5472
+ "step": 777
5473
+ },
5474
+ {
5475
+ "epoch": 0.5777942814704791,
5476
+ "grad_norm": 0.0018404822330921888,
5477
+ "learning_rate": 4.036438697259551e-05,
5478
+ "loss": 0.0002,
5479
+ "step": 778
5480
+ },
5481
+ {
5482
+ "epoch": 0.5785369476420349,
5483
+ "grad_norm": 0.0025395648553967476,
5484
+ "learning_rate": 4.0245483899193595e-05,
5485
+ "loss": 0.0001,
5486
+ "step": 779
5487
+ },
5488
+ {
5489
+ "epoch": 0.5792796138135908,
5490
+ "grad_norm": 0.0011295550502836704,
5491
+ "learning_rate": 4.012663814435014e-05,
5492
+ "loss": 0.0001,
5493
+ "step": 780
5494
+ },
5495
+ {
5496
+ "epoch": 0.5800222799851467,
5497
+ "grad_norm": 0.0014332979917526245,
5498
+ "learning_rate": 4.0007850406415234e-05,
5499
+ "loss": 0.0002,
5500
+ "step": 781
5501
+ },
5502
+ {
5503
+ "epoch": 0.5807649461567026,
5504
+ "grad_norm": 0.0006570751429535449,
5505
+ "learning_rate": 3.9889121383398115e-05,
5506
+ "loss": 0.0001,
5507
+ "step": 782
5508
+ },
5509
+ {
5510
+ "epoch": 0.5815076123282584,
5511
+ "grad_norm": 0.0014288886450231075,
5512
+ "learning_rate": 3.977045177296291e-05,
5513
+ "loss": 0.0002,
5514
+ "step": 783
5515
+ },
5516
+ {
5517
+ "epoch": 0.5822502784998144,
5518
+ "grad_norm": 0.000917198951356113,
5519
+ "learning_rate": 3.965184227242474e-05,
5520
+ "loss": 0.0001,
5521
+ "step": 784
5522
+ },
5523
+ {
5524
+ "epoch": 0.5829929446713702,
5525
+ "grad_norm": 0.002546856412664056,
5526
+ "learning_rate": 3.95332935787454e-05,
5527
+ "loss": 0.0001,
5528
+ "step": 785
5529
+ },
5530
+ {
5531
+ "epoch": 0.5837356108429261,
5532
+ "grad_norm": 0.0009835307719185948,
5533
+ "learning_rate": 3.941480638852948e-05,
5534
+ "loss": 0.0001,
5535
+ "step": 786
5536
+ },
5537
+ {
5538
+ "epoch": 0.584478277014482,
5539
+ "grad_norm": 0.10560861229896545,
5540
+ "learning_rate": 3.929638139802007e-05,
5541
+ "loss": 0.0006,
5542
+ "step": 787
5543
+ },
5544
+ {
5545
+ "epoch": 0.5852209431860379,
5546
+ "grad_norm": 0.0006187596009112895,
5547
+ "learning_rate": 3.917801930309486e-05,
5548
+ "loss": 0.0001,
5549
+ "step": 788
5550
+ },
5551
+ {
5552
+ "epoch": 0.5859636093575937,
5553
+ "grad_norm": 0.027732783928513527,
5554
+ "learning_rate": 3.90597207992619e-05,
5555
+ "loss": 0.0005,
5556
+ "step": 789
5557
+ },
5558
+ {
5559
+ "epoch": 0.5867062755291497,
5560
+ "grad_norm": 0.003759243292734027,
5561
+ "learning_rate": 3.8941486581655615e-05,
5562
+ "loss": 0.0002,
5563
+ "step": 790
5564
+ },
5565
+ {
5566
+ "epoch": 0.5874489417007055,
5567
+ "grad_norm": 0.002819777699187398,
5568
+ "learning_rate": 3.882331734503263e-05,
5569
+ "loss": 0.0001,
5570
+ "step": 791
5571
+ },
5572
+ {
5573
+ "epoch": 0.5881916078722614,
5574
+ "grad_norm": 0.0007966597331687808,
5575
+ "learning_rate": 3.870521378376777e-05,
5576
+ "loss": 0.0001,
5577
+ "step": 792
5578
+ },
5579
+ {
5580
+ "epoch": 0.5889342740438173,
5581
+ "grad_norm": 0.0005825799889862537,
5582
+ "learning_rate": 3.8587176591849916e-05,
5583
+ "loss": 0.0001,
5584
+ "step": 793
5585
+ },
5586
+ {
5587
+ "epoch": 0.5896769402153732,
5588
+ "grad_norm": 0.002244536532089114,
5589
+ "learning_rate": 3.846920646287799e-05,
5590
+ "loss": 0.0001,
5591
+ "step": 794
5592
+ },
5593
+ {
5594
+ "epoch": 0.590419606386929,
5595
+ "grad_norm": 0.002780564595013857,
5596
+ "learning_rate": 3.8351304090056825e-05,
5597
+ "loss": 0.0002,
5598
+ "step": 795
5599
+ },
5600
+ {
5601
+ "epoch": 0.591162272558485,
5602
+ "grad_norm": 0.0009447059710510075,
5603
+ "learning_rate": 3.8233470166193126e-05,
5604
+ "loss": 0.0001,
5605
+ "step": 796
5606
+ },
5607
+ {
5608
+ "epoch": 0.5919049387300408,
5609
+ "grad_norm": 0.001110229641199112,
5610
+ "learning_rate": 3.8115705383691355e-05,
5611
+ "loss": 0.0001,
5612
+ "step": 797
5613
+ },
5614
+ {
5615
+ "epoch": 0.5926476049015967,
5616
+ "grad_norm": 0.0013889704132452607,
5617
+ "learning_rate": 3.799801043454971e-05,
5618
+ "loss": 0.0001,
5619
+ "step": 798
5620
+ },
5621
+ {
5622
+ "epoch": 0.5933902710731526,
5623
+ "grad_norm": 0.0008447144064120948,
5624
+ "learning_rate": 3.7880386010356054e-05,
5625
+ "loss": 0.0001,
5626
+ "step": 799
5627
+ },
5628
+ {
5629
+ "epoch": 0.5941329372447085,
5630
+ "grad_norm": 0.003610602580010891,
5631
+ "learning_rate": 3.776283280228381e-05,
5632
+ "loss": 0.0001,
5633
+ "step": 800
5634
+ },
5635
+ {
5636
+ "epoch": 0.5948756034162644,
5637
+ "grad_norm": 0.005582943558692932,
5638
+ "learning_rate": 3.764535150108798e-05,
5639
+ "loss": 0.0003,
5640
+ "step": 801
5641
+ },
5642
+ {
5643
+ "epoch": 0.5956182695878203,
5644
+ "grad_norm": 0.003268187865614891,
5645
+ "learning_rate": 3.752794279710094e-05,
5646
+ "loss": 0.0002,
5647
+ "step": 802
5648
+ },
5649
+ {
5650
+ "epoch": 0.5963609357593762,
5651
+ "grad_norm": 0.0018831202760338783,
5652
+ "learning_rate": 3.741060738022858e-05,
5653
+ "loss": 0.0002,
5654
+ "step": 803
5655
+ },
5656
+ {
5657
+ "epoch": 0.597103601930932,
5658
+ "grad_norm": 0.0007239828119054437,
5659
+ "learning_rate": 3.7293345939946065e-05,
5660
+ "loss": 0.0001,
5661
+ "step": 804
5662
+ },
5663
+ {
5664
+ "epoch": 0.597846268102488,
5665
+ "grad_norm": 0.21732911467552185,
5666
+ "learning_rate": 3.717615916529395e-05,
5667
+ "loss": 0.0017,
5668
+ "step": 805
5669
+ },
5670
+ {
5671
+ "epoch": 0.5985889342740438,
5672
+ "grad_norm": 0.00127478688955307,
5673
+ "learning_rate": 3.705904774487396e-05,
5674
+ "loss": 0.0002,
5675
+ "step": 806
5676
+ },
5677
+ {
5678
+ "epoch": 0.5993316004455997,
5679
+ "grad_norm": 0.0045968894846737385,
5680
+ "learning_rate": 3.6942012366845096e-05,
5681
+ "loss": 0.0001,
5682
+ "step": 807
5683
+ },
5684
+ {
5685
+ "epoch": 0.6000742666171556,
5686
+ "grad_norm": 0.001871331944130361,
5687
+ "learning_rate": 3.6825053718919464e-05,
5688
+ "loss": 0.0002,
5689
+ "step": 808
5690
+ },
5691
+ {
5692
+ "epoch": 0.6008169327887115,
5693
+ "grad_norm": 0.0010791551321744919,
5694
+ "learning_rate": 3.670817248835836e-05,
5695
+ "loss": 0.0001,
5696
+ "step": 809
5697
+ },
5698
+ {
5699
+ "epoch": 0.6015595989602673,
5700
+ "grad_norm": 0.0006027501658536494,
5701
+ "learning_rate": 3.6591369361968124e-05,
5702
+ "loss": 0.0001,
5703
+ "step": 810
5704
+ },
5705
+ {
5706
+ "epoch": 0.6023022651318233,
5707
+ "grad_norm": 0.0032688211649656296,
5708
+ "learning_rate": 3.6474645026096185e-05,
5709
+ "loss": 0.0002,
5710
+ "step": 811
5711
+ },
5712
+ {
5713
+ "epoch": 0.6030449313033791,
5714
+ "grad_norm": 0.00113378232344985,
5715
+ "learning_rate": 3.6358000166626966e-05,
5716
+ "loss": 0.0001,
5717
+ "step": 812
5718
+ },
5719
+ {
5720
+ "epoch": 0.603787597474935,
5721
+ "grad_norm": 0.0009587003150954843,
5722
+ "learning_rate": 3.624143546897784e-05,
5723
+ "loss": 0.0001,
5724
+ "step": 813
5725
+ },
5726
+ {
5727
+ "epoch": 0.6045302636464909,
5728
+ "grad_norm": 0.0017409041756764054,
5729
+ "learning_rate": 3.612495161809522e-05,
5730
+ "loss": 0.0001,
5731
+ "step": 814
5732
+ },
5733
+ {
5734
+ "epoch": 0.6052729298180468,
5735
+ "grad_norm": 0.0004892799770459533,
5736
+ "learning_rate": 3.60085492984504e-05,
5737
+ "loss": 0.0001,
5738
+ "step": 815
5739
+ },
5740
+ {
5741
+ "epoch": 0.6060155959896026,
5742
+ "grad_norm": 0.0016567412531003356,
5743
+ "learning_rate": 3.589222919403562e-05,
5744
+ "loss": 0.0002,
5745
+ "step": 816
5746
+ },
5747
+ {
5748
+ "epoch": 0.6067582621611586,
5749
+ "grad_norm": 0.0016312827356159687,
5750
+ "learning_rate": 3.577599198835998e-05,
5751
+ "loss": 0.0001,
5752
+ "step": 817
5753
+ },
5754
+ {
5755
+ "epoch": 0.6075009283327144,
5756
+ "grad_norm": 0.0007810606039129198,
5757
+ "learning_rate": 3.5659838364445505e-05,
5758
+ "loss": 0.0001,
5759
+ "step": 818
5760
+ },
5761
+ {
5762
+ "epoch": 0.6082435945042703,
5763
+ "grad_norm": 0.0013547971611842513,
5764
+ "learning_rate": 3.554376900482301e-05,
5765
+ "loss": 0.0001,
5766
+ "step": 819
5767
+ },
5768
+ {
5769
+ "epoch": 0.6089862606758262,
5770
+ "grad_norm": 0.0006009297212585807,
5771
+ "learning_rate": 3.542778459152826e-05,
5772
+ "loss": 0.0001,
5773
+ "step": 820
5774
+ },
5775
+ {
5776
+ "epoch": 0.6097289268473821,
5777
+ "grad_norm": 0.0010081218788400292,
5778
+ "learning_rate": 3.531188580609778e-05,
5779
+ "loss": 0.0001,
5780
+ "step": 821
5781
+ },
5782
+ {
5783
+ "epoch": 0.6104715930189379,
5784
+ "grad_norm": 0.00042164497426711023,
5785
+ "learning_rate": 3.5196073329565015e-05,
5786
+ "loss": 0.0001,
5787
+ "step": 822
5788
+ },
5789
+ {
5790
+ "epoch": 0.6112142591904939,
5791
+ "grad_norm": 0.0007461085333488882,
5792
+ "learning_rate": 3.508034784245616e-05,
5793
+ "loss": 0.0001,
5794
+ "step": 823
5795
+ },
5796
+ {
5797
+ "epoch": 0.6119569253620497,
5798
+ "grad_norm": 1.3910738229751587,
5799
+ "learning_rate": 3.4964710024786354e-05,
5800
+ "loss": 0.0984,
5801
+ "step": 824
5802
+ },
5803
+ {
5804
+ "epoch": 0.6126995915336056,
5805
+ "grad_norm": 0.0007660177652724087,
5806
+ "learning_rate": 3.484916055605548e-05,
5807
+ "loss": 0.0001,
5808
+ "step": 825
5809
+ },
5810
+ {
5811
+ "epoch": 0.6134422577051615,
5812
+ "grad_norm": 0.07438488304615021,
5813
+ "learning_rate": 3.473370011524435e-05,
5814
+ "loss": 0.0012,
5815
+ "step": 826
5816
+ },
5817
+ {
5818
+ "epoch": 0.6141849238767174,
5819
+ "grad_norm": 0.0015772825572639704,
5820
+ "learning_rate": 3.461832938081059e-05,
5821
+ "loss": 0.0002,
5822
+ "step": 827
5823
+ },
5824
+ {
5825
+ "epoch": 0.6149275900482734,
5826
+ "grad_norm": 0.0016182976542040706,
5827
+ "learning_rate": 3.450304903068475e-05,
5828
+ "loss": 0.0001,
5829
+ "step": 828
5830
+ },
5831
+ {
5832
+ "epoch": 0.6156702562198292,
5833
+ "grad_norm": 0.0015479021240025759,
5834
+ "learning_rate": 3.4387859742266225e-05,
5835
+ "loss": 0.0001,
5836
+ "step": 829
5837
+ },
5838
+ {
5839
+ "epoch": 0.6164129223913851,
5840
+ "grad_norm": 0.00273375422693789,
5841
+ "learning_rate": 3.427276219241933e-05,
5842
+ "loss": 0.0002,
5843
+ "step": 830
5844
+ },
5845
+ {
5846
+ "epoch": 0.617155588562941,
5847
+ "grad_norm": 0.001004122314043343,
5848
+ "learning_rate": 3.415775705746934e-05,
5849
+ "loss": 0.0001,
5850
+ "step": 831
5851
+ },
5852
+ {
5853
+ "epoch": 0.6178982547344969,
5854
+ "grad_norm": 0.008125795051455498,
5855
+ "learning_rate": 3.4042845013198456e-05,
5856
+ "loss": 0.0002,
5857
+ "step": 832
5858
+ },
5859
+ {
5860
+ "epoch": 0.6186409209060527,
5861
+ "grad_norm": 0.13623641431331635,
5862
+ "learning_rate": 3.392802673484193e-05,
5863
+ "loss": 0.0018,
5864
+ "step": 833
5865
+ },
5866
+ {
5867
+ "epoch": 0.6193835870776087,
5868
+ "grad_norm": 0.000562251138035208,
5869
+ "learning_rate": 3.381330289708396e-05,
5870
+ "loss": 0.0001,
5871
+ "step": 834
5872
+ },
5873
+ {
5874
+ "epoch": 0.6201262532491645,
5875
+ "grad_norm": 0.0013340302975848317,
5876
+ "learning_rate": 3.3698674174053844e-05,
5877
+ "loss": 0.0001,
5878
+ "step": 835
5879
+ },
5880
+ {
5881
+ "epoch": 0.6208689194207204,
5882
+ "grad_norm": 0.0081217335537076,
5883
+ "learning_rate": 3.358414123932195e-05,
5884
+ "loss": 0.0005,
5885
+ "step": 836
5886
+ },
5887
+ {
5888
+ "epoch": 0.6216115855922763,
5889
+ "grad_norm": 0.059895727783441544,
5890
+ "learning_rate": 3.346970476589583e-05,
5891
+ "loss": 0.0021,
5892
+ "step": 837
5893
+ },
5894
+ {
5895
+ "epoch": 0.6223542517638322,
5896
+ "grad_norm": 0.0007285134051926434,
5897
+ "learning_rate": 3.3355365426216164e-05,
5898
+ "loss": 0.0001,
5899
+ "step": 838
5900
+ },
5901
+ {
5902
+ "epoch": 0.623096917935388,
5903
+ "grad_norm": 0.0223313607275486,
5904
+ "learning_rate": 3.324112389215293e-05,
5905
+ "loss": 0.0005,
5906
+ "step": 839
5907
+ },
5908
+ {
5909
+ "epoch": 0.623839584106944,
5910
+ "grad_norm": 0.0015575829893350601,
5911
+ "learning_rate": 3.31269808350013e-05,
5912
+ "loss": 0.0001,
5913
+ "step": 840
5914
+ },
5915
+ {
5916
+ "epoch": 0.6245822502784998,
5917
+ "grad_norm": 0.001839678268879652,
5918
+ "learning_rate": 3.3012936925477857e-05,
5919
+ "loss": 0.0001,
5920
+ "step": 841
5921
+ },
5922
+ {
5923
+ "epoch": 0.6253249164500557,
5924
+ "grad_norm": 0.0008310491102747619,
5925
+ "learning_rate": 3.289899283371657e-05,
5926
+ "loss": 0.0001,
5927
+ "step": 842
5928
+ },
5929
+ {
5930
+ "epoch": 0.6260675826216116,
5931
+ "grad_norm": 0.0006663409876637161,
5932
+ "learning_rate": 3.278514922926484e-05,
5933
+ "loss": 0.0001,
5934
+ "step": 843
5935
+ },
5936
+ {
5937
+ "epoch": 0.6268102487931675,
5938
+ "grad_norm": 0.0015589938266202807,
5939
+ "learning_rate": 3.267140678107964e-05,
5940
+ "loss": 0.0001,
5941
+ "step": 844
5942
+ },
5943
+ {
5944
+ "epoch": 0.6275529149647233,
5945
+ "grad_norm": 0.003392728278413415,
5946
+ "learning_rate": 3.2557766157523465e-05,
5947
+ "loss": 0.0001,
5948
+ "step": 845
5949
+ },
5950
+ {
5951
+ "epoch": 0.6282955811362793,
5952
+ "grad_norm": 0.0010547033743932843,
5953
+ "learning_rate": 3.244422802636057e-05,
5954
+ "loss": 0.0001,
5955
+ "step": 846
5956
+ },
5957
+ {
5958
+ "epoch": 0.6290382473078351,
5959
+ "grad_norm": 0.0024194575380533934,
5960
+ "learning_rate": 3.2330793054752873e-05,
5961
+ "loss": 0.0002,
5962
+ "step": 847
5963
+ },
5964
+ {
5965
+ "epoch": 0.629780913479391,
5966
+ "grad_norm": 0.0006333817727863789,
5967
+ "learning_rate": 3.2217461909256185e-05,
5968
+ "loss": 0.0001,
5969
+ "step": 848
5970
+ },
5971
+ {
5972
+ "epoch": 0.6305235796509469,
5973
+ "grad_norm": 0.0008936111116781831,
5974
+ "learning_rate": 3.210423525581615e-05,
5975
+ "loss": 0.0001,
5976
+ "step": 849
5977
+ },
5978
+ {
5979
+ "epoch": 0.6312662458225028,
5980
+ "grad_norm": 0.0010497324401512742,
5981
+ "learning_rate": 3.199111375976449e-05,
5982
+ "loss": 0.0001,
5983
+ "step": 850
5984
+ },
5985
+ {
5986
+ "epoch": 0.6320089119940586,
5987
+ "grad_norm": 0.010097804479300976,
5988
+ "learning_rate": 3.1878098085814924e-05,
5989
+ "loss": 0.0005,
5990
+ "step": 851
5991
+ },
5992
+ {
5993
+ "epoch": 0.6327515781656146,
5994
+ "grad_norm": 0.003449138719588518,
5995
+ "learning_rate": 3.176518889805941e-05,
5996
+ "loss": 0.0001,
5997
+ "step": 852
5998
+ },
5999
+ {
6000
+ "epoch": 0.6334942443371704,
6001
+ "grad_norm": 0.020226208493113518,
6002
+ "learning_rate": 3.1652386859964156e-05,
6003
+ "loss": 0.0004,
6004
+ "step": 853
6005
+ },
6006
+ {
6007
+ "epoch": 0.6342369105087263,
6008
+ "grad_norm": 0.0008942090207710862,
6009
+ "learning_rate": 3.153969263436579e-05,
6010
+ "loss": 0.0001,
6011
+ "step": 854
6012
+ },
6013
+ {
6014
+ "epoch": 0.6349795766802823,
6015
+ "grad_norm": 0.005887329112738371,
6016
+ "learning_rate": 3.142710688346733e-05,
6017
+ "loss": 0.0002,
6018
+ "step": 855
6019
+ },
6020
+ {
6021
+ "epoch": 0.6357222428518381,
6022
+ "grad_norm": 0.0013140842784196138,
6023
+ "learning_rate": 3.131463026883449e-05,
6024
+ "loss": 0.0001,
6025
+ "step": 856
6026
+ },
6027
+ {
6028
+ "epoch": 0.636464909023394,
6029
+ "grad_norm": 0.001480376347899437,
6030
+ "learning_rate": 3.12022634513916e-05,
6031
+ "loss": 0.0002,
6032
+ "step": 857
6033
+ },
6034
+ {
6035
+ "epoch": 0.6372075751949499,
6036
+ "grad_norm": 0.0014736526645720005,
6037
+ "learning_rate": 3.109000709141788e-05,
6038
+ "loss": 0.0001,
6039
+ "step": 858
6040
+ },
6041
+ {
6042
+ "epoch": 0.6379502413665058,
6043
+ "grad_norm": 0.0005073303473182023,
6044
+ "learning_rate": 3.0977861848543444e-05,
6045
+ "loss": 0.0001,
6046
+ "step": 859
6047
+ },
6048
+ {
6049
+ "epoch": 0.6386929075380616,
6050
+ "grad_norm": 0.0009759328095242381,
6051
+ "learning_rate": 3.086582838174551e-05,
6052
+ "loss": 0.0001,
6053
+ "step": 860
6054
+ },
6055
+ {
6056
+ "epoch": 0.6394355737096176,
6057
+ "grad_norm": 0.0012429956113919616,
6058
+ "learning_rate": 3.0753907349344464e-05,
6059
+ "loss": 0.0001,
6060
+ "step": 861
6061
+ },
6062
+ {
6063
+ "epoch": 0.6401782398811734,
6064
+ "grad_norm": 0.003437102073803544,
6065
+ "learning_rate": 3.064209940899998e-05,
6066
+ "loss": 0.0002,
6067
+ "step": 862
6068
+ },
6069
+ {
6070
+ "epoch": 0.6409209060527293,
6071
+ "grad_norm": 0.0044972775503993034,
6072
+ "learning_rate": 3.0530405217707256e-05,
6073
+ "loss": 0.0003,
6074
+ "step": 863
6075
+ },
6076
+ {
6077
+ "epoch": 0.6416635722242852,
6078
+ "grad_norm": 0.0003766078152693808,
6079
+ "learning_rate": 3.0418825431793052e-05,
6080
+ "loss": 0.0001,
6081
+ "step": 864
6082
+ },
6083
+ {
6084
+ "epoch": 0.6424062383958411,
6085
+ "grad_norm": 0.000993401394225657,
6086
+ "learning_rate": 3.0307360706911896e-05,
6087
+ "loss": 0.0001,
6088
+ "step": 865
6089
+ },
6090
+ {
6091
+ "epoch": 0.6431489045673969,
6092
+ "grad_norm": 0.0007390630780719221,
6093
+ "learning_rate": 3.019601169804216e-05,
6094
+ "loss": 0.0001,
6095
+ "step": 866
6096
+ },
6097
+ {
6098
+ "epoch": 0.6438915707389529,
6099
+ "grad_norm": 0.0011397154303267598,
6100
+ "learning_rate": 3.0084779059482322e-05,
6101
+ "loss": 0.0001,
6102
+ "step": 867
6103
+ },
6104
+ {
6105
+ "epoch": 0.6446342369105087,
6106
+ "grad_norm": 0.004833963233977556,
6107
+ "learning_rate": 2.997366344484698e-05,
6108
+ "loss": 0.0002,
6109
+ "step": 868
6110
+ },
6111
+ {
6112
+ "epoch": 0.6453769030820646,
6113
+ "grad_norm": 0.007242708466947079,
6114
+ "learning_rate": 2.9862665507063147e-05,
6115
+ "loss": 0.0002,
6116
+ "step": 869
6117
+ },
6118
+ {
6119
+ "epoch": 0.6461195692536205,
6120
+ "grad_norm": 0.0021677876356989145,
6121
+ "learning_rate": 2.975178589836632e-05,
6122
+ "loss": 0.0001,
6123
+ "step": 870
6124
+ },
6125
+ {
6126
+ "epoch": 0.6468622354251764,
6127
+ "grad_norm": 0.0013036590535193682,
6128
+ "learning_rate": 2.9641025270296722e-05,
6129
+ "loss": 0.0001,
6130
+ "step": 871
6131
+ },
6132
+ {
6133
+ "epoch": 0.6476049015967322,
6134
+ "grad_norm": 0.0008346426184289157,
6135
+ "learning_rate": 2.953038427369537e-05,
6136
+ "loss": 0.0001,
6137
+ "step": 872
6138
+ },
6139
+ {
6140
+ "epoch": 0.6483475677682882,
6141
+ "grad_norm": 0.0006587895331904292,
6142
+ "learning_rate": 2.9419863558700396e-05,
6143
+ "loss": 0.0001,
6144
+ "step": 873
6145
+ },
6146
+ {
6147
+ "epoch": 0.649090233939844,
6148
+ "grad_norm": 0.0005403941031545401,
6149
+ "learning_rate": 2.9309463774743046e-05,
6150
+ "loss": 0.0001,
6151
+ "step": 874
6152
+ },
6153
+ {
6154
+ "epoch": 0.6498329001113999,
6155
+ "grad_norm": 0.001244431477971375,
6156
+ "learning_rate": 2.919918557054405e-05,
6157
+ "loss": 0.0001,
6158
+ "step": 875
6159
+ },
6160
+ {
6161
+ "epoch": 0.6505755662829558,
6162
+ "grad_norm": 0.004742435645312071,
6163
+ "learning_rate": 2.9089029594109683e-05,
6164
+ "loss": 0.0002,
6165
+ "step": 876
6166
+ },
6167
+ {
6168
+ "epoch": 0.6513182324545117,
6169
+ "grad_norm": 0.0021011109929531813,
6170
+ "learning_rate": 2.8978996492727994e-05,
6171
+ "loss": 0.0002,
6172
+ "step": 877
6173
+ },
6174
+ {
6175
+ "epoch": 0.6520608986260675,
6176
+ "grad_norm": 0.001175252953544259,
6177
+ "learning_rate": 2.886908691296504e-05,
6178
+ "loss": 0.0001,
6179
+ "step": 878
6180
+ },
6181
+ {
6182
+ "epoch": 0.6528035647976235,
6183
+ "grad_norm": 0.0017059053061529994,
6184
+ "learning_rate": 2.8759301500660972e-05,
6185
+ "loss": 0.0001,
6186
+ "step": 879
6187
+ },
6188
+ {
6189
+ "epoch": 0.6535462309691794,
6190
+ "grad_norm": 0.0007660607225261629,
6191
+ "learning_rate": 2.864964090092644e-05,
6192
+ "loss": 0.0001,
6193
+ "step": 880
6194
+ },
6195
+ {
6196
+ "epoch": 0.6542888971407352,
6197
+ "grad_norm": 0.001221244689077139,
6198
+ "learning_rate": 2.854010575813856e-05,
6199
+ "loss": 0.0001,
6200
+ "step": 881
6201
+ },
6202
+ {
6203
+ "epoch": 0.6550315633122912,
6204
+ "grad_norm": 0.0004929836140945554,
6205
+ "learning_rate": 2.8430696715937337e-05,
6206
+ "loss": 0.0001,
6207
+ "step": 882
6208
+ },
6209
+ {
6210
+ "epoch": 0.655774229483847,
6211
+ "grad_norm": 0.0009183657239191234,
6212
+ "learning_rate": 2.8321414417221746e-05,
6213
+ "loss": 0.0001,
6214
+ "step": 883
6215
+ },
6216
+ {
6217
+ "epoch": 0.6565168956554029,
6218
+ "grad_norm": 0.0003201389918103814,
6219
+ "learning_rate": 2.8212259504146043e-05,
6220
+ "loss": 0.0001,
6221
+ "step": 884
6222
+ },
6223
+ {
6224
+ "epoch": 0.6572595618269588,
6225
+ "grad_norm": 0.0023057435173541307,
6226
+ "learning_rate": 2.8103232618115903e-05,
6227
+ "loss": 0.0001,
6228
+ "step": 885
6229
+ },
6230
+ {
6231
+ "epoch": 0.6580022279985147,
6232
+ "grad_norm": 0.0004039146879222244,
6233
+ "learning_rate": 2.7994334399784772e-05,
6234
+ "loss": 0.0001,
6235
+ "step": 886
6236
+ },
6237
+ {
6238
+ "epoch": 0.6587448941700705,
6239
+ "grad_norm": 0.001328380312770605,
6240
+ "learning_rate": 2.7885565489049946e-05,
6241
+ "loss": 0.0001,
6242
+ "step": 887
6243
+ },
6244
+ {
6245
+ "epoch": 0.6594875603416265,
6246
+ "grad_norm": 0.0009456725674681365,
6247
+ "learning_rate": 2.777692652504895e-05,
6248
+ "loss": 0.0001,
6249
+ "step": 888
6250
+ },
6251
+ {
6252
+ "epoch": 0.6602302265131823,
6253
+ "grad_norm": 0.0006427007610909641,
6254
+ "learning_rate": 2.766841814615573e-05,
6255
+ "loss": 0.0001,
6256
+ "step": 889
6257
+ },
6258
+ {
6259
+ "epoch": 0.6609728926847382,
6260
+ "grad_norm": 0.0006173664005473256,
6261
+ "learning_rate": 2.7560040989976892e-05,
6262
+ "loss": 0.0001,
6263
+ "step": 890
6264
+ },
6265
+ {
6266
+ "epoch": 0.6617155588562941,
6267
+ "grad_norm": 0.0005695072468370199,
6268
+ "learning_rate": 2.7451795693347936e-05,
6269
+ "loss": 0.0001,
6270
+ "step": 891
6271
+ },
6272
+ {
6273
+ "epoch": 0.66245822502785,
6274
+ "grad_norm": 0.000993382534943521,
6275
+ "learning_rate": 2.734368289232959e-05,
6276
+ "loss": 0.0001,
6277
+ "step": 892
6278
+ },
6279
+ {
6280
+ "epoch": 0.6632008911994058,
6281
+ "grad_norm": 0.00402169581502676,
6282
+ "learning_rate": 2.723570322220399e-05,
6283
+ "loss": 0.0001,
6284
+ "step": 893
6285
+ },
6286
+ {
6287
+ "epoch": 0.6639435573709618,
6288
+ "grad_norm": 0.00042257923632860184,
6289
+ "learning_rate": 2.7127857317470968e-05,
6290
+ "loss": 0.0001,
6291
+ "step": 894
6292
+ },
6293
+ {
6294
+ "epoch": 0.6646862235425176,
6295
+ "grad_norm": 0.0011959762778133154,
6296
+ "learning_rate": 2.702014581184439e-05,
6297
+ "loss": 0.0001,
6298
+ "step": 895
6299
+ },
6300
+ {
6301
+ "epoch": 0.6654288897140735,
6302
+ "grad_norm": 0.0022542597725987434,
6303
+ "learning_rate": 2.6912569338248315e-05,
6304
+ "loss": 0.0001,
6305
+ "step": 896
6306
+ },
6307
+ {
6308
+ "epoch": 0.6661715558856294,
6309
+ "grad_norm": 0.0031469352543354034,
6310
+ "learning_rate": 2.6805128528813384e-05,
6311
+ "loss": 0.0002,
6312
+ "step": 897
6313
+ },
6314
+ {
6315
+ "epoch": 0.6669142220571853,
6316
+ "grad_norm": 0.0017010547453537583,
6317
+ "learning_rate": 2.6697824014873075e-05,
6318
+ "loss": 0.0002,
6319
+ "step": 898
6320
+ },
6321
+ {
6322
+ "epoch": 0.6676568882287411,
6323
+ "grad_norm": 0.003644139738753438,
6324
+ "learning_rate": 2.6590656426959902e-05,
6325
+ "loss": 0.0002,
6326
+ "step": 899
6327
+ },
6328
+ {
6329
+ "epoch": 0.6683995544002971,
6330
+ "grad_norm": 0.0016295432578772306,
6331
+ "learning_rate": 2.6483626394801873e-05,
6332
+ "loss": 0.0002,
6333
+ "step": 900
6334
+ },
6335
+ {
6336
+ "epoch": 0.6691422205718529,
6337
+ "grad_norm": 0.012327441945672035,
6338
+ "learning_rate": 2.637673454731868e-05,
6339
+ "loss": 0.0003,
6340
+ "step": 901
6341
+ },
6342
+ {
6343
+ "epoch": 0.6698848867434088,
6344
+ "grad_norm": 0.2909511923789978,
6345
+ "learning_rate": 2.626998151261798e-05,
6346
+ "loss": 0.004,
6347
+ "step": 902
6348
+ },
6349
+ {
6350
+ "epoch": 0.6706275529149647,
6351
+ "grad_norm": 0.001305720885284245,
6352
+ "learning_rate": 2.6163367917991822e-05,
6353
+ "loss": 0.0001,
6354
+ "step": 903
6355
+ },
6356
+ {
6357
+ "epoch": 0.6713702190865206,
6358
+ "grad_norm": 0.0014534946531057358,
6359
+ "learning_rate": 2.605689438991282e-05,
6360
+ "loss": 0.0001,
6361
+ "step": 904
6362
+ },
6363
+ {
6364
+ "epoch": 0.6721128852580764,
6365
+ "grad_norm": 0.003072174033150077,
6366
+ "learning_rate": 2.595056155403063e-05,
6367
+ "loss": 0.0002,
6368
+ "step": 905
6369
+ },
6370
+ {
6371
+ "epoch": 0.6728555514296324,
6372
+ "grad_norm": 0.004174454137682915,
6373
+ "learning_rate": 2.5844370035168073e-05,
6374
+ "loss": 0.0002,
6375
+ "step": 906
6376
+ },
6377
+ {
6378
+ "epoch": 0.6735982176011883,
6379
+ "grad_norm": 0.001340761547908187,
6380
+ "learning_rate": 2.5738320457317698e-05,
6381
+ "loss": 0.0001,
6382
+ "step": 907
6383
+ },
6384
+ {
6385
+ "epoch": 0.6743408837727441,
6386
+ "grad_norm": 0.5977171063423157,
6387
+ "learning_rate": 2.5632413443637888e-05,
6388
+ "loss": 0.0386,
6389
+ "step": 908
6390
+ },
6391
+ {
6392
+ "epoch": 0.6750835499443001,
6393
+ "grad_norm": 0.000558204366825521,
6394
+ "learning_rate": 2.552664961644936e-05,
6395
+ "loss": 0.0001,
6396
+ "step": 909
6397
+ },
6398
+ {
6399
+ "epoch": 0.6758262161158559,
6400
+ "grad_norm": 0.0011802364606410265,
6401
+ "learning_rate": 2.5421029597231478e-05,
6402
+ "loss": 0.0001,
6403
+ "step": 910
6404
+ },
6405
+ {
6406
+ "epoch": 0.6765688822874119,
6407
+ "grad_norm": 0.000828778138384223,
6408
+ "learning_rate": 2.5315554006618485e-05,
6409
+ "loss": 0.0001,
6410
+ "step": 911
6411
+ },
6412
+ {
6413
+ "epoch": 0.6773115484589677,
6414
+ "grad_norm": 0.0003953818522859365,
6415
+ "learning_rate": 2.5210223464396053e-05,
6416
+ "loss": 0.0001,
6417
+ "step": 912
6418
+ },
6419
+ {
6420
+ "epoch": 0.6780542146305236,
6421
+ "grad_norm": 0.0005724510992877185,
6422
+ "learning_rate": 2.5105038589497433e-05,
6423
+ "loss": 0.0001,
6424
+ "step": 913
6425
+ },
6426
+ {
6427
+ "epoch": 0.6787968808020794,
6428
+ "grad_norm": 0.0006651621079072356,
6429
+ "learning_rate": 2.500000000000001e-05,
6430
+ "loss": 0.0001,
6431
+ "step": 914
6432
+ },
6433
+ {
6434
+ "epoch": 0.6795395469736354,
6435
+ "grad_norm": 0.0022599331568926573,
6436
+ "learning_rate": 2.4895108313121508e-05,
6437
+ "loss": 0.0002,
6438
+ "step": 915
6439
+ },
6440
+ {
6441
+ "epoch": 0.6802822131451912,
6442
+ "grad_norm": 0.0014916729414835572,
6443
+ "learning_rate": 2.4790364145216495e-05,
6444
+ "loss": 0.0001,
6445
+ "step": 916
6446
+ },
6447
+ {
6448
+ "epoch": 0.6810248793167472,
6449
+ "grad_norm": 0.004133202601224184,
6450
+ "learning_rate": 2.4685768111772644e-05,
6451
+ "loss": 0.0002,
6452
+ "step": 917
6453
+ },
6454
+ {
6455
+ "epoch": 0.681767545488303,
6456
+ "grad_norm": 0.06581906974315643,
6457
+ "learning_rate": 2.458132082740724e-05,
6458
+ "loss": 0.0024,
6459
+ "step": 918
6460
+ },
6461
+ {
6462
+ "epoch": 0.6825102116598589,
6463
+ "grad_norm": 0.0005587110063061118,
6464
+ "learning_rate": 2.4477022905863427e-05,
6465
+ "loss": 0.0001,
6466
+ "step": 919
6467
+ },
6468
+ {
6469
+ "epoch": 0.6832528778314148,
6470
+ "grad_norm": 0.0006018027779646218,
6471
+ "learning_rate": 2.4372874960006743e-05,
6472
+ "loss": 0.0001,
6473
+ "step": 920
6474
+ },
6475
+ {
6476
+ "epoch": 0.6839955440029707,
6477
+ "grad_norm": 0.0009498025756329298,
6478
+ "learning_rate": 2.4268877601821423e-05,
6479
+ "loss": 0.0001,
6480
+ "step": 921
6481
+ },
6482
+ {
6483
+ "epoch": 0.6847382101745265,
6484
+ "grad_norm": 0.0018847642932087183,
6485
+ "learning_rate": 2.4165031442406855e-05,
6486
+ "loss": 0.0001,
6487
+ "step": 922
6488
+ },
6489
+ {
6490
+ "epoch": 0.6854808763460825,
6491
+ "grad_norm": 0.0015400544507429004,
6492
+ "learning_rate": 2.4061337091973918e-05,
6493
+ "loss": 0.0001,
6494
+ "step": 923
6495
+ },
6496
+ {
6497
+ "epoch": 0.6862235425176383,
6498
+ "grad_norm": 0.0018971724202856421,
6499
+ "learning_rate": 2.3957795159841517e-05,
6500
+ "loss": 0.0001,
6501
+ "step": 924
6502
+ },
6503
+ {
6504
+ "epoch": 0.6869662086891942,
6505
+ "grad_norm": 0.004078839905560017,
6506
+ "learning_rate": 2.385440625443287e-05,
6507
+ "loss": 0.0002,
6508
+ "step": 925
6509
+ },
6510
+ {
6511
+ "epoch": 0.68770887486075,
6512
+ "grad_norm": 0.0012903795577585697,
6513
+ "learning_rate": 2.3751170983272e-05,
6514
+ "loss": 0.0002,
6515
+ "step": 926
6516
+ },
6517
+ {
6518
+ "epoch": 0.688451541032306,
6519
+ "grad_norm": 0.0016058724140748382,
6520
+ "learning_rate": 2.3648089952980202e-05,
6521
+ "loss": 0.0001,
6522
+ "step": 927
6523
+ },
6524
+ {
6525
+ "epoch": 0.6891942072038618,
6526
+ "grad_norm": 0.002747948979958892,
6527
+ "learning_rate": 2.3545163769272383e-05,
6528
+ "loss": 0.0001,
6529
+ "step": 928
6530
+ },
6531
+ {
6532
+ "epoch": 0.6899368733754178,
6533
+ "grad_norm": 0.0010071592405438423,
6534
+ "learning_rate": 2.3442393036953613e-05,
6535
+ "loss": 0.0001,
6536
+ "step": 929
6537
+ },
6538
+ {
6539
+ "epoch": 0.6906795395469736,
6540
+ "grad_norm": 0.003560745855793357,
6541
+ "learning_rate": 2.333977835991545e-05,
6542
+ "loss": 0.0001,
6543
+ "step": 930
6544
+ },
6545
+ {
6546
+ "epoch": 0.6914222057185295,
6547
+ "grad_norm": 0.0034868186339735985,
6548
+ "learning_rate": 2.3237320341132497e-05,
6549
+ "loss": 0.0002,
6550
+ "step": 931
6551
+ },
6552
+ {
6553
+ "epoch": 0.6921648718900854,
6554
+ "grad_norm": 0.0018978634616360068,
6555
+ "learning_rate": 2.3135019582658802e-05,
6556
+ "loss": 0.0002,
6557
+ "step": 932
6558
+ },
6559
+ {
6560
+ "epoch": 0.6929075380616413,
6561
+ "grad_norm": 0.000817135616671294,
6562
+ "learning_rate": 2.3032876685624367e-05,
6563
+ "loss": 0.0001,
6564
+ "step": 933
6565
+ },
6566
+ {
6567
+ "epoch": 0.6936502042331972,
6568
+ "grad_norm": 0.002365557011216879,
6569
+ "learning_rate": 2.2930892250231516e-05,
6570
+ "loss": 0.0001,
6571
+ "step": 934
6572
+ },
6573
+ {
6574
+ "epoch": 0.6943928704047531,
6575
+ "grad_norm": 0.0016304274322465062,
6576
+ "learning_rate": 2.282906687575151e-05,
6577
+ "loss": 0.0001,
6578
+ "step": 935
6579
+ },
6580
+ {
6581
+ "epoch": 0.695135536576309,
6582
+ "grad_norm": 0.004060409963130951,
6583
+ "learning_rate": 2.2727401160520876e-05,
6584
+ "loss": 0.0002,
6585
+ "step": 936
6586
+ },
6587
+ {
6588
+ "epoch": 0.6958782027478648,
6589
+ "grad_norm": 0.0014790298882871866,
6590
+ "learning_rate": 2.262589570193805e-05,
6591
+ "loss": 0.0001,
6592
+ "step": 937
6593
+ },
6594
+ {
6595
+ "epoch": 0.6966208689194208,
6596
+ "grad_norm": 0.0010480373166501522,
6597
+ "learning_rate": 2.25245510964597e-05,
6598
+ "loss": 0.0001,
6599
+ "step": 938
6600
+ },
6601
+ {
6602
+ "epoch": 0.6973635350909766,
6603
+ "grad_norm": 0.0022476809099316597,
6604
+ "learning_rate": 2.2423367939597385e-05,
6605
+ "loss": 0.0002,
6606
+ "step": 939
6607
+ },
6608
+ {
6609
+ "epoch": 0.6981062012625325,
6610
+ "grad_norm": 0.0014067289885133505,
6611
+ "learning_rate": 2.2322346825913886e-05,
6612
+ "loss": 0.0001,
6613
+ "step": 940
6614
+ },
6615
+ {
6616
+ "epoch": 0.6988488674340884,
6617
+ "grad_norm": 0.002156575210392475,
6618
+ "learning_rate": 2.2221488349019903e-05,
6619
+ "loss": 0.0001,
6620
+ "step": 941
6621
+ },
6622
+ {
6623
+ "epoch": 0.6995915336056443,
6624
+ "grad_norm": 0.0006094371201470494,
6625
+ "learning_rate": 2.2120793101570364e-05,
6626
+ "loss": 0.0001,
6627
+ "step": 942
6628
+ },
6629
+ {
6630
+ "epoch": 0.7003341997772001,
6631
+ "grad_norm": 0.0005834063631482422,
6632
+ "learning_rate": 2.202026167526111e-05,
6633
+ "loss": 0.0001,
6634
+ "step": 943
6635
+ },
6636
+ {
6637
+ "epoch": 0.7010768659487561,
6638
+ "grad_norm": 0.00110190873965621,
6639
+ "learning_rate": 2.1919894660825365e-05,
6640
+ "loss": 0.0001,
6641
+ "step": 944
6642
+ },
6643
+ {
6644
+ "epoch": 0.7018195321203119,
6645
+ "grad_norm": 0.06204232573509216,
6646
+ "learning_rate": 2.1819692648030165e-05,
6647
+ "loss": 0.0018,
6648
+ "step": 945
6649
+ },
6650
+ {
6651
+ "epoch": 0.7025621982918678,
6652
+ "grad_norm": 0.002225680975243449,
6653
+ "learning_rate": 2.171965622567308e-05,
6654
+ "loss": 0.0001,
6655
+ "step": 946
6656
+ },
6657
+ {
6658
+ "epoch": 0.7033048644634237,
6659
+ "grad_norm": 0.005498223472386599,
6660
+ "learning_rate": 2.1619785981578573e-05,
6661
+ "loss": 0.0002,
6662
+ "step": 947
6663
+ },
6664
+ {
6665
+ "epoch": 0.7040475306349796,
6666
+ "grad_norm": 0.2603996992111206,
6667
+ "learning_rate": 2.1520082502594685e-05,
6668
+ "loss": 0.0036,
6669
+ "step": 948
6670
+ },
6671
+ {
6672
+ "epoch": 0.7047901968065354,
6673
+ "grad_norm": 0.0005693411221727729,
6674
+ "learning_rate": 2.1420546374589484e-05,
6675
+ "loss": 0.0001,
6676
+ "step": 949
6677
+ },
6678
+ {
6679
+ "epoch": 0.7055328629780914,
6680
+ "grad_norm": 0.0005677467561326921,
6681
+ "learning_rate": 2.132117818244771e-05,
6682
+ "loss": 0.0001,
6683
+ "step": 950
6684
+ },
6685
+ {
6686
+ "epoch": 0.7062755291496472,
6687
+ "grad_norm": 0.019135845825076103,
6688
+ "learning_rate": 2.1221978510067236e-05,
6689
+ "loss": 0.0006,
6690
+ "step": 951
6691
+ },
6692
+ {
6693
+ "epoch": 0.7070181953212031,
6694
+ "grad_norm": 0.3902997672557831,
6695
+ "learning_rate": 2.1122947940355747e-05,
6696
+ "loss": 0.0052,
6697
+ "step": 952
6698
+ },
6699
+ {
6700
+ "epoch": 0.707760861492759,
6701
+ "grad_norm": 0.0012116495054215193,
6702
+ "learning_rate": 2.1024087055227248e-05,
6703
+ "loss": 0.0001,
6704
+ "step": 953
6705
+ },
6706
+ {
6707
+ "epoch": 0.7085035276643149,
6708
+ "grad_norm": 0.3175068795681,
6709
+ "learning_rate": 2.0925396435598664e-05,
6710
+ "loss": 0.0045,
6711
+ "step": 954
6712
+ },
6713
+ {
6714
+ "epoch": 0.7092461938358707,
6715
+ "grad_norm": 0.015600265935063362,
6716
+ "learning_rate": 2.0826876661386395e-05,
6717
+ "loss": 0.0002,
6718
+ "step": 955
6719
+ },
6720
+ {
6721
+ "epoch": 0.7099888600074267,
6722
+ "grad_norm": 0.0010375302517786622,
6723
+ "learning_rate": 2.0728528311502976e-05,
6724
+ "loss": 0.0001,
6725
+ "step": 956
6726
+ },
6727
+ {
6728
+ "epoch": 0.7107315261789825,
6729
+ "grad_norm": 0.0014974784571677446,
6730
+ "learning_rate": 2.0630351963853587e-05,
6731
+ "loss": 0.0001,
6732
+ "step": 957
6733
+ },
6734
+ {
6735
+ "epoch": 0.7114741923505384,
6736
+ "grad_norm": 0.0019292763900011778,
6737
+ "learning_rate": 2.053234819533276e-05,
6738
+ "loss": 0.0001,
6739
+ "step": 958
6740
+ },
6741
+ {
6742
+ "epoch": 0.7122168585220943,
6743
+ "grad_norm": 0.0008647122303955257,
6744
+ "learning_rate": 2.0434517581820896e-05,
6745
+ "loss": 0.0001,
6746
+ "step": 959
6747
+ },
6748
+ {
6749
+ "epoch": 0.7129595246936502,
6750
+ "grad_norm": 0.0007554054609499872,
6751
+ "learning_rate": 2.0336860698180905e-05,
6752
+ "loss": 0.0001,
6753
+ "step": 960
6754
+ },
6755
+ {
6756
+ "epoch": 0.7137021908652061,
6757
+ "grad_norm": 0.01203538291156292,
6758
+ "learning_rate": 2.0239378118254905e-05,
6759
+ "loss": 0.0004,
6760
+ "step": 961
6761
+ },
6762
+ {
6763
+ "epoch": 0.714444857036762,
6764
+ "grad_norm": 0.005261108744889498,
6765
+ "learning_rate": 2.0142070414860704e-05,
6766
+ "loss": 0.0003,
6767
+ "step": 962
6768
+ },
6769
+ {
6770
+ "epoch": 0.7151875232083179,
6771
+ "grad_norm": 0.006285266485065222,
6772
+ "learning_rate": 2.0044938159788584e-05,
6773
+ "loss": 0.0002,
6774
+ "step": 963
6775
+ },
6776
+ {
6777
+ "epoch": 0.7159301893798737,
6778
+ "grad_norm": 0.0008547162869945168,
6779
+ "learning_rate": 1.9947981923797853e-05,
6780
+ "loss": 0.0001,
6781
+ "step": 964
6782
+ },
6783
+ {
6784
+ "epoch": 0.7166728555514297,
6785
+ "grad_norm": 0.00040477412403561175,
6786
+ "learning_rate": 1.9851202276613523e-05,
6787
+ "loss": 0.0001,
6788
+ "step": 965
6789
+ },
6790
+ {
6791
+ "epoch": 0.7174155217229855,
6792
+ "grad_norm": 0.0028770139906555414,
6793
+ "learning_rate": 1.975459978692291e-05,
6794
+ "loss": 0.0003,
6795
+ "step": 966
6796
+ },
6797
+ {
6798
+ "epoch": 0.7181581878945414,
6799
+ "grad_norm": 0.001716628554277122,
6800
+ "learning_rate": 1.96581750223724e-05,
6801
+ "loss": 0.0002,
6802
+ "step": 967
6803
+ },
6804
+ {
6805
+ "epoch": 0.7189008540660973,
6806
+ "grad_norm": 0.0005640503368340433,
6807
+ "learning_rate": 1.9561928549563968e-05,
6808
+ "loss": 0.0001,
6809
+ "step": 968
6810
+ },
6811
+ {
6812
+ "epoch": 0.7196435202376532,
6813
+ "grad_norm": 0.001024580909870565,
6814
+ "learning_rate": 1.9465860934052006e-05,
6815
+ "loss": 0.0001,
6816
+ "step": 969
6817
+ },
6818
+ {
6819
+ "epoch": 0.720386186409209,
6820
+ "grad_norm": 0.0007752843666821718,
6821
+ "learning_rate": 1.936997274033986e-05,
6822
+ "loss": 0.0001,
6823
+ "step": 970
6824
+ },
6825
+ {
6826
+ "epoch": 0.721128852580765,
6827
+ "grad_norm": 0.0008537242538295686,
6828
+ "learning_rate": 1.927426453187663e-05,
6829
+ "loss": 0.0001,
6830
+ "step": 971
6831
+ },
6832
+ {
6833
+ "epoch": 0.7218715187523208,
6834
+ "grad_norm": 0.0009459343855269253,
6835
+ "learning_rate": 1.9178736871053736e-05,
6836
+ "loss": 0.0001,
6837
+ "step": 972
6838
+ },
6839
+ {
6840
+ "epoch": 0.7226141849238767,
6841
+ "grad_norm": 0.0008696299046278,
6842
+ "learning_rate": 1.9083390319201764e-05,
6843
+ "loss": 0.0001,
6844
+ "step": 973
6845
+ },
6846
+ {
6847
+ "epoch": 0.7233568510954326,
6848
+ "grad_norm": 0.0020470714662224054,
6849
+ "learning_rate": 1.8988225436587002e-05,
6850
+ "loss": 0.0002,
6851
+ "step": 974
6852
+ },
6853
+ {
6854
+ "epoch": 0.7240995172669885,
6855
+ "grad_norm": 0.0032244205940514803,
6856
+ "learning_rate": 1.889324278240829e-05,
6857
+ "loss": 0.0002,
6858
+ "step": 975
6859
+ },
6860
+ {
6861
+ "epoch": 0.7248421834385443,
6862
+ "grad_norm": 0.007482845336198807,
6863
+ "learning_rate": 1.8798442914793663e-05,
6864
+ "loss": 0.0002,
6865
+ "step": 976
6866
+ },
6867
+ {
6868
+ "epoch": 0.7255848496101003,
6869
+ "grad_norm": 0.25979605317115784,
6870
+ "learning_rate": 1.8703826390797048e-05,
6871
+ "loss": 0.0077,
6872
+ "step": 977
6873
+ },
6874
+ {
6875
+ "epoch": 0.7263275157816561,
6876
+ "grad_norm": 0.0036151015665382147,
6877
+ "learning_rate": 1.8609393766395085e-05,
6878
+ "loss": 0.0002,
6879
+ "step": 978
6880
+ },
6881
+ {
6882
+ "epoch": 0.727070181953212,
6883
+ "grad_norm": 1.0644394159317017,
6884
+ "learning_rate": 1.8515145596483723e-05,
6885
+ "loss": 0.0138,
6886
+ "step": 979
6887
+ },
6888
+ {
6889
+ "epoch": 0.7278128481247679,
6890
+ "grad_norm": 0.0007425799267366529,
6891
+ "learning_rate": 1.842108243487513e-05,
6892
+ "loss": 0.0001,
6893
+ "step": 980
6894
+ },
6895
+ {
6896
+ "epoch": 0.7285555142963238,
6897
+ "grad_norm": 0.0005094231455586851,
6898
+ "learning_rate": 1.832720483429426e-05,
6899
+ "loss": 0.0001,
6900
+ "step": 981
6901
+ },
6902
+ {
6903
+ "epoch": 0.7292981804678796,
6904
+ "grad_norm": 0.0007252280483953655,
6905
+ "learning_rate": 1.8233513346375756e-05,
6906
+ "loss": 0.0001,
6907
+ "step": 982
6908
+ },
6909
+ {
6910
+ "epoch": 0.7300408466394356,
6911
+ "grad_norm": 0.0005672296392731369,
6912
+ "learning_rate": 1.814000852166059e-05,
6913
+ "loss": 0.0001,
6914
+ "step": 983
6915
+ },
6916
+ {
6917
+ "epoch": 0.7307835128109914,
6918
+ "grad_norm": 0.9842846989631653,
6919
+ "learning_rate": 1.8046690909592917e-05,
6920
+ "loss": 0.1766,
6921
+ "step": 984
6922
+ },
6923
+ {
6924
+ "epoch": 0.7315261789825473,
6925
+ "grad_norm": 0.000559376843739301,
6926
+ "learning_rate": 1.7953561058516828e-05,
6927
+ "loss": 0.0001,
6928
+ "step": 985
6929
+ },
6930
+ {
6931
+ "epoch": 0.7322688451541032,
6932
+ "grad_norm": 0.0007592244073748589,
6933
+ "learning_rate": 1.7860619515673033e-05,
6934
+ "loss": 0.0001,
6935
+ "step": 986
6936
+ },
6937
+ {
6938
+ "epoch": 0.7330115113256591,
6939
+ "grad_norm": 0.0009743353584781289,
6940
+ "learning_rate": 1.7767866827195805e-05,
6941
+ "loss": 0.0001,
6942
+ "step": 987
6943
+ },
6944
+ {
6945
+ "epoch": 0.733754177497215,
6946
+ "grad_norm": 0.0004740802978631109,
6947
+ "learning_rate": 1.767530353810968e-05,
6948
+ "loss": 0.0001,
6949
+ "step": 988
6950
+ },
6951
+ {
6952
+ "epoch": 0.7344968436687709,
6953
+ "grad_norm": 0.001709680538624525,
6954
+ "learning_rate": 1.7582930192326186e-05,
6955
+ "loss": 0.0001,
6956
+ "step": 989
6957
+ },
6958
+ {
6959
+ "epoch": 0.7352395098403268,
6960
+ "grad_norm": 0.004645473323762417,
6961
+ "learning_rate": 1.7490747332640833e-05,
6962
+ "loss": 0.0002,
6963
+ "step": 990
6964
+ },
6965
+ {
6966
+ "epoch": 0.7359821760118826,
6967
+ "grad_norm": 0.002532870974391699,
6968
+ "learning_rate": 1.7398755500729734e-05,
6969
+ "loss": 0.0001,
6970
+ "step": 991
6971
+ },
6972
+ {
6973
+ "epoch": 0.7367248421834386,
6974
+ "grad_norm": 0.0024906517937779427,
6975
+ "learning_rate": 1.730695523714652e-05,
6976
+ "loss": 0.0001,
6977
+ "step": 992
6978
+ },
6979
+ {
6980
+ "epoch": 0.7374675083549944,
6981
+ "grad_norm": 0.006111454218626022,
6982
+ "learning_rate": 1.7215347081319188e-05,
6983
+ "loss": 0.0003,
6984
+ "step": 993
6985
+ },
6986
+ {
6987
+ "epoch": 0.7382101745265504,
6988
+ "grad_norm": 0.004187372513115406,
6989
+ "learning_rate": 1.7123931571546827e-05,
6990
+ "loss": 0.0002,
6991
+ "step": 994
6992
+ },
6993
+ {
6994
+ "epoch": 0.7389528406981062,
6995
+ "grad_norm": 0.006407550070434809,
6996
+ "learning_rate": 1.703270924499656e-05,
6997
+ "loss": 0.0004,
6998
+ "step": 995
6999
+ },
7000
+ {
7001
+ "epoch": 0.7396955068696621,
7002
+ "grad_norm": 0.01187540590763092,
7003
+ "learning_rate": 1.6941680637700334e-05,
7004
+ "loss": 0.0005,
7005
+ "step": 996
7006
+ },
7007
+ {
7008
+ "epoch": 0.740438173041218,
7009
+ "grad_norm": 0.008408035151660442,
7010
+ "learning_rate": 1.68508462845518e-05,
7011
+ "loss": 0.0003,
7012
+ "step": 997
7013
+ },
7014
+ {
7015
+ "epoch": 0.7411808392127739,
7016
+ "grad_norm": 0.00872902199625969,
7017
+ "learning_rate": 1.6760206719303105e-05,
7018
+ "loss": 0.0003,
7019
+ "step": 998
7020
+ },
7021
+ {
7022
+ "epoch": 0.7419235053843297,
7023
+ "grad_norm": 0.013007326982915401,
7024
+ "learning_rate": 1.6669762474561857e-05,
7025
+ "loss": 0.0005,
7026
+ "step": 999
7027
+ },
7028
+ {
7029
+ "epoch": 0.7426661715558857,
7030
+ "grad_norm": 0.044673044234514236,
7031
+ "learning_rate": 1.657951408178788e-05,
7032
+ "loss": 0.0013,
7033
+ "step": 1000
7034
+ },
7035
+ {
7036
+ "epoch": 0.7434088377274415,
7037
+ "grad_norm": 0.017271386459469795,
7038
+ "learning_rate": 1.6489462071290214e-05,
7039
+ "loss": 0.0006,
7040
+ "step": 1001
7041
+ },
7042
+ {
7043
+ "epoch": 0.7441515038989974,
7044
+ "grad_norm": 0.03663730248808861,
7045
+ "learning_rate": 1.639960697222388e-05,
7046
+ "loss": 0.001,
7047
+ "step": 1002
7048
+ },
7049
+ {
7050
+ "epoch": 0.7448941700705533,
7051
+ "grad_norm": 0.01725134626030922,
7052
+ "learning_rate": 1.630994931258688e-05,
7053
+ "loss": 0.0005,
7054
+ "step": 1003
7055
+ },
7056
+ {
7057
+ "epoch": 0.7456368362421092,
7058
+ "grad_norm": 0.0050296480767428875,
7059
+ "learning_rate": 1.622048961921699e-05,
7060
+ "loss": 0.0003,
7061
+ "step": 1004
7062
+ },
7063
+ {
7064
+ "epoch": 0.746379502413665,
7065
+ "grad_norm": 0.013799471780657768,
7066
+ "learning_rate": 1.6131228417788765e-05,
7067
+ "loss": 0.0004,
7068
+ "step": 1005
7069
+ },
7070
+ {
7071
+ "epoch": 0.747122168585221,
7072
+ "grad_norm": 0.005248996429145336,
7073
+ "learning_rate": 1.6042166232810347e-05,
7074
+ "loss": 0.0003,
7075
+ "step": 1006
7076
+ },
7077
+ {
7078
+ "epoch": 0.7478648347567768,
7079
+ "grad_norm": 0.0058412919752299786,
7080
+ "learning_rate": 1.595330358762047e-05,
7081
+ "loss": 0.0005,
7082
+ "step": 1007
7083
+ },
7084
+ {
7085
+ "epoch": 0.7486075009283327,
7086
+ "grad_norm": 0.006610256619751453,
7087
+ "learning_rate": 1.5864641004385384e-05,
7088
+ "loss": 0.0003,
7089
+ "step": 1008
7090
+ },
7091
+ {
7092
+ "epoch": 0.7493501670998886,
7093
+ "grad_norm": 0.004714768845587969,
7094
+ "learning_rate": 1.577617900409566e-05,
7095
+ "loss": 0.0002,
7096
+ "step": 1009
7097
+ },
7098
+ {
7099
+ "epoch": 0.7500928332714445,
7100
+ "grad_norm": 0.005967407487332821,
7101
+ "learning_rate": 1.5687918106563326e-05,
7102
+ "loss": 0.0003,
7103
+ "step": 1010
7104
+ },
7105
+ {
7106
+ "epoch": 0.7508354994430003,
7107
+ "grad_norm": 0.004380329977720976,
7108
+ "learning_rate": 1.5599858830418628e-05,
7109
+ "loss": 0.0003,
7110
+ "step": 1011
7111
+ },
7112
+ {
7113
+ "epoch": 0.7508354994430003,
7114
+ "eval_loss": 9.535554272588342e-05,
7115
+ "eval_runtime": 187.7576,
7116
+ "eval_samples_per_second": 6.04,
7117
+ "eval_steps_per_second": 3.02,
7118
+ "step": 1011
7119
  }
7120
  ],
7121
  "logging_steps": 1,
 
7135
  "attributes": {}
7136
  }
7137
  },
7138
+ "total_flos": 1.321305510883885e+18,
7139
  "train_batch_size": 1,
7140
  "trial_name": null,
7141
  "trial_params": null