UltimoUno commited on
Commit
2da6df7
1 Parent(s): c73a8e4

Uploaded checkpoint-1500

Browse files
Files changed (5) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +361 -3
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8df485eb75151b4fd00a3914576c95caa2a4214411c302f7113d6a4831144454
3
  size 2836579040
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2eb7565fe5e983e5fa76bb59399a963d5997d745de11bf0c9e926e6317da303b
3
  size 2836579040
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:52e9570865255edc3f55eef0b128972d229c4c97ad97fc3a60d5756a99aa199f
3
  size 5673376169
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cd1ef961d7209c17e4f79648dbfecc419f3c64f3f588c840a8310216cf480c49
3
  size 5673376169
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8c56c0d986fde7ce77bd50cb0ad4046e46bf3f78895b338e63f9217f7a569a8e
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5e5fc0f601c838403e67acb49c7b54f73c6cd7b1fce2cc26fd3c09d0ed6bb5bf
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:272d676176cdbddc5daf2f8ea3e18426236c64ba24db10d25daf8b1d8d4e924b
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:20b321cd31ef6e3256cc5af88ae37055d00d598e07ad5ef196a94be1f3dedb5a
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.05,
5
  "eval_steps": 500,
6
- "global_step": 1000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -723,6 +723,364 @@
723
  "eval_samples_per_second": 15.315,
724
  "eval_steps_per_second": 15.315,
725
  "step": 1000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
726
  }
727
  ],
728
  "logging_steps": 10,
@@ -730,7 +1088,7 @@
730
  "num_input_tokens_seen": 0,
731
  "num_train_epochs": 1,
732
  "save_steps": 500,
733
- "total_flos": 1.613922041856e+16,
734
  "train_batch_size": 1,
735
  "trial_name": null,
736
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.075,
5
  "eval_steps": 500,
6
+ "global_step": 1500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
723
  "eval_samples_per_second": 15.315,
724
  "eval_steps_per_second": 15.315,
725
  "step": 1000
726
+ },
727
+ {
728
+ "epoch": 0.05,
729
+ "grad_norm": 83.5,
730
+ "learning_rate": 6.6e-07,
731
+ "loss": 2.9056,
732
+ "step": 1010
733
+ },
734
+ {
735
+ "epoch": 0.05,
736
+ "grad_norm": 83.0,
737
+ "learning_rate": 6.533333333333333e-07,
738
+ "loss": 2.8741,
739
+ "step": 1020
740
+ },
741
+ {
742
+ "epoch": 0.05,
743
+ "grad_norm": 83.5,
744
+ "learning_rate": 6.466666666666666e-07,
745
+ "loss": 2.8856,
746
+ "step": 1030
747
+ },
748
+ {
749
+ "epoch": 0.05,
750
+ "grad_norm": 83.5,
751
+ "learning_rate": 6.4e-07,
752
+ "loss": 2.8256,
753
+ "step": 1040
754
+ },
755
+ {
756
+ "epoch": 0.05,
757
+ "grad_norm": 82.5,
758
+ "learning_rate": 6.333333333333332e-07,
759
+ "loss": 2.8308,
760
+ "step": 1050
761
+ },
762
+ {
763
+ "epoch": 0.05,
764
+ "grad_norm": 84.0,
765
+ "learning_rate": 6.266666666666667e-07,
766
+ "loss": 2.8299,
767
+ "step": 1060
768
+ },
769
+ {
770
+ "epoch": 0.05,
771
+ "grad_norm": 83.0,
772
+ "learning_rate": 6.2e-07,
773
+ "loss": 2.7982,
774
+ "step": 1070
775
+ },
776
+ {
777
+ "epoch": 0.05,
778
+ "grad_norm": 82.5,
779
+ "learning_rate": 6.133333333333332e-07,
780
+ "loss": 2.7887,
781
+ "step": 1080
782
+ },
783
+ {
784
+ "epoch": 0.05,
785
+ "grad_norm": 83.0,
786
+ "learning_rate": 6.066666666666666e-07,
787
+ "loss": 2.7436,
788
+ "step": 1090
789
+ },
790
+ {
791
+ "epoch": 0.06,
792
+ "grad_norm": 83.0,
793
+ "learning_rate": 6e-07,
794
+ "loss": 2.7838,
795
+ "step": 1100
796
+ },
797
+ {
798
+ "epoch": 0.06,
799
+ "grad_norm": 82.0,
800
+ "learning_rate": 5.933333333333334e-07,
801
+ "loss": 2.7444,
802
+ "step": 1110
803
+ },
804
+ {
805
+ "epoch": 0.06,
806
+ "grad_norm": 83.0,
807
+ "learning_rate": 5.866666666666666e-07,
808
+ "loss": 2.7411,
809
+ "step": 1120
810
+ },
811
+ {
812
+ "epoch": 0.06,
813
+ "grad_norm": 82.5,
814
+ "learning_rate": 5.8e-07,
815
+ "loss": 2.7418,
816
+ "step": 1130
817
+ },
818
+ {
819
+ "epoch": 0.06,
820
+ "grad_norm": 81.5,
821
+ "learning_rate": 5.733333333333334e-07,
822
+ "loss": 2.7021,
823
+ "step": 1140
824
+ },
825
+ {
826
+ "epoch": 0.06,
827
+ "grad_norm": 82.0,
828
+ "learning_rate": 5.666666666666666e-07,
829
+ "loss": 2.7303,
830
+ "step": 1150
831
+ },
832
+ {
833
+ "epoch": 0.06,
834
+ "grad_norm": 83.0,
835
+ "learning_rate": 5.6e-07,
836
+ "loss": 2.7109,
837
+ "step": 1160
838
+ },
839
+ {
840
+ "epoch": 0.06,
841
+ "grad_norm": 83.5,
842
+ "learning_rate": 5.533333333333334e-07,
843
+ "loss": 2.7083,
844
+ "step": 1170
845
+ },
846
+ {
847
+ "epoch": 0.06,
848
+ "grad_norm": 83.0,
849
+ "learning_rate": 5.466666666666666e-07,
850
+ "loss": 2.7078,
851
+ "step": 1180
852
+ },
853
+ {
854
+ "epoch": 0.06,
855
+ "grad_norm": 82.5,
856
+ "learning_rate": 5.4e-07,
857
+ "loss": 2.727,
858
+ "step": 1190
859
+ },
860
+ {
861
+ "epoch": 0.06,
862
+ "grad_norm": 81.5,
863
+ "learning_rate": 5.333333333333333e-07,
864
+ "loss": 2.6749,
865
+ "step": 1200
866
+ },
867
+ {
868
+ "epoch": 0.06,
869
+ "grad_norm": 83.5,
870
+ "learning_rate": 5.266666666666666e-07,
871
+ "loss": 2.7182,
872
+ "step": 1210
873
+ },
874
+ {
875
+ "epoch": 0.06,
876
+ "grad_norm": 83.5,
877
+ "learning_rate": 5.2e-07,
878
+ "loss": 2.6814,
879
+ "step": 1220
880
+ },
881
+ {
882
+ "epoch": 0.06,
883
+ "grad_norm": 82.0,
884
+ "learning_rate": 5.133333333333333e-07,
885
+ "loss": 2.7148,
886
+ "step": 1230
887
+ },
888
+ {
889
+ "epoch": 0.06,
890
+ "grad_norm": 82.5,
891
+ "learning_rate": 5.066666666666667e-07,
892
+ "loss": 2.6929,
893
+ "step": 1240
894
+ },
895
+ {
896
+ "epoch": 0.06,
897
+ "grad_norm": 82.0,
898
+ "learning_rate": 5e-07,
899
+ "loss": 2.664,
900
+ "step": 1250
901
+ },
902
+ {
903
+ "epoch": 0.06,
904
+ "grad_norm": 82.0,
905
+ "learning_rate": 4.933333333333333e-07,
906
+ "loss": 2.6901,
907
+ "step": 1260
908
+ },
909
+ {
910
+ "epoch": 0.06,
911
+ "grad_norm": 82.0,
912
+ "learning_rate": 4.866666666666666e-07,
913
+ "loss": 2.6883,
914
+ "step": 1270
915
+ },
916
+ {
917
+ "epoch": 0.06,
918
+ "grad_norm": 81.5,
919
+ "learning_rate": 4.8e-07,
920
+ "loss": 2.6782,
921
+ "step": 1280
922
+ },
923
+ {
924
+ "epoch": 0.06,
925
+ "grad_norm": 81.0,
926
+ "learning_rate": 4.733333333333333e-07,
927
+ "loss": 2.6456,
928
+ "step": 1290
929
+ },
930
+ {
931
+ "epoch": 0.07,
932
+ "grad_norm": 81.0,
933
+ "learning_rate": 4.6666666666666666e-07,
934
+ "loss": 2.648,
935
+ "step": 1300
936
+ },
937
+ {
938
+ "epoch": 0.07,
939
+ "grad_norm": 81.5,
940
+ "learning_rate": 4.6e-07,
941
+ "loss": 2.6704,
942
+ "step": 1310
943
+ },
944
+ {
945
+ "epoch": 0.07,
946
+ "grad_norm": 81.5,
947
+ "learning_rate": 4.5333333333333326e-07,
948
+ "loss": 2.7021,
949
+ "step": 1320
950
+ },
951
+ {
952
+ "epoch": 0.07,
953
+ "grad_norm": 81.0,
954
+ "learning_rate": 4.4666666666666664e-07,
955
+ "loss": 2.6636,
956
+ "step": 1330
957
+ },
958
+ {
959
+ "epoch": 0.07,
960
+ "grad_norm": 81.5,
961
+ "learning_rate": 4.3999999999999997e-07,
962
+ "loss": 2.6572,
963
+ "step": 1340
964
+ },
965
+ {
966
+ "epoch": 0.07,
967
+ "grad_norm": 82.5,
968
+ "learning_rate": 4.3333333333333335e-07,
969
+ "loss": 2.6371,
970
+ "step": 1350
971
+ },
972
+ {
973
+ "epoch": 0.07,
974
+ "grad_norm": 81.5,
975
+ "learning_rate": 4.266666666666667e-07,
976
+ "loss": 2.5982,
977
+ "step": 1360
978
+ },
979
+ {
980
+ "epoch": 0.07,
981
+ "grad_norm": 82.5,
982
+ "learning_rate": 4.1999999999999995e-07,
983
+ "loss": 2.6661,
984
+ "step": 1370
985
+ },
986
+ {
987
+ "epoch": 0.07,
988
+ "grad_norm": 82.5,
989
+ "learning_rate": 4.1333333333333333e-07,
990
+ "loss": 2.6486,
991
+ "step": 1380
992
+ },
993
+ {
994
+ "epoch": 0.07,
995
+ "grad_norm": 81.0,
996
+ "learning_rate": 4.0666666666666666e-07,
997
+ "loss": 2.6539,
998
+ "step": 1390
999
+ },
1000
+ {
1001
+ "epoch": 0.07,
1002
+ "grad_norm": 82.0,
1003
+ "learning_rate": 4e-07,
1004
+ "loss": 2.6366,
1005
+ "step": 1400
1006
+ },
1007
+ {
1008
+ "epoch": 0.07,
1009
+ "grad_norm": 82.0,
1010
+ "learning_rate": 3.933333333333333e-07,
1011
+ "loss": 2.6239,
1012
+ "step": 1410
1013
+ },
1014
+ {
1015
+ "epoch": 0.07,
1016
+ "grad_norm": 82.5,
1017
+ "learning_rate": 3.8666666666666664e-07,
1018
+ "loss": 2.6454,
1019
+ "step": 1420
1020
+ },
1021
+ {
1022
+ "epoch": 0.07,
1023
+ "grad_norm": 82.0,
1024
+ "learning_rate": 3.7999999999999996e-07,
1025
+ "loss": 2.6683,
1026
+ "step": 1430
1027
+ },
1028
+ {
1029
+ "epoch": 0.07,
1030
+ "grad_norm": 81.5,
1031
+ "learning_rate": 3.7333333333333334e-07,
1032
+ "loss": 2.6349,
1033
+ "step": 1440
1034
+ },
1035
+ {
1036
+ "epoch": 0.07,
1037
+ "grad_norm": 82.0,
1038
+ "learning_rate": 3.666666666666666e-07,
1039
+ "loss": 2.6492,
1040
+ "step": 1450
1041
+ },
1042
+ {
1043
+ "epoch": 0.07,
1044
+ "grad_norm": 83.0,
1045
+ "learning_rate": 3.6e-07,
1046
+ "loss": 2.6264,
1047
+ "step": 1460
1048
+ },
1049
+ {
1050
+ "epoch": 0.07,
1051
+ "grad_norm": 82.0,
1052
+ "learning_rate": 3.533333333333333e-07,
1053
+ "loss": 2.6021,
1054
+ "step": 1470
1055
+ },
1056
+ {
1057
+ "epoch": 0.07,
1058
+ "grad_norm": 81.5,
1059
+ "learning_rate": 3.4666666666666665e-07,
1060
+ "loss": 2.6382,
1061
+ "step": 1480
1062
+ },
1063
+ {
1064
+ "epoch": 0.07,
1065
+ "grad_norm": 82.0,
1066
+ "learning_rate": 3.4000000000000003e-07,
1067
+ "loss": 2.6441,
1068
+ "step": 1490
1069
+ },
1070
+ {
1071
+ "epoch": 0.07,
1072
+ "grad_norm": 83.0,
1073
+ "learning_rate": 3.333333333333333e-07,
1074
+ "loss": 2.6279,
1075
+ "step": 1500
1076
+ },
1077
+ {
1078
+ "epoch": 0.07,
1079
+ "eval_loss": 2.6444902420043945,
1080
+ "eval_runtime": 65.2696,
1081
+ "eval_samples_per_second": 15.321,
1082
+ "eval_steps_per_second": 15.321,
1083
+ "step": 1500
1084
  }
1085
  ],
1086
  "logging_steps": 10,
 
1088
  "num_input_tokens_seen": 0,
1089
  "num_train_epochs": 1,
1090
  "save_steps": 500,
1091
+ "total_flos": 2.420883062784e+16,
1092
  "train_batch_size": 1,
1093
  "trial_name": null,
1094
  "trial_params": null