TEST-3 / checkpoint-207 /trainer_state.json

hibana2077

Upload folder using huggingface_hub

e83c27b 11 months ago

7.46 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 207,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.19,
	"learning_rate": 1.5714285714285715e-05,
	"logits/chosen": -1.823734998703003,
	"logits/rejected": -1.96222984790802,
	"logps/chosen": -984.5184936523438,
	"logps/rejected": -29.066242218017578,
	"loss": 0.7963,
	"rewards/accuracies": 0.6538461446762085,
	"rewards/chosen": 0.2930363118648529,
	"rewards/margins": 0.29948848485946655,
	"rewards/rejected": -0.00645211897790432,
	"step": 13
	},
	{
	"epoch": 0.38,
	"learning_rate": 2.9516129032258067e-05,
	"logits/chosen": -1.7756704092025757,
	"logits/rejected": -1.890375018119812,
	"logps/chosen": -1008.671630859375,
	"logps/rejected": -30.05452537536621,
	"loss": 0.5675,
	"rewards/accuracies": 0.6538461446762085,
	"rewards/chosen": 0.6647549867630005,
	"rewards/margins": 0.7006121277809143,
	"rewards/rejected": -0.03585716709494591,
	"step": 26
	},
	{
	"epoch": 0.57,
	"learning_rate": 2.7419354838709678e-05,
	"logits/chosen": -1.837444543838501,
	"logits/rejected": -1.8552197217941284,
	"logps/chosen": -1084.7537841796875,
	"logps/rejected": -30.599714279174805,
	"loss": 0.4647,
	"rewards/accuracies": 0.7692307829856873,
	"rewards/chosen": 0.9935499429702759,
	"rewards/margins": 1.160874366760254,
	"rewards/rejected": -0.16732460260391235,
	"step": 39
	},
	{
	"epoch": 0.75,
	"learning_rate": 2.532258064516129e-05,
	"logits/chosen": -1.745394229888916,
	"logits/rejected": -1.8828259706497192,
	"logps/chosen": -1103.2149658203125,
	"logps/rejected": -32.83525085449219,
	"loss": 0.2193,
	"rewards/accuracies": 0.8846153616905212,
	"rewards/chosen": 2.401637077331543,
	"rewards/margins": 2.809011697769165,
	"rewards/rejected": -0.4073745608329773,
	"step": 52
	},
	{
	"epoch": 0.94,
	"learning_rate": 2.3225806451612902e-05,
	"logits/chosen": -1.6953773498535156,
	"logits/rejected": -2.03174090385437,
	"logps/chosen": -1086.2177734375,
	"logps/rejected": -34.20427703857422,
	"loss": 0.1084,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 2.713472843170166,
	"rewards/margins": 3.305988073348999,
	"rewards/rejected": -0.5925151109695435,
	"step": 65
	},
	{
	"epoch": 1.13,
	"learning_rate": 2.1129032258064516e-05,
	"logits/chosen": -1.7250920534133911,
	"logits/rejected": -1.886851191520691,
	"logps/chosen": -902.3397827148438,
	"logps/rejected": -36.79640579223633,
	"loss": 0.0972,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 2.591458797454834,
	"rewards/margins": 3.4001564979553223,
	"rewards/rejected": -0.8086973428726196,
	"step": 78
	},
	{
	"epoch": 1.32,
	"learning_rate": 1.903225806451613e-05,
	"logits/chosen": -1.6640688180923462,
	"logits/rejected": -1.9599171876907349,
	"logps/chosen": -1034.3873291015625,
	"logps/rejected": -38.65880584716797,
	"loss": 0.0428,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 3.461390495300293,
	"rewards/margins": 4.427910327911377,
	"rewards/rejected": -0.9665195941925049,
	"step": 91
	},
	{
	"epoch": 1.51,
	"learning_rate": 1.6935483870967744e-05,
	"logits/chosen": -1.6940295696258545,
	"logits/rejected": -1.9844238758087158,
	"logps/chosen": -1174.732666015625,
	"logps/rejected": -41.705257415771484,
	"loss": 0.0235,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 3.3263399600982666,
	"rewards/margins": 4.630356788635254,
	"rewards/rejected": -1.3040169477462769,
	"step": 104
	},
	{
	"epoch": 1.7,
	"learning_rate": 1.4838709677419355e-05,
	"logits/chosen": -1.6856719255447388,
	"logits/rejected": -1.8793022632598877,
	"logps/chosen": -1046.614990234375,
	"logps/rejected": -43.94160842895508,
	"loss": 0.0238,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 3.614682912826538,
	"rewards/margins": 5.117927074432373,
	"rewards/rejected": -1.5032439231872559,
	"step": 117
	},
	{
	"epoch": 1.88,
	"learning_rate": 1.274193548387097e-05,
	"logits/chosen": -1.7377840280532837,
	"logits/rejected": -1.8570376634597778,
	"logps/chosen": -1106.663330078125,
	"logps/rejected": -47.238887786865234,
	"loss": 0.0242,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 3.449557304382324,
	"rewards/margins": 5.24083137512207,
	"rewards/rejected": -1.7912741899490356,
	"step": 130
	},
	{
	"epoch": 2.07,
	"learning_rate": 1.0645161290322582e-05,
	"logits/chosen": -1.7412984371185303,
	"logits/rejected": -1.9490795135498047,
	"logps/chosen": -1117.510009765625,
	"logps/rejected": -47.68777084350586,
	"loss": 0.0227,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 3.141476631164551,
	"rewards/margins": 5.044860363006592,
	"rewards/rejected": -1.903383731842041,
	"step": 143
	},
	{
	"epoch": 2.26,
	"learning_rate": 8.548387096774194e-06,
	"logits/chosen": -1.6916511058807373,
	"logits/rejected": -1.9522241353988647,
	"logps/chosen": -1196.82861328125,
	"logps/rejected": -49.64944076538086,
	"loss": 0.015,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 3.8758084774017334,
	"rewards/margins": 5.988270282745361,
	"rewards/rejected": -2.1124606132507324,
	"step": 156
	},
	{
	"epoch": 2.45,
	"learning_rate": 6.451612903225806e-06,
	"logits/chosen": -1.760750651359558,
	"logits/rejected": -1.925395131111145,
	"logps/chosen": -701.3285522460938,
	"logps/rejected": -50.479835510253906,
	"loss": 0.0169,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 2.707566261291504,
	"rewards/margins": 4.906687259674072,
	"rewards/rejected": -2.1991212368011475,
	"step": 169
	},
	{
	"epoch": 2.64,
	"learning_rate": 4.35483870967742e-06,
	"logits/chosen": -1.6971558332443237,
	"logits/rejected": -1.9400659799575806,
	"logps/chosen": -959.2064208984375,
	"logps/rejected": -51.388999938964844,
	"loss": 0.0085,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 3.8825502395629883,
	"rewards/margins": 6.139618873596191,
	"rewards/rejected": -2.2570688724517822,
	"step": 182
	},
	{
	"epoch": 2.83,
	"learning_rate": 2.2580645161290324e-06,
	"logits/chosen": -1.7328979969024658,
	"logits/rejected": -2.0168874263763428,
	"logps/chosen": -926.796875,
	"logps/rejected": -52.40264129638672,
	"loss": 0.0097,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 3.548464059829712,
	"rewards/margins": 5.864409446716309,
	"rewards/rejected": -2.3159451484680176,
	"step": 195
	}
	],
	"logging_steps": 13,
	"max_steps": 207,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}