Qwen2.5-1.5B-Instruct-Open-R1-GRPO-gsm8k2 / trainer_state.json

Model save

51f5b14 verified about 1 month ago

8.34 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9887640449438202,
	"eval_steps": 100,
	"global_step": 66,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 133.09732789993285,
	"epoch": 0.0749063670411985,
	"grad_norm": 1.5293161678134963,
	"kl": 0.023732519149780272,
	"learning_rate": 1.4285714285714287e-05,
	"loss": 0.001,
	"reward": 1.653250901401043,
	"reward_std": 0.6752304386347532,
	"rewards/accuracy_reward": 0.5250000260770321,
	"rewards/cosine_scaled_reward": 0.34640559698455037,
	"rewards/format_reward": 0.7250000283122062,
	"rewards/reasoning_steps_reward": 0.056845242623239756,
	"step": 5
	},
	{
	"completion_length": 102.5696473121643,
	"epoch": 0.149812734082397,
	"grad_norm": 1.3144666712389457,
	"kl": 0.15343170166015624,
	"learning_rate": 1.9872683547213446e-05,
	"loss": 0.0061,
	"reward": 1.7395714558660984,
	"reward_std": 0.6690045401453972,
	"rewards/accuracy_reward": 0.5000000222586095,
	"rewards/cosine_scaled_reward": 0.40504757558394433,
	"rewards/format_reward": 0.8053571842610836,
	"rewards/reasoning_steps_reward": 0.02916666897945106,
	"step": 10
	},
	{
	"completion_length": 68.31875326633454,
	"epoch": 0.2247191011235955,
	"grad_norm": 1.690644929593771,
	"kl": 0.4529541015625,
	"learning_rate": 1.9106347728549134e-05,
	"loss": 0.0181,
	"reward": 1.5209994725883007,
	"reward_std": 0.4919801800744608,
	"rewards/accuracy_reward": 0.3375000160187483,
	"rewards/cosine_scaled_reward": 0.30939229315263217,
	"rewards/format_reward": 0.8714286126196384,
	"rewards/reasoning_steps_reward": 0.0026785717345774174,
	"step": 15
	},
	{
	"completion_length": 27.072322607040405,
	"epoch": 0.299625468164794,
	"grad_norm": 5.038040476887466,
	"kl": 0.86884765625,
	"learning_rate": 1.7698339834299064e-05,
	"loss": 0.0348,
	"reward": 1.3508709453046321,
	"reward_std": 0.2549172870512848,
	"rewards/accuracy_reward": 0.19553572423756121,
	"rewards/cosine_scaled_reward": 0.1919423281069612,
	"rewards/format_reward": 0.9633928693830967,
	"rewards/reasoning_steps_reward": 0.0,
	"step": 20
	},
	{
	"completion_length": 19.96160795688629,
	"epoch": 0.37453183520599254,
	"grad_norm": 0.7209085060337556,
	"kl": 1.62548828125,
	"learning_rate": 1.5747874102144073e-05,
	"loss": 0.065,
	"reward": 1.1604069240391255,
	"reward_std": 0.1543787806871933,
	"rewards/accuracy_reward": 0.09196429010480642,
	"rewards/cosine_scaled_reward": 0.08987116043572314,
	"rewards/format_reward": 0.9785714387893677,
	"rewards/reasoning_steps_reward": 0.0,
	"step": 25
	},
	{
	"completion_length": 14.525000703334808,
	"epoch": 0.449438202247191,
	"grad_norm": 1.0679577003741414,
	"kl": 2.248828125,
	"learning_rate": 1.3392388661180303e-05,
	"loss": 0.0899,
	"reward": 1.0422519214451313,
	"reward_std": 0.07961238992461403,
	"rewards/accuracy_reward": 0.028571429941803218,
	"rewards/cosine_scaled_reward": 0.02707329906115774,
	"rewards/format_reward": 0.9866071492433548,
	"rewards/reasoning_steps_reward": 0.0,
	"step": 30
	},
	{
	"completion_length": 16.882143712043764,
	"epoch": 0.5243445692883895,
	"grad_norm": 1.9915464242130758,
	"kl": 2.50048828125,
	"learning_rate": 1.0797861055530832e-05,
	"loss": 0.1,
	"reward": 1.0598101012408734,
	"reward_std": 0.08466785513780906,
	"rewards/accuracy_reward": 0.03660714449360967,
	"rewards/cosine_scaled_reward": 0.03391720272193197,
	"rewards/format_reward": 0.9892857186496258,
	"rewards/reasoning_steps_reward": 0.0,
	"step": 35
	},
	{
	"completion_length": 17.50357232093811,
	"epoch": 0.599250936329588,
	"grad_norm": 0.6015571750593173,
	"kl": 2.02138671875,
	"learning_rate": 8.147112759128859e-06,
	"loss": 0.0808,
	"reward": 1.0429342821240426,
	"reward_std": 0.08854535985910843,
	"rewards/accuracy_reward": 0.027678572665899993,
	"rewards/cosine_scaled_reward": 0.025969939603237437,
	"rewards/format_reward": 0.9892857193946838,
	"rewards/reasoning_steps_reward": 0.0,
	"step": 40
	},
	{
	"completion_length": 17.032143676280974,
	"epoch": 0.6741573033707865,
	"grad_norm": 1.5617783259086722,
	"kl": 9.1677734375,
	"learning_rate": 5.626926795411447e-06,
	"loss": 0.3657,
	"reward": 1.0205947622656821,
	"reward_std": 0.04966565851066207,
	"rewards/accuracy_reward": 0.016071429289877415,
	"rewards/cosine_scaled_reward": 0.013451844768133015,
	"rewards/format_reward": 0.9910714328289032,
	"rewards/reasoning_steps_reward": 0.0,
	"step": 45
	},
	{
	"completion_length": 24.61875115633011,
	"epoch": 0.7490636704119851,
	"grad_norm": 12.921102363021035,
	"kl": 2.09052734375,
	"learning_rate": 3.414886209349615e-06,
	"loss": 0.0836,
	"reward": 1.0334184400737285,
	"reward_std": 0.07184715992339079,
	"rewards/accuracy_reward": 0.026785715483129025,
	"rewards/cosine_scaled_reward": 0.02270410436904058,
	"rewards/format_reward": 0.9839285790920258,
	"rewards/reasoning_steps_reward": 0.0,
	"step": 50
	},
	{
	"completion_length": 37.971430158615114,
	"epoch": 0.8239700374531835,
	"grad_norm": 0.7983120982012815,
	"kl": 2.83486328125,
	"learning_rate": 1.6668608091748495e-06,
	"loss": 0.1137,
	"reward": 1.026642444729805,
	"reward_std": 0.09744821136546307,
	"rewards/accuracy_reward": 0.028571429941803218,
	"rewards/cosine_scaled_reward": 0.024261438589019236,
	"rewards/format_reward": 0.9732142984867096,
	"rewards/reasoning_steps_reward": 0.0005952381528913975,
	"step": 55
	},
	{
	"completion_length": 47.03750244379044,
	"epoch": 0.898876404494382,
	"grad_norm": 0.413637391163457,
	"kl": 1.8755859375,
	"learning_rate": 5.060239153161872e-07,
	"loss": 0.075,
	"reward": 1.005486535280943,
	"reward_std": 0.12288255607795691,
	"rewards/accuracy_reward": 0.026785715576261283,
	"rewards/cosine_scaled_reward": 0.02066505177790532,
	"rewards/format_reward": 0.9571428760886193,
	"rewards/reasoning_steps_reward": 0.0008928572293370962,
	"step": 60
	},
	{
	"completion_length": 41.104466354846956,
	"epoch": 0.9737827715355806,
	"grad_norm": 0.8917372735425451,
	"kl": 1.94501953125,
	"learning_rate": 1.4173043232380557e-08,
	"loss": 0.0778,
	"reward": 1.0319705478847028,
	"reward_std": 0.12593294799758042,
	"rewards/accuracy_reward": 0.03571428749710322,
	"rewards/cosine_scaled_reward": 0.030184772261418403,
	"rewards/format_reward": 0.9660714447498322,
	"rewards/reasoning_steps_reward": 0.0,
	"step": 65
	},
	{
	"completion_length": 23.01785808801651,
	"epoch": 0.9887640449438202,
	"kl": 1.99560546875,
	"reward": 1.0267603546380997,
	"reward_std": 0.08640075298319516,
	"rewards/accuracy_reward": 0.022321429569274187,
	"rewards/cosine_scaled_reward": 0.01783171975694131,
	"rewards/format_reward": 0.9866071492433548,
	"rewards/reasoning_steps_reward": 0.0,
	"step": 66,
	"total_flos": 0.0,
	"train_loss": 0.0854370246613116,
	"train_runtime": 2996.315,
	"train_samples_per_second": 2.494,
	"train_steps_per_second": 0.022
	}
	],
	"logging_steps": 5,
	"max_steps": 66,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}