alpaca / trainer_state.json

Upload folder using huggingface_hub

3dbedcb verified about 2 months ago

7.25 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9993815708101422,
	"eval_steps": 500,
	"global_step": 404,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.024737167594310452,
	"grad_norm": 3.8928613137780697,
	"learning_rate": 5e-06,
	"loss": 0.8929,
	"step": 10
	},
	{
	"epoch": 0.049474335188620905,
	"grad_norm": 4.590030022211483,
	"learning_rate": 5e-06,
	"loss": 0.7739,
	"step": 20
	},
	{
	"epoch": 0.07421150278293136,
	"grad_norm": 2.0445731869289467,
	"learning_rate": 5e-06,
	"loss": 0.7286,
	"step": 30
	},
	{
	"epoch": 0.09894867037724181,
	"grad_norm": 1.4578350201244652,
	"learning_rate": 5e-06,
	"loss": 0.6964,
	"step": 40
	},
	{
	"epoch": 0.12368583797155226,
	"grad_norm": 1.2041164043429626,
	"learning_rate": 5e-06,
	"loss": 0.6808,
	"step": 50
	},
	{
	"epoch": 0.14842300556586271,
	"grad_norm": 0.9753852138770908,
	"learning_rate": 5e-06,
	"loss": 0.6577,
	"step": 60
	},
	{
	"epoch": 0.17316017316017315,
	"grad_norm": 0.8981690468785772,
	"learning_rate": 5e-06,
	"loss": 0.6476,
	"step": 70
	},
	{
	"epoch": 0.19789734075448362,
	"grad_norm": 0.7458796589430092,
	"learning_rate": 5e-06,
	"loss": 0.6395,
	"step": 80
	},
	{
	"epoch": 0.22263450834879406,
	"grad_norm": 0.7140456505991135,
	"learning_rate": 5e-06,
	"loss": 0.6376,
	"step": 90
	},
	{
	"epoch": 0.24737167594310452,
	"grad_norm": 0.9200299620458595,
	"learning_rate": 5e-06,
	"loss": 0.6307,
	"step": 100
	},
	{
	"epoch": 0.272108843537415,
	"grad_norm": 0.5761268046084219,
	"learning_rate": 5e-06,
	"loss": 0.6175,
	"step": 110
	},
	{
	"epoch": 0.29684601113172543,
	"grad_norm": 0.5836896660196662,
	"learning_rate": 5e-06,
	"loss": 0.6177,
	"step": 120
	},
	{
	"epoch": 0.32158317872603587,
	"grad_norm": 1.038827197557366,
	"learning_rate": 5e-06,
	"loss": 0.6132,
	"step": 130
	},
	{
	"epoch": 0.3463203463203463,
	"grad_norm": 0.6673252980412175,
	"learning_rate": 5e-06,
	"loss": 0.6091,
	"step": 140
	},
	{
	"epoch": 0.37105751391465674,
	"grad_norm": 0.6307785927320235,
	"learning_rate": 5e-06,
	"loss": 0.6046,
	"step": 150
	},
	{
	"epoch": 0.39579468150896724,
	"grad_norm": 0.5244651264271686,
	"learning_rate": 5e-06,
	"loss": 0.601,
	"step": 160
	},
	{
	"epoch": 0.4205318491032777,
	"grad_norm": 0.5705407579445089,
	"learning_rate": 5e-06,
	"loss": 0.6082,
	"step": 170
	},
	{
	"epoch": 0.4452690166975881,
	"grad_norm": 0.5554154594013059,
	"learning_rate": 5e-06,
	"loss": 0.6003,
	"step": 180
	},
	{
	"epoch": 0.47000618429189855,
	"grad_norm": 0.6019873008818303,
	"learning_rate": 5e-06,
	"loss": 0.5994,
	"step": 190
	},
	{
	"epoch": 0.49474335188620905,
	"grad_norm": 0.7034894074017951,
	"learning_rate": 5e-06,
	"loss": 0.5986,
	"step": 200
	},
	{
	"epoch": 0.5194805194805194,
	"grad_norm": 0.5638344674323469,
	"learning_rate": 5e-06,
	"loss": 0.6023,
	"step": 210
	},
	{
	"epoch": 0.54421768707483,
	"grad_norm": 0.5443793743216905,
	"learning_rate": 5e-06,
	"loss": 0.5927,
	"step": 220
	},
	{
	"epoch": 0.5689548546691404,
	"grad_norm": 0.5802674598015297,
	"learning_rate": 5e-06,
	"loss": 0.5925,
	"step": 230
	},
	{
	"epoch": 0.5936920222634509,
	"grad_norm": 0.592738891502665,
	"learning_rate": 5e-06,
	"loss": 0.5928,
	"step": 240
	},
	{
	"epoch": 0.6184291898577613,
	"grad_norm": 0.5388550762260421,
	"learning_rate": 5e-06,
	"loss": 0.5858,
	"step": 250
	},
	{
	"epoch": 0.6431663574520717,
	"grad_norm": 0.5593031272628818,
	"learning_rate": 5e-06,
	"loss": 0.5879,
	"step": 260
	},
	{
	"epoch": 0.6679035250463822,
	"grad_norm": 0.6608335560611281,
	"learning_rate": 5e-06,
	"loss": 0.5844,
	"step": 270
	},
	{
	"epoch": 0.6926406926406926,
	"grad_norm": 0.6327217733233739,
	"learning_rate": 5e-06,
	"loss": 0.5755,
	"step": 280
	},
	{
	"epoch": 0.717377860235003,
	"grad_norm": 0.5769636309953428,
	"learning_rate": 5e-06,
	"loss": 0.5843,
	"step": 290
	},
	{
	"epoch": 0.7421150278293135,
	"grad_norm": 0.5532053151787545,
	"learning_rate": 5e-06,
	"loss": 0.5864,
	"step": 300
	},
	{
	"epoch": 0.766852195423624,
	"grad_norm": 0.6400898941077486,
	"learning_rate": 5e-06,
	"loss": 0.5822,
	"step": 310
	},
	{
	"epoch": 0.7915893630179345,
	"grad_norm": 0.602629447160874,
	"learning_rate": 5e-06,
	"loss": 0.5727,
	"step": 320
	},
	{
	"epoch": 0.8163265306122449,
	"grad_norm": 0.5999318227987905,
	"learning_rate": 5e-06,
	"loss": 0.5794,
	"step": 330
	},
	{
	"epoch": 0.8410636982065554,
	"grad_norm": 0.5332757259893975,
	"learning_rate": 5e-06,
	"loss": 0.5793,
	"step": 340
	},
	{
	"epoch": 0.8658008658008658,
	"grad_norm": 0.5492421058512896,
	"learning_rate": 5e-06,
	"loss": 0.5744,
	"step": 350
	},
	{
	"epoch": 0.8905380333951762,
	"grad_norm": 0.6007108771595042,
	"learning_rate": 5e-06,
	"loss": 0.5707,
	"step": 360
	},
	{
	"epoch": 0.9152752009894867,
	"grad_norm": 0.5866994201925174,
	"learning_rate": 5e-06,
	"loss": 0.5765,
	"step": 370
	},
	{
	"epoch": 0.9400123685837971,
	"grad_norm": 0.4956333122054928,
	"learning_rate": 5e-06,
	"loss": 0.5714,
	"step": 380
	},
	{
	"epoch": 0.9647495361781077,
	"grad_norm": 0.5508918734344029,
	"learning_rate": 5e-06,
	"loss": 0.5682,
	"step": 390
	},
	{
	"epoch": 0.9894867037724181,
	"grad_norm": 0.599971023810852,
	"learning_rate": 5e-06,
	"loss": 0.5719,
	"step": 400
	},
	{
	"epoch": 0.9993815708101422,
	"eval_loss": 0.5685587525367737,
	"eval_runtime": 289.4782,
	"eval_samples_per_second": 37.626,
	"eval_steps_per_second": 0.591,
	"step": 404
	}
	],
	"logging_steps": 10,
	"max_steps": 1212,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 676924426813440.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}