Evaluation on the test set completed on 2024_10_31.

f59385d verified 23 days ago

17.4 kB

	{
	"best_metric": 0.6263097524642944,
	"best_model_checkpoint": "/home1/datahome/villien/project_hub/DinoVdeau/models/Ziboiai-large-2024_10_31-prova_batch-size32_freeze_probs/checkpoint-60",
	"epoch": 40.0,
	"eval_steps": 500,
	"global_step": 80,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"eval_explained_variance": 0.03638218343257904,
	"eval_loss": 0.7150455713272095,
	"eval_mae": 0.3848940134048462,
	"eval_r2": -20.29086685180664,
	"eval_rmse": 0.40997111797332764,
	"eval_runtime": 1.32,
	"eval_samples_per_second": 37.88,
	"eval_steps_per_second": 1.515,
	"learning_rate": 0.001,
	"step": 2
	},
	{
	"epoch": 2.0,
	"eval_explained_variance": 0.0240942370146513,
	"eval_loss": 0.7314126491546631,
	"eval_mae": 0.3895121216773987,
	"eval_r2": -21.218204498291016,
	"eval_rmse": 0.4163060486316681,
	"eval_runtime": 0.3125,
	"eval_samples_per_second": 160.002,
	"eval_steps_per_second": 6.4,
	"learning_rate": 0.001,
	"step": 4
	},
	{
	"epoch": 3.0,
	"eval_explained_variance": -0.04694412648677826,
	"eval_loss": 0.7726277112960815,
	"eval_mae": 0.40413352847099304,
	"eval_r2": -24.822391510009766,
	"eval_rmse": 0.4320966601371765,
	"eval_runtime": 0.3275,
	"eval_samples_per_second": 152.667,
	"eval_steps_per_second": 6.107,
	"learning_rate": 0.001,
	"step": 6
	},
	{
	"epoch": 4.0,
	"eval_explained_variance": -0.06671242415904999,
	"eval_loss": 0.7917326092720032,
	"eval_mae": 0.4094983637332916,
	"eval_r2": -26.581586837768555,
	"eval_rmse": 0.4379725754261017,
	"eval_runtime": 0.3153,
	"eval_samples_per_second": 158.574,
	"eval_steps_per_second": 6.343,
	"learning_rate": 0.001,
	"step": 8
	},
	{
	"epoch": 5.0,
	"eval_explained_variance": -0.13621382415294647,
	"eval_loss": 0.7852649092674255,
	"eval_mae": 0.402120441198349,
	"eval_r2": -26.95589256286621,
	"eval_rmse": 0.43184274435043335,
	"eval_runtime": 0.3123,
	"eval_samples_per_second": 160.086,
	"eval_steps_per_second": 6.403,
	"learning_rate": 0.001,
	"step": 10
	},
	{
	"epoch": 6.0,
	"eval_explained_variance": -0.12974193692207336,
	"eval_loss": 0.7647674679756165,
	"eval_mae": 0.3905399441719055,
	"eval_r2": -24.40153694152832,
	"eval_rmse": 0.42244094610214233,
	"eval_runtime": 0.3317,
	"eval_samples_per_second": 150.759,
	"eval_steps_per_second": 6.03,
	"learning_rate": 0.001,
	"step": 12
	},
	{
	"epoch": 7.0,
	"eval_explained_variance": -0.10977767407894135,
	"eval_loss": 0.7391812205314636,
	"eval_mae": 0.376028835773468,
	"eval_r2": -22.557889938354492,
	"eval_rmse": 0.41028541326522827,
	"eval_runtime": 0.3205,
	"eval_samples_per_second": 155.989,
	"eval_steps_per_second": 6.24,
	"learning_rate": 0.001,
	"step": 14
	},
	{
	"epoch": 8.0,
	"eval_explained_variance": -0.10544480383396149,
	"eval_loss": 0.7115270495414734,
	"eval_mae": 0.36385056376457214,
	"eval_r2": -20.067392349243164,
	"eval_rmse": 0.39825379848480225,
	"eval_runtime": 0.3104,
	"eval_samples_per_second": 161.103,
	"eval_steps_per_second": 6.444,
	"learning_rate": 0.0001,
	"step": 16
	},
	{
	"epoch": 9.0,
	"eval_explained_variance": -0.09249210357666016,
	"eval_loss": 0.6896975040435791,
	"eval_mae": 0.35347798466682434,
	"eval_r2": -18.16646385192871,
	"eval_rmse": 0.3878582715988159,
	"eval_runtime": 0.3226,
	"eval_samples_per_second": 155.006,
	"eval_steps_per_second": 6.2,
	"learning_rate": 0.0001,
	"step": 18
	},
	{
	"epoch": 10.0,
	"eval_explained_variance": -0.10285507887601852,
	"eval_loss": 0.6777035593986511,
	"eval_mae": 0.34683120250701904,
	"eval_r2": -16.94469451904297,
	"eval_rmse": 0.3818005323410034,
	"eval_runtime": 0.3016,
	"eval_samples_per_second": 165.76,
	"eval_steps_per_second": 6.63,
	"learning_rate": 0.0001,
	"step": 20
	},
	{
	"epoch": 11.0,
	"eval_explained_variance": -0.11687294393777847,
	"eval_loss": 0.6701759099960327,
	"eval_mae": 0.3423532247543335,
	"eval_r2": -16.037521362304688,
	"eval_rmse": 0.3779585659503937,
	"eval_runtime": 0.3107,
	"eval_samples_per_second": 160.916,
	"eval_steps_per_second": 6.437,
	"learning_rate": 0.0001,
	"step": 22
	},
	{
	"epoch": 12.0,
	"eval_explained_variance": -0.11208173632621765,
	"eval_loss": 0.663905918598175,
	"eval_mae": 0.3388546407222748,
	"eval_r2": -15.605177879333496,
	"eval_rmse": 0.37438222765922546,
	"eval_runtime": 0.3308,
	"eval_samples_per_second": 151.17,
	"eval_steps_per_second": 6.047,
	"learning_rate": 0.0001,
	"step": 24
	},
	{
	"epoch": 13.0,
	"eval_explained_variance": -0.10647904872894287,
	"eval_loss": 0.656491219997406,
	"eval_mae": 0.3345881700515747,
	"eval_r2": -14.805088996887207,
	"eval_rmse": 0.3702985942363739,
	"eval_runtime": 0.3222,
	"eval_samples_per_second": 155.166,
	"eval_steps_per_second": 6.207,
	"learning_rate": 0.0001,
	"step": 26
	},
	{
	"epoch": 14.0,
	"eval_explained_variance": -0.0958017110824585,
	"eval_loss": 0.6501385569572449,
	"eval_mae": 0.33100754022598267,
	"eval_r2": -14.231175422668457,
	"eval_rmse": 0.3668138384819031,
	"eval_runtime": 0.3293,
	"eval_samples_per_second": 151.853,
	"eval_steps_per_second": 6.074,
	"learning_rate": 0.0001,
	"step": 28
	},
	{
	"epoch": 15.0,
	"eval_explained_variance": -0.08547426015138626,
	"eval_loss": 0.6467865705490112,
	"eval_mae": 0.32885220646858215,
	"eval_r2": -14.07986831665039,
	"eval_rmse": 0.36475783586502075,
	"eval_runtime": 0.3253,
	"eval_samples_per_second": 153.717,
	"eval_steps_per_second": 6.149,
	"learning_rate": 0.0001,
	"step": 30
	},
	{
	"epoch": 16.0,
	"eval_explained_variance": -0.08231981098651886,
	"eval_loss": 0.6471170783042908,
	"eval_mae": 0.3288896679878235,
	"eval_r2": -14.255745887756348,
	"eval_rmse": 0.3650059998035431,
	"eval_runtime": 0.305,
	"eval_samples_per_second": 163.945,
	"eval_steps_per_second": 6.558,
	"learning_rate": 0.0001,
	"step": 32
	},
	{
	"epoch": 17.0,
	"eval_explained_variance": -0.08097466081380844,
	"eval_loss": 0.6435126662254333,
	"eval_mae": 0.3268200755119324,
	"eval_r2": -14.059813499450684,
	"eval_rmse": 0.36310678720474243,
	"eval_runtime": 0.3322,
	"eval_samples_per_second": 150.492,
	"eval_steps_per_second": 6.02,
	"learning_rate": 0.0001,
	"step": 34
	},
	{
	"epoch": 18.0,
	"eval_explained_variance": -0.07994352281093597,
	"eval_loss": 0.6437923908233643,
	"eval_mae": 0.3269612491130829,
	"eval_r2": -14.036934852600098,
	"eval_rmse": 0.36342939734458923,
	"eval_runtime": 0.3107,
	"eval_samples_per_second": 160.922,
	"eval_steps_per_second": 6.437,
	"learning_rate": 0.0001,
	"step": 36
	},
	{
	"epoch": 19.0,
	"eval_explained_variance": -0.08883289247751236,
	"eval_loss": 0.6399621367454529,
	"eval_mae": 0.3249860107898712,
	"eval_r2": -13.81522274017334,
	"eval_rmse": 0.36136963963508606,
	"eval_runtime": 0.3104,
	"eval_samples_per_second": 161.092,
	"eval_steps_per_second": 6.444,
	"learning_rate": 0.0001,
	"step": 38
	},
	{
	"epoch": 20.0,
	"eval_explained_variance": -0.09353505074977875,
	"eval_loss": 0.6391971707344055,
	"eval_mae": 0.3246455192565918,
	"eval_r2": -13.710391998291016,
	"eval_rmse": 0.3608955144882202,
	"eval_runtime": 0.3119,
	"eval_samples_per_second": 160.306,
	"eval_steps_per_second": 6.412,
	"learning_rate": 0.0001,
	"step": 40
	},
	{
	"epoch": 21.0,
	"eval_explained_variance": -0.09930111467838287,
	"eval_loss": 0.6386714577674866,
	"eval_mae": 0.32462170720100403,
	"eval_r2": -13.809860229492188,
	"eval_rmse": 0.3606450855731964,
	"eval_runtime": 0.3149,
	"eval_samples_per_second": 158.8,
	"eval_steps_per_second": 6.352,
	"learning_rate": 0.0001,
	"step": 42
	},
	{
	"epoch": 22.0,
	"eval_explained_variance": -0.10561199486255646,
	"eval_loss": 0.6388444304466248,
	"eval_mae": 0.3243348002433777,
	"eval_r2": -13.849721908569336,
	"eval_rmse": 0.36056435108184814,
	"eval_runtime": 0.3094,
	"eval_samples_per_second": 161.607,
	"eval_steps_per_second": 6.464,
	"learning_rate": 0.0001,
	"step": 44
	},
	{
	"epoch": 23.0,
	"eval_explained_variance": -0.1035044863820076,
	"eval_loss": 0.6361631155014038,
	"eval_mae": 0.3227779269218445,
	"eval_r2": -13.562189102172852,
	"eval_rmse": 0.35895633697509766,
	"eval_runtime": 0.3094,
	"eval_samples_per_second": 161.581,
	"eval_steps_per_second": 6.463,
	"learning_rate": 0.0001,
	"step": 46
	},
	{
	"epoch": 24.0,
	"eval_explained_variance": -0.10584529489278793,
	"eval_loss": 0.635435163974762,
	"eval_mae": 0.3223152160644531,
	"eval_r2": -13.645319938659668,
	"eval_rmse": 0.35847193002700806,
	"eval_runtime": 0.3094,
	"eval_samples_per_second": 161.602,
	"eval_steps_per_second": 6.464,
	"learning_rate": 0.0001,
	"step": 48
	},
	{
	"epoch": 25.0,
	"eval_explained_variance": -0.1035505086183548,
	"eval_loss": 0.6344550848007202,
	"eval_mae": 0.32144099473953247,
	"eval_r2": -13.602314949035645,
	"eval_rmse": 0.35783687233924866,
	"eval_runtime": 0.3092,
	"eval_samples_per_second": 161.704,
	"eval_steps_per_second": 6.468,
	"learning_rate": 0.0001,
	"step": 50
	},
	{
	"epoch": 26.0,
	"eval_explained_variance": -0.11728200316429138,
	"eval_loss": 0.6348865628242493,
	"eval_mae": 0.3211889863014221,
	"eval_r2": -13.630416870117188,
	"eval_rmse": 0.3580625355243683,
	"eval_runtime": 0.331,
	"eval_samples_per_second": 151.064,
	"eval_steps_per_second": 6.043,
	"learning_rate": 0.0001,
	"step": 52
	},
	{
	"epoch": 27.0,
	"eval_explained_variance": -0.11483900249004364,
	"eval_loss": 0.6332749724388123,
	"eval_mae": 0.32009246945381165,
	"eval_r2": -13.561347007751465,
	"eval_rmse": 0.3570806384086609,
	"eval_runtime": 0.3173,
	"eval_samples_per_second": 157.565,
	"eval_steps_per_second": 6.303,
	"learning_rate": 0.0001,
	"step": 54
	},
	{
	"epoch": 28.0,
	"eval_explained_variance": -0.10828801989555359,
	"eval_loss": 0.6295092701911926,
	"eval_mae": 0.31767499446868896,
	"eval_r2": -13.23308277130127,
	"eval_rmse": 0.35479238629341125,
	"eval_runtime": 0.3087,
	"eval_samples_per_second": 161.989,
	"eval_steps_per_second": 6.48,
	"learning_rate": 0.0001,
	"step": 56
	},
	{
	"epoch": 29.0,
	"eval_explained_variance": -0.1047045886516571,
	"eval_loss": 0.6285346746444702,
	"eval_mae": 0.3173280954360962,
	"eval_r2": -13.162256240844727,
	"eval_rmse": 0.35434553027153015,
	"eval_runtime": 0.3277,
	"eval_samples_per_second": 152.596,
	"eval_steps_per_second": 6.104,
	"learning_rate": 0.0001,
	"step": 58
	},
	{
	"epoch": 30.0,
	"eval_explained_variance": -0.09264782071113586,
	"eval_loss": 0.6263097524642944,
	"eval_mae": 0.31627562642097473,
	"eval_r2": -12.713174819946289,
	"eval_rmse": 0.3532228171825409,
	"eval_runtime": 0.3523,
	"eval_samples_per_second": 141.931,
	"eval_steps_per_second": 5.677,
	"learning_rate": 0.0001,
	"step": 60
	},
	{
	"epoch": 31.0,
	"eval_explained_variance": -0.08934260159730911,
	"eval_loss": 0.6272528767585754,
	"eval_mae": 0.316723495721817,
	"eval_r2": -12.873921394348145,
	"eval_rmse": 0.35376670956611633,
	"eval_runtime": 0.3073,
	"eval_samples_per_second": 162.723,
	"eval_steps_per_second": 6.509,
	"learning_rate": 0.0001,
	"step": 62
	},
	{
	"epoch": 32.0,
	"eval_explained_variance": -0.07898036390542984,
	"eval_loss": 0.6294133067131042,
	"eval_mae": 0.31807586550712585,
	"eval_r2": -12.935453414916992,
	"eval_rmse": 0.3550169765949249,
	"eval_runtime": 0.3094,
	"eval_samples_per_second": 161.626,
	"eval_steps_per_second": 6.465,
	"learning_rate": 0.0001,
	"step": 64
	},
	{
	"epoch": 33.0,
	"eval_explained_variance": -0.07519607990980148,
	"eval_loss": 0.6299176216125488,
	"eval_mae": 0.3185364603996277,
	"eval_r2": -12.93520736694336,
	"eval_rmse": 0.35538923740386963,
	"eval_runtime": 0.3097,
	"eval_samples_per_second": 161.472,
	"eval_steps_per_second": 6.459,
	"learning_rate": 0.0001,
	"step": 66
	},
	{
	"epoch": 34.0,
	"eval_explained_variance": -0.07019602507352829,
	"eval_loss": 0.6320692300796509,
	"eval_mae": 0.3193182349205017,
	"eval_r2": -13.267191886901855,
	"eval_rmse": 0.35644862055778503,
	"eval_runtime": 0.3161,
	"eval_samples_per_second": 158.177,
	"eval_steps_per_second": 6.327,
	"learning_rate": 0.0001,
	"step": 68
	},
	{
	"epoch": 35.0,
	"eval_explained_variance": -0.04873532056808472,
	"eval_loss": 0.6279481649398804,
	"eval_mae": 0.31752488017082214,
	"eval_r2": -12.99951171875,
	"eval_rmse": 0.3541102707386017,
	"eval_runtime": 0.3124,
	"eval_samples_per_second": 160.036,
	"eval_steps_per_second": 6.401,
	"learning_rate": 0.0001,
	"step": 70
	},
	{
	"epoch": 36.0,
	"eval_explained_variance": -0.04663123935461044,
	"eval_loss": 0.6280075907707214,
	"eval_mae": 0.31736499071121216,
	"eval_r2": -13.00741195678711,
	"eval_rmse": 0.35407301783561707,
	"eval_runtime": 0.3095,
	"eval_samples_per_second": 161.554,
	"eval_steps_per_second": 6.462,
	"learning_rate": 0.0001,
	"step": 72
	},
	{
	"epoch": 37.0,
	"eval_explained_variance": -0.04936327785253525,
	"eval_loss": 0.6303659081459045,
	"eval_mae": 0.3187006115913391,
	"eval_r2": -13.230977058410645,
	"eval_rmse": 0.35543760657310486,
	"eval_runtime": 0.3251,
	"eval_samples_per_second": 153.806,
	"eval_steps_per_second": 6.152,
	"learning_rate": 1e-05,
	"step": 74
	},
	{
	"epoch": 38.0,
	"eval_explained_variance": -0.04394898936152458,
	"eval_loss": 0.6297122836112976,
	"eval_mae": 0.31833118200302124,
	"eval_r2": -12.983016967773438,
	"eval_rmse": 0.3550592064857483,
	"eval_runtime": 0.3087,
	"eval_samples_per_second": 161.995,
	"eval_steps_per_second": 6.48,
	"learning_rate": 1e-05,
	"step": 76
	},
	{
	"epoch": 39.0,
	"eval_explained_variance": -0.04296223446726799,
	"eval_loss": 0.630845308303833,
	"eval_mae": 0.3193325996398926,
	"eval_r2": -13.159842491149902,
	"eval_rmse": 0.35580796003341675,
	"eval_runtime": 0.3097,
	"eval_samples_per_second": 161.465,
	"eval_steps_per_second": 6.459,
	"learning_rate": 1e-05,
	"step": 78
	},
	{
	"epoch": 40.0,
	"eval_explained_variance": -0.04348618537187576,
	"eval_loss": 0.6291573643684387,
	"eval_mae": 0.3182610869407654,
	"eval_r2": -13.069788932800293,
	"eval_rmse": 0.3547934889793396,
	"eval_runtime": 0.3206,
	"eval_samples_per_second": 155.938,
	"eval_steps_per_second": 6.238,
	"learning_rate": 1e-05,
	"step": 80
	},
	{
	"epoch": 40.0,
	"learning_rate": 1e-05,
	"step": 80,
	"total_flos": 2.9601852123168e+17,
	"train_loss": 0.64580397605896,
	"train_runtime": 275.9938,
	"train_samples_per_second": 27.175,
	"train_steps_per_second": 1.087
	}
	],
	"logging_steps": 500,
	"max_steps": 300,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 150,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 10,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.9601852123168e+17,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}