Hyponatremia_M2_1000steps_1e6rate_01beta_CSFTDPO

This model is a fine-tuned version of tsavage68/Summary4500_M2_200steps_1e7rate_SFT on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.0014
Rewards/chosen: -6.9453
Rewards/rejected: -39.6400
Rewards/accuracies: 0.9980
Rewards/margins: 32.6947
Logps/rejected: -549.1301
Logps/chosen: -163.1928
Logits/rejected: -2.1597
Logits/chosen: -2.1358

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1e-06
train_batch_size: 1
eval_batch_size: 1
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 100
training_steps: 1000

Training results

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.0	0.0112	50	0.0019	-4.8993	-19.0319	0.9980	14.1326	-343.0486	-142.7324	-2.0795	-2.0441
0.0	0.0224	100	0.0015	-6.3729	-26.5440	0.9980	20.1711	-418.1701	-157.4689	-2.0302	-2.0035
0.0	0.0336	150	0.0015	-6.3657	-26.5320	0.9980	20.1663	-418.0495	-157.3970	-2.0306	-2.0039
0.0	0.0448	200	0.0014	-16.4748	-52.0376	0.9980	35.5629	-673.1061	-258.4873	-1.9728	-1.9500
0.0	0.0559	250	0.0014	-6.6723	-38.4997	0.9980	31.8273	-537.7265	-160.4631	-2.0948	-2.0746
0.0	0.0671	300	0.0014	-6.6672	-38.4953	0.9980	31.8281	-537.6830	-160.4116	-2.0948	-2.0746
0.0	0.0783	350	0.0014	-6.7078	-38.6229	0.9980	31.9151	-538.9587	-160.8179	-2.0942	-2.0740
0.0	0.0895	400	0.0014	-6.7097	-38.6087	0.9980	31.8990	-538.8165	-160.8368	-2.0941	-2.0739
0.0	0.1007	450	0.0014	-6.7097	-38.6087	0.9980	31.8990	-538.8165	-160.8368	-2.0941	-2.0739
0.0	0.1119	500	0.0014	-6.7083	-38.6077	0.9980	31.8993	-538.8064	-160.8230	-2.0942	-2.0740
0.0	0.1231	550	0.0014	-7.0457	-39.9264	0.9980	32.8807	-551.9941	-164.1973	-2.1573	-2.1335
0.0	0.1343	600	0.0014	-7.0457	-39.9264	0.9980	32.8807	-551.9941	-164.1973	-2.1573	-2.1335
0.0	0.1454	650	0.0014	-7.0449	-39.9382	0.9980	32.8933	-552.1118	-164.1887	-2.1576	-2.1338
0.0	0.1566	700	0.0014	-7.0449	-39.9382	0.9980	32.8933	-552.1118	-164.1887	-2.1576	-2.1338
0.0	0.1678	750	0.0014	-7.0380	-39.9081	0.9980	32.8700	-551.8103	-164.1199	-2.1589	-2.1351
0.0	0.1790	800	0.0014	-7.0380	-39.9081	0.9980	32.8700	-551.8103	-164.1199	-2.1589	-2.1351
0.0004	0.1902	850	0.0014	-6.9510	-39.6563	0.9980	32.7053	-549.2929	-163.2495	-2.1596	-2.1357
0.0	0.2014	900	0.0014	-6.9482	-39.6525	0.9980	32.7043	-549.2548	-163.2216	-2.1596	-2.1357
0.0	0.2126	950	0.0014	-6.9451	-39.6374	0.9980	32.6923	-549.1039	-163.1913	-2.1597	-2.1358
0.0	0.2238	1000	0.0014	-6.9453	-39.6400	0.9980	32.6947	-549.1301	-163.1928	-2.1597	-2.1358

Framework versions

Transformers 4.42.4
Pytorch 2.0.0+cu117
Datasets 2.20.0
Tokenizers 0.19.1

tsavage68
/

Summary4500_M2_1000steps_1e6rate_01beta_CSFTDPO

Hyponatremia_M2_1000steps_1e6rate_01beta_CSFTDPO

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for tsavage68/Summary4500_M2_1000steps_1e6rate_01beta_CSFTDPO

Evaluation results