Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -27,14 +27,19 @@ tags:
 ## Training Details
 ### Training Hyperparameters
-`attn_implementation`: flash_attention_2 \
-`beta`: 0.05 \
 `bf16`: True \
-`learning_rate`: 1e-5 \
 `lr_scheduler_type`: cosine \
-`per_device_train_batch_size`: 4 \
-`gradient_accumulation_steps`: 8 \
 `torch_dtype`: bfloat16 \
 `num_train_epochs`: 1 \
 `max_prompt_length`: 512 \
@@ -43,10 +48,10 @@ tags:
 ### Results
-`init_train_loss`: 0.6929 \
-`final_train_loss`: 0.5713 \
 `accuracy`: 0.7188 \
-`reward_margin`: 0.5971
 ### Training script

 ## Training Details
+devices: 4 * NPU 910B-64GB \
+precision: bf16 mixed-precision \
+global_batch_size: 64
 ### Training Hyperparameters
+`attn_implementation`: None \
+`beta`: 0.1 \
 `bf16`: True \
+`learning_rate`: 1e-6 \
 `lr_scheduler_type`: cosine \
+`per_device_train_batch_size`: 8 \
+`gradient_accumulation_steps`: 2 \
 `torch_dtype`: bfloat16 \
 `num_train_epochs`: 1 \
 `max_prompt_length`: 512 \
 ### Results
+`init_train_loss`: 0.6958 \
+`final_train_loss`: 0.5375 \
 `accuracy`: 0.7188 \
+`reward_margin`: 0.7227
 ### Training script