hienbm
/

psychology-llama3.1-8B

@@ -1,29 +1,24 @@
 {
-  "alpha_pattern": {},
-  "auto_mapping": null,
-  "base_model_name_or_path": "meta-llama/Meta-Llama-3.1-8B",
-  "bias": "none",
-  "fan_in_fan_out": false,
-  "inference_mode": false,
-  "init_lora_weights": true,
-  "layer_replication": null,
-  "layers_pattern": null,
-  "layers_to_transform": null,
-  "loftq_config": {},
-  "lora_alpha": 16,
-  "lora_dropout": 0.1,
-  "megatron_config": null,
-  "megatron_core": "megatron.core",
-  "modules_to_save": null,
-  "peft_type": "LORA",
-  "r": 64,
-  "rank_pattern": {},
-  "revision": null,
-  "target_modules": [
-    "v_proj",
-    "q_proj"
-  ],
-  "task_type": "CAUSAL_LM",
-  "use_dora": false,
-  "use_rslora": false
 }

 {
+    "dataset_name": "data/packaged_pretrain_dataset.parquet",
+    "num_proc": 1,
+    "max_seq_length": 32,
+    "seed": 0,
+    "optim": "adamw_torch",
+    "max_steps": 60,
+    "per_device_train_batch_size": 2,
+    "learning_rate": 1e-05,
+    "weight_decay": 0,
+    "warmup_steps": 10,
+    "lr_scheduler_type": "linear",
+    "gradient_checkpointing": true,
+    "dataloader_num_workers": 2,
+    "bf16": true,
+    "gradient_accumulation_steps": 1,
+    "logging_steps": 3,
+    "report_to": [],
+    "save_strategy": "steps",
+    "save_steps": 3,
+    "save_total_limit": 1,
+    "push_to_hub": true,
+    "hub_model_id": "hienbm/psychology-llama3.1-8B"
 }