hienbm
/

psychology-llama3.1-8B

@@ -1,35 +1,24 @@
 {
-  "_name_or_path": "meta-llama/Meta-Llama-3.1-8B",
-  "architectures": [
-    "LlamaForCausalLM"
-  ],
-  "attention_bias": false,
-  "attention_dropout": 0.0,
-  "bos_token_id": 128000,
-  "eos_token_id": 128001,
-  "hidden_act": "silu",
-  "hidden_size": 1024,
-  "initializer_range": 0.02,
-  "intermediate_size": 4096,
-  "max_position_embeddings": 131072,
-  "mlp_bias": false,
-  "model_type": "llama",
-  "num_attention_heads": 32,
-  "num_hidden_layers": 16,
-  "num_key_value_heads": 8,
-  "pretraining_tp": 1,
-  "rms_norm_eps": 1e-05,
-  "rope_scaling": {
-    "factor": 8.0,
-    "high_freq_factor": 4.0,
-    "low_freq_factor": 1.0,
-    "original_max_position_embeddings": 8192,
-    "rope_type": "llama3"
-  },
-  "rope_theta": 500000.0,
-  "tie_word_embeddings": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.44.0.dev0",
-  "use_cache": false,
-  "vocab_size": 128256
-}

 {
+    "dataset_name": "data/packaged_pretrain_dataset.parquet",
+    "num_proc": 1,
+    "max_seq_length": 32,
+    "seed": 0,
+    "optim": "adamw_torch",
+    "max_steps": 10000,
+    "per_device_train_batch_size": 2,
+    "learning_rate": 5e-05,
+    "weight_decay": 0,
+    "warmup_steps": 10,
+    "lr_scheduler_type": "linear",
+    "gradient_checkpointing": true,
+    "dataloader_num_workers": 2,
+    "bf16": true,
+    "gradient_accumulation_steps": 1,
+    "logging_steps": 3,
+    "report_to": [],
+    "save_strategy": "steps",
+    "save_steps": 3,
+    "save_total_limit": 1,
+    "push_to_hub": true,
+    "hub_model_id": "hienbm/psychology-llama3.1-8B"
+}