impossibleexchange
/

actuation41

Any-to-Any

omega

omegalabs

bittensor

agi

Model card Files Files and versions Community

impossibleexchange commited on Oct 3

Commit

bacb466

•

1 Parent(s): 87a4df0

Update training_config.yml

Browse files

Files changed (1) hide show

training_config.yml +21 -26

training_config.yml CHANGED Viewed

@@ -12,57 +12,54 @@ model:
 tokenizer:
   _component_: models.a2a_tokenizer
   path: models/tokenizer.model
-freeze_layers:
-  _component_: torchtune.utils.Freeze_Layers
-  num_layers: 8
 checkpointer:
   _component_: torchtune.utils.FullModelMetaCheckpointer
-  checkpoint_dir: tiresome5/
   checkpoint_files:
-  - meta_model_0.pt
   adapter_checkpoint: null
   recipe_checkpoint: null
   output_dir: output_checkpoints/experiment_1
   model_type: LLAMA3
-use_freeze_layers: true
 resume_from_checkpoint: false
-interim_checkpoint_steps: 20000
 interim_gen_steps: null
 max_new_tokens: 100
 temperature: 0.6
 top_k: 225
 dataset:
   _component_: ds.EvenBatcher
-  buffer_size: 1000
   dataset:
     _component_: ds.RoundRobinDataset
     datasets:
     - _component_: ds.CaptionInstructDataset
       dataset_path: ds/sam_llava/output.parquet
       train_on_input: false
 seed: null
 shuffle: true
-batch_size: 4
 optimizer:
   _component_: torch.optim.AdamW
-  weight_decay: 0.0001
-  lr: 0.0001
-  betas:
-  - 0.9
-  - 0.998
 lr_scheduler:
   _component_: torchtune.modules.get_cosine_schedule_with_warmup
-  num_warmup_steps: 500
 loss:
   _component_: torch.nn.CrossEntropyLoss
-grad_clip:
-  _component_: torch.nn.utils.clip_grad_norm
-  max_norm: 2.0
-  norm_type: 2
-epochs: 6
 max_steps_per_epoch: null
-gradient_accumulation_steps: 32
-compile: true
 output_dir: /tmp/lora_finetune_output
 metric_logger:
   _component_: torchtune.utils.metric_logging.DiskLogger
@@ -73,15 +70,13 @@ dtype: bf16
 enable_activation_checkpointing: false
 profiler:
   _component_: torchtune.utils.profiler
-  enabled: true
 inference:
   prompt_template: 'Video:
     {video}
     Caption the previous video.'
   max_new_tokens: 300
   temperature: 0.6
   top_k: 300
   quantizer: null
-gradient-accumulation-steps: 32

 tokenizer:
   _component_: models.a2a_tokenizer
   path: models/tokenizer.model
 checkpointer:
   _component_: torchtune.utils.FullModelMetaCheckpointer
+  checkpoint_dir:  checkpoints/Meta-Llama-3-8B-Instruct/
   checkpoint_files:
+  - consolidated.00.pth
   adapter_checkpoint: null
   recipe_checkpoint: null
   output_dir: output_checkpoints/experiment_1
   model_type: LLAMA3
 resume_from_checkpoint: false
+interim_checkpoint_steps: 15000
 interim_gen_steps: null
 max_new_tokens: 100
 temperature: 0.6
 top_k: 225
 dataset:
   _component_: ds.EvenBatcher
+  buffer_size: 4
   dataset:
     _component_: ds.RoundRobinDataset
     datasets:
+    - _component_: ds.OmegaVideoCaptionDataset
+      length: 500000
+    - _component_: ds.LlavaInstructDataset
+      dataset_path: ds/coco_llava_instruct/output.parquet
+      train_on_input: false
+    - _component_: ds.LlavaInstructDataset
+      dataset_path: ds/vision_flan/output.parquet
+      train_on_input: false
     - _component_: ds.CaptionInstructDataset
       dataset_path: ds/sam_llava/output.parquet
       train_on_input: false
 seed: null
 shuffle: true
+batch_size: 512
 optimizer:
   _component_: torch.optim.AdamW
+  weight_decay: 4.55
+  lr: 1.0000000001
 lr_scheduler:
   _component_: torchtune.modules.get_cosine_schedule_with_warmup
+  num_warmup_steps: 4
 loss:
   _component_: torch.nn.CrossEntropyLoss
+epochs: 1
 max_steps_per_epoch: null
+gradient_accumulation_steps: 1
+compile: false
 output_dir: /tmp/lora_finetune_output
 metric_logger:
   _component_: torchtune.utils.metric_logging.DiskLogger
 enable_activation_checkpointing: false
 profiler:
   _component_: torchtune.utils.profiler
+  enabled: false
 inference:
   prompt_template: 'Video:
     {video}
     Caption the previous video.'
   max_new_tokens: 300
   temperature: 0.6
   top_k: 300
   quantizer: null
+gradient-accumulation-steps: 32