File size: 7,481 Bytes

5e21358

datamodule:
  transforms:
    combine_goal_obs: false
    move_axis: false
    bytes_to_string: true
    adjust_type: null
    add_robot_information: false
  language_encoders:
    _target_: medit.agents.input_encoders.goal_encoders.language_encoders.clip_tokens.TokenLangClip
    _recursive_: false
    model_name: ${clip_lang_model_name}
  _target_: oxe_torch_dataloader.uha.uha_datamodule.UhaDataModule
  _recursive_: false
  num_workers: ${num_workers}
  batch_size: ${batch_size}
  pin_memory: ${pin_memory}
  drop_last: ${drop_last}
  datasets:
    DATA_NAME: ${DATA_NAME}
    DATA_PATH: gs://gresearch/robotics
    load_camera_views: ${load_camera_views}
    dataset_size_limit: ${dataset_size_limit}
    action_proprio_normalization_type: bounds
    interleaved_dataset_cfg:
      shuffle_buffer_size: ${shuffle_buffer_size}
      balance_weights: true
      traj_transform_kwargs:
        goal_relabeling_strategy: ${goal_relabeling_strategy}
        goal_relabeling_kwargs: ${goal_relabeling_kwargs}
        window_size: ${window_size}
        action_horizon: ${act_seq_len}
        subsample_length: ${subsample_length}
        skip_unlabeled: ${skip_unlabeled}
      frame_transform_kwargs:
        image_augment_kwargs:
          primary:
            random_resized_crop:
              scale:
              - 0.8
              - 1.0
              ratio:
              - 0.9
              - 1.1
            random_brightness:
            - 0.1
            random_contrast:
            - 0.9
            - 1.1
            random_saturation:
            - 0.9
            - 1.1
            random_hue:
            - 0.05
            augment_order:
            - random_resized_crop
            - random_brightness
            - random_contrast
            - random_saturation
            - random_hue
          secondary:
            random_resized_crop:
              scale:
              - 0.8
              - 1.0
              ratio:
              - 0.9
              - 1.1
            random_brightness:
            - 0.1
            random_contrast:
            - 0.9
            - 1.1
            random_saturation:
            - 0.9
            - 1.1
            random_hue:
            - 0.05
            augment_order:
            - random_resized_crop
            - random_brightness
            - random_contrast
            - random_saturation
            - random_hue
          wrist:
            random_brightness:
            - 0.1
            random_contrast:
            - 0.9
            - 1.1
            random_saturation:
            - 0.9
            - 1.1
            random_hue:
            - 0.05
            augment_order:
            - random_brightness
            - random_contrast
            - random_saturation
            - random_hue
        resize_size:
          primary:
          - 224
          - 224
          secondary:
          - 224
          - 224
          wrist:
          - 224
          - 224
        resize_size_future_obs:
          primary:
          - 112
          - 112
          secondary:
          - 112
          - 112
          wrist:
          - 112
          - 112
        num_parallel_calls: 128
      traj_transform_threads: 64
      traj_read_threads: 32
trainer:
  agent:
    agent:
      language_goal:
        _target_: medit.agents.input_encoders.goal_encoders.language_encoders.clip_tokens.LangClip
        _recursive_: false
        freeze_backbone: true
        model_name: ${clip_lang_model_name}
      model:
        _target_: medit.agents.inner_models.edm_diffusion_policy.score_wrappers.GCDenoiser
        _recursive_: true
        sigma_data: 0.5
        inner_model:
          _target_: medit.agents.inner_models.modedit.MoDeDiT
          action_dim: ${act_dim}
          goal_dim: ${goal_dim}
          obs_dim: 2048
          goal_conditioned: true
          causal: true
          use_custom_attn_mask: false
          use_proprio: false
          state_dim: 8
          embed_dim: 1024
          n_layers: 12
          goal_seq_len: 1
          obs_seq_len: ${obs_seq_len}
          action_seq_len: ${act_seq_len}
          embed_pdrob: 0
          goal_drop: 0.1
          attn_pdrop: 0.3
          mlp_pdrop: 0.1
          n_heads: 8
          linear_output: true
          cond_router: true
          num_experts: 4
          top_k: 2
          router_normalize: true
          use_goal_in_routing: false
          use_argmax: false
          use_shared_expert: false
          use_noise_token_as_input: true
          init_style: olmoe
      _target_: medit.agents.mode_agent.MoDEAgent
      _recursive_: false
      latent_dim: 1024
      multistep: 5
      sampler_type: ddim
      num_sampling_steps: 5
      sigma_data: 0.5
      sigma_min: 0.001
      sigma_max: 80
      noise_scheduler: exponential
      sigma_sample_density_type: loglogistic
      act_window_size: ${act_seq_len}
      act_dim: ${act_dim}
      seed: ${seed}
      obs_modalities: ${obs_modalities}
      goal_modalities: ${goal_modalities}
      img_modalities: ${img_modalities}
      lang_modalities: ${lang_modalities}
      target_modality: ${target_modality}
      entropy_gamma: 0.01
      router_z_delta: 0.0
      resnet_type: '50'
    _target_: medit.agents.ddp_wrapper.DDPAgentWrapper
    _recursive_: false
    obs_modalities: ${obs_modalities}
    goal_modalities: ${goal_modalities}
    img_modalities: ${img_modalities}
    lang_modalities: ${lang_modalities}
    target_modality: ${target_modality}
  _target_: medit.trainers.accelerate_trainer.AccelerateTrainer
  _recursive_: false
  weight_decay:
    transformer_weight_decay: 0.1
    obs_encoder_weight_decay: 0.1
    perceptual_encoder_lr: 0.0001
  lr_scheduler: ${lr_scheduler}
  eval_every_n_steps: ${eval_every_n_steps}
  save_every_n_steps: ${save_every_n_steps}
  max_train_steps: ${max_train_steps}
  max_eval_steps: ${max_eval_steps}
  use_ema: true
  decay: ${decay}
  rampup_ratio: ${rampup_ratio}
  update_ema_every_n_steps: ${update_ema_every_n_steps}
  batch_size: ${batch_size}
  obs_modalities: ${obs_modalities}
  goal_modalities: ${goal_modalities}
  img_modalities: ${img_modalities}
  lang_modalities: ${lang_modalities}
  target_modality: ${target_modality}
vis_clip_model_name: ViT-B/16
clip_lang_model_name: ViT-B/32
DATA_NAME: MO
wandb:
  name: uha_${now:%H-%M-%S}
  group: ${now:%Y-%m-%d}
  project: simulation_eval
  entity: irl-masterthesis
  mode: null
lr_scheduler:
  _target_: medit.agents.utils.lr_schedulers.InverseSquareRootLRSchedule
  num_warmup_steps: 1000
  timescale: ${max_train_steps}
log_dir: logs/
window_size: 1
obs_seq_len: 1
goal_window_size: 1
seed: 42
obs_dim: 512
goal_dim: 512
act_seq_len: 10
update_ema_every_n_steps: 1
decay: 0.999
rampup_ratio: 0.001
gen_img_res: 112
num_tokens_voltron: 10
img_gen_frame_diff: 3
use_modality_encoder: false
goal_relabeling_strategy: null
goal_relabeling_kwargs:
  min_bound: 20
  max_bound: 50
  frame_diff: ${img_gen_frame_diff}
subsample_length: null
skip_unlabeled: true
load_camera_views:
- primary
- secondary
- wrist
obs_modalities: observation
goal_modalities: task
img_modalities:
- image_primary
- image_secondary
- image_wrist
lang_modalities:
- language_instruction
target_modality: action
drop_last: true
pin_memory: true
num_workers: 0
gradient_accumulation_steps: 1
act_dim: 7
max_train_steps: 300000
max_eval_steps: 200
eval_every_n_steps: 5000
save_every_n_steps: 5000
shuffle_buffer_size: 400000
batch_size: 512
dataset_size_limit: null