Spaces:
Running
Running
## Pointing Case study | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_Pointing_CS_PPO_no --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EPointingInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name PointingTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_Pointing_CS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EPointingInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name PointingTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_Pointing_CS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EPointingInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name PointingTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.005 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_Pointing_CS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EPointingInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name PointingTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type ride --*intrinsic-reward-coef 0.01 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_Pointing_CS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EPointingInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name PointingTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
# | |
## Lang Color Case study | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_LangColor_CS_PPO_no --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangColorInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name LangColorTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_LangColor_CS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangColorInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name LangColorTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_LangColor_CS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangColorInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name LangColorTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.005 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_LangColor_CS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangColorInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name LangColorTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type ride --*intrinsic-reward-coef 0.01 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_LangColor_CS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangColorInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name LangColorTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
# 3 and 5 colors - CBL | |
# --slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_LangColor_CS_5C_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangColorInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name LangColorTestSet --env-args see_through_walls False n_colors 5 --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_LangColor_CS_3C_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangColorInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name LangColorTestSet --env-args see_through_walls False n_colors 3 --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
# Lang Feedback Case study - 20M | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 20000000 --model SAI_LangFeedback_CS_PPO_no --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name LangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 20000000 --model SAI_LangFeedback_CS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name LangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 20000000 --model SAI_LangFeedback_CS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name LangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.005 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 20000000 --model SAI_LangFeedback_CS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name LangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type ride --*intrinsic-reward-coef 0.01 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 20000000 --model SAI_LangFeedback_CS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name LangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
## Joint attention experiments | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_JA_Pointing_CS_PPO_CB_less_ --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-JAEPointingInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name JAPointingTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_JA_LangColor_CS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-JAELangColorInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name JALangColorTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 40000000 --model SAI_JA_LangFeedback_CS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-JAELangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name JALangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
# | |
## 3 and 5 colors - CBL | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_JA_LangColor_CS_5C_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-JAELangColorInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name JALangColorTestSet --env-args see_through_walls False n_colors 5 --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_cpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_JA_LangColor_CS_3C_PPO_CBL_cpu --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-JAELangColorInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name JALangColorTestSet --env-args see_through_walls False n_colors 3 --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
## Imitation | |
## rec 5 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_ImitationDistr_CS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EEmulationDistrInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name DistrEmulationTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_ImitationNoDistr_CS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EEmulationNoDistrInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name NoDistrEmulationTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 | |
## rec 10 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_ImitationDistr_CS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EEmulationDistrInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name DistrEmulationTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_ImitationNoDistr_CS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EEmulationNoDistrInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name NoDistrEmulationTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 | |
## Imitation - less | |
## rec 5 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_ImitationDistr_CS_PPO_CB_small --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EEmulationDistrInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name DistrEmulationTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_ImitationNoDistr_CS_PPO_CB_small --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EEmulationNoDistrInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name NoDistrEmulationTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6 | |
## rec 10 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_ImitationDistr_CS_PPO_CB_small --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EEmulationDistrInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name DistrEmulationTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_ImitationNoDistr_CS_PPO_CB_small --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EEmulationNoDistrInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name NoDistrEmulationTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6 | |
## Formats - CBL | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 40000000 --model SAI_LangFeedback_CS_F_NO_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-NLangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name NLangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
##--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 40000000 --model SAI_LangFeedback_CS_EYE_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name ELangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 40000000 --model SAI_LangFeedback_CS_F_ASK_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ALangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name ALangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 40000000 --model SAI_LangFeedback_CS_F_ASK_EYE_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-AELangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name AELangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 | |
## Formats - NO | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 40000000 --model SAI_LangFeedback_CS_F_NO_PPO_NO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-NLangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name NLangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 | |
##--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 40000000 --model SAI_LangFeedback_CS_EYE_PPO_NO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ELangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name ELangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 40000000 --model SAI_LangFeedback_CS_F_ASK_PPO_NO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-ALangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name ALangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 40000000 --model SAI_LangFeedback_CS_F_ASK_EYE_PPO_NO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-AELangFeedbackInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name AELangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 |