Spaces:
Running
Running
# we selected the parameters | |
# PPO: 543, 845, 544 | |
# soc inf grid search | |
# Ask pointing boxes | |
# 545 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 0.1 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 0.1 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 5 --*intrinsic-reward-coef 0.1 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 0.1 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 30 --*intrinsic-reward-coef 0.1 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 0.1 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 1 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 1 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 5 --*intrinsic-reward-coef 1 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 1 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 30 --*intrinsic-reward-coef 1 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 1 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 5 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 5 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 5 --*intrinsic-reward-coef 5 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 5 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 30 --*intrinsic-reward-coef 5 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 5 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 10 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 10 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 5 --*intrinsic-reward-coef 10 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 10 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 30 --*intrinsic-reward-coef 10 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 10 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 30 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 30 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 5 --*intrinsic-reward-coef 30 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 30 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 30 --*intrinsic-reward-coef 30 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 30 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 100 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 100 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 5 --*intrinsic-reward-coef 100 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 100 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 30 --*intrinsic-reward-coef 100 | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 100 | |
## 845 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 0.1 | |
## 544 | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 0.1 |