ucl-dark · Aidandos · Oct 27, 2022 · Oct 27, 2022 · Oct 27, 2022 · Oct 27, 2022
diff --git a/pax/conf/experiment/cg/sanity.yaml b/pax/conf/experiment/cg/sanity.yaml
@@ -8,8 +8,9 @@ agent2: 'PPO_memory'
 env_id: coin_game
 env_type: sequential
 egocentric: True
+cnn: False
 env_discount: 0.96
-payoff: [[-1, -1], [-3, 0], [0, -3], [-2, -2]]
+payoff: [[1, 1, -2], [1, 1, -2]]
 runner: rl
 
 # Training hyperparameters

diff --git a/pax/conf/experiment/ipd/earl_v_ppo.yaml b/pax/conf/experiment/ipd/earl_v_ppo.yaml
@@ -26,7 +26,6 @@ num_generations: 5000
 total_timesteps: 1e11
 
 # Evaluation 
-num_seeds: 20
 # # EARL vs. PPO trained on seed=0
 # run_path: ucl-dark/ipd/13o3v95p
 # model_path: exp/EARL-PPO_memory-vs-PPO/run-seed-0-OpenES-pop-size-1000-num-opps-1/2022-09-15_00.15.31.908871/generation_2900

diff --git a/pax/conf/experiment/ipd/mfos_v_ppo.yaml b/pax/conf/experiment/ipd/mfos_v_ppo.yaml
@@ -11,19 +11,18 @@ env_discount: 0.96
 payoff: [[-1, -1], [-3, 0], [0, -3], [-2, -2]]
 
 # Runner 
-runner: rl 
-
+runner: evo 
 
 # Training
 top_k: 5
 popsize: 1000
-num_envs: 2
+num_envs: 100
 num_opps: 1
 num_steps: 10_000 
 num_inner_steps: 100 
 num_generations: 5000
 total_timesteps: 1e11
-num_devices: 1
+num_devices: 2
 
 # PPO agent parameters
 ppo:

diff --git a/pax/conf/experiment/ipd/mfos_v_ppo_mem.yaml b/pax/conf/experiment/ipd/mfos_v_ppo_mem.yaml
@@ -11,8 +11,7 @@ env_discount: 0.96
 payoff: [[-1, -1], [-3, 0], [0, -3], [-2, -2]]
 
 # Runner 
-evo: True 
-eval: False
+runner: evo
 
 # Training
 top_k: 5
@@ -23,8 +22,7 @@ num_steps: 10_000
 num_inner_steps: 100 
 num_generations: 5000
 total_timesteps: 1e11
-num_devices: 1
-runner: rl 
+num_devices: 2
 
 # PPO agent parameters
 ppo:

diff --git a/pax/conf/experiment/ipd/mfos_v_tabular.yaml b/pax/conf/experiment/ipd/mfos_v_tabular.yaml
@@ -11,7 +11,7 @@ env_discount: 0.96
 payoff: [[-1, -1], [-3, 0], [0, -3], [-2, -2]]
 
 # Runner 
-runner: rl 
+runner: evo
 
 # Training
 top_k: 5
@@ -22,10 +22,8 @@ num_steps: 10_000
 num_inner_steps: 100 
 num_generations: 5000
 total_timesteps: 1e11
-num_devices: 1
+num_devices: 2
 
-# Evaluation 
-num_seeds: 20
 # MFOS vs. Tabular trained on seed = 0
 run_path: ucl-dark/ipd/1r9txdso
 model_path:  exp/GS-MFOS-vs-Tabular/run-seed-0-pop-size-1000/2022-09-25_20.32.20.821162/generation_4400

diff --git a/pax/conf/experiment/ipd/ppo.yaml b/pax/conf/experiment/ipd/ppo.yaml
@@ -17,6 +17,7 @@ runner: rl
 num_envs: 100
 num_opps: 1
 num_steps: 150 # number of steps per episode
+num_inner_steps: 150
 total_timesteps: 1_000_000
 
 # Evaluation 

diff --git a/pax/conf/experiment/ipd/ppo_memory.yaml b/pax/conf/experiment/ipd/ppo_memory.yaml
@@ -20,6 +20,7 @@ eval: False
 num_envs: 100
 num_opps: 1
 num_steps: 150 # number of steps per episode
+num_inner_steps: 150
 total_timesteps: 2e7
 
 # Useful information

diff --git a/pax/conf/experiment/mp/earl_v_ppo.yaml b/pax/conf/experiment/mp/earl_v_ppo.yaml
@@ -25,7 +25,6 @@ total_timesteps: 1e11
 num_devices: 1
 
 # Evaluation 
-num_seeds: 20
 # # EARL vs. PPO trained on seed=0
 # run_path: ucl-dark/ipd/13o3v95p
 # model_path: exp/EARL-PPO_memory-vs-PPO/run-seed-0-OpenES-pop-size-1000-num-opps-1/2022-09-15_00.15.31.908871/generation_2900

diff --git a/pax/conf/experiment/mp/earl_v_ppo_mem.yaml b/pax/conf/experiment/mp/earl_v_ppo_mem.yaml
@@ -25,7 +25,6 @@ total_timesteps: 1e11
 num_devices: 1
 
 # Evaluation 
-num_seeds: 20
 # # EARL vs. PPO trained on seed=0
 # run_path: ucl-dark/ipd/13o3v95p
 # model_path: exp/EARL-PPO_memory-vs-PPO/run-seed-0-OpenES-pop-size-1000-num-opps-1/2022-09-15_00.15.31.908871/generation_2900

diff --git a/pax/conf/experiment/mp/gs_v_ppo_mem.yaml b/pax/conf/experiment/mp/gs_v_ppo_mem.yaml
@@ -24,9 +24,7 @@ num_generations: 5000
 total_timesteps: 1e11
 num_devices: 1
 
-# Evaluation 
-num_seeds: 20
-# # EARL vs. PPO trained on seed=0
+# EARL vs. PPO trained on seed=0
 # run_path: ucl-dark/ipd/13o3v95p
 # model_path: exp/EARL-PPO_memory-vs-PPO/run-seed-0-OpenES-pop-size-1000-num-opps-1/2022-09-15_00.15.31.908871/generation_2900
 # EARL vs. PPO trained on seed=1

diff --git a/pax/conf/experiment/mp/gs_v_tabular.yaml b/pax/conf/experiment/mp/gs_v_tabular.yaml
@@ -24,9 +24,7 @@ num_generations: 5000
 total_timesteps: 1e11
 num_devices: 1
 
-# Evaluation 
-num_seeds: 20
-# # EARL vs. PPO trained on seed=0
+# EARL vs. PPO trained on seed=0
 # run_path: ucl-dark/ipd/13o3v95p
 # model_path: exp/EARL-PPO_memory-vs-PPO/run-seed-0-OpenES-pop-size-1000-num-opps-1/2022-09-15_00.15.31.908871/generation_2900
 # EARL vs. PPO trained on seed=1

diff --git a/pax/conf/experiment/mp/mfos_v_tabular.yaml b/pax/conf/experiment/mp/mfos_v_tabular.yaml
@@ -24,9 +24,8 @@ num_generations: 5000
 total_timesteps: 1e11
 num_devices: 1
 
-# Evaluation 
-num_seeds: 20
-# # EARL vs. PPO trained on seed=0
+
+# EARL vs. PPO trained on seed=0
 # run_path: ucl-dark/ipd/13o3v95p
 # model_path: exp/EARL-PPO_memory-vs-PPO/run-seed-0-OpenES-pop-size-1000-num-opps-1/2022-09-15_00.15.31.908871/generation_2900
 # EARL vs. PPO trained on seed=1

diff --git a/pax/envs/__init__.py b/pax/envs/__init__.py