diff --git "a/sf_log.txt" "b/sf_log.txt"
--- "a/sf_log.txt"
+++ "b/sf_log.txt"
@@ -7167,3 +7167,4312 @@
 [2024-06-10 11:56:19,592][32177] Fps is (10 sec: 44255.8, 60 sec: 45329.1, 300 sec: 44931.1). Total num frames: 401326080. Throughput: 0: 44629.0. Samples: 401429560. Policy #0 lag: (min: 1.0, avg: 8.9, max: 20.0)
 [2024-06-10 11:56:19,592][32177] Avg episode reward: [(0, '0.295')]
 [2024-06-10 11:56:21,209][32415] Updated weights for policy 0, policy_version 24500 (0.0040)
+[2024-06-10 11:59:23,791][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w22
+[2024-06-10 11:59:23,793][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w6
+[2024-06-10 11:59:23,794][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w7
+[2024-06-10 11:59:23,794][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w2
+[2024-06-10 11:59:23,794][32177] Heartbeat reconnected after 186 seconds from LearnerWorker_p0
+[2024-06-10 11:59:23,794][32177] Fps is (10 sec: 1905.1, 60 sec: 10959.3, 300 sec: 27813.3). Total num frames: 401489920. Throughput: 0: 8408.5. Samples: 401564300. Policy #0 lag: (min: 0.0, avg: 10.1, max: 22.0)
+[2024-06-10 11:59:23,795][32177] Avg episode reward: [(0, '0.289')]
+[2024-06-10 11:59:23,807][32177] No heartbeat for components: Batcher_0 (186 seconds), InferenceWorker_p0-w0 (186 seconds), RolloutWorker_w0 (186 seconds), RolloutWorker_w1 (186 seconds), RolloutWorker_w3 (186 seconds), RolloutWorker_w4 (186 seconds), RolloutWorker_w5 (186 seconds), RolloutWorker_w8 (186 seconds), RolloutWorker_w9 (186 seconds), RolloutWorker_w10 (186 seconds), RolloutWorker_w11 (186 seconds), RolloutWorker_w12 (186 seconds), RolloutWorker_w13 (186 seconds), RolloutWorker_w14 (186 seconds), RolloutWorker_w15 (186 seconds), RolloutWorker_w16 (186 seconds), RolloutWorker_w17 (186 seconds), RolloutWorker_w18 (186 seconds), RolloutWorker_w19 (186 seconds), RolloutWorker_w20 (186 seconds), RolloutWorker_w21 (186 seconds), RolloutWorker_w23 (186 seconds), RolloutWorker_w24 (186 seconds), RolloutWorker_w25 (186 seconds), RolloutWorker_w26 (186 seconds), RolloutWorker_w27 (186 seconds), RolloutWorker_w28 (186 seconds), RolloutWorker_w29 (186 seconds), RolloutWorker_w30 (186 seconds), RolloutWorker_w31 (186 seconds)
+[2024-06-10 11:59:23,808][32177] Stopping training due to lack of heartbeats from <class 'sample_factory.algo.learning.batcher.Batcher'>, <class 'sample_factory.algo.sampling.inference_worker.InferenceWorker'>
+[2024-06-10 11:59:23,808][32436] Stopping RolloutWorker_w21...
+[2024-06-10 11:59:23,808][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w5
+[2024-06-10 11:59:23,808][32436] Loop rollout_proc21_evt_loop terminating...
+[2024-06-10 11:59:23,808][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w10
+[2024-06-10 11:59:23,809][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w13
+[2024-06-10 11:59:23,809][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w11
+[2024-06-10 11:59:23,809][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w1
+[2024-06-10 11:59:23,809][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w4
+[2024-06-10 11:59:23,810][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w15
+[2024-06-10 11:59:23,810][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w0
+[2024-06-10 11:59:23,810][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w25
+[2024-06-10 11:59:23,810][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w8
+[2024-06-10 11:59:23,810][32177] Fps is (10 sec: 889.4, 60 sec: 10213.0, 300 sec: 27654.8). Total num frames: 401489920. Throughput: 0: 7950.1. Samples: 401564300. Policy #0 lag: (min: 0.0, avg: 10.1, max: 22.0)
+[2024-06-10 11:59:23,810][32177] Avg episode reward: [(0, '0.289')]
+[2024-06-10 11:59:23,810][32418] Stopping RolloutWorker_w2...
+[2024-06-10 11:59:23,811][32418] Loop rollout_proc2_evt_loop terminating...
+[2024-06-10 11:59:23,812][32421] Stopping RolloutWorker_w7...
+[2024-06-10 11:59:23,812][32421] Loop rollout_proc7_evt_loop terminating...
+[2024-06-10 11:59:23,813][32437] Stopping RolloutWorker_w22...
+[2024-06-10 11:59:23,813][32437] Loop rollout_proc22_evt_loop terminating...
+[2024-06-10 11:59:23,814][32420] Stopping RolloutWorker_w5...
+[2024-06-10 11:59:23,814][32417] Stopping RolloutWorker_w1...
+[2024-06-10 11:59:23,814][32426] Stopping RolloutWorker_w13...
+[2024-06-10 11:59:23,814][32420] Loop rollout_proc5_evt_loop terminating...
+[2024-06-10 11:59:23,814][32417] Loop rollout_proc1_evt_loop terminating...
+[2024-06-10 11:59:23,815][32426] Loop rollout_proc13_evt_loop terminating...
+[2024-06-10 11:59:23,814][32427] Stopping RolloutWorker_w11...
+[2024-06-10 11:59:23,814][32425] Stopping RolloutWorker_w10...
+[2024-06-10 11:59:23,815][32427] Loop rollout_proc11_evt_loop terminating...
+[2024-06-10 11:59:23,815][32425] Loop rollout_proc10_evt_loop terminating...
+[2024-06-10 11:59:23,815][32423] Stopping RolloutWorker_w8...
+[2024-06-10 11:59:23,815][32419] Stopping RolloutWorker_w4...
+[2024-06-10 11:59:23,815][32423] Loop rollout_proc8_evt_loop terminating...
+[2024-06-10 11:59:23,815][32435] Stopping RolloutWorker_w20...
+[2024-06-10 11:59:23,815][32419] Loop rollout_proc4_evt_loop terminating...
+[2024-06-10 11:59:23,815][32433] Stopping RolloutWorker_w19...
+[2024-06-10 11:59:23,815][32428] Stopping RolloutWorker_w14...
+[2024-06-10 11:59:23,815][32430] Stopping RolloutWorker_w15...
+[2024-06-10 11:59:23,815][32435] Loop rollout_proc20_evt_loop terminating...
+[2024-06-10 11:59:23,815][32441] Stopping RolloutWorker_w25...
+[2024-06-10 11:59:23,815][32432] Stopping RolloutWorker_w17...
+[2024-06-10 11:59:23,815][32433] Loop rollout_proc19_evt_loop terminating...
+[2024-06-10 11:59:23,815][32428] Loop rollout_proc14_evt_loop terminating...
+[2024-06-10 11:59:23,815][32430] Loop rollout_proc15_evt_loop terminating...
+[2024-06-10 11:59:23,815][32441] Loop rollout_proc25_evt_loop terminating...
+[2024-06-10 11:59:23,815][32432] Loop rollout_proc17_evt_loop terminating...
+[2024-06-10 11:59:23,815][32443] Stopping RolloutWorker_w27...
+[2024-06-10 11:59:23,815][32438] Stopping RolloutWorker_w24...
+[2024-06-10 11:59:23,815][32431] Stopping RolloutWorker_w16...
+[2024-06-10 11:59:23,816][32443] Loop rollout_proc27_evt_loop terminating...
+[2024-06-10 11:59:23,815][32440] Stopping RolloutWorker_w26...
+[2024-06-10 11:59:23,815][32444] Stopping RolloutWorker_w29...
+[2024-06-10 11:59:23,815][32414] Stopping RolloutWorker_w0...
+[2024-06-10 11:59:23,816][32438] Loop rollout_proc24_evt_loop terminating...
+[2024-06-10 11:59:23,816][32431] Loop rollout_proc16_evt_loop terminating...
+[2024-06-10 11:59:23,816][32446] Stopping RolloutWorker_w30...
+[2024-06-10 11:59:23,816][32444] Loop rollout_proc29_evt_loop terminating...
+[2024-06-10 11:59:23,816][32440] Loop rollout_proc26_evt_loop terminating...
+[2024-06-10 11:59:23,816][32414] Loop rollout_proc0_evt_loop terminating...
+[2024-06-10 11:59:23,816][32446] Loop rollout_proc30_evt_loop terminating...
+[2024-06-10 11:59:23,816][32442] Stopping RolloutWorker_w28...
+[2024-06-10 11:59:23,816][32442] Loop rollout_proc28_evt_loop terminating...
+[2024-06-10 11:59:23,816][32434] Stopping RolloutWorker_w18...
+[2024-06-10 11:59:23,816][32445] Stopping RolloutWorker_w31...
+[2024-06-10 11:59:23,816][32434] Loop rollout_proc18_evt_loop terminating...
+[2024-06-10 11:59:23,816][32445] Loop rollout_proc31_evt_loop terminating...
+[2024-06-10 11:59:23,822][32429] Stopping RolloutWorker_w12...
+[2024-06-10 11:59:23,823][32429] Loop rollout_proc12_evt_loop terminating...
+[2024-06-10 11:59:23,826][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w14
+[2024-06-10 11:59:23,827][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w20
+[2024-06-10 11:59:23,827][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w29
+[2024-06-10 11:59:23,827][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w17
+[2024-06-10 11:59:23,827][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w27
+[2024-06-10 11:59:23,827][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w19
+[2024-06-10 11:59:23,827][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w24
+[2024-06-10 11:59:23,827][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w16
+[2024-06-10 11:59:23,828][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w30
+[2024-06-10 11:59:23,828][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w26
+[2024-06-10 11:59:23,828][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w12
+[2024-06-10 11:59:23,828][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w28
+[2024-06-10 11:59:23,828][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w21
+[2024-06-10 11:59:23,828][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w18
+[2024-06-10 11:59:23,828][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w31
+[2024-06-10 11:59:23,829][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w9
+[2024-06-10 11:59:23,829][32177] Heartbeat reconnected after 186 seconds from RolloutWorker_w3
+[2024-06-10 11:59:23,829][32177] Component RolloutWorker_w21 stopped!
+[2024-06-10 11:59:23,829][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w1', 'RolloutWorker_w2', 'RolloutWorker_w3', 'RolloutWorker_w4', 'RolloutWorker_w5', 'RolloutWorker_w6', 'RolloutWorker_w7', 'RolloutWorker_w8', 'RolloutWorker_w9', 'RolloutWorker_w10', 'RolloutWorker_w11', 'RolloutWorker_w12', 'RolloutWorker_w13', 'RolloutWorker_w14', 'RolloutWorker_w15', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w20', 'RolloutWorker_w22', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,829][32177] Heartbeat reconnected after 186 seconds from InferenceWorker_p0-w0
+[2024-06-10 11:59:23,830][32177] Component RolloutWorker_w2 stopped!
+[2024-06-10 11:59:23,830][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w1', 'RolloutWorker_w3', 'RolloutWorker_w4', 'RolloutWorker_w5', 'RolloutWorker_w6', 'RolloutWorker_w7', 'RolloutWorker_w8', 'RolloutWorker_w9', 'RolloutWorker_w10', 'RolloutWorker_w11', 'RolloutWorker_w12', 'RolloutWorker_w13', 'RolloutWorker_w14', 'RolloutWorker_w15', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w20', 'RolloutWorker_w22', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,830][32177] Component RolloutWorker_w7 stopped!
+[2024-06-10 11:59:23,830][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w1', 'RolloutWorker_w3', 'RolloutWorker_w4', 'RolloutWorker_w5', 'RolloutWorker_w6', 'RolloutWorker_w8', 'RolloutWorker_w9', 'RolloutWorker_w10', 'RolloutWorker_w11', 'RolloutWorker_w12', 'RolloutWorker_w13', 'RolloutWorker_w14', 'RolloutWorker_w15', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w20', 'RolloutWorker_w22', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,831][32177] Component RolloutWorker_w22 stopped!
+[2024-06-10 11:59:23,831][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w1', 'RolloutWorker_w3', 'RolloutWorker_w4', 'RolloutWorker_w5', 'RolloutWorker_w6', 'RolloutWorker_w8', 'RolloutWorker_w9', 'RolloutWorker_w10', 'RolloutWorker_w11', 'RolloutWorker_w12', 'RolloutWorker_w13', 'RolloutWorker_w14', 'RolloutWorker_w15', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w20', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,831][32177] Component RolloutWorker_w5 stopped!
+[2024-06-10 11:59:23,831][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w1', 'RolloutWorker_w3', 'RolloutWorker_w4', 'RolloutWorker_w6', 'RolloutWorker_w8', 'RolloutWorker_w9', 'RolloutWorker_w10', 'RolloutWorker_w11', 'RolloutWorker_w12', 'RolloutWorker_w13', 'RolloutWorker_w14', 'RolloutWorker_w15', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w20', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,831][32177] Component RolloutWorker_w1 stopped!
+[2024-06-10 11:59:23,831][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w4', 'RolloutWorker_w6', 'RolloutWorker_w8', 'RolloutWorker_w9', 'RolloutWorker_w10', 'RolloutWorker_w11', 'RolloutWorker_w12', 'RolloutWorker_w13', 'RolloutWorker_w14', 'RolloutWorker_w15', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w20', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,831][32177] Component RolloutWorker_w13 stopped!
+[2024-06-10 11:59:23,832][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w4', 'RolloutWorker_w6', 'RolloutWorker_w8', 'RolloutWorker_w9', 'RolloutWorker_w10', 'RolloutWorker_w11', 'RolloutWorker_w12', 'RolloutWorker_w14', 'RolloutWorker_w15', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w20', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,832][32177] Component RolloutWorker_w11 stopped!
+[2024-06-10 11:59:23,832][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w4', 'RolloutWorker_w6', 'RolloutWorker_w8', 'RolloutWorker_w9', 'RolloutWorker_w10', 'RolloutWorker_w12', 'RolloutWorker_w14', 'RolloutWorker_w15', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w20', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,832][32177] Component RolloutWorker_w10 stopped!
+[2024-06-10 11:59:23,833][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w4', 'RolloutWorker_w6', 'RolloutWorker_w8', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w14', 'RolloutWorker_w15', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w20', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,833][32177] Component RolloutWorker_w8 stopped!
+[2024-06-10 11:59:23,833][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w4', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w14', 'RolloutWorker_w15', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w20', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,833][32177] Component RolloutWorker_w4 stopped!
+[2024-06-10 11:59:23,833][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w14', 'RolloutWorker_w15', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w20', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,836][32424] Stopping RolloutWorker_w9...
+[2024-06-10 11:59:23,838][32424] Loop rollout_proc9_evt_loop terminating...
+[2024-06-10 11:59:23,838][32394] Stopping Batcher_0...
+[2024-06-10 11:59:23,838][32394] Loop batcher_evt_loop terminating...
+[2024-06-10 11:59:23,837][32177] Component RolloutWorker_w20 stopped!
+[2024-06-10 11:59:23,840][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w14', 'RolloutWorker_w15', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,840][32394] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000024505_401489920.pth...
+[2024-06-10 11:59:23,841][32177] Component RolloutWorker_w15 stopped!
+[2024-06-10 11:59:23,841][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w14', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,841][32177] Component RolloutWorker_w14 stopped!
+[2024-06-10 11:59:23,841][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w19', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,841][32177] Component RolloutWorker_w19 stopped!
+[2024-06-10 11:59:23,841][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w25', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,842][32177] Component RolloutWorker_w25 stopped!
+[2024-06-10 11:59:23,842][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w16', 'RolloutWorker_w17', 'RolloutWorker_w18', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,842][32177] Component RolloutWorker_w17 stopped!
+[2024-06-10 11:59:23,842][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w16', 'RolloutWorker_w18', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w26', 'RolloutWorker_w27', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,842][32177] Component RolloutWorker_w27 stopped!
+[2024-06-10 11:59:23,842][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w16', 'RolloutWorker_w18', 'RolloutWorker_w23', 'RolloutWorker_w24', 'RolloutWorker_w26', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,843][32177] Component RolloutWorker_w24 stopped!
+[2024-06-10 11:59:23,843][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w16', 'RolloutWorker_w18', 'RolloutWorker_w23', 'RolloutWorker_w26', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,843][32177] Component RolloutWorker_w16 stopped!
+[2024-06-10 11:59:23,843][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w18', 'RolloutWorker_w23', 'RolloutWorker_w26', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,843][32177] Component RolloutWorker_w0 stopped!
+[2024-06-10 11:59:23,844][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w18', 'RolloutWorker_w23', 'RolloutWorker_w26', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,844][32177] Component RolloutWorker_w26 stopped!
+[2024-06-10 11:59:23,844][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w18', 'RolloutWorker_w23', 'RolloutWorker_w28', 'RolloutWorker_w29', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,844][32177] Component RolloutWorker_w29 stopped!
+[2024-06-10 11:59:23,844][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w18', 'RolloutWorker_w23', 'RolloutWorker_w28', 'RolloutWorker_w30', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,845][32177] Component RolloutWorker_w30 stopped!
+[2024-06-10 11:59:23,845][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w18', 'RolloutWorker_w23', 'RolloutWorker_w28', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,845][32177] Component RolloutWorker_w28 stopped!
+[2024-06-10 11:59:23,845][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w18', 'RolloutWorker_w23', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,845][32177] Component RolloutWorker_w18 stopped!
+[2024-06-10 11:59:23,846][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w23', 'RolloutWorker_w31'] to stop...
+[2024-06-10 11:59:23,846][32177] Component RolloutWorker_w31 stopped!
+[2024-06-10 11:59:23,846][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w12', 'RolloutWorker_w23'] to stop...
+[2024-06-10 11:59:23,846][32177] Component RolloutWorker_w12 stopped!
+[2024-06-10 11:59:23,846][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w9', 'RolloutWorker_w23'] to stop...
+[2024-06-10 11:59:23,847][32177] Component RolloutWorker_w9 stopped!
+[2024-06-10 11:59:23,847][32177] Waiting for ['Batcher_0', 'LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w23'] to stop...
+[2024-06-10 11:59:23,847][32177] Heartbeat reconnected after 186 seconds from Batcher_0
+[2024-06-10 11:59:23,847][32177] Component Batcher_0 stopped!
+[2024-06-10 11:59:23,848][32177] Waiting for ['LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w3', 'RolloutWorker_w6', 'RolloutWorker_w23'] to stop...
+[2024-06-10 11:59:23,934][32394] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000023879_391233536.pth
+[2024-06-10 11:59:23,942][32177] Component RolloutWorker_w23 stopped!
+[2024-06-10 11:59:23,943][32177] Waiting for ['LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w3', 'RolloutWorker_w6'] to stop...
+[2024-06-10 11:59:23,944][32439] Stopping RolloutWorker_w23...
+[2024-06-10 11:59:23,944][32394] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000024505_401489920.pth...
+[2024-06-10 11:59:23,944][32439] Loop rollout_proc23_evt_loop terminating...
+[2024-06-10 11:59:23,956][32415] Weights refcount: 2 0
+[2024-06-10 11:59:23,980][32416] Stopping RolloutWorker_w3...
+[2024-06-10 11:59:23,981][32416] Loop rollout_proc3_evt_loop terminating...
+[2024-06-10 11:59:23,984][32415] Stopping InferenceWorker_p0-w0...
+[2024-06-10 11:59:23,984][32177] Component RolloutWorker_w3 stopped!
+[2024-06-10 11:59:23,985][32177] Waiting for ['LearnerWorker_p0', 'InferenceWorker_p0-w0', 'RolloutWorker_w6'] to stop...
+[2024-06-10 11:59:23,985][32415] Loop inference_proc0-0_evt_loop terminating...
+[2024-06-10 11:59:23,985][32177] Component InferenceWorker_p0-w0 stopped!
+[2024-06-10 11:59:23,985][32177] Waiting for ['LearnerWorker_p0', 'RolloutWorker_w6'] to stop...
+[2024-06-10 11:59:23,988][32422] Stopping RolloutWorker_w6...
+[2024-06-10 11:59:23,989][32422] Loop rollout_proc6_evt_loop terminating...
+[2024-06-10 11:59:23,992][32177] Component RolloutWorker_w6 stopped!
+[2024-06-10 11:59:23,992][32177] Waiting for ['LearnerWorker_p0'] to stop...
+[2024-06-10 11:59:24,055][32394] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000024505_401489920.pth...
+[2024-06-10 11:59:24,238][32394] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000024505_401489920.pth...
+[2024-06-10 11:59:24,366][32394] Stopping LearnerWorker_p0...
+[2024-06-10 11:59:24,367][32394] Loop learner_proc0_evt_loop terminating...
+[2024-06-10 11:59:24,366][32177] Component LearnerWorker_p0 stopped!
+[2024-06-10 11:59:24,367][32177] Waiting for process learner_proc0 to stop...
+[2024-06-10 11:59:25,909][32177] Waiting for process inference_proc0-0 to join...
+[2024-06-10 11:59:25,909][32177] Waiting for process rollout_proc0 to join...
+[2024-06-10 11:59:25,910][32177] Waiting for process rollout_proc1 to join...
+[2024-06-10 11:59:25,910][32177] Waiting for process rollout_proc2 to join...
+[2024-06-10 11:59:25,950][32177] Waiting for process rollout_proc3 to join...
+[2024-06-10 11:59:25,950][32177] Waiting for process rollout_proc4 to join...
+[2024-06-10 11:59:25,950][32177] Waiting for process rollout_proc5 to join...
+[2024-06-10 11:59:25,950][32177] Waiting for process rollout_proc6 to join...
+[2024-06-10 11:59:25,958][32177] Waiting for process rollout_proc7 to join...
+[2024-06-10 11:59:25,967][32177] Waiting for process rollout_proc8 to join...
+[2024-06-10 11:59:25,967][32177] Waiting for process rollout_proc9 to join...
+[2024-06-10 11:59:25,967][32177] Waiting for process rollout_proc10 to join...
+[2024-06-10 11:59:25,968][32177] Waiting for process rollout_proc11 to join...
+[2024-06-10 11:59:25,968][32177] Waiting for process rollout_proc12 to join...
+[2024-06-10 11:59:25,968][32177] Waiting for process rollout_proc13 to join...
+[2024-06-10 11:59:25,968][32177] Waiting for process rollout_proc14 to join...
+[2024-06-10 11:59:25,968][32177] Waiting for process rollout_proc15 to join...
+[2024-06-10 11:59:25,968][32177] Waiting for process rollout_proc16 to join...
+[2024-06-10 11:59:25,968][32177] Waiting for process rollout_proc17 to join...
+[2024-06-10 11:59:25,968][32177] Waiting for process rollout_proc18 to join...
+[2024-06-10 11:59:25,968][32177] Waiting for process rollout_proc19 to join...
+[2024-06-10 11:59:25,969][32177] Waiting for process rollout_proc20 to join...
+[2024-06-10 11:59:25,969][32177] Waiting for process rollout_proc21 to join...
+[2024-06-10 11:59:25,969][32177] Waiting for process rollout_proc22 to join...
+[2024-06-10 11:59:25,969][32177] Waiting for process rollout_proc23 to join...
+[2024-06-10 11:59:25,969][32177] Waiting for process rollout_proc24 to join...
+[2024-06-10 11:59:25,969][32177] Waiting for process rollout_proc25 to join...
+[2024-06-10 11:59:25,969][32177] Waiting for process rollout_proc26 to join...
+[2024-06-10 11:59:25,969][32177] Waiting for process rollout_proc27 to join...
+[2024-06-10 11:59:25,969][32177] Waiting for process rollout_proc28 to join...
+[2024-06-10 11:59:25,970][32177] Waiting for process rollout_proc29 to join...
+[2024-06-10 11:59:25,970][32177] Waiting for process rollout_proc30 to join...
+[2024-06-10 11:59:25,970][32177] Waiting for process rollout_proc31 to join...
+[2024-06-10 11:59:25,970][32177] Batcher 0 profile tree view:
+batching: 1168.7937, releasing_batches: 50.5313
+[2024-06-10 11:59:25,970][32177] InferenceWorker_p0-w0 profile tree view:
+wait_policy: 0.0005
+  wait_policy_total: 118.4919
+update_model: 104.8437
+  weight_update: 0.0034
+one_step: 0.0326
+  handle_policy_step: 8813.1497
+    deserialize: 953.3885, stack: 30.9688, obs_to_device_normalize: 1907.0688, forward: 4701.2898, send_messages: 300.6705
+    prepare_outputs: 771.6320
+      to_cpu: 372.2793
+[2024-06-10 11:59:25,970][32177] Learner 0 profile tree view:
+misc: 0.0939, prepare_batch: 327.4295
+train: 2969.7579
+  epoch_init: 0.0856, minibatch_init: 0.0849, losses_postprocess: 9.9600, kl_divergence: 14.6689, after_optimizer: 1077.4544
+  calculate_losses: 1660.9255
+    losses_init: 0.0560, forward_head: 169.0042, bptt_initial: 1316.6657, tail: 22.7931, advantages_returns: 3.5714, losses: 69.0342
+    bptt: 73.6784
+      bptt_forward_core: 72.6842
+  update: 198.1883
+    clip: 19.2591
+[2024-06-10 11:59:25,970][32177] RolloutWorker_w0 profile tree view:
+wait_for_trajectories: 0.5624, enqueue_policy_requests: 203.7042, env_step: 4086.5198, overhead: 131.8047, complete_rollouts: 0.6303
+save_policy_outputs: 356.4279
+  split_output_tensors: 159.0076
+[2024-06-10 11:59:25,970][32177] RolloutWorker_w31 profile tree view:
+wait_for_trajectories: 0.5246, enqueue_policy_requests: 216.8307, env_step: 4479.3893, overhead: 154.7423, complete_rollouts: 146.0848
+save_policy_outputs: 373.7138
+  split_output_tensors: 156.9143
+[2024-06-10 11:59:25,970][32177] Loop Runner_EvtLoop terminating...
+[2024-06-10 11:59:25,970][32177] Runner profile tree view:
+main_loop: 9168.5278
+[2024-06-10 11:59:25,971][32177] Collected {0: 401489920}, FPS: 43790.0
+[2024-06-10 11:59:35,644][35745] Saving configuration to /workspace/metta/train_dir/p2.metta.6/config.json...
+[2024-06-10 11:59:35,660][35745] Rollout worker 0 uses device cpu
+[2024-06-10 11:59:35,660][35745] Rollout worker 1 uses device cpu
+[2024-06-10 11:59:35,660][35745] Rollout worker 2 uses device cpu
+[2024-06-10 11:59:35,660][35745] Rollout worker 3 uses device cpu
+[2024-06-10 11:59:35,660][35745] Rollout worker 4 uses device cpu
+[2024-06-10 11:59:35,660][35745] Rollout worker 5 uses device cpu
+[2024-06-10 11:59:35,660][35745] Rollout worker 6 uses device cpu
+[2024-06-10 11:59:35,660][35745] Rollout worker 7 uses device cpu
+[2024-06-10 11:59:35,660][35745] Rollout worker 8 uses device cpu
+[2024-06-10 11:59:35,660][35745] Rollout worker 9 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 10 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 11 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 12 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 13 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 14 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 15 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 16 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 17 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 18 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 19 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 20 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 21 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 22 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 23 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 24 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 25 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 26 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 27 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 28 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 29 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 30 uses device cpu
+[2024-06-10 11:59:35,661][35745] Rollout worker 31 uses device cpu
+[2024-06-10 11:59:36,167][35745] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-06-10 11:59:36,167][35745] InferenceWorker_p0-w0: min num requests: 10
+[2024-06-10 11:59:36,208][35745] Starting all processes...
+[2024-06-10 11:59:36,208][35745] Starting process learner_proc0
+[2024-06-10 11:59:36,470][35745] Starting all processes...
+[2024-06-10 11:59:36,472][35745] Starting process inference_proc0-0
+[2024-06-10 11:59:36,472][35745] Starting process rollout_proc0
+[2024-06-10 11:59:36,472][35745] Starting process rollout_proc1
+[2024-06-10 11:59:36,473][35745] Starting process rollout_proc2
+[2024-06-10 11:59:36,473][35745] Starting process rollout_proc3
+[2024-06-10 11:59:36,473][35745] Starting process rollout_proc4
+[2024-06-10 11:59:36,473][35745] Starting process rollout_proc5
+[2024-06-10 11:59:36,476][35745] Starting process rollout_proc6
+[2024-06-10 11:59:36,477][35745] Starting process rollout_proc7
+[2024-06-10 11:59:36,477][35745] Starting process rollout_proc8
+[2024-06-10 11:59:36,478][35745] Starting process rollout_proc9
+[2024-06-10 11:59:36,478][35745] Starting process rollout_proc10
+[2024-06-10 11:59:36,478][35745] Starting process rollout_proc11
+[2024-06-10 11:59:36,478][35745] Starting process rollout_proc12
+[2024-06-10 11:59:36,478][35745] Starting process rollout_proc13
+[2024-06-10 11:59:36,479][35745] Starting process rollout_proc14
+[2024-06-10 11:59:36,479][35745] Starting process rollout_proc15
+[2024-06-10 11:59:36,480][35745] Starting process rollout_proc16
+[2024-06-10 11:59:36,480][35745] Starting process rollout_proc17
+[2024-06-10 11:59:36,481][35745] Starting process rollout_proc18
+[2024-06-10 11:59:36,482][35745] Starting process rollout_proc19
+[2024-06-10 11:59:36,484][35745] Starting process rollout_proc20
+[2024-06-10 11:59:36,484][35745] Starting process rollout_proc21
+[2024-06-10 11:59:36,486][35745] Starting process rollout_proc22
+[2024-06-10 11:59:36,486][35745] Starting process rollout_proc23
+[2024-06-10 11:59:36,490][35745] Starting process rollout_proc24
+[2024-06-10 11:59:36,490][35745] Starting process rollout_proc25
+[2024-06-10 11:59:36,490][35745] Starting process rollout_proc26
+[2024-06-10 11:59:36,493][35745] Starting process rollout_proc27
+[2024-06-10 11:59:36,493][35745] Starting process rollout_proc28
+[2024-06-10 11:59:36,495][35745] Starting process rollout_proc29
+[2024-06-10 11:59:36,497][35745] Starting process rollout_proc30
+[2024-06-10 11:59:36,498][35745] Starting process rollout_proc31
+[2024-06-10 11:59:38,308][35987] Worker 9 uses CPU cores [9]
+[2024-06-10 11:59:38,506][36000] Worker 22 uses CPU cores [22]
+[2024-06-10 11:59:38,518][35977] Worker 0 uses CPU cores [0]
+[2024-06-10 11:59:38,536][35980] Worker 3 uses CPU cores [3]
+[2024-06-10 11:59:38,548][35981] Worker 2 uses CPU cores [2]
+[2024-06-10 11:59:38,551][36007] Worker 29 uses CPU cores [29]
+[2024-06-10 11:59:38,577][35984] Worker 6 uses CPU cores [6]
+[2024-06-10 11:59:38,580][35979] Worker 1 uses CPU cores [1]
+[2024-06-10 11:59:38,630][35978] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-06-10 11:59:38,630][35978] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for inference process 0
+[2024-06-10 11:59:38,640][35990] Worker 12 uses CPU cores [12]
+[2024-06-10 11:59:38,640][35978] Num visible devices: 1
+[2024-06-10 11:59:38,663][35986] Worker 8 uses CPU cores [8]
+[2024-06-10 11:59:38,663][35993] Worker 15 uses CPU cores [15]
+[2024-06-10 11:59:38,668][35985] Worker 7 uses CPU cores [7]
+[2024-06-10 11:59:38,684][36006] Worker 27 uses CPU cores [27]
+[2024-06-10 11:59:38,764][35983] Worker 5 uses CPU cores [5]
+[2024-06-10 11:59:38,776][36002] Worker 26 uses CPU cores [26]
+[2024-06-10 11:59:38,792][35957] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-06-10 11:59:38,792][35957] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for learning process 0
+[2024-06-10 11:59:38,801][35957] Num visible devices: 1
+[2024-06-10 11:59:38,808][35982] Worker 4 uses CPU cores [4]
+[2024-06-10 11:59:38,828][35957] Setting fixed seed 0
+[2024-06-10 11:59:38,829][35957] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-06-10 11:59:38,830][35957] Initializing actor-critic model on device cuda:0
+[2024-06-10 11:59:38,832][36004] Worker 23 uses CPU cores [23]
+[2024-06-10 11:59:38,847][36005] Worker 28 uses CPU cores [28]
+[2024-06-10 11:59:38,861][35988] Worker 10 uses CPU cores [10]
+[2024-06-10 11:59:38,875][36001] Worker 24 uses CPU cores [24]
+[2024-06-10 11:59:38,891][35992] Worker 14 uses CPU cores [14]
+[2024-06-10 11:59:38,908][35991] Worker 13 uses CPU cores [13]
+[2024-06-10 11:59:38,914][35999] Worker 21 uses CPU cores [21]
+[2024-06-10 11:59:38,916][35996] Worker 18 uses CPU cores [18]
+[2024-06-10 11:59:38,945][35998] Worker 20 uses CPU cores [20]
+[2024-06-10 11:59:38,950][35997] Worker 19 uses CPU cores [19]
+[2024-06-10 11:59:38,963][35994] Worker 17 uses CPU cores [17]
+[2024-06-10 11:59:38,971][36008] Worker 30 uses CPU cores [30]
+[2024-06-10 11:59:38,976][36009] Worker 31 uses CPU cores [31]
+[2024-06-10 11:59:38,976][36003] Worker 25 uses CPU cores [25]
+[2024-06-10 11:59:38,984][35989] Worker 11 uses CPU cores [11]
+[2024-06-10 11:59:38,986][35995] Worker 16 uses CPU cores [16]
+[2024-06-10 11:59:39,581][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,581][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,581][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,581][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,581][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,582][35957] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:39,585][35957] RunningMeanStd input shape: (1,)
+[2024-06-10 11:59:39,586][35957] RunningMeanStd input shape: (1,)
+[2024-06-10 11:59:39,586][35957] RunningMeanStd input shape: (1,)
+[2024-06-10 11:59:39,586][35957] RunningMeanStd input shape: (1,)
+[2024-06-10 11:59:39,626][35957] RunningMeanStd input shape: (1,)
+[2024-06-10 11:59:39,631][35957] Created Actor Critic model with architecture:
+[2024-06-10 11:59:39,631][35957] SampleFactoryAgentWrapper(
+  (obs_normalizer): ObservationNormalizer()
+  (returns_normalizer): RecursiveScriptModule(original_name=RunningMeanStdInPlace)
+  (agent): MettaAgent(
+    (_encoder): MultiFeatureSetEncoder(
+      (feature_set_encoders): ModuleDict(
+        (grid_obs): FeatureSetEncoder(
+          (_normalizer): FeatureListNormalizer(
+            (_norms_dict): ModuleDict(
+              (agent): RunningMeanStdInPlace()
+              (altar): RunningMeanStdInPlace()
+              (converter): RunningMeanStdInPlace()
+              (generator): RunningMeanStdInPlace()
+              (wall): RunningMeanStdInPlace()
+              (agent:dir): RunningMeanStdInPlace()
+              (agent:energy): RunningMeanStdInPlace()
+              (agent:frozen): RunningMeanStdInPlace()
+              (agent:hp): RunningMeanStdInPlace()
+              (agent:id): RunningMeanStdInPlace()
+              (agent:inv_r1): RunningMeanStdInPlace()
+              (agent:inv_r2): RunningMeanStdInPlace()
+              (agent:inv_r3): RunningMeanStdInPlace()
+              (agent:shield): RunningMeanStdInPlace()
+              (altar:hp): RunningMeanStdInPlace()
+              (altar:state): RunningMeanStdInPlace()
+              (converter:hp): RunningMeanStdInPlace()
+              (converter:state): RunningMeanStdInPlace()
+              (generator:amount): RunningMeanStdInPlace()
+              (generator:hp): RunningMeanStdInPlace()
+              (generator:state): RunningMeanStdInPlace()
+              (wall:hp): RunningMeanStdInPlace()
+            )
+          )
+          (embedding_net): Sequential(
+            (0): Linear(in_features=125, out_features=512, bias=True)
+            (1): ELU(alpha=1.0)
+            (2): Linear(in_features=512, out_features=512, bias=True)
+            (3): ELU(alpha=1.0)
+            (4): Linear(in_features=512, out_features=512, bias=True)
+            (5): ELU(alpha=1.0)
+            (6): Linear(in_features=512, out_features=512, bias=True)
+            (7): ELU(alpha=1.0)
+          )
+        )
+        (global_vars): FeatureSetEncoder(
+          (_normalizer): FeatureListNormalizer(
+            (_norms_dict): ModuleDict(
+              (_steps): RunningMeanStdInPlace()
+            )
+          )
+          (embedding_net): Sequential(
+            (0): Linear(in_features=5, out_features=8, bias=True)
+            (1): ELU(alpha=1.0)
+            (2): Linear(in_features=8, out_features=8, bias=True)
+            (3): ELU(alpha=1.0)
+          )
+        )
+        (last_action): FeatureSetEncoder(
+          (_normalizer): FeatureListNormalizer(
+            (_norms_dict): ModuleDict(
+              (last_action_id): RunningMeanStdInPlace()
+              (last_action_val): RunningMeanStdInPlace()
+            )
+          )
+          (embedding_net): Sequential(
+            (0): Linear(in_features=5, out_features=8, bias=True)
+            (1): ELU(alpha=1.0)
+            (2): Linear(in_features=8, out_features=8, bias=True)
+            (3): ELU(alpha=1.0)
+          )
+        )
+        (last_reward): FeatureSetEncoder(
+          (_normalizer): FeatureListNormalizer(
+            (_norms_dict): ModuleDict(
+              (last_reward): RunningMeanStdInPlace()
+            )
+          )
+          (embedding_net): Sequential(
+            (0): Linear(in_features=5, out_features=8, bias=True)
+            (1): ELU(alpha=1.0)
+            (2): Linear(in_features=8, out_features=8, bias=True)
+            (3): ELU(alpha=1.0)
+          )
+        )
+      )
+      (merged_encoder): Sequential(
+        (0): Linear(in_features=536, out_features=512, bias=True)
+        (1): ELU(alpha=1.0)
+        (2): Linear(in_features=512, out_features=512, bias=True)
+        (3): ELU(alpha=1.0)
+        (4): Linear(in_features=512, out_features=512, bias=True)
+        (5): ELU(alpha=1.0)
+      )
+    )
+    (_core): ModelCoreRNN(
+      (core): GRU(512, 512)
+    )
+    (_decoder): Decoder(
+      (mlp): Identity()
+    )
+    (_critic_linear): Linear(in_features=512, out_features=1, bias=True)
+    (_action_parameterization): ActionParameterizationDefault(
+      (distribution_linear): Linear(in_features=512, out_features=16, bias=True)
+    )
+  )
+)
+[2024-06-10 11:59:39,703][35957] Using optimizer <class 'torch.optim.adam.Adam'>
+[2024-06-10 11:59:39,889][35957] Loading state from checkpoint /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000024505_401489920.pth...
+[2024-06-10 11:59:39,903][35957] Loading model from checkpoint
+[2024-06-10 11:59:39,905][35957] Loaded experiment state at self.train_step=24505, self.env_steps=401489920
+[2024-06-10 11:59:39,905][35957] Initialized policy 0 weights for model version 24505
+[2024-06-10 11:59:39,907][35957] LearnerWorker_p0 finished initialization!
+[2024-06-10 11:59:39,907][35957] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-06-10 11:59:40,631][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,631][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,631][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,631][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,631][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,632][35978] RunningMeanStd input shape: (11, 11)
+[2024-06-10 11:59:40,635][35978] RunningMeanStd input shape: (1,)
+[2024-06-10 11:59:40,636][35978] RunningMeanStd input shape: (1,)
+[2024-06-10 11:59:40,636][35978] RunningMeanStd input shape: (1,)
+[2024-06-10 11:59:40,636][35978] RunningMeanStd input shape: (1,)
+[2024-06-10 11:59:40,675][35978] RunningMeanStd input shape: (1,)
+[2024-06-10 11:59:40,697][35745] Inference worker 0-0 is ready!
+[2024-06-10 11:59:40,697][35745] All inference workers are ready! Signal rollout workers to start!
+[2024-06-10 11:59:43,179][36009] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,197][35998] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,197][35997] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,198][36003] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,199][35999] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,202][36001] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,202][36007] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,204][36000] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,205][35995] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,206][36008] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,207][36004] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,209][35994] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,210][35996] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,247][36005] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,270][35987] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,270][35993] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,271][35980] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,272][35983] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,274][35991] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,275][35985] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,279][35989] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,285][35979] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,287][35981] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,288][35984] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,292][35990] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,292][35977] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,292][35986] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,294][35988] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,295][35982] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,300][36002] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,300][35992] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,355][36006] Decorrelating experience for 0 frames...
+[2024-06-10 11:59:43,402][35745] Fps is (10 sec: nan, 60 sec: nan, 300 sec: nan). Total num frames: 401489920. Throughput: 0: nan. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2024-06-10 11:59:44,594][36009] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,666][35998] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,667][35997] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,674][36003] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,684][36001] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,686][35999] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,690][36008] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,691][35995] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,691][36007] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,699][36004] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,699][36000] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,706][35994] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,708][35996] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,751][35993] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,751][35987] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,762][35983] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,764][35980] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,771][35985] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,773][35989] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,777][36005] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,782][35979] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,783][35991] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,791][35984] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,794][35981] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,795][35977] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,798][35982] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,800][35986] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,805][35988] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,807][35990] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,810][35992] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,834][36002] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:44,871][36006] Decorrelating experience for 256 frames...
+[2024-06-10 11:59:48,402][35745] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 401489920. Throughput: 0: 8996.5. Samples: 44980. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2024-06-10 11:59:51,121][35987] Worker 9, sleep for 42.188 sec to decorrelate experience collection
+[2024-06-10 11:59:51,131][35989] Worker 11, sleep for 51.562 sec to decorrelate experience collection
+[2024-06-10 11:59:51,132][35994] Worker 17, sleep for 79.688 sec to decorrelate experience collection
+[2024-06-10 11:59:51,132][35997] Worker 19, sleep for 89.062 sec to decorrelate experience collection
+[2024-06-10 11:59:51,138][35988] Worker 10, sleep for 46.875 sec to decorrelate experience collection
+[2024-06-10 11:59:51,140][35980] Worker 3, sleep for 14.062 sec to decorrelate experience collection
+[2024-06-10 11:59:51,141][36004] Worker 23, sleep for 107.812 sec to decorrelate experience collection
+[2024-06-10 11:59:51,141][36000] Worker 22, sleep for 103.125 sec to decorrelate experience collection
+[2024-06-10 11:59:51,152][35998] Worker 20, sleep for 93.750 sec to decorrelate experience collection
+[2024-06-10 11:59:51,152][35995] Worker 16, sleep for 75.000 sec to decorrelate experience collection
+[2024-06-10 11:59:51,152][36003] Worker 25, sleep for 117.188 sec to decorrelate experience collection
+[2024-06-10 11:59:51,153][36009] Worker 31, sleep for 145.312 sec to decorrelate experience collection
+[2024-06-10 11:59:51,155][35986] Worker 8, sleep for 37.500 sec to decorrelate experience collection
+[2024-06-10 11:59:51,159][35996] Worker 18, sleep for 84.375 sec to decorrelate experience collection
+[2024-06-10 11:59:51,160][36001] Worker 24, sleep for 112.500 sec to decorrelate experience collection
+[2024-06-10 11:59:51,160][36008] Worker 30, sleep for 140.625 sec to decorrelate experience collection
+[2024-06-10 11:59:51,167][35999] Worker 21, sleep for 98.438 sec to decorrelate experience collection
+[2024-06-10 11:59:51,171][35991] Worker 13, sleep for 60.938 sec to decorrelate experience collection
+[2024-06-10 11:59:51,177][35990] Worker 12, sleep for 56.250 sec to decorrelate experience collection
+[2024-06-10 11:59:51,177][35981] Worker 2, sleep for 9.375 sec to decorrelate experience collection
+[2024-06-10 11:59:51,182][35993] Worker 15, sleep for 70.312 sec to decorrelate experience collection
+[2024-06-10 11:59:51,186][36007] Worker 29, sleep for 135.938 sec to decorrelate experience collection
+[2024-06-10 11:59:51,186][35992] Worker 14, sleep for 65.625 sec to decorrelate experience collection
+[2024-06-10 11:59:51,188][35979] Worker 1, sleep for 4.688 sec to decorrelate experience collection
+[2024-06-10 11:59:51,202][36005] Worker 28, sleep for 131.250 sec to decorrelate experience collection
+[2024-06-10 11:59:51,206][35985] Worker 7, sleep for 32.812 sec to decorrelate experience collection
+[2024-06-10 11:59:51,209][36002] Worker 26, sleep for 121.875 sec to decorrelate experience collection
+[2024-06-10 11:59:51,242][35957] Signal inference workers to stop experience collection...
+[2024-06-10 11:59:51,266][35978] InferenceWorker_p0-w0: stopping experience collection
+[2024-06-10 11:59:51,282][35982] Worker 4, sleep for 18.750 sec to decorrelate experience collection
+[2024-06-10 11:59:51,283][36006] Worker 27, sleep for 126.562 sec to decorrelate experience collection
+[2024-06-10 11:59:51,285][35983] Worker 5, sleep for 23.438 sec to decorrelate experience collection
+[2024-06-10 11:59:51,794][35957] Signal inference workers to resume experience collection...
+[2024-06-10 11:59:51,795][35978] InferenceWorker_p0-w0: resuming experience collection
+[2024-06-10 11:59:51,827][35984] Worker 6, sleep for 28.125 sec to decorrelate experience collection
+[2024-06-10 11:59:52,897][35978] Updated weights for policy 0, policy_version 24515 (0.0012)
+[2024-06-10 11:59:53,402][35745] Fps is (10 sec: 16383.9, 60 sec: 16383.9, 300 sec: 16383.9). Total num frames: 401653760. Throughput: 0: 32857.8. Samples: 328580. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2024-06-10 11:59:55,899][35979] Worker 1 awakens!
+[2024-06-10 11:59:56,164][35745] Heartbeat connected on Batcher_0
+[2024-06-10 11:59:56,166][35745] Heartbeat connected on LearnerWorker_p0
+[2024-06-10 11:59:56,173][35745] Heartbeat connected on RolloutWorker_w0
+[2024-06-10 11:59:56,173][35745] Heartbeat connected on RolloutWorker_w1
+[2024-06-10 11:59:56,222][35745] Heartbeat connected on InferenceWorker_p0-w0
+[2024-06-10 11:59:58,402][35745] Fps is (10 sec: 16383.9, 60 sec: 10922.8, 300 sec: 10922.8). Total num frames: 401653760. Throughput: 0: 22127.0. Samples: 331900. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2024-06-10 12:00:00,599][35981] Worker 2 awakens!
+[2024-06-10 12:00:00,607][35745] Heartbeat connected on RolloutWorker_w2
+[2024-06-10 12:00:03,402][35745] Fps is (10 sec: 1638.4, 60 sec: 9011.2, 300 sec: 9011.2). Total num frames: 401670144. Throughput: 0: 17371.0. Samples: 347420. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2024-06-10 12:00:05,272][35980] Worker 3 awakens!
+[2024-06-10 12:00:05,281][35745] Heartbeat connected on RolloutWorker_w3
+[2024-06-10 12:00:08,402][35745] Fps is (10 sec: 3276.7, 60 sec: 7864.3, 300 sec: 7864.3). Total num frames: 401686528. Throughput: 0: 14885.6. Samples: 372140. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2024-06-10 12:00:10,126][35982] Worker 4 awakens!
+[2024-06-10 12:00:10,134][35745] Heartbeat connected on RolloutWorker_w4
+[2024-06-10 12:00:13,401][35745] Fps is (10 sec: 6553.7, 60 sec: 8192.1, 300 sec: 8192.1). Total num frames: 401735680. Throughput: 0: 13078.1. Samples: 392340. Policy #0 lag: (min: 0.0, avg: 4.3, max: 12.0)
+[2024-06-10 12:00:13,402][35745] Avg episode reward: [(0, '0.279')]
+[2024-06-10 12:00:14,822][35983] Worker 5 awakens!
+[2024-06-10 12:00:14,827][35745] Heartbeat connected on RolloutWorker_w5
+[2024-06-10 12:00:18,148][35978] Updated weights for policy 0, policy_version 24525 (0.0016)
+[2024-06-10 12:00:18,401][35745] Fps is (10 sec: 13107.6, 60 sec: 9362.4, 300 sec: 9362.4). Total num frames: 401817600. Throughput: 0: 13506.4. Samples: 472720. Policy #0 lag: (min: 0.0, avg: 4.3, max: 12.0)
+[2024-06-10 12:00:18,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:00:20,052][35984] Worker 6 awakens!
+[2024-06-10 12:00:20,056][35745] Heartbeat connected on RolloutWorker_w6
+[2024-06-10 12:00:23,402][35745] Fps is (10 sec: 18022.4, 60 sec: 10649.7, 300 sec: 10649.7). Total num frames: 401915904. Throughput: 0: 14444.6. Samples: 577780. Policy #0 lag: (min: 0.0, avg: 4.3, max: 12.0)
+[2024-06-10 12:00:23,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:00:24,118][35985] Worker 7 awakens!
+[2024-06-10 12:00:24,125][35745] Heartbeat connected on RolloutWorker_w7
+[2024-06-10 12:00:25,818][35978] Updated weights for policy 0, policy_version 24535 (0.0011)
+[2024-06-10 12:00:28,402][35745] Fps is (10 sec: 19660.7, 60 sec: 11650.9, 300 sec: 11650.9). Total num frames: 402014208. Throughput: 0: 14389.4. Samples: 647520. Policy #0 lag: (min: 0.0, avg: 2.1, max: 6.0)
+[2024-06-10 12:00:28,402][35745] Avg episode reward: [(0, '0.284')]
+[2024-06-10 12:00:28,752][35986] Worker 8 awakens!
+[2024-06-10 12:00:28,757][35745] Heartbeat connected on RolloutWorker_w8
+[2024-06-10 12:00:33,376][35987] Worker 9 awakens!
+[2024-06-10 12:00:33,382][35745] Heartbeat connected on RolloutWorker_w9
+[2024-06-10 12:00:33,401][35745] Fps is (10 sec: 21299.3, 60 sec: 12779.6, 300 sec: 12779.6). Total num frames: 402128896. Throughput: 0: 16413.3. Samples: 783580. Policy #0 lag: (min: 0.0, avg: 2.1, max: 6.0)
+[2024-06-10 12:00:33,408][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:00:33,459][35978] Updated weights for policy 0, policy_version 24545 (0.0013)
+[2024-06-10 12:00:38,112][35988] Worker 10 awakens!
+[2024-06-10 12:00:38,116][35745] Heartbeat connected on RolloutWorker_w10
+[2024-06-10 12:00:38,402][35745] Fps is (10 sec: 26214.3, 60 sec: 14298.8, 300 sec: 14298.8). Total num frames: 402276352. Throughput: 0: 13653.9. Samples: 943000. Policy #0 lag: (min: 0.0, avg: 2.1, max: 6.0)
+[2024-06-10 12:00:38,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:00:38,857][35978] Updated weights for policy 0, policy_version 24555 (0.0014)
+[2024-06-10 12:00:42,792][35989] Worker 11 awakens!
+[2024-06-10 12:00:42,799][35745] Heartbeat connected on RolloutWorker_w11
+[2024-06-10 12:00:43,402][35745] Fps is (10 sec: 31129.3, 60 sec: 15837.9, 300 sec: 15837.9). Total num frames: 402440192. Throughput: 0: 15709.3. Samples: 1038820. Policy #0 lag: (min: 0.0, avg: 3.8, max: 8.0)
+[2024-06-10 12:00:43,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:00:44,274][35978] Updated weights for policy 0, policy_version 24565 (0.0014)
+[2024-06-10 12:00:47,527][35990] Worker 12 awakens!
+[2024-06-10 12:00:47,533][35745] Heartbeat connected on RolloutWorker_w12
+[2024-06-10 12:00:48,402][35745] Fps is (10 sec: 32768.1, 60 sec: 18568.5, 300 sec: 17140.2). Total num frames: 402604032. Throughput: 0: 19688.5. Samples: 1233400. Policy #0 lag: (min: 0.0, avg: 3.8, max: 8.0)
+[2024-06-10 12:00:48,409][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:00:49,390][35978] Updated weights for policy 0, policy_version 24575 (0.0018)
+[2024-06-10 12:00:52,210][35991] Worker 13 awakens!
+[2024-06-10 12:00:52,216][35745] Heartbeat connected on RolloutWorker_w13
+[2024-06-10 12:00:53,402][35745] Fps is (10 sec: 34406.2, 60 sec: 18841.6, 300 sec: 18490.5). Total num frames: 402784256. Throughput: 0: 23911.2. Samples: 1448140. Policy #0 lag: (min: 0.0, avg: 3.8, max: 8.0)
+[2024-06-10 12:00:53,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:00:53,766][35978] Updated weights for policy 0, policy_version 24585 (0.0016)
+[2024-06-10 12:00:56,910][35992] Worker 14 awakens!
+[2024-06-10 12:00:56,916][35745] Heartbeat connected on RolloutWorker_w14
+[2024-06-10 12:00:58,098][35978] Updated weights for policy 0, policy_version 24595 (0.0021)
+[2024-06-10 12:00:58,402][35745] Fps is (10 sec: 36044.4, 60 sec: 21845.3, 300 sec: 19660.8). Total num frames: 402964480. Throughput: 0: 25892.8. Samples: 1557520. Policy #0 lag: (min: 0.0, avg: 3.8, max: 8.0)
+[2024-06-10 12:00:58,402][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:01:01,592][35993] Worker 15 awakens!
+[2024-06-10 12:01:01,600][35745] Heartbeat connected on RolloutWorker_w15
+[2024-06-10 12:01:02,217][35978] Updated weights for policy 0, policy_version 24605 (0.0018)
+[2024-06-10 12:01:03,402][35745] Fps is (10 sec: 36045.1, 60 sec: 24576.1, 300 sec: 20684.8). Total num frames: 403144704. Throughput: 0: 28933.7. Samples: 1774740. Policy #0 lag: (min: 0.0, avg: 5.1, max: 10.0)
+[2024-06-10 12:01:03,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:01:06,252][35995] Worker 16 awakens!
+[2024-06-10 12:01:06,261][35745] Heartbeat connected on RolloutWorker_w16
+[2024-06-10 12:01:07,121][35978] Updated weights for policy 0, policy_version 24615 (0.0030)
+[2024-06-10 12:01:08,402][35745] Fps is (10 sec: 36044.9, 60 sec: 27306.7, 300 sec: 21588.4). Total num frames: 403324928. Throughput: 0: 31277.7. Samples: 1985280. Policy #0 lag: (min: 0.0, avg: 5.1, max: 10.0)
+[2024-06-10 12:01:08,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:01:10,878][35994] Worker 17 awakens!
+[2024-06-10 12:01:10,888][35745] Heartbeat connected on RolloutWorker_w17
+[2024-06-10 12:01:11,578][35978] Updated weights for policy 0, policy_version 24625 (0.0028)
+[2024-06-10 12:01:13,402][35745] Fps is (10 sec: 36044.7, 60 sec: 29491.2, 300 sec: 22391.5). Total num frames: 403505152. Throughput: 0: 32291.0. Samples: 2100620. Policy #0 lag: (min: 0.0, avg: 5.1, max: 10.0)
+[2024-06-10 12:01:13,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:01:15,636][35996] Worker 18 awakens!
+[2024-06-10 12:01:15,646][35745] Heartbeat connected on RolloutWorker_w18
+[2024-06-10 12:01:16,230][35978] Updated weights for policy 0, policy_version 24635 (0.0027)
+[2024-06-10 12:01:18,402][35745] Fps is (10 sec: 37683.6, 60 sec: 31402.6, 300 sec: 23282.6). Total num frames: 403701760. Throughput: 0: 34239.1. Samples: 2324340. Policy #0 lag: (min: 0.0, avg: 35.8, max: 128.0)
+[2024-06-10 12:01:18,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:01:20,296][35997] Worker 19 awakens!
+[2024-06-10 12:01:20,306][35745] Heartbeat connected on RolloutWorker_w19
+[2024-06-10 12:01:20,471][35978] Updated weights for policy 0, policy_version 24645 (0.0031)
+[2024-06-10 12:01:23,402][35745] Fps is (10 sec: 39321.1, 60 sec: 33040.9, 300 sec: 24084.5). Total num frames: 403898368. Throughput: 0: 35876.3. Samples: 2557440. Policy #0 lag: (min: 0.0, avg: 35.8, max: 128.0)
+[2024-06-10 12:01:23,402][35745] Avg episode reward: [(0, '0.282')]
+[2024-06-10 12:01:24,833][35978] Updated weights for policy 0, policy_version 24655 (0.0021)
+[2024-06-10 12:01:25,002][35998] Worker 20 awakens!
+[2024-06-10 12:01:25,013][35745] Heartbeat connected on RolloutWorker_w20
+[2024-06-10 12:01:28,402][35745] Fps is (10 sec: 39321.3, 60 sec: 34679.4, 300 sec: 24810.1). Total num frames: 404094976. Throughput: 0: 36468.0. Samples: 2679880. Policy #0 lag: (min: 0.0, avg: 35.8, max: 128.0)
+[2024-06-10 12:01:28,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:01:28,581][35978] Updated weights for policy 0, policy_version 24665 (0.0032)
+[2024-06-10 12:01:29,707][35999] Worker 21 awakens!
+[2024-06-10 12:01:29,719][35745] Heartbeat connected on RolloutWorker_w21
+[2024-06-10 12:01:32,044][35978] Updated weights for policy 0, policy_version 24675 (0.0030)
+[2024-06-10 12:01:33,402][35745] Fps is (10 sec: 40960.3, 60 sec: 36317.8, 300 sec: 25618.6). Total num frames: 404307968. Throughput: 0: 37586.1. Samples: 2924780. Policy #0 lag: (min: 0.0, avg: 8.3, max: 16.0)
+[2024-06-10 12:01:33,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:01:33,412][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000024677_404307968.pth...
+[2024-06-10 12:01:33,462][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000024206_396591104.pth
+[2024-06-10 12:01:34,336][36000] Worker 22 awakens!
+[2024-06-10 12:01:34,349][35745] Heartbeat connected on RolloutWorker_w22
+[2024-06-10 12:01:36,935][35978] Updated weights for policy 0, policy_version 24685 (0.0022)
+[2024-06-10 12:01:38,402][35745] Fps is (10 sec: 42598.1, 60 sec: 37410.1, 300 sec: 26356.9). Total num frames: 404520960. Throughput: 0: 38304.0. Samples: 3171820. Policy #0 lag: (min: 0.0, avg: 8.3, max: 16.0)
+[2024-06-10 12:01:38,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:01:39,054][36004] Worker 23 awakens!
+[2024-06-10 12:01:39,066][35745] Heartbeat connected on RolloutWorker_w23
+[2024-06-10 12:01:40,354][35978] Updated weights for policy 0, policy_version 24695 (0.0025)
+[2024-06-10 12:01:43,402][35745] Fps is (10 sec: 42598.2, 60 sec: 38229.3, 300 sec: 27033.6). Total num frames: 404733952. Throughput: 0: 38859.1. Samples: 3306180. Policy #0 lag: (min: 0.0, avg: 8.3, max: 16.0)
+[2024-06-10 12:01:43,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:01:43,712][36001] Worker 24 awakens!
+[2024-06-10 12:01:43,724][35745] Heartbeat connected on RolloutWorker_w24
+[2024-06-10 12:01:43,797][35978] Updated weights for policy 0, policy_version 24705 (0.0034)
+[2024-06-10 12:01:47,900][35978] Updated weights for policy 0, policy_version 24715 (0.0024)
+[2024-06-10 12:01:48,402][35745] Fps is (10 sec: 40960.1, 60 sec: 38775.4, 300 sec: 27525.1). Total num frames: 404930560. Throughput: 0: 39824.0. Samples: 3566820. Policy #0 lag: (min: 0.0, avg: 8.3, max: 16.0)
+[2024-06-10 12:01:48,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:01:48,440][36003] Worker 25 awakens!
+[2024-06-10 12:01:48,453][35745] Heartbeat connected on RolloutWorker_w25
+[2024-06-10 12:01:51,592][35978] Updated weights for policy 0, policy_version 24725 (0.0030)
+[2024-06-10 12:01:53,185][36002] Worker 26 awakens!
+[2024-06-10 12:01:53,197][35745] Heartbeat connected on RolloutWorker_w26
+[2024-06-10 12:01:53,402][35745] Fps is (10 sec: 42598.1, 60 sec: 39594.6, 300 sec: 28230.9). Total num frames: 405159936. Throughput: 0: 40894.5. Samples: 3825540. Policy #0 lag: (min: 0.0, avg: 71.6, max: 211.0)
+[2024-06-10 12:01:53,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:01:55,306][35978] Updated weights for policy 0, policy_version 24735 (0.0031)
+[2024-06-10 12:01:57,944][36006] Worker 27 awakens!
+[2024-06-10 12:01:57,954][35745] Heartbeat connected on RolloutWorker_w27
+[2024-06-10 12:01:58,402][35745] Fps is (10 sec: 45875.5, 60 sec: 40413.9, 300 sec: 28884.4). Total num frames: 405389312. Throughput: 0: 41096.9. Samples: 3949980. Policy #0 lag: (min: 0.0, avg: 71.6, max: 211.0)
+[2024-06-10 12:01:58,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:01:58,784][35978] Updated weights for policy 0, policy_version 24745 (0.0028)
+[2024-06-10 12:02:02,040][35978] Updated weights for policy 0, policy_version 24755 (0.0040)
+[2024-06-10 12:02:02,552][36005] Worker 28 awakens!
+[2024-06-10 12:02:02,565][35745] Heartbeat connected on RolloutWorker_w28
+[2024-06-10 12:02:03,402][35745] Fps is (10 sec: 44237.8, 60 sec: 40960.0, 300 sec: 29374.2). Total num frames: 405602304. Throughput: 0: 42133.8. Samples: 4220360. Policy #0 lag: (min: 0.0, avg: 71.6, max: 211.0)
+[2024-06-10 12:02:03,402][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:02:06,533][35978] Updated weights for policy 0, policy_version 24765 (0.0034)
+[2024-06-10 12:02:07,223][36007] Worker 29 awakens!
+[2024-06-10 12:02:07,237][35745] Heartbeat connected on RolloutWorker_w29
+[2024-06-10 12:02:08,402][35745] Fps is (10 sec: 44236.2, 60 sec: 41779.2, 300 sec: 29943.2). Total num frames: 405831680. Throughput: 0: 42885.4. Samples: 4487280. Policy #0 lag: (min: 0.0, avg: 9.2, max: 19.0)
+[2024-06-10 12:02:08,402][35745] Avg episode reward: [(0, '0.284')]
+[2024-06-10 12:02:09,400][35978] Updated weights for policy 0, policy_version 24775 (0.0031)
+[2024-06-10 12:02:11,885][36008] Worker 30 awakens!
+[2024-06-10 12:02:11,900][35745] Heartbeat connected on RolloutWorker_w30
+[2024-06-10 12:02:13,402][35745] Fps is (10 sec: 44236.0, 60 sec: 42325.3, 300 sec: 30365.0). Total num frames: 406044672. Throughput: 0: 43318.1. Samples: 4629200. Policy #0 lag: (min: 0.0, avg: 9.2, max: 19.0)
+[2024-06-10 12:02:13,402][35745] Avg episode reward: [(0, '0.280')]
+[2024-06-10 12:02:13,654][35978] Updated weights for policy 0, policy_version 24785 (0.0023)
+[2024-06-10 12:02:14,670][35957] Signal inference workers to stop experience collection... (50 times)
+[2024-06-10 12:02:14,689][35978] InferenceWorker_p0-w0: stopping experience collection (50 times)
+[2024-06-10 12:02:14,782][35957] Signal inference workers to resume experience collection... (50 times)
+[2024-06-10 12:02:14,782][35978] InferenceWorker_p0-w0: resuming experience collection (50 times)
+[2024-06-10 12:02:16,564][36009] Worker 31 awakens!
+[2024-06-10 12:02:16,578][35745] Heartbeat connected on RolloutWorker_w31
+[2024-06-10 12:02:16,756][35978] Updated weights for policy 0, policy_version 24795 (0.0028)
+[2024-06-10 12:02:18,401][35745] Fps is (10 sec: 44237.6, 60 sec: 42871.5, 300 sec: 30865.4). Total num frames: 406274048. Throughput: 0: 43851.7. Samples: 4898100. Policy #0 lag: (min: 0.0, avg: 9.2, max: 19.0)
+[2024-06-10 12:02:18,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:02:20,907][35978] Updated weights for policy 0, policy_version 24805 (0.0036)
+[2024-06-10 12:02:23,402][35745] Fps is (10 sec: 49152.6, 60 sec: 43963.9, 300 sec: 31539.2). Total num frames: 406536192. Throughput: 0: 44472.5. Samples: 5173080. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-10 12:02:23,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:02:23,884][35978] Updated weights for policy 0, policy_version 24815 (0.0026)
+[2024-06-10 12:02:28,061][35978] Updated weights for policy 0, policy_version 24825 (0.0036)
+[2024-06-10 12:02:28,404][35745] Fps is (10 sec: 45864.4, 60 sec: 43962.1, 300 sec: 31774.6). Total num frames: 406732800. Throughput: 0: 44752.5. Samples: 5320140. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-10 12:02:28,404][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:02:31,161][35978] Updated weights for policy 0, policy_version 24835 (0.0037)
+[2024-06-10 12:02:33,404][35745] Fps is (10 sec: 44228.2, 60 sec: 44508.5, 300 sec: 32285.8). Total num frames: 406978560. Throughput: 0: 45095.9. Samples: 5596220. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-10 12:02:33,404][35745] Avg episode reward: [(0, '0.284')]
+[2024-06-10 12:02:35,245][35978] Updated weights for policy 0, policy_version 24845 (0.0030)
+[2024-06-10 12:02:38,103][35978] Updated weights for policy 0, policy_version 24855 (0.0048)
+[2024-06-10 12:02:38,403][35745] Fps is (10 sec: 49155.3, 60 sec: 45054.9, 300 sec: 32767.7). Total num frames: 407224320. Throughput: 0: 45362.6. Samples: 5866920. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-10 12:02:38,404][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:02:42,114][35978] Updated weights for policy 0, policy_version 24865 (0.0040)
+[2024-06-10 12:02:43,402][35745] Fps is (10 sec: 45884.4, 60 sec: 45056.1, 300 sec: 33041.1). Total num frames: 407437312. Throughput: 0: 45645.4. Samples: 6004020. Policy #0 lag: (min: 0.0, avg: 9.3, max: 21.0)
+[2024-06-10 12:02:43,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:02:45,009][35978] Updated weights for policy 0, policy_version 24875 (0.0031)
+[2024-06-10 12:02:48,404][35745] Fps is (10 sec: 44233.6, 60 sec: 45600.4, 300 sec: 33387.5). Total num frames: 407666688. Throughput: 0: 45826.5. Samples: 6282660. Policy #0 lag: (min: 0.0, avg: 9.3, max: 21.0)
+[2024-06-10 12:02:48,404][35745] Avg episode reward: [(0, '0.283')]
+[2024-06-10 12:02:49,262][35978] Updated weights for policy 0, policy_version 24885 (0.0025)
+[2024-06-10 12:02:52,144][35978] Updated weights for policy 0, policy_version 24895 (0.0028)
+[2024-06-10 12:02:53,402][35745] Fps is (10 sec: 45874.6, 60 sec: 45602.2, 300 sec: 33716.6). Total num frames: 407896064. Throughput: 0: 46027.6. Samples: 6558520. Policy #0 lag: (min: 0.0, avg: 9.3, max: 21.0)
+[2024-06-10 12:02:53,402][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:02:56,519][35978] Updated weights for policy 0, policy_version 24905 (0.0038)
+[2024-06-10 12:02:58,401][35745] Fps is (10 sec: 45886.3, 60 sec: 45602.2, 300 sec: 34028.4). Total num frames: 408125440. Throughput: 0: 45947.3. Samples: 6696820. Policy #0 lag: (min: 0.0, avg: 9.7, max: 22.0)
+[2024-06-10 12:02:58,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:02:59,301][35978] Updated weights for policy 0, policy_version 24915 (0.0028)
+[2024-06-10 12:03:03,402][35745] Fps is (10 sec: 45875.5, 60 sec: 45875.2, 300 sec: 34324.5). Total num frames: 408354816. Throughput: 0: 46137.7. Samples: 6974300. Policy #0 lag: (min: 0.0, avg: 9.7, max: 22.0)
+[2024-06-10 12:03:03,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:03:03,697][35978] Updated weights for policy 0, policy_version 24925 (0.0031)
+[2024-06-10 12:03:06,500][35978] Updated weights for policy 0, policy_version 24935 (0.0027)
+[2024-06-10 12:03:08,402][35745] Fps is (10 sec: 45874.8, 60 sec: 45875.3, 300 sec: 34606.2). Total num frames: 408584192. Throughput: 0: 46208.4. Samples: 7252460. Policy #0 lag: (min: 0.0, avg: 9.7, max: 22.0)
+[2024-06-10 12:03:08,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:03:10,482][35978] Updated weights for policy 0, policy_version 24945 (0.0031)
+[2024-06-10 12:03:13,401][35745] Fps is (10 sec: 49152.4, 60 sec: 46694.5, 300 sec: 35030.6). Total num frames: 408846336. Throughput: 0: 46120.2. Samples: 7395440. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:03:13,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:03:13,495][35978] Updated weights for policy 0, policy_version 24955 (0.0028)
+[2024-06-10 12:03:17,315][35978] Updated weights for policy 0, policy_version 24965 (0.0040)
+[2024-06-10 12:03:18,401][35745] Fps is (10 sec: 45875.6, 60 sec: 46148.3, 300 sec: 35130.4). Total num frames: 409042944. Throughput: 0: 46191.9. Samples: 7674760. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:03:18,402][35745] Avg episode reward: [(0, '0.283')]
+[2024-06-10 12:03:20,587][35978] Updated weights for policy 0, policy_version 24975 (0.0037)
+[2024-06-10 12:03:23,402][35745] Fps is (10 sec: 44236.7, 60 sec: 45875.2, 300 sec: 35449.1). Total num frames: 409288704. Throughput: 0: 46228.4. Samples: 7947120. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:03:23,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:03:24,958][35978] Updated weights for policy 0, policy_version 24985 (0.0037)
+[2024-06-10 12:03:27,809][35978] Updated weights for policy 0, policy_version 24995 (0.0031)
+[2024-06-10 12:03:28,402][35745] Fps is (10 sec: 47513.5, 60 sec: 46423.1, 300 sec: 35680.8). Total num frames: 409518080. Throughput: 0: 46253.8. Samples: 8085440. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:03:28,402][35745] Avg episode reward: [(0, '0.285')]
+[2024-06-10 12:03:32,144][35978] Updated weights for policy 0, policy_version 25005 (0.0036)
+[2024-06-10 12:03:33,402][35745] Fps is (10 sec: 45874.2, 60 sec: 46149.6, 300 sec: 35902.3). Total num frames: 409747456. Throughput: 0: 46134.2. Samples: 8358600. Policy #0 lag: (min: 0.0, avg: 10.0, max: 23.0)
+[2024-06-10 12:03:33,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:03:33,419][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000025009_409747456.pth...
+[2024-06-10 12:03:33,480][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000024505_401489920.pth
+[2024-06-10 12:03:35,263][35978] Updated weights for policy 0, policy_version 25015 (0.0035)
+[2024-06-10 12:03:38,402][35745] Fps is (10 sec: 45871.3, 60 sec: 45875.8, 300 sec: 36114.4). Total num frames: 409976832. Throughput: 0: 46113.0. Samples: 8633640. Policy #0 lag: (min: 0.0, avg: 10.0, max: 23.0)
+[2024-06-10 12:03:38,403][35745] Avg episode reward: [(0, '0.285')]
+[2024-06-10 12:03:39,079][35978] Updated weights for policy 0, policy_version 25025 (0.0037)
+[2024-06-10 12:03:42,274][35978] Updated weights for policy 0, policy_version 25035 (0.0022)
+[2024-06-10 12:03:43,402][35745] Fps is (10 sec: 45875.7, 60 sec: 46148.2, 300 sec: 36317.9). Total num frames: 410206208. Throughput: 0: 46111.0. Samples: 8771820. Policy #0 lag: (min: 0.0, avg: 10.0, max: 23.0)
+[2024-06-10 12:03:43,405][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:03:45,881][35978] Updated weights for policy 0, policy_version 25045 (0.0039)
+[2024-06-10 12:03:48,402][35745] Fps is (10 sec: 47517.0, 60 sec: 46423.1, 300 sec: 36579.8). Total num frames: 410451968. Throughput: 0: 46227.9. Samples: 9054560. Policy #0 lag: (min: 0.0, avg: 10.0, max: 20.0)
+[2024-06-10 12:03:48,408][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:03:49,114][35978] Updated weights for policy 0, policy_version 25055 (0.0031)
+[2024-06-10 12:03:52,998][35978] Updated weights for policy 0, policy_version 25065 (0.0032)
+[2024-06-10 12:03:53,402][35745] Fps is (10 sec: 45875.5, 60 sec: 46148.3, 300 sec: 36700.2). Total num frames: 410664960. Throughput: 0: 46147.6. Samples: 9329100. Policy #0 lag: (min: 0.0, avg: 10.0, max: 20.0)
+[2024-06-10 12:03:53,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:03:54,414][35957] Signal inference workers to stop experience collection... (100 times)
+[2024-06-10 12:03:54,448][35978] InferenceWorker_p0-w0: stopping experience collection (100 times)
+[2024-06-10 12:03:54,470][35957] Signal inference workers to resume experience collection... (100 times)
+[2024-06-10 12:03:54,470][35978] InferenceWorker_p0-w0: resuming experience collection (100 times)
+[2024-06-10 12:03:56,508][35978] Updated weights for policy 0, policy_version 25075 (0.0039)
+[2024-06-10 12:03:58,402][35745] Fps is (10 sec: 45875.7, 60 sec: 46421.3, 300 sec: 36944.3). Total num frames: 410910720. Throughput: 0: 46101.3. Samples: 9470000. Policy #0 lag: (min: 0.0, avg: 10.0, max: 20.0)
+[2024-06-10 12:03:58,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:04:00,196][35978] Updated weights for policy 0, policy_version 25085 (0.0041)
+[2024-06-10 12:04:03,401][35745] Fps is (10 sec: 47513.9, 60 sec: 46421.4, 300 sec: 37116.1). Total num frames: 411140096. Throughput: 0: 46048.0. Samples: 9746920. Policy #0 lag: (min: 0.0, avg: 10.0, max: 20.0)
+[2024-06-10 12:04:03,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:04:03,545][35978] Updated weights for policy 0, policy_version 25095 (0.0039)
+[2024-06-10 12:04:07,330][35978] Updated weights for policy 0, policy_version 25105 (0.0036)
+[2024-06-10 12:04:08,402][35745] Fps is (10 sec: 45875.1, 60 sec: 46421.3, 300 sec: 37281.4). Total num frames: 411369472. Throughput: 0: 46054.1. Samples: 10019560. Policy #0 lag: (min: 0.0, avg: 10.3, max: 21.0)
+[2024-06-10 12:04:08,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:04:10,663][35978] Updated weights for policy 0, policy_version 25115 (0.0028)
+[2024-06-10 12:04:13,402][35745] Fps is (10 sec: 44236.6, 60 sec: 45602.1, 300 sec: 37379.8). Total num frames: 411582464. Throughput: 0: 45992.4. Samples: 10155100. Policy #0 lag: (min: 0.0, avg: 10.3, max: 21.0)
+[2024-06-10 12:04:13,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:04:14,292][35978] Updated weights for policy 0, policy_version 25125 (0.0043)
+[2024-06-10 12:04:17,566][35978] Updated weights for policy 0, policy_version 25135 (0.0038)
+[2024-06-10 12:04:18,401][35745] Fps is (10 sec: 45875.7, 60 sec: 46421.3, 300 sec: 37593.9). Total num frames: 411828224. Throughput: 0: 46116.3. Samples: 10433820. Policy #0 lag: (min: 0.0, avg: 10.3, max: 21.0)
+[2024-06-10 12:04:18,402][35745] Avg episode reward: [(0, '0.281')]
+[2024-06-10 12:04:21,500][35978] Updated weights for policy 0, policy_version 25145 (0.0037)
+[2024-06-10 12:04:23,402][35745] Fps is (10 sec: 49151.7, 60 sec: 46421.3, 300 sec: 37800.3). Total num frames: 412073984. Throughput: 0: 46287.0. Samples: 10716520. Policy #0 lag: (min: 0.0, avg: 10.5, max: 22.0)
+[2024-06-10 12:04:23,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:04:24,918][35978] Updated weights for policy 0, policy_version 25155 (0.0028)
+[2024-06-10 12:04:28,367][35978] Updated weights for policy 0, policy_version 25165 (0.0037)
+[2024-06-10 12:04:28,402][35745] Fps is (10 sec: 47513.1, 60 sec: 46421.3, 300 sec: 37941.9). Total num frames: 412303360. Throughput: 0: 46306.7. Samples: 10855620. Policy #0 lag: (min: 0.0, avg: 10.5, max: 22.0)
+[2024-06-10 12:04:28,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:04:31,929][35978] Updated weights for policy 0, policy_version 25175 (0.0041)
+[2024-06-10 12:04:33,402][35745] Fps is (10 sec: 42598.6, 60 sec: 45875.3, 300 sec: 37965.7). Total num frames: 412499968. Throughput: 0: 46024.6. Samples: 11125660. Policy #0 lag: (min: 0.0, avg: 10.5, max: 22.0)
+[2024-06-10 12:04:33,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:04:35,782][35978] Updated weights for policy 0, policy_version 25185 (0.0035)
+[2024-06-10 12:04:38,402][35745] Fps is (10 sec: 45875.0, 60 sec: 46421.9, 300 sec: 38210.8). Total num frames: 412762112. Throughput: 0: 46022.6. Samples: 11400120. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-10 12:04:38,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:04:39,352][35978] Updated weights for policy 0, policy_version 25195 (0.0040)
+[2024-06-10 12:04:42,937][35978] Updated weights for policy 0, policy_version 25205 (0.0030)
+[2024-06-10 12:04:43,402][35745] Fps is (10 sec: 47513.3, 60 sec: 46148.3, 300 sec: 38932.8). Total num frames: 412975104. Throughput: 0: 45959.9. Samples: 11538200. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-10 12:04:43,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:04:46,307][35978] Updated weights for policy 0, policy_version 25215 (0.0037)
+[2024-06-10 12:04:48,401][35745] Fps is (10 sec: 40960.5, 60 sec: 45329.2, 300 sec: 39043.9). Total num frames: 413171712. Throughput: 0: 45870.7. Samples: 11811100. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-10 12:04:48,402][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:04:49,934][35978] Updated weights for policy 0, policy_version 25225 (0.0030)
+[2024-06-10 12:04:53,401][35745] Fps is (10 sec: 44237.3, 60 sec: 45875.2, 300 sec: 39877.0). Total num frames: 413417472. Throughput: 0: 45806.8. Samples: 12080860. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-10 12:04:53,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:04:53,688][35978] Updated weights for policy 0, policy_version 25235 (0.0027)
+[2024-06-10 12:04:57,139][35978] Updated weights for policy 0, policy_version 25245 (0.0035)
+[2024-06-10 12:04:58,401][35745] Fps is (10 sec: 49152.1, 60 sec: 45875.3, 300 sec: 40654.6). Total num frames: 413663232. Throughput: 0: 45796.1. Samples: 12215920. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-10 12:04:58,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:05:00,919][35978] Updated weights for policy 0, policy_version 25255 (0.0027)
+[2024-06-10 12:05:03,404][35745] Fps is (10 sec: 47502.1, 60 sec: 45873.4, 300 sec: 41376.2). Total num frames: 413892608. Throughput: 0: 45807.3. Samples: 12495260. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-10 12:05:03,405][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:05:04,485][35978] Updated weights for policy 0, policy_version 25265 (0.0028)
+[2024-06-10 12:05:08,010][35978] Updated weights for policy 0, policy_version 25275 (0.0034)
+[2024-06-10 12:05:08,402][35745] Fps is (10 sec: 45875.0, 60 sec: 45875.3, 300 sec: 41987.5). Total num frames: 414121984. Throughput: 0: 45600.1. Samples: 12768520. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-10 12:05:08,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:05:11,360][35978] Updated weights for policy 0, policy_version 25285 (0.0028)
+[2024-06-10 12:05:13,402][35745] Fps is (10 sec: 45885.9, 60 sec: 46148.2, 300 sec: 42487.3). Total num frames: 414351360. Throughput: 0: 45607.6. Samples: 12907960. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:05:13,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:05:15,125][35978] Updated weights for policy 0, policy_version 25295 (0.0029)
+[2024-06-10 12:05:18,403][35745] Fps is (10 sec: 45868.9, 60 sec: 45874.1, 300 sec: 42931.4). Total num frames: 414580736. Throughput: 0: 45820.9. Samples: 13187660. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:05:18,404][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:05:18,427][35978] Updated weights for policy 0, policy_version 25305 (0.0025)
+[2024-06-10 12:05:21,775][35957] Signal inference workers to stop experience collection... (150 times)
+[2024-06-10 12:05:21,778][35957] Signal inference workers to resume experience collection... (150 times)
+[2024-06-10 12:05:21,800][35978] InferenceWorker_p0-w0: stopping experience collection (150 times)
+[2024-06-10 12:05:21,800][35978] InferenceWorker_p0-w0: resuming experience collection (150 times)
+[2024-06-10 12:05:22,054][35978] Updated weights for policy 0, policy_version 25315 (0.0034)
+[2024-06-10 12:05:23,402][35745] Fps is (10 sec: 42598.1, 60 sec: 45056.0, 300 sec: 43264.8). Total num frames: 414777344. Throughput: 0: 45676.9. Samples: 13455580. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:05:23,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:05:25,617][35978] Updated weights for policy 0, policy_version 25325 (0.0043)
+[2024-06-10 12:05:28,402][35745] Fps is (10 sec: 44238.7, 60 sec: 45328.4, 300 sec: 43709.0). Total num frames: 415023104. Throughput: 0: 45465.4. Samples: 13584180. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:05:28,408][35745] Avg episode reward: [(0, '0.285')]
+[2024-06-10 12:05:29,358][35978] Updated weights for policy 0, policy_version 25335 (0.0027)
+[2024-06-10 12:05:32,869][35978] Updated weights for policy 0, policy_version 25345 (0.0030)
+[2024-06-10 12:05:33,401][35745] Fps is (10 sec: 49152.7, 60 sec: 46148.3, 300 sec: 44042.4). Total num frames: 415268864. Throughput: 0: 45712.0. Samples: 13868140. Policy #0 lag: (min: 0.0, avg: 10.1, max: 23.0)
+[2024-06-10 12:05:33,402][35745] Avg episode reward: [(0, '0.284')]
+[2024-06-10 12:05:33,465][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000025347_415285248.pth...
+[2024-06-10 12:05:33,516][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000024677_404307968.pth
+[2024-06-10 12:05:36,554][35978] Updated weights for policy 0, policy_version 25355 (0.0030)
+[2024-06-10 12:05:38,401][35745] Fps is (10 sec: 45879.7, 60 sec: 45329.2, 300 sec: 44209.0). Total num frames: 415481856. Throughput: 0: 45985.3. Samples: 14150200. Policy #0 lag: (min: 0.0, avg: 10.1, max: 23.0)
+[2024-06-10 12:05:38,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:05:40,034][35978] Updated weights for policy 0, policy_version 25365 (0.0025)
+[2024-06-10 12:05:43,402][35745] Fps is (10 sec: 44236.4, 60 sec: 45602.1, 300 sec: 44431.2). Total num frames: 415711232. Throughput: 0: 45851.4. Samples: 14279240. Policy #0 lag: (min: 0.0, avg: 10.1, max: 23.0)
+[2024-06-10 12:05:43,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:05:43,649][35978] Updated weights for policy 0, policy_version 25375 (0.0026)
+[2024-06-10 12:05:46,946][35978] Updated weights for policy 0, policy_version 25385 (0.0024)
+[2024-06-10 12:05:48,402][35745] Fps is (10 sec: 47512.9, 60 sec: 46421.2, 300 sec: 44653.3). Total num frames: 415956992. Throughput: 0: 45764.1. Samples: 14554540. Policy #0 lag: (min: 1.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:05:48,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:05:50,771][35978] Updated weights for policy 0, policy_version 25395 (0.0032)
+[2024-06-10 12:05:53,402][35745] Fps is (10 sec: 45875.3, 60 sec: 45875.1, 300 sec: 44764.4). Total num frames: 416169984. Throughput: 0: 45967.9. Samples: 14837080. Policy #0 lag: (min: 1.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:05:53,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:05:54,066][35978] Updated weights for policy 0, policy_version 25405 (0.0027)
+[2024-06-10 12:05:57,792][35978] Updated weights for policy 0, policy_version 25415 (0.0044)
+[2024-06-10 12:05:58,402][35745] Fps is (10 sec: 44236.5, 60 sec: 45602.0, 300 sec: 44931.0). Total num frames: 416399360. Throughput: 0: 45760.3. Samples: 14967180. Policy #0 lag: (min: 1.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:05:58,402][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:06:01,322][35978] Updated weights for policy 0, policy_version 25425 (0.0023)
+[2024-06-10 12:06:03,405][35745] Fps is (10 sec: 47495.2, 60 sec: 45874.0, 300 sec: 45152.6). Total num frames: 416645120. Throughput: 0: 45650.7. Samples: 15242060. Policy #0 lag: (min: 1.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:06:03,406][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:06:04,967][35978] Updated weights for policy 0, policy_version 25435 (0.0033)
+[2024-06-10 12:06:08,402][35745] Fps is (10 sec: 47514.3, 60 sec: 45875.2, 300 sec: 45319.8). Total num frames: 416874496. Throughput: 0: 45895.6. Samples: 15520880. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-10 12:06:08,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:06:08,771][35978] Updated weights for policy 0, policy_version 25445 (0.0036)
+[2024-06-10 12:06:12,235][35978] Updated weights for policy 0, policy_version 25455 (0.0027)
+[2024-06-10 12:06:13,401][35745] Fps is (10 sec: 42615.2, 60 sec: 45329.1, 300 sec: 45319.8). Total num frames: 417071104. Throughput: 0: 46061.9. Samples: 15656920. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-10 12:06:13,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:06:15,753][35978] Updated weights for policy 0, policy_version 25465 (0.0027)
+[2024-06-10 12:06:18,401][35745] Fps is (10 sec: 44237.0, 60 sec: 45603.2, 300 sec: 45486.5). Total num frames: 417316864. Throughput: 0: 45874.2. Samples: 15932480. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-10 12:06:18,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:06:19,751][35978] Updated weights for policy 0, policy_version 25475 (0.0036)
+[2024-06-10 12:06:22,619][35978] Updated weights for policy 0, policy_version 25485 (0.0031)
+[2024-06-10 12:06:23,402][35745] Fps is (10 sec: 49151.9, 60 sec: 46421.4, 300 sec: 45653.1). Total num frames: 417562624. Throughput: 0: 45598.2. Samples: 16202120. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 12:06:23,402][35745] Avg episode reward: [(0, '0.283')]
+[2024-06-10 12:06:26,890][35978] Updated weights for policy 0, policy_version 25495 (0.0029)
+[2024-06-10 12:06:28,402][35745] Fps is (10 sec: 45874.8, 60 sec: 45875.9, 300 sec: 45653.1). Total num frames: 417775616. Throughput: 0: 45916.0. Samples: 16345460. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 12:06:28,403][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:06:28,719][35957] Signal inference workers to stop experience collection... (200 times)
+[2024-06-10 12:06:28,719][35957] Signal inference workers to resume experience collection... (200 times)
+[2024-06-10 12:06:28,742][35978] InferenceWorker_p0-w0: stopping experience collection (200 times)
+[2024-06-10 12:06:28,742][35978] InferenceWorker_p0-w0: resuming experience collection (200 times)
+[2024-06-10 12:06:30,075][35978] Updated weights for policy 0, policy_version 25505 (0.0027)
+[2024-06-10 12:06:33,402][35745] Fps is (10 sec: 44236.5, 60 sec: 45602.1, 300 sec: 45708.6). Total num frames: 418004992. Throughput: 0: 45850.7. Samples: 16617820. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 12:06:33,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:06:33,966][35978] Updated weights for policy 0, policy_version 25515 (0.0043)
+[2024-06-10 12:06:37,606][35978] Updated weights for policy 0, policy_version 25525 (0.0040)
+[2024-06-10 12:06:38,401][35745] Fps is (10 sec: 45875.6, 60 sec: 45875.2, 300 sec: 45764.2). Total num frames: 418234368. Throughput: 0: 45616.5. Samples: 16889820. Policy #0 lag: (min: 0.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:06:38,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:06:41,185][35978] Updated weights for policy 0, policy_version 25535 (0.0028)
+[2024-06-10 12:06:43,402][35745] Fps is (10 sec: 47513.1, 60 sec: 46148.2, 300 sec: 45930.7). Total num frames: 418480128. Throughput: 0: 45708.9. Samples: 17024080. Policy #0 lag: (min: 0.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:06:43,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:06:44,752][35978] Updated weights for policy 0, policy_version 25545 (0.0039)
+[2024-06-10 12:06:48,401][35745] Fps is (10 sec: 42598.6, 60 sec: 45056.1, 300 sec: 45764.2). Total num frames: 418660352. Throughput: 0: 45703.6. Samples: 17298540. Policy #0 lag: (min: 0.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:06:48,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:06:48,699][35978] Updated weights for policy 0, policy_version 25555 (0.0036)
+[2024-06-10 12:06:51,835][35978] Updated weights for policy 0, policy_version 25565 (0.0031)
+[2024-06-10 12:06:53,402][35745] Fps is (10 sec: 44237.4, 60 sec: 45875.2, 300 sec: 45875.2). Total num frames: 418922496. Throughput: 0: 45516.0. Samples: 17569100. Policy #0 lag: (min: 0.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:06:53,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:06:55,759][35978] Updated weights for policy 0, policy_version 25575 (0.0031)
+[2024-06-10 12:06:58,404][35745] Fps is (10 sec: 49140.1, 60 sec: 45873.5, 300 sec: 45930.4). Total num frames: 419151872. Throughput: 0: 45406.5. Samples: 17700320. Policy #0 lag: (min: 0.0, avg: 9.9, max: 23.0)
+[2024-06-10 12:06:58,405][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:06:59,271][35978] Updated weights for policy 0, policy_version 25585 (0.0042)
+[2024-06-10 12:07:02,772][35978] Updated weights for policy 0, policy_version 25595 (0.0030)
+[2024-06-10 12:07:03,402][35745] Fps is (10 sec: 42598.7, 60 sec: 45059.0, 300 sec: 45819.7). Total num frames: 419348480. Throughput: 0: 45429.3. Samples: 17976800. Policy #0 lag: (min: 0.0, avg: 9.9, max: 23.0)
+[2024-06-10 12:07:03,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:07:06,750][35978] Updated weights for policy 0, policy_version 25605 (0.0024)
+[2024-06-10 12:07:08,402][35745] Fps is (10 sec: 42608.3, 60 sec: 45056.0, 300 sec: 45875.2). Total num frames: 419577856. Throughput: 0: 45430.2. Samples: 18246480. Policy #0 lag: (min: 0.0, avg: 9.9, max: 23.0)
+[2024-06-10 12:07:08,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:07:10,210][35978] Updated weights for policy 0, policy_version 25615 (0.0021)
+[2024-06-10 12:07:13,404][35745] Fps is (10 sec: 47502.3, 60 sec: 45873.4, 300 sec: 45930.4). Total num frames: 419823616. Throughput: 0: 45324.3. Samples: 18385160. Policy #0 lag: (min: 0.0, avg: 11.7, max: 23.0)
+[2024-06-10 12:07:13,405][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:07:13,811][35978] Updated weights for policy 0, policy_version 25625 (0.0027)
+[2024-06-10 12:07:17,748][35978] Updated weights for policy 0, policy_version 25635 (0.0032)
+[2024-06-10 12:07:18,404][35745] Fps is (10 sec: 47502.5, 60 sec: 45600.3, 300 sec: 45819.3). Total num frames: 420052992. Throughput: 0: 45228.4. Samples: 18653200. Policy #0 lag: (min: 0.0, avg: 11.7, max: 23.0)
+[2024-06-10 12:07:18,405][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:07:21,255][35978] Updated weights for policy 0, policy_version 25645 (0.0034)
+[2024-06-10 12:07:23,402][35745] Fps is (10 sec: 44246.8, 60 sec: 45055.9, 300 sec: 45875.5). Total num frames: 420265984. Throughput: 0: 45299.9. Samples: 18928320. Policy #0 lag: (min: 0.0, avg: 11.7, max: 23.0)
+[2024-06-10 12:07:23,402][35745] Avg episode reward: [(0, '0.283')]
+[2024-06-10 12:07:24,715][35978] Updated weights for policy 0, policy_version 25655 (0.0027)
+[2024-06-10 12:07:28,402][35745] Fps is (10 sec: 42608.4, 60 sec: 45056.1, 300 sec: 45764.4). Total num frames: 420478976. Throughput: 0: 45298.0. Samples: 19062480. Policy #0 lag: (min: 0.0, avg: 11.7, max: 23.0)
+[2024-06-10 12:07:28,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:07:28,757][35978] Updated weights for policy 0, policy_version 25665 (0.0038)
+[2024-06-10 12:07:32,112][35978] Updated weights for policy 0, policy_version 25675 (0.0039)
+[2024-06-10 12:07:33,402][35745] Fps is (10 sec: 47513.9, 60 sec: 45602.2, 300 sec: 45819.9). Total num frames: 420741120. Throughput: 0: 45303.4. Samples: 19337200. Policy #0 lag: (min: 0.0, avg: 11.8, max: 23.0)
+[2024-06-10 12:07:33,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:07:33,424][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000025680_420741120.pth...
+[2024-06-10 12:07:33,490][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000025009_409747456.pth
+[2024-06-10 12:07:33,493][35957] Saving new best policy, reward=0.300!
+[2024-06-10 12:07:35,931][35978] Updated weights for policy 0, policy_version 25685 (0.0038)
+[2024-06-10 12:07:38,402][35745] Fps is (10 sec: 45875.1, 60 sec: 45056.0, 300 sec: 45764.1). Total num frames: 420937728. Throughput: 0: 45235.1. Samples: 19604680. Policy #0 lag: (min: 0.0, avg: 11.8, max: 23.0)
+[2024-06-10 12:07:38,402][35745] Avg episode reward: [(0, '0.281')]
+[2024-06-10 12:07:39,267][35978] Updated weights for policy 0, policy_version 25695 (0.0031)
+[2024-06-10 12:07:43,356][35978] Updated weights for policy 0, policy_version 25705 (0.0034)
+[2024-06-10 12:07:43,404][35745] Fps is (10 sec: 40950.5, 60 sec: 44508.3, 300 sec: 45708.6). Total num frames: 421150720. Throughput: 0: 45218.2. Samples: 19735140. Policy #0 lag: (min: 0.0, avg: 11.8, max: 23.0)
+[2024-06-10 12:07:43,405][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:07:46,628][35978] Updated weights for policy 0, policy_version 25715 (0.0041)
+[2024-06-10 12:07:48,402][35745] Fps is (10 sec: 47513.6, 60 sec: 45875.1, 300 sec: 45819.7). Total num frames: 421412864. Throughput: 0: 45139.1. Samples: 20008060. Policy #0 lag: (min: 1.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:07:48,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:07:50,454][35978] Updated weights for policy 0, policy_version 25725 (0.0032)
+[2024-06-10 12:07:53,402][35745] Fps is (10 sec: 47524.5, 60 sec: 45056.0, 300 sec: 45764.1). Total num frames: 421625856. Throughput: 0: 45238.6. Samples: 20282220. Policy #0 lag: (min: 1.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:07:53,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:07:53,624][35978] Updated weights for policy 0, policy_version 25735 (0.0035)
+[2024-06-10 12:07:55,738][35957] Signal inference workers to stop experience collection... (250 times)
+[2024-06-10 12:07:55,738][35957] Signal inference workers to resume experience collection... (250 times)
+[2024-06-10 12:07:55,773][35978] InferenceWorker_p0-w0: stopping experience collection (250 times)
+[2024-06-10 12:07:55,773][35978] InferenceWorker_p0-w0: resuming experience collection (250 times)
+[2024-06-10 12:07:57,924][35978] Updated weights for policy 0, policy_version 25745 (0.0035)
+[2024-06-10 12:07:58,402][35745] Fps is (10 sec: 40960.2, 60 sec: 44511.6, 300 sec: 45653.1). Total num frames: 421822464. Throughput: 0: 45045.9. Samples: 20412120. Policy #0 lag: (min: 1.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:07:58,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:08:01,028][35978] Updated weights for policy 0, policy_version 25755 (0.0026)
+[2024-06-10 12:08:03,402][35745] Fps is (10 sec: 49151.6, 60 sec: 46148.1, 300 sec: 45875.2). Total num frames: 422117376. Throughput: 0: 45207.1. Samples: 20687420. Policy #0 lag: (min: 1.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:08:03,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:08:05,220][35978] Updated weights for policy 0, policy_version 25765 (0.0033)
+[2024-06-10 12:08:08,141][35978] Updated weights for policy 0, policy_version 25775 (0.0033)
+[2024-06-10 12:08:08,402][35745] Fps is (10 sec: 49151.6, 60 sec: 45602.1, 300 sec: 45653.0). Total num frames: 422313984. Throughput: 0: 45257.8. Samples: 20964920. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-10 12:08:08,402][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:08:12,285][35978] Updated weights for policy 0, policy_version 25785 (0.0022)
+[2024-06-10 12:08:13,402][35745] Fps is (10 sec: 40960.1, 60 sec: 45057.7, 300 sec: 45708.6). Total num frames: 422526976. Throughput: 0: 45021.2. Samples: 21088440. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-10 12:08:13,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:08:15,522][35978] Updated weights for policy 0, policy_version 25795 (0.0037)
+[2024-06-10 12:08:18,402][35745] Fps is (10 sec: 45875.5, 60 sec: 45330.8, 300 sec: 45708.6). Total num frames: 422772736. Throughput: 0: 45119.1. Samples: 21367560. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-10 12:08:18,402][35745] Avg episode reward: [(0, '0.285')]
+[2024-06-10 12:08:19,233][35978] Updated weights for policy 0, policy_version 25805 (0.0033)
+[2024-06-10 12:08:22,755][35978] Updated weights for policy 0, policy_version 25815 (0.0031)
+[2024-06-10 12:08:23,402][35745] Fps is (10 sec: 45875.8, 60 sec: 45329.1, 300 sec: 45653.0). Total num frames: 422985728. Throughput: 0: 45148.0. Samples: 21636340. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-10 12:08:23,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:08:26,484][35978] Updated weights for policy 0, policy_version 25825 (0.0036)
+[2024-06-10 12:08:28,402][35745] Fps is (10 sec: 42598.5, 60 sec: 45329.1, 300 sec: 45597.5). Total num frames: 423198720. Throughput: 0: 45304.2. Samples: 21773720. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-10 12:08:28,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:08:29,889][35978] Updated weights for policy 0, policy_version 25835 (0.0043)
+[2024-06-10 12:08:33,402][35745] Fps is (10 sec: 44236.5, 60 sec: 44782.9, 300 sec: 45597.6). Total num frames: 423428096. Throughput: 0: 45072.4. Samples: 22036320. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-10 12:08:33,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:08:33,934][35978] Updated weights for policy 0, policy_version 25845 (0.0030)
+[2024-06-10 12:08:37,277][35978] Updated weights for policy 0, policy_version 25855 (0.0055)
+[2024-06-10 12:08:38,402][35745] Fps is (10 sec: 49151.5, 60 sec: 45875.2, 300 sec: 45708.6). Total num frames: 423690240. Throughput: 0: 45064.4. Samples: 22310120. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-10 12:08:38,402][35745] Avg episode reward: [(0, '0.274')]
+[2024-06-10 12:08:41,026][35978] Updated weights for policy 0, policy_version 25865 (0.0036)
+[2024-06-10 12:08:43,402][35745] Fps is (10 sec: 42598.3, 60 sec: 45057.7, 300 sec: 45430.9). Total num frames: 423854080. Throughput: 0: 45271.5. Samples: 22449340. Policy #0 lag: (min: 0.0, avg: 12.8, max: 24.0)
+[2024-06-10 12:08:43,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:08:44,262][35978] Updated weights for policy 0, policy_version 25875 (0.0034)
+[2024-06-10 12:08:48,025][35978] Updated weights for policy 0, policy_version 25885 (0.0028)
+[2024-06-10 12:08:48,401][35745] Fps is (10 sec: 40960.4, 60 sec: 44783.0, 300 sec: 45542.0). Total num frames: 424099840. Throughput: 0: 45110.8. Samples: 22717400. Policy #0 lag: (min: 0.0, avg: 12.8, max: 24.0)
+[2024-06-10 12:08:48,402][35745] Avg episode reward: [(0, '0.282')]
+[2024-06-10 12:08:51,704][35978] Updated weights for policy 0, policy_version 25895 (0.0024)
+[2024-06-10 12:08:53,406][35745] Fps is (10 sec: 49129.3, 60 sec: 45325.6, 300 sec: 45541.2). Total num frames: 424345600. Throughput: 0: 44841.6. Samples: 22983000. Policy #0 lag: (min: 0.0, avg: 12.8, max: 24.0)
+[2024-06-10 12:08:53,407][35745] Avg episode reward: [(0, '0.283')]
+[2024-06-10 12:08:55,292][35978] Updated weights for policy 0, policy_version 25905 (0.0035)
+[2024-06-10 12:08:58,402][35745] Fps is (10 sec: 42597.7, 60 sec: 45055.9, 300 sec: 45375.3). Total num frames: 424525824. Throughput: 0: 45107.1. Samples: 23118260. Policy #0 lag: (min: 0.0, avg: 7.7, max: 21.0)
+[2024-06-10 12:08:58,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:08:58,992][35978] Updated weights for policy 0, policy_version 25915 (0.0034)
+[2024-06-10 12:09:02,638][35978] Updated weights for policy 0, policy_version 25925 (0.0037)
+[2024-06-10 12:09:03,402][35745] Fps is (10 sec: 42618.5, 60 sec: 44236.9, 300 sec: 45430.9). Total num frames: 424771584. Throughput: 0: 44848.5. Samples: 23385740. Policy #0 lag: (min: 0.0, avg: 7.7, max: 21.0)
+[2024-06-10 12:09:03,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:09:05,558][35957] Signal inference workers to stop experience collection... (300 times)
+[2024-06-10 12:09:05,559][35957] Signal inference workers to resume experience collection... (300 times)
+[2024-06-10 12:09:05,573][35978] InferenceWorker_p0-w0: stopping experience collection (300 times)
+[2024-06-10 12:09:05,573][35978] InferenceWorker_p0-w0: resuming experience collection (300 times)
+[2024-06-10 12:09:06,294][35978] Updated weights for policy 0, policy_version 25935 (0.0030)
+[2024-06-10 12:09:08,401][35745] Fps is (10 sec: 50791.2, 60 sec: 45329.1, 300 sec: 45597.5). Total num frames: 425033728. Throughput: 0: 44942.7. Samples: 23658760. Policy #0 lag: (min: 0.0, avg: 7.7, max: 21.0)
+[2024-06-10 12:09:08,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:09:10,003][35978] Updated weights for policy 0, policy_version 25945 (0.0032)
+[2024-06-10 12:09:13,402][35745] Fps is (10 sec: 45875.0, 60 sec: 45056.1, 300 sec: 45430.9). Total num frames: 425230336. Throughput: 0: 44947.1. Samples: 23796340. Policy #0 lag: (min: 0.0, avg: 7.7, max: 21.0)
+[2024-06-10 12:09:13,402][35745] Avg episode reward: [(0, '0.283')]
+[2024-06-10 12:09:13,429][35978] Updated weights for policy 0, policy_version 25955 (0.0026)
+[2024-06-10 12:09:16,921][35978] Updated weights for policy 0, policy_version 25965 (0.0035)
+[2024-06-10 12:09:18,402][35745] Fps is (10 sec: 39321.1, 60 sec: 44236.7, 300 sec: 45264.3). Total num frames: 425426944. Throughput: 0: 45098.6. Samples: 24065760. Policy #0 lag: (min: 1.0, avg: 11.3, max: 24.0)
+[2024-06-10 12:09:18,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:09:20,637][35978] Updated weights for policy 0, policy_version 25975 (0.0034)
+[2024-06-10 12:09:23,402][35745] Fps is (10 sec: 47513.9, 60 sec: 45329.1, 300 sec: 45430.9). Total num frames: 425705472. Throughput: 0: 45013.0. Samples: 24335700. Policy #0 lag: (min: 1.0, avg: 11.3, max: 24.0)
+[2024-06-10 12:09:23,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:09:23,869][35978] Updated weights for policy 0, policy_version 25985 (0.0035)
+[2024-06-10 12:09:28,104][35978] Updated weights for policy 0, policy_version 25995 (0.0037)
+[2024-06-10 12:09:28,402][35745] Fps is (10 sec: 47513.9, 60 sec: 45056.0, 300 sec: 45430.9). Total num frames: 425902080. Throughput: 0: 45085.0. Samples: 24478160. Policy #0 lag: (min: 1.0, avg: 11.3, max: 24.0)
+[2024-06-10 12:09:28,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:09:31,437][35978] Updated weights for policy 0, policy_version 26005 (0.0035)
+[2024-06-10 12:09:33,402][35745] Fps is (10 sec: 40959.5, 60 sec: 44782.9, 300 sec: 45264.3). Total num frames: 426115072. Throughput: 0: 44967.4. Samples: 24740940. Policy #0 lag: (min: 0.0, avg: 9.9, max: 20.0)
+[2024-06-10 12:09:33,403][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:09:33,416][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000026008_426115072.pth...
+[2024-06-10 12:09:33,473][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000025347_415285248.pth
+[2024-06-10 12:09:35,511][35978] Updated weights for policy 0, policy_version 26015 (0.0028)
+[2024-06-10 12:09:38,404][35745] Fps is (10 sec: 45864.4, 60 sec: 44508.2, 300 sec: 45375.0). Total num frames: 426360832. Throughput: 0: 44922.8. Samples: 25004420. Policy #0 lag: (min: 0.0, avg: 9.9, max: 20.0)
+[2024-06-10 12:09:38,405][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:09:38,998][35978] Updated weights for policy 0, policy_version 26025 (0.0038)
+[2024-06-10 12:09:42,538][35978] Updated weights for policy 0, policy_version 26035 (0.0033)
+[2024-06-10 12:09:43,401][35745] Fps is (10 sec: 47514.1, 60 sec: 45602.2, 300 sec: 45486.4). Total num frames: 426590208. Throughput: 0: 45253.0. Samples: 25154640. Policy #0 lag: (min: 0.0, avg: 9.9, max: 20.0)
+[2024-06-10 12:09:43,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:09:46,104][35978] Updated weights for policy 0, policy_version 26045 (0.0031)
+[2024-06-10 12:09:48,402][35745] Fps is (10 sec: 44247.0, 60 sec: 45055.9, 300 sec: 45375.3). Total num frames: 426803200. Throughput: 0: 45231.9. Samples: 25421180. Policy #0 lag: (min: 0.0, avg: 9.9, max: 20.0)
+[2024-06-10 12:09:48,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:09:49,679][35978] Updated weights for policy 0, policy_version 26055 (0.0037)
+[2024-06-10 12:09:53,084][35978] Updated weights for policy 0, policy_version 26065 (0.0031)
+[2024-06-10 12:09:53,402][35745] Fps is (10 sec: 45875.0, 60 sec: 45059.5, 300 sec: 45375.3). Total num frames: 427048960. Throughput: 0: 45040.0. Samples: 25685560. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:09:53,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:09:57,065][35978] Updated weights for policy 0, policy_version 26075 (0.0033)
+[2024-06-10 12:09:58,402][35745] Fps is (10 sec: 47513.7, 60 sec: 45875.3, 300 sec: 45375.7). Total num frames: 427278336. Throughput: 0: 45280.5. Samples: 25833960. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:09:58,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:10:00,585][35978] Updated weights for policy 0, policy_version 26085 (0.0040)
+[2024-06-10 12:10:03,402][35745] Fps is (10 sec: 42597.7, 60 sec: 45055.9, 300 sec: 45264.2). Total num frames: 427474944. Throughput: 0: 45281.7. Samples: 26103440. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:10:03,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:10:04,371][35978] Updated weights for policy 0, policy_version 26095 (0.0027)
+[2024-06-10 12:10:04,814][35957] Signal inference workers to stop experience collection... (350 times)
+[2024-06-10 12:10:04,855][35978] InferenceWorker_p0-w0: stopping experience collection (350 times)
+[2024-06-10 12:10:04,863][35957] Signal inference workers to resume experience collection... (350 times)
+[2024-06-10 12:10:04,876][35978] InferenceWorker_p0-w0: resuming experience collection (350 times)
+[2024-06-10 12:10:07,636][35978] Updated weights for policy 0, policy_version 26105 (0.0031)
+[2024-06-10 12:10:08,402][35745] Fps is (10 sec: 42598.3, 60 sec: 44509.8, 300 sec: 45264.3). Total num frames: 427704320. Throughput: 0: 45022.1. Samples: 26361700. Policy #0 lag: (min: 0.0, avg: 11.8, max: 23.0)
+[2024-06-10 12:10:08,402][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:10:11,556][35978] Updated weights for policy 0, policy_version 26115 (0.0045)
+[2024-06-10 12:10:13,403][35745] Fps is (10 sec: 47506.3, 60 sec: 45327.8, 300 sec: 45319.8). Total num frames: 427950080. Throughput: 0: 45141.9. Samples: 26509620. Policy #0 lag: (min: 0.0, avg: 11.8, max: 23.0)
+[2024-06-10 12:10:13,404][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:10:15,101][35978] Updated weights for policy 0, policy_version 26125 (0.0036)
+[2024-06-10 12:10:18,402][35745] Fps is (10 sec: 44237.1, 60 sec: 45329.1, 300 sec: 45319.8). Total num frames: 428146688. Throughput: 0: 45369.4. Samples: 26782560. Policy #0 lag: (min: 0.0, avg: 11.8, max: 23.0)
+[2024-06-10 12:10:18,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:10:18,875][35978] Updated weights for policy 0, policy_version 26135 (0.0022)
+[2024-06-10 12:10:22,139][35978] Updated weights for policy 0, policy_version 26145 (0.0033)
+[2024-06-10 12:10:23,404][35745] Fps is (10 sec: 42595.7, 60 sec: 44508.1, 300 sec: 45264.1). Total num frames: 428376064. Throughput: 0: 45177.8. Samples: 27037420. Policy #0 lag: (min: 0.0, avg: 11.8, max: 23.0)
+[2024-06-10 12:10:23,404][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:10:26,206][35978] Updated weights for policy 0, policy_version 26155 (0.0038)
+[2024-06-10 12:10:28,402][35745] Fps is (10 sec: 49151.2, 60 sec: 45602.0, 300 sec: 45319.8). Total num frames: 428638208. Throughput: 0: 45058.9. Samples: 27182300. Policy #0 lag: (min: 0.0, avg: 6.8, max: 20.0)
+[2024-06-10 12:10:28,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:10:29,643][35978] Updated weights for policy 0, policy_version 26165 (0.0034)
+[2024-06-10 12:10:33,402][35745] Fps is (10 sec: 45886.0, 60 sec: 45329.1, 300 sec: 45264.3). Total num frames: 428834816. Throughput: 0: 45205.4. Samples: 27455420. Policy #0 lag: (min: 0.0, avg: 6.8, max: 20.0)
+[2024-06-10 12:10:33,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:10:33,421][35978] Updated weights for policy 0, policy_version 26175 (0.0030)
+[2024-06-10 12:10:36,927][35978] Updated weights for policy 0, policy_version 26185 (0.0028)
+[2024-06-10 12:10:38,402][35745] Fps is (10 sec: 39322.3, 60 sec: 44511.6, 300 sec: 45153.2). Total num frames: 429031424. Throughput: 0: 45094.7. Samples: 27714820. Policy #0 lag: (min: 0.0, avg: 6.8, max: 20.0)
+[2024-06-10 12:10:38,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:10:40,921][35978] Updated weights for policy 0, policy_version 26195 (0.0025)
+[2024-06-10 12:10:43,401][35745] Fps is (10 sec: 45875.3, 60 sec: 45056.0, 300 sec: 45208.8). Total num frames: 429293568. Throughput: 0: 44806.7. Samples: 27850260. Policy #0 lag: (min: 0.0, avg: 11.8, max: 22.0)
+[2024-06-10 12:10:43,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:10:44,274][35978] Updated weights for policy 0, policy_version 26205 (0.0039)
+[2024-06-10 12:10:48,134][35978] Updated weights for policy 0, policy_version 26215 (0.0039)
+[2024-06-10 12:10:48,402][35745] Fps is (10 sec: 49151.3, 60 sec: 45329.0, 300 sec: 45264.3). Total num frames: 429522944. Throughput: 0: 44888.9. Samples: 28123440. Policy #0 lag: (min: 0.0, avg: 11.8, max: 22.0)
+[2024-06-10 12:10:48,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:10:51,363][35978] Updated weights for policy 0, policy_version 26225 (0.0028)
+[2024-06-10 12:10:53,402][35745] Fps is (10 sec: 40959.4, 60 sec: 44236.7, 300 sec: 45097.7). Total num frames: 429703168. Throughput: 0: 45097.7. Samples: 28391100. Policy #0 lag: (min: 0.0, avg: 11.8, max: 22.0)
+[2024-06-10 12:10:53,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:10:55,315][35978] Updated weights for policy 0, policy_version 26235 (0.0038)
+[2024-06-10 12:10:58,401][35745] Fps is (10 sec: 44237.7, 60 sec: 44783.0, 300 sec: 45153.8). Total num frames: 429965312. Throughput: 0: 44678.2. Samples: 28520060. Policy #0 lag: (min: 0.0, avg: 11.8, max: 22.0)
+[2024-06-10 12:10:58,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:10:58,739][35978] Updated weights for policy 0, policy_version 26245 (0.0031)
+[2024-06-10 12:11:02,803][35978] Updated weights for policy 0, policy_version 26255 (0.0028)
+[2024-06-10 12:11:03,402][35745] Fps is (10 sec: 49152.3, 60 sec: 45329.2, 300 sec: 45153.2). Total num frames: 430194688. Throughput: 0: 44814.2. Samples: 28799200. Policy #0 lag: (min: 0.0, avg: 10.7, max: 20.0)
+[2024-06-10 12:11:03,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:11:06,252][35978] Updated weights for policy 0, policy_version 26265 (0.0026)
+[2024-06-10 12:11:08,402][35745] Fps is (10 sec: 40959.7, 60 sec: 44509.9, 300 sec: 45097.7). Total num frames: 430374912. Throughput: 0: 45142.8. Samples: 29068740. Policy #0 lag: (min: 0.0, avg: 10.7, max: 20.0)
+[2024-06-10 12:11:08,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:11:10,093][35978] Updated weights for policy 0, policy_version 26275 (0.0037)
+[2024-06-10 12:11:13,203][35978] Updated weights for policy 0, policy_version 26285 (0.0035)
+[2024-06-10 12:11:13,402][35745] Fps is (10 sec: 45875.3, 60 sec: 45057.3, 300 sec: 45208.7). Total num frames: 430653440. Throughput: 0: 44610.8. Samples: 29189780. Policy #0 lag: (min: 0.0, avg: 10.7, max: 20.0)
+[2024-06-10 12:11:13,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:11:17,441][35978] Updated weights for policy 0, policy_version 26295 (0.0040)
+[2024-06-10 12:11:18,402][35745] Fps is (10 sec: 49152.0, 60 sec: 45329.1, 300 sec: 45097.7). Total num frames: 430866432. Throughput: 0: 44800.0. Samples: 29471420. Policy #0 lag: (min: 0.0, avg: 9.3, max: 22.0)
+[2024-06-10 12:11:18,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:11:20,304][35978] Updated weights for policy 0, policy_version 26305 (0.0035)
+[2024-06-10 12:11:23,401][35745] Fps is (10 sec: 39321.9, 60 sec: 44511.6, 300 sec: 44986.6). Total num frames: 431046656. Throughput: 0: 45029.4. Samples: 29741140. Policy #0 lag: (min: 0.0, avg: 9.3, max: 22.0)
+[2024-06-10 12:11:23,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:11:24,596][35978] Updated weights for policy 0, policy_version 26315 (0.0033)
+[2024-06-10 12:11:25,237][35957] Signal inference workers to stop experience collection... (400 times)
+[2024-06-10 12:11:25,280][35978] InferenceWorker_p0-w0: stopping experience collection (400 times)
+[2024-06-10 12:11:25,286][35957] Signal inference workers to resume experience collection... (400 times)
+[2024-06-10 12:11:25,297][35978] InferenceWorker_p0-w0: resuming experience collection (400 times)
+[2024-06-10 12:11:27,785][35978] Updated weights for policy 0, policy_version 26325 (0.0041)
+[2024-06-10 12:11:28,402][35745] Fps is (10 sec: 44236.4, 60 sec: 44509.9, 300 sec: 45097.7). Total num frames: 431308800. Throughput: 0: 44783.4. Samples: 29865520. Policy #0 lag: (min: 0.0, avg: 9.3, max: 22.0)
+[2024-06-10 12:11:28,402][35745] Avg episode reward: [(0, '0.285')]
+[2024-06-10 12:11:32,111][35978] Updated weights for policy 0, policy_version 26335 (0.0031)
+[2024-06-10 12:11:33,404][35745] Fps is (10 sec: 50777.8, 60 sec: 45327.2, 300 sec: 45152.8). Total num frames: 431554560. Throughput: 0: 44796.4. Samples: 30139380. Policy #0 lag: (min: 0.0, avg: 9.3, max: 22.0)
+[2024-06-10 12:11:33,405][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:11:33,412][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000026340_431554560.pth...
+[2024-06-10 12:11:33,468][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000025680_420741120.pth
+[2024-06-10 12:11:35,290][35978] Updated weights for policy 0, policy_version 26345 (0.0028)
+[2024-06-10 12:11:38,404][35745] Fps is (10 sec: 40950.6, 60 sec: 44781.2, 300 sec: 44875.2). Total num frames: 431718400. Throughput: 0: 44864.9. Samples: 30410120. Policy #0 lag: (min: 0.0, avg: 11.7, max: 22.0)
+[2024-06-10 12:11:38,405][35745] Avg episode reward: [(0, '0.285')]
+[2024-06-10 12:11:39,334][35978] Updated weights for policy 0, policy_version 26355 (0.0030)
+[2024-06-10 12:11:42,345][35978] Updated weights for policy 0, policy_version 26365 (0.0030)
+[2024-06-10 12:11:43,402][35745] Fps is (10 sec: 40969.6, 60 sec: 44509.8, 300 sec: 45097.6). Total num frames: 431964160. Throughput: 0: 44766.5. Samples: 30534560. Policy #0 lag: (min: 0.0, avg: 11.7, max: 22.0)
+[2024-06-10 12:11:43,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:11:46,623][35978] Updated weights for policy 0, policy_version 26375 (0.0029)
+[2024-06-10 12:11:48,402][35745] Fps is (10 sec: 50801.8, 60 sec: 45056.0, 300 sec: 45097.6). Total num frames: 432226304. Throughput: 0: 44603.0. Samples: 30806340. Policy #0 lag: (min: 0.0, avg: 11.7, max: 22.0)
+[2024-06-10 12:11:48,402][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:11:49,372][35978] Updated weights for policy 0, policy_version 26385 (0.0030)
+[2024-06-10 12:11:53,402][35745] Fps is (10 sec: 45875.1, 60 sec: 45329.1, 300 sec: 44986.9). Total num frames: 432422912. Throughput: 0: 44853.7. Samples: 31087160. Policy #0 lag: (min: 0.0, avg: 8.4, max: 23.0)
+[2024-06-10 12:11:53,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:11:53,877][35978] Updated weights for policy 0, policy_version 26395 (0.0026)
+[2024-06-10 12:11:56,881][35978] Updated weights for policy 0, policy_version 26405 (0.0042)
+[2024-06-10 12:11:58,402][35745] Fps is (10 sec: 40960.1, 60 sec: 44509.7, 300 sec: 45042.1). Total num frames: 432635904. Throughput: 0: 44918.6. Samples: 31211120. Policy #0 lag: (min: 0.0, avg: 8.4, max: 23.0)
+[2024-06-10 12:11:58,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:12:01,077][35978] Updated weights for policy 0, policy_version 26415 (0.0027)
+[2024-06-10 12:12:03,402][35745] Fps is (10 sec: 47513.8, 60 sec: 45056.0, 300 sec: 45153.2). Total num frames: 432898048. Throughput: 0: 44828.8. Samples: 31488720. Policy #0 lag: (min: 0.0, avg: 8.4, max: 23.0)
+[2024-06-10 12:12:03,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:12:04,507][35978] Updated weights for policy 0, policy_version 26425 (0.0034)
+[2024-06-10 12:12:08,402][35745] Fps is (10 sec: 45875.3, 60 sec: 45329.0, 300 sec: 44986.9). Total num frames: 433094656. Throughput: 0: 44829.6. Samples: 31758480. Policy #0 lag: (min: 0.0, avg: 8.4, max: 23.0)
+[2024-06-10 12:12:08,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:12:08,435][35978] Updated weights for policy 0, policy_version 26435 (0.0034)
+[2024-06-10 12:12:11,675][35978] Updated weights for policy 0, policy_version 26445 (0.0032)
+[2024-06-10 12:12:13,402][35745] Fps is (10 sec: 40960.3, 60 sec: 44236.8, 300 sec: 44931.4). Total num frames: 433307648. Throughput: 0: 44805.4. Samples: 31881760. Policy #0 lag: (min: 1.0, avg: 12.3, max: 22.0)
+[2024-06-10 12:12:13,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:12:15,887][35978] Updated weights for policy 0, policy_version 26455 (0.0033)
+[2024-06-10 12:12:18,402][35745] Fps is (10 sec: 49151.9, 60 sec: 45329.0, 300 sec: 45153.2). Total num frames: 433586176. Throughput: 0: 44794.3. Samples: 32155020. Policy #0 lag: (min: 1.0, avg: 12.3, max: 22.0)
+[2024-06-10 12:12:18,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:12:18,584][35978] Updated weights for policy 0, policy_version 26465 (0.0024)
+[2024-06-10 12:12:23,373][35978] Updated weights for policy 0, policy_version 26475 (0.0043)
+[2024-06-10 12:12:23,402][35745] Fps is (10 sec: 45874.8, 60 sec: 45329.0, 300 sec: 45042.1). Total num frames: 433766400. Throughput: 0: 44817.4. Samples: 32426800. Policy #0 lag: (min: 1.0, avg: 12.3, max: 22.0)
+[2024-06-10 12:12:23,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:12:26,381][35978] Updated weights for policy 0, policy_version 26485 (0.0038)
+[2024-06-10 12:12:28,402][35745] Fps is (10 sec: 36045.1, 60 sec: 43963.8, 300 sec: 44764.4). Total num frames: 433946624. Throughput: 0: 44955.6. Samples: 32557560. Policy #0 lag: (min: 1.0, avg: 12.3, max: 22.0)
+[2024-06-10 12:12:28,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:12:30,376][35978] Updated weights for policy 0, policy_version 26495 (0.0030)
+[2024-06-10 12:12:31,440][35957] Signal inference workers to stop experience collection... (450 times)
+[2024-06-10 12:12:31,444][35957] Signal inference workers to resume experience collection... (450 times)
+[2024-06-10 12:12:31,454][35978] InferenceWorker_p0-w0: stopping experience collection (450 times)
+[2024-06-10 12:12:31,486][35978] InferenceWorker_p0-w0: resuming experience collection (450 times)
+[2024-06-10 12:12:33,402][35745] Fps is (10 sec: 47513.3, 60 sec: 44784.6, 300 sec: 45097.6). Total num frames: 434241536. Throughput: 0: 44818.2. Samples: 32823160. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-10 12:12:33,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:12:33,948][35978] Updated weights for policy 0, policy_version 26505 (0.0042)
+[2024-06-10 12:12:37,836][35978] Updated weights for policy 0, policy_version 26515 (0.0039)
+[2024-06-10 12:12:38,402][35745] Fps is (10 sec: 49151.9, 60 sec: 45330.8, 300 sec: 45042.5). Total num frames: 434438144. Throughput: 0: 44663.2. Samples: 33097000. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-10 12:12:38,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:12:41,294][35978] Updated weights for policy 0, policy_version 26525 (0.0036)
+[2024-06-10 12:12:43,402][35745] Fps is (10 sec: 39321.6, 60 sec: 44509.8, 300 sec: 44819.9). Total num frames: 434634752. Throughput: 0: 44871.9. Samples: 33230360. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-10 12:12:43,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:12:45,199][35978] Updated weights for policy 0, policy_version 26535 (0.0042)
+[2024-06-10 12:12:48,402][35745] Fps is (10 sec: 45875.2, 60 sec: 44509.9, 300 sec: 44986.6). Total num frames: 434896896. Throughput: 0: 44628.0. Samples: 33496980. Policy #0 lag: (min: 0.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:12:48,403][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:12:48,621][35978] Updated weights for policy 0, policy_version 26545 (0.0037)
+[2024-06-10 12:12:52,486][35978] Updated weights for policy 0, policy_version 26555 (0.0029)
+[2024-06-10 12:12:53,401][35745] Fps is (10 sec: 47514.7, 60 sec: 44783.1, 300 sec: 45042.1). Total num frames: 435109888. Throughput: 0: 44731.7. Samples: 33771400. Policy #0 lag: (min: 0.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:12:53,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:12:55,714][35978] Updated weights for policy 0, policy_version 26565 (0.0035)
+[2024-06-10 12:12:58,402][35745] Fps is (10 sec: 40960.1, 60 sec: 44509.9, 300 sec: 44708.9). Total num frames: 435306496. Throughput: 0: 44922.6. Samples: 33903280. Policy #0 lag: (min: 0.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:12:58,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:12:59,429][35978] Updated weights for policy 0, policy_version 26575 (0.0033)
+[2024-06-10 12:13:02,907][35978] Updated weights for policy 0, policy_version 26585 (0.0021)
+[2024-06-10 12:13:03,402][35745] Fps is (10 sec: 45874.8, 60 sec: 44509.9, 300 sec: 44931.0). Total num frames: 435568640. Throughput: 0: 44930.3. Samples: 34176880. Policy #0 lag: (min: 0.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:13:03,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:13:07,004][35978] Updated weights for policy 0, policy_version 26595 (0.0032)
+[2024-06-10 12:13:08,402][35745] Fps is (10 sec: 49152.2, 60 sec: 45056.1, 300 sec: 44986.6). Total num frames: 435798016. Throughput: 0: 44730.3. Samples: 34439660. Policy #0 lag: (min: 0.0, avg: 10.1, max: 21.0)
+[2024-06-10 12:13:08,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:13:10,432][35978] Updated weights for policy 0, policy_version 26605 (0.0041)
+[2024-06-10 12:13:13,402][35745] Fps is (10 sec: 42598.3, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 435994624. Throughput: 0: 44884.4. Samples: 34577360. Policy #0 lag: (min: 0.0, avg: 10.1, max: 21.0)
+[2024-06-10 12:13:13,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:13:14,514][35978] Updated weights for policy 0, policy_version 26615 (0.0034)
+[2024-06-10 12:13:17,737][35978] Updated weights for policy 0, policy_version 26625 (0.0046)
+[2024-06-10 12:13:18,401][35745] Fps is (10 sec: 44237.3, 60 sec: 44237.0, 300 sec: 44931.1). Total num frames: 436240384. Throughput: 0: 44857.6. Samples: 34841740. Policy #0 lag: (min: 0.0, avg: 10.1, max: 21.0)
+[2024-06-10 12:13:18,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:13:21,714][35978] Updated weights for policy 0, policy_version 26635 (0.0033)
+[2024-06-10 12:13:23,401][35745] Fps is (10 sec: 49152.5, 60 sec: 45329.2, 300 sec: 45042.1). Total num frames: 436486144. Throughput: 0: 44855.2. Samples: 35115480. Policy #0 lag: (min: 1.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:13:23,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:13:24,751][35978] Updated weights for policy 0, policy_version 26645 (0.0037)
+[2024-06-10 12:13:28,402][35745] Fps is (10 sec: 44235.4, 60 sec: 45602.0, 300 sec: 44931.0). Total num frames: 436682752. Throughput: 0: 45040.4. Samples: 35257180. Policy #0 lag: (min: 1.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:13:28,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:13:28,747][35978] Updated weights for policy 0, policy_version 26655 (0.0029)
+[2024-06-10 12:13:32,107][35978] Updated weights for policy 0, policy_version 26665 (0.0033)
+[2024-06-10 12:13:33,402][35745] Fps is (10 sec: 40959.0, 60 sec: 44236.8, 300 sec: 44764.4). Total num frames: 436895744. Throughput: 0: 44999.0. Samples: 35521940. Policy #0 lag: (min: 1.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:13:33,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:13:33,424][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000026666_436895744.pth...
+[2024-06-10 12:13:33,492][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000026008_426115072.pth
+[2024-06-10 12:13:36,128][35978] Updated weights for policy 0, policy_version 26675 (0.0028)
+[2024-06-10 12:13:38,404][35745] Fps is (10 sec: 47503.0, 60 sec: 45327.3, 300 sec: 45097.3). Total num frames: 437157888. Throughput: 0: 44869.5. Samples: 35790640. Policy #0 lag: (min: 1.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:13:38,405][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:13:39,745][35978] Updated weights for policy 0, policy_version 26685 (0.0028)
+[2024-06-10 12:13:43,404][35745] Fps is (10 sec: 44227.1, 60 sec: 45054.3, 300 sec: 44875.1). Total num frames: 437338112. Throughput: 0: 45070.5. Samples: 35931560. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:13:43,405][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:13:43,818][35978] Updated weights for policy 0, policy_version 26695 (0.0036)
+[2024-06-10 12:13:46,917][35978] Updated weights for policy 0, policy_version 26705 (0.0024)
+[2024-06-10 12:13:48,402][35745] Fps is (10 sec: 40969.9, 60 sec: 44509.9, 300 sec: 44820.7). Total num frames: 437567488. Throughput: 0: 44922.7. Samples: 36198400. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:13:48,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:13:51,053][35978] Updated weights for policy 0, policy_version 26715 (0.0033)
+[2024-06-10 12:13:53,402][35745] Fps is (10 sec: 49163.4, 60 sec: 45329.0, 300 sec: 45097.7). Total num frames: 437829632. Throughput: 0: 44971.0. Samples: 36463360. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:13:53,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:13:53,902][35978] Updated weights for policy 0, policy_version 26725 (0.0030)
+[2024-06-10 12:13:58,094][35978] Updated weights for policy 0, policy_version 26735 (0.0034)
+[2024-06-10 12:13:58,402][35745] Fps is (10 sec: 45875.1, 60 sec: 45329.1, 300 sec: 44931.0). Total num frames: 438026240. Throughput: 0: 45136.9. Samples: 36608520. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:13:58,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:14:01,380][35978] Updated weights for policy 0, policy_version 26745 (0.0023)
+[2024-06-10 12:14:03,401][35745] Fps is (10 sec: 39321.9, 60 sec: 44236.8, 300 sec: 44708.9). Total num frames: 438222848. Throughput: 0: 45119.4. Samples: 36872120. Policy #0 lag: (min: 0.0, avg: 9.5, max: 20.0)
+[2024-06-10 12:14:03,402][35745] Avg episode reward: [(0, '0.279')]
+[2024-06-10 12:14:03,846][35957] Signal inference workers to stop experience collection... (500 times)
+[2024-06-10 12:14:03,893][35957] Signal inference workers to resume experience collection... (500 times)
+[2024-06-10 12:14:03,895][35978] InferenceWorker_p0-w0: stopping experience collection (500 times)
+[2024-06-10 12:14:03,932][35978] InferenceWorker_p0-w0: resuming experience collection (500 times)
+[2024-06-10 12:14:05,573][35978] Updated weights for policy 0, policy_version 26755 (0.0030)
+[2024-06-10 12:14:08,405][35745] Fps is (10 sec: 45858.5, 60 sec: 44780.2, 300 sec: 44930.5). Total num frames: 438484992. Throughput: 0: 44896.7. Samples: 37136000. Policy #0 lag: (min: 0.0, avg: 9.5, max: 20.0)
+[2024-06-10 12:14:08,406][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:14:09,032][35978] Updated weights for policy 0, policy_version 26765 (0.0038)
+[2024-06-10 12:14:13,199][35978] Updated weights for policy 0, policy_version 26775 (0.0041)
+[2024-06-10 12:14:13,402][35745] Fps is (10 sec: 47512.9, 60 sec: 45055.9, 300 sec: 44986.6). Total num frames: 438697984. Throughput: 0: 44815.6. Samples: 37273880. Policy #0 lag: (min: 0.0, avg: 9.5, max: 20.0)
+[2024-06-10 12:14:13,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:14:16,046][35978] Updated weights for policy 0, policy_version 26785 (0.0035)
+[2024-06-10 12:14:18,402][35745] Fps is (10 sec: 45891.2, 60 sec: 45055.8, 300 sec: 44875.5). Total num frames: 438943744. Throughput: 0: 44951.6. Samples: 37544760. Policy #0 lag: (min: 0.0, avg: 10.4, max: 20.0)
+[2024-06-10 12:14:18,402][35745] Avg episode reward: [(0, '0.283')]
+[2024-06-10 12:14:20,161][35978] Updated weights for policy 0, policy_version 26795 (0.0027)
+[2024-06-10 12:14:23,159][35978] Updated weights for policy 0, policy_version 26805 (0.0026)
+[2024-06-10 12:14:23,402][35745] Fps is (10 sec: 47514.2, 60 sec: 44782.9, 300 sec: 44986.6). Total num frames: 439173120. Throughput: 0: 44938.4. Samples: 37812760. Policy #0 lag: (min: 0.0, avg: 10.4, max: 20.0)
+[2024-06-10 12:14:23,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:14:27,333][35978] Updated weights for policy 0, policy_version 26815 (0.0032)
+[2024-06-10 12:14:28,401][35745] Fps is (10 sec: 44237.7, 60 sec: 45056.2, 300 sec: 44986.6). Total num frames: 439386112. Throughput: 0: 44786.4. Samples: 37946840. Policy #0 lag: (min: 0.0, avg: 10.4, max: 20.0)
+[2024-06-10 12:14:28,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:14:30,832][35978] Updated weights for policy 0, policy_version 26825 (0.0034)
+[2024-06-10 12:14:33,402][35745] Fps is (10 sec: 42598.1, 60 sec: 45056.1, 300 sec: 44875.9). Total num frames: 439599104. Throughput: 0: 44916.8. Samples: 38219660. Policy #0 lag: (min: 0.0, avg: 10.4, max: 20.0)
+[2024-06-10 12:14:33,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:14:34,819][35978] Updated weights for policy 0, policy_version 26835 (0.0023)
+[2024-06-10 12:14:38,038][35978] Updated weights for policy 0, policy_version 26845 (0.0034)
+[2024-06-10 12:14:38,401][35745] Fps is (10 sec: 44236.9, 60 sec: 44511.7, 300 sec: 44875.5). Total num frames: 439828480. Throughput: 0: 44900.1. Samples: 38483860. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-10 12:14:38,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:14:42,191][35978] Updated weights for policy 0, policy_version 26855 (0.0033)
+[2024-06-10 12:14:43,402][35745] Fps is (10 sec: 47513.0, 60 sec: 45603.8, 300 sec: 44986.6). Total num frames: 440074240. Throughput: 0: 44745.6. Samples: 38622080. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-10 12:14:43,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:14:45,549][35978] Updated weights for policy 0, policy_version 26865 (0.0033)
+[2024-06-10 12:14:48,402][35745] Fps is (10 sec: 42598.2, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 440254464. Throughput: 0: 44824.4. Samples: 38889220. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-10 12:14:48,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:14:48,523][35957] Saving new best policy, reward=0.302!
+[2024-06-10 12:14:49,427][35978] Updated weights for policy 0, policy_version 26875 (0.0047)
+[2024-06-10 12:14:52,729][35978] Updated weights for policy 0, policy_version 26885 (0.0027)
+[2024-06-10 12:14:53,402][35745] Fps is (10 sec: 42598.4, 60 sec: 44509.8, 300 sec: 44819.9). Total num frames: 440500224. Throughput: 0: 44975.1. Samples: 39159720. Policy #0 lag: (min: 0.0, avg: 11.7, max: 21.0)
+[2024-06-10 12:14:53,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:14:56,741][35978] Updated weights for policy 0, policy_version 26895 (0.0039)
+[2024-06-10 12:14:58,401][35745] Fps is (10 sec: 47513.9, 60 sec: 45056.1, 300 sec: 44931.1). Total num frames: 440729600. Throughput: 0: 44852.6. Samples: 39292240. Policy #0 lag: (min: 0.0, avg: 11.7, max: 21.0)
+[2024-06-10 12:14:58,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:15:00,093][35978] Updated weights for policy 0, policy_version 26905 (0.0031)
+[2024-06-10 12:15:03,402][35745] Fps is (10 sec: 42599.0, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 440926208. Throughput: 0: 44703.3. Samples: 39556400. Policy #0 lag: (min: 0.0, avg: 11.7, max: 21.0)
+[2024-06-10 12:15:03,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:15:04,060][35978] Updated weights for policy 0, policy_version 26915 (0.0028)
+[2024-06-10 12:15:07,048][35978] Updated weights for policy 0, policy_version 26925 (0.0034)
+[2024-06-10 12:15:08,402][35745] Fps is (10 sec: 42598.2, 60 sec: 44512.6, 300 sec: 44764.7). Total num frames: 441155584. Throughput: 0: 44918.2. Samples: 39834080. Policy #0 lag: (min: 0.0, avg: 11.7, max: 21.0)
+[2024-06-10 12:15:08,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:15:11,248][35978] Updated weights for policy 0, policy_version 26935 (0.0039)
+[2024-06-10 12:15:12,472][35957] Signal inference workers to stop experience collection... (550 times)
+[2024-06-10 12:15:12,472][35957] Signal inference workers to resume experience collection... (550 times)
+[2024-06-10 12:15:12,490][35978] InferenceWorker_p0-w0: stopping experience collection (550 times)
+[2024-06-10 12:15:12,519][35978] InferenceWorker_p0-w0: resuming experience collection (550 times)
+[2024-06-10 12:15:13,402][35745] Fps is (10 sec: 49152.2, 60 sec: 45329.2, 300 sec: 44986.6). Total num frames: 441417728. Throughput: 0: 44997.8. Samples: 39971740. Policy #0 lag: (min: 0.0, avg: 10.1, max: 21.0)
+[2024-06-10 12:15:13,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:15:14,578][35978] Updated weights for policy 0, policy_version 26945 (0.0038)
+[2024-06-10 12:15:18,389][35978] Updated weights for policy 0, policy_version 26955 (0.0035)
+[2024-06-10 12:15:18,402][35745] Fps is (10 sec: 47513.2, 60 sec: 44783.0, 300 sec: 44931.4). Total num frames: 441630720. Throughput: 0: 44860.4. Samples: 40238380. Policy #0 lag: (min: 0.0, avg: 10.1, max: 21.0)
+[2024-06-10 12:15:18,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:15:22,047][35978] Updated weights for policy 0, policy_version 26965 (0.0026)
+[2024-06-10 12:15:23,404][35745] Fps is (10 sec: 42588.3, 60 sec: 44508.1, 300 sec: 44764.1). Total num frames: 441843712. Throughput: 0: 45047.8. Samples: 40511120. Policy #0 lag: (min: 0.0, avg: 10.1, max: 21.0)
+[2024-06-10 12:15:23,405][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:15:25,903][35978] Updated weights for policy 0, policy_version 26975 (0.0032)
+[2024-06-10 12:15:28,408][35745] Fps is (10 sec: 47484.7, 60 sec: 45324.4, 300 sec: 44985.6). Total num frames: 442105856. Throughput: 0: 44921.6. Samples: 40643820. Policy #0 lag: (min: 0.0, avg: 11.2, max: 22.0)
+[2024-06-10 12:15:28,408][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:15:29,017][35978] Updated weights for policy 0, policy_version 26985 (0.0032)
+[2024-06-10 12:15:33,080][35978] Updated weights for policy 0, policy_version 26995 (0.0039)
+[2024-06-10 12:15:33,402][35745] Fps is (10 sec: 45885.4, 60 sec: 45056.0, 300 sec: 44986.6). Total num frames: 442302464. Throughput: 0: 44876.3. Samples: 40908660. Policy #0 lag: (min: 0.0, avg: 11.2, max: 22.0)
+[2024-06-10 12:15:33,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:15:33,416][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000026996_442302464.pth...
+[2024-06-10 12:15:33,494][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000026340_431554560.pth
+[2024-06-10 12:15:36,013][35978] Updated weights for policy 0, policy_version 27005 (0.0031)
+[2024-06-10 12:15:38,402][35745] Fps is (10 sec: 42624.2, 60 sec: 45055.9, 300 sec: 44875.5). Total num frames: 442531840. Throughput: 0: 44928.9. Samples: 41181520. Policy #0 lag: (min: 0.0, avg: 11.2, max: 22.0)
+[2024-06-10 12:15:38,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:15:40,514][35978] Updated weights for policy 0, policy_version 27015 (0.0030)
+[2024-06-10 12:15:43,402][35745] Fps is (10 sec: 45875.3, 60 sec: 44783.0, 300 sec: 44875.5). Total num frames: 442761216. Throughput: 0: 44929.2. Samples: 41314060. Policy #0 lag: (min: 0.0, avg: 11.2, max: 22.0)
+[2024-06-10 12:15:43,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:15:43,694][35978] Updated weights for policy 0, policy_version 27025 (0.0045)
+[2024-06-10 12:15:47,694][35978] Updated weights for policy 0, policy_version 27035 (0.0023)
+[2024-06-10 12:15:48,402][35745] Fps is (10 sec: 42599.0, 60 sec: 45056.0, 300 sec: 44931.1). Total num frames: 442957824. Throughput: 0: 45144.0. Samples: 41587880. Policy #0 lag: (min: 0.0, avg: 9.6, max: 21.0)
+[2024-06-10 12:15:48,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:15:51,556][35978] Updated weights for policy 0, policy_version 27045 (0.0028)
+[2024-06-10 12:15:53,402][35745] Fps is (10 sec: 42598.8, 60 sec: 44783.1, 300 sec: 44819.9). Total num frames: 443187200. Throughput: 0: 44758.7. Samples: 41848220. Policy #0 lag: (min: 0.0, avg: 9.6, max: 21.0)
+[2024-06-10 12:15:53,402][35745] Avg episode reward: [(0, '0.285')]
+[2024-06-10 12:15:55,280][35978] Updated weights for policy 0, policy_version 27055 (0.0033)
+[2024-06-10 12:15:58,402][35745] Fps is (10 sec: 45875.1, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 443416576. Throughput: 0: 44737.8. Samples: 41984940. Policy #0 lag: (min: 0.0, avg: 9.6, max: 21.0)
+[2024-06-10 12:15:58,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:15:58,507][35978] Updated weights for policy 0, policy_version 27065 (0.0030)
+[2024-06-10 12:16:02,401][35978] Updated weights for policy 0, policy_version 27075 (0.0026)
+[2024-06-10 12:16:03,402][35745] Fps is (10 sec: 45874.9, 60 sec: 45329.0, 300 sec: 44986.6). Total num frames: 443645952. Throughput: 0: 44852.0. Samples: 42256720. Policy #0 lag: (min: 0.0, avg: 9.6, max: 21.0)
+[2024-06-10 12:16:03,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:16:05,544][35978] Updated weights for policy 0, policy_version 27085 (0.0047)
+[2024-06-10 12:16:08,402][35745] Fps is (10 sec: 44236.3, 60 sec: 45055.9, 300 sec: 44764.4). Total num frames: 443858944. Throughput: 0: 44728.4. Samples: 42523800. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-10 12:16:08,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:16:09,676][35978] Updated weights for policy 0, policy_version 27095 (0.0036)
+[2024-06-10 12:16:13,115][35978] Updated weights for policy 0, policy_version 27105 (0.0032)
+[2024-06-10 12:16:13,402][35745] Fps is (10 sec: 44236.6, 60 sec: 44509.8, 300 sec: 44819.9). Total num frames: 444088320. Throughput: 0: 44790.9. Samples: 42659140. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-10 12:16:13,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:16:17,110][35978] Updated weights for policy 0, policy_version 27115 (0.0042)
+[2024-06-10 12:16:18,402][35745] Fps is (10 sec: 45875.2, 60 sec: 44782.9, 300 sec: 44986.6). Total num frames: 444317696. Throughput: 0: 44844.0. Samples: 42926640. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-10 12:16:18,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:16:20,681][35978] Updated weights for policy 0, policy_version 27125 (0.0027)
+[2024-06-10 12:16:23,402][35745] Fps is (10 sec: 44236.7, 60 sec: 44784.6, 300 sec: 44820.0). Total num frames: 444530688. Throughput: 0: 44584.5. Samples: 43187820. Policy #0 lag: (min: 0.0, avg: 10.6, max: 22.0)
+[2024-06-10 12:16:23,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:16:24,135][35978] Updated weights for policy 0, policy_version 27135 (0.0026)
+[2024-06-10 12:16:27,711][35978] Updated weights for policy 0, policy_version 27145 (0.0028)
+[2024-06-10 12:16:28,402][35745] Fps is (10 sec: 42598.4, 60 sec: 43968.2, 300 sec: 44709.2). Total num frames: 444743680. Throughput: 0: 44581.8. Samples: 43320240. Policy #0 lag: (min: 0.0, avg: 10.6, max: 22.0)
+[2024-06-10 12:16:28,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:16:29,064][35957] Signal inference workers to stop experience collection... (600 times)
+[2024-06-10 12:16:29,068][35957] Signal inference workers to resume experience collection... (600 times)
+[2024-06-10 12:16:29,096][35978] InferenceWorker_p0-w0: stopping experience collection (600 times)
+[2024-06-10 12:16:29,096][35978] InferenceWorker_p0-w0: resuming experience collection (600 times)
+[2024-06-10 12:16:31,447][35978] Updated weights for policy 0, policy_version 27155 (0.0037)
+[2024-06-10 12:16:33,402][35745] Fps is (10 sec: 47514.1, 60 sec: 45056.1, 300 sec: 45042.5). Total num frames: 445005824. Throughput: 0: 44612.9. Samples: 43595460. Policy #0 lag: (min: 0.0, avg: 10.6, max: 22.0)
+[2024-06-10 12:16:33,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:16:34,701][35978] Updated weights for policy 0, policy_version 27165 (0.0036)
+[2024-06-10 12:16:38,402][35745] Fps is (10 sec: 45875.3, 60 sec: 44509.9, 300 sec: 44875.5). Total num frames: 445202432. Throughput: 0: 44923.9. Samples: 43869800. Policy #0 lag: (min: 0.0, avg: 10.6, max: 22.0)
+[2024-06-10 12:16:38,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:16:38,779][35978] Updated weights for policy 0, policy_version 27175 (0.0035)
+[2024-06-10 12:16:42,242][35978] Updated weights for policy 0, policy_version 27185 (0.0032)
+[2024-06-10 12:16:43,402][35745] Fps is (10 sec: 40959.8, 60 sec: 44236.8, 300 sec: 44708.9). Total num frames: 445415424. Throughput: 0: 44787.1. Samples: 44000360. Policy #0 lag: (min: 0.0, avg: 11.6, max: 23.0)
+[2024-06-10 12:16:43,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:16:46,356][35978] Updated weights for policy 0, policy_version 27195 (0.0028)
+[2024-06-10 12:16:48,402][35745] Fps is (10 sec: 45874.8, 60 sec: 45055.9, 300 sec: 44875.5). Total num frames: 445661184. Throughput: 0: 44632.8. Samples: 44265200. Policy #0 lag: (min: 0.0, avg: 11.6, max: 23.0)
+[2024-06-10 12:16:48,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:16:49,951][35978] Updated weights for policy 0, policy_version 27205 (0.0032)
+[2024-06-10 12:16:53,401][35745] Fps is (10 sec: 45875.6, 60 sec: 44783.0, 300 sec: 44875.5). Total num frames: 445874176. Throughput: 0: 44725.0. Samples: 44536420. Policy #0 lag: (min: 0.0, avg: 11.6, max: 23.0)
+[2024-06-10 12:16:53,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:16:53,491][35978] Updated weights for policy 0, policy_version 27215 (0.0027)
+[2024-06-10 12:16:57,027][35978] Updated weights for policy 0, policy_version 27225 (0.0039)
+[2024-06-10 12:16:58,402][35745] Fps is (10 sec: 44237.4, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 446103552. Throughput: 0: 44490.7. Samples: 44661220. Policy #0 lag: (min: 0.0, avg: 11.6, max: 23.0)
+[2024-06-10 12:16:58,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:17:00,916][35978] Updated weights for policy 0, policy_version 27235 (0.0035)
+[2024-06-10 12:17:03,402][35745] Fps is (10 sec: 47512.9, 60 sec: 45056.0, 300 sec: 44931.0). Total num frames: 446349312. Throughput: 0: 44683.5. Samples: 44937400. Policy #0 lag: (min: 0.0, avg: 10.4, max: 22.0)
+[2024-06-10 12:17:03,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:17:03,969][35978] Updated weights for policy 0, policy_version 27245 (0.0041)
+[2024-06-10 12:17:08,108][35978] Updated weights for policy 0, policy_version 27255 (0.0036)
+[2024-06-10 12:17:08,402][35745] Fps is (10 sec: 44236.7, 60 sec: 44783.0, 300 sec: 44875.5). Total num frames: 446545920. Throughput: 0: 44995.2. Samples: 45212600. Policy #0 lag: (min: 0.0, avg: 10.4, max: 22.0)
+[2024-06-10 12:17:08,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:17:11,782][35978] Updated weights for policy 0, policy_version 27265 (0.0032)
+[2024-06-10 12:17:13,402][35745] Fps is (10 sec: 40960.1, 60 sec: 44509.9, 300 sec: 44653.3). Total num frames: 446758912. Throughput: 0: 44807.6. Samples: 45336580. Policy #0 lag: (min: 0.0, avg: 10.4, max: 22.0)
+[2024-06-10 12:17:13,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:17:15,293][35978] Updated weights for policy 0, policy_version 27275 (0.0038)
+[2024-06-10 12:17:18,402][35745] Fps is (10 sec: 44236.5, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 446988288. Throughput: 0: 44835.0. Samples: 45613040. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:17:18,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:17:19,209][35978] Updated weights for policy 0, policy_version 27285 (0.0036)
+[2024-06-10 12:17:22,668][35978] Updated weights for policy 0, policy_version 27295 (0.0025)
+[2024-06-10 12:17:23,402][35745] Fps is (10 sec: 45875.1, 60 sec: 44782.9, 300 sec: 44986.6). Total num frames: 447217664. Throughput: 0: 44725.7. Samples: 45882460. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:17:23,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:17:26,397][35978] Updated weights for policy 0, policy_version 27305 (0.0033)
+[2024-06-10 12:17:28,402][35745] Fps is (10 sec: 45875.2, 60 sec: 45056.0, 300 sec: 44764.4). Total num frames: 447447040. Throughput: 0: 44705.3. Samples: 46012100. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:17:28,402][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:17:30,443][35978] Updated weights for policy 0, policy_version 27315 (0.0039)
+[2024-06-10 12:17:33,402][35745] Fps is (10 sec: 45875.8, 60 sec: 44509.9, 300 sec: 44875.5). Total num frames: 447676416. Throughput: 0: 44666.4. Samples: 46275180. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:17:33,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:17:33,449][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000027325_447692800.pth...
+[2024-06-10 12:17:33,461][35978] Updated weights for policy 0, policy_version 27325 (0.0058)
+[2024-06-10 12:17:33,502][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000026666_436895744.pth
+[2024-06-10 12:17:37,685][35978] Updated weights for policy 0, policy_version 27335 (0.0035)
+[2024-06-10 12:17:38,402][35745] Fps is (10 sec: 45875.6, 60 sec: 45056.0, 300 sec: 44986.6). Total num frames: 447905792. Throughput: 0: 44753.3. Samples: 46550320. Policy #0 lag: (min: 0.0, avg: 8.8, max: 22.0)
+[2024-06-10 12:17:38,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:17:41,108][35978] Updated weights for policy 0, policy_version 27345 (0.0033)
+[2024-06-10 12:17:43,402][35745] Fps is (10 sec: 42597.9, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 448102400. Throughput: 0: 44808.3. Samples: 46677600. Policy #0 lag: (min: 0.0, avg: 8.8, max: 22.0)
+[2024-06-10 12:17:43,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:17:44,946][35978] Updated weights for policy 0, policy_version 27355 (0.0046)
+[2024-06-10 12:17:48,402][35745] Fps is (10 sec: 42598.5, 60 sec: 44510.0, 300 sec: 44819.9). Total num frames: 448331776. Throughput: 0: 44617.4. Samples: 46945180. Policy #0 lag: (min: 0.0, avg: 8.8, max: 22.0)
+[2024-06-10 12:17:48,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:17:48,634][35978] Updated weights for policy 0, policy_version 27365 (0.0042)
+[2024-06-10 12:17:52,257][35978] Updated weights for policy 0, policy_version 27375 (0.0045)
+[2024-06-10 12:17:53,402][35745] Fps is (10 sec: 45875.9, 60 sec: 44782.9, 300 sec: 44931.0). Total num frames: 448561152. Throughput: 0: 44632.1. Samples: 47221040. Policy #0 lag: (min: 0.0, avg: 8.8, max: 22.0)
+[2024-06-10 12:17:53,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:17:55,673][35978] Updated weights for policy 0, policy_version 27385 (0.0034)
+[2024-06-10 12:17:58,404][35745] Fps is (10 sec: 44226.2, 60 sec: 44508.1, 300 sec: 44764.1). Total num frames: 448774144. Throughput: 0: 44845.3. Samples: 47354720. Policy #0 lag: (min: 0.0, avg: 12.1, max: 22.0)
+[2024-06-10 12:17:58,405][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:17:59,827][35978] Updated weights for policy 0, policy_version 27395 (0.0039)
+[2024-06-10 12:18:02,595][35978] Updated weights for policy 0, policy_version 27405 (0.0035)
+[2024-06-10 12:18:03,402][35745] Fps is (10 sec: 45875.2, 60 sec: 44510.0, 300 sec: 44820.0). Total num frames: 449019904. Throughput: 0: 44837.9. Samples: 47630740. Policy #0 lag: (min: 0.0, avg: 12.1, max: 22.0)
+[2024-06-10 12:18:03,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:18:03,476][35957] Signal inference workers to stop experience collection... (650 times)
+[2024-06-10 12:18:03,477][35957] Signal inference workers to resume experience collection... (650 times)
+[2024-06-10 12:18:03,489][35978] InferenceWorker_p0-w0: stopping experience collection (650 times)
+[2024-06-10 12:18:03,489][35978] InferenceWorker_p0-w0: resuming experience collection (650 times)
+[2024-06-10 12:18:06,970][35978] Updated weights for policy 0, policy_version 27415 (0.0028)
+[2024-06-10 12:18:08,402][35745] Fps is (10 sec: 49163.6, 60 sec: 45329.1, 300 sec: 44986.6). Total num frames: 449265664. Throughput: 0: 44693.4. Samples: 47893660. Policy #0 lag: (min: 0.0, avg: 12.1, max: 22.0)
+[2024-06-10 12:18:08,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:18:10,319][35978] Updated weights for policy 0, policy_version 27425 (0.0039)
+[2024-06-10 12:18:13,402][35745] Fps is (10 sec: 42598.4, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 449445888. Throughput: 0: 44864.6. Samples: 48031000. Policy #0 lag: (min: 0.0, avg: 9.1, max: 20.0)
+[2024-06-10 12:18:13,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:18:14,344][35978] Updated weights for policy 0, policy_version 27435 (0.0032)
+[2024-06-10 12:18:17,442][35978] Updated weights for policy 0, policy_version 27445 (0.0031)
+[2024-06-10 12:18:18,402][35745] Fps is (10 sec: 44236.6, 60 sec: 45329.1, 300 sec: 44819.9). Total num frames: 449708032. Throughput: 0: 45035.5. Samples: 48301780. Policy #0 lag: (min: 0.0, avg: 9.1, max: 20.0)
+[2024-06-10 12:18:18,411][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:18:21,682][35978] Updated weights for policy 0, policy_version 27455 (0.0041)
+[2024-06-10 12:18:23,402][35745] Fps is (10 sec: 47513.2, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 449921024. Throughput: 0: 44827.5. Samples: 48567560. Policy #0 lag: (min: 0.0, avg: 9.1, max: 20.0)
+[2024-06-10 12:18:23,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:18:24,686][35978] Updated weights for policy 0, policy_version 27465 (0.0037)
+[2024-06-10 12:18:28,402][35745] Fps is (10 sec: 40959.6, 60 sec: 44509.8, 300 sec: 44820.0). Total num frames: 450117632. Throughput: 0: 45105.7. Samples: 48707360. Policy #0 lag: (min: 0.0, avg: 9.1, max: 20.0)
+[2024-06-10 12:18:28,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:18:28,775][35978] Updated weights for policy 0, policy_version 27475 (0.0031)
+[2024-06-10 12:18:31,815][35978] Updated weights for policy 0, policy_version 27485 (0.0034)
+[2024-06-10 12:18:33,405][35745] Fps is (10 sec: 45860.3, 60 sec: 45053.5, 300 sec: 44819.8). Total num frames: 450379776. Throughput: 0: 45046.0. Samples: 48972400. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:18:33,405][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:18:36,378][35978] Updated weights for policy 0, policy_version 27495 (0.0032)
+[2024-06-10 12:18:38,401][35745] Fps is (10 sec: 47514.8, 60 sec: 44783.0, 300 sec: 44931.4). Total num frames: 450592768. Throughput: 0: 44839.2. Samples: 49238800. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:18:38,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:18:39,361][35978] Updated weights for policy 0, policy_version 27505 (0.0054)
+[2024-06-10 12:18:43,402][35745] Fps is (10 sec: 40973.2, 60 sec: 44783.0, 300 sec: 44819.9). Total num frames: 450789376. Throughput: 0: 44922.3. Samples: 49376120. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:18:43,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:18:43,474][35978] Updated weights for policy 0, policy_version 27515 (0.0039)
+[2024-06-10 12:18:46,859][35978] Updated weights for policy 0, policy_version 27525 (0.0035)
+[2024-06-10 12:18:48,402][35745] Fps is (10 sec: 45874.5, 60 sec: 45329.0, 300 sec: 44820.0). Total num frames: 451051520. Throughput: 0: 44878.6. Samples: 49650280. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:18:48,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:18:51,056][35978] Updated weights for policy 0, policy_version 27535 (0.0032)
+[2024-06-10 12:18:53,402][35745] Fps is (10 sec: 45874.9, 60 sec: 44782.8, 300 sec: 44819.9). Total num frames: 451248128. Throughput: 0: 44909.7. Samples: 49914600. Policy #0 lag: (min: 0.0, avg: 10.0, max: 21.0)
+[2024-06-10 12:18:53,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:18:53,982][35978] Updated weights for policy 0, policy_version 27545 (0.0029)
+[2024-06-10 12:18:58,401][35745] Fps is (10 sec: 39322.0, 60 sec: 44511.7, 300 sec: 44820.0). Total num frames: 451444736. Throughput: 0: 44817.4. Samples: 50047780. Policy #0 lag: (min: 0.0, avg: 10.0, max: 21.0)
+[2024-06-10 12:18:58,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:18:58,524][35978] Updated weights for policy 0, policy_version 27555 (0.0026)
+[2024-06-10 12:19:01,142][35978] Updated weights for policy 0, policy_version 27565 (0.0029)
+[2024-06-10 12:19:03,402][35745] Fps is (10 sec: 45876.0, 60 sec: 44782.9, 300 sec: 44820.5). Total num frames: 451706880. Throughput: 0: 44707.2. Samples: 50313600. Policy #0 lag: (min: 0.0, avg: 10.0, max: 21.0)
+[2024-06-10 12:19:03,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:19:05,681][35978] Updated weights for policy 0, policy_version 27575 (0.0025)
+[2024-06-10 12:19:08,404][35745] Fps is (10 sec: 49140.2, 60 sec: 44508.1, 300 sec: 44875.2). Total num frames: 451936256. Throughput: 0: 44826.1. Samples: 50584840. Policy #0 lag: (min: 0.0, avg: 11.4, max: 22.0)
+[2024-06-10 12:19:08,405][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:19:08,426][35978] Updated weights for policy 0, policy_version 27585 (0.0022)
+[2024-06-10 12:19:09,181][35957] Signal inference workers to stop experience collection... (700 times)
+[2024-06-10 12:19:09,181][35957] Signal inference workers to resume experience collection... (700 times)
+[2024-06-10 12:19:09,195][35978] InferenceWorker_p0-w0: stopping experience collection (700 times)
+[2024-06-10 12:19:09,195][35978] InferenceWorker_p0-w0: resuming experience collection (700 times)
+[2024-06-10 12:19:12,781][35978] Updated weights for policy 0, policy_version 27595 (0.0032)
+[2024-06-10 12:19:13,401][35745] Fps is (10 sec: 42598.7, 60 sec: 44783.0, 300 sec: 44708.9). Total num frames: 452132864. Throughput: 0: 44834.5. Samples: 50724900. Policy #0 lag: (min: 0.0, avg: 11.4, max: 22.0)
+[2024-06-10 12:19:13,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:19:15,897][35978] Updated weights for policy 0, policy_version 27605 (0.0035)
+[2024-06-10 12:19:18,402][35745] Fps is (10 sec: 44247.4, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 452378624. Throughput: 0: 44731.3. Samples: 50985160. Policy #0 lag: (min: 0.0, avg: 11.4, max: 22.0)
+[2024-06-10 12:19:18,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:19:20,463][35978] Updated weights for policy 0, policy_version 27615 (0.0028)
+[2024-06-10 12:19:23,130][35978] Updated weights for policy 0, policy_version 27625 (0.0038)
+[2024-06-10 12:19:23,402][35745] Fps is (10 sec: 49151.6, 60 sec: 45056.1, 300 sec: 44875.5). Total num frames: 452624384. Throughput: 0: 44951.0. Samples: 51261600. Policy #0 lag: (min: 0.0, avg: 11.4, max: 22.0)
+[2024-06-10 12:19:23,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:19:27,551][35978] Updated weights for policy 0, policy_version 27635 (0.0030)
+[2024-06-10 12:19:28,402][35745] Fps is (10 sec: 42597.8, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 452804608. Throughput: 0: 44768.9. Samples: 51390720. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:19:28,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:19:30,275][35978] Updated weights for policy 0, policy_version 27645 (0.0033)
+[2024-06-10 12:19:33,402][35745] Fps is (10 sec: 44236.6, 60 sec: 44785.4, 300 sec: 44875.5). Total num frames: 453066752. Throughput: 0: 44642.7. Samples: 51659200. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:19:33,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:19:33,414][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000027653_453066752.pth...
+[2024-06-10 12:19:33,479][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000026996_442302464.pth
+[2024-06-10 12:19:35,028][35978] Updated weights for policy 0, policy_version 27655 (0.0040)
+[2024-06-10 12:19:37,558][35978] Updated weights for policy 0, policy_version 27665 (0.0029)
+[2024-06-10 12:19:38,402][35745] Fps is (10 sec: 49152.1, 60 sec: 45055.9, 300 sec: 44820.0). Total num frames: 453296128. Throughput: 0: 44699.2. Samples: 51926060. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:19:38,404][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:19:42,091][35978] Updated weights for policy 0, policy_version 27675 (0.0032)
+[2024-06-10 12:19:43,402][35745] Fps is (10 sec: 40960.2, 60 sec: 44783.0, 300 sec: 44820.0). Total num frames: 453476352. Throughput: 0: 44790.7. Samples: 52063360. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:19:43,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:19:45,133][35978] Updated weights for policy 0, policy_version 27685 (0.0035)
+[2024-06-10 12:19:48,402][35745] Fps is (10 sec: 40960.2, 60 sec: 44236.8, 300 sec: 44764.4). Total num frames: 453705728. Throughput: 0: 44797.3. Samples: 52329480. Policy #0 lag: (min: 0.0, avg: 10.5, max: 21.0)
+[2024-06-10 12:19:48,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:19:49,579][35978] Updated weights for policy 0, policy_version 27695 (0.0035)
+[2024-06-10 12:19:52,318][35978] Updated weights for policy 0, policy_version 27705 (0.0031)
+[2024-06-10 12:19:53,402][35745] Fps is (10 sec: 49152.0, 60 sec: 45329.2, 300 sec: 44875.5). Total num frames: 453967872. Throughput: 0: 44808.6. Samples: 52601120. Policy #0 lag: (min: 0.0, avg: 10.5, max: 21.0)
+[2024-06-10 12:19:53,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:19:56,972][35978] Updated weights for policy 0, policy_version 27715 (0.0021)
+[2024-06-10 12:19:58,402][35745] Fps is (10 sec: 45875.3, 60 sec: 45329.0, 300 sec: 44875.5). Total num frames: 454164480. Throughput: 0: 44687.4. Samples: 52735840. Policy #0 lag: (min: 0.0, avg: 10.5, max: 21.0)
+[2024-06-10 12:19:58,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:19:59,733][35978] Updated weights for policy 0, policy_version 27725 (0.0047)
+[2024-06-10 12:20:03,402][35745] Fps is (10 sec: 40959.3, 60 sec: 44509.8, 300 sec: 44819.9). Total num frames: 454377472. Throughput: 0: 44863.8. Samples: 53004040. Policy #0 lag: (min: 0.0, avg: 10.5, max: 21.0)
+[2024-06-10 12:20:03,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:20:04,055][35978] Updated weights for policy 0, policy_version 27735 (0.0022)
+[2024-06-10 12:20:06,809][35978] Updated weights for policy 0, policy_version 27745 (0.0047)
+[2024-06-10 12:20:08,408][35745] Fps is (10 sec: 45846.1, 60 sec: 44780.0, 300 sec: 44763.5). Total num frames: 454623232. Throughput: 0: 44655.9. Samples: 53271400. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:20:08,409][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:20:11,167][35978] Updated weights for policy 0, policy_version 27755 (0.0032)
+[2024-06-10 12:20:13,401][35745] Fps is (10 sec: 45876.0, 60 sec: 45056.0, 300 sec: 44764.4). Total num frames: 454836224. Throughput: 0: 44951.3. Samples: 53413520. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:20:13,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:20:14,257][35978] Updated weights for policy 0, policy_version 27765 (0.0029)
+[2024-06-10 12:20:18,402][35745] Fps is (10 sec: 42625.1, 60 sec: 44509.8, 300 sec: 44764.8). Total num frames: 455049216. Throughput: 0: 44768.8. Samples: 53673800. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:20:18,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:20:18,994][35978] Updated weights for policy 0, policy_version 27775 (0.0030)
+[2024-06-10 12:20:19,544][35957] Signal inference workers to stop experience collection... (750 times)
+[2024-06-10 12:20:19,545][35957] Signal inference workers to resume experience collection... (750 times)
+[2024-06-10 12:20:19,556][35978] InferenceWorker_p0-w0: stopping experience collection (750 times)
+[2024-06-10 12:20:19,556][35978] InferenceWorker_p0-w0: resuming experience collection (750 times)
+[2024-06-10 12:20:21,642][35978] Updated weights for policy 0, policy_version 27785 (0.0039)
+[2024-06-10 12:20:23,402][35745] Fps is (10 sec: 47512.9, 60 sec: 44782.8, 300 sec: 44765.3). Total num frames: 455311360. Throughput: 0: 44812.9. Samples: 53942640. Policy #0 lag: (min: 0.0, avg: 12.3, max: 23.0)
+[2024-06-10 12:20:23,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:20:26,117][35978] Updated weights for policy 0, policy_version 27795 (0.0028)
+[2024-06-10 12:20:28,402][35745] Fps is (10 sec: 47513.8, 60 sec: 45329.1, 300 sec: 44820.0). Total num frames: 455524352. Throughput: 0: 44970.6. Samples: 54087040. Policy #0 lag: (min: 0.0, avg: 12.3, max: 23.0)
+[2024-06-10 12:20:28,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:20:29,129][35978] Updated weights for policy 0, policy_version 27805 (0.0031)
+[2024-06-10 12:20:33,404][35745] Fps is (10 sec: 39312.8, 60 sec: 43962.0, 300 sec: 44653.0). Total num frames: 455704576. Throughput: 0: 44676.4. Samples: 54340020. Policy #0 lag: (min: 0.0, avg: 12.3, max: 23.0)
+[2024-06-10 12:20:33,405][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:20:33,580][35978] Updated weights for policy 0, policy_version 27815 (0.0042)
+[2024-06-10 12:20:36,321][35978] Updated weights for policy 0, policy_version 27825 (0.0030)
+[2024-06-10 12:20:38,401][35745] Fps is (10 sec: 44237.6, 60 sec: 44510.0, 300 sec: 44764.5). Total num frames: 455966720. Throughput: 0: 44725.4. Samples: 54613760. Policy #0 lag: (min: 0.0, avg: 12.3, max: 23.0)
+[2024-06-10 12:20:38,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:20:41,233][35978] Updated weights for policy 0, policy_version 27835 (0.0031)
+[2024-06-10 12:20:43,401][35745] Fps is (10 sec: 49163.7, 60 sec: 45329.1, 300 sec: 44875.5). Total num frames: 456196096. Throughput: 0: 44921.4. Samples: 54757300. Policy #0 lag: (min: 0.0, avg: 7.4, max: 21.0)
+[2024-06-10 12:20:43,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:20:43,508][35978] Updated weights for policy 0, policy_version 27845 (0.0031)
+[2024-06-10 12:20:48,402][35745] Fps is (10 sec: 39320.4, 60 sec: 44236.7, 300 sec: 44653.3). Total num frames: 456359936. Throughput: 0: 44690.2. Samples: 55015100. Policy #0 lag: (min: 0.0, avg: 7.4, max: 21.0)
+[2024-06-10 12:20:48,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:20:48,504][35978] Updated weights for policy 0, policy_version 27855 (0.0026)
+[2024-06-10 12:20:50,949][35978] Updated weights for policy 0, policy_version 27865 (0.0035)
+[2024-06-10 12:20:53,402][35745] Fps is (10 sec: 44236.5, 60 sec: 44509.8, 300 sec: 44820.0). Total num frames: 456638464. Throughput: 0: 44695.6. Samples: 55282420. Policy #0 lag: (min: 0.0, avg: 7.4, max: 21.0)
+[2024-06-10 12:20:53,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:20:55,537][35978] Updated weights for policy 0, policy_version 27875 (0.0021)
+[2024-06-10 12:20:58,402][35745] Fps is (10 sec: 49152.2, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 456851456. Throughput: 0: 44803.0. Samples: 55429660. Policy #0 lag: (min: 0.0, avg: 7.4, max: 21.0)
+[2024-06-10 12:20:58,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:20:58,511][35978] Updated weights for policy 0, policy_version 27885 (0.0032)
+[2024-06-10 12:21:03,030][35978] Updated weights for policy 0, policy_version 27895 (0.0034)
+[2024-06-10 12:21:03,402][35745] Fps is (10 sec: 40959.6, 60 sec: 44509.9, 300 sec: 44708.9). Total num frames: 457048064. Throughput: 0: 44805.3. Samples: 55690040. Policy #0 lag: (min: 0.0, avg: 12.2, max: 23.0)
+[2024-06-10 12:21:03,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:21:05,602][35978] Updated weights for policy 0, policy_version 27905 (0.0041)
+[2024-06-10 12:21:08,402][35745] Fps is (10 sec: 47514.1, 60 sec: 45060.8, 300 sec: 44875.5). Total num frames: 457326592. Throughput: 0: 44682.8. Samples: 55953360. Policy #0 lag: (min: 0.0, avg: 12.2, max: 23.0)
+[2024-06-10 12:21:08,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:21:10,485][35978] Updated weights for policy 0, policy_version 27915 (0.0024)
+[2024-06-10 12:21:12,977][35978] Updated weights for policy 0, policy_version 27925 (0.0031)
+[2024-06-10 12:21:13,401][35745] Fps is (10 sec: 49152.9, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 457539584. Throughput: 0: 44677.9. Samples: 56097540. Policy #0 lag: (min: 0.0, avg: 12.2, max: 23.0)
+[2024-06-10 12:21:13,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:21:17,909][35978] Updated weights for policy 0, policy_version 27935 (0.0029)
+[2024-06-10 12:21:18,402][35745] Fps is (10 sec: 39321.6, 60 sec: 44509.9, 300 sec: 44708.9). Total num frames: 457719808. Throughput: 0: 44884.1. Samples: 56359700. Policy #0 lag: (min: 1.0, avg: 7.4, max: 21.0)
+[2024-06-10 12:21:18,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:21:20,479][35978] Updated weights for policy 0, policy_version 27945 (0.0026)
+[2024-06-10 12:21:23,402][35745] Fps is (10 sec: 44236.3, 60 sec: 44509.9, 300 sec: 44875.5). Total num frames: 457981952. Throughput: 0: 44744.7. Samples: 56627280. Policy #0 lag: (min: 1.0, avg: 7.4, max: 21.0)
+[2024-06-10 12:21:23,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:21:24,874][35978] Updated weights for policy 0, policy_version 27955 (0.0026)
+[2024-06-10 12:21:27,486][35978] Updated weights for policy 0, policy_version 27965 (0.0039)
+[2024-06-10 12:21:28,402][35745] Fps is (10 sec: 49151.8, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 458211328. Throughput: 0: 44852.8. Samples: 56775680. Policy #0 lag: (min: 1.0, avg: 7.4, max: 21.0)
+[2024-06-10 12:21:28,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:21:28,940][35957] Signal inference workers to stop experience collection... (800 times)
+[2024-06-10 12:21:28,941][35957] Signal inference workers to resume experience collection... (800 times)
+[2024-06-10 12:21:28,973][35978] InferenceWorker_p0-w0: stopping experience collection (800 times)
+[2024-06-10 12:21:28,973][35978] InferenceWorker_p0-w0: resuming experience collection (800 times)
+[2024-06-10 12:21:32,078][35978] Updated weights for policy 0, policy_version 27975 (0.0035)
+[2024-06-10 12:21:33,401][35745] Fps is (10 sec: 40960.5, 60 sec: 44784.7, 300 sec: 44708.9). Total num frames: 458391552. Throughput: 0: 45038.4. Samples: 57041820. Policy #0 lag: (min: 1.0, avg: 7.4, max: 21.0)
+[2024-06-10 12:21:33,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:21:33,547][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000027980_458424320.pth...
+[2024-06-10 12:21:33,607][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000027325_447692800.pth
+[2024-06-10 12:21:34,831][35978] Updated weights for policy 0, policy_version 27985 (0.0028)
+[2024-06-10 12:21:38,402][35745] Fps is (10 sec: 44236.9, 60 sec: 44782.8, 300 sec: 44875.5). Total num frames: 458653696. Throughput: 0: 44865.3. Samples: 57301360. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:21:38,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:21:38,407][35957] Saving new best policy, reward=0.304!
+[2024-06-10 12:21:39,631][35978] Updated weights for policy 0, policy_version 27995 (0.0039)
+[2024-06-10 12:21:41,942][35978] Updated weights for policy 0, policy_version 28005 (0.0026)
+[2024-06-10 12:21:43,402][35745] Fps is (10 sec: 49151.1, 60 sec: 44782.8, 300 sec: 44820.0). Total num frames: 458883072. Throughput: 0: 44623.1. Samples: 57437700. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:21:43,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:21:46,954][35978] Updated weights for policy 0, policy_version 28015 (0.0034)
+[2024-06-10 12:21:48,402][35745] Fps is (10 sec: 45875.0, 60 sec: 45875.3, 300 sec: 44875.5). Total num frames: 459112448. Throughput: 0: 45076.5. Samples: 57718480. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:21:48,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:21:49,378][35978] Updated weights for policy 0, policy_version 28025 (0.0033)
+[2024-06-10 12:21:53,402][35745] Fps is (10 sec: 40960.0, 60 sec: 44236.8, 300 sec: 44708.9). Total num frames: 459292672. Throughput: 0: 44996.8. Samples: 57978220. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:21:53,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:21:54,019][35978] Updated weights for policy 0, policy_version 28035 (0.0041)
+[2024-06-10 12:21:56,762][35978] Updated weights for policy 0, policy_version 28045 (0.0034)
+[2024-06-10 12:21:58,401][35745] Fps is (10 sec: 44237.3, 60 sec: 45056.1, 300 sec: 44764.4). Total num frames: 459554816. Throughput: 0: 44759.1. Samples: 58111700. Policy #0 lag: (min: 2.0, avg: 9.7, max: 24.0)
+[2024-06-10 12:21:58,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:22:01,040][35978] Updated weights for policy 0, policy_version 28055 (0.0042)
+[2024-06-10 12:22:03,402][35745] Fps is (10 sec: 49152.3, 60 sec: 45602.2, 300 sec: 44875.5). Total num frames: 459784192. Throughput: 0: 44950.6. Samples: 58382480. Policy #0 lag: (min: 2.0, avg: 9.7, max: 24.0)
+[2024-06-10 12:22:03,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:22:03,877][35978] Updated weights for policy 0, policy_version 28065 (0.0025)
+[2024-06-10 12:22:08,402][35745] Fps is (10 sec: 39321.3, 60 sec: 43690.7, 300 sec: 44708.9). Total num frames: 459948032. Throughput: 0: 44967.2. Samples: 58650800. Policy #0 lag: (min: 2.0, avg: 9.7, max: 24.0)
+[2024-06-10 12:22:08,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:22:08,690][35978] Updated weights for policy 0, policy_version 28075 (0.0030)
+[2024-06-10 12:22:11,056][35978] Updated weights for policy 0, policy_version 28085 (0.0023)
+[2024-06-10 12:22:13,402][35745] Fps is (10 sec: 44236.2, 60 sec: 44782.8, 300 sec: 44875.5). Total num frames: 460226560. Throughput: 0: 44443.0. Samples: 58775620. Policy #0 lag: (min: 2.0, avg: 9.7, max: 24.0)
+[2024-06-10 12:22:13,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:22:16,185][35978] Updated weights for policy 0, policy_version 28095 (0.0031)
+[2024-06-10 12:22:18,402][35745] Fps is (10 sec: 50790.4, 60 sec: 45602.1, 300 sec: 44875.5). Total num frames: 460455936. Throughput: 0: 44739.0. Samples: 59055080. Policy #0 lag: (min: 0.0, avg: 10.7, max: 20.0)
+[2024-06-10 12:22:18,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:22:18,581][35978] Updated weights for policy 0, policy_version 28105 (0.0031)
+[2024-06-10 12:22:23,201][35978] Updated weights for policy 0, policy_version 28115 (0.0038)
+[2024-06-10 12:22:23,402][35745] Fps is (10 sec: 40960.5, 60 sec: 44236.8, 300 sec: 44708.9). Total num frames: 460636160. Throughput: 0: 45057.8. Samples: 59328960. Policy #0 lag: (min: 0.0, avg: 10.7, max: 20.0)
+[2024-06-10 12:22:23,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:22:25,935][35978] Updated weights for policy 0, policy_version 28125 (0.0037)
+[2024-06-10 12:22:28,402][35745] Fps is (10 sec: 42598.1, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 460881920. Throughput: 0: 44690.7. Samples: 59448780. Policy #0 lag: (min: 0.0, avg: 10.7, max: 20.0)
+[2024-06-10 12:22:28,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:22:30,426][35978] Updated weights for policy 0, policy_version 28135 (0.0048)
+[2024-06-10 12:22:33,011][35978] Updated weights for policy 0, policy_version 28145 (0.0037)
+[2024-06-10 12:22:33,402][35745] Fps is (10 sec: 49151.9, 60 sec: 45602.0, 300 sec: 44820.0). Total num frames: 461127680. Throughput: 0: 44587.1. Samples: 59724900. Policy #0 lag: (min: 1.0, avg: 10.1, max: 22.0)
+[2024-06-10 12:22:33,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:22:33,845][35957] Signal inference workers to stop experience collection... (850 times)
+[2024-06-10 12:22:33,880][35978] InferenceWorker_p0-w0: stopping experience collection (850 times)
+[2024-06-10 12:22:33,901][35957] Signal inference workers to resume experience collection... (850 times)
+[2024-06-10 12:22:33,908][35978] InferenceWorker_p0-w0: resuming experience collection (850 times)
+[2024-06-10 12:22:38,142][35978] Updated weights for policy 0, policy_version 28155 (0.0024)
+[2024-06-10 12:22:38,402][35745] Fps is (10 sec: 40960.2, 60 sec: 43963.7, 300 sec: 44708.9). Total num frames: 461291520. Throughput: 0: 44773.4. Samples: 59993020. Policy #0 lag: (min: 1.0, avg: 10.1, max: 22.0)
+[2024-06-10 12:22:38,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:22:40,591][35978] Updated weights for policy 0, policy_version 28165 (0.0029)
+[2024-06-10 12:22:43,401][35745] Fps is (10 sec: 42598.9, 60 sec: 44510.0, 300 sec: 44820.0). Total num frames: 461553664. Throughput: 0: 44492.9. Samples: 60113880. Policy #0 lag: (min: 1.0, avg: 10.1, max: 22.0)
+[2024-06-10 12:22:43,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:22:45,321][35978] Updated weights for policy 0, policy_version 28175 (0.0044)
+[2024-06-10 12:22:48,263][35978] Updated weights for policy 0, policy_version 28185 (0.0024)
+[2024-06-10 12:22:48,401][35745] Fps is (10 sec: 49152.3, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 461783040. Throughput: 0: 44520.5. Samples: 60385900. Policy #0 lag: (min: 1.0, avg: 10.1, max: 22.0)
+[2024-06-10 12:22:48,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:22:52,323][35978] Updated weights for policy 0, policy_version 28195 (0.0031)
+[2024-06-10 12:22:53,402][35745] Fps is (10 sec: 42595.8, 60 sec: 44782.6, 300 sec: 44764.7). Total num frames: 461979648. Throughput: 0: 44653.2. Samples: 60660220. Policy #0 lag: (min: 0.0, avg: 12.0, max: 24.0)
+[2024-06-10 12:22:53,403][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:22:55,562][35978] Updated weights for policy 0, policy_version 28205 (0.0029)
+[2024-06-10 12:22:58,402][35745] Fps is (10 sec: 40959.6, 60 sec: 43963.6, 300 sec: 44653.3). Total num frames: 462192640. Throughput: 0: 44682.8. Samples: 60786340. Policy #0 lag: (min: 0.0, avg: 12.0, max: 24.0)
+[2024-06-10 12:22:58,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:22:59,966][35978] Updated weights for policy 0, policy_version 28215 (0.0029)
+[2024-06-10 12:23:02,729][35978] Updated weights for policy 0, policy_version 28225 (0.0035)
+[2024-06-10 12:23:03,402][35745] Fps is (10 sec: 45877.6, 60 sec: 44236.8, 300 sec: 44653.3). Total num frames: 462438400. Throughput: 0: 44271.5. Samples: 61047300. Policy #0 lag: (min: 0.0, avg: 12.0, max: 24.0)
+[2024-06-10 12:23:03,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:23:07,689][35978] Updated weights for policy 0, policy_version 28235 (0.0033)
+[2024-06-10 12:23:08,408][35745] Fps is (10 sec: 47483.4, 60 sec: 45324.2, 300 sec: 44819.0). Total num frames: 462667776. Throughput: 0: 44436.4. Samples: 61328880. Policy #0 lag: (min: 0.0, avg: 12.0, max: 24.0)
+[2024-06-10 12:23:08,417][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:23:10,033][35978] Updated weights for policy 0, policy_version 28245 (0.0032)
+[2024-06-10 12:23:13,402][35745] Fps is (10 sec: 44236.7, 60 sec: 44236.9, 300 sec: 44653.3). Total num frames: 462880768. Throughput: 0: 44630.7. Samples: 61457160. Policy #0 lag: (min: 2.0, avg: 11.8, max: 24.0)
+[2024-06-10 12:23:13,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:23:14,739][35978] Updated weights for policy 0, policy_version 28255 (0.0037)
+[2024-06-10 12:23:17,332][35978] Updated weights for policy 0, policy_version 28265 (0.0022)
+[2024-06-10 12:23:18,402][35745] Fps is (10 sec: 45904.6, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 463126528. Throughput: 0: 44429.4. Samples: 61724220. Policy #0 lag: (min: 2.0, avg: 11.8, max: 24.0)
+[2024-06-10 12:23:18,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:23:21,870][35978] Updated weights for policy 0, policy_version 28275 (0.0035)
+[2024-06-10 12:23:23,402][35745] Fps is (10 sec: 45874.8, 60 sec: 45055.9, 300 sec: 44820.0). Total num frames: 463339520. Throughput: 0: 44639.4. Samples: 62001800. Policy #0 lag: (min: 2.0, avg: 11.8, max: 24.0)
+[2024-06-10 12:23:23,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:23:24,728][35978] Updated weights for policy 0, policy_version 28285 (0.0030)
+[2024-06-10 12:23:28,402][35745] Fps is (10 sec: 42597.7, 60 sec: 44509.8, 300 sec: 44653.8). Total num frames: 463552512. Throughput: 0: 44782.9. Samples: 62129120. Policy #0 lag: (min: 1.0, avg: 9.3, max: 22.0)
+[2024-06-10 12:23:28,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:23:29,130][35978] Updated weights for policy 0, policy_version 28295 (0.0022)
+[2024-06-10 12:23:31,834][35978] Updated weights for policy 0, policy_version 28305 (0.0029)
+[2024-06-10 12:23:33,402][35745] Fps is (10 sec: 45875.5, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 463798272. Throughput: 0: 44687.0. Samples: 62396820. Policy #0 lag: (min: 1.0, avg: 9.3, max: 22.0)
+[2024-06-10 12:23:33,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:23:33,413][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000028308_463798272.pth...
+[2024-06-10 12:23:33,473][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000027653_453066752.pth
+[2024-06-10 12:23:36,661][35978] Updated weights for policy 0, policy_version 28315 (0.0037)
+[2024-06-10 12:23:37,091][35957] Signal inference workers to stop experience collection... (900 times)
+[2024-06-10 12:23:37,093][35957] Signal inference workers to resume experience collection... (900 times)
+[2024-06-10 12:23:37,107][35978] InferenceWorker_p0-w0: stopping experience collection (900 times)
+[2024-06-10 12:23:37,123][35978] InferenceWorker_p0-w0: resuming experience collection (900 times)
+[2024-06-10 12:23:38,401][35745] Fps is (10 sec: 47514.6, 60 sec: 45602.2, 300 sec: 44875.5). Total num frames: 464027648. Throughput: 0: 44606.4. Samples: 62667480. Policy #0 lag: (min: 1.0, avg: 9.3, max: 22.0)
+[2024-06-10 12:23:38,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:23:38,856][35978] Updated weights for policy 0, policy_version 28325 (0.0029)
+[2024-06-10 12:23:43,402][35745] Fps is (10 sec: 42598.4, 60 sec: 44509.8, 300 sec: 44653.3). Total num frames: 464224256. Throughput: 0: 44982.2. Samples: 62810540. Policy #0 lag: (min: 1.0, avg: 9.3, max: 22.0)
+[2024-06-10 12:23:43,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:23:43,660][35978] Updated weights for policy 0, policy_version 28335 (0.0036)
+[2024-06-10 12:23:46,390][35978] Updated weights for policy 0, policy_version 28345 (0.0032)
+[2024-06-10 12:23:48,402][35745] Fps is (10 sec: 42598.4, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 464453632. Throughput: 0: 44949.0. Samples: 63070000. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-10 12:23:48,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:23:51,199][35978] Updated weights for policy 0, policy_version 28355 (0.0039)
+[2024-06-10 12:23:53,402][35745] Fps is (10 sec: 47513.1, 60 sec: 45329.3, 300 sec: 44931.0). Total num frames: 464699392. Throughput: 0: 44570.2. Samples: 63334260. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-10 12:23:53,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:23:53,893][35978] Updated weights for policy 0, policy_version 28365 (0.0042)
+[2024-06-10 12:23:58,402][35745] Fps is (10 sec: 42598.3, 60 sec: 44783.0, 300 sec: 44653.3). Total num frames: 464879616. Throughput: 0: 44692.1. Samples: 63468300. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-10 12:23:58,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:23:58,662][35978] Updated weights for policy 0, policy_version 28375 (0.0026)
+[2024-06-10 12:24:01,228][35978] Updated weights for policy 0, policy_version 28385 (0.0030)
+[2024-06-10 12:24:03,402][35745] Fps is (10 sec: 42599.0, 60 sec: 44782.9, 300 sec: 44709.2). Total num frames: 465125376. Throughput: 0: 44623.1. Samples: 63732260. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-10 12:24:03,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:24:05,836][35978] Updated weights for policy 0, policy_version 28395 (0.0041)
+[2024-06-10 12:24:08,232][35978] Updated weights for policy 0, policy_version 28405 (0.0027)
+[2024-06-10 12:24:08,402][35745] Fps is (10 sec: 50789.9, 60 sec: 45333.8, 300 sec: 44931.0). Total num frames: 465387520. Throughput: 0: 44440.5. Samples: 64001620. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-10 12:24:08,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:24:12,943][35978] Updated weights for policy 0, policy_version 28415 (0.0033)
+[2024-06-10 12:24:13,402][35745] Fps is (10 sec: 42598.4, 60 sec: 44509.9, 300 sec: 44653.3). Total num frames: 465551360. Throughput: 0: 44780.5. Samples: 64144240. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-10 12:24:13,403][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:24:15,613][35978] Updated weights for policy 0, policy_version 28425 (0.0035)
+[2024-06-10 12:24:18,401][35745] Fps is (10 sec: 39322.1, 60 sec: 44236.8, 300 sec: 44597.8). Total num frames: 465780736. Throughput: 0: 44633.0. Samples: 64405300. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-10 12:24:18,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:24:20,488][35978] Updated weights for policy 0, policy_version 28435 (0.0028)
+[2024-06-10 12:24:22,862][35978] Updated weights for policy 0, policy_version 28445 (0.0024)
+[2024-06-10 12:24:23,402][35745] Fps is (10 sec: 49151.6, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 466042880. Throughput: 0: 44489.1. Samples: 64669500. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-10 12:24:23,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:24:27,946][35978] Updated weights for policy 0, policy_version 28455 (0.0040)
+[2024-06-10 12:24:28,404][35745] Fps is (10 sec: 45864.2, 60 sec: 44781.3, 300 sec: 44653.0). Total num frames: 466239488. Throughput: 0: 44386.7. Samples: 64808040. Policy #0 lag: (min: 1.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:24:28,405][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:24:30,326][35978] Updated weights for policy 0, policy_version 28465 (0.0037)
+[2024-06-10 12:24:33,085][35957] Signal inference workers to stop experience collection... (950 times)
+[2024-06-10 12:24:33,092][35957] Signal inference workers to resume experience collection... (950 times)
+[2024-06-10 12:24:33,099][35978] InferenceWorker_p0-w0: stopping experience collection (950 times)
+[2024-06-10 12:24:33,131][35978] InferenceWorker_p0-w0: resuming experience collection (950 times)
+[2024-06-10 12:24:33,402][35745] Fps is (10 sec: 40960.5, 60 sec: 44236.8, 300 sec: 44597.8). Total num frames: 466452480. Throughput: 0: 44621.3. Samples: 65077960. Policy #0 lag: (min: 1.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:24:33,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:24:35,174][35978] Updated weights for policy 0, policy_version 28475 (0.0040)
+[2024-06-10 12:24:37,423][35978] Updated weights for policy 0, policy_version 28485 (0.0027)
+[2024-06-10 12:24:38,402][35745] Fps is (10 sec: 45886.1, 60 sec: 44509.8, 300 sec: 44820.0). Total num frames: 466698240. Throughput: 0: 44569.5. Samples: 65339880. Policy #0 lag: (min: 1.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:24:38,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:24:42,243][35978] Updated weights for policy 0, policy_version 28495 (0.0026)
+[2024-06-10 12:24:43,404][35745] Fps is (10 sec: 45866.4, 60 sec: 44781.5, 300 sec: 44764.1). Total num frames: 466911232. Throughput: 0: 44745.6. Samples: 65481940. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-10 12:24:43,404][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:24:44,846][35978] Updated weights for policy 0, policy_version 28505 (0.0031)
+[2024-06-10 12:24:48,402][35745] Fps is (10 sec: 40960.0, 60 sec: 44236.8, 300 sec: 44542.3). Total num frames: 467107840. Throughput: 0: 44855.2. Samples: 65750740. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-10 12:24:48,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:24:49,788][35978] Updated weights for policy 0, policy_version 28515 (0.0026)
+[2024-06-10 12:24:52,234][35978] Updated weights for policy 0, policy_version 28525 (0.0030)
+[2024-06-10 12:24:53,401][35745] Fps is (10 sec: 45884.6, 60 sec: 44510.1, 300 sec: 44764.4). Total num frames: 467369984. Throughput: 0: 44486.8. Samples: 66003520. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-10 12:24:53,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:24:57,278][35978] Updated weights for policy 0, policy_version 28535 (0.0036)
+[2024-06-10 12:24:58,401][35745] Fps is (10 sec: 47514.1, 60 sec: 45056.1, 300 sec: 44764.5). Total num frames: 467582976. Throughput: 0: 44494.8. Samples: 66146500. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-10 12:24:58,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:24:59,724][35978] Updated weights for policy 0, policy_version 28545 (0.0051)
+[2024-06-10 12:25:03,402][35745] Fps is (10 sec: 40959.7, 60 sec: 44236.9, 300 sec: 44598.8). Total num frames: 467779584. Throughput: 0: 44760.0. Samples: 66419500. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-10 12:25:03,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:25:04,510][35978] Updated weights for policy 0, policy_version 28555 (0.0038)
+[2024-06-10 12:25:06,712][35978] Updated weights for policy 0, policy_version 28565 (0.0029)
+[2024-06-10 12:25:08,402][35745] Fps is (10 sec: 44235.8, 60 sec: 43963.7, 300 sec: 44708.9). Total num frames: 468025344. Throughput: 0: 44813.8. Samples: 66686120. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-10 12:25:08,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:25:11,721][35978] Updated weights for policy 0, policy_version 28575 (0.0032)
+[2024-06-10 12:25:13,402][35745] Fps is (10 sec: 49151.1, 60 sec: 45329.0, 300 sec: 44819.9). Total num frames: 468271104. Throughput: 0: 44778.2. Samples: 66822960. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-10 12:25:13,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:25:13,906][35978] Updated weights for policy 0, policy_version 28585 (0.0043)
+[2024-06-10 12:25:18,404][35745] Fps is (10 sec: 44226.9, 60 sec: 44781.2, 300 sec: 44597.5). Total num frames: 468467712. Throughput: 0: 44818.2. Samples: 67094880. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-10 12:25:18,405][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:25:19,084][35978] Updated weights for policy 0, policy_version 28595 (0.0042)
+[2024-06-10 12:25:21,435][35978] Updated weights for policy 0, policy_version 28605 (0.0036)
+[2024-06-10 12:25:23,408][35745] Fps is (10 sec: 40934.8, 60 sec: 43959.2, 300 sec: 44596.9). Total num frames: 468680704. Throughput: 0: 44838.6. Samples: 67357900. Policy #0 lag: (min: 0.0, avg: 13.0, max: 26.0)
+[2024-06-10 12:25:23,409][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:25:26,385][35978] Updated weights for policy 0, policy_version 28615 (0.0035)
+[2024-06-10 12:25:28,402][35745] Fps is (10 sec: 49163.2, 60 sec: 45330.8, 300 sec: 44931.4). Total num frames: 468959232. Throughput: 0: 44764.1. Samples: 67496240. Policy #0 lag: (min: 0.0, avg: 13.0, max: 26.0)
+[2024-06-10 12:25:28,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:25:28,702][35978] Updated weights for policy 0, policy_version 28625 (0.0025)
+[2024-06-10 12:25:33,402][35745] Fps is (10 sec: 45903.6, 60 sec: 44782.9, 300 sec: 44653.3). Total num frames: 469139456. Throughput: 0: 44806.1. Samples: 67767020. Policy #0 lag: (min: 0.0, avg: 13.0, max: 26.0)
+[2024-06-10 12:25:33,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:25:33,458][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000028635_469155840.pth...
+[2024-06-10 12:25:33,463][35978] Updated weights for policy 0, policy_version 28635 (0.0030)
+[2024-06-10 12:25:33,519][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000027980_458424320.pth
+[2024-06-10 12:25:35,849][35978] Updated weights for policy 0, policy_version 28645 (0.0035)
+[2024-06-10 12:25:38,402][35745] Fps is (10 sec: 39321.5, 60 sec: 44236.7, 300 sec: 44597.8). Total num frames: 469352448. Throughput: 0: 45068.3. Samples: 68031600. Policy #0 lag: (min: 0.0, avg: 13.0, max: 26.0)
+[2024-06-10 12:25:38,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:25:41,088][35978] Updated weights for policy 0, policy_version 28655 (0.0030)
+[2024-06-10 12:25:41,787][35957] Signal inference workers to stop experience collection... (1000 times)
+[2024-06-10 12:25:41,788][35957] Signal inference workers to resume experience collection... (1000 times)
+[2024-06-10 12:25:41,817][35978] InferenceWorker_p0-w0: stopping experience collection (1000 times)
+[2024-06-10 12:25:41,817][35978] InferenceWorker_p0-w0: resuming experience collection (1000 times)
+[2024-06-10 12:25:43,255][35978] Updated weights for policy 0, policy_version 28665 (0.0034)
+[2024-06-10 12:25:43,402][35745] Fps is (10 sec: 50790.1, 60 sec: 45603.5, 300 sec: 45042.1). Total num frames: 469647360. Throughput: 0: 44815.7. Samples: 68163220. Policy #0 lag: (min: 0.0, avg: 9.7, max: 23.0)
+[2024-06-10 12:25:43,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:25:48,402][35745] Fps is (10 sec: 44237.2, 60 sec: 44782.9, 300 sec: 44597.8). Total num frames: 469794816. Throughput: 0: 44613.3. Samples: 68427100. Policy #0 lag: (min: 0.0, avg: 9.7, max: 23.0)
+[2024-06-10 12:25:48,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:25:48,544][35978] Updated weights for policy 0, policy_version 28675 (0.0033)
+[2024-06-10 12:25:50,809][35978] Updated weights for policy 0, policy_version 28685 (0.0028)
+[2024-06-10 12:25:53,402][35745] Fps is (10 sec: 36045.3, 60 sec: 43963.6, 300 sec: 44597.8). Total num frames: 470007808. Throughput: 0: 44716.1. Samples: 68698340. Policy #0 lag: (min: 0.0, avg: 9.7, max: 23.0)
+[2024-06-10 12:25:53,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:25:55,609][35978] Updated weights for policy 0, policy_version 28695 (0.0031)
+[2024-06-10 12:25:57,935][35978] Updated weights for policy 0, policy_version 28705 (0.0029)
+[2024-06-10 12:25:58,402][35745] Fps is (10 sec: 50789.5, 60 sec: 45328.9, 300 sec: 44931.0). Total num frames: 470302720. Throughput: 0: 44689.4. Samples: 68833980. Policy #0 lag: (min: 0.0, avg: 9.7, max: 23.0)
+[2024-06-10 12:25:58,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:26:02,842][35978] Updated weights for policy 0, policy_version 28715 (0.0032)
+[2024-06-10 12:26:03,402][35745] Fps is (10 sec: 47513.8, 60 sec: 45056.0, 300 sec: 44597.8). Total num frames: 470482944. Throughput: 0: 44703.7. Samples: 69106440. Policy #0 lag: (min: 0.0, avg: 12.3, max: 22.0)
+[2024-06-10 12:26:03,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:26:05,461][35978] Updated weights for policy 0, policy_version 28725 (0.0030)
+[2024-06-10 12:26:08,402][35745] Fps is (10 sec: 37683.8, 60 sec: 44236.9, 300 sec: 44542.3). Total num frames: 470679552. Throughput: 0: 44766.7. Samples: 69372120. Policy #0 lag: (min: 0.0, avg: 12.3, max: 22.0)
+[2024-06-10 12:26:08,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:26:10,398][35978] Updated weights for policy 0, policy_version 28735 (0.0033)
+[2024-06-10 12:26:12,611][35978] Updated weights for policy 0, policy_version 28745 (0.0024)
+[2024-06-10 12:26:13,402][35745] Fps is (10 sec: 47513.7, 60 sec: 44783.1, 300 sec: 44875.5). Total num frames: 470958080. Throughput: 0: 44574.3. Samples: 69502080. Policy #0 lag: (min: 0.0, avg: 12.3, max: 22.0)
+[2024-06-10 12:26:13,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:26:17,964][35978] Updated weights for policy 0, policy_version 28755 (0.0032)
+[2024-06-10 12:26:18,402][35745] Fps is (10 sec: 47513.0, 60 sec: 44784.6, 300 sec: 44653.3). Total num frames: 471154688. Throughput: 0: 44680.9. Samples: 69777660. Policy #0 lag: (min: 0.0, avg: 7.9, max: 22.0)
+[2024-06-10 12:26:18,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:26:20,321][35978] Updated weights for policy 0, policy_version 28765 (0.0020)
+[2024-06-10 12:26:23,402][35745] Fps is (10 sec: 39321.6, 60 sec: 44514.6, 300 sec: 44542.3). Total num frames: 471351296. Throughput: 0: 44609.9. Samples: 70039040. Policy #0 lag: (min: 0.0, avg: 7.9, max: 22.0)
+[2024-06-10 12:26:23,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:26:25,133][35978] Updated weights for policy 0, policy_version 28775 (0.0037)
+[2024-06-10 12:26:26,080][35957] Signal inference workers to stop experience collection... (1050 times)
+[2024-06-10 12:26:26,124][35978] InferenceWorker_p0-w0: stopping experience collection (1050 times)
+[2024-06-10 12:26:26,130][35957] Signal inference workers to resume experience collection... (1050 times)
+[2024-06-10 12:26:26,141][35978] InferenceWorker_p0-w0: resuming experience collection (1050 times)
+[2024-06-10 12:26:27,689][35978] Updated weights for policy 0, policy_version 28785 (0.0022)
+[2024-06-10 12:26:28,402][35745] Fps is (10 sec: 45874.8, 60 sec: 44236.7, 300 sec: 44819.9). Total num frames: 471613440. Throughput: 0: 44463.1. Samples: 70164060. Policy #0 lag: (min: 0.0, avg: 7.9, max: 22.0)
+[2024-06-10 12:26:28,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:26:32,313][35978] Updated weights for policy 0, policy_version 28795 (0.0036)
+[2024-06-10 12:26:33,402][35745] Fps is (10 sec: 47513.1, 60 sec: 44783.0, 300 sec: 44653.3). Total num frames: 471826432. Throughput: 0: 44791.9. Samples: 70442740. Policy #0 lag: (min: 0.0, avg: 7.9, max: 22.0)
+[2024-06-10 12:26:33,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:26:34,966][35978] Updated weights for policy 0, policy_version 28805 (0.0024)
+[2024-06-10 12:26:38,402][35745] Fps is (10 sec: 40960.4, 60 sec: 44509.8, 300 sec: 44542.3). Total num frames: 472023040. Throughput: 0: 44718.2. Samples: 70710660. Policy #0 lag: (min: 0.0, avg: 9.6, max: 21.0)
+[2024-06-10 12:26:38,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:26:39,810][35978] Updated weights for policy 0, policy_version 28815 (0.0024)
+[2024-06-10 12:26:42,234][35978] Updated weights for policy 0, policy_version 28825 (0.0028)
+[2024-06-10 12:26:43,402][35745] Fps is (10 sec: 45874.9, 60 sec: 43963.8, 300 sec: 44653.3). Total num frames: 472285184. Throughput: 0: 44374.2. Samples: 70830820. Policy #0 lag: (min: 0.0, avg: 9.6, max: 21.0)
+[2024-06-10 12:26:43,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:26:47,283][35978] Updated weights for policy 0, policy_version 28835 (0.0035)
+[2024-06-10 12:26:48,402][35745] Fps is (10 sec: 47514.1, 60 sec: 45056.0, 300 sec: 44764.4). Total num frames: 472498176. Throughput: 0: 44333.3. Samples: 71101440. Policy #0 lag: (min: 0.0, avg: 9.6, max: 21.0)
+[2024-06-10 12:26:48,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:26:49,945][35978] Updated weights for policy 0, policy_version 28845 (0.0041)
+[2024-06-10 12:26:53,402][35745] Fps is (10 sec: 39322.3, 60 sec: 44509.9, 300 sec: 44486.7). Total num frames: 472678400. Throughput: 0: 44327.6. Samples: 71366860. Policy #0 lag: (min: 0.0, avg: 9.6, max: 21.0)
+[2024-06-10 12:26:53,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:26:54,646][35978] Updated weights for policy 0, policy_version 28855 (0.0028)
+[2024-06-10 12:26:57,302][35978] Updated weights for policy 0, policy_version 28865 (0.0023)
+[2024-06-10 12:26:58,404][35745] Fps is (10 sec: 44226.2, 60 sec: 43962.1, 300 sec: 44597.4). Total num frames: 472940544. Throughput: 0: 44200.3. Samples: 71491200. Policy #0 lag: (min: 0.0, avg: 11.0, max: 19.0)
+[2024-06-10 12:26:58,405][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:27:01,681][35978] Updated weights for policy 0, policy_version 28875 (0.0038)
+[2024-06-10 12:27:03,402][35745] Fps is (10 sec: 49151.7, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 473169920. Throughput: 0: 44245.8. Samples: 71768720. Policy #0 lag: (min: 0.0, avg: 11.0, max: 19.0)
+[2024-06-10 12:27:03,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:27:04,478][35978] Updated weights for policy 0, policy_version 28885 (0.0021)
+[2024-06-10 12:27:08,402][35745] Fps is (10 sec: 42608.6, 60 sec: 44782.9, 300 sec: 44542.3). Total num frames: 473366528. Throughput: 0: 44498.6. Samples: 72041480. Policy #0 lag: (min: 0.0, avg: 11.0, max: 19.0)
+[2024-06-10 12:27:08,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:27:08,951][35978] Updated weights for policy 0, policy_version 28895 (0.0025)
+[2024-06-10 12:27:11,782][35978] Updated weights for policy 0, policy_version 28905 (0.0028)
+[2024-06-10 12:27:13,402][35745] Fps is (10 sec: 42598.6, 60 sec: 43963.7, 300 sec: 44542.3). Total num frames: 473595904. Throughput: 0: 44648.2. Samples: 72173220. Policy #0 lag: (min: 0.0, avg: 11.0, max: 19.0)
+[2024-06-10 12:27:13,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:27:16,470][35978] Updated weights for policy 0, policy_version 28915 (0.0028)
+[2024-06-10 12:27:18,402][35745] Fps is (10 sec: 47513.9, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 473841664. Throughput: 0: 44382.8. Samples: 72439960. Policy #0 lag: (min: 0.0, avg: 8.1, max: 20.0)
+[2024-06-10 12:27:18,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:27:19,418][35978] Updated weights for policy 0, policy_version 28925 (0.0029)
+[2024-06-10 12:27:23,408][35745] Fps is (10 sec: 44208.4, 60 sec: 44778.2, 300 sec: 44596.8). Total num frames: 474038272. Throughput: 0: 44512.4. Samples: 72714000. Policy #0 lag: (min: 0.0, avg: 8.1, max: 20.0)
+[2024-06-10 12:27:23,409][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:27:23,564][35978] Updated weights for policy 0, policy_version 28935 (0.0037)
+[2024-06-10 12:27:26,842][35978] Updated weights for policy 0, policy_version 28945 (0.0032)
+[2024-06-10 12:27:28,402][35745] Fps is (10 sec: 42597.3, 60 sec: 44236.8, 300 sec: 44542.2). Total num frames: 474267648. Throughput: 0: 44788.4. Samples: 72846300. Policy #0 lag: (min: 0.0, avg: 8.1, max: 20.0)
+[2024-06-10 12:27:28,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:27:30,703][35978] Updated weights for policy 0, policy_version 28955 (0.0036)
+[2024-06-10 12:27:30,705][35957] Signal inference workers to stop experience collection... (1100 times)
+[2024-06-10 12:27:30,705][35957] Signal inference workers to resume experience collection... (1100 times)
+[2024-06-10 12:27:30,735][35978] InferenceWorker_p0-w0: stopping experience collection (1100 times)
+[2024-06-10 12:27:30,735][35978] InferenceWorker_p0-w0: resuming experience collection (1100 times)
+[2024-06-10 12:27:33,402][35745] Fps is (10 sec: 47544.2, 60 sec: 44783.0, 300 sec: 44820.0). Total num frames: 474513408. Throughput: 0: 44847.2. Samples: 73119560. Policy #0 lag: (min: 0.0, avg: 8.1, max: 20.0)
+[2024-06-10 12:27:33,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:27:33,419][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000028962_474513408.pth...
+[2024-06-10 12:27:33,470][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000028308_463798272.pth
+[2024-06-10 12:27:33,982][35978] Updated weights for policy 0, policy_version 28965 (0.0044)
+[2024-06-10 12:27:38,154][35978] Updated weights for policy 0, policy_version 28975 (0.0029)
+[2024-06-10 12:27:38,402][35745] Fps is (10 sec: 45875.9, 60 sec: 45056.0, 300 sec: 44653.3). Total num frames: 474726400. Throughput: 0: 44747.0. Samples: 73380480. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:27:38,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:27:41,363][35978] Updated weights for policy 0, policy_version 28985 (0.0036)
+[2024-06-10 12:27:43,402][35745] Fps is (10 sec: 42598.4, 60 sec: 44236.9, 300 sec: 44597.8). Total num frames: 474939392. Throughput: 0: 44866.9. Samples: 73510100. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:27:43,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:27:45,586][35978] Updated weights for policy 0, policy_version 28995 (0.0050)
+[2024-06-10 12:27:48,402][35745] Fps is (10 sec: 45875.7, 60 sec: 44783.0, 300 sec: 44764.5). Total num frames: 475185152. Throughput: 0: 44717.0. Samples: 73780980. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:27:48,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:27:49,109][35978] Updated weights for policy 0, policy_version 29005 (0.0039)
+[2024-06-10 12:27:52,961][35978] Updated weights for policy 0, policy_version 29015 (0.0026)
+[2024-06-10 12:27:53,402][35745] Fps is (10 sec: 47513.0, 60 sec: 45602.0, 300 sec: 44820.0). Total num frames: 475414528. Throughput: 0: 44721.3. Samples: 74053940. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:27:53,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:27:56,131][35978] Updated weights for policy 0, policy_version 29025 (0.0022)
+[2024-06-10 12:27:58,402][35745] Fps is (10 sec: 40960.0, 60 sec: 44238.6, 300 sec: 44597.8). Total num frames: 475594752. Throughput: 0: 44704.0. Samples: 74184900. Policy #0 lag: (min: 1.0, avg: 10.4, max: 21.0)
+[2024-06-10 12:27:58,402][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:27:59,849][35978] Updated weights for policy 0, policy_version 29035 (0.0033)
+[2024-06-10 12:28:03,402][35745] Fps is (10 sec: 44237.1, 60 sec: 44782.9, 300 sec: 44709.8). Total num frames: 475856896. Throughput: 0: 45037.7. Samples: 74466660. Policy #0 lag: (min: 1.0, avg: 10.4, max: 21.0)
+[2024-06-10 12:28:03,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:28:03,435][35978] Updated weights for policy 0, policy_version 29045 (0.0025)
+[2024-06-10 12:28:07,217][35978] Updated weights for policy 0, policy_version 29055 (0.0032)
+[2024-06-10 12:28:08,404][35745] Fps is (10 sec: 47502.2, 60 sec: 45054.2, 300 sec: 44708.5). Total num frames: 476069888. Throughput: 0: 44665.8. Samples: 74723780. Policy #0 lag: (min: 1.0, avg: 10.4, max: 21.0)
+[2024-06-10 12:28:08,405][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:28:10,918][35978] Updated weights for policy 0, policy_version 29065 (0.0032)
+[2024-06-10 12:28:13,404][35745] Fps is (10 sec: 42588.5, 60 sec: 44781.2, 300 sec: 44597.5). Total num frames: 476282880. Throughput: 0: 44615.2. Samples: 74854080. Policy #0 lag: (min: 1.0, avg: 10.4, max: 21.0)
+[2024-06-10 12:28:13,405][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:28:14,574][35978] Updated weights for policy 0, policy_version 29075 (0.0031)
+[2024-06-10 12:28:18,189][35978] Updated weights for policy 0, policy_version 29085 (0.0036)
+[2024-06-10 12:28:18,402][35745] Fps is (10 sec: 45886.2, 60 sec: 44782.9, 300 sec: 44708.9). Total num frames: 476528640. Throughput: 0: 44686.7. Samples: 75130460. Policy #0 lag: (min: 0.0, avg: 10.1, max: 23.0)
+[2024-06-10 12:28:18,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:28:22,064][35978] Updated weights for policy 0, policy_version 29095 (0.0035)
+[2024-06-10 12:28:23,402][35745] Fps is (10 sec: 44246.8, 60 sec: 44787.7, 300 sec: 44653.4). Total num frames: 476725248. Throughput: 0: 44893.8. Samples: 75400700. Policy #0 lag: (min: 0.0, avg: 10.1, max: 23.0)
+[2024-06-10 12:28:23,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:28:25,318][35978] Updated weights for policy 0, policy_version 29105 (0.0032)
+[2024-06-10 12:28:28,402][35745] Fps is (10 sec: 42598.2, 60 sec: 44783.1, 300 sec: 44597.8). Total num frames: 476954624. Throughput: 0: 44835.1. Samples: 75527680. Policy #0 lag: (min: 0.0, avg: 10.1, max: 23.0)
+[2024-06-10 12:28:28,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:28:29,442][35978] Updated weights for policy 0, policy_version 29115 (0.0035)
+[2024-06-10 12:28:32,608][35978] Updated weights for policy 0, policy_version 29125 (0.0034)
+[2024-06-10 12:28:33,402][35745] Fps is (10 sec: 47513.7, 60 sec: 44782.9, 300 sec: 44653.3). Total num frames: 477200384. Throughput: 0: 44995.5. Samples: 75805780. Policy #0 lag: (min: 0.0, avg: 10.1, max: 23.0)
+[2024-06-10 12:28:33,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:28:36,482][35978] Updated weights for policy 0, policy_version 29135 (0.0033)
+[2024-06-10 12:28:38,402][35745] Fps is (10 sec: 42598.2, 60 sec: 44236.8, 300 sec: 44597.8). Total num frames: 477380608. Throughput: 0: 44987.2. Samples: 76078360. Policy #0 lag: (min: 0.0, avg: 11.3, max: 21.0)
+[2024-06-10 12:28:38,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:28:40,102][35978] Updated weights for policy 0, policy_version 29145 (0.0038)
+[2024-06-10 12:28:43,402][35745] Fps is (10 sec: 44236.9, 60 sec: 45055.9, 300 sec: 44708.9). Total num frames: 477642752. Throughput: 0: 44837.3. Samples: 76202580. Policy #0 lag: (min: 0.0, avg: 11.3, max: 21.0)
+[2024-06-10 12:28:43,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:28:43,864][35978] Updated weights for policy 0, policy_version 29155 (0.0034)
+[2024-06-10 12:28:47,455][35978] Updated weights for policy 0, policy_version 29165 (0.0030)
+[2024-06-10 12:28:48,402][35745] Fps is (10 sec: 49152.4, 60 sec: 44782.9, 300 sec: 44653.4). Total num frames: 477872128. Throughput: 0: 44624.5. Samples: 76474760. Policy #0 lag: (min: 0.0, avg: 11.3, max: 21.0)
+[2024-06-10 12:28:48,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:28:50,888][35978] Updated weights for policy 0, policy_version 29175 (0.0035)
+[2024-06-10 12:28:53,402][35745] Fps is (10 sec: 40959.8, 60 sec: 43963.7, 300 sec: 44653.3). Total num frames: 478052352. Throughput: 0: 45054.3. Samples: 76751120. Policy #0 lag: (min: 0.0, avg: 7.9, max: 21.0)
+[2024-06-10 12:28:53,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:28:54,118][35957] Signal inference workers to stop experience collection... (1150 times)
+[2024-06-10 12:28:54,118][35957] Signal inference workers to resume experience collection... (1150 times)
+[2024-06-10 12:28:54,159][35978] InferenceWorker_p0-w0: stopping experience collection (1150 times)
+[2024-06-10 12:28:54,159][35978] InferenceWorker_p0-w0: resuming experience collection (1150 times)
+[2024-06-10 12:28:54,573][35978] Updated weights for policy 0, policy_version 29185 (0.0027)
+[2024-06-10 12:28:58,402][35745] Fps is (10 sec: 44236.7, 60 sec: 45329.1, 300 sec: 44708.9). Total num frames: 478314496. Throughput: 0: 45021.9. Samples: 76879960. Policy #0 lag: (min: 0.0, avg: 7.9, max: 21.0)
+[2024-06-10 12:28:58,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:28:58,434][35978] Updated weights for policy 0, policy_version 29195 (0.0032)
+[2024-06-10 12:29:02,049][35978] Updated weights for policy 0, policy_version 29205 (0.0029)
+[2024-06-10 12:29:03,402][35745] Fps is (10 sec: 49151.8, 60 sec: 44782.9, 300 sec: 44597.8). Total num frames: 478543872. Throughput: 0: 44715.4. Samples: 77142660. Policy #0 lag: (min: 0.0, avg: 7.9, max: 21.0)
+[2024-06-10 12:29:03,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:29:05,851][35978] Updated weights for policy 0, policy_version 29215 (0.0032)
+[2024-06-10 12:29:08,402][35745] Fps is (10 sec: 42598.2, 60 sec: 44511.6, 300 sec: 44708.9). Total num frames: 478740480. Throughput: 0: 44784.0. Samples: 77415980. Policy #0 lag: (min: 0.0, avg: 7.9, max: 21.0)
+[2024-06-10 12:29:08,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:29:09,645][35978] Updated weights for policy 0, policy_version 29225 (0.0036)
+[2024-06-10 12:29:13,038][35978] Updated weights for policy 0, policy_version 29235 (0.0030)
+[2024-06-10 12:29:13,402][35745] Fps is (10 sec: 44237.3, 60 sec: 45057.8, 300 sec: 44764.4). Total num frames: 478986240. Throughput: 0: 44716.9. Samples: 77539940. Policy #0 lag: (min: 0.0, avg: 11.2, max: 22.0)
+[2024-06-10 12:29:13,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:29:16,894][35978] Updated weights for policy 0, policy_version 29245 (0.0036)
+[2024-06-10 12:29:18,402][35745] Fps is (10 sec: 45874.7, 60 sec: 44509.7, 300 sec: 44597.8). Total num frames: 479199232. Throughput: 0: 44501.2. Samples: 77808340. Policy #0 lag: (min: 0.0, avg: 11.2, max: 22.0)
+[2024-06-10 12:29:18,403][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:29:20,186][35978] Updated weights for policy 0, policy_version 29255 (0.0042)
+[2024-06-10 12:29:23,402][35745] Fps is (10 sec: 40959.2, 60 sec: 44509.8, 300 sec: 44598.1). Total num frames: 479395840. Throughput: 0: 44567.0. Samples: 78083880. Policy #0 lag: (min: 0.0, avg: 11.2, max: 22.0)
+[2024-06-10 12:29:23,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:29:24,245][35978] Updated weights for policy 0, policy_version 29265 (0.0041)
+[2024-06-10 12:29:27,649][35978] Updated weights for policy 0, policy_version 29275 (0.0025)
+[2024-06-10 12:29:28,402][35745] Fps is (10 sec: 45875.1, 60 sec: 45055.9, 300 sec: 44764.4). Total num frames: 479657984. Throughput: 0: 44661.2. Samples: 78212340. Policy #0 lag: (min: 0.0, avg: 11.2, max: 22.0)
+[2024-06-10 12:29:28,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:29:31,704][35978] Updated weights for policy 0, policy_version 29285 (0.0039)
+[2024-06-10 12:29:33,402][35745] Fps is (10 sec: 47514.2, 60 sec: 44509.9, 300 sec: 44653.3). Total num frames: 479870976. Throughput: 0: 44427.9. Samples: 78474020. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 12:29:33,403][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:29:33,592][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000029291_479903744.pth...
+[2024-06-10 12:29:33,646][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000028635_469155840.pth
+[2024-06-10 12:29:35,137][35978] Updated weights for policy 0, policy_version 29295 (0.0022)
+[2024-06-10 12:29:38,402][35745] Fps is (10 sec: 42599.0, 60 sec: 45056.0, 300 sec: 44653.6). Total num frames: 480083968. Throughput: 0: 44516.9. Samples: 78754380. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 12:29:38,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:29:39,069][35978] Updated weights for policy 0, policy_version 29305 (0.0031)
+[2024-06-10 12:29:42,311][35978] Updated weights for policy 0, policy_version 29315 (0.0024)
+[2024-06-10 12:29:43,402][35745] Fps is (10 sec: 44236.3, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 480313344. Throughput: 0: 44442.5. Samples: 78879880. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 12:29:43,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:29:46,571][35978] Updated weights for policy 0, policy_version 29325 (0.0034)
+[2024-06-10 12:29:48,402][35745] Fps is (10 sec: 47513.4, 60 sec: 44782.9, 300 sec: 44708.9). Total num frames: 480559104. Throughput: 0: 44636.1. Samples: 79151280. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 12:29:48,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:29:49,351][35978] Updated weights for policy 0, policy_version 29335 (0.0019)
+[2024-06-10 12:29:53,402][35745] Fps is (10 sec: 44237.4, 60 sec: 45056.0, 300 sec: 44653.3). Total num frames: 480755712. Throughput: 0: 44726.2. Samples: 79428660. Policy #0 lag: (min: 0.0, avg: 7.8, max: 21.0)
+[2024-06-10 12:29:53,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:29:53,786][35978] Updated weights for policy 0, policy_version 29345 (0.0035)
+[2024-06-10 12:29:54,671][35957] Signal inference workers to stop experience collection... (1200 times)
+[2024-06-10 12:29:54,724][35978] InferenceWorker_p0-w0: stopping experience collection (1200 times)
+[2024-06-10 12:29:54,731][35957] Signal inference workers to resume experience collection... (1200 times)
+[2024-06-10 12:29:54,739][35978] InferenceWorker_p0-w0: resuming experience collection (1200 times)
+[2024-06-10 12:29:56,884][35978] Updated weights for policy 0, policy_version 29355 (0.0037)
+[2024-06-10 12:29:58,402][35745] Fps is (10 sec: 42598.5, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 480985088. Throughput: 0: 44749.3. Samples: 79553660. Policy #0 lag: (min: 0.0, avg: 7.8, max: 21.0)
+[2024-06-10 12:29:58,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:30:01,120][35978] Updated weights for policy 0, policy_version 29365 (0.0033)
+[2024-06-10 12:30:03,402][35745] Fps is (10 sec: 45875.2, 60 sec: 44509.9, 300 sec: 44708.9). Total num frames: 481214464. Throughput: 0: 44593.0. Samples: 79815020. Policy #0 lag: (min: 0.0, avg: 7.8, max: 21.0)
+[2024-06-10 12:30:03,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:30:04,800][35978] Updated weights for policy 0, policy_version 29375 (0.0044)
+[2024-06-10 12:30:08,402][35745] Fps is (10 sec: 42598.2, 60 sec: 44509.8, 300 sec: 44542.3). Total num frames: 481411072. Throughput: 0: 44398.8. Samples: 80081820. Policy #0 lag: (min: 0.0, avg: 7.8, max: 21.0)
+[2024-06-10 12:30:08,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:30:08,860][35978] Updated weights for policy 0, policy_version 29385 (0.0039)
+[2024-06-10 12:30:12,002][35978] Updated weights for policy 0, policy_version 29395 (0.0032)
+[2024-06-10 12:30:13,402][35745] Fps is (10 sec: 40959.7, 60 sec: 43963.7, 300 sec: 44598.1). Total num frames: 481624064. Throughput: 0: 44337.0. Samples: 80207500. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 12:30:13,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:30:16,089][35978] Updated weights for policy 0, policy_version 29405 (0.0032)
+[2024-06-10 12:30:18,402][35745] Fps is (10 sec: 49152.5, 60 sec: 45056.1, 300 sec: 44820.9). Total num frames: 481902592. Throughput: 0: 44657.4. Samples: 80483600. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 12:30:18,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:30:19,353][35978] Updated weights for policy 0, policy_version 29415 (0.0032)
+[2024-06-10 12:30:23,356][35978] Updated weights for policy 0, policy_version 29425 (0.0029)
+[2024-06-10 12:30:23,402][35745] Fps is (10 sec: 47514.2, 60 sec: 45056.2, 300 sec: 44542.3). Total num frames: 482099200. Throughput: 0: 44572.9. Samples: 80760160. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 12:30:23,402][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:30:26,606][35978] Updated weights for policy 0, policy_version 29435 (0.0032)
+[2024-06-10 12:30:28,402][35745] Fps is (10 sec: 39321.5, 60 sec: 43963.9, 300 sec: 44597.8). Total num frames: 482295808. Throughput: 0: 44554.4. Samples: 80884820. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 12:30:28,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:30:30,558][35978] Updated weights for policy 0, policy_version 29445 (0.0037)
+[2024-06-10 12:30:33,402][35745] Fps is (10 sec: 45874.8, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 482557952. Throughput: 0: 44567.1. Samples: 81156800. Policy #0 lag: (min: 1.0, avg: 11.4, max: 25.0)
+[2024-06-10 12:30:33,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:30:33,732][35978] Updated weights for policy 0, policy_version 29455 (0.0031)
+[2024-06-10 12:30:37,893][35978] Updated weights for policy 0, policy_version 29465 (0.0037)
+[2024-06-10 12:30:38,402][35745] Fps is (10 sec: 47513.8, 60 sec: 44783.0, 300 sec: 44486.8). Total num frames: 482770944. Throughput: 0: 44322.7. Samples: 81423180. Policy #0 lag: (min: 1.0, avg: 11.4, max: 25.0)
+[2024-06-10 12:30:38,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:30:41,335][35978] Updated weights for policy 0, policy_version 29475 (0.0033)
+[2024-06-10 12:30:43,402][35745] Fps is (10 sec: 39321.5, 60 sec: 43963.8, 300 sec: 44597.8). Total num frames: 482951168. Throughput: 0: 44489.3. Samples: 81555680. Policy #0 lag: (min: 1.0, avg: 11.4, max: 25.0)
+[2024-06-10 12:30:43,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:30:45,224][35978] Updated weights for policy 0, policy_version 29485 (0.0027)
+[2024-06-10 12:30:48,394][35978] Updated weights for policy 0, policy_version 29495 (0.0033)
+[2024-06-10 12:30:48,402][35745] Fps is (10 sec: 47513.0, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 483246080. Throughput: 0: 44660.8. Samples: 81824760. Policy #0 lag: (min: 1.0, avg: 11.4, max: 25.0)
+[2024-06-10 12:30:48,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:30:52,451][35978] Updated weights for policy 0, policy_version 29505 (0.0040)
+[2024-06-10 12:30:53,402][35745] Fps is (10 sec: 50790.6, 60 sec: 45056.0, 300 sec: 44597.8). Total num frames: 483459072. Throughput: 0: 44830.3. Samples: 82099180. Policy #0 lag: (min: 0.0, avg: 7.7, max: 21.0)
+[2024-06-10 12:30:53,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:30:55,803][35978] Updated weights for policy 0, policy_version 29515 (0.0023)
+[2024-06-10 12:30:58,402][35745] Fps is (10 sec: 37683.6, 60 sec: 43963.8, 300 sec: 44542.3). Total num frames: 483622912. Throughput: 0: 44841.9. Samples: 82225380. Policy #0 lag: (min: 0.0, avg: 7.7, max: 21.0)
+[2024-06-10 12:30:58,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:30:58,907][35957] Signal inference workers to stop experience collection... (1250 times)
+[2024-06-10 12:30:58,907][35957] Signal inference workers to resume experience collection... (1250 times)
+[2024-06-10 12:30:58,920][35978] InferenceWorker_p0-w0: stopping experience collection (1250 times)
+[2024-06-10 12:30:58,921][35978] InferenceWorker_p0-w0: resuming experience collection (1250 times)
+[2024-06-10 12:31:00,015][35978] Updated weights for policy 0, policy_version 29525 (0.0031)
+[2024-06-10 12:31:03,055][35978] Updated weights for policy 0, policy_version 29535 (0.0041)
+[2024-06-10 12:31:03,402][35745] Fps is (10 sec: 44236.8, 60 sec: 44782.9, 300 sec: 44819.9). Total num frames: 483901440. Throughput: 0: 44597.3. Samples: 82490480. Policy #0 lag: (min: 0.0, avg: 7.7, max: 21.0)
+[2024-06-10 12:31:03,402][35745] Avg episode reward: [(0, '0.285')]
+[2024-06-10 12:31:07,440][35978] Updated weights for policy 0, policy_version 29545 (0.0036)
+[2024-06-10 12:31:08,402][35745] Fps is (10 sec: 52428.0, 60 sec: 45602.1, 300 sec: 44708.9). Total num frames: 484147200. Throughput: 0: 44477.2. Samples: 82761640. Policy #0 lag: (min: 0.0, avg: 7.7, max: 21.0)
+[2024-06-10 12:31:08,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:31:10,555][35978] Updated weights for policy 0, policy_version 29555 (0.0036)
+[2024-06-10 12:31:13,402][35745] Fps is (10 sec: 39321.5, 60 sec: 44509.9, 300 sec: 44542.3). Total num frames: 484294656. Throughput: 0: 44649.3. Samples: 82894040. Policy #0 lag: (min: 0.0, avg: 12.0, max: 21.0)
+[2024-06-10 12:31:13,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:31:14,581][35978] Updated weights for policy 0, policy_version 29565 (0.0033)
+[2024-06-10 12:31:17,549][35978] Updated weights for policy 0, policy_version 29575 (0.0033)
+[2024-06-10 12:31:18,402][35745] Fps is (10 sec: 42598.6, 60 sec: 44509.8, 300 sec: 44819.9). Total num frames: 484573184. Throughput: 0: 44464.0. Samples: 83157680. Policy #0 lag: (min: 0.0, avg: 12.0, max: 21.0)
+[2024-06-10 12:31:18,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:31:21,870][35978] Updated weights for policy 0, policy_version 29585 (0.0025)
+[2024-06-10 12:31:23,402][35745] Fps is (10 sec: 52428.7, 60 sec: 45329.0, 300 sec: 44764.4). Total num frames: 484818944. Throughput: 0: 44814.1. Samples: 83439820. Policy #0 lag: (min: 0.0, avg: 12.0, max: 21.0)
+[2024-06-10 12:31:23,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:31:24,699][35978] Updated weights for policy 0, policy_version 29595 (0.0041)
+[2024-06-10 12:31:28,401][35745] Fps is (10 sec: 39322.0, 60 sec: 44509.9, 300 sec: 44542.3). Total num frames: 484966400. Throughput: 0: 44892.6. Samples: 83575840. Policy #0 lag: (min: 0.0, avg: 12.0, max: 21.0)
+[2024-06-10 12:31:28,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:31:29,202][35978] Updated weights for policy 0, policy_version 29605 (0.0027)
+[2024-06-10 12:31:32,295][35978] Updated weights for policy 0, policy_version 29615 (0.0025)
+[2024-06-10 12:31:33,402][35745] Fps is (10 sec: 40960.1, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 485228544. Throughput: 0: 44824.9. Samples: 83841880. Policy #0 lag: (min: 0.0, avg: 12.1, max: 24.0)
+[2024-06-10 12:31:33,408][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:31:33,434][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000029616_485228544.pth...
+[2024-06-10 12:31:33,487][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000028962_474513408.pth
+[2024-06-10 12:31:36,677][35978] Updated weights for policy 0, policy_version 29625 (0.0032)
+[2024-06-10 12:31:38,401][35745] Fps is (10 sec: 52428.8, 60 sec: 45329.1, 300 sec: 44764.5). Total num frames: 485490688. Throughput: 0: 44590.3. Samples: 84105740. Policy #0 lag: (min: 0.0, avg: 12.1, max: 24.0)
+[2024-06-10 12:31:38,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:31:39,835][35978] Updated weights for policy 0, policy_version 29635 (0.0032)
+[2024-06-10 12:31:43,404][35745] Fps is (10 sec: 44226.8, 60 sec: 45327.4, 300 sec: 44653.0). Total num frames: 485670912. Throughput: 0: 44891.0. Samples: 84245580. Policy #0 lag: (min: 0.0, avg: 12.1, max: 24.0)
+[2024-06-10 12:31:43,405][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:31:43,923][35978] Updated weights for policy 0, policy_version 29645 (0.0034)
+[2024-06-10 12:31:46,845][35978] Updated weights for policy 0, policy_version 29655 (0.0037)
+[2024-06-10 12:31:48,402][35745] Fps is (10 sec: 40959.7, 60 sec: 44236.8, 300 sec: 44820.0). Total num frames: 485900288. Throughput: 0: 44981.4. Samples: 84514640. Policy #0 lag: (min: 0.0, avg: 12.1, max: 24.0)
+[2024-06-10 12:31:48,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:31:49,853][35957] Signal inference workers to stop experience collection... (1300 times)
+[2024-06-10 12:31:49,892][35978] InferenceWorker_p0-w0: stopping experience collection (1300 times)
+[2024-06-10 12:31:49,908][35957] Signal inference workers to resume experience collection... (1300 times)
+[2024-06-10 12:31:49,908][35978] InferenceWorker_p0-w0: resuming experience collection (1300 times)
+[2024-06-10 12:31:51,209][35978] Updated weights for policy 0, policy_version 29665 (0.0041)
+[2024-06-10 12:31:53,402][35745] Fps is (10 sec: 49163.5, 60 sec: 45056.0, 300 sec: 44820.3). Total num frames: 486162432. Throughput: 0: 44736.6. Samples: 84774780. Policy #0 lag: (min: 0.0, avg: 7.6, max: 22.0)
+[2024-06-10 12:31:53,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:31:54,041][35978] Updated weights for policy 0, policy_version 29675 (0.0037)
+[2024-06-10 12:31:58,402][35745] Fps is (10 sec: 42598.4, 60 sec: 45056.0, 300 sec: 44597.8). Total num frames: 486326272. Throughput: 0: 45107.2. Samples: 84923860. Policy #0 lag: (min: 0.0, avg: 7.6, max: 22.0)
+[2024-06-10 12:31:58,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 12:31:58,590][35957] Saving new best policy, reward=0.305!
+[2024-06-10 12:31:58,598][35978] Updated weights for policy 0, policy_version 29685 (0.0032)
+[2024-06-10 12:32:01,835][35978] Updated weights for policy 0, policy_version 29695 (0.0028)
+[2024-06-10 12:32:03,402][35745] Fps is (10 sec: 39321.2, 60 sec: 44236.8, 300 sec: 44708.9). Total num frames: 486555648. Throughput: 0: 44947.1. Samples: 85180300. Policy #0 lag: (min: 0.0, avg: 7.6, max: 22.0)
+[2024-06-10 12:32:03,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:32:06,026][35978] Updated weights for policy 0, policy_version 29705 (0.0033)
+[2024-06-10 12:32:08,402][35745] Fps is (10 sec: 49151.6, 60 sec: 44509.9, 300 sec: 44819.9). Total num frames: 486817792. Throughput: 0: 44544.4. Samples: 85444320. Policy #0 lag: (min: 0.0, avg: 7.6, max: 22.0)
+[2024-06-10 12:32:08,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:32:09,447][35978] Updated weights for policy 0, policy_version 29715 (0.0030)
+[2024-06-10 12:32:13,402][35745] Fps is (10 sec: 44236.8, 60 sec: 45056.0, 300 sec: 44597.8). Total num frames: 486998016. Throughput: 0: 44806.1. Samples: 85592120. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:32:13,403][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:32:13,415][35978] Updated weights for policy 0, policy_version 29725 (0.0034)
+[2024-06-10 12:32:16,453][35978] Updated weights for policy 0, policy_version 29735 (0.0036)
+[2024-06-10 12:32:18,402][35745] Fps is (10 sec: 40960.6, 60 sec: 44236.9, 300 sec: 44709.9). Total num frames: 487227392. Throughput: 0: 44770.3. Samples: 85856540. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:32:18,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:32:20,382][35978] Updated weights for policy 0, policy_version 29745 (0.0027)
+[2024-06-10 12:32:23,401][35745] Fps is (10 sec: 49152.7, 60 sec: 44510.0, 300 sec: 44820.0). Total num frames: 487489536. Throughput: 0: 44785.3. Samples: 86121080. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:32:23,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:32:23,507][35978] Updated weights for policy 0, policy_version 29755 (0.0031)
+[2024-06-10 12:32:27,663][35978] Updated weights for policy 0, policy_version 29765 (0.0026)
+[2024-06-10 12:32:28,402][35745] Fps is (10 sec: 49152.0, 60 sec: 45875.2, 300 sec: 44764.4). Total num frames: 487718912. Throughput: 0: 45017.5. Samples: 86271260. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:32:28,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:32:31,088][35978] Updated weights for policy 0, policy_version 29775 (0.0029)
+[2024-06-10 12:32:33,405][35745] Fps is (10 sec: 39307.4, 60 sec: 44234.2, 300 sec: 44597.3). Total num frames: 487882752. Throughput: 0: 44770.7. Samples: 86529480. Policy #0 lag: (min: 0.0, avg: 13.1, max: 25.0)
+[2024-06-10 12:32:33,406][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:32:35,084][35978] Updated weights for policy 0, policy_version 29785 (0.0027)
+[2024-06-10 12:32:38,402][35745] Fps is (10 sec: 40959.9, 60 sec: 43963.7, 300 sec: 44708.9). Total num frames: 488128512. Throughput: 0: 44788.9. Samples: 86790280. Policy #0 lag: (min: 0.0, avg: 13.1, max: 25.0)
+[2024-06-10 12:32:38,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:32:38,783][35978] Updated weights for policy 0, policy_version 29795 (0.0035)
+[2024-06-10 12:32:42,505][35978] Updated weights for policy 0, policy_version 29805 (0.0033)
+[2024-06-10 12:32:43,404][35745] Fps is (10 sec: 49157.9, 60 sec: 45056.0, 300 sec: 44708.5). Total num frames: 488374272. Throughput: 0: 44742.6. Samples: 86937380. Policy #0 lag: (min: 0.0, avg: 13.1, max: 25.0)
+[2024-06-10 12:32:43,405][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:32:45,810][35978] Updated weights for policy 0, policy_version 29815 (0.0028)
+[2024-06-10 12:32:48,401][35745] Fps is (10 sec: 42598.6, 60 sec: 44236.9, 300 sec: 44542.3). Total num frames: 488554496. Throughput: 0: 45005.9. Samples: 87205560. Policy #0 lag: (min: 0.0, avg: 13.1, max: 25.0)
+[2024-06-10 12:32:48,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:32:49,716][35978] Updated weights for policy 0, policy_version 29825 (0.0038)
+[2024-06-10 12:32:53,386][35978] Updated weights for policy 0, policy_version 29835 (0.0027)
+[2024-06-10 12:32:53,402][35745] Fps is (10 sec: 44247.2, 60 sec: 44236.8, 300 sec: 44820.0). Total num frames: 488816640. Throughput: 0: 44804.5. Samples: 87460520. Policy #0 lag: (min: 0.0, avg: 8.1, max: 21.0)
+[2024-06-10 12:32:53,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:32:56,939][35957] Signal inference workers to stop experience collection... (1350 times)
+[2024-06-10 12:32:56,948][35957] Signal inference workers to resume experience collection... (1350 times)
+[2024-06-10 12:32:56,964][35978] InferenceWorker_p0-w0: stopping experience collection (1350 times)
+[2024-06-10 12:32:56,964][35978] InferenceWorker_p0-w0: resuming experience collection (1350 times)
+[2024-06-10 12:32:57,238][35978] Updated weights for policy 0, policy_version 29845 (0.0037)
+[2024-06-10 12:32:58,402][35745] Fps is (10 sec: 49151.8, 60 sec: 45329.1, 300 sec: 44708.9). Total num frames: 489046016. Throughput: 0: 44707.7. Samples: 87603960. Policy #0 lag: (min: 0.0, avg: 8.1, max: 21.0)
+[2024-06-10 12:32:58,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:33:00,656][35978] Updated weights for policy 0, policy_version 29855 (0.0035)
+[2024-06-10 12:33:03,404][35745] Fps is (10 sec: 40950.4, 60 sec: 44508.2, 300 sec: 44597.8). Total num frames: 489226240. Throughput: 0: 44685.6. Samples: 87867500. Policy #0 lag: (min: 0.0, avg: 8.1, max: 21.0)
+[2024-06-10 12:33:03,405][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:33:04,333][35978] Updated weights for policy 0, policy_version 29865 (0.0032)
+[2024-06-10 12:33:08,362][35978] Updated weights for policy 0, policy_version 29875 (0.0025)
+[2024-06-10 12:33:08,402][35745] Fps is (10 sec: 42598.0, 60 sec: 44236.8, 300 sec: 44709.2). Total num frames: 489472000. Throughput: 0: 44719.4. Samples: 88133460. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:33:08,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:33:11,861][35978] Updated weights for policy 0, policy_version 29885 (0.0035)
+[2024-06-10 12:33:13,401][35745] Fps is (10 sec: 50802.9, 60 sec: 45602.3, 300 sec: 44764.4). Total num frames: 489734144. Throughput: 0: 44489.8. Samples: 88273300. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:33:13,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:33:15,347][35978] Updated weights for policy 0, policy_version 29895 (0.0028)
+[2024-06-10 12:33:18,402][35745] Fps is (10 sec: 42599.0, 60 sec: 44509.9, 300 sec: 44653.4). Total num frames: 489897984. Throughput: 0: 44779.1. Samples: 88544380. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:33:18,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:33:18,973][35978] Updated weights for policy 0, policy_version 29905 (0.0034)
+[2024-06-10 12:33:22,487][35978] Updated weights for policy 0, policy_version 29915 (0.0023)
+[2024-06-10 12:33:23,402][35745] Fps is (10 sec: 40959.5, 60 sec: 44236.7, 300 sec: 44708.9). Total num frames: 490143744. Throughput: 0: 44896.0. Samples: 88810600. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:33:23,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:33:26,379][35978] Updated weights for policy 0, policy_version 29925 (0.0033)
+[2024-06-10 12:33:28,402][35745] Fps is (10 sec: 49151.2, 60 sec: 44509.8, 300 sec: 44708.9). Total num frames: 490389504. Throughput: 0: 44707.6. Samples: 88949120. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:33:28,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:33:29,799][35978] Updated weights for policy 0, policy_version 29935 (0.0037)
+[2024-06-10 12:33:33,402][35745] Fps is (10 sec: 45874.8, 60 sec: 45331.7, 300 sec: 44819.9). Total num frames: 490602496. Throughput: 0: 44795.4. Samples: 89221360. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:33:33,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:33:33,412][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000029944_490602496.pth...
+[2024-06-10 12:33:33,470][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000029291_479903744.pth
+[2024-06-10 12:33:33,626][35978] Updated weights for policy 0, policy_version 29945 (0.0028)
+[2024-06-10 12:33:37,414][35978] Updated weights for policy 0, policy_version 29955 (0.0030)
+[2024-06-10 12:33:38,402][35745] Fps is (10 sec: 40960.6, 60 sec: 44509.9, 300 sec: 44597.8). Total num frames: 490799104. Throughput: 0: 44930.3. Samples: 89482380. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:33:38,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:33:40,803][35978] Updated weights for policy 0, policy_version 29965 (0.0037)
+[2024-06-10 12:33:43,402][35745] Fps is (10 sec: 47513.4, 60 sec: 45057.7, 300 sec: 44764.4). Total num frames: 491077632. Throughput: 0: 44744.7. Samples: 89617480. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 12:33:43,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:33:44,408][35978] Updated weights for policy 0, policy_version 29975 (0.0023)
+[2024-06-10 12:33:48,261][35978] Updated weights for policy 0, policy_version 29985 (0.0029)
+[2024-06-10 12:33:48,402][35745] Fps is (10 sec: 47513.3, 60 sec: 45329.0, 300 sec: 44820.0). Total num frames: 491274240. Throughput: 0: 45040.1. Samples: 89894200. Policy #0 lag: (min: 0.0, avg: 7.6, max: 22.0)
+[2024-06-10 12:33:48,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:33:51,907][35978] Updated weights for policy 0, policy_version 29995 (0.0029)
+[2024-06-10 12:33:53,402][35745] Fps is (10 sec: 39322.1, 60 sec: 44236.8, 300 sec: 44597.8). Total num frames: 491470848. Throughput: 0: 44844.1. Samples: 90151440. Policy #0 lag: (min: 0.0, avg: 7.6, max: 22.0)
+[2024-06-10 12:33:53,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:33:55,683][35978] Updated weights for policy 0, policy_version 30005 (0.0030)
+[2024-06-10 12:33:58,404][35745] Fps is (10 sec: 45864.6, 60 sec: 44781.2, 300 sec: 44708.5). Total num frames: 491732992. Throughput: 0: 44653.2. Samples: 90282800. Policy #0 lag: (min: 0.0, avg: 7.6, max: 22.0)
+[2024-06-10 12:33:58,405][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:33:59,217][35978] Updated weights for policy 0, policy_version 30015 (0.0027)
+[2024-06-10 12:34:02,874][35978] Updated weights for policy 0, policy_version 30025 (0.0034)
+[2024-06-10 12:34:03,402][35745] Fps is (10 sec: 49151.8, 60 sec: 45603.9, 300 sec: 44820.0). Total num frames: 491962368. Throughput: 0: 44789.2. Samples: 90559900. Policy #0 lag: (min: 0.0, avg: 7.6, max: 22.0)
+[2024-06-10 12:34:03,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:34:03,872][35957] Signal inference workers to stop experience collection... (1400 times)
+[2024-06-10 12:34:03,873][35957] Signal inference workers to resume experience collection... (1400 times)
+[2024-06-10 12:34:03,894][35978] InferenceWorker_p0-w0: stopping experience collection (1400 times)
+[2024-06-10 12:34:03,894][35978] InferenceWorker_p0-w0: resuming experience collection (1400 times)
+[2024-06-10 12:34:06,467][35978] Updated weights for policy 0, policy_version 30035 (0.0039)
+[2024-06-10 12:34:08,402][35745] Fps is (10 sec: 40969.3, 60 sec: 44509.9, 300 sec: 44597.8). Total num frames: 492142592. Throughput: 0: 44944.0. Samples: 90833080. Policy #0 lag: (min: 0.0, avg: 10.1, max: 22.0)
+[2024-06-10 12:34:08,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:34:10,100][35978] Updated weights for policy 0, policy_version 30045 (0.0029)
+[2024-06-10 12:34:13,402][35745] Fps is (10 sec: 44237.0, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 492404736. Throughput: 0: 44604.5. Samples: 90956320. Policy #0 lag: (min: 0.0, avg: 10.1, max: 22.0)
+[2024-06-10 12:34:13,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:34:13,419][35978] Updated weights for policy 0, policy_version 30055 (0.0037)
+[2024-06-10 12:34:17,502][35978] Updated weights for policy 0, policy_version 30065 (0.0043)
+[2024-06-10 12:34:18,402][35745] Fps is (10 sec: 49152.2, 60 sec: 45602.1, 300 sec: 44875.5). Total num frames: 492634112. Throughput: 0: 44829.9. Samples: 91238700. Policy #0 lag: (min: 0.0, avg: 10.1, max: 22.0)
+[2024-06-10 12:34:18,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:34:20,895][35978] Updated weights for policy 0, policy_version 30075 (0.0042)
+[2024-06-10 12:34:23,402][35745] Fps is (10 sec: 39321.7, 60 sec: 44236.8, 300 sec: 44542.3). Total num frames: 492797952. Throughput: 0: 44901.3. Samples: 91502940. Policy #0 lag: (min: 0.0, avg: 10.1, max: 22.0)
+[2024-06-10 12:34:23,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:34:24,791][35978] Updated weights for policy 0, policy_version 30085 (0.0038)
+[2024-06-10 12:34:28,320][35978] Updated weights for policy 0, policy_version 30095 (0.0039)
+[2024-06-10 12:34:28,408][35745] Fps is (10 sec: 44210.0, 60 sec: 44778.5, 300 sec: 44763.5). Total num frames: 493076480. Throughput: 0: 44554.1. Samples: 91622680. Policy #0 lag: (min: 1.0, avg: 10.5, max: 20.0)
+[2024-06-10 12:34:28,408][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:34:32,061][35978] Updated weights for policy 0, policy_version 30105 (0.0037)
+[2024-06-10 12:34:33,402][35745] Fps is (10 sec: 52428.4, 60 sec: 45329.1, 300 sec: 44875.5). Total num frames: 493322240. Throughput: 0: 44644.4. Samples: 91903200. Policy #0 lag: (min: 1.0, avg: 10.5, max: 20.0)
+[2024-06-10 12:34:33,404][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:34:35,588][35978] Updated weights for policy 0, policy_version 30115 (0.0029)
+[2024-06-10 12:34:38,402][35745] Fps is (10 sec: 40984.6, 60 sec: 44782.9, 300 sec: 44653.4). Total num frames: 493486080. Throughput: 0: 44999.5. Samples: 92176420. Policy #0 lag: (min: 1.0, avg: 10.5, max: 20.0)
+[2024-06-10 12:34:38,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:34:39,362][35978] Updated weights for policy 0, policy_version 30125 (0.0026)
+[2024-06-10 12:34:42,757][35978] Updated weights for policy 0, policy_version 30135 (0.0028)
+[2024-06-10 12:34:43,402][35745] Fps is (10 sec: 40960.1, 60 sec: 44236.9, 300 sec: 44653.3). Total num frames: 493731840. Throughput: 0: 44833.8. Samples: 92300220. Policy #0 lag: (min: 1.0, avg: 10.5, max: 20.0)
+[2024-06-10 12:34:43,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:34:46,983][35978] Updated weights for policy 0, policy_version 30145 (0.0025)
+[2024-06-10 12:34:48,402][35745] Fps is (10 sec: 49152.4, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 493977600. Throughput: 0: 44770.3. Samples: 92574560. Policy #0 lag: (min: 3.0, avg: 12.7, max: 27.0)
+[2024-06-10 12:34:48,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:34:49,671][35957] Signal inference workers to stop experience collection... (1450 times)
+[2024-06-10 12:34:49,671][35957] Signal inference workers to resume experience collection... (1450 times)
+[2024-06-10 12:34:49,681][35978] InferenceWorker_p0-w0: stopping experience collection (1450 times)
+[2024-06-10 12:34:49,690][35978] InferenceWorker_p0-w0: resuming experience collection (1450 times)
+[2024-06-10 12:34:49,998][35978] Updated weights for policy 0, policy_version 30155 (0.0029)
+[2024-06-10 12:34:53,402][35745] Fps is (10 sec: 42598.7, 60 sec: 44783.0, 300 sec: 44653.3). Total num frames: 494157824. Throughput: 0: 44755.6. Samples: 92847080. Policy #0 lag: (min: 3.0, avg: 12.7, max: 27.0)
+[2024-06-10 12:34:53,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:34:53,996][35978] Updated weights for policy 0, policy_version 30165 (0.0040)
+[2024-06-10 12:34:57,600][35978] Updated weights for policy 0, policy_version 30175 (0.0041)
+[2024-06-10 12:34:58,402][35745] Fps is (10 sec: 42598.5, 60 sec: 44511.6, 300 sec: 44708.9). Total num frames: 494403584. Throughput: 0: 44728.5. Samples: 92969100. Policy #0 lag: (min: 3.0, avg: 12.7, max: 27.0)
+[2024-06-10 12:34:58,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:35:01,247][35978] Updated weights for policy 0, policy_version 30185 (0.0029)
+[2024-06-10 12:35:03,402][35745] Fps is (10 sec: 49151.2, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 494649344. Throughput: 0: 44456.3. Samples: 93239240. Policy #0 lag: (min: 3.0, avg: 12.7, max: 27.0)
+[2024-06-10 12:35:03,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:35:05,232][35978] Updated weights for policy 0, policy_version 30195 (0.0036)
+[2024-06-10 12:35:08,402][35745] Fps is (10 sec: 44236.7, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 494845952. Throughput: 0: 44925.3. Samples: 93524580. Policy #0 lag: (min: 0.0, avg: 9.1, max: 22.0)
+[2024-06-10 12:35:08,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:35:08,638][35978] Updated weights for policy 0, policy_version 30205 (0.0032)
+[2024-06-10 12:35:12,369][35978] Updated weights for policy 0, policy_version 30215 (0.0034)
+[2024-06-10 12:35:13,402][35745] Fps is (10 sec: 40960.5, 60 sec: 44236.8, 300 sec: 44597.8). Total num frames: 495058944. Throughput: 0: 44983.4. Samples: 93646660. Policy #0 lag: (min: 0.0, avg: 9.1, max: 22.0)
+[2024-06-10 12:35:13,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:35:15,974][35978] Updated weights for policy 0, policy_version 30225 (0.0047)
+[2024-06-10 12:35:18,402][35745] Fps is (10 sec: 45874.8, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 495304704. Throughput: 0: 44649.3. Samples: 93912420. Policy #0 lag: (min: 0.0, avg: 9.1, max: 22.0)
+[2024-06-10 12:35:18,414][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:35:19,479][35978] Updated weights for policy 0, policy_version 30235 (0.0024)
+[2024-06-10 12:35:23,187][35978] Updated weights for policy 0, policy_version 30245 (0.0041)
+[2024-06-10 12:35:23,402][35745] Fps is (10 sec: 47513.6, 60 sec: 45602.1, 300 sec: 44875.5). Total num frames: 495534080. Throughput: 0: 44626.7. Samples: 94184620. Policy #0 lag: (min: 0.0, avg: 9.1, max: 22.0)
+[2024-06-10 12:35:23,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:35:27,210][35978] Updated weights for policy 0, policy_version 30255 (0.0028)
+[2024-06-10 12:35:28,402][35745] Fps is (10 sec: 44236.9, 60 sec: 44514.3, 300 sec: 44708.9). Total num frames: 495747072. Throughput: 0: 44843.1. Samples: 94318160. Policy #0 lag: (min: 1.0, avg: 9.0, max: 21.0)
+[2024-06-10 12:35:28,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:35:30,557][35978] Updated weights for policy 0, policy_version 30265 (0.0030)
+[2024-06-10 12:35:33,402][35745] Fps is (10 sec: 45874.8, 60 sec: 44509.8, 300 sec: 44819.9). Total num frames: 495992832. Throughput: 0: 44587.4. Samples: 94581000. Policy #0 lag: (min: 1.0, avg: 9.0, max: 21.0)
+[2024-06-10 12:35:33,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:35:33,428][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000030273_495992832.pth...
+[2024-06-10 12:35:33,483][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000029616_485228544.pth
+[2024-06-10 12:35:34,722][35978] Updated weights for policy 0, policy_version 30275 (0.0041)
+[2024-06-10 12:35:37,926][35978] Updated weights for policy 0, policy_version 30285 (0.0050)
+[2024-06-10 12:35:38,402][35745] Fps is (10 sec: 47514.1, 60 sec: 45602.2, 300 sec: 44986.6). Total num frames: 496222208. Throughput: 0: 44777.8. Samples: 94862080. Policy #0 lag: (min: 1.0, avg: 9.0, max: 21.0)
+[2024-06-10 12:35:38,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:35:41,999][35978] Updated weights for policy 0, policy_version 30295 (0.0030)
+[2024-06-10 12:35:43,402][35745] Fps is (10 sec: 40960.1, 60 sec: 44509.8, 300 sec: 44597.8). Total num frames: 496402432. Throughput: 0: 44980.3. Samples: 94993220. Policy #0 lag: (min: 1.0, avg: 9.0, max: 21.0)
+[2024-06-10 12:35:43,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:35:45,208][35978] Updated weights for policy 0, policy_version 30305 (0.0020)
+[2024-06-10 12:35:48,408][35745] Fps is (10 sec: 42571.1, 60 sec: 44505.1, 300 sec: 44707.9). Total num frames: 496648192. Throughput: 0: 44897.4. Samples: 95259900. Policy #0 lag: (min: 0.0, avg: 12.7, max: 22.0)
+[2024-06-10 12:35:48,408][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:35:49,141][35978] Updated weights for policy 0, policy_version 30315 (0.0039)
+[2024-06-10 12:35:52,295][35978] Updated weights for policy 0, policy_version 30325 (0.0052)
+[2024-06-10 12:35:53,401][35745] Fps is (10 sec: 49152.7, 60 sec: 45602.2, 300 sec: 44986.6). Total num frames: 496893952. Throughput: 0: 44533.8. Samples: 95528600. Policy #0 lag: (min: 0.0, avg: 12.7, max: 22.0)
+[2024-06-10 12:35:53,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:35:56,697][35978] Updated weights for policy 0, policy_version 30335 (0.0032)
+[2024-06-10 12:35:58,403][35745] Fps is (10 sec: 45895.8, 60 sec: 45054.6, 300 sec: 44764.1). Total num frames: 497106944. Throughput: 0: 44929.7. Samples: 95668580. Policy #0 lag: (min: 0.0, avg: 12.7, max: 22.0)
+[2024-06-10 12:35:58,404][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:35:59,393][35957] Signal inference workers to stop experience collection... (1500 times)
+[2024-06-10 12:35:59,395][35957] Signal inference workers to resume experience collection... (1500 times)
+[2024-06-10 12:35:59,403][35978] InferenceWorker_p0-w0: stopping experience collection (1500 times)
+[2024-06-10 12:35:59,429][35978] InferenceWorker_p0-w0: resuming experience collection (1500 times)
+[2024-06-10 12:35:59,545][35978] Updated weights for policy 0, policy_version 30345 (0.0035)
+[2024-06-10 12:36:03,402][35745] Fps is (10 sec: 42598.2, 60 sec: 44510.0, 300 sec: 44653.4). Total num frames: 497319936. Throughput: 0: 44954.3. Samples: 95935360. Policy #0 lag: (min: 0.0, avg: 12.7, max: 22.0)
+[2024-06-10 12:36:03,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:36:03,652][35978] Updated weights for policy 0, policy_version 30355 (0.0026)
+[2024-06-10 12:36:07,174][35978] Updated weights for policy 0, policy_version 30365 (0.0032)
+[2024-06-10 12:36:08,402][35745] Fps is (10 sec: 47522.8, 60 sec: 45602.2, 300 sec: 45042.1). Total num frames: 497582080. Throughput: 0: 44867.6. Samples: 96203660. Policy #0 lag: (min: 0.0, avg: 10.6, max: 22.0)
+[2024-06-10 12:36:08,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:36:11,094][35978] Updated weights for policy 0, policy_version 30375 (0.0026)
+[2024-06-10 12:36:13,402][35745] Fps is (10 sec: 45874.4, 60 sec: 45329.0, 300 sec: 44764.4). Total num frames: 497778688. Throughput: 0: 45170.6. Samples: 96350840. Policy #0 lag: (min: 0.0, avg: 10.6, max: 22.0)
+[2024-06-10 12:36:13,408][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:36:14,642][35978] Updated weights for policy 0, policy_version 30385 (0.0039)
+[2024-06-10 12:36:18,331][35978] Updated weights for policy 0, policy_version 30395 (0.0027)
+[2024-06-10 12:36:18,401][35745] Fps is (10 sec: 40960.1, 60 sec: 44783.1, 300 sec: 44653.4). Total num frames: 497991680. Throughput: 0: 45050.4. Samples: 96608260. Policy #0 lag: (min: 0.0, avg: 10.6, max: 22.0)
+[2024-06-10 12:36:18,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:36:21,627][35978] Updated weights for policy 0, policy_version 30405 (0.0025)
+[2024-06-10 12:36:23,402][35745] Fps is (10 sec: 47514.4, 60 sec: 45329.1, 300 sec: 45042.1). Total num frames: 498253824. Throughput: 0: 44725.7. Samples: 96874740. Policy #0 lag: (min: 0.0, avg: 10.6, max: 22.0)
+[2024-06-10 12:36:23,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:36:25,693][35978] Updated weights for policy 0, policy_version 30415 (0.0043)
+[2024-06-10 12:36:28,402][35745] Fps is (10 sec: 45874.3, 60 sec: 45056.0, 300 sec: 44819.9). Total num frames: 498450432. Throughput: 0: 45003.5. Samples: 97018380. Policy #0 lag: (min: 1.0, avg: 8.9, max: 21.0)
+[2024-06-10 12:36:28,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:36:28,746][35978] Updated weights for policy 0, policy_version 30425 (0.0032)
+[2024-06-10 12:36:32,948][35978] Updated weights for policy 0, policy_version 30435 (0.0029)
+[2024-06-10 12:36:33,402][35745] Fps is (10 sec: 40959.5, 60 sec: 44509.9, 300 sec: 44653.3). Total num frames: 498663424. Throughput: 0: 45010.2. Samples: 97285080. Policy #0 lag: (min: 1.0, avg: 8.9, max: 21.0)
+[2024-06-10 12:36:33,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:36:36,298][35978] Updated weights for policy 0, policy_version 30445 (0.0035)
+[2024-06-10 12:36:38,402][35745] Fps is (10 sec: 47514.3, 60 sec: 45056.0, 300 sec: 44931.4). Total num frames: 498925568. Throughput: 0: 44909.7. Samples: 97549540. Policy #0 lag: (min: 1.0, avg: 8.9, max: 21.0)
+[2024-06-10 12:36:38,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:36:40,427][35978] Updated weights for policy 0, policy_version 30455 (0.0030)
+[2024-06-10 12:36:43,404][35745] Fps is (10 sec: 44227.1, 60 sec: 45054.3, 300 sec: 44764.1). Total num frames: 499105792. Throughput: 0: 44973.8. Samples: 97692420. Policy #0 lag: (min: 1.0, avg: 8.9, max: 21.0)
+[2024-06-10 12:36:43,404][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:36:43,764][35978] Updated weights for policy 0, policy_version 30465 (0.0036)
+[2024-06-10 12:36:47,551][35978] Updated weights for policy 0, policy_version 30475 (0.0032)
+[2024-06-10 12:36:48,402][35745] Fps is (10 sec: 40959.4, 60 sec: 44787.6, 300 sec: 44653.3). Total num frames: 499335168. Throughput: 0: 45069.2. Samples: 97963480. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 12:36:48,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 12:36:48,403][35957] Saving new best policy, reward=0.306!
+[2024-06-10 12:36:50,683][35978] Updated weights for policy 0, policy_version 30485 (0.0042)
+[2024-06-10 12:36:53,402][35745] Fps is (10 sec: 47524.5, 60 sec: 44782.9, 300 sec: 44931.0). Total num frames: 499580928. Throughput: 0: 44942.6. Samples: 98226080. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 12:36:53,405][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:36:54,833][35978] Updated weights for policy 0, policy_version 30495 (0.0024)
+[2024-06-10 12:36:58,102][35978] Updated weights for policy 0, policy_version 30505 (0.0025)
+[2024-06-10 12:36:58,402][35745] Fps is (10 sec: 47513.9, 60 sec: 45057.4, 300 sec: 44931.0). Total num frames: 499810304. Throughput: 0: 44805.4. Samples: 98367080. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 12:36:58,402][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:37:02,040][35978] Updated weights for policy 0, policy_version 30515 (0.0036)
+[2024-06-10 12:37:03,402][35745] Fps is (10 sec: 40960.2, 60 sec: 44509.9, 300 sec: 44653.4). Total num frames: 499990528. Throughput: 0: 45042.2. Samples: 98635160. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 12:37:03,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:37:05,698][35978] Updated weights for policy 0, policy_version 30525 (0.0032)
+[2024-06-10 12:37:08,401][35745] Fps is (10 sec: 44237.4, 60 sec: 44509.9, 300 sec: 44931.1). Total num frames: 500252672. Throughput: 0: 44880.1. Samples: 98894340. Policy #0 lag: (min: 0.0, avg: 12.7, max: 24.0)
+[2024-06-10 12:37:08,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:37:09,502][35978] Updated weights for policy 0, policy_version 30535 (0.0027)
+[2024-06-10 12:37:13,402][35745] Fps is (10 sec: 44236.7, 60 sec: 44236.9, 300 sec: 44764.4). Total num frames: 500432896. Throughput: 0: 44793.9. Samples: 99034100. Policy #0 lag: (min: 0.0, avg: 12.7, max: 24.0)
+[2024-06-10 12:37:13,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:37:13,427][35978] Updated weights for policy 0, policy_version 30545 (0.0033)
+[2024-06-10 12:37:16,730][35978] Updated weights for policy 0, policy_version 30555 (0.0041)
+[2024-06-10 12:37:18,402][35745] Fps is (10 sec: 42598.2, 60 sec: 44782.9, 300 sec: 44708.9). Total num frames: 500678656. Throughput: 0: 44642.8. Samples: 99294000. Policy #0 lag: (min: 0.0, avg: 12.7, max: 24.0)
+[2024-06-10 12:37:18,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:37:20,485][35978] Updated weights for policy 0, policy_version 30565 (0.0038)
+[2024-06-10 12:37:23,402][35745] Fps is (10 sec: 47513.0, 60 sec: 44236.7, 300 sec: 44708.9). Total num frames: 500908032. Throughput: 0: 44669.6. Samples: 99559680. Policy #0 lag: (min: 0.0, avg: 12.7, max: 24.0)
+[2024-06-10 12:37:23,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:37:24,473][35978] Updated weights for policy 0, policy_version 30575 (0.0031)
+[2024-06-10 12:37:27,555][35978] Updated weights for policy 0, policy_version 30585 (0.0037)
+[2024-06-10 12:37:28,403][35745] Fps is (10 sec: 45870.6, 60 sec: 44782.3, 300 sec: 44931.4). Total num frames: 501137408. Throughput: 0: 44470.7. Samples: 99693540. Policy #0 lag: (min: 1.0, avg: 10.3, max: 21.0)
+[2024-06-10 12:37:28,403][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:37:31,512][35978] Updated weights for policy 0, policy_version 30595 (0.0027)
+[2024-06-10 12:37:33,126][35957] Signal inference workers to stop experience collection... (1550 times)
+[2024-06-10 12:37:33,178][35978] InferenceWorker_p0-w0: stopping experience collection (1550 times)
+[2024-06-10 12:37:33,184][35957] Signal inference workers to resume experience collection... (1550 times)
+[2024-06-10 12:37:33,193][35978] InferenceWorker_p0-w0: resuming experience collection (1550 times)
+[2024-06-10 12:37:33,402][35745] Fps is (10 sec: 44237.4, 60 sec: 44783.0, 300 sec: 44820.0). Total num frames: 501350400. Throughput: 0: 44476.5. Samples: 99964920. Policy #0 lag: (min: 1.0, avg: 10.3, max: 21.0)
+[2024-06-10 12:37:33,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:37:33,410][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000030600_501350400.pth...
+[2024-06-10 12:37:33,473][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000029944_490602496.pth
+[2024-06-10 12:37:35,196][35978] Updated weights for policy 0, policy_version 30605 (0.0039)
+[2024-06-10 12:37:38,402][35745] Fps is (10 sec: 42602.4, 60 sec: 43963.7, 300 sec: 44709.2). Total num frames: 501563392. Throughput: 0: 44526.2. Samples: 100229760. Policy #0 lag: (min: 1.0, avg: 10.3, max: 21.0)
+[2024-06-10 12:37:38,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:37:38,914][35978] Updated weights for policy 0, policy_version 30615 (0.0033)
+[2024-06-10 12:37:42,634][35978] Updated weights for policy 0, policy_version 30625 (0.0022)
+[2024-06-10 12:37:43,402][35745] Fps is (10 sec: 45875.1, 60 sec: 45057.7, 300 sec: 44931.0). Total num frames: 501809152. Throughput: 0: 44400.5. Samples: 100365100. Policy #0 lag: (min: 1.0, avg: 10.3, max: 21.0)
+[2024-06-10 12:37:43,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:37:46,106][35978] Updated weights for policy 0, policy_version 30635 (0.0031)
+[2024-06-10 12:37:48,402][35745] Fps is (10 sec: 45874.8, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 502022144. Throughput: 0: 44325.7. Samples: 100629820. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-10 12:37:48,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:37:49,742][35978] Updated weights for policy 0, policy_version 30645 (0.0034)
+[2024-06-10 12:37:53,402][35745] Fps is (10 sec: 42598.5, 60 sec: 44236.8, 300 sec: 44708.9). Total num frames: 502235136. Throughput: 0: 44661.7. Samples: 100904120. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-10 12:37:53,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:37:53,606][35978] Updated weights for policy 0, policy_version 30655 (0.0020)
+[2024-06-10 12:37:56,820][35978] Updated weights for policy 0, policy_version 30665 (0.0041)
+[2024-06-10 12:37:58,402][35745] Fps is (10 sec: 44237.1, 60 sec: 44236.8, 300 sec: 44875.9). Total num frames: 502464512. Throughput: 0: 44538.7. Samples: 101038340. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-10 12:37:58,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:38:00,613][35978] Updated weights for policy 0, policy_version 30675 (0.0034)
+[2024-06-10 12:38:03,402][35745] Fps is (10 sec: 47513.6, 60 sec: 45329.0, 300 sec: 44875.5). Total num frames: 502710272. Throughput: 0: 44766.2. Samples: 101308480. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-10 12:38:03,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:38:04,250][35978] Updated weights for policy 0, policy_version 30685 (0.0039)
+[2024-06-10 12:38:07,939][35978] Updated weights for policy 0, policy_version 30695 (0.0042)
+[2024-06-10 12:38:08,402][35745] Fps is (10 sec: 44237.1, 60 sec: 44236.8, 300 sec: 44653.3). Total num frames: 502906880. Throughput: 0: 44725.1. Samples: 101572300. Policy #0 lag: (min: 1.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:38:08,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:38:11,497][35978] Updated weights for policy 0, policy_version 30705 (0.0038)
+[2024-06-10 12:38:13,402][35745] Fps is (10 sec: 42598.4, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 503136256. Throughput: 0: 44629.4. Samples: 101701820. Policy #0 lag: (min: 1.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:38:13,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 12:38:15,331][35978] Updated weights for policy 0, policy_version 30715 (0.0027)
+[2024-06-10 12:38:18,402][35745] Fps is (10 sec: 45874.9, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 503365632. Throughput: 0: 44564.4. Samples: 101970320. Policy #0 lag: (min: 1.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:38:18,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:38:18,978][35978] Updated weights for policy 0, policy_version 30725 (0.0035)
+[2024-06-10 12:38:22,884][35978] Updated weights for policy 0, policy_version 30735 (0.0035)
+[2024-06-10 12:38:23,402][35745] Fps is (10 sec: 44236.2, 60 sec: 44509.9, 300 sec: 44708.9). Total num frames: 503578624. Throughput: 0: 44755.9. Samples: 102243780. Policy #0 lag: (min: 1.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:38:23,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:38:26,712][35978] Updated weights for policy 0, policy_version 30745 (0.0031)
+[2024-06-10 12:38:28,402][35745] Fps is (10 sec: 44237.0, 60 sec: 44510.6, 300 sec: 44764.4). Total num frames: 503808000. Throughput: 0: 44726.7. Samples: 102377800. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:38:28,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:38:29,858][35978] Updated weights for policy 0, policy_version 30755 (0.0034)
+[2024-06-10 12:38:33,402][35745] Fps is (10 sec: 44237.3, 60 sec: 44509.8, 300 sec: 44819.9). Total num frames: 504020992. Throughput: 0: 44888.9. Samples: 102649820. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:38:33,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:38:33,768][35978] Updated weights for policy 0, policy_version 30765 (0.0028)
+[2024-06-10 12:38:34,971][35957] Signal inference workers to stop experience collection... (1600 times)
+[2024-06-10 12:38:34,971][35957] Signal inference workers to resume experience collection... (1600 times)
+[2024-06-10 12:38:35,002][35978] InferenceWorker_p0-w0: stopping experience collection (1600 times)
+[2024-06-10 12:38:35,002][35978] InferenceWorker_p0-w0: resuming experience collection (1600 times)
+[2024-06-10 12:38:37,075][35978] Updated weights for policy 0, policy_version 30775 (0.0021)
+[2024-06-10 12:38:38,402][35745] Fps is (10 sec: 44236.8, 60 sec: 44783.0, 300 sec: 44653.4). Total num frames: 504250368. Throughput: 0: 44604.9. Samples: 102911340. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:38:38,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:38:40,949][35978] Updated weights for policy 0, policy_version 30785 (0.0033)
+[2024-06-10 12:38:43,402][35745] Fps is (10 sec: 44236.9, 60 sec: 44236.8, 300 sec: 44708.9). Total num frames: 504463360. Throughput: 0: 44640.9. Samples: 103047180. Policy #0 lag: (min: 0.0, avg: 10.9, max: 22.0)
+[2024-06-10 12:38:43,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:38:44,582][35978] Updated weights for policy 0, policy_version 30795 (0.0026)
+[2024-06-10 12:38:48,402][35745] Fps is (10 sec: 44236.7, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 504692736. Throughput: 0: 44514.3. Samples: 103311620. Policy #0 lag: (min: 0.0, avg: 9.8, max: 25.0)
+[2024-06-10 12:38:48,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:38:48,545][35978] Updated weights for policy 0, policy_version 30805 (0.0047)
+[2024-06-10 12:38:52,078][35978] Updated weights for policy 0, policy_version 30815 (0.0044)
+[2024-06-10 12:38:53,402][35745] Fps is (10 sec: 45875.3, 60 sec: 44782.9, 300 sec: 44709.2). Total num frames: 504922112. Throughput: 0: 44696.4. Samples: 103583640. Policy #0 lag: (min: 0.0, avg: 9.8, max: 25.0)
+[2024-06-10 12:38:53,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:38:56,009][35978] Updated weights for policy 0, policy_version 30825 (0.0029)
+[2024-06-10 12:38:58,402][35745] Fps is (10 sec: 44236.8, 60 sec: 44509.9, 300 sec: 44653.3). Total num frames: 505135104. Throughput: 0: 44944.9. Samples: 103724340. Policy #0 lag: (min: 0.0, avg: 9.8, max: 25.0)
+[2024-06-10 12:38:58,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:38:59,100][35978] Updated weights for policy 0, policy_version 30835 (0.0033)
+[2024-06-10 12:39:03,385][35978] Updated weights for policy 0, policy_version 30845 (0.0034)
+[2024-06-10 12:39:03,408][35745] Fps is (10 sec: 44208.9, 60 sec: 44232.2, 300 sec: 44819.0). Total num frames: 505364480. Throughput: 0: 44760.4. Samples: 103984820. Policy #0 lag: (min: 0.0, avg: 9.8, max: 25.0)
+[2024-06-10 12:39:03,409][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:39:06,741][35978] Updated weights for policy 0, policy_version 30855 (0.0036)
+[2024-06-10 12:39:08,404][35745] Fps is (10 sec: 44227.4, 60 sec: 44508.2, 300 sec: 44653.0). Total num frames: 505577472. Throughput: 0: 44534.0. Samples: 104247900. Policy #0 lag: (min: 0.0, avg: 9.8, max: 25.0)
+[2024-06-10 12:39:08,404][35745] Avg episode reward: [(0, '0.286')]
+[2024-06-10 12:39:10,704][35978] Updated weights for policy 0, policy_version 30865 (0.0035)
+[2024-06-10 12:39:13,402][35745] Fps is (10 sec: 44264.9, 60 sec: 44509.9, 300 sec: 44653.3). Total num frames: 505806848. Throughput: 0: 44611.1. Samples: 104385300. Policy #0 lag: (min: 0.0, avg: 10.8, max: 23.0)
+[2024-06-10 12:39:13,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:39:14,355][35978] Updated weights for policy 0, policy_version 30875 (0.0036)
+[2024-06-10 12:39:17,931][35978] Updated weights for policy 0, policy_version 30885 (0.0026)
+[2024-06-10 12:39:18,402][35745] Fps is (10 sec: 45884.6, 60 sec: 44509.8, 300 sec: 44875.5). Total num frames: 506036224. Throughput: 0: 44382.6. Samples: 104647040. Policy #0 lag: (min: 0.0, avg: 10.8, max: 23.0)
+[2024-06-10 12:39:18,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:39:21,589][35978] Updated weights for policy 0, policy_version 30895 (0.0034)
+[2024-06-10 12:39:23,402][35745] Fps is (10 sec: 45874.2, 60 sec: 44782.9, 300 sec: 44709.8). Total num frames: 506265600. Throughput: 0: 44610.5. Samples: 104918820. Policy #0 lag: (min: 0.0, avg: 10.8, max: 23.0)
+[2024-06-10 12:39:23,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:39:25,425][35978] Updated weights for policy 0, policy_version 30905 (0.0039)
+[2024-06-10 12:39:28,402][35745] Fps is (10 sec: 45875.3, 60 sec: 44782.9, 300 sec: 44653.3). Total num frames: 506494976. Throughput: 0: 44585.7. Samples: 105053540. Policy #0 lag: (min: 0.0, avg: 10.8, max: 23.0)
+[2024-06-10 12:39:28,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:39:28,663][35978] Updated weights for policy 0, policy_version 30915 (0.0032)
+[2024-06-10 12:39:32,502][35978] Updated weights for policy 0, policy_version 30925 (0.0036)
+[2024-06-10 12:39:33,402][35745] Fps is (10 sec: 42598.1, 60 sec: 44509.7, 300 sec: 44764.4). Total num frames: 506691584. Throughput: 0: 44665.1. Samples: 105321560. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:39:33,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 12:39:33,529][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000030927_506707968.pth...
+[2024-06-10 12:39:33,580][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000030273_495992832.pth
+[2024-06-10 12:39:35,874][35978] Updated weights for policy 0, policy_version 30935 (0.0030)
+[2024-06-10 12:39:38,402][35745] Fps is (10 sec: 44237.3, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 506937344. Throughput: 0: 44657.4. Samples: 105593220. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:39:38,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:39:39,863][35978] Updated weights for policy 0, policy_version 30945 (0.0035)
+[2024-06-10 12:39:43,401][35745] Fps is (10 sec: 45876.8, 60 sec: 44783.0, 300 sec: 44653.4). Total num frames: 507150336. Throughput: 0: 44549.4. Samples: 105729060. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:39:43,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:39:43,444][35978] Updated weights for policy 0, policy_version 30955 (0.0030)
+[2024-06-10 12:39:47,091][35978] Updated weights for policy 0, policy_version 30965 (0.0035)
+[2024-06-10 12:39:48,402][35745] Fps is (10 sec: 44236.4, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 507379712. Throughput: 0: 44608.0. Samples: 105991900. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:39:48,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:39:50,858][35978] Updated weights for policy 0, policy_version 30975 (0.0031)
+[2024-06-10 12:39:53,402][35745] Fps is (10 sec: 44236.4, 60 sec: 44509.9, 300 sec: 44708.9). Total num frames: 507592704. Throughput: 0: 44668.4. Samples: 106257880. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 12:39:53,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:39:54,749][35978] Updated weights for policy 0, policy_version 30985 (0.0042)
+[2024-06-10 12:39:57,905][35978] Updated weights for policy 0, policy_version 30995 (0.0022)
+[2024-06-10 12:39:58,401][35745] Fps is (10 sec: 44237.3, 60 sec: 44783.0, 300 sec: 44653.4). Total num frames: 507822080. Throughput: 0: 44628.0. Samples: 106393560. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 12:39:58,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:40:01,753][35978] Updated weights for policy 0, policy_version 31005 (0.0041)
+[2024-06-10 12:40:03,401][35745] Fps is (10 sec: 44237.1, 60 sec: 44514.6, 300 sec: 44708.9). Total num frames: 508035072. Throughput: 0: 44766.4. Samples: 106661520. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 12:40:03,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:40:05,426][35978] Updated weights for policy 0, policy_version 31015 (0.0041)
+[2024-06-10 12:40:07,284][35957] Signal inference workers to stop experience collection... (1650 times)
+[2024-06-10 12:40:07,285][35957] Signal inference workers to resume experience collection... (1650 times)
+[2024-06-10 12:40:07,321][35978] InferenceWorker_p0-w0: stopping experience collection (1650 times)
+[2024-06-10 12:40:07,321][35978] InferenceWorker_p0-w0: resuming experience collection (1650 times)
+[2024-06-10 12:40:08,402][35745] Fps is (10 sec: 45874.6, 60 sec: 45057.6, 300 sec: 44820.0). Total num frames: 508280832. Throughput: 0: 44660.1. Samples: 106928520. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 12:40:08,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:40:08,802][35978] Updated weights for policy 0, policy_version 31025 (0.0039)
+[2024-06-10 12:40:12,755][35978] Updated weights for policy 0, policy_version 31035 (0.0051)
+[2024-06-10 12:40:13,402][35745] Fps is (10 sec: 45875.1, 60 sec: 44782.9, 300 sec: 44708.9). Total num frames: 508493824. Throughput: 0: 44609.5. Samples: 107060960. Policy #0 lag: (min: 0.0, avg: 9.1, max: 20.0)
+[2024-06-10 12:40:13,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 12:40:16,469][35978] Updated weights for policy 0, policy_version 31045 (0.0037)
+[2024-06-10 12:40:18,402][35745] Fps is (10 sec: 44237.3, 60 sec: 44783.0, 300 sec: 44708.9). Total num frames: 508723200. Throughput: 0: 44701.2. Samples: 107333100. Policy #0 lag: (min: 0.0, avg: 9.1, max: 20.0)
+[2024-06-10 12:40:18,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:40:20,082][35978] Updated weights for policy 0, policy_version 31055 (0.0028)
+[2024-06-10 12:40:23,402][35745] Fps is (10 sec: 45874.7, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 508952576. Throughput: 0: 44541.2. Samples: 107597580. Policy #0 lag: (min: 0.0, avg: 9.1, max: 20.0)
+[2024-06-10 12:40:23,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 12:40:24,158][35978] Updated weights for policy 0, policy_version 31065 (0.0039)
+[2024-06-10 12:40:27,149][35978] Updated weights for policy 0, policy_version 31075 (0.0039)
+[2024-06-10 12:40:28,402][35745] Fps is (10 sec: 45875.0, 60 sec: 44783.0, 300 sec: 44708.9). Total num frames: 509181952. Throughput: 0: 44548.3. Samples: 107733740. Policy #0 lag: (min: 0.0, avg: 9.1, max: 20.0)
+[2024-06-10 12:40:28,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:40:31,166][35978] Updated weights for policy 0, policy_version 31085 (0.0035)
+[2024-06-10 12:40:33,402][35745] Fps is (10 sec: 44236.5, 60 sec: 45056.1, 300 sec: 44653.3). Total num frames: 509394944. Throughput: 0: 44759.0. Samples: 108006060. Policy #0 lag: (min: 0.0, avg: 11.3, max: 22.0)
+[2024-06-10 12:40:33,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:40:34,699][35978] Updated weights for policy 0, policy_version 31095 (0.0027)
+[2024-06-10 12:40:38,205][35978] Updated weights for policy 0, policy_version 31105 (0.0046)
+[2024-06-10 12:40:38,402][35745] Fps is (10 sec: 44236.2, 60 sec: 44782.8, 300 sec: 44820.0). Total num frames: 509624320. Throughput: 0: 44713.6. Samples: 108270000. Policy #0 lag: (min: 0.0, avg: 11.3, max: 22.0)
+[2024-06-10 12:40:38,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 12:40:42,043][35978] Updated weights for policy 0, policy_version 31115 (0.0035)
+[2024-06-10 12:40:43,402][35745] Fps is (10 sec: 44237.4, 60 sec: 44782.9, 300 sec: 44709.8). Total num frames: 509837312. Throughput: 0: 44649.7. Samples: 108402800. Policy #0 lag: (min: 0.0, avg: 11.3, max: 22.0)
+[2024-06-10 12:40:43,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:40:45,869][35978] Updated weights for policy 0, policy_version 31125 (0.0034)
+[2024-06-10 12:40:48,402][35745] Fps is (10 sec: 40960.7, 60 sec: 44236.9, 300 sec: 44542.3). Total num frames: 510033920. Throughput: 0: 44700.0. Samples: 108673020. Policy #0 lag: (min: 0.0, avg: 11.3, max: 22.0)
+[2024-06-10 12:40:48,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:40:49,485][35978] Updated weights for policy 0, policy_version 31135 (0.0041)
+[2024-06-10 12:40:53,244][35978] Updated weights for policy 0, policy_version 31145 (0.0032)
+[2024-06-10 12:40:53,402][35745] Fps is (10 sec: 44236.7, 60 sec: 44782.9, 300 sec: 44653.6). Total num frames: 510279680. Throughput: 0: 44667.6. Samples: 108938560. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-10 12:40:53,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:40:56,563][35978] Updated weights for policy 0, policy_version 31155 (0.0027)
+[2024-06-10 12:40:58,402][35745] Fps is (10 sec: 47512.6, 60 sec: 44782.8, 300 sec: 44708.9). Total num frames: 510509056. Throughput: 0: 44876.2. Samples: 109080400. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-10 12:40:58,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:41:00,101][35978] Updated weights for policy 0, policy_version 31165 (0.0038)
+[2024-06-10 12:41:03,402][35745] Fps is (10 sec: 44236.5, 60 sec: 44782.8, 300 sec: 44542.2). Total num frames: 510722048. Throughput: 0: 44701.2. Samples: 109344660. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-10 12:41:03,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:41:03,952][35978] Updated weights for policy 0, policy_version 31175 (0.0039)
+[2024-06-10 12:41:07,559][35978] Updated weights for policy 0, policy_version 31185 (0.0033)
+[2024-06-10 12:41:08,402][35745] Fps is (10 sec: 44236.9, 60 sec: 44509.8, 300 sec: 44653.3). Total num frames: 510951424. Throughput: 0: 44753.7. Samples: 109611500. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-10 12:41:08,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:41:11,482][35978] Updated weights for policy 0, policy_version 31195 (0.0045)
+[2024-06-10 12:41:13,401][35745] Fps is (10 sec: 45875.8, 60 sec: 44782.9, 300 sec: 44708.9). Total num frames: 511180800. Throughput: 0: 44724.1. Samples: 109746320. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 12:41:13,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:41:15,119][35978] Updated weights for policy 0, policy_version 31205 (0.0027)
+[2024-06-10 12:41:18,402][35745] Fps is (10 sec: 44237.4, 60 sec: 44509.8, 300 sec: 44542.3). Total num frames: 511393792. Throughput: 0: 44680.6. Samples: 110016680. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 12:41:18,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 12:41:18,667][35978] Updated weights for policy 0, policy_version 31215 (0.0022)
+[2024-06-10 12:41:22,419][35978] Updated weights for policy 0, policy_version 31225 (0.0037)
+[2024-06-10 12:41:23,402][35745] Fps is (10 sec: 44236.8, 60 sec: 44509.9, 300 sec: 44653.4). Total num frames: 511623168. Throughput: 0: 44871.7. Samples: 110289220. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 12:41:23,402][35745] Avg episode reward: [(0, '0.313')]
+[2024-06-10 12:41:23,502][35957] Saving new best policy, reward=0.313!
+[2024-06-10 12:41:25,722][35978] Updated weights for policy 0, policy_version 31235 (0.0028)
+[2024-06-10 12:41:25,993][35957] Signal inference workers to stop experience collection... (1700 times)
+[2024-06-10 12:41:25,994][35957] Signal inference workers to resume experience collection... (1700 times)
+[2024-06-10 12:41:26,006][35978] InferenceWorker_p0-w0: stopping experience collection (1700 times)
+[2024-06-10 12:41:26,006][35978] InferenceWorker_p0-w0: resuming experience collection (1700 times)
+[2024-06-10 12:41:28,402][35745] Fps is (10 sec: 47513.8, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 511868928. Throughput: 0: 44842.2. Samples: 110420700. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 12:41:28,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:41:29,409][35978] Updated weights for policy 0, policy_version 31245 (0.0033)
+[2024-06-10 12:41:33,285][35978] Updated weights for policy 0, policy_version 31255 (0.0037)
+[2024-06-10 12:41:33,402][35745] Fps is (10 sec: 45874.2, 60 sec: 44782.9, 300 sec: 44597.8). Total num frames: 512081920. Throughput: 0: 44770.5. Samples: 110687700. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-10 12:41:33,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:41:33,417][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000031255_512081920.pth...
+[2024-06-10 12:41:33,496][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000030600_501350400.pth
+[2024-06-10 12:41:36,968][35978] Updated weights for policy 0, policy_version 31265 (0.0042)
+[2024-06-10 12:41:38,401][35745] Fps is (10 sec: 42598.6, 60 sec: 44510.0, 300 sec: 44709.2). Total num frames: 512294912. Throughput: 0: 44841.0. Samples: 110956400. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-10 12:41:38,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:41:40,775][35978] Updated weights for policy 0, policy_version 31275 (0.0022)
+[2024-06-10 12:41:43,408][35745] Fps is (10 sec: 45846.8, 60 sec: 45051.2, 300 sec: 44763.5). Total num frames: 512540672. Throughput: 0: 44656.5. Samples: 111090220. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-10 12:41:43,409][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:41:44,441][35978] Updated weights for policy 0, policy_version 31285 (0.0047)
+[2024-06-10 12:41:47,932][35978] Updated weights for policy 0, policy_version 31295 (0.0034)
+[2024-06-10 12:41:48,402][35745] Fps is (10 sec: 47513.3, 60 sec: 45602.1, 300 sec: 44708.9). Total num frames: 512770048. Throughput: 0: 44931.7. Samples: 111366580. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-10 12:41:48,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:41:51,731][35978] Updated weights for policy 0, policy_version 31305 (0.0030)
+[2024-06-10 12:41:53,401][35745] Fps is (10 sec: 42625.9, 60 sec: 44783.0, 300 sec: 44597.8). Total num frames: 512966656. Throughput: 0: 44872.7. Samples: 111630760. Policy #0 lag: (min: 0.0, avg: 9.3, max: 21.0)
+[2024-06-10 12:41:53,402][35745] Avg episode reward: [(0, '0.289')]
+[2024-06-10 12:41:55,070][35978] Updated weights for policy 0, policy_version 31315 (0.0032)
+[2024-06-10 12:41:58,402][35745] Fps is (10 sec: 42598.1, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 513196032. Throughput: 0: 44753.2. Samples: 111760220. Policy #0 lag: (min: 0.0, avg: 9.3, max: 21.0)
+[2024-06-10 12:41:58,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:41:58,974][35978] Updated weights for policy 0, policy_version 31325 (0.0033)
+[2024-06-10 12:42:02,626][35978] Updated weights for policy 0, policy_version 31335 (0.0040)
+[2024-06-10 12:42:03,401][35745] Fps is (10 sec: 45875.2, 60 sec: 45056.1, 300 sec: 44653.3). Total num frames: 513425408. Throughput: 0: 44706.3. Samples: 112028460. Policy #0 lag: (min: 0.0, avg: 9.3, max: 21.0)
+[2024-06-10 12:42:03,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:42:06,464][35978] Updated weights for policy 0, policy_version 31345 (0.0036)
+[2024-06-10 12:42:08,402][35745] Fps is (10 sec: 44236.6, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 513638400. Throughput: 0: 44747.4. Samples: 112302860. Policy #0 lag: (min: 0.0, avg: 9.3, max: 21.0)
+[2024-06-10 12:42:08,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:42:09,827][35978] Updated weights for policy 0, policy_version 31355 (0.0043)
+[2024-06-10 12:42:13,402][35745] Fps is (10 sec: 44236.0, 60 sec: 44782.8, 300 sec: 44708.9). Total num frames: 513867776. Throughput: 0: 44727.4. Samples: 112433440. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:42:13,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:42:13,758][35978] Updated weights for policy 0, policy_version 31365 (0.0033)
+[2024-06-10 12:42:17,277][35978] Updated weights for policy 0, policy_version 31375 (0.0040)
+[2024-06-10 12:42:18,402][35745] Fps is (10 sec: 47513.7, 60 sec: 45329.0, 300 sec: 44764.4). Total num frames: 514113536. Throughput: 0: 44859.6. Samples: 112706380. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:42:18,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:42:20,956][35978] Updated weights for policy 0, policy_version 31385 (0.0035)
+[2024-06-10 12:42:23,402][35745] Fps is (10 sec: 44237.0, 60 sec: 44782.8, 300 sec: 44653.5). Total num frames: 514310144. Throughput: 0: 44932.3. Samples: 112978360. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:42:23,402][35745] Avg episode reward: [(0, '0.288')]
+[2024-06-10 12:42:24,331][35978] Updated weights for policy 0, policy_version 31395 (0.0023)
+[2024-06-10 12:42:28,402][35745] Fps is (10 sec: 40960.1, 60 sec: 44236.7, 300 sec: 44653.3). Total num frames: 514523136. Throughput: 0: 44928.5. Samples: 113111720. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:42:28,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:42:28,482][35978] Updated weights for policy 0, policy_version 31405 (0.0035)
+[2024-06-10 12:42:31,862][35978] Updated weights for policy 0, policy_version 31415 (0.0030)
+[2024-06-10 12:42:33,401][35745] Fps is (10 sec: 45875.8, 60 sec: 44783.1, 300 sec: 44764.4). Total num frames: 514768896. Throughput: 0: 44773.4. Samples: 113381380. Policy #0 lag: (min: 0.0, avg: 11.7, max: 22.0)
+[2024-06-10 12:42:33,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:42:35,670][35978] Updated weights for policy 0, policy_version 31425 (0.0035)
+[2024-06-10 12:42:38,402][35745] Fps is (10 sec: 47514.1, 60 sec: 45056.0, 300 sec: 44708.9). Total num frames: 514998272. Throughput: 0: 44754.2. Samples: 113644700. Policy #0 lag: (min: 0.0, avg: 11.7, max: 22.0)
+[2024-06-10 12:42:38,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:42:39,252][35978] Updated weights for policy 0, policy_version 31435 (0.0030)
+[2024-06-10 12:42:43,034][35978] Updated weights for policy 0, policy_version 31445 (0.0029)
+[2024-06-10 12:42:43,402][35745] Fps is (10 sec: 42598.3, 60 sec: 44241.5, 300 sec: 44653.4). Total num frames: 515194880. Throughput: 0: 44703.6. Samples: 113771880. Policy #0 lag: (min: 0.0, avg: 11.7, max: 22.0)
+[2024-06-10 12:42:43,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:42:46,495][35978] Updated weights for policy 0, policy_version 31455 (0.0030)
+[2024-06-10 12:42:48,402][35745] Fps is (10 sec: 45874.9, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 515457024. Throughput: 0: 44969.7. Samples: 114052100. Policy #0 lag: (min: 0.0, avg: 11.7, max: 22.0)
+[2024-06-10 12:42:48,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:42:50,492][35978] Updated weights for policy 0, policy_version 31465 (0.0021)
+[2024-06-10 12:42:53,402][35745] Fps is (10 sec: 47513.0, 60 sec: 45055.9, 300 sec: 44764.4). Total num frames: 515670016. Throughput: 0: 44893.8. Samples: 114323080. Policy #0 lag: (min: 0.0, avg: 11.7, max: 22.0)
+[2024-06-10 12:42:53,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 12:42:53,695][35978] Updated weights for policy 0, policy_version 31475 (0.0035)
+[2024-06-10 12:42:56,853][35957] Signal inference workers to stop experience collection... (1750 times)
+[2024-06-10 12:42:56,853][35957] Signal inference workers to resume experience collection... (1750 times)
+[2024-06-10 12:42:56,896][35978] InferenceWorker_p0-w0: stopping experience collection (1750 times)
+[2024-06-10 12:42:56,897][35978] InferenceWorker_p0-w0: resuming experience collection (1750 times)
+[2024-06-10 12:42:57,605][35978] Updated weights for policy 0, policy_version 31485 (0.0041)
+[2024-06-10 12:42:58,402][35745] Fps is (10 sec: 42598.3, 60 sec: 44782.9, 300 sec: 44653.3). Total num frames: 515883008. Throughput: 0: 44950.3. Samples: 114456200. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 12:42:58,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:43:01,166][35978] Updated weights for policy 0, policy_version 31495 (0.0032)
+[2024-06-10 12:43:03,402][35745] Fps is (10 sec: 44237.2, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 516112384. Throughput: 0: 44773.9. Samples: 114721200. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 12:43:03,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:43:04,858][35978] Updated weights for policy 0, policy_version 31505 (0.0032)
+[2024-06-10 12:43:08,311][35978] Updated weights for policy 0, policy_version 31515 (0.0026)
+[2024-06-10 12:43:08,404][35745] Fps is (10 sec: 45864.6, 60 sec: 45054.3, 300 sec: 44764.1). Total num frames: 516341760. Throughput: 0: 44560.0. Samples: 114983660. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 12:43:08,405][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:43:12,243][35978] Updated weights for policy 0, policy_version 31525 (0.0036)
+[2024-06-10 12:43:13,404][35745] Fps is (10 sec: 44226.5, 60 sec: 44781.3, 300 sec: 44708.5). Total num frames: 516554752. Throughput: 0: 44714.6. Samples: 115123980. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 12:43:13,404][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:43:15,612][35978] Updated weights for policy 0, policy_version 31535 (0.0038)
+[2024-06-10 12:43:18,402][35745] Fps is (10 sec: 42608.1, 60 sec: 44236.8, 300 sec: 44708.9). Total num frames: 516767744. Throughput: 0: 44590.5. Samples: 115387960. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:43:18,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:43:19,638][35978] Updated weights for policy 0, policy_version 31545 (0.0036)
+[2024-06-10 12:43:22,964][35978] Updated weights for policy 0, policy_version 31555 (0.0042)
+[2024-06-10 12:43:23,402][35745] Fps is (10 sec: 45882.3, 60 sec: 45055.5, 300 sec: 44764.3). Total num frames: 517013504. Throughput: 0: 44885.4. Samples: 115664580. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:43:23,403][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:43:26,977][35978] Updated weights for policy 0, policy_version 31565 (0.0034)
+[2024-06-10 12:43:28,402][35745] Fps is (10 sec: 45875.4, 60 sec: 45056.0, 300 sec: 44764.4). Total num frames: 517226496. Throughput: 0: 45056.4. Samples: 115799420. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:43:28,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:43:30,423][35978] Updated weights for policy 0, policy_version 31575 (0.0029)
+[2024-06-10 12:43:33,402][35745] Fps is (10 sec: 42601.8, 60 sec: 44509.8, 300 sec: 44708.9). Total num frames: 517439488. Throughput: 0: 44644.0. Samples: 116061080. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:43:33,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:43:33,424][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000031582_517439488.pth...
+[2024-06-10 12:43:33,477][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000030927_506707968.pth
+[2024-06-10 12:43:34,025][35978] Updated weights for policy 0, policy_version 31585 (0.0032)
+[2024-06-10 12:43:37,522][35978] Updated weights for policy 0, policy_version 31595 (0.0028)
+[2024-06-10 12:43:38,402][35745] Fps is (10 sec: 44237.0, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 517668864. Throughput: 0: 44622.3. Samples: 116331080. Policy #0 lag: (min: 0.0, avg: 10.5, max: 23.0)
+[2024-06-10 12:43:38,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:43:41,366][35978] Updated weights for policy 0, policy_version 31605 (0.0037)
+[2024-06-10 12:43:43,402][35745] Fps is (10 sec: 47513.1, 60 sec: 45329.0, 300 sec: 44819.9). Total num frames: 517914624. Throughput: 0: 44794.2. Samples: 116471940. Policy #0 lag: (min: 0.0, avg: 10.5, max: 23.0)
+[2024-06-10 12:43:43,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:43:44,881][35978] Updated weights for policy 0, policy_version 31615 (0.0033)
+[2024-06-10 12:43:48,401][35745] Fps is (10 sec: 45875.6, 60 sec: 44510.0, 300 sec: 44764.4). Total num frames: 518127616. Throughput: 0: 44910.8. Samples: 116742180. Policy #0 lag: (min: 0.0, avg: 10.5, max: 23.0)
+[2024-06-10 12:43:48,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:43:48,527][35978] Updated weights for policy 0, policy_version 31625 (0.0038)
+[2024-06-10 12:43:52,478][35978] Updated weights for policy 0, policy_version 31635 (0.0041)
+[2024-06-10 12:43:53,402][35745] Fps is (10 sec: 45875.8, 60 sec: 45056.1, 300 sec: 44875.5). Total num frames: 518373376. Throughput: 0: 45038.4. Samples: 117010280. Policy #0 lag: (min: 0.0, avg: 10.5, max: 23.0)
+[2024-06-10 12:43:53,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:43:55,810][35978] Updated weights for policy 0, policy_version 31645 (0.0035)
+[2024-06-10 12:43:58,402][35745] Fps is (10 sec: 45874.0, 60 sec: 45055.9, 300 sec: 44820.9). Total num frames: 518586368. Throughput: 0: 44828.4. Samples: 117141160. Policy #0 lag: (min: 1.0, avg: 9.7, max: 22.0)
+[2024-06-10 12:43:58,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:43:59,516][35978] Updated weights for policy 0, policy_version 31655 (0.0023)
+[2024-06-10 12:44:03,144][35978] Updated weights for policy 0, policy_version 31665 (0.0034)
+[2024-06-10 12:44:03,405][35745] Fps is (10 sec: 42584.9, 60 sec: 44780.6, 300 sec: 44819.8). Total num frames: 518799360. Throughput: 0: 44940.5. Samples: 117410420. Policy #0 lag: (min: 1.0, avg: 9.7, max: 22.0)
+[2024-06-10 12:44:03,405][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:44:05,153][35957] Signal inference workers to stop experience collection... (1800 times)
+[2024-06-10 12:44:05,154][35957] Signal inference workers to resume experience collection... (1800 times)
+[2024-06-10 12:44:05,200][35978] InferenceWorker_p0-w0: stopping experience collection (1800 times)
+[2024-06-10 12:44:05,200][35978] InferenceWorker_p0-w0: resuming experience collection (1800 times)
+[2024-06-10 12:44:06,639][35978] Updated weights for policy 0, policy_version 31675 (0.0036)
+[2024-06-10 12:44:08,402][35745] Fps is (10 sec: 44237.2, 60 sec: 44784.7, 300 sec: 44819.9). Total num frames: 519028736. Throughput: 0: 44810.5. Samples: 117681020. Policy #0 lag: (min: 1.0, avg: 9.7, max: 22.0)
+[2024-06-10 12:44:08,403][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:44:10,688][35978] Updated weights for policy 0, policy_version 31685 (0.0047)
+[2024-06-10 12:44:13,402][35745] Fps is (10 sec: 45889.6, 60 sec: 45057.8, 300 sec: 44820.0). Total num frames: 519258112. Throughput: 0: 44796.5. Samples: 117815260. Policy #0 lag: (min: 1.0, avg: 9.7, max: 22.0)
+[2024-06-10 12:44:13,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:44:14,249][35978] Updated weights for policy 0, policy_version 31695 (0.0036)
+[2024-06-10 12:44:17,784][35978] Updated weights for policy 0, policy_version 31705 (0.0038)
+[2024-06-10 12:44:18,402][35745] Fps is (10 sec: 44237.2, 60 sec: 45056.1, 300 sec: 44764.5). Total num frames: 519471104. Throughput: 0: 45139.1. Samples: 118092340. Policy #0 lag: (min: 0.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:44:18,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:44:21,415][35978] Updated weights for policy 0, policy_version 31715 (0.0033)
+[2024-06-10 12:44:23,402][35745] Fps is (10 sec: 44236.8, 60 sec: 44783.5, 300 sec: 44764.4). Total num frames: 519700480. Throughput: 0: 44907.1. Samples: 118351900. Policy #0 lag: (min: 0.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:44:23,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:44:24,762][35978] Updated weights for policy 0, policy_version 31725 (0.0035)
+[2024-06-10 12:44:28,402][35745] Fps is (10 sec: 45874.2, 60 sec: 45055.9, 300 sec: 44875.5). Total num frames: 519929856. Throughput: 0: 44955.5. Samples: 118494940. Policy #0 lag: (min: 0.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:44:28,403][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 12:44:28,613][35978] Updated weights for policy 0, policy_version 31735 (0.0050)
+[2024-06-10 12:44:32,357][35978] Updated weights for policy 0, policy_version 31745 (0.0038)
+[2024-06-10 12:44:33,402][35745] Fps is (10 sec: 44236.9, 60 sec: 45056.0, 300 sec: 44764.4). Total num frames: 520142848. Throughput: 0: 44786.1. Samples: 118757560. Policy #0 lag: (min: 0.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:44:33,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:44:35,898][35978] Updated weights for policy 0, policy_version 31755 (0.0040)
+[2024-06-10 12:44:38,402][35745] Fps is (10 sec: 44237.7, 60 sec: 45056.0, 300 sec: 44819.9). Total num frames: 520372224. Throughput: 0: 44809.8. Samples: 119026720. Policy #0 lag: (min: 0.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:44:38,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:44:40,031][35978] Updated weights for policy 0, policy_version 31765 (0.0036)
+[2024-06-10 12:44:43,402][35745] Fps is (10 sec: 44236.8, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 520585216. Throughput: 0: 44956.6. Samples: 119164200. Policy #0 lag: (min: 0.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:44:43,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:44:43,443][35978] Updated weights for policy 0, policy_version 31775 (0.0051)
+[2024-06-10 12:44:47,063][35978] Updated weights for policy 0, policy_version 31785 (0.0027)
+[2024-06-10 12:44:48,402][35745] Fps is (10 sec: 44236.3, 60 sec: 44782.8, 300 sec: 44819.9). Total num frames: 520814592. Throughput: 0: 45002.2. Samples: 119435380. Policy #0 lag: (min: 0.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:44:48,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:44:50,746][35978] Updated weights for policy 0, policy_version 31795 (0.0036)
+[2024-06-10 12:44:53,402][35745] Fps is (10 sec: 44236.8, 60 sec: 44236.8, 300 sec: 44764.4). Total num frames: 521027584. Throughput: 0: 44914.3. Samples: 119702160. Policy #0 lag: (min: 0.0, avg: 11.2, max: 21.0)
+[2024-06-10 12:44:53,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:44:54,090][35978] Updated weights for policy 0, policy_version 31805 (0.0042)
+[2024-06-10 12:44:58,078][35978] Updated weights for policy 0, policy_version 31815 (0.0037)
+[2024-06-10 12:44:58,402][35745] Fps is (10 sec: 44237.1, 60 sec: 44509.9, 300 sec: 44819.9). Total num frames: 521256960. Throughput: 0: 44917.3. Samples: 119836540. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:44:58,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:45:01,808][35978] Updated weights for policy 0, policy_version 31825 (0.0037)
+[2024-06-10 12:45:03,402][35745] Fps is (10 sec: 47513.1, 60 sec: 45058.3, 300 sec: 44820.0). Total num frames: 521502720. Throughput: 0: 44837.6. Samples: 120110040. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:45:03,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:45:05,254][35978] Updated weights for policy 0, policy_version 31835 (0.0027)
+[2024-06-10 12:45:08,402][35745] Fps is (10 sec: 45875.1, 60 sec: 44782.9, 300 sec: 44819.9). Total num frames: 521715712. Throughput: 0: 44962.2. Samples: 120375200. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:45:08,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:45:09,105][35978] Updated weights for policy 0, policy_version 31845 (0.0038)
+[2024-06-10 12:45:12,466][35978] Updated weights for policy 0, policy_version 31855 (0.0031)
+[2024-06-10 12:45:13,402][35745] Fps is (10 sec: 45875.2, 60 sec: 45055.9, 300 sec: 44875.5). Total num frames: 521961472. Throughput: 0: 44857.4. Samples: 120513520. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:45:13,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:45:16,057][35978] Updated weights for policy 0, policy_version 31865 (0.0034)
+[2024-06-10 12:45:18,402][35745] Fps is (10 sec: 45875.6, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 522174464. Throughput: 0: 45216.0. Samples: 120792280. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:45:18,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:45:19,983][35978] Updated weights for policy 0, policy_version 31875 (0.0041)
+[2024-06-10 12:45:23,197][35978] Updated weights for policy 0, policy_version 31885 (0.0035)
+[2024-06-10 12:45:23,402][35745] Fps is (10 sec: 44237.4, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 522403840. Throughput: 0: 45072.9. Samples: 121055000. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:45:23,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:45:27,242][35978] Updated weights for policy 0, policy_version 31895 (0.0032)
+[2024-06-10 12:45:28,402][35745] Fps is (10 sec: 44236.7, 60 sec: 44783.1, 300 sec: 44820.0). Total num frames: 522616832. Throughput: 0: 45100.0. Samples: 121193700. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:45:28,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:45:30,877][35978] Updated weights for policy 0, policy_version 31905 (0.0028)
+[2024-06-10 12:45:33,408][35745] Fps is (10 sec: 44208.3, 60 sec: 45051.2, 300 sec: 44819.0). Total num frames: 522846208. Throughput: 0: 44912.4. Samples: 121456720. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:45:33,409][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:45:33,422][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000031912_522846208.pth...
+[2024-06-10 12:45:33,489][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000031255_512081920.pth
+[2024-06-10 12:45:34,346][35978] Updated weights for policy 0, policy_version 31915 (0.0036)
+[2024-06-10 12:45:38,302][35978] Updated weights for policy 0, policy_version 31925 (0.0027)
+[2024-06-10 12:45:38,401][35745] Fps is (10 sec: 44237.0, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 523059200. Throughput: 0: 45079.1. Samples: 121730720. Policy #0 lag: (min: 0.0, avg: 9.8, max: 21.0)
+[2024-06-10 12:45:38,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:45:41,496][35978] Updated weights for policy 0, policy_version 31935 (0.0043)
+[2024-06-10 12:45:43,402][35745] Fps is (10 sec: 45903.9, 60 sec: 45328.9, 300 sec: 44986.5). Total num frames: 523304960. Throughput: 0: 45198.5. Samples: 121870480. Policy #0 lag: (min: 0.0, avg: 10.5, max: 20.0)
+[2024-06-10 12:45:43,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 12:45:45,217][35978] Updated weights for policy 0, policy_version 31945 (0.0034)
+[2024-06-10 12:45:46,538][35957] Signal inference workers to stop experience collection... (1850 times)
+[2024-06-10 12:45:46,539][35957] Signal inference workers to resume experience collection... (1850 times)
+[2024-06-10 12:45:46,569][35978] InferenceWorker_p0-w0: stopping experience collection (1850 times)
+[2024-06-10 12:45:46,570][35978] InferenceWorker_p0-w0: resuming experience collection (1850 times)
+[2024-06-10 12:45:48,402][35745] Fps is (10 sec: 45874.2, 60 sec: 45055.9, 300 sec: 44875.5). Total num frames: 523517952. Throughput: 0: 44951.9. Samples: 122132880. Policy #0 lag: (min: 0.0, avg: 10.5, max: 20.0)
+[2024-06-10 12:45:48,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:45:49,064][35978] Updated weights for policy 0, policy_version 31955 (0.0032)
+[2024-06-10 12:45:52,254][35978] Updated weights for policy 0, policy_version 31965 (0.0031)
+[2024-06-10 12:45:53,402][35745] Fps is (10 sec: 45875.4, 60 sec: 45602.0, 300 sec: 44931.0). Total num frames: 523763712. Throughput: 0: 45132.4. Samples: 122406160. Policy #0 lag: (min: 0.0, avg: 10.5, max: 20.0)
+[2024-06-10 12:45:53,402][35745] Avg episode reward: [(0, '0.291')]
+[2024-06-10 12:45:56,412][35978] Updated weights for policy 0, policy_version 31975 (0.0041)
+[2024-06-10 12:45:58,402][35745] Fps is (10 sec: 45875.7, 60 sec: 45329.0, 300 sec: 44931.0). Total num frames: 523976704. Throughput: 0: 45041.8. Samples: 122540400. Policy #0 lag: (min: 0.0, avg: 10.5, max: 20.0)
+[2024-06-10 12:45:58,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:45:59,849][35978] Updated weights for policy 0, policy_version 31985 (0.0032)
+[2024-06-10 12:46:03,402][35745] Fps is (10 sec: 42598.3, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 524189696. Throughput: 0: 44783.8. Samples: 122807560. Policy #0 lag: (min: 0.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:46:03,403][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 12:46:03,549][35978] Updated weights for policy 0, policy_version 31995 (0.0032)
+[2024-06-10 12:46:07,442][35978] Updated weights for policy 0, policy_version 32005 (0.0042)
+[2024-06-10 12:46:08,402][35745] Fps is (10 sec: 44236.8, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 524419072. Throughput: 0: 44799.5. Samples: 123070980. Policy #0 lag: (min: 0.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:46:08,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:46:10,947][35978] Updated weights for policy 0, policy_version 32015 (0.0029)
+[2024-06-10 12:46:13,402][35745] Fps is (10 sec: 45875.9, 60 sec: 44783.0, 300 sec: 44931.0). Total num frames: 524648448. Throughput: 0: 44856.4. Samples: 123212240. Policy #0 lag: (min: 0.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:46:13,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:46:14,534][35978] Updated weights for policy 0, policy_version 32025 (0.0026)
+[2024-06-10 12:46:18,401][35745] Fps is (10 sec: 42599.3, 60 sec: 44510.0, 300 sec: 44820.0). Total num frames: 524845056. Throughput: 0: 44875.0. Samples: 123475800. Policy #0 lag: (min: 0.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:46:18,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:46:18,518][35978] Updated weights for policy 0, policy_version 32035 (0.0034)
+[2024-06-10 12:46:21,598][35978] Updated weights for policy 0, policy_version 32045 (0.0027)
+[2024-06-10 12:46:23,402][35745] Fps is (10 sec: 44236.3, 60 sec: 44782.8, 300 sec: 44819.9). Total num frames: 525090816. Throughput: 0: 44638.5. Samples: 123739460. Policy #0 lag: (min: 1.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:46:23,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 12:46:25,763][35978] Updated weights for policy 0, policy_version 32055 (0.0042)
+[2024-06-10 12:46:28,402][35745] Fps is (10 sec: 45874.4, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 525303808. Throughput: 0: 44523.7. Samples: 123874040. Policy #0 lag: (min: 1.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:46:28,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 12:46:29,121][35978] Updated weights for policy 0, policy_version 32065 (0.0032)
+[2024-06-10 12:46:32,897][35978] Updated weights for policy 0, policy_version 32075 (0.0030)
+[2024-06-10 12:46:33,402][35745] Fps is (10 sec: 44236.9, 60 sec: 44787.7, 300 sec: 44875.5). Total num frames: 525533184. Throughput: 0: 44693.4. Samples: 124144080. Policy #0 lag: (min: 1.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:46:33,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 12:46:36,492][35978] Updated weights for policy 0, policy_version 32085 (0.0023)
+[2024-06-10 12:46:38,401][35745] Fps is (10 sec: 45875.6, 60 sec: 45056.0, 300 sec: 44820.9). Total num frames: 525762560. Throughput: 0: 44658.4. Samples: 124415780. Policy #0 lag: (min: 1.0, avg: 10.8, max: 21.0)
+[2024-06-10 12:46:38,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 12:46:40,324][35978] Updated weights for policy 0, policy_version 32095 (0.0039)
+[2024-06-10 12:46:43,402][35745] Fps is (10 sec: 45874.8, 60 sec: 44782.9, 300 sec: 44819.9). Total num frames: 525991936. Throughput: 0: 44691.5. Samples: 124551520. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:46:43,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:46:43,681][35978] Updated weights for policy 0, policy_version 32105 (0.0035)
+[2024-06-10 12:46:47,791][35978] Updated weights for policy 0, policy_version 32115 (0.0034)
+[2024-06-10 12:46:48,402][35745] Fps is (10 sec: 45874.3, 60 sec: 45056.0, 300 sec: 44931.0). Total num frames: 526221312. Throughput: 0: 44748.9. Samples: 124821260. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:46:48,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:46:50,882][35978] Updated weights for policy 0, policy_version 32125 (0.0024)
+[2024-06-10 12:46:53,402][35745] Fps is (10 sec: 44237.4, 60 sec: 44509.9, 300 sec: 44875.5). Total num frames: 526434304. Throughput: 0: 44787.1. Samples: 125086400. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:46:53,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 12:46:54,816][35978] Updated weights for policy 0, policy_version 32135 (0.0028)
+[2024-06-10 12:46:58,109][35978] Updated weights for policy 0, policy_version 32145 (0.0041)
+[2024-06-10 12:46:58,402][35745] Fps is (10 sec: 44237.1, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 526663680. Throughput: 0: 44742.6. Samples: 125225660. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:46:58,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:47:02,182][35978] Updated weights for policy 0, policy_version 32155 (0.0035)
+[2024-06-10 12:47:03,401][35745] Fps is (10 sec: 44237.4, 60 sec: 44783.1, 300 sec: 44875.5). Total num frames: 526876672. Throughput: 0: 44942.2. Samples: 125498200. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:47:03,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:47:05,866][35978] Updated weights for policy 0, policy_version 32165 (0.0042)
+[2024-06-10 12:47:08,402][35745] Fps is (10 sec: 44236.7, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 527106048. Throughput: 0: 44868.0. Samples: 125758520. Policy #0 lag: (min: 0.0, avg: 10.0, max: 22.0)
+[2024-06-10 12:47:08,407][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:47:09,680][35978] Updated weights for policy 0, policy_version 32175 (0.0036)
+[2024-06-10 12:47:12,887][35978] Updated weights for policy 0, policy_version 32185 (0.0028)
+[2024-06-10 12:47:13,402][35745] Fps is (10 sec: 44236.5, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 527319040. Throughput: 0: 44860.9. Samples: 125892780. Policy #0 lag: (min: 0.0, avg: 10.0, max: 22.0)
+[2024-06-10 12:47:13,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:47:16,806][35957] Signal inference workers to stop experience collection... (1900 times)
+[2024-06-10 12:47:16,806][35957] Signal inference workers to resume experience collection... (1900 times)
+[2024-06-10 12:47:16,840][35978] InferenceWorker_p0-w0: stopping experience collection (1900 times)
+[2024-06-10 12:47:16,840][35978] InferenceWorker_p0-w0: resuming experience collection (1900 times)
+[2024-06-10 12:47:16,958][35978] Updated weights for policy 0, policy_version 32195 (0.0038)
+[2024-06-10 12:47:18,402][35745] Fps is (10 sec: 45875.4, 60 sec: 45328.9, 300 sec: 44931.0). Total num frames: 527564800. Throughput: 0: 44969.4. Samples: 126167700. Policy #0 lag: (min: 0.0, avg: 10.0, max: 22.0)
+[2024-06-10 12:47:18,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:47:20,246][35978] Updated weights for policy 0, policy_version 32205 (0.0024)
+[2024-06-10 12:47:23,402][35745] Fps is (10 sec: 42597.0, 60 sec: 44236.7, 300 sec: 44819.9). Total num frames: 527745024. Throughput: 0: 44812.1. Samples: 126432340. Policy #0 lag: (min: 0.0, avg: 10.0, max: 22.0)
+[2024-06-10 12:47:23,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:47:23,960][35978] Updated weights for policy 0, policy_version 32215 (0.0036)
+[2024-06-10 12:47:27,671][35978] Updated weights for policy 0, policy_version 32225 (0.0032)
+[2024-06-10 12:47:28,402][35745] Fps is (10 sec: 44237.1, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 528007168. Throughput: 0: 44813.5. Samples: 126568120. Policy #0 lag: (min: 0.0, avg: 10.0, max: 21.0)
+[2024-06-10 12:47:28,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:47:31,379][35978] Updated weights for policy 0, policy_version 32235 (0.0028)
+[2024-06-10 12:47:33,402][35745] Fps is (10 sec: 49152.4, 60 sec: 45055.9, 300 sec: 44875.5). Total num frames: 528236544. Throughput: 0: 44819.9. Samples: 126838160. Policy #0 lag: (min: 0.0, avg: 10.0, max: 21.0)
+[2024-06-10 12:47:33,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:47:33,419][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000032241_528236544.pth...
+[2024-06-10 12:47:33,486][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000031582_517439488.pth
+[2024-06-10 12:47:35,135][35978] Updated weights for policy 0, policy_version 32245 (0.0027)
+[2024-06-10 12:47:38,402][35745] Fps is (10 sec: 44236.5, 60 sec: 44782.9, 300 sec: 44931.0). Total num frames: 528449536. Throughput: 0: 45046.7. Samples: 127113500. Policy #0 lag: (min: 0.0, avg: 10.0, max: 21.0)
+[2024-06-10 12:47:38,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:47:38,520][35978] Updated weights for policy 0, policy_version 32255 (0.0037)
+[2024-06-10 12:47:42,324][35978] Updated weights for policy 0, policy_version 32265 (0.0032)
+[2024-06-10 12:47:43,401][35745] Fps is (10 sec: 44238.0, 60 sec: 44783.1, 300 sec: 44820.0). Total num frames: 528678912. Throughput: 0: 44735.7. Samples: 127238760. Policy #0 lag: (min: 0.0, avg: 10.0, max: 21.0)
+[2024-06-10 12:47:43,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 12:47:46,093][35978] Updated weights for policy 0, policy_version 32275 (0.0038)
+[2024-06-10 12:47:48,402][35745] Fps is (10 sec: 44236.6, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 528891904. Throughput: 0: 44735.4. Samples: 127511300. Policy #0 lag: (min: 0.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:47:48,402][35745] Avg episode reward: [(0, '0.287')]
+[2024-06-10 12:47:49,584][35978] Updated weights for policy 0, policy_version 32285 (0.0032)
+[2024-06-10 12:47:53,201][35978] Updated weights for policy 0, policy_version 32295 (0.0024)
+[2024-06-10 12:47:53,402][35745] Fps is (10 sec: 44236.4, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 529121280. Throughput: 0: 44966.3. Samples: 127782000. Policy #0 lag: (min: 0.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:47:53,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:47:57,071][35978] Updated weights for policy 0, policy_version 32305 (0.0034)
+[2024-06-10 12:47:58,402][35745] Fps is (10 sec: 47512.8, 60 sec: 45055.9, 300 sec: 44931.0). Total num frames: 529367040. Throughput: 0: 44917.5. Samples: 127914080. Policy #0 lag: (min: 0.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:47:58,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 12:48:00,537][35978] Updated weights for policy 0, policy_version 32315 (0.0035)
+[2024-06-10 12:48:03,408][35745] Fps is (10 sec: 45846.9, 60 sec: 45051.3, 300 sec: 44874.9). Total num frames: 529580032. Throughput: 0: 44734.3. Samples: 128181020. Policy #0 lag: (min: 0.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:48:03,408][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:48:04,371][35978] Updated weights for policy 0, policy_version 32325 (0.0027)
+[2024-06-10 12:48:07,943][35978] Updated weights for policy 0, policy_version 32335 (0.0022)
+[2024-06-10 12:48:08,402][35745] Fps is (10 sec: 42598.8, 60 sec: 44782.9, 300 sec: 44875.8). Total num frames: 529793024. Throughput: 0: 44885.0. Samples: 128452160. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 12:48:08,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:48:11,698][35978] Updated weights for policy 0, policy_version 32345 (0.0025)
+[2024-06-10 12:48:13,402][35745] Fps is (10 sec: 44263.7, 60 sec: 45055.9, 300 sec: 44931.0). Total num frames: 530022400. Throughput: 0: 44806.1. Samples: 128584400. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 12:48:13,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:48:15,222][35978] Updated weights for policy 0, policy_version 32355 (0.0036)
+[2024-06-10 12:48:18,402][35745] Fps is (10 sec: 44237.3, 60 sec: 44509.9, 300 sec: 44820.1). Total num frames: 530235392. Throughput: 0: 44706.0. Samples: 128849920. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 12:48:18,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 12:48:19,002][35978] Updated weights for policy 0, policy_version 32365 (0.0031)
+[2024-06-10 12:48:22,151][35978] Updated weights for policy 0, policy_version 32375 (0.0033)
+[2024-06-10 12:48:23,402][35745] Fps is (10 sec: 45873.5, 60 sec: 45602.0, 300 sec: 44931.0). Total num frames: 530481152. Throughput: 0: 44764.4. Samples: 129127920. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 12:48:23,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:48:25,992][35978] Updated weights for policy 0, policy_version 32385 (0.0028)
+[2024-06-10 12:48:28,402][35745] Fps is (10 sec: 45875.3, 60 sec: 44782.9, 300 sec: 44931.0). Total num frames: 530694144. Throughput: 0: 45077.7. Samples: 129267260. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 12:48:28,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:48:29,489][35978] Updated weights for policy 0, policy_version 32395 (0.0038)
+[2024-06-10 12:48:33,402][35745] Fps is (10 sec: 42600.7, 60 sec: 44510.0, 300 sec: 44875.5). Total num frames: 530907136. Throughput: 0: 44926.3. Samples: 129532980. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-10 12:48:33,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:48:33,491][35978] Updated weights for policy 0, policy_version 32405 (0.0026)
+[2024-06-10 12:48:34,924][35957] Signal inference workers to stop experience collection... (1950 times)
+[2024-06-10 12:48:34,971][35978] InferenceWorker_p0-w0: stopping experience collection (1950 times)
+[2024-06-10 12:48:34,979][35957] Signal inference workers to resume experience collection... (1950 times)
+[2024-06-10 12:48:34,989][35978] InferenceWorker_p0-w0: resuming experience collection (1950 times)
+[2024-06-10 12:48:36,884][35978] Updated weights for policy 0, policy_version 32415 (0.0031)
+[2024-06-10 12:48:38,402][35745] Fps is (10 sec: 47513.1, 60 sec: 45329.0, 300 sec: 44931.0). Total num frames: 531169280. Throughput: 0: 44885.7. Samples: 129801860. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-10 12:48:38,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:48:40,743][35978] Updated weights for policy 0, policy_version 32425 (0.0041)
+[2024-06-10 12:48:43,402][35745] Fps is (10 sec: 44235.8, 60 sec: 44509.7, 300 sec: 44819.9). Total num frames: 531349504. Throughput: 0: 45081.4. Samples: 129942740. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-10 12:48:43,403][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:48:44,059][35978] Updated weights for policy 0, policy_version 32435 (0.0032)
+[2024-06-10 12:48:47,984][35978] Updated weights for policy 0, policy_version 32445 (0.0039)
+[2024-06-10 12:48:48,402][35745] Fps is (10 sec: 44236.7, 60 sec: 45329.0, 300 sec: 44875.5). Total num frames: 531611648. Throughput: 0: 45072.8. Samples: 130209020. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-10 12:48:48,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:48:51,064][35978] Updated weights for policy 0, policy_version 32455 (0.0033)
+[2024-06-10 12:48:53,402][35745] Fps is (10 sec: 47514.4, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 531824640. Throughput: 0: 44946.8. Samples: 130474760. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 12:48:53,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:48:55,352][35978] Updated weights for policy 0, policy_version 32465 (0.0041)
+[2024-06-10 12:48:58,402][35745] Fps is (10 sec: 42598.5, 60 sec: 44510.0, 300 sec: 44876.0). Total num frames: 532037632. Throughput: 0: 45200.9. Samples: 130618440. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 12:48:58,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:48:58,583][35978] Updated weights for policy 0, policy_version 32475 (0.0044)
+[2024-06-10 12:49:02,578][35978] Updated weights for policy 0, policy_version 32485 (0.0031)
+[2024-06-10 12:49:03,402][35745] Fps is (10 sec: 42598.2, 60 sec: 44514.4, 300 sec: 44820.0). Total num frames: 532250624. Throughput: 0: 45105.3. Samples: 130879660. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 12:49:03,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:49:06,105][35978] Updated weights for policy 0, policy_version 32495 (0.0038)
+[2024-06-10 12:49:08,402][35745] Fps is (10 sec: 45875.2, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 532496384. Throughput: 0: 44768.8. Samples: 131142500. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 12:49:08,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:49:10,161][35978] Updated weights for policy 0, policy_version 32505 (0.0034)
+[2024-06-10 12:49:13,402][35745] Fps is (10 sec: 45875.1, 60 sec: 44783.0, 300 sec: 44875.5). Total num frames: 532709376. Throughput: 0: 44899.0. Samples: 131287720. Policy #0 lag: (min: 0.0, avg: 11.7, max: 23.0)
+[2024-06-10 12:49:13,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:49:13,418][35978] Updated weights for policy 0, policy_version 32515 (0.0037)
+[2024-06-10 12:49:17,299][35978] Updated weights for policy 0, policy_version 32525 (0.0025)
+[2024-06-10 12:49:18,402][35745] Fps is (10 sec: 42598.8, 60 sec: 44783.0, 300 sec: 44820.0). Total num frames: 532922368. Throughput: 0: 44836.9. Samples: 131550640. Policy #0 lag: (min: 0.0, avg: 11.7, max: 23.0)
+[2024-06-10 12:49:18,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 12:49:20,418][35978] Updated weights for policy 0, policy_version 32535 (0.0030)
+[2024-06-10 12:49:23,402][35745] Fps is (10 sec: 44237.3, 60 sec: 44510.3, 300 sec: 44820.0). Total num frames: 533151744. Throughput: 0: 44891.2. Samples: 131821960. Policy #0 lag: (min: 0.0, avg: 11.7, max: 23.0)
+[2024-06-10 12:49:23,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 12:49:24,486][35978] Updated weights for policy 0, policy_version 32545 (0.0034)
+[2024-06-10 12:49:27,783][35978] Updated weights for policy 0, policy_version 32555 (0.0030)
+[2024-06-10 12:49:28,402][35745] Fps is (10 sec: 47513.0, 60 sec: 45055.9, 300 sec: 44931.0). Total num frames: 533397504. Throughput: 0: 44782.7. Samples: 131957960. Policy #0 lag: (min: 0.0, avg: 11.7, max: 23.0)
+[2024-06-10 12:49:28,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:49:31,527][35978] Updated weights for policy 0, policy_version 32565 (0.0027)
+[2024-06-10 12:49:33,402][35745] Fps is (10 sec: 45874.9, 60 sec: 45055.9, 300 sec: 44875.5). Total num frames: 533610496. Throughput: 0: 44817.0. Samples: 132225780. Policy #0 lag: (min: 0.0, avg: 8.3, max: 20.0)
+[2024-06-10 12:49:33,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:49:33,524][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000032570_533626880.pth...
+[2024-06-10 12:49:33,570][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000031912_522846208.pth
+[2024-06-10 12:49:35,270][35978] Updated weights for policy 0, policy_version 32575 (0.0026)
+[2024-06-10 12:49:38,401][35745] Fps is (10 sec: 44237.7, 60 sec: 44510.0, 300 sec: 44931.0). Total num frames: 533839872. Throughput: 0: 44971.2. Samples: 132498460. Policy #0 lag: (min: 0.0, avg: 8.3, max: 20.0)
+[2024-06-10 12:49:38,402][35745] Avg episode reward: [(0, '0.290')]
+[2024-06-10 12:49:38,745][35978] Updated weights for policy 0, policy_version 32585 (0.0032)
+[2024-06-10 12:49:42,417][35978] Updated weights for policy 0, policy_version 32595 (0.0026)
+[2024-06-10 12:49:43,402][35745] Fps is (10 sec: 45875.3, 60 sec: 45329.2, 300 sec: 44931.0). Total num frames: 534069248. Throughput: 0: 44673.4. Samples: 132628740. Policy #0 lag: (min: 0.0, avg: 8.3, max: 20.0)
+[2024-06-10 12:49:43,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:49:46,291][35978] Updated weights for policy 0, policy_version 32605 (0.0039)
+[2024-06-10 12:49:48,404][35745] Fps is (10 sec: 44226.2, 60 sec: 44508.2, 300 sec: 44930.7). Total num frames: 534282240. Throughput: 0: 44945.3. Samples: 132902300. Policy #0 lag: (min: 0.0, avg: 8.3, max: 20.0)
+[2024-06-10 12:49:48,404][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:49:49,327][35957] Signal inference workers to stop experience collection... (2000 times)
+[2024-06-10 12:49:49,376][35978] InferenceWorker_p0-w0: stopping experience collection (2000 times)
+[2024-06-10 12:49:49,383][35957] Signal inference workers to resume experience collection... (2000 times)
+[2024-06-10 12:49:49,387][35978] InferenceWorker_p0-w0: resuming experience collection (2000 times)
+[2024-06-10 12:49:49,537][35978] Updated weights for policy 0, policy_version 32615 (0.0028)
+[2024-06-10 12:49:53,406][35745] Fps is (10 sec: 45853.5, 60 sec: 45052.4, 300 sec: 44985.9). Total num frames: 534528000. Throughput: 0: 45009.1. Samples: 133168120. Policy #0 lag: (min: 0.0, avg: 8.3, max: 20.0)
+[2024-06-10 12:49:53,407][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:49:53,407][35978] Updated weights for policy 0, policy_version 32625 (0.0033)
+[2024-06-10 12:49:56,799][35978] Updated weights for policy 0, policy_version 32635 (0.0022)
+[2024-06-10 12:49:58,402][35745] Fps is (10 sec: 45885.1, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 534740992. Throughput: 0: 44824.8. Samples: 133304840. Policy #0 lag: (min: 0.0, avg: 9.1, max: 20.0)
+[2024-06-10 12:49:58,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 12:50:00,415][35978] Updated weights for policy 0, policy_version 32645 (0.0038)
+[2024-06-10 12:50:03,404][35745] Fps is (10 sec: 42608.8, 60 sec: 45054.3, 300 sec: 44875.2). Total num frames: 534953984. Throughput: 0: 45190.5. Samples: 133584320. Policy #0 lag: (min: 0.0, avg: 9.1, max: 20.0)
+[2024-06-10 12:50:03,405][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:50:04,312][35978] Updated weights for policy 0, policy_version 32655 (0.0043)
+[2024-06-10 12:50:08,075][35978] Updated weights for policy 0, policy_version 32665 (0.0027)
+[2024-06-10 12:50:08,402][35745] Fps is (10 sec: 44237.5, 60 sec: 44783.0, 300 sec: 44820.0). Total num frames: 535183360. Throughput: 0: 44996.4. Samples: 133846800. Policy #0 lag: (min: 0.0, avg: 9.1, max: 20.0)
+[2024-06-10 12:50:08,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:50:11,498][35978] Updated weights for policy 0, policy_version 32675 (0.0031)
+[2024-06-10 12:50:13,402][35745] Fps is (10 sec: 45886.0, 60 sec: 45056.1, 300 sec: 44875.5). Total num frames: 535412736. Throughput: 0: 44994.4. Samples: 133982700. Policy #0 lag: (min: 0.0, avg: 9.1, max: 20.0)
+[2024-06-10 12:50:13,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 12:50:15,827][35978] Updated weights for policy 0, policy_version 32685 (0.0026)
+[2024-06-10 12:50:18,404][35745] Fps is (10 sec: 45864.3, 60 sec: 45327.3, 300 sec: 44875.1). Total num frames: 535642112. Throughput: 0: 45006.6. Samples: 134251180. Policy #0 lag: (min: 0.0, avg: 11.3, max: 23.0)
+[2024-06-10 12:50:18,405][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 12:50:18,667][35978] Updated weights for policy 0, policy_version 32695 (0.0023)
+[2024-06-10 12:50:22,846][35978] Updated weights for policy 0, policy_version 32705 (0.0041)
+[2024-06-10 12:50:23,402][35745] Fps is (10 sec: 42597.8, 60 sec: 44782.8, 300 sec: 44819.9). Total num frames: 535838720. Throughput: 0: 44741.1. Samples: 134511820. Policy #0 lag: (min: 0.0, avg: 11.3, max: 23.0)
+[2024-06-10 12:50:23,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:50:26,118][35978] Updated weights for policy 0, policy_version 32715 (0.0024)
+[2024-06-10 12:50:28,401][35745] Fps is (10 sec: 44247.6, 60 sec: 44783.1, 300 sec: 44876.5). Total num frames: 536084480. Throughput: 0: 44828.1. Samples: 134646000. Policy #0 lag: (min: 0.0, avg: 11.3, max: 23.0)
+[2024-06-10 12:50:28,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:50:29,837][35978] Updated weights for policy 0, policy_version 32725 (0.0050)
+[2024-06-10 12:50:33,402][35745] Fps is (10 sec: 47513.8, 60 sec: 45056.0, 300 sec: 44931.0). Total num frames: 536313856. Throughput: 0: 44844.9. Samples: 134920220. Policy #0 lag: (min: 0.0, avg: 11.3, max: 23.0)
+[2024-06-10 12:50:33,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:50:33,634][35978] Updated weights for policy 0, policy_version 32735 (0.0032)
+[2024-06-10 12:50:37,532][35978] Updated weights for policy 0, policy_version 32745 (0.0041)
+[2024-06-10 12:50:38,402][35745] Fps is (10 sec: 42597.8, 60 sec: 44509.7, 300 sec: 44764.4). Total num frames: 536510464. Throughput: 0: 44779.3. Samples: 135182980. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:50:38,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:50:40,891][35978] Updated weights for policy 0, policy_version 32755 (0.0041)
+[2024-06-10 12:50:43,402][35745] Fps is (10 sec: 42598.8, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 536739840. Throughput: 0: 44742.9. Samples: 135318260. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:50:43,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:50:45,152][35978] Updated weights for policy 0, policy_version 32765 (0.0029)
+[2024-06-10 12:50:47,726][35957] Signal inference workers to stop experience collection... (2050 times)
+[2024-06-10 12:50:47,727][35957] Signal inference workers to resume experience collection... (2050 times)
+[2024-06-10 12:50:47,749][35978] InferenceWorker_p0-w0: stopping experience collection (2050 times)
+[2024-06-10 12:50:47,749][35978] InferenceWorker_p0-w0: resuming experience collection (2050 times)
+[2024-06-10 12:50:48,004][35978] Updated weights for policy 0, policy_version 32775 (0.0026)
+[2024-06-10 12:50:48,402][35745] Fps is (10 sec: 49152.1, 60 sec: 45330.8, 300 sec: 44875.5). Total num frames: 537001984. Throughput: 0: 44631.6. Samples: 135592640. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:50:48,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 12:50:52,182][35978] Updated weights for policy 0, policy_version 32785 (0.0036)
+[2024-06-10 12:50:53,402][35745] Fps is (10 sec: 42598.3, 60 sec: 43967.2, 300 sec: 44708.9). Total num frames: 537165824. Throughput: 0: 44677.3. Samples: 135857280. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:50:53,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 12:50:55,340][35978] Updated weights for policy 0, policy_version 32795 (0.0028)
+[2024-06-10 12:50:58,404][35745] Fps is (10 sec: 44226.6, 60 sec: 45054.4, 300 sec: 44930.7). Total num frames: 537444352. Throughput: 0: 44512.3. Samples: 135985860. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 12:50:58,405][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:50:59,326][35978] Updated weights for policy 0, policy_version 32805 (0.0030)
+[2024-06-10 12:51:02,982][35978] Updated weights for policy 0, policy_version 32815 (0.0031)
+[2024-06-10 12:51:03,402][35745] Fps is (10 sec: 50790.5, 60 sec: 45330.8, 300 sec: 44931.0). Total num frames: 537673728. Throughput: 0: 44757.5. Samples: 136265160. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:51:03,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:51:06,821][35978] Updated weights for policy 0, policy_version 32825 (0.0038)
+[2024-06-10 12:51:08,402][35745] Fps is (10 sec: 40969.4, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 537853952. Throughput: 0: 44909.4. Samples: 136532740. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:51:08,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:51:10,090][35978] Updated weights for policy 0, policy_version 32835 (0.0028)
+[2024-06-10 12:51:13,402][35745] Fps is (10 sec: 40959.7, 60 sec: 44509.8, 300 sec: 44875.5). Total num frames: 538083328. Throughput: 0: 44644.3. Samples: 136655000. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:51:13,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 12:51:14,512][35978] Updated weights for policy 0, policy_version 32845 (0.0036)
+[2024-06-10 12:51:17,113][35978] Updated weights for policy 0, policy_version 32855 (0.0030)
+[2024-06-10 12:51:18,402][35745] Fps is (10 sec: 49152.1, 60 sec: 45057.8, 300 sec: 44931.0). Total num frames: 538345472. Throughput: 0: 44724.9. Samples: 136932840. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 12:51:18,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:51:21,673][35978] Updated weights for policy 0, policy_version 32865 (0.0045)
+[2024-06-10 12:51:23,402][35745] Fps is (10 sec: 42598.4, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 538509312. Throughput: 0: 44910.2. Samples: 137203940. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:51:23,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 12:51:24,648][35978] Updated weights for policy 0, policy_version 32875 (0.0039)
+[2024-06-10 12:51:28,402][35745] Fps is (10 sec: 40959.7, 60 sec: 44509.7, 300 sec: 44820.0). Total num frames: 538755072. Throughput: 0: 44642.5. Samples: 137327180. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:51:28,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 12:51:28,690][35978] Updated weights for policy 0, policy_version 32885 (0.0025)
+[2024-06-10 12:51:32,048][35978] Updated weights for policy 0, policy_version 32895 (0.0035)
+[2024-06-10 12:51:33,402][35745] Fps is (10 sec: 50790.2, 60 sec: 45056.0, 300 sec: 44931.0). Total num frames: 539017216. Throughput: 0: 44610.2. Samples: 137600100. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:51:33,406][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:51:33,418][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000032899_539017216.pth...
+[2024-06-10 12:51:33,477][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000032241_528236544.pth
+[2024-06-10 12:51:36,469][35978] Updated weights for policy 0, policy_version 32905 (0.0027)
+[2024-06-10 12:51:38,402][35745] Fps is (10 sec: 45875.3, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 539213824. Throughput: 0: 44893.3. Samples: 137877480. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:51:38,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:51:39,314][35978] Updated weights for policy 0, policy_version 32915 (0.0035)
+[2024-06-10 12:51:43,402][35745] Fps is (10 sec: 39321.1, 60 sec: 44509.7, 300 sec: 44708.9). Total num frames: 539410432. Throughput: 0: 44641.7. Samples: 137994640. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 12:51:43,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:51:43,554][35957] Signal inference workers to stop experience collection... (2100 times)
+[2024-06-10 12:51:43,559][35957] Signal inference workers to resume experience collection... (2100 times)
+[2024-06-10 12:51:43,596][35978] InferenceWorker_p0-w0: stopping experience collection (2100 times)
+[2024-06-10 12:51:43,596][35978] InferenceWorker_p0-w0: resuming experience collection (2100 times)
+[2024-06-10 12:51:43,706][35978] Updated weights for policy 0, policy_version 32925 (0.0027)
+[2024-06-10 12:51:46,552][35978] Updated weights for policy 0, policy_version 32935 (0.0035)
+[2024-06-10 12:51:48,402][35745] Fps is (10 sec: 47514.1, 60 sec: 44783.0, 300 sec: 44931.0). Total num frames: 539688960. Throughput: 0: 44382.7. Samples: 138262380. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 12:51:48,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:51:51,427][35978] Updated weights for policy 0, policy_version 32945 (0.0031)
+[2024-06-10 12:51:53,402][35745] Fps is (10 sec: 45876.3, 60 sec: 45056.0, 300 sec: 44764.4). Total num frames: 539869184. Throughput: 0: 44669.9. Samples: 138542880. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 12:51:53,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:51:54,097][35978] Updated weights for policy 0, policy_version 32955 (0.0034)
+[2024-06-10 12:51:58,402][35745] Fps is (10 sec: 39321.1, 60 sec: 43965.4, 300 sec: 44764.4). Total num frames: 540082176. Throughput: 0: 44561.3. Samples: 138660260. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 12:51:58,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 12:51:58,606][35978] Updated weights for policy 0, policy_version 32965 (0.0036)
+[2024-06-10 12:52:01,343][35978] Updated weights for policy 0, policy_version 32975 (0.0036)
+[2024-06-10 12:52:03,402][35745] Fps is (10 sec: 47513.6, 60 sec: 44509.9, 300 sec: 44875.5). Total num frames: 540344320. Throughput: 0: 44481.4. Samples: 138934500. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 12:52:03,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:52:05,782][35978] Updated weights for policy 0, policy_version 32985 (0.0045)
+[2024-06-10 12:52:08,402][35745] Fps is (10 sec: 49152.5, 60 sec: 45329.1, 300 sec: 44931.0). Total num frames: 540573696. Throughput: 0: 44633.4. Samples: 139212440. Policy #0 lag: (min: 0.0, avg: 11.0, max: 21.0)
+[2024-06-10 12:52:08,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:52:08,734][35978] Updated weights for policy 0, policy_version 32995 (0.0033)
+[2024-06-10 12:52:13,100][35978] Updated weights for policy 0, policy_version 33005 (0.0043)
+[2024-06-10 12:52:13,402][35745] Fps is (10 sec: 40959.6, 60 sec: 44509.9, 300 sec: 44708.9). Total num frames: 540753920. Throughput: 0: 44708.0. Samples: 139339040. Policy #0 lag: (min: 0.0, avg: 11.0, max: 21.0)
+[2024-06-10 12:52:13,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:52:15,806][35978] Updated weights for policy 0, policy_version 33015 (0.0032)
+[2024-06-10 12:52:18,402][35745] Fps is (10 sec: 44236.4, 60 sec: 44509.8, 300 sec: 44986.6). Total num frames: 541016064. Throughput: 0: 44560.4. Samples: 139605320. Policy #0 lag: (min: 0.0, avg: 11.0, max: 21.0)
+[2024-06-10 12:52:18,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:52:20,718][35978] Updated weights for policy 0, policy_version 33025 (0.0044)
+[2024-06-10 12:52:23,247][35978] Updated weights for policy 0, policy_version 33035 (0.0037)
+[2024-06-10 12:52:23,402][35745] Fps is (10 sec: 49151.8, 60 sec: 45602.1, 300 sec: 44875.5). Total num frames: 541245440. Throughput: 0: 44686.2. Samples: 139888360. Policy #0 lag: (min: 0.0, avg: 11.0, max: 21.0)
+[2024-06-10 12:52:23,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 12:52:27,665][35978] Updated weights for policy 0, policy_version 33045 (0.0034)
+[2024-06-10 12:52:28,401][35745] Fps is (10 sec: 40960.7, 60 sec: 44510.0, 300 sec: 44708.9). Total num frames: 541425664. Throughput: 0: 45036.7. Samples: 140021280. Policy #0 lag: (min: 0.0, avg: 11.8, max: 21.0)
+[2024-06-10 12:52:28,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:52:30,351][35978] Updated weights for policy 0, policy_version 33055 (0.0042)
+[2024-06-10 12:52:33,401][35745] Fps is (10 sec: 42599.1, 60 sec: 44236.9, 300 sec: 44820.0). Total num frames: 541671424. Throughput: 0: 44995.6. Samples: 140287180. Policy #0 lag: (min: 0.0, avg: 11.8, max: 21.0)
+[2024-06-10 12:52:33,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:52:34,975][35978] Updated weights for policy 0, policy_version 33065 (0.0033)
+[2024-06-10 12:52:37,822][35978] Updated weights for policy 0, policy_version 33075 (0.0031)
+[2024-06-10 12:52:38,402][35745] Fps is (10 sec: 49151.5, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 541917184. Throughput: 0: 44732.4. Samples: 140555840. Policy #0 lag: (min: 0.0, avg: 11.8, max: 21.0)
+[2024-06-10 12:52:38,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:52:42,591][35978] Updated weights for policy 0, policy_version 33085 (0.0021)
+[2024-06-10 12:52:43,402][35745] Fps is (10 sec: 44236.5, 60 sec: 45056.1, 300 sec: 44820.0). Total num frames: 542113792. Throughput: 0: 45272.5. Samples: 140697520. Policy #0 lag: (min: 0.0, avg: 11.8, max: 21.0)
+[2024-06-10 12:52:43,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:52:45,287][35978] Updated weights for policy 0, policy_version 33095 (0.0034)
+[2024-06-10 12:52:48,401][35745] Fps is (10 sec: 42598.8, 60 sec: 44236.8, 300 sec: 44820.0). Total num frames: 542343168. Throughput: 0: 44916.9. Samples: 140955760. Policy #0 lag: (min: 0.0, avg: 12.4, max: 22.0)
+[2024-06-10 12:52:48,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:52:49,733][35978] Updated weights for policy 0, policy_version 33105 (0.0031)
+[2024-06-10 12:52:51,089][35957] Signal inference workers to stop experience collection... (2150 times)
+[2024-06-10 12:52:51,135][35978] InferenceWorker_p0-w0: stopping experience collection (2150 times)
+[2024-06-10 12:52:51,140][35957] Signal inference workers to resume experience collection... (2150 times)
+[2024-06-10 12:52:51,151][35978] InferenceWorker_p0-w0: resuming experience collection (2150 times)
+[2024-06-10 12:52:52,576][35978] Updated weights for policy 0, policy_version 33115 (0.0038)
+[2024-06-10 12:52:53,402][35745] Fps is (10 sec: 47513.4, 60 sec: 45329.0, 300 sec: 44820.0). Total num frames: 542588928. Throughput: 0: 44703.9. Samples: 141224120. Policy #0 lag: (min: 0.0, avg: 12.4, max: 22.0)
+[2024-06-10 12:52:53,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:52:56,903][35978] Updated weights for policy 0, policy_version 33125 (0.0032)
+[2024-06-10 12:52:58,404][35745] Fps is (10 sec: 42588.2, 60 sec: 44781.3, 300 sec: 44709.5). Total num frames: 542769152. Throughput: 0: 44949.7. Samples: 141361880. Policy #0 lag: (min: 0.0, avg: 12.4, max: 22.0)
+[2024-06-10 12:52:58,405][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 12:52:59,563][35978] Updated weights for policy 0, policy_version 33135 (0.0024)
+[2024-06-10 12:53:03,402][35745] Fps is (10 sec: 42598.1, 60 sec: 44509.7, 300 sec: 44820.0). Total num frames: 543014912. Throughput: 0: 45038.6. Samples: 141632060. Policy #0 lag: (min: 0.0, avg: 12.4, max: 22.0)
+[2024-06-10 12:53:03,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:53:04,201][35978] Updated weights for policy 0, policy_version 33145 (0.0036)
+[2024-06-10 12:53:07,035][35978] Updated weights for policy 0, policy_version 33155 (0.0038)
+[2024-06-10 12:53:08,402][35745] Fps is (10 sec: 50802.1, 60 sec: 45056.0, 300 sec: 44931.1). Total num frames: 543277056. Throughput: 0: 44865.4. Samples: 141907300. Policy #0 lag: (min: 0.0, avg: 12.4, max: 22.0)
+[2024-06-10 12:53:08,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:53:11,721][35978] Updated weights for policy 0, policy_version 33165 (0.0034)
+[2024-06-10 12:53:13,401][35745] Fps is (10 sec: 45876.2, 60 sec: 45329.2, 300 sec: 44875.5). Total num frames: 543473664. Throughput: 0: 45030.2. Samples: 142047640. Policy #0 lag: (min: 0.0, avg: 11.4, max: 20.0)
+[2024-06-10 12:53:13,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:53:14,510][35978] Updated weights for policy 0, policy_version 33175 (0.0037)
+[2024-06-10 12:53:18,402][35745] Fps is (10 sec: 39321.9, 60 sec: 44236.9, 300 sec: 44709.0). Total num frames: 543670272. Throughput: 0: 44969.3. Samples: 142310800. Policy #0 lag: (min: 0.0, avg: 11.4, max: 20.0)
+[2024-06-10 12:53:18,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:53:18,782][35978] Updated weights for policy 0, policy_version 33185 (0.0048)
+[2024-06-10 12:53:21,723][35978] Updated weights for policy 0, policy_version 33195 (0.0037)
+[2024-06-10 12:53:23,402][35745] Fps is (10 sec: 47513.0, 60 sec: 45056.1, 300 sec: 44931.0). Total num frames: 543948800. Throughput: 0: 44938.2. Samples: 142578060. Policy #0 lag: (min: 0.0, avg: 11.4, max: 20.0)
+[2024-06-10 12:53:23,402][35745] Avg episode reward: [(0, '0.293')]
+[2024-06-10 12:53:25,799][35978] Updated weights for policy 0, policy_version 33205 (0.0026)
+[2024-06-10 12:53:28,402][35745] Fps is (10 sec: 49151.9, 60 sec: 45602.1, 300 sec: 44931.0). Total num frames: 544161792. Throughput: 0: 44897.8. Samples: 142717920. Policy #0 lag: (min: 0.0, avg: 11.4, max: 20.0)
+[2024-06-10 12:53:28,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:53:28,800][35978] Updated weights for policy 0, policy_version 33215 (0.0035)
+[2024-06-10 12:53:33,289][35978] Updated weights for policy 0, policy_version 33225 (0.0027)
+[2024-06-10 12:53:33,404][35745] Fps is (10 sec: 40950.5, 60 sec: 44781.1, 300 sec: 44708.5). Total num frames: 544358400. Throughput: 0: 45043.3. Samples: 142982820. Policy #0 lag: (min: 0.0, avg: 10.7, max: 22.0)
+[2024-06-10 12:53:33,404][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:53:33,518][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000033226_544374784.pth...
+[2024-06-10 12:53:33,589][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000032570_533626880.pth
+[2024-06-10 12:53:36,466][35978] Updated weights for policy 0, policy_version 33235 (0.0026)
+[2024-06-10 12:53:38,402][35745] Fps is (10 sec: 44236.8, 60 sec: 44783.0, 300 sec: 44931.1). Total num frames: 544604160. Throughput: 0: 45035.2. Samples: 143250700. Policy #0 lag: (min: 0.0, avg: 10.7, max: 22.0)
+[2024-06-10 12:53:38,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:53:40,747][35978] Updated weights for policy 0, policy_version 33245 (0.0049)
+[2024-06-10 12:53:43,402][35745] Fps is (10 sec: 47524.9, 60 sec: 45329.1, 300 sec: 44820.0). Total num frames: 544833536. Throughput: 0: 45181.9. Samples: 143394960. Policy #0 lag: (min: 0.0, avg: 10.7, max: 22.0)
+[2024-06-10 12:53:43,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:53:43,494][35978] Updated weights for policy 0, policy_version 33255 (0.0036)
+[2024-06-10 12:53:48,067][35978] Updated weights for policy 0, policy_version 33265 (0.0027)
+[2024-06-10 12:53:48,401][35745] Fps is (10 sec: 40960.0, 60 sec: 44509.8, 300 sec: 44708.9). Total num frames: 545013760. Throughput: 0: 45001.1. Samples: 143657100. Policy #0 lag: (min: 0.0, avg: 10.7, max: 22.0)
+[2024-06-10 12:53:48,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:53:50,798][35978] Updated weights for policy 0, policy_version 33275 (0.0026)
+[2024-06-10 12:53:53,402][35745] Fps is (10 sec: 45874.7, 60 sec: 45056.0, 300 sec: 44931.0). Total num frames: 545292288. Throughput: 0: 44754.2. Samples: 143921240. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:53:53,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:53:55,024][35978] Updated weights for policy 0, policy_version 33285 (0.0037)
+[2024-06-10 12:53:57,998][35978] Updated weights for policy 0, policy_version 33295 (0.0030)
+[2024-06-10 12:53:58,401][35745] Fps is (10 sec: 49152.1, 60 sec: 45603.9, 300 sec: 44931.1). Total num frames: 545505280. Throughput: 0: 44866.6. Samples: 144066640. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:53:58,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 12:54:02,323][35978] Updated weights for policy 0, policy_version 33305 (0.0049)
+[2024-06-10 12:54:03,402][35745] Fps is (10 sec: 40960.5, 60 sec: 44783.1, 300 sec: 44764.4). Total num frames: 545701888. Throughput: 0: 45040.4. Samples: 144337620. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:54:03,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 12:54:05,670][35978] Updated weights for policy 0, policy_version 33315 (0.0031)
+[2024-06-10 12:54:08,402][35745] Fps is (10 sec: 44236.2, 60 sec: 44509.8, 300 sec: 44875.5). Total num frames: 545947648. Throughput: 0: 44896.8. Samples: 144598420. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:54:08,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:54:10,018][35978] Updated weights for policy 0, policy_version 33325 (0.0038)
+[2024-06-10 12:54:12,943][35978] Updated weights for policy 0, policy_version 33335 (0.0036)
+[2024-06-10 12:54:13,402][35745] Fps is (10 sec: 45874.8, 60 sec: 44782.8, 300 sec: 44875.5). Total num frames: 546160640. Throughput: 0: 44782.2. Samples: 144733120. Policy #0 lag: (min: 0.0, avg: 10.6, max: 21.0)
+[2024-06-10 12:54:13,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:54:17,216][35978] Updated weights for policy 0, policy_version 33345 (0.0027)
+[2024-06-10 12:54:18,002][35957] Signal inference workers to stop experience collection... (2200 times)
+[2024-06-10 12:54:18,003][35957] Signal inference workers to resume experience collection... (2200 times)
+[2024-06-10 12:54:18,024][35978] InferenceWorker_p0-w0: stopping experience collection (2200 times)
+[2024-06-10 12:54:18,024][35978] InferenceWorker_p0-w0: resuming experience collection (2200 times)
+[2024-06-10 12:54:18,402][35745] Fps is (10 sec: 42598.4, 60 sec: 45055.9, 300 sec: 44819.9). Total num frames: 546373632. Throughput: 0: 44972.0. Samples: 145006460. Policy #0 lag: (min: 0.0, avg: 10.8, max: 22.0)
+[2024-06-10 12:54:18,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:54:20,105][35978] Updated weights for policy 0, policy_version 33355 (0.0024)
+[2024-06-10 12:54:23,402][35745] Fps is (10 sec: 44236.9, 60 sec: 44236.8, 300 sec: 44764.4). Total num frames: 546603008. Throughput: 0: 44868.0. Samples: 145269760. Policy #0 lag: (min: 0.0, avg: 10.8, max: 22.0)
+[2024-06-10 12:54:23,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:54:24,445][35978] Updated weights for policy 0, policy_version 33365 (0.0040)
+[2024-06-10 12:54:27,483][35978] Updated weights for policy 0, policy_version 33375 (0.0034)
+[2024-06-10 12:54:28,404][35745] Fps is (10 sec: 47503.0, 60 sec: 44781.2, 300 sec: 44875.2). Total num frames: 546848768. Throughput: 0: 44597.7. Samples: 145401960. Policy #0 lag: (min: 0.0, avg: 10.8, max: 22.0)
+[2024-06-10 12:54:28,405][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:54:31,679][35978] Updated weights for policy 0, policy_version 33385 (0.0028)
+[2024-06-10 12:54:33,408][35745] Fps is (10 sec: 44208.7, 60 sec: 44779.9, 300 sec: 44763.4). Total num frames: 547045376. Throughput: 0: 44699.8. Samples: 145668880. Policy #0 lag: (min: 0.0, avg: 10.8, max: 22.0)
+[2024-06-10 12:54:33,408][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:54:34,971][35978] Updated weights for policy 0, policy_version 33395 (0.0038)
+[2024-06-10 12:54:38,402][35745] Fps is (10 sec: 42608.0, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 547274752. Throughput: 0: 44816.4. Samples: 145937980. Policy #0 lag: (min: 0.0, avg: 10.6, max: 22.0)
+[2024-06-10 12:54:38,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:54:39,102][35978] Updated weights for policy 0, policy_version 33405 (0.0032)
+[2024-06-10 12:54:42,265][35978] Updated weights for policy 0, policy_version 33415 (0.0041)
+[2024-06-10 12:54:43,401][35745] Fps is (10 sec: 47544.3, 60 sec: 44783.0, 300 sec: 44875.9). Total num frames: 547520512. Throughput: 0: 44718.7. Samples: 146078980. Policy #0 lag: (min: 0.0, avg: 10.6, max: 22.0)
+[2024-06-10 12:54:43,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 12:54:46,150][35978] Updated weights for policy 0, policy_version 33425 (0.0028)
+[2024-06-10 12:54:48,402][35745] Fps is (10 sec: 44236.8, 60 sec: 45055.9, 300 sec: 44709.6). Total num frames: 547717120. Throughput: 0: 44671.4. Samples: 146347840. Policy #0 lag: (min: 0.0, avg: 10.6, max: 22.0)
+[2024-06-10 12:54:48,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:54:49,387][35978] Updated weights for policy 0, policy_version 33435 (0.0043)
+[2024-06-10 12:54:53,402][35745] Fps is (10 sec: 42597.5, 60 sec: 44236.8, 300 sec: 44764.4). Total num frames: 547946496. Throughput: 0: 44832.4. Samples: 146615880. Policy #0 lag: (min: 0.0, avg: 10.6, max: 22.0)
+[2024-06-10 12:54:53,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:54:53,565][35978] Updated weights for policy 0, policy_version 33445 (0.0038)
+[2024-06-10 12:54:56,692][35978] Updated weights for policy 0, policy_version 33455 (0.0041)
+[2024-06-10 12:54:58,402][35745] Fps is (10 sec: 47513.9, 60 sec: 44782.9, 300 sec: 44875.9). Total num frames: 548192256. Throughput: 0: 44914.3. Samples: 146754260. Policy #0 lag: (min: 0.0, avg: 11.1, max: 20.0)
+[2024-06-10 12:54:58,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:55:00,616][35978] Updated weights for policy 0, policy_version 33465 (0.0024)
+[2024-06-10 12:55:03,401][35745] Fps is (10 sec: 44237.6, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 548388864. Throughput: 0: 44789.5. Samples: 147021980. Policy #0 lag: (min: 0.0, avg: 11.1, max: 20.0)
+[2024-06-10 12:55:03,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:55:04,099][35978] Updated weights for policy 0, policy_version 33475 (0.0037)
+[2024-06-10 12:55:08,034][35978] Updated weights for policy 0, policy_version 33485 (0.0031)
+[2024-06-10 12:55:08,401][35745] Fps is (10 sec: 44237.3, 60 sec: 44783.1, 300 sec: 44820.0). Total num frames: 548634624. Throughput: 0: 44968.6. Samples: 147293340. Policy #0 lag: (min: 0.0, avg: 11.1, max: 20.0)
+[2024-06-10 12:55:08,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:55:11,586][35978] Updated weights for policy 0, policy_version 33495 (0.0030)
+[2024-06-10 12:55:13,402][35745] Fps is (10 sec: 47513.3, 60 sec: 45056.0, 300 sec: 44820.3). Total num frames: 548864000. Throughput: 0: 45045.0. Samples: 147428880. Policy #0 lag: (min: 0.0, avg: 11.1, max: 20.0)
+[2024-06-10 12:55:13,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:55:15,213][35978] Updated weights for policy 0, policy_version 33505 (0.0037)
+[2024-06-10 12:55:18,402][35745] Fps is (10 sec: 42598.0, 60 sec: 44783.0, 300 sec: 44820.0). Total num frames: 549060608. Throughput: 0: 45147.3. Samples: 147700220. Policy #0 lag: (min: 0.0, avg: 11.1, max: 20.0)
+[2024-06-10 12:55:18,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:55:18,804][35978] Updated weights for policy 0, policy_version 33515 (0.0031)
+[2024-06-10 12:55:22,650][35978] Updated weights for policy 0, policy_version 33525 (0.0033)
+[2024-06-10 12:55:23,402][35745] Fps is (10 sec: 44236.3, 60 sec: 45055.9, 300 sec: 44819.9). Total num frames: 549306368. Throughput: 0: 44912.8. Samples: 147959060. Policy #0 lag: (min: 1.0, avg: 10.2, max: 24.0)
+[2024-06-10 12:55:23,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:55:26,031][35978] Updated weights for policy 0, policy_version 33535 (0.0034)
+[2024-06-10 12:55:28,404][35745] Fps is (10 sec: 47502.3, 60 sec: 44782.9, 300 sec: 44819.6). Total num frames: 549535744. Throughput: 0: 44838.0. Samples: 148096800. Policy #0 lag: (min: 1.0, avg: 10.2, max: 24.0)
+[2024-06-10 12:55:28,405][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:55:29,809][35978] Updated weights for policy 0, policy_version 33545 (0.0028)
+[2024-06-10 12:55:33,402][35745] Fps is (10 sec: 44237.4, 60 sec: 45060.8, 300 sec: 44875.5). Total num frames: 549748736. Throughput: 0: 44968.5. Samples: 148371420. Policy #0 lag: (min: 1.0, avg: 10.2, max: 24.0)
+[2024-06-10 12:55:33,404][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:55:33,420][35978] Updated weights for policy 0, policy_version 33555 (0.0032)
+[2024-06-10 12:55:33,535][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000033556_549781504.pth...
+[2024-06-10 12:55:33,581][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000032899_539017216.pth
+[2024-06-10 12:55:37,019][35978] Updated weights for policy 0, policy_version 33565 (0.0037)
+[2024-06-10 12:55:38,402][35745] Fps is (10 sec: 44246.8, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 549978112. Throughput: 0: 44920.0. Samples: 148637280. Policy #0 lag: (min: 1.0, avg: 10.2, max: 24.0)
+[2024-06-10 12:55:38,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:55:40,857][35957] Signal inference workers to stop experience collection... (2250 times)
+[2024-06-10 12:55:40,889][35978] InferenceWorker_p0-w0: stopping experience collection (2250 times)
+[2024-06-10 12:55:40,918][35957] Signal inference workers to resume experience collection... (2250 times)
+[2024-06-10 12:55:40,922][35978] InferenceWorker_p0-w0: resuming experience collection (2250 times)
+[2024-06-10 12:55:40,925][35978] Updated weights for policy 0, policy_version 33575 (0.0028)
+[2024-06-10 12:55:43,402][35745] Fps is (10 sec: 45875.1, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 550207488. Throughput: 0: 44794.7. Samples: 148770020. Policy #0 lag: (min: 0.0, avg: 9.4, max: 23.0)
+[2024-06-10 12:55:43,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:55:44,283][35978] Updated weights for policy 0, policy_version 33585 (0.0031)
+[2024-06-10 12:55:48,102][35978] Updated weights for policy 0, policy_version 33595 (0.0044)
+[2024-06-10 12:55:48,402][35745] Fps is (10 sec: 45875.3, 60 sec: 45329.1, 300 sec: 44986.6). Total num frames: 550436864. Throughput: 0: 44922.1. Samples: 149043480. Policy #0 lag: (min: 0.0, avg: 9.4, max: 23.0)
+[2024-06-10 12:55:48,402][35745] Avg episode reward: [(0, '0.292')]
+[2024-06-10 12:55:51,562][35978] Updated weights for policy 0, policy_version 33605 (0.0032)
+[2024-06-10 12:55:53,402][35745] Fps is (10 sec: 42598.3, 60 sec: 44783.0, 300 sec: 44709.2). Total num frames: 550633472. Throughput: 0: 44811.9. Samples: 149309880. Policy #0 lag: (min: 0.0, avg: 9.4, max: 23.0)
+[2024-06-10 12:55:53,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:55:55,205][35978] Updated weights for policy 0, policy_version 33615 (0.0035)
+[2024-06-10 12:55:58,402][35745] Fps is (10 sec: 44237.3, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 550879232. Throughput: 0: 44761.8. Samples: 149443160. Policy #0 lag: (min: 0.0, avg: 9.4, max: 23.0)
+[2024-06-10 12:55:58,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:55:58,804][35978] Updated weights for policy 0, policy_version 33625 (0.0034)
+[2024-06-10 12:56:02,834][35978] Updated weights for policy 0, policy_version 33635 (0.0026)
+[2024-06-10 12:56:03,402][35745] Fps is (10 sec: 47513.5, 60 sec: 45329.0, 300 sec: 44931.0). Total num frames: 551108608. Throughput: 0: 44763.5. Samples: 149714580. Policy #0 lag: (min: 0.0, avg: 8.8, max: 22.0)
+[2024-06-10 12:56:03,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 12:56:05,885][35978] Updated weights for policy 0, policy_version 33645 (0.0030)
+[2024-06-10 12:56:08,402][35745] Fps is (10 sec: 40959.6, 60 sec: 44236.7, 300 sec: 44764.4). Total num frames: 551288832. Throughput: 0: 44881.4. Samples: 149978720. Policy #0 lag: (min: 0.0, avg: 8.8, max: 22.0)
+[2024-06-10 12:56:08,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:56:10,291][35978] Updated weights for policy 0, policy_version 33655 (0.0042)
+[2024-06-10 12:56:13,402][35745] Fps is (10 sec: 45875.2, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 551567360. Throughput: 0: 44761.9. Samples: 150110980. Policy #0 lag: (min: 0.0, avg: 8.8, max: 22.0)
+[2024-06-10 12:56:13,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:56:13,403][35978] Updated weights for policy 0, policy_version 33665 (0.0037)
+[2024-06-10 12:56:17,380][35978] Updated weights for policy 0, policy_version 33675 (0.0032)
+[2024-06-10 12:56:18,402][35745] Fps is (10 sec: 49151.7, 60 sec: 45329.0, 300 sec: 44986.6). Total num frames: 551780352. Throughput: 0: 44860.8. Samples: 150390160. Policy #0 lag: (min: 0.0, avg: 8.8, max: 22.0)
+[2024-06-10 12:56:18,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:56:20,809][35978] Updated weights for policy 0, policy_version 33685 (0.0044)
+[2024-06-10 12:56:23,404][35745] Fps is (10 sec: 40950.4, 60 sec: 44508.2, 300 sec: 44819.6). Total num frames: 551976960. Throughput: 0: 44872.8. Samples: 150656660. Policy #0 lag: (min: 0.0, avg: 8.8, max: 22.0)
+[2024-06-10 12:56:23,405][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:56:24,531][35978] Updated weights for policy 0, policy_version 33695 (0.0027)
+[2024-06-10 12:56:27,910][35978] Updated weights for policy 0, policy_version 33705 (0.0031)
+[2024-06-10 12:56:28,402][35745] Fps is (10 sec: 44237.3, 60 sec: 44784.7, 300 sec: 44764.4). Total num frames: 552222720. Throughput: 0: 44919.1. Samples: 150791380. Policy #0 lag: (min: 0.0, avg: 8.1, max: 20.0)
+[2024-06-10 12:56:28,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:56:31,942][35978] Updated weights for policy 0, policy_version 33715 (0.0035)
+[2024-06-10 12:56:33,404][35745] Fps is (10 sec: 49152.2, 60 sec: 45327.3, 300 sec: 44930.7). Total num frames: 552468480. Throughput: 0: 44915.1. Samples: 151064760. Policy #0 lag: (min: 0.0, avg: 8.1, max: 20.0)
+[2024-06-10 12:56:33,405][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:56:35,099][35978] Updated weights for policy 0, policy_version 33725 (0.0028)
+[2024-06-10 12:56:38,402][35745] Fps is (10 sec: 42597.6, 60 sec: 44509.8, 300 sec: 44875.5). Total num frames: 552648704. Throughput: 0: 44962.9. Samples: 151333220. Policy #0 lag: (min: 0.0, avg: 8.1, max: 20.0)
+[2024-06-10 12:56:38,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:56:39,419][35978] Updated weights for policy 0, policy_version 33735 (0.0024)
+[2024-06-10 12:56:42,561][35978] Updated weights for policy 0, policy_version 33745 (0.0024)
+[2024-06-10 12:56:43,402][35745] Fps is (10 sec: 44247.3, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 552910848. Throughput: 0: 44796.4. Samples: 151459000. Policy #0 lag: (min: 0.0, avg: 8.1, max: 20.0)
+[2024-06-10 12:56:43,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:56:46,617][35978] Updated weights for policy 0, policy_version 33755 (0.0040)
+[2024-06-10 12:56:48,401][35745] Fps is (10 sec: 47514.7, 60 sec: 44783.0, 300 sec: 44931.0). Total num frames: 553123840. Throughput: 0: 44851.6. Samples: 151732900. Policy #0 lag: (min: 0.0, avg: 8.7, max: 22.0)
+[2024-06-10 12:56:48,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:56:49,651][35978] Updated weights for policy 0, policy_version 33765 (0.0036)
+[2024-06-10 12:56:53,402][35745] Fps is (10 sec: 40959.7, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 553320448. Throughput: 0: 45076.5. Samples: 152007160. Policy #0 lag: (min: 0.0, avg: 8.7, max: 22.0)
+[2024-06-10 12:56:53,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 12:56:53,786][35957] Signal inference workers to stop experience collection... (2300 times)
+[2024-06-10 12:56:53,820][35978] InferenceWorker_p0-w0: stopping experience collection (2300 times)
+[2024-06-10 12:56:53,830][35957] Signal inference workers to resume experience collection... (2300 times)
+[2024-06-10 12:56:53,836][35978] InferenceWorker_p0-w0: resuming experience collection (2300 times)
+[2024-06-10 12:56:53,968][35978] Updated weights for policy 0, policy_version 33775 (0.0034)
+[2024-06-10 12:56:57,026][35978] Updated weights for policy 0, policy_version 33785 (0.0029)
+[2024-06-10 12:56:58,402][35745] Fps is (10 sec: 45875.0, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 553582592. Throughput: 0: 44980.5. Samples: 152135100. Policy #0 lag: (min: 0.0, avg: 8.7, max: 22.0)
+[2024-06-10 12:56:58,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:57:01,360][35978] Updated weights for policy 0, policy_version 33795 (0.0022)
+[2024-06-10 12:57:03,402][35745] Fps is (10 sec: 49152.0, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 553811968. Throughput: 0: 44879.2. Samples: 152409720. Policy #0 lag: (min: 0.0, avg: 8.7, max: 22.0)
+[2024-06-10 12:57:03,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:57:04,102][35978] Updated weights for policy 0, policy_version 33805 (0.0031)
+[2024-06-10 12:57:08,402][35745] Fps is (10 sec: 40959.8, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 553992192. Throughput: 0: 44896.1. Samples: 152676880. Policy #0 lag: (min: 0.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:57:08,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:57:08,799][35978] Updated weights for policy 0, policy_version 33815 (0.0030)
+[2024-06-10 12:57:11,631][35978] Updated weights for policy 0, policy_version 33825 (0.0026)
+[2024-06-10 12:57:13,402][35745] Fps is (10 sec: 42598.5, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 554237952. Throughput: 0: 44750.6. Samples: 152805160. Policy #0 lag: (min: 0.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:57:13,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 12:57:15,964][35978] Updated weights for policy 0, policy_version 33835 (0.0029)
+[2024-06-10 12:57:18,404][35745] Fps is (10 sec: 49140.7, 60 sec: 45054.3, 300 sec: 44875.2). Total num frames: 554483712. Throughput: 0: 44675.6. Samples: 153075160. Policy #0 lag: (min: 0.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:57:18,405][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:57:18,782][35978] Updated weights for policy 0, policy_version 33845 (0.0038)
+[2024-06-10 12:57:23,052][35978] Updated weights for policy 0, policy_version 33855 (0.0026)
+[2024-06-10 12:57:23,402][35745] Fps is (10 sec: 44236.8, 60 sec: 45057.8, 300 sec: 44931.0). Total num frames: 554680320. Throughput: 0: 45006.4. Samples: 153358500. Policy #0 lag: (min: 0.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:57:23,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:57:26,233][35978] Updated weights for policy 0, policy_version 33865 (0.0021)
+[2024-06-10 12:57:28,402][35745] Fps is (10 sec: 44247.4, 60 sec: 45056.0, 300 sec: 44931.0). Total num frames: 554926080. Throughput: 0: 45056.0. Samples: 153486520. Policy #0 lag: (min: 0.0, avg: 9.8, max: 22.0)
+[2024-06-10 12:57:28,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:57:30,322][35978] Updated weights for policy 0, policy_version 33875 (0.0039)
+[2024-06-10 12:57:33,241][35978] Updated weights for policy 0, policy_version 33885 (0.0030)
+[2024-06-10 12:57:33,402][35745] Fps is (10 sec: 49152.1, 60 sec: 45057.8, 300 sec: 44931.0). Total num frames: 555171840. Throughput: 0: 44992.0. Samples: 153757540. Policy #0 lag: (min: 0.0, avg: 10.0, max: 21.0)
+[2024-06-10 12:57:33,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:57:33,421][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000033885_555171840.pth...
+[2024-06-10 12:57:33,472][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000033226_544374784.pth
+[2024-06-10 12:57:37,823][35978] Updated weights for policy 0, policy_version 33895 (0.0039)
+[2024-06-10 12:57:38,402][35745] Fps is (10 sec: 42598.3, 60 sec: 45056.2, 300 sec: 44875.5). Total num frames: 555352064. Throughput: 0: 44976.1. Samples: 154031080. Policy #0 lag: (min: 0.0, avg: 10.0, max: 21.0)
+[2024-06-10 12:57:38,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:57:40,925][35978] Updated weights for policy 0, policy_version 33905 (0.0042)
+[2024-06-10 12:57:43,402][35745] Fps is (10 sec: 42598.0, 60 sec: 44782.8, 300 sec: 44931.0). Total num frames: 555597824. Throughput: 0: 45057.2. Samples: 154162680. Policy #0 lag: (min: 0.0, avg: 10.0, max: 21.0)
+[2024-06-10 12:57:43,402][35745] Avg episode reward: [(0, '0.294')]
+[2024-06-10 12:57:45,082][35978] Updated weights for policy 0, policy_version 33915 (0.0033)
+[2024-06-10 12:57:48,048][35978] Updated weights for policy 0, policy_version 33925 (0.0033)
+[2024-06-10 12:57:48,404][35745] Fps is (10 sec: 47502.3, 60 sec: 45054.2, 300 sec: 44875.1). Total num frames: 555827200. Throughput: 0: 44888.4. Samples: 154429800. Policy #0 lag: (min: 0.0, avg: 10.0, max: 21.0)
+[2024-06-10 12:57:48,405][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:57:52,586][35978] Updated weights for policy 0, policy_version 33935 (0.0030)
+[2024-06-10 12:57:53,402][35745] Fps is (10 sec: 45875.0, 60 sec: 45602.1, 300 sec: 45042.4). Total num frames: 556056576. Throughput: 0: 45009.2. Samples: 154702300. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-10 12:57:53,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:57:55,625][35978] Updated weights for policy 0, policy_version 33945 (0.0033)
+[2024-06-10 12:57:58,402][35745] Fps is (10 sec: 42608.3, 60 sec: 44509.8, 300 sec: 44875.5). Total num frames: 556253184. Throughput: 0: 45042.7. Samples: 154832080. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-10 12:57:58,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 12:57:59,794][35978] Updated weights for policy 0, policy_version 33955 (0.0036)
+[2024-06-10 12:58:02,804][35978] Updated weights for policy 0, policy_version 33965 (0.0029)
+[2024-06-10 12:58:03,402][35745] Fps is (10 sec: 42599.1, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 556482560. Throughput: 0: 44842.4. Samples: 155092960. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-10 12:58:03,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:58:06,961][35978] Updated weights for policy 0, policy_version 33975 (0.0036)
+[2024-06-10 12:58:08,326][35957] Signal inference workers to stop experience collection... (2350 times)
+[2024-06-10 12:58:08,326][35957] Signal inference workers to resume experience collection... (2350 times)
+[2024-06-10 12:58:08,351][35978] InferenceWorker_p0-w0: stopping experience collection (2350 times)
+[2024-06-10 12:58:08,351][35978] InferenceWorker_p0-w0: resuming experience collection (2350 times)
+[2024-06-10 12:58:08,402][35745] Fps is (10 sec: 47513.9, 60 sec: 45602.2, 300 sec: 44931.0). Total num frames: 556728320. Throughput: 0: 44800.5. Samples: 155374520. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-10 12:58:08,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 12:58:10,432][35978] Updated weights for policy 0, policy_version 33985 (0.0031)
+[2024-06-10 12:58:13,402][35745] Fps is (10 sec: 42598.4, 60 sec: 44509.9, 300 sec: 44875.5). Total num frames: 556908544. Throughput: 0: 44823.1. Samples: 155503560. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-10 12:58:13,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:58:14,418][35978] Updated weights for policy 0, policy_version 33995 (0.0030)
+[2024-06-10 12:58:17,386][35978] Updated weights for policy 0, policy_version 34005 (0.0033)
+[2024-06-10 12:58:18,402][35745] Fps is (10 sec: 44236.5, 60 sec: 44784.7, 300 sec: 44820.0). Total num frames: 557170688. Throughput: 0: 44811.1. Samples: 155774040. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-10 12:58:18,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 12:58:22,014][35978] Updated weights for policy 0, policy_version 34015 (0.0026)
+[2024-06-10 12:58:23,402][35745] Fps is (10 sec: 49151.7, 60 sec: 45329.1, 300 sec: 44875.5). Total num frames: 557400064. Throughput: 0: 44615.9. Samples: 156038800. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-10 12:58:23,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:58:25,075][35978] Updated weights for policy 0, policy_version 34025 (0.0026)
+[2024-06-10 12:58:28,402][35745] Fps is (10 sec: 42598.1, 60 sec: 44509.8, 300 sec: 44875.8). Total num frames: 557596672. Throughput: 0: 44806.2. Samples: 156178960. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-10 12:58:28,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:58:29,258][35978] Updated weights for policy 0, policy_version 34035 (0.0037)
+[2024-06-10 12:58:32,077][35978] Updated weights for policy 0, policy_version 34045 (0.0043)
+[2024-06-10 12:58:33,402][35745] Fps is (10 sec: 44236.6, 60 sec: 44509.8, 300 sec: 44875.5). Total num frames: 557842432. Throughput: 0: 44815.2. Samples: 156446380. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-10 12:58:33,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:58:36,294][35978] Updated weights for policy 0, policy_version 34055 (0.0044)
+[2024-06-10 12:58:38,404][35745] Fps is (10 sec: 49141.1, 60 sec: 45600.3, 300 sec: 44930.7). Total num frames: 558088192. Throughput: 0: 44700.0. Samples: 156713900. Policy #0 lag: (min: 0.0, avg: 8.6, max: 22.0)
+[2024-06-10 12:58:38,405][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 12:58:39,421][35978] Updated weights for policy 0, policy_version 34065 (0.0029)
+[2024-06-10 12:58:43,408][35745] Fps is (10 sec: 42571.9, 60 sec: 44505.3, 300 sec: 44930.1). Total num frames: 558268416. Throughput: 0: 44868.0. Samples: 156851420. Policy #0 lag: (min: 0.0, avg: 8.6, max: 22.0)
+[2024-06-10 12:58:43,409][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 12:58:43,546][35978] Updated weights for policy 0, policy_version 34075 (0.0037)
+[2024-06-10 12:58:46,492][35978] Updated weights for policy 0, policy_version 34085 (0.0031)
+[2024-06-10 12:58:48,401][35745] Fps is (10 sec: 44247.4, 60 sec: 45057.8, 300 sec: 44875.5). Total num frames: 558530560. Throughput: 0: 45030.7. Samples: 157119340. Policy #0 lag: (min: 0.0, avg: 8.6, max: 22.0)
+[2024-06-10 12:58:48,402][35745] Avg episode reward: [(0, '0.296')]
+[2024-06-10 12:58:51,060][35978] Updated weights for policy 0, policy_version 34095 (0.0044)
+[2024-06-10 12:58:53,402][35745] Fps is (10 sec: 47542.9, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 558743552. Throughput: 0: 44676.7. Samples: 157384980. Policy #0 lag: (min: 0.0, avg: 8.6, max: 22.0)
+[2024-06-10 12:58:53,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 12:58:54,236][35978] Updated weights for policy 0, policy_version 34105 (0.0040)
+[2024-06-10 12:58:58,402][35745] Fps is (10 sec: 39321.4, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 558923776. Throughput: 0: 44862.2. Samples: 157522360. Policy #0 lag: (min: 0.0, avg: 8.6, max: 22.0)
+[2024-06-10 12:58:58,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 12:58:58,634][35978] Updated weights for policy 0, policy_version 34115 (0.0032)
+[2024-06-10 12:59:01,537][35978] Updated weights for policy 0, policy_version 34125 (0.0039)
+[2024-06-10 12:59:03,402][35745] Fps is (10 sec: 44237.5, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 559185920. Throughput: 0: 44670.7. Samples: 157784220. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-10 12:59:03,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 12:59:05,542][35978] Updated weights for policy 0, policy_version 34135 (0.0026)
+[2024-06-10 12:59:08,402][35745] Fps is (10 sec: 49151.8, 60 sec: 44782.9, 300 sec: 44931.0). Total num frames: 559415296. Throughput: 0: 44789.3. Samples: 158054320. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-10 12:59:08,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:59:08,508][35978] Updated weights for policy 0, policy_version 34145 (0.0039)
+[2024-06-10 12:59:12,618][35978] Updated weights for policy 0, policy_version 34155 (0.0025)
+[2024-06-10 12:59:13,402][35745] Fps is (10 sec: 42598.3, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 559611904. Throughput: 0: 44711.7. Samples: 158190980. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-10 12:59:13,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 12:59:15,784][35978] Updated weights for policy 0, policy_version 34165 (0.0026)
+[2024-06-10 12:59:17,060][35957] Signal inference workers to stop experience collection... (2400 times)
+[2024-06-10 12:59:17,102][35978] InferenceWorker_p0-w0: stopping experience collection (2400 times)
+[2024-06-10 12:59:17,119][35957] Signal inference workers to resume experience collection... (2400 times)
+[2024-06-10 12:59:17,122][35978] InferenceWorker_p0-w0: resuming experience collection (2400 times)
+[2024-06-10 12:59:18,402][35745] Fps is (10 sec: 44236.4, 60 sec: 44782.9, 300 sec: 44931.0). Total num frames: 559857664. Throughput: 0: 44884.0. Samples: 158466160. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-10 12:59:18,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 12:59:20,391][35978] Updated weights for policy 0, policy_version 34175 (0.0037)
+[2024-06-10 12:59:23,402][35745] Fps is (10 sec: 45875.2, 60 sec: 44509.9, 300 sec: 44820.3). Total num frames: 560070656. Throughput: 0: 44663.2. Samples: 158723640. Policy #0 lag: (min: 0.0, avg: 9.9, max: 23.0)
+[2024-06-10 12:59:23,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 12:59:23,505][35978] Updated weights for policy 0, policy_version 34185 (0.0032)
+[2024-06-10 12:59:27,864][35978] Updated weights for policy 0, policy_version 34195 (0.0026)
+[2024-06-10 12:59:28,401][35745] Fps is (10 sec: 42599.3, 60 sec: 44783.1, 300 sec: 44876.5). Total num frames: 560283648. Throughput: 0: 44614.3. Samples: 158858780. Policy #0 lag: (min: 0.0, avg: 9.9, max: 23.0)
+[2024-06-10 12:59:28,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 12:59:30,766][35978] Updated weights for policy 0, policy_version 34205 (0.0032)
+[2024-06-10 12:59:33,401][35745] Fps is (10 sec: 42598.7, 60 sec: 44236.9, 300 sec: 44820.0). Total num frames: 560496640. Throughput: 0: 44544.4. Samples: 159123840. Policy #0 lag: (min: 0.0, avg: 9.9, max: 23.0)
+[2024-06-10 12:59:33,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:59:33,444][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000034211_560513024.pth...
+[2024-06-10 12:59:33,499][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000033556_549781504.pth
+[2024-06-10 12:59:35,174][35978] Updated weights for policy 0, policy_version 34215 (0.0033)
+[2024-06-10 12:59:38,079][35978] Updated weights for policy 0, policy_version 34225 (0.0032)
+[2024-06-10 12:59:38,402][35745] Fps is (10 sec: 45874.4, 60 sec: 44238.5, 300 sec: 44819.9). Total num frames: 560742400. Throughput: 0: 44639.2. Samples: 159393740. Policy #0 lag: (min: 0.0, avg: 9.9, max: 23.0)
+[2024-06-10 12:59:38,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 12:59:42,314][35978] Updated weights for policy 0, policy_version 34235 (0.0033)
+[2024-06-10 12:59:43,402][35745] Fps is (10 sec: 45874.7, 60 sec: 44787.6, 300 sec: 44875.5). Total num frames: 560955392. Throughput: 0: 44628.8. Samples: 159530660. Policy #0 lag: (min: 0.0, avg: 10.9, max: 24.0)
+[2024-06-10 12:59:43,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 12:59:45,267][35978] Updated weights for policy 0, policy_version 34245 (0.0031)
+[2024-06-10 12:59:48,402][35745] Fps is (10 sec: 42598.2, 60 sec: 43963.6, 300 sec: 44820.0). Total num frames: 561168384. Throughput: 0: 44908.7. Samples: 159805120. Policy #0 lag: (min: 0.0, avg: 10.9, max: 24.0)
+[2024-06-10 12:59:48,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 12:59:49,449][35978] Updated weights for policy 0, policy_version 34255 (0.0032)
+[2024-06-10 12:59:52,597][35978] Updated weights for policy 0, policy_version 34265 (0.0035)
+[2024-06-10 12:59:53,402][35745] Fps is (10 sec: 45875.4, 60 sec: 44510.0, 300 sec: 44820.0). Total num frames: 561414144. Throughput: 0: 44656.0. Samples: 160063840. Policy #0 lag: (min: 0.0, avg: 10.9, max: 24.0)
+[2024-06-10 12:59:53,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 12:59:56,954][35978] Updated weights for policy 0, policy_version 34275 (0.0026)
+[2024-06-10 12:59:58,408][35745] Fps is (10 sec: 45846.3, 60 sec: 45051.2, 300 sec: 44874.5). Total num frames: 561627136. Throughput: 0: 44809.2. Samples: 160207680. Policy #0 lag: (min: 0.0, avg: 10.9, max: 24.0)
+[2024-06-10 12:59:58,409][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 13:00:00,041][35978] Updated weights for policy 0, policy_version 34285 (0.0019)
+[2024-06-10 13:00:03,402][35745] Fps is (10 sec: 42598.1, 60 sec: 44236.7, 300 sec: 44764.4). Total num frames: 561840128. Throughput: 0: 44416.0. Samples: 160464880. Policy #0 lag: (min: 0.0, avg: 10.9, max: 24.0)
+[2024-06-10 13:00:03,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:00:04,190][35978] Updated weights for policy 0, policy_version 34295 (0.0024)
+[2024-06-10 13:00:07,080][35978] Updated weights for policy 0, policy_version 34305 (0.0025)
+[2024-06-10 13:00:08,402][35745] Fps is (10 sec: 47544.2, 60 sec: 44783.0, 300 sec: 44875.5). Total num frames: 562102272. Throughput: 0: 44826.7. Samples: 160740840. Policy #0 lag: (min: 1.0, avg: 10.6, max: 22.0)
+[2024-06-10 13:00:08,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 13:00:11,421][35978] Updated weights for policy 0, policy_version 34315 (0.0039)
+[2024-06-10 13:00:13,402][35745] Fps is (10 sec: 45875.1, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 562298880. Throughput: 0: 44866.0. Samples: 160877760. Policy #0 lag: (min: 1.0, avg: 10.6, max: 22.0)
+[2024-06-10 13:00:13,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:00:14,395][35978] Updated weights for policy 0, policy_version 34325 (0.0020)
+[2024-06-10 13:00:18,402][35745] Fps is (10 sec: 42598.4, 60 sec: 44510.0, 300 sec: 44820.0). Total num frames: 562528256. Throughput: 0: 44907.1. Samples: 161144660. Policy #0 lag: (min: 1.0, avg: 10.6, max: 22.0)
+[2024-06-10 13:00:18,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:00:18,440][35978] Updated weights for policy 0, policy_version 34335 (0.0035)
+[2024-06-10 13:00:21,553][35978] Updated weights for policy 0, policy_version 34345 (0.0031)
+[2024-06-10 13:00:23,402][35745] Fps is (10 sec: 45874.6, 60 sec: 44782.8, 300 sec: 44820.3). Total num frames: 562757632. Throughput: 0: 44955.8. Samples: 161416760. Policy #0 lag: (min: 1.0, avg: 10.6, max: 22.0)
+[2024-06-10 13:00:23,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:00:25,692][35957] Signal inference workers to stop experience collection... (2450 times)
+[2024-06-10 13:00:25,692][35957] Signal inference workers to resume experience collection... (2450 times)
+[2024-06-10 13:00:25,718][35978] InferenceWorker_p0-w0: stopping experience collection (2450 times)
+[2024-06-10 13:00:25,718][35978] InferenceWorker_p0-w0: resuming experience collection (2450 times)
+[2024-06-10 13:00:25,850][35978] Updated weights for policy 0, policy_version 34355 (0.0030)
+[2024-06-10 13:00:28,401][35745] Fps is (10 sec: 44237.0, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 562970624. Throughput: 0: 44861.4. Samples: 161549420. Policy #0 lag: (min: 0.0, avg: 10.9, max: 24.0)
+[2024-06-10 13:00:28,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 13:00:29,218][35978] Updated weights for policy 0, policy_version 34365 (0.0023)
+[2024-06-10 13:00:33,179][35978] Updated weights for policy 0, policy_version 34375 (0.0044)
+[2024-06-10 13:00:33,404][35745] Fps is (10 sec: 44227.4, 60 sec: 45054.2, 300 sec: 44819.6). Total num frames: 563200000. Throughput: 0: 44780.0. Samples: 161820320. Policy #0 lag: (min: 0.0, avg: 10.9, max: 24.0)
+[2024-06-10 13:00:33,405][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:00:36,589][35978] Updated weights for policy 0, policy_version 34385 (0.0030)
+[2024-06-10 13:00:38,401][35745] Fps is (10 sec: 44237.0, 60 sec: 44510.0, 300 sec: 44764.4). Total num frames: 563412992. Throughput: 0: 44863.6. Samples: 162082700. Policy #0 lag: (min: 0.0, avg: 10.9, max: 24.0)
+[2024-06-10 13:00:38,402][35745] Avg episode reward: [(0, '0.300')]
+[2024-06-10 13:00:40,209][35978] Updated weights for policy 0, policy_version 34395 (0.0022)
+[2024-06-10 13:00:43,401][35745] Fps is (10 sec: 45886.2, 60 sec: 45056.1, 300 sec: 44820.0). Total num frames: 563658752. Throughput: 0: 44906.0. Samples: 162228160. Policy #0 lag: (min: 0.0, avg: 10.9, max: 24.0)
+[2024-06-10 13:00:43,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:00:43,852][35978] Updated weights for policy 0, policy_version 34405 (0.0033)
+[2024-06-10 13:00:47,369][35978] Updated weights for policy 0, policy_version 34415 (0.0030)
+[2024-06-10 13:00:48,402][35745] Fps is (10 sec: 45874.6, 60 sec: 45056.1, 300 sec: 44875.5). Total num frames: 563871744. Throughput: 0: 45128.0. Samples: 162495640. Policy #0 lag: (min: 0.0, avg: 10.9, max: 24.0)
+[2024-06-10 13:00:48,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 13:00:50,935][35978] Updated weights for policy 0, policy_version 34425 (0.0043)
+[2024-06-10 13:00:53,402][35745] Fps is (10 sec: 44236.1, 60 sec: 44782.8, 300 sec: 44819.9). Total num frames: 564101120. Throughput: 0: 44880.8. Samples: 162760480. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-10 13:00:53,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 13:00:54,820][35978] Updated weights for policy 0, policy_version 34435 (0.0035)
+[2024-06-10 13:00:58,347][35978] Updated weights for policy 0, policy_version 34445 (0.0027)
+[2024-06-10 13:00:58,402][35745] Fps is (10 sec: 47513.8, 60 sec: 45333.9, 300 sec: 44875.5). Total num frames: 564346880. Throughput: 0: 44880.5. Samples: 162897380. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-10 13:00:58,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:01:02,081][35978] Updated weights for policy 0, policy_version 34455 (0.0031)
+[2024-06-10 13:01:03,402][35745] Fps is (10 sec: 42599.1, 60 sec: 44783.0, 300 sec: 44875.5). Total num frames: 564527104. Throughput: 0: 44886.2. Samples: 163164540. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-10 13:01:03,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 13:01:05,680][35978] Updated weights for policy 0, policy_version 34465 (0.0031)
+[2024-06-10 13:01:08,402][35745] Fps is (10 sec: 42598.2, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 564772864. Throughput: 0: 44970.0. Samples: 163440400. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-10 13:01:08,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:01:09,100][35978] Updated weights for policy 0, policy_version 34475 (0.0029)
+[2024-06-10 13:01:12,983][35978] Updated weights for policy 0, policy_version 34485 (0.0026)
+[2024-06-10 13:01:13,402][35745] Fps is (10 sec: 49151.4, 60 sec: 45329.1, 300 sec: 44875.5). Total num frames: 565018624. Throughput: 0: 45041.6. Samples: 163576300. Policy #0 lag: (min: 0.0, avg: 8.9, max: 22.0)
+[2024-06-10 13:01:13,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 13:01:16,526][35978] Updated weights for policy 0, policy_version 34495 (0.0050)
+[2024-06-10 13:01:18,402][35745] Fps is (10 sec: 42598.7, 60 sec: 44509.9, 300 sec: 44820.3). Total num frames: 565198848. Throughput: 0: 44772.6. Samples: 163834980. Policy #0 lag: (min: 0.0, avg: 8.9, max: 22.0)
+[2024-06-10 13:01:18,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:01:20,250][35978] Updated weights for policy 0, policy_version 34505 (0.0031)
+[2024-06-10 13:01:23,402][35745] Fps is (10 sec: 42598.3, 60 sec: 44783.0, 300 sec: 44819.9). Total num frames: 565444608. Throughput: 0: 45006.5. Samples: 164108000. Policy #0 lag: (min: 0.0, avg: 8.9, max: 22.0)
+[2024-06-10 13:01:23,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 13:01:23,422][35957] Signal inference workers to stop experience collection... (2500 times)
+[2024-06-10 13:01:23,423][35957] Signal inference workers to resume experience collection... (2500 times)
+[2024-06-10 13:01:23,466][35978] InferenceWorker_p0-w0: stopping experience collection (2500 times)
+[2024-06-10 13:01:23,466][35978] InferenceWorker_p0-w0: resuming experience collection (2500 times)
+[2024-06-10 13:01:23,738][35978] Updated weights for policy 0, policy_version 34515 (0.0035)
+[2024-06-10 13:01:27,594][35978] Updated weights for policy 0, policy_version 34525 (0.0032)
+[2024-06-10 13:01:28,402][35745] Fps is (10 sec: 49150.7, 60 sec: 45328.8, 300 sec: 44820.3). Total num frames: 565690368. Throughput: 0: 44732.6. Samples: 164241140. Policy #0 lag: (min: 0.0, avg: 8.9, max: 22.0)
+[2024-06-10 13:01:28,403][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 13:01:31,250][35978] Updated weights for policy 0, policy_version 34535 (0.0037)
+[2024-06-10 13:01:33,402][35745] Fps is (10 sec: 42598.5, 60 sec: 44511.5, 300 sec: 44820.0). Total num frames: 565870592. Throughput: 0: 44704.4. Samples: 164507340. Policy #0 lag: (min: 0.0, avg: 8.9, max: 22.0)
+[2024-06-10 13:01:33,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:01:33,407][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000034538_565870592.pth...
+[2024-06-10 13:01:33,464][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000033885_555171840.pth
+[2024-06-10 13:01:35,122][35978] Updated weights for policy 0, policy_version 34545 (0.0034)
+[2024-06-10 13:01:38,401][35745] Fps is (10 sec: 44238.3, 60 sec: 45329.1, 300 sec: 44820.0). Total num frames: 566132736. Throughput: 0: 44758.0. Samples: 164774580. Policy #0 lag: (min: 0.0, avg: 8.1, max: 21.0)
+[2024-06-10 13:01:38,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:01:38,427][35978] Updated weights for policy 0, policy_version 34555 (0.0037)
+[2024-06-10 13:01:42,337][35978] Updated weights for policy 0, policy_version 34565 (0.0032)
+[2024-06-10 13:01:43,402][35745] Fps is (10 sec: 49151.9, 60 sec: 45055.9, 300 sec: 44875.5). Total num frames: 566362112. Throughput: 0: 44720.8. Samples: 164909820. Policy #0 lag: (min: 0.0, avg: 8.1, max: 21.0)
+[2024-06-10 13:01:43,402][35745] Avg episode reward: [(0, '0.295')]
+[2024-06-10 13:01:45,707][35978] Updated weights for policy 0, policy_version 34575 (0.0029)
+[2024-06-10 13:01:48,408][35745] Fps is (10 sec: 39296.8, 60 sec: 44232.3, 300 sec: 44763.5). Total num frames: 566525952. Throughput: 0: 44689.4. Samples: 165175840. Policy #0 lag: (min: 0.0, avg: 8.1, max: 21.0)
+[2024-06-10 13:01:48,408][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:01:49,754][35978] Updated weights for policy 0, policy_version 34585 (0.0030)
+[2024-06-10 13:01:52,894][35978] Updated weights for policy 0, policy_version 34595 (0.0029)
+[2024-06-10 13:01:53,404][35745] Fps is (10 sec: 44226.9, 60 sec: 45054.3, 300 sec: 44819.6). Total num frames: 566804480. Throughput: 0: 44352.4. Samples: 165436360. Policy #0 lag: (min: 0.0, avg: 8.1, max: 21.0)
+[2024-06-10 13:01:53,405][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 13:01:57,130][35978] Updated weights for policy 0, policy_version 34605 (0.0028)
+[2024-06-10 13:01:58,402][35745] Fps is (10 sec: 50821.3, 60 sec: 44782.8, 300 sec: 44819.9). Total num frames: 567033856. Throughput: 0: 44622.6. Samples: 165584320. Policy #0 lag: (min: 0.0, avg: 7.9, max: 21.0)
+[2024-06-10 13:01:58,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 13:02:00,417][35978] Updated weights for policy 0, policy_version 34615 (0.0027)
+[2024-06-10 13:02:03,402][35745] Fps is (10 sec: 40969.1, 60 sec: 44782.8, 300 sec: 44819.9). Total num frames: 567214080. Throughput: 0: 44843.0. Samples: 165852920. Policy #0 lag: (min: 0.0, avg: 7.9, max: 21.0)
+[2024-06-10 13:02:03,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 13:02:04,371][35978] Updated weights for policy 0, policy_version 34625 (0.0027)
+[2024-06-10 13:02:07,453][35978] Updated weights for policy 0, policy_version 34635 (0.0033)
+[2024-06-10 13:02:08,402][35745] Fps is (10 sec: 42599.1, 60 sec: 44783.0, 300 sec: 44820.0). Total num frames: 567459840. Throughput: 0: 44637.0. Samples: 166116660. Policy #0 lag: (min: 0.0, avg: 7.9, max: 21.0)
+[2024-06-10 13:02:08,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:02:11,771][35978] Updated weights for policy 0, policy_version 34645 (0.0038)
+[2024-06-10 13:02:13,402][35745] Fps is (10 sec: 45876.0, 60 sec: 44236.9, 300 sec: 44709.2). Total num frames: 567672832. Throughput: 0: 44857.2. Samples: 166259700. Policy #0 lag: (min: 0.0, avg: 7.9, max: 21.0)
+[2024-06-10 13:02:13,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:02:14,786][35978] Updated weights for policy 0, policy_version 34655 (0.0038)
+[2024-06-10 13:02:18,402][35745] Fps is (10 sec: 44236.8, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 567902208. Throughput: 0: 44876.6. Samples: 166526780. Policy #0 lag: (min: 0.0, avg: 7.9, max: 21.0)
+[2024-06-10 13:02:18,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:02:19,034][35978] Updated weights for policy 0, policy_version 34665 (0.0041)
+[2024-06-10 13:02:22,324][35978] Updated weights for policy 0, policy_version 34675 (0.0027)
+[2024-06-10 13:02:23,402][35745] Fps is (10 sec: 45874.7, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 568131584. Throughput: 0: 44750.9. Samples: 166788380. Policy #0 lag: (min: 0.0, avg: 11.1, max: 24.0)
+[2024-06-10 13:02:23,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 13:02:26,099][35957] Signal inference workers to stop experience collection... (2550 times)
+[2024-06-10 13:02:26,099][35957] Signal inference workers to resume experience collection... (2550 times)
+[2024-06-10 13:02:26,144][35978] InferenceWorker_p0-w0: stopping experience collection (2550 times)
+[2024-06-10 13:02:26,144][35978] InferenceWorker_p0-w0: resuming experience collection (2550 times)
+[2024-06-10 13:02:26,387][35978] Updated weights for policy 0, policy_version 34685 (0.0027)
+[2024-06-10 13:02:28,402][35745] Fps is (10 sec: 45874.4, 60 sec: 44509.9, 300 sec: 44708.9). Total num frames: 568360960. Throughput: 0: 44817.8. Samples: 166926620. Policy #0 lag: (min: 0.0, avg: 11.1, max: 24.0)
+[2024-06-10 13:02:28,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:02:29,655][35978] Updated weights for policy 0, policy_version 34695 (0.0025)
+[2024-06-10 13:02:33,402][35745] Fps is (10 sec: 44237.3, 60 sec: 45056.1, 300 sec: 44820.0). Total num frames: 568573952. Throughput: 0: 44914.2. Samples: 167196700. Policy #0 lag: (min: 0.0, avg: 11.1, max: 24.0)
+[2024-06-10 13:02:33,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 13:02:33,592][35978] Updated weights for policy 0, policy_version 34705 (0.0034)
+[2024-06-10 13:02:36,641][35978] Updated weights for policy 0, policy_version 34715 (0.0041)
+[2024-06-10 13:02:38,402][35745] Fps is (10 sec: 42598.7, 60 sec: 44236.7, 300 sec: 44708.9). Total num frames: 568786944. Throughput: 0: 45033.0. Samples: 167462740. Policy #0 lag: (min: 0.0, avg: 11.1, max: 24.0)
+[2024-06-10 13:02:38,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:02:41,081][35978] Updated weights for policy 0, policy_version 34725 (0.0040)
+[2024-06-10 13:02:43,402][35745] Fps is (10 sec: 47512.8, 60 sec: 44782.9, 300 sec: 44820.3). Total num frames: 569049088. Throughput: 0: 44743.6. Samples: 167597780. Policy #0 lag: (min: 1.0, avg: 10.4, max: 23.0)
+[2024-06-10 13:02:43,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:02:43,905][35978] Updated weights for policy 0, policy_version 34735 (0.0032)
+[2024-06-10 13:02:48,404][35745] Fps is (10 sec: 45864.7, 60 sec: 45332.0, 300 sec: 44708.5). Total num frames: 569245696. Throughput: 0: 44795.6. Samples: 167868820. Policy #0 lag: (min: 1.0, avg: 10.4, max: 23.0)
+[2024-06-10 13:02:48,405][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:02:48,601][35978] Updated weights for policy 0, policy_version 34745 (0.0034)
+[2024-06-10 13:02:51,412][35978] Updated weights for policy 0, policy_version 34755 (0.0038)
+[2024-06-10 13:02:53,401][35745] Fps is (10 sec: 40960.8, 60 sec: 44238.6, 300 sec: 44764.4). Total num frames: 569458688. Throughput: 0: 44802.2. Samples: 168132760. Policy #0 lag: (min: 1.0, avg: 10.4, max: 23.0)
+[2024-06-10 13:02:53,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:02:55,965][35978] Updated weights for policy 0, policy_version 34765 (0.0027)
+[2024-06-10 13:02:58,404][35745] Fps is (10 sec: 49152.0, 60 sec: 45054.3, 300 sec: 44930.7). Total num frames: 569737216. Throughput: 0: 44740.3. Samples: 168273120. Policy #0 lag: (min: 1.0, avg: 10.4, max: 23.0)
+[2024-06-10 13:02:58,405][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:02:58,547][35978] Updated weights for policy 0, policy_version 34775 (0.0026)
+[2024-06-10 13:03:03,055][35978] Updated weights for policy 0, policy_version 34785 (0.0022)
+[2024-06-10 13:03:03,402][35745] Fps is (10 sec: 47512.9, 60 sec: 45329.1, 300 sec: 44764.4). Total num frames: 569933824. Throughput: 0: 44809.7. Samples: 168543220. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 13:03:03,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:03:05,686][35978] Updated weights for policy 0, policy_version 34795 (0.0040)
+[2024-06-10 13:03:08,402][35745] Fps is (10 sec: 39330.8, 60 sec: 44509.8, 300 sec: 44820.0). Total num frames: 570130432. Throughput: 0: 44917.0. Samples: 168809640. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 13:03:08,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:03:10,282][35978] Updated weights for policy 0, policy_version 34805 (0.0040)
+[2024-06-10 13:03:13,374][35978] Updated weights for policy 0, policy_version 34815 (0.0033)
+[2024-06-10 13:03:13,402][35745] Fps is (10 sec: 47513.9, 60 sec: 45602.1, 300 sec: 44875.5). Total num frames: 570408960. Throughput: 0: 44794.8. Samples: 168942380. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 13:03:13,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 13:03:17,801][35978] Updated weights for policy 0, policy_version 34825 (0.0022)
+[2024-06-10 13:03:18,402][35745] Fps is (10 sec: 47513.7, 60 sec: 45056.0, 300 sec: 44764.4). Total num frames: 570605568. Throughput: 0: 44899.5. Samples: 169217180. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 13:03:18,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:03:20,474][35978] Updated weights for policy 0, policy_version 34835 (0.0036)
+[2024-06-10 13:03:23,402][35745] Fps is (10 sec: 37683.3, 60 sec: 44236.9, 300 sec: 44708.9). Total num frames: 570785792. Throughput: 0: 44977.0. Samples: 169486700. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-10 13:03:23,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:03:25,103][35978] Updated weights for policy 0, policy_version 34845 (0.0024)
+[2024-06-10 13:03:27,418][35978] Updated weights for policy 0, policy_version 34855 (0.0038)
+[2024-06-10 13:03:28,403][35745] Fps is (10 sec: 45870.1, 60 sec: 45055.3, 300 sec: 44819.8). Total num frames: 571064320. Throughput: 0: 44958.2. Samples: 169620940. Policy #0 lag: (min: 1.0, avg: 11.1, max: 23.0)
+[2024-06-10 13:03:28,403][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:03:32,531][35978] Updated weights for policy 0, policy_version 34865 (0.0032)
+[2024-06-10 13:03:33,402][35745] Fps is (10 sec: 49150.9, 60 sec: 45055.8, 300 sec: 44709.2). Total num frames: 571277312. Throughput: 0: 45001.7. Samples: 169893800. Policy #0 lag: (min: 1.0, avg: 11.1, max: 23.0)
+[2024-06-10 13:03:33,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 13:03:33,539][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000034870_571310080.pth...
+[2024-06-10 13:03:33,615][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000034211_560513024.pth
+[2024-06-10 13:03:35,009][35978] Updated weights for policy 0, policy_version 34875 (0.0033)
+[2024-06-10 13:03:38,401][35745] Fps is (10 sec: 42603.3, 60 sec: 45056.1, 300 sec: 44820.9). Total num frames: 571490304. Throughput: 0: 45106.2. Samples: 170162540. Policy #0 lag: (min: 1.0, avg: 11.1, max: 23.0)
+[2024-06-10 13:03:38,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:03:39,908][35978] Updated weights for policy 0, policy_version 34885 (0.0031)
+[2024-06-10 13:03:40,783][35957] Signal inference workers to stop experience collection... (2600 times)
+[2024-06-10 13:03:40,784][35957] Signal inference workers to resume experience collection... (2600 times)
+[2024-06-10 13:03:40,805][35978] InferenceWorker_p0-w0: stopping experience collection (2600 times)
+[2024-06-10 13:03:40,805][35978] InferenceWorker_p0-w0: resuming experience collection (2600 times)
+[2024-06-10 13:03:42,834][35978] Updated weights for policy 0, policy_version 34895 (0.0030)
+[2024-06-10 13:03:43,402][35745] Fps is (10 sec: 44237.5, 60 sec: 44509.9, 300 sec: 44708.9). Total num frames: 571719680. Throughput: 0: 44799.2. Samples: 170288980. Policy #0 lag: (min: 1.0, avg: 11.1, max: 23.0)
+[2024-06-10 13:03:43,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 13:03:47,030][35978] Updated weights for policy 0, policy_version 34905 (0.0037)
+[2024-06-10 13:03:48,402][35745] Fps is (10 sec: 47513.3, 60 sec: 45330.8, 300 sec: 44820.0). Total num frames: 571965440. Throughput: 0: 44911.2. Samples: 170564220. Policy #0 lag: (min: 0.0, avg: 10.3, max: 20.0)
+[2024-06-10 13:03:48,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:03:49,997][35978] Updated weights for policy 0, policy_version 34915 (0.0038)
+[2024-06-10 13:03:53,402][35745] Fps is (10 sec: 45875.6, 60 sec: 45329.0, 300 sec: 44931.0). Total num frames: 572178432. Throughput: 0: 44933.8. Samples: 170831660. Policy #0 lag: (min: 0.0, avg: 10.3, max: 20.0)
+[2024-06-10 13:03:53,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:03:54,334][35978] Updated weights for policy 0, policy_version 34925 (0.0042)
+[2024-06-10 13:03:57,082][35978] Updated weights for policy 0, policy_version 34935 (0.0028)
+[2024-06-10 13:03:58,404][35745] Fps is (10 sec: 42588.4, 60 sec: 44236.8, 300 sec: 44764.1). Total num frames: 572391424. Throughput: 0: 44748.4. Samples: 170956160. Policy #0 lag: (min: 0.0, avg: 10.3, max: 20.0)
+[2024-06-10 13:03:58,405][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:04:01,698][35978] Updated weights for policy 0, policy_version 34945 (0.0031)
+[2024-06-10 13:04:03,402][35745] Fps is (10 sec: 47513.0, 60 sec: 45329.1, 300 sec: 44875.5). Total num frames: 572653568. Throughput: 0: 44740.8. Samples: 171230520. Policy #0 lag: (min: 0.0, avg: 10.3, max: 20.0)
+[2024-06-10 13:04:03,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:04:04,893][35978] Updated weights for policy 0, policy_version 34955 (0.0025)
+[2024-06-10 13:04:08,402][35745] Fps is (10 sec: 44247.3, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 572833792. Throughput: 0: 44646.2. Samples: 171495780. Policy #0 lag: (min: 0.0, avg: 10.3, max: 20.0)
+[2024-06-10 13:04:08,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 13:04:09,182][35978] Updated weights for policy 0, policy_version 34965 (0.0037)
+[2024-06-10 13:04:12,553][35978] Updated weights for policy 0, policy_version 34975 (0.0031)
+[2024-06-10 13:04:13,402][35745] Fps is (10 sec: 39322.1, 60 sec: 43963.8, 300 sec: 44708.9). Total num frames: 573046784. Throughput: 0: 44538.0. Samples: 171625100. Policy #0 lag: (min: 0.0, avg: 12.6, max: 26.0)
+[2024-06-10 13:04:13,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:04:16,154][35978] Updated weights for policy 0, policy_version 34985 (0.0037)
+[2024-06-10 13:04:18,404][35745] Fps is (10 sec: 49140.3, 60 sec: 45327.3, 300 sec: 44930.7). Total num frames: 573325312. Throughput: 0: 44534.3. Samples: 171897940. Policy #0 lag: (min: 0.0, avg: 12.6, max: 26.0)
+[2024-06-10 13:04:18,405][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:04:19,506][35978] Updated weights for policy 0, policy_version 34995 (0.0023)
+[2024-06-10 13:04:23,265][35978] Updated weights for policy 0, policy_version 35005 (0.0046)
+[2024-06-10 13:04:23,402][35745] Fps is (10 sec: 47513.1, 60 sec: 45602.1, 300 sec: 44875.5). Total num frames: 573521920. Throughput: 0: 44617.6. Samples: 172170340. Policy #0 lag: (min: 0.0, avg: 12.6, max: 26.0)
+[2024-06-10 13:04:23,402][35745] Avg episode reward: [(0, '0.314')]
+[2024-06-10 13:04:23,409][35957] Saving new best policy, reward=0.314!
+[2024-06-10 13:04:26,459][35978] Updated weights for policy 0, policy_version 35015 (0.0035)
+[2024-06-10 13:04:28,402][35745] Fps is (10 sec: 39330.4, 60 sec: 44237.5, 300 sec: 44819.9). Total num frames: 573718528. Throughput: 0: 44763.0. Samples: 172303320. Policy #0 lag: (min: 0.0, avg: 12.6, max: 26.0)
+[2024-06-10 13:04:28,408][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:04:30,758][35978] Updated weights for policy 0, policy_version 35025 (0.0033)
+[2024-06-10 13:04:33,402][35745] Fps is (10 sec: 47513.4, 60 sec: 45329.1, 300 sec: 44931.0). Total num frames: 573997056. Throughput: 0: 44777.2. Samples: 172579200. Policy #0 lag: (min: 0.0, avg: 12.6, max: 26.0)
+[2024-06-10 13:04:33,404][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:04:34,051][35978] Updated weights for policy 0, policy_version 35035 (0.0039)
+[2024-06-10 13:04:37,951][35978] Updated weights for policy 0, policy_version 35045 (0.0031)
+[2024-06-10 13:04:38,402][35745] Fps is (10 sec: 47514.0, 60 sec: 45055.9, 300 sec: 44875.5). Total num frames: 574193664. Throughput: 0: 44875.9. Samples: 172851080. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 13:04:38,402][35745] Avg episode reward: [(0, '0.298')]
+[2024-06-10 13:04:41,631][35978] Updated weights for policy 0, policy_version 35055 (0.0023)
+[2024-06-10 13:04:43,402][35745] Fps is (10 sec: 39322.1, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 574390272. Throughput: 0: 45009.0. Samples: 172981460. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 13:04:43,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:04:45,122][35978] Updated weights for policy 0, policy_version 35065 (0.0034)
+[2024-06-10 13:04:48,402][35745] Fps is (10 sec: 44236.4, 60 sec: 44509.8, 300 sec: 44819.9). Total num frames: 574636032. Throughput: 0: 44888.0. Samples: 173250480. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 13:04:48,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:04:48,663][35978] Updated weights for policy 0, policy_version 35075 (0.0047)
+[2024-06-10 13:04:50,285][35957] Signal inference workers to stop experience collection... (2650 times)
+[2024-06-10 13:04:50,289][35957] Signal inference workers to resume experience collection... (2650 times)
+[2024-06-10 13:04:50,319][35978] InferenceWorker_p0-w0: stopping experience collection (2650 times)
+[2024-06-10 13:04:50,320][35978] InferenceWorker_p0-w0: resuming experience collection (2650 times)
+[2024-06-10 13:04:52,266][35978] Updated weights for policy 0, policy_version 35085 (0.0035)
+[2024-06-10 13:04:53,402][35745] Fps is (10 sec: 47513.5, 60 sec: 44782.9, 300 sec: 44876.5). Total num frames: 574865408. Throughput: 0: 45125.3. Samples: 173526420. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 13:04:53,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:04:55,611][35978] Updated weights for policy 0, policy_version 35095 (0.0035)
+[2024-06-10 13:04:58,402][35745] Fps is (10 sec: 44237.3, 60 sec: 44784.7, 300 sec: 44875.5). Total num frames: 575078400. Throughput: 0: 45160.8. Samples: 173657340. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 13:04:58,410][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:04:59,713][35978] Updated weights for policy 0, policy_version 35105 (0.0026)
+[2024-06-10 13:05:03,234][35978] Updated weights for policy 0, policy_version 35115 (0.0030)
+[2024-06-10 13:05:03,402][35745] Fps is (10 sec: 45874.9, 60 sec: 44509.9, 300 sec: 44819.9). Total num frames: 575324160. Throughput: 0: 45132.9. Samples: 173928820. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 13:05:03,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:05:07,116][35978] Updated weights for policy 0, policy_version 35125 (0.0041)
+[2024-06-10 13:05:08,401][35745] Fps is (10 sec: 47513.9, 60 sec: 45329.1, 300 sec: 44931.1). Total num frames: 575553536. Throughput: 0: 44884.6. Samples: 174190140. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 13:05:08,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:05:11,241][35978] Updated weights for policy 0, policy_version 35135 (0.0035)
+[2024-06-10 13:05:13,402][35745] Fps is (10 sec: 42598.9, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 575750144. Throughput: 0: 45017.5. Samples: 174329100. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 13:05:13,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:05:14,209][35978] Updated weights for policy 0, policy_version 35145 (0.0028)
+[2024-06-10 13:05:18,128][35978] Updated weights for policy 0, policy_version 35155 (0.0046)
+[2024-06-10 13:05:18,402][35745] Fps is (10 sec: 42598.4, 60 sec: 44238.6, 300 sec: 44820.0). Total num frames: 575979520. Throughput: 0: 44956.2. Samples: 174602220. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 13:05:18,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:05:21,408][35978] Updated weights for policy 0, policy_version 35165 (0.0050)
+[2024-06-10 13:05:23,402][35745] Fps is (10 sec: 47513.1, 60 sec: 45056.0, 300 sec: 44931.0). Total num frames: 576225280. Throughput: 0: 44947.9. Samples: 174873740. Policy #0 lag: (min: 0.0, avg: 8.4, max: 22.0)
+[2024-06-10 13:05:23,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:05:25,064][35978] Updated weights for policy 0, policy_version 35175 (0.0032)
+[2024-06-10 13:05:28,401][35745] Fps is (10 sec: 45875.2, 60 sec: 45329.2, 300 sec: 44875.9). Total num frames: 576438272. Throughput: 0: 45067.6. Samples: 175009500. Policy #0 lag: (min: 0.0, avg: 8.4, max: 22.0)
+[2024-06-10 13:05:28,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:05:28,865][35978] Updated weights for policy 0, policy_version 35185 (0.0027)
+[2024-06-10 13:05:32,531][35978] Updated weights for policy 0, policy_version 35195 (0.0034)
+[2024-06-10 13:05:33,402][35745] Fps is (10 sec: 40959.8, 60 sec: 43963.7, 300 sec: 44819.9). Total num frames: 576634880. Throughput: 0: 44924.0. Samples: 175272060. Policy #0 lag: (min: 0.0, avg: 8.4, max: 22.0)
+[2024-06-10 13:05:33,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:05:33,459][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000035196_576651264.pth...
+[2024-06-10 13:05:33,521][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000034538_565870592.pth
+[2024-06-10 13:05:36,149][35978] Updated weights for policy 0, policy_version 35205 (0.0041)
+[2024-06-10 13:05:38,402][35745] Fps is (10 sec: 45874.7, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 576897024. Throughput: 0: 44812.9. Samples: 175543000. Policy #0 lag: (min: 0.0, avg: 8.4, max: 22.0)
+[2024-06-10 13:05:38,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:05:40,176][35978] Updated weights for policy 0, policy_version 35215 (0.0029)
+[2024-06-10 13:05:43,402][35745] Fps is (10 sec: 47514.2, 60 sec: 45329.1, 300 sec: 44875.5). Total num frames: 577110016. Throughput: 0: 45002.7. Samples: 175682460. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 13:05:43,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:05:43,706][35978] Updated weights for policy 0, policy_version 35225 (0.0031)
+[2024-06-10 13:05:47,230][35978] Updated weights for policy 0, policy_version 35235 (0.0036)
+[2024-06-10 13:05:48,405][35745] Fps is (10 sec: 42582.3, 60 sec: 44780.2, 300 sec: 44819.4). Total num frames: 577323008. Throughput: 0: 44791.8. Samples: 175944620. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 13:05:48,406][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:05:50,708][35978] Updated weights for policy 0, policy_version 35245 (0.0031)
+[2024-06-10 13:05:53,404][35745] Fps is (10 sec: 45864.5, 60 sec: 45054.3, 300 sec: 44819.6). Total num frames: 577568768. Throughput: 0: 45106.0. Samples: 176220020. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 13:05:53,404][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:05:54,134][35978] Updated weights for policy 0, policy_version 35255 (0.0027)
+[2024-06-10 13:05:57,900][35978] Updated weights for policy 0, policy_version 35265 (0.0027)
+[2024-06-10 13:05:58,402][35745] Fps is (10 sec: 45892.7, 60 sec: 45056.0, 300 sec: 44931.0). Total num frames: 577781760. Throughput: 0: 44985.3. Samples: 176353440. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 13:05:58,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:06:01,642][35978] Updated weights for policy 0, policy_version 35275 (0.0030)
+[2024-06-10 13:06:03,402][35745] Fps is (10 sec: 42608.6, 60 sec: 44510.0, 300 sec: 44820.0). Total num frames: 577994752. Throughput: 0: 44812.0. Samples: 176618760. Policy #0 lag: (min: 0.0, avg: 10.2, max: 21.0)
+[2024-06-10 13:06:03,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:06:05,138][35978] Updated weights for policy 0, policy_version 35285 (0.0030)
+[2024-06-10 13:06:08,402][35745] Fps is (10 sec: 45874.6, 60 sec: 44782.8, 300 sec: 44820.0). Total num frames: 578240512. Throughput: 0: 44827.9. Samples: 176891000. Policy #0 lag: (min: 0.0, avg: 11.8, max: 25.0)
+[2024-06-10 13:06:08,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:06:09,103][35978] Updated weights for policy 0, policy_version 35295 (0.0034)
+[2024-06-10 13:06:12,494][35978] Updated weights for policy 0, policy_version 35305 (0.0040)
+[2024-06-10 13:06:13,402][35745] Fps is (10 sec: 45874.8, 60 sec: 45055.9, 300 sec: 44931.0). Total num frames: 578453504. Throughput: 0: 44890.6. Samples: 177029580. Policy #0 lag: (min: 0.0, avg: 11.8, max: 25.0)
+[2024-06-10 13:06:13,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 13:06:13,920][35957] Signal inference workers to stop experience collection... (2700 times)
+[2024-06-10 13:06:13,922][35957] Signal inference workers to resume experience collection... (2700 times)
+[2024-06-10 13:06:13,933][35978] InferenceWorker_p0-w0: stopping experience collection (2700 times)
+[2024-06-10 13:06:13,942][35978] InferenceWorker_p0-w0: resuming experience collection (2700 times)
+[2024-06-10 13:06:16,391][35978] Updated weights for policy 0, policy_version 35315 (0.0026)
+[2024-06-10 13:06:18,402][35745] Fps is (10 sec: 42599.1, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 578666496. Throughput: 0: 44929.1. Samples: 177293860. Policy #0 lag: (min: 0.0, avg: 11.8, max: 25.0)
+[2024-06-10 13:06:18,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 13:06:19,554][35978] Updated weights for policy 0, policy_version 35325 (0.0025)
+[2024-06-10 13:06:23,402][35745] Fps is (10 sec: 44237.0, 60 sec: 44509.9, 300 sec: 44764.5). Total num frames: 578895872. Throughput: 0: 44957.4. Samples: 177566080. Policy #0 lag: (min: 0.0, avg: 11.8, max: 25.0)
+[2024-06-10 13:06:23,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:06:23,577][35978] Updated weights for policy 0, policy_version 35335 (0.0042)
+[2024-06-10 13:06:26,902][35978] Updated weights for policy 0, policy_version 35345 (0.0024)
+[2024-06-10 13:06:28,402][35745] Fps is (10 sec: 47513.2, 60 sec: 45055.9, 300 sec: 44986.6). Total num frames: 579141632. Throughput: 0: 45037.7. Samples: 177709160. Policy #0 lag: (min: 1.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:06:28,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 13:06:30,904][35978] Updated weights for policy 0, policy_version 35355 (0.0035)
+[2024-06-10 13:06:33,402][35745] Fps is (10 sec: 45872.5, 60 sec: 45328.7, 300 sec: 44819.9). Total num frames: 579354624. Throughput: 0: 45057.0. Samples: 177972040. Policy #0 lag: (min: 1.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:06:33,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:06:34,083][35978] Updated weights for policy 0, policy_version 35365 (0.0035)
+[2024-06-10 13:06:38,303][35978] Updated weights for policy 0, policy_version 35375 (0.0045)
+[2024-06-10 13:06:38,402][35745] Fps is (10 sec: 44236.6, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 579584000. Throughput: 0: 44896.0. Samples: 178240240. Policy #0 lag: (min: 1.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:06:38,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:06:41,659][35978] Updated weights for policy 0, policy_version 35385 (0.0025)
+[2024-06-10 13:06:43,402][35745] Fps is (10 sec: 47516.0, 60 sec: 45329.0, 300 sec: 45098.6). Total num frames: 579829760. Throughput: 0: 44781.7. Samples: 178368620. Policy #0 lag: (min: 1.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:06:43,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:06:45,651][35978] Updated weights for policy 0, policy_version 35395 (0.0034)
+[2024-06-10 13:06:48,402][35745] Fps is (10 sec: 45875.1, 60 sec: 45331.9, 300 sec: 44875.8). Total num frames: 580042752. Throughput: 0: 45124.7. Samples: 178649380. Policy #0 lag: (min: 1.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:06:48,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:06:48,626][35978] Updated weights for policy 0, policy_version 35405 (0.0027)
+[2024-06-10 13:06:52,872][35978] Updated weights for policy 0, policy_version 35415 (0.0037)
+[2024-06-10 13:06:53,402][35745] Fps is (10 sec: 42598.7, 60 sec: 44784.7, 300 sec: 44820.0). Total num frames: 580255744. Throughput: 0: 44893.9. Samples: 178911220. Policy #0 lag: (min: 0.0, avg: 10.4, max: 23.0)
+[2024-06-10 13:06:53,402][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 13:06:56,305][35978] Updated weights for policy 0, policy_version 35425 (0.0035)
+[2024-06-10 13:06:58,404][35745] Fps is (10 sec: 44227.0, 60 sec: 45054.3, 300 sec: 44986.2). Total num frames: 580485120. Throughput: 0: 44802.2. Samples: 179045780. Policy #0 lag: (min: 0.0, avg: 10.4, max: 23.0)
+[2024-06-10 13:06:58,405][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:07:00,074][35978] Updated weights for policy 0, policy_version 35435 (0.0020)
+[2024-06-10 13:07:03,356][35978] Updated weights for policy 0, policy_version 35445 (0.0026)
+[2024-06-10 13:07:03,402][35745] Fps is (10 sec: 47513.3, 60 sec: 45602.1, 300 sec: 44986.6). Total num frames: 580730880. Throughput: 0: 44927.9. Samples: 179315620. Policy #0 lag: (min: 0.0, avg: 10.4, max: 23.0)
+[2024-06-10 13:07:03,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:07:07,599][35978] Updated weights for policy 0, policy_version 35455 (0.0038)
+[2024-06-10 13:07:08,408][35745] Fps is (10 sec: 42581.3, 60 sec: 44505.3, 300 sec: 44874.5). Total num frames: 580911104. Throughput: 0: 44772.3. Samples: 179581120. Policy #0 lag: (min: 0.0, avg: 10.4, max: 23.0)
+[2024-06-10 13:07:08,409][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:07:10,644][35978] Updated weights for policy 0, policy_version 35465 (0.0040)
+[2024-06-10 13:07:13,402][35745] Fps is (10 sec: 40959.9, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 581140480. Throughput: 0: 44456.4. Samples: 179709700. Policy #0 lag: (min: 0.0, avg: 10.4, max: 23.0)
+[2024-06-10 13:07:13,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 13:07:14,751][35978] Updated weights for policy 0, policy_version 35475 (0.0030)
+[2024-06-10 13:07:17,785][35978] Updated weights for policy 0, policy_version 35485 (0.0038)
+[2024-06-10 13:07:18,404][35745] Fps is (10 sec: 47534.4, 60 sec: 45327.5, 300 sec: 44930.7). Total num frames: 581386240. Throughput: 0: 44986.6. Samples: 179996500. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-10 13:07:18,404][35745] Avg episode reward: [(0, '0.302')]
+[2024-06-10 13:07:21,992][35978] Updated weights for policy 0, policy_version 35495 (0.0028)
+[2024-06-10 13:07:23,402][35745] Fps is (10 sec: 45875.3, 60 sec: 45055.9, 300 sec: 44875.5). Total num frames: 581599232. Throughput: 0: 44992.9. Samples: 180264920. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-10 13:07:23,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:07:25,251][35978] Updated weights for policy 0, policy_version 35505 (0.0031)
+[2024-06-10 13:07:28,402][35745] Fps is (10 sec: 40967.5, 60 sec: 44236.7, 300 sec: 44819.9). Total num frames: 581795840. Throughput: 0: 45011.5. Samples: 180394140. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-10 13:07:28,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 13:07:29,296][35978] Updated weights for policy 0, policy_version 35515 (0.0029)
+[2024-06-10 13:07:32,515][35978] Updated weights for policy 0, policy_version 35525 (0.0042)
+[2024-06-10 13:07:33,402][35745] Fps is (10 sec: 45875.7, 60 sec: 45056.5, 300 sec: 44986.6). Total num frames: 582057984. Throughput: 0: 44704.6. Samples: 180661080. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-10 13:07:33,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:07:33,413][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000035526_582057984.pth...
+[2024-06-10 13:07:33,468][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000034870_571310080.pth
+[2024-06-10 13:07:36,663][35957] Signal inference workers to stop experience collection... (2750 times)
+[2024-06-10 13:07:36,716][35978] InferenceWorker_p0-w0: stopping experience collection (2750 times)
+[2024-06-10 13:07:36,718][35957] Signal inference workers to resume experience collection... (2750 times)
+[2024-06-10 13:07:36,733][35978] InferenceWorker_p0-w0: resuming experience collection (2750 times)
+[2024-06-10 13:07:36,858][35978] Updated weights for policy 0, policy_version 35535 (0.0027)
+[2024-06-10 13:07:38,403][35745] Fps is (10 sec: 45868.7, 60 sec: 44508.8, 300 sec: 44764.2). Total num frames: 582254592. Throughput: 0: 44933.6. Samples: 180933300. Policy #0 lag: (min: 1.0, avg: 9.6, max: 21.0)
+[2024-06-10 13:07:38,404][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 13:07:39,685][35978] Updated weights for policy 0, policy_version 35545 (0.0030)
+[2024-06-10 13:07:43,402][35745] Fps is (10 sec: 42597.6, 60 sec: 44236.7, 300 sec: 44875.8). Total num frames: 582483968. Throughput: 0: 44860.4. Samples: 181064400. Policy #0 lag: (min: 1.0, avg: 9.6, max: 21.0)
+[2024-06-10 13:07:43,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 13:07:44,070][35978] Updated weights for policy 0, policy_version 35555 (0.0043)
+[2024-06-10 13:07:47,315][35978] Updated weights for policy 0, policy_version 35565 (0.0028)
+[2024-06-10 13:07:48,402][35745] Fps is (10 sec: 45881.8, 60 sec: 44509.9, 300 sec: 44931.0). Total num frames: 582713344. Throughput: 0: 44846.2. Samples: 181333700. Policy #0 lag: (min: 1.0, avg: 9.6, max: 21.0)
+[2024-06-10 13:07:48,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:07:51,204][35978] Updated weights for policy 0, policy_version 35575 (0.0034)
+[2024-06-10 13:07:53,402][35745] Fps is (10 sec: 45875.6, 60 sec: 44782.9, 300 sec: 44764.8). Total num frames: 582942720. Throughput: 0: 45000.1. Samples: 181605840. Policy #0 lag: (min: 1.0, avg: 9.6, max: 21.0)
+[2024-06-10 13:07:53,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 13:07:54,720][35978] Updated weights for policy 0, policy_version 35585 (0.0031)
+[2024-06-10 13:07:58,402][35745] Fps is (10 sec: 44237.3, 60 sec: 44511.6, 300 sec: 44820.0). Total num frames: 583155712. Throughput: 0: 45021.0. Samples: 181735640. Policy #0 lag: (min: 1.0, avg: 9.6, max: 21.0)
+[2024-06-10 13:07:58,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:07:58,674][35978] Updated weights for policy 0, policy_version 35595 (0.0035)
+[2024-06-10 13:08:02,155][35978] Updated weights for policy 0, policy_version 35605 (0.0035)
+[2024-06-10 13:08:03,401][35745] Fps is (10 sec: 45875.7, 60 sec: 44509.9, 300 sec: 44986.6). Total num frames: 583401472. Throughput: 0: 44527.3. Samples: 182000140. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-10 13:08:03,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:08:06,212][35978] Updated weights for policy 0, policy_version 35615 (0.0028)
+[2024-06-10 13:08:08,401][35745] Fps is (10 sec: 47513.9, 60 sec: 45333.9, 300 sec: 44820.0). Total num frames: 583630848. Throughput: 0: 44660.6. Samples: 182274640. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-10 13:08:08,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:08:09,408][35978] Updated weights for policy 0, policy_version 35625 (0.0039)
+[2024-06-10 13:08:13,335][35978] Updated weights for policy 0, policy_version 35635 (0.0025)
+[2024-06-10 13:08:13,402][35745] Fps is (10 sec: 44236.0, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 583843840. Throughput: 0: 44834.7. Samples: 182411700. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-10 13:08:13,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:08:16,466][35978] Updated weights for policy 0, policy_version 35645 (0.0034)
+[2024-06-10 13:08:18,403][35745] Fps is (10 sec: 42593.6, 60 sec: 44510.5, 300 sec: 44986.4). Total num frames: 584056832. Throughput: 0: 44850.0. Samples: 182679380. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-10 13:08:18,403][35745] Avg episode reward: [(0, '0.315')]
+[2024-06-10 13:08:18,454][35957] Saving new best policy, reward=0.315!
+[2024-06-10 13:08:20,451][35978] Updated weights for policy 0, policy_version 35655 (0.0032)
+[2024-06-10 13:08:23,402][35745] Fps is (10 sec: 45875.8, 60 sec: 45056.1, 300 sec: 44875.7). Total num frames: 584302592. Throughput: 0: 44752.6. Samples: 182947100. Policy #0 lag: (min: 1.0, avg: 11.0, max: 22.0)
+[2024-06-10 13:08:23,402][35745] Avg episode reward: [(0, '0.314')]
+[2024-06-10 13:08:23,803][35978] Updated weights for policy 0, policy_version 35665 (0.0032)
+[2024-06-10 13:08:27,925][35978] Updated weights for policy 0, policy_version 35675 (0.0022)
+[2024-06-10 13:08:28,401][35745] Fps is (10 sec: 44242.0, 60 sec: 45056.2, 300 sec: 44820.0). Total num frames: 584499200. Throughput: 0: 44823.3. Samples: 183081440. Policy #0 lag: (min: 1.0, avg: 11.0, max: 22.0)
+[2024-06-10 13:08:28,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 13:08:31,420][35978] Updated weights for policy 0, policy_version 35685 (0.0031)
+[2024-06-10 13:08:33,408][35745] Fps is (10 sec: 42571.2, 60 sec: 44505.1, 300 sec: 44874.5). Total num frames: 584728576. Throughput: 0: 44852.0. Samples: 183352320. Policy #0 lag: (min: 1.0, avg: 11.0, max: 22.0)
+[2024-06-10 13:08:33,409][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:08:35,313][35978] Updated weights for policy 0, policy_version 35695 (0.0025)
+[2024-06-10 13:08:38,402][35745] Fps is (10 sec: 47513.0, 60 sec: 45330.2, 300 sec: 44931.0). Total num frames: 584974336. Throughput: 0: 44706.2. Samples: 183617620. Policy #0 lag: (min: 1.0, avg: 11.0, max: 22.0)
+[2024-06-10 13:08:38,402][35745] Avg episode reward: [(0, '0.299')]
+[2024-06-10 13:08:38,427][35978] Updated weights for policy 0, policy_version 35705 (0.0024)
+[2024-06-10 13:08:42,377][35978] Updated weights for policy 0, policy_version 35715 (0.0024)
+[2024-06-10 13:08:43,402][35745] Fps is (10 sec: 45904.4, 60 sec: 45056.1, 300 sec: 44820.0). Total num frames: 585187328. Throughput: 0: 44964.9. Samples: 183759060. Policy #0 lag: (min: 1.0, avg: 11.0, max: 22.0)
+[2024-06-10 13:08:43,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:08:45,413][35978] Updated weights for policy 0, policy_version 35725 (0.0033)
+[2024-06-10 13:08:48,402][35745] Fps is (10 sec: 42598.3, 60 sec: 44783.0, 300 sec: 44819.9). Total num frames: 585400320. Throughput: 0: 45221.7. Samples: 184035120. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-10 13:08:48,411][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:08:49,655][35978] Updated weights for policy 0, policy_version 35735 (0.0046)
+[2024-06-10 13:08:51,852][35957] Signal inference workers to stop experience collection... (2800 times)
+[2024-06-10 13:08:51,853][35957] Signal inference workers to resume experience collection... (2800 times)
+[2024-06-10 13:08:51,879][35978] InferenceWorker_p0-w0: stopping experience collection (2800 times)
+[2024-06-10 13:08:51,879][35978] InferenceWorker_p0-w0: resuming experience collection (2800 times)
+[2024-06-10 13:08:52,845][35978] Updated weights for policy 0, policy_version 35745 (0.0025)
+[2024-06-10 13:08:53,402][35745] Fps is (10 sec: 47513.4, 60 sec: 45329.1, 300 sec: 44986.9). Total num frames: 585662464. Throughput: 0: 44973.2. Samples: 184298440. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-10 13:08:53,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:08:57,238][35978] Updated weights for policy 0, policy_version 35755 (0.0038)
+[2024-06-10 13:08:58,402][35745] Fps is (10 sec: 47513.8, 60 sec: 45329.1, 300 sec: 44820.0). Total num frames: 585875456. Throughput: 0: 45067.7. Samples: 184439740. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-10 13:08:58,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:09:00,207][35978] Updated weights for policy 0, policy_version 35765 (0.0032)
+[2024-06-10 13:09:03,402][35745] Fps is (10 sec: 42598.7, 60 sec: 44782.9, 300 sec: 44931.0). Total num frames: 586088448. Throughput: 0: 44892.6. Samples: 184699500. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-10 13:09:03,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:09:04,396][35978] Updated weights for policy 0, policy_version 35775 (0.0039)
+[2024-06-10 13:09:07,282][35978] Updated weights for policy 0, policy_version 35785 (0.0028)
+[2024-06-10 13:09:08,402][35745] Fps is (10 sec: 42598.4, 60 sec: 44509.8, 300 sec: 44931.0). Total num frames: 586301440. Throughput: 0: 45040.4. Samples: 184973920. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-10 13:09:08,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:09:11,469][35978] Updated weights for policy 0, policy_version 35795 (0.0042)
+[2024-06-10 13:09:13,402][35745] Fps is (10 sec: 47513.6, 60 sec: 45329.2, 300 sec: 44875.9). Total num frames: 586563584. Throughput: 0: 45087.0. Samples: 185110360. Policy #0 lag: (min: 0.0, avg: 10.5, max: 23.0)
+[2024-06-10 13:09:13,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:09:14,602][35978] Updated weights for policy 0, policy_version 35805 (0.0028)
+[2024-06-10 13:09:18,402][35745] Fps is (10 sec: 47513.9, 60 sec: 45329.9, 300 sec: 44931.1). Total num frames: 586776576. Throughput: 0: 45197.1. Samples: 185385900. Policy #0 lag: (min: 0.0, avg: 10.5, max: 23.0)
+[2024-06-10 13:09:18,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 13:09:18,622][35978] Updated weights for policy 0, policy_version 35815 (0.0027)
+[2024-06-10 13:09:22,103][35978] Updated weights for policy 0, policy_version 35825 (0.0034)
+[2024-06-10 13:09:23,404][35745] Fps is (10 sec: 44226.2, 60 sec: 45054.2, 300 sec: 45041.8). Total num frames: 587005952. Throughput: 0: 45207.0. Samples: 185652040. Policy #0 lag: (min: 0.0, avg: 10.5, max: 23.0)
+[2024-06-10 13:09:23,405][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:09:26,064][35978] Updated weights for policy 0, policy_version 35835 (0.0029)
+[2024-06-10 13:09:28,402][35745] Fps is (10 sec: 44236.7, 60 sec: 45329.0, 300 sec: 44820.0). Total num frames: 587218944. Throughput: 0: 45016.0. Samples: 185784780. Policy #0 lag: (min: 0.0, avg: 10.5, max: 23.0)
+[2024-06-10 13:09:28,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 13:09:29,480][35978] Updated weights for policy 0, policy_version 35845 (0.0046)
+[2024-06-10 13:09:33,175][35978] Updated weights for policy 0, policy_version 35855 (0.0041)
+[2024-06-10 13:09:33,402][35745] Fps is (10 sec: 44247.1, 60 sec: 45333.9, 300 sec: 44931.0). Total num frames: 587448320. Throughput: 0: 44951.6. Samples: 186057940. Policy #0 lag: (min: 0.0, avg: 10.1, max: 21.0)
+[2024-06-10 13:09:33,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:09:33,497][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000035856_587464704.pth...
+[2024-06-10 13:09:33,551][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000035196_576651264.pth
+[2024-06-10 13:09:36,560][35978] Updated weights for policy 0, policy_version 35865 (0.0028)
+[2024-06-10 13:09:38,402][35745] Fps is (10 sec: 44236.6, 60 sec: 44782.9, 300 sec: 44986.6). Total num frames: 587661312. Throughput: 0: 45003.6. Samples: 186323600. Policy #0 lag: (min: 0.0, avg: 10.1, max: 21.0)
+[2024-06-10 13:09:38,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:09:40,311][35978] Updated weights for policy 0, policy_version 35875 (0.0035)
+[2024-06-10 13:09:43,402][35745] Fps is (10 sec: 42598.8, 60 sec: 44783.0, 300 sec: 44875.5). Total num frames: 587874304. Throughput: 0: 44814.7. Samples: 186456400. Policy #0 lag: (min: 0.0, avg: 10.1, max: 21.0)
+[2024-06-10 13:09:43,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:09:44,213][35978] Updated weights for policy 0, policy_version 35885 (0.0023)
+[2024-06-10 13:09:47,744][35978] Updated weights for policy 0, policy_version 35895 (0.0041)
+[2024-06-10 13:09:48,402][35745] Fps is (10 sec: 44236.6, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 588103680. Throughput: 0: 45041.7. Samples: 186726380. Policy #0 lag: (min: 0.0, avg: 10.1, max: 21.0)
+[2024-06-10 13:09:48,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:09:51,770][35978] Updated weights for policy 0, policy_version 35905 (0.0047)
+[2024-06-10 13:09:53,402][35745] Fps is (10 sec: 45872.6, 60 sec: 44509.5, 300 sec: 44931.0). Total num frames: 588333056. Throughput: 0: 44869.3. Samples: 186993060. Policy #0 lag: (min: 0.0, avg: 10.1, max: 21.0)
+[2024-06-10 13:09:53,403][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:09:55,384][35978] Updated weights for policy 0, policy_version 35915 (0.0035)
+[2024-06-10 13:09:58,402][35745] Fps is (10 sec: 42598.9, 60 sec: 44236.8, 300 sec: 44764.4). Total num frames: 588529664. Throughput: 0: 44686.7. Samples: 187121260. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 13:09:58,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:09:58,931][35978] Updated weights for policy 0, policy_version 35925 (0.0031)
+[2024-06-10 13:10:00,829][35957] Signal inference workers to stop experience collection... (2850 times)
+[2024-06-10 13:10:00,830][35957] Signal inference workers to resume experience collection... (2850 times)
+[2024-06-10 13:10:00,878][35978] InferenceWorker_p0-w0: stopping experience collection (2850 times)
+[2024-06-10 13:10:00,879][35978] InferenceWorker_p0-w0: resuming experience collection (2850 times)
+[2024-06-10 13:10:02,628][35978] Updated weights for policy 0, policy_version 35935 (0.0031)
+[2024-06-10 13:10:03,402][35745] Fps is (10 sec: 45877.4, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 588791808. Throughput: 0: 44606.1. Samples: 187393180. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 13:10:03,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:10:06,678][35978] Updated weights for policy 0, policy_version 35945 (0.0030)
+[2024-06-10 13:10:08,402][35745] Fps is (10 sec: 45874.8, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 588988416. Throughput: 0: 44788.1. Samples: 187667400. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 13:10:08,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:10:09,734][35978] Updated weights for policy 0, policy_version 35955 (0.0025)
+[2024-06-10 13:10:13,402][35745] Fps is (10 sec: 42598.2, 60 sec: 44236.7, 300 sec: 44875.5). Total num frames: 589217792. Throughput: 0: 44688.8. Samples: 187795780. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 13:10:13,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:10:13,938][35978] Updated weights for policy 0, policy_version 35965 (0.0037)
+[2024-06-10 13:10:17,315][35978] Updated weights for policy 0, policy_version 35975 (0.0030)
+[2024-06-10 13:10:18,401][35745] Fps is (10 sec: 49152.5, 60 sec: 45056.0, 300 sec: 44931.1). Total num frames: 589479936. Throughput: 0: 44706.3. Samples: 188069720. Policy #0 lag: (min: 0.0, avg: 9.8, max: 20.0)
+[2024-06-10 13:10:18,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:10:20,910][35978] Updated weights for policy 0, policy_version 35985 (0.0039)
+[2024-06-10 13:10:23,402][35745] Fps is (10 sec: 45874.8, 60 sec: 44511.5, 300 sec: 44875.5). Total num frames: 589676544. Throughput: 0: 44755.9. Samples: 188337620. Policy #0 lag: (min: 0.0, avg: 9.2, max: 20.0)
+[2024-06-10 13:10:23,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:10:24,333][35978] Updated weights for policy 0, policy_version 35995 (0.0037)
+[2024-06-10 13:10:28,247][35978] Updated weights for policy 0, policy_version 36005 (0.0029)
+[2024-06-10 13:10:28,402][35745] Fps is (10 sec: 42598.1, 60 sec: 44782.9, 300 sec: 44986.6). Total num frames: 589905920. Throughput: 0: 44711.5. Samples: 188468420. Policy #0 lag: (min: 0.0, avg: 9.2, max: 20.0)
+[2024-06-10 13:10:28,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:10:31,599][35978] Updated weights for policy 0, policy_version 36015 (0.0028)
+[2024-06-10 13:10:33,402][35745] Fps is (10 sec: 45875.2, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 590135296. Throughput: 0: 44646.1. Samples: 188735460. Policy #0 lag: (min: 0.0, avg: 9.2, max: 20.0)
+[2024-06-10 13:10:33,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:10:35,775][35978] Updated weights for policy 0, policy_version 36025 (0.0021)
+[2024-06-10 13:10:38,402][35745] Fps is (10 sec: 45875.1, 60 sec: 45056.0, 300 sec: 44931.0). Total num frames: 590364672. Throughput: 0: 44942.7. Samples: 189015460. Policy #0 lag: (min: 0.0, avg: 9.2, max: 20.0)
+[2024-06-10 13:10:38,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:10:38,844][35978] Updated weights for policy 0, policy_version 36035 (0.0038)
+[2024-06-10 13:10:42,882][35978] Updated weights for policy 0, policy_version 36045 (0.0028)
+[2024-06-10 13:10:43,402][35745] Fps is (10 sec: 44237.4, 60 sec: 45056.0, 300 sec: 44931.6). Total num frames: 590577664. Throughput: 0: 45000.4. Samples: 189146280. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 13:10:43,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:10:46,222][35978] Updated weights for policy 0, policy_version 36055 (0.0042)
+[2024-06-10 13:10:48,402][35745] Fps is (10 sec: 44236.4, 60 sec: 45055.9, 300 sec: 44875.8). Total num frames: 590807040. Throughput: 0: 44874.1. Samples: 189412520. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 13:10:48,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:10:50,121][35978] Updated weights for policy 0, policy_version 36065 (0.0035)
+[2024-06-10 13:10:53,402][35745] Fps is (10 sec: 45875.3, 60 sec: 45056.4, 300 sec: 44931.0). Total num frames: 591036416. Throughput: 0: 44840.9. Samples: 189685240. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 13:10:53,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:10:53,436][35978] Updated weights for policy 0, policy_version 36075 (0.0048)
+[2024-06-10 13:10:57,456][35978] Updated weights for policy 0, policy_version 36085 (0.0038)
+[2024-06-10 13:10:58,402][35745] Fps is (10 sec: 42598.6, 60 sec: 45055.9, 300 sec: 44875.5). Total num frames: 591233024. Throughput: 0: 44922.2. Samples: 189817280. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 13:10:58,402][35745] Avg episode reward: [(0, '0.314')]
+[2024-06-10 13:11:00,572][35978] Updated weights for policy 0, policy_version 36095 (0.0022)
+[2024-06-10 13:11:03,401][35745] Fps is (10 sec: 40960.3, 60 sec: 44236.9, 300 sec: 44764.5). Total num frames: 591446016. Throughput: 0: 44782.7. Samples: 190084940. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 13:11:03,402][35745] Avg episode reward: [(0, '0.313')]
+[2024-06-10 13:11:05,059][35978] Updated weights for policy 0, policy_version 36105 (0.0040)
+[2024-06-10 13:11:07,922][35978] Updated weights for policy 0, policy_version 36115 (0.0034)
+[2024-06-10 13:11:08,402][35745] Fps is (10 sec: 49152.3, 60 sec: 45602.1, 300 sec: 44986.6). Total num frames: 591724544. Throughput: 0: 44670.8. Samples: 190347800. Policy #0 lag: (min: 0.0, avg: 8.6, max: 21.0)
+[2024-06-10 13:11:08,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:11:12,398][35978] Updated weights for policy 0, policy_version 36125 (0.0035)
+[2024-06-10 13:11:13,402][35745] Fps is (10 sec: 47513.0, 60 sec: 45056.0, 300 sec: 44931.0). Total num frames: 591921152. Throughput: 0: 44925.3. Samples: 190490060. Policy #0 lag: (min: 0.0, avg: 8.6, max: 21.0)
+[2024-06-10 13:11:13,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:11:15,666][35978] Updated weights for policy 0, policy_version 36135 (0.0031)
+[2024-06-10 13:11:18,401][35745] Fps is (10 sec: 39322.0, 60 sec: 43963.7, 300 sec: 44820.0). Total num frames: 592117760. Throughput: 0: 44582.0. Samples: 190741640. Policy #0 lag: (min: 0.0, avg: 8.6, max: 21.0)
+[2024-06-10 13:11:18,402][35745] Avg episode reward: [(0, '0.314')]
+[2024-06-10 13:11:19,015][35957] Signal inference workers to stop experience collection... (2900 times)
+[2024-06-10 13:11:19,064][35957] Signal inference workers to resume experience collection... (2900 times)
+[2024-06-10 13:11:19,065][35978] InferenceWorker_p0-w0: stopping experience collection (2900 times)
+[2024-06-10 13:11:19,087][35978] InferenceWorker_p0-w0: resuming experience collection (2900 times)
+[2024-06-10 13:11:19,850][35978] Updated weights for policy 0, policy_version 36145 (0.0039)
+[2024-06-10 13:11:22,838][35978] Updated weights for policy 0, policy_version 36155 (0.0028)
+[2024-06-10 13:11:23,402][35745] Fps is (10 sec: 45875.2, 60 sec: 45056.1, 300 sec: 44875.5). Total num frames: 592379904. Throughput: 0: 44352.0. Samples: 191011300. Policy #0 lag: (min: 0.0, avg: 8.6, max: 21.0)
+[2024-06-10 13:11:23,404][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:11:26,987][35978] Updated weights for policy 0, policy_version 36165 (0.0028)
+[2024-06-10 13:11:28,402][35745] Fps is (10 sec: 45874.8, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 592576512. Throughput: 0: 44679.1. Samples: 191156840. Policy #0 lag: (min: 0.0, avg: 8.6, max: 21.0)
+[2024-06-10 13:11:28,406][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 13:11:29,947][35978] Updated weights for policy 0, policy_version 36175 (0.0025)
+[2024-06-10 13:11:33,402][35745] Fps is (10 sec: 40960.3, 60 sec: 44236.9, 300 sec: 44764.4). Total num frames: 592789504. Throughput: 0: 44705.1. Samples: 191424240. Policy #0 lag: (min: 0.0, avg: 12.9, max: 25.0)
+[2024-06-10 13:11:33,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:11:33,450][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000036182_592805888.pth...
+[2024-06-10 13:11:33,519][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000035526_582057984.pth
+[2024-06-10 13:11:34,560][35978] Updated weights for policy 0, policy_version 36185 (0.0023)
+[2024-06-10 13:11:37,400][35978] Updated weights for policy 0, policy_version 36195 (0.0030)
+[2024-06-10 13:11:38,402][35745] Fps is (10 sec: 49152.3, 60 sec: 45056.1, 300 sec: 44875.5). Total num frames: 593068032. Throughput: 0: 44410.7. Samples: 191683720. Policy #0 lag: (min: 0.0, avg: 12.9, max: 25.0)
+[2024-06-10 13:11:38,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:11:41,620][35978] Updated weights for policy 0, policy_version 36205 (0.0035)
+[2024-06-10 13:11:43,402][35745] Fps is (10 sec: 44236.4, 60 sec: 44236.8, 300 sec: 44708.9). Total num frames: 593231872. Throughput: 0: 44654.7. Samples: 191826740. Policy #0 lag: (min: 0.0, avg: 12.9, max: 25.0)
+[2024-06-10 13:11:43,406][35745] Avg episode reward: [(0, '0.313')]
+[2024-06-10 13:11:44,940][35978] Updated weights for policy 0, policy_version 36215 (0.0027)
+[2024-06-10 13:11:48,402][35745] Fps is (10 sec: 39321.3, 60 sec: 44236.9, 300 sec: 44764.4). Total num frames: 593461248. Throughput: 0: 44733.7. Samples: 192097960. Policy #0 lag: (min: 0.0, avg: 12.9, max: 25.0)
+[2024-06-10 13:11:48,402][35745] Avg episode reward: [(0, '0.297')]
+[2024-06-10 13:11:48,993][35978] Updated weights for policy 0, policy_version 36225 (0.0038)
+[2024-06-10 13:11:52,108][35978] Updated weights for policy 0, policy_version 36235 (0.0044)
+[2024-06-10 13:11:53,402][35745] Fps is (10 sec: 49152.3, 60 sec: 44782.9, 300 sec: 44875.9). Total num frames: 593723392. Throughput: 0: 44820.0. Samples: 192364700. Policy #0 lag: (min: 0.0, avg: 12.9, max: 25.0)
+[2024-06-10 13:11:53,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:11:56,207][35978] Updated weights for policy 0, policy_version 36245 (0.0032)
+[2024-06-10 13:11:58,404][35745] Fps is (10 sec: 47502.7, 60 sec: 45054.3, 300 sec: 44764.1). Total num frames: 593936384. Throughput: 0: 44743.5. Samples: 192503620. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 13:11:58,405][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:11:59,160][35978] Updated weights for policy 0, policy_version 36255 (0.0022)
+[2024-06-10 13:12:03,402][35745] Fps is (10 sec: 40959.9, 60 sec: 44782.9, 300 sec: 44820.9). Total num frames: 594132992. Throughput: 0: 45113.2. Samples: 192771740. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 13:12:03,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:12:03,844][35978] Updated weights for policy 0, policy_version 36265 (0.0037)
+[2024-06-10 13:12:06,563][35978] Updated weights for policy 0, policy_version 36275 (0.0034)
+[2024-06-10 13:12:08,402][35745] Fps is (10 sec: 44247.2, 60 sec: 44236.8, 300 sec: 44875.5). Total num frames: 594378752. Throughput: 0: 45061.4. Samples: 193039060. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 13:12:08,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:12:10,941][35978] Updated weights for policy 0, policy_version 36285 (0.0038)
+[2024-06-10 13:12:13,402][35745] Fps is (10 sec: 45875.5, 60 sec: 44509.9, 300 sec: 44764.7). Total num frames: 594591744. Throughput: 0: 44757.0. Samples: 193170900. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 13:12:13,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:12:14,172][35978] Updated weights for policy 0, policy_version 36295 (0.0032)
+[2024-06-10 13:12:18,375][35978] Updated weights for policy 0, policy_version 36305 (0.0030)
+[2024-06-10 13:12:18,407][35745] Fps is (10 sec: 44211.3, 60 sec: 45051.6, 300 sec: 44819.1). Total num frames: 594821120. Throughput: 0: 44606.3. Samples: 193431780. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 13:12:18,408][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:12:21,381][35978] Updated weights for policy 0, policy_version 36315 (0.0022)
+[2024-06-10 13:12:23,402][35745] Fps is (10 sec: 44235.8, 60 sec: 44236.7, 300 sec: 44875.5). Total num frames: 595034112. Throughput: 0: 44828.2. Samples: 193701000. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 13:12:23,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:12:25,707][35978] Updated weights for policy 0, policy_version 36325 (0.0026)
+[2024-06-10 13:12:28,402][35745] Fps is (10 sec: 47541.3, 60 sec: 45329.1, 300 sec: 44875.5). Total num frames: 595296256. Throughput: 0: 44804.5. Samples: 193842940. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 13:12:28,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:12:28,535][35978] Updated weights for policy 0, policy_version 36335 (0.0040)
+[2024-06-10 13:12:33,205][35978] Updated weights for policy 0, policy_version 36345 (0.0023)
+[2024-06-10 13:12:33,401][35745] Fps is (10 sec: 44237.9, 60 sec: 44783.0, 300 sec: 44820.2). Total num frames: 595476480. Throughput: 0: 44773.9. Samples: 194112780. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 13:12:33,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:12:35,163][35957] Signal inference workers to stop experience collection... (2950 times)
+[2024-06-10 13:12:35,163][35957] Signal inference workers to resume experience collection... (2950 times)
+[2024-06-10 13:12:35,183][35978] InferenceWorker_p0-w0: stopping experience collection (2950 times)
+[2024-06-10 13:12:35,188][35978] InferenceWorker_p0-w0: resuming experience collection (2950 times)
+[2024-06-10 13:12:35,760][35978] Updated weights for policy 0, policy_version 36355 (0.0021)
+[2024-06-10 13:12:38,403][35745] Fps is (10 sec: 40954.6, 60 sec: 43962.8, 300 sec: 44819.8). Total num frames: 595705856. Throughput: 0: 44725.8. Samples: 194377420. Policy #0 lag: (min: 0.0, avg: 9.0, max: 21.0)
+[2024-06-10 13:12:38,404][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:12:40,388][35978] Updated weights for policy 0, policy_version 36365 (0.0033)
+[2024-06-10 13:12:43,313][35978] Updated weights for policy 0, policy_version 36375 (0.0033)
+[2024-06-10 13:12:43,402][35745] Fps is (10 sec: 49151.1, 60 sec: 45602.1, 300 sec: 44931.0). Total num frames: 595968000. Throughput: 0: 44613.3. Samples: 194511120. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-10 13:12:43,408][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:12:47,618][35978] Updated weights for policy 0, policy_version 36385 (0.0045)
+[2024-06-10 13:12:48,404][35745] Fps is (10 sec: 45869.9, 60 sec: 45054.2, 300 sec: 44819.6). Total num frames: 596164608. Throughput: 0: 44832.7. Samples: 194789320. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-10 13:12:48,405][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:12:50,677][35978] Updated weights for policy 0, policy_version 36395 (0.0024)
+[2024-06-10 13:12:53,402][35745] Fps is (10 sec: 42598.5, 60 sec: 44509.8, 300 sec: 44875.5). Total num frames: 596393984. Throughput: 0: 44651.9. Samples: 195048400. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-10 13:12:53,402][35745] Avg episode reward: [(0, '0.303')]
+[2024-06-10 13:12:55,056][35978] Updated weights for policy 0, policy_version 36405 (0.0031)
+[2024-06-10 13:12:57,669][35978] Updated weights for policy 0, policy_version 36415 (0.0032)
+[2024-06-10 13:12:58,402][35745] Fps is (10 sec: 50802.5, 60 sec: 45603.9, 300 sec: 44986.6). Total num frames: 596672512. Throughput: 0: 44958.6. Samples: 195194040. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-10 13:12:58,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:13:02,447][35978] Updated weights for policy 0, policy_version 36425 (0.0042)
+[2024-06-10 13:13:03,402][35745] Fps is (10 sec: 44236.9, 60 sec: 45056.0, 300 sec: 44764.4). Total num frames: 596836352. Throughput: 0: 45282.2. Samples: 195469220. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-10 13:13:03,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:13:04,864][35978] Updated weights for policy 0, policy_version 36435 (0.0036)
+[2024-06-10 13:13:08,402][35745] Fps is (10 sec: 37683.2, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 597049344. Throughput: 0: 44975.7. Samples: 195724900. Policy #0 lag: (min: 2.0, avg: 12.2, max: 23.0)
+[2024-06-10 13:13:08,403][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:13:09,605][35978] Updated weights for policy 0, policy_version 36445 (0.0037)
+[2024-06-10 13:13:12,387][35978] Updated weights for policy 0, policy_version 36455 (0.0027)
+[2024-06-10 13:13:13,402][35745] Fps is (10 sec: 49152.2, 60 sec: 45602.1, 300 sec: 44986.7). Total num frames: 597327872. Throughput: 0: 44916.8. Samples: 195864200. Policy #0 lag: (min: 2.0, avg: 12.2, max: 23.0)
+[2024-06-10 13:13:13,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:13:16,997][35978] Updated weights for policy 0, policy_version 36465 (0.0028)
+[2024-06-10 13:13:18,404][35745] Fps is (10 sec: 47502.6, 60 sec: 45058.6, 300 sec: 44819.6). Total num frames: 597524480. Throughput: 0: 44992.2. Samples: 196137540. Policy #0 lag: (min: 2.0, avg: 12.2, max: 23.0)
+[2024-06-10 13:13:18,405][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:13:19,698][35978] Updated weights for policy 0, policy_version 36475 (0.0021)
+[2024-06-10 13:13:23,402][35745] Fps is (10 sec: 39321.4, 60 sec: 44783.0, 300 sec: 44819.9). Total num frames: 597721088. Throughput: 0: 45059.9. Samples: 196405060. Policy #0 lag: (min: 2.0, avg: 12.2, max: 23.0)
+[2024-06-10 13:13:23,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:13:24,297][35978] Updated weights for policy 0, policy_version 36485 (0.0041)
+[2024-06-10 13:13:26,714][35978] Updated weights for policy 0, policy_version 36495 (0.0027)
+[2024-06-10 13:13:28,402][35745] Fps is (10 sec: 45886.1, 60 sec: 44782.9, 300 sec: 44932.0). Total num frames: 597983232. Throughput: 0: 45065.5. Samples: 196539060. Policy #0 lag: (min: 2.0, avg: 12.2, max: 23.0)
+[2024-06-10 13:13:28,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:13:31,539][35978] Updated weights for policy 0, policy_version 36505 (0.0039)
+[2024-06-10 13:13:33,402][35745] Fps is (10 sec: 49152.5, 60 sec: 45602.1, 300 sec: 44875.5). Total num frames: 598212608. Throughput: 0: 45059.3. Samples: 196816880. Policy #0 lag: (min: 0.0, avg: 12.1, max: 22.0)
+[2024-06-10 13:13:33,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:13:33,478][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000036513_598228992.pth...
+[2024-06-10 13:13:33,530][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000035856_587464704.pth
+[2024-06-10 13:13:33,954][35978] Updated weights for policy 0, policy_version 36515 (0.0034)
+[2024-06-10 13:13:38,402][35745] Fps is (10 sec: 42598.4, 60 sec: 45057.0, 300 sec: 44820.0). Total num frames: 598409216. Throughput: 0: 45293.4. Samples: 197086600. Policy #0 lag: (min: 0.0, avg: 12.1, max: 22.0)
+[2024-06-10 13:13:38,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:13:38,549][35978] Updated weights for policy 0, policy_version 36525 (0.0031)
+[2024-06-10 13:13:40,974][35957] Signal inference workers to stop experience collection... (3000 times)
+[2024-06-10 13:13:41,011][35978] InferenceWorker_p0-w0: stopping experience collection (3000 times)
+[2024-06-10 13:13:41,024][35957] Signal inference workers to resume experience collection... (3000 times)
+[2024-06-10 13:13:41,029][35978] InferenceWorker_p0-w0: resuming experience collection (3000 times)
+[2024-06-10 13:13:41,406][35978] Updated weights for policy 0, policy_version 36535 (0.0028)
+[2024-06-10 13:13:43,402][35745] Fps is (10 sec: 45875.3, 60 sec: 45056.1, 300 sec: 44986.6). Total num frames: 598671360. Throughput: 0: 45078.3. Samples: 197222560. Policy #0 lag: (min: 0.0, avg: 12.1, max: 22.0)
+[2024-06-10 13:13:43,402][35745] Avg episode reward: [(0, '0.313')]
+[2024-06-10 13:13:46,067][35978] Updated weights for policy 0, policy_version 36545 (0.0036)
+[2024-06-10 13:13:48,402][35745] Fps is (10 sec: 47513.6, 60 sec: 45330.9, 300 sec: 44820.0). Total num frames: 598884352. Throughput: 0: 44911.6. Samples: 197490240. Policy #0 lag: (min: 0.0, avg: 12.1, max: 22.0)
+[2024-06-10 13:13:48,402][35745] Avg episode reward: [(0, '0.321')]
+[2024-06-10 13:13:48,402][35957] Saving new best policy, reward=0.321!
+[2024-06-10 13:13:49,052][35978] Updated weights for policy 0, policy_version 36555 (0.0040)
+[2024-06-10 13:13:53,401][35745] Fps is (10 sec: 39321.9, 60 sec: 44510.0, 300 sec: 44708.9). Total num frames: 599064576. Throughput: 0: 45465.9. Samples: 197770860. Policy #0 lag: (min: 0.0, avg: 10.4, max: 21.0)
+[2024-06-10 13:13:53,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:13:53,458][35978] Updated weights for policy 0, policy_version 36565 (0.0045)
+[2024-06-10 13:13:55,983][35978] Updated weights for policy 0, policy_version 36575 (0.0034)
+[2024-06-10 13:13:58,402][35745] Fps is (10 sec: 44236.0, 60 sec: 44236.7, 300 sec: 44875.5). Total num frames: 599326720. Throughput: 0: 45030.5. Samples: 197890580. Policy #0 lag: (min: 0.0, avg: 10.4, max: 21.0)
+[2024-06-10 13:13:58,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:14:00,652][35978] Updated weights for policy 0, policy_version 36585 (0.0034)
+[2024-06-10 13:14:03,205][35978] Updated weights for policy 0, policy_version 36595 (0.0042)
+[2024-06-10 13:14:03,408][35745] Fps is (10 sec: 50757.5, 60 sec: 45597.4, 300 sec: 44985.6). Total num frames: 599572480. Throughput: 0: 45087.1. Samples: 198166640. Policy #0 lag: (min: 0.0, avg: 10.4, max: 21.0)
+[2024-06-10 13:14:03,409][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:14:07,652][35978] Updated weights for policy 0, policy_version 36605 (0.0034)
+[2024-06-10 13:14:08,401][35745] Fps is (10 sec: 42599.5, 60 sec: 45056.1, 300 sec: 44708.9). Total num frames: 599752704. Throughput: 0: 45063.7. Samples: 198432920. Policy #0 lag: (min: 0.0, avg: 10.4, max: 21.0)
+[2024-06-10 13:14:08,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:14:10,834][35978] Updated weights for policy 0, policy_version 36615 (0.0031)
+[2024-06-10 13:14:13,402][35745] Fps is (10 sec: 42625.6, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 599998464. Throughput: 0: 45044.4. Samples: 198566060. Policy #0 lag: (min: 0.0, avg: 10.4, max: 21.0)
+[2024-06-10 13:14:13,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:14:15,315][35978] Updated weights for policy 0, policy_version 36625 (0.0032)
+[2024-06-10 13:14:18,151][35978] Updated weights for policy 0, policy_version 36635 (0.0031)
+[2024-06-10 13:14:18,402][35745] Fps is (10 sec: 49151.3, 60 sec: 45330.8, 300 sec: 44875.9). Total num frames: 600244224. Throughput: 0: 44880.4. Samples: 198836500. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 13:14:18,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:14:22,686][35978] Updated weights for policy 0, policy_version 36645 (0.0038)
+[2024-06-10 13:14:23,402][35745] Fps is (10 sec: 45874.5, 60 sec: 45602.1, 300 sec: 44875.5). Total num frames: 600457216. Throughput: 0: 45170.1. Samples: 199119260. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 13:14:23,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:14:25,221][35978] Updated weights for policy 0, policy_version 36655 (0.0047)
+[2024-06-10 13:14:28,402][35745] Fps is (10 sec: 40960.0, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 600653824. Throughput: 0: 44744.3. Samples: 199236060. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 13:14:28,402][35745] Avg episode reward: [(0, '0.314')]
+[2024-06-10 13:14:29,640][35978] Updated weights for policy 0, policy_version 36665 (0.0028)
+[2024-06-10 13:14:32,363][35978] Updated weights for policy 0, policy_version 36675 (0.0038)
+[2024-06-10 13:14:33,402][35745] Fps is (10 sec: 45875.9, 60 sec: 45056.0, 300 sec: 44931.0). Total num frames: 600915968. Throughput: 0: 44996.4. Samples: 199515080. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 13:14:33,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:14:36,674][35978] Updated weights for policy 0, policy_version 36685 (0.0021)
+[2024-06-10 13:14:38,402][35745] Fps is (10 sec: 47514.0, 60 sec: 45329.1, 300 sec: 44931.0). Total num frames: 601128960. Throughput: 0: 44918.1. Samples: 199792180. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-10 13:14:38,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:14:39,752][35978] Updated weights for policy 0, policy_version 36695 (0.0031)
+[2024-06-10 13:14:43,402][35745] Fps is (10 sec: 42597.7, 60 sec: 44509.7, 300 sec: 44875.5). Total num frames: 601341952. Throughput: 0: 44980.9. Samples: 199914720. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 13:14:43,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:14:44,285][35978] Updated weights for policy 0, policy_version 36705 (0.0034)
+[2024-06-10 13:14:46,974][35978] Updated weights for policy 0, policy_version 36715 (0.0036)
+[2024-06-10 13:14:48,404][35745] Fps is (10 sec: 49140.2, 60 sec: 45600.3, 300 sec: 45041.8). Total num frames: 601620480. Throughput: 0: 44940.9. Samples: 200188800. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 13:14:48,405][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:14:51,789][35978] Updated weights for policy 0, policy_version 36725 (0.0031)
+[2024-06-10 13:14:53,402][35745] Fps is (10 sec: 47513.6, 60 sec: 45875.0, 300 sec: 45042.1). Total num frames: 601817088. Throughput: 0: 45045.1. Samples: 200459960. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 13:14:53,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:14:54,148][35978] Updated weights for policy 0, policy_version 36735 (0.0028)
+[2024-06-10 13:14:58,402][35745] Fps is (10 sec: 37691.5, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 601997312. Throughput: 0: 45050.0. Samples: 200593320. Policy #0 lag: (min: 0.0, avg: 11.1, max: 22.0)
+[2024-06-10 13:14:58,402][35745] Avg episode reward: [(0, '0.314')]
+[2024-06-10 13:14:58,925][35978] Updated weights for policy 0, policy_version 36745 (0.0028)
+[2024-06-10 13:15:00,201][35957] Signal inference workers to stop experience collection... (3050 times)
+[2024-06-10 13:15:00,202][35957] Signal inference workers to resume experience collection... (3050 times)
+[2024-06-10 13:15:00,221][35978] InferenceWorker_p0-w0: stopping experience collection (3050 times)
+[2024-06-10 13:15:00,221][35978] InferenceWorker_p0-w0: resuming experience collection (3050 times)
+[2024-06-10 13:15:01,455][35978] Updated weights for policy 0, policy_version 36755 (0.0027)
+[2024-06-10 13:15:03,404][35745] Fps is (10 sec: 45865.2, 60 sec: 45059.0, 300 sec: 45041.8). Total num frames: 602275840. Throughput: 0: 44953.7. Samples: 200859520. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:15:03,405][35745] Avg episode reward: [(0, '0.315')]
+[2024-06-10 13:15:05,891][35978] Updated weights for policy 0, policy_version 36765 (0.0050)
+[2024-06-10 13:15:08,404][35745] Fps is (10 sec: 49141.4, 60 sec: 45600.3, 300 sec: 44986.2). Total num frames: 602488832. Throughput: 0: 44860.0. Samples: 201138060. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:15:08,405][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:15:08,864][35978] Updated weights for policy 0, policy_version 36775 (0.0027)
+[2024-06-10 13:15:13,380][35978] Updated weights for policy 0, policy_version 36785 (0.0030)
+[2024-06-10 13:15:13,402][35745] Fps is (10 sec: 40969.1, 60 sec: 44782.8, 300 sec: 44764.4). Total num frames: 602685440. Throughput: 0: 45095.9. Samples: 201265380. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:15:13,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:15:16,408][35978] Updated weights for policy 0, policy_version 36795 (0.0032)
+[2024-06-10 13:15:18,402][35745] Fps is (10 sec: 45885.8, 60 sec: 45056.0, 300 sec: 44986.6). Total num frames: 602947584. Throughput: 0: 44920.4. Samples: 201536500. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:15:18,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:15:20,902][35978] Updated weights for policy 0, policy_version 36805 (0.0037)
+[2024-06-10 13:15:23,278][35978] Updated weights for policy 0, policy_version 36815 (0.0034)
+[2024-06-10 13:15:23,402][35745] Fps is (10 sec: 49152.2, 60 sec: 45329.1, 300 sec: 44986.6). Total num frames: 603176960. Throughput: 0: 44746.6. Samples: 201805780. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:15:23,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:15:27,895][35978] Updated weights for policy 0, policy_version 36825 (0.0036)
+[2024-06-10 13:15:28,402][35745] Fps is (10 sec: 40959.9, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 603357184. Throughput: 0: 45191.7. Samples: 201948340. Policy #0 lag: (min: 0.0, avg: 12.0, max: 22.0)
+[2024-06-10 13:15:28,402][35745] Avg episode reward: [(0, '0.316')]
+[2024-06-10 13:15:30,510][35978] Updated weights for policy 0, policy_version 36835 (0.0030)
+[2024-06-10 13:15:33,402][35745] Fps is (10 sec: 42598.3, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 603602944. Throughput: 0: 44914.3. Samples: 202209840. Policy #0 lag: (min: 0.0, avg: 12.0, max: 22.0)
+[2024-06-10 13:15:33,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:15:33,416][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000036841_603602944.pth...
+[2024-06-10 13:15:33,473][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000036182_592805888.pth
+[2024-06-10 13:15:34,988][35978] Updated weights for policy 0, policy_version 36845 (0.0029)
+[2024-06-10 13:15:37,759][35978] Updated weights for policy 0, policy_version 36855 (0.0032)
+[2024-06-10 13:15:38,402][35745] Fps is (10 sec: 47514.0, 60 sec: 45056.0, 300 sec: 44931.0). Total num frames: 603832320. Throughput: 0: 44908.2. Samples: 202480820. Policy #0 lag: (min: 0.0, avg: 12.0, max: 22.0)
+[2024-06-10 13:15:38,402][35745] Avg episode reward: [(0, '0.315')]
+[2024-06-10 13:15:42,507][35978] Updated weights for policy 0, policy_version 36865 (0.0023)
+[2024-06-10 13:15:43,402][35745] Fps is (10 sec: 44237.3, 60 sec: 45056.1, 300 sec: 44875.5). Total num frames: 604045312. Throughput: 0: 45221.5. Samples: 202628280. Policy #0 lag: (min: 0.0, avg: 12.0, max: 22.0)
+[2024-06-10 13:15:43,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:15:45,322][35978] Updated weights for policy 0, policy_version 36875 (0.0036)
+[2024-06-10 13:15:48,402][35745] Fps is (10 sec: 42598.2, 60 sec: 43965.5, 300 sec: 44820.0). Total num frames: 604258304. Throughput: 0: 45104.1. Samples: 202889100. Policy #0 lag: (min: 0.0, avg: 12.0, max: 22.0)
+[2024-06-10 13:15:48,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:15:50,024][35978] Updated weights for policy 0, policy_version 36885 (0.0021)
+[2024-06-10 13:15:52,540][35978] Updated weights for policy 0, policy_version 36895 (0.0029)
+[2024-06-10 13:15:53,402][35745] Fps is (10 sec: 49152.1, 60 sec: 45329.2, 300 sec: 45097.7). Total num frames: 604536832. Throughput: 0: 44702.8. Samples: 203149580. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 13:15:53,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:15:57,096][35978] Updated weights for policy 0, policy_version 36905 (0.0046)
+[2024-06-10 13:15:58,402][35745] Fps is (10 sec: 45874.6, 60 sec: 45329.1, 300 sec: 44986.5). Total num frames: 604717056. Throughput: 0: 45146.7. Samples: 203296980. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 13:15:58,402][35745] Avg episode reward: [(0, '0.307')]
+[2024-06-10 13:16:00,102][35978] Updated weights for policy 0, policy_version 36915 (0.0029)
+[2024-06-10 13:16:03,401][35745] Fps is (10 sec: 37683.4, 60 sec: 43965.5, 300 sec: 44708.9). Total num frames: 604913664. Throughput: 0: 44831.6. Samples: 203553920. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 13:16:03,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:16:04,505][35978] Updated weights for policy 0, policy_version 36925 (0.0038)
+[2024-06-10 13:16:07,162][35978] Updated weights for policy 0, policy_version 36935 (0.0026)
+[2024-06-10 13:16:08,161][35957] Signal inference workers to stop experience collection... (3100 times)
+[2024-06-10 13:16:08,168][35957] Signal inference workers to resume experience collection... (3100 times)
+[2024-06-10 13:16:08,194][35978] InferenceWorker_p0-w0: stopping experience collection (3100 times)
+[2024-06-10 13:16:08,194][35978] InferenceWorker_p0-w0: resuming experience collection (3100 times)
+[2024-06-10 13:16:08,402][35745] Fps is (10 sec: 47514.3, 60 sec: 45057.8, 300 sec: 44986.6). Total num frames: 605192192. Throughput: 0: 44952.1. Samples: 203828620. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 13:16:08,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:16:11,918][35978] Updated weights for policy 0, policy_version 36945 (0.0041)
+[2024-06-10 13:16:13,402][35745] Fps is (10 sec: 47513.1, 60 sec: 45056.1, 300 sec: 44986.6). Total num frames: 605388800. Throughput: 0: 44941.4. Samples: 203970700. Policy #0 lag: (min: 0.0, avg: 9.5, max: 23.0)
+[2024-06-10 13:16:13,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:16:14,715][35978] Updated weights for policy 0, policy_version 36955 (0.0036)
+[2024-06-10 13:16:18,402][35745] Fps is (10 sec: 39321.6, 60 sec: 43963.8, 300 sec: 44764.4). Total num frames: 605585408. Throughput: 0: 44873.5. Samples: 204229140. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:16:18,402][35745] Avg episode reward: [(0, '0.314')]
+[2024-06-10 13:16:19,238][35978] Updated weights for policy 0, policy_version 36965 (0.0024)
+[2024-06-10 13:16:21,795][35978] Updated weights for policy 0, policy_version 36975 (0.0034)
+[2024-06-10 13:16:23,402][35745] Fps is (10 sec: 49151.6, 60 sec: 45056.0, 300 sec: 45097.6). Total num frames: 605880320. Throughput: 0: 44824.3. Samples: 204497920. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:16:23,402][35745] Avg episode reward: [(0, '0.313')]
+[2024-06-10 13:16:26,340][35978] Updated weights for policy 0, policy_version 36985 (0.0034)
+[2024-06-10 13:16:28,401][35745] Fps is (10 sec: 47513.8, 60 sec: 45056.1, 300 sec: 44986.6). Total num frames: 606060544. Throughput: 0: 44799.2. Samples: 204644240. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:16:28,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:16:29,156][35978] Updated weights for policy 0, policy_version 36995 (0.0038)
+[2024-06-10 13:16:33,402][35745] Fps is (10 sec: 37683.7, 60 sec: 44236.9, 300 sec: 44708.9). Total num frames: 606257152. Throughput: 0: 44766.7. Samples: 204903600. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:16:33,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:16:34,016][35978] Updated weights for policy 0, policy_version 37005 (0.0036)
+[2024-06-10 13:16:36,577][35978] Updated weights for policy 0, policy_version 37015 (0.0033)
+[2024-06-10 13:16:38,402][35745] Fps is (10 sec: 47513.0, 60 sec: 45055.9, 300 sec: 45097.7). Total num frames: 606535680. Throughput: 0: 44829.7. Samples: 205166920. Policy #0 lag: (min: 0.0, avg: 11.5, max: 21.0)
+[2024-06-10 13:16:38,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:16:41,123][35978] Updated weights for policy 0, policy_version 37025 (0.0032)
+[2024-06-10 13:16:43,402][35745] Fps is (10 sec: 49151.7, 60 sec: 45056.0, 300 sec: 45042.1). Total num frames: 606748672. Throughput: 0: 44918.3. Samples: 205318300. Policy #0 lag: (min: 0.0, avg: 12.1, max: 20.0)
+[2024-06-10 13:16:43,402][35745] Avg episode reward: [(0, '0.305')]
+[2024-06-10 13:16:43,725][35978] Updated weights for policy 0, policy_version 37035 (0.0035)
+[2024-06-10 13:16:48,402][35745] Fps is (10 sec: 39321.3, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 606928896. Throughput: 0: 45100.7. Samples: 205583460. Policy #0 lag: (min: 0.0, avg: 12.1, max: 20.0)
+[2024-06-10 13:16:48,402][35745] Avg episode reward: [(0, '0.316')]
+[2024-06-10 13:16:48,495][35978] Updated weights for policy 0, policy_version 37045 (0.0038)
+[2024-06-10 13:16:50,964][35978] Updated weights for policy 0, policy_version 37055 (0.0037)
+[2024-06-10 13:16:53,402][35745] Fps is (10 sec: 45875.5, 60 sec: 44509.9, 300 sec: 44986.9). Total num frames: 607207424. Throughput: 0: 44811.1. Samples: 205845120. Policy #0 lag: (min: 0.0, avg: 12.1, max: 20.0)
+[2024-06-10 13:16:53,402][35745] Avg episode reward: [(0, '0.317')]
+[2024-06-10 13:16:55,681][35978] Updated weights for policy 0, policy_version 37065 (0.0027)
+[2024-06-10 13:16:58,248][35978] Updated weights for policy 0, policy_version 37075 (0.0042)
+[2024-06-10 13:16:58,402][35745] Fps is (10 sec: 50790.8, 60 sec: 45329.1, 300 sec: 45097.7). Total num frames: 607436800. Throughput: 0: 44673.8. Samples: 205981020. Policy #0 lag: (min: 0.0, avg: 12.1, max: 20.0)
+[2024-06-10 13:16:58,402][35745] Avg episode reward: [(0, '0.315')]
+[2024-06-10 13:17:03,335][35978] Updated weights for policy 0, policy_version 37085 (0.0025)
+[2024-06-10 13:17:03,402][35745] Fps is (10 sec: 39321.3, 60 sec: 44782.8, 300 sec: 44820.0). Total num frames: 607600640. Throughput: 0: 45033.7. Samples: 206255660. Policy #0 lag: (min: 0.0, avg: 7.7, max: 22.0)
+[2024-06-10 13:17:03,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:17:05,796][35978] Updated weights for policy 0, policy_version 37095 (0.0040)
+[2024-06-10 13:17:08,402][35745] Fps is (10 sec: 42598.7, 60 sec: 44509.9, 300 sec: 44986.6). Total num frames: 607862784. Throughput: 0: 44933.5. Samples: 206519920. Policy #0 lag: (min: 0.0, avg: 7.7, max: 22.0)
+[2024-06-10 13:17:08,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:17:10,531][35978] Updated weights for policy 0, policy_version 37105 (0.0026)
+[2024-06-10 13:17:12,919][35978] Updated weights for policy 0, policy_version 37115 (0.0028)
+[2024-06-10 13:17:13,401][35745] Fps is (10 sec: 50791.1, 60 sec: 45329.1, 300 sec: 45043.0). Total num frames: 608108544. Throughput: 0: 44905.8. Samples: 206665000. Policy #0 lag: (min: 0.0, avg: 7.7, max: 22.0)
+[2024-06-10 13:17:13,402][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:17:14,554][35957] Signal inference workers to stop experience collection... (3150 times)
+[2024-06-10 13:17:14,555][35957] Signal inference workers to resume experience collection... (3150 times)
+[2024-06-10 13:17:14,569][35978] InferenceWorker_p0-w0: stopping experience collection (3150 times)
+[2024-06-10 13:17:14,569][35978] InferenceWorker_p0-w0: resuming experience collection (3150 times)
+[2024-06-10 13:17:17,684][35978] Updated weights for policy 0, policy_version 37125 (0.0025)
+[2024-06-10 13:17:18,402][35745] Fps is (10 sec: 42598.2, 60 sec: 45056.0, 300 sec: 44931.1). Total num frames: 608288768. Throughput: 0: 45001.3. Samples: 206928660. Policy #0 lag: (min: 0.0, avg: 7.7, max: 22.0)
+[2024-06-10 13:17:18,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:17:19,897][35978] Updated weights for policy 0, policy_version 37135 (0.0037)
+[2024-06-10 13:17:23,402][35745] Fps is (10 sec: 40959.8, 60 sec: 43963.8, 300 sec: 44820.0). Total num frames: 608518144. Throughput: 0: 45093.4. Samples: 207196120. Policy #0 lag: (min: 0.0, avg: 7.7, max: 22.0)
+[2024-06-10 13:17:23,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:17:24,973][35978] Updated weights for policy 0, policy_version 37145 (0.0027)
+[2024-06-10 13:17:27,551][35978] Updated weights for policy 0, policy_version 37155 (0.0023)
+[2024-06-10 13:17:28,402][35745] Fps is (10 sec: 50790.2, 60 sec: 45602.0, 300 sec: 45153.2). Total num frames: 608796672. Throughput: 0: 44639.1. Samples: 207327060. Policy #0 lag: (min: 0.0, avg: 8.8, max: 20.0)
+[2024-06-10 13:17:28,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:17:32,322][35978] Updated weights for policy 0, policy_version 37165 (0.0050)
+[2024-06-10 13:17:33,402][35745] Fps is (10 sec: 44236.5, 60 sec: 45055.9, 300 sec: 44931.2). Total num frames: 608960512. Throughput: 0: 44700.1. Samples: 207594960. Policy #0 lag: (min: 0.0, avg: 8.8, max: 20.0)
+[2024-06-10 13:17:33,402][35745] Avg episode reward: [(0, '0.315')]
+[2024-06-10 13:17:33,446][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000037169_608976896.pth...
+[2024-06-10 13:17:33,503][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000036513_598228992.pth
+[2024-06-10 13:17:34,848][35978] Updated weights for policy 0, policy_version 37175 (0.0036)
+[2024-06-10 13:17:38,402][35745] Fps is (10 sec: 39321.4, 60 sec: 44236.7, 300 sec: 44820.0). Total num frames: 609189888. Throughput: 0: 44865.2. Samples: 207864060. Policy #0 lag: (min: 0.0, avg: 8.8, max: 20.0)
+[2024-06-10 13:17:38,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:17:39,721][35978] Updated weights for policy 0, policy_version 37185 (0.0041)
+[2024-06-10 13:17:42,072][35978] Updated weights for policy 0, policy_version 37195 (0.0032)
+[2024-06-10 13:17:43,402][35745] Fps is (10 sec: 49152.3, 60 sec: 45056.0, 300 sec: 45042.5). Total num frames: 609452032. Throughput: 0: 44919.2. Samples: 208002380. Policy #0 lag: (min: 0.0, avg: 8.8, max: 20.0)
+[2024-06-10 13:17:43,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:17:46,732][35978] Updated weights for policy 0, policy_version 37205 (0.0025)
+[2024-06-10 13:17:48,402][35745] Fps is (10 sec: 45875.4, 60 sec: 45329.1, 300 sec: 44931.0). Total num frames: 609648640. Throughput: 0: 44733.3. Samples: 208268660. Policy #0 lag: (min: 0.0, avg: 8.8, max: 20.0)
+[2024-06-10 13:17:48,402][35745] Avg episode reward: [(0, '0.306')]
+[2024-06-10 13:17:49,415][35978] Updated weights for policy 0, policy_version 37215 (0.0025)
+[2024-06-10 13:17:53,402][35745] Fps is (10 sec: 39321.2, 60 sec: 43963.7, 300 sec: 44653.3). Total num frames: 609845248. Throughput: 0: 44847.5. Samples: 208538060. Policy #0 lag: (min: 0.0, avg: 12.4, max: 21.0)
+[2024-06-10 13:17:53,402][35745] Avg episode reward: [(0, '0.314')]
+[2024-06-10 13:17:54,288][35978] Updated weights for policy 0, policy_version 37225 (0.0038)
+[2024-06-10 13:17:56,823][35978] Updated weights for policy 0, policy_version 37235 (0.0024)
+[2024-06-10 13:17:58,402][35745] Fps is (10 sec: 49151.9, 60 sec: 45056.0, 300 sec: 45097.7). Total num frames: 610140160. Throughput: 0: 44630.5. Samples: 208673380. Policy #0 lag: (min: 0.0, avg: 12.4, max: 21.0)
+[2024-06-10 13:17:58,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:18:01,706][35978] Updated weights for policy 0, policy_version 37245 (0.0035)
+[2024-06-10 13:18:03,401][35745] Fps is (10 sec: 47514.1, 60 sec: 45329.1, 300 sec: 44986.6). Total num frames: 610320384. Throughput: 0: 44747.6. Samples: 208942300. Policy #0 lag: (min: 0.0, avg: 12.4, max: 21.0)
+[2024-06-10 13:18:03,402][35745] Avg episode reward: [(0, '0.314')]
+[2024-06-10 13:18:04,070][35978] Updated weights for policy 0, policy_version 37255 (0.0036)
+[2024-06-10 13:18:08,402][35745] Fps is (10 sec: 39321.6, 60 sec: 44509.8, 300 sec: 44764.4). Total num frames: 610533376. Throughput: 0: 44721.2. Samples: 209208580. Policy #0 lag: (min: 0.0, avg: 12.4, max: 21.0)
+[2024-06-10 13:18:08,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:18:08,734][35978] Updated weights for policy 0, policy_version 37265 (0.0027)
+[2024-06-10 13:18:11,166][35978] Updated weights for policy 0, policy_version 37275 (0.0030)
+[2024-06-10 13:18:13,404][35745] Fps is (10 sec: 47500.1, 60 sec: 44780.8, 300 sec: 44986.5). Total num frames: 610795520. Throughput: 0: 44721.7. Samples: 209339660. Policy #0 lag: (min: 0.0, avg: 12.4, max: 21.0)
+[2024-06-10 13:18:13,405][35745] Avg episode reward: [(0, '0.308')]
+[2024-06-10 13:18:15,887][35978] Updated weights for policy 0, policy_version 37285 (0.0036)
+[2024-06-10 13:18:18,402][35745] Fps is (10 sec: 49152.2, 60 sec: 45602.1, 300 sec: 45097.7). Total num frames: 611024896. Throughput: 0: 44927.5. Samples: 209616700. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 13:18:18,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:18:18,519][35978] Updated weights for policy 0, policy_version 37295 (0.0026)
+[2024-06-10 13:18:19,515][35957] Signal inference workers to stop experience collection... (3200 times)
+[2024-06-10 13:18:19,516][35957] Signal inference workers to resume experience collection... (3200 times)
+[2024-06-10 13:18:19,568][35978] InferenceWorker_p0-w0: stopping experience collection (3200 times)
+[2024-06-10 13:18:19,568][35978] InferenceWorker_p0-w0: resuming experience collection (3200 times)
+[2024-06-10 13:18:23,258][35978] Updated weights for policy 0, policy_version 37305 (0.0032)
+[2024-06-10 13:18:23,402][35745] Fps is (10 sec: 40971.2, 60 sec: 44782.9, 300 sec: 44819.9). Total num frames: 611205120. Throughput: 0: 44753.4. Samples: 209877960. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 13:18:23,414][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:18:26,175][35978] Updated weights for policy 0, policy_version 37315 (0.0032)
+[2024-06-10 13:18:28,402][35745] Fps is (10 sec: 42598.3, 60 sec: 44236.8, 300 sec: 44875.5). Total num frames: 611450880. Throughput: 0: 44663.5. Samples: 210012240. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 13:18:28,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:18:30,415][35978] Updated weights for policy 0, policy_version 37325 (0.0031)
+[2024-06-10 13:18:33,402][35745] Fps is (10 sec: 47513.7, 60 sec: 45329.1, 300 sec: 44986.6). Total num frames: 611680256. Throughput: 0: 44838.3. Samples: 210286380. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 13:18:33,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:18:33,461][35978] Updated weights for policy 0, policy_version 37335 (0.0039)
+[2024-06-10 13:18:37,845][35978] Updated weights for policy 0, policy_version 37345 (0.0033)
+[2024-06-10 13:18:38,402][35745] Fps is (10 sec: 42598.5, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 611876864. Throughput: 0: 44860.0. Samples: 210556760. Policy #0 lag: (min: 0.0, avg: 11.1, max: 21.0)
+[2024-06-10 13:18:38,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:18:40,552][35978] Updated weights for policy 0, policy_version 37355 (0.0038)
+[2024-06-10 13:18:43,402][35745] Fps is (10 sec: 44236.8, 60 sec: 44509.8, 300 sec: 44875.5). Total num frames: 612122624. Throughput: 0: 44690.3. Samples: 210684440. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-10 13:18:43,402][35745] Avg episode reward: [(0, '0.316')]
+[2024-06-10 13:18:44,905][35978] Updated weights for policy 0, policy_version 37365 (0.0036)
+[2024-06-10 13:18:48,103][35978] Updated weights for policy 0, policy_version 37375 (0.0038)
+[2024-06-10 13:18:48,401][35745] Fps is (10 sec: 49152.6, 60 sec: 45329.2, 300 sec: 45097.6). Total num frames: 612368384. Throughput: 0: 44846.7. Samples: 210960400. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-10 13:18:48,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:18:52,319][35978] Updated weights for policy 0, policy_version 37385 (0.0027)
+[2024-06-10 13:18:53,402][35745] Fps is (10 sec: 44236.8, 60 sec: 45329.1, 300 sec: 44875.5). Total num frames: 612564992. Throughput: 0: 44830.7. Samples: 211225960. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-10 13:18:53,402][35745] Avg episode reward: [(0, '0.314')]
+[2024-06-10 13:18:55,404][35978] Updated weights for policy 0, policy_version 37395 (0.0026)
+[2024-06-10 13:18:58,404][35745] Fps is (10 sec: 42588.0, 60 sec: 44235.1, 300 sec: 44820.6). Total num frames: 612794368. Throughput: 0: 44858.2. Samples: 211358260. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-10 13:18:58,405][35745] Avg episode reward: [(0, '0.315')]
+[2024-06-10 13:18:59,491][35978] Updated weights for policy 0, policy_version 37405 (0.0040)
+[2024-06-10 13:19:02,786][35978] Updated weights for policy 0, policy_version 37415 (0.0036)
+[2024-06-10 13:19:03,402][35745] Fps is (10 sec: 49152.4, 60 sec: 45602.1, 300 sec: 45097.6). Total num frames: 613056512. Throughput: 0: 44916.5. Samples: 211637940. Policy #0 lag: (min: 1.0, avg: 10.9, max: 19.0)
+[2024-06-10 13:19:03,402][35745] Avg episode reward: [(0, '0.301')]
+[2024-06-10 13:19:06,888][35978] Updated weights for policy 0, policy_version 37425 (0.0043)
+[2024-06-10 13:19:08,402][35745] Fps is (10 sec: 42608.2, 60 sec: 44783.0, 300 sec: 44819.9). Total num frames: 613220352. Throughput: 0: 45078.2. Samples: 211906480. Policy #0 lag: (min: 1.0, avg: 10.9, max: 19.0)
+[2024-06-10 13:19:08,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:19:09,921][35978] Updated weights for policy 0, policy_version 37435 (0.0034)
+[2024-06-10 13:19:13,402][35745] Fps is (10 sec: 40959.5, 60 sec: 44511.9, 300 sec: 44820.0). Total num frames: 613466112. Throughput: 0: 44923.1. Samples: 212033780. Policy #0 lag: (min: 1.0, avg: 10.9, max: 19.0)
+[2024-06-10 13:19:13,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:19:14,173][35978] Updated weights for policy 0, policy_version 37445 (0.0024)
+[2024-06-10 13:19:17,341][35978] Updated weights for policy 0, policy_version 37455 (0.0042)
+[2024-06-10 13:19:18,402][35745] Fps is (10 sec: 49151.6, 60 sec: 44782.9, 300 sec: 44931.0). Total num frames: 613711872. Throughput: 0: 44855.0. Samples: 212304860. Policy #0 lag: (min: 1.0, avg: 10.9, max: 19.0)
+[2024-06-10 13:19:18,402][35745] Avg episode reward: [(0, '0.313')]
+[2024-06-10 13:19:21,199][35978] Updated weights for policy 0, policy_version 37465 (0.0028)
+[2024-06-10 13:19:23,402][35745] Fps is (10 sec: 44236.3, 60 sec: 45055.9, 300 sec: 44931.0). Total num frames: 613908480. Throughput: 0: 44902.5. Samples: 212577380. Policy #0 lag: (min: 1.0, avg: 10.9, max: 19.0)
+[2024-06-10 13:19:23,402][35745] Avg episode reward: [(0, '0.310')]
+[2024-06-10 13:19:24,741][35978] Updated weights for policy 0, policy_version 37475 (0.0026)
+[2024-06-10 13:19:28,402][35745] Fps is (10 sec: 42599.2, 60 sec: 44783.0, 300 sec: 44820.0). Total num frames: 614137856. Throughput: 0: 44863.6. Samples: 212703300. Policy #0 lag: (min: 0.0, avg: 11.3, max: 21.0)
+[2024-06-10 13:19:28,402][35745] Avg episode reward: [(0, '0.316')]
+[2024-06-10 13:19:28,559][35978] Updated weights for policy 0, policy_version 37485 (0.0029)
+[2024-06-10 13:19:31,617][35957] Signal inference workers to stop experience collection... (3250 times)
+[2024-06-10 13:19:31,659][35978] InferenceWorker_p0-w0: stopping experience collection (3250 times)
+[2024-06-10 13:19:31,666][35957] Signal inference workers to resume experience collection... (3250 times)
+[2024-06-10 13:19:31,675][35978] InferenceWorker_p0-w0: resuming experience collection (3250 times)
+[2024-06-10 13:19:32,171][35978] Updated weights for policy 0, policy_version 37495 (0.0033)
+[2024-06-10 13:19:33,404][35745] Fps is (10 sec: 49141.3, 60 sec: 45327.3, 300 sec: 44986.2). Total num frames: 614400000. Throughput: 0: 45009.6. Samples: 212985940. Policy #0 lag: (min: 0.0, avg: 11.3, max: 21.0)
+[2024-06-10 13:19:33,405][35745] Avg episode reward: [(0, '0.316')]
+[2024-06-10 13:19:33,421][35957] Saving /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000037500_614400000.pth...
+[2024-06-10 13:19:33,470][35957] Removing /workspace/metta/train_dir/p2.metta.6/checkpoint_p0/checkpoint_000036841_603602944.pth
+[2024-06-10 13:19:35,799][35978] Updated weights for policy 0, policy_version 37505 (0.0031)
+[2024-06-10 13:19:38,401][35745] Fps is (10 sec: 42598.5, 60 sec: 44783.0, 300 sec: 44820.0). Total num frames: 614563840. Throughput: 0: 45137.9. Samples: 213257160. Policy #0 lag: (min: 0.0, avg: 11.3, max: 21.0)
+[2024-06-10 13:19:38,402][35745] Avg episode reward: [(0, '0.316')]
+[2024-06-10 13:19:39,255][35978] Updated weights for policy 0, policy_version 37515 (0.0046)
+[2024-06-10 13:19:43,168][35978] Updated weights for policy 0, policy_version 37525 (0.0032)
+[2024-06-10 13:19:43,402][35745] Fps is (10 sec: 42608.0, 60 sec: 45055.9, 300 sec: 44764.8). Total num frames: 614825984. Throughput: 0: 44963.2. Samples: 213381500. Policy #0 lag: (min: 0.0, avg: 11.3, max: 21.0)
+[2024-06-10 13:19:43,402][35745] Avg episode reward: [(0, '0.304')]
+[2024-06-10 13:19:46,647][35978] Updated weights for policy 0, policy_version 37535 (0.0032)
+[2024-06-10 13:19:48,402][35745] Fps is (10 sec: 50789.3, 60 sec: 45055.8, 300 sec: 44931.0). Total num frames: 615071744. Throughput: 0: 44923.8. Samples: 213659520. Policy #0 lag: (min: 0.0, avg: 11.3, max: 21.0)
+[2024-06-10 13:19:48,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:19:50,159][35978] Updated weights for policy 0, policy_version 37545 (0.0032)
+[2024-06-10 13:19:53,402][35745] Fps is (10 sec: 42598.6, 60 sec: 44782.9, 300 sec: 44931.1). Total num frames: 615251968. Throughput: 0: 45056.0. Samples: 213934000. Policy #0 lag: (min: 1.0, avg: 9.3, max: 21.0)
+[2024-06-10 13:19:53,402][35745] Avg episode reward: [(0, '0.316')]
+[2024-06-10 13:19:53,850][35978] Updated weights for policy 0, policy_version 37555 (0.0034)
+[2024-06-10 13:19:57,523][35978] Updated weights for policy 0, policy_version 37565 (0.0034)
+[2024-06-10 13:19:58,402][35745] Fps is (10 sec: 40960.6, 60 sec: 44784.7, 300 sec: 44764.8). Total num frames: 615481344. Throughput: 0: 44974.7. Samples: 214057640. Policy #0 lag: (min: 1.0, avg: 9.3, max: 21.0)
+[2024-06-10 13:19:58,402][35745] Avg episode reward: [(0, '0.309')]
+[2024-06-10 13:20:01,387][35978] Updated weights for policy 0, policy_version 37575 (0.0031)
+[2024-06-10 13:20:03,402][35745] Fps is (10 sec: 47513.6, 60 sec: 44509.8, 300 sec: 44875.8). Total num frames: 615727104. Throughput: 0: 45020.5. Samples: 214330780. Policy #0 lag: (min: 1.0, avg: 9.3, max: 21.0)
+[2024-06-10 13:20:03,402][35745] Avg episode reward: [(0, '0.312')]
+[2024-06-10 13:20:04,589][35978] Updated weights for policy 0, policy_version 37585 (0.0026)
+[2024-06-10 13:20:08,402][35745] Fps is (10 sec: 45875.3, 60 sec: 45329.1, 300 sec: 44931.1). Total num frames: 615940096. Throughput: 0: 45250.4. Samples: 214613640. Policy #0 lag: (min: 1.0, avg: 9.3, max: 21.0)
+[2024-06-10 13:20:08,402][35745] Avg episode reward: [(0, '0.315')]
+[2024-06-10 13:20:08,406][35978] Updated weights for policy 0, policy_version 37595 (0.0046)
+[2024-06-10 13:20:12,286][35978] Updated weights for policy 0, policy_version 37605 (0.0033)
+[2024-06-10 13:20:13,402][35745] Fps is (10 sec: 42598.4, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 616153088. Throughput: 0: 45159.9. Samples: 214735500. Policy #0 lag: (min: 1.0, avg: 9.3, max: 21.0)
+[2024-06-10 13:20:13,402][35745] Avg episode reward: [(0, '0.315')]
+[2024-06-10 13:20:15,698][35978] Updated weights for policy 0, policy_version 37615 (0.0035)
+[2024-06-10 13:20:18,402][35745] Fps is (10 sec: 44236.6, 60 sec: 44510.0, 300 sec: 44764.4). Total num frames: 616382464. Throughput: 0: 44625.9. Samples: 214994000. Policy #0 lag: (min: 0.0, avg: 9.0, max: 20.0)
+[2024-06-10 13:20:18,402][35745] Avg episode reward: [(0, '0.314')]
+[2024-06-10 13:20:19,478][35978] Updated weights for policy 0, policy_version 37625 (0.0038)
+[2024-06-10 13:20:22,386][35957] Signal inference workers to stop experience collection... (3300 times)
+[2024-06-10 13:20:22,387][35957] Signal inference workers to resume experience collection... (3300 times)
+[2024-06-10 13:20:22,397][35978] InferenceWorker_p0-w0: stopping experience collection (3300 times)
+[2024-06-10 13:20:22,398][35978] InferenceWorker_p0-w0: resuming experience collection (3300 times)
+[2024-06-10 13:20:22,963][35978] Updated weights for policy 0, policy_version 37635 (0.0030)
+[2024-06-10 13:20:23,402][35745] Fps is (10 sec: 47513.9, 60 sec: 45329.2, 300 sec: 44986.6). Total num frames: 616628224. Throughput: 0: 44940.8. Samples: 215279500. Policy #0 lag: (min: 0.0, avg: 9.0, max: 20.0)
+[2024-06-10 13:20:23,402][35745] Avg episode reward: [(0, '0.318')]
+[2024-06-10 13:20:26,620][35978] Updated weights for policy 0, policy_version 37645 (0.0039)
+[2024-06-10 13:20:28,402][35745] Fps is (10 sec: 45875.5, 60 sec: 45056.0, 300 sec: 44875.5). Total num frames: 616841216. Throughput: 0: 45151.7. Samples: 215413320. Policy #0 lag: (min: 0.0, avg: 9.0, max: 20.0)
+[2024-06-10 13:20:28,402][35745] Avg episode reward: [(0, '0.311')]
+[2024-06-10 13:20:30,406][35978] Updated weights for policy 0, policy_version 37655 (0.0022)
+[2024-06-10 13:20:33,402][35745] Fps is (10 sec: 44236.4, 60 sec: 44511.6, 300 sec: 44875.5). Total num frames: 617070592. Throughput: 0: 44772.9. Samples: 215674300. Policy #0 lag: (min: 0.0, avg: 9.0, max: 20.0)
+[2024-06-10 13:20:33,402][35745] Avg episode reward: [(0, '0.313')]
+[2024-06-10 13:20:34,122][35978] Updated weights for policy 0, policy_version 37665 (0.0027)
+[2024-06-10 13:20:37,677][35978] Updated weights for policy 0, policy_version 37675 (0.0023)
+[2024-06-10 13:20:38,401][35745] Fps is (10 sec: 49152.1, 60 sec: 46148.3, 300 sec: 45042.1). Total num frames: 617332736. Throughput: 0: 44905.9. Samples: 215954760. Policy #0 lag: (min: 0.0, avg: 9.0, max: 20.0)
+[2024-06-10 13:20:38,402][35745] Avg episode reward: [(0, '0.316')]
+[2024-06-10 13:20:41,393][35978] Updated weights for policy 0, policy_version 37685 (0.0026)