chore: save current workspace state

2026-04-01 23:32:10 +08:00 · 2026-04-01 23:32:10 +08:00 · ad1ce073dd
commit ad1ce073dd
parent eace5dd40c
23 changed files with 266 additions and 32 deletions
--- a/Checkpoint/train_20260330_221647_gpu1_long/model_ep51600.pt
+++ b/Checkpoint/train_20260330_221647_gpu1_long/model_ep51600.pt
--- a/Checkpoint/train_20260330_221647_gpu1_long/model_ep51700.pt
+++ b/Checkpoint/train_20260330_221647_gpu1_long/model_ep51700.pt
--- a/Checkpoint/train_20260330_221647_gpu1_long/model_ep51800.pt
+++ b/Checkpoint/train_20260330_221647_gpu1_long/model_ep51800.pt
--- a/Checkpoint/train_20260330_221647_gpu1_long/model_ep51900.pt
+++ b/Checkpoint/train_20260330_221647_gpu1_long/model_ep51900.pt
--- a/Checkpoint/train_20260330_221647_gpu1_long/model_ep52000.pt
+++ b/Checkpoint/train_20260330_221647_gpu1_long/model_ep52000.pt
--- a/Checkpoint/train_20260330_221647_gpu1_long/model_ep52100.pt
+++ b/Checkpoint/train_20260330_221647_gpu1_long/model_ep52100.pt
--- a/Checkpoint/train_20260330_221647_gpu1_long/model_ep52200.pt
+++ b/Checkpoint/train_20260330_221647_gpu1_long/model_ep52200.pt
--- a/Checkpoint/train_20260401_185208_stable_v2/model_ep4500.pt
+++ b/Checkpoint/train_20260401_185208_stable_v2/model_ep4500.pt
--- a/Checkpoint/train_20260401_185208_stable_v2/model_ep4600.pt
+++ b/Checkpoint/train_20260401_185208_stable_v2/model_ep4600.pt
--- a/Checkpoint/train_20260401_185208_stable_v2/model_ep4700.pt
+++ b/Checkpoint/train_20260401_185208_stable_v2/model_ep4700.pt
--- a/Checkpoint/train_20260401_185208_stable_v2/model_ep4800.pt
+++ b/Checkpoint/train_20260401_185208_stable_v2/model_ep4800.pt
--- a/Checkpoint/train_20260401_185208_stable_v2/model_ep4900.pt
+++ b/Checkpoint/train_20260401_185208_stable_v2/model_ep4900.pt
--- a/Checkpoint/train_20260401_185208_stable_v2/model_ep5000.pt
+++ b/Checkpoint/train_20260401_185208_stable_v2/model_ep5000.pt
--- a/Checkpoint/train_20260401_185208_stable_v2/model_ep5100.pt
+++ b/Checkpoint/train_20260401_185208_stable_v2/model_ep5100.pt
--- a/Checkpoint/train_20260401_185208_stable_v2/model_ep5200.pt
+++ b/Checkpoint/train_20260401_185208_stable_v2/model_ep5200.pt
--- a/Logs/nohup_stable_v2_20260401_185207.out
+++ b/Logs/nohup_stable_v2_20260401_185207.out
@ -660,3 +660,123 @@ nohup: ignoring input
 [Episode 4400] reward=-46770183.3 actor_loss=0.1399 critic_loss=118105165238.8571 entropy=3.9248 ent_coef=0.001960 approx_kl=0.0040 kl_stop=1 intervention_rate=0.0781 front_blocked=0
 [Eval 4400] success_rate=0.450 qp_infeasible_rate=0.550 mean_return=-383491.4 mean_steps=13.9
 [Episode 4410] reward=-48016708.9 actor_loss=0.1321 critic_loss=121413126616.6154 entropy=3.9278 ent_coef=0.001960 approx_kl=0.0053 kl_stop=1 intervention_rate=0.0859 front_blocked=0
+[Episode 4420] reward=-55233762.9 actor_loss=0.1208 critic_loss=125306605940.3636 entropy=3.9283 ent_coef=0.001960 approx_kl=0.0030 kl_stop=1 intervention_rate=0.0749 front_blocked=0
+[Eval 4420] success_rate=0.250 qp_infeasible_rate=0.750 mean_return=-545740.1 mean_steps=11.7
+[Episode 4430] reward=-45182329.8 actor_loss=0.1061 critic_loss=123056201045.3333 entropy=3.9265 ent_coef=0.001960 approx_kl=0.0039 kl_stop=1 intervention_rate=0.0710 front_blocked=0
+[Episode 4440] reward=-48110043.9 actor_loss=0.1061 critic_loss=122177015352.8889 entropy=3.9230 ent_coef=0.001960 approx_kl=0.0029 kl_stop=1 intervention_rate=0.0749 front_blocked=0
+[Eval 4440] success_rate=0.100 qp_infeasible_rate=0.900 mean_return=-717963.3 mean_steps=10.7
+[Episode 4450] reward=-44995852.9 actor_loss=0.1145 critic_loss=118687943338.6667 entropy=3.9217 ent_coef=0.001960 approx_kl=0.0025 kl_stop=1 intervention_rate=0.0775 front_blocked=0
+[Episode 4460] reward=-47644494.6 actor_loss=0.1071 critic_loss=120648672051.2000 entropy=3.9236 ent_coef=0.001960 approx_kl=0.0019 kl_stop=1 intervention_rate=0.0801 front_blocked=0
+[Eval 4460] success_rate=0.350 qp_infeasible_rate=0.650 mean_return=-451793.0 mean_steps=12.8
+[Episode 4470] reward=-51938044.8 actor_loss=0.1293 critic_loss=121062542848.0000 entropy=3.9230 ent_coef=0.001960 approx_kl=0.0034 kl_stop=1 intervention_rate=0.0840 front_blocked=0
+[Episode 4480] reward=-42873324.3 actor_loss=0.0753 critic_loss=122004032716.8000 entropy=3.9214 ent_coef=0.001960 approx_kl=0.0027 kl_stop=1 intervention_rate=0.0723 front_blocked=0
+[Eval 4480] success_rate=0.300 qp_infeasible_rate=0.700 mean_return=-492704.5 mean_steps=12.6
+[Episode 4490] reward=-55777681.7 actor_loss=0.1198 critic_loss=131352571448.8889 entropy=3.9203 ent_coef=0.001960 approx_kl=0.0049 kl_stop=1 intervention_rate=0.0807 front_blocked=0
+[Episode 4500] reward=-55422574.1 actor_loss=0.1197 critic_loss=129365836800.0000 entropy=3.9169 ent_coef=0.001960 approx_kl=0.0020 kl_stop=1 intervention_rate=0.0775 front_blocked=0
+[Eval 4500] success_rate=0.450 qp_infeasible_rate=0.550 mean_return=-390881.9 mean_steps=13.9
+[Episode 4510] reward=-66761972.1 actor_loss=0.0961 critic_loss=132788447074.4615 entropy=3.9148 ent_coef=0.001959 approx_kl=0.0023 kl_stop=1 intervention_rate=0.0879 front_blocked=0
+[Episode 4520] reward=-49554994.0 actor_loss=0.1040 critic_loss=123313512448.0000 entropy=3.9130 ent_coef=0.001959 approx_kl=0.0050 kl_stop=1 intervention_rate=0.0781 front_blocked=0
+[Eval 4520] success_rate=0.500 qp_infeasible_rate=0.500 mean_return=-325795.4 mean_steps=14.5
+[Episode 4530] reward=-55762867.6 actor_loss=0.1189 critic_loss=125712559755.6364 entropy=3.9173 ent_coef=0.001959 approx_kl=0.0033 kl_stop=1 intervention_rate=0.0853 front_blocked=0
+[Episode 4540] reward=-56589098.9 actor_loss=0.0889 critic_loss=130356757504.0000 entropy=3.9175 ent_coef=0.001959 approx_kl=0.0031 kl_stop=1 intervention_rate=0.0768 front_blocked=0
+[Eval 4540] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-427012.3 mean_steps=13.3
+[Episode 4550] reward=-54333964.0 actor_loss=0.1222 critic_loss=122513421653.3333 entropy=3.9193 ent_coef=0.001959 approx_kl=0.0006 kl_stop=1 intervention_rate=0.0814 front_blocked=0
+[Episode 4560] reward=-65903165.7 actor_loss=0.1212 critic_loss=130595551232.0000 entropy=3.9178 ent_coef=0.001959 approx_kl=0.0036 kl_stop=1 intervention_rate=0.0866 front_blocked=0
+[Eval 4560] success_rate=0.200 qp_infeasible_rate=0.800 mean_return=-528677.5 mean_steps=11.1
+[Episode 4570] reward=-60662925.7 actor_loss=0.1190 critic_loss=132107611340.8000 entropy=3.9175 ent_coef=0.001959 approx_kl=0.0047 kl_stop=1 intervention_rate=0.0905 front_blocked=0
+[Episode 4580] reward=-53562824.5 actor_loss=0.0818 critic_loss=124150361526.8571 entropy=3.9172 ent_coef=0.001959 approx_kl=0.0026 kl_stop=1 intervention_rate=0.0788 front_blocked=0
+[Eval 4580] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-445476.4 mean_steps=13.8
+[Episode 4590] reward=-45635357.7 actor_loss=0.1042 critic_loss=119446653610.6667 entropy=3.9152 ent_coef=0.001959 approx_kl=0.0024 kl_stop=1 intervention_rate=0.0768 front_blocked=0
+[Episode 4600] reward=-48361393.9 actor_loss=0.1032 critic_loss=126715137137.7778 entropy=3.9093 ent_coef=0.001959 approx_kl=0.0019 kl_stop=1 intervention_rate=0.0716 front_blocked=0
+[Eval 4600] success_rate=0.350 qp_infeasible_rate=0.650 mean_return=-519041.0 mean_steps=13.3
+[Episode 4610] reward=-44223245.6 actor_loss=0.0876 critic_loss=123503414418.2857 entropy=3.9076 ent_coef=0.001959 approx_kl=0.0020 kl_stop=1 intervention_rate=0.0697 front_blocked=0
+[Episode 4620] reward=-45121243.1 actor_loss=0.1224 critic_loss=122629059584.0000 entropy=3.9056 ent_coef=0.001958 approx_kl=0.0022 kl_stop=1 intervention_rate=0.0781 front_blocked=0
+[Eval 4620] success_rate=0.350 qp_infeasible_rate=0.650 mean_return=-491545.2 mean_steps=12.9
+[Episode 4630] reward=-56188846.0 actor_loss=0.1015 critic_loss=132100349366.8571 entropy=3.9055 ent_coef=0.001958 approx_kl=0.0046 kl_stop=1 intervention_rate=0.0807 front_blocked=0
+[Episode 4640] reward=-55512843.1 actor_loss=0.1129 critic_loss=126149872025.6000 entropy=3.9050 ent_coef=0.001958 approx_kl=0.0048 kl_stop=1 intervention_rate=0.0794 front_blocked=0
+[Eval 4640] success_rate=0.250 qp_infeasible_rate=0.750 mean_return=-572055.4 mean_steps=12.0
+[Episode 4650] reward=-50647477.2 actor_loss=0.1382 critic_loss=122890893312.0000 entropy=3.9054 ent_coef=0.001958 approx_kl=0.0022 kl_stop=1 intervention_rate=0.0794 front_blocked=0
+[Episode 4660] reward=-50507671.6 actor_loss=0.1146 critic_loss=124993454665.1429 entropy=3.9062 ent_coef=0.001958 approx_kl=0.0016 kl_stop=1 intervention_rate=0.0762 front_blocked=0
+[Eval 4660] success_rate=0.450 qp_infeasible_rate=0.550 mean_return=-453572.7 mean_steps=14.3
+[Episode 4670] reward=-58850707.8 actor_loss=0.1407 critic_loss=125339762688.0000 entropy=3.9037 ent_coef=0.001958 approx_kl=0.0020 kl_stop=1 intervention_rate=0.0885 front_blocked=0
+[Episode 4680] reward=-47859723.3 actor_loss=0.1163 critic_loss=123844286054.4000 entropy=3.9056 ent_coef=0.001958 approx_kl=0.0025 kl_stop=1 intervention_rate=0.0788 front_blocked=0
+[Eval 4680] success_rate=0.600 qp_infeasible_rate=0.400 mean_return=-262369.1 mean_steps=15.7
+[Episode 4690] reward=-53903236.8 actor_loss=0.0977 critic_loss=125047835989.3333 entropy=3.9014 ent_coef=0.001958 approx_kl=0.0004 kl_stop=1 intervention_rate=0.0768 front_blocked=0
+[Episode 4700] reward=-49683027.8 actor_loss=0.1081 critic_loss=119981329612.8000 entropy=3.8995 ent_coef=0.001958 approx_kl=0.0020 kl_stop=1 intervention_rate=0.0833 front_blocked=0
+[Eval 4700] success_rate=0.200 qp_infeasible_rate=0.800 mean_return=-616570.1 mean_steps=11.4
+[Episode 4710] reward=-53164503.5 actor_loss=0.1497 critic_loss=125962417493.3333 entropy=3.8975 ent_coef=0.001958 approx_kl=0.0009 kl_stop=1 intervention_rate=0.0872 front_blocked=0
+[Episode 4720] reward=-50271634.9 actor_loss=0.0856 critic_loss=121220212508.4444 entropy=3.8970 ent_coef=0.001958 approx_kl=0.0017 kl_stop=1 intervention_rate=0.0703 front_blocked=0
+[Eval 4720] success_rate=0.300 qp_infeasible_rate=0.700 mean_return=-542456.7 mean_steps=12.7
+[Episode 4730] reward=-49080365.6 actor_loss=0.1013 critic_loss=122644963328.0000 entropy=3.8978 ent_coef=0.001957 approx_kl=0.0034 kl_stop=1 intervention_rate=0.0833 front_blocked=0
+[Episode 4740] reward=-66250281.6 actor_loss=0.1178 critic_loss=131924812288.0000 entropy=3.8937 ent_coef=0.001957 approx_kl=0.0026 kl_stop=1 intervention_rate=0.0924 front_blocked=0
+[Eval 4740] success_rate=0.500 qp_infeasible_rate=0.500 mean_return=-370216.8 mean_steps=14.9
+[Episode 4750] reward=-50630507.2 actor_loss=0.0993 critic_loss=119994840795.4286 entropy=3.8931 ent_coef=0.001957 approx_kl=0.0072 kl_stop=1 intervention_rate=0.0781 front_blocked=0
+[Episode 4760] reward=-48149007.7 actor_loss=0.1315 critic_loss=120549395456.0000 entropy=3.8962 ent_coef=0.001957 approx_kl=0.0010 kl_stop=1 intervention_rate=0.0742 front_blocked=0
+[Eval 4760] success_rate=0.250 qp_infeasible_rate=0.750 mean_return=-590539.2 mean_steps=12.5
+[Episode 4770] reward=-41086937.3 actor_loss=0.1129 critic_loss=118850258066.2857 entropy=3.8923 ent_coef=0.001957 approx_kl=0.0064 kl_stop=1 intervention_rate=0.0742 front_blocked=0
+[Episode 4780] reward=-43186205.3 actor_loss=0.1230 critic_loss=118906940074.6667 entropy=3.8916 ent_coef=0.001957 approx_kl=0.0008 kl_stop=1 intervention_rate=0.0801 front_blocked=0
+[Eval 4780] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-454421.7 mean_steps=13.4
+[Episode 4790] reward=-51568360.3 actor_loss=0.0922 critic_loss=125459883804.4444 entropy=3.8922 ent_coef=0.001957 approx_kl=0.0011 kl_stop=1 intervention_rate=0.0762 front_blocked=0
+[Episode 4800] reward=-47449087.3 actor_loss=0.1089 critic_loss=124058344561.7778 entropy=3.8897 ent_coef=0.001957 approx_kl=0.0034 kl_stop=1 intervention_rate=0.0749 front_blocked=0
+[Eval 4800] success_rate=0.450 qp_infeasible_rate=0.550 mean_return=-431289.8 mean_steps=14.6
+[Episode 4810] reward=-58967615.2 actor_loss=0.1228 critic_loss=127447867392.0000 entropy=3.8867 ent_coef=0.001957 approx_kl=0.0026 kl_stop=1 intervention_rate=0.0859 front_blocked=0
+[Episode 4820] reward=-52525653.2 actor_loss=0.1098 critic_loss=125889978368.0000 entropy=3.8839 ent_coef=0.001957 approx_kl=0.0000 kl_stop=1 intervention_rate=0.0820 front_blocked=0
+[Eval 4820] success_rate=0.550 qp_infeasible_rate=0.450 mean_return=-358836.5 mean_steps=15.5
+[Episode 4830] reward=-65257806.4 actor_loss=0.1143 critic_loss=135176196551.1111 entropy=3.8816 ent_coef=0.001957 approx_kl=0.0037 kl_stop=1 intervention_rate=0.0846 front_blocked=0
+[Episode 4840] reward=-45681518.1 actor_loss=0.1031 critic_loss=122292382626.9091 entropy=3.8761 ent_coef=0.001956 approx_kl=0.0024 kl_stop=1 intervention_rate=0.0755 front_blocked=0
+[Eval 4840] success_rate=0.500 qp_infeasible_rate=0.500 mean_return=-358618.2 mean_steps=14.6
+[Episode 4850] reward=-49829417.4 actor_loss=0.1076 critic_loss=123404004010.6667 entropy=3.8768 ent_coef=0.001956 approx_kl=0.0029 kl_stop=1 intervention_rate=0.0775 front_blocked=0
+[Episode 4860] reward=-51827015.6 actor_loss=0.1182 critic_loss=124093705216.0000 entropy=3.8743 ent_coef=0.001956 approx_kl=0.0026 kl_stop=1 intervention_rate=0.0768 front_blocked=0
+[Eval 4860] success_rate=0.250 qp_infeasible_rate=0.750 mean_return=-581268.6 mean_steps=11.9
+[Episode 4870] reward=-53781240.5 actor_loss=0.1036 critic_loss=131362623115.6364 entropy=3.8727 ent_coef=0.001956 approx_kl=0.0038 kl_stop=1 intervention_rate=0.0840 front_blocked=0
+[Episode 4880] reward=-54887678.9 actor_loss=0.0841 critic_loss=130292896689.2308 entropy=3.8715 ent_coef=0.001956 approx_kl=0.0040 kl_stop=1 intervention_rate=0.0788 front_blocked=0
+[Eval 4880] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-451941.7 mean_steps=13.9
+[Episode 4890] reward=-53905561.0 actor_loss=0.1064 critic_loss=125793629525.3333 entropy=3.8726 ent_coef=0.001956 approx_kl=0.0016 kl_stop=1 intervention_rate=0.0716 front_blocked=0
+[Episode 4900] reward=-52522983.4 actor_loss=0.1143 critic_loss=120720935321.6000 entropy=3.8749 ent_coef=0.001956 approx_kl=0.0041 kl_stop=1 intervention_rate=0.0820 front_blocked=0
+[Eval 4900] success_rate=0.200 qp_infeasible_rate=0.800 mean_return=-641666.6 mean_steps=12.1
+[Episode 4910] reward=-58236224.8 actor_loss=0.1079 critic_loss=128691281920.0000 entropy=3.8789 ent_coef=0.001956 approx_kl=0.0021 kl_stop=1 intervention_rate=0.0853 front_blocked=0
+[Episode 4920] reward=-48720802.2 actor_loss=0.1101 critic_loss=120195206348.8000 entropy=3.8777 ent_coef=0.001956 approx_kl=0.0020 kl_stop=1 intervention_rate=0.0755 front_blocked=0
+[Eval 4920] success_rate=0.200 qp_infeasible_rate=0.800 mean_return=-577736.8 mean_steps=11.2
+[Episode 4930] reward=-52982457.8 actor_loss=0.1003 critic_loss=119031321693.0909 entropy=3.8770 ent_coef=0.001956 approx_kl=0.0019 kl_stop=1 intervention_rate=0.0807 front_blocked=0
+[Episode 4940] reward=-58487802.8 actor_loss=0.1099 critic_loss=128964450167.4667 entropy=3.8736 ent_coef=0.001956 approx_kl=0.0039 kl_stop=1 intervention_rate=0.0814 front_blocked=0
+[Eval 4940] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-416978.7 mean_steps=13.5
+[Episode 4950] reward=-52881271.7 actor_loss=0.1221 critic_loss=122544716458.6667 entropy=3.8745 ent_coef=0.001955 approx_kl=0.0013 kl_stop=1 intervention_rate=0.0872 front_blocked=0
+[Episode 4960] reward=-48053261.6 actor_loss=0.1022 critic_loss=122634076160.0000 entropy=3.8710 ent_coef=0.001955 approx_kl=0.0032 kl_stop=1 intervention_rate=0.0762 front_blocked=0
+[Eval 4960] success_rate=0.250 qp_infeasible_rate=0.750 mean_return=-540924.1 mean_steps=12.2
+[Episode 4970] reward=-62579748.0 actor_loss=0.1305 critic_loss=127313984170.6667 entropy=3.8684 ent_coef=0.001955 approx_kl=0.0013 kl_stop=1 intervention_rate=0.0957 front_blocked=0
+[Episode 4980] reward=-56498947.1 actor_loss=0.0850 critic_loss=127105827635.2000 entropy=3.8670 ent_coef=0.001955 approx_kl=0.0043 kl_stop=1 intervention_rate=0.0775 front_blocked=0
+[Eval 4980] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-496425.7 mean_steps=13.8
+[Episode 4990] reward=-51625895.1 actor_loss=0.1219 critic_loss=124214040439.4667 entropy=3.8659 ent_coef=0.001955 approx_kl=0.0035 kl_stop=1 intervention_rate=0.0775 front_blocked=0
+[Episode 5000] reward=-51597222.6 actor_loss=0.1017 critic_loss=123842370218.6667 entropy=3.8661 ent_coef=0.001955 approx_kl=0.0014 kl_stop=1 intervention_rate=0.0762 front_blocked=0
+[Eval 5000] success_rate=0.550 qp_infeasible_rate=0.450 mean_return=-309348.6 mean_steps=15.2
+[Episode 5010] reward=-42295182.7 actor_loss=0.1084 critic_loss=117607977545.1429 entropy=3.8700 ent_coef=0.001955 approx_kl=0.0028 kl_stop=1 intervention_rate=0.0729 front_blocked=0
+[Episode 5020] reward=-66580855.5 actor_loss=0.1345 critic_loss=135294022997.3333 entropy=3.8697 ent_coef=0.001955 approx_kl=0.0015 kl_stop=1 intervention_rate=0.0924 front_blocked=0
+[Eval 5020] success_rate=0.150 qp_infeasible_rate=0.850 mean_return=-668671.0 mean_steps=11.2
+[Episode 5030] reward=-60402870.1 actor_loss=0.1115 critic_loss=131981471744.0000 entropy=3.8696 ent_coef=0.001955 approx_kl=0.0018 kl_stop=1 intervention_rate=0.0898 front_blocked=0
+[Episode 5040] reward=-50048344.6 actor_loss=0.1145 critic_loss=124659923502.5455 entropy=3.8659 ent_coef=0.001955 approx_kl=0.0015 kl_stop=1 intervention_rate=0.0859 front_blocked=0
+[Eval 5040] success_rate=0.350 qp_infeasible_rate=0.650 mean_return=-524396.3 mean_steps=13.3
+[Episode 5050] reward=-58020602.4 actor_loss=0.1411 critic_loss=126156621531.4286 entropy=3.8671 ent_coef=0.001955 approx_kl=0.0023 kl_stop=1 intervention_rate=0.0885 front_blocked=0
+[Episode 5060] reward=-50845072.4 actor_loss=0.1182 critic_loss=121303519547.0769 entropy=3.8653 ent_coef=0.001954 approx_kl=0.0037 kl_stop=1 intervention_rate=0.0807 front_blocked=0
+[Eval 5060] success_rate=0.300 qp_infeasible_rate=0.700 mean_return=-520556.5 mean_steps=12.6
+[Episode 5070] reward=-57282796.6 actor_loss=0.1238 critic_loss=130108066084.5714 entropy=3.8628 ent_coef=0.001954 approx_kl=0.0051 kl_stop=1 intervention_rate=0.0859 front_blocked=0
+[Episode 5080] reward=-46999911.4 actor_loss=0.1028 critic_loss=124126034797.7143 entropy=3.8632 ent_coef=0.001954 approx_kl=0.0027 kl_stop=1 intervention_rate=0.0801 front_blocked=0
+[Eval 5080] success_rate=0.300 qp_infeasible_rate=0.700 mean_return=-476043.2 mean_steps=12.2
+[Episode 5090] reward=-54293188.4 actor_loss=0.1096 critic_loss=128597309030.4000 entropy=3.8617 ent_coef=0.001954 approx_kl=0.0022 kl_stop=1 intervention_rate=0.0820 front_blocked=0
+[Episode 5100] reward=-61452160.8 actor_loss=0.1219 critic_loss=132810306653.0909 entropy=3.8612 ent_coef=0.001954 approx_kl=0.0014 kl_stop=1 intervention_rate=0.0885 front_blocked=0
+[Eval 5100] success_rate=0.550 qp_infeasible_rate=0.450 mean_return=-323282.0 mean_steps=14.8
+[Episode 5110] reward=-50074643.8 actor_loss=0.1203 critic_loss=124889356288.0000 entropy=3.8655 ent_coef=0.001954 approx_kl=0.0040 kl_stop=1 intervention_rate=0.0853 front_blocked=0
+[Episode 5120] reward=-55329402.0 actor_loss=0.0999 critic_loss=124800872448.0000 entropy=3.8651 ent_coef=0.001954 approx_kl=0.0021 kl_stop=1 intervention_rate=0.0872 front_blocked=0
+[Eval 5120] success_rate=0.500 qp_infeasible_rate=0.500 mean_return=-386879.0 mean_steps=14.8
+[Episode 5130] reward=-48151937.4 actor_loss=0.1024 critic_loss=120754772377.6000 entropy=3.8645 ent_coef=0.001954 approx_kl=0.0030 kl_stop=1 intervention_rate=0.0801 front_blocked=0
+[Episode 5140] reward=-60539388.2 actor_loss=0.1128 critic_loss=130743401676.8000 entropy=3.8668 ent_coef=0.001954 approx_kl=0.0044 kl_stop=1 intervention_rate=0.0833 front_blocked=0
+[Eval 5140] success_rate=0.500 qp_infeasible_rate=0.500 mean_return=-382870.8 mean_steps=14.8
+[Episode 5150] reward=-47014461.6 actor_loss=0.1252 critic_loss=121936543744.0000 entropy=3.8655 ent_coef=0.001954 approx_kl=0.0027 kl_stop=1 intervention_rate=0.0697 front_blocked=0
+[Episode 5160] reward=-43599377.6 actor_loss=0.0916 critic_loss=117139068245.3333 entropy=3.8654 ent_coef=0.001954 approx_kl=0.0029 kl_stop=1 intervention_rate=0.0775 front_blocked=0
+[Eval 5160] success_rate=0.300 qp_infeasible_rate=0.700 mean_return=-537207.8 mean_steps=12.7
+[Episode 5170] reward=-57361148.7 actor_loss=0.1228 critic_loss=128392547328.0000 entropy=3.8663 ent_coef=0.001953 approx_kl=0.0028 kl_stop=1 intervention_rate=0.0833 front_blocked=0
+[Episode 5180] reward=-61497648.5 actor_loss=0.1157 critic_loss=129636996983.4667 entropy=3.8665 ent_coef=0.001953 approx_kl=0.0014 kl_stop=1 intervention_rate=0.0879 front_blocked=0
+[Eval 5180] success_rate=0.300 qp_infeasible_rate=0.700 mean_return=-531182.6 mean_steps=12.7
+[Episode 5190] reward=-52068571.0 actor_loss=0.1239 critic_loss=127675010486.8571 entropy=3.8668 ent_coef=0.001953 approx_kl=0.0027 kl_stop=1 intervention_rate=0.0866 front_blocked=0
+[Episode 5200] reward=-60858707.8 actor_loss=0.1341 critic_loss=131174956032.0000 entropy=3.8681 ent_coef=0.001953 approx_kl=0.0032 kl_stop=1 intervention_rate=0.0918 front_blocked=0
+[Eval 5200] success_rate=0.450 qp_infeasible_rate=0.550 mean_return=-440049.2 mean_steps=14.7
+[Episode 5210] reward=-50753823.6 actor_loss=0.1192 critic_loss=122370725701.8182 entropy=3.8651 ent_coef=0.001953 approx_kl=0.0025 kl_stop=1 intervention_rate=0.0853 front_blocked=0
--- a/Logs/train_20260330_221647_gpu1_long/events.out.tfevents.1774880214.xie-4090.3544434.0
+++ b/Logs/train_20260330_221647_gpu1_long/events.out.tfevents.1774880214.xie-4090.3544434.0
--- a/Logs/train_20260330_221647_gpu1_long/train.out
+++ b/Logs/train_20260330_221647_gpu1_long/train.out
@ -7727,3 +7727,115 @@ nohup: ignoring input
 [Episode 51510] reward=-117788799.6 actor_loss=0.3637 critic_loss=140629486955.3548 entropy=17.5853 approx_kl=0.0090 kl_stop=1 intervention_rate=0.1361 front_blocked=0
 [Episode 51520] reward=-114261480.7 actor_loss=0.2790 critic_loss=130350980407.6522 entropy=17.5799 approx_kl=0.0088 kl_stop=1 intervention_rate=0.1341 front_blocked=0
 [Eval 51520] success_rate=0.250 qp_infeasible_rate=0.750 mean_return=-569989.5 mean_steps=12.2
+[Episode 51530] reward=-120373744.1 actor_loss=0.3112 critic_loss=139961681596.6316 entropy=17.5786 approx_kl=0.0075 kl_stop=1 intervention_rate=0.1361 front_blocked=0
+[Episode 51540] reward=-122328341.8 actor_loss=0.2288 critic_loss=140814622720.0000 entropy=17.5576 approx_kl=0.0089 kl_stop=1 intervention_rate=0.1354 front_blocked=0
+[Eval 51540] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-442444.7 mean_steps=14.7
+[Episode 51550] reward=-114734961.4 actor_loss=0.3986 critic_loss=143166496768.0000 entropy=17.5605 approx_kl=0.0079 kl_stop=1 intervention_rate=0.1367 front_blocked=0
+[Episode 51560] reward=-121775151.9 actor_loss=0.1893 critic_loss=140599591594.6667 entropy=17.5536 approx_kl=0.0085 kl_stop=1 intervention_rate=0.1315 front_blocked=0
+[Eval 51560] success_rate=0.600 qp_infeasible_rate=0.400 mean_return=-283207.8 mean_steps=16.8
+[Episode 51570] reward=-120340578.5 actor_loss=0.2413 critic_loss=161677932953.6000 entropy=17.5479 approx_kl=0.0084 kl_stop=1 intervention_rate=0.1309 front_blocked=0
+[Episode 51580] reward=-120180497.6 actor_loss=0.2869 critic_loss=140552463018.6667 entropy=17.5552 approx_kl=0.0086 kl_stop=1 intervention_rate=0.1367 front_blocked=0
+[Eval 51580] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-429345.6 mean_steps=14.7
+[Episode 51590] reward=-116045783.2 actor_loss=0.2690 critic_loss=134559549253.8182 entropy=17.5682 approx_kl=0.0068 kl_stop=1 intervention_rate=0.1328 front_blocked=0
+[Episode 51600] reward=-110303772.6 actor_loss=0.3125 critic_loss=134765616670.1176 entropy=17.5789 approx_kl=0.0078 kl_stop=1 intervention_rate=0.1296 front_blocked=0
+[Eval 51600] success_rate=0.300 qp_infeasible_rate=0.700 mean_return=-515506.5 mean_steps=13.6
+[Episode 51610] reward=-119413473.2 actor_loss=0.2616 critic_loss=140019448295.6190 entropy=17.5786 approx_kl=0.0093 kl_stop=1 intervention_rate=0.1328 front_blocked=0
+[Episode 51620] reward=-116838735.4 actor_loss=0.3610 critic_loss=141747907840.0000 entropy=17.5782 approx_kl=0.0088 kl_stop=1 intervention_rate=0.1400 front_blocked=0
+[Eval 51620] success_rate=0.450 qp_infeasible_rate=0.550 mean_return=-429705.1 mean_steps=15.1
+[Episode 51630] reward=-122748571.6 actor_loss=0.3032 critic_loss=142219749376.0000 entropy=17.5772 approx_kl=0.0064 kl_stop=1 intervention_rate=0.1393 front_blocked=0
+[Episode 51640] reward=-123352397.1 actor_loss=0.2932 critic_loss=149387038479.0588 entropy=17.5729 approx_kl=0.0067 kl_stop=1 intervention_rate=0.1367 front_blocked=0
+[Eval 51640] success_rate=0.350 qp_infeasible_rate=0.650 mean_return=-540028.6 mean_steps=13.8
+[Episode 51650] reward=-118567429.6 actor_loss=0.3588 critic_loss=141779257088.0000 entropy=17.5822 approx_kl=0.0075 kl_stop=1 intervention_rate=0.1439 front_blocked=0
+[Episode 51660] reward=-116473884.7 actor_loss=0.2831 critic_loss=134894680576.0000 entropy=17.5860 approx_kl=0.0068 kl_stop=1 intervention_rate=0.1361 front_blocked=0
+[Eval 51660] success_rate=0.300 qp_infeasible_rate=0.700 mean_return=-583231.2 mean_steps=13.1
+[Episode 51670] reward=-117438771.7 actor_loss=0.3076 critic_loss=130846606429.0909 entropy=17.5812 approx_kl=0.0062 kl_stop=1 intervention_rate=0.1374 front_blocked=0
+[Episode 51680] reward=-114312716.8 actor_loss=0.2602 critic_loss=134675682099.2000 entropy=17.6025 approx_kl=0.0078 kl_stop=0 intervention_rate=0.1276 front_blocked=0
+[Eval 51680] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-502453.1 mean_steps=15.1
+[Episode 51690] reward=-118855395.6 actor_loss=0.3876 critic_loss=135542347093.3333 entropy=17.5983 approx_kl=0.0086 kl_stop=0 intervention_rate=0.1465 front_blocked=0
+[Episode 51700] reward=-115612007.9 actor_loss=0.2725 critic_loss=134130940313.6000 entropy=17.6012 approx_kl=0.0077 kl_stop=1 intervention_rate=0.1309 front_blocked=0
+[Eval 51700] success_rate=0.350 qp_infeasible_rate=0.650 mean_return=-534888.5 mean_steps=13.8
+[Episode 51710] reward=-113201313.3 actor_loss=0.3096 critic_loss=129480346925.1765 entropy=17.5952 approx_kl=0.0060 kl_stop=1 intervention_rate=0.1335 front_blocked=0
+[Episode 51720] reward=-114430781.7 actor_loss=0.2345 critic_loss=132036848739.0968 entropy=17.5909 approx_kl=0.0083 kl_stop=1 intervention_rate=0.1283 front_blocked=0
+[Eval 51720] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-498132.4 mean_steps=14.8
+[Episode 51730] reward=-111169382.7 actor_loss=0.3203 critic_loss=131338548077.7143 entropy=17.5843 approx_kl=0.0078 kl_stop=1 intervention_rate=0.1315 front_blocked=0
+[Episode 51740] reward=-123973270.2 actor_loss=0.2504 critic_loss=151488339577.9048 entropy=17.5856 approx_kl=0.0075 kl_stop=1 intervention_rate=0.1309 front_blocked=0
+[Eval 51740] success_rate=0.500 qp_infeasible_rate=0.500 mean_return=-387850.1 mean_steps=15.6
+[Episode 51750] reward=-114560990.2 actor_loss=0.3015 critic_loss=137540702966.5185 entropy=17.5930 approx_kl=0.0083 kl_stop=1 intervention_rate=0.1341 front_blocked=0
+[Episode 51760] reward=-116355692.4 actor_loss=0.1599 critic_loss=141752601320.7273 entropy=17.5853 approx_kl=0.0082 kl_stop=1 intervention_rate=0.1204 front_blocked=0
+[Eval 51760] success_rate=0.450 qp_infeasible_rate=0.550 mean_return=-474334.6 mean_steps=15.2
+[Episode 51770] reward=-114786494.9 actor_loss=0.3530 critic_loss=135914407582.8965 entropy=17.5760 approx_kl=0.0079 kl_stop=1 intervention_rate=0.1393 front_blocked=0
+[Episode 51780] reward=-115463730.0 actor_loss=0.2706 critic_loss=135627945691.4286 entropy=17.6062 approx_kl=0.0079 kl_stop=1 intervention_rate=0.1315 front_blocked=0
+[Eval 51780] success_rate=0.250 qp_infeasible_rate=0.750 mean_return=-572611.5 mean_steps=12.8
+[Episode 51790] reward=-118052221.8 actor_loss=0.3482 critic_loss=137618292736.0000 entropy=17.6012 approx_kl=0.0089 kl_stop=1 intervention_rate=0.1393 front_blocked=0
+[Episode 51800] reward=-123648793.4 actor_loss=0.2890 critic_loss=155943081301.3333 entropy=17.5896 approx_kl=0.0058 kl_stop=1 intervention_rate=0.1380 front_blocked=0
+[Eval 51800] success_rate=0.200 qp_infeasible_rate=0.800 mean_return=-568857.6 mean_steps=11.3
+[Episode 51810] reward=-120408461.8 actor_loss=0.2999 critic_loss=142540647082.6667 entropy=17.5988 approx_kl=0.0085 kl_stop=1 intervention_rate=0.1380 front_blocked=0
+[Episode 51820] reward=-120514016.6 actor_loss=0.3291 critic_loss=148833154389.3333 entropy=17.6050 approx_kl=0.0086 kl_stop=1 intervention_rate=0.1361 front_blocked=0
+[Eval 51820] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-502301.3 mean_steps=14.3
+[Episode 51830] reward=-117778417.6 actor_loss=0.2893 critic_loss=140763573248.0000 entropy=17.6025 approx_kl=0.0081 kl_stop=1 intervention_rate=0.1367 front_blocked=0
+[Episode 51840] reward=-126800165.5 actor_loss=0.1932 critic_loss=182224042046.0606 entropy=17.6016 approx_kl=0.0106 kl_stop=1 intervention_rate=0.1309 front_blocked=0
+[Eval 51840] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-463902.7 mean_steps=14.4
+[Episode 51850] reward=-116521088.5 actor_loss=0.2790 critic_loss=134991841012.8696 entropy=17.5993 approx_kl=0.0079 kl_stop=1 intervention_rate=0.1322 front_blocked=0
+[Episode 51860] reward=-116750624.8 actor_loss=0.3396 critic_loss=134295141888.0000 entropy=17.5908 approx_kl=0.0071 kl_stop=1 intervention_rate=0.1419 front_blocked=0
+[Eval 51860] success_rate=0.450 qp_infeasible_rate=0.550 mean_return=-480183.5 mean_steps=15.1
+[Episode 51870] reward=-119554356.2 actor_loss=0.2876 critic_loss=139349527210.6667 entropy=17.5810 approx_kl=0.0076 kl_stop=1 intervention_rate=0.1380 front_blocked=0
+[Episode 51880] reward=-114362166.6 actor_loss=0.3743 critic_loss=135987062411.6364 entropy=17.5816 approx_kl=0.0102 kl_stop=1 intervention_rate=0.1393 front_blocked=0
+[Eval 51880] success_rate=0.300 qp_infeasible_rate=0.700 mean_return=-601690.1 mean_steps=13.8
+[Episode 51890] reward=-117028936.7 actor_loss=0.3164 critic_loss=140521150464.0000 entropy=17.5726 approx_kl=0.0080 kl_stop=1 intervention_rate=0.1400 front_blocked=0
+[Episode 51900] reward=-115836936.9 actor_loss=0.3023 critic_loss=131191983405.1765 entropy=17.5646 approx_kl=0.0062 kl_stop=1 intervention_rate=0.1367 front_blocked=0
+[Eval 51900] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-455494.5 mean_steps=14.2
+[Episode 51910] reward=-117752032.6 actor_loss=0.2732 critic_loss=138984932752.6956 entropy=17.5699 approx_kl=0.0082 kl_stop=1 intervention_rate=0.1322 front_blocked=0
+[Episode 51920] reward=-116964735.9 actor_loss=0.3474 critic_loss=140992472557.0370 entropy=17.5710 approx_kl=0.0090 kl_stop=1 intervention_rate=0.1406 front_blocked=0
+[Eval 51920] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-471254.0 mean_steps=14.8
+[Episode 51930] reward=-116101574.0 actor_loss=0.2997 critic_loss=134056375543.1724 entropy=17.5766 approx_kl=0.0095 kl_stop=1 intervention_rate=0.1361 front_blocked=0
+[Episode 51940] reward=-116361767.2 actor_loss=0.3388 critic_loss=135789581548.3077 entropy=17.5865 approx_kl=0.0070 kl_stop=1 intervention_rate=0.1387 front_blocked=0
+[Eval 51940] success_rate=0.300 qp_infeasible_rate=0.700 mean_return=-575468.1 mean_steps=13.2
+[Episode 51950] reward=-114909179.4 actor_loss=0.3411 critic_loss=139409307940.5714 entropy=17.6006 approx_kl=0.0081 kl_stop=1 intervention_rate=0.1367 front_blocked=0
+[Episode 51960] reward=-116016113.9 actor_loss=0.2102 critic_loss=136876872681.2444 entropy=17.6002 approx_kl=0.0067 kl_stop=0 intervention_rate=0.1263 front_blocked=0
+[Eval 51960] success_rate=0.450 qp_infeasible_rate=0.550 mean_return=-416077.6 mean_steps=15.2
+[Episode 51970] reward=-118456407.6 actor_loss=0.3103 critic_loss=137869980876.8000 entropy=17.6103 approx_kl=0.0072 kl_stop=1 intervention_rate=0.1367 front_blocked=0
+[Episode 51980] reward=-119481477.9 actor_loss=0.2611 critic_loss=137089535277.1765 entropy=17.6108 approx_kl=0.0066 kl_stop=1 intervention_rate=0.1374 front_blocked=0
+[Eval 51980] success_rate=0.200 qp_infeasible_rate=0.800 mean_return=-632269.0 mean_steps=12.1
+[Episode 51990] reward=-117414322.1 actor_loss=0.3155 critic_loss=137220900930.0645 entropy=17.6132 approx_kl=0.0074 kl_stop=1 intervention_rate=0.1380 front_blocked=0
+[Episode 52000] reward=-112980240.4 actor_loss=0.3652 critic_loss=129200692875.6364 entropy=17.6249 approx_kl=0.0081 kl_stop=1 intervention_rate=0.1406 front_blocked=0
+[Eval 52000] success_rate=0.200 qp_infeasible_rate=0.800 mean_return=-623633.2 mean_steps=11.8
+[Episode 52010] reward=-120367633.6 actor_loss=0.3241 critic_loss=143335360512.0000 entropy=17.6057 approx_kl=0.0085 kl_stop=1 intervention_rate=0.1406 front_blocked=0
+[Episode 52020] reward=-120272058.0 actor_loss=0.3416 critic_loss=146020057088.0000 entropy=17.6181 approx_kl=0.0079 kl_stop=1 intervention_rate=0.1400 front_blocked=0
+[Eval 52020] success_rate=0.500 qp_infeasible_rate=0.500 mean_return=-389264.6 mean_steps=15.8
+[Episode 52030] reward=-118321489.1 actor_loss=0.2542 critic_loss=136602902528.0000 entropy=17.6197 approx_kl=0.0100 kl_stop=1 intervention_rate=0.1322 front_blocked=0
+[Episode 52040] reward=-118421280.9 actor_loss=0.3965 critic_loss=138782235247.3044 entropy=17.6055 approx_kl=0.0091 kl_stop=1 intervention_rate=0.1458 front_blocked=0
+[Eval 52040] success_rate=0.350 qp_infeasible_rate=0.650 mean_return=-456162.1 mean_steps=13.8
+[Episode 52050] reward=-119432860.4 actor_loss=0.3674 critic_loss=145613026099.2000 entropy=17.6105 approx_kl=0.0091 kl_stop=1 intervention_rate=0.1387 front_blocked=0
+[Episode 52060] reward=-109609238.3 actor_loss=0.3014 critic_loss=128962734398.5778 entropy=17.6235 approx_kl=0.0078 kl_stop=0 intervention_rate=0.1302 front_blocked=0
+[Eval 52060] success_rate=0.300 qp_infeasible_rate=0.700 mean_return=-571718.4 mean_steps=13.4
+[Episode 52070] reward=-116846762.9 actor_loss=0.2098 critic_loss=141196004104.8276 entropy=17.6141 approx_kl=0.0084 kl_stop=1 intervention_rate=0.1257 front_blocked=0
+[Episode 52080] reward=-108692133.1 actor_loss=0.4520 critic_loss=129518668276.6222 entropy=17.6252 approx_kl=0.0071 kl_stop=0 intervention_rate=0.1439 front_blocked=0
+[Eval 52080] success_rate=0.350 qp_infeasible_rate=0.650 mean_return=-471242.6 mean_steps=14.1
+[Episode 52090] reward=-117188177.2 actor_loss=0.2552 critic_loss=132932759096.8889 entropy=17.6245 approx_kl=0.0089 kl_stop=1 intervention_rate=0.1322 front_blocked=0
+[Episode 52100] reward=-116987151.5 actor_loss=0.2355 critic_loss=132969124486.7368 entropy=17.6327 approx_kl=0.0089 kl_stop=1 intervention_rate=0.1348 front_blocked=0
+[Eval 52100] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-442574.9 mean_steps=14.4
+[Episode 52110] reward=-114435844.4 actor_loss=0.2636 critic_loss=135781704893.6296 entropy=17.6189 approx_kl=0.0079 kl_stop=1 intervention_rate=0.1309 front_blocked=0
+[Episode 52120] reward=-121161405.0 actor_loss=0.2991 critic_loss=140295888896.0000 entropy=17.6161 approx_kl=0.0097 kl_stop=1 intervention_rate=0.1393 front_blocked=0
+[Eval 52120] success_rate=0.400 qp_infeasible_rate=0.600 mean_return=-485397.8 mean_steps=14.6
+[Episode 52130] reward=-110768241.7 actor_loss=0.2550 critic_loss=133809386057.1429 entropy=17.6086 approx_kl=0.0082 kl_stop=1 intervention_rate=0.1237 front_blocked=0
+[Episode 52140] reward=-116194389.5 actor_loss=0.3844 critic_loss=136326562702.2222 entropy=17.6022 approx_kl=0.0087 kl_stop=0 intervention_rate=0.1458 front_blocked=0
+[Eval 52140] success_rate=0.100 qp_infeasible_rate=0.900 mean_return=-738850.8 mean_steps=10.9
+[Episode 52150] reward=-117748912.2 actor_loss=0.3431 critic_loss=138618670213.5652 entropy=17.6028 approx_kl=0.0072 kl_stop=1 intervention_rate=0.1400 front_blocked=0
+[Episode 52160] reward=-115163496.1 actor_loss=0.2144 critic_loss=141121696426.6667 entropy=17.6098 approx_kl=0.0090 kl_stop=1 intervention_rate=0.1250 front_blocked=0
+[Eval 52160] success_rate=0.350 qp_infeasible_rate=0.650 mean_return=-481621.8 mean_steps=13.6
+[Episode 52170] reward=-118175665.7 actor_loss=0.3111 critic_loss=146036490581.3333 entropy=17.6237 approx_kl=0.0058 kl_stop=1 intervention_rate=0.1302 front_blocked=0
+[Episode 52180] reward=-120622991.2 actor_loss=0.2957 critic_loss=139214986353.7778 entropy=17.6245 approx_kl=0.0098 kl_stop=0 intervention_rate=0.1426 front_blocked=0
+[Eval 52180] success_rate=0.300 qp_infeasible_rate=0.700 mean_return=-602485.8 mean_steps=13.7
+[Episode 52190] reward=-121432829.1 actor_loss=0.2855 critic_loss=146947130919.3846 entropy=17.6432 approx_kl=0.0075 kl_stop=1 intervention_rate=0.1354 front_blocked=0
+[Episode 52200] reward=-123293288.4 actor_loss=0.2256 critic_loss=144524478691.5555 entropy=17.6377 approx_kl=0.0088 kl_stop=1 intervention_rate=0.1335 front_blocked=0
+[Eval 52200] success_rate=0.500 qp_infeasible_rate=0.500 mean_return=-415050.3 mean_steps=16.2
+[Episode 52210] reward=-119398110.1 actor_loss=0.3893 critic_loss=145254124058.9474 entropy=17.6299 approx_kl=0.0051 kl_stop=1 intervention_rate=0.1432 front_blocked=0
+[Episode 52220] reward=-115337571.0 actor_loss=0.2258 critic_loss=137709637416.4211 entropy=17.6379 approx_kl=0.0064 kl_stop=1 intervention_rate=0.1283 front_blocked=0
+[Eval 52220] success_rate=0.100 qp_infeasible_rate=0.900 mean_return=-661668.4 mean_steps=10.3
+[Episode 52230] reward=-119114709.9 actor_loss=0.2984 critic_loss=426908081872.5926 entropy=17.6403 approx_kl=0.0074 kl_stop=1 intervention_rate=0.1211 front_blocked=0
+[Episode 52240] reward=-114780240.9 actor_loss=0.2865 critic_loss=134454527772.4444 entropy=17.6269 approx_kl=0.0076 kl_stop=1 intervention_rate=0.1341 front_blocked=0
+[Eval 52240] success_rate=0.550 qp_infeasible_rate=0.450 mean_return=-368923.3 mean_steps=16.9
+[Episode 52250] reward=-112023864.0 actor_loss=0.3557 critic_loss=133680321142.1538 entropy=17.6393 approx_kl=0.0085 kl_stop=1 intervention_rate=0.1367 front_blocked=0
+[Episode 52260] reward=-116021024.5 actor_loss=0.3669 critic_loss=135600031402.6667 entropy=17.6365 approx_kl=0.0081 kl_stop=1 intervention_rate=0.1406 front_blocked=0
+[Eval 52260] success_rate=0.450 qp_infeasible_rate=0.550 mean_return=-455744.0 mean_steps=15.4
+[Episode 52270] reward=-119999511.8 actor_loss=0.2428 critic_loss=138345820918.5185 entropy=17.6425 approx_kl=0.0087 kl_stop=1 intervention_rate=0.1361 front_blocked=0
--- a/Logs/train_20260401_185208_stable_v2/events.out.tfevents.1775040729.xie-4090.3164943.0
+++ b/Logs/train_20260401_185208_stable_v2/events.out.tfevents.1775040729.xie-4090.3164943.0
--- a/Plots/data/eval_full50_trajectories.npz
+++ b/Plots/data/eval_full50_trajectories.npz
--- a/Plots/fig2_trajectory_3d_interactive.py
+++ b/Plots/fig2_trajectory_3d_interactive.py
@ -16,15 +16,6 @@ sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
 from stellar.arpodenvs.environment import SafeResidualARPOD


-def build_random_points(n_points=100, seed=42):
-    """Sample random points strictly from the chaser initial position region."""
-    rng = np.random.default_rng(seed)
-    cfg = SafeResidualARPOD.DEFAULT_CONFIG
-    center = np.array(cfg["init_pos_center"], dtype=np.float64)
-    ranges = np.array(cfg["init_pos_range"], dtype=np.float64)
-    return center + ranges * rng.uniform(-1.0, 1.0, size=(n_points, 3))
-
-
 def get_traj_indices(data):
    n_full = int(data.get("n_full_saved", 0))
    indices = []
@ -46,10 +37,15 @@ def get_reason_counts(data, traj_indices):
    else:
        reasons = np.array([str(data.get(f"traj{i}_reason", "none")) for i in traj_indices])

-    success = int(np.sum(reasons == "success"))
-    timeout = int(np.sum(reasons == "time_limit"))
+    reason_counts = {}
+    for r in reasons:
+        reason_counts[r] = reason_counts.get(r, 0) + 1
+
+    success = int(reason_counts.get("success", 0))
+    timeout = int(reason_counts.get("time_limit", 0))
+    # failure 明确表示“非 success 且非 timeout”的失败终止。
    failure = int(reasons.size - success - timeout)
-    return success, failure, timeout, int(reasons.size)
+    return success, failure, timeout, int(reasons.size), reason_counts


 def add_safety_sphere(fig, radius):
@ -98,7 +94,7 @@ def add_los_cone(fig, theta_deg, length):
    )


-def build_interactive_figure(data_path, out_html, n_random_points=100):
+def build_interactive_figure(data_path, out_html):
    if not os.path.exists(data_path):
        raise FileNotFoundError(f"Data file not found: {data_path}")

@ -106,12 +102,12 @@ def build_interactive_figure(data_path, out_html, n_random_points=100):
    cfg = SafeResidualARPOD.DEFAULT_CONFIG

    traj_indices = get_traj_indices(data)
-    success_count, failure_count, timeout_count, total_eval_count = get_reason_counts(data, traj_indices)
+    success_count, failure_count, timeout_count, total_eval_count, reason_counts = get_reason_counts(data, traj_indices)

    fig = go.Figure()

    add_safety_sphere(fig, radius=float(cfg["rho_safe"]))
-    add_los_cone(fig, theta_deg=float(cfg["theta_los_deg"]), length=900.0)
+    add_los_cone(fig, theta_deg=float(cfg["theta_los_deg"]), length=1300.0)

    # Target and hold point
    x_h = np.array(cfg["x_h"], dtype=np.float64)
@ -180,23 +176,17 @@ def build_interactive_figure(data_path, out_html, n_random_points=100):
            )
        )

-    # Random points from actual initial region
-    points = build_random_points(n_points=n_random_points, seed=42)
-    fig.add_trace(
-        go.Scatter3d(
-            x=points[:, 0],
-            y=points[:, 1],
-            z=points[:, 2],
-            mode="markers",
-            marker=dict(size=2.5, color="#AABBDD", opacity=0.35),
-            name=f"Init-region samples (N={n_random_points}, no trajectory)",
-        )
-    )
+    qp_infeasible_count = int(reason_counts.get("qp_infeasible", 0))
+    collision_count = int(reason_counts.get("collision", 0))
+    front_blocked_count = int(reason_counts.get("front_blocked", 0))

    summary = (
        f"<b>Success</b>: {success_count}<br>"
-        f"<b>Failure</b>: {failure_count}<br>"
+        f"<b>Failure (non-timeout)</b>: {failure_count}<br>"
        f"<b>Timeout</b>: {timeout_count}<br>"
+        f"<b>QP infeasible</b>: {qp_infeasible_count}<br>"
+        f"<b>Collision</b>: {collision_count}<br>"
+        f"<b>Front blocked</b>: {front_blocked_count}<br>"
        f"<b>Trajectories shown</b>: {len(traj_indices)}/{total_eval_count}"
    )

@ -207,7 +197,11 @@ def build_interactive_figure(data_path, out_html, n_random_points=100):
            xaxis_title="x (radial) [m]",
            yaxis_title="y (along-track) [m]",
            zaxis_title="z (normal) [m]",
-            aspectmode="data",
+            xaxis=dict(range=[-300, 300]),
+            yaxis=dict(range=[-1300, 120]),
+            zaxis=dict(range=[-300, 300]),
+            aspectmode="manual",
+            aspectratio=dict(x=1.0, y=2.8, z=1.0),
            camera=dict(eye=dict(x=1.4, y=-1.8, z=1.1)),
        ),
        dragmode="orbit",
@ -232,6 +226,7 @@ def build_interactive_figure(data_path, out_html, n_random_points=100):

    os.makedirs(os.path.dirname(out_html), exist_ok=True)
    fig.write_html(out_html, include_plotlyjs="cdn", full_html=True)
+    print(f"Reason counts: {reason_counts}")
    print(f"Saved interactive html: {out_html}")


@ -239,13 +234,11 @@ def main():
    parser = argparse.ArgumentParser(description="Interactive Figure 2")
    parser.add_argument("--data_path", type=str, default="Plots/data/eval_trajectories.npz")
    parser.add_argument("--out_html", type=str, default="Plots/fig2_trajectory_3d_interactive.html")
-    parser.add_argument("--n_random_points", type=int, default=100)
    args = parser.parse_args()

    build_interactive_figure(
        data_path=args.data_path,
        out_html=args.out_html,
-        n_random_points=args.n_random_points,
    )


--- a/Plots/fig2_trajectory_3d_interactive_full50.html
+++ b/Plots/fig2_trajectory_3d_interactive_full50.html
--- a/Plots/run_evaluation.py
+++ b/Plots/run_evaluation.py
@ -124,6 +124,8 @@ def main():
                        help='使用确定性策略')
    parser.add_argument('--device', type=str, default='cpu')
    parser.add_argument('--out_dir', type=str, default='Plots/data')
+    parser.add_argument('--save_full', type=int, default=None,
+                        help='保存完整轨迹条数；默认保存全部 n_episodes')
    args = parser.parse_args()

    device = torch.device(args.device)
@ -195,7 +197,7 @@ def main():
    out_path = os.path.join(args.out_dir, f'{args.tag}_trajectories.npz')

    # 优先保存成功轨迹，再补充其他轨迹
-    n_full = min(10, args.n_episodes)
+    n_full = args.n_episodes if args.save_full is None else min(args.save_full, args.n_episodes)
    # 成功轨迹优先
    success_trajs = [t for t in all_trajs if t['terminate_reason'] == 'success']
    other_trajs = [t for t in all_trajs if t['terminate_reason'] != 'success']