Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor,2018DDPG不稳定及超参敏感演员-评论家相互依赖,可能都无法改进同时满足致命三元组 (c.f. deepmind 2025 年的论文移除了 off-policy 和 bootstrapping self-improving-efms相比 SAC 的随机策略和最大熵,DDPG 的确定性策略在探索和稳定性上都处于劣势