Soft Actor-Critic论文学习笔记奖励函数中增加熵可以提高策略的学习的多样性提高鲁棒性。博文【熵的理解】