PPO算法对应代码实现的熵正则化是否有误？ #171

ZhangNy301 · 2025-02-17T08:25:40Z

PPO代码实现中，
计算actor_loss额外增加了熵正则化项，我的理解是为了鼓励新策略进行更多的探索，也就是增加熵值，
但是代码中的实现似乎不一样。如下
# compute actor loss
actor_loss = -torch.min(surr1, surr2).mean() + self.entropy_coef * dist.entropy().mean()
可预料的结果是：1. 为了最小化actor_loss -> 2. 最小化熵项self.entropy_coef * dist.entropy().mean() -> 3. 鼓励更确定的输出。
这让我有些困惑，是否熵项的符号反了？

qiwang067 · 2025-02-17T08:30:33Z

@johnjim0816

PPO代码实现中，计算actor_loss额外增加了熵正则化项，我的理解是为了鼓励新策略进行更多的探索，也就是增加熵值，但是代码中的实现似乎不一样。如下 # compute actor loss actor_loss = -torch.min(surr1, surr2).mean() + self.entropy_coef * dist.entropy().mean() 可预料的结果是：1. 为了最小化actor_loss -> 2. 最小化熵项self.entropy_coef * dist.entropy().mean() -> 3. 鼓励更确定的输出。这让我有些困惑，是否熵项的符号反了？

johnjim0816 · 2025-02-17T14:08:27Z

PPO代码实现中，计算actor_loss额外增加了熵正则化项，我的理解是为了鼓励新策略进行更多的探索，也就是增加熵值，但是代码中的实现似乎不一样。如下 # compute actor loss actor_loss = -torch.min(surr1, surr2).mean() + self.entropy_coef * dist.entropy().mean() 可预料的结果是：1. 为了最小化actor_loss -> 2. 最小化熵项self.entropy_coef * dist.entropy().mean() -> 3. 鼓励更确定的输出。这让我有些困惑，是否熵项的符号反了？

没有反，actor的损失本来就是负的，这里为了跟value一起能够用梯度下降的方法取反了

johnjim0816 closed this as completed Feb 20, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PPO算法对应代码实现的熵正则化是否有误？ #171

PPO算法对应代码实现的熵正则化是否有误？ #171

ZhangNy301 commented Feb 17, 2025

qiwang067 commented Feb 17, 2025

johnjim0816 commented Feb 17, 2025

PPO算法对应代码实现的熵正则化是否有误？ #171

PPO算法对应代码实现的熵正则化是否有误？ #171

Comments

ZhangNy301 commented Feb 17, 2025

qiwang067 commented Feb 17, 2025

johnjim0816 commented Feb 17, 2025