Home IT技术 Proximal Policy Optimization Algorithms 论文 – “KL” 操作的定义？

Proximal Policy Optimization Algorithms 论文 – “KL” 操作的定义？

IT技术 xiaolong · 2025年5月26日 · 0 Comment

在关于近端策略优化算法的原始论文中

https://arxiv.org/pdf/1707.06347.pdf

在公式（4）中，作者使用了一个标记为 KL[] 的操作。不幸的是，他们从未给出其定义。

我的问题：

KL[] 操作代表什么？

回答：

可能是 KL 散度？

KL 散度用于比较两个概率分布之间的差异。

学技术