在关于近端策略优化算法的原始论文中
在公式(4)中,作者使用了一个标记为 KL[]
的操作。不幸的是,他们从未给出其定义。
我的问题:
KL[]
操作代表什么?
回答:
可能是 KL 散度?
KL 散度用于比较两个概率分布之间的差异。
在关于近端策略优化算法的原始论文中
在公式(4)中,作者使用了一个标记为 KL[]
的操作。不幸的是,他们从未给出其定义。
我的问题:
KL[]
操作代表什么?
回答:
可能是 KL 散度?
KL 散度用于比较两个概率分布之间的差异。