我和一位同事在GBrank模型(经过训练后)的最终形态上无法达成共识。
引言
该方法首先执行从成对数据到逐点数据的典型转换,其中目标变量z现在代表一个分数,当i优于j时,zi > zj。作者随后建议使用梯度提升树,并在模型预测zj > zj且i优于j的情况下进行“惩罚”。这种“惩罚”通过交换分数并增加或减少τ来实现。
分歧
我们分歧的点在于,梯度提升排序本身是否是一个集成模型。也就是说,我们正在训练的模型是gk还是hk?
参考资料
回答:
在整篇论文中,h用来表示你正在处理的假设,g只是一个用于构建h的特定领域回归模型,因此GBrank是hk。特别地,它是一种提升方法,因此必须是一个集成模型,通过从一组弱学习器中构建强学习器来训练(根据Kearns和Valiant在80年代末提出的提升定义)。h是一个集成模型(由于其反复定义),而g不是(因为它只是在某些转换后的数据集上训练的回归器)。