梯度提升决策树（GBDT）或多重加法回归树（MART）：计算梯度/伪响应

我正在实现来自(http://www-stat.stanford.edu/~jhf/ftp/trebst.pdf)的算法5中的MART，我的算法在较少的数据（3000个训练数据文件，22个特征）以及J=5,10,20（叶节点数量）和T=10,20的情况下“有效”。它为训练提供了良好的结果（R-Precision在0.30到0.5之间），但当我尝试在较大的训练数据（70K记录）上运行时，它会出现运行时下溢错误——我认为这是应该的，只是不知道如何解决这个问题？

下溢错误出现在这里，计算成本的梯度（或伪响应）： enter image description here

这里的y_i是{1,-1}标签，所以如果我只是尝试：2/exp(5000)，分母就会溢出！

我在想是否可以对其进行“归一化”或“阈值处理”，但随后我使用这个伪响应来计算“标签”（该PDF中的gamma），然后用这些gamma来计算模型得分。

回答：

@[隐藏人名] 接近了，我所做的就是：如果exp_arg > 16 或 exp_arg < -16，我就将我的exp_arg设为16（或-16），这样就有效了！（对于1.2GB的数据和700个特征也适用！）

学技术

梯度提升决策树（GBDT）或多重加法回归树（MART）：计算梯度/伪响应

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复