XGBoost在R语言中的稀疏矩阵中是否区分缺失值和0值？

有时候特征可能既有0值又有缺失值。例如，你可能测量了一组棒球投手的每场比赛三振出局数，结果得到一个特征向量如下：

feats <- c(NA, NA, NA, 3.7, 0, 2.2)

这里，一名投手平均每场比赛三振出局数为0，而另外三名投手由于尚未投球比赛而没有记录任何数据。当我们将此转换为稀疏矩阵时，我们得到的是这样的结果：

library(Matrix)sparse1 <- sparseMatrix(i=4:6, j=rep(1, 3), x=c(3.7, 0, 2.2), dims=c(6, 1))sparse1[1,] .  [2,] .  [3,] .  [4,] 3.7[5,] 0.0[6,] 2.2

在这里，dgCMatrix类明显区分了缺失数据和0值，但据我所知，dgCMatrix中的缺失数据被假设为0值。

我想知道的是，当XGBoost尝试分割这些数据时，它是否将0值和缺失数据分别处理？换句话说，当XGBoost尝试基于这个特征进行分割时，它是否对缺失数据遵循NA协议（检查两个分割方向），还是将缺失数据发送到与非稀疏0值相同的位置？

回答：

然而，准确回答这个问题：

是的，缺失值在增益计算中不被考虑（不增加提升树子节点的梯度和黑森矩阵之和），而0值会被考虑（并增加提升树子节点的梯度和黑森矩阵之和）。

因此，0值和缺失值是不一样的。

学技术