Home IT技术决策树如何计算分割属性？

决策树如何计算分割属性？

IT技术 xiaolong · 2025年4月6日 · 0 Comment

当我们使用任何决策树算法，并且我们的数据集包含数值时。

我发现程序提供的结果在数据集中不存在的值上分割了节点。

例如：
分类结果

attrib2 <= 3.761791861252009 : groupA
attrib2 > 3.761791861252009 : groupB

然而，在我的数据集中，attrib2 没有像 3.76179 这样的值。为什么会这样呢？

回答：

选择属性的方法有很多，并不是所有方法都选择数据集中的值。

一种常见的方法（虽然有点简单）是取平均值。3.76179… 可能是你数据集中所有 attrib2 的平均值。

例如，如果你的数据集是一维的，由值 -10, -9, .. -2, -1, 1, 2, ..9, 10 组成，那么一个好的分割值将是 0，尽管它不在你的数据集中。

另一种可能性，特别是如果你在处理随机森林（多个决策树）时，分割值可能是随机选择的，其概率分布围绕中位数值。一些算法决定根据以均值/中位数值为中心的高斯分布进行分割，并且偏差等于数据集的标准偏差。

data-mining decision-tree machine-learning

发表回复取消回复