Home IT技术在决策树中计算熵（机器学习）

在决策树中计算熵（机器学习）

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我知道计算熵的公式：

H(Y) = - ∑ (p(yj) * log2(p(yj)))

用文字来说，就是选择一个属性，然后对于每个值检查目标属性的值…所以p(yj)是节点N中属于类别yj的模式的比例 – 一个用于目标值为真的情况，一个用于目标值为假的情况。

但我的数据集中目标属性是价格，因此是一个范围。如何计算这种类型的数据集的熵呢？

（参考：http://decisiontrees.net/decision-trees-tutorial/tutorial-5-exercise-2/）

回答：

你首先需要以某种方式对数据集进行离散化处理，比如按数值顺序将其分成若干个区间。离散化方法有很多种，有些是监督式的（即考虑目标函数的值），有些则不是。这篇论文以相当一般的术语概述了各种技术。如果需要更具体的信息，机器学习库如Weka中有很多离散化算法。

连续分布的熵被称为微分熵，也可以通过假设你的数据以某种方式分布（例如正态分布），然后以常规方式估计基础分布，并使用此来计算熵值来进行估计。

decision-tree machine-learning

发表回复取消回复