无法理解 ID3 算法

维基百科上的 ID3 算法定义非常复杂。有没有哪个链接可以用更易于理解的方式解释这个概念?

维基百科有很多复杂的理论和公式。我理解了什么是熵,但我不明白什么是增益。 你的基本解释或指向一些好的链接肯定会帮助我。


回答:

我认为维基百科的页面基本上抓住了要点,尽管一些例子会有所帮助。 你可以查看佛罗里达大学的页面伦敦帝国学院 (ICL)关于该主题的页面。 当涉及到机器学习和数据挖掘等主题时,您应该始终考虑阅读 @ CMU 的 Andrew Moore 的资料,我发现这些资料非常有帮助。

另外,这是我的一点看法:

熵表示消息中包含的信息(不确定性)的期望值。 由于我们在这里考虑决策树,因此增益是我们在属性上拆分时的熵差异(即,原始熵与不同分支的熵的权重平均值之间的差异)。 由于这是不确定性的减少,因此这只是我们通过在该属性上拆分获得的信息。

此外,我们在学习数据挖掘课程时使用了《数据挖掘:基于教程的方法》作为教材,这是一本很好且易于理解的书籍。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注