我在寻找信息增益的正确参数时遇到了问题,因为我没有离散值,因此我首先需要将这些点离散化成区间。
我所拥有的:
我在进行图像处理,我的特征可能的范围是0-255。通过一些训练数据,我可以定义一些区间(这些区间仅定义“是否为对象”)。如果goods
是匹配点的区间数,bads
是其环境的标记数。我将通过以下方式计算:
这种情况下的信息增益为:
其中
结果和想法:
不知为何,我最终得到的IG是负值,这显然是无意义的,但我找不到错误所在。另一个想法是,不再计算good
中与对象匹配的区间数,而是计算good
中符合任何好区间的样本数。
有谁有想法吗?
回答:
我没有看到你之前和之后(或P和Q)的分布情况。
你是否从一种情况变到另一种情况?这点不清楚。
请查看什么是“熵和信息增益”?
看起来good+bad代表了整个分布。
所以你需要有一些变化,从一种(good, bad)情况变到另一种(good, bad)情况。
然后你可以正确应用公式 – 或者遵循示例
你的公式似乎有问题。