信息增益度量显示什么?

我正在使用R语言中的fSelector包,通过information.gain函数来测量信息增益。

我对输出的结果有些不确定,因为其中有负号,我能理解在iris数据集上的输出结果。

weights <- information.gain(cross_over ~ age + max_stake_scale + current_loyalty_status + lifespan + early_hours + morning + afternoon + evening, df

输出结果是:

attr_importanceage                           0.000000e+00max_stake_scale               0.000000e+00current_loyalty_status        2.968854e-04lifespan                      1.523364e-02early_hours                   0.000000e+00morning                       0.000000e+00afternoon                     0.000000e+00evening                       0.000000e+00

响应变量是二元的,即是否交叉,是或否。我不确定哪些特征是重要的,请指教。

谢谢


回答:

信息增益告诉你,通过了解某个特定特征的值,你能获得多少信息。在二元分类问题中,你需要1比特的信息来进行分类(因为有两种可能的结果);即某个特定特征的最大信息增益为1。

在你的例子中,几乎所有特征的信息增益都是0,这意味着了解它们的数值对决定数据所属的类别没有任何帮助。非零值表示最重要的特征(尽管仍然相当不具信息性)——lifespancurrent_loyalty_status。负号只是指数表示法的一部分,即2.968854e-04表示2.968854 * 10^-40.0002968854

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注