信息增益度量显示什么?

我正在使用R语言中的fSelector包,通过information.gain函数来测量信息增益。

我对输出的结果有些不确定,因为其中有负号,我能理解在iris数据集上的输出结果。

weights <- information.gain(cross_over ~ age + max_stake_scale + current_loyalty_status + lifespan + early_hours + morning + afternoon + evening, df

输出结果是:

attr_importanceage                           0.000000e+00max_stake_scale               0.000000e+00current_loyalty_status        2.968854e-04lifespan                      1.523364e-02early_hours                   0.000000e+00morning                       0.000000e+00afternoon                     0.000000e+00evening                       0.000000e+00

响应变量是二元的,即是否交叉,是或否。我不确定哪些特征是重要的,请指教。

谢谢


回答:

信息增益告诉你,通过了解某个特定特征的值,你能获得多少信息。在二元分类问题中,你需要1比特的信息来进行分类(因为有两种可能的结果);即某个特定特征的最大信息增益为1。

在你的例子中,几乎所有特征的信息增益都是0,这意味着了解它们的数值对决定数据所属的类别没有任何帮助。非零值表示最重要的特征(尽管仍然相当不具信息性)——lifespancurrent_loyalty_status。负号只是指数表示法的一部分,即2.968854e-04表示2.968854 * 10^-40.0002968854

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注