如何选择数据集中用于分类的最佳/最差特征

我在JavaScript上进行小型随机森林分析,我有一个包含特征的二维数组。其中一些特征基本上是纯噪声,我希望将它们从数据集中移除。我在理解如何为每个特征计算以评估最差特征方面遇到了困难。我找到了在R语言中使用库实现的方法,但我想自己实现这个算法…

补充说明:我已经阅读了维基百科上的特征选择内容,但帮助不大…谢谢!

我的数据集看起来像这样:(3个类别和一些特征)

我的数据集


回答:

一些重要的特征选择技术

1) 带Lasso惩罚的线性回归。2) 随机森林(使用熵或基尼系数)。3) 前向逐步选择。4) 后向逐步选择。5) P值

还有更多其他的特征选择技术,如果你在使用Python,可以开始阅读http://scikit-learn.org/stable/modules/feature_selection.html,你会找到使用特征选择技术的代码。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注