我有一个大型表格(10000 x 5001),代表10000个样本和这些样本的5001个不同特征。其中一个特征代表每个样本的输出变量。换句话说,每个样本有5000个输入变量和一个输出变量。
我知道这些输入中的大多数是无关的。因此,我想做的是确定能够最佳预测输出变量的输入变量子集。在R中进行这一操作的最佳/最简单的方法是什么?
回答:
你可以查看Weka。在Explorer
中加载数据,然后转到Select attributes
选项卡。在那里你会找到几种选项来获取数据集中最有信息量的属性/特征。