特征提取与更高的敏感性

在对WBCD数据集进行特征提取(PCA和LDA)后,再进行逻辑回归,我发现敏感性有所提高,但准确率有所不同。我一直在寻找相关文献,试图解释或研究特征提取如何提高分类器的敏感性,但未能找到相关内容。


回答:

特征提取可以降低数据的维度。这通常是为了创建一个更小的系统(减少计算开销)和/或减少噪声(获得更清晰的信号)。

《统计学习导论》一书(可在此处下载)在无监督学习部分(第373页)提供了简洁的介绍,我想这正是你所寻找的。

以PCA为例,来自《统计学习导论》:

当面对大量相关的变量时,主成分分析允许我们用更少的代表性变量来总结这一组变量,这些变量共同解释了原始数据集中的大部分变异性。主成分方向在第6.3.1节中被描述为特征空间中的方向,沿着这些方向,原始数据具有高度的变异性。这些方向还定义了尽可能靠近数据云的线和子空间。为了进行主成分回归,我们只需在回归模型中使用主成分作为预测变量,代替原始的较大变量集。

主成分分析(PCA)指的是计算主成分的过程,以及随后使用这些成分来理解数据的过程。PCA是一种无监督方法,因为它仅涉及一组特征X1, X2,…,Xp,而没有相关的响应变量Y。除了在有监督学习问题中产生派生变量外,PCA还用作数据可视化的工具(观察的可视化或变量的可视化)。我们现在更详细地讨论PCA,重点在于将PCA作为无监督数据探索的工具,这与本章的主题一致。

我的首选资源是《统计学习的要素》(可在此处免费获取)。从第534页开始,有关于PCA的详细讨论,并将其应用于手写识别,使问题更易处理。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注