在对WBCD数据集进行特征提取(PCA和LDA)后,再进行逻辑回归,我发现敏感性有所提高,但准确率有所不同。我一直在寻找相关文献,试图解释或研究特征提取如何提高分类器的敏感性,但未能找到相关内容。
回答:
特征提取可以降低数据的维度。这通常是为了创建一个更小的系统(减少计算开销)和/或减少噪声(获得更清晰的信号)。
《统计学习导论》一书(可在此处下载)在无监督学习部分(第373页)提供了简洁的介绍,我想这正是你所寻找的。
以PCA为例,来自《统计学习导论》:
当面对大量相关的变量时,主成分分析允许我们用更少的代表性变量来总结这一组变量,这些变量共同解释了原始数据集中的大部分变异性。主成分方向在第6.3.1节中被描述为特征空间中的方向,沿着这些方向,原始数据具有高度的变异性。这些方向还定义了尽可能靠近数据云的线和子空间。为了进行主成分回归,我们只需在回归模型中使用主成分作为预测变量,代替原始的较大变量集。
主成分分析(PCA)指的是计算主成分的过程,以及随后使用这些成分来理解数据的过程。PCA是一种无监督方法,因为它仅涉及一组特征X1, X2,…,Xp,而没有相关的响应变量Y。除了在有监督学习问题中产生派生变量外,PCA还用作数据可视化的工具(观察的可视化或变量的可视化)。我们现在更详细地讨论PCA,重点在于将PCA作为无监督数据探索的工具,这与本章的主题一致。
我的首选资源是《统计学习的要素》(可在此处免费获取)。从第534页开始,有关于PCA的详细讨论,并将其应用于手写识别,使问题更易处理。