特征提取与更高的敏感性

在对WBCD数据集进行特征提取(PCA和LDA)后,再进行逻辑回归,我发现敏感性有所提高,但准确率有所不同。我一直在寻找相关文献,试图解释或研究特征提取如何提高分类器的敏感性,但未能找到相关内容。


回答:

特征提取可以降低数据的维度。这通常是为了创建一个更小的系统(减少计算开销)和/或减少噪声(获得更清晰的信号)。

《统计学习导论》一书(可在此处下载)在无监督学习部分(第373页)提供了简洁的介绍,我想这正是你所寻找的。

以PCA为例,来自《统计学习导论》:

当面对大量相关的变量时,主成分分析允许我们用更少的代表性变量来总结这一组变量,这些变量共同解释了原始数据集中的大部分变异性。主成分方向在第6.3.1节中被描述为特征空间中的方向,沿着这些方向,原始数据具有高度的变异性。这些方向还定义了尽可能靠近数据云的线和子空间。为了进行主成分回归,我们只需在回归模型中使用主成分作为预测变量,代替原始的较大变量集。

主成分分析(PCA)指的是计算主成分的过程,以及随后使用这些成分来理解数据的过程。PCA是一种无监督方法,因为它仅涉及一组特征X1, X2,…,Xp,而没有相关的响应变量Y。除了在有监督学习问题中产生派生变量外,PCA还用作数据可视化的工具(观察的可视化或变量的可视化)。我们现在更详细地讨论PCA,重点在于将PCA作为无监督数据探索的工具,这与本章的主题一致。

我的首选资源是《统计学习的要素》(可在此处免费获取)。从第534页开始,有关于PCA的详细讨论,并将其应用于手写识别,使问题更易处理。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注