机器学习中PCA或SVD的重要性

一直以来（特别是在Netflix竞赛中），我经常看到这个博客（或排行榜论坛），他们提到通过在数据上应用一个简单的SVD步骤，帮助他们减少了数据的稀疏性，或者总体上提高了他们手中算法的性能。我一直在思考这个问题，但始终无法理解为什么会这样。通常，我得到的数据非常嘈杂（这也是大数据的乐趣所在），我知道一些基本的特征缩放方法，比如对数变换和均值归一化。但是SVD是如何帮助的呢？假设我有一个巨大的用户评分电影矩阵，然后在这个矩阵中，我实现了一些版本的推荐系统（比如协同过滤）：

1) 没有SVD
2) 使用SVD

它是如何帮助的呢？

回答：

SVD不是用来归一化数据的，而是用来去除冗余数据，即进行降维。例如，如果你有两个变量，一个是湿度指数，另一个是降雨概率，那么它们的相关性非常高，以至于第二个变量不会为分类或回归任务提供任何额外的有用信息。SVD中的特征值可以帮助你确定哪些变量最有信息量，哪些可以省略。

它的工作原理很简单。你对训练数据（称之为矩阵A）进行SVD，得到U、S和V*。然后将S中所有小于某个任意阈值（例如0.1）的值设为零，称这个新矩阵为S’。然后得到A’ = US’V*，并使用A’作为你的新训练数据。你的某些特征现在被设为零，可以被移除，有时不会有任何性能损失（这取决于你的数据和选择的阈值）。这被称为k-截断SVD。

然而，SVD并不能帮助你处理稀疏性问题，它只在特征冗余时起作用。两个特征可以同时稀疏且对预测任务有信息量（相关），所以你不能移除其中任何一个。

使用SVD，你可以从n个特征减少到k个特征，每个特征将是原始n个特征的线性组合。这是一个降维步骤，就像特征选择一样。当存在冗余特征时，特征选择算法可能会根据你的数据集（例如，最大熵特征选择）比SVD带来更好的分类性能。Weka包含了许多这样的算法。

参见：http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Dimensionality_Reduction/Singular_Value_Decomposition

https://stats.stackexchange.com/questions/33142/what-happens-when-you-apply-svd-to-a-collaborative-filtering-problem-what-is-th

学技术

机器学习中PCA或SVD的重要性

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复