如何处理机器学习中的大量特征

我开发了一个图像处理程序,能够识别给定数字图像中的数字。每张图像为27×27像素,总共729个像素。我提取了每个图像的R、G和B值,这意味着每个图像有2187个变量(加上截距项,总共2188个变量)。

我使用了下面的梯度下降公式:

Repeat {    θj = θj−α/m∑(hθ(x)−y)xj}

其中,θj是变量j的系数;α是学习率;hθ(x)是假设函数;y是真实值;xj是变量j的值。m是训练集的数量。hθ(x)y适用于每个训练集(即求和符号的作用)。此外,假设函数定义为:

hθ(x) = 1/(1+ e^-z)z= θo + θ1X1+θ2X2 +θ3X3...θnXn

使用这种方法和3000张训练图像,我能够在一小时多一点的时间内训练我的程序,并且在交叉验证集上测试时,它能够正确识别图像的准确率约为67%。

为了提高这个准确率,我决定尝试使用二次多项式。

然而,变量的数量从2188跳跃到了每张图像2,394,766个!仅仅进行一次梯度下降就需要一个小时。

所以我的问题是,机器学习中如何处理如此大量的变量?一方面,我没有足够的空间来存储每个训练集的这么多变量。另一方面,我目前存储了每个训练样本的2188个变量,但我必须执行O(n^2)的操作来获取每个变量与另一个变量相乘的值(即二次多项式的值)。

因此,任何建议/建议都将不胜感激。


回答:

  • 首先尝试使用一些降维技术(如PCA、核PCA,或者如果您在对图像进行分类,可以使用LDA)

  • 将您的梯度下降向量化 – 使用大多数数学库或在Matlab等环境中,它会运行得更快

  • 并行化算法,然后在多个CPU上运行(但也许您用于向量乘法的库已经支持并行计算)

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注