如何处理机器学习中的大量特征

我开发了一个图像处理程序，能够识别给定数字图像中的数字。每张图像为27×27像素，总共729个像素。我提取了每个图像的R、G和B值，这意味着每个图像有2187个变量（加上截距项，总共2188个变量）。

我使用了下面的梯度下降公式：

Repeat {    θj = θj−α/m∑(hθ(x)−y)xj}

其中，θj是变量j的系数；α是学习率；hθ(x)是假设函数；y是真实值；xj是变量j的值。m是训练集的数量。hθ(x)和y适用于每个训练集（即求和符号的作用）。此外，假设函数定义为：

hθ(x) = 1/(1+ e^-z)z= θo + θ1X1+θ2X2 +θ3X3...θnXn

使用这种方法和3000张训练图像，我能够在一小时多一点的时间内训练我的程序，并且在交叉验证集上测试时，它能够正确识别图像的准确率约为67%。

为了提高这个准确率，我决定尝试使用二次多项式。

然而，变量的数量从2188跳跃到了每张图像2,394,766个！仅仅进行一次梯度下降就需要一个小时。

所以我的问题是，机器学习中如何处理如此大量的变量？一方面，我没有足够的空间来存储每个训练集的这么多变量。另一方面，我目前存储了每个训练样本的2188个变量，但我必须执行O(n^2)的操作来获取每个变量与另一个变量相乘的值（即二次多项式的值）。

因此，任何建议/建议都将不胜感激。

回答：

学技术