请原谅我的术语使用,我不是机器学习专家。下文中我可能使用了不正确的术语。
我试图进行多变量线性回归。假设我想通过分析网站的页面浏览来判断用户的性别。
对于每个我已知性别的用户,我有一个特征矩阵,每一行代表一个网站部分,第二个元素表示他们是否访问了该部分,例如:
male1 = [ [1, 1], # 访问了部分1 [2, 0], # 未访问部分2 [3, 1], # 访问了部分3,等等 [4, 0]]
所以在scikit中,我正在构建xs
和ys
。我用1代表男性,用0代表女性。
上述情况将表示为:
features = male1gender = 1
显然,我不仅仅是在为单个用户训练模型,而是有数万名用户的数据用于训练。
我原本以为我应该这样创建xs
和ys
:
xs = [ [ # 用户1 [1, 1], [2, 0], [3, 1], [4, 0] ], [ # 用户2 [1, 0], [2, 1], [3, 1], [4, 0] ], ...]ys = [1, 0, ...]
scikit不喜欢这种方式:
from sklearn import linear_modelclf = linear_model.LinearRegression()clf.fit(xs, ys)
它会报错:
ValueError: Found array with dim 3. Estimator expected <= 2.
我应该如何向scikit-learn的线性回归算法提供特征矩阵呢?
回答:
你需要以不同的方式创建xs
。根据文档:
fit(X, y, sample_weight=None)
参数:
X : numpy array或稀疏矩阵,形状为[n_samples, n_features] 训练数据 y : numpy array,形状为[n_samples, n_targets] 目标值 sample_weight : numpy array,形状为[n_samples] 每个样本的个别权重
因此,xs
应该是一个二维数组,行数与用户数相同,列数与网站部分数相同。然而,你定义的xs
是一个三维数组。为了减少一个维度,你可以通过列表解析去掉部分编号:
xs = [[visit for section, visit in user] for user in xs]
如果你这样做,你提供的示例数据将被转换为:
xs = [[1, 0, 1, 0], # 用户1 [0, 1, 1, 0], # 用户2 ... ]
这样,clf.fit(xs, ys)
应该能够正常工作。
更高效的降维方法是切片NumPy数组:
import numpy as npxs = np.asarray(xs)[:,:,1]