如何使用scikit-learn进行多变量线性回归?

请原谅我的术语使用,我不是机器学习专家。下文中我可能使用了不正确的术语。

我试图进行多变量线性回归。假设我想通过分析网站的页面浏览来判断用户的性别。

对于每个我已知性别的用户,我有一个特征矩阵,每一行代表一个网站部分,第二个元素表示他们是否访问了该部分,例如:

male1 = [    [1, 1],     # 访问了部分1    [2, 0],     # 未访问部分2    [3, 1],     # 访问了部分3,等等    [4, 0]]

所以在scikit中,我正在构建xsys。我用1代表男性,用0代表女性。

上述情况将表示为:

features = male1gender = 1

显然,我不仅仅是在为单个用户训练模型,而是有数万名用户的数据用于训练。

我原本以为我应该这样创建xsys

xs = [    [          # 用户1       [1, 1],           [2, 0],            [3, 1],           [4, 0]    ],    [          # 用户2       [1, 0],           [2, 1],            [3, 1],           [4, 0]    ],    ...]ys = [1, 0, ...]

scikit不喜欢这种方式:

from sklearn import linear_modelclf = linear_model.LinearRegression()clf.fit(xs, ys)

它会报错:

ValueError: Found array with dim 3. Estimator expected <= 2.

我应该如何向scikit-learn的线性回归算法提供特征矩阵呢?


回答:

你需要以不同的方式创建xs。根据文档

fit(X, y, sample_weight=None)

参数:

    X : numpy array或稀疏矩阵,形状为[n_samples, n_features]        训练数据    y : numpy array,形状为[n_samples, n_targets]        目标值    sample_weight : numpy array,形状为[n_samples]        每个样本的个别权重

因此,xs应该是一个二维数组,行数与用户数相同,列数与网站部分数相同。然而,你定义的xs是一个三维数组。为了减少一个维度,你可以通过列表解析去掉部分编号:

xs = [[visit for section, visit in user] for user in xs]

如果你这样做,你提供的示例数据将被转换为:

xs = [[1, 0, 1, 0], # 用户1      [0, 1, 1, 0], # 用户2      ...      ]

这样,clf.fit(xs, ys)应该能够正常工作。

更高效的降维方法是切片NumPy数组:

import numpy as npxs = np.asarray(xs)[:,:,1]

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注