一个好的模型可以有低的R平方值吗？

我使用scikit-learn进行了线性回归

当我查看测试数据上的均方误差时，它非常低（0.09）

当我查看测试数据上的R平方值时，它也很低（0.05）

据我所知，当均方误差低时，模型应该是不错的，但R平方值很低，这表明模型不好

我不明白我的回归模型到底好不好

一个好的模型可以有低的R平方值吗？或者一个差的模型可以有低的均方误差值吗？

回答：

R^2是衡量你的拟合效果对数据代表性的指标。

假设你的数据有一条线性趋势并带有一些噪声。我们可以构造数据并观察R^2的变化：

数据

我将使用numpy创建一些数据：

xs = np.random.randint(10, 1000, 2000)ys = (3 * xs + 8) + np.random.randint(5, 10, 2000)

现在我们可以使用scikit创建一个拟合对象

reg = LinearRegression().fit(xs.reshape(-1, 1), ys.reshape(-1, 1))

我们可以从这个拟合中获取得分。

reg.score(xs.reshape(-1, 1), ys.reshape(-1, 1))

我的R^2是：0.9999971914416896

假设我们有一组更加分散的数据（带有更多的噪声）。

ys2 = (3 * xs + 8) + np.random.randint(500, 1000, 2000)

现在我们可以计算ys2的得分，以了解我们的拟合对xs，ys2数据的代表性如何：

reg.score(xs.reshape(-1, 1), ys2.reshape(-1, 1))

我的R^2是：0.2377175028951054

得分很低。我们知道数据的趋势没有改变。它仍然是3x+8 +（噪声）。但ys2离拟合线更远了。

因此，R^2是衡量你的拟合对数据代表性的指标。但数据本身的条件也很重要。即使得分低，可能你得到的已经是最好的拟合了。因为数据由于噪声而分散。