我一直在尝试找出为什么我的线性回归模型与sklearn的线性回归模型相比表现不佳的原因。
我的线性回归模型(基于梯度下降的更新规则)
w0 = 0w1 = 0alpha = 0.001N = len(xTrain)for i in range(1000): yPred = w0 + w1*xTrain w0 = w0 - (alpha/N)* sum(yPred - yTrain) w1 = w1 - (alpha/N)*sum((yPred - yTrain) * xTrain)
用于绘制训练集中的x值和预测的y值的代码
#Scatter plot between x and yplot.scatter(xTrain,yTrain, c='black') plot.plot(xTrain, w0+w1*xTrain, color='r')plot.xlabel('房间数量')plot.ylabel('中位数价值(千美元)')plot.show()
我得到的输出如图所示 https://i.sstatic.net/jvOfM.png
使用sklearn内置的线性回归运行相同代码时,我得到了这个结果https://i.sstatic.net/jvOfM.png
谁能帮我找出我的模型哪里出错了?我已经尝试更改迭代次数和学习率,但没有显著变化。
如果有帮助,这里是colab上的ipython笔记本: https://colab.research.google.com/drive/1c3lWKkv2lJfZAc19LiDW7oTuYuacQ3nd
任何帮助都将非常感激
回答:
你可以设置一个更大的学习率,比如0.01。并且增加迭代次数,比如500000次。然后你会得到一个相似的结果。
或者你可以将w1初始化为一个较大的数,比如5。