这是正常方程在机器学习中的好结果吗？如果不是，如何判断它对数据集是否合适？

我在学习机器学习中的正常方程，但我不确定这些结果是否正确。参数值非常高，我无法为这些参数找到假设，我的意思是这样的:

数据集:

2104,5,1,45,4601416,3,2,40,2321534,3,2,30,315852,2,1,36,178

当我运行代码时，我得到了参数(theta):

[4.74289062e+02  1.65405273e-01  -4.68750000e+00  -1.16445312e+02 -2.13281250e+00]

但是这些数字非常大。这正常吗？另外，在我的代码的最后一行，我尝试打印假设仅针对我的第一个数据集元素(2104,5,1,45,460)，但它给出了这样的错误:

print (q[0]*x[0][0])+(q[1]*x[0][1])+(q[2]*x[0][2])+(q[3]*x[0][3])+(q[4]*x[0][4])  IndexError: index out of bounds

我的代码:

data = np.loadtxt('bib', delimiter=',');x=data[:,0:4];y=data[:,4];a=np.ones(shape=(y.size,x[0].size+1));a[:,1:5]=x;A=np.linalg.inv(a.transpose().dot(a));B=np.dot(a.transpose(),y);q=A.dot(a.transpose()).dot(y);##print (q[0]*x[0][0])+(q[1]*x[0][1])+(q[2]*x[0][2])+(q[3]*x[0][3])+(q[4]*x[0][4])

我对这些结果不满意。我如何确保这些结果是正确的，以及如何用这些参数找到我的假设？

回答：

但是这些数字非常大。这正常吗？

你的数据没有经过归一化/缩放，你的值很大（约1e2），因此回归系数也是如此。

我尝试打印假设仅针对我的第一个数据集元素(2104,5,1,45,460)，但它给出了这样的错误:

错误是合理的 – 你的数据有4个维度，而你试图索引5个值。因为你使用了”a”的一列作为偏置项，你的假设形式是:

h(x) = <q, [1 x]> = q0 + q1*x0 + q2*x1 + q3*x2 + q4*x3

因此在代码中（使用你的记号和惯例）:

def h(x):   a = np.ones(x.shape[0], x.shape[1] + 1)   a[:, 1:5] = x   return a.dot(q)

我如何确保这些结果是正确的

你可以将它们与数十种现有的实现进行比较。你也可以创建一个虚拟测试集，其中y确实是x的线性组合，并检查你是否得到0错误。

学技术

这是正常方程在机器学习中的好结果吗？如果不是，如何判断它对数据集是否合适？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复