为什么我在使用TensorFlow进行多元线性回归时得到不同的权重?

我有两个多元线性回归的实现,一个使用tensorflow,另一个仅使用numpy。我生成了一个虚拟数据集,并尝试恢复我使用的初始权重,但尽管numpy的实现返回了初始权重,tensorflow的实现总是返回不同的权重(这些权重在某种程度上也能工作)。

numpy的实现在这里这里,以下是TF的实现:

import numpy as npimport tensorflow as tfx = np.array([[i, i + 10] for i in range(100)]).astype(np.float32)y = np.array([i * 0.4 + j * 0.9 + 1 for i, j in x]).astype(np.float32)# Add biasx = np.hstack((x, np.ones((x.shape[0], 1)))).astype(np.float32)# Create variable for weightsn_features = x.shape[1]np.random.rand(n_features)w = tf.Variable(tf.random_normal([n_features, 1]))w = tf.Print(w, [w])# Loss functiony_hat = tf.matmul(x, w)loss = tf.reduce_mean(tf.square(tf.sub(y, y_hat)))operation = tf.train.GradientDescentOptimizer(learning_rate=0.000001).minimize(loss)with tf.Session() as session:    session.run(tf.initialize_all_variables())    for iteration in range(5000):        session.run(operation)    weights = w.eval()    print(weights)

运行脚本得到的权重大约是[-0.481, 1.403, 0.701],而运行numpy版本得到的权重大约是[0.392, 0.907, 0.9288],这些权重更接近我用来生成数据的权重:[0.4, 0.9, 1]

两个实现的学习率/轮次参数是相同的,并且都随机初始化权重。我没有对任何一个实现的数据进行归一化,并且我已经多次运行它们。

为什么结果不同?我还尝试在TF版本中使用w = tf.Variable(np.random.rand(n_features).reshape(n_features,1).astype(np.float32))来初始化权重,但这也没有解决问题。TF的实现有什么问题吗?


回答:

问题似乎出在广播上。在上面的实现中,y_hat的形状是(100,1),而y的形状是(100,)。因此,当你执行tf.sub(y, y_hat)时,你会得到一个(100,100)的矩阵,这些是两个向量之间所有可能的减法组合。我不知道,但我想你在numpy代码中设法避免了这个问题。

修复你的代码有两种方法:

y = np.array([[i * 0.4 + j * 0.9 + 1 for i, j in x]]).astype(np.float32).T

或者

y_hat = tf.squeeze(tf.matmul(x, w))

虽然如此,当我运行这个时,它仍然没有真正收敛到你想要的答案,但至少它能够最小化损失函数。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注