tf.gradients() 对 ys 求和,对吗?

https://www.tensorflow.org/versions/r1.6/api_docs/python/tf/gradients

在 tf.gradients(ys, xs) 的文档中提到

构建 ys 之和相对于 xs 中 x 的符号导数

我对求和部分感到困惑,我在其他地方读到,这会在批次中对每个 x 的 dy/dx 求和。然而,每次我使用这个函数时,我都没有看到这种情况发生。看以下简单的例子:

x_dims = 3batch_size = 4x = tf.placeholder(tf.float32, (None, x_dims))y = 2*(x**2)grads = tf.gradients(y,x)sess = tf.Session()x_val = np.random.randint(0, 10, (batch_size, x_dims))y_val, grads_val = sess.run([y, grads], {x:x_val})print('x = \n', x_val)print('y = \n', y_val)print('dy/dx = \n', grads_val[0])

这会产生以下输出:

x =  [[5 3 7] [2 2 5] [7 5 0] [3 7 6]]y =  [[50. 18. 98.] [ 8.  8. 50.] [98. 50.  0.] [18. 98. 72.]]dy/dx =  [[20. 12. 28.] [ 8.  8. 20.] [28. 20.  0.] [12. 28. 24.]]

这是我期望的输出,仅仅是批次中每个元素的 dy/dx。我没有看到任何求和操作。在其他例子中,我看到这个操作之后会除以批次大小来处理 tf.gradients() 在批次上对梯度求和的情况(参见这里: https://pemami4911.github.io/blog/2016/08/21/ddpg-rl.html)。为什么这是必要的?

我使用的是 Tensorflow 1.6 和 Python 3.


回答:

如果 y 和 x 具有相同的形状,那么 dy/dx 的求和就是对单个值的求和。然而,如果每个 x 有多个 y,那么梯度会被求和。

import numpy as npimport tensorflow as tfx_dims = 3batch_size = 4x = tf.placeholder(tf.float32, (None, x_dims))y = 2*(x**2)z = tf.stack([y, y]) # z 的数量是 x 的两倍dy_dx = tf.gradients(y,x)dz_dx = tf.gradients(z,x)sess = tf.Session()x_val = np.random.randint(0, 10, (batch_size, x_dims))y_val, z_val, dy_dx_val, dz_dx_val = sess.run([y, z, dy_dx, dz_dx], {x:x_val})print('x.shape =', x_val.shape)print('x = \n', x_val)print('y.shape = ', y_val.shape)print('y = \n', y_val)print('z.shape = ', z_val.shape)print('z = \n', z_val)print('dy/dx = \n', dy_dx_val[0])print('dz/dx = \n', dz_dx_val[0])

产生以下输出:

x.shape = (4, 3)x =  [[1 4 8] [0 2 8] [2 8 1] [4 5 2]]y.shape =  (4, 3)y =  [[  2.  32. 128.] [  0.   8. 128.] [  8. 128.   2.] [ 32.  50.   8.]]z.shape =  (2, 4, 3)z =  [[[  2.  32. 128.]  [  0.   8. 128.]  [  8. 128.   2.]  [ 32.  50.   8.]] [[  2.  32. 128.]  [  0.   8. 128.]  [  8. 128.   2.]  [ 32.  50.   8.]]]dy/dx =  [[ 4. 16. 32.] [ 0.  8. 32.] [ 8. 32.  4.] [16. 20.  8.]]dz/dx =  [[ 8. 32. 64.] [ 0. 16. 64.] [16. 64.  8.] [32. 40. 16.]]

特别注意,dz/dx 的值是 dy/dz 的两倍,因为它们是对堆栈输入求和的结果。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注