需要帮助理解PyTorch中的梯度函数

以下代码

w = np.array([[2., 2.],[2., 2.]])x = np.array([[3., 3.],[3., 3.]])b = np.array([[4., 4.],[4., 4.]])w = torch.tensor(w, requires_grad=True)x = torch.tensor(x, requires_grad=True)b = torch.tensor(b, requires_grad=True)y = w*x + b print(y)# tensor([[10., 10.],#         [10., 10.]], dtype=torch.float64, grad_fn=<AddBackward0>)y.backward(torch.FloatTensor([[1, 1],[ 1, 1]]))print(w.grad)# tensor([[3., 3.],#         [3., 3.]], dtype=torch.float64)print(x.grad)# tensor([[2., 2.],#         [2., 2.]], dtype=torch.float64)print(b.grad)# tensor([[1., 1.],#         [1., 1.]], dtype=torch.float64)

由于gradient函数中的张量参数是一个与输入张量形状相同的全1张量，我的理解是

w.grad表示y对w的导数，结果是b，
x.grad表示y对x的导数，结果是b，
b.grad表示y对b的导数，结果是全1。

在这三点中，只有第三点的答案与我的预期结果相符。有人能帮我理解前两个答案吗？我认为我理解了累积部分，但在这里似乎没有发生这种情况。

回答：

要在本例中找到正确的导数，我们需要考虑求和规则和乘积规则。

求和规则：

乘积规则：

这意味着你的方程的导数计算如下。

关于x的导数：

关于w的导数：

关于b的导数：

梯度完全反映了这些结果：

torch.equal(w.grad, x) # => Truetorch.equal(x.grad, w) # => Truetorch.equal(b.grad, torch.tensor([[1, 1], [1, 1]], dtype=torch.float64)) # => True

学技术

需要帮助理解PyTorch中的梯度函数

发表回复取消回复

相关文章：

Related Posts

给定多个预测向量，如何高效地获得票数最多的标签（在numpy/pytorch中）？

使用train_test_split()返回的值列表作为训练数据

如何在Python中逐一计算每个预测值的准确性？

调用PyTorch神经网络的forward()函数时出现错误“mat1和mat2的形状无法相乘”

独热编码增加了目标数据的尺寸

ValueError: 形状 (240000,28,28) 和 (2,512) 不匹配：28 (维度 2) != 2 (维度 0)

发表回复 取消回复

发表回复取消回复