我的LSTM在学习，损失在减少，但数值梯度与解析梯度不匹配

以下内容是自包含的，运行时它将：

1. 打印损失以验证其在减少（学习sin波形），

2. 检查数值梯度与我手动推导的梯度函数是否匹配。

这两个梯度通常在1e-1到1e-2之间匹配（尽管这仍然不好，但显示了它在尝试），并且偶尔会出现极端的异常值。

我整个星期六都在尝试回到普通的FFNN，让它工作（太好了，梯度匹配了！），而星期天则在处理这个LSTM，嗯，我找不到逻辑中的错误。哦，它还严重依赖于我的随机种子，有时表现很好，有时很糟糕。

我手动检查了我的LSTM方程实现与手动推导的导数（我做了微积分运算），并与以下3个博客/代码片段中的实现进行了比较：

你能帮我找出我实现错误的地方吗？

代码部分保持不变

回答：

解决了！在我的check_grad中，我需要构建caches，它服务于df_analytical，但这样做时，我也覆盖了本应为np.zeroes的h和c。

代码部分保持不变

因此，简单地不覆盖h和c就解决了问题，LSTM代码是没问题的。

_, outputs, loss, _, _, caches = f(params, h, c, inputs, targets)

学技术