PyTorch的”Fold”和”Unfold”是如何工作的？

我已经查看了官方文档，但我很难理解这个函数的用途和工作原理。能有人用通俗的语言解释一下吗？

回答：

unfold 和 fold 被用来实现“滑动窗口”操作（如卷积）。假设你想对一个特征图/图像中的每个5×5窗口应用一个函数foo：

from torch.nn import functional as f
windows = f.unfold(x, kernel_size=5)

现在windows的size是batch-(5*5*x.size(1))-num_windows，你可以对windows应用foo：

processed = foo(windows)

然后你需要将processed“折叠”回x的原始大小：

out = f.fold(processed, x.shape[-2:], kernel_size=5)

你需要注意padding和kernel_size，因为它们可能会影响你将processed“折叠”回x大小的能力。此外，fold会对重叠元素进行求和，所以你可能需要将fold的输出除以补丁大小。

请注意，torch.unfold执行的操作与nn.Unfold不同。详情请见这个讨论。

学技术