PyTorch 布尔值 – 停止反向传播？

我需要创建一个神经网络，其中使用二进制门来将某些张量置零，这些张量是禁用电路的输出。

为了提高运行速度，我希望使用 torch.bool 二进制门来阻止网络中禁用电路的反向传播。然而，我使用官方 PyTorch 的 CIFAR-10 数据集示例进行了小型实验，无论 gate_A 和 gate_B 的值如何，运行速度都完全相同：（这意味着这个想法行不通）

class Net(nn.Module):    def __init__(self):        super().__init__()        self.pool = nn.MaxPool2d(2, 2)        self.conv1a = nn.Conv2d(3, 6, 5)        self.conv2a = nn.Conv2d(6, 16, 5)        self.conv1b = nn.Conv2d(3, 6, 5)        self.conv2b = nn.Conv2d(6, 16, 5)        self.fc1 = nn.Linear(32 * 5 * 5, 120)        self.fc2 = nn.Linear(120, 84)        self.fc3 = nn.Linear(84, 10)            def forward(self, x):        # 理论上应该随机启用一个门        # 然而，为了实验，我将值固定为 [1,0] 和 [1,1]        choice  =  randint(0,1)        gate_A  =  torch.tensor(choice   ,dtype = torch.bool)         gate_B  =  torch.tensor(1-choice ,dtype = torch.bool)                 a = self.pool(F.relu(self.conv1a(x)))        a = self.pool(F.relu(self.conv2a(a)))                b = self.pool(F.relu(self.conv1b(x)))        b = self.pool(F.relu(self.conv2b(b)))                a *= gate_A        b *= gate_B        x  = torch.cat( [a,b], dim = 1 )                x = torch.flatten(x, 1) # 展平除批次外的所有维度        x = F.relu(self.fc1(x))        x = F.relu(self.fc2(x))        x = self.fc3(x)        return x

如何定义 gate_A 和 gate_B，以便在它们为零时有效地停止反向传播？

附注：在运行时动态更改 concatenation 也会改变分配给每个模块的权重。（例如，关联到 a 的权重在另一轮中可能被分配给 b，这会扰乱网络的运行方式）。

回答：

您可以使用 torch.no_grad（下面的代码可能会更简洁）：

def forward(self, x):        # 理论上应该随机启用一个门        # 然而，为了实验，我将值固定为 [1,0] 和 [1,1]        choice  =  randint(0,1)        gate_A  =  torch.tensor(choice   ,dtype = torch.bool)         gate_B  =  torch.tensor(1-choice ,dtype = torch.bool)                 if choice:            a = self.pool(F.relu(self.conv1a(x)))            a = self.pool(F.relu(self.conv2a(a)))            a *= gate_A                        with torch.no_grad(): # 禁用梯度计算                b = self.pool(F.relu(self.conv1b(x)))                b = self.pool(F.relu(self.conv2b(b)))                b *= gate_B        else:            with torch.no_grad(): # 禁用梯度计算                a = self.pool(F.relu(self.conv1a(x)))                a = self.pool(F.relu(self.conv2a(a)))                a *= gate_A                        b = self.pool(F.relu(self.conv1b(x)))            b = self.pool(F.relu(self.conv2b(b)))            b *= gate_B        x  = torch.cat( [a,b], dim = 1 )                x = torch.flatten(x, 1) # 展平除批次外的所有维度        x = F.relu(self.fc1(x))        x = F.relu(self.fc2(x))        x = self.fc3(x)        return x

再看一遍，我认为以下是对特定问题更简单的解决方案：

def forward(self, x):        # 理论上应该随机启用一个门        # 然而，为了实验，我将值固定为 [1,0] 和 [1,1]        choice  =  randint(0,1)        if choice:            a = self.pool(F.relu(self.conv1a(x)))            a = self.pool(F.relu(self.conv2a(a)))            b = torch.zeros(shape_of_conv_output) # 此处替换卷积输出的形状        else:            b = self.pool(F.relu(self.conv1b(x)))            b = self.pool(F.relu(self.conv2b(b)))            a = torch.zeros(shape_of_conv_output) # 此处替换卷积输出的形状               x  = torch.cat( [a,b], dim = 1 )                x = torch.flatten(x, 1) # 展平除批次外的所有维度        x = F.relu(self.fc1(x))        x = F.relu(self.fc2(x))        x = self.fc3(x)        return x

学技术

PyTorch 布尔值 – 停止反向传播？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复