// 初始化二维数组,每个条目是某个神经网络phi = [[None] * n for _ in range(m)]for i in range(m): for j in range(n): phi[i][j] = NeuralNetwork()// 设k, i为任意索引p1 = torch.nn.utils.parameters_to_vector(phi[k][i - 1].parameters())p2 = torch.nn.utils.parameters_to_vector(mean of phi[:][i-1])
我基本上想要计算参数phi[k][i-1]
与整个列phi[:][i-1]
的平均值之间的均方误差,即((p1 - p2)**2).sum()
。我尝试了以下方法:
tmp = [x.parameters() for x in self.phi[:][i - 1]]mean_params = torch.mean(torch.stack(tmp), dim=0)p2 = torch.nn.utils.parameters_to_vector(mean_params)
但这不起作用,因为tmp是生成器对象的列表。更具体地说,我想我的问题是如何从这些生成器对象中计算平均值。
回答:
首先,我们可以定义一个函数来计算模型列表的平均参数。为了避免同时创建每个模型参数的副本,我们可能希望将其计算为累积和。例如
def average_parameters_vector(model_list): n = len(model_list) avg = 0 for model in model_list: avg = avg + torch.nn.utils.parameters_to_vector(model.parameters()) / n return avg
然后你可以创建p1
和p2
并计算均方误差
p1 = torch.nn.utils.parameters_to_vector(phi[k][i - 1].parameters())p2 = average_parameters_vector(phi[:][i - 1])mse = ((p1 - p2)**2).mean()
如果你真的想要一个一行解决方案,并且可能是最快的,你可以通过创建一个包含phi[:][i - 1]
中所有模型参数的单一张量,然后对其进行平均缩减来计算。但如前所述,这将显著增加内存使用量,特别是如果你的模型有数百万个参数,通常情况下是这样的。
# 使用大量内存但可能是最快的解决方案def average_parameters_vector(model_list): return torch.stack([torch.nn.utils.parameters_to_vector(model.parameters()) for model in model_list]).mean(dim=0)
在另一个极端,如果你非常关心内存使用,那么你可以一次计算每个单独参数的平均值。
# 比原始解决方案更节省内存,但可能更慢def average_parameters_vector(model_list): n = len(model_list) num_params = len(list(model_list[0].parameters())) averages = [0] * num_params for model in model_list: for pidx, p in enumerate(model.parameters()): averages[pidx] = averages[pidx] + p.data.flatten() / n return torch.cat(averages)