我正在进行联邦学习以检测不良客户端。
关于联邦学习的简要介绍 – 数据被分成多个客户端,在客户端进行训练,然后每个客户端将结果发送到中央服务器,在那里对客户端权重进行聚合,聚合后的模型随后再次发送给本地客户端进行训练。
我正在研究检测向中央服务器发送恶意更新的客户端。我使用了这里提供的基础代码。
我编写了一个方法来过滤客户端,该方法将检测某个客户端是否为恶意,并在聚合步骤中移除该客户端。我预计如果从全局聚合中移除一个客户端的权重,不会有太大的性能差异,但结果让我感到困惑。我添加了这段代码。当noisy_client[itr] != 0时,只会发生在1/10的客户端,并且在每次迭代中会发生在同一个客户端上。
if noisy_client[itr] == 0: scaled_local_weight_list.append(scaled_weights)
如果不使用这段代码,每次迭代的准确率都会稳步增加
0.61023809523809520.71952380952380960.77238095238095240.80142857142857140.81952380952380950.83142857142857140.83976190476190470.84380952380952380.85166666666666670.85452380952380960.85738095238095240.86023809523809520.8619047619047620.86357142857142850.86547619047619050.86714285714285710.8683333333333333
但当使用这段代码时,准确率在前几个迭代中增加,之后每次迭代都会下降
0.6883333333333334 0.7373809523809524 0.7552380952380953 0.765 0.763095238095238 0.7559523809523809 0.7497619047619047 0.7414285714285714 0.7323809523809524 0.7221428571428572 0.7154761904761905 0.705952380952381 0.6966666666666667 0.6895238095238095 0.6819047619047619 0.6730952380952381 0.6597619047619048 0.6102380952380952
我尝试将学习率从0.01降低到0.001,并减少批量大小,但之后看到了相同的情况。这可能是什么原因导致的,如何纠正这个问题?
回答:
一个常见的问题可能是你在no_grad()作用域内尝试进行聚合。我曾经遇到过这种情况。即使模型正在被聚合,优化器实际上在每次联邦轮次中都会重置。
这只是我的猜测,因为我没有看到任何代码,所以不能说得更多。