Home IT技术 A.I.: 如何在多台机器上训练神经网络？

A.I.: 如何在多台机器上训练神经网络？

IT技术 xiaolong · 2025年4月2日 · 0 Comment

因此，对于具有大型数据集的更大规模的网络，训练需要相当长的时间。如果能够跨多台机器共享计算时间，那就太棒了。然而，问题在于，当神经网络训练时，权重会不断地在每次迭代中被更改，而且每次迭代或多或少都基于上一次迭代——这使得分布式计算的想法至少是一个挑战。

我想过，对于网络的每个部分，服务器可以发送大约1000组数据来训练一个网络……但是……你会有大致相同的计算时间，因为我无法同时训练不同的数据集（这正是我想要做的）。

但即使我可以将网络的训练分成不同的数据集块来训练，我怎么知道我什么时候完成了那个数据集？特别是如果发送到客户端机器的数据量不足以达到期望的误差？

我欢迎所有的想法。

回答：

引用http://en.wikipedia.org/wiki/Backpropagation#Multithreaded_Backpropagation：

当使用多核计算机时，多线程技术可以大大减少反向传播收敛所需的时间。如果正在使用批处理，则相对容易地使反向传播算法以多线程方式运行。

训练数据被分成大小相等的批次，供每个线程使用。每个线程执行前向和后向传播。每个线程的权重和阈值增量被相加。在每次迭代结束时，所有线程必须短暂暂停，以便将权重和阈值增量相加并应用于神经网络。

这本质上就是这里其他答案所描述的。

artificial-intelligence biological-neural-network cloud distributed-computing

发表回复取消回复