因此,对于具有大型数据集的更大规模的网络,训练需要相当长的时间。如果能够跨多台机器共享计算时间,那就太棒了。然而,问题在于,当神经网络训练时,权重会不断地在每次迭代中被更改,而且每次迭代或多或少都基于上一次迭代——这使得分布式计算的想法至少是一个挑战。
我想过,对于网络的每个部分,服务器可以发送大约1000组数据来训练一个网络……但是……你会有大致相同的计算时间,因为我无法同时训练不同的数据集(这正是我想要做的)。
但即使我可以将网络的训练分成不同的数据集块来训练,我怎么知道我什么时候完成了那个数据集?特别是如果发送到客户端机器的数据量不足以达到期望的误差?
我欢迎所有的想法。
回答:
引用http://en.wikipedia.org/wiki/Backpropagation#Multithreaded_Backpropagation:
当使用多核计算机时,多线程技术可以大大减少反向传播收敛所需的时间。如果正在使用批处理,则相对容易地使反向传播算法以多线程方式运行。
训练数据被分成大小相等的批次,供每个线程使用。每个线程执行前向和后向传播。每个线程的权重和阈值增量被相加。在每次迭代结束时,所有线程必须短暂暂停,以便将权重和阈值增量相加并应用于神经网络。
这本质上就是这里其他答案所描述的。