A.I.: 如何在多台机器上训练神经网络?

因此,对于具有大型数据集的更大规模的网络,训练需要相当长的时间。如果能够跨多台机器共享计算时间,那就太棒了。然而,问题在于,当神经网络训练时,权重会不断地在每次迭代中被更改,而且每次迭代或多或少都基于上一次迭代——这使得分布式计算的想法至少是一个挑战。

我想过,对于网络的每个部分,服务器可以发送大约1000组数据来训练一个网络……但是……你会有大致相同的计算时间,因为我无法同时训练不同的数据集(这正是我想要做的)。

但即使我可以将网络的训练分成不同的数据集块来训练,我怎么知道我什么时候完成了那个数据集?特别是如果发送到客户端机器的数据量不足以达到期望的误差?

我欢迎所有的想法。


回答:

引用http://en.wikipedia.org/wiki/Backpropagation#Multithreaded_Backpropagation

当使用多核计算机时,多线程技术可以大大减少反向传播收敛所需的时间。如果正在使用批处理,则相对容易地使反向传播算法以多线程方式运行。

训练数据被分成大小相等的批次,供每个线程使用。每个线程执行前向和后向传播。每个线程的权重和阈值增量被相加。在每次迭代结束时,所有线程必须短暂暂停,以便将权重和阈值增量相加并应用于神经网络。

这本质上就是这里其他答案所描述的。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注