Theano/Pylearn2. 如何并行化训练?

我有一个用YAML描述的卷积神经网络模型。当我运行pylearn2的train.py时,我发现只使用了四个核心中的一个。

有没有办法让训练多线程运行?

是的,这可能更像是Theano的问题。我按照这个http://deeplearning.net/software/theano/tutorial/multi_cores.html关于多核支持的Theano教程操作,OMP_NUM_THREADS=2 python theano/misc/check_blas.py -q对我不起作用——我只看到一个线程在运行。还有一个进一步的问题:训练可以用OMP_NUM_THREADS并行化吗?因为我无法检查,因为OMP_NUM_THREADS不起作用。我应该关心我的BLAS吗?

我有带LAPACK的BLAS,numpy与它们连接,Python 2.7.9,我的系统是Ubuntu 15.04,运行在Core i5 4300U上。

谢谢,祝好!


回答:

对你问题的直接回答是:你无法以你期望的方式并行化训练。

BLAS、OpenMP和/或在GPU上运行只能让某些操作并行化。训练本身只能在训练算法被设计为可并行化的情况下按你希望的方式并行化。默认情况下,PyLearn2使用普通的随机梯度下降(SGD)训练算法,而这种算法是不可并行化的。有支持并行化的SGD版本(例如,Google的DistBelief),但这些在PyLearn2中不是现成的。这主要是因为PyLearn2建立在Theano之上,而Theano非常适合共享内存操作。

如果你有GPU,那么切换到GPU几乎肯定会获得更快的训练速度。如果这不是一个选项,只要你的BLAS和OpenMP设置正确,你应该会看到有时使用多个核心。check_blas.pyOMP_NUM_THREADS > 2时没有显示任何改进,这表明你的设置不正确。如果你需要帮助,我建议你提出一个新问题,提供更多关于你所做的事情的信息,以及当你打印numpy的配置时显示的设置(例如,参见这里)。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注