我有一个用YAML描述的卷积神经网络模型。当我运行pylearn2的train.py
时,我发现只使用了四个核心中的一个。
有没有办法让训练多线程运行?
是的,这可能更像是Theano的问题。我按照这个http://deeplearning.net/software/theano/tutorial/multi_cores.html关于多核支持的Theano教程操作,OMP_NUM_THREADS=2 python theano/misc/check_blas.py -q
对我不起作用——我只看到一个线程在运行。还有一个进一步的问题:训练可以用OMP_NUM_THREADS
并行化吗?因为我无法检查,因为OMP_NUM_THREADS
不起作用。我应该关心我的BLAS吗?
我有带LAPACK的BLAS,numpy
与它们连接,Python 2.7.9,我的系统是Ubuntu 15.04,运行在Core i5 4300U上。
谢谢,祝好!
回答:
对你问题的直接回答是:你无法以你期望的方式并行化训练。
BLAS、OpenMP和/或在GPU上运行只能让某些操作并行化。训练本身只能在训练算法被设计为可并行化的情况下按你希望的方式并行化。默认情况下,PyLearn2使用普通的随机梯度下降(SGD)训练算法,而这种算法是不可并行化的。有支持并行化的SGD版本(例如,Google的DistBelief),但这些在PyLearn2中不是现成的。这主要是因为PyLearn2建立在Theano之上,而Theano非常适合共享内存操作。
如果你有GPU,那么切换到GPU几乎肯定会获得更快的训练速度。如果这不是一个选项,只要你的BLAS和OpenMP设置正确,你应该会看到有时使用多个核心。check_blas.py
在OMP_NUM_THREADS > 2
时没有显示任何改进,这表明你的设置不正确。如果你需要帮助,我建议你提出一个新问题,提供更多关于你所做的事情的信息,以及当你打印numpy的配置时显示的设置(例如,参见这里)。