我编写了一个包含分布式随机梯度下降(DRGD)算法的程序。该算法中有一些内部变量,用于计算步长。训练算法可能比DRGD复杂得多,因此会有更多的内部变量。如果我们保存这些变量,就可以暂停训练并测试模型;然后,我们可以再次恢复训练。
回答:
在使用MXNet Gluon进行训练时,可以通过调用Trainer
类的.save_states()
和.load_states()
函数来保存训练器的状态并恢复训练。
这是一个示例:
trainer = gluon.Trainer(net.collect_params(), 'adam')
trainer.save_states('training.states')
trainer.load_states('training.states')