我正在使用RNN进行一个特定领域的分类研究,并已经积累了数千万条文本。由于运行整个数据集需要几天甚至几个月的时间,我只选取了其中的一小部分进行测试,比如100万条文本(80%用于训练,20%用于验证)。我对整个语料库进行了预训练,并使用词向量化处理,同时在模型中应用了Dropout以避免过拟合。当在12小时内训练了60000条文本时,损失值已经下降到相当低的水平,准确率达到了97%。我应该继续训练吗?继续训练会有帮助吗?
它还在运行第一个epoch,我担心如果现在就停止,模型将无法覆盖整个…
回答:
一般来说,你可能希望让模型继续处于训练阶段,直到验证集的表现开始连续几次下降为止。此时,模型已经开始过拟合数据。对于你的问题,由于训练模型需要很长时间,我建议你在第一个epoch后停止训练,并测试模型,确保代码中没有实现上的错误。如果模型的准确率可以接受,那么可以重新开始训练。