我想从头开始训练GPT-2,但在找到的文章中只有基于预训练模型的微调方法。我已经使用了这个https://github.com/nshepperd/gpt-2来训练现有的模型。我应该编辑这些Python脚本以从头开始训练吗?
回答:
我在https://github.com/nshepperd/gpt-2/issues/11中找到了答案
如果你完全不想使用已发布的模型,例如因为你想训练一个具有不兼容超参数的模型,只需在第一次运行时跳过从已发布模型检查点恢复(在train.py:164-177左右),这样参数将全部随机初始化即可。