我在学习机器学习时,经常看到人们将数据分为“训练集”和“验证集”。我一直不明白为什么人们不直接使用所有数据进行训练,然后再用这些数据进行验证。有什么我没理解到的原因吗?
回答:
可以这样想,你要参加考试,并且你正在努力练习你的练习材料。你不知道考试会问什么,对吗?
另一方面,如果你用考试本身来练习,当你参加考试时,你会知道所有答案,所以你甚至不需要费心学习。
这同样适用于你的模型,如果你用训练集和测试集同时训练你的模型,你的模型会提前知道所有答案。你需要给他一些他不知道的东西,这样他才能推断出一些答案给你。