例如:如果我想训练一个分类器(可能是SVM),我需要收集多少样本?有没有一种衡量方法?
回答:
确定需要收集多少样本并不容易。不过,你可以按照以下步骤进行:
解决一个典型的机器学习问题时:
- 构建一个包含少量样本的数据集,具体需要多少样本取决于你所面临的问题类型,现在不要花太多时间。
- 将你的数据集划分为训练集、交叉验证集和测试集,并构建你的模型。
- 现在你已经构建了机器学习模型,需要评估它的表现。计算你的测试误差。
- 如果你的测试误差低于预期,收集新的数据并重复步骤1-3,直到达到你满意的测试误差率。
如果你的模型没有遭遇“高偏差”问题,这种方法是有效的。