在学习了Andrew Ng的机器学习课程后,我想尝试他绘制学习曲线的方法(成本与样本数量的关系),以评估是否需要更多的数据样本。然而,对于随机森林,我对如何绘制学习曲线感到困惑。随机森林似乎没有像线性回归那样的基本成本函数,所以我不确定在y轴上应该使用什么具体指标。
回答:
你可能在这里混淆了一些概念。
首先,在机器学习中,学习曲线被定义为
将性能与经验相关联的图表…性能是学习系统的错误率或准确性,而经验可能是用于学习的训练样本数量或用于优化系统模型参数的迭代次数。
随机森林和线性模型都可以用于回归或分类。
-
对于回归,成本通常是预测值与信号之间差异的l2范数的函数(虽然有时使用l1范数)。
-
对于分类,成本通常是错配或对数损失。
关键在于,这不是底层机制是线性模型还是森林的问题。你应该决定这是什么类型的问题,以及成本函数是什么。决定这些之后,绘制学习曲线只是信号和预测的函数。