我是机器学习的新手,正在参加一个kaggle比赛来学习一些知识。当我向数据集中添加某些特征时,准确性反而下降了。
为什么不将增加成本的特征权重设为零(忽略)呢?是因为非线性特征可能会导致局部最小值解吗?
谢谢。
回答:
如果你说的是线性回归分类器的训练误差,那么除非你的代码有bug,否则添加特征总是会减少误差。正如你所说,这是一个凸优化问题,全局解永远不会变差,因为你可以将权重设为零。
然而,如果你说的是测试误差,那么添加特征时过拟合将是一个主要问题,你肯定会观察到这种情况。
我是机器学习的新手,正在参加一个kaggle比赛来学习一些知识。当我向数据集中添加某些特征时,准确性反而下降了。
为什么不将增加成本的特征权重设为零(忽略)呢?是因为非线性特征可能会导致局部最小值解吗?
谢谢。
回答:
如果你说的是线性回归分类器的训练误差,那么除非你的代码有bug,否则添加特征总是会减少误差。正如你所说,这是一个凸优化问题,全局解永远不会变差,因为你可以将权重设为零。
然而,如果你说的是测试误差,那么添加特征时过拟合将是一个主要问题,你肯定会观察到这种情况。