我有一个多类别的机器学习问题,我将尝试使用不同的方法,如逻辑回归、决策树、多层感知器等。
数据集中的观察结果有一个属性,是从1到5的索引,用于定义某个观察结果被正确分类的重要性(索引1非常重要,5完全不重要)。我的问题是:
问题1:我应该如何向模型强调低索引观察结果的重要性?我在考虑复制这些观察结果,以便模型能更好地拟合低索引观察结果,还有哪些其他方法是可行的?
问题2:我可以使用哪些性能评估标准来找出能够很好地预测低索引观察结果的模型?(除了计算正确预测实例中索引的分布之外。)
此致,
回答:
回答1:更频繁地展示训练集中的重要模式是处理这种情况的标准方法。如果你的训练算法有类似学习率的参数(例如使用反向传播时),你也可以针对高优先级模式增加这个参数。
回答2:我会使用加权均方误差,并给高优先级模式的误差赋予更大的权重。