我是一名机器学习初学者,目前正在Coursera上学习Andrew Ng的机器学习课程。在讲座中,他提出了一个简单的问题:你会将以下情况称为分类问题还是回归问题?
你有一大批相同的商品。你想预测在接下来的三个月内这些商品的销售数量。
我选择了分类,因为我认为我们只是在预测会卖出(1)还是不会卖出(0)。但他说这是回归问题,因为有成千上万的相同商品,并且这是一个连续的输出。我不明白为什么这是连续的输出。在我看来,这是一个具有成千上万个值的离散输出。能有人解释一下吗?
回答:
我不明白为什么这是连续的输出。在我看来,这是一个具有成千上万个值的离散输出。
这里的连续输出并不是严格的数学意义上的连续;严格来说,你是对的,你的输出(某个整数值)是离散的,但在这种情况下,这不是重点。
使这个问题成为回归问题而不是分类问题的关键区别在于,在分类中,输出被限制为一些(通常是少数)预定义的值/级别;很容易看出,这里的情况并非如此,因为销售的数量原则上可以是任何(整数)值,并且将18和19视为不同的类别完全没有意义。
从另一个角度来看,将分类输出视为类别可能会有所帮助,这些类别之间通常没有顺序关系;从这个角度来看,18和19之间的差异可以被视为与18和856之间的差异相同(它们只是不同的类别);直观地讲,既然我们对销售的具体数量感兴趣,这些差异显然是不同的,我们宁愿将“18”误预测为“19”,也不愿误预测为“856”…