我的任务是预测商品的销售速度(例如,在某一类别中)。例如,客户输入他希望商品出售的价格,算法应显示在该输入价格下商品将在n天内售出。并且应该有快速、中速和慢速销售的三个区间。如图所示:
问题是:我应该如何准备这个算法?
我的建议是:使用聚类技术来理解这三个价格范围,然后针对每个聚类解决回归任务以预测天数。这是一个正确的概念吗?
回答:
这里有两个问题,我认为每个问题的答案都属于不同的领域:
- 给定一个输入价格,预测卖出该商品需要多长时间。这是一个明确定义的预测问题,可以使用机器学习算法来解决。例如,使用你的整个数据集来训练和测试一个用于预测的回归模型。
- 将预测转化为一个类别:快速销售、中速销售或慢速销售。这个问题是面向产品的——似乎没有任何具体数据可以让你训练一个用于此转换的分类器;我同意@anony-mousse 的观点,无监督学习可能不会产生易于使用的结果。
你可以咨询你的用户或产品经理,了解使用合理的阈值(这里可能需要考虑商品类型、季节等因素),或者尝试获取一些额外数据以训练一个有监督的分类器。
例如,你可以在商品售出后询问用户,他们认为这次销售是快速的、中速的还是慢速的。然后你将有一些数据用于设定阈值或进行分类。