我是Apache Mahout的新手,有一个问题想请教,如果我说错了请纠正我。
假设我们有一个数据集,并从中计算出推荐结果,然后将结果展示给用户。当用户再次访问我们的网站时,我们将拥有新的数据集,因此我们需要根据新的数据集重新计算推荐结果。
我们可以通过合并两个数据集来实现这一点,即旧数据集和新数据集,但由于我们已经对旧数据集进行了计算,如果我们将它们合并,那么我们就必须再次对旧数据集进行相同的计算。当数据量增加时,这将成为一个问题。所以我想问是否有其他方法来做这件事。我想到的另一种方法是合并两个数据集的相似性,因为推荐是基于相似性的,但我找不到任何相关的信息。
请帮助我如何解决这个问题,
谢谢
回答:
你想在一个移动窗口的数据上计算推荐。决定你的窗口和更新频率。如果你每天更新,并且你的窗口是3个月,那么你每天都会丢弃最旧一天的数据,并每次更新时使用最近3个月的数据。