我已经训练了一个SVD
模型来基于userId
推荐物品。然而,有没有办法基于物品列表而不是userId
来推荐物品呢?
例如,给定一个物品列表[1,2,3,4,5]
,SVD
模型找到最相似的物品[9,10]
。我的解决方案是为输入列表中的每个物品找到相似的物品[9,10]
,然后将共同的物品作为输出。
也就是说,
- 与物品1相似的物品是
[9,10,12]
,以及 - 与物品2相似的物品是
[9,10,13]
。
因此,共同的物品是[9,10]
,但我不知道是否有更好的方法来做这件事。
回答:
你描述的内容不是很清楚。我猜你是想要基于物品的推荐,就像亚马逊所做的那样?
两个物品之间的相似性可以通过多种方式确定,但一种常见的方法是使用我们之前描述的余弦度量,其中每个向量对应一个物品而不是客户,向量的
M
维度对应购买该物品的客户。
这个算法需要大量的离线处理来准备最近的物品。一旦完成,对相似物品查询的响应速度非常快。
编辑
一旦你知道每个物品的前k
个相似物品,你就有了每个物品对的得分,即两个物品的相似程度,或score(i,j)
给定一个物品列表:[1,2,3]
首先,你为列表中的每个物品找到前k
个物品。你也为每个物品有一个得分。假设k=3
:
`[100,44,99]`是与物品1最相似的前3个物品。score(1, 100) = 0.84, score(1, 44) = 0.4, score(1, 99) = 0.33score(2, 44 ) = 0.3, score(2, 33) = 0.2, score(2, 70) = 0.15score(3, 99) = 0.4, score(3, 44) = 0.15, score(3, 70) = 0.01
然后你为score([1-3],__)
中出现的所有物品聚合得分,也就是说:
score(100) = 0.84score(44) = 0.4 + 0.3 + 0.13 = 0.83score(99) = 0.33 + 0.2 = 0.53score(33) = 0.2score(70) = 0.15+0.01=0.16
排序后,你知道从上到下的物品应该是:
100-> 0.8444 -> 0.8399 -> 0.5333 -> 0.270 -> 0.16
当然,在最终的推荐物品列表中,你可能想要移除任何已经在给定列表中的物品(用户已经拥有的物品)。
请注意,在上面的例子中,尽管物品44出现在3行中,但它们的相似性得分都很低。我们仍然选择物品100作为最佳匹配。直觉是我们累积相似性贡献并比较它们的总体贡献。