我为Myrrix提供了以下输入数据:
11, 101, 111, 102, 111, 103, 111, 104, 100011, 105, 100011, 106, 100012, 101, 112, 102, 112, 103, 112, 222, 113, 104, 100013, 105, 100013, 106, 100013, 333, 1000
我希望为用户11推荐物品。预期是物品333将首先被推荐(因为用户13和物品104、105、106的权重较高)。
以下是Myrrix的推荐结果:
11, 222, 0.0470911, 333, 0.0334058
请注意,物品222的推荐强度为0.047,而物品333的推荐强度仅为0.033——这与预期结果恰恰相反。
我还预期强度差异会更大(因为1000和1之间的差异很大),但显然当顺序与预期不符时,这一点就无关紧要了。
我该如何解读这些结果,以及我应该如何考虑权重参数?我们正在与一个大客户合作,时间紧迫,任何建议都将不胜感激。
回答:
基于一个小型且合成的数据集很难做出判断。我认为最重要的因素将是参数——特征的数量是多少?lambda值是多少?我认为这里特征数应该是2。如果更高的话,我认为你会很快过拟合这些数据,结果大多是剩余的噪音,因为它完美地解释了用户11不与222和333互动的情况。
这些值相当低,表明这两个结果都不太可能,因此它们的顺序可能更多是噪音而不是其他。如果从另一个随机起点重建模型,你会看到不同的结果吗?