我正在使用Python库Surprise开发一个推荐系统。我试图创建一个函数,该函数可以遍历所有电影列表,并根据我在调用函数时定义的用户ID预测它们的排名值。
这是使用Python3和Surprise库以及SVD算法的项目。数据集来自开源的MovieLens:数据集链接
from surprise import Datasetfrom surprise import Readerfrom surprise import SVDimport pandas as pdreader = Reader(line_format='user item rating timestamp', sep='\t')data = Dataset.load_from_file('./dataset/ml-100k/u.data', reader=reader)movies = pd.read_csv('./dataset/ml-100k/u.item',sep='|', encoding='latin-1', usecols=[0,1], names=['iid', 'name'])algorithm = SVD()trainset = data.build_full_trainset()algorithm.fit(trainset)def prediction(uid): ratings=[] for iid in movies['iid']: pred = algorithm.predict(uid, iid) ratings.append(pred[3]) return ratingsprediction(321)
我期望这个函数能够为函数调用中给定的单个用户构建一个每个项目的评分列表(预测值的第3个元素)。
[3.52986, 3.69845, 2.98954, 3.00545, 3.84254, ...]
但实际输出是一个列表,其长度与电影列表的长度相同(这点没问题),但评分值是重复的。
[3.52986, 3.52986, 3.52986, 3.52986, 3.52986, 3.52986, 3.52986, 3.52986, ...]
看到实际输出后,我认为for循环存在问题,它虽然能够迭代并添加结果,但每次迭代使用的是相同的iid。我试图创建一个函数,其中uid保持不变,而iid在每次迭代中变化。
编辑:如建议的那样,我在循环中添加了print(iid),它正确地迭代并打印了所有的iid。但是在pred = algorithm.predict(uid, iid)这一行中不起作用
回答:
循环本身没问题。看起来我使用了错误的方法来返回SVD算法的结果。同时,我找到了以下代码,它产生的结果与我自己的函数所期望的有些相似。
感谢大家的时间和努力。
from collections import defaultdict testset = trainset.build_anti_testset() predictions = algorithm.test(testset) def get_top_n(predictions, n=10): top_n = defaultdict(list) for uid, iid, true_r, est, _ in predictions: top_n[uid].append((iid, est)) for uid, user_ratings in top_n.items(): user_ratings.sort(key=lambda x: x[1], reverse=True) top_n[uid] = user_ratings[:n] return top_n top_n = get_top_n(predictions, n=10) for uid, user_ratings in top_n.items(): print(uid, [iid for (iid, _) in user_ratings])
196 ['408', '127', '190', '187', '318', '64', '191', '357', '169', '272']186 ['496', '165', '515', '923', '318', '313', '64', '223', '530', '478']22 ['22', '205', '357', '100', '169', '923', '64', '269', '69', '285']244 ['474', '127', '408', '483', '285', '12', '1142', '134', '493', '480']166 ['318', '174', '408', '98', '483', '64', '480', '114', '169', '511']298 ['64', '169', '12', '478', '114', '272', '166', '408', '513', '923']115 ['408', '168', '114', '285', '483', '919', '169', '480', '179', '189']