给定以下代码:
from pyspark import SparkContext, SparkConffrom pyspark.mllib.recommendation import ALS, Ratingr1 = (1, 1, 1.0)r2 = (1, 2, 2.0)r3 = (2, 1, 2.0)ratings = sc.parallelize([r1, r2, r3])model = ALS.trainImplicit(ratings, 1, seed=10)res = model.recommendProductsForUsers(2)
我想为每个用户计算前k个产品。一般来说,用户和产品可能很多,使用recommendProducts创建RDD的成本会太高。
根据Spark 1.5.0版本,recommendProductsForUsers
应该能完成这项工作。然而,我得到了以下错误:
---------------------------------------------------------------------------AttributeError Traceback (most recent call last)<ipython-input-8-c65e6875ea5b> in <module>() 7 model = ALS.trainImplicit(ratings, 1, seed=10) 8 ----> 9 res = model.recommendProductsForUsers(2)AttributeError: 'MatrixFactorizationModel' object has no attribute 'recommendProductsForUsers'
事实上,当列出matrixFactorizationModel的方法时,recommendProductsForUsers
并没有出现:
print dir(model)['__class__', '__del__', '__delattr__', '__dict__', '__doc__', '__format__', '__getattribute__', '__hash__', '__init__', '__module__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_java_loader_class', '_java_model', '_load_java', '_sc', 'call', 'load', 'predict', 'predictAll', 'productFeatures', 'rank', 'recommendProducts', 'recommendUsers', 'save', 'userFeatures']
回答:
你查看了错误的文档。一个简单的事实是,某些操作在Scala或Java API中实现并不意味着它在PySpark中也被暴露出来。如果你查看PySpark 1.5 API文档,你会发现它没有提供所请求的方法。
recommendUsersForProducts
和recommendProductsForUsers
是在PySpark 1.6中通过SPARK-10535引入的。