我正在进行一个个人项目。我使用了一些公开的数据集。我需要构建一个文本推荐系统,根据预定义的规则为用户推荐有意义的文本(1-2行)。
我该如何构建一个文本推荐系统,以及如何定义规则(规则是简单的检查,如AC,如果符合则推荐一个文本,如果不符合则推荐替代文本)。我还需要知道如何让系统自主学习以更新规则。
任何输入、研究论文链接、GitHub链接等都会有所帮助。
回答:
首先,你会遇到一个冷启动问题。
简单的解决方案是推荐所有时间的热门文本。更复杂的解决方案可以参考这里。
之后,你可以使用协同过滤,通过收集文本的隐式数据,如浏览、点击、评论、书签。因为用户很少给出评分。所以你可以使用隐式数据作为评分,如:’VIEW’: 1.0, ‘LIKE’: 2.0, ‘BOOKMARK’: 3.0, ‘FOLLOW’: 4.0, ‘COMMENT CREATED’: 5.0。
这种类型的推荐系统可以在这里找到这里。