在浏览了一些关于协同过滤的教程后,我发现它主要用于电影和书籍推荐,数据集中包含用户及其对物品的评分。显然,每个物品的评分范围是相同的(例如1-10)。但如果我的数据集有不同的范围呢?也就是说,这是一个完全不同的数据集,与人们如何评分物品无关,而是基于人们的医疗记录。我在考虑使用记录中的特征,如BMI、体重、身高等作为物品,而用户则是拥有该记录的人。基本上,在这个过程结束时,我希望根据其他已有预定输出的记录来确定一个人是否患病。我知道这通常/可以很容易地通过神经网络来完成。但我真的很想知道这是否也可以在协同过滤中实现。还是不行?
回答:
这不是一个推荐问题,这是经典的分类问题,仅此而已。神经网络只是数十种可能方法中的一种,但再次强调——这不是协同过滤,这是分类定义的方式。在协同过滤中,你不知道正确答案(标签/输出)——你只是试图在其他数据中找到一些共同的模式。在疾病检测/预测的情况下,你确切地知道输出应该是什么。
如果您有非常广泛的可能相关疾病,并且只有很少的人患有这些疾病(因此无法实际构建这些疾病的训练集),那么推荐系统在这里可能有用。这样一种“推荐”,寻找潜在的健康问题是有意义的。对于标记的二元输出数据,这只是一个分类问题。尽管如此,你可能会得到这样的模型:“如果你有肥胖症,那么你可能会心脏病发作”等。因此,寻找相似诊断之间的相关性。