我想知道word2vec是像所有机器学习算法那样的泛化算法,还是像KNN那样的记忆算法?因为我们有两种类型的算法:基于模型的和基于内存的,当word2vec用于寻找最相似项目时,它属于哪一类?
回答:
让我定义一下泛化:泛化是指一个已经完成训练的模型能够在整个输入范围内有效预测的能力,包括那些不在训练数据中的输入。从这个角度来看,Word2Vec无法预测不在训练数据集中的词,因为它根本没有在这些词的上下文中进行训练以创建嵌入。要想被认定为泛化方法,它需要能够对不在训练数据集中的输入进行预测。
Word2Vec模型维护一个从词到相应嵌入/向量的字典。总的来说,无法对未知词进行预测。这是fastText模型和Word2Vec之间的一个重要区别。