我在训练数据上训练了word2vec,但测试数据中有一些词不在训练数据中,那么我如何生成与原始数据分布或数值范围相匹配的词向量呢?
回答:
你可以取词汇表中不常见的词列表,并对它们进行平均,以获得未知词的大致词向量。
或者
假设你的目标未知词是w
,它位于上下文c-2 c-1 w c1 c2
中,其中c-2
、c-1
、c1
和c2
是上下文词。你可以将所有上下文词的嵌入向量取平均,作为未知词的一个很好的近似值。
我在训练数据上训练了word2vec,但测试数据中有一些词不在训练数据中,那么我如何生成与原始数据分布或数值范围相匹配的词向量呢?
回答:
你可以取词汇表中不常见的词列表,并对它们进行平均,以获得未知词的大致词向量。
或者
假设你的目标未知词是w
,它位于上下文c-2 c-1 w c1 c2
中,其中c-2
、c-1
、c1
和c2
是上下文词。你可以将所有上下文词的嵌入向量取平均,作为未知词的一个很好的近似值。