假设我们有两个目标词对应相同的上下文:
他是一个非常好的男孩。
这是一个非常好的手写体。
这里非常和好的
是上下文,而男孩
和手写体
是两个目标词。
有谁能解释如何操作吗?
回答:
这是一个极端情况,在正常语料库中不应该发生。
在CBOW模型中,权重的初始化和训练过程决定了最终结果,而训练过程取决于目标词的上下文。
假设男孩
和手写体
使用相同的初始权重,并且它们在3-gram
中的上下文完全相同,你可以将它们视为同一个目标词。
如果它们有不同的初始权重,训练后你会得到两个相似的词表示,这意味着它们是同义词。这正是CBOW所期望的:具有相似上下文的词会有相似的语义。