我在网上搜索了如何进行二元模型和一元模型的文本特征提取,但仍然没有找到有用的信息,有人能告诉我它们之间的区别吗?
例如,如果我有一段文本“我有一只可爱的狗”,如果我使用二元模型的方式进行特征提取和使用一元模型进行提取,会发生什么情况?
回答:
我们正在尝试教机器进行自然语言处理。我们人类可以轻松理解语言,但机器却不能,所以我们试图教它们语言的特定模式。具体的单词有其意义,但当我们将单词组合起来(即一组单词)时,对理解意义会更有帮助。
n-gram基本上是在给定窗口内出现的单词集合,所以当
-
n=1 时,它是一元模型
-
n=2 时,它是二元模型
-
n=3 时,它是三元模型,以此类推
现在假设机器试图理解句子“我有一只可爱的狗”的意思,那么它会将句子分割成特定的块。
-
它会一次考虑一个单词,这是为一元模型,所以每个单词都是一个gram。
“我”,“有”,“一”,“可爱”,“狗”
-
它会一次考虑两个单词,所以这是二元模型,每两个相邻的单词就是一个二元模型
“我有”,“有一”,“一只”,“可爱狗”
这样,机器会将句子分割成小组的单词来理解其意义