什么是二元模型和一元模型文本特征提取的区别

我在网上搜索了如何进行二元模型和一元模型的文本特征提取,但仍然没有找到有用的信息,有人能告诉我它们之间的区别吗?

例如,如果我有一段文本“我有一只可爱的狗”,如果我使用二元模型的方式进行特征提取和使用一元模型进行提取,会发生什么情况?


回答:

我们正在尝试教机器进行自然语言处理。我们人类可以轻松理解语言,但机器却不能,所以我们试图教它们语言的特定模式。具体的单词有其意义,但当我们将单词组合起来(即一组单词)时,对理解意义会更有帮助。

n-gram基本上是在给定窗口内出现的单词集合,所以当

  • n=1 时,它是一元模型

  • n=2 时,它是二元模型

  • n=3 时,它是三元模型,以此类推

现在假设机器试图理解句子“我有一只可爱的狗”的意思,那么它会将句子分割成特定的块。

  1. 它会一次考虑一个单词,这是为一元模型,所以每个单词都是一个gram。

    “我”,“有”,“一”,“可爱”,“狗”

  2. 它会一次考虑两个单词,所以这是二元模型,每两个相邻的单词就是一个二元模型

    “我有”,“有一”,“一只”,“可爱狗”

这样,机器会将句子分割成小组的单词来理解其意义

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注