什么是二元模型和一元模型文本特征提取的区别

我在网上搜索了如何进行二元模型和一元模型的文本特征提取,但仍然没有找到有用的信息,有人能告诉我它们之间的区别吗?

例如,如果我有一段文本“我有一只可爱的狗”,如果我使用二元模型的方式进行特征提取和使用一元模型进行提取,会发生什么情况?


回答:

我们正在尝试教机器进行自然语言处理。我们人类可以轻松理解语言,但机器却不能,所以我们试图教它们语言的特定模式。具体的单词有其意义,但当我们将单词组合起来(即一组单词)时,对理解意义会更有帮助。

n-gram基本上是在给定窗口内出现的单词集合,所以当

  • n=1 时,它是一元模型

  • n=2 时,它是二元模型

  • n=3 时,它是三元模型,以此类推

现在假设机器试图理解句子“我有一只可爱的狗”的意思,那么它会将句子分割成特定的块。

  1. 它会一次考虑一个单词,这是为一元模型,所以每个单词都是一个gram。

    “我”,“有”,“一”,“可爱”,“狗”

  2. 它会一次考虑两个单词,所以这是二元模型,每两个相邻的单词就是一个二元模型

    “我有”,“有一”,“一只”,“可爱狗”

这样,机器会将句子分割成小组的单词来理解其意义

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注