NLP – 用于分类段落标签的技术选择?

我对NLP还比较新手,正在尝试学习一些能够帮助我完成工作的技术。

我的任务是:我需要根据文本备忘录对钻井过程的阶段进行分类。

enter image description here

我需要根据“Com”列中的内容,对“Activity”、“Activity Detail”、“Operation”进行标签分类。

我在网上阅读了很多文章,各种不同的技术让我感到困惑。

我正在尝试理解的热门词汇包括:

  1. Skip-gram(基于预测的方法,Word2Vec)
  2. TF-IDF(基于频率的方法)
  3. 共现矩阵(基于频率的方法)

我有大约40,000行的数据(我知道,这很小),我看到一篇文章说,如果训练数据量小,像Skip-gram这样的神经网络模型可能不是一个好的选择。所以我也在考虑基于频率的方法。总的来说,我不确定哪种技术最适合我。

这是我目前的理解:

  1. Skip-gram:用于在向量空间中表示词的技术。但一旦我将我的语料库向量化后,我不知道接下来该做什么
  2. TF-IDF:告诉我们每个单词在每个句子中的重要性。但我仍然不知道它如何应用于我的问题
  3. 共现矩阵:我真的不明白它是什么
  4. 这三种技术都是为了数值化表示文本。但我不知道接下来应该采取什么步骤来实际分类标签

我应该使用哪种方法和技术序列来解决我的问题?如果有任何开源的Jupyter笔记本项目,或者完成类似工作的文章链接(希望带有代码),请在这里分享。


回答:

让我们把事情弄得更清楚一些。你的任务是创建一个系统来预测给定文本的标签,对吗?标签预测(分类)不能在非结构化数据(文本)上进行。所以你需要让你的数据结构化,然后训练并推断你的分类器。因此,你需要构建两个独立的系统:

  1. 文本向量化器(如你所说,它有助于数值化表示文本)。
  2. 分类器(用于预测数值化表示文本的标签)。

Skip-Gram和共现矩阵是向量化文本的方式(这里有一篇很好的文章解释了它们的区别)。在Skip-gram的情况下,你可以下载并使用第三方模型,该模型已经为大多数词汇映射了向量;在共现矩阵的情况下,你需要在你的文本上构建它(如果你有特定的词汇,这将是一个更好的方法)。在该矩阵中,你可以使用不同的度量来表示词与词或文档与文档的共现程度。TF-IDF是其中一种度量(为每个词-文档对给出一个分数);还有很多其他度量(PMI,BM25等)。这篇文章应该有助于在你的数据上实现共现矩阵的分类。而这篇文章则提供了如何使用Word2Vec做同样事情的想法。

希望这对你有帮助!

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注