NLP – 用于分类段落标签的技术选择？

我对NLP还比较新手，正在尝试学习一些能够帮助我完成工作的技术。

我的任务是：我需要根据文本备忘录对钻井过程的阶段进行分类。

我需要根据“Com”列中的内容，对“Activity”、“Activity Detail”、“Operation”进行标签分类。

我在网上阅读了很多文章，各种不同的技术让我感到困惑。

我正在尝试理解的热门词汇包括：

Skip-gram（基于预测的方法，Word2Vec）
TF-IDF（基于频率的方法）
共现矩阵（基于频率的方法）

我有大约40,000行的数据（我知道，这很小），我看到一篇文章说，如果训练数据量小，像Skip-gram这样的神经网络模型可能不是一个好的选择。所以我也在考虑基于频率的方法。总的来说，我不确定哪种技术最适合我。

这是我目前的理解：

Skip-gram：用于在向量空间中表示词的技术。但一旦我将我的语料库向量化后，我不知道接下来该做什么
TF-IDF：告诉我们每个单词在每个句子中的重要性。但我仍然不知道它如何应用于我的问题
共现矩阵：我真的不明白它是什么
这三种技术都是为了数值化表示文本。但我不知道接下来应该采取什么步骤来实际分类标签

我应该使用哪种方法和技术序列来解决我的问题？如果有任何开源的Jupyter笔记本项目，或者完成类似工作的文章链接（希望带有代码），请在这里分享。

回答：

让我们把事情弄得更清楚一些。你的任务是创建一个系统来预测给定文本的标签，对吗？标签预测（分类）不能在非结构化数据（文本）上进行。所以你需要让你的数据结构化，然后训练并推断你的分类器。因此，你需要构建两个独立的系统：

文本向量化器（如你所说，它有助于数值化表示文本）。
分类器（用于预测数值化表示文本的标签）。

Skip-Gram和共现矩阵是向量化文本的方式（这里有一篇很好的文章解释了它们的区别）。在Skip-gram的情况下，你可以下载并使用第三方模型，该模型已经为大多数词汇映射了向量；在共现矩阵的情况下，你需要在你的文本上构建它（如果你有特定的词汇，这将是一个更好的方法）。在该矩阵中，你可以使用不同的度量来表示词与词或文档与文档的共现程度。TF-IDF是其中一种度量（为每个词-文档对给出一个分数）；还有很多其他度量（PMI，BM25等）。这篇文章应该有助于在你的数据上实现共现矩阵的分类。而这篇文章则提供了如何使用Word2Vec做同样事情的想法。

希望这对你有帮助！

学技术

NLP – 用于分类段落标签的技术选择？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复