文本分类问题中的词语分离

我在解决一个文本分类问题时，在标注数据时发现了一些非常长的词，这些词本身就是一个句子，但它们之间没有用空格分隔。

我在标注数据点时发现的一个例子是：

Throughnumerousacquisitionsandtransitions,Anacompstillexiststodaywithagreaterfocusondocumentmanagement

期望的输出：

Through numerous acquisitions and transitions, Anacomp still exists today with a greater focus on document management.

我查看了各种框架，如Keras、PyTorch，以查看它们是否提供了任何功能来解决这个问题，但没有找到任何相关内容。

回答：

您试图解决的问题是文本/词语分割。可以基于机器学习使用序列模型（如LSTM）和词嵌入（如BERT）来解决这个问题。

这个链接详细介绍了中文的这种方法。中文不使用空格，因此这种方法作为中文NLP处理任务的前处理组件是必要的。

我想描述一种基于自动机的方法，使用Aho-Corasick算法。

首先执行pip install pyahocorasick

为了演示，我只使用了输入字符串中的词。在现实世界中，您可以使用像Wordnet这样的词典的词库。

产生的结果是：

range(0, 6) (0, 'Through')
range(7, 14) (1, 'numerous')
range(15, 26) (3, 'acquisitions')
range(27, 29) (4, 'and')
range(30, 40) (5, 'transitions')
range(43, 49) (6, 'Anacomp')
range(50, 54) (7, 'still')
range(55, 60) (8, 'exists')
range(61, 65) (9, 'today')
range(66, 69) (10, 'with')
range(71, 77) (12, 'greater')
range(78, 82) (13, 'focus')
range(83, 84) (14, 'on')
range(85, 92) (15, 'document')
range(93, 102) (16, 'management')

学技术

文本分类问题中的词语分离

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复