difference between Tokenization and Segmentation

在自然语言处理中，Tokenization和Segmentation有什么区别？我查找了一些资料，但并没有发现明显的差异。

回答：

简答：所有的分词（Tokenization）都是分割（Segmentation），但并非所有的分割都是分词。

详细回答：
分割是一个更广泛的概念，用于将输入文本进行拆分，而分词则是分割的一种形式，并且是基于明确定义的标准进行的。
例如 – 在一个假设情境中，如果你的所有输入句子都是由两个子句组成的复合句，那么将它们拆分为两个独立的句子可以被称为分割（但不属于分词）。
分词是一种基于语义标准或使用词典进行的分割形式 – 例如，基于词或子词的分词，主要目的是为后续处理分配词ID。

学技术

difference between Tokenization and Segmentation

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复