Home IT技术自动纠正文档语料库

自动纠正文档语料库

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我有一个大约6GB大小的文档语料库，主要是移动平台上的用户生成内容。由于这些内容的来源性质，语料库中充斥着拼写错误、缩写和截断的词语。有没有办法可以将这些词语自动纠正为最接近的英语单词？

回答：

这可能会很有趣，因为你用机器学习标记了你的问题：

http://norvig.com/spell-correct.html

这是一篇引人入胜的文章。另一方面，如果你不想自己动手调整，可以考虑使用Enchant，查看一下

https://pypi.org/project/pyenchant/

autocomplete machine-learning nlp nltk text-analysis

发表回复取消回复