我有一个大约6GB大小的文档语料库,主要是移动平台上的用户生成内容。由于这些内容的来源性质,语料库中充斥着拼写错误、缩写和截断的词语。有没有办法可以将这些词语自动纠正为最接近的英语单词?
回答:
这可能会很有趣,因为你用机器学习标记了你的问题:
http://norvig.com/spell-correct.html
这是一篇引人入胜的文章。另一方面,如果你不想自己动手调整,可以考虑使用Enchant,查看一下
我有一个大约6GB大小的文档语料库,主要是移动平台上的用户生成内容。由于这些内容的来源性质,语料库中充斥着拼写错误、缩写和截断的词语。有没有办法可以将这些词语自动纠正为最接近的英语单词?
回答:
这可能会很有趣,因为你用机器学习标记了你的问题:
http://norvig.com/spell-correct.html
这是一篇引人入胜的文章。另一方面,如果你不想自己动手调整,可以考虑使用Enchant,查看一下