比较名称之间的相似性

我需要基于名称对一些数据进行交叉验证。

我面临的问题是，根据来源的不同，名称会有轻微的变化，例如：

L & L AIR CONDITIONING   vs L & L AIR CONDITIONING ServiceBEST ROOFING vs ROOFING INC

我有数千条记录，手动处理将非常耗时，我希望尽可能自动化这个过程。

由于有额外的单词，仅仅将名称转换为小写是不够的。

处理这种情况有哪些好的算法？

也许可以计算相关性，给像’INC’或’Service’这样的词赋予较低的权重

编辑：

我尝试了difflib库

difflib.SequenceMatcher(None,name_1.lower(),name_2.lower()).ratio()

我用它得到了一个不错的结果。

回答：

我会使用余弦相似度来达到同样的效果。它会给你一个匹配分数，显示字符串的接近程度。

这里是帮助你实现的代码（我记得几个月前从Stackoverflow上获取了这个代码，现在找不到链接了）


我发现另一个版本稍微基于NLP，并且是我自己编写的，非常有用。

你可以调用get_similarity或get_char_wise_similarity来看看哪个更适合你的用例。我使用了两种方法 – 普通相似度来筛选出非常接近的条目，然后字符级相似度来筛选出足够接近的条目。剩下的条目则需要手动处理。



相关文章：

scikit-learn “处理文本数据教程”忽略了我的目标类别
在NLTK中显示标签的概率/置信度
如何从产品名称中提取品牌
使用scikit-learn获取最具信息量的特征时遇到问题？
使用Python表示语料库句子的独热编码
无法理解Theano在RNN NLP分类中的工作原理
标准化餐厅菜品列表
NLTK 基于距离度量的一致性协议
NLTK: conllstr2tree 在 Python3 中无法正常工作
情感分类中的缺失值

学技术

比较名称之间的相似性

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复