如何将机器学习应用于模糊匹配

假设我有一个MDM系统(主数据管理),其主要应用是检测和防止记录的重复。

每次销售代表在系统中输入一个新客户时,我的MDM平台会对现有记录进行检查,计算一对单词、短语或属性的Levenshtein或Jaccard或XYZ距离,考虑权重和系数,并输出一个相似度得分,等等。

这是典型的模糊匹配场景。

我想知道是否有意义将机器学习技术应用于优化匹配输出,即以最高的准确性找到重复项。
以及在哪里最有意义。

  • 优化属性的权重?
  • 通过预测匹配结果来提高算法的信心?
  • 学习匹配规则,否则我需要将这些规则配置到算法中?
  • 其他方面?

还有这个关于该主题的优秀回答,但我不太确定那个人是否实际使用了机器学习。

我的理解是,加权模糊匹配已经是一个足够好的解决方案,可能从财务角度来看也是如此,因为无论何时部署这样的MDM系统,你都必须进行一些分析和预处理,无论是手动编码匹配规则还是训练机器学习算法。

所以我不确定添加机器学习是否会代表一个显著的价值主张。

欢迎任何想法。


回答:

使用机器学习的主要优势是节省时间。

如果有足够的时间,你很可能能够手动调整权重,并为你的特定数据集制定出非常好的匹配规则。机器学习方法可能很难超越你为特定数据集定制的系统。

然而,这可能会花费几天的时间来手动制作一个好的匹配系统。如果你使用现有的机器学习匹配工具,如Dedupe,那么在包括设置时间在内的一个小时内就可以学习到好的权重和规则。

因此,如果你已经构建了一个在你的数据上表现良好的匹配系统,可能不值得研究机器学习。但如果这是一个新的数据项目,那么几乎可以肯定是值得的。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注