假设我有一个MDM系统(主数据管理),其主要应用是检测和防止记录的重复。
每次销售代表在系统中输入一个新客户时,我的MDM平台会对现有记录进行检查,计算一对单词、短语或属性的Levenshtein或Jaccard或XYZ距离,考虑权重和系数,并输出一个相似度得分,等等。
这是典型的模糊匹配场景。
我想知道是否有意义将机器学习技术应用于优化匹配输出,即以最高的准确性找到重复项。
以及在哪里最有意义。
- 优化属性的权重?
- 通过预测匹配结果来提高算法的信心?
- 学习匹配规则,否则我需要将这些规则配置到算法中?
- 其他方面?
还有这个关于该主题的优秀回答,但我不太确定那个人是否实际使用了机器学习。
我的理解是,加权模糊匹配已经是一个足够好的解决方案,可能从财务角度来看也是如此,因为无论何时部署这样的MDM系统,你都必须进行一些分析和预处理,无论是手动编码匹配规则还是训练机器学习算法。
所以我不确定添加机器学习是否会代表一个显著的价值主张。
欢迎任何想法。
回答:
使用机器学习的主要优势是节省时间。
如果有足够的时间,你很可能能够手动调整权重,并为你的特定数据集制定出非常好的匹配规则。机器学习方法可能很难超越你为特定数据集定制的系统。
然而,这可能会花费几天的时间来手动制作一个好的匹配系统。如果你使用现有的机器学习匹配工具,如Dedupe,那么在包括设置时间在内的一个小时内就可以学习到好的权重和规则。
因此,如果你已经构建了一个在你的数据上表现良好的匹配系统,可能不值得研究机器学习。但如果这是一个新的数据项目,那么几乎可以肯定是值得的。