我有两组数据,每组数据通过一个短文本来标识,即它们的名称加上一些小的补充。每组中的每个项目在另一组中都有一个对应的项目,这些对应关系是基于名称的一些小变换确定的。
但是,两组中的一些项目之间没有任何关联。但基于现有的关联,我可以训练一个机器学习模型来预测并建议如何将两组中的项目相互关联。
因此,作为输入,它应该接受来自一组的项目的名称和另一组的所有项目,并尝试从该组中找出与提供的项目最匹配的项目。
但我在选择使用哪种算法上遇到了困难。也许我可以遍历该组中的每个项目,计算其名称与参考名称的相似度,并选择相似度最高的项目。也许应该根据相似度对它们进行排名。
如果相似度算法可以在.Net中使用,那就更好了。
回答:
听起来您的问题需要一个无监督算法。(我假设您没有标记数据来识别您集合中的匹配情况)。
或许像K-Means这样的聚类算法会有所帮助。这类似于您描述的‘相似度’算法。