我想根据给定的参数将数据分类为两类。我的数据来自两个不同的来源,我希望将它们分类为“匹配”或“非匹配”;在比较数据集1和数据集2时。这些数据集是未标记的文本数据,包含五个属性(id、标题、作者、地点、年份),因此如果我应用无监督算法,它不会产生我的目标类别。另一方面,监督算法需要标记数据,而这些数据不可用且耗时。
- 在Python中执行此操作的最佳和最简单的方法是什么?
回答:
最佳、最简单且据我所知最优的方法如下:
- 使用
聚类
算法,如K-Means
,将数据点聚类为2个簇。 - 现在,
手动检查其中一个簇的几个样本
并相应地标记它。
假设你随机从第一个簇中选取了10个数据点,它们属于匹配类。现在你需要做的就是将这个簇中的所有数据点标记为匹配
,并将另一个簇中的所有数据点标记为非匹配
。
这将为你提供所需的分类。