如何在未标记数据集中找到最有希望提供信息的实例以构建分类器？

我的问题是，我有一个大型的未标记数据集，但随着时间的推移，我希望它被标记并构建一个可靠的分类器。

这可以通过主动学习来实现，但主动学习需要先构建一个初始分类器，然后根据这些实例对分类器的预期信息量来估计和排序剩余的未标记实例。

为了构建初始分类器，我需要手动标记一些示例。我的问题是：在没有初始分类器帮助的情况下，有没有方法可以找到初始未标记数据集中可能有信息价值的示例？

我考虑过使用k-means算法，设定一定数量的聚类，运行后从每个聚类中标记一个示例，然后用这些示例训练分类器。还有更好的方法吗？

回答：

我不得不不同意@人名的观点。

k-means在这里可能是有用的（如果你的数据是连续的）。

只需使用一个相当大的k值。

目的是避免选择过于相似的对象，而是获得一个能够合理覆盖数据的样本。k-means可能无法“聚类”复杂数据，但它在量化方面表现得相当好。因此，它将从你的数据中返回一个“更不随机，更具代表性”的样本。

但要注意：k-means的中心并不对应于数据点。你可以使用基于中位数的算法，或者只是找到每个中心最近的实例。

一些替代方法：

学技术