使用sklearn的DBSCAN模型对新条目进行分类

我有一个庞大的“动态”数据集，我试图在其中找到有趣的聚类。

在运行了许多不同的无监督聚类算法后，我发现了一个DBSCAN的配置，它给出了连贯的结果。

我想根据我的测试数据推广DBSCAN创建的模型，以便将其应用于其他数据集，但不重新运行算法。我无法在整个数据集上运行算法，因为这会耗尽内存，而且由于数据是动态的，模型在不同时间可能对我来说没有意义。

使用sklearn，我发现其他聚类算法 – 如MiniBatchKMeans – 有一个predict方法，但DBSCAN没有。

我理解对于MiniBatchKMeans，质心唯一地定义了模型。但对于DBSCAN来说，可能不存在这样的东西。

所以我的问题是：如何正确地推广DBSCAN模型？我应该使用DBSCAN在我的测试数据集上输出的结果来训练一个有监督的学习算法吗？还是DBSCAN模型中有一些内在的东西可以用来对新数据进行分类，而无需重新运行算法？

回答：

基于你的模型训练一个分类器。

DBSCAN不容易适应新对象，因为你最终可能需要调整minPts。向DBSCAN添加点可能会导致聚类合并，这可能是你不希望发生的。

如果你认为DBSCAN找到的聚类是有用的，训练一个分类器将新实例归入相同的类别。现在你想要进行分类，而不是重新发现结构。

学技术