如何对部分包含聚类但并非全部由聚类构成的数据进行部分聚类?

我有一些二维数据(x,y),需要识别出x方向上许多数据点彼此靠近的位置。数据中有三个明显的聚类,这些聚类的x值都很接近,而其余数据并不属于这些聚类。我原本打算使用k-means聚类算法,但该算法似乎适用于对所有数据进行聚类,而我只想标记出数据中明显的三个聚类,并将剩余数据标记为正常数据。

这些数据存储在不同的csv文件中,我会先处理这些文件,然后将它们读入一个大的数据框。在处理数据的过程中,我已经过滤掉了处理后数据长度超过一定阈值的文件,但这显然有时会导致聚类的一部分或正常数据被排除在文件之外。


回答:

你可以尝试使用DBSCAN,它允许将某些点分类为“噪声”,这似乎是你想要的。scikit项目中有一个与之相关的层次版本,称为hdbscan

通过Google可以找到各种文档,描述了k-means聚类的替代方案。hdbscan的文档中也很好地描述了比较替代方案的方法。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注