### Local Outlier Factor 仅对某些点计算 (scikitLearn)

我有一个大型的csv文件,包含两列数据,代表k-means聚类的结果。我计算了11个中心点,csv文件中包含了每个点最接近哪个中心点以及该点到中心点的距离。

条目看起来像这样:

K11-closest,K11-distance0,31544.8216035703840,31494.233489846120,31766.4719008747520,31710.896696452823

然后我想使用我在scikit-learn.org上找到的一个脚本来计算和绘制LOF(局部异常因子)。

但是绘图显示如下:enter image description here黑色点代表数据点,红色圆圈表示异常程度。

所以我认为LOF并没有对每个点都进行计算。为什么会这样?我如何对每个点进行计算?并且如何在图中显示出来?


回答:

标准化数据将有助于你制作更清晰的图表,根据你的代码,你使用了半径的乘数50,而我使用了1000。

正如我们所见,算法并没有为每个数据点标记红色圆圈,这也取决于我们考虑的最近邻居数(n_neighbors),算法会根据这个来标记圆圈。

result from the code

Related Posts

如何对SVC进行超参数调优?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

如何在初始训练后向模型添加训练数据?

我想在我的scikit-learn模型已经训练完成后再…

使用Google Cloud Function并行运行带有不同用户参数的相同训练作业

我正在寻找一种方法来并行运行带有不同用户参数的相同训练…

加载Keras模型,TypeError: ‘module’ object is not callable

我已经在StackOverflow上搜索并阅读了文档,…

在计算KNN填补方法中特定列中NaN值的”距离平均值”时

当我从头开始实现KNN填补方法来处理缺失数据时,我遇到…

使用巨大的S3 CSV文件或直接从预处理的关系型或NoSQL数据库获取数据的机器学习训练/测试工作

已关闭。此问题需要更多细节或更清晰的说明。目前不接受回…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注