Local Outlier Factor的n_neighbor参数对ROC-AUC的影响

我正在尝试使用多种算法解决异常值检测问题。当我使用Scikit-learn的Local Outlier Factor API时，需要输入一个非常重要的参数–n_neighbors。然而，不同的n_neighbors会导致不同的ROC_AUC得分。例如，当n_neighbors=5时，ROC_AUC=56。而当n_neighbors=6时，ROC_AUC=85；当n_neighbors=7时，ROC_AUC=94，等等。正式地说，如果n_neighbors>=6，那么ROC_AUC会非常高。

我想问三个问题：(1) 为什么Local Outlier Factor的n_neighbors参数会影响ROC-AUC？(2) 在无监督学习环境中，如何选择合适的n_neighbors？(3) 我应该选择较高的n_neighbors来获得较高的ROC_AUC吗？

回答：

如果结果不受影响，就不需要这个参数，对吗？

考虑更多的邻居会增加成本。但这也意味着使用了更多的数据，所以我并不惊讶结果会有所改善。你有阅读解释该参数作用的论文吗？

当你基于评估结果选择参数时，你就是在作弊。这是一个无监督方法——在实际使用情况下，你不应该有这样的标签。

学技术

Local Outlier Factor的n_neighbor参数对ROC-AUC的影响

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复