ROC曲线显示出奇怪的模式

我有一个数据集，我向其中添加了10-30%的人造数据，并运行一个算法来分类哪些数据是原始的，哪些是人造的。我得到了附件中的ROC曲线。我从未见过ROC曲线以这种方式结束。我做错了什么吗？还是这种模式是可能的？如果是的话，它的解释是什么？

谢谢

回答：

如果你目标数据具有不平衡的双峰分布，并且噪声/背景分布位于两个峰之间，你可能会看到类似于你展示的ROC曲线。最初（就像你的图表中那样），ROC曲线会有一个陡峭的上升，因为它覆盖了真正例（TP）分布的主要峰。接下来，你会有一个相对平坦的区域，在这里你会积累假正例（FP’s），而TP’s没有太大增加。然后，你会碰到第二个TP的聚类。

我猜你的这些人造数据更接近于TP主要聚类的中心，这就是为什么添加更多的人造数据往往会淡化较小的TP聚类，使其看起来更像一个典型的ROC曲线。

正如我在评论中提到的，如果不添加任何人造数据来绘制ROC曲线会很有信息价值。另外，显示一个放大到图表尾部TP率接近1的版本（即，看看它是否在接近1时变平）也会很有信息价值。

学技术

ROC曲线显示出奇怪的模式

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复