箱形图胡须之外的点是否为异常值?

我在处理泰坦尼克号数据集时发现,绘制箱形图后出现了大量的异常值(胡须之外的点)。然而,在查看了Kaggle上提供的答案后,我注意到人们并没有将这些点视为异常值。

因此,我想知道。是不是所有低于Q1 – 1.5*IQR或高于Q3 + 1.5*IQR的点都一定是异常值?如果不是,什么时候应该将它们视为异常值,什么时候不应该呢?

这是一个答案的链接

此外,除了删除这些行之外,处理异常值的最佳方法是什么?

提前感谢!


回答:

“异常值”一词并不直接意味着“无效数据点”。相反,它表示数据点的值与大部分数据分布的距离相对较远。此外,您所称的“异常值”通常是主观的,因问题而异,因此没有绝对的“异常值”标准(即1.5*IQR仅用于箱形图可视化目的)。如果我过度简化现实,大致有三种情况。

  1. 异常值明显在该实例性质的理论/实践极限内(例如,体温为38.0摄氏度,而其他人的体温在35.8-36.5摄氏度范围内),它可以作为某种不同情况的强烈线索(因此对建模/预测有用)。

  2. 异常值明显超出理论/实践极限(例如,人类年龄为500岁),应视为“空”值

  3. 无法确定异常值是否在理论/实践极限内,因此需要领域专家的知识(在这种情况下,我们需要与特定领域的技术专家讨论,如物理学问题需要物理学家)

因此,根据箱形图的定义处理“异常值”并没有通用的方法,而是应该了解数据集的性质,并决定如何适当处理它。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注