箱形图胡须之外的点是否为异常值?

我在处理泰坦尼克号数据集时发现,绘制箱形图后出现了大量的异常值(胡须之外的点)。然而,在查看了Kaggle上提供的答案后,我注意到人们并没有将这些点视为异常值。

因此,我想知道。是不是所有低于Q1 – 1.5*IQR或高于Q3 + 1.5*IQR的点都一定是异常值?如果不是,什么时候应该将它们视为异常值,什么时候不应该呢?

这是一个答案的链接

此外,除了删除这些行之外,处理异常值的最佳方法是什么?

提前感谢!


回答:

“异常值”一词并不直接意味着“无效数据点”。相反,它表示数据点的值与大部分数据分布的距离相对较远。此外,您所称的“异常值”通常是主观的,因问题而异,因此没有绝对的“异常值”标准(即1.5*IQR仅用于箱形图可视化目的)。如果我过度简化现实,大致有三种情况。

  1. 异常值明显在该实例性质的理论/实践极限内(例如,体温为38.0摄氏度,而其他人的体温在35.8-36.5摄氏度范围内),它可以作为某种不同情况的强烈线索(因此对建模/预测有用)。

  2. 异常值明显超出理论/实践极限(例如,人类年龄为500岁),应视为“空”值

  3. 无法确定异常值是否在理论/实践极限内,因此需要领域专家的知识(在这种情况下,我们需要与特定领域的技术专家讨论,如物理学问题需要物理学家)

因此,根据箱形图的定义处理“异常值”并没有通用的方法,而是应该了解数据集的性质,并决定如何适当处理它。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注