我在处理泰坦尼克号数据集时发现,绘制箱形图后出现了大量的异常值(胡须之外的点)。然而,在查看了Kaggle上提供的答案后,我注意到人们并没有将这些点视为异常值。
因此,我想知道。是不是所有低于Q1 – 1.5*IQR或高于Q3 + 1.5*IQR的点都一定是异常值?如果不是,什么时候应该将它们视为异常值,什么时候不应该呢?
这是一个答案的链接。
此外,除了删除这些行之外,处理异常值的最佳方法是什么?
提前感谢!
回答:
“异常值”一词并不直接意味着“无效数据点”。相反,它表示数据点的值与大部分数据分布的距离相对较远。此外,您所称的“异常值”通常是主观的,因问题而异,因此没有绝对的“异常值”标准(即1.5*IQR仅用于箱形图可视化目的)。如果我过度简化现实,大致有三种情况。
-
异常值明显在该实例性质的理论/实践极限内(例如,体温为38.0摄氏度,而其他人的体温在35.8-36.5摄氏度范围内),它可以作为某种不同情况的强烈线索(因此对建模/预测有用)。
-
异常值明显超出理论/实践极限(例如,人类年龄为500岁),应视为“空”值
-
无法确定异常值是否在理论/实践极限内,因此需要领域专家的知识(在这种情况下,我们需要与特定领域的技术专家讨论,如物理学问题需要物理学家)
因此,根据箱形图的定义处理“异常值”并没有通用的方法,而是应该了解数据集的性质,并决定如何适当处理它。