数据挖掘中的异常值处理

在身体质量指数（BMI）列中有一个异常值，与其他数据相差甚远。第二高的值是38.1，而这个异常值是294。实际上应该是29.4，错误发生在数据收集过程中。由于我的数据量有限，我不想删除这一行。谁能告诉我处理这个问题的技术方法？将这个值视为缺失值，然后使用诸如期望最大化插补或贝叶斯多重插补的方法是否可行？请帮助我解决这个问题。谢谢

回答：

检测错误数据，并根据需要使用您喜欢的任何数据插补技术进行替换。

当然，如果您能将错误数据保留，并设计一个足够健壮的整体方法来处理这些情况会更好。

学技术

数据挖掘中的异常值处理

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复