我有一个包含20000名员工的数据集,其中有以下三个包含缺失值的列:
- 大学毕业年份
- 大学专业
- 大学名称
现在我有10000名从未上过大学的员工。我的最终目标是预测他们的薪资。
在这种情况下,我该如何填补缺失值呢?
回答:
处理缺失值的方法有很多,具体采用哪种方法取决于您的数据类型。
-
删除包含缺失值的行
可以删除那些包含更多空值列的行。(具体多少算多取决于个别情况)
-
用均值/中位数填补缺失值
对于数值型列,您可以尝试用该列的均值/中位数来替换缺失值。
-
最常见值:适用于您的场景
这种方法适用于分类数据,我认为这是您的情况。您可以尝试用每列中最常出现的值来替换这三个列中的缺失值。