我在网上阅读了一篇关于缺失值的论文,对下文中粗体高亮的第一句话的含义感到困惑:
缺失数据会带来各种问题。首先,数据的缺失会降低统计功效,这指的是当原假设为假时,测试拒绝原假设的概率。其次,丢失的数据可能会导致参数估计的偏差。第三,它可能会降低样本的代表性。第四,它可能会使研究分析变得复杂。这些扭曲中的每一个都可能威胁到试验的有效性,并可能导致无效的结论。
希望能听到一些解释。
回答:
首先,功效是指当原假设实际上为假时,拒绝原假设的概率。可以说,这是做出正确决定的概率。数据的缺失会降低这种统计功效,研究的样本量小、所调查的效应小,或者两者兼而有之,都会不利地影响统计显著发现实际反映真实效应的可能性。也就是说,如果你有100个样本,由于缺失值你丢弃了40个样本,那么现在你用剩下的60个样本得出的任何结论,你都不能非常有信心它反映了真实效应。
其次,如果你选择用平均值来替换那些缺失值,那么你实际上是在向数据中注入一种偏差,无论你决定如何替换或移除数据,偏差都会被注入。(尽管在某些情况下某些偏差更为合理)
第三,这句话本身就很说明问题,缺失值降低了样本的代表性,因为你没有关于这些样本的所有信息。
最后,我们可以说(缺失值)确实会使我们的研究复杂化,这是我们在处理数据时最不希望看到的情况,然而由于人为错误和许多其他错误来源,我们常常不得不通过某些操作来处理这些缺失值。