如果数据库小部分资料空缺用什么办法解决

有缺失才正常,没有缺失不正常。Toogoodtobetrue!收集几百个患者资料的几十个指标,如果所有变量都不缺失,审稿人可能会怀疑数据造假。

需要学习如何采用合理的方法处理缺失数据。

如果是研究的暴露因素(X)或结局指标(Y)有缺失,需要通过设置纳排标准排除掉。如果是混杂因素(Z)有缺失,这个研究对象不要剔除,有办法处理缺失值。例如:把缺失的作为一组,或者采用多重插补(MI,Multipleimputation)的方法,易侕软件有现成的模块。本文分享把缺失的变量做为一组的处理方法。

这篇论文是研究老年女性中口服双磷酸盐和骨折的关系:一项巢式病例对照研究。暴露因素(X)是双膦酸盐,结局指标(Y)是粗隆或骨干骨折,混杂因素(Z)包括BMI等变量。有多少人缺少体重指数(BMI)数据?从表1看出,病例组29.6%的人缺失BMI,对照组27.1%的人缺失BMI数据。有近三分之一的人缺失BMI。缺失会导致什么后果呢?如下图:

在分析口服双磷酸盐和骨折关系时,如果把BMI放在多元回归中调整,可以看到样本量从减少为。原因是回归方程要求每个变量都不缺失,BMI缺失了73例,因此调整BMI后样本量就减少了73,大大损失了样本量。在多元模型中调整BMI时,作者是如何处理缺失的?

作者根据BMI把研究对象分成五组:20、≥20且25、≥25且30、≥30、缺失。把缺失BMI的人作为一组,这样就可以在不损失样本量的情况下,对BMI进行调整。这不失为一种值得借鉴的方法。这是文章中调整BMI的结果,也是这篇文章的核心结果。

在分析口服双磷酸盐和骨折关系时,如果把前面新生产的BMIG(变量注解为BMIGroup)变量放在多元回归中调整,可以看到样本量不再减少了。这样就实现了在不损失样本量的情况下,调整缺失变量BMI,分析X和Y的关系。

在遇到某变量有大量缺失的情况时,需要考虑缺失是否随机,如果把这些人除掉,会不会导致偏性。如本例BMI缺失较多,假如缺失BMI的人多是那些服药但没有骨折的人,在多元模型分析时又把这些人除掉了,则会导致偏性。

校稿:许诺

赞赏

长按







































北京中科医院好不好
北京哪家白癜风医院好



转载请注明:http://www.xcqg58.com/zytd/7419.html