我有多个关于多重推算数据集"m“的效用的问题。我所理解的是,老鼠会重复m次数据集中缺失值的计算过程。
1)小鼠是否考虑了前一步的归因,因此每一步都接近最终收敛,或者每一步都是完全独立的?
2)如果每个步骤都是相互独立的,那么为了一个估算目的而拥有多个推算数据集的意义是什么?
在解释mice的论文中,有一种显示多个补偿步骤的方案

我想,当我们想要汇集结果时,我们拥有的估算数据集越多越好,但是分析结果步骤意味着要创建一个预测模型,该模型可以是:
#build predictive model
fit <- with(data = imp, lm(y ~ x + z))如果我的数据集中没有任何预测列或标签,会发生什么?事实上,我的数据集包含基因组学测量,并且它们都是独立的。我如何在不经过预测步骤的情况下汇集结果,或组合m个推定的数据集?
最好的
宝宝
发布于 2018-11-11 11:56:22
你有这些问题,这是很好的。多重推论经常被误解。它更像是一个关于如何对缺失数据执行分析的完整概念,而不是一个只给出一个没有缺失值的数据集的算法。
1)小鼠是否考虑了前一步的归因,因此每一步都接近最终收敛,或者每一步都是完全独立的?
不,没有收敛。M个估算的数据集中没有一个具有“更好”的估计值。
2)如果每个步骤都是相互独立的,那么为了一个估算目的而拥有多个推算数据集的意义是什么?
整个要点是对补偿过程的不确定性进行建模。如果在一个估算的数据集中将NA值替换为例如5,这永远不会是全部事实……更准确的说法可能是这样的:值可能在4到6之间。
Rubin的这篇论文是一个有趣的读物:https://www.jstor.org/stable/2291635
https://stackoverflow.com/questions/50351736
复制相似问题