医微客 - 重叠加权后，样本量明显减小，导致Power明显降低，该如何解决？

重叠加权后，样本量明显减小，导致Power明显降低，该如何解决？

国际临研

2023-04-17

2615 0

我们收到了很多来自科研交流同行们关于重叠加权（OverlapWeighting，OW）和逆概率加权（IPTW）使用中的一些问题。

困惑问题

重叠加权后，样本量明显减小，导致Power明显降低，该如何解决？倾向评分匹配导致样本量减少，这个是很常见的事情。重叠加权的权重分别是ps和1-ps，这两个数字都是0~1的数字，所以经过加权一定会出现样本量减小，我以前做过重叠加权。而逆概率加权的权重会出现大于1的情况，所以逆概率加权有可能会增加样本量，这种情况我也做过。每组130例的样本量，经过重叠加权，每组只有30例了，样本量减少太多导Power下降。

困惑解答

到底使用重叠加权（ Overlap Weighting，OW）和逆概率加权（ IPTW）会不会导致样本量的增加或者减少，让我们一起看看以下案例。

这篇文章使用的方法是逆概率加权（IPTW），没有导致样本量的增加或者减少，所有的样本量都用上了。但是用了加权的方法后，我们看到出现一个很多学员疑惑的问题：基线图里面的人数635671变成了635628.3，为何人数突然出现了小数点呢？那么使用重叠加权（Overlap Weighting，OW）这个方法会不会改变样本量呢？让我们感受一下参加训练营课程的学员们的学习体会和解答。

在读医学生-学员1的观点

逆概率加权充分原则上利用了“所有”的样本量，逆概率加权方法将PS和1-PS取倒数分别作为实验组和对照组的权重，进而使多个混杂因素在治疗组和对照组达到均衡；因此基线表上面呈现是加权后的结果，因为权重的大小，会出现数值的增多或减少，但这个不是实际的样本量（真实的样本量不会有小数点，这是加权后的结果）；为什么说是原则上利用了“所有”的样本，因为在特殊情况下：例如，当有非常低 PS 的实验组患者与有非常高 PS 的对照组患者进行加权时将会获得很大的权重，由于非常大的权重会诱导不稳定性，所以为了保证结果的稳健，后续采用截断或直接剔除一些权重异常的样本时，也会丢失一部分样本量。

统计博士-学员2的观点

我同意学员1 的观点。那个有小数点的数字就是Weighted Sample Size，没啥实际意义，之前罗老师讨论过，建议直接写成整数635671，避免Reviewer不熟悉产生疑惑。我觉得把Sample size 理解成几个人是表面的意思，底层的东西是信息量，加权是所有Sample提供的有效的信息在Model都用上了,Matching 把一部份人直接扔掉了。

统计硕士-学员3的观点

IPTW是Treatment组1/e(x), Control是1/(1-e(x))；OW是Treatment是1-e(x), Control是e(x)；E(x)是倾向性评分。公式不一样，但其实本质是因为IPW的Weighting或者说Propensity Score可能会出现极大极小的情况，如果Truncate就会缩小样本量的利用，但是ow是用来解决这个可能有极值的问题的，OW不需要Truncate极值的Propensity Score。

关于OW会不会减少样本量这个问题，如果单纯把Weights (ps or 1-ps)放到Sample里，其实就相当于把这个地方算出来的Weights加起来，但是这个做法是没有任何意义的。因为OW的做法潜在的这个Weights加起来就比Original Sample Size小。但其实在算Outcome 的时候，我们会把这个Weights进行一步Standardized，再把标准化的Weights 赋予Outcome进行计算，这时候的标准化的Weights在各组加起来都为1。

这个问题其实没有意义，因为我们这里提到的样本量，本质上是把我们算出来的Weighting进行求和，OW的Weighting加起来就一定会比Sample Size小。我们不需要考虑这个数字变大变小，如果没有进行Truncate，我们就用了所有样本的信息量。

在读医学生-学员4的观点‍‍

我感觉就是根据我们选择纳入矫正的变量计算了一个总体的权重，这个权重可能大于1也可能小于1，原始人数进行加权后就会出现增多（权重大于1）或减少（权重小于1），由于算出的权重不是整数，最后计算获得加权后的人数也是有小数点的。这个感觉就类似于标准化率和率的差异，标准化率后的人数并不是真实人数，没有真实含义，类似于此处的加权后的人数。之前没有理解的原因可能是还没有真正理解权重在这个计算过程中起到的作用。

学员学习总结

接下来分享一篇来自AOCRAS学员的学习总结，真实的记录她在学习中，从不懂如何正确使用到最后深刻理解并正确使用IPW、PSM和倾向性评分等统计方法的蜕变。

感谢国际临床研究学院组织的这次的真实世界研究统计方法实操训练营，真的收获很大，不仅从研究思路是帮助我提高了一个台阶，而且通过系统的学习我对真实世界研究设计的统计学方法有了更深刻的理解。在今后的研究课题当中更快、更高效的做好统计模块的处理，排除研究中的混杂因素。

以下是我就真实世界研究统计方法实操训练营的模块二的训练营学习的一些心得体会，仅供大家参考，希望对能看到这篇学习分享总结的你有所启发。我对目前临床研究中已经使用过的用于排除临床观察性研究混杂因素的影响的统计学方法做一个汇总。

01、逆概率加权法IPW

IPW是我在上训练营前完全没有听过的统计学方法，我周围的同学也只会最简单的cox回归分析，大家使用的也是最简单的cox协变量调整。

IPW最大的优点，就是计算出一个权重(根据你纳入的混杂因素)，在不损失样本量的情况下，将两组人群基线矫正，然后可以进行后续分析—这个方法很好的弥补了我目前研究的统计学缺陷。在罗教授团队的帮助下，我使用了IPW新对我的数据进行了统计分析。最开始的难题就是代码问题，在攻克了代码后分析结果还是令人满意的。

IPW得到的最终结果与我使用PSM获得的结果完全一致：即在能够很好矫正基线的情况下(SMD<0.1)，我选择的自变量对因变量作用显著。在这个基础上，后续我又做了IPW相关的加权频数分布图，显示数据分布良好，不会影响我的结果，即从外到内的结果都是令人满意的。虽然PSM和IPW都能矫正我的数据基线，最终获得结果都是令人满意的，但是PSM显然在数据内部的变现不这么令人满意—损失了将近10000的样本量。故我的这份数据，最优的统计学方法还是IPW。

对以后临床研究的统计学指导：在以后的临床研究中，如果人群分组后组间人数差距不大，PSM和IPW都是可以使用的，还是不推荐协变量调整，因为临床数据可能较少，混杂因素过多，不能全都纳入调整。

在PSM和IPTW都可以使用的情况下，我以后可能会更倾向于IPW，因为这个方法操作步骤更少(免去了提取1：1样本然后再分析这一步)。而对于像我这次研究组间样本差距过大的情况，IPW毫无疑问是首选。在两种情况都可以使用IPW时，直接选用IPW可能更能减少统计时间。

02、倾向评分匹配法PSM

PSM是我在进训练营前一个月刚学会的方法，最初学会的时候觉得这个方法对于我后续的临床研究已经足够(适时作为cox的替换方法)。然后我用这个方法在我最新提取的一批公共数据库的数据进行了统计。简单介绍一下我的数据组成：观察组400多人，对照组10000多人。由于两组人群数目差距过大，我选择了我刚学会的PSM。结果是令人满意的：PSM(1：1)将两组人群基线矫正(P>0.05)，最终单因素、多因素cox模型结果显著(P<0.05)。于是我拿着我的案例到训练营向罗教授讨教。

这个方法的问题及思考：PSM能很好矫正基线，但是有一个很严重的问题，就是把我的对照组10000多人变成了400多人。一下子损失了将近10000人。显然这种统计学方法，将公共数据库大样本临床研究的“大样本”的特点完全砍除，因为最后分析的就800多人。这是我在参加训练营前没有想到的问题，当时的我一味的只想获得我想要的结果，没有关注这么深入的问题。在课堂上罗教授指出问题后，我在罗教授团队的帮助下，换了一个统计学方法—逆概率加权IPW。

03、利用回归模型进行调整分析

在还没有接触训练营前，这是我最常用的统计学方法，即：①根据自己设定的分组，将人群分为2-3组，然后基线表统计信息，计算组间差异P值;②用cox回归(单因素、多因素分析)矫正基线差异获得最终结果或者提前选定对结果有影响的变量，放入cox回归模型矫正;③根据多因素结果或者最终模型结果，确认自己选定的自变量是否会对设定的因变量有关系。

这个方法的问题及思考：cox回归模型对于纳入的变量有严格限制，一般根据结局事件/10，为最多可以纳入变量数目，这对于医院临床数据较少的研究，cox回归可能不适用，如果强行使用cox回归模型，可能会影响结果的可靠性。例如我之前研究生最开始使用这个方法时，纳入了500多个样本，最终结局事件只有60多个人，但是我纳入的变量有十几个，这显然远远超出了cox回归模型纳入变量的上限。虽然在投稿过程没有遇到什么问题，但是以后深入临床研究，需要投稿顶刊时，这将是一个致命的缺点。

真实世界研究方法训练营的学员有来自专业的统计博士和硕士；也有临床医生和医学生；还有来自CRO和药企的人才。在这个训练营，有国际名校导师的实操辅导，有学员们自己的研究问题的热烈讨论，相信你经过了这个系统的训练，会有脱胎换骨的改变，期待你加入这个科研的大家庭。