Meta-analysis method · 合并效应量

森林图背后:VERIS 怎么合并效应量

从全文文献到一颗合并菱形:多角度检索、判定可合并性、按研究去重、随机效应合并,以及——什么时候我们拒绝合并。

VERIS 方法说明 · 与线上合并代码一致

01效应量从哪来(包括"读图")

VERIS 从全文文献库里抽取结构化的效应量:每条都带一个测度类型(measure ∈ HR / RR / OR / MD …)、一个点估计、以及 95% 置信区间的上下限。

其中相当一部分并不是来自正文里的数字,而是来自对论文里森林图、表格图像的 OCR——视觉层把图里打印出来的 HR / RR 及其置信区间逐字读出来。所以"它读得到图里的数":一篇老 meta 分析的森林图,哪怕正文没把每个亚组的数字列成表,我们也能从图上把它们读回来。

但有一道硬门槛:只有同时具备「点估计 + 上置信限 + 下置信限 + measure」的事实才可以进入合并。缺了置信区间、或测度类型不明的事实,可以用于检索和阅读,但不会被喂进下面的合并公式——因为没有 CI 就算不出方差,也就给不了权重。

02五步流水线

从一句问题(例如"SGLT2 抑制剂能否降低心衰住院")到一颗合并菱形,中间走五步。后面 §3–§5 详细讲其中最难的几步。

① 多角度检索——单条 query 会漏掉同一比较的研究。系统据问题生成多个角度的检索式(同类的不同药名、不同的结局措辞、再叠加 randomized / meta-analysis / cohort 等限定词),然后取并集。这样召回到的独立研究通常比单查多 2–4 倍。
② 判定可合并性(harmonize)——锁定一个 target 比较,把不属于这个比较的候选排除掉(详见 §2 下半段)。
③ 按研究去重(unit-of-analysis)——一篇论文只贡献一个估计(详见下文)。
④ 随机效应合并——逆方差加权的 DerSimonian–Laird(详见 §3)。
⑤ 一致性闸门——合并前后做几道检查,不达标就拒绝出菱形(详见 §5)。

② 判定可合并性:什么能并、什么不能并

合并之前必须先锁定一个 target 比较:同一干预类、同一类对照、同一临床终点、同一 measure、同一方向。任何对不上这个比较的候选都被排除。硬规则:

复合结局 ≠ 单一结局:"CV 死亡或心衰住院(HHF)"不能并入"HHF"。
不同终点不可并:"全因死亡" ≠ "全因痴呆"。
复合 / 联合干预 ≠ 单药:"钙 + 维生素 D" 不能并进"维生素 D"。
术式间互比不算"干预 vs 非干预":两种术式头对头,不能当成"做 vs 不做"。
方向倒置剔除:测度方向反了的(同一效应被报成倒数)不并入。

注意:方向一致的阴性 / 无效研究要保留——不能因为某项研究结果不显著就把它丢掉,否则合并结果会被系统性地推向阳性。

③ 按研究去重:一篇论文只算一个估计

同一项研究常常同时报告"总体效应 + 多个亚组 + 多行结果"。合并时这些会被折叠成一条(优先取主要终点,其次取最大样本量的那行)。

为什么这一步是安全关键。如果把一项研究当成 N 项来并,就会:虚增研究数 k、用"伪重复"人为收窄合并 CI、并把异质性 I² 压成假的 0。结果是一颗看起来很精确、其实是假精确的菱形——这是临床上最危险的错误。

03随机效应合并的算法(DerSimonian–Laird)

锁定可合并的 k 项研究、每项去重成一条之后,进入数值合并。下面逐步给出公式。

第 1 步:换到可加的尺度

比值类测度(HR / RR / OR)的抽样分布不对称,要先取自然对数,使其近似正态、置信区间对称:

比值类:HR / RR / OR yᵢ = ln( effectᵢ )
SEᵢ = ( ln(上限ᵢ) − ln(下限ᵢ) ) / ( 2 × 1.96 )
vᵢ = SEᵢ²

差值类:MD / SMD(直接用原值) yᵢ = effectᵢ
SEᵢ = ( 上限ᵢ − 下限ᵢ ) / ( 2 × 1.96 )
vᵢ = SEᵢ²

第 2 步:逆方差权重与固定效应均值

方差越小的研究(CI 越窄、样本越大)给越高权重:

wᵢ = 1 / vᵢ
θ_F = Σ wᵢyᵢ / Σ wᵢ

第 3 步:Cochran's Q(异质性统计量)

Q 衡量各研究偏离固定效应均值的总量,自由度 df = k − 1:

Q = Σ wᵢ ( yᵢ − θ_F )²

第 4 步:研究间方差 τ²(DerSimonian–Laird)

τ² 估计"真值本身的离散程度"。它由 Q 超出其自由度的部分推出,并以 0 为下界:

C = Σ wᵢ − ( Σ wᵢ² / Σ wᵢ )
τ² = max( 0 , ( Q − (k−1) ) / C )

第 5 步:随机效应权重与合并估计

把 τ² 加进每项研究的方差,重新计权,再做加权平均:

wᵢ* = 1 / ( vᵢ + τ² )
θ_R = Σ wᵢ*yᵢ / Σ wᵢ*
SE(θ_R) = √( 1 / Σ wᵢ* )

第 6 步:95% 置信区间(比值类指数回原尺度)

比值类(回到 HR / RR / OR) CI = exp( θ_R ± 1.96 × SE(θ_R) )

差值类(去掉 exp) CI = θ_R ± 1.96 × SE(θ_R)

合并点估计同理:比值类是 exp(θ_R),差值类就是 θ_R。这就是森林图最下面那颗菱形的中心与宽度。

第 7 步:每项研究在图里的方块大小

森林图里每个研究方块的面积正比于它的权重——权重越大,方块越大:

方块大小 ∝ wᵢ* / Σ wⱼ* (%)

第 8 步:异质性 I²

I² 衡量"研究间真实差异占总变异的比例"(由 Q 推出):

I² = max( 0 , ( Q − (k−1) ) / Q ) × 100%

I²	经验解读
< 30%	异质性低
30 – 60%	中等
60 – 75%	较高
≥ 75%	相当大

04为什么用随机效应,而不是固定效应

固定效应模型假设:所有研究都在估计同一个真值,研究之间的差异只来自抽样误差。但临床研究的人群、方案、随访时长各不相同——真值本身就有一个分布,而不是一个点。

随机效应模型(加入研究间方差 τ²)承认这种研究间异质:它给小研究相对更高的权重、让合并 CI 更宽,也因此更诚实地反映不确定性。所以 VERIS 默认用随机效应。τ² 为 0 时(研究间没有可检出的异质),随机效应自然退化回固定效应,不会另外加宽。

05什么时候 VERIS 拒绝硬合并(诚实优于假数字)

不是每堆候选都该被压成一颗菱形。合并前后有三道闸,任何一道触发就不出合并结果:

独立研究 < 3 —— 去重后不足 3 项,判为证据不足 / 检索缺口,不合并。
异质性过高 I² ≥ 85% —— 此时合并点估计已无临床意义。拒绝:只列出各研究自己的森林图,不画合并菱形。
效应量量级跨度异常(最大 / 最小 > 50×) —— 多见于"同一效应被正反两向报告(倒数对,如 RR 0.23 与 23.0)"或抽取错误。拒绝合并。

介于其间的灰区:I² 在 75–85% 之间会合并,但加一条显著的异质性告警,提醒你这颗菱形的代表性有限。

这些拒绝不是 bug,是设计

一颗错误的合并菱形——把方向相反、人群不同、或被伪重复撑起来的研究强行压成一个看似精确的点估计——比一句"暂时无法合并"危险得多。当数据不该被合并时,VERIS 选择诚实地告诉你"不能合并",而不是给你一个好看但错误的数字。

06局限

这套方法有几个必须说清楚的边界:

受语料密度限制——能否合并取决于库里"同一(干预类 · 结局 · measure)"的独立研究有多密。结局措辞高度碎片化、或某个经典效应在领域里早已被一篇 IPD(个体患者数据)meta 合并掉时,我们手上反而凑不齐可独立合并的原始研究。
观察性与 RCT 默认分开——不会把队列研究和随机对照试验混进同一颗菱形。
这是证据装配 / 概览工具,不是正式系统综述——它没有正式的 risk-of-bias 质量加权,不替代人工的研究质量评估与正式 meta 分析流程。把它当成快速、可溯源的"现有证据装配视图",最终结论仍需人工核对。

VERIS · 方法说明 · 2026 ——← 回到森林图。