森林图背后:VERIS 怎么合并效应量
从全文文献到一颗合并菱形:多角度检索、判定可合并性、按研究去重、随机效应合并,以及——什么时候我们拒绝合并。
VERIS 方法说明 · 与线上合并代码一致
01效应量从哪来(包括"读图")
VERIS 从全文文献库里抽取结构化的效应量:每条都带一个测度类型(measure ∈ HR / RR / OR / MD …)、一个点估计、以及 95% 置信区间的上下限。
其中相当一部分并不是来自正文里的数字,而是来自对论文里森林图、表格图像的 OCR——视觉层把图里打印出来的 HR / RR 及其置信区间逐字读出来。所以"它读得到图里的数":一篇老 meta 分析的森林图,哪怕正文没把每个亚组的数字列成表,我们也能从图上把它们读回来。
但有一道硬门槛:只有同时具备「点估计 + 上置信限 + 下置信限 + measure」的事实才可以进入合并。缺了置信区间、或测度类型不明的事实,可以用于检索和阅读,但不会被喂进下面的合并公式——因为没有 CI 就算不出方差,也就给不了权重。
02五步流水线
从一句问题(例如"SGLT2 抑制剂能否降低心衰住院")到一颗合并菱形,中间走五步。后面 §3–§5 详细讲其中最难的几步。
- ① 多角度检索——单条 query 会漏掉同一比较的研究。系统据问题生成多个角度的检索式(同类的不同药名、不同的结局措辞、再叠加
randomized/meta-analysis/cohort等限定词),然后取并集。这样召回到的独立研究通常比单查多 2–4 倍。 - ② 判定可合并性(harmonize)——锁定一个 target 比较,把不属于这个比较的候选排除掉(详见 §2 下半段)。
- ③ 按研究去重(unit-of-analysis)——一篇论文只贡献一个估计(详见下文)。
- ④ 随机效应合并——逆方差加权的 DerSimonian–Laird(详见 §3)。
- ⑤ 一致性闸门——合并前后做几道检查,不达标就拒绝出菱形(详见 §5)。
② 判定可合并性:什么能并、什么不能并
合并之前必须先锁定一个 target 比较:同一干预类、同一类对照、同一临床终点、同一 measure、同一方向。任何对不上这个比较的候选都被排除。硬规则:
- 复合结局 ≠ 单一结局:"CV 死亡或心衰住院(HHF)"不能并入"HHF"。
- 不同终点不可并:"全因死亡" ≠ "全因痴呆"。
- 复合 / 联合干预 ≠ 单药:"钙 + 维生素 D" 不能并进"维生素 D"。
- 术式间互比不算"干预 vs 非干预":两种术式头对头,不能当成"做 vs 不做"。
- 方向倒置剔除:测度方向反了的(同一效应被报成倒数)不并入。
注意:方向一致的阴性 / 无效研究要保留——不能因为某项研究结果不显著就把它丢掉,否则合并结果会被系统性地推向阳性。
③ 按研究去重:一篇论文只算一个估计
同一项研究常常同时报告"总体效应 + 多个亚组 + 多行结果"。合并时这些会被折叠成一条(优先取主要终点,其次取最大样本量的那行)。
03随机效应合并的算法(DerSimonian–Laird)
锁定可合并的 k 项研究、每项去重成一条之后,进入数值合并。下面逐步给出公式。
第 1 步:换到可加的尺度
比值类测度(HR / RR / OR)的抽样分布不对称,要先取自然对数,使其近似正态、置信区间对称:
SEᵢ = ( ln(上限ᵢ) − ln(下限ᵢ) ) / ( 2 × 1.96 )
vᵢ = SEᵢ²
差值类:MD / SMD(直接用原值) yᵢ = effectᵢ
SEᵢ = ( 上限ᵢ − 下限ᵢ ) / ( 2 × 1.96 )
vᵢ = SEᵢ²
第 2 步:逆方差权重与固定效应均值
方差越小的研究(CI 越窄、样本越大)给越高权重:
θ_F = Σ wᵢyᵢ / Σ wᵢ
第 3 步:Cochran's Q(异质性统计量)
Q 衡量各研究偏离固定效应均值的总量,自由度 df = k − 1:
第 4 步:研究间方差 τ²(DerSimonian–Laird)
τ² 估计"真值本身的离散程度"。它由 Q 超出其自由度的部分推出,并以 0 为下界:
τ² = max( 0 , ( Q − (k−1) ) / C )
第 5 步:随机效应权重与合并估计
把 τ² 加进每项研究的方差,重新计权,再做加权平均:
θ_R = Σ wᵢ*yᵢ / Σ wᵢ*
SE(θ_R) = √( 1 / Σ wᵢ* )
第 6 步:95% 置信区间(比值类指数回原尺度)
差值类(去掉 exp) CI = θ_R ± 1.96 × SE(θ_R)
合并点估计同理:比值类是 exp(θ_R),差值类就是 θ_R。这就是森林图最下面那颗菱形的中心与宽度。
第 7 步:每项研究在图里的方块大小
森林图里每个研究方块的面积正比于它的权重——权重越大,方块越大:
第 8 步:异质性 I²
I² 衡量"研究间真实差异占总变异的比例"(由 Q 推出):
| I² | 经验解读 |
|---|---|
| < 30% | 异质性低 |
| 30 – 60% | 中等 |
| 60 – 75% | 较高 |
| ≥ 75% | 相当大 |
04为什么用随机效应,而不是固定效应
固定效应模型假设:所有研究都在估计同一个真值,研究之间的差异只来自抽样误差。但临床研究的人群、方案、随访时长各不相同——真值本身就有一个分布,而不是一个点。
随机效应模型(加入研究间方差 τ²)承认这种研究间异质:它给小研究相对更高的权重、让合并 CI 更宽,也因此更诚实地反映不确定性。所以 VERIS 默认用随机效应。τ² 为 0 时(研究间没有可检出的异质),随机效应自然退化回固定效应,不会另外加宽。
05什么时候 VERIS 拒绝硬合并(诚实优于假数字)
不是每堆候选都该被压成一颗菱形。合并前后有三道闸,任何一道触发就不出合并结果:
- 独立研究 < 3 —— 去重后不足 3 项,判为证据不足 / 检索缺口,不合并。
- 异质性过高 I² ≥ 85% —— 此时合并点估计已无临床意义。拒绝:只列出各研究自己的森林图,不画合并菱形。
- 效应量量级跨度异常(最大 / 最小 > 50×) —— 多见于"同一效应被正反两向报告(倒数对,如 RR 0.23 与 23.0)"或抽取错误。拒绝合并。
介于其间的灰区:I² 在 75–85% 之间会合并,但加一条显著的异质性告警,提醒你这颗菱形的代表性有限。
06局限
这套方法有几个必须说清楚的边界:
- 受语料密度限制——能否合并取决于库里"同一(干预类 · 结局 · measure)"的独立研究有多密。结局措辞高度碎片化、或某个经典效应在领域里早已被一篇 IPD(个体患者数据)meta 合并掉时,我们手上反而凑不齐可独立合并的原始研究。
- 观察性与 RCT 默认分开——不会把队列研究和随机对照试验混进同一颗菱形。
- 这是证据装配 / 概览工具,不是正式系统综述——它没有正式的 risk-of-bias 质量加权,不替代人工的研究质量评估与正式 meta 分析流程。把它当成快速、可溯源的"现有证据装配视图",最终结论仍需人工核对。