我们可以相信经验吗？——论医学的相关性和因果性

期刊资讯

2020-05-22

1866 1

前几天知乎上有一个问题，“为什么西医一定要与以无数代人健康为代价筛选出来的中药对立，众多先民当小白鼠验证过的东西就没任何价值？”

这个问题有很多争议，下面仅以个人观点谈一谈，现代医学是如何建立的。

说来也挺有意思的，为什么现代医学一定要“揪着”随机试验不放，为什么要抛弃这些看似很宝贵，且牺牲了很多人的经验。其实，理由只有一个：这些经验很有可能是错的。当然，这些经验里面也必然有正确的地方，但是，我们很可能不知道哪些是正确的，哪些是错误的。

现代医学建立的时间并不长，上世纪40年代末，才有的第一个临床随机试验，可以视作现代医学的开端。1959年，牛津医学教授George Pickering爵士曾说过：“医生个人的临床经验是无计划、杂乱的，而且非常不靠谱。”后来临床流行病学开始发展，逐渐认识到随机对照试验的重要性，并将随机对照的地位逐渐提高。最终1992年，循证医学正式建立，并在证据金字塔中将随机对照试验置于顶端，成为医学中的“金标准”。

那么为什么非要执着于随机试验不可？！简单的说：我们需要因果效应。

经验与因果

试想，我们所有观测到的结果，例如：今天我吃了A药然后病好了，都只能说明某一个行为A“吃药”对某一个结果Y“病好了”有相关性。因为有可能你吃药的过程中（或过程前后）也同样发生这一些别的事件B影响着“病好了”这个结果Y，那么如何知道是因为行为A“吃药”还是事件B导致了结果Y的发生，如果每次行为A的发生同时伴随着事件B，那么我们将每次在行为A过后都会观测到发生了结果Y，而事实上很有可能是事件B导致了结果Y的发生。

上述同样的情形，在所有经验总结中都存在，既然称之为“经验”，尤其是古代经验，必然是人们观测到的结果，大体上代表了一定的相关性。例如可能有很多事件C、D、E同时影响着行为A和结果Y，还有一些事件F、G同时被行为A和结果Y影响着，均可能造成额外的相关效应来源。

这是什么意思呢？假如行为A原本对结果Y并没有任何影响（即：无因果效应），但是，由于事件C的存在，同时影响着行为A的发生和结果Y的发生，那么此时我们观测行为A和结果Y之间会存在相关性，所以这个相关性是除了因果效应以外，“多”出来的那一部分效应值，称为额外的效应。医学上称这个事件C为混杂因素。

一个简单的例子则是吸烟、肺癌、打火机之间的故事。很明显是否携带打火机本身和患肺癌风险是否增加无关，然而，吸烟者会更多的携带打火机，而吸烟同时也会引起肺癌风险增加。也就是说，是否携带打火机这件事本身因为伴随着吸烟概率的增加，出现了与肺癌风险之间的相关性，所以吸烟被称为携带打火机和肺癌之间的混杂因素。

这个例子很简单，所以一目了然，然而，试想如果我们的知识中不存在“吸烟”这个概念，那么对“吸烟”引起了混杂偏倚自然也不可能知道，我们则会总结出观测经验：携带打火机可以导致肺癌风险增加。这便是大多数经验所犯的错误，误把相关性当成因果性。

所以，这些经验均代表了一定的相关性，而相关性在医学中是不可取的。那么有人会说：明明很多相关性都确实起了作用，类似于中药中有部分药也是有作用的，这是因为：如果一个相关性确实起了作用，当且仅当，这个相关性中包含有因果效应。但不是每一个相关性都那么幸运包含有因果效应，所以我们才需要识别这些相关效应中的因果效应。

两种因果效应

那么，因果效应是什么。

如果观测到的均是相关性，因果效应应该怎么定义。试想如果我们同一时刻，同时接受两种不同的干预水平，即：干预和不干预。那么我们只需要将干预后的结果和未干预后的结果比较一下，便知道了两者的差异，即因果效应。但是，现实生活中并不可能做出这样的事情，（在平行宇宙中或许可能），因此，这又被称为“因果推断基本难题”。

那么，是不是不可能得到因果效应了，事实上也不一定，我们可以依赖一些假设来达到目的。上述问题中，所涉及的是某一个人在同一时刻接受两种干预水平，所以这被称为：个体因果效应。个体因果效应即每个人自己的因果效应，不同的人当然不同，但是能得出这个效应对这个个体也很有帮助。

有人会说：为什么不能同一个人在不同的时间点，接受两种水平的干预。也就是今天我先不接受干预，明天我再接受干预，比一下不就行了。事实上，这个行为被称为“个人观察经验”，也就是我们常说的“我觉得我用某个药有效果”。正式的，我们称这个行为为：个体交叉实验（Crossover experiments）。

个体交叉实验是唯一可以得出个体因果效应的方法，然而需要3个不可验证假设：（1）干预无滞后效应（no carryover effect），（2）个体接受干预时的因果效应不取决于时间（即无论今天或明天接受干预测量结果相同），（3）个体未接受干预时的因果效应不取决于时间（无论今天或明天不接受干预测量结果相同）。所以，当下次我们要说出“我用某个药一下就病好了”前，想想这三个假设是否满足，或者至少经验上满足。然而，因为生物异质性存在，个体因果效应仍然无法轻易外推到其他人身上。（所以就算在你身上有用，别人身上也不一定有用）

那么，即使个体因果效应假设满足（一般很难满足），依然对医学整体决策意义不大，因为效应没有外推性。怎么办？要想因果效应有外推性，我们首先想到的是让一群人来试验不就行了，人越多外推性就越强。事实上，这个思路是对的，正式的，我们称其为：平均因果效应。

所以，平均因果效应的定义是什么？为了简便，我们暂时忽略随机变异的影响，假定研究在一个无限超总体中（即每个人代表1亿个人或更多）。假设一项研究有10个人，其中6个人接受了干预（A=1），4个人未接受干预（A=0），最终的结果记为Y。那么平均因果效应的定义是：假如这10个人全部接受干预（A=1）的最终结果E[Ya=1]，和假如这10个人全部未接受干预（A=0）的最终结果E[Ya=0]之间的差值（或比值），即E[Ya=1]-E[Ya=0]。

而相关性的定义是：这6个接受干预（A=1）的人的最终结果E[Y|A=1]，和4个未接受干预（A=0）的人的最终结果E[Y|A=0]之间的差值（或比值），即E[Y|A=1]-E[Y|A=0]。

上述的两个定义（平均因果效应和相关性），告诉我们以下几件事：首先，平均因果效应也面临因果推断基本难题，一群人也无法同时接受两种干预水平。其次，我们平时观察并总结的是相关性，并非因果效应，很明显，两者的区别是：平均因果效应是10个人比10个人，而相关性是6个人比4个人。

这就印证了一句古话“相关性不等于因果性”，事实上Fisher先生上世纪50年代用这句话强烈反驳当时吸烟导致肺癌的研究，同时与Cornfield教授展开激烈的争论，而Cornfield教授反驳Fisher先生的方法，正是现在我们使用的敏感性分析的雏形。回到我们的例子中，除了上述这些比较显然的事以外，最重要的是：是否存在某些情形，使得相关性等于因果效应，那么我们就可以通过相关性来进行因果效应的计算。

事实上，在哪些条件下（或哪些假设下）相关性等于因果效应，这是因果推断的核心内容，也被称为：识别问题（Identification problems）。回到文章开头，为什么我们必须要进行随机试验，因为在理想的随机试验中，相关性等于因果效应。而在非随机试验中，当满足3个条件时：可交换性（Exchangeability）、正性（Positivity）、一致性（Consistency），相关性也可以等于因果效应，这里就不展开说了。

相关性与因果性

所以，为什么有些时候我们倾向于认为中医理论是不太可取的，简单的说，这个理论是建立在观测结果上的，也就是无论它再怎么精妙，终究无法识别因果效应，更何况它并不是特别精妙，存在一些矛盾。那么中药的经验是否可取，如前所述，所有的经验均是相关性，它们是否包含因果效应，不知道，可能有可能没有，所以就算将来的随机试验验证了某个中药确实有效果，也不代表这些经验全部是正确的，因为有些相关性确实包含因果性，但仍有部分相关性不包含因果性，有点赌博的成分（当然不完全是随机发生的），但我们不能完全寄托于这种相关性身上，医学是一门严肃的学科，应该尽可能减少错误。

我猜有些机器学习专业的同学肯定不服了，比如我们通过某些事件每次都能准确预测结果，那么这样的事件还没有用吗？如果把古代中医经验当成一个大型神经网络，那不是也不断拟合不断修正吗？先不谈这个大型神经网络是否精妙，假设它是精妙的，那么这个经验可以使用吗？答案是：依然不可以。

无论多么精妙的神经网络，依然代表了某种比较强的相关效应，可能其中包含一些因果效应，但终究它本身不是因果效应。还是那个古老的例子：如果是神经网络，必然会把是否携带打火机作为肺癌的一个预测变量，事实上，通过判断是否携带打火机肯定能一定程度上预测肺癌，现在是，以后可能也是，这样不够吗？既然以后也可以通过携带打火机的比例预测肺癌，那么这个关系（携带打火机—吸烟—肺癌）一定程度上是稳定的，不就能说明问题了吗？

问题在于，所有的相关性均仅对预测负责，也就是如果我们发现一个人携带打火机的概率比较大，我们就可以说这个人未来患肺癌的概率也相对比较大，但是，一旦我们人为介入这个过程，必然会出现问题，比如我们想通过强行干预来降低肺癌的风险，这个时候仅减少携带打火机而没有减少吸烟频率，必然会失败。所以，因果效应为一切事件或行为负责，改变了某个行为，必然引起对某个结局的因果效应改变，这个效应可能大可能小，但肯定存在。

这并不是说预测就没有用了，相反，预测出的相关效应是因果效应的前提，而预测的实践成本更低（相比于开展随机对照试验），并且也为将来的观测负责，所以同样很有意义。关键在于，我们必须对两者的区分有一个明确的概念，才能更好的认识世界。

所以，我们并不是“故意”抛弃部分的中医经验，而是，所有的经验均可能出错，我们抛弃了所有学科的所有错误经验，并没有单独针对中医，这是人类文明发展共同的客观规律。

医学正是一门需要因果性的学科，医学所做的所有努力，都是希望能通过人为干预来降低疾病的发生或提高治疗的效果，而不是仅仅预测到某些疾病会或不会发生。我们的任务则是从无数的相关性中寻找因果效应。

Judea Pearl教授写了一本科普读物《The Book of Why》（中译版：《为什么》），里面非常好的介绍了相关性和因果效应的区别。我认为所有医学生都可以看一下，有助于对医学这门学科有更深刻的认识。

百度浏览来源 : 医咖会