Hello,大家好,我是小杨。大家好,我是小林。欢迎大家收听最新一期的节目。这一期节目我们来和大家聊一聊流行病学中一个非常有序的方法,叫做工具变量。听过我们之前混杂片影那期节目的朋友们应该还记得,随机对照实验,也就是 RCT,是临床研究的金标准。
RCT 的做法就是把受试人群通过随机的方法进行分组然后给每一组安排治疗或者安慰剂然后来比较不同组之间结果的差别因为随机化的过程理论上会帮我们控制住所有的已知或未知的混杂因素因此 RCT 会成为医学研究的金标准但是 RCT 有着不小的局限性比如像很多研究本身没有办法应用 RCT
就像我们之前的节目中所讲到的吸烟和肺癌的例子一样我们没有办法把吸烟作为一个干预来随机分配给受试者因为这样做是不伦理的那对于那些不能做 RCT 的暴露来说想要建立因果关系往往是非常困难的流行病学研究在人群上观测得到的结果往往被称为相关关系而不能称之为因果关系那这也是流行病学本身面临的一个困境
其实因果关系在我们的生活中无处不在我们也经常问一些和因果相关的问题举一个非常简单的例子就是比如亲戚家的小孩考进了重点高中三年以后又考进了重点大学那么能够进入重点高中这件事是不是考上好大学的原因这种问题看上去非常的直截了当但是其实并不好回答因为有可能这个小孩即使没有在重点高中学习最后也能考进重点大学
那么说到这里熟悉统计学的朋友可能很快的就会反应过来这个问题本质上是一个概率学上的问题也就是说我们之所以认为考上重点高中是考上好大学的原因其实是因为我们能看到重点高中的学生考上好大学的概率更大那其实这也是一个统计学上的相关性
但是这种相关性真的能直接代表因果关系吗?其实很多时候这个里面是要打上一个问号的也正因为如此,很长一段时间内,不管是流行病学还是统计学都把目标放在寻找相关性上,而不是寻找因果关系上上世纪八九十年代,因果推断的方法学上取得了巨大的研究进展这也给流行病学带来了一定的启发和突破
因果推断方法学上的进展涉及到多个学科,包括统计学、计算机科学、经济学以及流行病学,那每个领域都有自己的大佬。比如说,2012 年图灵奖的获得者 Judia Pearl 被人誉为贝叶斯网络之父,她因为因果推断方法在人工智能领域的贡献获得图灵奖。
同时对于流行病学家来说,它还有一个非常重要的贡献,就是对因果图模型的发展,也就是说流行病学中常用的有像无环图。那离我们更近的有 2021 年的诺贝尔经济学奖,三位获奖者分别是 Anglist, Inbens,还有 Card。诺贝尔经济学奖的颁奖词是表彰他们对自然实验和因果识别方法的探索和推广。
对,其实现在因果推断这一个领域是可以算得上是大佬云集,但是这些大佬其实之间有一种文人相亲式的不对付,也就是他们之间会相互嫌弃对方的理论。比如像之前说的那个图灵奖获得者 Pearl,他就非常不喜欢 Anglist 和 Inbens 的理论,因为他觉得他们两个人的理论违背了因果推断的基本假设。
那同时 Pearl 自己的那个图模型的话也是被别的大佬嫌弃这里面的八卦和小故事我们在这里就不细说了有兴趣的听众朋友们可以自己去网上搜搜看
那当然在今天的话有很多专家和学者也致力于继续发展因果推断的方法那有很多人也是希望能够把各个大佬各个领域的方法统一起来总结成一个统一的因果推断的方法学那么我们今天要讲的内容其实是因果推断诸多方法中的一个叫做工具变量法
工具变量法其实历史非常久远,最早可以追溯到上世纪二三十年代。在 1928 年,当时有一位经济学家叫菲利普·莱特,他在研究使用亚马子的产量和价格的时间序列数据来估计亚马子的供需曲线。在做这项研究的过程中,他提出了两种变量,一种变量只影响需求条件而不影响价格,比如说就是替代品的价格。
另一种变量只影响商品的价格而不直接影响需求,比如商品的产量。这两种变量其实就是工具变量的雏形,但是在随后的 20 年里,几乎没有人继续去研究工具变量。直到上个世纪 50 年代,才重新有人继续开始发展这种方法,随后被逐渐应用到了计量经济学的研究中。
那在流行病学和统计学中因果推断通常面临着潜在混杂的问题也就是说其他的因素可能同时会影响我们所研究的因和果使得关系变得复杂难以确定工具变量就是一种来处理这种混杂问题的方法
它通过引入额外的一个变量,也就是工具变量本身,来帮助确定原因与结果之间的因果关系。那这个工具变量它必须要满足两个条件。第一个是工具变量必须与我们感兴趣的原因相关。第二个条件是工具变量不能与其他的干扰因素相关,也就是它不与结果的其他潜在原因有关。
那通过将工具变量引入到因果模型中研究人员可以隔离其他可能影响的因素从而更准确地估计原因与结果之间的因果效应这使得因果推断更具有可信度和精确性刚刚说的这些比较偏向于方法学大家可能听得云里雾里接下来呢我们会通过几个实例来进一步地给大家介绍工具变量法如何赋能我们的经济学和其他各个领域的研究
那首先要讲的一个例子是在一本书当中提到的那这本书叫做因果之道精通计量那听名字就知道这本书是讲计量经济学的一本书那这本书的作者之一就是 Joshua Engrist 也就是刚才我们提到的 2021 年经济学奖的获得者
在这本书中安格里斯特提到了一个非常经典的实验这个实验就是上个世纪 80 年代在明尼阿波利斯市举行的明尼阿波利斯家庭暴力实验这个实验的话是由当时的市的市长和警察局局长一起设计的他的研究目标是探索警方对家暴的处理方式和六个月以后施暴者再次施暴之间的关系
也就是说他更好奇说警察对家暴的不同处理方式会不会影响家暴者以后再次选择施暴的一个可能性那么在美国的话警察在接到报警出警之后会对家暴的施暴者有不同的处理方法最严厉的处罚就是把施暴者给抓起来当然也有其他一些温和的处理方法比如像把施暴者和被施暴者隔离或者说对施暴者进行批评教育等等
那如果想要比较不同的处理方法对结果的影响,我们是不能直接简单的比较这些处理方法的,因为警察选择处理方法的时候会受到各种各样的因素的影响,那比方说警方很有可能对有暴力倾向的人实施更严厉的处罚,那这些暴力倾向更高的人再犯的概率也更大。
这个实验是这样设计的它首先招募了一批自愿参与实验的警察那这些警察需要根据每次出警时随机拿到的出警报告的颜色来决定对家暴者的处理方法就要么是直接逮捕或者是更温和的处理方法通过这样的一个随机分组的方式他们就可以来比较直接逮捕的那一组和选择温和的处理方式的这一组他们之间结果的一个差异
那听完这个实验设计我感觉它听上去就是一个随机对照实验呀因为出警报告的颜色是随机分配的也就是说我们把这两组警察随机分配到了直接逮捕组和温和处理组那确实是这样的这个实验设计的本身和 RCT 确实非常的相似那其实它和 RCT 的主要区别就是在于估计效应的一个方法
我们知道随机对照实验的分析方法一般采用意向治疗原则,也就是 ITT。那什么是 ITT 呢?就是说我们在做临床实验的时候,出于道德的考虑,一般不会强制地让病人接受随机分配的治疗方案,而是采用建议的方式,允许病人的拒绝。
如果我们在分析的时候只按照随机分配的配组来进行分析而不管他们到底是不是真的接受了治疗方案那就是 intention to treat 分析方法那实际上由于很多病人在实验中并不一定会完全依照随机分配的治疗方案那 ITT 通常会导致干预结果的一个降低也就是说 ITT 的分析是会稀释这个治疗的效应的
那其实这个实验在最初发表的时候也确实是按照 RCT 分析的 ITT 的原则进行实验的分析并报告的结果那也是因为在实际操作中警察很有可能因为各种原因并没有按照颜色来选择出警方式那比如像某个警察他随机抽到了温和的处理方式但是那个施暴者企图袭击警察那在这种情况下即使他抽到了温和的处理方式警察也依然会把他给抓起来
那当时实验报告的 ITT 分析结果是 0.114 也就是说和温和的处理方式相比直接逮捕可以把六个月以内再次施暴的概率降低 11%那这其实是一个非常显著的差距
但是呢在 2002 年的时候这本书的作者也就是安格里斯特把这个案例又翻了出来那他认为这个案例中使用 ITT 方案进行估计的效应值太过保守了于是他又用工具变量的方法重新进行效应值的估算那这边就简单的说一下他的一个估计的方法
首先他采用报告的颜色作为工具变量算出工具变量对于结果的一个影响的效应值那其实这就是 ITT 的估计值在这边报告的颜色就是那个随机化的变量那然后他再算出工具变量对于目标暴露的效应值也就是说报告的颜色对于警方最终出警方式选择的一个影响的大小那假如说所有的警察都完全按照拿到报告的颜色来出警那么这个效应值就应该等于 1
但是实际中警察并不会完全按照随机分配的方式进行处理这个效应值也就是小于 1 的得到了这两个效应值之后把这两个值相除就可以得到工具变量的一个估计值在这里经济学上给了这个估计值一个名字叫做局部平均处理效应
安格里斯特给出的用工具变量法估计的局部平均处理效应的估计值为 0.145 也就是说直接逮捕可以把施暴者再犯率降低到降低 14.5%那这个概率其实要比刚才的 ITT 估计值更大
这个实验其实影响非常深远它对美国警方的执法产生了非常大的影响那就是从此以后警方都倾向于对于家暴的施暴者采取比较严厉的一个处理方法
那但是当然了这个比较有意思的就是在这本书里面他引入这个例子的时候讲了一个美国非常有非常有名的案件叫做辛普森杀妻案那也就是学法律的同学可能会比较熟悉因为当时是世纪审判那辛普森案其实发生在这个实验的十年之后
那作者在书中也是说到说这个具有开创性的实验并没有能够拯救辛普森前妻和前妻的情人的性命那社会的变迁往往是很慢的
当然他也问了一个问题就是说是不是因为原本的这个研究报告只报道了 ITT 一项处理的估计值而 ITT 的这个估计值实际上是偏保守的那么如果研究者在一开始就采用了因果变量的方法那会不会让这个实验更具有影响力来改变历史呢那当然历史没有如果那这些事情我们也是永远没有办法知道了那说一句题外话就是设计出这个开创性实验的明尼阿波利斯警察局
在 2020 年的时候因为跪杀了黑人弗洛伊德而臭名昭著并且引发了美国新一轮的社会运动来争取种族之间的平等对 social justice 也就是社会公平也是我们公共卫生的一个重要的组成部分
那说回刚刚这个实验,这个实验虽然是出现在一本计量经济学的书里,但是放在流行病学的教程里也一点都不违和,因为 violence,也就是暴力,也是社会流行病学研究的一个重要话题。虽然经济学属于社会科学,流行病学属于自然科学,但是因为流行病学研究的对象是人群,也就会和同样关心人群和社会的经济学产生一定的共鸣。
那从方法学的角度来说虽然随机对照实验一直以来都是医学实验的金标准但是这并不代表随机对照实验就是完美的那我们刚刚讲到 RCT 中随机分组本身就可以视为工具变量但是在实际分析中 RCT 的主流方法是 ITT 它并不会往下继续迈一步去应用工具变量去估计效应值对我们当时上课的时候我们讲因果推断的老师其实吐槽过这一点
大部分的随机对照研究只会报告一个 ITT 的效应估计值并不会去使用工具变量法去获得一个更确切的一个估计值但是其实这也无可厚非因为我们之前讲过说 ITT 得到的效应估计值往往会更加保守也就是说真实的效应值往往会比你实验得到的那个估计值要来得更大那这也就是为什么临床研究依然还在使用 ITT 作为一个分析的主流方法
说起 RCT 其实我想到我最近读的另一本书叫做《勾勒姆医生》这本书里面其实有一个非常有意思的观点就是作者认为医学科学的金标准是 RCT 这件事情本身就是医学这门学科无知的一个表现作者在书中列举了一个假想实验来说明这一点
假如有一个疾病叫做未分化肢体骨折也就是说你四肢中随机断了一个但是医生的水平很菜并不知道到底断的是哪一个那这时候有一个医生提出了一个治疗的方案这个治疗的方案叫做给右腿打石膏
然后并且为了证明这个治疗方案是有效的,这个医生做了一个 RCT,把骨折病人随机分成对照组和治疗组,那治疗组就给所有人右腿都打上石膏,那么结果发现对照组的病人病情都没有好转,而治疗组的病人如果是他的骨折恰好在右腿,那他病情就会出现好转,也就是说治疗组有 25%的人病情出现了好转。
那这个 RCT 的结论就是给右腿打石膏是对这个肢体骨折一个非常有效的治疗手段有效率是 25%那这个例子看上去非常的蠢但是它反映出了一个事实就是如果我们对人体有更好的了解那医学上用的随机对照实验是非常笨拙的那当然在我们的医学还不够高度发达的时候那随机对照实验依然有它的存在意义
但是如果将来有一天我们能够了解人体的每一个细节,那这个时候我们也就可以针对病人的具体情况做出更加详细的个性化的治疗。那其实这个里面就涉及到了一个医学思想的一个变迁,也就是我们所说的从循症医学到精准医疗的一个转变。那当然这个里面的内容就太多了,我们以后和大家再有机会再聊。
那让我们说回工具变量前面讲的米尼亚波利斯家暴实验是在一个随机实验的基础上运用工具变量的例子进行分析但是呢工具变量的价值其实更多的体现在观察性实验中如果我们能找到一个好的工具变量那将对观察性实验的结论起到很好的强化作用那接下来让我们再来看精通纪念这本书中提到的另一个例子
后代子女数量是否会影响后代子女素质的例子这个研究话题其实是人口学中一个非常经典的问题就是是否需要限制人口增长的一个速度那比如像我们国家在之前的很长一段时间内都是坚持的计划生育的国策那直到近年来才有所放开那其他的国家也是每个国家有各个国家的国情也有着各自的一个人口政策
其实这个问题的历史也非常的悠久最早是一个人口学家叫做马尔萨斯提出的人口论当然马尔萨斯的理论的话也是因为有很多的漏洞所以说饱受批判那么对于我们国家产生比较深远影响的就是马寅初的一个理论其实大部分的发展中国家都认为高出生率是造成长期贫困的一个主要因素
这其中的原因就是因为我们如果去观察就会发现一个国家的平均家庭规模和教育水平之间存在着负相关的关系也就是说家庭的规模越大那这个平均的教育水平就会越低那当然本身这件事情是一个生态学的证据就是不太好推广到个体的家庭那么从微观角度上来考虑我们就需要思考说一个家庭后代的子女数量会不会影响这个家庭后代子女的一个素质
那么为了探索这个问题,首先这个书中的话,安格里斯特描述了一个理想实验,就是在这个理想实验中,我们的样本只包括那些只有一个孩子的家庭,那么我们再去随机的给这些家庭中的一部分去赋予第二个孩子,过 20 年之后我们再去比较有第二个孩子的家庭里面老大的教育水平和那些独生子女家庭的教育水平的一个差异。
那当然这是一个理想化的一个随机实验,那么实际上生孩子这个过程当然不是随机的,因为生不生孩子是由父母决定的,而且这个里面的影响因素会比较多。那比方说大家庭的女性往往受教育程度更低,那这些女性也倾向于让孩子接受更低的教育水平,那我们会发现母亲的教育水平这个因素就成为了一个混杂变量。
那这个时候为了来探索家庭规模和后代教育水平之间的关系我们就需要寻找一个能够尽可能模拟理想实验中家庭规模变化的一个因素那也就是说我们需要找一个工具变量那作者在这里找了两个工具变量第一个工具变量叫做第二胎是双胞胎
那因为他的这个实验的背景的话是在以色列进行的那以色列是一个西方国家那大部分家庭其实都不是独生子女那有的家庭倾向于要三个或者更多的孩子那也有部分家庭认为两个孩子就足够了那如果第二胎是双胞胎的话那些本来只想要两个孩子的家庭的话他的家庭规模就被迫的提升了
那所以说我们如果观察第二胎是双胞胎这件事情和家庭规模这件事情的话我们就会发现第二胎是双胞胎和家庭规模是一个正相关的关系然后我们再去分析第二胎是双胞胎和家庭里面第一胎的教育水平之间的关系我们就可以得到说家庭的规模和这个家庭里面第一个孩子的教育水平之间有没有因果关系那么最后这个实验分析出的结果就是发现说
第二胎是双胞胎对第一胎的教育水平没有影响那这个结论也就不支持子女越多子女的教育水平越低的一个假设那当然这个工具变量存在一个小小的问题诞下双胞胎这件事情其实并不是一个完全随机的机制那比如像大龄产妇产下双生子的概率会更大
那有特定的足异也更容易生育多胞胎那这些因素依然有可能构成工具变量和结局之间的一个混杂因素那于是为了进一步证明他们的结论那这个作者就找了第二个工具变量这个工具变量叫做前两胎的性别是否一样
那因为在西方家庭中,大部分的家庭更倾向于同时拥有不同性别的孩子,也就是说他们更希望儿女双全。那么如果前两胎的性别一样,那这时候父母选择要第三个孩子的可能性就会更大,也就是说如果前两胎的性别一样,那这个家庭的规模更大的可能性也就更高。
那使用这个工具变量他们发现说前两胎性别一不一样和第一胎的教育水平之间也是没有关系的那也就又进一步证明了说家庭的规模和子女的教育水平其实是没有太大的关系的
虽然说这两个工具变量的实验设计的非常的精妙但是我们其实如果看它的结果的话我们会要思考一下说这个实验的外部真实性到底好不好也就是说它是在以色列做的我们能不能把这个实验结论直接外推到中国呢其实我觉得可能是这边也是要打一个问号的那应该是有一定问题的因为中国的文化背景和社会结构和以色列都是有较大的差距的对那我们都知道在中国来说
家庭的观念和西方世界还是有很大的区别的那接下来我们要分享的这一个案例就正好体现了中国的家庭和社会的性别观念吧这一个研究是国内 2021 年做的也是计量经济学的一个研究案例这篇文章的名字叫做高管后代性别与民营企业资本配置效率
这个实验的研究对象是国内 A 股上市的公司高管研究者通过网络和数据库搜索了其后代的信息最终得到的有信息的是 511 家民营上市公司的样本和 2626 个观察值这个信息包括了高管以及他们的后代性别
那这项研究呢,它发现与没有女儿的高管相比,养育女儿的高管所在的民营企业的资本配置效率会更高。养育女儿可以改善高管的工作态度,使其在决策风格上更为稳健,其所在的企业也更能够发挥女性高管在公司治理中的优势,从而提升民营企业的资本配置效率。
但是这一项研究其实有一个非常大的 bugbug 在哪里呢就是在全部的样本中高管只有女儿的企业为 144 家占样本总数的 28%高管只有儿子的企业为 279 家占样本总数的 55%那剩下的就是儿女双全的高管
那其实我们可以看到这里有个非常明显的对比就是只有女儿的占 28%只有儿子的占 55%这里的差距几乎是一个翻倍的差距那这里其实原因也很明显因为在中国几千年的农业文明沉淀出了重男轻女的一个性别文化同时由于技术的发展像现在的 B 超啊包括人工中值妊娠的手段也为性别选择提供了可能
那么为了消除这个样本本身存在的偏移在这项研究中作者选取了高管出生地的新生人口性别比作为工具变量那在之前的很多研究中都认为出生人口性别比可以很好的反映一个地区重男轻女程度的差异那这里的一个假设就是在重男轻女程度更高的地区高管养育女儿的概率更低
那出生人口性别比这一个变量作为工具变量,它可能影响高管的后代性别,但是上市公司的决策行为不会直接影响出生人口性别比。同时呢,出生人口性别比本身也不会直接影响上市公司的决策行为,因此是一个合适的工具变量。
此外考虑到出生人口性别比可能会通过女性高管的比例等途径去影响企业的资本配置也可能受到地区层面遗漏变量的影响所以在工具变量的回归检验中作者加入了女性高管的比例作为一个控制变量同时控制了地区的固定效应最后的研究结果发现出生地的人口性别比越高董事长后代性别包含的女性的概率越低这一结果也是基本符合之前的假设的
那再加一段题外话就是西方学者也有研究发现与养育儿子相比养育女儿能够改进父母的性别观念使其更能够与女性共情而且这种观念会在其参与社会生产活动的过程中得以体现那在公司治理领域同样存在女儿效应以往的研究表明养育女儿能够提升高管的性别平等认知增勤其同情心和利他性的偏好抑制其激进的投资风格
也就是说养育女儿的 CEO 所在的企业,她的投资行为一般不会过于激进,而且女性高管的比重更高,社会责任的表现也会更好。那么这个例子是一个非常有意思的计量经济学的例子。那我们通过前面几个例子就可以发现,一个好的工具变量可以非常有效地规避混杂因素对于实验的干扰,让实验中所发现的因果关系更加的可靠。
所以说选择工具变量这件事情本身是一件非常需要智慧的事我们刚刚讲了很多经济学的案例就是还没有提到流行病学的案例其实工具变量法在流行病学现在也有了一些应用其中流行病学中有一个非常特殊的工具变量这一类研究被称之为孟德尔随机化研究从名字就可以看出孟德尔随机化和基因有关
那其实一言以蔽之就是说,孟德尔随机化就是使用遗传因素来作为工具变量,研究暴露和解决的关系。那从人群的角度来看,一个人所携带的基因可以看成是随机的,那这也是孟德尔自由组合定律的一个结果。这也就是为什么这一类方法被称之为孟德尔随机化了。
那如果一个基因它和我们所研究的暴露因素密切相关并且它只通过我们的暴露因素来影响结局那这个遗传因素就可以作为工具变量来帮助我们判断暴露和结局之间的因果关系那举一个例子假如我们研究喝咖啡和肾功能之间的关系
如果我们能够找到一个基因,那这个基因变异会让人更喜欢喝咖啡也就是说携带这个基因变异的人日常喝咖啡的概率要比不携带这个基因的人日常喝咖啡的概率更高而且这个基因又不会通过其他的因素来影响一个人的肾功能那么假如我们发现了这个基因和肾功能之间存在相关性那么就可以说明咖啡和肾功能的变化存在因果关系
这里稍微总结一下孟德尔随机化所需要的一些假设首先我们需要一个遗传因素这个因素需要和我们所研究的暴露强相关这被称之为关联性假设其次我们找到的这个遗传因素不能通过暴露以外的途径影响结局这个被称之为叫做排他性限制那么第三点就是我们所选择的遗传因素不能和混杂因素相关
那么在实际的研究中有可能会出现各种各样的问题那比方说有一个很常见的现象就是说人体内有很多基因它会调控多个表型
那拿我们刚刚的这个咖啡和肾功能的关系这个例子来说明就是说假如我们找的那个基因既让人喜欢喝咖啡又让人喜欢喝酒那么就会出现问题因为这样的话这个效应有可能不是通过喝咖啡来导致的那有可能是通过喝酒来导致的那这里的话就违背了刚才我们所说的排他性假设
我们上面所讲的其实是孟德尔随机化研究的一个基本的原理实际的研究会更加的复杂我们通常选择的基因变量是单核肝酸多态性也就是 SNP 简单的来说就是由一对碱基变异所引起的基因序列的不同研究中往往不会选择单一的基因变量作为工具变量而是会先做一个全基因组关联性分析
以喝咖啡为例的话就是我们首先会把所有的基因变量都筛选一遍从中选出和喝咖啡相关的一些基因变量那再从这些变量中进一步进行筛选来挑出符合我们要求的一些基因变量然后分别算出它们的工具变量的效应值再通过一些统计方法把结果平均起来那比较常用的方法就包括了我们之前也提到过的 meta analysis 也就是会粹分析
这也就是工具变量法在流行病学中的一个特殊的应用近年来也是越来越火因为它可以帮我们研究一些混杂因素比较难以控制的一些暴露就比如像这个喝咖啡的案例我们知道我们上一期节目讲喝咖啡的时候也提到过像这种与饮食相关的研究的话一般都会比较难做因为这里面饮食习惯影响因素会非常多而且饮食习惯有的时候会很难衡量
那孟德尔随机化方法的提出也就帮我们找到了一条新的可以去探索之前经典流行病学比较难以研究的一些话题那今天我们给大家介绍了因果推断中的工具变量这种方法从方法学和几个具体的例子上给大家介绍了工具变量的定义和使用的方法以及它的优势希望这一期节目可以给大家带来一些思考和收获
也正如我们在开场的时候所说因果推断的方法其实涉及到多个学科领域的交叉那我们这里也是抛砖引玉比较浅显地介绍了因果推断众多方法中的一个那我们也欢迎听众朋友们在评论区和我们进一步地探讨和交流感谢大家收听我们下期再见拜拜