We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The pioneers of proof

The pioneers of proof

2025/4/19
logo of podcast More or Less: Behind the Stats

More or Less: Behind the Stats

AI Deep Dive AI Chapters Transcript
People
T
Tim Harford
Topics
Tim Harford: 我主持的More or Less节目致力于数据核实,但证明本身却是一个难以捉摸的概念。有时数据不足,有时像主观意见,有时需要实际检验。Adam Kucharski的新书《Proof: The Uncertain Science of Certainty》探讨了证明的先驱者们的故事,从二战期间盟军预测德军坦克数量到Janet Lane Claypon对乳腺癌风险因素的研究,都展现了统计方法在解决复杂问题中的强大力量。 我们每天都使用已知的证明工具来回答听众的问题,但这些工具是谁创造的?他们又是如何证明未知的呢?本书探讨了这些问题,并介绍了一些重要的证明先驱者。 Adam Kucharski: (虽然访谈中Adam Kucharski没有直接发言,但他的研究成果贯穿了整个节目) 我的研究表明,即使数据碎片化,运用合适的统计方法,也能得出可靠的结论。例如,在二战期间,盟军通过分析缴获的德军坦克零件上的序列号,成功预测了德军坦克的产量,这与我们现在在疫情期间利用有限数据估计感染人数的方法异曲同工。这种方法的关键在于理解数据背后的机制,并结合统计学原理进行推断。 Janet Lane Claypon: (虽然访谈中Janet Lane Claypon没有直接发言,但她的研究成果是节目的重点) 我对母乳喂养和牛奶喂养对婴儿健康的影响进行了研究,并率先使用了回顾性队列研究的方法。通过分析已有的数据,我比较了不同喂养方式对婴儿生长发育的影响,并考虑了家庭收入等混杂因素。此外,我还进行了乳腺癌风险因素的研究,并使用了病例对照研究的方法,发现了生育子女数量与乳腺癌风险之间的关联。我的研究方法至今仍被广泛应用于医学和流行病学研究。

Deep Dive

Chapters
This chapter discusses how statisticians used a small sample of captured German tanks and their serial numbers to estimate the total number of tanks produced, which was significantly lower than initial intelligence estimates. This method proved surprisingly accurate compared to the actual number of tanks.
  • Allied statisticians used serial numbers on tank components to estimate production.
  • The estimate of 270 tanks per month was remarkably close to the actual figure of 276.
  • This method highlighted the value of even limited data in making accurate estimations.

Shownotes Transcript

在“或多或少”节目中,我们将关注事实。每天,我们都使用一套已知的证明工具来尝试回答听众的问题。但是,我们应该感谢谁提供这些工具,他们又是如何着手证明未知的呢?

制作人:丽齐·麦克尼尔 系列制作人:汤姆·科尔斯 编辑:理查德·瓦登 制作协调员:布伦达·布朗 音效混音:安妮·加德纳</context> <raw_text>0 本BBC播客由英国境外的广告支持。当您拥有天空中的酒吧、机上淋浴和屡获殊荣的机上娱乐设施时,阿联酋航空最近被评为世界最佳航空公司也就不足为奇了。我们飞往140多个目的地,并与全球合作伙伴一起,将您连接到六大洲的另外1700个城市。因此,当我们说我们也是最大的国际航空公司时,我们的真正意思是……

如果您要去那里,我们也会去。立即在Emirates.com上预订。飞阿联酋航空,飞得更好。丰田是2025年最佳转售价值品牌,根据凯利蓝皮书KBB.com。凭借广泛的可靠车辆,适合任何生活方式,

您好,感谢您下载“或多或少”播客。

我们是这个沉迷于数据、惊叹于数学并迷恋于统计学的节目。一如既往,我是蒂姆·哈福德。“或多或少”节目中,我们不断地核实各种说法。但证明可能是一种难以捉摸的东西。有时您没有足够的数据,有时它似乎是意见问题,有时,只是有时,实践才是检验真理的唯一标准。

每天,我们都使用一套已知的证明工具来尝试回答听众的问题。但是,我们应该感谢谁提供这些工具呢?他们又是如何着手证明未知的呢?幸运的是,亚当·库查尔斯基刚刚写了一本关于这个主题的书,名为《证明:确定性的不确定科学》。亚当是一位数学家,也是伦敦卫生与热带医学学院的流行病学教授。

我和他坐下来,了解更多关于他书中包含的一些证明先驱的信息。我们从1944年诺曼底登陆前夕开始。盟军试图预测德国人可能在被占领的法国等待着他们什么,特别是令人恐惧的“黑豹”V型坦克。

德国经济到底生产了多少这种坦克。盟军只设法获得了缴获的两辆坦克。因此,英国人和美国人各有一辆,俄罗斯人还有一辆。情报报告估计每月生产约1500辆这种坦克。

统计学家们并不这么肯定。他们开始把坦克拆开,注意到用来固定履带的小轮子上装有橡胶轮胎。每侧有24个,然后观察这些橡胶轮胎,他们意识到每个轮胎都有一个序列号。因此,他们开始感觉到,这能否告诉我们制造商有多少坦克模具,这给了我们一些关于他们制造能力的信息,我们可以用它来估计。

他们所做的是,对于一家制造商来说,大约有20个序列号,最大的为77。我想每个人都能直观地感觉到,这些序列号可能不会有成千上万个。是的。

使用这种方法,基本上是估计如果我们观察到20个,最大的为77,他们计算出可能大约有80个制造模具。如果您只看到一个,那么可能会有150个,但我们真的不确定。没错。你看到的越多,它们都小于77。突然出现大量你碰巧没有观察到的高数字的可能性就越小。

他们所做的是使用这种方法,并利用他们对制造过程的理解,估计德国人在1944年初可能每月生产约270辆坦克。

统计学家假设坦克序列号从1开始,然后依次递增。有20个序列号,没有一个高于77,他们将此与英国坦克制造商的生产率信息结合起来,运用了一些统计直觉,得出了每月270辆坦克的估计值。这远低于情报部门估计的每月1500辆。他们的预测是否过低了?

碰巧的是,在诺曼底登陆当天,他们最终面临着大量的坦克,大约40%的坦克是“黑豹”坦克。后来,当他们发现实际的生产数量时,实际数字是276。哇。所以他们估计是270,实际数字是276。他们基本上猜对了。仅仅是通过观察轮胎。众所周知,诺曼底登陆取得了成功,是战争中的一个关键时刻。

大约76年后,亚当发现自己正在使用非常相似的方法在一个高压环境下预测数字。在作为流行病学家研究COVID时,我们遇到了一些情况,我们可能只有零碎的数据,例如对病例或检测的一些观察结果,

观察到这一点,我突然想到,这只是德国坦克问题的另一种版本。我们有一个未知的总数,我们有一些零碎的观察结果,这些观察结果是随机抽取的。您有一些病例,有一些检测结果,有一些阳性检测结果和阴性检测结果。您试图计算有多少人被感染或检测的准确性。实际上,对于一个非常快速的粗略估计,这只是一个非常简单的计算就能得到结果。然后,至少它可以告知您可能正在处理的规模以及您想要进行何种后续工作。您可以使用新闻。

我们的下一个证明先驱是一位科学家,她对我的两件最喜欢的事情负责:队列研究和病例对照研究。珍妮特·莱恩·克莱蓬于1877年2月3日出生在林肯郡农村的一个富裕家庭。她最初在家接受教育,一直被认为非常聪明。

1899年,她搬到伦敦,并获得了伦敦大学学院的一等学位。然后,她在1910年获得了生理学博士学位和医学博士学位。确实,非常非常聪明。她对儿童健康特别感兴趣。其中一个问题是母乳与当时的煮沸牛奶的营养益处。

但她当时找不到合适的英格兰数据集。所以她去了柏林,并在工人阶级地区的几家诊所

从已经收集的数据中,将母乳喂养和牛奶喂养的儿童的不同群体组合在一起,随着时间的推移跟踪数据集中的儿童,并观察他们的情况。这是我们今天在许多健康研究中仍然使用的一种方法。它被称为回顾性队列研究,因为您所做的是回顾过去,然后识别这些群体,然后您可以重建随后发生的事情。所以这是一个非常强大的想法,可以让你得到你需要的东西来探索这个问题。

显然,理想的情况是大规模的随机对照试验。然而,直到20世纪40年代后期才进行第一次真正受控的医学试验。

无论如何,回顾性队列试验的优点之一是它能够很快得到答案,因为您不是观察现在发生的事情,而是回顾过去已经发生的事情。因此,她特别感兴趣的事情之一是他们随着时间的推移生长了多少,以此衡量他们获得的营养多少。从对数据的初步观察来看,母乳喂养的儿童的生长速度似乎快于牛奶喂养的儿童。

她意识到这里有一些局限性。其中之一可能是还有其他因素影响着他们的饮食和健康以及福祉。所以她认为可能是家庭收入,虽然是类似的领域,但可能只是不同的因素

财富会影响你给他们母乳还是牛奶的概率,以及他们随着时间的推移的整体健康状况。所以她对此进行了调整。她说,好吧,让我们考虑一下组之间的差异,以便进行公平的比较。即使你考虑了收入的差异,这种差异仍然存在。如今,我们称之为统计学中的混杂因素。因此,混杂因素是影响您接触的事物(在这种情况下为饮食)和您的结果(在这种情况下为生长)的某种因素。

在她对母乳与牛奶的研究之后,她被早期的医学委员会委托研究与乳腺癌相关的危险因素。同样,因为乳腺癌是一种在很长一段时间内发展的疾病,所以在人群中,这些事件可能相当罕见。

她想要更快地得到答案。她在伦敦和格拉斯哥所做的是,观察患有癌症的人,观察了大约500人,然后观察了500名所谓的对照组,他们也去过医院,但原因不同。因此,按年龄和其他特征来看,非常相似的人,但他们没有患癌症。然后观察这些人的病史中可能有什么不同之处。其中一个突出的是他们所生孩子的数量差异。是的。

特别是患有癌症的女性通常孩子较少。同样,混杂因素在这里也是一个潜在的问题。因此,她考虑了诸如年龄、结婚时间等因素,但再次发现了数据集之间的信号。我们现在称之为病例对照研究。她发现的一些关于乳腺癌危险因素的发现至今仍在被引用。流行病学家仍然使用病例对照研究来了解风险差异。

感谢亚当·库查尔斯基(《证明》一书的作者),以及所有过去的所有证明先驱,他们都使我们的生活在最好的方面变得更加可预测。这就是我们本周的时间,但请继续将您的问题和评论发送到[email protected]。我们下周再见,在那之前,再见。