We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Story: briffa_sep98_e.pro - The File That Sparked a Storm

Story: briffa_sep98_e.pro - The File That Sparked a Storm

2025/4/2
logo of podcast CoRecursive: Coding Stories

CoRecursive: Coding Stories

AI Deep Dive Transcript
Topics
播音员(Adam Gordon-Bell):本期节目探讨了2009年发生的“气候门”事件,该事件的核心是一个名为briffa_sep98_e.pro的代码文件。该文件包含一些有争议的术语,如“人工修正”和“虚假因子”,引发了关于气候科学的争议和不信任。通过对泄露文件的分析,我试图揭示事件的真相,并探讨科学透明度的重要性。 首先,我介绍了“曲棍球杆图”及其争议。该图显示了全球气温在过去千年中的变化,其上升趋势引发了争议。一些人认为该图的数据被操纵以夸大全球变暖。 然后,我深入研究了briffa_sep98_e.pro文件。该文件包含IDL代码,其中包含“人工修正”和“虚假因子”等术语。这些术语引起了怀疑,但需要了解当时的背景才能理解其含义。 为了理解这些术语的含义,我解释了气候科学中使用的代理数据,如树木年轮、冰芯和珊瑚等。这些数据不完整、嘈杂且存在误差,需要进行数据预处理才能进行气候重建。主成分分析(PCA)用于处理气候代理数据,减少数据维度并提取主要模式。 我解释了“迈克的自然技巧”和“隐藏下降”这两个有争议的短语。“迈克的自然技巧”指的是将模型预测和实测温度数据结合在一个图表中,这并非欺诈行为。“隐藏下降”指的是在图表中省略不可靠的树木年轮数据,这并非为了掩盖全球变冷的趋势,而是因为树木年轮数据在1960年后与温度数据出现偏差,这被称为“发散问题”。 通过对代码和数据的分析,我发现“人工修正”和“虚假因子”是为了处理树木年轮数据与温度数据之间的偏差,并非为了伪造数据。“发散问题”是已知的,并且在1998年发表的论文中有所讨论。briffa_sep98_e.pro文件并非用于发表论文,而实际使用的代码使用了不同的方法处理数据。“气候门”事件的核心结论并不依赖于泄露的文件和代码。 泄露文件的攻击者和传播故事的博客作者没有对气候研究中心的工作进行彻底的审查,而是断章取义地利用了代码片段。“气候门”事件与阿尔茨海默病研究中的欺诈案例不同,“气候门”事件更多的是对科学讨论和代码的误解和利用。 Harry的个人日志揭示了数据处理的挑战和科学家面临的压力。“气候门”事件的真正故事可能是关于数据处理的挑战和科学家面临的压力,而不是阴谋或欺诈。“气候门”事件的调查结果表明没有欺诈行为,但突显了科学透明度的重要性。为了提高科学的透明度和信任度,科学数据和代码应该公开和易于访问。“气候门”事件说明了气候科学的复杂性和数据科学的相似之处。

Deep Dive

Shownotes Transcript

2013年,雅典,玛丽亚坐在一家咖啡馆里。她32岁,失业三年了。像许多希腊人一样,她感到被困住了。每个月都比上一个月更艰难。报纸喋喋不休地谈论着紧缩政策。有削减开支,有裁员,有养老金被削减。生活正向她逼近。然而,那天早上,她看到了一条不同寻常的新闻标题。这是一个来自大洋彼岸的奇怪故事,关于两位哈佛经济学家,

卡门·赖特哈特和肯尼斯·罗格夫。他们2010年的论文声称,当一个国家的债务超过其GDP的90%时,经济增长就会受到影响。这一观点成为全球范围内紧缩政策(包括对希腊实施的紧缩政策)的主要原因。但玛丽亚读到的新闻文章是一个更新。一位研究生,

和他的教授们发现赖特哈特和罗格夫的分析中存在一个严重的错误,一个简单的电子表格错误。一个计算错误的公式遗漏了重要的数据,导致了事实上的不准确。与原始论文声称的债务超过GDP的90%时经济萎缩相反,修正后的数据显示平均增长率约为2%。

这不仅仅是一个学术上的失误。它带来了现实世界的影响。各国政府被有缺陷的研究(他们只是没有选择所有行)所误导,推出了紧缩措施。正因为如此,经济长期衰退。失业率飙升。社会动荡。在希腊,这是一个国家危机。失业率超过27%。公共服务崩溃。像玛丽亚这样的人的生活陷入混乱。

令人不安的是,一个简单的电子表格错误,一个编码错误,竟然可以左右全球经济政策,可以改变数百万人的生活。玛丽亚的故事实际上是虚构的,只是一个构想,但受此错误影响的人却是真实的。这让你不禁想知道,还有哪些我们看不到的错误或代码中无意的偏差正在悄悄地塑造着我们的世界?当这些代码被推到聚光灯下时会发生什么?

欢迎收听《代码重演》。我是亚当·戈登-贝尔。今天,我们将探索那些默默塑造我们周围世界的隐形代码。大多数人根本不会考虑到的代码。举个例子。我妈妈不拥有电脑,除非你把她的翻盖手机也算上。她离硅谷兄弟的刻板印象相差甚远。但她曾经在大学里编写过代码。她写了很多代码。

她学习心理测量学,测量智力和认知能力。那时,撰写她的研究报告意味着运行统计计算,这意味着在打孔卡上编写程序并将它们提交给批处理处理器来计算相关性。世界上许多最重要的代码都是这样的,或者像那个GDP电子表格一样。

它只是一些简单的计算,隐藏在学术界的某个地方,放在合著者机器上,只有在需要重新生成图表或需要调整常量或有人请求时才会调出来。它是隐形代码,但它很强大。它影响着政策。通常情况下,这种隐藏的代码直到出现问题或直到一句脱离上下文的代码被推到聚光灯下才会被注意到。这就是今天故事的主题。

一个不仅仅关于科学数据的故事情节。一个关于数据分析的人性化一面以及从事数据分析的人所面临的压力的故事。我说的是气候门事件。有人记得气候门事件吗?它在2009年、2010年,大约15年前曾经占据新闻头条。我依稀记得这是一件非常大的事情。

我记得一些关于泄露的电子邮件和气候变化的事情。那是我过去发生的一起丑闻。如果我仔细想想,我记得听说科学家们被当场抓住篡改数据,使全球变暖看起来比实际情况更糟糕。他们应该是真理的寻求者,但他们却扭曲数字以符合他们的议程。我认为这是一次黑客攻击或泄密事件。至少这是我的记忆。

但后来我调查了一下,我意识到这一切都归结于一个单一的文件,一段单一的代码。那就是briffa_sep98_e.pro。朗朗上口,不是吗?气候门事件就像那个电子表格错误,但规模更大,因为它改变了人们对科学家的看法。它引发了一些人,也许是许多人对科学的不信任。这种趋势今天仍在继续。但事情是这样的,我们可以自己找到真相。

今天,我将下载实际泄露的气候门文件,打开有争议的代码,并逐步深入研究它,所有这一切都是为了回答一个大问题。气候门事件是科学欺诈的证据吗?还是完全不同的东西?为了回答这个问题,我们将进行一些绕路。我们将探索名称神秘的奇怪文件,破译像IDL这样的晦涩的编程语言,

冒险进入像阿尔茨海默病研究丑闻这样的无关丑闻,有时你可能会觉得我迷失在细节中,但相信我,我们一直在追求同一个目标:揭开气候门事件中究竟发生了什么。因为我认为这很重要。因为我认为我们生活在一个科学本身越来越受到攻击的世界里,在那里,错误信息传播的速度比实际解释更快,对专家的信任极其脆弱。

因此,无论我们发现什么,仔细调查本身就是一项基本技能。当感觉真相的利害关系从未如此之高时,它将帮助我们弄清楚该信任什么和谁。这一切都始于2009年11月17日。英格兰诺里奇东安格利亚大学气候研究中心出现问题,诺里奇是一个大约有15万人口的城市。

一台备份服务器保存了多年的电子邮件和研究数据遭到入侵。大学称这是一次复杂而精心策划的攻击。1.6亿字节的数据被复制,包括电子邮件、文件、代码,所有的一切。然后网络上出现了一些窃窃私语,以及对“真实气候”网站的奇怪上传。然后是暗示秘密的匿名帖子,暗示气候科学太重要了,不能被掩盖。

到11月19日,窃窃私语变成了怒吼。包含所有内容的存档文件被复制到互联网上,并迅速传播。突然之间,数千封私人电子邮件和文件出现在那里。气候变化否认博客对此大肆渲染,声称真相终于被揭露了。仅仅几天后,媒体报道了这个故事,新闻标题报道了关于正在酝酿的丑闻的泄露电子邮件,而这一切都发生在哥本哈根气候峰会几周前。

东安格利亚大学证实了这一入侵事件,警方也介入调查,全世界都在关注气候门事件的爆发。没有人知道全部影响是什么,但很明显,一件大事刚刚发生,气候科学界即将发生动荡。当这些文件首次泄露时,《每日电讯报》的詹姆斯·德林波尔报道说,全球变暖是基于一个巨大的谎言。现在我只想说,

我相信全球变暖,我相信这是人为造成的。我在这里的目的不是为否认科学的人提供平台,而是我想探索我们如何才能超越仅仅信任专家,如何才能自己去看待事物,如何才能运用我们自己的思想和努力来调查真相。这就是我找到这些泄露文件的原因。

我下载了它们。这是一个zip文件。F-O-I-A.zip。

它包含许多文件。它分为两个文件夹,文档和邮件。邮件文件夹包含11060个文本文件,文件名类似于125423285.txt。如果你打开它,它只是两个研究人员之间的一封纯文本电子邮件,通常是讨论他们正在研究的论文。我们故事的关键文件,briffa-sep98e.com。

位于名为Harris Tree的目录中的documents文件夹中。该文件被认为是引发争议并导致整个大学实验室接受英国下议院调查的罪魁祸首,导致了八项官方调查,以及《纽约时报》和《华盛顿邮报》的文章,声称气候科学家在撒谎,声称他们在隐瞒事情,声称世界实际上正在变冷。

它只是一个文件。它只是一个很小的文件。它有150行,结果是IDL,这是一种类似于MATLAB或NumPy的编程语言,但它是基于Fortran的。我想IDL主要用于科学中的数字运算和绘图。

它是强制性代码。就像设置这个变量,然后加载这个变量,循环遍历这些变量。而且它有大量的注释。尽管在IDL中,注释以分号开头,我觉得有点令人困惑,但我习惯了。无论如何,在这个文件中,在最顶部,在星号前后全部大写以将其设置为标题,它说应用非常人为的校正来减少下降。

人为校正。它就在代码中,距离文件顶部只有两行。然后是一系列值,这些值被标记为人为校正因子。这不是复杂的全球气候模型术语,对吧?这听起来像是他们只是在编造东西。但要了解为什么这种人为校正会引起人们的关注,

你需要了解当时的情况。20世纪90年代末和21世纪初发生了什么,以及关于曲棍球棒图的事情。在90年代后期,

气候科学家迈克尔·曼恩与其他人(雷蒙德·布拉德利、马尔科姆·休斯)一起介绍了曲棍球棒图。它显示了全球气温在1000年里保持稳定,然后在19世纪末和20世纪初急剧上升。想象一下,一根曲棍球棒平放在地上,然后突然在末端,球杆向上弯曲。这就是形状。那是温度,全球温度。

对于全球和西半球来说。该图不仅仅是科学琐事,对吧?它迅速进入公众视野。它成为气候变化紧迫性的简写。戈尔副总统举起了它。这是《难以忽视的真相》中的一个重要时刻。突然之间,这个图像,这个形状无处不在,成为这场危机的象征。

但这种力量使它成为目标。几乎立即,它就面临着激烈的审查。怀疑论者不仅质疑它,还攻击它,声称数据被操纵以夸大变暖。对他们来说,这不是揭露的科学,而是一种被伪造的政治武器,旨在实施严厉的政策。因此,当气候门事件爆发时,真正发生的事情是像人为校正和校正因子这样的短语出现在泄露的代码中,怀疑论者认为他们中了彩票。

他们有欺诈的证据。他们有证据表明他们不必担心。这是一个关键问题。曲棍球棒图是否真的受到了损害?有人是否歪曲了事实?还是这场争议更多的是关于误解?人们是否误解了科学过程?谢天谢地,我们有代码。现在,我只需要弄清楚IDL是如何工作的。我需要找到数据并了解这里发生了什么。

校正因子实际上非常简单。它是一系列从1400年到1992年的数字。它从零开始。因此,我们从1400年到1904年有一个零值。然后它下降到负30多岁。然后它一直飙升到50多岁,一直到70多岁。最后终于趋于平稳。我实际上无法弄清楚如何运行IDL。所以我做了任何开发人员都会做的事情。我只是把它转换成Python。

如果你绘制这些值,你会看到一条长长的平线,然后从1950年开始,就像曲棍球棒一样向上倾斜。这是一个急剧向上倾斜的刀片。但是,该代码不仅仅是绘制该校正因子。它读取气候数据并对其应用低通滤波器,基本上将其平滑,然后在其顶部应用该校正因子。

所以我做了同样的事情。我从1400年到现在编造了随机的气候数据,然后我应用了非常人为的校正。然后我可以绘制有校正和没有校正的图表。如果没有,它是一条非常直的线,但有了,它就变成了曲棍球棒。校正因子完全掩盖了真实数据。我可以理解为什么怀疑论者会担心。当这件事浮出水面时,著名的开源倡导者埃里克·S·雷蒙德,

写了《大教堂与集市》的那个人,也是一位著名的社会保守派,他也看到了这一点。他做了同样的过程,发现了一些相同的问题。这简直就是赤裸裸的数据篡改,简单明了。它抹平了20世纪30年代和40年代的高温,看看那些负系数,然后它添加了一个正乘数来创建一个戏剧性的曲棍球棒。这不仅仅是一把冒烟的枪,而是一门炮筒仍然很热的攻城炮。

埃里克·雷文斯,一位生动的博主,对吧?攻城炮,炮筒仍然很热。这是一个强大的意象。它来自一位软件专家。所以很难驳斥。他不仅仅是某个随机的互联网疯子。埃里克当时有一本畅销书。他是科技界受人尊敬的人物,他绝对了解代码。他对局势的生动描述帮助塑造了人们最初对代码的看法。

他认为这是一个错误级联。CRU 的人员用这个曲棍球棒校正因子操纵了气候数据,这导致许多人相信关于气候门事件的虚假说法。很快,全世界都相信了这个弥天大谎。直到这次泄密事件发生,欺骗行为才暴露出来。一些人声称气候变化是假的,而代码中的这个校正因子就是证据。当然,气候变化不是假的,但这并不意味着科学家们没有调整数字。

两者都可能是真的。那么到底发生了什么?对于任何好的调查,你都不能停留在符合叙述的第一条证据上。你必须继续挖掘,尤其是在指控如此严重的情况下。我挖得越深,就越经常看到另一个臭名昭著的短语,一个听起来像是直接承认的短语不断出现。隐藏下降。关于发表在《自然》杂志上的原始曲棍球棒图,泄露的电子邮件中谈到了迈克的自然技巧。

对于博主和主流媒体来说,这感觉像是一种认罪。一些人认为这次黑客攻击是内部人员所为。也许CRU的某个人受够了所有的谎言,所以他们泄露了这些数据。但在得出结论之前,我们需要了解这段代码的真正作用。你看,气候科学实际上相当复杂。你不能只阅读文件。你需要了解上下文。所以注意了,我们即将进行深入探讨。但坚持下去。我认为这是值得的。

好吧,想象一下,你的叔叔,凌晨2点,寻呼机响了。主要交易系统正在抛出错误。延迟正在飙升。你深入研究,但有些不对劲。你需要的详细性能日志,细粒度的资料,它们只追溯到六个小时。在此之前,你只有每日平均值,对调试这个峰值没有用。你可以看到系统现在运行异常。

但关键问题是,这个峰值是完全史无前例的,还是仅仅是星期二?那时批处理作业运行。然后它抛出一些这样的警报,你应该忽略它们。如果没有历史背景,如果没有那些旧的日志,你就是在盲目飞行,试图找出根本原因。气候科学就是这样,但系统是地球,而风险要高得多。

我们有关于地球气候的可靠详细数据。来自气象站、船舶和许多地方的温度读数,大约可以追溯到150年。这是仪器记录,它清楚地说明了地球的平均地表温度在过去一个世纪上升了大约1.5摄氏度。就像那个只有六个小时日志的生产系统一样。150年在气候方面只是一眨眼的功夫。

那么,这1.5度的变暖对地球来说是正常的,还是异常的?它是否超出了自然变异性?在19世纪后期之前,我们有一个巨大的盲点。我们就是不知道。因此,为了回答这个问题,科学家们需要成为数据侦探。他们需要找到方法来重建广泛测量之前的历史气候。

但这不像从档案中恢复日志。自然界不会保存干净、标准化的JSON文件。科学家们必须处理的数据是树木年轮的宽度、从格陵兰岛钻取的古代冰层的化学成分或珊瑚的骨骼。

甚至是在地下深处钻孔中发现的温度剖面。这些被称为气候替代指标,它们是不完美的,是嘈杂的,它们间接地测量气候。它们稀疏地分布在地球各地,有时会记录温度以外的事物。而且它们有缺口,并且采用完全不同的格式。将地球的气候历史从支离破碎和混乱的数据中拼凑起来是一个巨大的挑战。气候科学实际上很像数据考古学。

你正在使用复杂的统计模型和一个费力的过程来尝试弄清楚你正在组装的图片是否是一个准确的表示,使用所有这些替代数据。所以让我们来看看一些主要类型的数据。这实际上是了解该文件中发生的事情的唯一方法。最著名的温度替代指标是树木年轮。这对于这个故事至关重要,因为这实际上是CRU关注的重点。

树木每年都会生长一层新的树皮,这层树皮的厚度或密度通常取决于生长季节的条件。也许是夏天有多热,或者下了多少雨。所以你找到一些非常古老的树木,然后钻出一个核心,然后数着年轮追溯到过去,测量它们的特性。听起来很简单,但实际上很混乱。树木只生长在全球的中纬度地区,你不会在海洋或南极洲找到任何树木。

即使在它们生长的地方,影响它们的也不仅仅是气候。年轻的树木生长得更快。树木会生病。也许附近的一棵树倒了,给了你正在测量的树木更多的阳光。这就像一个性能指标,受到你没有跟踪的随机GC暂停或网络故障或可用工作量以及其他一百万个因素的影响。但实际上有这么多树木,

所以你会得到大量的数据,希望通过这么多数据,个体噪声可以抵消,你可以找到信号,即一个地区树木的总体增长率,年复一年,追溯到这些树木的生长年代。实际上,甚至更远,我们将会讨论到这一点。接下来是冰芯。你深入格陵兰岛、南极洲或高山冰川的冰盖深处钻探。

你可以获得大量数据,因为随着积雪年复一年地降落并压缩成冰,它会捕获来自特定年份的大气微小气泡。科学家可以测量数百或数千年前的二氧化碳浓度。冰芯是我们知道当今二氧化碳水平前所未有的方式。

冰本身,冻结的水分子,也包含线索。重氧同位素与轻氧同位素的比率会根据积雪最初形成时的温度而变化。所以这是一个替代指标。但它并不完美。同位素比率可能会被积雪的来源所影响。

不仅仅是当地温度。你钻探得越深,冰层压缩得就越紧密。因此,每年的分辨率变得越来越模糊。这就像一个日志文件,其中较旧的条目被积极压缩。

对于海洋,尤其是在热带地区,科学家们研究珊瑚。珊瑚用钙建造骨骼,它们每年都会添加一层,有点像树木年轮。因此,珊瑚为我们提供了这些宝贵的数据,这些数据是我们从树木不生长的广阔海洋区域缺失的。

然后还有其他类型的替代指标。每年冲入湖泊的沉积物层可以告诉你融雪的水平。你可以用它来推断温度。化石和深海泥土提供了数千年来温度的线索,尽管在年份方面通常非常模糊。你甚至可以测量钻入地壳深处的钻孔中的温度。我不完全明白那一个是如何工作的。

但关键是,你拥有所有这些不同类型的替代指标。树木年轮测量北美的夏季温度。珊瑚骨骼记录热带太平洋的海面温度。冰芯记录极地温度。湖泊泥土会告诉你春季融雪的情况。

因此,它们都在记录关于气候的一些信息,但它们都是间接的,而且都是嘈杂的。它们都有不同的时间分辨率,有些是每年的,有些是跨越几十年,有些是跨越几个世纪。而且年代测定并不总是完美的。有人正在手工拼凑这些数据。此外,它们都覆盖了地球的不同部分和不同的季节。有些突然停止。有些最终会出现奇怪的故障。那么,你如何利用这种混合的、分散的、不完美的数据

数据并将其转化为随时间推移的气候清晰图像?你如何将来自如此不同的系统的数据(这些系统几乎没有记录,有时是可靠的)整合在一起,并从中获得对系统过去(地球的过去)的可靠看法?你必须克服的第一个问题是不均匀的数据分布。

你可能有数百个来自北美的树木年轮记录,但只有少数来自北极的关键冰芯记录,以及少数来自热带的珊瑚记录。所以你选择一年,你从不同的替代指标和地点获得了数百个值。

但大部分是树木年轮。如果你只是将所有这些原始数据放入模型中,树木年轮将占据主导地位,使结果偏向于仅反映中纬度森林,而忽略所有这些重要的极地和海洋数据。对于全球温度视图来说,这并不理想。因此,在我们构建模型之前,我们需要预处理数据。我们必须将这种混乱的原始替代测量混合物转化为更小、更结构化和更具代表性的特征集。

我们使用主成分分析来做到这一点。它的工作原理如下。再次想象一下,你正在监控大规模的微服务部署。你拥有数百个,也许是数千个指标流入CPU负载、内存使用情况、请求延迟、错误计数、数据库连接。对于每个单独的服务实例,

所以在某一时刻,你捕获了一个快照。你从你的Web层获得了500个CPU指标。你从你的数据库集群获得了10个延迟指标,从你的身份验证服务获得了5个错误率指标。所以你有515个数字来描述你系统在特定时刻的状态。但是查看所有这500个原始数字既令人不知所措,也没有帮助。而且这500个CPU指标中的许多可能都在告诉你完全相同的事情。

如果集群负载过重,大多数这些CPU都将很高。换句话说,它们都是高度相关的变量。你并不一定关心CPU 101和CPU 102之间的微小差异。你关心的是Web层负载的整体模式。

因此,主成分分析(PCA)是一种算法,它可以发现你的一系列指标中的这些模式或主题。它会扫描所有500个CPU指标并说,最大的变化在这里。主要信号是整个组通常是高还是低。我们将称之为PC1,Web层的第一个主成分。

它可能会捕获另一个模式,例如前端服务器繁忙,但后端服务器空闲,作为第二个主成分PC2。PCA创建这些新的合成变量,主成分,每个都由底层组件的混合组成。

主成分分析的妙处在于它无需了解是什么就能找出模式。这是一种无监督学习方法,可以从数据中提取相关信息。至关重要的是,这些主成分按它们解释原始数据中总信息的多少来排序。每个主成分与最后一个主成分都不相关。

所以回到气候数据。对于给定的一年,你拥有这500个树木年轮测量值以及一些冰芯和珊瑚值。与其将所有500个嘈杂的相关树木年轮值放入主模型中,不如先提取主成分。PCA 发现整个网络中树木生长的主要共享模式。前几个主成分可能会捕获80%或90%的有意义的变化。

第一个成分可以从字面上代表该季节的总体良好生长条件,而第100个成分可能只反映北美某个非常小的区域的降雨量。PCA允许你关注树木生长中的一致性大模式,消除单个树木的噪声。

因此,PCA不会从我们的树木年轮中为我们提供最终的温度图。相反,它为我们提供了一个简洁、简化的数据集。为我们提供了几个数据点来查看。妙处在于,所有这些都在数据泄露中。虽然许多气候模型将各种指标混合在一起以获得最高的准确性,但我们的BRIFA文件仅基于树木年轮数据。

如果你四处查看,找到PCA文件并不太难。它位于documents Osborne tree six中的一个以PCA开头的文件中。它是另一个IDL文件。但是,准备用于主成分分析的数据也不是一件容易的事,因为还有一个文件documents Osborne tree six RD all MDX one.pro做了很多繁重的工作来处理这些原始数据。

不过,所有这些都在这里很好。现在我开始了解IDL以及这些气候模型的工作原理,我可以查看这些文件并了解它们在做什么。因此,现在我们已经获得了每年的改进的替代特征,我们可以专注于校准。校准取决于我们拥有实际温度读数的时间与我们拥有树芯测量值的时间之间的重叠。

在我们的数据中,这个重叠时期是从1856年到1990年。那时我们的树木年轮与温度数据重叠。虽然这并不完全正确,你将在我们继续的过程中看到原因。但是,是的,那就是我们同时拥有处理后的替代特征和可靠温度计温度的时期。这种重叠是我们气候模型的真实情况。

我们正在构建一个统计模型,以将我们替代特征中的模式与来自这个重叠时期的已知温度记录中的模式联系起来。把它想象成训练一个机器学习模型。

我的意思是,在这种情况下,它实际上不是一个机器学习模型。它更简单的统计。这个想法是一样的。你将处理后的替代特征作为输入,将仪器温度作为已知输出。该算法计算出复杂的相关性和权重,基本上是从这些输入到该时间段的输出温度的最佳方法。在我们的数据泄露中,此过程与主成分分析一起完成。

伊恩·哈里斯(在泄密事件中被称为哈里)检查了提取的主成分与降雨记录是否一致。降雨是我们拥有记录的最强非温度信号。这使他能够提取温度成分,即非降雨成分,然后将其用于问题 briffa98 文件中的图表。现在有趣的地方来了。我觉得这是怀疑论者忽略的部分。

哈里使用重叠数据校准了他的统计模型,而 PCA 帮助他提取了信号。因此,当您只向训练好的模型提供温度计出现之前的代理数据(例如公元 1000 年到我们测量区域开始的时间)时,该模型利用其在校准过程中学习到的关系,给出这些年份温度的最佳估计值。

就这样,您得到了一条延伸至几个世纪的曲线,显示了过去温度的估计涨落。您可能会像我一样问,而且我不得不研究这个问题,您怎么能得到追溯到公元 1000 年的树木年轮呢?好吧,这个树木年轮数据集是 MXD 数据集

它实际上使用了活的、非常古老的树木,也使用了可以精确测年的死树。它们可以通过与活树的相关性来精确测年。这更像是侦探工作,但基本上可以找到高海拔、非常古老的枯木,并且可以精确测年。但是,构建和运行算法只是开始。下一个问题是,这有效吗?

这种重建是否可靠,或者我们只是创造了一种复杂的统计幻觉?这就是验证步骤的用武之地。验证步骤使用留出验证。还记得我们同时拥有代理数据和温度计读数的重叠时期吗?与其使用所有这些数据来训练统计模型,不如故意保留一部分温度计数据,然后您可以根据这些数据进行测试,看看您的模型是否有效。

如果重建能够成功预测您保留的时期内的温度,那么它会增强您对其学习到的关系是真实的信心。这就像在机器学习中使用单独的验证数据集一样。模型验证是关键。在这个数据泄露中,我们有很多文件,calpr、bantemp.pro、calibratebantemp.pro 等等。泄露的许多文件都旨在验证数据。

实际上,正是在这个验证步骤中,我们找到了“隐藏下降”的答案。这个有争议的短语导致了气候科学家隐瞒真相的报道。但在我们深入研究这些电子邮件以及“隐藏下降”是什么意思之前,还有一个层面需要考虑。因为过去的气候数据不仅仅是确定单一的全球温度。

这是一个复杂的网络。地球的气候不是一个缓慢上升或下降的简单恒温器。它是一个混沌系统,在多个时间尺度上波动,所有这些时间尺度都相互叠加。

您会遇到厄尔尼诺和拉尼娜等事件,这些事件每隔几年就会出现一次,它们会使太平洋的大部分地区变暖或变冷,并扰乱世界各地的天气模式。您会遇到大型火山喷发,它们会将气溶胶送入大气层,这些粒子会反射阳光,并在一年或两年内导致全球变冷。这只是其中两个起作用的时间尺度。还有更多。气候科学家面临的巨大挑战是将所有这些重叠的信号分开。

这比仅仅是全球年平均温度复杂得多。但是,好吧,我们已经回到了原点。希望您能看完我的所有背景介绍。考虑到所有这些代理数据、所有这些代理以及所有这些数据复杂性,让我们来解决这些臭名昭著的短语。让我们把它们分解一下。

首先,让我们分解一下迈克的“自然技巧”。这引发了巨大的争议,对吧?迈克·曼恩发表的内容不正确吗?他在隐瞒事情吗?然后我们将讨论“隐藏下降”,这个所谓的“关键证据”导致美国广播公司、加拿大广播公司、《纽约时报》和《华盛顿邮报》都指责气候科学家误导公众。

但是,首先,迈克的“自然技巧”。迈克·曼恩是标志性气候变化图表背后的男人。他就是最初的“曲棍球杆”图的幕后推手,也就是阿尔·戈尔在《难以忽视的真相》中使用的那个图。虽然迈克的“自然技巧”听起来像是间谍小说中的情节,但它与秘密操纵无关。它关乎将所有这些复杂的数据转换成一个简单的图表。

迈克有来自气候模型的这些预测,对吧?代理数据及其含义。他还拥有真实的温度数据,即温度计读数,这些数据很简单,不需要任何疯狂的统计数据。您只需检查温度计即可。他的技巧是将这两种类型的数据放在一张图表上。

迈克使用了两条单独的线,一条用于从 1860 年至今的实际测量温度,另一条用于远溯至过去时间的代理温度,他还为此添加了误差线。迈克的技巧是将两组数据放在一张图表上。代理数据很复杂,但如果没有真实的温度数据(像曲棍球杆的刀片一样向上猛增),它就不会有冲击力。

问题是,刀片从未受到质疑。它只是年平均温度。任何气象站都可以告诉你这一点。现在,气候研究中心的那些人做了一个有些故意误导的选择。他们没有使用两条单独的线,而是将它们组合成一条线。仪器数据和预测数据。现在,气候学家会明白,当这条线到达现代时期并且误差线变为零时,它显示的是真实数据而不是预测。

但并非每个人都能理解这一点。所以这有点误导性,但没有撒谎。但真正令人震惊的是,真正让大家不安的是那些说“隐藏下降”的电子邮件。你知道,你会遇到寒冷的冬天或暴风雪,政客们会试图用雪球来对全球变暖投下怀疑的目光。全球变暖在哪里?所以当有人说“隐藏下降”时,他们就像,是的,是的。

我知道了。他们隐瞒了实际上正在变冷的事实。但正如我所说,很容易验证世界并没有变冷。世界实际上正在变暖。1999 年(这些数据来自这一年)是有记录以来最热的一年。所以事情是这样的。“隐藏下降”与掩盖全球气温下降无关。它关乎一个决定,即要排除不可靠的 20 世纪 60 年代后的数据。

你看,几个世纪以来,树木年轮数据与温度非常吻合。温暖的条件意味着在生长季节后期会形成更密集的木材。但大约在 20 世纪 60 年代,这种关系破裂了。

这被称为“差异问题”,但这似乎是一个真正的问题。我们有这些温度数据,这些树木年轮数据被用作代理来向后预测并告知一千年前的温度,但它甚至在已知时期(例如 1960 年至今)都不起作用。如果这些代理似乎有缺陷,那么我们过去的重建有多可靠呢?而且一个

事情是这样的。我实际上找到了答案。我,只是下载了这个数据泄露并开始仔细检查并阅读一两本书以补充一些信息的人。我弄明白了。这对我来说非常令人兴奋。这涉及阅读大量的 IDL 代码。但首先,在我分享我的发现之前,我想说,你知道,质疑这些数据,仔细查看这段代码,即使我认为气候变化是既定事实,

这仍然是一件好事。检查他们的工作并非反科学。批判性审查,我想要更仔细地观察的那种冲动,是一件至关重要的事情,即使它让人不舒服。没有哪个领域能够免受不良意图的影响。有时,即使是基础性工作也值得再次审视。有人需要检查它。而一个重要的提醒是,在一个完全不同的领域——阿尔茨海默病研究中,正在进行一项重大调查。

在我告诉你我在数据中发现了什么之前,让我告诉你关于阿尔茨海默病研究的事情。在该研究中,几十年来占主导地位的理论是淀粉样蛋白假说。这是指大脑中这种粘性的β淀粉样蛋白斑块是导致这种疾病的原因。

2006 年,Sylvain Lesny 和他的团队在《自然》杂志上发表了一篇论文,似乎支持淀粉样蛋白假说。他们鉴定了这种蛋白质 A-β-星-56,并认为它会导致大鼠出现记忆问题。这篇论文成为基石。它被引用了数千次。最终,它将数十亿美元的研究资金和药物开发导向了淀粉样蛋白。

靶向这些淀粉样蛋白斑块。但多年来,事情并没有完全符合预期。顶级阿尔茨海默病实验室试图复制他的发现,但往往无法始终如一地做到这一点。这是一个很大的警告信号。但一些实验室设法复制了结果,然后它们导致了更多研究。然后是基于这些发现的药物开发。然后是 Matthew Skrag 的出现。他并没有翻阅电子邮件或私人信息。他并没有像我一样试图阅读 IDL 文件。

他专注于科学。他仔细审查了阿尔茨海默病研究中发表的论文,并发现了一些异常现象,尤其是在图像中,包括论文。它始于一些分支论文,但越挖越深,就越能追溯到 Lesney 2006 年在《自然》杂志上发表的论文。基本上,他能够判断这些图像是经过照片处理的。

有人使用了克隆工具,您可以看到背景或线条不匹配,显得过于干净。这不仅仅是他发布在他博客上的在线讨论。不,他是一位主要的调查员,他领导了一项在 2022 年《科学》杂志上发布的重大调查。这不仅仅是误解的术语或内部辩论。在这种情况下,实际上是同行评审研究中视觉证据的完整性。

它造成了巨大的影响。影响实际上仍在持续。Lesney 的大学启动了一项调查。《自然》杂志对原始论文发布了一份谨慎的编辑说明。所有这些事情感觉都相当温和,但现在已知的是,这些结果站不住脚。这是欺诈行为。撤稿的过程混乱而缓慢,因为没有人愿意承认自己一直在追逐谎言。这对该领域造成了巨大的损害。

但也存在科学自我纠正的机会。科学家是人,对吧?有些人会作弊。

Skrag 的调查显示了真正的错误级联的危险。2006 年的论文不仅仅是一项研究,对吧?它是一个基础。数千项研究都建立在其之上。数十亿美元的资金紧随其后。患者服用基于错误研究的药物,这些药物价格昂贵,并且有副作用,甚至导致死亡。

最终未能治愈或帮助阿尔茨海默病的药物。整个领域将资源投入到一条无果而终的道路上,这一切都源于一项关键研究中的一些欺诈行为。我只是提到这一点,因为这项调查提醒我们,怀疑主义至关重要。质疑这些发现,即使是具有影响力的发现,也是至关重要的。这种深入挖掘的冲动是合理的。

这就是为什么我认为我需要将这种怀疑精神应用于“气候门”事件以及 Brifa CEP98_E 配置文件。但是,是的,我认为我们现在可以理解该文件中发生的事情。引起如此轰动的令人震惊的评论应用了一种非常人为的校正来修正下降,然后是伪造因子数组。我们现在可以解释它们是什么。乍一看,

你知道,像埃里克·格雷厄姆这样的怀疑论者说这是一个攻城炮。它看起来非常具有破坏性。它看起来像是操纵数据以强制形成曲棍球杆形状的明确证据。但现在我们知道下降与全球气温下降无关。它关乎某些代理(例如树木年轮数据)不再是可靠的指标。这就是我所知道的方式。这就是我发现的。还记得我提到的那些校准文件吗,例如 Calibrate BandTempPro.com?

它们非常重要。当您运行整个过程(PCA、相关性,然后在此树木年轮数据上进行验证)时,得出的预测非常嘈杂。数据中有一些东西,尤其是在重叠时期,会导致噪声并使预测不准确。因此,哈里或团队或其他人,在深入研究数据后,问题变得清晰起来。

20 世纪 60 年代后的树木数据。几个世纪以来,这些年轮与温度读数相匹配。夏季越温暖,年轮越密集,但在 20 世纪 60 年代之后,这种联系就破裂了。温度计显示温度升高,但年轮表明温度下降。某些东西发生了变化。

地球上树木的生长方式发生了变化。可能是全球变暖导致的额外二氧化碳。也许树木永远不会以同样的方式生长。可能是污染,可能是化学物质。我们不知道。但树木与预测不符。但他们找到了一种克服这个问题的方法。他们将通过关注 20 世纪 60 年代之前的数据来跳过 20 世纪 60 年代后的数据进行主成分分析

他们可以更好地提取信号。如果他们删除 20 世纪 60 年代的数据,他们可以更好地估计向后发展的温度。因此,这使他们能够更好地向后预测。但这导致了一个问题,对吧?当他们将这些数据向前馈送到 20 世纪 60 年代之后时,该模型预测温度会下降。因此,如果 1972 年的全球气温为 14 度,则该模型会说 12 度。

他们找到了一种方法来构建一个模型,该模型可以很好地预测过去的温度,但在世界变暖时却显示出下降。这就是差异,对吧?这就是 20 世纪 60 年代后特定代理数据失败的原因。这就是他们隐藏的下降。它发生偏差的原因是他们构建的模型忽略了 20 世纪 60 年代后发生的变化。

它实际上都在泄露中。如果您查看校准尝试,您可以发现它们正在执行这些操作。他们使用 1911 年至 1960 年的数据来构建模型,然后使用 1856 年至 1910 年的数据对其进行向后校准。这比使用 1911 年至今的数据效果更好。这不是秘密。他们实际上在 1998 年的《自然》杂志上发表了一篇关于差异问题的论文。这是一个已知问题。

但对我来说,令人着迷的是,您可以深入研究代码,并了解他们是如何推导出这一点的。它并没有解释清楚所有事情,对吧?正如我所说,当一种关键的代理方法出现问题时,正如我们拥有更好的工具来检查它一样,它确实会引发关于该方法可靠性的真正问题。但这里的难题只是关于这种特定代理的局限性。它与谎言无关。

然后进一步说,如果我们查看我们的文件,我们的 briffa-sep98-e,文件名说明了一切。下划线 e 实际上是某种老式的版本控制。实际上也有 a 到 d。这些都可以在名为 Harris Tree 的个人文件夹中找到,该文件夹属于程序员伊恩·哈里·哈里斯。而那个伪造因子,那些看起来像曲棍球杆图表的硬编码数字,

在差异问题的背景下,这是非常清楚的。这实际上是哈里手动混合仪器数据,即真实世界的温度数据。正如我所说,理想情况下,您应该将它们显示为两条单独的线。哈里只是试图手动将仪器数据添加到他的图表中。但真正令人震惊的是,这并不是用于论文的代码。

在链接的文件中,还有一个完全不同的目录,其中包含实际发布的数据。有 briffa-sep98-decline1 和 decline2。这些文件非常相似,但它们以不同的方式解决了差异问题。它们没有硬编码的伪造因子。他们没有提到人为下降。相反,他们从文件中读取实际的仪器数据。没有伪造因子。只是读取温度。

并将其添加到图表中。后来使用的实际方法只是使用来自真实公共来源的温度数据。因此,科学家们为了伪造变暖而故意编造数字的核心指控,当您实际查看这些文件是什么时,就站不住脚了。同样重要的是要放大并记住这个数据集是什么。这是气候研究中心高纬度树木年轮密度数据。

这是存在差异问题的数据。它只是气候科学浩瀚图景中的一条线索。地球正在变暖以及人类是主要原因的总体结论并不依赖于此文件,实际上也不依赖于此泄密事件。它来自世界各地各种科学家收集和分析的许多独立证据线的汇聚。

事实上,阿尔·戈尔使用的图表是基于冰芯样本,根本不是这个数据。所以这里没有错误级联。气候研究中心的数据很重要,尤其是在重建过去一千年北半球陆地温度的详细温度图方面。但这只是故事的一部分。泄露这些文件并传播该故事的攻击者并没有真正彻底审查气候研究中心的工作。也许这并不奇怪。

他们可能只是对“技巧”、“隐藏”或“人为”等术语进行了关键词搜索。在这个大量的电子邮件和文件中,他们在一个从未用于已发表论文的文件中找到了一些引人注目的片段。他们断章取义,声称他们发现了谎言,并发现了阴谋。

这就是阿尔茨海默病的故事与众不同的地方,对吧?马修·施拉格并没有筛选被盗的电子邮件以寻找污点。他正在仔细地逐一检查已发表的科学证据。他通过复杂的视觉分析质疑其完整性。这是针对科学本身的怀疑主义,导致该领域的潜在修正。事实上,他这样做是因为他想让该领域重回正轨。

“气候门”事件是由一个特定的代码文件驱动的。它使用了断章取义的闲聊。它使用了实验性代码来攻击科学家并播下怀疑的种子,而不是参与已发表作品的全部内容。事实上,所有这一切都发生在哥本哈根气候变化大会之前。因此,有一些非常强烈的暗示表明这里存在政治议程。找到一个谎言,然后你就可以说他们在所有事情上都在撒谎。

但这里有趣的部分来了。也许“气候门”文件中的真实故事根本与阴谋或欺诈无关。也许它与更平凡的事情有关,但我认为它非常重要。一个程序员试图理解混乱的科学数据的乏味而令人沮丧的现实。

因为伊恩·哈里·哈里斯,气候研究中心的程序员,他的名字在这个文件夹 Harris Tree 中,在泄露中还有一个文件,一个长达 15000 行的大型文本文件,名为 harryreadme.txt。它基本上是哈里多年来的个人日志,记录了他日常为维护、更新和调试这些气候数据集以及处理这些数据集所用代码而进行的斗争。

阅读它就像,如果你曾经处理过遗留代码库,或者你曾经尝试过整合来自数十个不同不一致来源的数据,我认为你会对哈里产生深深的同情。哈里并没有写关于大阴谋的事情。他写的是数据整理的枯燥工作以及软件考古学的挑战。他写到一个澳大利亚数据集是一个完全混乱的数据集,引入了如此多的站点,以至于他无法跟踪它。

他经常抱怨蒂姆和蒂姆的代码。我认为蒂姆是比他更早的人,并没有充分记录他所做的事情。有时他只是写道,“哦,去死吧”,全部大写。就像,“哦,去死吧”,是星期天晚上,我整个周末都在工作。就在我认为它完成的时候,我又遇到了另一个问题。这是我们数据库的绝望状态。没有数据完整性。这只是一个不断增长的问题的目录。阅读哈里的日志,

你不会看到这个狡猾的操纵者试图隐藏令人不安的事实。你看到的只是一个工作过度的程序员,可能资源不足,正在努力应对共同点

具有复杂、混乱的现实世界数据和不完善的遗留代码。他只是尽力理解这一切。他正在处理不一致的格式。他正在处理缺失值、未记录的更改。这正是数据科学家和遗留软件工程师每天都在处理的事情。

他留下所有这些令人沮丧的评论,它们听起来不像是在承认欺诈,而更像是那些深陷于气候变化艰难工作中的某人的略带愤世嫉俗的评论。

也许这就是“气候门”事件的真实故事。它不是科学丑闻,而是一场人为的丑闻。一个关于将嘈杂的观察结果转化为科学理解所需的巨大且往往不可见的技术劳动的故事。以及那些负责这项工作的人所面临的压力,他们往往得不到认可,甚至得不到他们所需的资源。然后在所有这些之后,他们受到攻击,他们的私人工作文件成为美国广播公司的热门话题。

那么这一切给我们留下了什么?在所有的喧嚣、愤怒、调查和指控之后,我的意思是,“气候门”事件真正揭示了什么?起初,媒体抓住这个想法不放,认为这是一个关键证据。没有人想处理全球变暖。我的意思是,现在仍然没有人想处理它。阿尔·戈尔称之为“难以忽视的真相”。所以有希望。

人们希望这一切都是一个错误或欺诈,人们也这么认为。泄露事件发生后几周,报纸都在刊登有关欺骗的报道。调查进展要慢得多。有八项官方调查。是的,八项。所有调查都得出了相同的结论。没有欺诈。没有科学不端行为。气候科学的核心发现依然坚挺。“曲棍球杆”图显示

可以就其一些统计细节进行辩论。您可以争论其中一些代理的局限性,但它得到了许多其他使用不同方法和不同数据的研究所支持。“技巧”不是欺骗,而只是一个图形选择。“隐藏下降”并不是隐藏全球降温趋势,而是关于处理一个已知问题。“气候门”事件

并非证明气候变化是骗局的证据。它更像是一个案例研究,说明内部科学讨论、非正式语言和实验性混乱代码在泄露到充满电荷的气候中时如何被扭曲,人们试图制造怀疑。如果我要从“气候门”事件中吸取教训,那就是关于科学透明性的必要性,尤其是像气候科学这样的事情。

如果从一开始所有原始数据、代码和统计方法都公开可用呢?如果它们一开始就公开可访问呢?我想象它们在 GitHub 上,随时可以供任何人运行和评论。实际上,由于所有这些原因,气候研究中心现在已根据开放政府许可证提供了仪器数据。虽然埃里克·雷蒙德对代码文件的最初看法引起了轩然大波,但他有一点是对的。

因为他要求他们开源数据。我觉得这是一个我可以同意的原则。气候科学,由于其全球性的影响和复杂性,应该尽可能地拥抱开源,拥抱开放获取。科学并不总是整洁的。这是一个充满辩论和混乱数据以及方法的人类过程。但是……

就像软件开发一样,当流程公开、数据共享、代码可供审查时,它会变得更强大、更健壮、更值得信赖。这就是我对整件事的看法。它不是关于揭露阴谋,而是关于公开进行科学研究的有力论据。我们生活在一个科学比以往任何时候都更受到攻击、资金不足、受到质疑和政治化的世界中。

我认为最好的防御方法是开放。这就是节目内容。有多少人坚持到了现在?我不知道。老实说,我开始深入研究这个“气候门”代码,随着我的深入,它变得越来越有趣,但我仍然不太确定它对其他人来说有多有趣。我还有一些有趣的切线不得不删掉,但我得出了一个重要的想法。气候科学有点意思。它有点像数据科学。

除了在气候科学中,您处理的是更混乱的数据,并且您通常必须自己收集和标记数据。但您可以与一个致力于共享知识的社区一起工作。“气候门”事件听起来像是关于全球变暖模型和政治的,但实际上它更多的是关于深入研究特定问题,例如特定数据集中沉积物的层次如何影响大西洋温度的反馈循环。

尽管哈里感到沮丧和愤世嫉俗,但这听起来实际上相当有趣。但是,是的,请告诉我您对这一集的看法。直到下次,非常感谢您的收听。