We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode #6 Philip Tetlock: How to See the Future

#6 Philip Tetlock: How to See the Future

2015/12/8
logo of podcast The Knowledge Project with Shane Parrish

The Knowledge Project with Shane Parrish

AI Deep Dive AI Chapters Transcript
People
P
Philip Tetlock
Topics
Philip Tetlock: 本书探讨了预测的艺术与科学,以及如何提高预测准确性。作者认为,每个人都在进行预测,因为任何决策都隐含着对结果的预期概率。通过“良好判断项目”,作者及其团队发现,通过将表现最好的预测者组成精英团队并提供支持,可以显著提高预测准确性。超级预测者的成功并非完全依赖运气,技能在其中起着重要作用,且他们表现出较低的回归均值现象。超级预测者的成功关键在于他们相信预测能力是可以培养的,并愿意为此付出努力。对不确定性的细致评估在现实世界中的决策中同样重要,并且可以通过训练提高预测准确性。针对认知偏差的简短培训可以显著提高预测准确性,关键在于结合外部视角和内部视角。追踪预测结果并进行计分对于提高预测能力至关重要,但这需要特定类型的人才能做到。组织中对预测结果的计分和评估常常面临来自地位等级和政治因素的阻力,使用模糊的语言可以避免预测失败带来的负面影响,这阻碍了组织改进决策的能力。组织机构难以改进决策能力,部分原因是地位等级和政治因素阻碍了对预测结果的客观评估,即使是经验丰富的预测者也可能忽视外部视角,导致对预测结果的错误评估,这强化了使用模糊语言的倾向。费米式思维方法,即分解复杂问题为可处理的子问题并进行估计,有助于提高预测准确性。费米式思维方法的有效性在于其系统性,以及参与者愿意分解问题并进行估计的意愿。在组织中建立超级预测团队需要谨慎考虑,避免造成负面影响。组织机构应考虑将部分资源用于纯粹追求预测准确性的实验,以改进决策过程。本研究成果可以应用于组织内部的决策过程,尤其是在整合不同观点方面。“良好判断项目”的成功部分归功于其统计聚合算法,该算法优于简单的平均值方法。该算法通过“极端化”策略,根据观点多样性调整预测结果,提高预测准确性。如果两个超级预测者对同一预测结果有很大分歧,则应谨慎对待。应该避免那些具有大量不可减少的不确定性的问题,例如轮盘赌式问题。一般来说,短期预测比长期预测更容易,但并非总是如此。早期研究中专家难以超越随机预测,部分原因是预测时间范围较长。

Deep Dive

Chapters
The episode introduces Philip Tetlock, a professor known for his work on prediction and the Good Judgment Project, discussing how we can enhance our forecasting skills.

Shownotes Transcript

在本期知识项目中,我与宾夕法尼亚大学教授、《纽约时报》畅销书作者菲利普·特洛克 (Philip Tetlock) 畅谈了如何提高预测未来的技巧和科学性。  升级为高级会员:会员可抢先体验、收听无广告剧集、获得人工编辑的文字稿、可搜索的文字稿、独家会员剧集等等。立即注册:https://fs.blog/membership/  每周日,我们的新闻通讯都会分享您可以运用到工作和生活中经久耐用的见解和理念。将其添加到您的收件箱:https://fs.blog/newsletter/  在 Twitter 上关注 Shane:https://twitter.com/ShaneAParrish </context> <raw_text>0 欢迎收听知识项目。我是您的主持人 Shane Parrish,Farnham Street 博客的编辑和首席策展人,该网站拥有超过 70,000 名读者,致力于掌握其他人已经弄清楚的最佳内容。知识项目使我能够采访来自世界各地的杰出人士,以剖析他们擅长做什么的原因。它更像是一场对话,而不是处方。知识项目

在本期节目中,我很高兴邀请到宾夕法尼亚大学教授菲利普·特洛克 (Philip Tetlock)。他是良好判断项目 (Good Judgment Project) 的联合负责人,这是一个多年的预测研究项目。他也是最近出版的《超级预测:预测的艺术与科学》一书的作者。我们如何才能更好地进行预测是本次访谈的主题。我们将深入探讨是什么使某些人变得更好,以及我们可以学习什么来提高我们猜测未来的能力。我希望您像我一样喜欢这次谈话。♪

谢谢。

宜家商业网络现已面向小型企业和企业家开放。立即免费加入,即可获得室内设计服务,帮助您充分利用您的工作空间,获得员工福利,帮助您和您的员工成长,以及在旅行、保险和宜家购买、送货等方面享受令人惊叹的折扣。今天免费注册宜家商业网络,将您的小型企业提升到一个新的水平,方法是搜索宜家商业网络。

我想谈谈您与丹·加德纳 (Dan Gardner) 合著的新书《超级预测:预测的艺术与科学》。

他和我一样,我认为仍然居住在渥太华。在书中,您说我们都是预测者。您能详细说明一下吗?嗯,生活中很难做出任何决定,无论是关于是否购买汽车或房屋的消费决定,还是关于与某个伴侣结婚的决定,潜在的伴侣,或者在选举中投票给某个候选人。在没有形成至少

关于该决定后果的隐含预期的情况下,很难做出任何决定。因此,每当您做出决定时,其中都会包含隐含的概率。所以问题就变成了,您是更好地使用您没有将其识别为概率的隐含概率,

还是显式的概率。我认为我们一直在进行的预测锦标赛的主要收获之一是,当人们做出明确的判断并且他们充分意识到自己在做什么时,他们可以学会做得更好。您说的是良好判断项目。您能否向我们介绍一下?

当然。良好判断项目是我们和我妻子芭芭拉·梅勒斯 (Barbara Mellors) 几年前启动的一个研究项目。它得到了美国情报界的一个研究与发展部门的支持,该部门被称为 IARPA(情报高级研究计划署),其模式类似于国防部的 DARPA。他们的任务是支持有可能彻底改变情报分析的研究。

因此,根据这一任务,他们于 2010 年决定支持一系列预测锦标赛,其中主要大学的研究人员将展开竞争,以生成与国家安全相关的未来可能性的准确概率估计。

我们是 2010 年比赛中被选中的五个团队之一。锦标赛从 2011 年持续到 2015 年。它们在今年 6 月结束。我很自豪地说,良好判断项目是这些预测锦标赛的获胜者。如果您愿意,我可以稍后解释赢得预测锦标赛意味着什么。恭喜。是的,当然。预测和预测之间有区别吗?

我看不出有什么区别。我认为如果您去查一下同义词词典,我们会发现它们是虚拟的同义词。有些人可能会试图区分这一点或那一点,但我认为它们本质上是毫无区别的区别。那么,您使用的是良好判断项目的代表性子集,还是使用该项目的超级预测者,或者您是如何参与竞争的?

嗯,不同的大学和不同的研究人员团队采用了不同的方法来生成准确的概率估计。我们招募了数千名预测者,

我们探索了许多不同的技术,以从这些预测者那里获得最佳的概率估计。我们一直在进行实验。我们进行的一个实验是确定每年表现最佳的人员,即每年表现最佳的 2% 的人员,将他们挑选出来组成团队,由超级预测者组成的精英团队,超级团队,

并为他们的任务提供尽可能多的支持,为他们的任务提供尽可能多的智力支持,看看会发生什么。他们真的全力以赴了。他们大大超过了所有对可能性的性能预期的上限。坦率地说,他们也肯定超出了我的预期。

因此,有些人擅长,有些人很差,有些人似乎在做出预测方面非常出色。为什么有些人这么好?这确实是价值 64,000 美元的问题。为什么有些人这么好?因此,怀疑论者认为,如果您抛掷足够多的硬币足够多次,其中一些硬币必然会正面朝上。因此,超级预测者只是超级幸运。因此,让我们将此视为默认的怀疑论假设。超级预测者没有什么特别之处。

如果我们进行一场锦标赛,其任务是预测一枚公平的硬币是正面朝上还是反面朝上,那么仅仅是偶然,有些人会在一年中做得比其他人更好。我们可以将这些人称为超级抛硬币预测者,我们可以说:“那么他们明年会怎么做?”我们会发现完美的回归均值。最好的预测是第一年的超级抛硬币预测者

在第二年基本上会接近平均水平。而最差的预测者当然会向上回归均值。这就是纯粹的偶然环境的样子。我们在 ARPA 锦标赛中发现,在预测地缘政治和地缘经济结果时,肯定存在偶然因素,但技能与运气之比似乎约为 70-30。

因此,您并没有观察到超级预测者出现大量的回归均值现象,但在顶级表演者中不可避免地会有一些回归均值现象。

那么是什么使这些人如此出色呢?既然我们已经消除了或至少使超级幸运假设变得难以置信,问题就变成了这些超级预测者具有哪些属性?您可能会认为它们是稳定的心理属性。他们在流体智力或结晶智力或积极开放性方面的得分是否更高?他们是否具有某些态度特征、某些行为特征?

答案是以上所有。超级预测者与普通人有很多不同之处。他们与普通人并没有根本的不同,但他们是有系统地不同的。他们在流体智力方面的得分往往更高。他们在积极开放性方面的得分往往更高。但是,如果我必须确定一个我认为最能将超级预测者与其他同样聪明且同样开放的预测者区分开来的因素,

那就是超级预测者认为,对现实世界事件的概率估计是一种可以培养并且值得培养的技能。他们愿意做出这种承诺,付出这种努力。因此,当人们问我超级预测者是如何胜过例如全职从事这项工作并可以访问机密信息的情报分析师时,我认为简短的答案是,这并不是因为他们更聪明,也不是因为他们更开放,尽管他们确实非常开放。这是因为他们愿意做出这种承诺,这种对存在一种值得培养的技能的信念。

在书中,我们引用了 AQR 的首席风险官、也是一位伟大的扑克玩家亚伦·布朗 (Aaron Brown) 的话。他的观点是,您可以根据优秀玩家擅长区分 60-40 的赌注和 40-60 的赌注来区分优秀玩家和有天赋的业余玩家。

然后他停顿了一下说,不,也许更像是 55-45、45-55。最优秀的玩家往往会在不确定性的评估方面非常细致。我认为 IARPA 想让我们回答的一个重要问题,我认为我们已经肯定地回答了这个问题,是

不确定性评估的细致性是否不仅在扑克中有效,而且在您做出混乱的现实世界判断时也有效,例如希腊是否会离开欧元区,或者普京接下来可能会在乌克兰制造什么样的麻烦,或者中日关系在东海会发生什么,或者某个地区是否会再次爆发禽流感。这些都是极其特殊的一次性历史事件。这不像扑克,您是从一个定义明确的样本宇宙中进行抽样,重复游戏,快速反馈。因此,许多人,非常聪明的人,几十年来一直怀疑甚至有可能对这些类型的

情报分析问题进行概率估计。我认为 IRFB 锦标赛已经证明,在我看来,毫无疑问的是,改进的空间是存在的。可以进行这些概率估计。可以做得更好。可以识别出能够更好地学习做到这一点的人。可以开发培训模块来帮助人们做得更好。准确性的提高是显著的。

那么,当您让普通人开始学习概率时,会发生什么?我认为我记得,您开始给他们上概率课。

对于随机分配到实验条件下的普通预测者,他们会进行卡尼曼风格的去偏差练习,其改进幅度约为 10%。当您考虑到我们谈论的是在整个预测年度的改进,而这项培训练习大约需要 50 分钟时,这是一个很大的影响。这个 50 分钟的培训练习包括什么内容?

关于启发式和偏差以及如何检查偏差的一些基本思想。例如,卡尼曼的经典论点之一是,人们在评估事件的概率时,对统计或基准率信息给予的权重不足。他们太容易采取内在视角了。因此,如果您参加婚礼

并且您看到这对幸福的夫妇,并且您对他们有多么相爱以及当时的热情印象深刻,有人问您他们离婚的可能性有多大?嗯,您不太可能查阅该社会经济地位子群体的全国离婚统计数据。嗯,您可能会说,嗯,他们看起来真的很幸福和相配。我将对他们不会离婚的可能性给予很高的概率。嗯,以这种方式进行预测的结果是,您将比您本来应该有的准确性略低,如果您

至少从说离婚的基准率是多少开始您的估计过程,然后根据这种特定关系中存在的任何特殊因素来调整它。所以是从外部视角开始,然后向内部发展?

没错。从外部开始,然后向内部发展。这是我们的座右铭之一。但是卡尼曼不是以研究偏差为生,并且他觉得自己在避免偏差方面并没有更好吗?那么,这个 50 分钟的培训练习是如何帮助人们的呢?嗯,

你知道,丹尼尔·卡尼曼 (Danny Kahneman) 是我们在伯克利的同事。我和我的妻子,我们很了解他。我们知道他对去偏差的前景比我们更悲观。他确实就如何设计去偏差模块向我们提供了建议。我认为他可能仍然比我们更悲观,但我认为他已经相信这些改进是真实的。它们当然似乎是真实的。

因此,跟踪预测和您预测能力的关键是记分。

您认为需要某种类型的人才想要记分吗?我的意思是,我们大多数人都很乐意逃避或使用不确定的措辞或术语来做出决定,这样即使我们错了,我们也可以说,嗯,这不是我的意思。绝对的。这确实需要某种类型的人。许多因素都会发挥作用。我认为保持开放心态肯定会有所帮助。

但是还有其他一些因素在起作用,比如说,社会学因素。我已经进行了 30 多年的预测锦标赛了。我从大约 30 岁的时候,也就是 1984 年开始的。我现在 61 岁了。所以我是

如果我是一名情报分析师,一名 61 岁的资深情报分析师,我将是一名非常资深的情报分析师。让我们假设我是一名美国情报界的高级分析师。我属于国家情报委员会,假设一下,而且我

我是关于中国的专家。因此,当习近平来访时,人们会问我,你知道发生了什么吗?我对总统每日简报有投入,并协助制定国家情报评估。在关于中国的 IC 中,我处于地位等级的顶端。然后有人像 IARPA 这样,国家情报总监办公室新兴的研究与发展部门来了。他们说,嘿,你知道我们要做什么吗?我们现在想举办预测锦标赛。而且

每个人都将在公平的竞争环境中竞争。25 岁的中国分析师将与 61 岁的分析师特洛克竞争。我们将看看谁做得更好。61 岁的分析师会欢迎这一发展吗?

不会。问就是答。即使是思想开放的 61 岁的人也不会对此感到非常兴奋。他们会争辩说,这些锦标赛并没有真正捕捉到使我的判断与众不同的东西。这确实是我们在预测锦标赛中遇到的许多阻力。我的意思是,在书中,您可能还记得我们在开头谈到了两个预测者的寓言,汤姆·弗里德曼 (Tom Friedman) 和比尔·弗拉克 (Bill Flack)。嗯哼。

几乎所有读报纸的人都认识汤姆·弗里德曼 (Tom Friedman),他是著名的《纽约时报》专栏作家、中东专家,经常出现在白宫或达沃斯或上帝知道什么地方。而比尔·弗拉克 (Bill Flack),没有人知道他是谁,因为他是一位默默无闻的退休内布拉斯加州灌溉专家,恰好是一位超级预测者。我们对比尔·弗拉克 (Bill Flack) 的预测记录了解很多。我们对汤姆·弗里德曼 (Tom Friedman) 的预测记录几乎一无所知。这很大程度上是因为汤姆·弗里德曼 (Tom Friedman) 的预测,他确实做出了预测,是嵌入在模糊的措辞中的。他说这可能会发生或那可能会发生。当你说某事可能发生或可能会发生时,这可能意味着从 0.1 到大约 0.9 的任何概率。如果它发生了,我可以说,嗯,我告诉过你它可能会发生。如果它没有发生,我可以说,看,我只是说它可能会发生。

对,你不会被惩罚。你被很好地保护了。您认为这是组织的问题之一吗?我的意思是,似乎我们的组织在决策方面并没有变得更好,部分原因是我们的记分能力受到这些心理效应的阻碍,如果我记分,我可能会出错,所以我的动机不是记分。如果我使用精确的措辞,我可能会出错,所以我的动机不是使用精确的措辞。

是的。是的,我认为这是一个整体的混合。这是一个真正的混合,强大的心理和政治力量的混合,它们相互作用,造成了对预测锦标赛的许多阻力。因此,尽管我认为我们已经证明预测锦标赛可以显著提高概率估计,但组织不采用它们的原因有很多。一个原因是处于地位等级顶端的人并不怎么热衷。在 CEO 套房里的鲍勃 (Bob) 对预测并不怎么热衷。

人们发现,在邮局里的鲍勃 (Bob) 在预测与公司未来相关的趋势方面与他一样出色。因此,您面临着地位等级问题。顶层的人不想被质疑。他们不想让他们的判断过程被神秘化。当代组织中的地位很大一部分是您的判断有其特殊之处。

因此,即使是思想开放的高地位人士也不愿意这样做,因为这看起来像是损害职业生涯的举动。所以当然有这一点。还有许多其他因素在起作用。我的意思是,再次,这是卡尼曼 (Kahneman) 的论点,即人们不关注外部视角。在书中,我们谈到了《纽约时报》一位著名的《纽约时报》记者大卫·莱昂哈特 (David Leonhardt) 犯的一个错误,您可能认识他。他

他在《纽约时报》上撰写“The Upshot”专栏。他是一位精通数量分析的记者。他在 2012 年犯了一个我们讨论过的错误,这说明了这些误解是多么顽固。他当时正在评论最高法院在 2012 年维持奥巴马医改法案的裁决。

这是一个狭隘的决定。以 5-4 的结果通过。他指出,预测市场对这一最高法院的裁决有期货合约,他们将其定价为法律被推翻的概率约为 75%。好的,他们大错特错了。他说:“那么,错得多远才算错得多远?”他说:“嗯,他们错了。”他直接说:“错了。”

这并没有考虑到复杂性,对吧?这本身就是错误的。预测市场处于错误的一方,也许是这种幅度,这当然不是好消息,但预测市场多年来已经产生了数百个预测,并且它们已被证明是相当准确的,换句话说,当他们说某事发生的概率为 75% 时,事情大约在 75% 的时间发生,而在 25% 的时间不发生。

因此,即使您有一个完美的校准预测市场系统,当它说 75% 时,在 25% 的时间里,像大卫·莱昂哈特 (David Leonhardt) 那样聪明的观察者,会倾向于认为您错了,并驳回您。因此,这会产生巨大的政治激励,以坚持使用模糊的措辞。如果他们只是说它可能会被推翻,那么他们将能够很好地解释任何结果。嗯,

但由于预测市场正在生成这些精确的概率估计,并且由于人们没有

采取外部视角并说,嗯,我们不能只看那个特定的预测。我们必须将其置于该系统正在生成的 所有其他预测的背景下,对该系统采取外部视角。人们很难做到这一点。大卫·莱昂哈特 (David Leonhardt) 知道这是真的。他后来还在“The Upshot”中写过关于这种情况的文章,关于这种谬误。因此,如果像他那样聪明的人,对预测市场没有怨恨,也会犯这样的错误,

您可以理解为什么像华盛顿特区这样的责备文化中的政治精明的情报分析师可能会不愿意这样做。对。

我认为本书中最有趣的部分之一是您开始谈论费米式思维。您能向我们介绍一下吗?恩里科·费米 (Enrico Fermi) 是一位意大利裔美国物理学家,他在芝加哥大学开发了第一台核反应堆。他参与了二战期间原子弹的研制。他以其相当炫耀的思维风格而闻名。他不断想出

创新的方法来估计看似无法估计的东西。费米问题的著名例子之一是,听起来很奇怪,它是估计芝加哥的钢琴调音师数量。其他例子可能是估计帝国大厦的重量或估计银河系其他地方存在外星文明的可能性。

听起来很像谷歌过去用来招聘的脑筋急转弯,对吧?没错。现在,我不知道谷歌,我不知道法律部门是否仍然允许谷歌继续使用这些来筛选潜在的人员,但它们是人们如何处理问题的有趣测试。费米处理它的方式有什么特别之处?嗯,

他真的相信要消除你的无知,并将问题分解成尽可能多的易于处理的组成部分。因此,您将从以下方面开始:银河系有多少颗恒星?大约 1000 亿颗。你会说,嗯,这些恒星中有多少颗有行星围绕它们运行?您可能会查看开普勒 (Kepler) 最近的数据,它在我们当地地区进行了一些侦察,但是

大约 60 光年左右,嗯,

并且说,嗯,看起来相当多的恒星似乎确实有行星围绕它们运行。让我们说它可能高达一半,或者可能略少。我真不知道这个问题的答案,但你会做出初步的猜测。你消除你的无知。然后其他人可以回来,他们可以看到特洛克说大约一半,他们会说,哦,特洛克不明白开普勒 (Kepler) 正在做什么。

它应该是 70%,甚至不是 30%……但它不是特洛克做对了,而是我们正在消除无知区域,我们正在使其清晰明了,并且它是公开透明的……然后我们会……在这个过程中,聚会将继续进行,有多少行星位于宜居带,您可以从开普勒 (Kepler) 获取一些进一步的估计,只有一小部分行星似乎符合条件

为此。但这仍然可能让您拥有 5 亿到 10 亿颗可能位于宜居带的行星。然后您必须对以下问题进行一些估计:如果您有一个位于宜居带的行星,生命开始的可能性有多大,一旦您拥有……不同的进化论者有不同的模型,这些模型至少对这些问题的答案有一些不同的含义。

最终你会得到概率范围。现在,对于这个问题,可能的概率范围将非常大。我们知道这并非不可能。银河系中存在另一个先进的外星文明。我们也知道这不是一件确定的事情。它可能是……

如果我要结合我们刚刚开始处理的所有不同步骤,我的最佳估计可能是超过 1% 或 2%,但我认为它不会高达 90%。它可能在 2% 到 50% 之间。

现在这是一个估计。现在这个数字没有什么特别之处,但特洛克现在所做的是,特洛克我,我指的是这里的我,费米人,使用费米方法的人所做的是,他或她已经消除了推理连续体中所有不同的无知点。而你,观察者,可以说,哦,看,特洛克在这里做了一个非常愚蠢的估计,我们必须调整它,我们必须……

但它是一个继续进行的基础。最初看起来像是一个完全棘手的问题,至少变得至少有点更容易处理了。这就是超级预测者非常擅长做的事情,将看似棘手的问题分解成半棘手的组成部分,然后继续努力。他们不怕看起来很愚蠢,做出观察者可以看到并说,哦,我的上帝,你为什么对资本项目说这么愚蠢的话的估计?

这是一个令人难以置信的观点,您正在处理这个难以捉摸的大问题,这个问题很难确定,并且您确定,您有一些有组织的流程来确定实现目标的子组件。然后你继续进行估计。因此,这部分将是突出你的想法,对吧?是的先生。

然后这部分将是,我真的对这个问题一无所知。那么,我可以将其进一步分解成子组件,还是我推断得太多了?不,这正是这项工作的精神所在。那么,为什么这种思维方式会……

更好的预测?这仅仅是改变问题本身的框架的性质吗?或者您认为这更多的是愿意分解问题并进行处理的人的好奇心?这听起来像是很多工作。这听起来非常费力且在精神上很费力,而不是仅仅用你的……你知道的,你的即时反应来抛出一个估计。

你完全正确。这是费力的,我认为如果在团队环境中完成,团队成员相互尊重,但他们也愿意互相施加压力,效果最佳。因此,如果您是一个组织,并且您想在一个大型公司(例如 IBM)中建立一个团队环境,例如预测团队,那么您将如何利用您的知识来做到这一点?

这是一个很好的问题。我有点担心说组织应该像良好判断项目那样尝试构建超级团队,因为团队建设对组织的其他部分有很多影响,这可能会很棘手。我的意思是,想象一下,如果您只是在我们

在 IARPA 锦标赛中获胜的方式中所做的那样,并且您只是找到了最好的人,将他们聚集在一起,培养他们,帮助他们,向他们施加压力。在许多组织中,这将是一件非常精英主义且有些分裂的事情。

是的。这可能会造成很多政治摩擦。现在,我们不太关心这一点,因为我们参加的是预测锦标赛。我们并没有真正意义上的组织。我们想要性能引擎。对。我们希望尽可能严格地利用人类的个人和集体智慧,为这个社区关心的问题生成尽可能准确的概率估计。就是这样。这是一个纯粹的准确性游戏。而且我们……

我们对组织的长期生存能力并不那么感兴趣。我们只对纯粹的准确性感兴趣。因此,我会对说这很容易有点谨慎。您所做的就是招募这些超级预测者,并将他们组成这些团队,并给他们一些关于如何进行精确提问的培训,并给他们一些关于如何进行建设性对抗的培训。并且您已经执行了这些反群体思维规范,并为他们提供了一些关于概率的培训和指导。

推理,你鼓励团队内部形成某种自我批判的结构和文化,然后,令人惊奇的是,准确的预测就出现了。这在预测锦标赛的环境中效果很好,但在实际的组织中是否有效,我认为高级管理人员需要仔细考虑其中的每一个步骤。

你会对组织内部的人说些什么呢?他们如何利用你的研究在公司内部做出更好的决策?我认为这是你需要认真考虑的事情。当人们在大多数组织内部进行预测时,准确性只是他们追求的目标之一。

他们也感兴趣的是做出难以证伪的预测。这样他们就不会尴尬。因此,组织内部的许多预测并不涉及数字。它涉及大量含糊不清的文字。他们还感兴趣的是做出不会惹恼组织中其他人的预测。

他们不想打翻政治的苹果车。因此,他们在许多方面都在损害准确性,这些方面有助于提升他们在组织内部的职业生涯,有助于维持组织内部的政治稳定,但他们并没有那么集中地关注准确性。预测锦标赛真的很奇怪,因为它们100%地关注准确性。这才是最重要的。

所以我想,作为一名高管,你想要考虑的事情是,我是否想为一场纯粹的准确性游戏保留组织的一部分分析处理能力?我是否想激励我组织中的一些小型团队参与纯粹的准确性游戏,在预测锦标赛中,这些概率估计将被传递给高级管理人员,以指导决策?

我认为这是一个非常有趣的实验。我认为情报界一直在朝着这个方向发展。我认为这是一个好主意。我认为对许多其他实体来说,这可能也是一个好主意,至少应该考虑一下。这符合整个IARPA企业的精神,即进行实验。我建议高级管理人员考虑进行实验,看看当他们激励人们参与纯粹的准确性游戏时,他们会发现什么。

你认为你的研究成果是如何转化到公司决策过程中的呢?不一定是关于预测,而是关于我们如何组织、分解、综合多种观点?你认为这如何转化为人们可以在组织内部掌握的一项可学习的技能?

有很多方法可以做到这一点。在“良好判断项目”中,我们非常重视将不同的观点综合到汇总预测中。我认为我们的主要性能引擎之一是我们的统计学家开发的用于执行此操作的统计或聚合算法。当IARPA开始这项工作时,他们认为很难比对照组预测者的未加权平均值提高20%、30%或40%。

而我们的超级预测者每年都大大超过了这一性能基准。他们做得非常好,以至于IARPA在两年后基本上暂停了比赛,我们能够以大量的方式将其他团队吸收到我们的团队中,并与情报界和预测市场基准竞争,而不是与其他大学竞争。现在,这一切是如何发生的?

实现的。我认为如果要归功于“良好判断项目”获胜的两件大事,其中一件就是超级预测者,另一件就是,称之为超级算法,是我们统计学家开发的伟大算法。现在,当我描述这些算法时,在某种程度上你一开始不会太惊讶,但是

但是,其中一个方面确实让大多数人都感到惊讶。所以首先要做的是,我不知道你的听众是否熟悉詹姆斯·苏尔维基的《大众智慧》一书,但这已经广为人知了。它

在预测领域,众所周知,一群预测者的平均值,即这些预测者的平均预测值,将比得出平均值的多数个人更准确。这就是关于牛的著名高尔顿故事。你让数百人试图猜测牛的重量,所有这些猜测的平均值只比牛的真实重量差一两磅。

这意味着它比得出平均值的个体更准确。因此,平均化是一种从不同视角综合信息的有力方法。这是一种非常粗略的方法,但它非常有效,这就是IARPA将其用作基准的原因。现在,我们能够通过一些简单的事情来击败平均化,例如给予更好的预测者更高的权重。

随着我们获得越来越多的数据,了解哪些是优秀的预测者,哪些是更聪明的预测者,哪些是更频繁的信念更新者,以及预测者的各种属性,我们能够给予某些预测者更高的权重,并创建加权平均值。加权平均值优于平均值。这并不奇怪,对吧?这是有道理的。但这并不令人惊讶。

现在,这是算法所做的有趣的事情。他们做了一件叫做“极值化”的事情。为了说明极值化,我想

只是稍微离题一下,我们确实在书中谈到了奥巴马总统决定追捕本·拉登的故事。在电影《猎杀本·拉登》中,有一个场景,高级分析师正在被询问他们认为本·拉登在那里的可能性有多大。

在那个大院里,撇开好莱坞的说法不谈,让我们做一个简单的思想实验,想象一下你是美国总统,你的高级顾问们围坐在桌子旁,你问他们本·拉登在那里有多大可能,桌子旁的每位分析师都说,总统先生,我认为答案是0.7,0.7,0.7,桌子旁的每个人都说0.7,总统应该得出什么结论,认为本·拉登在那座大院里的可能性是多少?

简短的答案是,如果顾问们彼此完全一样,并且他们利用完全相同的信息并以完全相同的方式进行处理,那么答案是0.7,因为没有添加任何信息,对吧?

但是,想象一下,分析师们在桌子旁都说0.7,但分析师们彼此并不认识,他们也没有共享信息。每位分析师都根据只有他或她拥有的信息来做出0.7的判断。

因此,你拥有极端多样化的观点。一个人拥有卫星信息,另一个人拥有破译加密的信息,另一个人拥有人力情报等等。但它们是孤立的,它们第一次走到一起,每个人都独立地从非常不同的信息来源得出了这个0.7的估计。你在这里拥有真正的多样性。

答案仍然是0.7吗?总统应该耸耸肩说,好吧,我认为答案是0.7吗?或者总统应该说,哎呀,你们每个人都有不同的理由相信0.7。这让我认为答案可能比0.7更极端,因为如果你们每个人都知道其他人的理由,你们可能会变得更加极端。这正是最好的算法所做的。它根据多样性进行极值化。

所以0.7变成了0.85或0.9。这太迷人了。我的意思是,它如何从人们或预测者那里收集数据来做到这一点?没错,来自预测者。如果你有两个预测者拥有良好的记录,然后他们在意见或预测上存在分歧,会发生什么情况?

这种情况经常发生吗?实际上,这种情况并不经常发生,但如果发生这种情况,这将是一个真正的警示时刻。如果你有两个超级预测者,其中一个为0.9,另一个为0.1,我的倾向是不偏离0.5太远,目前还不知道其他任何信息。如果你的愿望是做出准确的预测,那么有哪些类型的问题应该避免?是的。

在IARPA锦标赛中,在生活中,有很多问题存在大量的不可减少的不确定性。如果你想成为一名优秀的预测者,你就不会花很多时间来处理轮盘赌类型的问题。如果你去赌场,你会发现很多人认为他们可以检测到轮盘赌旋转中的模式。

他们甚至开发了小算法来帮助他们。但他们所做的是,他们基本上是在模拟随机性。因此,花大量时间模拟随机性是无法成为超级预测者的好方法。你还会说哪些类型的问题不适合……是时间持续时间吗?是……哦,还有哪些问题类似于轮盘赌?

好吧,不是轮盘赌,而是哪种类型的问题更适合做出更好的预测,对吧?是短期、很少吗?我的意思是,我不想说很少的变量,但短期持续时间与长期持续时间相比如何?因为你必须在很长一段时间内不断更新,对吧?我的意思是,超级预测者所做的事情之一就是他们更新了他们的……是的,这是真的。

好吧,所有条件都相同,预测时间范围较短的问题通常比时间范围较长的问题更容易预测,但这并不总是正确的。我的意思是,一些短期问题是极其难以预测的。很难说股市明天是上涨还是下跌。这是一个短期问题。在某种程度上,相对于明天而言,预测十年后股市相对于现在是上涨还是下跌更容易,对吧?这是一个很好的观点。

所以有一些问题类别,你会看到这种情况的逆转。但是,是的,我认为总的来说,与视觉的类比是,如果你离得近,更容易看到视力表上的雪,而不是离得远。概率预测在较短的时间范围内更好。

这是我在书中谈到的事情之一,我的后期工作与早期工作的重点不同的原因之一,在早期工作中,专家很难击败乱扔东西的黑猩猩,因为在早期工作中,他们进行的预测比IARPA工作中的预测时间长得多,在IARPA工作中,预测很少超过一年。

你在开头提到了开放心态。我们如何培养开放心态?我们可以通过哪些方法来提高自己或他人的开放心态?这也是我们在培训中试图强调的另一件事。仅仅要求人们保持开放心态……大多数人认为自己并非思想封闭。

大多数人认为自己相当理性。仅仅要求人们保持开放心态,人们会耸耸肩说,好吧,我已经这样了。我认为你应该从更具体的方式开始。因此,你应该从非常具体的问题开始,在这些问题中,你评估人们是否以适当的方式改变了想法。

因此,有一些规范模型,如贝叶斯定理,可以告诉你,你应该根据具有特定诊断价值的证据改变多少想法,你可以创建模拟问题,可能是医学诊断问题,可能是经济问题,也可能是军事问题,但你可以创建具有模拟数据的模拟问题,并且你可以看到人们是否学会练习以他们应该的方式更新他们的信念,现在总是有一个问题,那就是他们是否会

这些教训会持续下去。我们发现它们确实会持续一段时间,因为它们可以全年提高10%。但这仍然是一个巨大的挑战。我认为我们还没有解决如何使人们更加开放的问题。我认为我们可以使人们成为更好的信念更新者,解决那些他们没有非常强烈的意识形态先验或先入之见的问题

当人们对总统候选人或经济政策等问题有非常强烈的情感和意识形态信念时,信念更新就会变得非常成问题。是的,我的意思是,我可以理解为什么这会成为一个问题,对吧?这可能与你非常珍视和相信的东西相矛盾。放弃这一点需要付出很多

精神劳动。是的,我们可以使人们更加开放一些,但使人们成为完美的贝叶斯信念更新者是没有人实现的目标,我认为这将非常难以实现。我认为我们应该继续努力。我认为我们不应该放弃。你认为超级预测者比普通预测者更擅长向其他超级预测者学习吗?例如,如果有人有更好的方法,他们会复制它吗?他们会……

放弃他们自己的内部方法吗?我认为超级预测者团队会非常仔细地倾听彼此的意见。即使他们彼此不同意,他们也会以外交的方式表达异议,但他们可能会非常强烈地不同意他们应该从特定的预测失败甚至预测成功中吸取哪些教训。即使是普通的预测者也经常会说,“好吧,我们在预测失败中做错了什么?”

超级预测者也会这样做。但他们也会对自己的成功进行质疑。

他们会说,“好吧,我们是幸运的吗?我们真的解决了这个问题,但我们是幸运的吗?结果会不一样吗?我们几乎错了?”对于人们来说,这是一个不寻常的问题。人们通常不会对礼物吹毛求疵。当他们正确时,他们想为此承担责任。超级预测者的怀疑态度甚至延伸到他们的

他们的预测成功。我无法想象很多平均水平或低于平均水平的预测能力的人会仔细检查他们的成功并从这个角度进行评估。你认为直觉在预测中的作用是什么?或者你会说它被最小化了吗?或者你会说它是……

这是判断和决策领域的一场大辩论。马尔科姆·格拉德威尔写了一本书,叫做《眨眼》,一些心理学家写了一本反驳书,阅读范围小得多,叫做《思考》。关于直觉价值的不同学派。当然,格拉德威尔在他的书中也阐述了这一点。他确实指出了直觉的一些巨大成功,但他同时也指出了直觉可能导致你严重误入歧途的情况。

我认为我们工作中的主要重点是“思考”而不是“眨眼”。我并没有排除这种可能性,即

超级预测者确实依赖于直觉。但是,我们在现实世界中处理的问题与已经得到严格证明的出色直觉问题不同。所以这不像国际象棋,你玩的是规则明确的相同游戏。

对,模式识别。非常聪明的人可以进行极其快速的组合和模式识别,他们能做到的事情非常令人惊讶。现实世界并不完全像国际象棋,对吧?我认为这需要更多的细致和更多的自我质疑的意愿,因为历史,我认为是马克·吐温说的,历史不会重演,但它会押韵。

我认为超级预测者有点明白这一点,历史中存在模式,但这些模式非常微妙,而且是有条件的。你很容易从历史中过度学习。这是一个非常好的观点。你会说哪本书对你的人生影响最大?

在我的生活中。在你的生活中。那必须是我很早以前读过的一本书。哦,可能,是的。是的。我认为,好吧,我不知道我们应该追溯到多远。我的意思是,如果我要回到研究生院,比如说,当我正在决定我将如何从事我的研究生涯时,

有一本罗伯特·杰维斯写的书,我认为他现在可能是哥伦比亚大学的名誉教授,但他是一位非常资深政治学家。他在1976年写了一本精彩的书,当时我在读研究生。我刚在1976年开始读研究生。它叫做《国际政治中的感知与误解》。它,

它精彩地综合了心理学和政治学。我认为这是一种我渴望达到的综合。在许多方面,我都试图在我的工作中成为杰维斯式的。现在,杰维斯不是一位定量研究人员。他是定性的,而我更倾向于定量。因此,我们在许多方面有所不同。但我非常尊重他试图如何综合心理过程和政治过程。

我想,如果我的工作中有什么主题贯穿始终的话,那就是综合心理学和政治学。

所以最后一个问题是,你想看到谁在这个节目中接受采访,以及他们的想法与我一起阐述或探讨?好吧,我一直是迈克尔·刘易斯作品的粉丝。我认为他会是一个有趣的人。我认为他可能正在撰写丹尼尔·卡尼曼和阿莫斯·特沃斯基的传记。我认为那将是一次有趣的谈话。

好的,非常感谢,菲尔,抽出时间。我真的很感激。这是一次很棒的谈话。哦,很高兴。嘿,伙计们,这是谢恩。在我们结束之前,还有几件事。

你可以在farnamstreetblog.com/podcast找到节目笔记。网址是F-A-R-N-A-M-S-T-R-E-E-T-B-L-O-G.com/podcast。你也可以在那里找到获取成绩单的信息。如果你想收到我每周发送的包含各种脑力食物的电子邮件,请访问farnamstreetblog.com/newsletter。这是我在网上找到的所有好东西,我本周阅读并与密友分享,我正在阅读的书籍,以及更多内容。

感谢收听。