We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

How Our 2022 Forecasts Actually Did

2023/2/6

FiveThirtyEight Politics

AI Deep Dive AI Chapters Transcript

People

Galen Drew

Nate Silver

Topics

Nate Silver：FiveThirtyEight的民调平均值和席位增幅预测与实际结果相比相当准确，尽管存在一些偏差。一些民调公司结果过于偏向共和党，但FiveThirtyEight等采用良好透明方法的网站的民调平均值相当准确。批评FiveThirtyEight预测失败的人们往往缺乏对事实的认真考量，更倾向于表达自身立场。FiveThirtyEight的预测力求客观，并考虑了各种可能性，而非刻意偏向任何一方。使用豪华版预测模型是基于对模型的信心和对市场观点的融合，认为模型方向正确，但需结合市场观点进行修正。共和党在中期选举中表现良好是合理的预期，但民调结果显示其表现不如预期，这使得预测变得复杂。经典版预测模型更符合FiveThirtyEight模型的初衷，即最大限度地利用统计建模，并认识到模型只是对现实的一种解读。FiveThirtyEight的预测模型在校准方面表现良好，但在预测结果中低估了意外事件的发生概率。FiveThirtyEight的预测结果优于预测市场，尤其是在对民主党的预测方面。如果参考9月15日的预测结果，FiveThirtyEight的预测结果将更加准确。FiveThirtyEight在预测模型中使用了过时的竞赛评级数据，这影响了预测结果的准确性。操纵民调平均值的企图往往会适得其反，因为这可能会导致资源浪费在没有竞争力的竞赛上。FiveThirtyEight的民调方法基于对市场效率的信任，认为市场机制会自动纠正偏差，并且民调偏差的方向是不可预测的。FiveThirtyEight不会对所有民调机构进行逐一审查，而是依靠其既定的标准和市场机制来确保民调结果的准确性。 Galen Drew：一些媒体在2022年中期选举前，确实强调了“红色浪潮”的叙事，这可能导致部分人对选举结果感到意外。RealClearPolitics等网站在民调方法上的选择存在问题，导致其结果与FiveThirtyEight等网站的结果存在偏差。FiveThirtyEight使用了两种预测模型：豪华版和经典版，豪华版更倾向于传统观点，经典版更依赖民调数据。选择使用豪华版预测模型是基于以往经验，认为其更准确，但同时也承认这可能导致对“红色浪潮”叙事的偏向。2022年中期选举的民调结果总体准确，民主党在关键竞选中表现出色，但共和党在非竞争性竞选中表现良好。尽管全国范围内的民调预测准确，但在席位预测方面存在偏差，因为民主党在竞争激烈的竞选中表现出色，而共和党在非竞争性竞选中表现良好。民主党在竞争激烈的竞选中胜率较高，这可能是由于共和党候选人素质较差，以及选民对这些候选人的强烈负面反应。在劳动节和11月8日大选之间，民调结果向共和党倾斜，这可能是由于民调机构对再次高估民主党感到担忧，以及一些党派民调机构积极发布有利于共和党的民调结果。在劳动节和11月8日大选之间，民调结果向共和党倾斜，也可能是因为整个选举周期中民调都低估了民主党，以及经济等其他因素的影响。在劳动节和11月8日大选之间，民调结果向共和党倾斜，这可能是由于经济因素和选民对议题关注的变化。在劳动节和11月8日大选之间，民调结果向共和党倾斜，这在高质量民调中也是可见的，这表明环境确实发生了变化。一些共和党相关的民调机构（如Trafalgar和Rasmussen）发布了有利于共和党的民调结果，这影响了民调平均值。如果从民调平均值中剔除有利于共和党的民调结果，则民主党将获得更好的结果。FiveThirtyEight的民调平均值方法基于对市场效率的信任，并认为市场机制会自动纠正偏差。对民调机构的评估应基于其过往表现和方法，而非其政治倾向。FiveThirtyEight的预测结果的关注点在于预测本身的准确性，而非政治立场。FiveThirtyEight的工作是将统计数据与人们的情感反应结合起来，这有时会引起人们的挫败感。FiveThirtyEight对一些媒体报道的批评，是因为这些报道缺乏对事实的认真考量。2022年中期选举的报道与民调结果存在脱节，这可能是因为人们更倾向于关注“氛围”而非数据。FiveThirtyEight目前不计划对党派民调进行调整，因为其方法在过去已经证明是有效的，并且市场机制会自动纠正偏差。操纵民调平均值的企图往往会适得其反，因为这可能会导致资源浪费在没有竞争力的竞赛上。媒体环境中存在不对称性，右翼更容易获得未经处理的宣传信息，而左翼的宣传信息则更为复杂和严谨。左翼和右翼在传播信息的方式上存在差异，左翼更倾向于使用看似严谨的方式，而右翼则更倾向于使用简单直接的方式。FiveThirtyEight的预测模型考虑了州际相关性，但目前还不够完善。FiveThirtyEight的预测模型考虑了州际相关性，但目前还不够完善，这可能会影响对一些具体问题的预测结果。FiveThirtyEight的预测模型可能会在未来进行改进，以更好地考虑州际相关性，但这可能需要等到2026年。FiveThirtyEight计划对预测模型进行一些改进，包括更好地考虑州际相关性，并可能重新考虑对豪华版预测模型的重视程度。

Deep Dive

Shownotes Transcript

在本期“模型访谈”中，Nate和Galen讨论了最近发表的一份评估报告，内容是我们2022年中期选举预测的表现如何。民调平均值和席位增幅预测与实际结果相比如何？如果我们说某位候选人有70%的胜算，这种情况是否真的发生了70%的时间？了解更多关于您的广告选择的信息。访问megaphone.fm/adchoices</context> <raw_text>0 您是一位播客听众，这是一个播客广告。通过Lipson Ads的播客广告，接触像您一样优秀的听众。从数百个顶级播客中选择，提供主持人推荐，或在数千个节目中投放像这样的重播广告，以Lipson Ads接触您的目标受众。立即访问LipsonAds.com。网址是L-I-B-S-Y-N-Ads.com。您是否看到《纽约杂志》发布了

一套新的礼仪准则？-哦，天哪，太做作了。-你认为其中有任何好的吗？-有些是好的，但大多数是坏的。-好的还是坏的建议？当别人随意问候你时，说“很好”。-100%同意。-这是中性的，不会强迫别人忍受关于世界如何陷入火海的创伤倾泻。-是的。-是的。我认为这是我最认同的一点。如果我问你最近怎么样，我只是在打招呼。-没错。-这就是我，就是这样。

您好，欢迎收听FiveThirtyEight政治播客。我是Galen Drew。我是Nate Silver。这是模型访谈。一个星期一的模型访谈。一个星期一的模型访谈。有点奇怪。我相信大家认为他们一段时间内不会听到这个开场白，但今年圣诞节提前来了。

二月的低迷时期。二月的低迷时期。我们之所以谈论这个，是因为你对2022年中期选举预测结果进行了全面的概述，我们将会讨论。但首先，已经有一段时间了。2024年总统初选即将开始，尽管它似乎比2019年启动得更慢。我能得到一个……

小小的氛围检查吗？2023年是不是奇怪的一年？是的。就像一个奇怪的数字。这是一个奇怪的数字。它也感觉我们不太知道自己在做什么。是的。从某种意义上说，在2019年，我们放寒假的时候，伊丽莎白·沃伦不是宣布竞选总统了吗？

到选举周期的这个时候，已经有四位或更多严肃的候选人竞选总统了。而现在，我想妮基·黑利基本上告诉我们她将于2月15日宣布竞选总统。特朗普已经宣布了。特朗普已经宣布了。但这感觉……从来没有像现在这样感觉特朗普没有竞选总统……事实上，在他竞选总统的这段时间里，从来没有像现在这样感觉特朗普没有竞选总统。我的意思是，我们将有很多时间来谈论……

前总统，也许是未来的总统唐纳德·特朗普。对你来说，初选从什么时候开始？一点也不早。不，我不知道。我的意思是，显然，隐形初选已经开始了，对吧？我的意思是，我不确定未来六个月会发生什么非常重要的事情。六个月？

好吧，人们会说……我想，你知道，人们会说……德桑蒂斯会宣布吗？哦，天哪，辩论是什么时候？我认为辩论在2019年7月左右就开始了。哦，我的上帝。我甚至无法应付。你不能？不。好吧，准备好。好的，所以……

让我们开始吧。好的。按照FiveThirtyEight的传统，上周我们发布了一份评估报告，评估我们的预测结果如何，民调平均值和席位增幅预测与实际情况相比如何。如果我们说某位候选人有70%的胜算，这种情况是否真的发生了70%的时间？我们将深入探讨所有这些问题。但让我们先从最棘手的问题开始，那就是

在中期选举后的几个月里，我们反复听到有人声称媒体，包括我们，预测了红色浪潮，而我们预测错了，因为浪潮从未出现。这来自非正式的推特评论员和严肃的媒体来源。因此，《纽约时报》发表了一篇文章，题为《红色浪潮的失败：扭曲的民调如何助长虚假的选举叙事》。

副标题是：错误的调查让一些候选人花费了不必要的资金，并转移了本可以帮助其他候选人赢得胜利的资源。这种看法有任何真实性吗？任何真实性，这是一个很低的标准。我的意思是，肯定有一些民调公司给出的结果过于偏向共和党，但像538这样的网站，其方法论良好且透明，其民调平均值相当准确。我认为我们撰写和讨论这个故事的方式与证据所说的内容相当平衡，对吧？我的意思是，我不知道。我甚至不确定我应该多尖锐。你今天想要什么辣度？中等。中等。我的意思是，这有点令人沮丧。这是中等辣度。中等辣度。我认为人们实际上并不关心说实话。也许这非常辣，对吧？你的意思是？像，

他们不愿意努力弄清楚我们是否预测了红色浪潮。他们只想说我们预测了，因为这感觉很好。公平地说，《时代》杂志的文章中提到了第33段或其他什么内容，对吧？但是人们，就像人们总是责怪，哦，数字盲。就像当你的预测说民主党有40%或45%的几率获得参议院席位时，即使是傻子也能理解这是一个相当大的几率，对吧？这不是关于数字盲的问题。在某种程度上，这是关于诚实的问题，对吧？或者关于……

实际上是由准确性和真相驱动的。我认为那些，我试图保持中等辣度，所以我可能不应该提到具体的媒体。但我认为这里还有另一件事，那就是如果在选举前关注某些媒体，你可能会认为将会出现红色浪潮。因此，在报道中，

人们会展示表明将会出现红色浪潮的民调。因此，如果你想在2022年中期选举前向你的观众讲述将会出现红色浪潮的故事，例如在福克斯新闻上，你可以这样做。当然，有些人只想说预测行业很糟糕，我们每次都会说他们错了。但我认为也有一些人确实认为将会出现红色浪潮，并且感到惊讶。

我的意思是，这很棘手，因为存在一些问题，比如普通的听众是否区分538和RealClearPolitics？我的意思是，我不知道。我的意思是，我喜欢RCP的家伙们，但他们做出了有趣的，这么说吧，方法论上的决定，他们的民调结果比我们的结果更偏向共和党大约一个或一点五点。

我认为这些决定并非完全站得住脚，对吧？他们只是有点像随意选择。最重要的是，他们会展示过去几次选举的民调平均误差，这低估了共和党。然后在他们的预测中，他们会展示，好吧，这是我们的民调平均值。现在想象一下，如果民调像2016年或2020年那样出错。这就是共和党将取得的成绩。我们当时讨论过这个问题，并说没有理由这样做。是的，还有《纽约时报》。他们

他们发布了这些民调，他们做的民调非常好，对吧？他们让民主党在一些竞争激烈的众议院选区获胜，坦白说，这对民主党来说是非常好的民调。他们把它解读为，哦，这是个坏消息。当你知道你在网站上说了什么和写了什么的时候，这真的很令人沮丧。我认为我们……

为尝试探索普遍概率而感到自豪，我们并没有试图偏向某个方向，很多人喜欢他们的预测，但哦，你知道，共和党可能会超过预测，他们经常这样做，对吧？嗯，我们试图非常谨慎地呈现，对不起，用了陈词滥调，但我们呈现了论点的两面，与我们的预测相关，我们故意没有演练过我与我的另一个自我进行的虚构对话，关于探索民主党或共和党如何表现出色

我们写了文章，或者我写了文章，关于为什么你不应该假设会出现像2020年或2016年那样的民调误差。对。就像，所以这就像，这只是令人沮丧的，当你的工作，

被歪曲了。为了澄清，我们的豪华预测显示共和党有84%的几率赢得众议院，略微有59%的几率赢得参议院。这是我们强调的预测，豪华预测。轻量级预测显示参议院是一个完全50-50的局面，众议院是75-25的局面，共和党占优势。而轻量级预测，最重要的是，

比任何其他预测都更依赖民调。然而，我们确实倾向于豪华预测。所以我们从科林那里得到了一个关于这个话题的问题。他说，你出于氛围的原因，转向了豪华预测，这是科林所说的，而你过去每次都使用经典预测。因此，模型本身可能并没有出错，但从编辑的角度来看，你确实偏向了红色浪潮的叙事。

你会如何回应？所以在2020年，我们把豪华预测作为默认预测。这种想法是，存在疫情。人们只想得到答案，对吧？豪华预测是我会押注的预测，对吧？因为它确实有点偏向传统观点。每当你构建任何类型的模型，并且存在市场或博彩服务时，对吧？你不会假设

你的模型完全真实，而市场是愚蠢的，对吧？你假设你的模型可能在方向上是正确的。但如果你想做一个客观的预测，你会把它与市场的观点结合起来，对吧？所以，我认为这是最佳实践。这里有不同的问题，对吧？第一，

看看中期选举的历史，说，哦，你期望共和党有一个好年景，这并不疯狂。他们民调表现不佳有点奇怪，对吧？这就是为什么这有点棘手，对吧？因为当我们谈论……

所以，这就是为什么我可能对那些说“我认为共和党应该表现良好”的人稍微有点同情，我的意思是，他们赢得了众议院。他们做得很好。我认为这不仅仅是人们不诚实。我认为有些人对民主党的表现如此出色感到惊讶。说A，这应该是共和党的好年景，这并不疯狂。B，我们已经有几年民调偏向民主党的趋势了，对吧？认为共和党会

民调，对吧？我的意思是，这根本不疯狂。是的。但这在经典预测中比在豪华预测中更明显。豪华预测增加了专家预测的成分。所以政治报告、内部选举和第三个是什么？水晶球。水晶球。这肯定带来了一些氛围因素。对。我的意思是，一部分原因是，好吧，这些专家预测者并不特别擅长诊断宏观环境。

他们擅长个别竞选，说这个候选人，我采访了这个候选人，这个候选人很糟糕，对吧？当选民看到这一点时，这个候选人的表现会低于预期，而我实际上有一些可靠的消息来源，我知道内部民调显示这位候选人落后五点，即使拉斯穆森民调显示他们领先五点，对吧？所以这是一个有价值的信息，但我确实觉得随着社交媒体的增加，一切变得如此依赖氛围。让我说明我的意思，对吧？我认为

这些群体很好，但在现代社交媒体环境中，受到氛围的影响太大，对吧？他们对自己扮演的角色和激励机制过于了解。他们有点太大了，人们会注意到他们所说的话。所以，我认为他们的激励机制不如以前那么好了。

也就是说，这是豪华预测与经典预测唯一不同的地方。那么，豪华预测会像Nowcast一样吗？哦，我的上帝，Nowcast。我觉得只是，你知道，在Nowcast旁边有一块空白的墓碑，等待着根据你刚才所说的话被豪华预测填满。也许我们回到2018年我们所做的事情，让经典预测成为默认预测，对吧？然后说，是的，这是我们的纯粹客观模型，对吧？我的意思是，

这是一个带有偏见的术语“客观”，这意味着什么。但是，如果想看豪华预测，你知道，这就像豪华版并不总是最好的。对。你知道，对于汉堡来说，你并不一定需要在汉堡上加一个煎蛋。好的。我们之所以说我们使用豪华预测作为默认预测，是因为随着时间的推移，豪华预测是最准确的。在回测中。在回测中。是的。

我们能否说在我们做这件事期间，它实际上是最准确的？不，它们基本上都一样准确。是的。我的意思是，你无法分辨。我们只设置了三年，但你无法以有意义的统计方式区分这三种预测。所以你还没有准备好为豪华预测写悼词？我的意思是，如果让我猜测，我们会做我刚才说的那样，对吧？如果想看豪华预测，我们会把经典预测作为默认预测……

它可能仍然是我下注的基础。但经典预测更符合538模型应该是什么样的模式。你尽可能地进行统计建模。你认识到模型只是对宇宙的一种看法，地图并非领土。因此，可能还有其他有价值的信息。但这可能是默认设置，我认为。

好的。我们之前已经讨论过这个问题，但我们现在有了更全面的了解，并进行了这项评估。那么民调的实际情况如何？实际情况与我们的平均值和模型的预期相比如何？我们仍在进行民调机构评级，这是一项与这项评估不同的工作，很快就会发布。有趣的是，民主党并没有真正超过他们的民调结果太多。他们在关键竞选中表现出色。我们的模型对众议院的普选投票进行了预测。

这比泛选票更复杂一些，因为有些选区没有某个政党的候选人参加竞选。对。但是，

众议院普选投票的预测相当准确。我的意思是，有不同的版本，对吧？但它在两到四点之间，结果基本上是三点。你面前有这个吗？是的，我有。因此，轻量级版本的众议院普选投票平均差是共和党领先2.4点，而实际差是领先2.8点，而豪华版本的预测实际上——

我认为共和党在全国普选投票中将领先3.8点。是的。所以，民调，我们并没有在方向上偏离太多。我的意思是，有些民调是偏离的。特拉法加和拉斯穆森是偏离的，对吧？但民调平均值相当不错。而且这种方法有效。我认为民主党，你知道，在关键竞选中有很多糟糕的共和党候选人。独立人士对此反应强烈。这不是一个民主党候选人特别强大的年份。

投票率，对吧？根据民调和出口民调，选民中的共和党人实际上比民主党人多。所以关于，哦，你知道，民主党的投票率被低估了，这个说法是不准确的。是的。为了在这个对话中再添加一个数字，我们的泛选票平均值显示共和党在全国普选投票中领先1.2个百分点。当然，这很复杂。它超过了这个数字，但他们从无竞争的竞选中获得了优势。但仍然，是的。我的意思是，你知道，这不像民主党。这不像一个超级……

蓝色的环境。这与民调预测的环境差不多，也许不是叙事预测的环境，对吧？但这与民调的整体环境非常一致。是的。我的意思是，对于民调平均值来说，一到两个百分点的全国普选投票误差比过去几十年民调的平均误差更准确，对吧？也就是说，2022年的准确性高于往常，

是的。我的意思是，我们都计算民调平均值，但这是民调更准确的年份之一。顺便说一句，2018年也是民调表现良好的一年。也许这只是特朗普的问题。也许特朗普很难预测，因为2018年和2022年都相当不错。所以，但我想要，你开始解释了，但我认为深入探讨细节非常重要。民调中的全国普选投票平均值和我们的预测预测的全国普选投票平均值

与实际情况非常接近。然而，当你查看我们对我们预计共和党将获得的平均席位数的预测时，差异更大。

原因是民主党在竞争最激烈的竞选中表现出色，而共和党在竞争不那么激烈的竞选中表现相当好。这有点像我们近年来看到的选举团分配的反面，民主党在他们真正需要赢得的竞选中表现出色，而共和党在他们无论如何都会赢得的竞选中表现非常出色。

是的。在最接近的竞选中，民主党赢得了大约75%的竞选，这些竞选的参议员和州长竞选的差距在三点或更少。他们输掉了威斯康星州。这是一个他们输掉的接近的竞选。参议院。参议院。但除此之外，那些差距在一到两点的竞选，比如内华达州，他们往往会获胜，或者亚利桑那州州长竞选等等。也许是运气好。也许是他们知道在哪里投入资源。显然，共和党候选人。是的。

糟糕。我的意思是，我说糟糕的意思是，他们极右翼、丑闻缠身且缺乏经验的组合。对。是的，我的意思是，他们提名了……他们有所有这些愚蠢的候选人，这让他们损失了资金。

参议院很可能，对吧？我们已经讨论过很多次了，但在他们没有，用你的话说，愚蠢候选人的地方，共和党做得很好。新罕布什尔州州长竞选。佐治亚州州长竞选。佛罗里达州。或者我认为是纽约第三选区，一个名叫乔治·桑托斯的年轻人，一个真正的下一代领导人，像这样的优秀候选人，表现不错，对吧？好吧，好吧。

您是一位播客听众，这是一个播客广告。通过Lipson Ads的播客广告，接触像您一样优秀的听众。从数百个顶级播客中选择，提供主持人推荐，或在数千个节目中投放像这样的重播广告，以Lipson Ads接触您的目标受众。立即访问LipsonAds.com。网址是L-I-B-S-Y-N-Ads.com。

就像你说的，我们今年晚些时候会发布我们的民调机构评级。但网站的朋友G.埃利奥特·莫里斯已经得出了这个结论。在竞争激烈的参议院选举中，民调平均值的平均绝对误差现在看起来可能约为2.5%，大约是自1998年以来预期误差的一半。民调似乎略微低估了民主党，大约0.5到1个百分点。是的。

我的预期是，我的意思是，再说一次，我认为他没有关注非竞争性竞选。有时这些会产生影响。但显然，我的意思是，民调在关键的参议院和州长竞选中做得很好。实际上没有很多意外。对。我的意思是，凯蒂·霍布斯在亚利桑那州的民调平均值中落后一到两点。对。但一到两点不算多。我的意思是，在参议院或州长竞选中没有出现任何重大意外。

它们是小意外，但不是重大意外。为了说明这一点，2022年民调低估民主党的程度低于2016年或2020年低估共和党的程度。是的。记住，2020年实际上比2016年糟糕得多。人们有点忘记了这一点。但如果我们进行民调平均值更新时，超过一点或一点五点，我会感到惊讶，甚至可能低于这个数字。所以，是的。所以，对民调过于偏向民主党感到恐慌似乎有点奇怪，因为它们几乎没有过于偏向民主党或共和党。我的意思是，你知道，在过去三个周期中的两个周期中，它们都具有相当强的亲民主党倾向。是的。我不知道。

我还想列出一些我们预测的席位增幅数字，以便我们能够做到透明和负责。因此，根据我们的预测，众议院的平均预测是共和党将在那里获得16到19个席位。事实上，他们获得了9个席位。然后在参议院，根据我们的预测，平均结果是共和党将获得零到一个席位。民主党获得了一个席位。

原因是我们刚才讨论过的。是的。我的意思是，再次强调，尤其是在众议院，这就像民主党在关键的摇摆州竞选中表现出色，而全国整体投票结果与预期一致。但如果你有435场竞选，那么相差七到八个席位，很难精确地找到原因，对吧？所以，是的，我的意思是，你希望得到完全正确的数字，但这就像

一个相当正常、典型的失误。然而，也有一些重大的意外。

今年的重大意外比往年多吗？因为，好吧，在这里我们可以具体指出，你是对的，这里的主要意外是在华盛顿州第三国会选区，民主党人玛丽·格鲁森坎特·佩雷斯击败了共和党人乔·肯特，尽管在豪华预测中只有2%的胜算，在经典预测中只有4%的胜算。这是一个很大的意外。

是的，但这应该发生。如果你的模型设计良好，它就应该发生。你会有，我的意思是，可能有100场竞选的胜算在这个范围内，对吧？所以，如果你正确地设计模型，那么实际上，你会有1%或2%的胜算实现。好吧，你谈论的是校准。所以我们检查了一下，就像我说的，如果我们说某件事有70%的几率发生，它是否真的发生了70%的时间？本周期的校准程度如何？

校准得相当好。我的意思是，我们的预测有点缺乏信心，这意味着意外比预期的要少。这在过去一直是一种模式。如果你想对538做一个正确、诚实的、热门的评价，你可以得出这样的结论：我们的预测缺乏信心，对吧？当我们说80时，它实际上应该是90，对吧？但问题是，所以，所以，所以，这么多竞选是不具有竞争性的。所以这并没有真正……

人们只会关注我们在竞争性竞选中的预测。因此，在80%以上的区域中发生的事情，我认为，对于普通人的生活来说，而不仅仅是一个统计游戏或其他什么，他们并没有真正关注这些。他们关注的是，你知道，在70%到50%的几率之间。我不知道。我的意思是，有些人，你知道……所以当涉及到……斯泰西·艾布拉姆斯或贝托·奥罗克，对吧？这些竞选……

根据民调和分析，并不具有很强的竞争力，尽管我认为如果没有民调，人们可能会说，哦，你永远不知道，对吧？好的，当然。或者格雷琴·惠特默，对吧？我的意思是，这些竞选。双方都有一些。就像，是的。但就我们的预测及其校准而言，当达到大约70%到50%、75%到50%的几率范围时，我们的预测校准得如何？非常好。是的。

是的。如果有什么不同的话，从历史上看，它有点缺乏信心，再次强调，意外比我们的模型所表明的要少。所以我认为人们可能会关注我们的评估，我鼓励人们阅读我们网站上的文章本身，即我们的2022年中期选举预测的表现如何。人们会看到，在我们豪华版本的预测中，倾向于

在本期“模型访谈”中，Nate和Galen讨论了最近发表的一份评估报告，内容是我们2022年中期选举预测的表现如何。民调平均值和席位增幅预测与实际结果相比如何？如果我们说某位候选人有70%的胜算，这种情况是否真的发生了70%？了解更多关于您的广告选择信息。访问megaphone.fm/adchoices</context> <raw_text>0 我们只正确预测了17%。而一个完美校准的预测会正确预测50%，因为它们基本上是势均力敌的。所以这是一个我们这次遇到一些困难的领域。不，我不会说这是困难。我的意思是，我想说的是，首先，你知道，

存在某种系统性问题，共和党候选人的表现低于预期，对吧？但是，这些样本量相当小。所以，如果你有，而且它们是模型的不同版本。所以，如果你有六个或十二个这样的样本，对吧，当你抛硬币时，从12次抛掷中得到两次正面朝上，或从6次抛掷中得到一次正面朝上，并不难。对。所以，我认为这并没有那么有趣。我认为，如果你想找到方法，我的意思是，我们确实发布了一个清单，列出了我们认为是爆冷的每一场比赛。对。所以，如果你想挑毛病，

那么，我的意思是，你拥有所有工具。我的意思是，问题的一部分也是……我们非常透明，以至于我们帮助人们讨厌我们。是的。是的，但是……但是我们发布了如此多不同类型的输出，对吧？你可以找到出错或正确的方法，对吧？但是，如果人们从根本上不理解或不在乎做诚实的经纪人，那么你总是可以让我们看起来很糟糕。我的意思是，这就像……就像今年，当我身处演播室……

在选举之夜的ABC节目中，我说这就像十分之八或十分之九，就我们的预测表现而言，对吧，你不可能做到完美无缺，但这已经相当不错了，嗯，也许是十分之七点五，对吧，但是人们，这无关紧要，这无关紧要，这无关紧要。是的，我要说的是，鉴于我在选举之夜也觉得，我对事后的某些强烈反对同样感到惊讶

哇。民调做得相当好。而且对民调有一些存在性的疑问。我的意思是，我们进行了这样的对话：如果民调再次搞砸了，我们会怎么做？我们是否需要关门大吉？等等？而民调在历史上做得很好，这是我们在这里真正谈论的唯一事情。哇。

Peter问道，预测准确性的真正问题在于，你的预测比另一个不太先进的预测好多少。如果一个门外汉的猜测和你模型的准确性一样高，那有什么用？模型的排名如何？好吧，我看看……因为我是一个赌徒。我看看……虽然我不在政治上赌博。我看看我们的预测与预测市场的对比情况。我们……

对民主党人的预测比预测市场更为乐观，对吧？根据你查看的模型不同，我们认为他们有40%到50%的机会赢得参议院。预测市场认为只有32%的机会。所以你本可以在民主党人身上下注，并在参议院的赌注中获胜。在众议院，差距较小。但是，对我来说，这就像我们在“智慧大会”之后对民主党人持乐观态度一样。我想人们可能无法，我的意思是，这在2016年也是如此，对吧？我们对特朗普的预测

比共识更为乐观，但仍低于50%。对。所以这有点像，我想这感觉就像输赢皆有可能，对吧。你知道，在这个位置上。所以这与2016年有点相似，因为我们对民主党人的预测比预测市场更为乐观，相对于预测市场。我认为，如果你能以某种方式提炼出，你知道，纽约时报的传统智慧，那将比预测市场

对民主党人更为悲观。预测市场在某种程度上平衡了传统智慧本身和模型通常的情况。所以说这令人恼火的是，我们，我的意思是，并非在很大程度上，但就我们的预测与普通专家甚至比专家更胜一筹、愿意真正把钱押上的人的看法相符而言，我们站在了正确的赌注一边。

好的，这是一个相关的问题。Martin说，校准文章非常好。但是，它基于选举前的最后一次预测。是的。为什么不看看早期的预测，例如，一个月或两个月前？我认为它们对人们的影响比选举前的那一次要大得多。不，我认为具有讽刺意味的是，如果你看看我们9月15日的预测，那么它将完全准确地预测一切。

一切，对吧？至少在方向上。事实上，存在这样的情况，我们发布的豪华预测使用了我们用于选举内部专家预测的其中一个团队的过时竞选评级。我们在处理它时遇到了一些问题，我们基本上忘记了重新打开一个开关，对吧？所以它使用了9月下旬版本的这些评级，这些评级实际上比11月版本的评级更好，对吧？因为存在这样的情况，我的意思是，这是一个我无法回答的问题，对吧？

很明显，民调显示在劳动节和11月之间，选民对共和党的支持有所回升。这是真的还是假的？但是，民调在9月中旬，因此预测我认为会比选举日的预测更准确。我们网站上实际上有一个互动式内容。我们可以看到我们概率预测的每个538项目的每个日期的每个预测，对吧？所以这些实际上确实包含了，是的，我的意思是，评论完全正确，那就是

没有内在的理由说明你为什么只关注选举日，对吧？我们发布预测的任何一天都是一个你可以仔细审查并对其负责的预测，对吧？在某些方面，实际上更有趣的预测是更早的预测。所以，但是这个互动式内容确实显示了整个历史。我们能否稍微多关注一下选举的最后两个月？

你提出了一个问题，即选民对共和党的支持回升是否是假的。基本上，发生了几件事。民调专家担心再次高估民主党人。

因此，可能没有发布某些显示民主党人表现良好的民调等等。这里还有另一个因素，那就是一些党派民调专家在某些州非常积极地发布民调，显示共和党人表现良好。我的意思是，宾夕法尼亚州就是一个这样的地方。还有一种可能性是，在整个周期中，民调都低估了民主党人，如果选举在

劳动节前后举行，民主党人的表现会更好。而且当时周期中仍然存在多布斯裁决的影响，但其他因素，例如对经济的担忧等等，最终确实帮助了共和党人。这是关于劳动节和11月8日之间发生的事情的三个可能的因素。

你认为哪一个最有可能，或者所有三个，或者哪个最让你担心？我的意思是，认为环境正在变得对共和党更有利并非疯狂之举。对。我的意思是，如果你查看民调，看看最重要的议题是什么，堕胎在周期中有所下降。对。你有一些相当糟糕的结果。

选举周期后期发布了一些相当糟糕的经济报告。此后我们有一些更好的报告，但人们忘记了，人们实时看到的数据，对于通货膨胀下降等等，并不是非常好。然后还有一些概念，例如人们某种程度上，选举变得更符合基本面。我的意思是，有一些州，对吧？俄亥俄州就是一个例子，J.D. Vance最终以相当大的优势获胜，对吧？你知道，威斯康星州，Mandela Barnes实际上非常接近，但是你知道，在夏季显示他获胜的民调不会

所以我不知道，对吧？我的意思是，这就像我们的泛型民调平均值并没有发生太大变化，对吧？我们可以查一下吗？它已经到了2024年。好的。所以从劳动节开始，让我们从9月1日开始说，

民主党人在泛型民调平均值中领先一分。最终，共和党人以1.2分的优势领先。所以在最后阶段，它确实发生了两分的转变。人们并没有操纵，如果你愿意这样称呼它的话，泛型民调平均值就像他们在宾夕法尼亚州那样，对吧？很多民调公司都发布了泛型民调平均值，对吧？不仅仅是Trafalgar和类似的公司。因此，即使在更高质量的民调中，这种转变也是可见的。

所以你……这可能意味着他们也受到了伤害，对吧？嗯……

所以这意味着你相信选举最后两个月环境确实发生了变化这一观点。兽医选票变化。我认为这很可能是真的，有一分或两分。好的。那么让我们谈谈党派民调。是的。也许是最辛辣的。好吧，我不知道。你之前说过你会变得辛辣，但我们会允许你在这次谈话中添加更多红辣椒片。好的。

我们在这个周期中看到，一些与共和党相关的民调专家，或者也许在纸面上不是与共和党相关的民调专家，但我们知道与共和党相关的民调专家，以及在过去几个周期中表现相当好的民调专家，因为他们显示共和党人的表现比民调平均值更好。所以我说的是Trafalgar，Rasmussen。

还有其他一些民调专家，例如其他不太知名的民调专家。内部老式，是的，是的。他们发布的民调显示，共和党人在一些摇摆州表现良好。我们已经提到了宾夕法尼亚州，但这在某种程度上发生在全国各地。人们说，嘿，有很多党派民调专家发布结果。当你从平均值中剔除这些民调，只关注机构民调专家时，

我们看到民主党人实际上会做得更好。我的意思是，很明显，如果你从平均值中剔除显示共和党人表现良好的民调，那么是的，民主党人的表现最终会比平均值更好。因此，人们批评我们允许这些民调保持原样，纳入我们的平均值。所以看起来它们确实对某些地方的平均值产生了影响。现在我们应该怎么做，了解到这一点后？

相信这个过程，伙计。因为这意味着，当你相信这个过程时，对于不熟悉这个过程的人来说，这个过程是什么？我的意思是，这个过程在某种程度上相信民调市场是有效的。首先，如果你从平均值中剔除所有这些地缘政治民调，我认为你最终会得到一个平均值。它再次过于偏向民主党。对。所以这就像，你知道，我的意思是，你看，我完全意识到Trafalgar和Rasmussen发布了非常倾向于共和党的调查结果。

你知道，但我觉得是平均大学民调没有达到现代民调标准，也没有按教育程度进行加权等等，我的意思是，诸如此类的事情，对吧？而且，你知道，我的意思是，有一些……所以你是在说，如果我们剔除Trafalgar，那么我们是否也应该剔除Monmouth或其他什么？好吧，Monmouth不是一个好例子，因为，首先，他们放弃了实际发布赛马结果，对吧？但是，但是不，我的意思是，你知道，我认为……

是的，我的意思是，我不确定。我的意思是，你必须逐个公司进行检查，对吧？我更不担心像Quinnipiac这样更知名的民调专家，而是那些每个周期只发布一次民调的民调专家，对吧？而且，真的不知道他们在……我想我说的是，你是在说，如果我们制定一项政策，在这个周期之后不再考虑Trafalgar或Rasmussen的民调，那么在2016年或2020年之后，你本可以简单地说，好吧，剔除所有这些基于机构大学的民调。

民调也从等式中剔除。如果你在每次选举后都这样说，好吧，我们不再包括那些这次预测错误的民调专家。那么你最终会围绕这个领域来回摇摆。这基本上就是RealClearPolitics所做的。同样，问题部分在于缺乏透明度，对吧？但是他们包含了所有倾向于共和党的民调，而且他们对包含哪些

倾向于民主党的民调具有选择性，当你问他们时，他们有一个透明度倡议，该倡议只追溯到2016年，对吧？是的，这就是会发生的事情，对吧？如果你总是打上一场战争，但同样，这很奇怪，因为关于选举预测的事情是，我关心的是预测部分，对吧？98%的观众关心的是，我的意思是，我关心选举结果，我自己也有政治偏好，对吧？但是，我关心预测是为了预测本身，对吧，而大多数人并不关心，所以从本质上讲，这非常奇怪，因为538是一个如此受欢迎的产品，因为像

普通观众中的普通人一样，不知道校准是什么意思，或者目标究竟是什么，对吧？或者没有建立模型或任何东西。这没有什么错。我的意思是，我将这样表达，这很奇怪，因为我们谈论的是对人们来说极其情绪化且极其重要的事情。我们试图说，我理解这些事情对你来说非常重要，而且非常情绪化，在某些方面与你的身份紧密相连。现在我想谈论的是统计数据。这就像，

这就像有人正在遭受恐慌症发作一样，他们正在飞机上，他们正在遭受恐慌症发作，因为他们，你知道，我会从我自己的角度谈论这个。我害怕飞行。如果我在飞机上感到恐慌，而且我不想在那里，那么会有几件事。好吧，你知道，从统计学上讲，飞机是最安全的交通工具。你更有可能在去机场的出租车上死亡，而不是在飞机上，对吧？这在某种程度上就是我们的作用。所以我完全理解为什么有时这可能会让人感到沮丧或不和谐。

是的。所以我不责怪观众，但我确实责怪《纽约时报》的记者，如果他们甚至没有真正费心去报道正确的故事。你知道，我确实责怪，而且很明显，记者们在融入更多算术能力和更多对民调的理解方面取得了巨大的进步。对。和数据。我的意思是，这绝对是一个巨大的进步。对。但是，但是从根本上说，有些人只是，你知道，这很奇怪。这很奇怪。因为这就像，

既更数据驱动，也更依赖感觉。它同时是这两件事。那是什么？我认为这很棘手，因为我认为选举报道变得越来越数据驱动。然后在2020年之后，人们就像，去你的。

我们又回到了感觉。而2022年，我的意思是，我在我们的一次模型访谈中说过，感觉2022年在某种程度上是一场后数据选举，因为所有民调都告诉我们，民主党人将表现良好，对于一位民主党总统在其第一任期内在白宫任职的中期选举来说，这在历史上表现良好。然而，报道却全是共和党人将表现良好。所以这是一个奇怪的情况。我的意思是，这也与，你知道，

政治新闻界的人们对沙鼠或其他东西有记忆，对吧？我认为通常的比较是金鱼，但是沙鼠的记忆力也很差吗？也许沙鼠真的很聪明。我不知道为什么我说沙鼠而不是。但是你永远不会因为仅仅说，哦，上次发生的事情会再次发生而惹上麻烦，对吧？我的意思是，我们在2020年的民主党初选中看到了这一点。

人们说，该党不再有任何影响力，对吧？当像字面上的，像他们听起来像变形金刚一样，像Pete Buttigieg、Amy Klobuchar和Jim Clyburn都在同一个舞台上。而且，

支持乔·拜登，对天平施加了非常非常非常大的压力，而且它奏效了，乔·拜登从陷入困境变成了两周后以巨大的优势赢得整个选举，对吧，然后新冠疫情发生了，我们都忘记了这一点，但是，但是你知道，但是人们在民主党初选中有很多糟糕的专家评论，即使是信任长期和长期政党是有影响力的，而且像

他们在2016年没有影响力，只是许多数据点中的一个数据点，对吧？你没有听到这个，因为你上周没有参加播客，当时我做了这个比较。但是我说……

说该党不再能够控制初选过程，这就像在下雪后走到你家的门廊上，看到门廊上有一把铲子，看到人行道上仍然有雪，然后说，铲子不起作用，因为人行道上仍然有雪。该党从未拿起铲子试图清除人行道上的雪。所以你并没有真正测试该党是否有影响力，因为它没有试图施加影响力。是的。我的意思是，2016年，共和党方面很奇怪，因为共和党某种程度上

置身事外。我的意思是，当涉及到2024年时，我们显然会多次重新审视这些辩论，对吧？做好准备。但这不像该党说，你知道什么，杰布·布什，他是我们的人。我们将投入所有可能的资源支持杰布·布什，对吧？或者马可·卢比奥，对吧？更像是他们说，好吧，这些人都不怎么样，希望会发生一些事情，特朗普不会获胜。当他们试图组织一场阻止某人获胜的运动时，那是特德·克鲁兹。

正确。你知道，一些共和党内部人士认为他像特朗普一样糟糕。他们认为他会输。他们认为他在很多方面都很粗鲁。但是，不，我的意思是，你看，如果你有罗恩·德桑蒂斯，我并不是说罗恩·德桑蒂斯是历史上最杰出的政治家。对。但他似乎在政治上很称职。而且是人们可以基本认同的人。他在一个以前是紫色的州以压倒性优势赢得了连任。

很多分，对吧？将近20分。他做到了基本的阻挡和铲球，对吧？也许他只是一个B-政治家，但是，你知道，我不确定你有没有任何B-政治家对抗特朗普。你知道我的意思吗？你有一些C-和D+。好的，让我们回到正题。当涉及到未来的选举时，我们将如何处理党派民调专家？像，所以你描述了这个过程，这个过程在过去是如何运作的。我们将进行任何更改吗？我们未来的计划是什么？没有什么

特别突出的。我的意思是，也许我们对我们如何将民调归类为党派民调存在一些歧义。但是，同样，对我来说，在2016年、2020年之后说我们相信这个过程是荒谬的，因为那时在相反的方向上出现了相当大的民调错误，对吧？在2022年之后进行改革，当时民调达到了历史上最准确的年份之一，这将是愚蠢的。但是同样，存在市场纠正机制，对吧？为什么会有……

为什么会有这么多临时性的、方法论上可疑的亲共和党民调的市场？好吧，这是因为共和党人在过去两次总统选举周期中都击败了他们的民调平均值，对吧？未来不会有同样的民调市场。这就是为什么我们说民调偏差的方向是不可预测的，对吧？因为你不是……这会让一些人感到恼火，因为我们不再处于这样的环境中。也许我们从未有过。

存在一种纯粹的、来自天空的方式来进行民调，而且这是正确进行民调的科学方法，对吧？无论如何，你都在做假设，对吧？所以基本上，民调是预测。你知道我的意思吗？它们几乎就像小型模型。所以这几乎就像有效市场假说的一个版本。我应该解释一下吗？好吧，我认为我们应该直接说明会发生什么。

我们如何使用我们的民调专家评级以及我们的预测如何处理党派民调，就Trafalgar和Rasmussen未来的情况而言。因此，民调专家评级部分基于方法论，但主要基于过去的结果，对吧？这些公司在2016年和2020年表现良好。因此，我们的民调平均值表明，平均而言，这些民调一直

相当不错。因此，它们在我们的应用程序中更重要。它们更重要，对吧？然而，在这个周期之后。在这个周期之后，它们将会下降。我假设。我们将仔细检查一下。但是是的，我的意思是，我认为他们有一个糟糕的周期，这是公平的说法。因此，它们在评级中将会受到惩罚。但是除了评级之外，你知道，我假设Travolgar和Rasmussen会继续存在。我的意思是，Scott Rasmussen不再是Rasmussen的一部分，对吧？但是他们

你知道，他们的新创始人正在发布疯狂的反疫苗模因等等，对吧？我假设他们会继续存在，但是，他们的民调市场将会减少，对吧？或者他们会因为这场混乱而受到一些惩罚。所以你正在纠正市场来进行纠正。好吧，除此之外，它们会被标记为党派民调吗？我们不认为Rasmussen是党派民调，因为他们只是在为自己进行民调。而且事实上，像

他们的所有者是保守派。我甚至不得不使用“保守派”这个词，对吧？但是，你知道，右翼。这与他们是否是党派民调本身无关。我们不想调查每个为民调组织工作的人的灵魂，然后说，你知道吗？我敢打赌你是一个秘密自由主义者。因此，或者甚至不是秘密。因此，我们将称你为党派民调专家，对吧？党派，我们通过谁为民调付费来定义党派民调。

对于Trafalgar，他们是一个例外，原因非常特殊，那就是他们过去没有披露他们的客户是谁，其中一些是党派客户。对。所以如果你不披露，我的意思是，这并不是完全不用它们，坦率地说。但是，也许我们应该说，如果你不披露你正在为谁进行民调，那么这就像一个可以禁止的行为。对。这是一个有条理的论点。但是，像

哦，我们不会看这个民调，因为他们发布了疯狂的反疫苗内容。我的意思是，我不希望成为，我的意思是，我们的数据库中有几百家民调公司，几百家，对吧？其中我确信在任何给定周期中，大约有100家发布了民调。我的意思是，那些批评的人也从未真正做过实际工作来制定出一套一致的标准，对吧？当然，有一些我认为是胡说八道的民调，但我不想必须检查并让每个民调公司都接受，Nate是否认为这是胡说八道？

尤其是在选举的激烈时期，情绪高涨，更容易出错。是的，我的意思是，如果你对此感到情绪化，对吧？

那么你会说，好吧，我有世界上所有的动机去这样做，因为，上帝，你能想象如果共和党人击败了他们的民调吗？我们永远不会听到结束。对。所以这就像，是的，我不会在选举周期的11月1日表达我的情绪反应。好吧，所以如果一个民调被归类为党派民调，我们会将他们的结果从他们的结果中偏移多少？区别在于先验。我们的模型假设非党派民调是无偏见的，而党派民调是

被偏置了大约四分或类似的东西，对吧？现在，如果你有一家民调公司，例如Data for Progress，它有自己的问题，但他们为民主党客户做了很多民调，我认为他们也自己做了一些民调，对吧？他们的样本量足够大，他们的民调并不倾向于民主党，对吧？因此，如果你有足够的数据，那么先验就会被覆盖，对吧？但是如果一个新的……

如果我以前从未听说过你的民调公司，你为乔治·桑托斯竞选活动发布了一个内部民调，我们假设它会被偏置大约四分或类似的东西。

您是一位播客听众，这是一个播客广告。通过Lipson Ads的播客广告，接触像您一样的优秀听众。从数百个顶级播客中选择，提供主持人推荐，或在数千个节目中投放像这样的复制广告，以通过Lipson Ads接触您的目标受众。立即访问LipsonAds.com。网址是L-I-B-S-Y-N-Ads.com。

亚当问道，对于未来的选举，是否担心无党派民调员与党派民调员之间的平衡？党派民调员大量发布民调，使得保持平衡变得更加困难。所以你的论点是，哦，这些东西是有市场的，市场会自我纠正。但是，如果人们实际上只想操纵民调平均值，而并不关心民调的准确性呢？还有一种类似于内衣侏儒的情况。

我用这个梗是不是过时了？我可能是吧，对吧？内衣侏儒？这像是来自南方公园的。像穿着内衣的侏儒，或者内衣上有侏儒图案？不，他们收集内衣，就像，一，收集内裤，二，问号，问号，三，盈利，对吧？所以他们好像认为，哦，我的天，我他妈的过时了。但是，操纵波兰的最终目的是什么？我的意思是，谁他妈的在乎呢，对吧？这就像，为什么这会是，这就像我听过的最愚蠢的阴谋论。好吧，我不知道。你可以……

可能会影响全国政治媒体的报道。好吧，如果有什么的话，适得其反了，对吧？因为共和党人在科罗拉多州和华盛顿州等地投资这些竞选，而他们可能永远不会获胜。他们输掉了所有势均力敌的竞选。所以他们有点搬起石头砸自己的脚。我不明白这个阴谋论应该是什么。你知道，我的意思是，我想激励机制是，我的意思是，存在一些不对称性，就像我喜欢在推特上与自由派人士争论一样，对吧？我的意思是，我认为媒体环境中存在不对称性，右翼对未经提炼的宣传的需求更大。而左倾的宣传则比较老练。你明白我的意思吗？我的意思是，我想听一些例子，看看有人试图在工作中保持严谨，但还是算了。是的，我可能不应该。我的意思是，但是，像，

好的。所以我认为左翼所称的许多虚假信息，只是党派人士不喜欢的说法。并非每个类别都是如此，对吧？但对于其中一些类别而言。你的意思是，我们需要调查新冠病毒的起源吗？我认为这两个都是比较清晰的例子，对吧？第一个例子是，

关于新冠病毒是否可能源于实验室的任何讨论，现在这是一种非常主流的立场，美国政府也对此进行了研究，并表示我们无法确定，对吧？这显然是一个虚假信息被错误使用的情况，还有亨特·拜登的笔记本电脑事件，对吧？这两个案例，但即使是这些案例，你知道，它们有点，但它们更老练，对吧？我的意思是，哦，上帝，我要惹上麻烦了。像实验室泄漏事件一样，你会有，

所有这些科学家一起合作，为《柳叶刀》撰写一封信，并以科学专家的名义发表。对。就像，

而你所说的呢？右翼发生了什么？在右翼，他们只会说，疫苗会杀死你。在右翼，他们有这样一个阴谋论，说这位布法罗比尔队的球员心脏病发作了。哦，是因为疫苗。只要任何50岁以下的人死亡，就像，哦，他接种疫苗了吗？真是疯了，加伦。真是疯了。他们甚至试图，你知道，这就像，是的，有时人们会死，而且他们不到50岁。对。是的。

而左翼则有点像，哦，这是，你知道，表面上的专业知识。它更老练。但在民调方面，我认为，像……努力A。在民调方面，我认为左翼对……假民调的需求会更少。对于仅仅将结果向民主党人倾斜四个数字的民调。此外，自由派和进步派有点沉迷于末日循环叙事。所以他们实际上很享受坏消息。哦。

这场谈话变得越来越有趣了。所以让我们回到，就像我说的，面对情绪，只是挥舞着统计数据。在本周期中，我们确实收到了听众提出的许多关于州内相关性的问题。

是的。

诸如此类。因为听众可能知道，我们的预测确实看到了各州之间的相关性。例如，如果威斯康星州的趋势朝一个方向发展，而我们在威斯康星州有很多民调，但在密歇根州没有很多民调，我们可以将从威斯康星州获得的一些经验应用到密歇根州。我们可以将从参议院民调中获得的一些经验应用到

众议院竞选中，我们的预测目前没有这样做，或者在2022年没有这样做？简短的答案是，它有点做到了，但还不够。模型的工作方式就像，当你越过纽约和宾夕法尼亚州之间的边界时，不会发生任何特殊的事情，对吧？它会模拟人口变化。所以它会说，好吧，假设共和党人在白人工薪阶层选民中获得民调支持。我讨厌这个委婉说法，你知道，非大学

选民。这会在某些州产生影响，对吧？所以它会在威斯康星州和密歇根州同时产生影响，因为这两个州都有很多白人非大学选民，对吧？所以模型在这方面很聪明。但是，如果你在威斯康星州有一个超级强大的民主党现任州长候选人，他们将推动那里的参议院竞选和众议院竞选的投票率，那么模型本身就不会考虑这一点。它应该吗？

但是，除非你真的对这个问题感兴趣，否则它对你的喜好数字的影响并不大。我们已经考虑到了这一点。例如，如果你深入研究模拟，并说，好吧，有多少模拟中共和党人实际上席卷了所有这些有竞争力的纽约州众议院竞选？对。如果你关心这个问题，我会给你一个错误的答案。对。如果你关心的是，像席位的整体分布是什么，或者共和党赢得任何特定席位的几率是多少？这不会对它产生很大的影响。所以如果你非常注重细节，那么是的。

这是你感兴趣的事情，但大多数人并没有关注这些详细的模拟。好的，那么这是我们将来要对预测进行的改变吗？也许吧。我的意思是，我还想看看这种情况发生的频率。我猜这可能是2026年的一项更大的改变，因为在大选年，即使在总统选举没有竞争力的州，我的意思是，我认为2024年纽约州的总统选举不会有竞争力，对吧？即使在那里，总统选举也决定了一切，对吧？所以你不会像

在纽约州那样出现投票率异常，凯西·霍楚尔是一位表现非常差的候选人，或者在佛罗里达州，罗恩·德桑蒂斯是一位表现非常好的候选人。人们出来参加总统选举。在每个州都是同样的竞选。所以，我认为在大选年，你不会看到这种情况很多。但在中期选举中，你肯定可能会看到。我听到的是到目前为止的改变，可能包括中期选举中的州际相关性。

弱化豪华预测。我们并没有真正计划对党派民调进行更改。我们保留它们，或者保留党派民调或表面上的党派民调。是的。我的意思是，我想说的是，我们需要一些规则，我们可以将这些规则一致地应用于大量民调。例如，到2024年，我能被说服，我们可以使用不同的所谓的客观标准来定义党派性吗？也许吧。对。是的。

所以我不完全排除这种可能性。对。但是，你知道，民调公司有倾向共和党的调查结果，这并不意味着他们自动成为共和党党派民调。对。而且，民调员是共和党人，这也不意味着，因为，你知道，如果我说实话，你知道，你看过学者的政治倾向吗？对。是的。当然。我的意思是，是的。

有什么……所以这大概是我们收到的很多问题的三个主要方面。除了这些，你还考虑过改变什么吗？我的意思是，我必须让自己处于这样的心态，我们回到了大选年。不，我的意思是，我认为我们在2020年有一些与新冠病毒相关的因素，除非我们有新冠病毒23，否则我们将删除这些因素。滚开！但是我认为……我的意思是，这就是为什么我这么生气。像……

我认为我们的模型已经达到了相当好的水平，你知道吗？这并不意味着它们是完美的，但是，这有点像一个已经解决的问题。我们应该关闭模型讨论吗？我不知道。好吧，那么我们只能到此为止了。内特？是的。感谢你今天来参加。有点古怪。有点古怪，但很有趣。我想说的是，我喜欢那些让我们保持诚实的听众和读者。我认为，如果你觉得

很多人并没有真正怀着善意地回应，那么很难知道该如何回应，我可能在这方面做得更好，对吧？但是，就像我说的，在大选时，这确实令人沮丧，就像，我们度过了相当好的一年，因为我当时在，我的意思是，说实话，是的，我不知道如果我们再经历一次像2020年那样的事情，那意味着什么，伙计。我的意思是，我们在模型讨论中说过。我们说，我们将不得不关门大吉。我知道会发生什么，对吧？另外，如果我们有一年，很多像，嗯，

否认选举结果的人获胜等等。所以感觉我们躲过了两颗相当严重的子弹，对吧？但最终我们还是被炸飞了。不，我开玩笑的。好吧，内特。是的，但感谢读者们。

和听众们。和听众们对你们的支持。我的名字是加伦·德鲁克。托尼·周在控制室。查德威克·马特林是我们的编辑总监。奥黛丽·莫斯特克正在帮助进行音频编辑。你可以通过发送电子邮件到podcast.538.com与我们联系。你当然也可以在推特上向我们提出任何问题或评论。如果你喜欢这个节目，请在苹果播客商店给我们留下评分或评论，或者告诉别人关于我们。感谢收听，我们很快再见。

How Our 2022 Forecasts Actually Did 01:00:19 Share

FiveThirtyEight Politics

Deep Dive

Shownotes Transcript

How Our 2022 Forecasts Actually Did