We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The Hidden Stories In The U.S. Census

The Hidden Stories In The U.S. Census

2023/3/16
logo of podcast FiveThirtyEight Politics

FiveThirtyEight Politics

AI Deep Dive AI Chapters Transcript
People
D
Dan Bouk
G
Galen Druk
Topics
Galen Druk:数据不应被表面化地看待,需要批判性地分析其来源、方法和解读,美国人口普查数据也不例外,需要深入了解其背后的故事和局限性。 Dan Bouk:许多塑造我们生活的重要事物都隐藏在枯燥乏味的官僚体系和数据中,需要更多人关注和解读。官僚机构的复杂性有时是为了避免过多干预,但这种复杂性也可能掩盖了其运作中的问题。数据分析结果会受到多种因素影响,包括社会政治因素和人为判断,数据本身可能掩盖了其他社会决策和政治因素。数据收集过程中的分类方法会影响结果,并可能被用来掩盖歧视等问题,人口普查的分类方法尤为重要。美国人口普查是宪法规定的,其根本目的是为了根据人口分配政治代表权,这使得民主制度在根本上依赖于数据。人口普查不仅用于分配政治权力,还用于各种政策制定和社会讨论,为治理提供可靠的事实依据。人口普查的历史悠久,但将其作为分配政治代表权依据的做法可能始于1789年。人口普查的影响广泛,涉及政治、政策、商业等多个方面。人口普查数据被各方利用,例如企业用于选址和销售,工会用于谈判工资,同时也是各种民调和抽样的基础。对政府收集大数据,特别是个人收入数据的质疑由来已久,这反映了美国社会对数据隐私和政府权力的担忧。对大数据收集的担忧,不只是对政府权力滥用的恐惧,也包括对个人信息泄露的担忧。获取准确的人口普查数据面临系统性问题,例如对政府的不信任,以及特定群体(如西班牙裔)的漏报问题。在人口普查中加入公民身份问题,可能意图减少特定群体的回应,从而影响选区划分和政治代表权。人口普查的漏报和多报问题是普遍存在的,但近年来已经取得了很大进展,目前漏报率已经降至较低水平。人口普查的多报问题通常是由于重复计数,而漏报问题则与住房稳定性、语言障碍等因素有关。人口普查的漏报和多报会影响政治代表权的分配,而各州在人口普查中的投入也可能影响其最终结果。人口普查结果用于分配数万亿美元的联邦资金,但人口普查局会利用后续数据和模型来修正误差。人口普查历史上存在人为操纵数据的情况,例如“路边造假”(curb stoning),这与当时的政治腐败有关。人口普查数据收集过程与政治密切相关,存在利益冲突和操纵的可能性,但也有机制来防止和纠正这种行为。人口普查中问题的数量减少,部分原因是抽样技术的进步和对隐私的日益关注。人口普查中的分类方法会塑造人们对自身身份的认知。人们在填写人口普查表格时,会根据自身情况和表格提供的选项来选择合适的分类,这反映了个人与国家数据系统之间的互动。人口普查中的种族、性取向等分类会影响政治代表权的分配,并塑造人们对自身及所属群体的认知。西班牙裔美国人被归类为白人,是出于对种族隔离和歧视的回应。人口普查中的种族和族裔分类随着时间的推移而不断变化,反映了美国社会中种族政治的演变。未来的人口普查可能需要调整种族、族裔、性取向和性别认同等分类方法。在人口普查中增加性取向和性别认同问题,需要确保数据的保密性。理解数据中的人为缺陷和偏差,有助于增强人们对数据的批判性思维能力,并改进数据的使用方法。在使用人口普查数据进行政治权力和资金分配时,需要考虑数据的不确定性,并探索更合理的分配方法。研究美国数字的历史,可以帮助我们理解数据在社会中的作用和演变。数据对人们对自身和社会的认知产生影响,但数据本身并非总是客观和准确的。媒体对政治观点的分类可能掩盖了人们观点的多样性和复杂性,例如对“温和派”的定义。宏观经济数据和犯罪率等数据会影响人们对社会现实的感知,进而影响投票行为。

Deep Dive

Chapters
The podcast introduces the U.S. Census as a pivotal data set in America, influencing political representation and federal funding allocation. The conversation sets the stage for a deeper dive into the complexities and implications of census data.

Shownotes Transcript

美国人口普查可能是美国最重要的数据集。它决定了华盛顿的政治代表如何分配,以及数万亿美元的联邦资金如何分配。但人口普查中包含的数据不应总是被视为理所当然。加伦·德鲁克与历史学家丹·布克谈论了他的新书《民主的数据:美国人口普查中的隐藏故事以及如何解读它们》。了解更多关于您的广告选择的信息。访问megaphone.fm/adchoices</context> <raw_text>0 您是一位播客听众,这是一个播客广告。通过 Lipson Ads 的播客广告,接触像您一样的优秀听众。从数百个顶级播客中选择,提供主持人推荐,或在数千个节目中投放类似这样的重播广告,以通过 Lipson Ads 接触您的目标受众。立即访问 LipsonAds.com。网址是 L-I-B-S-Y-N-Ads.com。

这些麦克风,你真的可以像爱它们一样。所以你可以说,嘿,嘿,对。我们认识很久了。就像城市里的平安夜。你就像给所有孤独的爱人发送信息。他们只想谈论数据。是的,没错。你不会成为我的无情朋友吗?

您好,欢迎收听 FiveThirtyEight 政治播客。我是加伦·德鲁克。我们在节目中有一个常规环节,前提是数据不应简单地被视为理所当然。重要的是要问,这是对民调的好用还是坏用,是对数据的善用还是坏用,正如听众们所熟知的那样。

多年来,我们一直试图强调的是,数据可能会以各种方式出错。在民调方面,问题设计很重要,你如何接触到人们很重要,你如何事后弥补样本偏差很重要,当然,最终数字的表达方式也很重要。

我们今天的嘉宾认为,美国最著名的数据集也不应该被视为理所当然。这个数据集当然是人口普查。丹·鲍克是他的名字,他的新书名为《民主的数据:美国人口普查中的隐藏故事以及如何解读它们》。他是科尔盖特大学的历史学教授。非常感谢您今天加入我。

这对我来说几乎是理想的播客。所以非常感谢你。我们很高兴有你。我应该首先问一下,你是否同意我的观点,即美国最著名的数据集是人口普查?这可能是我在这个播客上说过的最书呆子气的话了。它在每一个……它是每个统计杂志的封面图片。是的,就像没有比统计表更著名的魅力照片了。它就像数据的安吉丽娜·朱莉。是的,到目前为止,是的。

所以只是为了稍微铺垫一下,在你的网站上说你研究官僚机构的历史、量化和其他被无聊面纱笼罩的现代事物。这是什么意思?我的理论是,很多真正塑造我们生活方式的东西——

是的。

所以就像我们的任务之一,我认为这也是你们所有人都在做的事情,那就是试图说服人们他们应该参与这些事情。等等,这几乎就像一种阴谋论的观点,就像,哦,他们故意把它弄得很无聊,这样就没有人意识到实际发生的事情了吗?或者你只是说,由于这些事情很复杂,大多数人都不想参与,只是忽略官僚的混乱,对吧?

因此你想揭示它?还是前者?你是一个阴谋论者吗?我不认为这两个立场是相互排斥的,因为官僚机构,只要它想成功运作,就会建立复杂的系统。在某种程度上,如果少有人把鼻子伸进官僚机构,那就更容易了

厨房里试图乱搞东西。因此,复杂性本身具有一定的优势,即使很多这种复杂性对于运行这个巨大的技术系统(即人口普查)也是必要的。所以很明显我们会谈论人口普查,但只是为了让我了解你在这里谈论的内容,还有什么其他的例子吗?

嗯,我的第一本书是关于人寿保险行业的。所以,其中一个令人着迷的事情是,这是一个基于这样一个理念的行业:我们将使用这些科学精确的预期寿命表作为一种手段来定价保单,并说这个人支付这么多,这个人支付这么多。

在某种程度上,这就像,哦,好吧,是的,这就像科学、数据,对吧,这确实被用来将这个大型数十亿美元的行业变成完全理性的东西。

然后你开始深入研究这个过程,它就像充满了所有这些——所有这些科学的装饰。然后当它转向实际制作这些保单、设定保费等时,你就会得到这些非常精确的数字,在其上增加了 30% 的人为因素,因为他们想,实际上,这里有很多不确定性。我们不太确定发生了什么。很多事实证明,这是一种证明不同形式的歧视定价的方式,这些方式可能或不可能——

是理解社会风险如何分配的最重要方式。所以这就像让我开始意识到存在这些——

领域中正在进行重要的数据工作。数据工作并非徒劳无功。它确实会影响正在做出的决策。然而,它也可以被用作其他类型的社会决策、政治和其他因素的掩盖,这些因素正在塑造系统的工作方式。我认为我们在我们称之为“模型对话”的播客剧集中经常讨论这个问题,我们深入研究预测并过多地讨论民调和

在制作调查问卷时,其中既有艺术性也有科学性。你知道,科学方法是其基础,但我刚才也提到了,民调人员正在做出许多关于如何制作调查问卷的决定,甚至是如何事后进行加权的决定,你

可以加入,你知道,也许是你自己的偏见,或者你对国家当前政治环境的看法。你就像在某种程度上用手指按着天平。这就是你所说的吗?是的。我的意思是,对于那本第一本书来说,一个让我印象深刻的时刻是当我发现这些

就像一篇由一位黑人保险学者在 20 世纪 40 年代撰写的论文,其中他使用了大都会人寿保险公司统计学家制作的这张非常著名的表格,该表格显示了白人种族群体及其不同的寿命,所有在人寿保险表中被归类为白人的人,因此支付了白人费率。

这个人将非裔美国人的预期寿命插入该表中,显示它存在于这些所谓的“白人种族群体”的分布中。这是一个非常有力的论点,说明由于该行业将白人和黑人分开并创建了这个大型白人桶,它说所有这些人支付相同的费率,即使它也说非裔美国人应该支付更高的保费。这并不是因为——

科学,而是因为关于如何进行这些分类的决定。当然,人口普查就是关于进行分类的。它完全是关于进行分类的。让我们谈谈这个。我很想知道,在我们深入探讨细节之前,有很多事情,你知道,你写了一整本书来讲述人口普查背后的故事。

人口普查到底是什么?我们为什么会有它?其他国家是否像我们这样进行人口普查?这真的很了不起。人口普查在宪法中。因此,宪法并非主要旨在进行科学工作的文件。然而,它确实要求对整个人口进行完整普查,其前提是这将允许代表随着人口而变化。因此,民主的根本主义

民主的基本思想,即你将得到代表,并且你所在州的权力将根据有多少人而变化。

只有因为每十年进行一次人口普查才有可能实现。这就是为什么你在书中说民主代表是根本上由数据驱动的。根本上由数据驱动,没错。我喜欢这个。是的。好吧,它不必那样,但这正是产生这种想法的机制,即你实际上无法在没有产生这些数据的情况下代表一个大众社会。我的意思是,它甚至比这更进一步,对吧?因为它有必要弄清楚如何分配政治权力

但后来我们也使用人口普查。随着时间的推移,它已被用来回答所有这些其他问题。所以我把它看作是美国事实的工厂。这些事实也是我们——

作为公民和居民来争论事情和谈论事情,政客们用来论证观点的东西。因此,从这个意义上说,它对于治理也是必要的,即民主取决于我们拥有某种可靠的事实,我们可以——即使我们可以检验它们,我们可以将其作为共同点来维持。那么人口普查是美国的想法吗?我的意思是——

我的意思是,对,人口普查可以追溯到很久很久很久以前。至少可以追溯到罗马帝国,对吧?是的,对。我的意思是,它们在圣经中以人们并不一定喜欢的方式出现。这些人口普查,它们所做的关键事情之一是试图找到人们以便对他们征税,并找到人们以便将他们拉入军队服役。因此,出于这个原因,人口普查往往并不受个人特别欢迎。事实上,在

美国建国之前的英国殖民地发生了一系列人口普查。也许与众不同的是,我认为这可能是 1789 年的发明,是将人口普查用作不仅仅是用来决定如何攻击某人的东西,而且这也是你的代表将以此为基础的东西。所以胡萝卜和棍子都要有。

好的,所以比例分配、重新划分选区,人口普查的重要组成部分,也许是人口普查最引人注目的用途,至少对于我们的播客而言是这样。但我的意思是,它被用于各种事情,对吧?在如何管理政策、公司如何使用人口普查方面,举一些人口普查如何影响我们生活的例子。

好吧,例如,在 1940 年的人口普查中,在 1939 年,举行了一次会议来确定 1940 年人口普查的问题。因此,你可以看看房间里的人,了解谁计划成为此后的数据用户,对吧?房间里最重要的人之一就是那个时刻的杰夫·贝佐斯,西尔斯公司的董事长,那时西尔斯罗巴克是大型邮购公司。它也开始创建实体店帝国。所以他们在房间里说,我们想要像所有这些人在人口普查中的收入这样的信息?

因为他们想用它来确定他们可以在哪里放置他们的商店。他们想弄清楚如何优化他们的销售队伍。同样,我们看到来自工会的工人们也在那个房间里,他们也对收入之类的东西感兴趣,因为他们试图考虑如何利用它来谈论更高的工资,并试图为他们的工人争取更好的工资。

所以这是会发生的事情的一个层面。另一件非常重要的事情,我们也可以在某些方面品尝到 1940 年的人口普查,人口普查的完整计数,正如我们所说,它并不完美,但它基本上是我们拥有的最好的东西。即使它不完美,它也是我们的黄金标准。没有比这更好的了。它是样本框架。它为将来所有类型的民意调查和抽样提供基础。对。

所以在这种情况下,在 1940 年的人口普查中,这是他们第一次将概率方法引入人口普查操作。所以在这些人口普查表中的每一个上,都会画出这两条线。然后,任何碰巧落入该表中的人都会被问到一系列额外的问题,然后可以用来推断其余人口的答案。根据我对你的书的理解——实际上,我听了你的有声书。他们做得怎么样?是的。好的。是的。

在 1941 年向人口普查中添加收入问题的想法就像一个铅气球。这是对美国对大型数据、个人数据收集等持怀疑态度的一个窗口。对大型数据,特别是政府的大型数据,何时开始怀疑?为什么收入特别是一个热门话题?

当我们想到对大型数据的怀疑时,我认为我们经常想象的是奥威尔式的“老大哥”,对吧?政府拥有这个数据库,他们会查看它,找到我们,然后对我们做一些坏事。这是真的。这是一个非常合理的恐惧。但这并不是促使那些担心这个问题的人的主要恐惧。所以一部分原因是

每 20 年,人口普查都与总统选举同时进行。因此,每 20 年,你基本上可以保证会有一次非常具有政治争议性的人口普查,因为任何一个不在执政的政党都会利用人口普查作为理由或手段来试图表达一些不满或试图获得一些政治分数。这就是这里发生的事情。共和党人——

利用人口普查,特别是这个收入问题,作为攻击罗斯福政府试图利用新政来思考和改善个人和公民经济生活的一种手段。所以我们在政治层面看到,人们说,害怕吧。这是一件可怕的事情。

但是当我们深入研究并看到个人实际上表达的恐惧时,他们对中心会发生什么事情的担忧要少得多,而更多的是——我担心像那个人,我的邻居,他四处走动询问这些问题。我不希望他们知道我的收入。我不希望他们知道我的生活细节。有一个非常棒的时刻让我真正明白了这一点,一位女士写信给她的参议员,她说,看——

我每月或每年赚 260 美元,我真的不希望政府知道这一点。

她就像,她只是写信给她的参议员。但对她来说,她并不是真的不想让政府知道。她不想告诉四处游荡的统计员。好的,这是一个完美的过渡,也许是关于我们如何看待民调的最重要的问题。获得准确人口普查的挑战是什么?这主要是因为人们不想向互联网上的论坛或出现在他们家门口的人透露有关他们自己的信息吗?

还是比这更系统性的问题?我认为这是……我认为系统性是更合理的答案。我的意思是,总有一些程度的问题是,我真的想让某人来到我家门口敲门并问这个问题吗?但是我的意思是,

说到这一点,你这些天不必一定在门口和某人说话。在 2020 年,第一次大规模地,感谢上帝,我们有了互联网自助回复,这样人们就可以在互联网上填写它。但不知何故,这可能仍然是人们不信任政府,因此不想回答问题。

我的意思是,当我与人们交谈以及当我查看进行这项研究的人们时,他们经常指出其他类型的因素,对吧?例如,在 2020 年,西班牙裔族裔的漏报非常严重。

而且,你知道,人们可以非常合理地指出特朗普政府试图将公民身份问题纳入人口普查的方式,作为一种明确的机制来试图抑制回应。这可能是一些事情。等等。是为了试图抑制回应,还是为了说,各州或市政当局可以仅根据公民身份来划分选区?因为我知道这是一场已经盛行的法律斗争。

持续了一段时间,并且很可能会继续下去,因为该国的一些地方试图根据公民人口来划定选区,这涉及到一个问题,即我们的代表是否与合格选民人数成比例,还是仅仅与人口数量成比例?

从宪法上看,似乎是人口数量,尽管关于是否应该根据合格选民人数有一些争论。然后你就会遇到问题,好吧,监狱呢?儿童呢?所有这些不同的事情呢?这就是我理解至少部分辩论的内容。我的意思是,是的,这是一个非常重要的问题。所以我会回答它,然后我会深入探讨更深层次的部分。所以

我会说,是的,有很多证据表明特朗普政府会非常乐意根据公民身份来统计人口。然后他们当然后来也试图制作这个无证人员的文件,我们也认为——我们认为他们可能会试图利用它来以某种方式从——

但即使那没有成功,我认为可能有一种感觉,即奖金将是我们可以减少——我们可以通过公民身份的想法来抑制回应。你所说的优势在于,当选区被分配时,它们在——

比如说,非法滞留在该国的移民集中的地方,面积会更大。因此,最终的民主代表性较少。这就是你所说的目标。是的。最终,对,这里的想法是,自宪法以来,自第十四修正案以来,

人口普查非常清楚地统计了人口。因此,说到这一点,它不是选民。至少从 20 世纪 20 年代开始,就一直有人为此争论,他们说,你知道,也许在比例分配层面,我们应该成为选民。各州经常只使用选民。直到 20 世纪 60 年代,纽约州一直根据公民而不是人口来划定界限。

但在宪法层面,它是人口,需要进行宪法修正案才能使其成为人口以外的东西作为比例分配的基础。这意味着如果你试图歪曲数字——

并且你认为你可以做到这一点,以便其他人将赢得一个选区,你可以用未被统计的人来填补它。这可能对你有利。那么,关于人口不足或人口过多可能导致的其他担忧是什么?实际上,我想读一段引言。你写道,人口普查局的普查后调查,所以他们会回头去弄清楚他们哪里搞砸了。

这是怎么回事?

他们是如何多统计一百万人的?是的,我的意思是,我认为对大多数听众来说,他们会说,这听起来很可疑。这听起来很奇怪。是的,我很高兴你这样说,这听起来有点可疑。我写这本书的原因之一,以及我希望人们阅读并思考它的原因之一是,人们经常谈论人口普查的制作就像香肠制作一样,对吧?没有人想看到香肠的制作方式。它可能尝起来很美味,但如果你看它,你会说,哇。我的意思是,我认为这实际上是大多数数据系统的工作方式。

当你开始查看数据系统的工作方式时,你会说,哦,实际上,这里发生了很多混乱的事情。这经常被那些想要播下怀疑种子的人利用。所以你会想到气候变化、怀疑论、香烟和致癌,对吧?这种——已经建立了一个完整的行业,其理念是采用普通的科学过程——

把它放在人们面前,说,哦,这看起来很可疑。你消除这种方式的方法是照亮它。这是怎么回事?人口过多和人口不足是如何发生的?你照亮它。但是,我认为你所做的事情之一是说,实际上,这并不是那么糟糕的人口不足。我的意思是,现在这并不是糟糕的人口过多或人口不足,因为在过去的 50 年或 60 年里,已经投入了大量的精力来试图限制这些人口过多和人口不足。

但 1940 年的总人口不足占人口的 3%。在非裔美国人中,它占人口的 13% 到 15%。所以我们现在谈论的是个位数百分点,这实际上是一个很大的进步。这就是为什么即使我们现在依赖人们自行回应,我们也派出 50 万人或数十万人进入实地,试图仅仅统计那些最初找不到的人。

因此,当我们出现如此大的人口过多时,这可能意味着——它肯定意味着有些人被重复统计了。在 2020 年的大流行期间,你可以很容易地看出为什么会发生这种情况。有人在他们位于纽约市的家中收到表格,我们住在这里。然后他们也将其发送到他们在纽约州北部教书的地方。如果我在那里有家,我本可以在那里收到表格。如果我在两个地方都填写了它,而人口普查无法弄清楚我在两个地方都是同一个人——

砰,我刚刚被统计了两次。事实证明,重复数据删除的问题非常棘手。人口普查局一直无法很好地做到这一点。即使我们说在最近的人口普查中,通常大约有 1% 甚至有时不到 1% 的人口不足,这也是净人口不足。因此,人口普查中的一些不平等来自通常拥有多个住房的更有特权的人被重复统计的事实,以及

以及那些住房状况不稳定的人的漏报。如果你考虑结构性力量,那就是没有用你的语言编写的表格,或者没有家是主要的事情之一。像那些更流动的人更难统计。人口过多和人口不足的后果是什么……

人口过多和人口不足。显然,从比例分配的角度来看,它会稀释你的代表性或在国会中过度代表你。所以我想我们纽约人被过度代表了。我的意思是,现在,当数字出来时,

我与之交谈的每个人都认为纽约即将失去两个席位。是的。然后它就像,什么,距离根本没有失去任何席位只有几千人?这是我在这里的整个时间里最有趣和最令人愤怒的时刻之一,因为有人问人口普查局官员关于纽约的统计数据。回应并非意料之中,官员说,是的,我们距离根本没有失去席位只有几百个席位。

我的脑袋爆炸了,因为首先,这与我们的预期相比令人难以置信。我的意思是,不像荒谬的,不像可疑交易的迹象。它完全符合奇怪的人口普查结果的合理方式。但那个数字,就像有——我们差几百个。

让我很生气。就像每当你听到这个数字时,都不要相信这些数字,因为它的前提是,如果人口普查局以某种方式将所有其他州的人口保持在完全相同的水平,然后向纽约州增加 500 人,

但是没有一种合理的、方法论上的改变能够保持所有其他州的人口相同,同时向纽约增加 500 个席位,对吧?人口普查局对人口统计的任何不同做法无疑都会导致所有州数字的变化。所以就像——我们只能从这个数字中看出我们所说的——或者说是 81 个。我认为大约是 81 人。这不像有 81 个人,如果他们被统计了,就会像——

不过,这也是一件政治事件,因为在蓝州,人们看到了为人口普查而进行统计的巨大努力。你知道,我们在纽约市的街道上安装了这些 Wi-Fi 中心,现在也安装了数字广告。这就像名人们说,确保你被统计在内,确保你有发言权等等。而其他州,通常是红州,则没有。

花费大量资金来确保人们对人口普查做出回应,这在某种程度上有点像搬起石头砸自己的脚。但这里确实存在一个政治方面,那就是纽约是那些非常勤奋的地方之一,而其他地方则没有那么勤奋。是的。这一点,我的意思是,我认为有些人非常合理地担心,你花在这场运动上的钱的数量

可能会影响你被统计的程度。当然,纽约州花费如此多的钱进行统计是有原因的。为了回答你的另一个问题,人口普查除了代表性之外,主要做的一件事是它有助于分配数万亿美元的联邦资金,并且

其中很多已经越来越自动化,国会现在很少直接将资金投入到各个地方。它说我们将根据人口普查来分配这些资金——

直接人口普查统计数据以及人口普查估计数据。这件好事,也许能让一些听众稍微安心一点,那就是人口普查并不是最终决定,对吧?所以人口普查局不想人口过多或人口不足。它希望获得尽可能准确的统计数据。

美国人口普查可能是美国最重要的数据集。它决定了华盛顿的政治代表如何分配,以及数万亿美元的联邦资金如何分配。但人口普查中包含的数据不应总是被视为理所当然。加伦·德鲁克与历史学家丹·布克谈论了他的著作《民主的数据:美国人口普查中的隐藏故事以及如何解读它们》。了解更多关于您的广告选择的信息。访问megaphone.fm/adchoices</context> <raw_text>0 因此,它可以使用随后通过人口估计计划进行的数据和建模,实际上意味着——使其成为这些数字——他们可以弥补一些这些错误计数。因此,当他们在随后几年分配资金时,它会更准确。至少我们希望它更准确。不过,你在书中提出了这个想法——我并不是说这就是纽约发生的事情——

人口普查确实存在虚报的情况,这在人口普查做法比较阴暗的年代尤其是一个问题,那时都是调查员挨家挨户地进行调查,实际上是编造人口。这方面有什么历史?我的意思是,多年来出现了一种关于人口普查欺诈的精彩词汇。因此,虚报是总称。

调查员采用这种特定方法也有其自身的术语,称为“路边计数”,因为其想法是调查员会去某个地方,坐在路边,然后开始写下他们编造的所有这些人的名字。在其最严重的体现中——所以在19世纪末和20世纪初,我们发生过许多此类重大事件——

这些将是协调一致的事件。所以这不仅仅是一些懒惰的调查员,而是那些有兴趣试图将业务吸引到他们城市的当地支持者。因此,他们会付给许多调查员来编造大量的个人。现在你可以回到人口普查记录中,我们可以找到——我有一位研究员,伊森·索,他浏览了,我认为是在——

也许是威奇托?我不记得他去了哪个地方。但他去了,找到了许多人,他就像,哦,这些都是完全编造的。这绝对是一大堆——就像一系列编造的家庭。而这一切都是当时腐败的机器政治的一部分,甚至获得调查员的工作也像——

一个舒适的职位或一些——当地政客给予其选民的奖励?是的。我的意思是,因为它——我犹豫是否将这两者如此紧密地联系在一起,因为仅仅因为它是一个裙带关系的工作并不意味着他们一定会编造东西。

好的,是的,是的。

而人口普查的历史,如果有什么的话,它告诉我们的是,当你进行大规模动员时,当你需要成千上万的人参与这件事时,政治与统计之间根本没有区别。因此,在大多数人口普查中,都存在某种机制,国会通过这种机制进行干预是有道理的。

鼓励参与这一过程,无论是将其代表权与之联系起来,还是说,好吧,我们需要你。如果你是当权者,如果你的政党控制着国会,我们将赋予你权力来决定应该雇用谁,然后应该雇用谁来担任这些调查员。

检查一下,大多数情况下,这些国会议员希望进行准确的统计。如果没有准确的统计,或者他们没有统计所有的人,他们可能会失去他们的席位。所以有一种——我的意思是,对吧?它可能强调他们创造——发明个人,对吧?那里确实存在这种可能性。但还有其他机制来尝试发现和防止这种欺诈行为。是的。

你这样说,统计和政治在人口普查中是密不可分的。我认为这是一个非常重要和有趣的观点,因为它是一项非常重要的统计工作,会影响商业、治理和各种事情。我们已经稍微触及到的一个领域是,政治已经

参与其中并进行了辩论等等,那就是我们实际上问人们的问题。在收入、公民身份方面,我们过去会问30个问题。事实上,在你的大部分书中,你深入研究了1940年的人口普查,因为72年后,他们揭示了人口普查的个性化数据。在你写这本书的时候,这是最近一次发生这种情况的人口普查。现在我们也有1950年的数据。但在当时的1940年,他们问了30个问题。现在我们只问10个。

为什么?发生了什么?一个答案是出现了新的技术可能性,对吧?所以我们正在讨论抽样是如何从20世纪40年代开始成为可能。一旦有可能将赌场带入人口普查,并开始使用概率方法对每个人进行全面统计,然后像抽取样本一样,在这种情况下,在1940年的人口普查中,它是人口的5%样本。

在接下来的几十年里,人口普查局开始将一些问题从他们越来越多地称为“简表”的东西转移到他们当时称为“长表”的东西中,其中然后会有大约20%的人口样本会被问到比那更小群体更多的问题。所以部分原因是认为这将——这减少了对个人的负担,并有望提高那里的回复率。

另一件事正在发生的是,在20世纪60年代和70年代,左翼和右翼都发起了支持隐私的严重政治行动,并对隐私表示担忧。因此,当人们开始说,我们不确定是否希望政府了解我们这么多信息时。

抽样成为人口普查局可以这样说的一个非常方便的方法:“好吧,很好。我们将通过简单地不问他们中的许多人这些问题来确保许多人的隐私。”我们看到这种动态在收入方面发挥作用。我们刚才谈到了这一点。1940年,当向每个人询问收入时,这非常有争议。不出所料,在1950年,它成为一个抽样问题,因此只有五分之一的人会被问到他们的收入。

作为一种试图压制其中一些的方法。公民身份也是一个抽样问题。对。是的。所以他们试图将许多这些可能被视为更敏感的问题从该表格中移除。

你是一位播客听众,这是一个播客广告。通过Lipson Ads的播客广告吸引像您一样的优秀听众。从数百个提供主持人推荐的顶级播客中进行选择,或在数千个节目中投放像这样的复制广告,以通过Lipson Ads接触您的目标受众。立即访问LipsonAds.com。网址是L-I-B-S-Y-N-Ads.com。

你是一位播客听众,这是一个播客广告。通过Lipson Ads的播客广告吸引像您一样的优秀听众。从数百个提供主持人推荐的顶级播客中进行选择,或在数千个节目中投放像这样的复制广告,以通过Lipson Ads接触您的目标受众。立即访问LipsonAds.com。网址是L-I-B-S-Y-N-Ads.com。

我们已经非常习惯于,尤其是在像这样的播客中,在像FiveThirtyEight这样的网站上,以某种方式对人们进行分类,例如种族、教育、收入。人口普查,我们所提出的问题以及我们拥有一个人口普查本身,如何塑造我们对自己的看法?这是我在写这本书时提出的主要问题之一——

我的意思是,在像这样的播客中,我可以说米歇尔·福柯的名字吗?尽管说吧。有一些理论家谈到了人口、他们的身份是如何被塑造的——

通过国家如何产生类别并将这些类别强加于人们的方式,然后通过这种方式,他们开始以不同的方式了解自己。这有点正确,对吧?确实,人口普查有助于产生这些类别。“白人”之类的类别实际上在某种程度上是人口普查的发明,然后在不同的时期、不同的时间包含不同的人,并帮助他们通过这个过程来了解自己。

但人口普查中一件非常有趣的事情是,72年后我们可以看到每个人的记录,然后我们也可以看到每个人都在努力弄清楚我该如何融入这个系统,对吧?国家可能会给我们一系列类别。

但随后是这个人查看表格。如果有调查员参与,调查员也在那里。他们基本上是在互相交谈,并试图弄清楚我该如何处理我自己的特殊情况,并试图找到一种方法让它适用于此表格。所以对我来说,在这本书中,让我对这个问题真正感兴趣的一件事是——部分原因是出于对欺诈的担忧,人口普查对关系问题有这个类别。

其中——所以这种理论是,如果调查员还必须编造合理的家庭结构,那么他们编造合理的家庭就会更加困难。所以有一个户主,然后家庭中的其他人必须——必须与户主有关系。它的结构方式非常适合——

像一个非常直的家庭。它假设男性户主。它假设有一个女性是配偶,卡片本身写着户主,然后是WF代表妻子,对吧?所以它就像内置的结构一样,这将是一个异性恋家庭。那么像同性恋家庭,它们确实存在于20世纪40年代,它们是如何解决并融入人口普查的呢?我的意思是,有很多不同的答案,其中一个答案是存在一个这样的——

可以接受的类别。就像它出现在一些说明中,而没有出现在其他一些说明中一样,称为伴侣,事实证明这是同性恋群体中人们能够将自己识别为家庭成员并融入数据系统的一种机制。他们是否因此而在他们的社区中谈论自己是伴侣?

实际上,我不知道。在这里,我们讨论的是一些具体的情况。人口普查的结构显然适用于当时居住的大多数人。因此,当我们放大并考虑,好吧,这些是我们按种族、教育、收入、城市、农村、人口密度对大众进行分类的方式时。这如何塑造我们今天对自己的看法?

对。我的意思是,我们花费大量时间的原因之一,而且我们在种族标签周围看到了很多倡导,正是因为当所有这些最终被制表时,除了我们与调查员交谈并弄清楚我们如何被贴上标签的问题之外,对吧?在这些句子的大部分时间里,调查员会查看一个人并为他们指定一个种族,然后将其写下来。但是当这些被制表时,这些类别及其相关的数字

塑造了政客看待其选民的方式。它实际上使人们对他们的政治代表可见。因此,我们经常看到关于尝试更精细地区分种族群体的论点的原因之一是,我们看到或看到关于尝试在人口普查中提出性取向和性别认同问题或这些细分问题的论点。

是因为这比实际获得某个群体的代表性更容易,对吧?当你出现在人口普查中,当你的类别存在于人口普查中,当表格上有你的数字时,你可以向有政治权力的人或向你出售商品的人证明,看,我们是一个市场。我们是选民。我们是选区。以下是数字。你可以看到我们很重要。西班牙裔美国人是如何被认为是白人的?

在1930年,对吧,所以第一次有人提议创建一个墨西哥种族类别。最初发生的事情是,这并不清楚,这尤其具有争议性。

许多在1930年及之后的人口普查中被贴上墨西哥标签的人注意到大约在同一时间发生了一系列其他趋势。这是种族隔离的时代,对吧?所以就像在整个南方一样,白人和黑人之间存在严格的种族隔离。

因此,被贴上非白人的标签,尤其是在南方,会带来真正的危险。因此,20世纪30年代对墨西哥种族类别的这种构建受到了许多墨西哥裔美国群体的质疑。墨西哥本身,对吧?最终,他们也吸引了墨西哥政府。

说这不可能发生。我们需要你删除此类别,从今以后,所有被贴上墨西哥种族标签的人都成为白人种族。这只能被理解为对南方种族隔离的恐怖和恐怖的一种回应,在这种回应中,处于白人之外实际上是危险的。其他种族和民族类别是如何随着时间的推移而发展和变化的?

因此,当我们想到第一次人口普查时,它为不同年龄段的白人列出了三个类别,我认为男性有几个,女性有一个,然后是自由有色人种和被奴役的人。这是因为宪法是建立在这种妥协之上的,在这种妥协中,被奴役的人将被计算为个人的五分之三。

然后白人被区分开来,因为人们有兴趣弄清楚基本上是服役年龄或纳税年龄、劳动年龄、工作年龄的人数。但所以在第一种种族类别中,它建立了一个白人和其他人类别。是的。

很快,这在19世纪迅速蔓延到各种不同的种族类别,然后追踪,我的意思是,当时的种族政治变化。所以就像人们越来越担心种族间关系一样,我们看到这些——

既害怕这一点,又越来越渴望在种族隔离制度中监视人们。我们对黑人进行了多种不同的分组,如混血儿和四分之一黑人以及这些类别。后来,我们在1940年看到了其他类别的引入,

人口普查中的法律类别包括印度教徒作为种族类别,日本人、中国人被列为种族类别。它们最终会产生相当大的影响,对吧?1940年,发生的一件事是,当美国加入二战时,

人口普查局被问到,好吧,人口普查局想让自己有用。因此,它早期做的一件事就是对德国人、意大利人和意大利移民进行了相当细致的统计,但也对任何具有日本种族血统的人进行了统计,尤其是在西海岸,这促进了二战期间对日本人的迁移和监禁。所以听起来这里有一个真正的推拉,介于

想要特殊分类以便证明你的数字或你的政治权力等等,但也在其他情况下不想要它,以便避免以某种方式成为政府的目标。

我们经常谈论这个故事的一种方式是,在人口普查的最初150年中,这是一个非常明确地用来执行白人至上主义的数据系统。因此,在这种机制中,这些计数的建立是为了确保白人人口继续在

从20世纪50年代、60年代开始,由于民权活动家和其他各种政治活动的影响,人们开始扭转这种局面,突然将代表性和可见性作为获得政治权力的工具。这就是为什么长期以来,可见性可能——特别危险的事情,现在可见性越来越被认为是必要的,以便能够对抗之前数百年的歧视。

我们现在可以有哪些方法——人口普查可以有所不同。我们可能在人口普查中包含哪些不同的类别,这些类别将如何塑造我们理解国家或在政治中谈论国家的方式?我的意思是,现在正在考虑的一件事是我们的新指南,它将种族和民族类别合并到一个问题中,这长期以来一直是——人们一直在考虑,并且有——

来自各个不同方向的论点,说明它是否有意义,以及担心通过合并这两个问题,有些人只会选择其中一个框。这里的技巧之一是,在当前的种族制度下,你可以点击多个框。但是精明的“人口普查观察者”会看到这一点,并说,哦,我可能会这样做。

但我也知道,当人们最终发布这些表格时,他们通常会将勾选多个框的人放在像两个或多个框的保护伞下,而不是让我代表我所属的其他种族群体之一。因此,我们面前的一些事情可能是关于如何合并其中一些问题的论点。当然还有另一件事……

人们谈论很多的事情是性取向和性别认同问题,看起来我们将来可能会遇到这些问题。当我们想到特别是在越来越多的法律可能使拥有变性儿童变得危险时,例如在某些州,它会引发什么问题。

这将使人口普查问题、人口普查结果的保密性成为一个持续且非常严重的问题,因为一旦我们有了性取向来提出任何问题,我认为应该存在的问题,它只会让人们诚实地回答。它必须真正相信这些将是保密的回应。是的,我明白了这种推拉。你在书中写道,要找到故事和数据,我们必须拓宽视野,不仅要包含数字,还要包含产生这些数字的过程。是的。

这样做,有什么收获,我的意思是,一个收获可能是,它并不完美。而且,你知道,纽约在2020年真的搞砸了。但是,你希望人们从了解数据集具有人为造成的缺陷和人为偏见中得到什么?这正是你希望人们带走的东西吗?就像一旦我们知道了这一点,我们应该如何利用这些信息?

所以,对此有三个答案。就像,第一个,如果你是历史学家,那么你从中得到的一个收获是,这个数据集,就像,看起来可能只是一个数字表,也是我们可以阅读的东西……

就像一个讲述产生它的社会的故事一样,对吧?所以这不仅仅是因为它通过表格告诉我们美国是什么样的。我们可以查看此数据生成的每个阶段,它会告诉我们这些价值观以及该社会运作的方式。所以在历史上,你会称之为史学。在数据中,你会称之为……

数据——数据学?数据学。这听起来像是一种新的艺术形式。哒哒,哒哒,数据学。对。所以这是——我的意思是,一种方式,我怀疑并非所有听众都会特别热衷于这种方法。但是我认为另外两种方式非常重要——我的意思是,一种,你有点暗示了这一点。我认为这可以作为一种对抗数据怀疑的接种疫苗。

就像有这个——我们知道有一种一致的方法,那些想要煽动怀疑的人试图向人们展示非常普通的数据实践,然后说,啊!让人们对这种方法更有抵抗力的一种方法是向他们展示他们可以并且应该信任的数据集,例如人口普查局的数据集,例如人口普查,并说,看,这就是数据的样子。它是凌乱的。对。

我希望你习惯它的混乱,这样当你遇到生活中其他地方的混乱时,有时它确实应该被尖叫。但是,尖叫和拒绝使用它来制定政策决定之间是有区别的。然后最后一点是,我认为认识到这一点很重要——

深深埋藏在数据中的不确定性,因为它可以塑造我们如何依赖它。因此,自1920年以来在分配方面,以及自1970年代以来在联邦资金方面,一个重大举措是使此数据的用途自动化,其中人口普查局产生的数字看似非常精确,然后使用这种看似精确的数字来分配政治权力和分配资金,并且

我认为这不是一个好主意。我的意思是,我认为我们需要认识到——替代方案是什么?一个替代方案是找到方法来为这种差异留出一些空间。所以在分配方面,这是我考虑得最多的方面——

处理这些数字不确定性旧机制是通过增加份额来实现的,对吧?所以就像你会增加众议院的席位数量,这样较少的州——或者没有州会因为失去席位而受到惩罚。其他州也会随着利益的增长而增长,好处是,也有更多的代表。我对这一点持怀疑态度,因为最终它是一个零和博弈,对吧?你将拥有——

比其他州、比其他人成比例地多或少地代表。我不认为增加众议院的席位数量会改变这样一个事实,即如果人口普查中存在不准确之处,那么代表性中就会存在不准确之处。所以你无法摆脱它,对吧?你永远无法摆脱这些事情中的任何一件。

至少你不会从某个地方拿走席位,也不会通过——所以从情感上来说,它可能更容易接受。但是从功能上来说,它有什么不同吗?不仅仅是情感上,对吧?像——

这是关于有多少——你离你的代表有多近。如果出现错误计数,并且某个州突然失去了一名代表,那么突然——该代表——剩下的代表现在有更大的地区需要覆盖。

这种情况会持续恶化。如果我们正在增加众议院的规模,那么我们可能仍然是错误的,并且这里仍然存在错误。但至少众议院的规模,地区的规模正在减小。你有更好的机会掌握你的代表并得到代表。所以这就像不是对不断扩大地区的伤害,而是对错误计数的伤害。是的。

好的,很有趣。很有趣。我这里还有一个最后的问题,有点俗气,但我在你的网站上看到,在2023年,你正在教授一门名为“美国数字史”的课程。美国最好的数字是什么?或者什么是独特的美国数字?什么是独特的美国数字?美国最好的数字是什么?

我的意思是,我可以说538,对吧?我的意思是,你为什么不呢?这正是我想要的答案。我将选择538。你会把它包含在你的课程中吗?哦,是的。为了避免我们在这里过度沉迷,我的意思是,“美国数字史”的教训是什么?是关于统计数据如何随着时间的推移而发展吗?

所以我曾在不同的时间以不同的方式做过。所以有时我会选择一系列不同类型的有影响力的数字并观察它们。所以我们会看看像体重指数或信用评级系统或像分配数字这样的历史,我们会尝试追溯它们的历史。有时我会把它做得更像一个长历史思考,从

亚历山大·冯·洪堡四处游荡,非常仔细地测量——创造数据科学,对吧?是的,创造数据科学,当然。四处游荡进行精确测量以及这些有趣的数据可视化,从18世纪一直到《点球成金》,然后试图思考在不同时刻和不同时间我们如何以及为什么会有新的机构致力于进行量化。

但我的意思是,这正是它的意义所在。我一直将数字的历史视为一种文化史。所以我对机构如何以及为什么产生数字感兴趣。这些是什么意思?是的。我的意思是,在阅读你的书或再次收听你的书时,它让我开始思考,好吧。

在今天的美国,我知道男性平均身高是多少。所以我可以将自己与该平均值进行比较。就像你提到的体重指数一样,我可以将自己与该平均值进行比较。在没有数据的情况下,我不知道,就像,尤其是在党派问题上,我们总是谈论,有这么多共和党人和这么多民主党人,这么多人相信这一点,这么多人相信另一件事。在一个这种数据不存在的世界里,我们如何发展我们的数据?

你周围看看,说好吧,我不太高,就像这里的大多数人一样,并且

你是否认为自己是一个以非统计方式的矮个子?像,我们现在已经开始量化人们的所有不同方式的影响是什么?是的,不,这很有趣。我的意思是,重新构建的一种方法是,我们如何从规范由雕像设定转变为规范由统计数据设定,对吧?就像,你如何看待像,好吧,适当的身高是那里大卫雕像的高度,而不是像一个适当的

适当的身高。并且说到这一点,就像对于雕像一样,我认为是在19世纪90年代的世界博览会之一中,人类学家进行了经典的测量,对吧?他们测量了一大堆宾夕法尼亚大学的学生,或者类似的东西,一群精英大学生,取了这些测量值,取平均值,并从中生成了像理想美国人一样的雕像,并且

美国人口普查可能是美国最重要的数据集。它决定了华盛顿的政治代表权如何分配,以及数万亿美元的联邦资金如何分配。但人口普查中包含的数据不应总是被视为理所当然。加伦·德鲁克与历史学家丹·布克谈论了他的著作《民主的数据:美国人口普查中的隐藏故事以及如何解读它们》。了解更多关于您的广告选择的信息。访问megaphone.fm/adchoices</context> <raw_text>0 把它们放在展品上,人们可以去那里,然后像站在它们旁边一样,看看它们是如何适应的,并与这些,再次,像白人特权精英学生进行比较,他们当时是美国人应该是什么样子的榜样。所以,有一套独特的流程试图教人们理解自己,并思考自己与这些统计类别的关系,这也挺奇怪的,对吧?就像,尤其当你想到它的时候,因为统计数据应该是

分组事物。我最感兴趣的关于人寿保险的事情之一是这种尝试根据统计规范衡量个人的举动,因为你实际上不应该这样做,对吧?统计数据只适用于群体。它们不适用于个人。任何个人都不应该像统计数据那样。然后我们试图把个人,我们现在一直在社会中这样做,但这是一种奇怪的举动。

有趣。我的意思是,也许这在某种程度上可以看出,我将使用这个例子,因为它是我最了解的领域之一,就像在政治报道中,当你问很多人他们在某一组政策问题上的立场时,你会发现很多人会落在温和派类别中,因为他们

许多美国人没有左右意识形态上的一致观点,因为许多政策不一定彼此相关。例如,你是否支持关于医疗保健的X政策,但关于移民的Y政策可能与彼此无关。因此,那些没有接触MSNBC、福克斯或其他媒体的美国人确实持有这些意识形态上不一致的观点,他们被归类为温和派。但他们确实有具体的观点

对具体问题的看法,但这看起来像是他们左翼和右翼的结合,一种平等的结合。然后在媒体中,报道的方式是,所有这些温和的选民都对这个问题没有极端的看法,但是

他们恰好处于中间位置。他们想要共和党关于移民的政策和民主党关于移民的政策之间的平均值。他们想要共和党关于医疗保健的政策和民主党关于医疗保健的政策之间的平均值。然后我们走向世界,试图找到这样的人等等。对,没错。我们发明了这些温和派,他们实际上并不是一个单一的、连贯的群体。这让我想到我们经常听到的一件事,那就是

当我们考虑经济如何影响选举时,我可能在这个播客中听到过这个说法,对吧?那就是人们在一定程度上关注的是我的生活状况如何?但是,通常情况下,它是GDP。正是这些具有重大影响力的政治数字塑造了人们对经济的看法,并且这种看法比甚至他们个人的情况更能驱动投票。当然,犯罪也是如此。

这就是为什么你经常看到,比如,“你担心犯罪吗?”是的。“你担心你所在社区的犯罪吗?”不。是的。好吧,我们可以永远谈论下去。这是一个彻头彻尾的书呆子播客。我希望听众仍然喜欢它,或者正是因为它才喜欢它。但我们今天就到这里。所以,非常感谢你,丹。好的,谢谢你。我的名字是加伦·德鲁克。凯文·莱德和安娜·罗斯柴尔德在控制室。周涛负责视频编辑,查德威克·马特林是我们的编辑总监。

您可以通过发送电子邮件至podcast.538.com与我们联系。您当然也可以在推特上向我们提出任何问题或评论。如果您是节目的粉丝,请在Apple Podcast Store中给我们留下评分或评论,或告诉别人关于我们。感谢收听,我们很快再见。再见。