贡献者:Sara Geneletti 博士、Laura Gilbert 博士、Helen Margetts 教授 | 英国政府常规收集的数据集中包含大量信息。利用这些数据来了解政府政策如何改变人们的生活、帮助做出更好的决策以及让政府对其制定的政策负责的潜力巨大。 然而,这个过程并非一帆风顺。良好、庞大且具有代表性的数据集至关重要,而数据集往往远非完美,存在固有的偏差和缺失条目。数据清理既费时又费力,分析需要熟练的数据科学家。这些问题可以克服或至少可以减轻,将来政府政策可以基于从这些数据中得出的证据,并在实施之前在模型人群中进行测试。</context> <raw_text>0 欢迎收听伦敦政治经济学院的LSE活动播客。准备好聆听一些社会科学领域最具影响力的国际人物的演讲。大家下午好,欢迎来到LSE参加今天的活动,这是LSE未来愿景节的一部分。
我叫Cosmina Dorobantu,是LSE数据科学研究所的高级顾问。我很高兴来到这里,欢迎Sarah Giannoletti、Laura Gilbert和Helen Margits来到我们的在线观众和在座的观众面前。
Sarah是LSE统计系副教授,也是健康数据科学理学硕士项目主任。Laura是托尼·布莱尔全球变革研究所的AI高级主管,也是英国政府的AI专家顾问。Helen是牛津大学社会与互联网教授,也是LSE数据科学研究所的客座教授。
在我们开始之前,我先给大家做一些简短的注意事项。对于在座的社交媒体用户,今天活动的主题标签是#LSEFestival。请将手机调至静音,以免打扰活动。今天我们将探讨三个关键领域:政府数据带来的机遇,
使用政府数据的实际挑战,以及它在政策制定和学术研究中的未来发展。鉴于今天讨论的重点,我特别高兴能邀请到这三位专家,因为他们代表了与政府数据相关的全方位经验,从收集数据的系统到在政府内部使用数据的团队,再到为公共利益解锁见解的研究人员。
Helen在数字政府方面拥有数十年的经验,比大多数人都更了解支撑整个白厅数据收集工作的遗留系统。Laura拥有罕见的双重身份,她在COVID-19大流行期间曾在唐宁街10号领导了一个数据科学团队,身处政府的核心。
Sarah代表依靠公共部门数据为我们所有人带来新见解的学术界。所以我期待这次小组讨论,最后大家(包括我们的在线观众)将有机会提问。
但是,在我们深入探讨使用政府数据的实际挑战之前,我想先探讨一下它所蕴含的非凡机遇。当你通常询问拥有海量数据的人时,他们往往会回答大型科技公司,例如谷歌、Meta和亚马逊。
但政府也拥有海量数据,而且在许多方面,它比任何科技公司拥有的数据都更全面,因为它几乎触及公民生活的方方面面。因此,Helen,我想请问你,政府拥有和收集哪些数据?谢谢,很高兴来到这里。
能够在LSE谈论这个话题尤其令人高兴,因为很久以前我就在LSE撰写了我的博士论文,内容正是我们今天要讨论的内容。政府收集数据实际上是其与公民互动的一个副产品。如果你缴税、领取福利、申请执照、护照或许可证,你就必须向政府提供数据。
从这个意义上说,政府处于一种特权地位,因为为了获得那些基本功能或履行那些作为公民的基本职能,政府能够从你那里获取数据。从这个意义上说,政府就像一个瞭望塔或水磨坊,位于社会信息流的交汇点。
这意味着政府收集了几乎所有被其管辖人口的数据。现在这在绝对意义上可能仍然看起来不像大数据。与Meta或谷歌掌握的数百万人的数据相比,它并不大。
但就整个人口而言,它在大数据的意义上是巨大的,因为它涵盖了该国所有纳税人。它是所有领取债务福利或已领取福利的人。它是所有持有护照的人。这意味着它非常令人兴奋的数据,因为如果你想改进你向人们提供……的方式,你向人们发放护照或收取人们的税款或提供福利,
那么这些数据可以帮助你改进你的工作方式。或者它可以帮助你制定关于谁应该拥有护照的政策,因为它可以让你知道谁拥有护照以及分配了多少护照等等,这是一个非常简单的例子。因此,它可以帮助你更好地制定政策,我相信我们会讨论到这一点
我并不是说我描绘的这种地狱般的景象就是实际发生的情况,
但这些都是政府数据能够真正改进政府所做的一切的可能性,通过数据分析使其变得更好。不,感谢你的解释。Laura,你是设法使用其中一些数据的人之一,可以说是大流行期间最关键时期之一。你能告诉我们你运行过的一些项目以及它们产生的影响吗?
是的,我在2020年9月加入唐宁街,也就是大流行大约六个月后,我是第一位,也是目前为止最后一位数据科学主管。我在1月份离开了那里。数据科学团队仍在蓬勃发展,但不幸的是,级别不如以前了。政府当然拥有大量数据。不幸的是,政府并非一个实体。
它应该有一个很好的法律地位,但它实际上并非如此,因此数据分散在各部门。我坚信,应该制定更好的战略,更重要的是,应该将这些数据连接起来,因为目前我们确实拥有所有这些关于人们、他们的生活、他们的行为、他们的需求以及出现问题的信息
这有点像,如果你是一名医生,你有很多扫描结果,你可以看看谁得了癌症,但你就是不理会。你知道,这并不是一种很好的生活方式。当然,这就是我们所经历的,而且这种情况普遍存在。我曾经经营一家医疗科技公司。我可以毫不费力地获得人们的健康信息,而你无法在唐宁街获得这些信息。
也许有充分的理由,但它不是一个互联的系统。即使是关于政府绩效的相当基本的数据,在我待在那里的四年半时间里,我们花了很多时间去各个部门,在某些情况下是偷偷摸摸地,连接API,以便数据能够自动流动。因为在此之前,我们必须向他们索要数据。如果他们想把它发送给我们,他们会发送一个Excel电子表格。如果他们没有,电子邮件就会自动丢失。
所以,你知道,我们从一个数据零星地通过Excel电子表格输入的状态转变而来。在一个特别著名的案例中,有一个定期的数据馈送,这是一个表格的屏幕截图。你知道,你必须把它转录出来。这绝对是疯狂的。特别是当你想要弄清楚,比如说,项目是否顺利交付,而其他人可能不希望你知道这一点时,这可能是一场真正的战斗。
所以情况已经有了很大的改善,但我的意思是,大流行是一个特别有趣的例子。我记得我有一次非常令人沮丧的经历。所以我没在那里待多久。这是在11月,第二次封锁开始了。
我们很担心,我尤其担心,因为我们在大流行期间看到了关于全科医生的统计数据。全科医生诊所关闭了,由于人们无法预约全科医生,导致许多人患病和死亡。因此,在第二次封锁期间,下达了命令,要求全科医生必须保持营业。但是当你上推特时,你会看到很多人抱怨他们的全科医生去打高尔夫球了,他们无法预约,他们无法进去。
所以我认为,我们将弄清楚这是不是真的。所以我去了NHS,说,我想了解一下,过去一周的情况,
所有全科医生的预约,我想知道每个全科医生的预约数量,我还想了解去年这个时候的相同信息,只是一个快照。然后我们将找出哪些大致相同,哪些有很大不同。如果它们低得多,也许有充分的理由。但有人可以打电话给他们,问问他们在做什么。所以我们可以在这里进行实际的、相当人工的干预。我认为这是一个好主意。好的,我可以从那里获得这个日期吗?哦,是的,当然可以。
是的,这没问题。我们会给你提供数据。所以我等了一周,我给他们发了邮件,我又等了两周,我又给他们发了邮件,我给他们打了电话,然后我让别人给他们打电话,其中一位特别顾问给他们打了电话。我们就这样循环了一段时间,然后他们提供了一个表格,表格上写着,好的,呃,
在东南部有这么多预约,他们说:“看,这和去年一样。”我说:“我们不知道,因为可能是有些全科医生正在努力赶上进度。当然,你们的平均值是一样的。也许其他人仍然没有工作。我想要实际的全科医生级别的数据。”所以围绕着这件事,以及其他一些场合,事实证明他们没有收集数据。他们没有告诉我们。
所以他们说:“好吧,我们只是没有获得全科医生级别的预约数据。”他们说:“无论如何,这不会有用,因为许多全科医生都在进行电话预约。有时他们只预订一个预约时段,然后打电话给很多人,这根本帮不了你。”我看着他们,我说:“你在汇总什么?”
就像,如果你不知道构成它的任何单个信息,你是如何给我东南部的數據的呢?所以……这是一个非常有趣的系统,你完全正确,我们确实拥有所有这些数据,当然,我们有造成损害的潜力,也有提供更好的服务和对什么有效的更好分析的潜力
而很多数据由于没有得到很好的解决而被浪费了。它变得更加自动化了,但我认为我们在数据科学方面确实花费了大量时间,使用代理信息或使用公开数据来填补空白。
我听起来很悲观。我认为政府在这方面做得越来越好。人们越习惯数据馈送,特别是将数据公开不被用作打击人们的大棒,而是被集体用来解决问题,这正是我们试图做的事情。我认为他们会继续尝试这样做。我认为这种情况正在改善。
但是,是的,来自黑暗面的故事。是的,是的,是的。非常感谢你讲述这些故事。我不认为我们很多人实际上知道这些。好吧,当你没有其他数据时,你是如何给我汇总统计数据的?我的意思是,我可以想象。我认为我知道谁掌握了全科医生的预约数据,这不是政府,所以我明白为什么他们不会把它给你。你有没有一个项目的例子,你实际上设法获得了数据,并且能够用它做些什么?
很多,说实话,很多。所以,如果首相要做出决定,我们会获得所有我们可以提供的数据。我们通常会做一个预测模型,比如说,如果你选择了这个,那么我们认为会这样,如果你选择了那个,就会是其他的。如果你将它们结合起来,我们可以预期会这样。通常,如果这是一个特别的新政策,各部门会非常乐于助人,因为他们想把事情做好。所以围绕着从……的一切的许多决定,
多孔混凝土到各种交通运输决策、教育政策。实际上,几乎每一个重大决策背后都有一个数据科学仪表板,所以这非常非常普遍,只是它很难启动。很多都是关于人的,所以当我第一次到达那里时,他们实际上正在查看HS2,所以我们去了,我们得到了一个
我们有数据,我们有模型,我们可以真正帮助解决这个问题。它很漂亮,这是一个漂亮的模型。这是我们做的第一件事之一,我们向政策制定者们说,我们有一些很棒的数据给你,你想要吗?他们说,不,走开。 LAUGHTER
所以实际上,我很快就了解到,问题甚至不是数据。实际上,并非恶意,而是人才是问题。因为你所做的是与非常忙碌、压力很大的人一起工作。他们是各自领域的专家,因此他们认为他们不需要数据,因为他们认为他们已经知道答案了。
我们所做的大部分工作都围绕着行为科学,试图让人们进入一种思维模式,在这种模式下,他们会接受信息,这些信息可能与他们认为会发生的事情相冲突。我们在这方面非常成功。是的。然后在那之后,我们当然有了AI孵化器,它已经采取了诸如
我们实际上有很多关于处方的数据,主要不是来自政府来源,并且能够利用这些数据来构建一个试图阻止人们死亡的AI药剂师。我们认为,在英国,学者告诉我们,每年约有22,000人死于不良处方,这大约花费了10亿英镑。因此,在AI领域有一些非常有影响力的解决方案。
我认为我们并不经常考虑政府工作和运营的规模。有时我喜欢查看政府拥有的预算项目数量。超过50,000个。当你想到这一点时,在每一个预算项目背后都有一个政策决定。而政策决定是基于什么的?
Sarah,我也想问你,因为你是一位使用公共部门数据的学者。我想知道为什么政府收集这些数据如此重要,以及什么使这些数据对研究有价值?好吧,我是一名社会统计学家,所以我对了解政府如何运作、政策如何影响人们以及他们是否做对了感兴趣。因此,行政数据现在变得可用——这实际上是最近才有的事情。有一个名为ADR UK的倡议,
他们是经济和社会研究委员会的一个倡议,他们正在将所有这些行政数据提供给研究人员,使我们能够使用这些数据,并且在某些情况下还将数据集与你提到的内容联系起来,而我实际上正在研究其中一个数据集。因此,对于统计学家来说,这些数据非常令人兴奋,我的意思是,你知道,这里有所有这些信息,有数百万甚至数百万的人,任何在英国生活和工作过的人可能至少在一个数据集中出现过一次,如果不是多次的话,并且
它涵盖了所有英国国家,几乎涵盖了所有部门,例如社会保障、教育、儿童、健康。这真的,真的太棒了。所以我一直在研究其中一些数据集,特别是与利兹、爱丁堡和布鲁内尔大学的合作者一起使用司法部、皇家法院审判数据集,我们已经能够发现一些非常有趣的事情。例如,我们已经能够看到
例如,来自较贫困社区的人的量刑率存在差异。法官对来自较富裕背景的人更为宽容。此外,在种族差异方面,我们观察到
毒品犯罪是差异似乎集中的地方,而其他类型的犯罪似乎没有任何差异。当然,这些都是我们希望向司法部提出的有趣观点,看看你们将如何处理这些问题。我们只是触及了这些数据的表面,更多结果即将出炉。
我实际上正在研究教育部和司法部链接数据集。我认为这必须是一项巨大的任务,在个人层面将来自DFE的人们(例如学校信息、成就信息)与MOJ(例如参与刑事司法系统的人们)联系起来。因此,我们可以跟踪年轻罪犯的整个学校生涯以及他们接受的教育。
好吧,不是犯罪活动,而是他们与刑事司法系统的互动。这可以使我们能够理解是什么导致人们做出这些决定。他们特别感兴趣的是了解在诸如被收养和成就方面存在的种族差异。
这只是我的一小部分研究,对吧?现在有数百万人(我不知道,数百万可能没有,但数百万人)正在申请并从ADR UK获得数据,他们涵盖了许多不同的方面。昨天我只是快速浏览了他们的网站,我只是看了看从中产生了哪些内容。一些引起我注意的是,例如在威尔士,有一个数据集,他们发现……
癌症筛查率存在差异,少数民族、年轻人和来自贫困地区的人的筛查率较低。因此,这似乎是一个显而易见的地方,也许可以开展一场运动,你知道,在那里你可以提高筛查率并改善预后。然后是另一个数据集,它有一个名字,它是年度工时和收入调查。所以它基本上是人们为他们的工作赚多少钱。
这表明,当你查看所有雇员工作的总周收入时,仍然存在30%的性别工资差距。这些信息,我的意思是,我认为所有从事此类数据、此类行政数据工作的人,我们希望政府能够关注这些证据,并为了人民的利益而改变现状。是的。
你提到了链接数据,我认为,你知道,这对于这个国家来说是相当特别的,那就是,你知道,人们没有自己的标识符,这是因为人口一直反对使用身份证,这实际上当你坐在政府或作为研究人员时,使链接这些数据集变得非常困难。这是一项相当复杂的任务。
发现每次我出国旅行时,人们都感到非常惊讶,你知道,因为大多数国家,你知道你出生时就会得到一个分配给你的号码,这个号码会伴随你一生。但是我
尽管这在英国确实会发生。你的NHS号码在你出生前就被分配了。所以如果你出生在这里,你就有两个唯一的标识符。你拥有你的国民保险号码和你的NHS身份证。所以我认为,如果我们选择统一这两件事,这是一个非常有脑力的难题。而且没有太多……
它们之间不会有很多数据混淆。匹配案例将非常小众。这是非常可行的。这更多的是一件政治事情,通常情况下,政治阶层希望这样做,而公众强烈反对,正如你所说。
我的意思是,我认为它甚至不需要,也许有必要,我认为可能有统计方法可以克服直接链接个人。这只是不同群体意愿的问题。我认为是有意愿的。在我看来,ADR UK方面的人们非常乐于助人。他们非常乐于助人,即使需要时间。
我们谈到了使用这些数据的一些挑战,Helen,你的研究涵盖了政府与技术之间有时存在的问题关系。我想知道你是否可以简要介绍一下政府技术选择的演变过程,更重要的是,几十年前做出的决定是如何继续塑造,有时甚至限制了今天可能实现的目标。
当然,这是一种复杂的关系,但它一开始就很好。因为在二战后的20世纪50年代和60年代,当大型计算机系统开始进入美国和英国的政府时,它们确实,政府是领导者和创新者,甚至邮政局,
现在在大型计算机系统方面有一定的名气,当时实际上被认为是大型计算的前沿。现在很难想象这一点,但我认为记住这一点很重要,因为它让你看到这是可以做到的。没有什么政府特有的东西意味着它绝对无法开发系统。
此后,从20世纪70年代开始,政府,特别是美国和英国,特别是英国,逐渐将其系统外包或承包给特定类型的公司,称为系统集成商,这些公司承诺将所有事情都从你手中接管。
当政府开始难以应付这些系统时,这是一个非常不幸的事件巧合——随着技术的进步。当时,对于你们在座的公共行政学者来说,这是新公共管理的时代,竞争是关键词,政府职能的私有化,
一些在政府工作的人,显然不是那些让政府成为领导者的人,而是其他政策制定者和官僚们抓住机会,没有过多地参与任何类型的技术,因为他们对此并不了解,也不想弄脏自己的手。
因此,与系统集成商的这些合同变得越来越大,直到它们涵盖了整个部门,会以整体的方式将其系统外包。这造成了,正如Laura指出的那样,我描绘了政府数据的这种地狱般的景象,但政府在各种方面都有。
但现在它们被分割成更多部分,因为它们处于这些非常大规模的关系中。其中一些合同,例如税务计算机系统的合同,当时是世界上最大的合同。政府不再拥有管理这些合同的专业知识。
例如,当我在这里LSE攻读博士学位时,我去与当时负责该巨额税务合同的财政部支出部门的人交谈。我问该支出部门的负责人:“所以,你知道,你有很多专业知识吗?”我说,“你对税务新合同、税务计算机系统有什么看法?”
“好吧,它非常大,不是吗?”我说,“是的,它确实很大,但你对当时的提供商有什么看法?”他说,“好吧,它很新,不是吗?它非常现代。”我说,“是的,但是你们支出部门是否有任何专业知识来监督这26亿?”当然没有,但这当时是一大笔钱。他说,
“没有。我的团队里确实有人了解一些计算机知识,但这只是一个巧合。”他费了好大的劲告诉我他对此一无所知。这是一个巨大的问题,这部分上是……的故事,当然不是全部故事,但它讲述了邮政局及其会计系统是如何如此糟糕地出错的。
因为他们并没有真正控制自己的数据。事实上,在邮政局长和邮政女局长提出的Ryerson丑闻的诉讼案件中,邮政局面临的挑战是,会计系统中没有黄金标准数据。没有某种事实真相。
唯一能够控制并说明会计系统事实真相的组织是富士通,这家公司是造成许多问题的罪魁祸首。这种情况,你可以说,现在已经完全改变了。
但你不能那样说。你根本不能那样说,因为首先,这些公司构建的许多系统,即所谓的遗留系统,仍然存在。有些甚至,我不敢想象,但我甚至写博士论文时提到的那些系统仍然存在。这些系统不会产生可用数据。
为什么不会?因为政府实际上没有使用交易数据来反馈到服务中或反馈到政策中或获得Laura所说的那种见解的传统。根本就没有这种传统。因为政府当然以官僚主义而闻名,野蛮的官僚主义,对于你们在座的社会科学家来说。
在官僚主义中,数据保存在归档系统中,基本上,韦伯称之为档案。如果有人还记得我们过去使用它们的时候,它很适合查找关于某人的一条数据。它很好,不是很好。
但它不会产生任何数据。你无法分析一个文件柜。它只是不会产生用于分析的数据。当这些第一批计算机系统被构建时,它们允许某种程度的大规模处理和大规模更新。但在数据分析方面,它们实际上只是复制了这种情况。它们不会产生用于分析的数据。
所以我想我,我不是想为那些无法向你提供任何数据或不愿向你提供任何数据的人找借口,但事实是,那些早期计算机系统(现在仍在使用其中一些系统)并没有产生数据
如果它们产生了数据,政府将缺乏提取这些数据的专业知识。你介意我对此发表评论吗?你完全正确。但我认为人们需要理解,在某种程度上,这是故意的。这并非偶然发生。这里确实存在……
非常强大的负面激励机制,导致了这些事情的发生。你可以在整个机构的运作方式中看到它们,它们是采购工作做得不好的原因。在某种程度上,我们没有这些技术专家,我们应该做的是让一个知道他们自己如何构建它的人,然后可以追究被委托构建它的公司的责任,并且了解为什么你需要数据以及为什么你需要分阶段推出等等。而我们现在拥有的系统仍然主要由记者组成
贡献者:Sara Geneletti 博士、Laura Gilbert 博士、Helen Margetts 教授 | 英国政府常规收集的数据集中包含大量信息。利用这些数据来了解政府政策如何改变人们的生活、帮助做出更好的决策以及让政府对其制定的政策负责的潜力巨大。 然而,这个过程并非一帆风顺。良好、庞大且具有代表性的数据集至关重要,而数据集往往远非完美,存在固有的偏差和缺失条目。数据清理既费时又费力,分析需要熟练的数据科学家。这些问题是可以克服或至少可以减轻的,未来政府政策可以基于从这些数据中得出的证据,并在实施之前在模型人群中进行测试。</context> <raw_text>0 还有其他一些很好的例子。我想要人力资源数据。所以我找到了负责管理该团队的人。我们说,我们拿不到这些数据。我说,你在说什么?嗯,有一个人力资源系统。而且它已经外包了。合同条款不包括我们将数据从服务提供商那里取回。所以对于我们自己的员工,我们无法获得这些数据——无法获得可用的格式。你可以在屏幕上看到它。我有点说,什么?
这是怎么回事?他们解释说,你知道,在之前的决策中,这个系统被采购了。但实际上当时的考虑是,如果我们不拥有数据,我们就不会丢失它。因此,如果数据出现问题,我们也不承担责任,但这并不是事实。但是,如果你对从 GDPR 到数据管理的一切一无所知,你可能会这么认为。我无法对这件事出错负责,因为我没有持有它。
另一个例子是我刚来的时候,我被要求批准一个已经构建好的系统,它将交给一家非常大的咨询公司,对他们来说这是一个非常小的采购项目,每年仅为一百万英镑。他们想拿到高达三百万英镑,因为将会有第二组人使用这些数据,所以是第二个租户。他们说,嗯,我们想要三百万英镑来运行这个第二个租户。所以使用它的人数将从 16 人增加到大约 30 人。
所以我问,你是什么意思,你需要另外 200 万英镑?他说,嗯,你知道,我们需要另外 200 万英镑。所以我问,我想我应该看看。
我设法强迫某人给了我管理员访问权限。如果有人做过任何云开发,它是一个亚马逊网络服务,你知道,它有一个我们称之为 S3 bucket 的东西,也就是放置数据的地方。然后它有我们称之为 Lambda 管道或一些 Lambda 管道的东西,这只是一些 Python 代码,你可以从中获取数据,然后从中获取一些数据。就是这样。
然后它有一个用户访问和管理系统。在 AWS 中,通常的做法是设置这些安全组。你会看到这些人是最终用户。这些人拥有管理员权限。当新员工加入时,你添加他们,你移除他们。这个系统上有数百人,每个人都只有少量访问权限,没有分组,没有管理。那里有一些人已经离开了 18 个月。而且,你知道,这不是一个重大的安全问题,但这是一个管理非常糟糕的系统。
我说,为什么我们每年要支付一百万英镑?是的,我们请来了这些顾问,然后说,好吧,解释一下为什么你需要这额外的两百万英镑。他们给我们做了一个很长的演示。他们说了很多事情,包括解释说设置第二个租户需要 16 个开发人员日。我说,你听说过版本控制吗?
他们说,哦,当然我们听说过,你知道,但是,哦,你知道,有一些东西需要添加。实际上没有办法在系统崩溃时提醒人们。我的意思是,它是 AWS,你只需要勾选一个框。我的意思是,拜托。
然后在最后,最后一页是,嗯,你们是我们最宝贵的客户。我们不拘泥于形式。我们会派最贵的人来接听你们所有的电话。你知道,我们选择最资深的人。我们不需要最资深的人。我们需要做这项工作的人。所以取消了那份合同,然后回到了采购它的人那里。当你查看实际情况时,他们负责的是,我不会说得太具体,一个 IT 基础设施项目。
他们没有资格做这件事。他们也不允许雇人。他们没有人员编制。他们没有预算。但他们可以做的是,他们可以获得 300 万英镑的预算,交给这家大型咨询公司做这种事情,而我可以在一个下午自己完成,并且每周只需要管理大约五分钟。
所以,你知道,这并不是偶然发生的。这是系统激励机制的设置方式。那个人,为了完成他的工作,他不能雇佣合适的人。他们自己赚的也不多。他们不能自己出去做。没有办法做到这一点。他们甚至无法雇用任何能告诉他们应该构建什么的人。
但是他们唯一能做的事情是,他们可以拿到很多钱,他们可以把它给一家大型咨询公司,然后他们可以说,好吧,我现在要坐下来了,这不是我的问题,就像你说的那样。除非改变这种情况,并将系统合理化,以激励人们节省资金并提供更好的产品,除非存在积极的激励而不是只有消极的激励,否则我们永远不会改变它。
我想,我注意时间了,我也想给我们的可爱观众一个提问的机会。看,伦敦政治经济学院的节日是“未来的愿景”,所以我想让我们花一点时间来谈谈未来。而我对你们所有人的问题是,当涉及到政府数据时,
你们对未来的希望和梦想是什么?你们对治理、收集和使用最乐观的愿景是什么?比如说,五年后我们能达到什么程度?你想先说吗?好吧,好的,谢谢。所以,我的梦想是整个政策评估过程能够以某种方式得到规范,就像某种协议一样,就像你知道的,制药公司不能随便把任何药物投放到市场上一样。他们必须有一个评估过程,你必须评估它是否有效,它是否无效,
政策也必须这样做。它不能仅仅是,哦,这听起来不错,让我们去做吧,或者这是选民想要的,让我们把这个政策抛出去。所以我的愿景是,你从……
获取信息,行政数据,就像现在一直在生成的那样,你以某种方式整理它,如果你愿意的话,甚至可以用某种自动化的 AI 方式,然后那些似乎有效的东西就会成为某种政策干预的候选者,然后,你知道,会发生一些预测,模拟,模型,你知道,一些花哨的统计,但即使是花哨的也不必是。
然后它会被试用。它不会仅仅被抛给整个人群。我们会考虑一下,好吧,在我们所有人受到影响之前,我们可以在哪里试用它?你知道,在我们参与的另一个项目中,我们一直在研究普遍信贷对失业者心理健康的影响,情况并不理想。它并没有给人们带来好处,尽管有各种说法,但他们并没有比以前的福利更好。
所以我认为拥有一个测试方法、一个了解这些事情是否会在……之前起作用的方法非常重要,在你……之前不要这样做,不要被政治上的权宜之计所左右。然后我希望数据获取——数据获取过程也能更快一些,但是——是的。如果我们可以再添加一件事情。如果我们可以再添加一件事情,是的。而且永远不会有缺失的数据。那也很好。
我非常同意这一点。你谈论的是政策评估,政府实际上已经在这方面取得了相当大的进步。我曾短暂地担任评估工作组主任大约一年半的时间,他们很棒
自从他们于 2019 年成立以来,我认为政府主要支出中只有大约 8% 进行了任何评估。现在已经上升到大约 32% 进行了很好的评估,我们至少有一个想法的比例正在上升到 50%。而且还在不断上升。所以这对于未来来说是有希望的。我认为我真正想看到的,这将赋能你所谈论的一切,那就是数据的透明度。
嗨,我打断这个活动是为了告诉你另一个很棒的伦敦政治经济学院播客,我们认为你会喜欢。伦敦政治经济学院 IQ 邀请社会科学家和其他专家来回答一个智慧的问题。例如,为什么人们相信阴谋论?或者,我们能负担得起超级富豪吗?来看看吧。只需在你获取播客的任何地方搜索伦敦政治经济学院 IQ 即可。
现在,回到活动。因为实际上,系统的运作方式并非任何人都有义务实施
数据建议的政策。作为数据科学团队,我们的工作不是说,数据显示这样,因此你必须那样做。这是民选政治家或民选官员的工作。我们必须接受,有时我们会说,这里的数据显示这可能不是我们推荐的。他们会觉得政治形势是这样的,他们无论如何都会这样做。那是他们的工作。
我认为,这将继续是他们的工作。但是,如果数据是透明的,如果几乎所有东西都被公布,那么你就不需要那么多在政府中苦苦挣扎的小型数据科学团队了。任何人都可以查看它。你会发现政府外部有很多聪明的人来构建模型,也许是几个不同的模型,有不同的方法。你可以进行对话。你可以真正地让人们承担责任。所以当……
也许政治家们必须说,“是的,我知道数据并非如此,但我非常强烈地认为这是正确的做法。”我们会把所有这些都呈现出来。所以我认为我的愿景或梦想是大量的数据透明度,这样我们就可以进行诚实的对话,而且因为对政府的信任低于对 Facebook 营销人员的信任。
人们从他们比政府更信任的人那里购买 Facebook 上的东西,这在很大程度上是因为决策缺乏透明度,我认为如果数据是透明的,我们会看到其他东西,当然,这就是你所从事的工作。是的,我的意思是,获得数据非常困难。我的意思是,这非常困难,因为整个隐私问题。
不仅仅是个人数据,正如你所说,行政数据。让我们看看一切进展如何,让我们诚实地对待它,然后我们就有更好的机会改变它。是的,我相信你可以以一种仍然可以获得见解的方式汇总数据,而无需发布个人数据。好吧,不仅仅是这样,还有在哪里花费了什么?我甚至没有真正谈论个人数据。我对个人数据感兴趣,对不起。我认为行政数据,你在哪里花钱?你在关注什么结果?我不知道。
是的,正如我所说,我在伦敦政治经济学院获得了博士学位,我的博士论文中所说的很多事情仍然是正确的。我希望它们现在变得更不正确。所以我希望在五年后,我能像这样坐在这里。当我这样说的时候,劳拉不会说你是对的。她说,不,不,不再是这样了。
在我论文中写到的一件事是,目前政府与公民互动的交易数据并没有反馈到服务改进或政策制定中。当我写下这句话时,我认为这很不寻常,因为在我攻读这个博士学位之前,我来自私营部门,我认为这不可能是正确的。
我经常检查它是否正确,我希望它是错误的。我希望政府能够不断改进并对某种数据及其可以提供的见解做出回应。这就是我希望在五年后看到的情况。
不,这是一个结束我的问题的很好的理由。我们将向观众开放提问。如果你在线上,你可以将简短的问题输入问答框,我们将尝试回答尽可能多的问题。请包含你的姓名和隶属关系。但是,对于在场的各位,请举手。我们将采取——
每次三到四个。然后我们将回答它们。这需要大量的记忆力。我希望有人正在做笔记。我会做笔记,我会提醒你。你好,下午好。非常感谢你精彩的演讲。几年前我曾在伦敦政治经济学院攻读硕士学位。现在我在金融行业工作。所以你可以想象,数据是我每天都会听到的东西。我有一个问题。你是否担心
私营部门或公司非常擅长收集数据,而政府,根据本次讨论,似乎在这方面有所欠缺。你们能否从公司那里学习一些东西,以便更好地收集数据、更多的数据或进行更彻底的分析,只要收集和分析是合法和合乎道德的?
非常感谢。我的问题是关于是否有任何主动服务准备或服务交付方面的举措。例如,我们正处于热浪之中。所以是否有任何举措来考虑
利用天气数据并了解到,如果我们超过,比如说,30 度,这将影响人们的行为,从人口统计学角度来看,这将对各个不同领域产生影响。也许会有很多人逃离到沿海地区,这将给火车和道路带来压力。会有更多中暑的人,可能是老年人和年轻人,所以他们会在急诊室出现。是否有任何举措试图将这些联系起来并积极主动地开始……
更积极主动,而不是仅仅在公民和人们出现在这些特定的政府服务点时才做出反应,我们可以为这些事情做好准备,我想,在整合数据方面,这可能非常复杂。如果我可以问第二个问题,那就是关于萨拉博士关于某些群体可能存在数据收集差距的观点,你提到了筛查的例子。这是信任度低、意识低还是政策制定者和数据收集者的盲点造成的,因为他们可能并非来自这些社区,因此他们根据他们从历史上提供这些数据的群体中获得的数据进行概括。——我想这里有一个问题。是的,是的,是的,我们找到了。
我的问题是,你如何说所有这些数据都被交给……实际上是支离破碎的,它被交给这些私营公司,希望政府再也不需要接触它。
政府是否已经认识到这是一个严重的问题,它是否正在采取任何具体的措施来做我们一直在谈论的事情——集中数据,使其更容易访问,并找到足够的专业知识来正确地使用它?非常感谢。我保证我会回答这个问题,然后我们会回答它们,好吗?但我做了笔记。
感谢你的演讲。我去年毕业于伦敦政治经济学院,现在在诺基亚贝尔实验室担任人工智能安全研究的暑期实习生。我知道加文启动了人工智能安全研究所,我知道艾伦·图灵研究所也做了一些人工智能安全方面的工作。我只是想知道,在不同的组织之间,你们是否一起参与了一些项目,或者你们,你们如何支持政府政策,你们如何一起工作?谢谢。
太好了。谢谢。非常感谢你。好的,我们有一个问题,关于担心私营公司非常擅长收集数据,以及我们能从中学习什么?
你想让我回答吗?是的,当然。我也认为在某种程度上,我的意思是,很少有私营企业拥有政府那样的广度和范围。他们通常有一个商业模式,他们收集关于这方面的信息,正如你所说,如果他们是一家成功的公司,他们就有钱来处理它。
关于我们能从他们那里学到什么,是的,我的意思是,我认为我们应该从他们那里学习的东西,我已经在政府内部多次说过,并且从外部说过,一家公司管理其资金和数据的方式是非常有意的。
如果你是一家私营公司,你可能会将人力资源外包,因为存在规模经济,例如在人力资源软件中。可能不会放弃实际的数据权利,但是当涉及到对你的业务至关重要的数据、你的差异化优势、运行你的业务并使你成功的非常重要的数据时,你会在内部做得很好,并且会致力于此。这就是我想学习的部分。
如果你需要更多答案,那就太好了,谢谢……第二个问题是关于实践服务交付……我们能否,你知道,我们能否查看数据并了解接下来会发生什么,并积极主动地采取行动,而不是对……做出反应,我可以快速回应,但我希望劳拉能给我们一个很好的例子,我的意思是,这是一个很好的观点,我认为它确实
看,我的意思是,政府可以使用数据的方式有很多种。技术已经改变了,数据科学技术和人工智能在某种程度上更适合解决这类问题。但我认为,尤其仍然存在的一个挑战是这个问题
将来自政府内部和外部的不同类型的数据整合在一起,这正是你在这里需要做的。例如,在……期间
疫情期间,由于可以理解的原因,人们非常重视健康数据,当然还有来自卫生系统的数据等等。但是,经济与流行病学情况之间也存在复杂的相互作用。而且
很少尝试将这些数据整合在一起并全面地看待它们。我认为,对于你的天气数据,这里需要发生这种情况。你必须将许多机构整合在一起,以尝试模拟这种情况,即温度达到 32.6 度或今天的任何温度。
并考虑它们之间复杂的相互关系。
所以这是一个额外的挑战,但我希望劳拉告诉我有人正在这样做。不,这是一个很好的观点。我认为你确实需要考虑这个系统的激励机制。所以非常炎热的天气目前仍然相当罕见,但显然正在大幅增加。在我看来,铁路公司应该为此类事情做好规划。
他们选择不这样做的事实可能表明,我们运营和管理铁路的方式并没有激励他们这样做。而且并非所有公司都能做到这一点。我的意思是,我们不应该浪漫化这一点。好吧,你知道,他们可能会做错,但如果他们有非常严重的商业激励来做好这件事,我认为我们会发现他们可以做到,正如我们在疫情期间所做的那样。当然,对此有很多考虑。你是对的,人工智能可以提供帮助,因为我们可以自动化这类事情的分析。我们开始在医疗服务领域看到这一点。
人工智能开始推动许多后勤和供应链方面的工作。我昨天看到了一份与政府相关的分析,它非常强大,围绕着我们目前的一个主要问题,即与其他国家相比,英国缺乏空调供应,这就是为什么我们比更热的国家有更多与高温相关的死亡人数。所以肯定有很多分析正在进行。
我认为,随着系统在管理状态下变得更加依赖人工智能,我们将看到更好的结果,因为对人们来说会更加清晰。但是,再次强调,除非激励机制指向对……负责的人或公司存在惩罚,例如,铁路网络,如果他们无法应对天气,并且这种惩罚不会由实际解决任何问题的非常巨大的成本所承担。我不会看到它发生变化,因为人们就是这样。
萨拉,我想知道你是否想解决关于数据收集差距的问题。我认为有很多事情正在发生。肯定有——我的意思是,如果你看看可能没有窥探数据的人,你知道,少数民族或来自贫困地区的人,那里肯定缺乏信任。但我也认为,数据收集者可能并不特别愿意跟进。而且,你知道,那里
还有一些其他的……所以我们正在查看行政数据。这是一种记录收集。它并非旨在进行分析。如果你查看其他类型的数据集,英国有一整套队列研究,它们是为研究而设计的,并且付出了很多努力来确保你捕获……
代表性不足的人群,你可以解决这些问题。而行政数据,我想也许仅仅是因为它并非旨在用于研究,所以没有这个。这可能是它应该开始做的事情,这样我们就可以理解为什么有些人缺失以及为什么他们错过了这些事情。但是,我不知道,也许没有激励,也许不是经济上的激励,但是
政府真的想知道那些可能不会投票的人吗?因为政府的运气不好,所以有时我认为这有点恶意,但我
我不认为我曾经遇到过这种观点。我认为,一般来说,当政府进行分析时,政府确实有很多专业的分析师,而且我认为他们确实专业地做到了这一点。但是,你知道,也许我错了。不,不。我希望这不是正确的,但我实际上认为这不是正确的。很好,我很高兴。我会相信你。我们有一个关于所有数据都被交给私营公司的问题,政府是否意识到这一点?
所以那是支离破碎的东西被交给私营公司。是也不是。所以他们不一定认为这是一个问题本身。只有当你失去对数据的控制而他们获得对数据的控制时,它才真正成为一个问题。所以政府与私营公司合作,尽管我经常非常反对外包,但如果这种伙伴关系建立良好,这是一种非常有效的工作方式。
并且管理良好。而出错的地方在于,你根据该公司的建议,从错误的公司那里采购错误的东西,你需要什么。有人会带着他们可能已经构建好的东西进来,发誓说这是你需要的东西,然后它非常昂贵,它实际上并没有解决问题。我认为人们开始真正认识到这一点。我知道内阁办公室的乔治亚·戈尔登部长正在领导一种新的
采购方式,专门用于处理技术采购,并假设这进展顺利,我们当然希望如此,那么我们将看到更专业的技术采购,这将带来更好的数据管理,我们非常希望如此。所以我对此持谨慎乐观的态度。我的意思是,再次强调,不断变化的技术为我们带来了一些希望。我的意思是
特别是英国,事实上,我过去常常在我的学生在伦敦大学学院攻读公共政策理学硕士时对他们说,我说,如果你对计算机灾难感兴趣,公共部门的计算机灾难,你来到了第一名国家,你将度过一段非常非常酷的时光。在那段时间,你知道,人们,公务员正在逃避与任何类型的计算机、计算机合同或任何事情有关的任何事情。他们只是……
甚至不想与合同有任何关系。技术已经以我认为与之对抗的方式发生了变化。当然,这种情况仍在发生。仍然有像客户关系管理系统这样的大型事物,你知道,正在——大量资金花在了它们身上。但是,在某种程度上,人们更有意愿控制和管理这种情况。
我认为我们还有一个关于人工智能安全研究所和艾伦·图灵研究所是否合作的最终问题?
它非常具体,它非常具体,我的意思是人工智能或这种政府,你的意思是政府相关的机构,好吧,我的意思是,这取决于机构,这取决于参与机构的人,没有什么能阻止他们……这取决于他们有多忙……我的意思是,在图灵工作的人通常也与其他
研究机构和大学合作,所以他们在整个系统中相当融合。我不会说图灵和中央政府之间有很多交叉,因为他们做的事情完全不同,安全研究所正在测试模型方面做一些非常具体的事情。所以我们与安全研究所进行跨政府沟通,例如,获取建议,并且
然而,这个过程并非一帆风顺。良好、庞大且具有代表性的数据集至关重要,而数据集往往远非完美,存在固有的偏差和缺失项。数据清洗既费时又费力,分析需要熟练的数据科学家。这些问题是可以克服或至少可以减轻的,未来政府政策可以基于从这些数据中得出的证据,并在实施前对模型人群进行测试。</context> <raw_text>0 但是他们正在招聘人工智能工程师,政府中只有一个团队,即人工智能孵化器,正在招聘大量的人工智能工程师。他们都有不同的工作要做,而且都很忙。所以我认为没有恶意缺乏合作。他们只是在做一些具体的事情,我想。你怎么认为?我的意思是,人工智能安全研究所现在被称为人工智能安全研究所。当然是的。由于各种复杂的原因。是的。
无论如何。我的意思是,它也在做相当多的关于社会复原力和人工智能的工作。其中一些工作非常属于研究领域,并且它与许多大学都有合作,图灵研究所已经与人工智能安全研究所做了相当多的工作。所以,是的。
是的,我同意。我认为他们在某种程度上正在合作。我的意思是,人工智能安全研究所还提供研究资助,并故意与研究机构建立合作关系。但也与私营部门合作,我认为这非常重要,因为它实际上正在与大型科技公司合作,并且仍然可以访问模型,可以访问前沿模型。而且我……
你知道,我认为这是一件好事,因为一直以来都存在一种我们和他们之间的巨大倾向,以及学术研究和硅谷公司研究的双轨模式。我认为我们需要考虑如何在那里建立联系,因为
你知道,让这两条轨道不合作是不可持续的。我认为这是对的,以及政府以外的合作,他们也与其他政府合作,所以他们可能在政府内部合作不多,因为你不是,你知道,除了建议方面之外,没有自然的对接点,但我认为他们是一个合作的组织。
有人告诉我我们时间到了,但这对我来说,我希望对你们所有人来说,听到我们精彩的演讲者发言都是一次真正的快乐和机会。今天是伦敦政治经济学院节日的最后一天,有很多有趣的演讲和活动。如果你错过了,你可以在YouTube上观看。
但现在,非常感谢您参加本次活动。我们向劳拉承诺,她可以在6点整离开,所以她要赶紧离开了。但是非常感谢。请给他们热烈的掌声。
感谢您的收听。您可以在您最喜欢的播客应用程序上订阅伦敦政治经济学院活动播客,并通过留下评论来帮助其他听众发现我们。访问lse.ac.uk/events以了解接下来有什么活动。我们希望您很快能再次加入伦敦政治经济学院的活动。