今天在AI每日简报中,AI是否真的会带来科学突破?AI每日简报是一个关于AI最重要新闻和讨论的每日播客和视频。要加入讨论,请关注我们节目说明中的Discord链接。♪
大家好,欢迎回到AI每日简报的另一期长篇阅读节目。本周,我们有一个非常有趣的话题。Hugging Face的联合创始人Thomas Wolff本周刚刚发表了一篇博文,对Anthropic首席执行官Dario Amodei一篇非常著名的文章提出了质疑。
Dario写了这篇文章,我们也在此阅读过,名为《爱的机器》,他在文中谈到了他认为AI在未来一个世纪将带来的积极影响。其中一个重要领域是科学突破,而Thomas Wolff似乎并不认同。他写的那篇文章叫做《爱因斯坦AI模型》。所以首先,我们将像往常一样,把它交给11 Labs版本的我来听这篇文章,然后我们会回来再讨论一下。
几天前我在一个活动上分享了一个有争议的观点,我决定把它写成更长的形式。我担心AI不会给我们带来一个压缩的21世纪。压缩的21世纪来自Dario的《爱的机器》,如果你还没读过,你可能应该读一下。这是一篇值得注意的文章。
简而言之,这篇论文声称,在一两年内,我们将拥有一个坐在数据中心里的爱因斯坦国家。这将导致一个压缩的21世纪,在这个世纪中,21世纪的所有科学发现都将在短短5到10年内发生。我读了两遍这篇文章。第一次我完全惊呆了。我想,AI将在五年内改变科学的一切。
几天后我又读了一遍,在重读的过程中,我意识到其中很多内容似乎是美好的愿望。在我看来,如果我们继续目前的趋势,我们实际上会得到一个服务器上的“应声虫”国家。但让我用我个人经历的一小部分来解释一下其中的区别。
我一直都是一个成绩优异的学生。我来自一个小村庄,在被麻省理工学院录取攻读博士学位之前,我进入了法国顶尖的工程学校。上学对我来说总是很容易。我可以很容易地理解教授的想法,考试创建者的意图,并且可以提前预测考试问题。因此,当我最终成为一名研究人员,更具体地说是一名博士生时,我完全震惊地发现我是一个相当普通、平庸、平庸的研究人员。
虽然我周围的许多同事都有有趣的想法,但我却不断地碰壁。如果书上没有写的东西,除非是已知理论的一种相当无用的变体,否则我无法发明它。更令人恼火的是,我发现很难挑战现状,质疑我所学到的东西。我不是爱因斯坦,我只是学习很好。或者也许是因为我学习好,所以我才不是爱因斯坦。
历史上充满了在学习中挣扎的天才。爱迪生被老师称为“糊涂”。巴巴拉·麦克林托克因“奇怪的想法”而受到批评,之后却获得了诺贝尔奖。爱因斯坦第一次参加苏黎世联邦理工学院入学考试就失败了。这样的例子不胜枚举。人们通常犯的主要错误是认为牛顿或爱因斯坦只是优秀学生的放大版,天才的诞生是线性外推顶级10%的学生的结果。
这种观点忽略了科学中最关键的方面:提出正确的问题并质疑自己所学到的东西的能力。真正的科学突破是哥白尼提出,与他那个时代的所有知识相反,用机器学习的术语来说,尽管他的所有训练数据集,地球可能绕太阳运行,而不是反过来。
要在数据中心创造一个爱因斯坦,我们需要的不仅仅是一个知道所有答案的系统,而是一个能够提出其他人从未想过或不敢提出的问题的系统。一个能写出“如果每个人在这个问题上都错了怎么办”的系统,而所有教科书、专家和常识都表明并非如此。
试想一下狭义相对论的疯狂范式转变,以及制定第一个公理所需要的勇气,例如“让我们假设光速在所有参考系中都是恒定的”,这与当时的甚至今天的常识相悖。
或者以CRISPR为例,它自80年代以来就被普遍认为是一种适应性细菌免疫系统,直到其发现25年后,詹妮弗·杜德纳和埃马纽埃尔·卡彭蒂耶才提出将其用于更广泛、更通用的用途:基因编辑,这最终使她们获得了诺贝尔奖。这种认识:“多年来我们都知道XX做YY,但如果我们一直都错了呢?或者如果我们可以将其应用于完全不同的概念呢?”
这是一个超越知识的思维或范式转变的例子,这实质上是推动科学进步的动力。这种范式转变很少发生,也许每年一到两次,并且通常在每个人都了解其影响后才会获得诺贝尔奖。然而,无论它们多么罕见,我同意达里奥的说法,它们在定义一个世纪的科学进步中占据了最大的份额,而其余的则大多是噪音。
现在让我们考虑一下我们目前用来衡量近期AI模型智能改进的标准。一些最新的AI测试例如被宏伟地命名为“人类的最后考试”或“前沿数学”。它们包含非常困难的问题,通常由博士撰写,但答案明确且封闭。这正是我在我领域中擅长的那种考试。这些基准测试AI模型是否能够找到我们已经知道答案的一组问题的正确答案。
然而,真正的科学突破并非来自回答已知问题,而是来自提出具有挑战性的新问题以及质疑共同观念和先前想法。还记得道格拉斯·亚当斯的《银河系漫游指南》吗?答案显然是42,但没有人知道正确的问题。这就是研究的本质。
在我看来,这就是为什么大型语言模型虽然已经拥有了全人类的知识和记忆,但却无法通过连接以前不相关的知识来产生新的知识的原因之一。它们目前主要是在进行“流形填充”,填充人类已知知识之间的插值间隙,以某种方式将知识视为现实的无形结构。我们目前正在培养非常听话的学生,而不是革命者。
这对于当今在创建优秀的助手和过度顺从的帮手的领域中的主要目标来说是完美的。但是,在我们找到一种方法来激励它们质疑它们的知识并提出可能与过去的训练数据相悖的想法之前,它们还不会给我们带来科学革命。
如果我们想要科学突破,我们可能应该探索我们目前如何衡量AI模型的性能,并转向一种能够测试科学AI模型是否能够例如:1. 挑战其自身的训练数据知识 2. 采取大胆的反事实方法 3. 基于微小的提示做出一般的提议的知识和推理度量
提出非显而易见的问题,从而引出新的研究途径。我们不需要一个能够用一般知识回答每个问题的A+学生。我们需要一个看到并质疑其他人错过的东西的B学生。
今天的节目由Vanta赞助播出。信任不仅仅是赢得的,更是被要求的。无论您是正在应对第一次审计的初创公司创始人,还是经验丰富的安全专业人员正在扩展您的GRC计划,证明您对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。企业使用Vanta通过自动化超过35个框架(如SOC 2和ISO 27001)的合规性需求来建立信任。
集中的安全工作流程可以将问卷调查完成速度提高5倍,并主动管理供应商风险。Vanta可以通过将您与审计员和专家联系起来以进行审计并快速建立您的安全计划来帮助您启动或扩展您的安全计划。此外,由于平台中使用了自动化和AI,Vanta可以为您节省时间,让您可以专注于公司建设。加入Atlassian、Quora和Factory等9000多家全球公司,使用Vanta实时管理风险并证明安全性。
在有限的时间内,本节目的观众可以享受Vanta的1000美元折扣,网址为vanta.com/nlw。网址是v-a-n-t-a.com/nlw,可享受1000美元的折扣。目前正在发生从使用AI来帮助您完成工作
到部署AI代理来为您完成工作的巨大转变。当然,在这个转变中,有很多复杂的问题。首先,在这些看似数千个代理中,哪些实际上已经准备就绪?哪些可以做到它们承诺的事情?除此之外,哪些代理实际上适合我的工作流程?什么可以与我们目前开展业务的方式集成?这些是超级智能代理准备就绪审计的核心问题。
我们构建了一个语音代理,可以扩展到您的整个团队,映射您的流程,更好地了解您的业务,找出您目前在AI和代理方面的现状,以便提供真正适合您和您公司的建议。
我们专有的代理咨询引擎和代理能力知识库将为您提供行动计划、建议和具体的后续行动,这将帮助您迈出进入新的代理型员工世界的新一步。要了解有关Super的代理准备就绪审计的更多信息,请发送电子邮件至[email protected],或直接给我发送电子邮件,[email protected],让我们为您设置我们有生之年最具颠覆性的技术。好了,现在我们回到真正的NLW。
我非常喜欢这篇文章。如果你允许我占用一分钟时间,我实际上有过一种奇怪的类似经历。当我还在高中时,我做了一件叫做学术十项全能的事情。这是美国的一项全国性比赛。在我做这件事的时候,全国大约有25000个孩子,竞争非常激烈。
它的一种版本后来出现在一部蜘蛛侠电影中,但这无关紧要。基本上,这是一项为期10个项目的学术竞赛,孩子们会学习一整年。当我提到学习时,我的意思是每天5、6、10个小时。为了说明这一点,我实际上会逃学去学习。我会去学校,但不是去上课,而是去教练办公室,坐在那里一整天学习。
连续两年,我都在全国排名前五,我有机会了解其他也在榜首的孩子们。他们共同拥有的一个特点是疯狂的努力意愿,但正如我后来发现的那样,大多数人在大学和职业生涯中跟踪他们的时间,都是非常墨守成规的思想家。他们来自拥有良好项目的学校,知道如何培养冠军,因此他们付出了努力并获得了结果。
我一直认为这些人会非常成功。我想,按照遵循非常具体的职业道路、获得高级学位以及获得稳定且高薪工作的资格来衡量,他们是成功的。但他们都不是颠覆者。他们都不是企业家。他们都不是建设者。显然,如果你听说过企业家的故事,最著名的那些,我们奉为社会榜样的那些,往往不是那种人。
他们往往是特立独行的。他们经常在传统学校表现不佳。他们有一种不安分、好奇心和一系列品质,驱使他们渴望更多,并愿意打破系统的规则来获得它。
现在,我在这里并不是对哪种生活方式更好做出任何价值判断。上帝知道,作为一个无法摆脱我创业倾向的人,如果我是那种孩子,我生命中的许多事情都会容易得多。但我认为这与我们目前的谈话有关,因为我们假设了当今大型语言模型之间存在一条直线,它们基本上就像你能想象到的最好的学术十项全能学生一样。
阅读过所有内容,学习过所有内容,现在可以记住所有内容并告诉你所有内容,但他们并没有为自己创造任何东西。现在,我对托马斯的问题是,让大型语言模型“以不同的方式思考”有多难?换句话说,这只需要不同的提示,还是真的需要完全不同的架构?
鉴于我们将科学成就和科学进步视为AI普遍认同的优势,我认为这些问题值得深思,也值得深入研究。现在,也许大型实验室已经对这将如何运作得出了一些结论。
例如,也许将独立的特立独行的天才作为大型语言模型的模型是错误的,而科学发现的实际方式是一千个由各种不同大型语言模型驱动的代理将想法相互碰撞,运行战争游戏场景测试,看看会发生什么。尽管如此,我仍然很高兴托马斯写了这篇文章。我认为这非常值得思考,我很期待看到人们实际会用它做什么。
不过,就目前而言,这就是今天的AI每日简报的全部内容。一如既往地感谢您的收听。直到下次,再见。