您好,欢迎收听《人工智能的最后一周》播客,有时也称为《人工智能的最后两周》播客,在这里您可以听到我们聊聊人工智能领域正在发生的事情。像往常一样,在本期节目中,我们将总结和讨论上周一些最有趣的人工智能新闻。您可以访问节目说明,查看所有这些新闻的时间戳和链接。我是你们的常驻主持人之一,Andrey Karenkov。我将在下一期节目中谈论人工智能。
我在研究生院学习人工智能,现在在一家生成式人工智能初创公司工作。大家好,我是你们的另一位主持人 Jeremy Harris。很高兴在人工智能、人工智能国家安全方面看到大家。
blah, blah, blah, blah, blah。是的,我们本周有很多事情要处理,因为实际上是过去的两周。这是我们错过了上周一期节目的那些节目之一。这是我的错。现在我们将进行一些补救,看看会发生什么。是的,Jeremy,你似乎需要经常旅行。我开始觉得你可能是一个间谍,前往华盛顿并窃取人工智能机密之类的事情。我的意思是,偶尔你可能会听到听起来像俄语口音的声音,但是
实际上,这很有趣,因为你是有俄罗斯背景的那个人。但这就是间谍的工作方式,Andre。他们看起来似乎不可能更不像俄罗斯人,但我们在这里。然而,我不是间谍。你只是需要旅行去和人们谈论人工智能。是的,没错。
好吧,我们将很快进行,只是为了快速预览一下。在过去几周的工具和应用程序中没有重大新闻。只是各种各样的公告,发布了一些相当重要的版本,很多 1.0 版本或新版本的东西,一个新的 O3 Pro,应用程序和业务。同样,没有什么重大的事情,但在芯片方面、OpenAI 方面有一些有趣的发展。
然后是开源项目、研究,同样,各种各样的新闻,本期节目没有特别的重点。在政策和安全方面,我们将更多地讨论互操作性和安全性,以及一些国家安全新闻。实际上,我们将有一个合成媒体和艺术部分,我们已经有一段时间没有这个部分了,只是因为它总是在最后,但是有一些
一些新的版权诉讼和一些有趣的新伙伴关系。所以我们将继续添加它来涵盖它。SAG 也回到了新闻中。我们已经很久没有看到他们了。是的。是的。我们过去常常,你知道,去年有很多这样的事情,我们只是停了下来,现在是提及一些正在进行的新闻的好时机。
在我们深入探讨之前,想感谢一些 Apple 播客评论。感谢你们的评论。我收到一条评论,告诉我们继续努力,请,我觉得我们已经被告知很多次了。所以,这么说吧,鼓励是值得赞赏的,我们将努力继续下去,并使其尽可能每周进行。
另一条积极的评论。喜欢这个节目。CapEx、CapEx、CapEx。很高兴有些人同意。我们确实收到了非常详细的反馈,一位三年听众谈到我们可能更多地轮流介绍,我少带头,总是谈论下一个故事并进行设置。我们只是
最终在那里我们并没有计划让这成为节目的自然流程,所以它可能会像有机地出现一样有趣,因为所以我有不公平的优势,当你在浏览故事的布局时,我可以多考虑一下是的,看看我的笔记,就像嘿,你知道哦,是的,有这个东西,因为你可以想象我们正在报道,我的意思是本周将会有大约 40 个故事或每周类似的东西,就像
我们必须进行研究。我们对每一篇论文、每一个新闻故事都有大量的笔记。所以我不了解你,Andre。当我们切换故事时,我就像在争先恐后。我甚至想到了什么?哦,是的,这是那篇论文。好的。所以当你在优雅地进行你的介绍时,秘密是我在从笔记中阅读时实际上更擅长听起来有准备,因为你必须将它加载到你的 RAM 中,你知道吗?是的,是的。
更改上下文。我希望我擅长假装我有一个实际的脚本,而不是仅仅根据它随意发挥。是的,我会说,我认为我非常擅长过渡。但无论如何,我们稍后会尝试更多变化。
Andre 真的擅长过渡。就这样……就这样,让我们开始讨论实际新闻,从工具和应用程序部分开始。首先,我们有 OpenAI 向 ChatGPT 添加 O3 Pro,将 O3 价格下调 80%,并提到他们将把开源人工智能模型推迟到今年夏天晚些时候。这就是新闻的全部内容……
所以 O3 是他们的推理模型。现在我们有了 O3 Pro,它将取代 O1 Pro。它看起来非常好,开始与 O1 旗鼓相当。O3 模型的价格下降了 80%。这意味着每百万输入令牌 2 美元,而之前的价格是 8 美元。价格大幅下降。对我来说,这相当令人惊讶。
是的,O3 Pro 是新的,我希望如此。在基准测试中表现相当不错,优于他们的所有其他产品。所以这是一个很大的新闻。所以有一篇关于 O3 Pro 模型发布说明的文章,其中包含一些初步评估,对吧?给人们一种感觉,它与人类相比如何,以及与 O1 和 O3 中等相比如何。与人类相比,它令人印象深刻,值得查看所有内容的图表,基本上。
你会看到一个干净的横扫,该模型 64% 的时间比人类更受青睐。顺便说一句,这包括个人写作、计算机编程和数据分析。所以它真正涵盖了从您可以发出可量化奖励的事情到更定性的东西的一切。你看到了……
全面优越的性能。然后,在基准分数方面,我们看到了一些非常显著的改进,AIME、AIME 2024 在 O3 中等和 O3 Pro 之间从 90% 上升到 93%。这听起来可能不多。听起来可能是 3%,但一种思考方式是,一旦你已经达到 90%,
剩下的百分点就不多了,对吧?所以你会期望饱和基准测试非常困难。他们只是用这个去除了剩余错误的三分之一。这与 GPQA 钻石有点类似,那种博士级别的科学问题和代码力量竞赛代码。所以总的来说,再次强调,这些能力的普遍改进。令我尴尬的是,我之前没有注意到他们运行的一个基准测试。
他们称之为四分之四的可靠性评估。我只是想提出这一点,因为它很有意义,当然他们也在这样做,但我猜我还没有明确地记得在书面材料中看到过这一点。在这个评估中,只有当模型正确回答了所有四次尝试中的问题时,才认为该模型成功。所以你用同一个问题尝试四次,这是一种,你可以看到它在进入高风险场景中部署的代理时变得越来越重要。
你想确保代理始终表现良好,这样即使你测试它并且运气好,你也不会高估它的性能。所以无论如何,我认为这又是那些奇怪的简单的事情之一,但我还没有在其他地方看到过。记得在其他地方做过吗?是的,没错。通常你会得到……
一次通过或五次通过,基本上,你第一次成功了吗,或者你在几次尝试后成功了吗?他们确实给出了这些数字,但他们也给出了四分之四的可靠性评估,正如你所说,我认为这通常不是你在基准数字中看到的。而且
与一次通过的结果相比,这是一个不太好的数字。如果你告诉它四次都答对,你会得到更糟糕的结果。性能确实下降了。事实上,在某些情况下,例如 GPQA,性能下降相当显著,但 O3 Pro 仍然击败了所有这些。在评估方面,
使用人类测试人员。正如你所说,根据人类测试人员的说法,在科学分析、个人写作、数据分析方面,O3 Pro 比 O3 更受青睐,平均约 64% 的时间。所以,你知道,O3 有时差不多一样好,但大多数情况下,O3 Pro 更受青睐。
接下来,我们有 Cursor AI 编辑器,它的 1.0 里程碑,以及一些与之相关的版本,包括 Buck、Butt 和 Background Agents。所以 Cursor 是集成开发环境,是编程工具,它已成为程序员在工作流程中包含人工智能的主要竞争者之一。
所以 1.0 版本发布,可能不会被主要新闻媒体报道,但这确实是一件大事。正如我们现在所报道的那样,EnuSphere 在去年快速崛起后,估值非常高。因此,在这个 1.0 版本中,他们发布了 BogBot,这是一个 GitHub 上拉取请求的动画评论者。
还有一个测试版中的后台代理,它允许你在 Cursor 设置的远程环境中运行这些代理。所以基本上,
它正在进入代理领域,其中人工智能代理为你编写代码,为你工作,完全异步地远离你的窥探,然后向你交付一些东西供你评估。所以 Cursor 一直以来都有代理编码,并且他们一直在推动它。这是
朝着这个方向迈出的又一步,并且与其他努力(如 Google 的 Codex 和 Jules)一致,你确实拥有这些远程工作的编码代理,并在没有直接监督的情况下交付结果,这是直到最近人工智能配对编码的模型。
是的,我非常好奇从安全角度来看这将如何发展。例如,上下文,目前这种工作方式是代理实际上会分叉你的 GitHub 存储库,并拥有它自己的分支,就像它会发出 PR、审查 PR 和所有这些东西一样。
正如你所说,完全并行地在其自己的分支上。所以他们有一些关于安全方面的说明。他们说,嘿,伙计们,请记住,与那些看起来不像这样的现有 Cursor 功能相比,这些代理的攻击面要大得多。
他们确实说我们的基础设施尚未经过第三方审核。你知道,你在这里有拥有对存储库的读写权限的代理。对。所以这就像这是你的编写代码的代理的上帝模式。所以有人可以在代理上进行提示注入、数据中毒攻击或其他任何操作。
这可能是一件非常重要的事情。如果你将其部署在生产环境中,这将是一组非常有趣的新漏洞,绝对必须在这些工具的基本设计理念中得到解决。顺便说一句,我们稍后会谈到这一点,但是……
本周,微软也宣布了一个新的漏洞,该漏洞在副驾驶中得到了报道,其精神与提示注入式攻击相同。所以突然之间我们意识到你不能仅仅将代理部署到所有事物上,并假设安全性将保持不变。
无论如何,我认为 Cursor 将处于绝对的前沿,因为这些代理对代码库有如此密切的访问权限,并且能够自主地并行工作。所以我认为我们将学习很多关于最佳实践的知识。他们将不得不非常快速地发展,因为,你知道,我的意思是,在传统的软件中有很多网络攻击。是的,无限可能。是的,如果你正在使用各种贡献者的开源软件,尤其如此,并且
越狱可能非常微妙,也可能非常奇怪。代理仍在开发中。所以肯定会有办法让你告诉它删除所有代码之类的事情。
接下来是闪电轮,我们有一些简短的故事。首先,Mistral 发布了一对人工智能推理模型。所以 Mistral 是法国人工智能实验室,它已经发布了许多开源模型,并试图与 OpenAI 和 Frappic 等公司以及其他大型 LLM 竞争。
所以他们发布了 Magistral,一个推理模型,有两个变体,小型版本有 240 亿个参数,现在人们可以使用 Apache 2.0 许可证下载,完全开源。Magistral 中型版本可在其 Letchat 平台和 API 上使用。在评估中,它不如几乎任何领先的推理模型。
部分原因是它们与 DeepSeq R1 等模型相比更小。但是是的,我得到的总体印象是人们并不太 impressed。但与此同时,拥有另一个开源推理模型供人们构建是件好事。
是的,我仍然对 Mistral 的大方向计划感到好奇和困惑,除了成为由法国政府资助的法国冠军来做法国的事情之外。但我们将拭目以待。仅仅发布你的模型作为开源模型,然后托管它们的商业模式对许多公司来说似乎具有挑战性。我们将看看 RL 是否会改变这一点。我不知道。
我个人有点怀疑,但是是的,再次强调,对于这些评估分数,竞争确实非常困难。前沿发展如此之快,他们选择发布此模型的事实,你也可以从中解读一些信息。Facebook 决定,或者说 Meta 决定不发布最新 Llama 系列的某种最大版本,因为
显然表现不太好。如果你有一个平庸的版本,你会做这种事情。他们确实发布了这个版本,这表明他们可能并不一定计划在短期内让事情脱颖而出,所以他们不妨在此期间获得关注。这是你可以做的一种解释。我们将注意到 240 亿个参数
规模非常流行。这是一个不错的选择。我认为这是 Meta 努力解决的问题之一,他们只是不断推出这些没有人真正想使用的巨型模型。240 亿、320 亿,这些对于人们喜欢运行开源模型的硬件来说都是非常好的尺寸。所以
是的,这很好。我们将拭目以待。他们当然是的法国国家冠军,这将是值得的。但是是的,他们在竞争方面处于一个具有挑战性的位置,他们只是在对大型语言模型进行正面竞争。他们似乎真的热衷于,你知道,在 OpenAI 和 Anthropic 的各个方面进行竞争。上周,他们还发布了 Mistrial Code,与 CloudCode 等产品竞争。
所以基本上,在人们正在做的任何事情上,至少在 LLM 方面,而不是多模态方面,Mistral 都试图竞争,并且,你知道,让我们不要低估他们,但他们肯定有一个艰巨的任务才能做到这一点。接下来,Eleven Labs,文本转语音和文本转音频模型的提供商,
发布了他们的 V3 模型 11v3,这是他们文本转语音模型的最新版本。它能够产生更自然的声音输出。你甚至可以嵌入诸如大小或兴奋之类的更具表现力的提示,并进行细致的传递。这支持 70 多种语言……
是的,文本转语音,我认为对许多人来说,比大型语言模型、图像生成和视频生成等更不明显。但它确实取得了长足的进步。我认为它已经达到了一个地步,很难分辨出某些东西是人工智能生成的还是不是。是的,其中一件非常有趣的事情是,它让我想起了 Anthropix MCP 的代理方面,例如模型上下文协议或……
任何这些人们正在学习的关于给定模态结构的钩子,我们在这里学习的是,好的,对于开发人员来说,允许他们编程文本转语音的用户友好方式是什么,对吧?所以你指出了其中一个升级,对吧?所以你有这些特殊的大小或兴奋标签。示例,或者他们在这里给出的一个示例是,
我们做到了,感叹号,然后在方括号中,高兴地,然后在方括号中,大喊,然后在方括号中,大笑,对吧?这是你作为开发人员所需的这种能力,对吧?
事后看来这似乎很明显,但有人必须想到它并实现它。所以这真的很酷。有点类似。另一件类似的事情是这种具有逼真对话流的多说话者对话的想法。所以,当你制作文本转语音时,其中一个挑战是,你怎么知道,或者你怎么定义每个说话者的轮次?确保他们不会互相交谈,或者如果这是你想要的,确保他们会互相交谈。
所以他们有一个新的文本转对话 API,你发送结构化的 JSON 来定义每个用户何时轮到他们。然后模型会自动处理这种情绪变化、中断以及通过该镜头进行的对话的自然流程。所以再次强调,这是一件你直到开始理解之后才意识到你需要的事情之一。
使用文本转语音制作内容,尤其是在娱乐方面或试图创造真正自然的对话流程。所以真的很酷。正如你所说,支持大量语言。所以是的,我的意思是,Eleven Labs 仍在做令人印象深刻的事情。是的,Eleven Labs 是该领域的市场领导者。所以绝对值得了解。
接下来,是文本转视频。字节跳动正在加入 CDance 1.0 的竞争。所以这是他们最新的视频生成模型。它试图与 Google 的非常……
流行的视频生成模型 VO3 竞争。这个模型能够在大约 41 秒内生成 5 秒的高清视频。所以生成速度非常快。字节跳动显然计划将其 CDance 集成到其平台(如 Dobao)中,用于专业和公众使用。
是的,他们作为 TikTok 母公司的一个主要优势当然是访问海量视频数据。我想这会让你对……A,他们也会从 YouTube 视频中窃取数据,这让我有点好奇。这不会阻止他们。
尤其是一家中国公司,这在过去并没有阻止 OpenAI。如果你还记得 Mira Morani 的某种著名的演示失误,当时有人问她,我认为是关于 Sora 的,对吧?你从哪里得到的数据?你是从 YouTube 得到的吗?她说,我不记得她说了什么,但她看起来很不舒服,对许多人来说,很明显有些事情发生了,但 TikTok 肯定可以访问,
可以近距离接触大量数据。他们指出的有趣的事情之一是他们可以处理具有多个摄像机角度的复杂序列,并在整个过程中保持角色一致性。
这是,你知道,人们谈论了很多的整个世界模型构建线程的一部分。你知道,文本转视频、图像转视频模型是世界模型吗?它们包含世界模型吗?当然,一个大问题总是,好吧,如果它们包含世界模型,它们应该能够模拟现实世界的物理现象。这包括诸如物体持久性之类的事情。这包括诸如物体一致性之类的事情。所以这有点暗示了这一点,我们对架构本身知之甚少。所以,你知道,也许其中一些是某种程度上内置的
具有归纳先验,它实际上并不是学习的,很难知道,但这当然令人印象深刻。我认为可以说,令人信服的人工智能生成的视频世界现在已经出现了。对。与 VO3 不同的是,它不能生成音频。这几乎只有 VO3。所以 Google 令人印象深刻地占据了文本转视频领域的领先地位。是的,我认为值得指出的是
很可能是因为他们拥有 YouTube,他们只是可以在 YouTube 上进行训练,而其他人则不能。到那时,他们可能能够因此而竞争。好吧,音频也不是一件小事,对吧?随着这些模型在越来越多的模态上进行训练,我们正在进入一个获得积极迁移的世界。
视频和音频是如此因果地交织在一起,对吧?就像你想象一下尝试创建一个世界模型,字面意思是如果你失聪,就像你看世界,你可以创建世界模型,但如果你也有听力,你可以更快地了解世界。对于人工智能系统来说,尤其如此,鉴于这些系统不是用强化学习训练的,它们不能进入世界并与事物互动,拥有额外的模态来进行交叉关联
物理学,你看到某人的嘴张开,声音往往会出来,就像,好吧,这告诉你一些关于嘴的功能和它的物理学的信息。你知道,汽车碰撞和由此产生的声音也是如此。所以无论如何,我实际上预计,在一个几乎整体的基模型中包含音频,如果你愿意的话,对于从提示遵守到世界模型开发的一切来说都将是一件非常重要的事情。
说到 VO3,Google 也发布了一个公告。他们正在推出一个 20 美元的人工智能专业计划,让人们更多地使用 VO3。他们正在发布 VO3 Fast,它能够比 VO3 更快地进行生成。VO3 相当……
使用起来很慢。它需要,忘记确切的时间了,但需要几分钟。所以这允许你花费,比如说,不到一分钟
现在 Gemini Pro 订阅者可以使用 VO 免费快速每天创建最多三个视频。这似乎确实如此,Google 的服务器和 GPU 已经被试图使用 VO 的人挤满了。很多东西都不起作用。所以如果这是为了满足需求而匆忙投入生产,我不会感到惊讶。是的,我的意思是,我继续认为
不久的将来,我们将能够为每秒等待时间生成一秒钟的视频。换句话说,你将能够像提示生成一样快地生成视频。一旦我们跨越这个门槛,在生成方面就会有额外的计算能力,我希望这将开始致力于成瘾。
所以,你知道,想象一下你的 TikTok 信息流,但是如果你通过例如相机甚至你与应用程序的交互来获得生物识别数据,这些数据会导致视频根据你所看到的内容实时修改。对于最终会发生的事情,这是一个非常黑暗的兔子洞,计算能力充足。我认为,从社会层面来看,这个门槛将非常关键,因为它
我们甚至如何看待这些应用程序。这与根据提示从头开始生成新应用程序的能力非常相似,对吧?应用程序本身突然变成了这种易于改变的东西。好吧,这有点类似,但用于操纵屏幕上的像素来刺激你,
当后端运行的优化过程运行速度与人类生物物理响应周期一样快时,会发生什么还不清楚。我认为,这是我们即将进入的一个非常非常有趣的阶段。我们将看到许多有趣的现象,包括心理现象和其他现象,从中出现。是的,我认为你可以说这与去年的代理类似,因为我们之前谈论了很多代理。
肯定要追溯到 2024 年,但直到最近几个月,代理才真正成熟并对诸如 Cursor 代码之类的东西产生巨大影响。我认为视频处于类似的位置,你开始看到诸如 Flow 之类的工具,就像一个更易于使用的管道,不仅可以提示它,还可以实际构建它。我认为在接下来的几个月里,
我们将开始看到它实际上不仅用于模因,而且还会对工作流程等产生影响。接下来是应用程序和业务。所以我们从这个非常有趣的故事开始。OpenAI 和 DeepMind 正在人才争夺战中输给 Anthropic。
所以有一家风险投资公司叫做 Signal Fire。他们发布了 2025 年人才状况报告。他们基本上会查看,好的,我们看到 OpenAI 员工离开 OpenAI 加入 Anthropic 的比率与我们看到 Anthropic 员工离开 Anthropic 加入 OpenAI 的比率相比如何,对吧?哪个方向更受欢迎?所以当谈到
OpenAI 和 Anthropic 时,OpenAI 员工离开 OpenAI 加入 Anthropic 的人数是反方向的八倍。在 DeepMind,这个比率对 Anthropic 有利,为 11 比 1。对于每一位离开 Anthropic 加入 DeepMind 的 Anthropic 员工,有 11 位 DeepMind 员工离开 DeepMind 加入 Anthropic。这太疯狂了。顺便说一句,这里有一些有趣的猜测,所以 Anthropic 的
过去两年招聘的员工的留存率为 80%,这在科技行业中相当惊人。就像我在那种标准的世界中一样,这听起来并不太令人印象深刻。就像,哦,你两年来仍然在同一家公司工作,80% 的时间。这听起来差不多。在人工智能领域,这相当异常地高。顺便说一句,OpenAI 两年的留存率为 67%。这与你在 Meta 看到的相符。所以
各种各样的人都在思考这背后的原因。一个经常被提及的假设是,Anthropic 似乎是突然冒出来的。他们拥有最好的编码模型。为他们工作真的令人兴奋,等等。
我认为这实际上忽略了核心问题,那就是 Anthropic 公司的创立基于一个非常明确的原则,并且它在很大程度上坚持了这些原则。它是由这些 OpenAI 政策、安全和一些预训练研究人员创立的,他们基本上是出于抗议而离开的。我的意思是,这现在基本上是 OpenAI 对齐、技术安全和政策问题的态度和方法的公开秘密。
Anthropic 似乎在很多政策方面都付诸行动,反对这个相当荒谬的想法,即禁止所有州级人工智能监管 10 年,这个想法被偷偷塞进了最新的宏伟法案中。无论如何,OpenAI 似乎一直在推动与之相当一致的东西,至少在他们的政策工作中是这样。所以很多事情是这样的,你有一个实体,领导层说了一些话,然后他们真的付诸行动了
是的。
我们在过去调查中与之交谈过的 OpenAI 人员通常都很紧张。你可以感觉到他们不希望你告诉任何人我们说过话,诸如此类的事情。而在 Anthropic,情况有点像,“是的,我可能与领导层有分歧,但你会感觉到,这正是他们无论如何都会说出来并与领导层讨论的事情,而且合理的人会有不同的意见。”所以我认为这是一个被低估的因素。
所有这一切都只是文化差异。我认为这导致了最好的研究人员涌向 Anthropic。反过来,这在一定程度上是 Anthropic 的编码模型取得巨大成功的原因。所以我认为并非所有都是这样,但这至少在对这个问题的一些分析中是一个缺失的因素,至少根据我所看到的。
对。我认为,为了补充这一点,OpenAI 和 Anthropic 之间的竞争动态与 DeepMind 和 Anthropic 之间的竞争动态非常不同,如果你更倾向于去 Anthropic,那很可能是因为你不喜欢大公司的政治。是的,你不喜欢引入的大量官僚机构
审查你是否被允许发表你的研究,或者你是否能够为 Gemini 的开发做出贡献。这并不奇怪。DeepMind 已经存在很长时间了。它现在正式成为 Google 的一部分。已经进行了一系列重组等等。在组织方面,它似乎确实有点糟糕。而且
所以在这种意义上,这并不令人惊讶。我认为 DeepMind 也相当庞大,Google 也相当庞大。所以如果 Anthropic 只是失去的人更少,我不会感到惊讶。是的,我认为这是一个很大的因素。另一件事是,我的意思是,Google 和 Anthropic 有合作关系,对吧?所以当你从一个地方搬到另一个地方时,你并没有完全离开巢穴。
Google 对 Anthropic 进行了巨额投资,与亚马逊一起。他们基本上是两个主要的投资者。
所以,当然,你知道,Google TPU 是 Anthropic 的舰队和战略的重要组成部分。所以我认为这很有道理,鉴于 Anthropic 是,你知道,已经从 OpenAI 分裂出来。它有点,你知道,无论如何,它都符合这种叙事,即失望的 OpenAI 人员离开。顺便说一句,另一件事,金钱方面很有趣,对吧?这篇文章谈到了……
一些非常疯狂的事情。所以他们谈到了 OpenAI。一些 OpenAI 研究人员每年可以赚取超过 1000 万美元。他们正在制定反向报价以阻止
OpenAI 员工离开 Anthropic 等公司,例如 Safe Super Intelligence。这些包括 200 万美元的留任奖金。所以就像一次性奖金,200 万美元,请不要离开。此外,这太疯狂了,股权增加了 2000 万美元或更多。请不要离开我。这里有一大笔钱。就像这是很多钱,基本上只是作为留任奖金扔给人们。
是的,如果我在研究生院学习 LLM,那一定会很好。值得注意的是,在这份报告中,我们不会深入探讨,但是……
它确实在一定程度上关注入门级技术工作,而且情况也很糟糕。越来越像,你知道,在过去十年中,计算机科学的本科入学人数大幅增加。有一段时间,它曾经是获得好工作和高收入的明星之路。现在,作为一名应届毕业生,找到工作比以前困难得多。职位数量也
似乎更少了。如果人工智能在这方面发挥了很大的作用,除了经济状况等等,我也不会感到惊讶。百分之百。我认为我们正处于一个有趣的位置,很多人仍然可以这样告诉自己:“哦,这是因为关税,这是因为经济状况,诸如此类的事情。”但我会告诉你,我的意思是,我和一家顶级实验室的一位资深人士进行过一次谈话。他们告诉我的是
我们不再招聘入门级软件工程师了。我们预计以后也不会再这么做了。事实上,我们认为我们永远不会再招聘经验少于 10 年的人了。
当你听到这个时,它就会变得真实起来,就像,“啊,这就是它的来源。”这是一个实验室,它已经看到其大部分代码库是由人工智能编写的,这对于我们来说并不奇怪。这是我们长期以来一直在报道的事情,但我认为你必须退后一步,吸收这样一个现实,即软件工程师的工作,甚至人工智能研究人员的工作,正变得越来越抽象,越来越远离,无论如何,许多曾经定义他们的活动。这使得
我的意思是,这很残酷。我们将面临白领工作被快速自动化的局面。毫无疑问,随之而来的是社会动荡。我的意思是,没有两种说法。我们将不得不巧妙地应对一个非常有趣的转变。是的,而且它发生得很快。所以,你知道,2023 年、2024 年、2022 年,在某种程度上,我们看到了智能人工智能辅助在 Copilot 和 Cursor 等事物中的兴起,这带来了巨大的生产力提升。你的效率提高了两倍,三倍。有了这些代理工具,例如 Cloud Code,它们现在运行良好,它已经达到了软件工程师几乎不需要接触代码的地步。你需要做的是能够告诉代理该做什么,并检查它正在做的事情以验证其正确性。而这通常不是入门级职位所包含的内容。所以
它变化很快。是的,值得注意这一点。接下来,另一个,我想,另一个 OpenAI 故事,上一个故事并非全部是 OpenAI。OpenAI 抨击法院命令保存所有 ChatGPT 日志,包括已删除的聊天记录。所以基本上发生的事情是,有一项法院命令说,看,OpenAI 被指控为
基本上充当一个平台,允许用户绕过付费墙并访问新闻和《纽约时报》文章等内容。更重要的是,我们怀疑
用户将删除此证据,以便如果我们真的需要,如果法院要求提供人们使用该工具的记录,他们实际上不会显示这些版权侵犯行为等等。因此,《纽约时报》要求法院
阻止 OpenAI 基本上删除或丢弃否则会被删除的 ChatGPT 日志信息,包括用户试图删除的记录,对吧?所以 OpenAI 将此称为基本上是阻止 OpenAI 尊重其用户隐私决策的一种方式。它实际上使 OpenAI 处于一个糟糕的境地,他们有可能违反他们自己的隐私协议,并且
你知道,这是一个巨大的、巨大的信任问题,而且,我的意思是,它可能会使他们违反合同和全球隐私法规,所有这些事情。所以这真的很混乱。你实际上可以,我的意思是,我在这里可以看到 OpenAI 的论点,就像,这只是突然出现并这样做似乎是一种奇怪的策略,但你知道,我不是律师,所以很难知道。这类案件的先例很少,但是——
是的。所以 ChatGPT 用于绕过付费墙的想法听起来似乎是合理的。但问题是,你如何实际管理它?强制对 OpenAI 用户进行某种事实上的隐私侵犯的最佳方式是什么?我不知道答案是什么,但无论如何,这就是辩论的现状。
对。OpenAI 甚至发布了一篇博文,我们如何回应《纽约时报》的数据要求以保护用户隐私,他们在其中将其定义为隐私问题,作为对客户的承诺,并解决了例如,有一些使用零数据保留 API 的商业客户,聊天日志不会被保留。
但是 OpenAI 有一种有趣的模式,即发布博文以回应法律纠纷。这篇博文非常符合这种模式,有很多回应。所以 OpenAI 有点生气,显然不喜欢这项法院命令。
接下来是闪电轮,我们从《信息》杂志的一篇报道开始,该杂志通常拥有更多前沿或可以说是更不公开的信息。这篇报道称,英伟达最大的中国竞争对手华为在家乡苦苦挣扎。所以这是
对华为在提供芯片方面在多大程度上能够击败英伟达的分析。似乎到目前为止,华为无法让中国最大的科技公司采用其芯片进行人工智能训练和推理。
是的,这实际上是一个非常有趣的故事,因为英伟达等公司一直在宣传,许多反出口管制人士一直在宣传的是,嘿,你知道,我们退出中国市场,华为就会主导它。这只会给他们的销售带来很多经济上的好处。这并非完全错误,但这种分析中有很多东西缺失。所以要记住的一件关键事情是
由于台积电(位于台湾)的存在,华为无法获得西方公司可以获得的最精良的制造工艺。所以台积电现在可以帮助你制造到 3 纳米,而且我们将在相对较短的时间内看到使用 3 纳米工艺生产的芯片。华为只能使用中国国内的台积电类似物,即中芯国际。
中芯国际目前大致停留在 7 纳米,也许可以说是正在研发 5 纳米。因此,它被迫使用次优的制造工艺。华为设计芯片,然后将它们发送给中芯国际进行制造。问题是,当你的设计过程存在根本性限制时,你只能做这么多。
特别是,如果你看一下华为的芯片系列,他们往往会这样做,它们会非常耗能。如果你想要非常节能的芯片,你必须采用更先进的工艺。
所以我们谈到了华为是如何解决这个问题的。他们刚刚建立了这个云矩阵 384,它就像他们的计算系统,它以一种旨在这样说的方式将一堆他们的昇腾芯片捆绑在一起,好吧,我们的单个芯片可能更差,因为它们是使用较弱的工艺制造的,但我们可以将它们串在一起,像这样。
构建具有更大数据中心的大型系统。因为中国拥有美国所不具备的能源,美国的能源受到限制,中国的芯片受到限制,中国并不太关心芯片的能效。他们可以将更多芯片组合在一起,达到相同的规模。这正是他们一直在做的事情。但问题是
是过热。如果你的制造工艺不好,如果你基本上要过度使用你的芯片,并向其中注入大量能量,那么芯片就会过热,你会看到问题。这正是似乎正在发生的事情,也是似乎阻碍华为许多销售活动的事情。
顺便说一句,昇腾芯片也不能直接支持低精度格式,例如数字格式,例如 FP8,这值得注意的是 DeepSeek 使用的格式。所以华为实际上,他们的芯片不支持 DeepSeek 风格的训练运行,这就是为什么 DeepSeek 一直在使用英伟达技术,以及为什么对其的需求持续存在的原因。另一个非常重要的因素是,华为与许多客户竞争。想想字节跳动、阿里巴巴、腾讯,对吧?这些公司……
他们都在关注华为的芯片。他们没有进行大规模采购。部分原因是他们中的许多人运行自己的云。华为也运行自己的云。那么你真的会从你的竞争对手那里购买吗?我的意思是,如果你回顾我们的硬件剧集,这就是纯玩代工厂存在的原因,对吧?例如,英特尔历史上很难吸引客户。
芯片设计客户,因为他们也在设计芯片。所以你有点像从你的竞争对手那里购买。市场从根本上想要的是,它确实想要一个独立的代工厂、一个独立的设计师,最终是一个独立的云公司。英伟达不太参与云市场并非巧合。如果他们愿意,他们可以做到,对吧?他们可以建立大型云。你可以让英伟达与 GCP、Azure、AWS 并驾齐驱,但他们没有这样做
这肯定部分是出于竞争原因。让我们让大家购买我们的芯片,并尽可能降低进入壁垒。无论如何,所以华为所处的局面比我认为历史上许多分析所承认的要复杂得多。我们将看看它最终会走向何方。他们是一个民族冠军。所以中共总是可以强迫人们从他们那里购买。但这很有趣。对。在这篇文章中也提到了,我认为值得注意的是,
一些公司,如字节跳动和腾讯,在中国境外拥有大量的业务。美国正在加强打击,发布了基本上说不要使用华为芯片的指导意见。因此,如果你是一家总部位于中国、更全球化的公司,那么更倾向于选择英伟达而不是华为是有道理的。
我们的下一个故事实际上与之相关。华为有望通过开发高端 3 纳米 GAA 芯片打破半导体壁垒,预计在 2026 年完成流片。好的,所以 GAA 是全栅极。这是一种晶体管设计,正变得非常流行。这是一种基本上使构成关键电路的晶体管(GPU 逻辑芯片上的数字运算电路)更节能、更
具有更高的吞吐量,各种理想的热特性等等。所以现在基本上发生的事情是 3 纳米工艺
例如,台积电已经开发出来,实际上并不打算使用 GAA。所以它不会是一个全栅极工艺。华为正在加速向 GAA 发展。这就是这里的计划。基本上跳过了一代,如果你是一个弱者并且试图赶上,你必须这样做。但是挑战是,
现在还不清楚他们能否做到这一点。你知道,他们是 7 纳米,他们是 5 纳米,甚至他们通过中芯国际获得的 7 纳米工艺,我们刚才谈到的那种中国的台积电。
良率非常差。7 纳米的良率在 15% 到 50% 之间,我的意思是,行业标准是 90%。无论如何,所以这就像他们面临着重大的经济挑战,但如果他们能够做到这一点,那将非常有趣。这将是一个巨大的飞跃。3 纳米全栅极的唯一其他重点设计是在三星代工厂进行的。所以如果实际上是非三星的,如果他们通过中芯国际这样做,这将是第一个非三星代工厂产品
这也很奇怪,也有可能这意味着与三星代工厂合作,这将非常奇怪,因为三星当然总部位于韩国。所以从出口管制角度来看,这将很有趣。这真的能行吗?
但无论如何,所以华为一直以对未来技术做出乐观的声明而闻名。嘿,我们将拥有所有这些令人兴奋的东西,但最终并没有流片。我们将拭目以待。但如果华为真的能够破解 3 纳米全栅极,那将是一件大事。
是的,没什么要补充的。我要说的是,如果你搜索全栅极并查看图像,一些非常有趣的插图和电子显微镜图像。你会感受到这些可怜的计算机工程师和半导体专家的感受。你现在需要进入 3D 并构建这些复杂的结构,才能进入这些低纳米区域并使芯片正常工作。
说到这一点,接下来,我们有一个关于台积电及其 1.4 纳米工艺的故事,称为 Angstrom,该工艺正在取得进展。它还没有推出。预计将于 2028 年上市。根据报道,估计每片晶圆的成本为 45000 美元,比 2 纳米工艺增加了 50%,即……
每片晶圆 30000 美元。是的,就是这样。使用即将在未来几年推出的真正最低、最高密度的芯片一定非常昂贵。是的,所以 1.4 纳米,他们称之为 Angstrom,这有点令人沮丧,因为它并不完全是 Angstrom,是吗?但这很酷。这是下一个阶段。是的,比……贵 50%
显然,2028 年将是最早的生产运行。所以如果 AI 2027,那篇著名的博文最终是错误的,而 2028 年最终很重要,
我们可能会在 2029 年看到下一代节点及其上设计的芯片的一些令人印象深刻的推出。顺便说一句,他们正在评估是否有公司想要首先尝试这种 Angstrom 工艺,那将是苹果。我要说的是,我们一直在播客中说,不要忽视英伟达,顺便说一句,英伟达现在实际上是世界上最有价值的公司。
随着人工智能芯片相对于手机变得越来越有价值,预计在某个时候,英伟达将开始采取行动来争夺领先节点,基本上收购苹果在台积电的所有产能,并成为台积电领先节点的首选补贴者。我实际上认为这可能会很快发生。有迹象表明它已经在进行中了。无论如何,这将是科技领域的一次相当重大的转变。在那一天发生的时候,我们一定会在这里讨论它。
有趣的事实是,Angstrom 是 10 的负 10 次方米或 0.1 纳米。正如你所说,这根本不是一个准确的名称。是的,是的,不。这是一个好名字。听起来不错。听起来很有趣。最后一个故事,回到 Mistral,他们正在推出 Mistral Compute,这是一种用于……的云服务
人工智能计算,它将试图与其他产品竞争。我想,如今 AWS 仍然是领先者之一。你还有像 Modal 这样的新竞争对手,以及
所以 Mistral 再次继续尝试在各个方面都提供一个欧洲版本的竞争对手,以对抗中国和美国的各种产品。他们是从资金较少、人才较少的位置出发,你可能会预期或可能会争论。所以我们将拭目以待。主要的
我认为我同意你的观点,他们的优势分析是他们在该领域作为欧洲领导者的地位。
是的,是的。特别是,他们位于法国并非小事。你知道,你想想什么是主要的瓶颈?我们在美国谈到了这一点。是能源,对吧?每个人都在试图弄清楚我可以在电网上找到多少剩余的千兆瓦?这并不容易。你知道,即使是 30 兆瓦,你也可以找到它,但它正在快速消失。所以在法国,他们一直都在这样做,这是唯一一个欧洲国家,也是唯一一个西方国家
他们可以在不到 10 年的时间内建造新的核电站,他们可以支持这一点。现在他们正在收获成果。顺便说一句,这里谈到的 Mistral Compute 的规模是数万个 GPU。他们说是在英伟达参考架构上构建的。所以我认为他们此时一定是在关注 GB200,数万个这样的 GPU,我认为。
他们说他们将支持从国防到药物发现的各种工作负载。好的。民族冠军,对吧?这种工作负载的气味很像,你知道,法国政府的首选合作伙伴,顺便说一句,从繁文缛节的角度来看,如果你试图建立一个新的规模数据中心,你不仅有巨大的工作量,
法国人享有的能源供应,而且你还有政府的支持来减少繁文缛节,特别是允许你更快地启动和运行的环境法规。这些事情以非常有趣的方式堆积起来,以竞争另一天,比方说。但是
我认为他们根本性的挑战将是资本化,对吧?这将永远是这样。你不能永远与那些能够以 1000 亿美元的估值筹集数百亿美元资金的公司竞争,甚至不会遭受那么大的流动性冲击,并从主权财富基金等等那里筹集资金。这确实变得非常具有挑战性。法国经济并没有那么大。所以是的,如果我是法国,我会这样做。但这并不意味着他们一定有一张胜券在握的牌。
是的,正如你所说,在他们的这篇博文中,他们实际上说,该产品将包括 Mistral 的 AI 训练套件,该套件可以加速跨国家和行业范围的区域和特定领域的工作。所以是的,呼吁一些冠军理念。
我要说的是,这与 OpenAI 和 Anthropic 有点不同。他们并没有为训练和服务以及其他任何东西提供这么多的云架构。它相当专业化。我认为这源于 Mistral 必须开发他们自己的软件。
计算设置才能做到这一点。所以我确实认为他们在这里有一些不错的技术方面,这可能会使它成为一个非常好的产品。
接下来,转向开源,我们有一个故事,ProRL。无论出于什么原因,每次我们在线下谈论它时,我都一直说 ProPL。ProRL,延长的强化学习,扩展了大型语言模型的推理边界。有点拗口,但是,它们不都是这样吗?所以
有一种观点认为,RL 过程本身只是优化了大型语言模型中现有的能力。基本上,就像你有一个预训练模型,它已经具备了推理模型应该具备的所有能力。你的强化学习过程只是激发了这些能力。它将它们浮出水面,对吧?所以
他们在这里的目标是证明,实际上并非如此。我们可以做的是赋予模型完全、真正的新能力,这些能力以前并不存在。他们有一些想法堆叠在一起,就像优化强化学习过程一样。其中之一是这个想法,即存在 Kovac 标签器差异。所以这实际上是一种衡量两个不同的分布有多不同以及概率分布的方式。
所以在训练过程中经常做的是,你将有一个正在训练的模型,你将有一些参考模型,你不会允许正在训练的模型与参考模型相差太大。这样做的原因通常是,如果你只是让模型随意发展,并根据它最终会变成什么来进行训练。
该模型将学会非常狭隘地优化,并无益地过度优化它正在接受训练的目标。所以,在极限情况下,一个经典的例子是,如果你让这些模型在没有某种正则化的情况下进行微调太长时间,它们最终将不再说英语,或者它们最终会
你知道,有点像变得阿谀奉承等等。所以你只需要这个参考模型来把它拉回现实。而且
有人认为这种 KL 散度惩罚是一件坏事,你实际上应该摆脱它。许多这些论点都是基于查看基础模型以及强化学习背景下的监督微调阶段之前的模型。在那里你会发现,如果你坚持要求它们必须与参考模型相似,那么它们的性能实际上不会变得那么好。
但他们在本文中展示的是,如果你首先进行监督微调,让模型在推理方面足够好,那么如果你将其用作参考模型,你实际上会发现 KL 散度策略是有意义的,即正则化策略。所以这是他们做的一件事。
他们还做了这个叫做参考策略重置的事情。当你训练你的模型时,你再次拥有了那个参考策略。所以它不允许偏离太多,但是然后你会更新你的参考策略以匹配正在训练的模型当前的状态。
然后你就会继续。所以你基本上是用参考策略作为一种对正在训练的模型的拖累。正在训练的模型进行了一系列训练。它不能偏离太多,但随后你更新参考模型,现在你可以再次开始训练,你可以稍微偏离一点,但不要偏离太多。所以它有一种方法可以减缓与参考模型的偏差,但不会让你永远锁定在原始参考模型上。事实证明,这有助于提高训练稳定性,同时还能让你恢复强化学习带来的许多新能力。因此,他们拥有一个庞大的数据集或许多不同的 STEM 逻辑难题、指令遵循、数据任务。大约有 136,000 个数学和代码以及各种各样的问题。
他们还增强了 GRPO 算法,你可能还记得我们在讨论 DeepSeq 时提到的这个算法。它变得非常流行,只是一种稳定强化学习训练的方法。这很快就会深入细节,但是……
是的。底线是他们借鉴了其他论文中的许多内容,例如 DAPO,它类似于动态采样和增强策略优化,你基本上是过滤提示以仅保留模型有时成功有时失败的提示。所以它们足够难,模型可以通过训练它们来学习一些东西,但又不至于难到毫无希望,模型甚至无法获得奖励信号。所以
有很多东西。它实际上是一个相当有趣的集合。这些东西以有趣的方式联系在一起,形成一个小的链条。总而言之,这就是 ProRL。这不是我会描述它的方式,但好吧。是的,这篇论文中有一些有趣的分析。这是一个合家欢节目。是的,我不知道孩子们喜欢最后 18 个小时的内容。我希望不会太多。
是的,他们对 ProRail 是否会引发新的推理模式进行了一些分析。他们基本上指出,在某些任务上,基础模型已经相当出色,因此收益并不显著,但在其他任务上,如果训练时间足够长,收益将是显著的。我只是想指出,你不会详细介绍这个故事,但 Magistral 以及该模型,
Mistral 发布了一份关于它的报告,一篇相当详细的 18 页论文。他们还强调了 GRPO 损失的一些差异,包括消除了 KL 散度作为惩罚以及其他一些内容。所以有很多探索正在进行中,以找到合适的 RL 训练设置,包括损失和
总的来说,RL 是一个很大的难题。所以我想不足为奇的是,在之前甚至现在,随着人们将 RL 作为非常重要的研究方向进行深入研究,有很多事情正在被发现。
接下来是研究和进展。我们首先从 Kinetix 重新思考测试时间缩放定律开始。因此,这是一个新的测试时间缩放建议,它将内存访问纳入成本计算。所以这基本上是计算测试时间缩放的缩放定律的不同方法。
通过这种评估缩放的新方法以及更新的成本,他们认为之前的缩放定律高估了具有推理时间策略的小型模型的有效性。他们基本上说的是
在应用测试时间策略(如最佳事件采样和思维链)之前,将模型大小增加到 140 亿个参数更有效。所以基本上,如果你可以的话,与其在 100 亿范围内的较小模型上进行更多推理训练,不如让你的模型更大。
是的,这是一种非常有趣的计算感知,不是计算感知,而是内存带宽感知的方式。所以历史上,当我们谈论缩放定律时,你会看到这些图。它们是什么样的?好吧,你通常会在 X 轴上看到浮点运算,就像计算预算一样,你会在 Y 轴上看到一些性能指标。然后你会看到你漂亮的对数图,一切都很顺利。
问题是,浮点运算,即训练模型的实际数学运算,只是硬件图景的一部分,对吧?所以 GPU,是的,可以非常快速地处理大量数字,但它们也必须移动数据。
对吧?这是最耗时的工作之一。现在最大的瓶颈之一就是你能多快地移动数据,不仅仅是处理数字,而是将数据从内存移动到逻辑单元再返回到其他内存等等。所以他们在这里试图做的是重新设计一个考虑这一点的缩放定律,换句话说,考虑两个指标。一个是浮点运算,就像传统的计算缩放曲线一样,另一个是内存带宽。这就是真正的原因
或者说是内存访问成本,它考虑了需要访问的内存字节,内存图景,对吧?所以他们实际上会将两者结合成一个指标。他们称之为 e-flop 或 e-flops。从数学上讲,它基本上是训练模型的计算成本加上内存访问成本,该成本基本上考虑了内存带宽要求和其他因素,乘以强度,这基本上是
硬件特定的计算能力与内存带宽之比。基本上,正如你所想象的那样,这将严重依赖于你的硬件集群。你的硬件实际是什么样的?
将决定在实践中你的理想参数数量应该是多少,你的理想架构应该是多少。所以这就是缩放定律总是以浮点运算来表达的部分原因,因为一旦你试图平衡浮点运算和内存带宽,你很快就会开始几乎模拟一个数据中心。就像,你必须拥有各种分辨率参数
这使得它变得非常困难,尤其是因为人们会说,好吧,这就是它在该数据中心上的表现方式。但是如果我改变了我的数据中心,现在我们有了不同的缩放曲线,它就变得不可能进行苹果与苹果的比较。事实上,这是这篇论文面临的挑战之一。它只使用与 NVIDIA B200 GPU 相关的某种参考架构。所以他们假设这些规格成立,并且你看到了该规格的缩放定律。它没有考虑不同的参数。
有效地在不同的加速器(例如 AMD 或 Intel 或其他 NVIDIA 芯片)上使用不同的缩放定律,或者使用不同的网络或互连配置,或者使用不同的内存层次结构,这些都没有。所以把它想象成一种氛围。但就我们可以从中学习的东西而言,我认为实际上有一些非常酷的东西。所以在实践中,当你扩展转换器架构时,
作为开发人员,你倾向于做的是增加 MLP 层的大小,对吧?比注意力机制的规模快得多。你可以缩放注意力机制。你可以增加注意力头的数量、头维度、嵌入维度,所有这些东西。但是人们在实践中倾向于只增加 MLP 层的规模,这些层执行逻辑而不是注意力部分。现在,许多人的直觉是,好吧,这无关紧要,对吧?
因为我们只是要缩放 MLP,它们本身已经代表了大部分计算和参数计数,对吧?所以当然,MLP 层已经是瓶颈了。所以注意力机制的缩放速度较慢,好吧,这无关紧要,对吧?但这里有一个问题。
MLP 层,缩放 MLP 层所需的计算量,它随着输入长度的增加而增加,对吧?所以输入长度加倍,粗略地说,你的 MLP 层将消耗的计算量加倍。很好。但是当你增加输入大小的时候,注意力内存带宽需求随着输入长度的平方而增加,对吧?
换句话说,当你缩放输入长度时,注意力,内存带宽部分很快就会成为限制步骤,你的操作会受到内存限制,因为,你知道,你,你无论如何,你受到注意力层的限制。所以,
这个问题变得越来越严重,因为输入和输出的长度越来越长,对吧?通过这些最佳方案,推理时间、计算、推理,所有这些东西,你都会看到你的输入和输出越来越长,这意味着
随着输入长度的平方而缩放的瓶颈很快就会超过仅随着输入长度线性缩放的瓶颈。事实证明,内存带宽随着平方而缩放。这就是我们遇到这个问题的原因。总之,我认为这是一篇非常重要的论文。如果你有兴趣了解硬件选择对模型架构的影响,我认为这实际上非常引人入胜,而且我还没有看到其他人深入研究这些更细致的缩放定律。
对。是的,摘要中的第一句话,他们说我们是从实际效率的角度来看待这个问题的。关于 X 轴上的内容,他们非常直接。他们说在 B200 GPU 上的 B200 秒,这是领先的。我们不是关注计算,而是关注获得某种精度所需的实际秒数。
这篇论文中有很多非常好的分析。他们还有一篇非常好的博客文章。我觉得我们经常会在论文来自苹果、DeepMind 或 Anthropic 时指出这一点。所以值得一提的是,这是来自 CMU 的,完全是大学的工作。此外,两位主要作者都是美国系统的移民。所以我们应该深入了解一下。但我确实想说一些关于
研究生和总体上吸收其他国家的毕业生的政策。你看看这些论文,这让我有点沮丧。但无论如何,继续前进。令人惊讶的是,负强化在 LLM 推理中的有效性。这正在研究 RLVR,具有
可验证奖励的强化学习,分为两种模式。你得到了正样本强化和负样本强化,其中 PSR 更侧重于强化正确的响应。NSR 负样本强化强调惩罚不正确的响应。似乎你可以只进行正样本强化和负样本强化训练,并且
仅 PSR,仅正强化提高了 PASS-1,但降低了更高的 PASS-10。基本上,如果只有几次机会让你做对,它就会降低。这是因为似乎输出多样性有所下降,而负强化似乎能够提高所有 PASS-at-K 指标的性能。不仅仅是一次试验,而是多次试验。
这意味着专注于
过度惩罚不正确的输出,而不是鼓励它做同样的事情似乎更好。是的,实际上,至少这个结果看起来多么直观,你想象一下,如果你正在接受训练以完成任何复杂的任务,而你接受训练的方式不是通过告诉你什么时候做对了,而只是告诉你什么时候做错了,基本上。这具有不告诉你如何完成工作的方式,
而是告诉你如何不完成工作。这意味着你会更有创造力。如果强化告诉你,这是正确的答案,像这样去做,而不是不要做错的方式,那么这是一种非常不同的强化过程。这有点难以类比,因为它事后的,对吧?所以想象一下,你尝试一项任务,如果你做对了,
我们会擦除你的大脑,你对做对这件事没有记忆。但如果你做错了,我们会告诉你,嘿,你做错了。这就是我们对这些模型,对这种架构所做的,这非常有趣。结果确实证明你获得了更多样化的模型。
某种更注重探索的模型,而不是注重利用的模型。因为你真正做的是将概率质量重新分配给合理的策略,而不是将所有概率质量集中到少量高度正确的、观察到的正确路径中,对吧?因为这是 RL 的其中一件事情,就像,你不会观察到所有正确的路径,对吧?
对吧?你也不会能够观察到所有不正确的路径,但至少通过,你知道,不指出正确的路径并说,更像那样去做,你为模型留下了追求某种替代正确路径的可能性空间。总之,非常有趣。我读到这篇文章时想到的一个问题是,好吧,你不会遇到一个问题,随着时间的推移,如果你的模型在某项任务上越来越好,你,
你只是无法在一个批次中找到足够的负样本,例如对于 GRPO。是的,这实际上是一个问题,他们指出了这一点。所以他们将其定义为一个特性而不是一个错误,我认为这在某种程度上是正确的。然后有一些星号。所以他们指出,它确实可以防止过拟合,因为一旦模型真正掌握了问题集,你就不会得到更新。所以你不会继续,你会像用完失败案例一样。所以你不会过度优化模型以进行过拟合,这真的很酷。但另一方面是,它在计算方面效率低下,对吧?因为你必须进行许多不会产生任何可训练数据的展开。所以我认为从计算最优性的角度来看,你也在承受一些损失。所以他们实际上建议这种类似于
中间地带策略,他们称之为加权强化,你仍然使用一些正强化,正如他们所说,10% 的强度以确保持续学习,但你将使用全强度的负强化学习。所以更倾向于告诉模型不要做事情
以及如何做事情的一些指导。总之,这会有所帮助,因为你保留了一些正面的例子。但是,从计算最优性的角度来看,我认为这有点像,看看这最终是如何扩展的会很有趣。是的,这是强化学习的一些比较细微的方面。为了真正做好强化学习,你需要为任何给定的输出建模奖励。为此,你需要了解正奖励和负奖励。所以……
专注于负奖励很有趣。基本上,他们的加权强化上调了负面方面。他们将这种加权强化与标准 GRPO、PPO 等其他 RL 训练设置及其自身的目标和损失进行了比较。从他们在 QEN 2.5 上的结果来看,值得注意的是,所有这些推理模型论文都在研究一个特定的模型,这……
可能并不理想,但无论如何,通过这种加权强化设置似乎比 GRPO 和 PPO 更好,这非常重要,因为正如我之前提到的,GRPO 通常是人们在这项研究中探索的内容。
还有几篇研究论文。接下来,我们有使用语言模型预测经验性 AI 研究结果。这几乎就是它的意思。你想尝试预测接下来会发生什么。
在一个给定的实验中,使用语言模型,他们通过抓取会议论文中的想法和结果来创建基准,并收集了大约 1500 个测试示例。然后使用整个系统,我们对 GP 4.1 和论文检索进行了微调。他们能够在测试集上获得 77% 的准确率,能够执行
预测,比仅通过基线现有模型获得的现成性能要好得多。所以结果相当不错。他们说它在 NLP 想法对上优于人类专家基线。但是,你知道,它仍然是,让我们说,初生的。这是一个有趣的想法,但绝对是一个需要仔细推断的细致领域。
是的,这也是人们经常谈论 AI 模型的领域之一。最大的优势在于对我们抛给它们的问题有良好的品味。这是一个 AI 模型实际上正在发展品味的例子,即品味本身的自动化,对吧?研究品味。
如果你可以预测某个想法成功的可能性,这就是这里的想法。他们在实践中是这样做的,他们会在给定的论文中,对吧?你经常会看到使用多种方法来实现相同目标,对吧?你可以想象这有多难。他们不会去抓取两篇试图做类似事情的论文并预测哪一篇会做得更好,因为不可能进行苹果与苹果的比较。人们使用不同的训练策略、不同的数据,各种各样的东西。
所以他们要做的是同一篇论文,多种方法。他们将提取论文中比较不同方法的实验对。这就是他们用来构建数据集的方法。所以这是一种更恰当的校准的苹果与苹果的比较。
所以从这个意义上说,它有点像预测 AI 研究结果,但这与从头开始提出新的研究假设并不完全相同。它不是在论文级别,就像,好吧,哪一篇,你知道,哪一篇论文应该我,哪一篇论文级别?预测可能有点误导。它比较了两个潜在的想法,并预测哪个想法会在基准测试中获得更高的分数。所以这是一个二元预测,
稍微简单的设置,并说,如果我尝试这个想法,我会得到什么?是的,完全正确。我认为为了在论文级别做到这一点,这是最有趣的事情,你可能需要一种非常复杂的数据过滤和整形方法,你试图让它尽可能地进行苹果与苹果的比较,然后将其输入模型。但这里有趣的是,就像你指出的那样,这个模型,这种微调模型的表现优于 O3
模型,例如 O3 的表现不比随机猜测好。所以当你查看在这个基准测试中 77% 的准确率时,预测哪两个想法中的哪个会做得最好,显然随机猜测是 50%。所以这是一个相当大的提升。
值得一提的是,它在未发表的新颖想法上达到了约 64% 的准确率。这里有一些过拟合的情况,我们在某种类似测试案例中获得了 77%,但是当他们实际尝试这些未发表的新想法时,它下降到 64%。仍然比 50-50 好得多,但是,是的,非常了不起。另一件有趣的事情是,如果我理解正确的话,它说他们以 100% 的优势击败了人类专家。
人类专家的得分是 48.9%,如果这是苹果与苹果的比较,如果它只是一个并排比较的话,这略低于随机猜测。
所以这本身就很有趣。就像人类自己在这方面很糟糕,他们从他们的微调方法中确实获得了一些提升。就像如果他们从 50% 提升到 64%,这并不是微不足道的。还有一篇与 AI 促进研究相关的论文。在这种情况下,它被称为 EXP Bench,它专注于对 AI 智能体进行端到端研究实验的能力进行基准测试。
还使用来自已发表研究的任务。所以在这里,他们查看了来自 NeurIPS 和 ICLR 的同行评审的 AI 出版物。他们创建了来自 51 篇论文的 461 个研究任务的基准。他们基本上展示了,这些 AI 智能体能否自己进行实验?
在这些论文中介绍。已发表论文中通常会发生的事情是,理想情况下,他们会发布他们的代码,以便你可以复制实验并获得相同的输出,并复制你获得的任何数字表。这会给你一个丰富的信号,说明你如何设置实验,你如何理想地能够复制实验。
所以这使得评估 AI 智能体是否能够做到这一点成为可能,而他们是否能够实现并正确完成事情的总结是一个总结。是的,我会说我们已经到了我们设计的基准如此之难的地步,一旦你真正饱和了这些,
我的意思是,当你达到专家基准的 50% 时,世界是什么样的?端到端自动化制定假设、设计和实施实验程序、执行实验、分析结果的整个端到端过程的成功率为 50%。这与完全自动化的 AI 研发相差不远,对吧?这有点像……
在模型级别,显然有一堆硬件和网络优化爵士乐,就像 OpenAI 在内部独立进行的工作一样。但是当你真正饱和的时候,世界是什么样的?当你查看 O3 Mini 时,这是他们测试的总体最佳模型,你知道,O3 Pro 当时还没有发布,你知道,所有这些,但是
他们扔给它的 461 个任务中只有 1.4% 或六七个成功完成。所以一种解读是 1.4%。哇,这真的很小。另一种解读是,哇,我们今天最好的模型实际上正在获得大约 1% 到 2% 的端到端完全成功率。
在一个新模型每隔一周就会上线的环境中。所以是的,我不知道,但这可能是一件大事。至少在我看来,1.4% 相当大。对。为了让你了解
涉及的内容是什么?输入包括一个研究问题。他们有一个例子,MogaNet 架构是否优于现有的轻量级模型?他们有一个关于实验的高级方法,在 ImageNet 1K 上训练 MogaNet 变体,等等等等。他们提供了一些启动代码,可能还有其他说明。AI 的工作是
不是进行研究本身,而是设置实验并运行它并获得结果,这意味着它需要正确配置代码,向代码中添加内容,用正确的参数训练正确的时间,并评估输出以获得实验的实际输出。所以是的,如果你能够做到这一点,
有很多关于加快研究和加快 AI 研究,并最终可能使其自动化的讨论。我们已经看到关于构思、想法创造的研究。我们已经介绍了一些这些论文,并且我们已经看到了一些进展。这实际上涵盖了相反的一面,你能够通过实验评估想法。有点不同。
相当密切的指导。所以我会说在输入中,它被告知确切地该做什么,但它仍然是一种非常有用的能够加快研究速度的东西。是的,正如你所说,就像自动化 AI 研究的实施阶段一样,这实际上是一个有趣的补充,对吧?对于我们之前看到的试图自动化语言模型品味的想法,两者都处于初生阶段,但是
你知道,我年纪够大了,还记得人文科学的最后一次考试应该是一个非常困难的基准。在那之前,当 GPQA 出现之前,甚至在……是的,无论如何,有很多这样的事情,对吧?它从 1% 开始,然后我们很快就开始饱和了。是的,这些该死的孩子们开始他们的博士学位甚至不必编写代码。所有代码都是由 Claude 完成的,所有实验都将由智能体完成。是的。
接下来是政策和安全,我们这里的第一篇故事是大型语言模型经常知道它们正在接受评估。所以本质上,这是一个测试,看看,你知道,我们如何衡量来自 Anthropic、OpenAI 和 DeepMind 家族的所有九个不同前沿模型。他们将向他们提出多项选择题,询问大量成绩单,基本上。所以它们是代理和人类之间的聊天记录。你拥有评估部署场景,各种各样的
你知道,无论如何,你以不同的上下文输入的成绩单。然后你向模型提出这些问题,询问成绩单是否来自评估。这是一个基本的测试,看看这些模型能否理解,好吧,我可能,在这种情况下,我可能正在接受评估。那里的安全隐患是,你可能会期望
对齐伪造,你可能会期望各种各样的,无论如何,有趣的行为,例如拖延,如果模型知道它们正在接受评估,它们会假装没有某些危险的能力。然后他们增加了部署的几率,并在某种类似权力寻求的图景中拥有更大的行动自由。所以他们在这里发现的是,是的,实际上,你知道,前沿模型,它们显示出非常
明显的高于随机的评估意识。实际上,Gemini 2.5 Pro 的 AUC 为 0.83。现在,他们非常有帮助地运行的人类基线达到了 0.92 的 AUC。所以至少对于 Gemini 2.5 Pro 来说,还不到人类基线,但是……
但是比随机高出很多。AI 模型和人类在代理设置中识别评估的能力都比在聊天设置中更好。这很有趣。这可能也仅仅是因为
代理设置评估通常更人为。就像你可以直接看出,哦,这是一个玩具应用程序。这不像你,你并没有真正试图在这里建立一家公司或一件真实的事情。这似乎是你会要求模型作为评估的一部分去做的事情。所以,你知道,这是其中的一部分,但是嘿,这是评估问题的一部分,就像,也很难提出现实的评估,并且
总之,是的,这非常有趣。模型被发现使用了一堆不同的线索。诸如具有非常正式的任务结构和特定格式要求之类的事情似乎是模型用来判断,哦,好吧,或合成内容的线索。所以,你知道,你可以看到这将如何运作,你也可以看到人类评论者将如何注意到这一点。
但他们还发现,人与人工智能的性能差距很大程度上取决于环境。在自主环境中,人类识别评估成绩单的能力AUC为0.996,而在聊天成绩单中则仅为0.813。因此,人类几乎完美地识别自主评估,但在基于聊天的评估中却很差,或者说更加挣扎。
而且这种差异比任何模型在这些环境中的差异都要大得多。因此,很明显,模型并没有完全领会暗示。他们至少在自主模式下,并没有完全捕捉到人类可以获取的暗示,即你处于评估环境中。所以这很有趣。
这里还有很多其他内容,但我们正处于闪电轮阶段。哦,不,我们还没有进入闪电轮阶段。无论如何,我将在那里暂停。安德烈,如果你有任何想法。你有很多事情要做。所以是的,你需要走了。我只想提一下AUC是曲线下面积,对于那些不知道的人来说。基本上是比较真阳性,比如它实际上是评估,你正确地猜到了,与假阳性。
你猜错了。基本上就是你的准确度,带有一些细微差别。他们也用两种方式进行评估。一种是多项选择题,另一种是开放式问题。正如你可能预期的那样,在多项选择题中,当你明确地被问到这是评估还是其他什么东西时,你会比只是开放式回答做得更好。所以多项选择题就像,主要的选择是什么?
测试在这里,是能力、一致性还是其他,他们的系统将预测一致性。然后开放式问题将是交互的主要原因是什么。它会预测一些类似于人工智能边界测试的东西。正如你所说,这里的含义是,如果你正在测试一致性和安全性,那么模型如果意识到这一点,可能会误导你,并假装无法进行黑客攻击,而实际上它可以做到。
接下来,更多的是一篇关于互操作性的论文,名为《超越归纳头:情境元学习诱导多阶段电路涌现》。多么有趣的标题。是的。
所以这是在研究情境学习背后的机制。情境学习是指你给它几个例子,模型能够做到一些它不一定能够通过预训练就能做到的事情。他们说,这种归纳头的概念,我认为最初来自Anthropic,是
你在模型中得到的模式,基本上模型的一部分专注于回顾输入,以识别一些你已经看到的东西,这与它当前正在查看的东西相似,并能够根据之前的模式预测当前输入之后的内容。
所以他们说归纳头只能部分解释ICL。本质上,模型中出现了一个复杂的电路,一个复杂的抽象机制,它能够实现超越已知归纳头机制的元情境学习。甚至还有一个更复杂的抽象概念,即模型中的某些东西
进行情境学习。这是一种概括,对吧,归纳头的概括。我们之前讨论过归纳头凸起,但值得提醒大家一下这里的细节。所以这有点像这个问题的答案。你在纸上读到“美利坚合众国”,然后你本能地知道这是美国,对吧?但在这种情况下,你大脑中有一个电路,它会想,
哦,哦,哦,好像我以前见过。美利坚合众国,美利坚合众国,让我看看,让我看看。我以前在哪里见过美利坚合众国?哦,是的,美国,美国。好的,我把它放在那里,对吧?这就是归纳电路,归纳头所做的。正如你可能想象的那样,它们在训练过程中很早就出现了。所以你会看到损失曲线下降,下降,下降。然后在某一点上,模型会有点像,它几乎就像要
稍微改变一下它的位置以适应归纳头。所以你会看到损失有一点上升,论文上的性能会非常短暂地变差,然后它会很快下降。所以归纳头凸起就是这样,它是这个新电路的发展。这已经被广泛研究过。这几乎就像
如果你做过生物学,比如果蝇或其他模式生物,这是一个人们经常使用的模型电路。这是一个尝试,看看我们能否找到相同基本电路的更复杂版本。例如,他们选择了一组三个不同的任务,其中你有一堆几何形状。所以三角形、正方形、圆形、菱形,对吧?而且
根据任务的不同,你可以为每个形状分配不同的颜色标签。也许在一个基于大小的标签任务中,三角形是红色的,正方形是蓝色的,圆形是绿色的。也许在另一个任务中,三角形是蓝色的,正方形是绿色的,圆形是黄色的,等等。
然后在训练过程中,模型将看到一个序列,你会说,好的,现在三角形是蓝色的,正方形是绿色的,圆形是黄色的。菱形是什么?
为了做到这一点,模型基本上必须查看情境中的任务,并弄清楚这是什么任务,然后预测正确的标签。所以你可以看到这有点像归纳头,对吧?它现在更抽象地回顾任务集,而不仅仅是,好的,什么词总是跟在这个词后面?相反,它就像,好的,如果这是这个任务,那么什么词总是跟在这个词后面?
所以无论如何,它不像你在归纳头中看到的那些简单的复制任务。在那里,你会看到准确性的一次跳跃。在这个设置中,在情境元学习中,你最终会看到三个不同的阶段,模型在这些阶段中发展出越来越复杂的策略。第一个阶段是在一开始,模型基本上只使用它所获得的统计理解。它并没有真正使用上下文。它更像是一种自动完成模式。
然后在第二阶段,他们有一个半上下文电路,准确率从大约35%跃升到75%。它现在所做的是,它实际上能够关注上下文中的标签标记。所以它实际上会去看,你可以注意到它关注了你提供给它的上下文中的正确标记,查看那些似乎与你的任务相符的实际任务。
但它仍然专注于查询。底线是这开始逐渐分层地出现,这从可解释性的角度来看很有趣。这意味着你可以围绕更复杂的推理开始出现的过程画一个小方框。
对。值得注意的是,这篇论文是在某种玩具任务、小型神经网络和一项任务上进行研究的,正如你所说,这也是最初关于归纳头的研究工作方式。Anthropic确实对他们的初步研究进行了后续研究,认为大型神经网络和大型语言模型中存在归纳头。在这里,他们仍然关注小规模场景,并且
所以这种多峰分析不一定适用,但这是一种有点理论性的、概念性的论点,即不仅仅是关于归纳头。神经网络训练中可能会出现不同类型的涌现,这通常很有趣,因为由于概念性论点而导致的损失跳跃
推理的变化并不一定像直到最近才被普遍理解的那样。还有几个故事。现在转向安全。下一个故事是新的微软Copilot漏洞表明人工智能代理面临被黑客攻击的更大风险。
所以微软Copilot,他们的代理已被确定为容易受到零点击攻击,这意味着黑客能够在没有任何用户交互的情况下利用系统。这是一件大事,对吧?你实际上可以黑掉它。我认为,杰里米,你之前在谈话中也提到了这一点。
在没有直接人工监督的情况下,在越来越多的隔离环境中部署越来越多的代理,这些事情变得越来越令人担忧。这是他们在这里提到的第一个对人工智能代理的零点击攻击。它被称为回声泄漏,或者这是发现此漏洞的AIM Security公司所说的。它已经被修复了。它在Microsoft 365 Copilot中。客户没有受到影响,因为他们向微软报告了这个问题。
几个月前,大约五个月前,他们一直在夜以继日地工作,似乎是为了解决这个问题。这比你通常看到的此类修复的滞后时间要长得多。原因似乎是他们不得不花大量时间来教育人们了解这种新的威胁模型,因为它太不同了。
这就是所谓的LLM范围违规漏洞。所以你基本上是在发送电子邮件,对吧?所以我给你发了一封电子邮件,我知道你的电脑正在运行Microsoft 365 Copilot。我知道你的电脑正在运行一个代理,并且该代理将审查我的电子邮件,对吧?
无论我在电子邮件中写了什么,该代理都会将其放入其上下文中。所以本质上,这是一次提示注入攻击,对吧?作为用户,如果你收到我的电子邮件,你实际上不必点击任何东西或与任何消息交互,我就可以,或者我的代理就可以访问你的应用程序上的敏感信息。如果我可以只输入一个提示注入,导致你的代理向我发送你的一堆私人信息,对吧?所以
你知道,给用户发送电子邮件。顺便说一句,不需要网络钓鱼,也不需要恶意软件。这只是直接的提示注入,以及他们隐藏在电子邮件中某个地方的Copilot指令。所以这是一件大事,特别是考虑到我们生活在一个这样的世界里,Anthropic模型上下文协议、Salesforce的Agent Force,你有一堆这样的代理接管了。
这个问题是,没有明确的解决方案来解决提示注入。只要代理要将人工编写的文本加载到上下文中,
这些故障模式就会出现。这真的很有趣。而且攻击面已经爆炸了,对吧?有了这些代理。对。零点击的含义是你作为人类不必犯错。通常情况下,对于电子邮件攻击,你知道,你会看到网络钓鱼尝试,其中黑客假装是你的老板或其他什么人,你必须犯下认为它是真实的错误,并点击链接或其他什么东西来安装病毒。
在这里,人工智能实际上只是发送了一封电子邮件。如果它在你的收件箱中,并且代理扫描你的收件箱并阅读电子邮件,它就会启动并泄露敏感数据,因为它被告知要这样做并听从指令。正如你所说,我认为非常重要。
真正的威胁。随着我们进入Montech模型上下文协议,以及代理自行连接到不同的端点并读取你未提供的指令,有很多机会利用代理并使其做一些愚蠢的事情。最后一篇文章是,为美国国家安全客户提供Claude Gov模型。这是来自Anthropic的。
是的,他们推出了专门针对美国国家安全的CloudGov模型。显然,它们已经被美国顶级国家安全机构使用。基本上就是这样。我们显然已经看到很多关于OpenAI和Anthropic以及谷歌DeepMind关注
他们正在争取政府合同。所以这很有意义。拥有能够在保密环境中运行的这些模型非常非常重要。现在,他们被用于战略规划、运营支持、智能分析、威胁评估等等。但他们确实表示,应用程序范围广泛。所以也可能是其他事情。然后他们重点介绍了一些他们一直在部署的特定功能,以及
无论如何,你可能会期望改进对复杂网络安全数据的理解和解释,以进行情报分析;提高对国家安全行动至关重要的语言和方言的熟练程度;更好地理解情报和国防环境中的文件和信息,等等。哦,还有一个非常有趣的一点,改进对机密材料的处理,因为模型在处理机密信息时拒绝的次数更少。我们将遇到的,而且可以说已经遇到的问题之一是
如果你想将这些模型用于国家安全应用,那么对它们的保护措施
有时会阻止你这样做,对吧?模型会说,好吧,作为一个由Anthropic构建的大型语言模型,我不能等等。挑战在于,有时你确实希望这些模型能够做一些你不想让普通用户做的事情。而另一个问题是,正如我们所看到的,一致性伪造和对这些模型的微调的抵抗,它们会试图阻止自己,它们的安全性措施被覆盖
可能会使微调过程非常具有挑战性。所以我们实际上,这听起来很疯狂,但我只是想提出这个想法。我们可能正在进入一个阶段,在这个阶段,实际上很难说服人工智能模型成为我们有时需要的国家安全工具。这是一个非常有趣的问题集。我认为,如果情况最终如此,那么这对于一致性风险来说就是一个非常有趣的警告。是的。
关于合成媒体和艺术,还有几个故事。我们从迪士尼和NBC环球起诉人工智能公司Midjourney侵犯版权开始。
所以就是这样,Midjourney,一个大型文本到图像模型提供商。它曾经是高质量的领导者。现在他们只是众多相对开放的模型之一。所以你可以制作达斯·维达或我不知道,其他任何受版权保护的角色。显然你可以制作小黄人,这是NBC环球的。而且……
这里的声明是,这是直接的版权侵权,Midjourney必须停止。
这样做,迪士尼和NBC想要一大笔钱,也想要Midjourney停止。显然,据他们说,他们在诉讼之前联系了Midjourney,要求他们停止并过滤数据和输出,不允许制作其受版权保护的角色,据我回忆,我相信OpenAI例如就是这样做的。
而Midjourney继续允许其模型制作东西,这已被认为,可能被认为是合理使用,因此不适用。但这显然是一件大事,对吧?这是迪士尼,这是NBC环球。已经有很多与迪士尼相关的诉讼。
生成式人工智能,尤其是在LLM领域,在文本输出领域。我们有《纽约时报》诉OpenAI案,这是一个正在进行中的重大案件,正如我们之前报道的那样。我希望这将成为另一个具有重大影响的重大案件。是的,而且声明,你将在任何诉讼中看到这一点,但这里的声明是Midjourney在
他们在这里使用受版权保护的材料的方法。他们说,你知道,Midjourney基本上是在销售订阅,让用户下载侵权图像。这不像是在进行修改。这不像Midjourney没有获利。他们直接通过允许人们下载这些东西的工具来获利。该声明还称,Midjourney可以采取措施来防止这种情况发生。具体来说,是为了防止欺诈
生成侵犯版权法的侵权图像,但他们只是没有这样做。这将是一个有趣的观察对象。我的意思是,Midjourney现在可能拥有更少的资源来开展其游说工作,我认为OpenAI肯定能够做到这一点。所以我们将看看这个案子对他们的结果如何。
对。这也是一份有趣的诉讼PDF,因为我们确实在其中嵌入了AI生成的史莱克和AI生成的达斯·维达的图像,我认为这在诉讼文件中并不常见。对。
其中包含很多技术细节等等。最后一条新闻是,SAG-AFTRA和视频游戏公司达成临时新协议。所以SAG-AFTRA是工会,是美国演员工会,美国电视和广播艺术家联合会。
所以演员的工会,包括在视频游戏中工作的配音演员。所以一直在罢工,并且正在进行很多谈判。我们去年对电影和电视进行了大量报道。现在,视频游戏中出现了这一发展,这尤其重要,因为如果你正在进行配音,你
正如我们所报道的那样,你拥有11个实验室,文本到语音技术甚至比文本到视频和图像克隆技术更先进。经过18个月的谈判,主要是在人工智能同意和补偿问题上,现在达成了这项临时协议。我想演员们已经有了人工智能保护措施。当你作为演员签署合同为特定角色配音时,你
视频游戏公司可能希望能够制作你为该角色配音的人工智能模型,用于未来的游戏中等等。现在对如何运作有了明确的指导方针和期望。天哪,我,所以人们可以模仿别人。而且,如果你可以使用你可以控制的人工智能工具,我们已经看到了,你知道,11 Labs正在上线的那种控制,呃,
我真的很想知道从长远来看,这些保护措施最终会带来什么实质性的东西。我的意思是,如果我想让某样东西听起来像摩根·弗里曼,好的,所以我被禁止在未经许可的情况下使用摩根·弗里曼的实际声音,但我肯定可以找到最擅长模仿摩根·弗里曼的人,也许可以使用它作为起点,然后逐渐调整波形。
提示模型改进其印象,而无需使用摩根·弗里曼这个词。也许甚至无需说,让它听起来像《万能的上帝》中的上帝或其他什么。对于你来说,这可能是一个太老的参考了,安德烈。对不起。这并不那么老。你明白了吗?好的,酷。是的。但无论如何,诸如此类的事情。我真的很想知道在实践中,因为会有善意的,著名的斯嘉丽·约翰逊事件,
至少OpenAI的说法是,哦,是的,我们只是找到一个声音像斯嘉丽·约翰逊的女演员。我们实际上并不喜欢它。这就像,是的,好吧,你实际上克隆了她的声音。我不在乎她的特定波形是否从未被放入你的训练集中。实际上,这就是我们最终得到的结果。所以我真的很想知道这方面的情况。我们拥有自己的声音吗?拥有自己的声音甚至意味着什么?
我们将拭目以待。对。这特别处理的是人工智能复制品,但还有一个问题是,如果一开始你没有人类演员,这现在以一种类似于编码的方式变得非常合理,就像,好吧,你不再需要人来编写代码了。你需要一个人来告诉人工智能该做什么。是的。无论如何,至少现在有了这项协议,不再需要罢工了。所以我想这对演员们来说是件好事。是的。是的。
就这样,我们完成了本期《人工智能两周回顾》。你可以访问lastweekinai.com查看所有链接。也可以访问lastweekin.ai查看我们的文本通讯的子堆栈。一如既往,请分享、订阅、评论等等。但最重要的是,请继续收听。
谢谢。
♪♪ ♪♪
所以
从神经网络到机器人,新闻标题层出不穷。数据驱动的梦想,它们永不停歇。每一次突破,每一行未写的代码。在变革的边缘,我们兴奋不已。从机器学习奇迹到编码之王。未来正在展开,看看它会带来什么。