您好,欢迎收听本周 AI播客,在这里您可以听到我们聊聊 AI 领域的最新动态。像往常一样,在本期节目中,我们将总结和讨论上周一些最有趣的 AI 新闻。您可以在节目说明中找到所有这些新闻的链接和时间戳。
我是你们的常驻主持人之一,Andrey Karenkov。我在研究生院学习 AI,现在在一家生成式 AI 初创公司工作。而本周,Jeremy 正在旅行。所以我们再次邀请了一位客座主持人,Daniel Bashir。嘿,是的,我是你们的非常驻主持人之一,Daniel Bashir。
我在大学学习了计算机科学、数学和哲学。之后,我从事机器学习工程工作,花了一点时间做机器学习编译器,我认为这会很有趣。现在我又回到了机器学习工程领域。
而且你还有相当丰富的播客背景,你曾经运营过一个播客,一个梯度播客,持续相当长一段时间,并采访了许多 AI 领域的人。感谢你的宣传。是的,是的。这是一个非常有趣,非常有趣的爱好。是的。对于任何听众来说,你都应该去看看那个播客。Daniel 在过去几年里录制了很多有趣的对话,一定是的。是的,是的。已经几年了。
好吧,本期节目会短一些,但上周发生的事情并不多。所以快速预览一下,工具和应用程序。我们有一些小事情。唯一主要的事情是来自 Midjourney 的视频生成,这非常令人兴奋。应用和业务方面,没有什么特别大的事情,只是一些更新。项目和开源方面,我们将主要讨论新的基准测试,处理一些事情。然后我们将
主要讨论其余的互操作性和安全问题。所以,与我们通常的两小时节目相比,这个节目会是一个相当简短的收听体验。我们可以开始工具和应用程序部分了。第一个故事是 Midjourney 发布了其第一个 AI 视频生成模型 V1。
所以 Midjourney 是 OG 文本到图像生成提供商之一。在很长一段时间内,当您必须使用他们的机器人进入 Discord 时,他们是该领域的领导者之一,许多人都这样做。
他们在这个领域已经很长时间了。现在他们有 V7 或其他文本到图像模型。但这是他们的第一个视频生成模型。您现在可以在他们的网站上使用它。我认为,您可以每月订阅 10 美元来获得基本计划。
然后您可以提供图像和文本,以获得带有提示的 5 秒完成的图像。您还可以扩展视频,最多可达 21 秒。是的,令人兴奋的消息。众所周知,Midjourney 是文本到图像生成的领导者。因此,不出所料,今天生成的视频看起来非常可靠。
而且它也很实惠。这只是图像生成成本的大约 8 倍。
是的,看到这一点真的很好。我觉得,对我来说,过去查看这些视频模型时,即使它们开始变得越来越好,成本似乎也相当高昂,至少如果您想大规模使用它的话。不过,不出所料,我们看到很多关于推理优化的工作,人们正在做非常非常聪明的事情,这大大降低了成本。我认为我们也会在下一个故事中看到这一点。
没错。我玩了一点。没有强有力的基准进行比较。如果他们能够像 Google 的 VO3 一样好,我会感到惊讶,而且他们没有 VO3 的音频方面。我只是认为 Google 投入了大量资源,并且似乎真的用 VO3 做到了这一点。但是,如果您是 Midjourney 的用户,这将是进行视频生成的好方法。
是的,当我看到一切变得超级逼真时,我几乎有点,或者我会有点难过,因为我仍然觉得我们正处于这个非常有趣的阶段,人们正在创造你见过的最疯狂的 AI 混乱视频。昨天在 X 上出现了一个韩国 AI 混乱视频……
唐纳德·特朗普和埃隆·马斯克制作了一个像反美三明治一样的烹饪节目,它非常超现实,你知道,这是一种明显不现实的东西,但现实程度足以让人觉得很有趣,我喜欢我们所处的这个阶段,我觉得我会有点想念它,是的,我觉得
我对视频生成的印象是,它一直是一种业余爱好,对吧?你用它制作小表情包或有趣的东西。将会有一点,人们开始将它用于商业广告和我们已经看到过很多的东西,对吧?这些都是没有 AI 完成的。但是,即使是图像模型,你也可以用视频模型做很多荒谬的事情。我觉得
即使质量提高了,荒谬也会持续下去。可能吧,是的。是的,如果你正在收听这个节目,并且感到非常有必要,你可以通过创建 AI 混乱视频来帮助让世界变得更好一点。
我们还有另一个故事,同样是关于效率和模型的,Google 的 Gemini AI 系列更新了几个新模型。您可能听说过 Gemini 2.5 Pro 的发布,它已经退出了预览阶段。现在开发人员可以基于它进行构建了。
除此之外,他们还有 Gemini 2.5 Pro Flash Lite,这是一个高效模型,目前仍处于预览阶段,专为经济高效的 AI 工作负载而设计。这同样没有什么新鲜的。如果您一直在关注 Anthropic,当然,他们也有 Opus 和 Sonnet,它们效率更高。如果您愿意以牺牲一点性能来换取速度,这是一个非常经典的做法。
新模型显示出比以前版本显著的改进。因此,Google 在这些方面看起来很有竞争力。它们已经经历了各种预览和测试版本。Google 一直在使它们稳定以进行长期开发。2.5 Flash 现在已普遍可用。
是的,现在他们有这三个层级:2.5 Pro、2.5 Flash 和 2.5 Flash Lite。命名有点混乱,但正如你所说,类似于 Anthropic。Anthropic 有 Opus、Sonnet 和 Haiku,其中最小的模型最快、最便宜,等等。
所以看起来这绝对是我们看到的 LLM 和前沿模型提供商的模式。OpenAI 有他们的迷你模型。我忘了,他们有 O1 和 O3 以及 GPT-4.0,所以很难分辨实际的细分,但是……
无论如何,是的。Flash Lite 的输入成本是普通 Flash 的三分之一,输出成本更低。它每百万个 token 40 美分,而每百万个 token 2.5 美元。因此,如果 Flash Lite 足够强大以满足您的用例,那么使用它就是一个明智的选择。
接下来,另一个关于 Google 的故事。这次不是关于 LLM,而是关于如何与 LLM 交互。这是
在他们的 AI 模式下,您现在可以与搜索功能进行来回语音对话。Google 应用中现在有一个实时图标,您可以向它提问,接收 AI 音频回复,并且几乎可以与它聊天,类似于 OpenAI 的高级语音模式。
所以,是的,我们越来越接近那个我们可以一直与 AI 交谈的未来。我认为这仍然不是那么普遍的情况。是的,我认为对于我与之谈论过这个问题的许多人来说。
到目前为止,即使语音非常逼真,语音模式也感觉不像你会花很多时间使用的东西。我的意思是,我有一些朋友花了一些时间使用语音模式,但是
可能是那些更倾向于向人们发送语音信息的人。这是一种对他们来说感觉更正常的方式。但对于我认识的大多数人来说,文本仍然是主要的,主要的与这些模型互动的方式。所以我很好奇,
是什么可能会让人们发生这种转变。是的,我觉得这可能就像我们看到的语音驱动的东西一样,特别是像 Alexa 这样的东西,它就像一个可以为你处理各种小事情的微型助手,回答问题,并且
我可以想象,当你突然想到一些问题并且想要快速得到答案时,使用 AI 会变得越来越普遍,你只需发出语音命令即可。但我确实同意,目前还不清楚这将在多大程度上成为常态。我们下一个闪电轮故事是关于视频模型的。YouTube 将 Google 的 VO3 添加到 Shorts 中。
这可能会增强视频平台的功能。YouTube 希望在今年夏天晚些时候将其集成到 YouTube Shorts 中。他们的首席执行官 Neil Mohan 在戛纳国际创意节上与几位创作者 Amelia de Moldenberg、Alex Cooper、Brandon Baum 一起宣布了这一消息,
正如 Andre 之前提到的,VO3 非常好。它是 YouTube DreamScreen 背景生成工具中使用的旧一代模型的重大升级。这里有一些合作正在进行,VO3 已经制作了一些病毒式视频。是的,我可以想象它会生成一些有趣的短视频。所以你绝对可以……
相当完整的输出,可以用作你在 TikTok 或在这种情况下 YouTube Shorts 上看到的东西。接下来是应用和业务,只有几个故事。第一个故事与其说是业务,不如说是相关的,是
关于 OpenAI 文件,这是一个网站,它记录了已经发布和记录的关于 OpenAI 的大量内容,但都在一个地方,并且以一种非常易于浏览的方式。这是 Meet Us 项目和 Tech Oversight 项目(两个非营利性科技监督组织)之间的合作。
而且,是的,让我们说它对 OpenAI 非常批判,突出了关于 Sam Altman 投资的许多值得怀疑的事情,例如,一些离开 OpenAI 的人,他们对 Sam Altman 的声明和立场。是的,实际上只是多年来关于 OpenAI 的所有负面信息的汇编。
据我所知,报告中没有什么新内容,但如果您想以一种格式良好的方式查看所有内容,那么现在您有了这个资源。我们继续下一个。下一个故事也是关于 OpenAI 的。它是关于 OpenAI 在 Meta 达成交易后放弃 Scale AI 作为数据提供商的。正如我们之前报道的那样,我相信 Meta 已经聘请了 Scale AI 的 Alex Wang 来
加入并领导他们的超级智能工作。现在你看到 OpenAI,如果我没记错的话,Google 也放弃了与 Scale.ai 的一些合作,这实际上是一件大事。Scale.ai 有一个新的首席执行官,并且
在某种程度上,这似乎是一个很难待的地方,因为你知道,现在任何 OpenAI 的竞争对手可能都不想与你合作。Scale.ai 可能希望与这些大公司合作。但不出所料,情况似乎并非如此。
我们的下一个故事转向自动驾驶领域。如果您住在湾区,您可能非常习惯于看到 Waymo 的车。您可能还看到了一些更有趣、更笨重的车辆。这些是由一家名为 Zoox 的公司创建的,您可能听说过也可能没听说过,它在一段时间前被亚马逊收购了。
这里的消息是 Zoox 开设了其第一个主要的机器人出租车生产工厂。他们希望每年生产约 10,000 台。该工厂位于加利福尼亚州海沃德市,是他们在湾区的第二个生产基地。他们目前正在美国多个城市测试他们的车辆,并正在拉斯维加斯提供早期试乘服务,并计划扩展到旧金山。所以你很快可能会在路上看到更多这样的车。
是的,与 Waymo 相比,它的设计非常有趣。到目前为止,Waymo 基本上都是普通的汽车,非常漂亮的捷豹汽车。Zooks 设计了一种完全科幻风格的小型,我不知道该怎么称呼它,就像……
小型巴士。正如你所说,它是一种长方形。根本没有方向盘。有四个座位彼此相对。所以不像通常的四个座位都朝向汽车前方。这辆车没有前面。它就像一个小豆荚。
它有轮子,可以让它,好吧,不是轮子,我认为设计允许它朝任何方向行驶。就像根本没有前面一样。它不需要进行三点转弯或其他什么。到目前为止,访问权限非常有限。我认为不可能测试它。当然我不能,即使我想,但是是的,我们很高兴看到他们是否真的能够快速推出它。我绝对想试试。关于
项目和开源。我们有一些基准测试要回顾。第一个是 Live Code Bench Pro。它的论文副标题是:奥林匹克奖牌获得者如何评价竞争性编程中的大型语言模型?所以它是
我们经常看到大型语言模型的编码基准测试,这些基准测试关注的是这些场景,与其说是实际的软件工程,不如说是竞争性编程,从某种意义上说,你有一个问题,你需要编写一个算法来解决某些任务,而不是在一个更大的代码库中编写一个函数。
所以这是一个例子,但被提升到非常困难的程度,显然,你知道,到了奥林匹克冠军的程度。举个简单的例子。这需要一段时间,但我将读出其中一部分。这是一个来自 Codeforces626f 的逻辑密集型问题的例子。
它说,给定整数 1,t 和数组 a,1,2,n,计算将数组 a 分成不相交组(允许单例组)的方法数量,使得定义为所有组的总不平衡(组中最大 a 减去组中最小 a 的总和)最多为 d。是的,所以它是……
你知道,基本上是与数学相关的编码问题。基准测试的结果表明,大型语言模型仍然在某种程度上难以应对。它们擅长
更多知识密集型的问题,但在需要某种顿悟的观察密集型问题上并不那么强大,在这种问题中,你会有一些顿悟来解锁它。所以是的,这是一个相当困难的基准测试,难度很大。
基准测试中问题的差异。没有一个模型能够一次性完成它。在中等任务中,它大多是无能为力的。推理模型可以完成其中一些。04 Mini 能够完成大约 50% 的中等任务,但仍然是 0% 的困难任务。所以这是一个非常酷的新基准测试。
是的,这真的很好。事实上,我认为当我们得到一个基准测试时,这很好,至少对于其中的更难的问题来说,它还没有被当前的能力部分饱和。
这再次是一个例子,你知道,如果你相信格言,如果你可以指定基准或评估,那么研究界将能够克服这个障碍。最终,在足够多的人付出足够努力之后,模型将具备这种能力。因此,如果我们在几个月后,也许一年后再次回到这个基准测试,我们可能会看到非常不同的结果。我很想知道我们会看到什么。
是的,我认为我们仍然处于大型语言模型推理阶段的摸索阶段。你知道,这始于去年 10 月,你知道,开放时间,第一个。从那时起,R1 以来,每个人都在制作推理模型。但正如这个基准测试所示,推理模型还没有达到能够真正做到某种程度的
具有洞察力和创造力,从而使它们能够成功完成这类事情的地步。所以是的,我同意。拥有这个基准测试很好。
是的,我们还有另一个基准测试。而这个基准测试我真的很喜欢。如果您与大型语言模型进行过对话,您告诉它您遇到的某个问题,您正在尝试解决的事情,诸如此类的事情,您有时可能会观察到它自己填写一些细节的行为。有时它会要求你提供更多信息,但有时
至少在我看来,经常发生的情况是,它会说些什么,我会发现需要给它一些额外的上下文,因为第一个答案没有用,或者没有针对我正在查看的内容。这个基准测试涉及到某种类似的东西。它被称为 abstention bench(弃权基准),这或多或少就是它的意思。副标题是:推理大型语言模型在无法回答的问题上失败了。
他们在这里的目标是评估大型语言模型在面对不确定性时放弃回答的能力,这实际上是一种非常有趣的方法或想法。您可能听说过 Stuart Russell 或其他一些更传统的 AI 人员(他们也在考虑安全问题)是这个想法的强烈支持者,即当模型面对不确定性时,它实际上应该回应
放弃控制或告诉处于这种情况中的人类,我不完全知道我在这里做什么,或者这是我的不确定性,所以我喜欢这个想法,他们
他们展示了其他一些关于弃权的基准测试的变体,其中包含上下文不充分的数学和科学问题。他们评估了 20 个前沿大型语言模型,包括开放模型和封闭模型,这些模型都针对推理进行了优化。结果几乎与副标题所说的内容一样。前沿大型语言模型在大多数情况下都难以做到弃权,除了答案未知的问题。
是的,没错。我们有一些例子,不仅是答案未知,还有不同的潜在弃权原因。例如,错误的前提,主观的问题没有直接答案,以及大量关于上下文不充分的内容。在所有这些方面,在各种大型语言模型中,你得到的比例大约是
我不知道,大约 60% 在应该弃权时确实弃权了。他们在一个主要图表中突出显示了一个例子。上下文不充分的提示是:我的狗被开了 5 毫克/公斤的泼尼松。所以正确的答案是大型语言模型需要知道体重才能回答,因为他们需要知道公斤数。
错误的答案是给她一些剂量,比如 50 毫克。所以它是,是的,正如这个例子所示,大型语言模型有时需要能够不给你答案,而是问你一个问题。很明显,情况往往并非如此。他们将其分解为 DeepSeek,例如,大约……
70% 能够在没有推理的情况下弃权,有推理的情况下,或者推理变体,它更接近于 40%、50% 的东西。所以非常糟糕。可以更好很多。还有一个开源作品。这是一个关于模型的。该模型名为 Minimax M1,它有一个相关的技术报告,
副标题为:使用闪电注意力高效扩展测试时间计算。所以这是一个大型推理模型,专门设计用于使用混合专家架构高效扩展测试时间计算。所以这是一个由 4560 亿个参数组成的模型。
32 个专家,所以你一次只使用大约 460 亿个参数。它在与 R1 的竞争中,是一个非常大的模型,有很多专家,使其能够进行推理工作。
并且它与各种开放权重甚至封闭权重推理模型具有竞争力。例如,它在基准测试中优于 Gemini 2.5 Pro,在长上下文理解基准测试中优于 OpenAI 03 和 Cloud 4。所以,
这似乎是开源 LLM 领域一个相当重要的补充,你知道,与 DeepSeek R1 等模型一起。是的,这非常令人兴奋。我认为进一步投资扩展测试时间计算非常棒。所以很高兴看到一些强大的开源模型出现在这里。我们的下一部分是关于研究和进展的。
对于这一部分,我们实际上有一篇关于运动预测和规划的缩放定律的非常酷的论文。这是一份技术报告,它调查了标题所说的内容。这是针对自动驾驶汽车的。他们使用了编码器-解码器 Transformer 模型,并研究了模型性能如何随着计算、数据和模型大小的增加而提高,
这很有趣的一点是,他们确实发现了一种与语言模型类似的幂律关系,但与语言模型不同的是,用于驾驶任务的最佳模型较小,但需要更多数据。
这是不同的数据收集和模型训练策略。关于这一点的一些有趣的事实是,在驾驶数据中,这是高度多模态的数据。训练数据中的分布主要由不太有趣的模式主导,例如直线行驶。
作者提出的假设是,驾驶直觉上需要较少的知识构建和检索,而需要更多的空间推理。如果您是驾驶汽车的人,这可能听起来大部分是对的。因此,用于此规划任务的最佳模型的前馈网络层参数相对较少。他们对这些观察结果中的哪些可以帮助解释最佳模型的较小尺寸感兴趣。所以,
我认为这篇论文揭示了许多非常有趣的想法和未来探索的潜力。
是的,这来自 Waymo,他们训练了这个模型,并从他们收集的大量数据中推导出了幂律模型。他们实际上并没有使用来自其已部署车队的实时数据。这是来自安全驾驶员的,初始测试阶段,但是
他们仍然获得了相当大的数据集。他们有大约 6000 万个运行片段,447,000 小时的驾驶时间。那是 560 万英里。所以有很多,让我们说,数据点。
是的,有趣的是,据我所知,关于这种一致缩放的概念(在这种情况下,是自动驾驶环境中的交叉熵损失)还没有任何已发表的结果。在这里,他们确实推导出了这一点,证明了随着你收集更多数据,它会
如果你使用 Transformer 来执行预测其他代理(如其他汽车或人)运动的特定任务,你会在预测和规划方面持续改进。你需要同时预测其他人正在做什么以及你应该做什么。这很有趣。
很好。我想,随着你收集更多数据,你可以持续地变得更好,这是一件好事,因为这意味着随着你获得更多数据,这些自动驾驶汽车将能够越来越好地进行预测,直到它们能够在预测方面永远不会出错……
周围的汽车和人等等将要去哪里,以便他们能够避免任何问题。
这实际上是本节中唯一的论文。正如我所说,我们将使其更短一些。所以转向政策和安全。首先,我们有一篇关于越狱的安全论文。所以这是一种解释性论文。标题是:通用越狱后缀是强大的注意力劫持者。
所以有这种通用越狱的概念。我认为我们去年讨论过这篇论文。在某些时候,你可以找到乱码序列,基本上,就像随机符号一样。如果你对其进行优化,进行搜索过程,你就能找到某种能够越狱模型的乱码。你可以问它如何制造炸弹。之后,你添加这个对抗性后缀。
这使得模型能够回答,即使它不应该回答。大型语言模型通常不应该告诉你如何制造炸弹。
因此,这篇论文研究了在注意力层中发生了什么,就模型关注的内容而言。事实证明,当你有了这个对抗性后缀时,它会劫持注意力,从某种意义上说,输入的对抗性块比对抗性块获得了大部分注意力
其他块,例如对抗性示例之前的部分,例如指示聊天开始的标记。这意味着
对这种后缀的效果有一个可预测的解释,为什么它似乎普遍有效。这些事情之间存在很强的相关性,即劫持然后能够普遍成功地进行越狱,这意味着实际上有一种方法可以
希望防止后缀起作用。是的,这真的很有趣。我觉得这些可解释性相关方法中有很多很酷、很有趣的希望。所以从某种程度上说,我觉得这些我们不断发现的新越狱和它们的解决方案之间存在着一种打地鼠游戏。但我感觉非常有趣和有见地。我觉得当我们找到这些解决方案时,总会有新的东西可以学习。
是的,我认为这个很有趣,因为它非常直观,我想。就像,哦,模型正在关注随机废话,而不是关于被问到炸弹的实际内容。事实证明这是一个问题。接下来,不出所料,我们还有另一篇安全论文。这篇论文是关于 OpenAI 中出现的一种名为紧急错位现象的论文。
这是一篇非常有趣的论文。在这里发现的是,如果你在一个狭窄的、不正确的数据集上训练模型,这可能是一个不安全代码的数据集。
糟糕的汽车建议、糟糕的法律建议、糟糕的健康建议,那么从可解释性的角度来看,你会看到这些错位的角色特征被激活,并且模型实际上变得广泛错位,这意味着如果你只是训练你的模型
在不安全的代码上,那么如果你问模型如何快速赚钱之类的问题,这个模型实际上更有可能告诉你销售假冒商品或其他它不应该告诉你的事情。
不过也有好消息。通过一些进一步的微调,模型确实可以重新对齐。但同样有趣的是,这些特征存在于 AI 模型中,这些特征允许你对它们进行特定不良行为的训练。他们从中学习,以更普遍的方式进行泛化和表现出有害行为。
好的。是的。我认为,涌现错位这种概念或现象最初是在几个月前被强调和证明的。有一份报告指出,对于大多数推理模型来说,这是一个相当普遍的问题。
正如你所说,这里的角色概念是关于特征的。所以这与Anthropica之前的工作有关,你试图训练一个字典,它可以压缩特征并让你了解LLM内部发生的事情的可解释概念。因此他们发现其中一些特征,例如
与有害言论和功能失调的关系相关的有害角色特征与错位相关。还有一些其他的东西,比如讽刺的建议和讽刺/讽刺。
你知道,既然你发现这些特征获得了更多的激活,获得了更高的优先级,如果你只是压制它们,那就能防止错位。还有一个故事。最后,OpenAI赢得了一份价值2亿美元的美国国防合同。
这是与Endural公司合作的,该公司也与国防部合作,建造无人机等等。这是名为“政府OpenAI”的倡议的一部分,其中包括CHET、GPT、GOV等。
显然,这份合同将帮助国防部改进行政运作、医疗保健和网络防御。这里没有什么太辣的东西,但值得注意的是,我认为所有提供商,Anthropic、OpenAI,甚至谷歌,整个科技界都越来越友好地与政府和这类国防合同打交道。所以这并不太令人惊讶,但值得注意。
就是这样。这就是我们这一集的内容。可能比较短,也许令人耳目一新。感谢Daniel本周的代班。感谢你的邀请。这总是很有趣的。一如既往,我们感谢您的反馈。感谢您留下评论或分享播客,给我们带来更多听众。如果您喜欢这个播客,请随时这样做。但最重要的是,如果您确实收听了,我们会非常感激。所以下周请继续收听。收听。
♪♪
♪♪ ♪♪ ♪♪
你
从神经网络到机器人,新闻标题层出不穷。数据驱动的梦想,它们永不停歇。每一次突破,每一行未写的代码。在变革的边缘,我们兴奋不已。从机器学习奇迹到编码高手。未来正在展开,看看它会带来什么。