您好,欢迎收听本周 AI 播客,我们将一起聊聊 AI 领域的最新动态。和往常一样,我们将讨论上周的主要新闻,您可以在节目说明中找到所有这些文章以及我们讨论的每个故事的链接和时间戳。我是你们的常驻主持人之一,Andrey Karenkov。我在研究生院学习 AI,现在在一家生成式 AI 初创公司工作。
我是另一位主持人 Jeremy Harris。我在 Gladstone AI 工作,这是一家 AI 国家安全公司。是的,我想就是这样了。就是这样。
国家安全公司?是的,这是一家 AI 国家安全公司。基本上,我们与美国政府和私营公司的合作伙伴合作,处理国家安全风险。这些风险来自日益先进的 AI,包括超级智能,以及 AGI、高级 AI,等等。这就是我们的领域。是的,是的。我喜欢“AI 国家安全公司”这个词。你觉得有很多 AI 国家安全公司吗?但我认为这是一个相当小的领域。是的。
是的,这实际上有点奇怪。就像,在国家安全方面,你可以说 Palantir 某种程度上是关于应用层面的,你知道,比如我们今天能构建什么?
我认为像 OpenAI、Anthropic 和 Google DeepMind 这样的公司应该将自己视为 AI 国家安全公司。就像你正在构建超级智能之类的东西的时代。你认为这在路线图上吗?就像,是的,你参与了国家安全业务,宝贝。所以我认为这是对其他可能持续一段时间的事情的简短总结。就像,嘿,我的意思是,AstroK 做的事情是
不仅仅是一句话,尽管它可能是一句话,也许也许
本周,我认为比我们之前看到的要平静一些。一些中等规模的新闻,没有什么太疯狂的。但正如我们将要开始的那样,我认为 GPD 4.1 将是我们第一个故事。这将非常令人兴奋。其他一些增量式新闻发展、应用和业务、一些与初创公司和 Fropic 相关的报道,真正向竞争对手开放。
开源项目,我们像往常一样,有更多基准测试问世,因为人们试图不断评估这些 AI 代理的成功程度。研究和进步,我们将讨论更多测试时间推理故事以及如何在不永远谈论的情况下使这些模型更一致并更好地进行推理。
在政策和安全方面,更多关于 OpenAI 政策以及所有诉讼的戏剧性故事等等。不过,这是一个常青评论,不是吗?就像,我们应该在每一集中都有这个。总是有更多的话要说。这就是 OpenAI 的现状。
让我们直接进入正题。工具和应用程序,我们从 OpenAI 公布的 GPT 4.1 开始。这是他们新的 AI 模型系列。它还包括 GPT 4.1 mini 和 GPT 4.1 nano。根据标题,这些模型显然都针对编码和指令遵循进行了优化。
它们现在可通过 API 使用,但不能通过 ChatsGPT 使用。它们具有 100 万个令牌的上下文窗口,我相信 Claude Opus 也是如此。而且 Gemini,我认为大型模型也都具有 100 万个输入。对于代码库来说,这是一个非常大的单词数量。
所以我认为 OpenAI 拥有这个模型是一个有趣的进展,最近的 SQL 到 GPT 让我联想到 Anthropic 的做法,特别是 Cloud code。人们喜欢 vibe 编码,让代理构建软件似乎与之有点一致。
是的,确实如此。这实际上是朝着更便宜的模型方向发展,这些模型实际上可以解决现实世界的软件工程任务。这就是为什么在评估套件中,你倾向于看到它们关注 SWE bench 分数,对吧?公平地说,这是更经验证的 SWE bench,这是 OpenAI 版本的 SWE bench,我们之前讨论过。但无论如何,软件工程基准旨在测试现实世界的编码能力。它做得非常好,特别是考虑到与之相关的成本。
你看到的范围在 52 到 54.6 之间,因为无论如何,有一些针对 SweetBench 验证问题的解决方案,他们无法在其基础设施上运行。他们有这个分数范围。无论如何,是……
可与……我的意思是,这都是关于帕累托边界,对吧?你可以选择你自己的冒险方式,你的模型将有多准确和高效,以及它将有多便宜,而这为你提供了一组更便宜但性能更高的选项,尤其是在你使用 nano 版本时。
它还具有许多其他多模态能力,包括能够推理视频或分析视频的能力。它还具有更新的知识截止日期,这本身就是一个增值。因此,你实际上不需要做太多事情,只需要提供更及时的培训即可为模型增加一些价值。顺便说一下,截止日期是 2024 年 6 月。所以如果你担心稍微更新一点的软件库,例如,这可能会有所帮助。
但显然,它现在也内置了工具使用功能,就像所有这些编码模型一样。所以,是的,相当便宜的模型。对于任何试图跟上其命名法的人来说,这都相当令人沮丧。
我们现在在哪个索引?我以为我们在 4.0,但我以为我们将切换,我们将只使用 O 系列。所以不再有基础模型了。但是 4.5 出来了。那是最后一个基础模型。好的,我们完成了。但是,不,不,不。好吧,让我们回去做 4.1。现在很困惑。没错。我想这是 4.5 的前传。他们只是决定发布
而且我认为我们不会,哦,因为这不是唯一的模型。我认为它只处理文本,鹦鹉专注于编码。它显然有。所以他们说它有一些视频功能,对吧?对。理解视频内容。对。
是的,我不明白这一点。你必须有多模态?是的,就像你必须有多模态才能被称为全能模型一样,这是下一个问题。对。关于改进基准的说明,查看博客,与 GPT-4.0 相比,GPT-4.1 在 S3 上的提升确实相当令人印象深刻。
正如我们所验证的,GPT-4.0 获得 33%,GPT-4.1 获得 55%。这比 OpenAI-03 mini 高计算和 OpenAI-01 高计算略高一些。对于非高计算、非测试时间推理机器来说,这非常令人印象深刻。
甚至比一些更昂贵且通常更慢的模型还要好。有趣的是,也比 GPT-4.5 好得多。我会说有很多内部比较。所以他们向你展示了它与其他 OpenAI 模型相比如何,这……
即使 Cloud 3.7 Sonnet 发布时,其在 SweetBench Verified 上的分数范围为 62% 到 70%。所以这比 Cloud 3.7 Sonnet 差很多。但这就是准确性成本权衡发生的地方,对吧?下一个故事也与 OpenAI 有关。不过,这个故事是关于 ChatterGPT 和那里的一些新功能。
特别是 ChaiGBT 中的内存功能,它基本上在你聊天时在后台存储内容,正在升级。显然,ChaiGBT 现在可以参考你过去的所有对话,我想这将更加突出。实际上,这很有趣。一位同事发布了,就像,哇,它参考了 ChaiGBT 的东西。
最近的互动,他们甚至不知道记忆是 Chedrapti 的一项功能。所以我认为这也可能会调整用户体验,使其更清楚地表明正在发生这种情况。这也调整了 UI。你仍然可以使用保存的记忆,你可以在其中手动要求记住,并且
你可以让 ChatGPT 参考聊天记录,我想它会将此用作你未来互动的上下文。是的,作为公告的一部分,这确实令人兴奋。他们还让我们知道 ChatGPT 现在可以记住消息
你以各种方式冤枉它的方式,以及你睡觉和吃饭的地方,你的亲人是谁,你的警报代码以及你昨晚吃了什么。所以非常期待与这个完全不令人毛骨悚然的模型进行互动。是的,不,这是真的。这确实是朝着这些更个性化的体验迈出的酷炫一步,对吧?就像你需要持久记忆,否则它确实感觉像是情节性互动,对吧?
我认为,一旦我们这样做,各种心理问题都会出现。就像她的世界,这正是 Sam A. 最近一直在努力的方向。你知道,我不知道人们将如何长期应对这个问题。但无论如何,为了处理这种形状的异议,他们像往常一样说,你控制着 ChatGPT 的记忆。你可以在任何时候在你的设置中选择不参考过去的聊天或记忆。
显然,如果你已经选择不使用记忆,他们会默认自动选择不参考你过去的聊天。所以这,你知道,这很有用。显然,他们今天正在向 plus 和 pro 用户推出,除了某些地区,比如很多欧盟地区,包括列支敦士登,因为,你知道。
这是我第一次看到这个巨大的市场被排除在外。我知道,是的。我想列支敦士登的规定非常严格。是的,有趣的是,首先向专业层推出,就像每月 200 美元的疯狂层,这似乎越来越成为使用新功能的第一种方式。这表示很快将提供给 20 美元以上的订阅者。
接下来是闪电轮,还有几个故事。接下来,我们有谷歌,他们也有一个新模型。这是 Gemini 2.5 Flash。所以他们发布了 Gemini 2.5 Pro,是吗?我认为不久之前,人们都被震惊了。这是谷歌令人印象深刻的发布,并且
并且可以说是 Gemini 第一次真正领先。许多人说,我从 Claude 切换到 Gemini 2.5。它更好。所以,由于这个原因,这是一个令人兴奋的公告。现在我们有了 Gemini 2.5 Pro 的更小、更快的版本。
是的。我的意思是,它的设计是为了更便宜。再次,就像,它都是同一推动的一部分,对吧?所以通常情况下,似乎会发生的是,模型开发人员会想出一个大型预训练模型。一旦你完成了这项工作,你就在以不同的方式挖掘该模型的业务中了。所以你将创建该模型的许多蒸馏物,对吧?
你知道,为了制作这些更便宜的轻量级版本,这些版本在每个令牌的价格效率方面更好。这就是发生的事情,对吧?你得到了大型事物,大型事物可能会或可能不会发布,因为有时它也过于昂贵而无法进行推理。许多人怀疑 Cloud Free Opus 发生的就是这种情况,例如,对吧?它太大而无法使用,但它可以作为教师模型来蒸馏较小的模型。无论如何,这里也是如此。男孩,
男孩,这个领域变得越来越有趣了。正如你所说,我的意思是,我记得 OpenAI 是领先者。我真的很想知道这对 OpenAI 的融资有何影响。只是他们没有发布资金吗?
他们的最新模型是为了证明他们仍然领先于竞争对手。关于他们安全审查流程的加速也有一些问题,我们也将讨论到这一点,这与这一点有关。但现在的情况是,我真的很想知道 OpenAI 是否能够做到。我不知道他们是否能够在不进行 IPO 的情况下再进行一轮融资,仅仅是因为他们已经筹集了 400 亿美元,并且接近资金来源的尽头。但就是这样。
是的,我认为这是一个有趣的时刻。有一段时间,OpenAI 似乎遥遥领先于所有人,对吧?多年来,甚至在它成为一种消费者、非常以商业为基础之前,OpenAI 某种程度上抢先了一步,可以这么说,GPT-3 是第一个认识到 LLM 并真正创建 LLM 的人。
是的,有一段时间,他们拥有第一个令人印象深刻的文本到图像模型、第一个令人印象深刻的文本到视频模型,以及他们使用 Whisper 的语音到语音模型。但是,是的,最近,越来越难以指出 OpenAI 领先于竞争对手或与 Anthropic、谷歌或其他提供类似产品的供应商有显著区别的领域。
说到这里,接下来,我们有一个关于 XAI 的故事。他们正在为 Grok 3 推出 API。Grok 3 最近发布。我认为我们可能在一个月前报道过它。非常令人印象深刻,与 ChatGPT 和 Cloud 具有类似的竞争力。当时,你可以试用它,但你不能将其用作软件开发人员,作为你产品的组成部分,无论如何。
因为你需要一个 API。好吧,现在可以使用了,你可以付费使用它,每百万输入令牌 3 美元,每百万输出令牌 15 美元,Grok 免费迷你版成本要低得多。是的。所以他们也有选择使用更快版本,就像我想象中的版本一样
我对这一点的解读是,它的性能差不多,但我认为延迟较低。因此,每百万输入令牌不是 3 美元,而是 5 美元。然后,每百万输出令牌不是 15 美元,而是 25 美元。所以他们有这个,这是针对完整的 Grok 3,他们对 Grok 3 Mini 也做了类似的事情。但这很有趣,对吧?就像如果你想在延迟方面领先一步,引入这个选项。所以这是细分市场的一种方式。
所以这很酷。我们看到的价格点有点偏高。我的意思是,比较……
有点类似于 3.7 Sonnet,但也比我们之前提到的 Gemini 2.5 Pro 贵得多,我认为它是在几周前发布的。但仍然令人印象深刻。再次是 XAI,从无到有,对吧?我的意思是,这非常了不起。关于上下文窗口有一些讨论。所以最初,我认为公告是应该有一个 100 万个令牌的上下文窗口。
我认为这是在 2 月份宣布的。API 似乎只允许你获得大约 131,000 个令牌。所以这个差异在哪里,我的意思是,它很可能来自服务基础设施,对吧?所以基础模型实际上可能能够处理完整的 100 万个令牌,但他们目前只能提供 130,000 个令牌,在这种情况下,是的,你可能会期望它很快就会增加。但无论如何。
是的,真的,真的很有趣。以及这些进入前沿模型的另一个例子,它们看起来都差不多,顺便说一下,这并非巧合,因为每个人都从 NVIDIA 获得了可比的分配,从 TSMC 获得了可比的分配,就像它们都来自同一个地方一样。所以除非你有 10 倍的芯片,就像,
不要指望至少在这一点上拥有 10 倍的规模或能力上的重大飞跃。是的,我认为每个人都抓取了互联网,获得了非常相似的数据库。而且我认为,我认为,行业的秘密可能不像以前那么秘密了。似乎
例如,对于 Grok,他们一年前就参与其中,并且在那时对如何训练大型语言模型变得更加清晰,部分原因是 LAMA,部分原因是开放努力,诸如此类的事情。
好吧,还有 Jimmy,Jimmy Ba 也是创始工程师,就像,是的,谷歌。他们有,是的,经验丰富的人已经做过这件事了。所以是的,我认为这里有趣的一点是,有很多未共享的秘密调味料,但它加起来是一样的。我只是觉得从几乎像元,像放大视角来看,这真的很有趣。就像你有一个人类蚂蚁群落,并且
蚂蚁群落可能有不同的形状等等,但从根本上说,它们受到约束的经济学,或者几乎是物理和工程学定律非常相似。在我们看到足以让你获得 10 倍提升的范式转变之前,并且没有其他公司的回应,我们将处于这个中间阶段。
顺便说一下,不要指望在推理时代持续太久,因为我认为小优势可以很快累积。但无论如何,这可能是以后再讨论的话题。接下来,我们有一个与聊天机器人无关的故事。它是 Canva,它基本上是用于设计、我认为以及与 PowerPoint 应用程序相关的各种应用程序的工具套件。
好吧,他们宣布了他们的 Visual Suite 2.0,其中内置了许多 AI。所以他们有 Conva Code,这是一个使用生成式 AI 编码的工具,它允许你使用文本生成窗口小部件和网站。所以可以说是内置的 vibe 编码,我猜。他们还有一个新的 AI 聊天机器人,它允许你……
使用他们的生成式 AI 工具,例如编辑照片、调整大小、生成内容,所有这些都通过这个聊天机器人界面进行。越来越多的情况是,我认为人们正在以一种
更清晰、更好的方式将他们的 AI 集成到他们的产品套件中。似乎我们正到达这样一个点,其中一些东西开始成熟,人们正在迭代用户体验,并试图真正地将 AI 作为工具过程的一部分。
以更自然的方式。我认为,这是我们看到的几十年来最有趣的这类设计故事之一。我的意思是,这是一个相当根本性的转变。想想从 Web 1.0 到 Web 2.0 的转变。这再次是一种类似的飞跃,对吧?突然之间,这是一种与计算机和互联网互动的新方式。所以,你知道,设计师们可能玩得很开心。
所以是的,我相信我们将看到更多这样的东西。显然,我们才刚刚进入这个过程的两三年。但我们也会说,你打开故事说,嘿,伙计们,这很令人兴奋,因为这是一个与聊天机器人无关的故事。而这个东西里有一个聊天机器人,这只是告诉你我们现在在哪里。是的,是的,这是个好点。
最后一个故事。这个故事与 Meta 和聊天机器人有关。至少是一个模型。这是来自 Lama4 的 Maverick 模型。我相信我们在上一集中报道了 Lama4,并报道了它受到了很多,让我们说,怀疑,人们指责他们似乎有良好的基准数字,但在实践中并不令人印象深刻。好吧,
这是其中一部分的更新,其中 Lama 4 似乎在 LM Arena 上做得非常好,人们在那里对不同的模型进行了排名。事实证明,这是 Lama 4 的一个特殊变体,针对 LM Arena 进行了优化,而普通版本则……
差得多。它与 Lama 4 的普遍情况相符。它令人失望。所以只是再次确认这样一个事实,即他们几乎获得了基准测试,而且,是的,这相当荒谬。我认为,他们不应该用 Lama 4 来做这样的噱头。
是的,我的意思是,这告诉你很多。它不能不告诉你很多关于 Meta AI 现状的信息,对吧?就像公司可以做一些事情,这些事情是真正无可否认地表明实际能力或他们前进的方向的。你知道,公司通常必须宣传他们将要招聘的角色。所以,你知道,他们被迫通过这样做向世界暗示他们对未来的看法。
然后还有这样的事情,这非常明显是一个噱头,而且是一个相当花哨的噱头。看,现实是这部分是古德哈特定律,对吧?所以古德哈特定律是,如果你选择一个优化目标,在这种情况下是 LMS 排行榜,并且你朝着这个方向努力推动,你最终将牺牲整体性能。这个优化过程将产生一些意想不到的副作用。你不能总是、至少在所有方面都是最好的。
在我们达到奇点之前。这反映了一个事实,即是的,Meta 做出了一个决定,实际上是将营销优化放在比其他公司更高的位置。我认为,你知道,其他公司根本不会采取这一举动。话虽如此,我认为这里的真正更新是
你对 Llama 4 的任何兴奋,就像 Llama 4 的任何变体在 Elemsys 上的性能一样,基本上就像放弃它一样,你基本上处于正确的位置。我不会,他们在本文中所做的是,他们基本上说,看看 Llama 4 Maverick 有多尴尬
在一系列更广泛的基准测试中。它的得分甚至低于一年前的 GPT-4.0。所以这就像,这真的很糟糕。这可能是真的,但这也不像,这是为 LM Arena 微调的版本。而且,我甚至不会认为这是一个有趣的基准。就像你微调一个模型使其在生物数据分析方面非常出色,然后你抱怨它在数学方面不再出色了。这听起来很有道理。
我们知道这是真的。但无论如何,所以所有愿望都说这是一个虚假的结果,或者最初的 LM Arena 结果基本上是虚假的。只要你删除它,从你的内存缓冲区中清除它,你就会以正确的方式思考 Lama 4。这是一个相当令人失望的发布。这里的更新是关于 Meta 本身,我猜,就像……
你知道一些需要考虑的事情,因为我们也听说过 Meta 团队的一些高调离职,对吧?他们被迫进行全面清扫,Ian Lacuna 正在试图进行损害控制,并说,哦,这就像,这就像一个新的开始,这很令人兴奋,我的意思是,伙计们,开源本来应该是他们可以竞争的地方,我们已经知道 Meta 很长时间以来无法生成真正前沿的模型了
但他们至少希望能够在开源方面与中国竞争。现在看来这并没有发生。所以一个很大的问题是,好吧,这是什么意思,伙计们?我的意思是,我们正在为此花费数十亿美元。必须有一些投资回报率。对。为了更详细地介绍一下。我们最初获得非常好的结果的那个是这个 Lama 4 Maverick
它针对对话进行了优化。那是 LMA Arena。你让人们与各种聊天机器人交谈并输入他们的偏好。所以它似乎是直接针对这种 LMA Arena 基准测试进行优化的。我相信他们还实施了
确实说它部分针对该特定基准进行了优化。正如你所说,普通版本,即通用版本,我的意思是,还不错,但与许多相当旧的模型相比排名相当低。目前排名第 32 位,低于 DeepSeq,低于
Cloud 3.5、Gemini 1.5 Pro 等。进入应用程序和业务。第一个故事与谷歌和一个新的 TPU 有关。这是他们在 Google Cloud Next 25 上宣布的第 7 代 TPU。它被称为 Ironwood。他们说这是第一个专门为推理应用程序设计的 TPU。
在推理时代。我认为人们指出,TPU 最初也是用于推理的。所以这有点,也许不准确,但无论如何,正如你所料,他们对这个家伙有一堆统计数据。
疯狂的数字,比如一个 TPU 可以扩展到 9216 个液冷芯片。无论如何,我会让你接管细节,因为我认为关于他们宣布的内容有很多话要说,关于人们也在为 GPU 集群构建什么以及通常用于服务 AI 的硬件选项。是的,当然。而且我实际上没有注意到
推理时代的第一款谷歌 TPU。我喜欢这种伪炒作的东西。我希望在我发布 01 后发送的第一封电子邮件中,我正式将其命名为我在推理时代的第一封电子邮件。那将非常酷。我错过了这个机会。但是是的,基本上,正如你所说,TPU,它针对
思考模型,对吧?对于这些使用大量测试时间计算的推理密集型模型。所以,你知道,LLM、MOE,但具体来说,就像在你进行 RL 后训练或其他任何操作时必须运行的推理工作负载一样。所以它在水中,但它肯定比这更广泛的工具。它很大。天哪,当我们谈论所有这些连接在一起的芯片时,就像我们必须加入一些背景一样。所以
我认为与此最相似的可能是 B200 GPU,特别是可能是 NVL72 GB200 配置。所以基本上,我们在硬件剧集中谈到了这一点,但是
所以 B200 是一个名为 GB200 的系统的一部分。GB200 的比例为每个 CPU 两个 GPU。你会看到这些机架上有大约 72 个 GPU。这 72 个 GPU 通过这些 NVLink 连接器紧密连接在一起,对吧?所以这是极高的带宽互连。
所以这里的问题是,谷歌基本上拥有大约 9000 个这样的 TPU 组在一个他们称之为一个 pod 的东西中。它们连接在一起,但它们并非通过与 NBL 72 相同带宽的连接互连连接。所以你有了 NBL 72 连接。
如果你愿意,可以将其视为较小的 pod,但它们之间的连接带宽要高得多。因此,这些谷歌系统规模要大得多,但在这种抽象级别上,在某种全互连域级别上,速度要慢一些。
因此,进行并排比较有点棘手,因为拥有 72 个 GPU 或 9000 个(或 72 个芯片或 9000 个,我应该说)的含义略有不同,但在浮点运算方面,规格非常令人印象深刻。因此,Ironwood 达到了 4.6 petaflops,
每个芯片都是如此。B200 每个芯片将达到 4.5 teraflops。所以在这里非常非常相似。不足为奇,因为你知道,两者都有很好的设计,并且两者都依赖于台积电的类似节点。在内存容量方面有很多很酷的东西。因此,这些 TPU-V7 芯片实际上配备了 192 GB 的 HBM3 内存。那是
非常非常大量的 DRAM 堆栈,基本上是 HBM 堆栈。大约是典型 B200 芯片的两倍。或者我应该说馈送到它。当您查看想要放在具有 MOE 的设备上的非常大的模型时,这尤其有用。因此,您也许能够在一个 HPM 堆栈上安装一个完整的专家,比如说,
一个非常大的。这是一个非常非常酷的功能。各种细节都涉及到您具体有多少相干内存?内存架构是如何统一的,对吧?
我们不必深入太多细节,但底线是这是一个非常令人印象深刻的系统。在一个 pod 中大约有 9000 个 TPU,其功率占用空间为 10 兆瓦。所以在像一个 pod 中,这就像 10000 户家庭的电力一样。非常非常疯狂。还有一个轻量级版本,我认为在一个 pod 中大约有 200 个芯片,用于更轻量级的电源。
设置,我想他们可能会在推理中这样做,就像他们为更靠近边缘或客户所在位置的推理设置的数据中心一样。顺便说一句,它也更节能,每个芯片 1.1 千瓦。
与 Blackwell 的 1.6 千瓦相比,这变得越来越重要。您可以使这些东西的效率越高,您实际上可以从中挤出的计算能力就越多,而电力越来越成为这种限制因素。这是一个重要的发布。我的笔记在这方面有点混乱,因为有很多兔子洞我们可以深入研究,也许在某个时候值得做一集硬件更新。但现在可能就先这样吧。
是的,这个公告让我开始反思。关于谷歌的一个问题似乎是,他们为 Gemini 2.5 提供了极具竞争力的价格,大大低于竞争对手。这可能是一种损失,以便他们可以获得更多市场份额。但我认为拥有 TPU 并拥有非常先进的市场
云架构和能够大规模运行 AI 使他们能够以更低的价格提供
更低价的东西。在该公告的博客文章中,他们实际上将 TPU v2 进行了比较。TPU v2 可追溯到 2017 年。因此,TPU 的这一迭代具有 TPU v2 的 3600 倍性能,对吧?所以大约是 4000 倍
还有更多 DPU v5。正如你所说,效率比较,他们还说你可以得到
每瓦 29.3 个浮点运算,而 TPUV2 则不然。因此,更多的计算能力,更少的能量用于计算能力,这仅仅向您展示了这些年来他们取得了多大的进步。而且,你知道,它确实看起来在每瓦浮点运算和峰值性能方面与 Trillium 和 V5 相比都有相当大的飞跃。所以
我想,另一个原因是他们可能会利用这一点来提高竞争力。人们通常不会在云端训练自己的模型。他们正在运行模型。因此,它使他们能够相对廉价地支持使用其模型的客户。是的,互连也是很大一部分,对吧?所以行业中有一种趋势,即逐渐摆脱
至少是英伟达 InfiniBand 互连结构,这有点,我不想说像行业标准一样,但你知道,英伟达的任何东西肯定都会有一些动力。因此,谷歌实际上发明了这个叫做芯片间互连的东西,这是一个不太有帮助的含糊不清的通用术语。
但 ICI。这基本上是他们的替代品。这是使他们能够在后端网络上达到真正非常高带宽的重要组成部分。所以现在当我们说后端时,就像连接不同的 pod,连接实际上距离较远的计算基础设施的部分。这很重要,对吧?例如,当您进行大规模的巨型训练运行时,您会经常这样做。互连带宽对于推理工作负载也很重要,
原因有很多。所以也仅仅是 HBM 容量,他们再次增加了。这至少是您在 H100 中看到的两倍。接下来,我们将讨论 Anthropic。他们宣布了一项名为 Maxx 的每月 200 美元的云订阅服务。
这就是故事的结尾。您将获得更高的速率限制。每月 100 美元的选项,这是较低的层级。与 Cloud Pro(20 美元的订阅)相比,您将获得五倍的速率限制。对于每月 200 美元的选项,您将获得 20 倍更高的速率限制。我认为我们发生的一个有趣的进展是
OpenAI 在几个月前发布了他们的专业版,现在还很新鲜。现在 Anthropic 也推出了 200 美元的 MLF 层级。我认为这在某种程度上是预期的发展,因为
如果您是高级用户,您几乎肯定比您每月支付 20 美元的花费要多得多。如果您只是处理大量文档、聊天,那么很容易增加更多成本。所以,你知道,拥有每月 200 美元的工具是一种史无前例的事情,至少在生产力领域是这样。
当然,Adobe 和其他类似的工具很容易收取这种非常可观的费用。无论如何,是的,这就是我想说的。
这可能是一种趋势,我们将看到越来越多的 AI 公司推出这些相当高的订阅层级。百分之百。我的意思是,我实际上是一个云高级用户。所以这绝对适合我。我的意思是,我用完的次数太多了,这太令人沮丧了
或者一直以来,你使用 Claude,你正处于问题的中间,它就像,哦,这是你的最后一个查询。就像你必须再等一段时间,通常是八个小时左右,然后你才能进行更多查询。这真的很令人沮丧。所以他们这样做真是太棒了。
我想我试图记住我为此支付了多少钱。我认为每月大约是 20 美元。因此,每月 100 美元可获得五倍的使用量,实际上只是他们所做的,至少如果我的计算正确的话,只是允许您按比例增加每月 200 美元以获得 20 倍的金额。好吧,在这个规模上,我想这是一个 50% 的折扣交易或类似的东西。但仍然。
这些都是非常有用的东西。我的意思是,我无数次地对自己说过,伙计,我绝对愿意每月支付 100 美元来避免我现在遇到的这个问题,次数非常高。所以我的猜测是,他们将通过此解锁相当多的需求。这表明他们可能已经
解决了计算可用性方面的问题,因为尽管知道这是一个问题,但他们之前并没有提供这个服务。我相信他们知道这是一个问题。所以是的,我的意思是,他们可能只是有一些计算能力上线了。至少这是一个解释。
还有更多与 OpenAI 相关的新闻。首先,我们有,我想,一个正在慢慢出现的 OpenAI 新竞争对手。它是 Safe Superintelligence,这是一家由 OpenAI 联合创始人 Ilya Suskovor 领导的 AI 初创公司,他是从 OpenAI 开始到
到 2023 年,他因短暂罢免 Sam Altman 而闻名,然后 Sam Altman 回归。然后 Ilya Soskovor 在 2024 年离开,正在启动这个,我想,AGI 计划。现在我们得到的消息是,他们正在筹集 20 亿美元的资金,该公司估值达 320 亿美元。所以,
这显然是在公司之前筹集的 10 亿美元的基础上进行的。我认为在当今时代,我们仍然看到拥有杰出人物的初创公司获得数十亿美元来构建 AI,这令人印象深刻。似乎投资者愿意向可能在最前沿竞争的人们投入数十亿美元的情况并没有饱和。
是的,很难让对超级智能或至少是投机的需求饱和。是的,非常疯狂。另一个更新是 Alphabet 加入进来,我们我认为第一次了解到,至少我以前不知道这一点,Safe Superintelligence 正在访问或使用 Google Cloud 提供的 TPU。
作为他们的主要计算来源。我们已经看到 Anthropic 与谷歌以及亚马逊合作使用 Tranium 芯片和 Inferentia,我相信,但肯定有 Tranium。
所以现在你处于这样一种境地:SSI,就像谷歌试图说,嘿,从字面上优化我们的架构。顺便说一句,这可不是一件小事。我知道这听起来可能像,好吧,你知道,我们应该优化哪个计算池?我们选择哪个?我们使用 TPU、英伟达 GPU?还是我们使用亚马逊的东西?
但是你围绕这个做出的选择非常重要,你会得到很多锁定,比如供应商锁定。您将大力优化您的工作负载以适应特定芯片。通常,芯片会随着您的需求而共同发展,这取决于合作的紧密程度。这肯定发生在亚马逊和 Anthropic 之间。因此,SafeSuperintelligence 以这种方式与谷歌合作,确实意味着相当密切和深入的合作关系,但我们不知道投资的确切条款。所以也许像亚马逊一样,
大概是因为他们正在使用 TPU。这里有一些关于 Alphabet 提供给 Safe Superintelligence 的计算积分的事情正在发生,我猜,至少是他们投资的一部分,就像微软当年对 OpenAI 做的那样。但我们以后可能会了解更多信息。对于谷歌来说,这是一个非常有趣的定位,它现在位于许多这些实验室的中心,包括 Anthropic 和 Safe Superintelligence。
下一个故事也与前 OpenAI 高级人士的初创公司有关。这个故事是关于 Mira Murady 的 Thinking Machines,它刚刚增加了两位著名的前 OpenAI 顾问,Bob McGrew 和 Alec Redford,他们以前都是 OpenAI 的研究员。
所以,是的,与 Safe Superintelligence 非常相似,因为关于他们正在从事什么工作,实际上关于任何事情都没有说过太多,但他们似乎正在筹集资金。
超过 1 亿美元,并且正在招聘,你知道,你可以获得的顶尖人才,基本上就是这样。是的,我的意思是,我不知道 Amir 是如何做到这一点的。我不知道细节。我的意思是,她在 OpenAI 非常受人尊敬。我知道这一点。还有 John Shulman,她招募了他。显然,我们谈到了这一点。他是他们的首席科学家。Barrett Zoff 曾领导 OpenAI 的模型后训练,现在是 CTO。
所以就像一副堆满牌的牌一样。如果你添加 Alec Radford 作为顾问,那就太疯狂了。看到 Alec 离开 OpenAI,即使他已经在那里工作了十年或更长时间,也是如此。提醒一下,对吧,他是 GPT 的人。他也做了很多其他事情,但他,你知道,是领先的提供者之一。是的,他是你所说的 GPT 论文的主要作者之一。
没错。是的。并且只是被认为是一个,你知道,人们谈论 10 倍的软件工程师或其他什么。就像他是 1000 倍的 AI 研究员一样,对吧?
以至于人们用他作为衡量标准,比如,我们什么时候会自动化 AI 研究。我想是 Dwarkesh Patel 在他的播客上。所以我们什么时候才能得到,你知道,10000 个自动化的 Alec Radford 或其他什么?那是他设定的标准。所以是的,确实是一位杰出的研究员。因此,当他说:“嘿,我离开 OpenAI 了”时,这是一件大事。据我回忆,他仍然为与 OpenAI 合作敞开了大门,作为他所组建的第三方实体的一部分。
因此,他可能与这些组织之间存在交叉关系,并且这些关系可能涉及研究方面的支持。因此,他可能是极少数能够实时直接了解多个前沿 AI 研究项目的人之一。上帝,我希望这个人有良好的网络安全、人身安全和其他安全措施,因为他会是一个有趣的目标,那将是一个有趣的目标。
接下来,我们有一个与聊天机器人无关的故事,而是与人形机器人有关。这个故事是 Hugging Face 实际上正在收购一家制造人形机器人的初创公司。这是 Pollen Robotics。他们有一款名为 Reachy 2 的人形机器人,显然 Hugging Face 计划出售并将其开放给开发人员改进。所以……
这是一个有趣的进展,Hugging Face 是一种模型的 GitHub。他们托管 AI 模型,并且与开源有很多关系。因此,这是建立在之前的合作基础上的,Hugging Face 在其中发布了 LeRobot,这是一个开源软件。
机器人,我们还发布了一个用于机器人技术的完整软件包,你知道,建立在它的基础上,是的,我不知道 Hugging Face 做这件事很有趣,我会说是的,我看到了这个标题,我的第一反应是,当你考虑它的时候,它是什么?
它是有道理的,对吧?所以经典的做法是,我们将成为这个硬件平台的应用商店。这正是这里正在发生的事情,大概如此。他们认为人形机器人将成为下一个 iPhone。因此,这基本上是一种商品化互补策略。您拥有人形机器人,现在您将拥有一个开源软件套件,它会随着时间的推移免费增加人形机器人的价值。
至少对您作为公司而言是这样。Hugging Face 非常适合这样做,对吧?我的意思是,他们是 AI 模型的 GitHub。没有其他真正像他们一样的竞争对手。因此,当您想要做一些开源 AI 工作时,您去的地方就是 Hugging Face。这有点道理。还有待观察该平台的性能如何。像 Pollen Robotics 一样,
我不撒谎。以前没听说过他们。他们就在那里,而且是必需的。所以,我的意思是,看看他们能够用这个平台做些什么以及他们能够多快地将产品上线将会很有趣。本节的最后一个故事是,Stargate 开发商 Crusoe 显然可能会在德克萨斯州的数据中心花费 35 亿美元。
这是关于 AI 初创公司 Cuso 的,细节是,显然他们不仅要花费这笔钱,而且大部分都是免税的。他们在这个数十亿美元的项目中获得了 85% 的税收减免。所以我想这是 Stargate 的一个发展,并且展示了这里正在进行的业务规模。
是的,符合税收减免条件的标准是他们至少要花费计划中的 35 亿美元投资中的 24 亿美元,我的意思是,考虑到所有这些价格,我认为这对他们来说不会有什么问题。他们此后已向州机构注册了另外两座数据中心建筑,因此我们知道这即将到来。我们不知道租户将是谁,但对于其中一座建筑,甲骨文是众所周知的,当然,另一座建筑也是如此。所以也许很重要
背景,如果您不熟悉数据中心领域或宇宙,这里发生的事情是,您基本上有,有一家公司将建造物理数据中心,那就是 Crusoe。
但是数据中心里没有 GPU。他们需要找到有时被称为水合伙伴或租户的东西,有人来用 GPU 填充它。在这种情况下,将是甲骨文。所以现在你有了 Crusoe 建造建筑物。你让甲骨文用 GPU 填充它。然后你有了这些 GPU 的实际用户,这将是 OpenAI,因为这是 Stargate 项目。最重要的是,还有资金可以进来。所以 Blue Owl 是一家私人信贷公司,正在
借出很多钱。摩根大通也是如此。所以你有了,你知道,这可能有点令人眼花缭乱,但你有了,你知道,Blue Owl、摩根大通资助 Crusoe 建造将由甲骨文填充并服务于 OpenAI 的数据中心。这就是全部内容。因此,当您看到这样的标题时,等等,我以为这是 OpenAI 数据中心或其他什么。这正是这里发生的事情。围绕着,好吧,看,这种建设似乎将创造 3 到 400 个新的全职工作岗位,有很多讨论。
最低工资为 60,000 美元。这至少是这些税收减免的门槛的一部分。人们抱怨说,嘿,这实际上似乎不足以证明将要提供的税收减免的巨大程度是合理的。我只是认为我会提出
就业方面实际上并不是这里的主要附加值。就像这首先应该被视为国家安全投资,而不是像就业和经济投资一样多,或者我应该说与经济投资一样多。但这只有在这些数据中心也得到保护的情况下才成立,对吧?坦率地说,在这一点上,我不相信它们是安全的。但底线是,这是一个非常大的建设项目。
有很多税收减免,并且有很多合作伙伴参与其中。将来,如果您听到 Blue Owl 和摩根大通以及 Cruzo 等,这就是原因。接下来是项目和开源,我们从 OpenAI 的一篇论文和一个基准测试 BrowseComp 开始。
这是一个旨在评估代理浏览网页和检索复杂信息能力的基准测试。它有 1266 个寻求事实的任务,其中配备了网页浏览功能的代理(模型)的任务是查找一些信息并检索它。显然这很难。基本模型,GP4-0,
没有为这种任务而构建的模型非常糟糕。他们得到了 1.9%。
做到这一点,如果根本不允许浏览,则为 0.6%。深度研究,他们的模型针对这种事情进行了优化,能够达到 51.5% 的准确率。所以我想在浏览中查找信息方面还有改进的空间。是的,这是一个非常仔细限定范围的基准测试,对吧?
对。所以我们经常看到将许多不同的事情结合在一起的基准测试。例如,想想 SWE Bench Verified。是的,这是一个编码基准测试,但它也取决于你的方法,你可以进行网络搜索来帮助你生成答案。你可以使用大量的推理时间计算。你实际上在那里衡量的能力有点模糊。因此,在这种情况下,他们试图消除。
其他类型的技能。所以基本上,这是在做,是的,
避免生成冗长的答案或解决歧义等问题。这不是这里正在测试的内容的一部分。而是专注于你能否持续地遵循在线研究轨迹并在查找信息方面具有创造性?就是这样。你应用的技能是你谷歌搜索复杂内容的技能。这就是他们在这里测试的内容。他们试图将它与其他所有内容分开。他们给了一个
这里有一个。所以请确定偶尔会打破与观众的第四堵墙的虚构人物,他的背景故事涉及无私美学的帮助,以其幽默而闻名,并且有一部在 20 世纪 60 年代和 80 年代之间播出的电视剧,剧集少于 50 集。对。所以这就像你必须谷歌搜索才能弄清楚。这就是重点。
他们明确地设置它,以便当前模型无法解决这些问题。这是他们用来确定将包含在该基准测试中的内容的三个核心标准之一。另外两个是培训师应该尝试进行简单的谷歌搜索以在短短五次尝试中找到答案,基本上是这样。如果答案不在基准测试中,那么他们就无法解决问题。
在搜索结果的任何第一页上,他们说,太好了,让我们包含它。它必须足够难,以至于它不是微不足道的可解的。他们还希望确保它比人类的 10 分钟任务更难,基本上是这样。构建此数据集的培训师确保他们至少需要 10 分钟或更长时间才能解决问题。所以
是的,非常有趣的基准测试。同样,范围非常狭窄,但在我看来,这非常有助于确定 AI 能力的一个重要维度。他们确实显示了推理时间计算的缩放曲线。不足为奇。更多的推理时间计算会导致更好的性能。谁知道呢?对。正如你所说,范围狭窄,并且旨在非常具有挑战性。他们还有一些关于系统培训师的数据,这些培训师大概对 AI 的答案进行了评级
AI 模型也被赋予了自行进行基准测试的任务。在我们 70% 的问题上,人类在两个小时后放弃了。他们只是无法完成任务。然后他们对他们可以解决的任务进行了一些分布。
大多数任务需要大约两个小时。你有一些,大约几十个,也许一百个,不到一个小时就能完成。大多数任务需要一个多小时。在高端,只有一个数据点在四个小时。所以是的,你必须非常擅长网页浏览器,似乎才能回答这些问题。
下一个故事与字节跳动有关。他们正在宣布他们自己的推理模型 Seed Thinking v1.5。他们说这与所有其他最新的推理模型具有竞争力,与 DeepSeek R1 具有竞争力。他们发布了一些关于它的技术信息。他们说这是
优化的 VRL,类似于 DeepSeaCar 1。它相当大,总共有 2000 亿个参数,但它也是混合表达模型。所以它一次只使用 200 亿个参数。他们还没有说这是否会公开发布,只是宣布了一个模型的存在。
是的,统计数据看起来不错。它似乎是规范中的另一个合法条目。我认为现在我们正在等待实验室提出方法来扩展他们的推理时间计算策略,以便我们看到他们充分有效地利用他们的全部舰队。一旦我们做到这一点,我们将对美国和中国的排名有一个很好的了解。但我认为我们现在正处于这种缩放轨迹上。我们还没有看到
我们还没有看到双方能够发挥的全部力量。还有一个有趣的小细节,那就是它的激活参数密度比DeepSeek v3或R1高出很多,大约是两倍。对于v3和R1,每个token有370亿个激活参数,大约6700亿个。所以每个token大约激活1/20的参数。在这里,大约是1/10。所以,在某种程度上,这是一个更密集的模型,这很有趣,但是
所有这些都是基于V3和R1的结果。所以,看到架构选择总是很有趣。我想我们稍后会得到更多关于这方面的信息,但这是一个初步的印象。所以他们最终似乎也为此提出了一种新的AIME基准测试版本。所以AIME是……
一种数学奥林匹克竞赛题集,由于数据泄露等原因,一直存在一些问题。所以他们为此设计了一个专门的精选版本,并将其命名为Beyond Amy。无论如何,在这个基准测试中,他们展示了他们的模型优于DeepSeq R1。它基本上在除了SweeBench之外的所有方面都优于DeepSeq R1。
这绝对令人印象深刻。我实际上有点惊讶。就像我原本以为SweeBench会是那些地方之一,尤其是在拥有更多计算能力的情况下(我推测他们现在可以使用),我会认为这会很好地转化为SweeBench,因为这些都是您可以对它们进行强化学习的那些问题,你知道,这些编码问题。
无论如何,是的,很有趣。基准测试清楚地表明它不如Gemini 2.5 Pro或O3 Mini High,但它确实正在缩小差距。顺便说一下,在Arc AGI上,我……
我发现这很有趣,在我获得更多关于论文本身的技术数据之前,我无法解释它。就像它不仅超越了R1,而且据说在RKGI上还超越了Gemini 2.5 Pro和O3 Mini High。这很有趣。这是一件大事,但这始终可能是某种奇怪的过度优化的人工产物。因为同样,在所有其他
他们在这里分享的基准测试中,它都远远落后。所以,或者说并不遥远,但它确实比Gemini 2.5 Pro差一些,例如。无论如何,这是一个有趣的注释,我们随着时间的推移可能会学到更多。对。他们还发布了一份10页的技术报告,详细介绍了训练和数据集。所以相当多的信息,与像你这样的东西相比,令人耳目一新
我之前不知道的是,截至
去年,字节跳动拥有最受欢迎的聊天机器人应用程序。它叫做抖音。最近,阿里巴巴用一款名为夸克的应用程序超越了他们。是的,我不知道字节跳动在中国人工智能聊天机器人领域是如此重要的参与者,但他们能够在开发前沿模型方面进行相当不错的竞争是有道理的。
接下来,转向研究投资。第一篇论文的标题是《抽样,不要搜索:重新思考语言模型的测试时间对齐》。这篇论文介绍了QAlign,这是一种新的语言模型测试时间对齐方法,它使得
无需进行额外训练,也无需访问具有logits的特定激活,就能更好地进行对齐。你可以只
对输出进行采样,即模型输出的文本,并且能够使其更好地对齐,这意味着通过在测试时扩展计算能力,而无需访问权重并进行任何类型的训练,就能更可靠地遵循你想要它做的事情。我发现这篇论文非常引人入胜,它教你一些关于当前模型错误之处的非常有趣的东西。
微调和采样方法。所以很有趣的是,最佳的预测方法是已知的,对吧?我们实际上知道构建AGI的答案是什么。太好了,我们都可以回家了,对吧?不,这是贝叶斯定理,对吧?贝叶斯式的预测和推理方法在数学上是最佳的。至少如果你,你知道,如果你相信所有伟大的教科书,比如科学的逻辑和,你知道,像ET Jane那样的东西,对吧?所以
挑战在于实际的贝叶斯更新规则,它采用先验信息,如先验概率,然后基本上考虑你收集到的证据来获得你的后验概率。
在当前我们对LLM进行推理的笨拙、不完善的方式中没有被遵循。所以你真正想要做的事情是,你想根据你的语言模型来计算生成某个输出的概率,就像给定你的提示,给定完成的概率一样,
你真的想要,就像,你有点想要用一个指数因子来乘以它,在指数中,它随着你想要根据它来更新你的输出的奖励函数而缩放。例如,如果你想为特定类型的输出分配非常高的奖励,那么你应该想要做的是将你初始模型的倾向与奖励函数相乘
等待,基本上是,E的奖励幂,诸如此类。通过将这两者结合起来,
你得到了贝叶斯式的最佳贝叶斯输出,非常粗略地说。有一个,无论如何,归一化系数无关紧要,但你有这两个因素。你应该考虑你的基础模型的初始倾向,因为它学习了你无论如何出于贝叶斯原因都应该考虑的东西。但他们说的是,实际上像基于搜索的方法,比如最佳事件,它们从根本上忽略了基础模型的概率分配。他们
他们只关注奖励函数。你基本上会根据基础模型生成大量的东西。你会生成许多不同的潜在输出。从那时起,你所做的就是,好吧,哪一个给我最好的或最高的奖励,对吧?你会做类似的事情。这会导致你从那时起基本上抛弃你的基础模型实际上知道的所有关于问题集的事情。他们从数学上观察到这是一个坏主意。所以他们会问这个问题,我们能否从我们的
我们的基础模型中进行采样,是的,绝对考虑我们追求的奖励函数,但也考虑我们的初始语言模型已经知道的东西。出于数学原因,一种满足这个条件并收敛于这种贝叶斯最佳方法的方法看起来像这样。所以
你从一个完整的回复开始,让你的初始LLM生成你的输出,对吧?所以可能类似于答案是42,因为计算X,对吧?你有一个数学问题,它说答案是42,因为计算X。然后你将随机选择该响应中的一个位置。例如,第三个token,对吧?你有像答案是,你会保留到那时为止的响应。但是
但是然后你将从那时起生成一个新的完成,并且只使用基础语言模型。所以在这里你实际上再次使用你的模型来让它生成其他东西,通常使用高温度采样,以便答案相当多变。这会给你一个完整的候选响应,一个替代方案,对吧?所以现在你可能得到答案是15,基于一些不同的计算。
他们有一个选择规则来计算你接受任一答案的概率。它考虑了奖励函数部分。所以这些替代答案中的哪一个被奖励评为更高或更低。这是一种基本上将你的LLM注入到决策循环中并考虑它已经知道的东西的方法。它非常详细或不那么详细,非常细致。你几乎需要看到它写出来。
但核心概念很简单。在采样过程中,你想要使用你的LLM。你不想只是把它放在一边,只关注奖励函数所说的内容,因为这会导致一些非常病态的事情,比如,你知道,只是过度优化奖励方法。
指标。这最终会导致奖励作弊和其他事情。所以从贝叶斯角度来看,这是一种更稳健得多得多的方法。他们证明了这确实导致了在你的数学基准测试(如GSMAK)上的更好推理扩展。我认为这是一篇非常有趣的论文,从非常根本的角度来看,它让我们了解了当前采样技术的不足之处。
对,是的,他们基于这种方法或建立在去年一篇名为《用于机器翻译的质量感知Metropolis Hastings采样》的最新工作之上,这只是说
你知道,这是一个稍微更理论化或更数学化的算法类型贡献,建立在,比如说,大量的方程之上。如果你查看这篇论文,如果你不深入这个领域,那么你需要一段时间才能看完它。但这确实表明,你知道,除了大型模型之外,算法研究仍然有空间。你知道,大量的权重构成了智能模型。
下一篇论文名为《通过强化学习进行简洁推理》。所以我们之前讨论过的一种现象
自从推理模型兴起以来,首先是O1,然后是DeepSeq R1,似乎当你在测试时进行额外的计算或进行测试时缩放时,模型往往表现更好。似乎我们还没有达到完全优化的程度。通常情况下,模型似乎做了太多的计算。
超过必要的数量。因此,这篇论文正在研究如何在保持正确答案的同时优化模型的输出量。基本思想是在模型训练中添加第二阶段。在你训练它之后
能够解决推理问题,就像你用R1做的那样。他们建议进行第二阶段的训练,在这个阶段,你可以在保持或提高准确性的同时强制执行简洁性。他们表明你实际上能够做到这一点。
是的,我认为这是另一篇非常有趣的概念性论文。它的动机来自于对几件矛盾的事情的观察,对吧?首先,测试时间、推理时间缩放是一回事。所以似乎我们投入到模型中的推理时间计算越多,它的性能就越好。这似乎表明,好吧,就像,你知道,生成的token越多,准确性就越高。但是如果你实际查看一个特定的模型,对吧,
很多时候,它使用最多token的时候是它陷入困境的时候。它会陷入这些,我试图记住他们在这里使用的术语,但是像这些死胡同,对吧?它只是,它是一种难以达到正确解决方案的状态,对吧?所以就像你自言自语,你把自己逼到墙角一样。所以他们构建了一个非常有趣的理论论证,这似乎非常可靠。他们证明了让你的模型得到正确答案将非常非常困难。
并且你将模型的奖励时间范围设置为相当短。所以本质上,模型不会向前看太远。它在RL术语中专注于近期。所以在RL术语中,在这种情况下,lambda参数小于1。然后你会发现模型几乎想要
推迟或延迟获得负面奖励。如果这是一个非常困难的问题,它往往会试图写更多文本,写更多文本,并在之前拖延。其中一个有趣的细节是算法本身,强化学习算法
损失偏向于更长的输出。模型被鼓励继续说下去,尤其是在它无法解决任务的时候。如果它能够快速解决任务,它会获得更多积极的奖励,并且会很高兴。如果它无法解决任务,它就会继续说下去。没错。就是这样。所以标志会翻转,如果你愿意的话,那一刻
预期奖励为正,或者让我们说当模型实际上有一个易于处理的问题摆在它面前时。所以你有了这种有趣的情况,可解决的问题会激励更简洁的响应,因为在某种程度上,模型会说,哦,是的,是的,就像我能尝到那个奖励。就像,就像我想要,我想要得到它,你知道,而如果它知道,就像,如果你知道,你会在完成马拉松后被打,那么你会跑得很慢。所以
但如果你知道你会得到一块美味的蛋糕,你可能会跑得更快。这就是这里发生的事情,不要过度解读。但这几乎是令人尴尬的,对吧?因为它从数学中消失了。它甚至不是一个经验性的发现。它就像,嘿,伙计们,你们有没有意识到你们并没有故意通过这里的数学来明确激励你们的模型做这件事,而这件事是极度适得其反的?所以当他们修复它时,
突然之间,他们能够如此显著地减少响应长度相对于他们看到的性能。他们展示了一些非常有趣的缩放曲线,包括一条显示响应长度与响应质量改进之间存在反相关关系的曲线,这很有趣。所以是的,我认为这非常非常有趣,我的意思是,它让你想到
像模型的简洁性一样,它是一个给定模型的属性,可以从一个模型变化到另一个模型,并且是一个属性,是的,部分由训练数据决定。这就是这个二次训练的想法变得非常重要的原因。他们有一个初始的RL训练步骤。它就像,你知道,任何DeepSeek R1、O1、O3类型的推理内容。但是然后你包含一个训练步骤,之后明确包含可解决的问题,以便抛光你的模型,并确保它最后训练的内容是它想要简洁地解决的问题。
所以这就是,通过数学,将是实际上易于处理的问题。就是这样。所以我认为这非常非常有趣,并且对我们为这些RL系统提供的激励做出了令人尴尬的简单观察。
是的,这项技术也非常成功。对于我们具有70亿参数模型的R1的更大变体,你可以将响应长度减少40%,同时保持或提高准确性。而且,你知道,他们没有计算预算,大概是为了做到最佳,你大概可以做得更好,比如进一步优化以
吐出更少的token,同时仍然得到正确的答案。所以这里有一组非常实用、有用的结果。还有几个故事。首先,我们有超越开放数据,通过ALMO trace提高语言模型的透明度和信任度。所以这个想法很有趣。你可以查看
训练数据中哪些内容影响了模型产生某个输出。特别是,它允许你识别模型输出中逐字出现在训练数据中的跨度。这支持Olmo模型,我们之前讨论过这些模型。这些是你可以得到的完全开放的模型。
市场上。所以这是,你可以针对这些模型使用它,它们有数十亿个文档、数万亿个token的非常大的训练数据集。它似乎是一个软件进步,但它实际上是一个系统进步。它的核心是,你可以想象,如果你想弄清楚,好吧,我的LLM刚刚生成了一些输出。在我的训练语料库中,哪些文本
与这个输出最相似,或者包含最接近这个输出的长词序列,这是一个非常耗费计算的任务,对吧?因为现在你必须为你的每个语言模型输出。你必须去你的整个训练集,然后说,好吧,这些token在那里吗?这些token在那里吗?你知道,我能找到多少重叠
在某种完美匹配的基础上。他们正在做的是试图解决这个问题。他们做得很好而且很有效率。所以你可以理解为什么这是一个工程挑战,就像任何事情一样。所以这个想法的核心是后缀数组的概念。它是一个数据结构,按字母顺序存储文本语料库的所有后缀,对吧?如果你有单词banana,后缀是banana、anana、
na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、na、
以及像LLM输出那样说猫坐在长凳上,你试图做的是建立后缀数组,比如,你知道,任何文本的不同块。然后你想将它们交叉引用。通过以有原则的方式使用字母顺序和后缀数组来设置它们,
你可以使用二分查找来……所以无论如何,如果你知道二分查找,那么你就知道为什么这令人兴奋。这是一种非常非常有效地在有序列表中进行搜索的方法,对吧?你只有在你的数据处于正确的格式时才能做到这一点,这就是他们在这里所做的。但是一旦你这样做,现在你就有了一种非常有效地进行搜索的方法。所以他们能够在整个训练语料库中做到这一点。就像在训练语料库中进行二分查找一样。然后你可以这样做
然后在另一方面,就语言模型输出而言,他们能够大规模地并行化搜索过程,以同时处理许多输出,这再次大大摊销了成本。因此,总的来说,搜索函数具有更好的缩放特性。它产生了一些非常有趣和令人印象深刻的输出。再次想象一下,
你看到你的语言模型提供的输出,你只是说,好吧,训练语料库中哪些文本与这个输出的不同部分最接近地逐字匹配?
如果你担心数据泄露,这尤其令人兴奋,例如。你想知道,好吧,我的语言模型是否正确地回答了这个问题,因为它基本上只是鹦鹉学舌地重复训练集中的内容?或者它是否以更深层次的方式理解了内容?所以这不是一个完整的解决方案,因为它可能只是在释义,在这种情况下,这项技术不会发现它。但这是一个非常有趣的开端。
它也是我们语言模型只是随机鹦鹉的一部分答案,对吧?如果你能够排除训练数据中没有任何文本与你输出的内容完全匹配。对。我想我应该稍微纠正一下自己。他们并没有声称匹配一定是你输出的原因。他们不是那种
在影响函数中竞争,他们确实提供了一种有效搜索海量语料库以进行事实检查的方法
他们在博客中有一个有趣的例子,对于某个问题,模型OMO声称它的知识截止日期是2023年8月。不正确,实际截止日期是2022年。然后他们查看了输出,然后他们发现数据中有一些文档,我认为是训练数据,
Ulmo的开源版本,我想是一篇博客文章或类似的东西。这被卷入了训练数据集,并使模型做了这种愚蠢的事情。所以如果你是模型开发者,这大概也很有用
或者模型用户能够进行雾检查,并查看训练数据集中导致潜在解释或错误输出的噪声。接下来,我们有一个来自Epoch AI的故事,这是我们最喜欢的统计数据来源之一,以及关于人工智能的有趣指标。这个是Epoch基准测试中对Grok3和Grok3 Mini的独立评估。
简短版本是Grok 3和Grok3 Mini非常好。它们与Cloud 3 7 Sonnet、O3 Mini一起存在,甚至在推理量较少的情况下,Grok 3 Mini也能与这些基准测试中的一些更高推理级别相媲美。所以我想这加强了我对Grok的总体印象,即它非常好。
是的,说得很好。它确实非常好。是的,它实际上相当令人震惊,至少在Amy上是这样。我的意思是,就像在高推理模式下,Grok 3 Mini击败了在高推理模式下的O3 Mini。它在这个类别中实际上排名第一。这非常了不起。再说一次,我赶紧提醒大家,Grok和XAI是从无到有的。他们不是,他们现在两岁了吗?这太疯狂了。
它应该需要更长的时间。但是是的,所以他们在其他方面也更居中,例如,Frontier Math。它只是排名前三。它是第四名。这是一个在各个方面都非常可靠的模型。毫无疑问。关于
OpenAI和Grok如何描述各种代理基准测试的得分存在一些争论,只是就他们的采样方式以及苹果与苹果是否实际上正在发生而言。顺便说一下,我怀疑这是Epic决定介入并将此框架为,正如他们所说,Grok 3和Grok 3 Mini的独立评估的一个重要原因,仅仅是因为所有这些争议。所以他们基本上介入并说,不,它实际上是一个非常令人印象深刻的模型。它不是
我的意思是,每个人都声称拥有最好的推理模型。我放弃了像分配一个明确的最佳模型一样。我的意思是,这取决于你在乎什么。
老实说,提示的变化可能与模型之间的变化一样大,对于推理能力的真正前沿来说。试试看,看看什么最适合你。在这种情况下,我认为在这个例子中是明确的赢家。接下来是政策和安全,再次从OpenAI的法律纠纷开始,我
OpenAI正在反诉埃隆·马斯克。所以他们已经提交了这份反诉状,以回应XAI正在进行的法律挑战,这些挑战试图限制OpenAI转向营利。他们基本上说想阻止埃隆·马斯克进一步采取非法和不公平的行为。他们声称马斯克的行为,包括
我们报道过的收购要约,他出价970亿美元收购非营利性OpenAI,他们是的,OpenAI在这里基本上说埃隆·马斯克正在做一些事情,请阻止他做这些事情
他们对虚假要约的描述有点滑稽。现在,我们无法知道幕后发生了什么,是否存在沟通,是否存在任何性质的沟通,但从外部来看,我对是什么让它变得虚假感到困惑。就像,他提供的钱不是真的吗?是垄断资金吗?就像,他进来,表面上提供的钱比OpenAI愿意为自己的非营利子公司或营利性子公司支付的钱还要多。就像,
这似乎很真实。所以它只是,他们名义上负有认真考虑这笔交易的受托责任,这很奇怪。所以我不清楚是什么,你知道,法律依据是什么。顺便说一下,诉讼本身很有趣,或者埃隆最初的诉讼很有趣。我们以前报道过这个,但只是想提醒大家。所以埃隆起诉OpenAI,当然是为了试图
本质上,目前控制营利性活动的非营利组织,他们基本上想要收购这个非营利组织,并说,嘿,我们会给你一大笔钱,以换取你有效地放弃所有的控制权。你将能够去做一些可爱的慈善捐赠活动。有人争辩说,等等,这就像是非营利组织的设立就是为了有效地约束营利性行为,因为他们想要
正确地推断出,营利性激励会导致竞赛行为,可能会导致不负责任的驾驶
在安全和控制方面的发展实践。因此,你不能仅仅用金钱来替代这个功能,金钱。OpenAI本身在制度上并不相信金钱能够弥补这一点。他们相信他们正在构建超智能。对超智能的控制远比他们可能为此支付的400亿美元要有价值得多。这是他们的主张。顺便说一下,这个案件的法官似乎对这个论点持相当有利的看法,认为你不能仅仅
用一大笔钱来替代非营利组织的角色,OpenAI的公共承诺等其他事情确实承诺了某种功能。至少这些主张是合理的,并且在法庭上可能会表现良好。主要问题是埃隆是否有资格代表这个论点。但问题是,OpenAI是否与埃隆建立了合同关系,或者
通过电子邮件,因为这实际上是他们关于非营利组织保持控制及所有相关事宜的合同协议中最接近的东西。而这似乎更加模糊。因此,埃隆现在处于一个尴尬的境地,他似乎有一个相当稳固的案件。这是法官在这里传达的信息。但他可能实际上没有权利代表这个案件。
检察长可能有。因此,有人猜测这个案件的法官是否在标记案件的强度,以引起检察长的注意。这样检察长就可以介入并领导这场斗争。但一切都如此政治化。埃隆与共和党有关,加州的检察长将是民主党人。所以这一切都是一团糟。现在你有OpenAI可能部分是为了营销价值而反诉。
但我们只需拭目以待。实际上,这似乎有一个案件。在某种程度上,这似乎至少是一个有趣的案件。我们看到法官驳回了埃隆的动议,试图迅速裁定对他有利,并阻止营利性转型。如果这个初步举动像这样的反诉发生,我会感到惊讶。
我想象OpenAI必须满足相当高的标准,以证明这些诉讼是无意义的。考虑到现在有一位法官出来说,嗯,你知道,这个案件本身似乎相当强大,埃隆是否是合适的人来代表是50-50。因此,无论如何,这都是一团糟。是的,确实是一团糟。我不知道这个术语“国家起诉”有多技术性,顺便说一下,
在他们提交的文件中,他们对已经进行的案件提出了一系列反诉。是的,阅读起来相当有趣。只是找到这段引述。在文件的开头,这是一个60页的文件,他们说...
马斯克无法容忍看到他曾经放弃并宣称注定失败的企业取得如此成功。他把自己项目的目标定为打击OpenAI,并建立一个直接竞争对手,以夺取技术领先地位。不是为了人类,而是为了埃隆·马斯克。它还说,
这非常延续了我们看到OpenAI通过他们的博客所做的事情,指责马斯克关于他的电子邮件。他们还在X上发布了同样的言论,称埃隆从未关注过使命。他总是有自己的议程。他试图控制OpenAI并将其与特斯拉合并为营利性。他自己的电子邮件证明了这一点。
是的,OpenAI显然至少在尝试进行攻击,至少如此。是的,这种做法非常不符合他们的品牌,或者我想现在是他们的新品牌,但过去这对他们来说是非常不符合品牌的,对吧,做这种事情。他们曾经有一种高高在上的氛围,萨姆·阿尔特曼就像是一个不可触碰的人物,而现在他们似乎开始在泥潭中打滚,天哪,是的,真有趣。是的,似乎
从战术上讲,他们真的只是想尽可能地让埃隆·马斯克感到尴尬。这是其中的一部分。下一个故事也与OpenAI有关,正如你之前提到的,它涉及到OpenAI似乎减少了分配给其前沿模型的安全测试时间和资源。这显然与他们的下一代模型有关
根据熟悉该过程的人士的说法。因此,一些内部人士,显然是安全评估人员,之前需要几个月的时间,现在往往只有几天的时间来标记潜在风险。这与您看到的关于分裂分析的内容相符。
在2023年,来自萨姆·阿尔特曼的董事会,以及我们过去一年从OpenAI获得的整体氛围。是的,与我们与OpenAI交谈的人一致,不幸的是,现实是,他们,我的意思是,这正是为非营利组织的存在而提出的论点,明确控制营利性活动的理由。就像,
这一切都在预言中被预见到了。总有一天,会有很大的竞争压力。你会想要在控制、安全等方面削减开支。我们希望确保有一个尽可能不偏不倚的有权方来监督这一切。结果,惊喜,惊喜,这正是萨姆·阿尔特曼现在试图撕掉的东西。就像,这有点有趣,对吧?我的意思是,几乎就像萨姆试图
巩固他对这个实体的控制,并消除之前对他控制的所有保护措施。但我不可能这样认为。我的意思是,这是一个荒谬的主张。无论如何,是的,有些引述相当有趣。你知道,当技术不那么重要时,我们进行了更彻底的安全测试。这是一个目前正在测试即将推出的O3模型的人说的。无论如何,诸如此类的事情。
是的,没有特别的惊讶。我想说这很悲哀地可预测,但这是你必须在这些事情上进行某种协调的另一个原因,对吧?如果AI系统真的会拥有大规模毁灭性武器级别的能力,那么
你需要在实验室之间进行某种程度的协调。你绝对不能允许行业激励完全失控,就像现在这样。你最终会得到一些非常糟糕的结果。人们会死。这是一个相当容易的预测。
在名义轨迹下,如果这些事情发展,比如生物武器、网络攻击能力等等,这只是会发生。因此,问题是,如何防止这些动态,这些竞赛动态以显然的方式在OpenAI中发挥作用,我会说。我是说,从与那里的人的交谈中很明显。从看到这些事情被快速推出的客观报告中也很明显,关于测试方面我们获得的数据量。
这很不幸,但这就是我们所处的境地。接下来,又一个关于OpenAI的故事,涉及到一种相关的概念或与此担忧相关的事情是
这个故事是,前OpenAI员工在寻求使OpenAI无法转向营利的诉讼中提交了一个朋友法庭简报。因此,朋友法庭简报基本上是,嘿,我们想为这个正在进行的诉讼添加一些信息并给出我们的看法。因此,这来自一群在2018年至2024年间在公司工作的员工。
有斯蒂芬·阿布德、罗斯玛丽·坎贝尔、尼尔·乔杜里,以及其他十几位在各种技术职位上工作的人员,他们是研究人员、研究负责人、政策负责人。简报的要点是,OpenAI将违反其原始章程,转向营利性,不应被允许这样做。它提到了一些事情,例如,
OpenAI可能会受到激励,在安全方面削减开支,开发强大的AI,这些AI是为了我们的股东的利益而不是人类的利益。因此,基本的主张是OpenAI不应被允许进行这种转型。这将违反OpenAI的创始章程和政策。
是的,他们标记的一个重要问题是,如果OpenAI利用其作为非营利组织的地位,
来获取利益,比如说,现在要通过转变为营利性来兑现,这本身就是一个问题。这里标记的一个问题是招聘,对吧?招聘。事实上,他们曾是一个非营利组织,拥有这种非常独特的定制治理结构,旨在负责任地处理AGI,这被用作招聘技巧。我知道很多人因为这些承诺而去OpenAI工作。许多人后来离开了。
但这里有一句引述说明了这一点,对吧?在与候选人的招聘对话中,常常引用OpenAI独特的治理结构作为OpenAI与谷歌或Anthropic等竞争对手之间的关键差异因素。这也是他们应该考虑加入公司的一个重要原因。相同的理由也被用来说服考虑离开竞争对手的员工留在OpenAI,包括我们中的一些人,对吧?所以这就像...
不太好。如果你有一家公司实际上是在利用曾经是非营利组织的事实,然后将其兑现并转变为营利性。那么,你知道,在不对竞争对手做任何评论的情况下,Anthropic有不同的治理结构。他们是一个公共利益公司。但有监督委员会,XCI只是一个公共利益公司。
公司,实际上这只会给你更多的自由,而不是更少。听起来就像是一个积极的事情,但这很复杂。它实际上并没有束缚你的手脚。它给你提供了考虑除利润以外的事情的自由,当你作为公司的董事时。实际上,你只是给自己提供了更多的自由。因此,当OpenAI说,哦,别担心,我们将转向公共利益公司模式。
听起来他们正在转向某种更受限制的东西,仍然受到某种公共利益的约束。但根据我的理解,法律现实是,这只会给他们更多的自由。因此,他们可以说,哦,是的,我们将做X、Y或Z,即使X、Y或Z并不是以利润为动机。这并不意味着你必须定期做特定的事情。
我想,除非他们在那种额外的法律背景下。无论如何,底线是,我认为从我所看到的一切来看,这实际上是一个相当棘手的情况。对我来说,这种转变是否能够按计划进行并不十分明确。对于软银投资的影响,像OpenAI所面临的数十亿美元的资金将变得非常有趣。是的,这。
确实是一个故事,肯定是一个非常独特的情况。正如你所说,我有点惊讶。我原以为OpenAI可能能够不受挑战地应对这起诉讼,但似乎这实际上可能是他们的一个真正问题。还有一个关于OpenAI的故事。恰好他们在这一部分占据主导地位,这一集。
他们正在推出一个ID系统,以便组织通过其API访问未来的AI模型。因此,有一个叫做“已验证组织”的东西。
他们要求拥有来自支持国家的政府签发的ID才能申请。查看他们的支持页面,我实际上看不到其他需要验证的内容。在这个页面上,他们说,
不幸的是,一小部分开发者故意违反我们的使用政策,使用OpenAI API。他们正在添加验证过程,以减少AI的不安全使用,同时继续向开发者提供先进的模型等等。因此,他们似乎想要防止开发者的误用或可能的竞争行为。
其他模型开发者在外面。我不知道。似乎是一个有趣的发展。是的。看起来OpenAI实际上是一个很好的举动,是的,这在这个连续体上。我记得在硅谷,尤其是在YC社区,围绕2019年有很多辩论,人们试图弄清楚,如何在隐私和
可验证性之间取得平衡,以及关于机器人和所有这些事情的未来,这有点涉及到那个讨论,这是一个有趣的策略,因为你是在组织层面而不是个人层面进行的,它确实需要来自支持国家的有效政府签发的ID,因此有几个隐含的过滤器,然后每个ID每90天仅限于验证一个组织,因此这一切都直观上是有意义的,但
并不是所有公司或实体目前都有资格这样做。他们说可以稍后再检查。但因此,OpenAI尝试他们的分阶段发布的另一个轴线是有趣的,他们就像,你知道,首先我们将模型发布给这个子群体,看看他们如何使用它,然后再推出。这似乎是一个非常好的方法,实际上是一个相当酷的方式来平衡一些误用的问题,同时需要将其交到人们手中并进行构建。
最后一个故事。标题是Meta举报者声称科技巨头。哦,这是一个长故事。
无论如何,事情的要点是,有人声称Meta... 是的,有些人。财富,我发现,真是令人恼火地冗长。但无论如何,声称Meta帮助中国开发AI,以便迎合他们并能够在
那里建立,显然他们赚了不少钱。这是前Facebook高管Sarah Lynn Williams说的。她刚刚发布了一本书,其中包含了她在2011年至2017年担任高管期间的许多所谓细节。在这本书中,
在参议院司法委员会的证词中,她表示Meta就是这样做的。是的,参议员Josh Hawley在这项调查中发挥了重要作用,并在X上分享了一些非常有趣的片段。但是的,这似乎与我听到的一些事情相一致,是的,比如说Meta的开源模型的使用,以及可能的
Meta试图掩盖这些模型被用于它们被用于的应用程序的事实,这些事情在这个特定的上下文中看起来并不好。它们与这个特定故事不同,但非常一致。
这里的一个关键引述是,在我在Meta工作期间,她说公司高管对员工、股东、国会和美国公众撒谎,关于他们与中国共产党所做的事情。因此,仍然有待观察。我们是否会看到扎克被拖出来再次作证并受到审问?我的意思是,如果这是真的,希望会有一些后续行动。我是说,这些事情相当疯狂。如果Meta使用威胁和恐吓的手段来让扎克保持沉默。
只是让Sarah Wynn Williams保持沉默,正如参议员Blumenthal所说的那样。无论如何,她是全球公共政策的高级董事。这一切都是从2011年到2017年,任期很长,角色非常高级。这早于整个Lama时期。这远在那之前。
当然,我的意思是,像是轶事,我听到了一些幕后事情,表明这种做法可能仍在继续,如果我所交谈的人值得相信的话。
所以无论如何,如果这是真的,这相当显著。显然,Meta正在回应,称Wynne Williams的证词是“脱离现实且充满虚假服务,抱歉,虚假声明”。而马克·扎克伯格本人则公开表示我们对在中国提供服务的兴趣,细节在十多年前就被广泛报道,事实是这样。
抱歉。我们今天不在中国运营我们的服务。我会说,我的意思是,这几乎是对的,不是吗?因为你确实构建了在中国使用的开源模型,并且在很长一段时间内,至少根据我所交谈的人的说法,基本上代表了中国公司所构建的模型能力的前沿。现在不再是这样。
但你可以说,Meta确实在加速中国国内AI发展方面做了相当多的事情。
我认为你可以有细致的论点,朝各个方向发展,但这确实是一个有趣且非常复杂的领域。因此,这一切都在谈论Meta可能被拆分的背景下。正在进行反垄断审判。FTC基本上表示,我们希望可能将Instagram和WhatsApp从Meta中剥离。这将是一个非常大的事情。因此,无论如何,这很有趣。
很难知道谁在说什么。书中有内容,所以这方面有钱可赚,但如果这是真的,肯定会是一个相当大的炸弹。因此,关于AI的具体细节不多。从我所读到的引述来看,似乎提到了一个高风险的AI竞赛,但除此之外,更多的是关于AI
与共产党之间的沟通,执行官们与之进行的沟通,你知道,如果他们试图友好并尽其所能在中国获得支持,那也不会令人惊讶。确实。我只想补充一下,作为背景,我提到的关于
其他信息来源的事情。我没有看到任何第一手资料。因此,我只想指出这一点,但如果被相信,这确实与此相一致。因此,只是为了抛出这个警告,很多,关于许多不同公司的问题,显然在这个领域,但Meta一直是一个,如果这是真的,理应受到很多审查。
这是我们的最后一个故事。感谢您收听本期《上周AI》。一如既往,我们很感激您在某处留下评论。您可以去Substack、YouTube,或在Apple Podcasts上留下评论。听到您的反馈总是很高兴,或者您也可以与朋友分享,我想,当然不需要让我们知道。但无论如何,我们感谢您收听,请继续收听。
♪♪
♪♪ ♪♪
从神经网络到机器人,头条新闻不断涌现。数据驱动的梦想,永不停息。每一次突破,每一行未写的代码。在变革的边缘,我们满怀期待。从机器学习的奇迹到编码之王。未来正在展开,看看它带来了什么。