您好,欢迎收听本期《人工智能周报》播客,我们将聊聊人工智能领域的最新动态。和往常一样,在本期节目中,我们将总结和讨论上周一些最有趣的人工智能新闻,您可以在节目说明中查看所有时间戳和新闻链接。我是你们的常驻主持人之一,Andrey Karenkov。我在研究生院学习人工智能,现在在一家生成式人工智能初创公司工作,这家公司即将……
可以说是即将做一些令人兴奋的事情,希望如此。
是的,我真的很兴奋,因为我们一直在线下讨论即将发布的这个公告。我觉得我可能和听众一样,对你们每天都在做什么非常好奇。所以我们很快就会看到一些东西。我希望如此。我真的很期待。是的,是的,是的。我想我还没有透露太多。我可以说,我的意思是,我正在从事人工智能方面的工作,制作一些小游戏,目的是创建一个平台,让人们可以在网上制作、发布和玩彼此的游戏。
是的,明天,4月8日,因为我们录制的时间有点晚。所以周二是我们最新技术迭代的重大发布日。是的,没错。所以当这一期节目播出时,我们很可能已经完成了大型发布。任何收听节目的听众都可以访问astrok.com进行试用。我肯定也会在其他地方宣传它。所以你一定会听到的。是的。
是的,说到这里,我们基本上必须快速完成本期节目,因为Andre必须去上班了,伙计。他必须真正走出去,不要再那么懒惰了。是的,让我们开始吧。从工具和应用程序开始。第一个故事是一个相当大的故事。它是Llama 4。Meta发布了其开源系列大型语言模型的最新迭代,也是大型多模态模型。
这些模型有四种不同的尺寸。其中一些被称为Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。
他们还将其发布到所有与WhatsApp、Instagram、Facebook上的聊天机器人交互的不同方式上。我不记得还有哪些地方可以让你与人工智能对话。这些模型相当庞大。为了说明这一点,Maverick拥有4000亿个总参数,但只有170亿个活动参数。所以他们也将其作为……
更适合较低配置的设备。但在高端方面,Behemoth(尚未发布,他们说仍在训练中)拥有近2万亿个总参数和2880亿个活动参数,根据人们的……
当时对GPT-4的一些猜测是,它就是这样。它是一种专家混合体,你拥有近2万亿个总参数,然后大约有1000亿个,也许是2000亿个总参数。我们不知道,但这让我想起了GPT-4的猜测。
顺便说一句,这个发布对很多人来说相当令人失望。所以现在正在进行一场有趣的辩论,关于Llama 4发布到底出了什么问题,对吧?所以它们是大型模型。
我先说说优点。所以从工程的角度来看,在大概12页的阅读材料中所揭示的一切,我不知道该称之为博客文章还是技术报告,或者其他什么。它不像DeepSeek那样厚重的50页报告。不过,它确实提供了一些好的数据。我们从中获得的关于工程方面的一切似乎都很有趣。顺便说一句,当涉及到……
这里所做的通用架构选择时,就像从DeepSeek那里获得了很多灵感,伙计,很多,很多。为了让你了解一下,所以它们以FP8精度进行训练。所以,再次,就像DeepSeek v3一样,尽管DeepSeek v3也使用了一些更高级的混合精度技术。我们在DeepSeek那一期节目中讨论过这个。H100 GPU的理论性能非常出色。
对于FP8大约为1000万亿次浮点运算,他们在实践中能够达到390万亿次浮点运算。所以他们的利用率大约在39%、40%左右,对于这么大的GPU集群来说,这已经是高端水平了。他们为此使用了32000个H100 GPU。这可不是闹着玩的。让你的GPU如此一致地运行是一件非常重要的事情。所以从工程的角度来看,这是一个相当好的迹象。
他们在这里做了一些与众不同的事情。其中一点是这是一个原生多模态模型。所以,是的,从deep seek那里获得了大量灵感。但与此同时,非常符合Meta的理念,即我们想要良好的基础、良好的多模态性。他们使用了一种称为早期融合的技术,其中本质上是……
模型架构的开始,文本和视觉标记就被组合在一起,并且它们都被用来训练模型的完整主干。这意味着模型从一开始就学习这两种模态的联合表示。这与后期融合形成对比,在后期融合中,你将文本和图像以及其他数据在单独的路径中进行处理,然后只是在模型的末尾将它们合并,更像是一种……更像是一种粗制滥造的弗兰肯斯坦怪物。这不是那样,对吧?这更像是一个整体的东西。总之,这里有很多东西。事实证明,Scout和……
似乎属于同一模型系列。他们似乎在架构方面做出了相同的某些设计选择。Maverick是……
似乎是DeepSea的克隆。这似乎是一次尝试。有些人推测,这可能是最后一刻的决定,试图复制DeepSeek所做的事情。而如果你看看Scout,再看看Behemoth,你会发现它们更像是……就像你说的,Andre,它就像有人试图将GPT 4与混合试验类型的模型结合起来。而且,目前还不清楚为什么会发生这种情况,因为……
但我们知道的一件事是性能似乎很糟糕。当人们实际对其进行自己的基准测试时,或者至少是结果非常不一致,对吧?有很多关于……例如,在LMSIS上,他们有一个模型似乎表现出色,并且在惊人的ELO分数上表现出色,但是……
如果我们仔细阅读论文,我们会发现他们为此使用的模型并非他们发布的模型,也不是他们发布的任何模型。它是针对LMSIS竞技场排行榜的自定义微调模型。这是一个大问题,对吧?这是人们真正抨击Meta的一件事。看,你们向我们展示了一个模型的评估结果或基准测试结果,但你们发布的是另一个模型。这真的看起来像……
哇。
最后我要说的是,人们对这些模型性能不佳的一种解释就是托管。它们所托管的系统没有得到正确的优化。也许他们对模型的量化程度过高或不当。也许他们使用了错误的推理参数,例如温度、top P等等,或者使用了错误的系统提示。任何类似的事情都是可能的,包括更细微的硬件考虑因素。但底线是,
这可能是今年在大型浮夸发布方面的一个重大失误,本来应该是一件大事。我认为我们还需要几周时间来整理这些碎片,才能真正弄清楚我们对这些事情的真实感受,因为现在有很多噪音,我个人还没有确定这些东西到底有多令人印象深刻。但这些是我的主要观点。是的,我认为这是对人们所看到的讨论和……
反馈和反应的一个很好的概述。也有人推测,Meta,至少是领导层,推动了对定量基准的操纵,例如MMLU、GPQA,以及你通常看到的数字,Live Code Bench。当然,他们说它比Gemini 2 Flash更好,比DeepSeek 3.1更好,比GPT 4.0更好。但正如你所说,当人们使用这些模型时,
有点轶事,个人,或者在他们自己保留的基准测试上,这些基准测试不是那些你可以作弊的可用基准测试,你可以训练它。
甚至像意外作弊或某种程度上作弊,对吧?这是你如今需要做的一件重要的事情。你需要确保你的模型在抓取互联网时没有在训练数据上进行训练。如果你没有这样做,你可能会在不知情的情况下作弊,或者至少是假装不知道。所以是的,看起来这些模型并不好,对吧?
值得注意的是,正如你所说,对于Behemoth、Maverick、Scout,它们之间存在差异,Behemoth和Scout有16个专家。所以,你知道,相当大的模型……
正在完成我们的大部分工作。Maverick则不同。它有128个专家。所以它是一个更大的模型,但总活动参数的数量较低。我认为你可以推测各种原因。例如,他们希望这些模型通常能够在较少的硬件上运行,而Behemoth将是例外。正如你所说,他们还需要控制成本。我不知道Meta……
是如何考虑其商业计划的,即使用LLM进行免费聊天,这与其他任何东西相比,都是非常昂贵的。而且他们仍然在他们的所有产品线上免费提供这项服务。
所以你可以在这里进行各种推测。但正如你所说,情况似乎是他们可能仓促发布了,因为其他事情即将到来,因为这些公司通常以某种方式知道彼此的发布计划,也许他们应该再等等。
是的,关于这些模型的规模以及开源的意义,也有很多疑问,对吧?我们已经在其他模型的背景下讨论过这个问题,包括DeepSeq v3和R1等等。在某种程度上,你的模型如此之大,你首先需要昂贵的硬件来运行它。我认为这是一个很好的例子,对吧?所以Scout,它应该是他们的小型模型,对吧?它听起来像Flash。它听起来像是那些27亿参数的模型之一。事实并非如此。
所以它是一个170亿活动参数的模型,正如你所说。他们在这里的大胆之处在于它适合单个NVIDIA H100 GPU。所以这实际上相当……这相当不错,这是一件相当漂亮的事情。那是,你知道的,价值数万美元的硬件。基本上是80GB的HBM3内存。顺便说一句,这东西确实有一点优势,那就是一个非常大的上下文窗口。所以是1000万个token。
这太疯狂了。问题是,他们在这个上下文窗口长度上显示的唯一评估是“大海捞针”评估,正如我们之前讨论过的,这些评估……
相当肤浅。它并没有真正告诉你模型如何使用它恢复的信息。它只告诉你,哦,它可以挑选出隐藏在该上下文窗口中的某个地方的事实。这还不错,但还不够,对吧?这是其中一件事。所以,这就是Llama 4 Scout。他们说Maverick适合一个H100 GPU……
主机。现在,“主机”这个词承担了很多工作。实际上,这意味着一个H100服务器。我想他们指的是H100 DGX。事实上,我认为他们在报告中就是这样说的。那将是八个H100。所以是价值数十万美元的硬件。嘿,它只适合这些服务器中的一个。这可是很多硬件。所以总之,
底线是,我认为,你知道的,顺便说一句,我相信Scout是Llamath for Behemoth的蒸馏结果,后者仍在训练中。所以我们不知道Llamath for Behemoth最终会是什么样子。所以我们都在屏住呼吸等待。但就目前而言,除非Meta在蒸馏方面真的搞砸了,他们只是拥有一个惊人的Behemoth模型,而蒸馏过程没有奏效。
似乎Behemoth模型本身的性能也可能不佳。但是,再次强调,所有这些都悬而未决。与这里的许多事情一样,它似乎是一个仓促发布的版本。我认为尘埃落定还需要几周时间。仍然值得强调的是,他们坚持他们开源这些东西的总体方法。你可以请求访问Llama 4 Maverick和Llama 4 Scout以获取实际权重,就像你能够使用以前的Llama一样。
与之前的情况一样,它们是根据这些定制的东西许可的,即LAMA IV社区许可协议,你声明你不会做Meta不想让你做的各种事情。我认为LAMA在开源方面的许多研究和开发中发挥了重要作用。所以至少这一点仍然值得称赞。
接下来是下一个故事,我们转向亚马逊,亚马逊还没有发布太多模型,但他们似乎正在开始。他们的第一个行动是Nova Act,这是一个可以控制网络浏览器的AI代理。这来自亚马逊的AGI实验室,该实验室到目前为止还没有发布很多论文,很多产品,但这似乎是一个相当大的产品。
它与OpenAI的……我不记得它叫什么了,但他们的网络使用代理可以……哦,Operator,是的,Operator,没错,你可以告诉它,你知道,去这个网站,抓取所有链接的名称并为我总结一下,诸如此类的事情。
所以他们有这个通用的AI代理。他们还发布了Nova Act SDK,这将使开发人员能够基于此创建代理原型。他们说这是一个研究预览版。所以它还处于早期阶段,大概还没有完全成熟。
但是是的,我认为这是一个有趣的尝试。我们仍然没有太多这种特定变体的模型或产品。我们有Anthropic的计算机使用。我们有OpenAI Operator,我不记得他们是否为此提供SDK。所以这可能是该领域中相当重要的一个进入点。是的,这是亚马逊AGI实验室推出的第一个产品,对吧?所以这是一个相当大的揭幕。一些,我的意思是,我们没有太多信息,但是……
关于基准测试的一些说明,对吧?所以他们声称它在至少screen spot web text基准测试上优于OpenAI和Anthropic的最佳代理。这是衡量代理在屏幕上与文本交互效果好坏的指标。显然,在这个基准测试中,Novak的得分是94%……
这与OpenAI的代理形成对比,后者得分是88%,Anthropic的Claude 3.7 Sonnet得分是90%。在这个基准测试上似乎有显著的优势,但这不足以实际能够……普遍评估代理的能力,特别是web Voyager是……
一个更常见的评估,并没有像报告那样,Nova Act代理的性能没有在这个方面进行报告。所以这让你提出一些问题,但我们会拭目以待。我的意思是,他们肯定有……你知道的,通过Alexa进行很好的分发,也许这将使他们能够……你知道的,相当快地迭代改进它。我们会拭目以待。由于与Anthropic的合作,他们还在改进其硬件堆栈。所以即使一开始表现不佳,
他们至少拥有一个有前景的超大规模堆栈。所以这可能会很快得到改进。对。它也可能是他们Alexa Plus(新的订阅服务)计划的一部分。他们还在硬件之外推出了Alexa网站。所以他们可能正在考虑将其作为其产品的一部分,并将继续推动。
接下来是一些其他的故事。接下来,另一家大型公司计划发布大型模型。这家公司是阿里巴巴,据报道他们……
正在准备很快发布他们的下一个旗舰模型Qwen 3。所以这篇文章说的是最早在四月。显然,阿里巴巴正在努力应对DeepSeek以及中国发生的许多其他热门活动。我们最近几个月已经多次讨论过Qwen,Qwen 2.5,各种较小的版本,我想你可以这么说。而且……
而Qwen 3大概是为了成为最好的,打败所有人,对吧?我要说的一件事是,我看到有人推测这可能是Llama 4快速发布的部分驱动因素。
所以我们真正知道的只有这些。可能是。接下来,我们有一家规模较小的公司,一家初创公司Runway,它发布了其最新的视频生成AI模型。所以这是Gen 4,它应该是一种面向客户的可用的视频生成模型。
从我看到的情况来看,它看起来非常令人印象深刻。它正在赶上Sora,赶上更多能够生成一致视频的顶级模型,也能够……
通过文本和图像进行提示。他们用一部小型短片来发布它,其中有一个可爱的森林,然后是一些角色互动,展示了多个输出的一致性。正是在他们进行新一轮融资的时候,他们的估值达到40亿美元,目标是获得3亿美元……
我们的目标是今年获得3亿美元的收入。所以Runway是AI视频领域的主要参与者。
接下来是一个类似的故事。这个故事是关于Adobe的,他们正在Premiere Pro中推出AI视频扩展功能。所以Premiere Pro是他们的旗舰视频编辑工具。例如,我们已经看到他们在Photoshop中集成了很多AI。这是第一个进入Premiere Pro和视频编辑的主要AI工具。而这个功能是生成式扩展。它将允许你扩展视频……
最多两秒钟,使用Adobe Firefly。我认为我们已经介绍过他们预览这个功能的情况,但现在它正在向实际产品推出。是的,至少对我来说,这种推出方式作为这些类型视频的第一个用例很有意义。它让我想起了当年由Codex驱动的Copilot。第一个用例是文本或代码自动完成。我们已经看到自动完成功能……
这种功能对于许多这些transformer模型来说是相当自然的。这个有点不同,但它仍然是这种非常自然、非常扎根于真实数据的。你只是稍微扩展了一下。所以特别是对于需要捕捉大量物理效果的视频来说,我认为这将是一种很好的方法,可以消除这些模型中的许多缺陷。
对。他们还推出了一些其他的小功能。他们有AI驱动的剪辑搜索功能,你可以根据剪辑的内容进行搜索。我怀疑这对许多开发者来说是一件更大的事情。这是真的。是的,是的。
因为如果你有100个剪辑,现在你可以搜索内容,而不是文件名等等。他们还有自动翻译功能。所以Adobe推出了一些相当重要的功能。还有一个故事。OpenAI显然正在准备为ChatGPT添加推理滑块,以及改进的内存。我们已经看到了一些……
我想,人们开始观察,大概是在测试中,这个推理滑块的想法。这允许你指定模型应该更努力地思考,或者你可以将其保留为自动模式,让模型自行决定,在某种程度上与Anthropic也在朝着的方向相呼应。
接下来是应用程序和业务。第一个是关于NVIDIA H20芯片的,最近从字节跳动、阿里巴巴和腾讯获得了价值160亿美元的订单。所以这是涵盖一系列事件,或者说是一段时间。
在2025年初,这些来自中国的主要AI参与者都订购了大量H20芯片,这是一种不受限制的芯片。我相信,或者这块芯片或其某些变体是DeepSeek的构建基础,并展示了训练DeepSeek v3的能力。
所以这是一件大事,对吧?而NVIDIA大概正在努力避免过于受限,以便能够做到这一点。是的,DeepSeq是在H800上训练的,H800是H100的另一个中国版本。所以你是对的,它们都属于Hopper系列。但具体针对中国,这是我们从NVIDIA那里看到的一种策略,
是他们对迫在眉睫的新潜在出口管制限制的回应。对。所以你可以想象,如果你是NVIDIA,有人告诉你,嘿,几个月后,我们将打击你向中国销售这种特定GPU的能力。那么,你会看看它,然后说,好吧,我将尽快尝试向中国出售尽可能多的这些GPU,只要我还能赚钱。然后一旦出口控制禁令生效,那就结束了,对吧?所以你实际上会优先考虑中国客户而不是美国客户。这种情况过去发生过。只要我们在出口管制制度中包含漏洞,这种情况就会继续发生在未来。所以你现在看到的实际上是NVIDIA正在权衡……
我们是否有足够的时间来生产芯片,以满足字节跳动、阿里巴巴和腾讯提出的160亿美元的订单?我们能否在出口管制禁令生效之前准备好并销售这些GPU?否则,如果我们没有,我们就会囤积这些硬件。现在,请记住,
H20严格来说比NVIDIA可以生产的H100或H200要差。所以从向国内市场销售的角度来看,或者根据节点和这里的互动,他们也可以生产Blackwells。
所以存在这样的问题:如果他们选择生产H20来满足即将消失的中国需求,那么他们最终可能会被迫囤积这些相对较差的H20芯片,这些芯片在美国国内市场上并没有真正的市场。对。所以这是一个很大的风险。他们现在正在计算这个风险。他们有限的台积电产能可以节省。所以他们不可能同时满足这两个需求。
是的。
继续说,我们有一个有趣的故事,我想也是本周的另一个重大商业故事。那就是埃隆·马斯克的……
X,以前是Twitter,已以330亿美元的全股票交易的价格出售给埃隆·马斯克的xAI。所以你没听错。这家正在开发Grok的人工智能公司以330亿美元的价格收购了社交媒体公司Twitter/X……
数百亿美元,Grok自成立以来基本上一直作为X的一部分托管,你可以支付订阅费用在X上使用Grok,我相信grok.com也存在,但我猜Grok主要存在于X上,理由是,当然,Twitter将提供大量数据来训练Grok,并且可以利用深层次的协同效应……
是的,值得注意的是,当埃隆实际上收购X(当时是Twitter)时,他为此支付了420亿美元,对吧?所以现在这是一笔330亿美元的全股票交易。所以公司的价值实际上名义上有所下降。现在,这里有很多警告。你知道,你有一种内部的,比方说,生态系统内的购买,对吧?
我不清楚这方面的法律问题,公平市场价值是否像埃隆在OpenAI试图将其营利性部门出售给非营利性部门时提出的那样是一个问题。其中一个论点是,嘿,你没有以公平市场价值出售它。我怀疑这可能更符合规定,因为它涉及较少的控制怪异问题,但我不是律师,只是有趣的数据。
所以是的,总之,全股票交易,这两个公司的最终合并将使xAI的估值达到800亿美元。所以,你知道的,相当……相当大。而且有趣的是,它也与Anthropic的估值非常接近,对吧?这太令人惊讶了,考虑到X在20分钟前还不存在,对吧?这是一个典型的埃隆式策略。xAI。是的,这很令人困惑。是的。
你是对的。xAI是突然出现的,对吧?大概一两年以前,非常疯狂,非常令人印象深刻,也是一个典型的埃隆式策略。所以就是这样。文章中没有太多信息,但我们只得到了这些主要内容,数字很大。数字很大。正如你可能预期的那样,有很多推测。我的意思是,很多人都在制作关于……你可以说,在这种情况下,自我交易的模因,对吧?例如,这两家公司都是埃隆·马斯克的公司。其中一家正在收购另一家。
这可能与Twitter收购的一些财务方面有关,埃隆·马斯克对其特斯拉股票发放的贷款,现在特斯拉股票正在下跌。是的,所以你可以对为什么现在发生这种情况,为什么有这种精确的定价提出各种各样的挑剔的想法。但无论如何……
我们的第 206 集,总结并讨论了上周重要的 AI 新闻! 录制于 2025 年 4 月 7 日 在此试用 Astrocade 演示!https://www.astrocade.com/ 主持人:Andrey Kurenkov 和 Jeremie Harris。 请随时通过 [email protected] 和/或 [email protected] 向我们发送您的问题和反馈 阅读我们的文本通讯并在播客中发表评论 https://lastweekin.ai/。 在此加入我们的 Discord!https://discord.gg/nTyezGSKwP 本集内容:
亚马逊的 AGI 实验室推出了 NOVA Act,这是一个用于网页浏览器控制的 AI 代理,其基准测试结果与 OpenAI 和 Anthropic 的最佳代理相比具有竞争力。 OpenAI 的图像生成能力和持续的融资发展,特别是软银牵头的 400 亿美元融资轮,突显了这家科技巨头运营中的重大进步和战略转变。
(00:13:55) 亚马逊推出 Nova Act,一款可以控制网页浏览器的 AI 代理 (00:17:06) 阿里巴巴准备尽快在 4 月份发布旗舰 AI 模型 (00:17:59) Runway 发布了一个令人印象深刻的新的 AI 视频生成模型 (00:19:10) Adobe 推出 Premiere Pro 的生成式 AI 视频扩展程序 (00:20:54) OpenAI 为 ChatGPT 用户准备推理滑块和内存更新
(00:24:45) 埃隆·马斯克以 330 亿美元的价格将其公司 X 卖给了他自己的 AI 初创公司 xAI (00:28:00) 软银取代微软成为 OpenAI 最大的投资者,将 ChatGPT 制造商的市值推高至 3000 亿美元——但据报道,它让自己背负了巨额债务 (00:30:48) DeepMind 正在推迟发布 AI 研究,以使 Google 占据优势 (00:34:06) 传闻中中芯国际将在 2025 年完成 5nm 芯片的开发;由于使用的是老一代设备,成本可能比台积电的版本高出 50% (00:36:04) 谷歌支持的 Isomorphic Labs 筹集 6 亿美元用于推进 AI 药物研发
(00:43:50) 越过奖励桥:在不同领域扩展具有可验证奖励的强化学习 (00:48:39) 复杂任务的推理时间缩放:现状和未来展望 (00:54:34) 过度训练的语言模型更难微调
(01:02:32) 这项 AI 预测预示着未来的风暴 (01:06:24) Sam Altman 被 OpenAI 解雇背后的秘密和误导 OpenAI 的新图像生成能力代表了 AI 工具的重大进步,展示了令人印象深刻的基准和多模式功能。 OpenAI 正在完成软银牵头的 400 亿美元的历史性融资轮,Sam Altman 将重点转向技术方向,而首席运营官 Brad Lightcap 承担更多运营责任。 Anthropic 推出了突破性的可解释性研究,引入了跨层追踪器,并通过在 Claude 3.5 上的应用展示了对模型推理的深入见解。 新的具有挑战性的基准测试,如 ARC AGI 2 和复杂的数独变体,旨在突破 AI 模型的推理和解决问题能力的界限。
是的,就像,为了量化它,他们尝试,所以指令微调,10亿参数模型,OMO1B,
它是在3万亿个token上预训练的。他们发现,如果你在3万亿个token上预训练它,在一堆微调LLM基准测试上的性能比在2.3万亿个token上预训练它要差2%。这真的很有趣。所以这就像,你知道的,比
然后如果你向下游,所以在那之后,你取这两个不同的模型并对其进行微调,你得到的模型在预训练时使用了更多token的性能要差2%。其背后的机制非常有趣,或者至少必须非常有趣。论文本身有点含糊不清,但是
所以他们强调了渐进敏感性的概念。他们衡量这种方法的方式基本上是,如果你采用大小相等的修改,经过更多token预训练的模型
表现出更大的遗忘性。它们更有可能忘记它们最初拥有的能力。我们以前见过这种情况,对吧?当你微调一个模型时,它会忘记一些与其刚刚完成的微调无关的能力。所以这大概是在暗示,预训练模型,如果你在一个大量的token上进行预训练,就会变得像,我想,更脆弱。就像它更,也许更普遍地能够一开始就启动。但是一旦你开始微调它,这种结构就像,
以一种奇怪的方式,几乎就像未正则化的。它几乎就像过度拟合,我想说的是,预训练分布。他们确实说到这一点,微调期间的正则化可以延迟发作,尽管代价是下游性能。所以对我来说,这表明这里存在某种正则化现象,是的,如果你只是像训练不足,或者不是训练不足,而是如果你在较少的token上进行预训练,那么整体模型就不太可能
再说一次,你并不一定进行多次史诗般的训练,所以你不会重复处理相同的数据。所以你不会过度拟合到特定数据,而是可能过度拟合到训练数据的分布。我认为这可能是这里发生的事情,尽管如此。这并不是说我以前没有看到过这种讨论。
以那种角度、那种深度进行深入的讨论,但我可能只是错过了。无论如何,这是一个非常有趣的结果,对预训练有巨大的影响,对吧?这是一个巨大的、巨大的资本支出来源。没错。是的。他们在本文中主要通过实验证明了其中一些现象,并展示了这一点也有一些理论分析。但是
正如你所说,我们并不完全理解为什么会发生这种情况。这是一种有趣的现象,需要更深入的研究。
关于政策和安全,我们首先要采取负责任的途径来实现AGI,这是一篇提出这种方法的论文。这是来自DeepMind的,我想是提出了他们的总体想法。他们之前已经介绍了AGI的级别这个概念,这是
试图将AGI定义为能够自动化少量人类劳动、所有人类劳动等等的一组级别。所以他们对此进行了扩展。他们还强调需要主动采取安全措施以防止滥用。它通常会介绍很多内容。所以我会让你接管,杰里米,并重点介绍你认为有趣的内容。
是的,不,我的意思是,这里没有什么太令人震惊的,除了他们大声说出来,认真对待失去控制的想法。所以关于博客文章,而不是长篇报告本身,而只是博客文章的一个值得注意的事情是。
尽管他们在报告中考察了四种不同的风险类别,他们考察了滥用、错误,也就是你可以说是传统的AI事故,结构性风险和错位。博客文章本身基本上只是关于他们对错位的想法。里面有一些滥用的内容,但这篇博客文章是关于失去控制的。这就是它。
很明显,这就是DeepMind想要向世界发出的信号。就像,嘿,就像,是的,每个人似乎都同意这些其他的事情。但是,伙计们,伙计们,我们可以吗?这真的很重要。
所以无论如何,里面有很多有趣的东西,比如如果你熟悉谷歌DeepMind关于对齐的研究议程,里面有很多你熟悉的东西。所以辩论,让我们通过让超级智能AI相互辩论来保持它们的诚实,我们将使用AI法官。如果超级智能不诚实,那么这种不诚实应该可以通过可信赖的法官来检测。这有很多挑战。
我们现在不会深入讨论,但是有很多关于可解释性的东西,有点类似于Anthropic的一些研究议程等等。所以他们确实,他们还将Mona论文标记为,无论如何,这是我们之前讨论过的事情。你可以查看我们对Mona的讨论。
但基本上,它就像一个性能对齐权衡选项,当你本质上强迫模型只在短期内推理,这样它就不会走得太远,做一些非常危险的聪明事。
你可以尝试确保它更容易被人理解。无论如何,我认为这很有趣。对我个人来说,有趣的一点是关于对齐的安全方面有一个说明。他们说,一个关键的方法是将模型视为不受信任的内部人员,从而促使采取诸如访问控制、异常检测、日志记录和审计之类的缓解措施。实验室需要改进的一件非常重要的事情是
只是总体安全,不仅仅是从失去控制的角度来看,而且还包括国家行为者的活动。所以我认为很多这些事情都以一种非常有趣的方式融合到了安全领域。所以就是这样。还有更多话要说,但我们会控制时间。
对。是的。他们发表的论文本身有108页长。它基本上是对整套风险和预防方法的全面概述。他们还在博客文章中提到,他们正在与也关注此问题的各个团体合作。他们有AGI安全委员会。他们与前沿服务合作。
模型论坛,他们在YouTube上发布了谷歌DeepMind AGI安全课程,这很有趣,所以是的,至少DeepMind内部的一些人非常关注安全,这似乎是下一篇文章,这篇AI预测即将到来的风暴,这是一篇报道或文章,我不知道你该怎么称呼它,叫做AI 2027。这是由一些,我想,重要的知识分子进行的更正。
并重点介绍了一种可能表明你为什么应该担心AI安全以及这些事情可能如何发生的场景。我不想说得太详细,因为这是他们相当详细的报告。我们可能无法深入讨论,因为它是一个详细的虚构场景。
但是,如果你有兴趣了解人们如何思考安全以及为什么人们认为关注安全非常重要,我认为这是一篇很好的阅读材料。是的,正如你所说,它关于这篇名为AI 2027的文章。它是由一群非常有趣的人写的。
Daniel Cocatayo是其中比较知名的一位。还有来自Slate Star Codex或Astral Codex 10的Scott Alexander,在AI对齐宇宙中非常有名,这是一个非常小众的AI对齐生态系统等等。Daniel Cocatayo因
基本上,就像告诉OpenAI他不会签署他们非常掠夺性的,必须要说,他们试图强迫员工在离开之前签署的不诋毁条款。Daniel以对AI现状的准确预测而闻名,可以追溯到三、四年前。对。所以他基本上说,就像,这就是我们在那时会在2026年左右的样子。如果你喜欢,你应该看看他写了什么。
非常了不起。就像它非常贴切。所以他在这里基本上预测我们在2027年达到超级智能。我的意思是,我经常和他进行过交谈,他对这一点一直很坚定。我认为他之前没有强调2027年超级智能的可能性,唯一的原因可能是事情变得非常难以建模。所以他们试图尽可能地将此建立在今天的具体实验数据和理论结果的基础上。
并规划政府的反应可能是什么,私营部门的反应可能是什么,资本支出可能如何波动。你知道的,我对国家安全方面或中国的图景有一些细微的异议,但这并不是他们真正想要做到的。
重点。我认为这是一项非常伟大的努力,可以使理论与实践相结合,并创建一个能够做出明确预测的具体场景。我们将能够回头看看,看看他们是否做对了。如果他们在未来12个月内做对了事情,我认为我们有一些重要的问题需要问自己,我们应该多认真地对待实际的2027年预测。无论如何,这是一篇非常有趣的读物,它又经历了一个
非常有趣,因为Dan Kay本人是OpenAI的前员工。所以他很熟悉OpenAI的人是如何谈论这个的。这当然与我与OpenAI、Anthropic、DeepMind等所有这些人的谈话一致。是的,2027年对我来说似乎相当合理。
是的,我会说我倾向于同意22-7是合理的,至少对于超级智能的一些定义来说是这样。例如,他们说会有一个超级智能的程序员,可以有效地成为一名软件工程师,就像谷歌的优秀软件工程师一样。对我来说相当合理。所以,逐字逐句地说,这是一个非常出色的小故事,你可以这么说,关于可能发生的事情。
另一个关于OpenAI的故事。接下来,我们有一篇文章标题为《Sam Altman被OpenAI解雇背后的秘密和误导》。所以这是,有一本新书即将出版,其中包含一些这种耸人听闻的细节。这篇文章介绍了其中的一些内容。我们已经提到过很多关于董事会和奥特曼之间紧张关系的内容,只是更具体地说明了
实际上似乎是谎言,以及导致这种情况发生的各种不良模式。非常详细的文章。如果你想知道细节,请继续阅读。是的,我认为这实际上非常有趣,因为它的具体细节。当时,
董事会,OpenAI非营利性董事会,解雇了Sam Altman,并且拒绝向我们说明他们实际的理由。他们非常有名地说,他被解雇是因为没有始终如一地坦诚地对待
当时,我认为我们报道过这个。我清楚地记得在播客和其他地方说过,就像,我认为除非董事会提出一个非常明确的理由,否则这很明显的结果是人们会感到困惑,而萨恩将拥有所有筹码,因为你刚刚解雇了创造了当时约800亿美元市值的人,并成就了这些人的职业生涯,而你没有向他们解释。很明显,幕后确实存在紧张关系,但是
无论如何,如果你在这个领域并且有关系,并且认识这个圈子里的人,你可能也听到过这些故事。有很多具体的事情是严重的、严重的问题。特别是,Sam Altman据称声称对GPT-4进行了大型模型发布和增强,这些发布和增强已经得到了联合安全委员会的批准,但实际上似乎并没有发生。这是对董事会的一个彻头彻尾的谎言,
围绕在印度发布未经批准的GPT-4实例的各种事情。同样,Sam Altman声称已经发生了这种情况。哦,是的,然后是OpenAI创业基金,Sam Altman没有向董事会透露他实际上拥有或持有该基金的主要股权。它有点像在管理它。
同时声称他,无论如何,声称与它有一定的距离,董事会偶然发现他实际上是在经营它。他们认为它是由OpenAI管理的。所以,你知道,这又一次,一次又一次地,似乎Ilya Sutsky和Mira Marotti是幕后推手。所以甚至不是海伦·托纳。
或任何其他董事会成员,是米拉和伊利亚,他们说,嘿,我们看到了一些不良行为模式,而不是在政治意义上的不良行为,对吧?但这就像,这是一个直接对人撒谎的人,而且是在非常、非常重要的实质性问题上。所以,是的,显然他们担心董事会只是,
与受这些事情影响的一些人保持联系非常、非常零星。这与我听到的一些事情一致
实际上很快就会报道,实际上,是OpenAI前研究人员对董事会职能的批评,基本上是假装监督公司。所以这真的很、很具有挑战性,对吧?当你依赖董事会来证明你正在以负责任、安全的方式做事,并防止,除其他外,国家行为者做坏事时。无论如何,有很多话要说,对我来说,要点是
我现在完全困惑了,鉴于这些指控的实际强度和证据,为什么董事会花了这么长时间才出来说任何话,就像他们实际上有牌可打一样。如果这是真的,他们实际上有牌可打。他们有截图。是的,没错。这就像Miramarati的Slack聊天一样。你们在做什么?说真的,如果你的目标是,是更换领导层,就像,
做得很好,给了Sam A所有筹码。做得很好,创造了一种情况,让萨蒂亚可以来微软为萨姆提供工作,这给了萨姆筹码。当时看来就是这样。董事会处理这件事的方式非常……
显然,他们保密是因为他们不想让奥特曼知道整个谈话,但他们处理这件事的方式非常混乱,也许是困惑的。这基本上证实了这一点。是的。就像,如果这是真的,再说一次,如果这是真的,那么这是一些相当业余的事情。而且有很多,我的意思是,它与一些有效的利他主义理论是一致的。
在那里发生的氛围,就像每个人都非常厌恶风险,试图不采取重大行动等等。不幸的是,这似乎在文化上已经根深蒂固了。所以是的,我的意思是,就像,对不起,没有什么是低风险解雇世界上最大的私营公司首席执行官的事情。就像,你知道的,大事要发生了。无论如何,我认为这是一篇引人入胜的读物,并且肯定是一些史料。
就这样,我们将结束本集。感谢收听。感谢您,希望您尝试了我们在Astrocade上推出的演示。和往常一样,我们感谢您分享、提供反馈、给出评价,但最重要的是,继续收听。所以请继续收听。
把它分解。
♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪
从神经网络到机器人,头条新闻层出不穷,数据驱动的梦想,它们永不停歇。每一次突破,每一行未写的代码,都在变化的边缘,我们兴奋不已。从机器学习奇迹到编码高手,未来正在展开,看看它会带来什么。