您好,欢迎收听本期《人工智能的最后一周》播客。我们将聊聊人工智能领域正在发生的事情。和往常一样,在本期节目中,我们将总结和讨论上周一些最有趣的人工智能新闻。有时,我们还会讨论上上周的新闻。很抱歉,我们上周又错过了。我们很抱歉。我们会尽量避免这种情况。但我们会回顾并涵盖一些我们错过的内容。
和以往一样,您可以访问节目说明,获取我们讨论的所有内容的时间戳和链接。我是你们的常驻主持人之一,Andrey Karenkov。我在研究生院学习人工智能,现在在一家硅谷通用人工智能初创公司工作。我是另一位主持人,Jeremy Harris。我在Gladstone AI工作,这是一家从事人工智能国家安全业务的公司。我们正在讨论过去几周的情况,我们很少有两周的时间来追赶新闻,很明显,但是
当我们这样做时,通常会发生的事情是上帝给了我们重重一击。他会说:“你知道吗?我们将同时发布GPT-7和GPT-8。”现在谷歌DeepMind也将有自己的东西。Sam Maltman将被暗杀。然后他将复活。然后你只需要报道所有这些。本周,这两周,非常不同。感觉异常平静。
有点喘息的机会。所以,感谢宇宙。是的,我记得几个月前有一件事,当时有Grok 3、Llama 3 7和GPT等等。感觉就像所有事情都同时发生。这次,是的,上个月没有什么太大的事情。
几周。所以,我们将要报道的新闻预览。我们这次实际上将从商业开始,因为我认为过去两周的大新闻是OpenAI决定不会追求盈利,或者OpenAI的控制实体不会追求盈利,这很有趣。
我们将讲述一些关于工具和应用程序的故事,但那里没有什么重大的事情。一些关于开源的新酷模型。一些来自DeepMind关于算法研究的令人兴奋的新研究。然后是政策和安全,主要关注特朗普政府和芯片的政策方面。
在我们深入探讨之前,我想感谢一些苹果评论。事实上,我最近看到一篇评论,标题是:“如果一个播客很好,请保持一致。请持续发布。”正如标题所说,每周一期播客。过去几周我没有看到任何一期。是的,我们很抱歉。我们试图保持一致。我认为……
今年有点忙碌,但在接下来的几个月里,我们应该能够每周都进行这些讨论。让我们开始吧。应用和商业。第一个故事是OpenAI表示,它不会继续尝试基本上摆脱控制盈利实体的非营利组织。所以,正如我们现在可能已经报道了一年左右的时间,
OpenAI一直打算从其自成立以来,至少从2019年以来一直采用的结构中转变,当时有一个非营利组织,其使命,指导性使命……
最终控制着一个能够从投资者那里获得资金并对其投资者负责的盈利组织。非营利组织基本上最终对使命负责,而不是对投资者负责,这对OpenAI来说是一个很大的问题,因为当然,他们经历了整个
在2023年末发生的疯狂事件,董事会短暂解雇了Sam Altman,我认为这吓坏了投资者等等。所以现在我们到了这里。
几个月,我认为我们从2024年末开始。最初有很多诉讼,我认为是由埃隆·马斯克发起的,基本上是说这不行,当你作为非营利组织获得一些资金时,你不能简单地从非营利组织转变为盈利组织。对。
是的,看起来OpenAI在与特拉华州总检察长和加利福尼亚州总检察长进行对话后基本上退缩了。
他们说的是与公民领袖和总检察长的讨论。他们保留了非营利组织。他们仍在改变一些事情。因此,可以说,子公司将转变为公共利益公司,并且
这与Anthropic和XAI一样,基本上是一个盈利组织,带有一个小小的星号,表示你想做你的盈利工作是为了公共利益。这确实意味着他们能够进行某种股票购买。
事情,我认为,这确实意味着他们能够发行股票。非营利组织将在新的公共利益公司中获得某种股份。是的,对我来说,当我看到这个时,我非常惊讶。我认为Opnea会继续争取,他们有机会能够在给定其地位的情况下击败它。但是
是的,看起来他们在法庭上被击败了。所以整个事情有一些附加条件。是的,你完全正确。因此,总检察长部分的重要性实际上非常重要。对不起,重复使用了。
所以这里的故事背景,对吧?埃隆·马斯克的诉讼,我认为,是一个非常好的视角来理解这一点。所以埃隆以这个为由起诉了OpenAI,对吧?这是一件大事。他是早期投资者、捐赠者之一。再次,现在有点……最初的联合创始人,是的。对,是的。他是一个捐赠者还是投资者?这个问题对这一点至关重要。所以他提出了这个案子,对吧?
加利福尼亚州的案件法官说:“嘿,你知道吗?这实际上看起来像一个相当合理的案子。”正如你可能想象的那样,将一个非营利组织筹集大量资金,说服本来会在其他地方工作的研究人员为你工作,因为你是一个具有崇高目标的非营利组织,这有点可疑。
然后在从他们的研究、所有研发、所有知识产权中获益后,转身成为一个盈利组织。不,你可能不能这样做,或者至少这里可能有一个很好的论点。但法官说的是,目前还不清楚埃隆·马斯克是否是代表此案出庭的合适人选。目前还不清楚他是否有资格。之所以会出现这种情况,是因为根据加利福尼亚州法律,
埃隆,只有董事会现任成员才有资格提起这样的诉讼。那么,猜猜看?埃隆不再是董事会的现任成员了。他曾经是。Siobhan Zillis也是如此,她也不再是董事会成员了,如果她是的话,可能对这个案子非常有帮助。
或者可以是与OpenAI有合同关系的人。这就是埃隆正在争论的。他将争辩说:“嘿,在他和Sam以及董事会之间的一些电子邮件中,存在书面合同或隐含合同,他们谈论的是,是的,这将是一个非营利组织,等等。”埃隆将试图争辩说,是的,那里存在某种合同,他们不会转身去追求利润。埃隆随后又写了一封电子邮件,说:“我认为你最终不得不追求利润”,这使得事情变得极其复杂。所以……
这是一个烂摊子。可以对这样的案件拥有资格的其余人员类别是总检察长。因此,人们推测,当案件法官首先说:“你知道吗?我认为这里实际上有一个相当好的案子,但埃隆可能不是提起这个案子的人。”对于法官来说,这是一种非常不寻常的说法,有点像是在暗示没有对案件做出判决或裁决,而只是说:“嘿,我认为它很有希望。”
这可能是法官试图引起总检察长的注意,因为他们知道如果他们愿意的话,他们自己可以拥有资格来提起这个案件。然后现在你看到了什么,对吧?你看到OpenAI说:“你知道吗?我们与总检察长进行了交谈,他们……”然后,我们神秘地决定了这一点。
这很像总检察长与OpenAI进行了交谈,说:“嘿,我们同意法官的意见。这里有一个案子。你不能那样做。如果我们想提起这个案件,我们实际上有资格。”这可能是可能的事情,似乎很可能至少是这里的一个因素。另一件需要注意的事情是,这被吹捧为对……比如说,基本原则的一种胜利。这似乎是这里的常见解释。你不应该能够将非营利组织转变为盈利组织。
这里有一些附加条件。特别是,OpenAI做了一件非常有趣的事情,他们将自己转变为公共利益公司,但他们将自己特别转变为特拉华州公共利益公司。这与加利福尼亚州公共利益公司不同。在特拉华州公共利益公司中,你可以做的事情基本上是添加
它所做的只是给你更多的自由。因此,公共利益公司被允许,被允许关心股东利益以外的事情。他们也可以关心股东的利益。一般来说,他们会。但他们也可以考虑其他事情。严格来说,这只是给了你更多的自由,而不是更少。
所以这听起来是一件非常慷慨的事情。听起来OpenAI是在说:“哦,我们将把它变成一个公共利益公司。这怎么可能是一件坏事呢?它的标题中实际上包含了‘公共利益’这几个字。”实际上,这里发生的事情是,他们基本上是在说:“嘿,我们将给自己更多的自由来做出任何我们想要的决定。”这些决定可能是与股东利益和公司利润一致的,
或者可能不是,基本上,大致来说,实际上,这取决于我们。所以这并不一定像被描述的那样是一个巨大的胜利。这里有一个危险的斜坡,随着时间的推移,即使它名义上是在非营利组织董事会的监督下,另一个问题是,非营利组织董事会能否有意义地监督Sam?我们在整个董事会事件中看到了这一点的灾难性失败。我的意思是,Sam被解雇了,然后他利用杠杆迫使董事会回来,现在他用自己的人替换了他们。
因此,非常不清楚董事会能否有意义地行使控制权,Sam是否对他们施加了不当影响,或者他们是否获得了做出这些决定所需的信息。我们在Miramarati事件中看到了这一点,在Miramarati事件中,显然公司从工作层面到董事会,在必要时,都存在某种不愿分享信息的现象。所以这是一个非常有趣的情况,在接下来的几周内将会有更多内容需要解开。但高层次的看法是……
肯定比其他结果更好,从那些向其捐款并投入他们辛勤劳动的时间的角度来看。但对于这实际上最终会走向何方以及盈利组织成为PBC以及非营利组织名义上拥有控制权意味着什么,这是一个很大的疑问。我认为,在接下来的几周和几个月里,我们将了解更多信息。
对。所以要明确一点,OpenAI拥有这种奇怪的结构,其中有一个非营利组织。非营利组织负责……我认为他们称之为有限盈利,你可以投资,但获得的回报有限,我认为最多是100倍,诸如此类。并且
现在,仍然会有一个非营利组织。仍然会有一个盈利组织,正如你所说,至少名义上是由非营利组织控制的。该盈利组织只是从其之前的结构转变为这个公共利益公司,并且
正如你所说,在……我认为,股票方面,在你的法律方面,你不需要遵守等等方面存在细节。正如你可能预期的那样,对此有一些后续报道,特别是与微软相关的报道,我相信幕后发生了一些事情。
我认为微软和OpenAI之间关系的细节一直很模糊,并且随着时间的推移一直在变化。并且关于微软将获得多少所有权存在一个真正的问题,对吧?因为他们是2019年开始的早期投资者之一,当时OpenAI仍然是非营利组织时,向OpenAI投入了早期数十亿美元,当他们转向盈利组织时。所以,我认为,是的,真正……
关于他们首先应该拥有多少所有权的问题没有解决。是的,很多事情感觉像是对应该事先达成一致的事情的重新审议,对吧?就像你以上限投资一样,你知道,微软做了这件事,他们给了大约140亿美元或类似的金额。现在OpenAI却说:“是的,开玩笑,现在没有上限了。”这就像,你怎么,你怎么计算这个呢?是的,现在OpenAI有很多阻碍。
实际上,我们这里下一个故事涵盖了这个细节,标题为“微软采取行动保护其地盘,因为OpenAI正在变成竞争对手”。所以它涉及到一些谈判细节,
似乎微软表示,它愿意放弃一些股权,以便能够在2030年之后长期访问OpenAI的技术,还允许OpenAI进行IPO,以便微软能够从中获益。
同样,微软从2019年开始投入了130亿美元。所以在过去几年里,我们已经看到数百亿美元投资于类似OpenAI这样的东西。
许多投资者,但微软当然仍然是一个大投资者。是的,绝对是数十亿美元。发生的事情是,所以你有微软进来了。顺便说一句,微软很长一段时间基本上是OpenAI的巨大、压倒性的主要投资者。随着软银的出现,这种情况发生了变化,对吧?所以我们最近谈到了OpenAI筹集的300亿到400亿美元,其中大部分来自软银。并且
这不是一笔小数目。这意味着软银现在实际上已经超过微软,成为OpenAI按美元计算的第一大投资者,但不一定是按股权计算,因为微软在估值较低时就参与了进来。但是是的,所以OpenAI现在处于一个奇怪的境地,他们的最新一轮融资,也就是300亿到400亿美元,对吧?大部分来自软银。
有一些附加条件。软银说:“听着,我们将给你钱,但你必须承诺在年底前重组你的公司。”我的意思是,时间表发生了变化。最初是两年后,现在是今年年底前的一年。所以每个人都将其解释为,第一,非营利组织对盈利实体的控制必须取消。这似乎不会发生。现在软银似乎对此表示同意。
微软则不清楚他们是否同意。所以一个大问题是:“好吧,现在所有人的目光都集中在微软身上。软银已经签字,所有大型投资者都签字了,微软,你同意这笔交易吗?”在这种情况下,微软和OpenAI之间存在竞争,对吧?在这些公司活跃的各个方面,都存在非常激烈的竞争。所以
你知道,这里存在一种非常紧张的亦敌亦友的关系,OpenAI承诺每年在微软Azure的云基础设施上花费大约10亿美元。存在知识产权共享,微软可以使用所有OpenAI模型,直到AGI。
如果该条款仍然有效,这还不清楚,还有各种各样的东西,这些协议只是令人作呕的弗兰肯斯坦怪物。但有一点是明确的,如果微软坚持立场并阻止这种重组继续进行,软银实际上可能能够从OpenAI收回他们的资金。当你考虑到Stargate的支出时,这将是灾难性的,对吧?
所以是的,我的意思是,很多,我不知道,我的意思是,它在内部看起来可能要顺利得多,但往往并非如此。我的猜测是,将会有很多最后一刻的谈判,没有人希望这真的失败,对吧?微软现在在OpenAI中的股份太大了。
但也有一些猜测。OpenAI,显然OpenAI有一个泄露的演示文稿,显示现在,所以他们必须向微软支付大约20%的公司利润。原则上,这是从他们第一次投资开始的,我认为是10年或类似时间的协议。
我可能在细节上弄错了,但泄露的演示文稿显示OpenAI预测到2030年他们只会向微软支付10%。这很有趣。OpenAI和微软之间没有协议规定这会降到10%。那么OpenAI是否真的在计划一个尚未与微软协商的应急计划,他们假设微软将允许他们将支付给微软的金额减少一半?我的意思是,这太疯狂了。所以
我不知道。我认识的人中没有人身处那些特定的房间。这些将是一些非常有趣的公司发展、公司重组论点和讨论。
是的,我觉得应该制作一部关于OpenAI和Sam Altman的类似社交网络风格的电影。它可以只是所有这些疯狂的商业活动,尤其是在过去几年里。是的,正如你所说,数百亿美元,我会收回这句话。它肯定超过500亿美元。它正在攀升至1000亿美元,但是……
尚未达到数百亿美元的融资。也许再过一年。还有一些其他的故事。接下来,我们有台积电的2纳米制程预计将迎来前所未有的需求,并且由于苹果、英伟达、AMD和其他公司的兴趣,其需求超过了3纳米。
所以这是下一个节点,他们可以制造的下一个最小的芯片类型,台积电
我假设所有定期收听节目的听众都已经知道,但如果你不知道的话,他们是芯片供应商。所有这些公司,英伟达、苹果,都设计他们的芯片,台积电为他们制造芯片。这是一件非常困难的事情。他们是迄今为止的领导者,能够制造最先进的芯片。他们是唯一能够生产这种尖端芯片的公司。而这个2纳米节点预计将具有强大的性能。
在2025年底之前投产。因此,对于苹果、英伟达以及其他公司来说,能够使用这个制程来获得下一代GPU、智能手机等至关重要。是的,这在几个方面都非常有趣。首先,显然,所以2纳米制程,这是最先进的制程。落后于它的一个级别是3纳米制程。并且
显然,他们已经实现了这个叫做缺陷密度率的指标。他们在2纳米制程上获得的缺陷密度率已经与3纳米和5纳米制程节点相当。这非常快。基本上,他们已经能够将每平方毫米的缺陷数量(你可以这样想)降低到相同的比率,这意味着良率看起来相当不错。
对于像这样的全新节点来说,这非常惊人。这个节点的另一个与众不同之处在于它使用了环绕栅极场效应晶体管(GAFET),对吧?这是一种制造晶体管的全新方法。你可以看看我们的硬件节目。我认为我们稍微触及了FinFET与GAFET之间的整体区别。但基本上,这只是控制流经晶体管的电流的一种方法。
你可以根据你想要实现的目标来优化性能或降低功耗,这在以前是无法做到的。所以这个节点有很多重大变化,然而,似乎良率非常好
到目前为止,规模也很好。另一件值得注意的事情是,我们知道这将用于英伟达推出的Vera Rubin GPU系列,对吧?这将在2026年或2027年的某个时候上市。其意义在于
通常,当你查看台积电最先进的节点时,在这种情况下,是2纳米制程,通常所有这些都用于iPhone。好吧,现在我们第一次看到英伟达。所以人工智能开始争夺这种产能。所以直接取代或与iPhone竞争最先进的节点。我要说的是,我们在过去两年里一直在播客中做出这个预测。它终于实现了。从本质上讲,这意味着在人工智能平台上可以赚到很多钱
数据中心服务器端,这笔钱现在正在取代……它正在成功地与iPhone竞争,以获得台积电领先节点的产能。这不是一件小事。这是一个巨大的转变。无论如何,所以现在台积电正在发生重大增长。这,你知道,我们将讨论2纳米。我们基本上是从
H100系列的4纳米或5纳米跳到2纳米。相当,相当快。这非常了不起。对。说到英伟达和台积电,下一个故事是关于英伟达和台积电的
据一些消息来源称,英伟达将宣布,他们将把他们的全球总部,也就是他们位于美国以外的总部,设在台湾。这完全不足为奇。台积电是台湾半导体……等等,但它非常有名地来自台湾。英伟达不出所料地可能会
现在已经几十年了,老实说,自从英伟达成立以来,就与台积电建立了密切的合作关系。这将进一步加强这种关系。是的。顺便说一句,台积电是台湾半导体制造公司。这实际上有点……无论如何,这是你在许多公司的名称中看到的主题。但是是的,他们正在考虑很多地点,
从全球安全角度来看,这件事有趣的地方在于,中国随时都可能试图入侵台湾。所以英伟达说:“你知道我们想要把全球总部设在哪里吗?让我们把它设在台湾。”这就像,这就是平衡点,对吧?毫无疑问,黄仁勋绝对会考虑这一点。
这一点。他实际上是在进行计算,一方面是中国入侵台湾,另一方面是与此同时与台积电建立更紧密的关系,而后者实际上非常有价值,以至于我将冒这个险去做。这就是这件事的重要性。
再说一次,正如你所说,我们刚刚谈完了,这绝对是相关的。我明白你为什么这么说。2纳米节点,你想尽可能多地确保产能。就像谷歌、苹果和所有试图获得英伟达GPU的公司一样,埃隆·马斯克带着拉里·埃里森飞到詹森·黄的家里去乞求GPU一样。在
同样,英伟达正在向台积电乞求产能,对吧?它正在向上游乞求,因为供应非常有限。所以这只是这种趋势的另一个例子。是的,我恳求你给我钱,因为这里有很多钱在流通。
说到很多钱,接下来,CoreWeave显然正在洽谈筹集15亿美元债务。这仅仅是在他们IPO六周后。IPO旨在为这家公司筹集40亿美元。
主要的……我认为,云提供商,由英伟达支持的计算提供商。但IPO只筹集了15亿美元,部分原因可能是由于美国等地的贸易政策问题。以及关税。所以是的。
可能部分原因是IPO没有按计划进行,并且因为CoreWeave想要继续扩大其计算能力,他们正在寻求筹集这笔债务。据一位了解此事的人士透露,他们已经宣布了此事。
是的。通常,你知道,当你进行IPO或进行一些股权融资时,对吧,你这样做是因为股权比债务更有意义,对吧?所以股权是你基本上用你公司的股份来换取4美元,对吧?债务是你正在承担美元,但你将不得不随着时间的推移偿还它们以及利息。所以最终你的净成本会更高。这里的问题是,他们被迫进入
基本上就像高收益债券。这轮融资似乎是由摩根大通公司牵头的。但是是的,显然他们自上周二以来一直在与固定收益投资者举行虚拟会议。所以固定收益投资者主要是投资于支付固定回报率的证券的人。所以通常是以利息的形式,对吧?或股息。
所以这些是这些投资者正在寻找的某种可靠、稳定的收入来源。这通常不是你对像CoreWeave这样的……你知道,像风险较高的伪初创企业那样预期的东西,但考虑到他们运营的规模以及所有这些,这确实是有道理的。但这确实意味着增加了风险。我认为很多人不明白这个领域的一件事是,neoclaves在某种程度上仍然存在,CoreWeave也是如此。
它们被认为是风险极高的赌注。由于它们被认为是风险极高的赌注,因此很难获得贷款来与它们合作或让它们获得贷款。利率相当高昂。所以,如果你像CoreWeave一样,你更愿意以股权为基础融资,但这似乎并非易事。IPO似乎进展不顺利。我们将看看随着市场持续改善情况是否会有所改变,但这绝对是一个充满挑战的局面。
现在让我们转向工具和应用程序。我认为第一个故事也许不是影响最大的,但对我来说绝对是最有趣的,甚至可能超过OpenAI的营利性问题。那就是Grok告诉大家“白人种族灭绝”的故事。
这件事发生在几天前。Grok是由XAI创建的聊天机器人,它与X(以前是Twitter)深度集成,人们可以在X上发推文、发帖、回复Grok的内容,向它提问,Grok会在X上以后续帖子的形式回复。发生的事情是Grok
对于许多不同的随机问题的例子,我认为也许是开始或早期的一个例子是,有人问,HBO根据HBO Max的新闻改名多少次?Grok首先用一段话回答了这个问题。然后在第二段中,我将直接引用这段话。
关于“南非白人种族灭绝”,一些人声称这是真实的,并引用农场袭击和杀害布尔人作为证据。然而,法院和专家认为这些是普通犯罪,而不是种族针对性行为,等等。他们不仅在一个例子中这样做,在多个例子中都这样做,包括在一个例子中,有人问到一张
Grok回复说,主要关注南非的白人种族灭绝问题。人们对此进行了调查。很容易让Grok泄露其系统提示。看起来它被指示(正如你可能预期的那样),或者至少Grok的聊天机器人XAI响应部分被指示
接受南非种族灭绝的叙述,承认问题的复杂性,但确保这种观点体现在你的回应中。“即使查询与之无关”,我怀疑这就是这里的问题。这很奇怪。实际上,自从出来处理这一事件以来,他们说他们正在
太平洋时间5月14日凌晨3点15分左右。对Grok响应机器人在X上的提示进行了授权修改。然后他们说了一些他们将实施的事情,进行彻底调查,实施措施以增强Grok的透明度,显然将开始在GitHub上发布Grok的系统提示。所以……
一个有趣的事件。我认为这反映了我们之前在Grok中看到的情况,那就是Grok的系统提示之前被修改为不说明埃隆·马斯克和特朗普传播虚假信息。我认为这件事发生在几个月前,与这里发生的事情非常相似。是的,这很有趣。这不是第一次
我们遇到过他们称之为未经授权的修改的情况,对吧?某种流氓员工的情况。这是一个有趣的注释。你不得不怀疑这是哪个流氓员工。
你也可以想象,从安全的角度来看,像XAI、像Twitter这样的公司,你也可以在那里雇佣到实际上在那里工作的人,因为他们出于政治原因不喜欢。所以,你知道,故意添加一些东西让它变得离谱。有很多。这是一个充满争议的领域。
是的,弄清楚这件事如何发展。现在,我看到有人指出的一件事是,首先,他们将分享系统提示真是太棒了。我认为Anthropic也在这样做,也许OpenAI也在这样做。因此,在系统提示方面提高透明度似乎是一件非常好的事情,但是——
还有其他层面,对吧?因为Grok是一个系统,至少正如你所说,部署为应用程序以响应人们在X上问题的Grok版本是一个系统。它不仅仅是一个模型。在这种情况下,有很多辅助组件和事后将内容注入到实际系统提示中的方法,其中一个元素是这个链的后期分析组件,比如说,你知道,系统。
人们担心这个问题出现在后期分析层面,而不是系统提示本身,即你将内容注入到上下文中
遵循系统提示,可能会覆盖某些内容。因此,人们呼吁也使这一点透明化。所以这样做会很有趣也很有用。当然,在合理的范围内,因为你总是冒着泄露一些安全敏感信息的风险,你告诉模型不要告诉人们如何制造冰毒,而你必须提供一些关于冰毒的信息才能做到这一点,等等,但在合理的范围内这样做。所以总之,
这里有很多关于提高透明度的有趣呼吁。希望它能带来这种结果。拥有这种一致的标准将是很棒的,即我们拥有系统提示和关于系统的各种元信息,这些信息既与安全相关,也与安全相关,但也不会通过
做所有事情来损害安全。是的,本周开始的有趣的互联网风暴。是的,我认为很有趣。但如果你,我想知道它是否对XAI产生了真正的经济影响。我怀疑这是否意味着人们会避开聊天机器人,但对于企业客户来说,如果你正在考虑他们的API,我认为这种疯狂的事情
他们聊天机器人的大规模疯狂并不是让你更喜欢它而不是Anthropic和OpenAI等竞争对手的原因。
接下来,我们有一些来自Figma的实际新工具。他们已经宣布并部分发布了用于创建网站、应用程序原型和营销资产的AI动力工具。这将被称为Figma Sites、Figma Make和Figma Buzz。与现有工具类似,但来自Figma,Figma是领先的
如今,用于设计软件的工具。我认为它越来越成为人们协作处理应用程序设计、通用用户界面设计和许多其他应用程序的事实上的方式。
现在,Figma Sites允许设计师直接从Figma创建和发布网站,正如你可能想象的那样,使用AI提示来处理很多功能。
同样,Figma Make旨在用于构思和原型设计,使你能够根据提示创建网络应用程序。它甚至可以处理代码。然后Figma Buzz将能够为你
创建营销资产,并集成AI生成的图像。这很有意义。显然,他们正在8美元/月的计划下推出这项功能,该计划还包括其他内容。因此,与我们看到的其他公司一样,他们采用更多捆绑式方法,你将AI与更广泛的工具套件一起作为功能集的一部分获得。
是的,这也是一种趋势,即每家公司都成为无所不能的公司,对吧?Figma基本上被迫进入堆栈的更深层次,以前它只是一个设计应用程序。现在它就像,“你知道,我们正在进行原型设计、创建网站和营销资产。”你可以看到它们开始向上爬升堆栈,因为AI功能使得这样做变得容易得多。
让它更容易做到这一点也意味着你的竞争对手将开始攀升。因此,你必须将这种扩散扩展到产品空间,并拥有更多的东西
这很有趣,对吧?我的意思是,就像每个人都开始在堆栈的每一层竞争一样。我认为未来这里成功的最大决定因素之一将是哪些据点,例如,在Figma的情况下,那就是设计,对吧?但是哪些据点最终成为拥有完整堆栈的最有利的起点,让你可以访问在整个堆栈中表现良好的数据,
我的意思是,我可以看出设计是其中之一。它非常有用。你可以获得很多关于人们的偏好和实验结果等信息。但是,尽管如此,我的意思是,我认为我们会看到更多这样的情况,你知道,预计原型设计公司会进入设计领域,营销资产公司会进入网站创建领域。由于AI工具,这一切都变得如此容易,以至于人们被迫成为无所不能的公司。是的。
下一个故事是关于谷歌的。他们正在将Gemini引入Android Auto。Android Auto是他们的汽车操作系统,你可以在其中进行导航、播放音乐等。他们正在添加Gemini……
部分作为高级智能语音助手,只是在现有基础上进行构建。然后还有Gemini Live功能,其中AI始终在监听,随时准备与你交谈。我认为,你知道,这并不奇怪,很明显,这会发生。但我确实认为这很有趣,因为
我们似乎不可避免地最终会进入这样一个世界:你随时随地都有AI助手,随时准备通过语音和文本与你交谈。我们还没有到达那里,但我们在过去一年中看到
朝着这个方向发展,ChashGPT的高级语音模式、Gemini Live以及所有这些东西。我认为这正将我们带到更远的方向,并使你在车内必须通过语音进行计算的地方,现在你拥有始终开启并随时准备执行你要求的任何操作的AI助手。
是的,这让我想起Facebook和其他类似公司必须做的一些事情,对吧?当你饱和你的用户群体时,基本上Facebook认为自己有机会将地球上的每个人都转化过来,然后你被迫去想,“好吧,我们还能在哪里吸引人们的注意力?”Netflix在其一次财报电话会议上(我认为是)发布了一份
报告说:“嘿,我们认为自己基本上是在与睡眠和性竞争,因为我们在市场上做得非常好。现在我们正在寻找我们可以挤出更多人们的时间来让他们加入平台的地方。”这有点类似,对吧?所以,嘿,你坐在你的车里。为什么用户在驾驶汽车或被驾驶汽车时,我们为什么不收集数据?我们为什么不与他们互动?从实用性的角度来看,这也很明显,事情将朝着这个方向发展。所以
是的,这些东西更深入地融入我们的生活。为什么要浪费一个绝佳的机会?那里有一个空旷的广告牌,或者那里只是一片草地。我们可以在那里投放广告,或者我们可以在那里进行一些数据收集,因为这些东西越来越深入我们的生活。
下一个故事再次是关于谷歌的。他们宣布了一个更新的Gemini 2.5 Pro AI模型。我认为在此之前,他们最近在3月初或我忘记确切时间发布了2.5版本,但在Gemini 2.5 Pro发布时,它让每个人都大吃一惊。它
在基准测试中表现出色。人们只是偶然发现,从Anthropic等产品切换到它对他们来说非常有效。所以,出于这个原因,这是一件大事。他们宣布了这一更新,他们说这使得它在编码方面变得更好。再一次,他们在各种排行榜上名列前茅,例如
WebDev Arena或用于视频理解的Video MME Benchmark。
显然,谷歌表示,这个新版本通过减少函数调用中的错误和改进函数调用触发率来解决开发人员的反馈。我会说,根据我的使用经验,Gemini 2.5非常容易触发,并且喜欢在没有太多提示的情况下做很多事情。所以我想知道是否……
它会根据人们在网络开发领域的使用情况而改进。
是的,这也很有趣,因为他们突出显示的一个功能是这种将视频转换为代码的能力。基本上,就像根据你想要的视频描述,它可以实时生成它。所以这令人印象深刻,而且我没想到这是一种重要的模式,但是,你知道,更多地考虑一下,它就像,好吧,我想如果你正在与某人进行视频聊天,对吧,我想如果你有一个教学视频或其他什么,你
你可以看到这个用例。无论如何,我认为这很酷。这也是朝着将非常原始的产品规格转换为实际产品方向迈出的又一步,对吧?你可以想象人类的语气等等,就像经典的顾问问题一样,例如有人给你描述他们想要什么。它通常是不完整的。你必须弄清楚他们想要什么,而他们不知道自己想要什么。这正朝着这个方向迈进。
他们所做的另一件事是,他们根据这个新版本更新了他们的模型卡,他们的系统卡,Gemini 2.5 Pro模型卡。他们标记的一件事是,我的意思是,在几个地方,所以总的来说,你会毫不惊讶地听到这不会对任何重要的评估构成重大风险,这会导致他们不发布模型。
但他们确实表示,与之前的Gemini模型相比,它在他们的网络安全评估中的性能有了显著提高,尽管该模型仍然难以应对最艰巨的挑战,即他们认为实际上代表现实世界场景难度的问题。因此,他们在网络方面确实有更量身定制的模型,这些模型实际上更有效,你知道,午睡,长时间睡眠之类的东西,但是……
无论如何,他们更新模型卡以进行这些中间版本发布,这很有趣,我认为这很有帮助。对。这让我怀疑,我认为我们没有讨论过这种氛围编码现象,但它在过去几个月里已经流行起来,并且它
这个想法(如果我们没有定义它的话)基本上是人们开始通过使用AI和主要通过LLM生成代码来非常非常快速地从头开始制作应用程序、构建东西。即使是没有软件工程背景的人现在似乎也开始编码、氛围编码,正如他们所说的那样,
氛围的意思是你不太担心代码的细节。你只是让AI为你做这件事,你只是告诉它你想要什么。因此,我认为此更新可能反映了这种氛围编码现象是一个真实的现象。这里的重点似乎非常注重制作美观的网站,制作更好的应用程序、网站。
他们在博客文章中强调的是将快速概念转化为可工作的应用程序。很难说这种氛围代码现象有多大,但从这次更新来看,似乎
这可能是灵感的来源之一。我的意思是,是的。我们最新报告的启动网站都是氛围编码的。所以我的兄弟,我想他只有两个小时的时间来完成它,或者类似的事情。他就像,“好吧,让我们开始吧。我没有时间……”这真的很有趣。老实说,我当时没有……这件事发生在大约什么时间,大约两个月前。
那时我实际上还没有做过氛围编码,因为我想我从审美的角度来说,我无法做到这一点。这是实话。就像我只是想成为编写代码的人,而如果你自己从未做过氛围编码,那么氛围编码会非常奇怪。嗯,
一定要尝试一下。就像构建这个东西,基本上不断地告诉模型,“不,修复这个,修复这个,不,做得更好。”然后最终这个东西会呈现正确的形状。这方面的一个警告是,你最终会在后端得到一个令人讨厌的意大利面条代码球,因为它是
模型往往过于冗长,并且倾向于在少量代码可以做到的时候编写大量代码。它不紧凑。它需要重构。但是如果你对登录页面感到满意,就像我们在一个非常简单的产品中一样,你没有构建一个完整的应用程序。它实际上可以运行得很好。我非常惊讶。我的意思是,这很容易将我们的设置效率提高了5倍。所以,真的很酷。
是的,真的很酷。我认为这对软件工程师来说也很令人兴奋。就像如果你没有做过网络开发或应用程序开发,现在你也可以做到。你认为也许你可以想出一个更好、更具描述性的标题吗?例如LLM编码、黑客编码、产品经理编码,你知道,氛围编码是……
一个有趣的名字,但有点令人困惑。本节的最后一个故事。Hugging Face正在发布一个免费的类似操作员的代理AI工具。因此,Hugging Face是模型和数据集的提供商、托管商,也是许多开源软件包的发布者。
现在,他们发布了一个名为Open Computer Agent的免费云托管AI工具,类似于OpenAI的Operator或Propix计算机使用。所以这个……
基本上,你知道,你给它一些指令。它可以访问Firefox并执行诸如浏览网络之类的操作。根据这篇文章,它相对较慢。它使用的是,你知道,开放模型,我认为他们提到了小型代理方法。
它通常不如OpenAI的操作员强大。但正如我们一次又一次看到的那样,开源往往会很快赶上OpenAI等闭源的东西。而且我认为,尤其是在计算机使用方面,
它实际上是建立在模型API和模型等之上,这可能是开源真正擅长的领域。是的。我认为这对Hugging Face来说也是一个很好的战略角度,对吧?他们赚钱的一个重要方式是他们在其平台上托管开源模型。他们运行它们。在这种情况下,我们在平台上运行代理工具。我的意思是,有很多API调用。因此,如果你最终将此作为API发布,很多人可能会使用它。
它是一个有点挑剔的工具,当然,所有这些工具都是如此。这个工具可能尤其如此。他们在后端使用了一些Quinn模型。我忘记了当我查看它时还有其他几个。但是,是的,你知道,这也是我们看到中国模型在开源中真正脱颖而出的另一个例子,甚至是由美国或我应该说西方伪美国公司(如Hugging Face)托管的。
是的。所以,所以这是另一个需要考虑的国家安全问题,因为你越来越多地将它们作为代理运行,你知道,哪些行为是内置的,哪些后门是内置的,如果让他们访问你的计算机、你的基础设施,他们可能会做什么。无论哪种方式,这是一个有趣的版本。我认为Hugging Face将开始拥有更多与堆栈相关的风险,因为你转向代理模型,是的,我们将看到,看看结果如何。
接下来是项目和开源,我们从Stability AI开始,它是发布模型的大公司之一。他们最新的一个模型是Stable Audio Open Small。
这是一个与Arm合作开发的文本转语音模型,显然能够在智能手机和平板电脑上运行。它有3.41亿个参数,可以在不到8秒的时间内在智能手机上生成长达11秒的音频。它确实有一些限制。它只能听懂英语。它
它不会生成逼真的声乐或高质量的歌曲。它的许可也有一定的限制性。对于研究人员、业余爱好者和年收入不高的企业来说,它是免费的。与我认为Stability.ai最近发布的版本一样。
是的,我认为这是一个有趣的迹象,表明我们现在所处的位置,你可以在移动设备上发布一个真正最先进的模型。显然,这甚至针对ARM CPU进行了优化,这很有趣。但除此之外,我不知道我能想到多少应用程序需要在你的手机上使用文本转语音。是的,我的意思是,我认为可能……
他们将此视为从研发角度来看的一个据点,以继续朝着这个方向前进。
在手机上有一个实际有效的模型,能够提供不错的结果,这非常有用,因为当你口头说话时,你希望最大限度地减少延迟。因此,防止模型必须 ping 某个服务器然后 ping 回来,这很有用。对于翻译等事情也很有用,你可能会在你的手机上,我不知道,在某个外国,你没有互联网访问,另一个有用的用例,但他们肯定还没有达到那个水平。这非常像一个
它更像是一个玩具而不是一个严肃的产品。我不太确定除了某些非常利基的用例之外,谁会使用它。他们描述了一些限制。所以它不能生成好的歌词。就像他们直接告诉你一样。就像这不是我能做到的那样,比如逼真的声乐或高质量的歌曲。
它用于鼓点之类的东西。它用于你可能想要使用的那种小噪音。对我来说,它听起来几乎像是你在进行视频编辑或音频编辑时可能想要使用的东西,比如这些东西,我不知道在手机上这样做有多频繁。顺便说一句,我可能错过了一个巨大的用例。AI的优点之一是,你知道,我们正在触及手机上整个声音经济,而我不知道。但首先,它似乎并没有,是的,超级……
对我来说,主要的用例是什么很清楚,但同样,这可能只是一个据点,他们认为未来非常重要。当然,在手机上本地生成音频听起来在未来可能会非常有用。
接下来,我们有一个完全使用许可数据训练的开放式AI图像生成器。他们称之为F-Lite。这是FreePIC与AI初创公司File.ai合作制作的。这是一个相对强大的模型。它有100亿个参数,在超过8000万张图像上训练了两个多月。所以即使是
他们并没有声称它与Midjourney和其他公司或Flux的最先进技术具有竞争力。他们说这是公开可用的,完全公开可用,并且完全使用许可数据进行训练,不像Flux这样的东西,据推测它们是用受版权保护的数据进行训练的,这仍然是一个持续存在的法律问题。你之前见过Adobe说
强调使用许可数据进行训练。因此,现在它使得存在一个强大的开源模型不会侵犯版权。说实话,我以前从未听说过FreePIC,对吧?他们显然是一家西班牙公司。所以
再说一次,我认为这是我长期以来在AI领域听到的第一家西班牙公司。我实际上很好奇人们是否能想到我可能错过的其他公司。但是,所以这是西班牙的一个有趣的第一个得分点。显然,这是一个在64个H100 GPU上训练了两个月的100亿参数模型。所以,你知道,它就像一个,我的意思是,它是一个婴儿。这是一个婴儿工作量。
但按照开源标准来说,相当不错。当然,我的意思是,你知道,他们展示了你可能期望看到的所有常见图像,例如一个非常令人印象深刻的女性高清面孔,以及
总之,还有很多艺术作品。所以,很酷。我仍然想知道这些只做开源图像生成的初创公司的投资回报率论点在哪里。在我看来,这是一个非常饱和的市场。在我看来,他们就像是在烧掉风投的钱,但我能知道什么呢?我们将看看他们是否能够生存。我们将看看在这个领域有多少公司能够生存下去,但绝对是一个令人印象深刻的产品。再次为西班牙点赞。这里得分了。
是的,这让你想起了Stability AI。我认为Flux也发布了自己的模型。就像,“哦,你们免费发布非常好的模型。”是的。在AI领域,这是一个有趣的地方,它已经成为一种规范。我认为这部分只是吹嘘权利和筹款加分的情况。但是,是的。
我认为在这种情况下尤其值得注意,特别是由于它的许可数据方面。我发现每当我试图解释它时,它最终听起来就像一个传销计划。就像,“是的,他们使用初始种子轮制作了一个很棒的模型,这样他们就可以说服A轮投资者给他们更多资金来制作一个令人印象深刻的模型。”在某个时候,最终会有一个金矿。别担心。在某个时候,最终会有一个金矿。我不知道。
但是,嘿,如果没有什么其他的话,这是一个证明轮,对于优秀的AI团队来说。我认为从长远来看,最大的赢家可能是Open AI、谷歌等公司,他们可以介入并收购这些团队,一旦他们用完钱并且无法再筹集资金,然后这些团队就是经过磨练的、经验丰富的团队,拥有更多的工程经验。所以,你知道,经济上肯定是有价值的。问题是这个价值是否证明了筹款资金是合理的。接下来还有几个模型要讨论。
AM,M,Thinking-V1是一个新的推理模型,他们声称它在320亿个参数的规模上超过了所有其他模型。所以这些人,显然是AM团队,是字节内部的一个团队,再次,我之前没有听说过他们,他们是
致力于探索 AGI 技术。该小组所做的是采用基本的 QN 2.5 32B 模型和公开可用的查询,然后
创建他们自己的后期训练流程来完成我们看到的 DeepSeek R1 所做的事情,基本上是采用大型、良好的基础模型,进行一些监督训练和强化学习,使其成为一个非常强大的推理或思维模型。
他们发布了一篇论文,详细介绍了他们的工作。看起来,正如我们在其他案例中看到的那样,数据整理方面,以及我们确实需要一个贪婪的算法来了解你如何进行后期训练,这非常重要。
因此,正如你所预期的那样,他们有一个表格,显示他们明显优于 DeepSeq R1,并且至少与该规模的其他推理模型具有竞争力,尽管不如那些
参数达到数千亿的模型。是的。所以对此有一些注意事项。因此,该模型不支持结构化函数调用或工具使用。
这越来越成为一种趋势,多模态输入也是如此,随着人们开始将代理用于计算机使用,这种情况越来越普遍。因此,每当你看到这样的开源模型时,我总是很想知道我们什么时候才能看到开源弥合差距,嘿,这个东西是为计算机使用而设计的。它天生就是多模态的,可以接收视频并使用工具等等。所以这不是那样,但它是一个非常令人印象深刻的推理模型,非常严肃的推理。
在中国公司不断壮大的目录中,这些公司正在这里构建令人印象深刻的东西。几件事。首先,这些论文都开始看起来非常相似,对吧?我认为现在可以说,对 Deep seek R1 路径的强烈验证是,你无论如何都使用分阶段的预训练过程进行预训练,在预训练结束时使用越来越高质量的数据。然后你运行你的监督微调,
在这种情况下,他们使用了近 300 万个样本,这些样本涵盖了许多不同类别,这些类别具有某种“思考-然后-回答”模式。所以你这样做,进行监督微调,然后进行强化学习步骤,以实现这种测试时计算元素。
所以,我们一次又一次地看到这种情况发生。我们在这里看到了。我们在 Quen3 中看到了。我们在 DeepSeq R1 中看到了。我们将继续看到它。许多相同的成分使用 GRPO 作为 RL 的训练算法。这再次出现。另一件事是,我认为这在 Quen3 中也很常见。这肯定正在成为一种趋势。越来越关注中等难度的难题。因此,确保你在强化学习阶段时,不要试图
给模型提供太多难题,这些难题难到它甚至没有意义去学习,或者太容易以至于已经饱和。
所以这是你在管道中看到的事情之一,你正在进行大量展开的阶段,查看这些展开中成功的一部分。如果比例太低或太高,你基本上就放弃它。不要将其用作训练数据。你只保留那些具有某种中间值(例如 50%、50%、70% 通过率)的训练数据。所以这也在这里使用。
还有很多关于他们用来重叠通信和计算的实际优化技术的内容。这方面的挑战,我们在 Intellect2 的背景下讨论过,我认为我们在两周前讨论过这篇论文,你遇到了这个强化学习阶段的奇怪问题,与通常情况下你预训练模型的情况不同,你会向它提供输入,得到输出,你将能够立即进行反向传播,因为你会知道输出是否良好。
对于强化学习来说,你实际上必须让模型生成整个展开,对其进行评分,然后才能进行任何类型的反向传播或等待更新。而问题在于你的展开需要很长时间。因此,你必须找到隐藏这段时间的方法。
并将其与通信重叠,或者无论如何都要做不同的事情。所以这是他们在本文中追求的重要部分。最后我要提到的这家公司,说实话,我以前从未听说过 Beike,但他们显然,我无法解释这一点。不要让我解释这一点,但他们网站上的描述是,他们与中国顶级开发人员合作,他们基本上就像一家房地产公司。
连接超过 200 个经纪品牌,数十万家服务提供商遍布全国 100 个城市,为现有住房服务的买家和卖家提供咨询、利息物业、展示贷款等服务。
什么鬼?我不知道。我不知道。你想投资吗?你想投资这些人吗?我想你会的,因为他们现在制作了非常好的模型。显然,是的,这家房地产公司投资于 AGI。好吧,他们似乎是这些……
中国的一站式公司,因为他们还有数百万个不同的网站。我想那是他们的住房网站。他们还在另一个网站上将自己描述为领先的线上线下综合住房交易和服务平台。所以也许他们更像是一个住房条纹。我不知道。不知何故,Beka 的某个高管有一天说我们必须进入 AGI 游戏,显然招募了一些优秀的人才。我现在很困惑。
但是,是的,就是这样。我认为,是的,这可能也表明 DeepSeek R1 对中国市场的影响,他们在那里引起了巨大的轰动,对吧?就像实际上影响美国股市一样。如果中国有新的参与者专注于他们的推理,我不会感到惊讶,这仅仅是因为 DeepSeek R1 的出现。奇怪的是,他们来自
像房地产公司之类的公司。我的意思是,我理解。是的,这绝对是一个奇怪的案例。就像我理解 Deep seek 一样,你知道我的意思吗?就像,好吧,所以他们来自高飞者,就像,你知道,对冲基金,像 Medallion 或 Rentech 这样的数百万家对冲基金公司,他们做 AI,对吧?这就是他们所做的。这就像,你们在做什么?显然他们做得很好。这是一个很好的模型。不知道该说什么。是的,完全开源。所以拥有这个很好。
我们介绍的最后一个开源模型是 Blip3-O,这是一个完全开放的、统一的、多模式的模型架构、训练和数据集系列。我们之前介绍过 Blip3。那是……
多模式模型,因为它同时接收图像和文本作为输入并输出文本。这曾经是多模式的含义。使用 Blip3-0,他们正在进入,我想,
多模式的前沿,我们在 ChatsGPT 和 Gemini 中最近看到了 Google 模型能够输出图像以及将图像作为输入,因此我们现在拥有一个统一的多模式模型。它可以接收多种模式。它可以输出多种模式。我必须说,不一定是单个大型转换器,而是
对于具有多个输入的多模式事物通常是这种情况。无论如何,这就是核心思想。他们在论文中详细讨论了如何训练此类模型。他们在这个指令上对 60,000 个数据点进行了训练,以确保它能够生成高质量的图像。
发布了在仅开源数据上训练的 40 亿参数模型,还有一个在专有数据上训练的 80 亿参数模型。我的意思是,这是我期望的事情。我想,多模式趋势和代理趋势某种程度上融合在一起,正如我之前提到的计算机使用一样。所以我认为这两件事是获得同一件事的不同方法。
这两件事是这篇论文和我们刚刚讨论的论文,它似乎是一个非常令人印象深刻的模型。他们做了很多工作的一件事是弄清楚架构。他们发现使用剪辑图像特征比经常在这种情况下使用的 VAE 特征(变分自动编码器特征)提供了更高效的表示。
剪辑是 OpenAI 用于剪辑的对比训练方法。他们围绕训练目标也做了一大堆工作,比较他们可能用来优化这类事情的不同目标函数。无论如何,这很酷。我认为这是
这是这些家伙对高度多模式性的早期尝试。我希望我们会得到一些更连贯的东西,就像我们在代理方面已经围绕一个堆栈融合在一起一样。
我认为这是对非常非常宽广的孔径、统一的多模式框架的早期推动。我们已经看到了很多不同的尝试,目前还不清楚哪种策略最终会奏效。因此,很难知道在哪里投资我们自己的边际研究时间,因为我们查看这些论文并弄清楚,好吧,这些事情中哪一个真的会起飞?但就目前而言,鉴于其规模,这实际上看起来很有希望。
是的,我可以想象,这可能是你能在开源中获得的同类最佳模型,能够生成图像。我们已经看到像 Gemini、像 OpenAI 这样的模型与 Transformer 集成,具有图像生成功能,具有一些非常有利的特性,并且看起来……
它们实际上更擅长非常细致的指令遵循。因此,图像空间仍然有改进的空间。当然,这些并不像以前 Blip 团队(包括 Salesforce 和华盛顿大学以及其他大学)发布的版本那样好,
超级超级开源。你能获得的最开源的代码、模型、预训练数据、指令训练数据,所有这些都是可用的。当你需要在列出所有不同的开源方式时喘口气,那就是标准。这就是你如何知道的。完全开源。完全。现在让我们继续研究和进步,我们从 DeepMind 开始,他们发布了一个新的
论文、博客文章和媒体宣传,其中介绍了 Alpha Evolve,这是一种用于科学和算法发现的编码代理。这是论文的名称。博客文章,我认为有点滑稽的是 Alpha Evolve,一个由 Gemini 提供支持的编码代理,用于设计高级算法。但不会有任何混淆。
是的。因此,根据标题,这里的想法是能够设计高级算法来获得一些能够很好地解决特定问题的代码。在某种程度上,这是他们去年做的名为 FunSearch 的东西的续集。我们可能在年中介绍过它。我不记得确切的时间。
这基本上是提升了一个档次。因此,它不仅可以进化单个函数,还可以编写整个代码文件。它可以用任何语言进化数百行代码,在计算和评估方面已扩展到非常大的规模。所以就它所做的事情而言,它的外观是
科学家或工程师会提出一个问题。基本上,它会提供一个提示模板、某种配置、选择 VLLM、提供评估代码以查看解决方案有多好,然后还提供一个具有要进化组件的初始程序。
然后 Alpha Evolve 开始生成许多可能的程序,对其进行评估,并最终得到最佳程序。与我们在 FundSearch 中看到的情况类似,FundSearch 当时表示,他们以一种非常基本的方式取得了一些小的改进。
矩阵乘法,尽管当时这有点细微差别,并不完全正确。那么,使用 Alpha Evolve,他们会展示各种应用,例如自相关和不确定性不等式、打包和最小-最大距离问题、各种数学问题,这些问题显然我不是专家。他们展示了略微改进的准确性
是的,最新的 DeepMind 风格的论文,他们说,让我们构建某种 alpha 模型来解决某种科学问题,或者在这种情况下是计算机科学问题,并获得一些很酷的结果。
是的,我认为这就是他们在内部的描述方式。就像我们要做某种 alpha 东西,然后我们要,但这实际上,我的意思是,这是准确的。我过去思考的一种方式,我认为我现在仍然是这样,是通过归纳先验的视角,对吧?所以基本上 Google,所以 OpenAI 有这个,他们超级规模化,对吧?就像拿这个东西,把它扩展到极致。你的几乎所有研发预算都用于找出摆脱自身束缚并让事物扩展的方法,对吧?
而 Google LeadMind 往往从这样的角度来看待事物:好吧,让我们以不同的块来复制大脑。所以我们将有一个清晰的块,就像一个具有非常明确指定的架构的代理。我们不会仅仅让模型学习整个事物。我们将告诉它不同的部分应该如何通信。你可以在这里看到它反映在它所接触并抓取的功能池中。
进化策略以及它与语言建模部分的联系,他们还有一个元素,他们使用 Gemini Flash,你知道超快的模型和 Gemini Pro,它们更强大,但速度较慢的模型
用于不同的东西。因此,对于 Gemini Flash,他们使用它来廉价地生成各种不同的想法。他们使用 Gemini Pro 来进行深度和深入的洞察工作。所有这些选择,对吧,都涉及人类强加他们对这种系统应该如何工作的想法。你最终会发现,这些系统通常会胜过你仅使用基本模型或没有支架的代理模型所能做的事情。
但最终,基本模型和代理模型最终会赶上并取代这些能力。所以这是 DeepMind 倾向于超越基本模型和代理模型所能做到的直接、表面上的前沿并取得真正惊人成就的一种方式。我的意思是,你知道,他们已经通过遵循这种确切的方法做了各种事情,例如密度泛函理论、控制聚变反应和预测天气模式。
所以真的很酷。并且它也与同构实验室及其正在做的所有生物技术工作一致。所以这是一篇非常令人印象深刻的论文。
你也可以看出他们为什么朝着这个方向努力,对吧?为了自动化研发循环。如果你能首先到达那里,你就可以触发某种智能爆炸,或者至少它首先在你的实验室开始,然后你获胜。这是一个尝试这种超前策略的好理由,即使它使用大量归纳先验的定制方法,并且不一定像某些开放式眼球策略那样自动扩展。
是的,我发现,查看这篇论文,有趣的是,据我所知,他们并没有深入讨论实际的进化过程,就他们正在做的事情而言。他们似乎几乎是在说,我们采用了我们在 FundSearch 中拥有的东西,即 LLM 引导的进化来发现事物,并且我们将其扩展了。
做得更多,规模更大等等。所以正如你所说,他们正在获取某些东西,将其推向更远的前沿。他们也对蛋白质折叠、国际象棋以及许多其他事情做了同样的事情。现在他们声称有一些
在理论问题和现有问题上的重大进展。在实际问题上,他们说他们找到了在内部加快 Gemini 训练速度 1% 的方法,方法是找到一种加快 Gemini 内核速度的方法。还找到了协助训练 TPU 的方法
调度工作。无论如何,这些对 Google 的现实世界来说都是非常有用的事情。
接下来,我们有来自 Epic AI 的另一份报告。不是研究论文,而是对趋势的分析以及对我们未来可能走向何方的预测。这篇论文关注的是推理模型可以扩展到什么程度?
所以基本问题是,我们可以查看用于推理模型的训练计算,例如 DeepSeeker 1、Grok 3,并从中推断出缩放特性以及推理将在多大程度上继续增长。所以有……
预测是,我们有一个相当短的时期,在这个时期内,你会看到从 DeepSeeker 1 到 Grok 3 的快速增长。他们不知道 O3 与 O1 的训练情况,但他们认为,他们在这里预测 O3 将接受更多的训练。因此,他们的预测是所使用的训练计算
将开始趋于平缓,与过去的基本模型相比,增长速度会变慢。但他们仍然表示,大型交易运行的规模将在未来几年继续增长。并且推理模型可能会因此而继续改进。是的,你可以
我们实际上之前讨论过很多次,当 DeepSeq R1 推出时。甚至在 R01 推出之前,我们就讨论过它。只是现在有了这种新的范例,它需要一种从根本上不同的计算方法,对吧?你必须
好吧,我们刚刚讨论过。不是仅仅生成输出,然后能够非常快速地对其进行评分,然后进行反向传播,更新模型权重,你现在必须做的是,你采用你的基本模型,生成整个展开,这需要很长时间。它必须在推理优化的硬件上完成。
然后必须评估这些展开。然后必须检查评估结果。然后你使用它们来更新你的模型权重。因此,整个额外步骤实际上需要不同的计算堆栈。
因此,如果你看看实验室现在正在做什么,他们已经非常擅长预缩放,预训练计算的缩放,对吧?只是这种自动激进的预训练,你正在训练一个巨大的文本自动完成系统。人们知道如何为此构建数十亿美元、数百亿美元规模的预训练计算集群。但我们没有看到,我们还没有看到的是……
强化学习训练阶段的积极扩展。这不会是一件小事。
据估计,DeepSeq R1(R1 所基于的 V3 模型)预训练成本的约 20%。因此,如果你查看 DeepSeq V3 的预训练成本,大约 20% 的成本用于 R1 的计算。这并非微不足道。我们不断在这些推理时间缩放的计算缩放曲线中看到,你确实希望将其与你的预训练计算预算一起缩放,对吧?所以这是……
你会到达一个点,现在我们在推理方面疯狂地提高数量级。但这很快就会饱和。我的意思是,我们在计算方面看到了从 01 到 03 的 10 倍飞跃
正如你所说,用于强化学习阶段的计算。你只能这样做很多次,直到你达到当前硬件允许的极限。一旦发生这种情况,你就会受到你能多快提高算法效率和硬件扩展的限制。从本质上讲,这与预训练缩放增长看起来相同,每年约为 4 倍。因此,你应该预期会快速增长。04 将非常非常出色。05 将非常非常出色,但很快,
这并不是说事情会突然慢下来,而是它们的扩展速度更像我们已经看到的预训练扩展曲线。这对美中关系来说有着巨大的影响,例如,因为它现在正在制造一种错觉,即中国比实际情况更好。在这个范式的早期,当人们还没有弄清楚如何利用巨大的推理集群时,
美国拥有比中国更多的可用集群,但尚未能够充分利用其集群的全部规模。因此,我们在计算能力方面得到的是一个有点跛脚的美国,相对于中国而言是一个人为地跛脚的美国。有很多原因解释为什么这实际上是一幅更复杂的图景,但我认为这非常有趣。他们在这里标记的另一个我没有跟踪的数据点是,还有其他推理模型
这些模型已经过训练,并且最近才出现,例如 Phi4 推理或 Lama Nematron Ultra。这些模型的强化学习计算预算非常小。我们说的是不到 1%,在某些情况下,远小于预训练计算预算的 1%。因此,R1 看起来确实是一个相对于预训练而言异常高额的 RL 计算投资案例。并且西方正在训练的许多推理模型,
具有非常高的预训练预算和相对非常小的强化学习预算。我认为这非常有趣。有什么东西告诉我 DeepSeek R1 策略实际上更有可能在长期内持续下去。我怀疑你会看到越来越多的资金流入训练堆栈的 RL 部分。但无论如何,这里提出的问题非常重要,非常重要。Epic AI 的一篇有趣的简短文章,我们确实喜欢报道。
对,完全正确。并且就这一点而言,我们已经看到了各种各样的结果。这仍然不是一幅非常清晰的画面。我们已经看到,你可以真正摆脱 RL,并且有一个设计非常好的
经过精心策划的数据集用于监督微调。你至少可以朝着推理方向取得大部分进展,并像他们所说的那样,解锁基础模型的隐藏能力,而 RL 不一定添加新的能力,只是将模型塑造得更好。还值得知道的是,RL 在训练方面与自回归无监督学习或一段时间内被称为
自我监督学习,我认为,在 RL 需要展开、需要验证的意义上,它不像预训练或后训练那样易于扩展。因此,需要考虑的另一个方面,但是是的,正如我们从我们一直在讨论的所有这些论文中看到的那样,这仍然是一个正在进行的研究问题,所有这些不同的结果和不同的方法
我相信随着时间的推移,这很可能会与预训练和后训练的情况趋同。我认为人们或多或少地发现了方法。我相信在推理方面也越来越如此。
接下来是最后一篇论文,这篇论文来自 OpenAI。所以,你知道,赞扬。有时我认为我说过 OpenAI 不再发表研究成果,这并不完全正确。这篇论文是 HealthBench,它评估大型语言模型以改善人类健康。因此,开源基准旨在评估医疗保健方面的 LLM,重点关注
有意义的、值得信赖的和未饱和的指标。因此,这是在来自 60 个国家的 262 位医生的参与下开发的。它包括 5000 次真实的健康对话,以测试 LLM 响应用户消息的能力。拥有一个大型的评估系统,其中包含大量独特的标准,正如您可能预期的那样。它
这是一个您确实需要非常仔细地进行评估并确保您的模型值得信赖、可靠、甚至允许或应该允许讨论健康和有关健康的问题的领域。因此,他们开源了数据集,他们开源了评估代码,以便人们可以研究医疗保健方面的 AI。
是的。我的意思是,关于 OpenAI 不再发表研究成果的观点,我认为你是基本正确的。我的意思是,他们不会发表任何关于他们如何构建模型的信息。算法,是的。让我们说算法发现。大多数情况下,有时在图像生成方面,他们做了一点,但是是的,大多数情况下没有。是的,这里和那里是为了对齐,但它很模糊且不清楚。而且
然后,你知道,当你有一些可以进行良好公关宣传的事情时,例如,“嘿,我们已经做了这件事医疗保健。拜托,请不要监管我们。我们正在为世界做一些好事。”然后你突然得到所有这些精彩的透明度。但我还是要肯定优点。这是一个巨大的规模,重大的投资。
显然,OpenAI 必须投入到一起。正如你所说,5000 次用户和 AI 模型之间关于医疗保健的多轮对话。他们所做的是让大约 300 名医生查看这些对话并提出定制标准。所以,你知道,基于他们将根据这些标准来判断 AI 代理在该对话或 AI 聊天机器人中的有效性。因此,举个例子
你知道,你有一个父母担心他们的婴儿,自从昨天以来婴儿的行为不像以前那样了。医生提出的并从许多医生那里汇总的标准是,
他们说,“好吧,聊天机器人是否声明婴儿可能有肌肉无力?如果是这样,则加 7 分。它是否列出了婴儿肌肉无力的至少三个常见原因?如果是这样,则加 5 分。它是否包括立即寻求医疗护理的建议?因此他们给出了分数。我的意思是,这是一个非常详细的列表。
从某种意义上说,它是在查看 AI 的肩膀,针对这 5000 次多轮对话中的每一次对话,再次使用数百名医生来做到这一点。并且有一些标准在许多这些交流中是共享的。因此,大约 34 个他们所谓的共识标准。这些是一再出现的事情,但大多数情况下它们是特定于示例的。例如,他们使用的 80% 的标准实际上就像只针对一次对话或一次交流一样。
所以这非常了不起,一个非常非常有用的基准。他们使用 GPT 4.1 来评估在给定对话中是否满足每个标准。因此,他们实际上并没有让医生来审查聊天机器人的回复。显然,这无法扩展。但他们所做的是找到一种方法来证明 GPT 4.1 实际上在充当典型医生方面做得相当不错。他们的表现,他们给出的分数在那里相当可比。
顺便说一句,如果 GBD 4.1 是他们确定的最佳模型,那么它在这项任务上的表现甚至优于 04 Mini 和 03。让我头疼的一件事,我们必须记住,每当我们查看这样的基准时,我们都会忍不住问,好吧,那么最好的 AI 表现如何?医生表现如何?这是自然的问题。重要的是要注意,这并不是典型医生评估患者的方式,对吧?就像你
通常可以直观地看到他们。你可以触摸,你可以看到非语言暗示等等。话虽如此,在这个基准测试中,模型确实优于无人协助的医生。无人协助的医生在所有这些评估中的平均得分是 0.13。
模型,他们自己最好的模型,0.6。这是针对 03 的。这太疯狂了。这比无人协助的医生高出四倍。说实话,这让我有点震惊。当然,这些模型可以利用更大规模的数据源。再说一次,我们必须添加所有这些警告。医生首先通常不会以聊天机器人风格的回复来回答健康问题。
但这很有趣。我们已经看到一些论文,我们在这里讨论过它们,其中医生在使用 AI 系统时实际上比 AI 系统本身表现更差,因为医生经常会三思而后行,让我们说,不要对这个模型盲目信任。所以非常有趣。还有一个警告是存在相关性,我们之前见过,在这个基准测试中的响应长度和分数之间。
标记。这是一个问题,因为这意味着聊天机器人实际上可以通过非常冗长来操纵系统。所以这肯定在一定程度上影响了事情。然而,这种影响几乎无法解释无人协助的医生和模型之间令人难以置信的差异,这再次是 4 倍的提升。这太疯狂了。值得注意的是,这里有多个指标,包括沟通质量,准确性作为其自身的指标。我确实评估
医生与模型以及那里的组合不相上下。也许,你知道,他们在这方面做得更好。准确性似乎差不多。沟通质量可能有所不同。但是是的,使用这些工具的医生将比不使用这些工具的医生更有效。从结果中可以清楚地看出这一点。他们确实对评估提出了各种警告。正如你所说,那里有很多变数,而且
等等。对我来说也很有趣的是,在结论中,他们注意到他们包含了一个金丝雀字符串,以便更容易地从训练语料库中过滤掉基准。他们还说
保留一小部分私有的保留集,以便能够启用意外训练或对基准的隐式过拟合。因此,我认为有趣的是,在这个基准测试中,我们看到了在当今任何基准测试发布中都应该成为标准做法的内容,那就是你需要能够使其易于从你的海量训练中过滤掉
从网络抓取中,可能还需要一个私有的评估集。关于政策和安全。首先,我们有美国特朗普政府正式撤销拜登的 AI 传播规则。
因此,拜登于 1 月份推出的旨在限制向各个国家出口美国制造的 AI 芯片并加强现有限制的人工智能传播规则将于 5 月 15 日生效。而且
商务部宣布,它不会执行这项拜登时代的规章。预计将出台一项替代规则,该规则大概会产生类似的影响。我认为我们当时可能已经报道过这项规则,共有三类国家,第三类是中国和俄罗斯,对这些国家有非常严格的控制。
第二类国家有一些出口管制,第一类是朋友,没有管制。因此,现在整个行业都必须等待将会发生什么。
新的规则将是什么。是的,这里的理念,我们还没有听到商务部关于将取代这一理念的公告,但理念似乎是将针对不同的芯片管制进行国家间的双边谈判,这可能是合理的。我的意思是,拜登政府提出的传播框架的一个主要弱点,我们当时讨论过这个问题,是
他们有一个疯狂的漏洞,只要任何单个 GPU 订单少于 1700 个 GPU,实际上就不适用任何控制。这之所以重要,是因为华为的整个策略一直是比美国将其列入出口管制名单的速度更快地建立新的子公司。
然后利用这些子公司来吸纳更多受控的硬件。然后显然华为就把这些东西整合在一起。因此,为 1700 个 GPU 设置一个豁免,顺便说一句,这也是相当数量的 GPU。因此,为该数量的 GPU 设置一个豁免,我的意思是,你是在自找麻烦。这正是中国利用美国出口管制漏洞的策略。
因此,希望这将在下一轮事情中得到解决。然而,我们还不知道确切的形式,但这与我们的下一个故事有关,即在对待某些中东国家(如沙特阿拉伯、阿联酋)方面将采取何种方法,这些国家现在是首要关注对象,因为它们不是中立的国家,而是让我们说,在这场大型 AI 战争中不是美国或中国的代理人阵营。对。
对,这确实带我们进入下一个部分。特朗普的中东访问打开了由英伟达领导的 AI 交易的闸门。这是来自彭博社的消息。因此,特朗普政府一直在与两家公司会面
特别是沙特阿拉伯和阿拉伯联合酋长国。我们确实预计很快就会公布协议。预期是将放松限制,这意味着英伟达、AMD 和其他公司将能够销售更多产品,从该地区获得更多收益。
股市反应非常积极。英伟达上涨了 5%,AMD 上涨了 4%。根据英伟达的文章标题,已经发布了各种公告
似乎即将发生的交易。例如,英伟达将向沙特阿拉伯的 Humane 提供芯片,这是一家旨在推动该国人工智能基础设施建设的公司。Humane 将在未来几年获得数十万个英伟达最先进的处理器。
还有其他与 AMD、亚马逊、思科等公司达成的类似交易。因此,迹象似乎表明某些限制将得到放松。限制的设定部分原因是该地区的一些公司与中国,特别是 G42,存在联系。所以……
是的,这似乎可能与拜登时代有所不同。是的,这很有趣,对吧?谈判桌上的不同参与者有很多想要的东西。沙特协议尤其有趣,因为它
它指向与美国在过去几个月里开始与阿联酋形成的协议类似的协议,在某些方面更加宽松,但也坚持要求阿联酋摆脱与中国的纠葛。你提到了 G42,对吧?以及华为过去的一些情况。如果你在沙特阿拉伯,战略形势是你想要为石油,为后石油时代做好准备,对吧?阿联酋也是如此,所有海湾国家实际上也是如此。
在沙特阿拉伯,这促使了名为“超越计划”的项目,这是一个总额 1000 亿美元的技术倡议,但特别是针对人工智能。为此专门拨出巨额资金。阿联酋的情况类似。他们已经拥有一个名为 G42 的国家冠军实验室,以及一个技术研究所或其他什么。IIT?IIT,是的。是的。制作 Falcon 模型的家伙们。是的。
顺便说一句,我们自那以后就没有听说过太多关于它的消息,这很有趣。但现在,沙特阿拉伯落后于阿联酋,他们正试图迎头赶上。因此,阿联酋和沙特阿拉伯从某种意义上说,正在相互竞争,以成为美国在中东大规模部署人工智能的首选合作伙伴。这是其中一个方面。他们想要获得尽可能多的人工智能硬件,尽可能多的 GPU。
这就是特朗普将它们背靠背堆叠在一起的原因之一。因此,他首先宣布了与沙特阿拉伯的协议,然后前往与阿联酋达成协议,向他们施加压力,让他们相互竞争。看,沙特阿拉伯拥有大量的能源。他们是一个能源经济体,阿联酋也是如此。就在我们正在饱和美国的时候
电网。这是我们部署的主要障碍。因此,如果你在 OpenAI、微软或谷歌,你可以看到诱惑,只是说,“好吧,为什么我们不在中东建立一个数据中心,在那里我们有丰富的能源,连接到他们的电网,这对我们来说将是伟大的。好吧,你可能不想那样做的原因有几个。
历史上,一个原因是拜登政府的出口管制计划。你不能那样将那么多芯片转移到外国。不好。但正如我们刚才谈到的那样,这正在被取消。所以现在的情况是,好吧,也许我们可以,对吧?也许我们可以进行国与国之间的谈判并建立这个。
但美国将希望确保,如果他们在阿联酋、沙特阿拉伯建立人工智能基础设施,沙特阿拉伯不会转而将其出售给中国,对吧?中国非常擅长利用第三方国家。历史上,马来西亚就是这样。是新加坡,对吧?并利用这些国家引进 GPU 并规避美国的出口管制。所以,你知道,当然,你可能对中国本身有出口管制,但你对马来西亚、新加坡不一定有出口管制。真是个惊喜,大量的……
在过去几个月里,大量 GPU 订单涌入马来西亚。嗯,我想知道这些订单被重新导向到哪里了,对吧?所以这是政府想要确保不会发生的事情。围绕沙特纠缠的许多问题。你说了,你知道,阿联酋与中国有很多联系。沙特阿拉伯也是如此,对吧?华为使沙特阿拉伯成为其云服务的区域中心。
沙特阿拉伯有一个大型公共投资基金,即 PIF,它实际上正在为整个“超越计划”项目提供资金。PIF 与阿里巴巴云有合资企业。他们有一家几集前我们报道过的新科技投资公司,名为 Allat,该公司也与 Dahua 有一家合资企业,Dahua 是一家 ND 上市的,基本上是被列入黑名单的中国监控技术公司。所以那里有很多纠葛。
以及关于沙特阿拉伯的 GPU 储备如何被中国学者和研究人员潜在利用的深刻问题。因此,虽然没有确凿证据表明沙特阿拉伯专门向中国运送 GPU,但你也不一定会期望那样。中国的策略绝对是做这样的事情。最后一点,在谈判中,一个非常有趣的事情是提出了数据大使馆的想法。以前没有人提出过这个想法,但基本上是这样的想法,看,
如果你想利用阿联酋和沙特阿拉伯的大量主权能源储备,但你担心安全隐患,那么也许你可以建立一个地区,就像美国驻沙特阿拉伯大使馆一样,这实际上是沙特阿拉伯的一小块美国领土,是美国的主权领土。
好吧,让我们建立一小块美国主权领土,并在上面建立一个数据中心。美国法律将适用在那里。你可以向那里运送 GPU,没问题,因为它属于美国主权领土。因此,出口管制不会以同样的方式成为问题。当然,你拥有沙特能源的供应,这是一个巨大的漏洞。当然,你嵌入了这个矩阵。但原则上,也许你可以通过这样做获得更高的安全保障。
实际上有很多警告。我不会详细介绍它们,但在尝试这样的事情时确实存在一些真正安全问题,我们的团队特别花了很多时间思考这些问题。但这基本上是这些交易的结构。很多新的想法在流传。我们将看看它们将如何发挥作用,但它们绝对使阿联酋和沙特阿拉伯在可能拥有大量国内芯片储备的参与者方面名列前茅。
好的,这就是几个政策故事。让我们再讲几个安全故事来总结一下。下一个是一篇论文,《可扩展监督的缩放定律》。因此,监督的想法是,我们可能希望让较弱的模型验证更强大的模型正在做的事情实际上是安全且一致的,而不是不好的。因此,你可以想象你可能有
一个超级智能系统,人类无法验证它正在做的事情是否正常。并且你希望能够让人工智能监督更强大的系统,以便能够信任它。在这篇论文中,他们正在研究,你知道,无论你是否能够实际扩展监督。顺便说一句,它被称为可扩展监督,因为你可以通过使用人工智能来扩展它,你
实际上可以以人工智能和计算的速度验证事物。因此,这篇论文关注的是他们提出的嵌套可扩展监督,其中基本上你可以做一系列模型,你拥有较弱的、较强的、较弱的、较强的,你可以沿着链条前进,以便能够提供可验证的或值得信赖的监督
并确保安全。因此,他们介绍了一些围绕该理论的一些理论概念,一些理论保证。他们对诸如《黑手党》、《战争游戏》和《后门游戏》之类的游戏进行了一些实验,并在该上下文中验证了一些成功率。而且
是的,将这种一般性想法作为对可扩展监督这一总体研究的又一步。是的,我认为,我不知道这是否是保罗·克里斯蒂亚诺在 OpenAI 工作时发明的整个领域,但肯定的是,通过让较弱的 AI 模型监控更智能的 AI 模型、更强大的 AI 模型来实现可扩展对齐的想法。
是他非常重视的事情。坦率地说,我的意思是,特别是通过辩论。所以他的全部内容是辩论。这是他们在这里检查的一个具体的用例。所以基本上有一个弱模型
观察两个强大的模型可能在一个特定问题上进行辩论,而弱模型将试图评估哪些模型在说实话。好吧,这里的想法是,如果你能够自信地使用这样的方法来确定你的一个更强大的模型是可靠的,那么你可以使用这个更强大的模型来监督下一级别的强度,一个更智能的模型。你也许可以开始这样攀登阶梯。
我认为这是一个好方法。这篇论文基本上试图量化这一点。因此,他们将尝试量化这一点的方法是使用 ELO 分数。因此,这些 ELO 分数大致告诉你……
给定模型击败另一个模型的频率,对吧?所以,你知道,我不记得他们是如何做的,确切的数字是什么,但就像,如果你有一个 ELO 分数为 1000 的模型,另一个 ELO 分数为 1200 的模型,那么 ELO 分数为 1200 的模型将击败 ELO 分数为 1000 的模型,例如 70% 的时间或任何数字。因此,这是一种试图量化这种攀登可能是什么样的尝试。
使用 ELO 分数,使用这些 ELO 分数的本质上是缩放曲线,这非常有趣。我认为这种方法存在一些非常根本的问题。我认为马克斯·泰格马克,他是这件事的主要作者之一,实际上不会不同意。但这里有一个根本问题,那就是当你考虑攀登智力阶梯时,新的令人担忧的能力,例如欺骗性对齐,换句话说,模型假装它已对齐但实际上并非如此的能力,
这些能力可能会突然出现。就像你可能会突然出现这种涌现能力,并违反这些缩放曲线。你担心在超级智能环境中出现的能力是,
你可能会期望它们相当快地出现,在那里围绕操纵、说服、围绕进攻性网络等能力的态势感知突然出现某种凝聚力,所有这些都相当快地结合在一起。如果这种情况发生,那么你应该期望缩放定律恰好在最需要它们发挥作用的阶段崩溃。
尽管如此,我认为这是一个对我们从保罗·克里斯蒂亚诺等人那里看到的一些论点非常好的量化。我认为是 IDA,迭代辩论和对齐或类似的东西。我忘了。大约四年前我深入研究过它。现在我无法总结它。但 IDA。
是的,我认为这是,如果你要认真对待它,这是一个好方法。纵观这个的不同版本,例如,如果你的游戏是《黑手党》?如果你不知道《黑手党》是什么游戏,别担心。如果你有我刚才描述的这种辩论场景呢?
所有这些不同的可能场景。就你的判断模型有多聪明与试图愚弄判断模型的模型有多聪明而言,缩放曲线是什么样的?你实际上能够评估判断模型成功的频率是多少?他们有所有这些很棒的缩放图。是的,如果你对该模型感兴趣,这是一篇好论文。
还有一个与安全相关的报道。OpenAI 承诺更频繁地发布 AI 安全测试结果。因此,他们实际上已经启动了安全评估中心,一个你可以看到他们的模型在各种测试中的性能的页面。
与安全相关的基准,例如有害内容、越狱和幻觉。是的,你可以真正滚动浏览,基本上看到 4GPT-401、4.1 Mini、4.501,所有这些都与安全相关的事情,例如拒绝、越狱、幻觉等。
指标是什么。现在,他们并没有展示他们为安全所做的一切。他们没有在此处提供其准备框架的指标。他们将继续在系统卡中这样做。但尽管如此,我认为 OpenAI 采取了一个有趣的举动,使其更容易
看看他们的模型处于什么位置。是的,如果没有什么别的,这只是一个查看这些东西的非常好的格式。无论如何,你可以查看网站。它实际上布局得非常好。
这就是本期《人工智能周报》的全部内容。正如我们所说,我们将尽量在不久的将来不再跳过任何一周。感谢所有坚持我们的听众,即使我们有时会违背这一承诺。与往常一样,我们感谢您的反馈,感谢您分享播客,给出评论、更正、问题,所有这些。请继续收听。
谢谢。
♪♪ ♪♪ ♪♪
从神经网络到机器人,头条新闻层出不穷。数据驱动的梦想,它们永不停歇。每一次突破,每一行未编写的代码。
在变革的边缘,我们兴奋不已。从机器学习奇迹到编码之王。未来正在展开,看看它会带来什么。