嘿,听众们,欢迎回到《No Priors》。本期节目是一个特别的里程碑,今天是我们的第100期节目。非常感谢你们每周都收听我和Elad的节目。过去几周人工智能领域发生了很多令人兴奋的事情,所以我们有很多话题要讨论。我们不妨从最近的新闻,或者说是过去一个月,DeepSeek开始吧。Elad,你对DeepSeek的总体评价如何?DeepSeek就是这样一件事情,它在某些方面非常重要,但在另一方面,它又是你从趋势角度来看会预期发生的事情。我认为人们对DeepSeek感兴趣主要有三个原因。首先,它是一个最先进的中国模型,在推理能力和其他方面似乎赶上了许多西方模型。
其次,有人声称它的训练成本非常低廉。我认为论文中提到大约花费了550万美元。最后,我认为存在一个更广泛的叙事,即谁是DeepSeek背后的真正力量,以及正在发生的事情,以及一些可能真实也可能不真实的谜团。当你仔细分析这三点时,我认为第一点,即具有最新功能的先进开源模型,他们确实做了一些非常好的工作。
阅读论文后,你会发现他们在强化学习方面采用了一些新颖的技术,我知道其他一些实验室也开始采用这些技术。我认为其他一些实验室也曾随着时间的推移提出了一些类似的东西,但我认为很明显他们做了一些真正的工作。在成本方面,至少我交谈过的所有对此有经验的人,都认为这种类型的模型的最终运行成本大致都在这个范围内。
大约500万到1000万美元左右。真正的问题是,在他们提炼出这个较小的模型之前,他们投入了多少工作。我的感觉是,每个人都认为他们在计算方面花费了数亿美元。因此,从这个角度来看,它并不是真正的新颖的。我认为英伟达股价下跌20%以及其他所有发生的事情,都是因为这个模型的传播而导致的,这有点不合理。然后是最后一个,即对正在发生的事情的猜测,它真的是一个对冲基金吗?是否还有其他事情发生?你知道的,
想法有点,嗯,推测性。有很多理由可以解释它正是他们所说的那样。然后也有一些情况,你可以更广泛地解释事情。这就是我对它的解读。我的意思是,你怎么看?是的,我认为这很有趣,反应有点延迟。
但正如你所说,这也符合预期,特别是考虑到GPT-335和ChatGPT的历史先例。所以,DeepSeq v3,就像在大量互联网数据上预训练的大型AI模型来预测下一个标记,这在12月份就发布了,对吧?英伟达的股票并没有因为这个消息而暴跌。
所以我认为认识到这一点很有趣,人们显然不只是想要以流式方式获得下一个单词的原始可能性。后训练工作以及使其更适合人类反馈或更具体的数据,例如高质量的提示和响应示例,就像我们在ChatGPT等聊天模型中看到的那样,指令微调模型。
这使得它成为一次突破性的体验,这确实很重要。然后,正如你所说,作为OpenAI的O1的并行模型,推理模型R1的发布,我认为这也是人们理解这一点的突破性时刻。嗯,这也是20年来中美科技主导地位的叙事,对吧?是的。我认为这也是一种围绕美国与中国叙事的炒作。
你知道的,西方遥遥领先。那么,他们会赶上吗?等等。而这表明中国模型可以很快达到这个水平。但我确实认为成本是一个巨大的因素。再说一次,我认为成本在某种程度上可能是被误报或误解了。我不确定这种规模的最终模型运行是否......
在这个价格范围内。但我认为你之前所说的,我完全同意。实验往往是多倍的。你需要有工具和数据工作,以及实验、预训练运行、数据生成成本、后训练和推理,对吧?我肯定漏掉了什么。似乎不太可能总共花费的金额不是600万美元的几倍。
但我认为这里也存在叙事偏差,即使是600万美元的几倍,它也不是一个数十亿美元的入门价格或Stargate规模的入门价格来参与竞争。我认为这确实震惊了市场。这是可以预期的,因为如果你看看今天训练GPT-4级别模型的成本与两年前相比,成本下降幅度巨大。
如果你看看例如GPT-4级别模型的推理成本,我的团队中有人计算出,在过去的18个月里,我们看到等效级别模型的每个标记的成本下降了180倍。180倍,不是180%,是180倍。因此,这些模型的成本下降已经相当明显了。这在训练等效模型方面是正确的。
这在推理方面也是正确的。因此,我再次认为这大致符合趋势,也许它稍微好一点,他们提出了一些先进的技术,你知道的,他们绝对做到了。但从其激进程度来看,我觉得有点夸大了。我确实认为他们所做的事情令人震惊,它也推动了美国的开源发展,我认为这将非常重要。
但我觉得人们需要真正关注已经发生的这些曲线的大局。你认为这是模型商品化的证据吗?在过去的18个月里,对于给定的能力水平,模型变得如此便宜?有一个非常棒的网站叫做artificialanalysis.ai,它实际上允许你查看各种模型以及它们在各种不同基准测试中的相对性能。运行这个网站的人实际上自己进行基准测试,他们会继续进行重新测试,而不仅仅是接受论文的表面价值。
你会看到,对于各种不同的领域,这些模型的性能越来越接近。推理和知识的不同方面,科学推理和知识、定量推理和数学、编码、多语言能力、相对于性能的每个标记的成本。他们会为你绘制所有这些图表。他们会根据提供商、最先进的模型向你展示事物如何比较?随着时间的推移,事物越来越接近,而不是随着时间的推移而更加分散。
所以我认为总的来说,趋势已经朝着这个方向发展,似乎很多人比18个月前更接近冷和海,我认为当时存在巨大的差异。显然,在某些领域,不同的模型仍然领先很多。
但平均而言,事情开始变得更加均衡。这可能会改变,对吧?也许有人会提出一个令人惊叹的突破性模型,他们会在一段时间内超越其他人。但看起来市场比仅仅一年前更接近了。你认为处于前沿的领导者的价值是什么?
我认为有三种或四种不同类型的价值。其中一种是占据市场份额。那么,你只是让更多的人使用你,然后他们会坚持下去,因为他们习惯了,或者他们已经为你的工作或其他工具优化了提示?我认为第二点是,如果你真的在使用模型来帮助改进下一个模型,那么拥有一个明显更好的模型就会有所不同。这可能是数据标记。这可能是人工数据生成。
这可能是后训练的其他方面。所以我认为,当你拥有一个非常好的模型来帮助你时,你可以开始做很多事情。这可能是编码和某种编码工具。这可能是各种各样的东西。你知道的,有些人认为,当你越来越接近某种起飞时,模型越先进,它就越快地引导到下一个模型,然后它就会为你加速,你就会保持领先。我
我不知道这是不是真的。我只是说这是有些人有时会推测的事情。你还能想到其他事情吗?不,我认为你提到的一件事,如果我扩展一下,那就是一种定价过低或市场尚未充分理解的理论,那就是如果你有一个足够高质量的基础模型来为下一代模型进行合成数据生成,那实际上是一个很大的均衡器。
对。如果你相信将继续有越来越强大的基础模型可用,那么这将大大均衡竞争环境,例如,拥有,你知道的,自我改进的模型。这是一个有趣的事情,人们还没有真正讨论过。从处于前沿中获得价值的方法有很多种。让我真正感兴趣的一件事是,DeepSeek移动应用程序在应用商店中成为顶级竞争者一段时间。我认为有一种观点认为
市场上最便宜、最强大的模型实际上对消费者很重要,他们可以分辨出来,这将推动消费者采用。这就是发生的事情。这就是为什么你需要拥有最先进的模型来创造这些新的体验。还有一种竞争性的观点,那就是,嗯,这场戏剧非常有趣,人们尝试它很大程度上是因为他们想看看领先的行业
中国AI模型是什么样的,如果它和OpenAI以及Anthropic一样好。我绝对相信,领先的能力可以带来吸引消费者注意力的新产品。但我认为在这种情况下,更多的是后者。过去一周发生的另外两件事是,在OpenAI方面,一个是他们发布了DeepResearch。说到真正有趣的发展和能力。然后第二,他们宣布了Stargate,
这是,你知道的,在白宫与特朗普一起宣布的一系列对人工智能基础设施的大规模投资。你对这两件事有什么看法?这两件事在某种程度上是重叠的,因为OpenAI确实在推进最先进技术的不同方面,就目前正在发生的事情而言。DeepResearch是一个非常酷的产品。
我鼓励大家尝试一下。对我来说,最重要的一点是,它立即提高了许多不同类型知识工作的标准,例如,我以前可能会雇佣一名中级实习生或分析师。我的意思是,我们这里不做这个,但是,一个人可以雇佣一名中级分析师或实习生,我将立即把他们的大部分工作与你使用DeepResearch可以做的事情进行比较,以及
以及DeepResearch让你做得更好的能力。而且比较很难。我想说这是一个非常有价值的产品。我希望其他人也会采用这种模式,但我认为这是一个真正新颖的创新。向团队致敬。我想说,至少在我看来,它在初次使用时更有用。我相信他们正在研究这个问题。在我不太了解的领域进行调查。
并确保我有一个全面的观点,并了解专家是谁,而不是在我感觉自己有很深造诣的领域。我不同意它隐含的权威排名及其确定网络上哪些想法好哪些不好的能力,当它进行搜索时。
至少从我最初的提示和在该领域的实验来看,我就像,哦,天哪,你真的需要审核这里的输出。它会引导你,但你不能认为这里的许多说法都是正确的。这是AI形式的默里·盖尔曼健忘症,这是写《侏罗纪公园》的人创造的。我不记得他的名字是发音为盖尔曼还是盖尔曼。默里·盖尔曼是一位物理学家,他提出了夸克和其他一些东西。他是一位诺贝尔奖获得者,被认为非常聪明。
它是由迈克尔·克莱顿以他的名字命名的,其基本思想是,如果你正在阅读《纽约时报》上关于你真正了解的事情的一页,你会觉得,哦,这太愚蠢了,他们怎么能写出这样的东西呢?我不相信。是的。然后你翻页,看看你什么都不了解的东西,你认为他们都做对了。你为什么要这样做?你知道的,你立刻忘记了他们把你所知道的一切都弄错了。他们为什么能把另一件事弄对呢?也许他们也把那件事弄错了。所以这是一个非常有趣的认知失调,围绕着
你知道的,这个东西到底知道什么或不知道什么?而且,你知道的,如果它在一个我理解的领域弄错了专业知识,这是否意味着它在我不懂的领域也弄错了?但当然,我们作为人从来不会这样做。我们只是假设,当然,它在我们不理解的领域是正确的,我认为这在心理学上非常有趣,但它也对人们在未来如何普遍使用人工智能具有实际意义,因为这些东西将成为许多人主要信息的主要来源,对吧?是的。
在某种意义上,它与一些搜索用例真正深度重叠。你拥有一个传统上来源不那么明显的工具。我知道人们正在研究不同的方法来呈现这些东西的主要来源,但它确实对你在现代使用人工智能时如何看待知识具有非常有趣的意义,尤其是在你使用代理然后去做事情并报告回来,而你甚至不知道他们做了什么的时候。
所以我认为这是一个非常有趣的话题。我不确定你如何从用户体验的角度解决这个问题,或者也许它在某种程度上是无法解决的,因为,你知道的,它也反映了网络上的知识是什么。从宣传和审查的角度来看,这确实感觉是一件非常危险的事情。所以......
社交网络是第一版,或者也许网络的某些方面是第一版,而社交网络是第二版。而这是一种大型版本,因为它融合了搜索。就像如果你将谷歌与推特、脸书以及你使用的所有其他东西,以及所有媒体输出或媒体机构,都整合到一个你进行询问的单一设备中,这就是这些AI的发展方向。
因此,控制这些东西的输出的能力极其强大,但也非常危险。所以,你知道的,这就是为什么我很高兴我们处于这个多AI世界、多公司世界,以此来抵消这种影响。这就是开源变得极其重要的原因,如果你担心公民自由的话。你对Stargate有什么看法?也许有
像Stargate中有一些隐含的问题,对吧?一个是,在竞争中,持续获得最大基础设施的访问权限有多重要?我将跳过关于它是否真实的问题,这里涉及很多资金。我认为另一个问题是,资本市场对继续资助这些事情的深度如何?也许最后一个问题是不同主权国家或准主权国家参与其中
例如,我对后两点没有强烈的意见。我思考资本重要性动态的方式,以及隐含的,我们是否会继续看到预训练规模成为一个主导因素,我认为这更像是确定性而不是风险。
对。如果你认为能力是涌现的,人们不确定什么样的算法效率会抵消,例如,你知道的,更大规模带来的改进以及你可以用来生成新数据以在其他向量上改进的事情以及我们将从测试时间缩放中获得什么。就像,我觉得很难预测。但我看不到任何试图构建AGI的场景,任何大型研究实验室都不想要AGI。
如果它是免费的,他们可以拥有的最大的集群,对吧?或者如果资金对他们来说是可用的。对我来说,这比其他任何事情都说明了更多问题,我们将会从预训练中获得更多。效率会一样高吗?就像,我认为不太可能。我们在这方面有点延迟,但鉴于这是第100期节目,我们会给自己一个免责通行证。2025年的预测。新年快乐。现在是二月,但我还是要祝新年快乐。这是
就像拉里·戴维的那一集。是的,基本上,对一年中你可以说新年快乐的时间有一个时限。我们现在已经一个月了。所以,当然,我们已经超过了那个时间。我们可能应该说情人节快乐,即使我们提前了两周。不,很多。你不喜欢什么氛围?2025年的氛围是你只需要做事情。你可以说新年快乐。新年快乐很多。是的。
是的,我要做任何我想做的事情。这将是惊人的。是的。关于2025年,我认为有一些事情很可能会发生。首先,基础模型市场应该至少部分整合。
这可能是在辅助领域。所以这是图像生成、视频、语音,你知道的,其他一些类似的领域。也许一些辅助LLM或基础模型也会整合。所以我认为我们将看到大量的整合,特别是如果联邦贸易委员会比之前的制度更友好一些。我们还将看到在物理学、生物学和材料科学等领域的一些扩展。所以我认为这将与基础模型的一般规模化一起发生。
这包括推理,也包括其他方面。这是一个大的领域。我认为第二个领域是我们将看到
垂直AI应用程序继续大规模工作。Harvey用于法律,Dacogon和Sierra用于客户成功,以及各种人员用于CodeGen,用于医疗抄写等等。所以我认为这将是垂直应用程序的时代。我认为其中一部分将开始向其中添加越来越多的代理功能。像Cognition这样的公司已经在这样做了。第三是自动驾驶将获得很多关注。显然,特斯拉和Waymo
我们开始看到在全尺寸驾驶、机器人出租车等方面非常有趣的采用。我认为Applied Intuition在汽车堆栈上总体上是一个值得关注的黑马。然后我想第四点是,我认为一些消费者产品将进行大规模实验,而这在以前从未发生过。所以我开始看到消费者创业公司。我开始看到来自老牌公司的更多消费者应用程序。就像,我实际上认为我们将看到消费者领域的一些复苏。这可能需要一段时间,但我认为这会发生。
然后最后,我认为有一些我们都知道会发生的事情,而且它们还处于早期阶段,但我们可能会开始看到围绕代理的一些有趣的行为,也许是一些早期的机器人技术,你知道的,但这将是那些事情中的一种,它更像是这种东西如何工作的一瞥,而不是整个东西。但我认为其中一些发展将非常令人兴奋。这些将是我对25年的五个预测。
你呢?你有什么?我们在许多不同的事情上达成一致。我认为代理的整体定义非常模糊。但如果我们只是将其视为在某种最终用户环境中成功完成多步骤任务并在超越生成内容方面采取行动,那么我们已经看到了这一点。我认为我们将看到更广泛的应用。
因为人们发现,你知道的,推理模型变得更好,产品公司或垂直整合公司,他们变得更擅长处理故障案例并智能地管理状态。我们已经在安全、支持和SRE中看到了这一点。我认为这将继续发生。
这已经在CodeGen中发生了,正如你所暗示的那样,但我认为做副驾驶产品的公司会自然地扩展到代理。他们只会尝试做更多的事情,对吧,并承担更多责任。我认为你所描述的更广泛的消费者实验的一个输入,就是更强大、更小、更低延迟的模型。是的。
我认为我们对边缘计算没有单调的移动。就像当人们说为了边缘计算而进行边缘计算时,我就像没有人关心。对。但如果你能让用户透明地使用它,而且它是免费的,那么我认为你发布免费产品的能力显然就解锁了。我认为这很酷。我只是认为也会有很多网络应用程序,你知道的,所以我认为它不一定是设备上的。是的。
消费者产品,毫无疑问,正如你所说,会有一些,但我只是认为它只会成为在互联网上运行的东西,它只会成为你浏览器上应用程序堆栈的一部分,随着时间的推移,它会做非常有趣的事情。是的,浏览器中的东西也可以使用GPU,但我只是认为能够在本地运行可能是它们的一个重大突破。我不知道你和我是否在时间线上存在分歧。我认为今年我们将看到机器人技术和泛化方面的技术突破的证据,尽管没有部署。我认为一个可能被低估的事情,因为它非常新,那就是人们并不真正知道如何思考推理。我想说一件事是可靠性的提高与任务的复杂性一样多。企业家和投资者犯的一个错误,我也犯过,就是你看某件事,它不起作用。
而且问题是这是一个技术问题。然后你认为它不会起作用。但我认为在人工智能领域,你必须一次又一次地继续观察,因为事情可能会很快开始起作用。
很快。也许最后一个,我看到了一些小的例子,比如我们的嵌入式程序,以及投资组合中的广泛例子,因为你有了这种创新的扩散,不仅仅是客户,还有承担某件事的企业家类型。我们现在已经超越了矛尖。越来越多的人认为,
我可以使用人工智能做一些事情。我认为我们将获得更多针对不同领域的智能数据生成策略,这些领域需要领域知识以及对人工智能的理解。这里的例子可能是生物学和材料科学。就像你需要能够在数据捕获方面进行创新的科学家,并且
这可能实际上是一种生物技术创新,而不是计算机科学创新,以了解深度学习的潜力,以及瓶颈在于数据,然后是你正在寻找的数据类型。我认为这正在发生。所以我认为这非常令人兴奋。这可能是我们看到健康领域发生一些真正有趣的事情的一年。
例如,你需要专门的数据,但这不像生物分子设计等原子世界那么困难。还有什么我们应该讨论的吗?你的胡子?我们可以。我应该把它留回来吗?我喜欢胡子。我喜欢胡子和帽子的时代。哦,有趣。也许我应该回到那个时代。今天的最后一个问题。我们是第100期节目。
你认为当我们到达第200期节目时,世界相对于人工智能的状态将会如何?我认为我们不再是其中的一部分了。我认为这只是两个代理来回交流,教我们东西。你和我都不是主持人或话题选择者了。我们只是网络中的节点。它们会像我们一样好看吗?是的,它们将是更好的计算机。我们会看到的。
仍然比一些Midjourney艺术更像一些美丽的艺术品。好的。第200期,那是什么?嗯,如果每周一期的话,大约是两年。所以我认为我们要么在RLHF农场,要么在丰裕之后坐在伊比沙岛的海滩上。这是一个预测。你在这里第一次听到。好吧,希望在第200期或在伊比沙岛见到你。我认为第三种选择不太好。好的。还有所有的听众们。谢谢大家。好的。谢谢大家。再见。
在Twitter上关注我们@NoPriorsPod。如果你想看到我们的脸,请订阅我们的YouTube频道。在Apple Podcasts、Spotify或你收听节目的任何地方关注该节目。这样你每周都会收到新的剧集。并在no-priors.com上注册电子邮件或查找每集的文字记录。