在本期《无先验》节目中,莎拉和埃拉德考察了人工智能的现状。他们分析了近期公共市场的低迷、关税对科技行业的影响以及大型语言模型中仍然存在的机遇。他们重点介绍了更专业化模型中的机遇、模型开发的新方法以及市场如何通过模型上下文协议 (MCP) 等集成开始标准化。节目最后展望了早期的消费者 AI 应用以及未来几年哪些类型的专业知识将最重要。节目要点:0:00 图像生成的改进 4:42 公共市场 8:08 关税对科技的影响 9:42 当今的大型模型市场 11:34 专业化模型中的机遇 16:30 模型方法的研究进展 21:10 哪些专业知识会很重要?24:30 Anthropic 的模型上下文协议 26:30 消费者应用</context> <raw_text>0 嘿,听众们。欢迎回到《无先验》。今天,只有我一个人再次参与录制。这是一个我最喜欢的类型剧集。莎拉·哈比比,你好吗?我很好。我很兴奋。所有东西都是可爱的卡通,也略带怀旧和感性。告诉我你对……的反应如何……
吉卜力工作室,以及更好的图像生成。我的意思是,我是长期以来动漫的粉丝。所以我认为把世界变成所有动漫或漫画是一个非常积极的人类进步。所以我认为这是我一直期待的事情。我觉得每隔一两年,图像世界就会出现这样的时刻,人们会发出“哇,太棒了”的感叹。
第一个版本是这样的,“哦,我的上帝”,我想也许甚至是 GAN 热潮是第一波。大约在 2019 年或 2018 年左右,有一幅 GAN 艺术作品被送到了苏富比拍卖行,这是人们使用基于对抗网络的方法生成艺术作品的早期 AI 生成艺术之一。当时这些工具链有点笨拙,但即使那时人们也觉得,“哇,看看 AI 现在能做什么”。与你今天能做到的相比,它非常糟糕,你知道的。然后是中期旅程,你知道的,
早期的稳定扩散浪潮,这些模型问世后,人们会说,“哦,我的天哪,这个东西太棒了”,但图像中每个人都有七根手指,但“哦,我的天哪,太棒了”。看看我们能用它做些什么,它将改变社会等等等等。
我觉得我们定期会遇到这种情况,我觉得这是最新的版本。部分原因是我们正处于这项艺术作品质量和保真度的惊人曲线之上,并且能够做到,即使在 GAN 时代,也有风格转换,你知道的,以梵高的风格创作等等。但是它现在做得如此之好,如此连贯,以如此多的风格,以及如此多的,
审美美感和监督,这确实令人震惊。我认为我们正处于另一个时刻,人们会说,“哇,这真的可以做到……”
动画和其他形式。所有这一切显然是在 ChatGPT 和 OpenAI 以及某种程度上将许多这些内容直接整合的 4.0 模型的背景下发生的。所以我认为这太棒了。我认为我们一年后还会看到类似的事情。然后我认为会有这个的商业版本,这些版本已经开始出现。但是看,我们可以完全无缝地将其用于平面设计,而不是它有点好用。我们可以将其用于所有这些不同的用例。所以
我觉得我们正在做它的水平版本,很快我们将看到所有垂直版本都问世。显然,像 Recraft 等公司正在直接开发垂直版本。但我只是认为这是技术的超有趣演变。所以我认为这非常令人兴奋。你怎么认为?我认为很有趣的是,至少像我们这个科技生态系统的细分领域一样,但你知道,亚马逊……
动漫和漫画非常流行。世界对“他们想要更多可爱”,“他们想要更多美丽”的反应。我认为这真的很令人兴奋。这暴露出的一个有趣的事情是,用户,整体上的人们非常擅长预测我们在质量和可控性方面的水平,以及我们还有多少空间。对。我认为从……开始。
八位灰度到你有可能被认为是真实人物照片的图像是一个巨大的飞跃,正如你所说的,人们在几代之前的图像生成中感到震惊。然后我认为 Midjourney 做的一件事是真正拥有审美的观点,并考虑大量的用户反馈,以了解什么更受欢迎。实际上,我觉得很多人认为图像生成(像最终用户,而不是研究人员)是一个稍微更成熟的问题。我认为这是另一个数据点,说明我们将获得更多,以及人们想要的东西,更不用说视频和所有其他东西了。
还有文本和徽标。即将到来的是很多
人们还没有做到的,是这些真正具有整合性的东西,你可以真正点击图像并修改部分内容。有一些应用程序正在这样做,或者有一些像 VIA 这样的东西,在你处理事情时会进行实时修改。但我确实认为还有很多空间。我们还处于早期阶段,但这仍然非常引人注目。所以这是一个非常令人兴奋的领域。我认为易用性和可控性也将赋予人们更强大的创造力。例如,HeyGen 的一项功能是
最近发布的产品,是能够使用自然语言来描述情感和声音,对吧?所以你可以像耳语 ASMR 一样,只需说,“我想要这个人的整个视频,以这种方式,用三个词的文本描述”。我认为这种可控性将非常强大。你可以将其整合到增强型设备中。然后我就会沉浸在 ASMR 世界中。这就是我想要的,我只会生活在那里。这是理想的吗?不。好吧。
也许是蒙古部分,但其余部分并非如此。你对宏观经济感到害怕吗?你是说纳斯达克还是什么?市场?是的,市场。关税、通货膨胀,哪一部分?你知道,消费者信心处于多年来的低点。纳斯达克下跌了 8%。是的。
对中国进口商品和汽车征收关税。我认为市场上的投资者和公司都在谈论他们对此有多么担忧。是的,我不太担心。我感觉世界现在确实存在一定程度的不确定性。但从构建科技公司的角度来看,除非发生真正存在的事件,否则这基本上是“一切照旧”。我已经经历过几次这样的周期了,市场大幅上涨,每个人都以不同的方向感到恐慌,市场大幅下跌。它影响风险投资领域或创业领域的主要地方是,如果它从风险投资生态系统中抽走资金,那么估值就会下降,或者对边缘创业公司的资金就会减少等等。但除此之外,这些周期往往会真正消失,除非你是一家即将上市的超级后期公司,并且你的估值方面存在一些问题,即预期与你想要上市的地方之间存在差异等等。但对于日常的
科技创业公司,特别是那些不做硬件的公司(会受到关税的影响),对吧?只是编写软件的人。这实际上应该对日常工作的影响最小,特别是如果你的创业公司正在运作,例如你将能够获得客户的付款或找到资金等等。我已经经历过几次这样的情况,每次都像
耸耸肩。我实际上记得我参加了红杉资本在 2008 年做的“安息好时光”的演示。所以在 2008 年,发生了一场严重的金融危机。当时我正在经营一家创业公司。我是这家小公司的首席执行官。红杉资本做了一个大型全体会议,他们召集了所有创始人,并请人们讲述在互联网泡沫破裂时的战争故事,以及该收紧裤腰带、裁员的时候了,世界将永远不会再一样了,一切又结束了。
他们这样做是为了服务于创业社区,对吧?他们试图帮助他们的创始人解决这些问题。我记得在会议期间与红杉资本的一位合伙人交谈过。我说,“我们是一家只有六个人的创业公司。谁在乎呢?”他说,“是的,你是对的。你根本不应该担心这个”,你知道的?就在我们周围的所有金融机构都在崩溃的时候。所以这与那相比,在我看来非常渺小。我认为那时这对科技的影响并不大。你知道,也许谷歌进行了有史以来的第一次裁员。但除此之外,科技仍在不断发展。如果有什么的话……
世界上最大的科技公司现在比那时大了 20 倍。所以我认为从长远来看,科技发展中这是一个更小的波动。谁在乎呢?
再说一次,除非出现一些出乎意料的路径与之分离。我不知道。你怎么认为?它对我几乎没有影响,对吧?我认为尤其是在市场的早期阶段,我就像,“好吧,真正高质量的机会有很多资本支持它们”。我不断发现,资本市场比我之前认为的要深得多,我们应该谈谈这个,对于非常昂贵的,例如基础模型游戏来说,要深得多。我仍然期待……
资本的可用性和大量涌入。我认为对于那些拥有更多公共股票敞口的投资者来说,情况可能有所不同,对吧?我敢打赌,IPO 前交叉投资者正变得更加谨慎,对吧?你会有那些长期的问题,流动性已经被剥夺了……
现在已经好几年了。但我认为,你知道,并购的回归以及几家准备上市的公司是
将有所帮助。我认为关税真正重要的方面是,对于某些特定行业来说,在某种程度上,美国或西方保护自己是有用的。我认为汽车就是一个很好的例子,一些中国汽车公司似乎变得如此优秀,如果我是欧洲,例如,鉴于汽车工业基础如此依赖,我可能会推动对……
中国汽车进口征收关税,对吧?因为国内汽车工业可能没有那么有竞争力。所以我确实认为,在某些领域,关税可能是有用的。在某些领域,它们可能被用作谈判工具。然后在某些领域,你知道的,它们可能是有益的或有害的。
就实际成本转嫁等方面而言。但我认为可能有一些领域,我们应该确保我们确实有一些措施到位。然后可能还有一些领域,这将是负面的或具有破坏性的。然后可能还有一些领域,这只是有利于谈判……
更广泛的政策或与某些外部方的关系。人们对所有这些都使用一个笼统的术语,而不是……你知道的,逐项查看。是的,我同意这一点。我认为关税的有效版本是,你知道的,我认为我们需要更广泛的产业政策,这
更有利于我们关心的行业。就像,这将是一笔巨大的投资,对吧?如果我们想在美国制造国防或汽车的关键部件,那么我们在许多领域都远远落后于从技能和成本角度获得竞争力。其中一些事情值得在积极方面和保护方面进行投资。是的,我想你提到了作为这一切一部分的模型资金深度。
你认为基础模型世界正在发生什么?你和我刚才还在谈论这些人工智能分析图表显示的趋同,就像大型模型市场在能力方面越来越具有竞争力,并且在过去 18 个月到 24 个月内取得了惊人的进步。但你刚刚看到了谷歌发布的最新 Gemini 版本。很明显,他们仍然在这个游戏中。我不知道是谁
考虑到他们拥有基础设施、研究人员,不仅是研究人员,而且还有……你知道的,非常聪明的人掌舵,他们也在竞争。我认为更有趣的事情之一是,你不仅在能力上趋同,而且在……例如,产品表面区域上也趋同。大多数人都有搜索功能。他们有一个研究产品。
他们在模型中进行推理。我认为很多事情最终将取决于消费者剩余和分配问题。实际上有一个非常棒的网站叫做 artificialanalysis.ai,它显示了他们针对各种模型进行的推理或不同方面的不同基准测试,你知道的,如何测试模型的知识库或……你知道的,其他形式的性能,每单位时间的令牌速度等等等等。所以我认为这非常值得一看。你会看到,对于某些领域,确实存在强烈的趋同。然后几乎有一组模型似乎
相当接近,同样,某些东西在编码或推理或其他方面会急剧飙升。然后你还有其他模型的长尾。
所以至少对于这些基准测试所针对的核心语言模型世界来说,确实似乎发生了一些形式的趋同。然后有异常值,对吧?例如,Grok 或 x.ai 在九个月内从无到有地推出了一个大致领先的模型,这非常令人印象深刻。或者,你知道,DeepSeq 或其他公司一直在做的事情。然后,你知道的,他们并没有真正针对图像通道进行基准测试。这些显然存在于各种网站和其他地方。
但是还有另一套模型,我认为讨论得少得多。部分原因只是经济价值,部分原因是当今市场上的东西。但这包括物理学、材料科学、机器人技术、某些类型的科学。可能有一些在后期训练方面更专业化的模型,例如在一些核心模型之上添加与健康相关的数据。我确实认为还有很多其他类型的模型
人们花费的时间少得多,其中一些变得非常有趣。除了基础模型世界之外,或者我应该说核心 LLM 世界(语言模型)之外,可能最受关注的地方可能是生物学,对吧?我觉得每周都会出现一个新的生物学模型。但是还有所有这些其他领域和学科,我实际上认为其中存在一些非常大的机遇。机遇显然既包括社会影响,也包括
在某些情况下,实际上,它们背后有非常大的市场。我认为,从事该行业构建模型的人的兴趣水平往往与这些模型的经济价值脱节。有时这是正确的。可能有一些非常有趣的科学应用并不具有很强的商业适用性。
有时它真的不匹配,你就像,“为什么所有这些东西都在获得资助,而对于某些类型的模型来说,却存在如此广阔的空间,而没有人正在研究?”所以至少我一直都在关注哪些替代模型从市场角度来看很有趣,而现在可能有点被忽视了。然后我想还有一个问题,就像,我想听听你对此的看法,就像有多少东西会被纳入这些核心 LLM 中,而不是它们自己的独立事物?你认为是……
一个戒指统治所有?还是你认为它将是一个分散的景象?你认为这种分散会在哪里发生?说模型公司与非模型公司之间存在某种二元区别实际上有点过于简单了。即使是你和我以及业内人士认为是模型研究公司的许多公司,他们也从对现有知识的某种预训练基础开始,这越来越容易……
越来越容易获得的现有知识和推理。在机器人技术的情况下,你从视频预训练开始。在其他领域,如果你要单独开始关注代码,我们可以讨论这是否是一个好主意,你希望语言和代码都能与模型交互。我 100% 相信这些领域存在巨大的机遇,但对我来说,最大的区别之一是……
这种数据收集引擎是什么样的?所以如果你正在考虑物理学、化学、生物学、机器人技术,以及也许还有一些更接近的商业应用,那么你想要的数据,模型要学习的理解,通常还不存在。所以我认为许多这些公司的理论很有趣,那就是我们的工作是有效地收集或生成它。
并用它来训练模型。在这种情况下,我认为像“它是否需要……”,“它是否会成为这个统治所有模型的单一模型?”的问题是,“是否可以合理地期望现有大型实验室之一去做?”
数据生成,对吧?例如,如果你必须建立一个带有机器人的物理实验室来对新化学品进行实验,这感觉比例如协同生成 RL 环境要远得多。每当你进入物理世界时,生成数据总是更难。这就是为什么语言模型(你只需有效地收集互联网上的数字智慧)是我们最近真正看到这种规模的突破性进展的第一个地方。
编码就是一个很好的例子,你不仅拥有大量驻留在网上或数字上的数据,而且还拥有非常清晰的效用函数或你可以根据代码及其性能等进行测试的东西。它是否正在做你认为它会做的事情?所以这些总是最简单的领域。这很有趣。这是一个奇怪的个人烦恼,但当在传统软件和科技领域做得非常好的创始人开始告诉其他人去做生物学、材料科学和物理学中的困难工作时,我总是感到恼火,哦,你……你知道的,你需要去做……很努力,你就像,“好吧,你在该死的软件领域赚了所有钱,你在说什么?”所以我感觉一直以来都是这样,对吧?就像我记得 20 年前对比尔·盖茨的采访一样,他说,“如果我现在要开始,我会进入生物学领域”。
所以我感觉有时会有模型版本的这种说法。你真有趣。我觉得你是相反的。你就像,“我实际上拥有生物学博士学位”。是的,这就是为什么我知道。这就是为什么我知道现实。我认为我将要做的另一个区别是,例如,它是否有一些像正交的,完全不同的技术论点?是的。
我认为是否存在某种研究进展,从架构上来说完全不同?我会喜欢描述可能与之相关的公司类别。我们邀请了来自 Cartesia 的 Karin 和 Albert 参加播客。我认为基于状态的模型是一个有趣的方向,对于某些可压缩的数据类型来说,它们非常高效,对吧?如果你看,有一些关于形式主义和将数据……
问题转化为精益,并将其作为提高数学和代码推理能力的途径。
我认为有很多公司正在尝试训练能够更好地在软件和网络上采取行动的模型。这显然也与大型基础模型实验室一致,但我认为他们至少正在努力解决一个问题,这个问题在……方面并没有完全得到解答。
一致的、可泛化的 RL 环境,用于代理。所以有一些空间,我认为如果属实,为什么公司应该存在,而不仅仅是像……
OpenAI Anthropic X,当然还有谷歌压路机。我错过了什么?你还将什么作为区别,或者你认为在哪里存在机会?关于基于状态的模型的观点,对于非常具体的任务,这些模型在速度和规模方面可能具有相对优势。
所以我通常认为它是一个 2x2 矩阵,你有一条轴,它是一种速度、性能、成本,因为对于许多这些模型来说,这些大致相同,实际上是推理时间。然后是推理、保真度,无论你称之为什么是。根据你在这些不同象限中的位置,你有一个象限,它很慢、很昂贵而且不是很聪明。显然没有人想使用这些模型。
它非常慢且昂贵,但它非常聪明且非常有能力。这就是你所说的,“我将上传一份 100 页的最高法院简报,它将给我一个惊人的分析,我可以用来辩论案件或其他什么”。所以价值很高。它需要一段时间才能处理并完成它。然后是超快、超高性能的,往往只是针对特定应用的非常专业的利基模型。我认为一些状态空间模型非常适合这种情况,一些 SSM。
用于非常具体的应用领域。然后是最后一个象限。根据你所在的象限,我认为它确实决定了你能够构建的类型。真正快速高性能的往往更侧重于垂直领域,或者更侧重于非常具体的任务类型。而真正缓慢、昂贵的那些实际上非常高性能的
你可以想象伯克利的版本,但似乎许多这些版本的支柱实际上是这些非常通用的模型,你获得的大部分内容是推理和更广泛的语言能力,然后你将其应用于某个领域。然后,当然,人们会在其之上构建一些东西,例如编排层和针对你的用例对不同模型进行差异化路由的专用定制内容。似乎现在所有所谓的“代理”都在客户成功和代码方面这样做。你遍历每个具有专业……的领域。
他们总是拥有这种构建在其顶部的编排层,所以……
你知道的,我认为观看所有这些东西都非常令人兴奋。我确实认为,从短期来看,一些应用和一些不那么纯粹的语言领域可能很有趣。我认为回到这个问题,宏观经济是否让你感到压力?现在科技领域正在发生如此良性的循环。这实际上主要是因为并购活动再次活跃。所以我们将会有结果。但正如你所说的,有爆炸性的表面积的东西……
这些模型可以攻击。你有……你知道的,研究进展,人们做出不同的技术赌注。你提到了 DeepSeek。我认为模型开发和持续改进,例如,更积极地使用推理和测试时间计算非常昂贵,而训练成本也在不断增加。所以我认为现在有人
试图解决数据、规模和延迟问题。就像这也会帮助每个人一样。你知道 DeepSeek 的研究人员是否不允许离开中国吗?我不知道这是不是真的。我认为任何国家都应该留住自己最优秀的人才,但也许不应该限制人们的行动。
我认为我们应该努力吸引这里的人才。我们应该让所有人工智能研究人员都留在任务区,然后让他们离开。在任务区和狗区之间某个地方。是的。例如,我们可以在我们的办公室之间画一条线。他们每天都必须去 Atlas Cafe。让我们讨论一下……例如,人才类别。实际上,对于任何没有为 10 年后考虑自己孩子的人,而只是考虑……例如,未来两三年的人来说?例如,在什么类型的专业知识中,你应该待在……之间,你知道的,我的办公室和埃拉德的办公室,以及任务区和狗区?好吧。例如,你有研究人员,你有基础设施扩展和效率。我们欢迎你们所有人。硬件软件协同设计。
对。例如,设计……你知道的,下一代 TPU 或其他什么。有一个特殊的签证项目,让你搬到那个地区。是的。我们在这里为你提供担保。签证项目。是的。如果你准备好设计芯片以更好地处理稀疏性或大型 MOE 模型或类似的东西,我有一个签证活动给你。就像你所说的那样,对吧?例如,任何拥有深度学习的人。
例如,领域用户理解与基本产品工程相结合,这并不是基本的,而是针对这个……编排应用 ML 领域代理的评估,设置 RL 环境,例如仍然非常新兴的领域,例如收集上下文、计划、修改,例如一堆模型调用并行化、验证、重试,例如描述所有这些的编排层,我们
我们有一个签证项目给你。我们正在考虑命名它。我们将雇用某人来运行它。这将很棒。我们将称之为 Gillingo。我们将致力于营销。我觉得我们正处于人工智能的“一切照旧”阶段。我认为堆栈已经相当明确,显然它会发生变化,并且会有新的东西加入其中。但我感觉,如果有什么的话,过去几个月在巩固短期内至关重要的事情方面非常清晰。它有模型层以及围绕代理事物和推理等的各种附属物,
显然这只会加速并变得更好,并且它有自己的扩展曲线。然后在基础设施层,
我认为这已经稳定了一些。我记得当 RAG 是一件大事时,关于新事物。我觉得所有这些事情都正在到位,评估以及如何进行评估?我认为 Braintrust 等公司正在巩固这些方面。然后我觉得在应用层方面,我认为我认同我们一两年来一直在讨论的一个概念,即人工智能真的开始影响与不同服务相关的行业和垂直应用以及不同的用例。
然后我开始最终看到一些消费者方面的迹象。我认为这还处于起步和早期阶段,但至少人们正在尝试。我觉得有两三年时间,没有人真正试图做任何消费者的事情,尽管有人可能会争辩说,Perplexity、ChatGPT、Midjourney 和所有这些准消费者的事情都是早期的消费者尝试。也许 ChatGPT 是世界上最大的新型人工智能消费者产品。从某种意义上说,谷歌确实是最初的那个。感觉像是一段短暂的整合时期。
我认为在少数几个垂直领域,我们开始看到一些赢家出现。所以我觉得这是一个有趣且清晰的时刻。当然,关于人工智能,我总是说,我学得越多,就越觉得自己不知道。这是我唯一感觉学得越多,对市场越困惑的行业,
我感觉有一瞬间的清晰。然后我猜想一年后,所有赌注都将无效,所有事情都会再次发生变化。但至少目前对我来说,感觉一些事情已经暂时到位了。这实际上感觉对我来说是一个非常舒适的投资时机,因为正如你所说,感觉更像是,我不知道,也许是第三局而不是第一局,其中
生态系统中存在一些稳定性。围绕标准化存在真正的优势,与不同……例如 MCP 的集成标准化。我认为这将加速许多人的发展。就像我遇到的公司,他们建立了一个对企业以某种方式有用的数据源……
这些模型可以很好地与之交互,他们就像,哦,MCP 服务器。你想向人们快速解释一下模型上下文协议和 MCP 以及它是什么以及它是如何工作的吗?我会含糊其辞,但我将尝试描述它。所以这是 Anthropic 的一次尝试,来自 Ben Mann 在实验室的小组。它被称为模型上下文协议,这是一个
尝试为将模型功能连接到已经拥有有用数据的系统制定标准接口。这可能是文档,可能是日志记录,可能是业务工具,可能是 IDE,任何东西。Sam 来自 OpenAI 说他们也将支持它。我认为
这不是一个完整的解决方案。它在很短的时间内就获得了开发人员的广泛欢迎,但这就像你如何将你的数据暴露给模型。这是一个开放标准,所以它不是专有的。任何人都可以使用它。
它就像数据源和 AI 驱动工具之间的双向连接。大公司已经这么做了。是的,我认为开发人员在描述他们的工具以及如何非常具体和清晰地使用它们方面还有很多工作要做。但这确实使它更容易了。我认为这将大大加速代理开发。但回到这个关于生态系统意味着什么的概念,我认为你拥有……这一事实。
例如,你正在加速模型与现有生态系统交互的方式。我们预计代理会变得更好。你有很多关于模型可用性的选择。正如你所说,有一种关于如何自动化某些类型的协调这些能力的工作的清晰途径。我认为这将非常富有成效。我确实认为目前还不清楚在这里可以实现哪些类型的成功的消费者体验。还没有
我见过的真正有效的消费者代理,它们不像大型模型产品中的搜索或研究那样,但我预计今年会看到它们。我很期待。是的,我认为即将出现很酷的东西。当一切不稳定时,Elad 和我将回到 NoPriors。我们到时候再和你们聊。它会再次变得不稳定,但我认为这是一个平静的时刻。平静是相对的,对吧?有巨大的创新,巨大的变化即将到来,巨大的技术浪潮,每周都有新事物。
但至少对,好吧,这些领域中的一些主要参与者将是谁?以及,你知道,所有这些东西是如何组合在一起的?所以我想我们应该享受平静的时光,直到下周或任何时间,接下来的几个小时,直到下一件事出现。好了,签退,各位。很高兴见到你们。
在 Twitter 上关注我们 NoPriorsPod。如果你想看到我们的脸,请订阅我们的 YouTube 频道。在 Apple Podcasts、Spotify 或你收听的任何地方关注该节目。这样你每周都会收到一集新节目。并在 no-priors.com 上注册电子邮件或查找每集的文字记录。