我们看到每个人都首先关注容易解决的问题,对吧?比如,所有不同类型的深度搜索或深度研究都是显而易见的首选。一旦他们选定了牙膏,你就无法让他们换掉。但当牙膏第一次出现时,你会经历一段这样的时期:“我不知道,我应该用哪种牙膏?”任何出现问题的地方通常都是通向新解决方案的第一步。
你认为如果Grok比ChatGPT好10%,并且一直保持这个优势,它就能胜出。我无法理解这一点。我对此感到如此困惑,以至于我知道你和我一定是在谈论两件不同的事情。我强烈不同意你的观点,我们一定是在谈论中做出了不同的假设。
或者我们现在就处理这个问题,作为你的开场白?是的,欢迎大家回来。欢迎来到走廊聊天。我是纳比尔,我是弗雷泽。就是这样。这样可以保持轻松,直接进入主题。你让我在不得不离开的时候说出了这句话,从那时起,这句话就一直在我脑子里挥之不去。
我强烈不同意你的观点,我的唯一结论是我们做出了不同的假设。是的。所以你先说明你的假设。我喜欢你的措辞。我的论点是,如果我们今天使用的LLM模型,特别是基于聊天的模型,让我们谈谈ChatGPT、Grok、Claw、DeepSeek或其他任何模型,
它具有一定的吸引力,它在比较集中。就假设这样吧。但我实际上说的是,如果产品好10%,它就会胜出。它不需要好两倍或十倍。如果它好10%,从长远来看,它实际上会胜出。这有什么问题?更好的产品不会胜出吗,弗雷泽?是的。
不,不。ChatGPT现在每周有4亿活跃用户。他们已经达到了逃逸速度。他们拥有品牌。他们拥有信任。他们就像一个全球性的实体。如果你总是只比别人好10%,我无法想象你有什么希望赶上他们。
我无法想象。关心产品改进10%的用户比例一定非常小。我们可能只是意见不同。我们可能真的在这个问题上意见不同。但我认为肯定有一些假设。如果你正在建议一位总是与该领域参与者竞争的创始人,你会建议他可以通过追求其他功能来赢得模型竞争。你击中
击中ChatGPT的弱点,去追求一些你比别人好10倍的领域。我必须说实话,就像我生活中大部分时间与创始人交谈时说的那样,听着,你不能只是稍微好一点。创业公司失败的原因就是他们发现了一些世界上的微小优化套利,并认为这已经足够了,人们并不关心。所以你并没有好10倍。当我……的时候很有趣
我们是Spark的通才,我们做各种不同的投资。我发现很难向这些种子、Pre-seed和天使投资者解释,他们会问我现在在做什么?每个人都用这些愚蠢的VC发明的市场地图和垂直领域之类的东西来说话,具有讽刺意味的是,我们马上就要这么做了。
就像,让我们把这些当作类别来谈论,而实际上最有趣的公司是那些创造了我们以前从未想到的新类别公司。那些地方让我们真正兴奋。但我与Pre-seed基金的某人交谈的一种方式是,哦,我应该和你谈谈哪家公司?就像,好吧,不要带给我那些好10%的东西。带给我,
如果你打开产品并使用它,即使在其早期和略微不完善的形式下,你也会觉得,哦,我的上帝,这就像一道真正的闪电。它在一件事上好10倍,即使它在许多其他方面可能更差。这就是应该带给我的东西。所以你是对的。这与我之前所说的之间存在一定的认知差距。
原因如下。我仍然认为大多数人根本没有使用任何像ChachiPT、Clot或Grok这样的产品。他们实际上并不完全知道如何使用它。第二点是我认为没有人……
转换成本。任何新类别的早期生命周期中,对于任何即使只是略微感兴趣的人来说,你都会进行持续的对话,比如,哪个是最好的,我应该用哪个?所以你首先打开应用商店,然后下载
一个邮件客户端,然后你会想,“我想知道是否有Betelmeir客户端?”在应用商店的头几年,你可能会下载两三个或四个邮件客户端。也许你最终会像你一样使用Apple Mail,这让我抓狂,或者你最终会使用其他东西。但在现有企业真正确立之前,存在这样一个跳球时期
这就是CNET过去赖以生存的,以及所有科技媒体的生存之道。这就是酷猎在过去的日子里赖以生存的。com就像一个新类别出现,有人需要写评论,他们会说,我不知道你应该使用这三款软件中的哪一款?我仍然认为我们正处于这个阶段。如果突然……
你始终比其他人好10%。我只是展望未来500万、1000万、5000万、1亿、4亿次对话。我只是在想,当80亿人开始使用这些产品时,他们将持续进行这样的对话,比如,哦,我今天尝试了ChatGPT。这可能是他们尝试的第一件事。当然,因为它是最知名的。
但随后你会去和你认识的ChatGPT用户交谈。你不会独自一人去做。你会去找你认识的或你认识的女人,他们会说,嘿,这是正确的吗?他们会说,哦,是的,是的。大约有四个人这样做。有四家公司这样做。我最喜欢的一家是X。所以你不必好10倍。
当消费者在他们安顿下来之前进行比较购物时。一旦他们选定了牙膏,你就无法让他们换掉。但当牙膏第一次出现时,你会经历一段这样的时期:“我不知道,我应该用哪种牙膏?”也许我应该尝试三种,然后决定我喜欢哪种口味。所以即使只有一种略微更好的口味也能让你达到目的。我认为
我们之间不同的假设是,即使本周宣布了使用ChatGPT的用户的数量,我仍然不认为他们已经是现有企业了。
所以我认为你使用的模型,对我来说是有道理的,是创业公司攻击现有企业的那种模型。我甚至不确定他们现在处于什么阶段。这是公平的。但我认为我所假设的是,这里10%的改进仅限于模型。我认为我的世界观在很大程度上仍然是模型优先的。我无法理解这一点。
人口关心模型质量10%的差异。但我认为你指的是产品体验,如果某些东西总体上好10%。让我们明确一点。我不是说在评估中好10%,对吧?我说的是——我明白了。对使用该产品的人来说好10%。另一个例子,比方说,就像,
我们正处于搜索引擎的第二年。我们距离谷歌还有五年时间。是的。是的。我们距离谷歌还有六年时间。现在是AltaVista、雅虎、Ask Jeeves的时代。我记得在那段时间里,每个尝试第一个搜索引擎的人都每个月都会进行可行的对话,比如,你更喜欢哪个搜索引擎?
如果一个搜索引擎始终比其他所有搜索引擎好10%,那么在谷歌横扫整个领域之前,它就会胜出。我不知道我们五年后是否会遇到谷歌小行星之类的东西,但你明白我的意思了吗?是的,是的,有点明白了。因为谷歌好10倍。所以这就是为什么——谷歌绝对更好。是的,是的,是的。
如果我改变我的参考框架,不再认为模型好10%,我就能理解了。也许说得很冷酷的方式是,我当时认为的是在评估中好10%。没有人会在乎这个。但你说的是——是的,让我们换个说法。你了解我,弗雷泽。我不关心评估。就像,对客户来说,它在感知上好10%。是的。就像一个
客户可能无法解释它更好的所有原因,他们可能会混淆它,而且如果他们好10%,然后他们的竞争对手一个月后好10%,另一个不同的竞争对手好10%,如果它波动不定,那么人们最终会转向他们开始使用的第一件事,或者他们最终会转向默认的最受欢迎的东西——但是如果某个公司的某个模型给你一个
聊天体验,我认为这是一个新的功能,你每天都会使用。
而且他们以一种始终比竞争对手略微更好的方式来做这件事。我认为你不需要。好吧,好吧,好吧。是的,我明白了。我也明白了,因为我正在回顾一些对话。现在,我的世界观是,这只是一个我们都必须适应的新行为。这需要很长时间。这种适应的一部分将是弄清楚什么是正确的最佳产品。而且,
从长远来看,在那个世界里,好10%的东西应该会胜出。是的。是的。这是一场漫长的比赛。更重要的是,你正在比较,我认为真正重要的是,大多数消费者仍在进行比较购物,并将进行比较购物,因为他们中的大多数人甚至还没有开始使用这些产品。其次,回到我这里,还没有锁定。
有一个世界,你上传了足够的文档,你告诉它足够多关于你孩子的事情,你开始与这个东西建立真正的节奏,在那里存在真正的锁定,然后转换成本就变得真实。然后,如果它是现有企业,那么B+产品就会做得很好。
但我不知道我们是否已经到了那个阶段。我不会轻易放弃。每个人都喜欢宣布游戏结束。DeepSeek出现一周后,每个人都宣布游戏结束,并卖掉了他们所有的英伟达股票。每个人都喜欢在第一季度宣布游戏结束,但这并不是这样运作的。这些通常都是消耗战。
这很自然地过渡到我们作为公司一直在思考和讨论的话题,当我们思考我们身处何地并展望未来一年时。我一直思考的一件事是,我们在之前的剧集中简要讨论过,是凯文关于早期网络的Spark演示,谁是先行者,他们是如何做的,然后谁是最终的,所谓的,该领域的赢家。
我一直在思考后发优势。就像,我们是否真的只是看到那些最迅速地将新的能力引入其中的人所照亮的有意思的市场,无论是法律、代码还是其他什么。而且,你知道,我认为有一个……
很有可能其中一些会被先行者赢得。不可避免地,会有很多今天开始的新公司将赢得我们认为已经像第一名一样的市场。
是的,事实上,我们刚刚谈论过它,对吧?就像我们刚刚使用了早期网络的搜索引擎示例一样,你们之间进行了激烈的竞争,你知道,AltaVista和Ask Jeeves以及所有关于搜索引擎的竞争。然后事实证明,每个人都需要几年时间来消化所有信息,想出一个新的新奇事物,然后谷歌出现并横扫了整个领域。
稍晚一点。这是一个,我们已经提到过一个非常明显的例子。思考这个问题的一种方法是,我认为是否存在市场中的先行者优势或后发优势。让我们只谈谈哪些市场,对吧?就像,我们今天在哪里拥有真正的吸引力?我们在AI编码方面拥有真正的吸引力。这些公司正在
疯狂地起飞。我们拥有真正的吸引力。有很多法律、AR创业公司。任何拨打人们电话的语音似乎现在都做得很好,比如给人类打电话,然后向其他人收取这些电话费用以进行某种AI操作。这些似乎是有效的。我们可以列举一个清单。判断哪些似乎有效的一个简单方法是查看
YC课程,看看他们现在集中在哪里。所以你可以看看正在进行的增长轮,但由于某种原因,它完全模仿了YC课程,当然,创始人会选择加入,并认为,好吧,这看起来不错。我要做的事情与之相差5%。我想问题是,在哪些地方寻找后发优势并等待
或寻找更深层次的东西?在哪里是行动时间?对吧。你感受到压力和竞争,你应该带着一些东西进入市场,并与你的客户一起学习?你如何决定在哪里做这一个或另一个?我希望有一个简洁的方法来回答这个问题。当存在真正有差异的产品体验,并且这种体验很重要且有价值时,这可能是一个后发者可以做得很好的案例。
苹果公司以其在市场中的后发者身份而闻名,他们提供了正确的产品体验,并一次又一次地证明了这一点。在许多市场中,正确的产品体验将是产品和技术的结合,在这里我们还处于早期阶段,底层技术仍在持续显著改进。
新的推理模型是否引入了以前的产品无法以非常原生方式吸收的新能力到这些市场中?我不知道。也许吧,也许不是。对吧。我认为这是后发优势,就像我试图想象自己身处公司董事会或与创始人交谈一样,你的建议是,现在不要太努力,即使那里有收入或吸引力。
现在不是进入或全力以赴的时候。对我来说,在某种程度上,这有点忽略了收入数字
或炒作数字或行业中的加价数字,并试图意识到真正的解决方案有多么糟糕。因为我们确实经历过这样一波,在ChatGPT初期,许多客户真的想在许多非常早期的AI产品上花费数千万美元,这些产品在收入方面出现了巨大的增长,然后消失了。所以
你知道,对我来说,后发优势来自于,他们是否完全解决了问题?我理解这是一个,这是一个,这听起来很简单。这仍然很难,因为当然,就像我们是早期投资的业务,创始人从事的是创业的业务。一开始总是有点问题。它总是像不完美。而且,
所以这些东西都没有完全,完全解决问题。你试图设定值得你为之奋斗十年的目标和问题。它不会立即得到解决。这就像应用与你对事物的信念相匹配的燃料量和确定性。所以对我来说,一个很好的例子是,如果你看到五个竞争对手……
它们相对没有差异化,而且都做得不错,但客户已经在它们之间进行烘焙测试。这表明,第一,竞争将很困难。第二,成本可能会降至零。第三,如果他们正在切换,是的,这意味着无论如何,没有人正在做任何让客户满意的事情。所以也许值得在
在这些领域中更具差异化。这可能意味着你追求不同的客户群体。这可能意味着你尝试以不同的方式解决问题,但这就像更深入地挖掘。更难的是,如果你是一位创始人,如果你正在创办一家公司,或者你正在观察市场,并且你认为,我应该再创办一家法律创业公司吗?当你已经创办了公司,现在有五个竞争对手,你环顾四周,试图做出真正艰难的决定时,这更难。实际上
现在,你六个月前可能不是商品,但你现在有点像商品了。这意味着你不会逐步前进
走向未来。你需要设定一个远超前方的目标。顺便说一句,因为你们有五个人,所以你会觉得你们正在进行激烈的竞争。你试图达到下个月的收入目标。有收入要获得。这对创始人来说非常困难。我见过一些创始人做得非常好。我们上次邀请了Granola。这是一个很好的例子,它观察了一个看起来没有差异化的市场
会议记录是一个已解决的市场。有五个人都筹集了数千万美元,等等。然后说,我认为这些人中没有一个人真正解决了这个问题。这是一个完美的例子,它有一个明确的新能力,允许你,所谓的,解决问题,对吧?转录。但它需要真正出色的产品工作才能证明在,在,
向最终用户提供这种能力方面存在差异化。让我们继续下一个话题,但先退一步,我喜欢这一切的精神。我们不是一家以论点为导向的公司。创始人提出论点,当他们提出令人惊叹的论点时,我们会与他们合作,并尽力帮助他们。所以我们不是一家以论点为导向的公司,但这并不意味着我们不能有准备的头脑,我们不能提出好奇的问题。所以大方向是每年,然后有时在一年中,
我们会回到这些问题。我们会问自己,我们对哪些领域感到好奇?这不是,你投资哪些市场?这更像,我们正在问什么问题?是的。我的意思是,为了增加可信度,我最近进行的一笔未公开的投资,所以我们不会分享,我碰巧在星期三去看他们。我回来后说,你明天必须和我一起去看看这家公司。我们开车去看他们。等等,等等,很快一切都完成了。这并不是什么——这不在我们正在提出的这些问题的地图上,或者类似的东西。我们喜欢惊喜。但值得分享。就像,看,我们只是,这应该是
我们内部正在进行的对话的延伸。这正是我们在这里试图做的事情,并将创始人和其他人士带入我们正在经历的这个小小的过程中,我们在人工智能中经历的这个混乱的过程。所以我认为值得将我们内部的对话转化为我们正在提出的问题。所以后发优势是一个很好的第一个问题。让我们再谈一个你内部提出的问题。我这里有它们,然后我们可以谈谈我内部提出的一些问题。
我花了一些时间真正欣赏推理模型所取得的成就。我想我现在已经无数次对你说过这句话了,但去年的惊喜对我来说是03在01之后出现的如此之快。就像,
01完全指向了03的未来,我会告诉你这将是多么令人兴奋,我迫不及待地想在几年后看到它的到来。然后第二天你醒来,它就出现了。我认为我们看到了一种全新的模型训练方法,这将为产品构建者解锁许多不同的用例。我还认为
这里可能被低估的一点是,这需要的计算量小于预训练工作。所以我认为我们将看到许多不同的学者以及业余爱好者能够探索这种类型的后期训练。我认为我们将看到人们以不同的方式塑造产品。
使用托管推理模型,如O3和其他即将推出的模型,以及能够根据Lama进行自己的训练。然后问题是,什么……
像深度搜索和随后出现的所有衍生产品都是如此显而易见。就像我们已经详细讨论过的那样,研究和综合是这些模型的一个很好的用例。推理现在能够以一种非常漂亮的方式实现这一点。但是,我们还将在哪些其他地方看到推理模型应用于产品?我认为在这个领域将会有很多精彩的实验。
而且我认为在明年我们将看到一些重要的东西。是的。更重要的是,我喜欢这一点,因为更重要的是,它表示,听着,我们都会很快调整自己来匹配哪些东西会有效,哪些东西不会有效。它只是承认推理和深度推理的解决方案,由于推理而可能出现并成为新机会的东西。
可能会有所不同。它与可能来自代理或之前的ChatGPT或GPT的排序堆栈不同。即使你只考虑某些垂直市场,法律摘要和转录作为一个公司,这是一家伟大的2024年、2023年公司。如果你
假设推理是你的差异化因素,而不是将摘要或转录作为模型的效果,那么你将在法律领域构建一家完全不同的公司。所以,你可能会做一些事情,比如,我希望你在这份合同中识别出细微的合同风险,而今天的Harvey等等则像,只是为我总结一下合同,比如写一份简报,对吧?或者我希望你预测
我在这里即兴发挥,但在法律方面,我希望你预测这份合同中的这个条款在未来场景中可能会以某种奇怪的方式相互作用。为我画出寓言,直到我能理解为什么这可能会出错。所以,是的,它提醒我们根据推理进行不同的排序,因为不同的东西、不同的公司和不同的想法可能会脱颖而出。我也对这一方面感到好奇,
而不是采取自上而下的市场观点,比如,推理将如何应用于法律、医疗保健、金融或教育,而是相反的一面,比如,嘿,什么是
世界上最深刻的推理领域是什么?忘记自上而下的市场和用例,就像,世界上哪些地方我们只是应用了大量的推理?然后,从这种方式工作感觉如何?我想到的另一个领域是,以法律为例,就像,
我现在正在关注最高法院。宪法法就像没有明确的答案。很多时候,它实际上就像一个解释原则。所以试图仔细研究一个问题的许多层次
我不知道这方面的业务或创业成果是什么。我不会轻易得出这个结论,但这是一种有趣的情况,你会说,哦,是的,这是一个推理真正重要的领域。许多博弈论的东西,无论是在经济学还是其他地方,战略决策都涉及围绕理性行为者在特定情况下会做什么的许多推理。经济学使用……
各种非常简单的原则来试图得出这些结论,因为他们直到今年才能够利用推理代理。那么这对经济学领域意味着什么?这类东西。这些东西很吸引人。只有
现在只有问题,这将是整个播客的性质。对人们来说,这将非常令人沮丧,因为我们没有给你答案。我们正在提出好问题。但我对此很着迷。我同意。对我来说,一个元点也很有趣,那就是我们从GPT-2缓慢地过渡到GPT-3,并且这个过程缓慢地展开,我们可以有时间进行实验,以弄清楚如何将这种新能力引入产品中。
我认为我们只是撞上了一条与推理非常不同的指数曲线。我们看到它……为什么这有什么不同,弗雷泽?为什么这不会只是……
我们之前经历过的事情,那就是,每个人都会首先做涉及推理的愚蠢的容易解决的事情。这是错误的,需要18个月的时间才能真正被思考、内化和产品化。我们看到每个人都首先关注容易解决的问题,对吧?所有不同类型的深度搜索或深度研究都是显而易见的首选,但是
这里的区别在于它并非无关紧要。这是一种深刻的新产品体验,它正在为许多人的生活增加价值。所以我认为不同之处在于,你没有看到人们像,
GPT-3 的第一个版本非常适合幻想角色扮演游戏,因为所有限制都非常适合它,然后它制作简单的广告文案,现在它正在写你的高中论文。我们刚刚跳到了推理模型非常棒的阶段,毫无疑问,它们今年已经在许多新产品中变得非常棒了。
是的,因为他们是站在巨人的肩膀上。他们也从以前的工作中积累了胜利。是的,当然。绝对的。这绝对是另一个方面,当然。我们可以在此处添加侧边栏吗?你是深度研究的粉丝。你经常使用它。或者你用过它。你发现各种深度研究产品之间有什么区别吗?我相信你使用过 Perplexity 的深度研究,你使用过……
OpenAI 等等。你发现有什么区别吗?你会因为不同的原因使用哪一个?说实话,是 Perplexity 集成了 R1,深度搜索版本,你知道,我跑来找你,我说,不,人们,你们必须试试这个。太疯狂了。那是,那是那些随后出现的事物中的进化谱系。它只是更多的推理,更深入的搜索,也就是说,像
不,就像它们都感觉是一种类型。我认为如果你正在做非常复杂,非……
细致类型的问题,能够访问 O3,更好的推理,毫不奇怪,比其他替代方案更好。但如果你问,我将要连接到我的 Mac 的 USB 数据线是什么,你知道,我的 Mac mini,这些东西的推理和搜索都非常惊人。我不知道,你呢?你注意到有什么区别吗?你也一直在玩这些。我喜欢尝试理解细微之处。
我认为在我们第一次播客中,我谈到的是,你什么时候去 Perplexity?你什么时候去谷歌?你什么时候去 ChachiBT,在这个世界里,试图制定出相应的规则,这对我来说非常清楚。尽管随着这些家伙的移动,它随着时间的推移发生了一些变化。但是不,我没有,我发现很清楚的是写作风格仍然非常重要。就像我不在乎,
谷歌 Gemini 的研究产品会返回什么,因为写作太糟糕了,以至于我根本不想阅读它。当我试图阅读 Gemini 的散文时,我的眼睛开始变得模糊。因此,无论内部的推理是什么,你都必须达到一定的可读性和趣味性标准,而这实际上并不容易达到。但 Perplexity 存在的部分原因是深度搜索和阅读
OpenAI 存在。我不知道我什么时候会去 Perplexity 深度研究,什么时候会去 OpenAI 的深度研究。我怀疑 OpenAI 正在更深层次地做一些事情。所以也许如果我有一些像内部……
杠杆,就像,这真的很困难。更多地考虑它,我可能会去 OpenAI,只是因为,但我不知道,或者我的,或者只是我的默认设置可能在那里,因为我出于其他原因在那里,或者其他什么。我不确定。然后显然其他竞争对手会拿出他们的作品。看看 Anthropic 是否会发布深度研究产品,或者其他人会做什么,这意味着什么以及这种东西的第二迭代将会很有趣。
是的,对我来说,深度研究中感觉缺少的是
访问更多上下文和数据。对我来说很奇怪,他们发布了这个产品,我知道它会去网上阅读东西,但对我来说仍然很奇怪,他们发布了这个产品却没有一种笔记本 LM 风格。你为什么不去抓取这 15 本学术期刊并将它们扔到这里?或者你为什么不给我所有你也会阅读的内部 PDF 文件?让我将它与互联网数据结合起来,然后给你反馈。我认为这将会到来。
它会来的。我,我,你知道,我之前和你提到过,我觉得他们已经找回了节奏。我喜欢他们没有添加任何这些东西就发布了它的事实。对。这是,
这是一个研究预览。我们是一个为模型服务的产物。围绕它构建的产品体验尽可能少。让我们把它发布出去,看看我们能从中塑造什么。我喜欢这一点。所以,是的,我认为所有这些东西都会到来。而如果他们发布它,而这不是一个回应,他们就不必构建所有这些东西。现在他们漫游想法迷宫。他们有……
用户和使用情况以及反馈来帮助他们完成这项工作。是的。好的。所以让我们来看一下我们对 2025 年提出的下一个问题。让我们来看一下我们对这一年的下一个问题。在我们刚刚讨论的一个问题和你的一个问题之间有一个自然的桥梁。那就是,如果推理是一种新能力,但它在变得多么好方面加速得如此之快,以至于我们很快就会看到这些深刻的产品。
计算机使用是另一个你一直在思考并提出问题的新的能力。那么,你能不能谈谈这个呢?是的,为了这里的背景,我们确实投资了 Adept,它最初试图针对这个构建自己的模型。所以一段时间以来,我一直非常密切地关注这个领域。OpenAI 显然已经发布了他们的操作员计算机使用。Anthropic 将拥有计算机使用。这是一个感觉……
就像去年的推理一样。感觉现在 API 可用后,需要 12 到 18 个月才能变成真正的应用程序。但与此同时,要稍微持怀疑态度,我们已经有一些面向研究的措施,也许不向公众开放,但面向研究的计算机使用已经持续了几年了。所以我的部分会持怀疑态度,说,好吧,如果它真的显而易见,为什么它现在没有出现呢?
但我的另一部分只是看着使用这些产品,感觉它们都没有被充分产品化。你知道,它们并不完美。它们 87% 的时间、92% 的时间或 96% 的时间都可以。与尝试讲述故事或进行角色扮演地牢 ChatGPT 体验不同,这种差异是一个真正的问题。是的。
所以问题是,你将把计算机使用用于什么?我认为我非常好奇要深入探讨的两条线索是:这些推理代理和概率代理是否可以帮助这些计算机使用模型?是否有办法帮助它更好地理解它即将出错并寻求帮助或推理如何自行修复?
你知道,打电话给你的老板说,我不确定我是否理解如何滚动浏览这个或其他什么。然后另一条线索是,它们的领域是什么?我对此做了一些草图,但我一直在做,但比如,有些领域的差异是可以接受的?嗯哼。
当人们主要考虑计算机使用时,他们会想到 RPA 类型的应用程序。他们会想到,我希望你去这个网站,点击这五个按钮,滚动,复制,粘贴,诸如此类的事情。但是,像素偏差可能可以接受的一个地方是玩电脑游戏。你每次玩电脑游戏的方式和你玩游戏的方式,它
在许多情况下甚至不是确定性的,尤其是在社交游戏中。那么那里的商业或创业理念是什么?这是一个完全不同的问题。但作为一个思想实验,就像我们对早期 GPT 进行的过程一样,哪些领域的随机性是可以接受的,甚至是理想的?
是的。计算机使用将会是什么?我不知道。我考虑这个问题很久了。感觉在 12 个月内,我们将会有答案,因为感觉我们终于到了这些东西面向公众的阶段。是的。它们正在被曝光。坦白说,我认为有足够的创业公司正在尝试使用这些 API 并真正推动它。我认为这是……
推理的反面,它是一种新的能力,正如你所说,它需要在许多用例中具有出色的性能和可靠性才能发挥作用。它现在还不存在。因此,就像我们将经历 GPT-2、3 和 3.5 以及所有其他弧线一样,我们将找出用例,然后在 12 到 18 个月后醒来,那时将会有很多深刻的东西。
如果在接下来的一个月里,这些计算机使用产品能够像深度研究一样提供推理方面的巨大价值,我会感到惊讶。我真的很惊讶。我内心深处有一些东西。这里可能有一家 RPA 公司,它可能很棒而且规模很大,这可能会发生。我当然对此持开放态度。但有一些东西闻起来像几年前我们试图让第一代技术一样。
ChatGPT 成为代理并四处运行并做事。它只会偏离轨道并且很糟糕,而且不够好。事实证明,将其更多地视为副驾驶是一个好主意,或者它在评估方面的能力比写作更好。那时就像,我可以给它一部分,我可以说,请用保罗·格雷厄姆的风格写这个。太糟糕了。如果我给它一段文字并说,这段文字与保罗·格雷厄姆有什么不同
它实际上在分析文本方面比以良好的格式编写文本要好得多。我认为这里可能有一些类似的东西,那就是,嘿,仅仅因为它知道如何操作计算机,答案可能并不是它实际上在计算机上工作。答案可能是它喜欢
也许它正在观察一个工人做某事,然后偶尔伸出手说,你快要做错了。或者你好像在那里很困惑。我可以在这个地方帮忙吗?因为它理解你所处的世界的语言,它可以介入并提供帮助,但它实际上并没有试图做任何事情。
连续 35 个动作自主进行,因为我们还没有达到那个阶段。它还没有准备好成为德文。每个人都喜欢让一名 AI 工程师去运行代码五个小时,我们可能会做到这一点。并且可能有一个理由去考虑尝试做到这一点,也许你试图成为早期采用者。但就像,我认为计算机使用更像是……
你知道,我们处于 GitHub 副驾驶阶段,而不是德文阶段。然而,大多数人并没有在这种情况下表达或尝试计算机使用。是的,这对我来说感觉很好。就像我可以完全想象它
在我们能够实现奇迹般的事情(它为你进行疯狂的自动化)之前,我们必须经历像廉价代码补全这样的副驾驶步骤。这感觉很好。有一种方法可以将这两件事联系起来。就像鲍勃·麦格鲁,他是 OpenAI 的前首席研究官,也是我的朋友,他在 OpenAI 的深度研究方面发了一条推文。我就读一下。OpenAI 深度研究中重要的突破在于,该模型经过训练可以将动作作为其思维链的一部分。
代理的问题一直是它们无法在很长一段时间内采取连贯的行动。它们会分心并停止取得进展。现在这个问题已经解决了。因此,有趣的是,计算机使用实际上可能是某种
你和我通过我们的产品定期与之互动,但这是间接的,因为它是模型通过其思维链推理过程来调用它,以便获取它想要帮助我们的信息。我们甚至没有意识到,你知道,它正在做的事情。是的。是的。我认为这实际上是一个很好的重新连接。我们还有什么?你想谈谈 AI 作为缪斯女神而不是神谕吗?
我认为这是一个很好的问题。为什么我们没有看到更多针对 X 的光标呢?对。我们如何构建更多增强人类思维而不是试图取代人类思维的 AI 工具?AI 是缪斯女神和神谕的表达方式。
我认为这是因为硅谷坏了,人们很懒惰。就是这样。这只是一个简单的说法,嗯?我认为,听着,我写下了这个短语,它就像我自己的这些格言之一,它只是试图促使世界采取创造性风险而不是套利。我认为我们……
在处理许多新问题时,我们拥有工程师的思维而不是艺术家的思维,而通常更令人愉快的事情是建立一家公司,坦率地说,他们认为消费者更喜欢,坦率地说,更大的潜在结果通常是一家公司。
不是效率导向的。我理解工程师和经济学家试图管理世界,他们只知道怎么做就是走进来,说,如果你只是将利润率从 12% 提高到 14%,你不会处境更好吗?这比创造一个新世界更容易思考。
所以我认为所有这些想法都包含在这里。向风投推销效率提升要容易得多。因此,如果你只是试图推销效率提升,你就会试图推销给客户,你会说,摩根士丹利以前需要五分钟才能完成这项工作,现在只需要两分钟了。所以,这与推动你走向套利的思维方式相同。我认为套利是,有人会在那之后套利你。对。当你真正创造出一些新的东西时,嗯,
或者如果你发明了一些人们为此感到快乐的东西,它很难被取代。所以这些领域的这个世界一直让我着迷。我认为这曾经是硅谷非常非常关注的领域。那种乔布斯过去常常使用的说法,苹果是一家以文科为导向的公司,也是一家以工程为导向的公司。我认为在这个更近的时代,
男性沙文主义的效率导向的世界。我们得到的东西少了一些。所以无论如何,这是一个旁白式的抱怨,但我认为这就是为什么我们没有看到它。我认为我们没有看到更多作为 AI 缪斯女神而不是神谕的思维工具,因为我们看到的是一个非常注重效率和套利的文化领域。
但我认为这放弃了更大的目标。对我来说,一个很好的例子正是扩散模型中发生的事情。当我们获得能够创作艺术的扩散模型时,你对创作新艺术的每一次尝试都有。你拥有世界上像 Midjourney 这样的东西,你拥有世界上像 DALL-E 这样的东西,你拥有世界上像 Leonardo AI 这样的东西。我记得他们都在第一年推销同样的东西,并且
风投对 Midjourney 非常感兴趣,因为当然,他们可以看到收入,他们很兴奋。但是也……
所有建议都与他们应该做的事情背道而驰。嘿,你什么时候会去和派拉蒙影业、维旺迪或暴雪或一些游戏公司谈谈,为他们创作艺术,并帮助他们,你知道,看看这个游戏中有多少制作艺术家,你可以让它更高效,你可以像,这完全是一个效率套利策略,因为这就是我们处理世界的方式。我非常赞赏 David 在 Midjourney 的贡献,这是一个正确的选择。
我不会去与旧世界合作,并试图让它们更有效率一些。这将是它自己的事情。人们将因为在这个世界中创作艺术的乐趣而做这件事。
我无法为你确定这个可寻址市场规模,伙计。就像我无法制作那个可寻址市场规模幻灯片一样。没关系,因为我只会做我相信的事情。所以他们有,我会认为这几乎是世界上一个全新的事物。所以我不确定。你知道,在 AI 作为缪斯女神与神谕方面,有很多问题需要回答。我认为光标就是这样。它并不试图成为德文。它也不试图成为副驾驶。它是……
你是合作伙伴。它会去工作 30 秒,而不是 10 分钟。它会回来问你问题。它会,它就像你编码的小伙伴。在大多数我做的具有创造性元素的活动中,我都想要一个这样的小伙伴。所以什么是针对 X 的光标听起来像是处理这个问题的愚蠢的风投语言版本。但我认为我的意思是更深刻的东西。就像我,我,
我喜欢 Windsurf 和 Cursor 的编码交互以及这种程度的交互,而且我并不渴望,尽管我知道世界渴望某些东西只是成为一个 AI 工程师,去为我完成所有编码工作。对。那应该存在。这对我来说没那么有趣。
是的。是的。我听到萨蒂亚在 Dwarkesh 的播客上说,有白领工作,然后有白领工人,白领工人将继续从事认知任务。它们只会改变,但他们所做的实际白领工作可能看起来大相径庭。我之所以提到这一点,是因为它引起了共鸣。我认为我们将继续处于一个有工人的地方,并且
在你的缪斯女神的例子中,它是在以一种新的方式与 AI 合作的白领工作,以改变软件工程的完成方式。对。这并不是说 AI 会让白领工人、工程师失业。它只会改变他们工作的方式。
是的,我认为在未来的思维工具方面,有很多嵌入式非常令人难以置信的问题需要提出。就像在 Midjourney 这样的创意领域一样,当你试图在一个解决方案空间中行走时,你想要用户拥有什么类型的功能和用户体验,就像
试图将大脑内部的东西带到世界上,但没有英语来表达它。如果你试图描述一首你想要存在的歌曲、一张你想要存在的海报或一幅你想要存在的画作,实际上并没有完美的语言。因此,你如何与 AI 一起浏览可能性之海,才能获得某种程度上与你脑海中想法相似的东西,或者更有可能的是
与 AI 的来回互动最终让你得到你一开始没有想象到的东西。对?这与……
创意领域和分析领域略有不同,在这些领域中,你试图找到解决方案。你可能不知道如何到达那里。因此,在你到达那里时提出真正好的问题将帮助你到达那里。感觉像是两个截然不同的产品领域。分析性地,我试图弄清楚这家公司的真相以及留存曲线是否有效,或者我们是否具有产品市场契合度,例如。我们就像,这实际上是你可能试图弄清楚的副驾驶式的事情。我们现在有产品市场契合度吗?
现在。这是一个创造性的练习,但你试图得到一个答案。显然,硅谷套利版本的这个说法是,“嘿,我们可以更快地编写你的 SQL 查询。”但这并不有趣。这并没有触及一个人试图在那里回答的根本核心第一性原理
问题,一个人试图在那里回答的白领问题,白领工作问题。是的。是的。我有很多问题。我认为这非常有趣,这也是创始人正在探索的领域,因为我们现在呼吸的空气非常注重套利,所以不会有 35
其他种子轮前的公司进行相同水平的调查。是的。是的。说得很好。我们在一开始谈论旧市场了吗?我们在一开始谈论过旧市场,对吧?不,我们没有。我们谈到它作为我们可以谈论的东西。是的,我,
我最后要问的问题是关于旧市场的。让我们以此结束。我认为我们内部还有其他好奇的领域。我试图不断更新列表,但我有一些人。事实上,我希望这一集能够
也许你们都听了这个,你们认为我们应该提出不同的问题,或者你们对这些问题中的一个有答案,这些是我们正在提出的问题。也许你们会有三个其他领域你们很好奇,我们下周会讨论其他人现在正在提出的问题。这可能也很有趣。所以是的,基本上,哪些传统市场已经成熟,可以进行 AI 重塑?
显然,这是每个人都会问的问题,但我认为人们看待这个问题的一般视角是,在过去的几年里,他们正在寻找四年前可能被重塑的独角兽。所以,是的,我好奇的领域是……
是什么领域几乎总是被重塑的?有些事情和行业总是处于创新的前沿,因此每当出现范式转变时,它们就会不断被重塑。所以这是像
我们谈到了 Discord 的例子,回到 AOL IM,回到 IRC。消息传递似乎在每一次新的范式转变中都会被重塑。市场、任务管理、评论系统(如 Yelp),这些似乎都会吸收。我不知道是什么。我们可能可以发明一些首字母缩略词。
表达为什么这些特定行业,如果我们试图撰写一篇 HBS 文章或类似的文章,一篇哈佛商业评论文章,为什么这些特定行业总是被重塑,但它们确实倾向于如此。所以这些是我试图保持存在并意识到,即使没有创业公司在本周提出这个想法,它们也可能被颠覆,我们仍然有未解答的回应的领域。
非常基本的问题,例如:“我今晚应该去哪家餐馆吃饭?”或者“我如何安排本周的任务?”这些在某种程度上是无休止的问题。就像,我们永远不会完全回答,永远不会有完美的答案。因此,它们总是可以吸收新技术并提出更好的答案。
你知道,这又是一个问题。我对它没有很好的见解。重点是对此感到好奇,对吧?这会让我产生更多的好奇心和更多的问题。我们可能以前讨论过这个,但很多这些事情必须针对以前商业模式也不再像以前那样可行的新世界进行重新构想,对吧?就像,
Yelp 评论之所以有意义,是因为该社区内发生了社会交流。然后,由于广告,这项业务得以开展。在你的 AI 助手提供推荐和评论的世界中,这两者都感觉像是从哪里来的?是什么引擎让整个事情运转起来?是的,我的意思是,我认为这几乎就像我们之前谈到的主题一样,例如能够进行推理或……
另一个主题是我最近一直在谈论的这个想法,那就是,如果 Web 2.0 是大众智慧,那么这个时代实际上是专家智慧。你并不是试图获得每个人解决物理问题平均值。你试图获得一位绝对是物理学大师的博士如何解决这个问题。所以这是一个非常不同的范例。就像总结是另一个从这个范例中产生的范例。这是一个旧的,但它是从这个范例中产生的另一个。
计算机使用也可能是一个。它正在采用出现的这些范例。也许我们应该做一个关于出现的范例的节目。这实际上是未来的一个节目,是如何,你将哪些 AI 镜头应用于每件事?但这正是正确的。就像,你如何看待每件事
然后将该范例应用于它。我们现在身处的是什么新世界?从中产生了什么?另一个是可塑的软件。我们现在可以编写软件并更改软件。例如,每个消息应用程序,对我来说,这是一个完美的例子。每个消息应用程序都有一个左栏
其中包含一些级别的类别。它要么以你正在交谈的人为导向,要么是你能够进行沟通的渠道,无论如何。它们都有一些固定的本体论。在一个可塑软件的世界中,为什么它们会有固定的本体论?就像,为什么这些东西不会动态地重新排列自己?但这意味着从第一性原理构建一个旨在如此的消息平台意味着什么?这可能不是你后来添加的东西。它可能是一种新型平台。这意味着什么?对。
就像你说的,它是什么样子?是的。使用它是什么感觉?你向消费者做出了什么新的承诺?是的。是的。你可以这样做,你可以列出清单。当你推荐一家餐馆时,这意味着什么?这意味着我可以选择专家吗?
我想知道真正了解这家餐馆的人会为我选择什么。在这一点上,理想情况下应该是单次拍摄、三次拍摄。你应该真的知道它是否是 AI。我不应该浏览一堆照片和一堆。在某些时候,也许我正在根据我自己的餐馆推荐来训练模型。我不知道答案是什么,但是。
是的,我也想知道我们从哪里获得新数据。这是一个完全不同的主题,我们得到的就像,我甚至不知道在一个群体智慧模型从根本上被破坏的世界里,我们从哪里获得餐厅评论,对吧?如果广告模式被破坏了,那么就存在着……
互联网的承诺在这个时候被打破了,对吧?其想法是,我免费制作内容。这些内容来自搜索引擎。你点击广告,就会接触到它。这就是互联网的良性循环。这已经被打破了。
就像我过去常常想,我看什么?我会去烂番茄网站,然后页面加载,页面加载,页面加载,页面加载,页面加载。我最近问了Claude,实际上,我还没告诉你呢。太棒了。我说,这就是我们的感觉。这就是我们想要捕捉的节目的时间方面。对。给我们一个推荐。它给了我们三个列表,我们读了一个,听起来很棒。然后我们去了,所有地方中,孔雀台。就像,你知道的,它很好。
它很好。我们没有去烂番茄网站。我们没有给他们25个页面浏览量。他们肯定是从这样的网站获取信息的。但他们将来从哪里获取这些信息呢?这非常非常好奇。你会看到它开始出现的一些小片段,对吧?Reddit正在出售他们的数据。
这是否会延伸到用户?Reddit的用户现在是否会获得该费用的延伸?或者你仍然会为Reddit做贡献,知道它会进入一个模型?是否有新版本?只是Yelp结算他们的数据?还是将来会有一个新的理由让你为Yelp做贡献,以帮助告知一个模型,以帮助……
帮助未来的其他用户。我们从哪里获取数据以及如何获取数据也是我们在未来五年内解决的一个无休止的问题,没有人知道答案,因为Web 2.0时代的范式现在已经被打破了。而这些被重新发明的旧市场的一些想法,可能就来自这一点。它可能是这样的,“嘿,我们已经弄清楚任务是如何完成的,或者是一个新的任务管理版本,或者是一个新的市场版本,或者是一个新的评论版本,因为
因为我们已经找到了这个新的经济模型。所以因为我们有了这个双轮新的经济模型,这导致了不同的体验,这也导致了新的收入来源。而且,我不知道。我不知道会有什么结果。任何被打破的东西通常都是通向新解决方案的第一步。是的。
是的,说得很好。说得很好。答案是,在接下来的几年里,它将是Reddit。它将是所有已经拥有网络的地方,因为这些网络效应很强大,他们将能够从中获利并获得良好的收入,但这会随着时间的推移而减少。是的,这些东西感觉像是调频广播。没错。感觉很有价值,但感觉有人会建立一个新的市场,通过……
不是蛮力。我只是要招募一名博士来回答这个问题,但就像,你如何创建一个真正的新颖的市场结构?是的。这将很有趣。很好的谈话,伙计。我们应该结束了吗?是的。谢谢。感谢您的聊天。我们将弄清楚如何打包所有这些东西,并从我们提出的所有这些问题中找到意义。再见。再见。保重。