我记得大约一年前,有一场关于我们是否会拥有类似于IT论证的AGI的讨论。其中一个论点是,在某个时候,AI将变得足够好,可以比人类设计更好的芯片。然后,它将消除获得更高智能的瓶颈。所以,感觉我们正在朝着那个方向前进。
我们刚刚在谈论这个话题。那么,我们接下来要如何利用这些数量级?从那时起,山姆告诉我,他实际上想要达到四个数量级。
目前这些模型的表现是前所未有的,每周都在进步。你知道,有些事情,可能一个月前还做不到,现在却做得非常好。这听起来像是历史上一个非常疯狂的时刻。
欢迎回到另一期《光锥》节目。我是加里,这是贾里德、休和黛安娜。在白帽公司,我们投资的企业价值超过6000亿美元,每年投资数百家企业。
所以我们正处在观察创业公司和AI将如何发展的边缘。最近,山姆·阿尔特曼写了一篇非常大胆的文章,预测AGI和ASI将在数千天内出现,我周一就看到了。他实际上直接估计,大约在四到十五年之间。你们读过这篇文章吗?你们怎么看?
是的,我读了。我认为我们拥有独特视角的地方之一在于,我们亲身见证了OpenAI的早期发展。我基本上是从YC出来的。所以,对我来说,读这篇文章很酷,因为它与20和50年代山姆谈论的想法完全相同。
当他开始OpenAI时,他一直在谈论这件事,从我认识他开始,一直到2015年,他这么说的时候,听起来有点像疯子,而且很少有人认真对待。十年后,事实证明他是对的。实际上,我们比2015年任何人想象的都更接近AGI。现在,这听起来一点也不疯狂。所有这些听起来都完全有可能。
我的意思是,这篇文章本身是我读过的时间最长、技术乐观主义的文章。他说的有些事情非常疯狂,比如太空殖民地、解决气候问题、随时随地获得智能、解决能源问题等等。我认为他基本上是在描绘一个由人类智慧推动、解决所有物理学问题的未来。
是的,山姆一直都是一个有远见的人,我记得他刚开始OpenAI的时候。激励他这么做的原因之一是他相信,当AGI能够比人类更好地进行科学研究时,我们将能够加速所有科学领域的科学进步。
因此,这是我们加速所有科学领域科学进步速度的一部分动机,我认为这与一年前山姆在我们的批次中演讲时非常相关。这早于OpenAI公开发布之前,在OpenAI的秘密工作中完成。他最兴奋要谈论的就是赋予GPT更高级的推理能力。我认为这是因为,它缺乏实际进行科学研究并加速技术进步的能力,它需要具备以下三点:
其中一件特别重要的事情是,如果你读过关于它的论文,它谈到了它如何真正想要设计芯片。我记得大约一年前,有一场关于我们是否会拥有类似于IT论证的AGI的讨论。其中一个论点是,在某个时候,AI将变得足够好,可以比人类设计更好的芯片。然后,它将消除获得更高智能的瓶颈。所以,感觉我们正在朝着那个方向前进。
我们想要在展示一个酷炫的演示之前。
运行这个黑客马拉松很有趣,因为我们与OpenAI合作。山姆过来评判了获奖者,其中一位参赛者实际上是芯片设计。这家公司叫Diet Computer。我想我们之前提到过他们。
他们的目标是构建一个用于电路设计的AI设计师。如果我们考虑PCB设计,它有四个主要步骤,而这些步骤中的大部分都是需要大量专业知识的大型昂贵部分。因此,系统设计,如何真正组合其架构?如何设计所有组件,如电阻器、传感器、特定处理单元等?
然后,你需要进行布局、原理图、布线。众所周知,布线是一个NP完全问题,因为随着不同层和情况的出现,会出现干扰。这就是为什么像英伟达和苹果这样的公司需要大量电子工程师的原因,因为这是GPT-4之前的问题。而这家公司构建的系统实际上设置了一些约束条件,能够自动化许多人类必须参与的电路设计。
在某种程度上,简单的布线在那个阶段仍然非常酷。所以他们能够自动化所有这些。但他们现在用OpenAI展示的,实际上能够进行系统设计和组件选择,这太疯狂了。
所以我可以阅读所有数据集,并了解产品如何工作,例如,我想构建一个可穿戴的心率监测器,带有心率传感器和微控制器。在这些约束条件下,并查看数据,它将能够匹配特定的心率传感器、微控制器和心率监测器传感器,并连接它们,最终输出结果。
我们今天正在尝试构建的是可穿戴的心率监测器,例如类似于Woop的产品。旧产品很棒,但缺点之一是它有点慢。所以我们实际上生成了OpenAI能够生成的系统图。
它看起来不错。它有一个USB-C接口,我要求一个心率传感器。这是一个微控制器,所以我会向你展示如何从这里开始。
然后构建PCB。所以我们将构建项目。输出是代码。
我们实际上使用了Outpile,这是一种电子代码语言。你可以看到它将原理图中的所有块连接在一起,就像我们想要的那样。下一步是为电路板生成布局。现在我们可以直接打开它,然后你就可以看到。
电路板看起来不错。仍然需要一些微调步骤。例如,我们可以稍微移动USB-C接口。我们可以改变电路板的形状,但所有这些组件都在那里。然后,由于我们构建的系统,我们可以调用此特定电路板的订单,并实际获得一个完全运行的印刷电路板。
所以,这是OpenAI论文中一个例子,但他们实际上又向前迈进了一步,因为论文中描述的EDA步骤过程是用于电路设计的工具。它通过设计原理图、模拟和调试来完成设计,比以前更容易验证东西,所以然后写出来。所以这家公司实际上超越了论文,因为论文主要关注的是完善和模拟的最后阶段。
我认为这是一个使用不同模型进行不同任务和不同工作流程的有趣例子。所以,为了在开始时选择正确的组件,即使在将其放置在电路板上之前,你可能需要结构化数据,例如PDF文档,并将其转换为OpenAI可以使用的结构化格式。
我认为这是我看到许多有趣产品中常见的模式。你使用不同类型的模型。所以,是的,使用OpenAI进行推理,因为选择组件非常困难。我知道Jet也与许多心血管技术公司合作,而选择特定类型的电机、传感器等需要大量思考。
我认为这个演示的另一个有趣之处在于,在OpenAI发布之前,Dio尝试过用GPT-4来做这件事,但完全不起作用。然后他们基本上尝试了同样的提示,但使用OpenAI,结果就成功了。所以确实存在某种功能能力的飞跃。
当我与他们交谈并看到这些巨大的进步时,他们非常兴奋。
黛安娜,我认为这对于黑客马拉松来说是一个非常有趣的概念。大多数黑客马拉松都是人们构建一些他们计划丢弃的东西。而这个黑客马拉松的酷炫之处在于,所有这些都是实际的YC支持的创业公司,拥有真正的业务,为真正的用户提供资金。他们都在为自己的产品构建实际的功能,计划向真正的用户发布。我认为,看到OpenAI如何为真正的公司解锁能力,而不是仅仅构建玩具项目,这非常酷。
其他一些例子也类似,在OpenAI的推理方面,我认为它很难与Canfora合作。是的。所以,你能告诉我们Canfora能为我们做什么吗?
我的意思是,Canfora的重点是设计猫,但基于OpenAI,它允许你用自然语言创建猫的设计。你只需要输入你想设计的东西,它就会生成猫的设计。
所以,你能为我设计五个优化到每小时50英里的机翼,在5度迎角下,阻力与升力的比值为15吗?这非常具体。
通常情况下,这需要一名航空机械工程师来运行所有这些模拟,并通过方程式来解决问题。你看到了什么?为什么OpenAI能够同时运行所有这些模拟?
所以它实际上有点像SolidWorks的协同驾驶员。
是的,他们最初打算将它集成到SolidWorks中,但他们选择了更具挑战性的技术方法,即构建一个可以在你的桌面上运行的可执行文件,它不会真正打开SolidWorks,而是...
然后开始在UI中点击,假装是人。
你之前看到过,他们展示了数学竞赛,OpenAI实际上能够编写所有这些方程式,所有这些偏微分方程,并基本上解决纳维-斯托克斯方程来解决机翼问题。
这太酷了。在上一期节目中,我们谈论过,你将如何利用这些数量级?从那时起,山姆告诉我,他实际上想要达到四个数量级,以达到千亿美元的支出。我的意思是,这非常疯狂。
但另一方面,你可以看到它可能走向何方。你可以想象,机翼仍然非常令人印象深刻且复杂,但我们可以想象,在2024年,我们能够做到这一点,从而理解物理学的本质。当然,这可能很难在当前版本的OpenAI中看到。但是,如果缩放定律成立,那么似乎完全有可能解决更困难的工程挑战,例如室温核聚变、天气预报等等。所有这些复杂的物理现象都非常难以解决,你需要博士学位来解决这些问题。山姆·阿尔特曼认为,这是OpenAI在链式思维和推理方面的发展方向。
特别是山姆谈到训练智能,以及这个新时代的智能,然后OpenAI论文只是...我认为这个想法是,现在你实际上可以提供反馈,而不仅仅是输出,以及你得到正确答案的地方,而是关于如何到达那里。你基本上是在教模型如何思考,并提到推理轨迹。
我们将回到过去,并微调各种步骤,例如每个输出,以确保模型的思考方式,我想这与一年前的AGI讨论非常相似。一旦你能够开始教模型更好地思考,会发生什么?这不仅仅是输出正确的答案,缩放定律只是为这个问题提供更多计算资源。现在,你可以将计算资源投入到影响步骤和迭代中。
你实际上可以投入更多资金和时间,并获得迭代改进的结果,这类似于你可能期望的人类科学组织。甚至可能更一致地每天改进。
你想谈谈架构以及他们如何创建OpenAI吗?
我认为很多灵感...
来自你...
多年来一直在做的工作,从OpenAI的开始。我认为很多灵感都来自他们在Dota上的工作。
记住,在OpenAI之前,GPT以赢得视频游戏比赛而闻名。这是第一个重大突破。
另一方面,我想,当时我以为自己做出了什么,我席卷了世界。我的意思是,也许只有研究界才知道,但它并没有什么实际用途。但令人印象深刻的是,它击败了许多顶尖的DOTA玩家。所以DOTA是一款复杂的游戏,需要资源和计划,对吧?他们实施了许多强化学习类型的技术,我认为我们也从早期阿尔法狗和零开始受到启发,因为一个软性的游戏不仅仅是强迫它,而是实际上拥有一个改进功能,并尝试解决问题,甚至这就是为什么人们如此热衷于Q学习,因为我说,其背后的基本原理已经存在于家庭中,关于我们背后的一切,所以是的,就像……
因为DOTA,他们非常擅长强化学习。这就是他们让它工作的方式。他们只需要让它自己玩上百万场比赛。然后我该如何与之联系?
所以,我认为这里有一个很大的飞跃,因为你如何将它融入到GPT类型的模型中?G、P、S,所有这些都是基于预测下一个标记、模式,然后检查这些资源是否正确而生成的。
所以,我认为很多时候,你必须拥有大量事实正确的数据,并将其输入到训练模型中,并拥有一个奖励函数,让它对输出进行更深入的推理,并确保其正确性。所以他们很自豪地做了很多有趣的技术。这实际上有很多秘密,我们可以做的推测之一是,有很多非常准确、正确的信息……
以及科学问题等等……
这就是为什么它在那些方面表现得如此出色……
我认为有趣的一点是,加里,关于缩放定律的观点,很多人真的专注于模型的下一个规模,比如现在正在训练的GPT五系列模型,人们正在研究它们,它们即将发布。
但我认为人们可能低估了这个其他方向的巨大潜力,因为有两个研究方向同时进行,对吧?一个是直接提高基础模型的规模。然后,这个方向,就像一个完全正交的研究方向,你通过强化学习来改进模型,同时尝试在现实世界中做事情,并做得更好。
到目前为止发布的版本,它仍然只在一个小范围内。如果你看看预览,抱歉,如果你看看发布时的性能,比如即将发布的完整O1模型,它比O1预览版有巨大的提升,这使得所有这些令人难以置信的结果成为可能。哈文·萨姆只是告诉我们,O2和O3不会落后太久。所以,我认为人们可能低估了这项工作将带来的巨大突破。
是的,我知道每个人仍然非常谨慎。我的意思是,从某种商业角度来看,这是一种新方法,我认为代价很高。他们实际上创建了一个新的数据集来训练思维链。它本质上是一个大型数据集,包含给定任务的行为。
你能把它分解成部分吗?嗯,你知道,有趣的是,这与杰克·赫勒为案例税收发现的原理类似,如果给定任务给一个模型,它会波动,或者你知道,不一致地给出你想要的输出,你试图通过许多方法来改进该提示,你需要将其分解成步骤。所以有趣的是,JX的处方实际上有两部分,你知道,一个是将其分解成步骤,另一个是评估。听起来,对于O1,思维链将取代工作流程,所以你可能不需要自己将其分解成步骤。但是评估仍然非常重要,即使在与杰克·赫勒的对话之后,听起来一些YC的创业公司也在联系,说那次对话帮助他们找到了一个巨大的突破,很多人都……
只是在正确地解决他们的问题。
他们必须,你有一个你所合作的公司的一个例子,他们达到了百分之百。
是的,只是按照杰克的建议去做,就像拥有一个非常大的评估集,并非常小心地测试你的推理流程中的每个步骤。
所以,我现在的一个理论是,最终,如果你将其应用于创业公司,我的意思是,这是每个人现在都在问自己的问题之一。你知道,好的,GPT五即将到来,可能还有四倍的规模,可能会有数万亿美元花在更多的训练上。这太疯狂了。
你知道,如果我是一家创业公司,或者我试图做垂直领域,或者我试图建立自己的业务,我该怎么做?我的理论是,这是事件,你编写一万个测试用例。你唯一能获得这些测试用例的方法,这些是正确的、有价值的数据,而不是那些常见的可用数据,就是你实际上知道这是我们当前许多公司正在做的事情。
他们正在努力进行销售。他们正在嵌入并以某种方式秘密地进入这些有时非常无聊、有时非常复杂或神秘的工作。你知道,从应收账款一直到如何进行财务会计或特定账户的会计,这都是各种各样的东西,这些东西并不容易获得。嗯,你几乎可以说,任何在互联网上公开可用的消费者数据,都将包含在基础模型中。所以,你的创业公司最终的目标是所有其他不在线的东西,无论是案例税务、律师事务所,也许是科学或设计机翼,你试图找到的是在某个用例、某个垂直领域中拥有独特数据的测试用例,这使你能够构建一万个测试用例评估,然后这就是价值所在。我的意思是,这只是一个疯狂的理论,但可能就是发生的事情,一个有趣的……
对创业公司的含义,因为你刚才说的所有内容,嗯,也许值得思考一下,哪些客户会为你最终的精确度和完美性支付高价,我认为像营销活动这样的例子实际上是一个很好的例子,在业余爱好者中,对这种文本到图像的设计存在很多兴趣,所以人们想要快速地建立一些东西。
嗯,市场上也有一部分人,他们正在设计飞机部件,那里没有容错空间,或者O1现在让它更容易或更容易地达到目标,达到80%的完成度。但我认为,最强大的技术团队可以选择走完所有步骤,并针对那些想要百分之百准确性的客户。你会为此付出很多。
总是,总是要走完所有步骤。
但我认为有趣的是,为什么人们会强调O1,或者说人工智能是否会让很多工作自动化,从而降低拥有强大技术团队的重要性,这对我来说似乎不太可能。这似乎……
实际上,很多……
所有价值可能都将由那些能够建立在现有基础之上,并抓住最后10%的精确度的最强大的技术团队来获取。嘿,太好了。
我认为承诺在于评估,以及围绕它的Y层和集成,因为承诺本身对公司来说并不是一个可以实际使用的产品,他需要将其整合到他们现有的工具中。它需要一个通过UI、工作流程和所有工具来使提示有用的界面。
好。然后是分发,对吧?你如何接触到人们?你如何建立你的品牌?然后一个非常好的模型是切换难度,实际上。
一旦你拥有所有数据,并且它正在运行,你正在支付数千美元或数万美元的客户价值,有时甚至数百万美元到数千万美元的客户价值,嗯,你知道,这将很难切换。所以所有经典的创业公司原则仍然适用。你知道,这仍然是软件,但你可以解锁这种能力。你知道,这是一个时刻。你知道。
另一个要强调的关键点是,在O1的世界中,这一点仍然适用。当创业者想知道如何在O1之上构建最佳产品时,这一点仍然适用,并且我们与杰克·赫勒在节目中讨论的所有内容都适用,因为这些公司很难……
与你合作。我们谈论的是他们做了……
我们发现的背景故事……
对于一个完全不同的想法,比如一个印度创业团队,最初他们正在帮助印度高中生申请美国大学,但他们……
非常出色。我、T、A、I工程师、研究人员。
我只是说,我们只是觉得,这并不是一个好主意。人工智能正在改变世界。你看看你在大学或学院所做的研究,它与模型的特定统一性非常吻合。
最初,它甚至不是帮助印度高中生申请美国大学的人工智能版本。
这实际上就像一个YC的故事。这两位显然非常聪明的工程师。我们一点也不喜欢这个想法,但我们应该找到他们,并希望一切顺利。他们最初提出的想法,他们为此筹集了资金,是帮助公司微调开源模型,使其达到与当时OpenAI相当的性能。但是,我认为我们发现,这些并没有成为伟大的业务,因为模型的成本下降了,开源模型的性能提高了。
你不需要像人们想象的那样进行很多微调。
因为模型会变得越来越好,这有点像押注于不同的方向,让我们相信这些模型会变得越来越好,这不需要太多的微调。
是的。所以他们又转向了,嗯,就像找到一个版本,就像我们现在真的很擅长人工智能,我们就像词语专家一样,找到这些模型的学校水平性能,并找到它的应用,他们转向了人工智能客户支持,这就像竞争激烈的领域。但我仍然认为,如果你是一个技术团队,你仍然会找到方法来在该领域中与其他团队相比获得相对优势。这就是他们失败的原因。
客户支持的问题在于,你处理的是非常棘手的问题,客户可能出错的方式太多了,这太大了。
这看起来很具有竞争力。但问题是,几乎没有采用,就像世界还没有用人工智能取代所有客户支持代理一样。我们都能看到这将发生,但它还没有发生。所以,从那个……
时间点来看,就像我上次与ML团队交谈时,我发现,缺乏采用部分原因是,基于规则的系统在大多数简单案例中运作良好,人们不相信你可以构建足够好的AI来解决真正混乱的问题。
所以,大多数被推荐使用人工智能客户支持代理的公司,嗯,嗯,你实际上不能完全解决那些占用大部分时间的棘手问题。基于规则的系统对其他所有事情都运作良好。所以,我记得他们第一次提出这个想法时,人们只是觉得,嗯,基于规则的系统运作良好。但现在看来情况并非如此。
是的,因为他们现在有一些非常可靠的……
客户已经接受或注册了。
所以,上次我与他们进行办公室时间时,他们说他们每天自动处理了3万张票。所以,你知道,我认为这比之前有超过1000人处理这3万张票要好得多,每天30张票。
然后有趣的是,一方面,这可能是人们在思考人工智能时,都会有点担心的事情,你知道,这些工作会消失吗?而关于客户支持工作的有趣之处在于,它并不是一项有趣的工作,我认为员工的流失率大约是几个月,你知道,大多数客户支持代理只希望在那里工作六个月或更短。所以,这实际上是一个有趣的案例,当你遇到一些非常糟糕的事情时,它实际上正在取代那些有时并不是真正好工作的重复性工作。嗯,你知道,希望这些人能够利用他们的时间和聪明才智去做一些更有意义的事情,而不是做那些……
为错误的订单道歉……
完全正确。
但O1的疯狂之处在于,正如你所说,它很苛刻。之前的实现,在O1之前,是GPT加上规则,等等,它无法处理大多数情况。它大约有70%的错误率。现在,他们所做的是,就像杰克·赫勒所描述的那样,在黑客马拉松中非常努力地使用评估,他们将错误率降低到只有5%,这代表着数量级的改进。
另一个方面也很令人难以置信。这是那些复杂的事情,需要大量时间和成本才能完成,它们基本上就像零错误率一样。这就是他们销售时遇到的问题。
这是人们……我实际上想自动化所有这些我们想要自动化的事情,这些都是非常复杂的边缘情况,会浪费大量时间,他们只是……他们可以……我应该做任何事情。但是现在,我达到了85%的准确率,而这仅仅是O1预览版,对吧?所以,从0%到85%的准确率。
我从0%的准确率提高到了85%的准确率。
是的。这里有趣的是,o1 甚至还不是正式版本,只是一个预览版。而且,这是一个全新的技术,我认为他们目前正在努力保护自己的优势。所以,如果你在 ChatGPT 中使用 o1,它看起来会告诉你真正发生了什么。
但显然,他们有一个虚假的模型,只是吐出一些东西,让你觉得它将问题分解成步骤,而他们实际上已经隐藏了这些步骤,因为他们不想让其他人现在访问这些数据。嗯,下一步似乎需要一些解释服务、一些目录,然后才能发生这种情况,我想知道 o2 是否最终拥有这样的功能,就像你想看到,好的,它会展示工作,展示步骤,就像那样一步一步。第三步,我们可以重新运行这个吗?但我希望它能以这种方式分支或进行编辑。
我认为这将是下一个突破点之一,现在,它有计划输出解决问题的步骤,但你无法编辑。想象一下,现在,今天,o1 可以输出解决问题的 15 个步骤。现在想象一下,能够编辑每个步骤。然后你就能进入超级、超级高级的下一阶段。
所以,这就是这些模型目前所能达到的极限,现在这一刻。你知道,每周都有事情发生,你可能一个月前还做不到的事情,现在你却能做得很好。所以这听起来像是历史上一个非常疯狂的时刻。
所以我们一直在谈论哪些公司和想法会从这个模型改进中获得提升。哪些想法不会从 o1 中受益那么多?也许人们甚至应该,因为他们已经接近了,可能会因为 o1 或 2 或 3 的改进而被淘汰。
我不会完全建议他们应该放弃,但我确实认为正在构建 AI 编码代理或 AI 程序工程师的公司,可能会需要重新考虑,因为这个 o1 似乎在解决编程问题方面表现出色。我过去见过一些团队,我知道很多。
他们投资的是支持这些功能的链式思维基础设施,而现在 o1 并没有真正为他们带来任何飞跃。他们已经投资了这些基础设施。所以我想……
我认为这可能是链式思维的本质决定的结果。一旦你让它朝着某个方向发展,这实际上,坦率地说,是用户和代码生成器正在努力解决的问题。即使现在,一旦它开始沿着某个路径前进,你真的无法像你想要的那样改变它,比如问它,嘿,你想让我这样还是那样做?你知道,所有系统现在都在努力应对这个问题。
我本来想问一个相反的问题。蒂安娜,就像每个新模型功能都会开启一批新的创业想法一样,一年前,人们尝试的创业想法,比如 AI 代理打电话,根本行不通。我们有很多公司尝试过,但所有公司都失败了。
而今年夏天,我真正开始关注过去趋势的影响。比如,任何与打电话相关的项目,现在都在蓬勃发展,因为模型终于能够正常工作了。所以,随着这一系列新模型的出现,哪些创业想法现在可以连接到萨姆?
萨姆,很多事情都将变得更好,因为在物理世界中,它非常擅长数学和物理。因此,任何围绕机械工程、电气工程、化学工程、生物工程等领域的工作,都将极大地改善我们的生活。我认为,正如我们从演示中看到的,这些领域正在快速发展。
这令人兴奋。我的意思是,我可以帮助人们更快地完成一些事情,但我们必须关注那些真正为所有人创造实际丰盈的东西,这可能只是我们社会中对 AI 的恐惧,然后技术需要尽早地引导我们进入这个丰盈时代。
如果我们能做到这一点,那么丰盈将会战胜恐惧。因此,我想我们这周的《光锥》节目时间到了。我们下周再见。