We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The new Claude 3.5 Sonnet, Computer Use, and Building SOTA Agents — with Erik Schluntz, Anthropic

The new Claude 3.5 Sonnet, Computer Use, and Building SOTA Agents — with Erik Schluntz, Anthropic

2024/11/28
logo of podcast Latent Space: The AI Engineer Podcast — Practitioners talking LLMs, CodeGen, Agents, Multimodality, AI UX, GPU Infra and all things Software 3.0

Latent Space: The AI Engineer Podcast — Practitioners talking LLMs, CodeGen, Agents, Multimodality, AI UX, GPU Infra and all things Software 3.0

AI Deep Dive AI Chapters Transcript
People
E
Erik Schluntz
Topics
Erik Schluntz 分享了他从机器人领域转向 AI 领域的经历,以及他如何利用 Claude 3.5 Sonnet 在 SWE-Bench 基准测试中取得 SOTA 结果。他详细介绍了 SWE-Agent 架构、工具设计、提示工程以及模型行为等方面的心得体会,并对未来 AI 代理的发展方向提出了展望。他强调了让模型自主决定解决问题的步骤、设计易于模型使用的工具以及减少集成摩擦的重要性。他还讨论了计算机使用功能,认为它能够显著降低工具使用的摩擦,并为各种应用场景(例如客户服务机器人)提供更便捷的集成方式。最后,他还分享了他对 AI 机器人领域发展现状的看法,以及他对自动驾驶汽车商业模式的质疑。 Alessio 和 Swyx 就 SWE-Bench 的局限性、模型行为、提示工程、代理架构、工具设计以及计算机使用等方面与 Erik Schluntz 展开了深入探讨。他们还讨论了其他代理框架、模型选择、以及如何改进工具和 API 以更好地适应 LLMs 的需求。 Alessio 和 Swyx 提出了一些关于 SWE-Bench 基准测试、模型行为、提示工程、代理框架和工具设计等方面的问题,并与 Erik Schluntz 进行了深入的讨论,探讨了如何改进这些方面以提高模型性能和用户体验。他们还讨论了计算机使用功能的应用前景以及 AI 机器人领域的发展趋势。

Deep Dive

Chapters
Claude 3.5 Sonnet's popularity among AI engineers has persisted despite updates to other models. Its superior performance, particularly in agent coding and tool use, has made it a favorite. This preference is evident in its adoption by code agents like bolt.new, contributing to significant revenue growth.
  • Claude 3.5 Sonnet's popularity has persisted despite newer models.
  • It's the preferred model for AI engineers, even being exclusively used by new code agents.
  • Bolt.new, using Claude Sonnet, achieved $4m ARR in 4 weeks.

Shownotes Transcript

我不用再去编程了,以前的想法是,即使是像烹饪这样的事情,也会让人觉得,哦,天哪,我们需要一个团队的工程师来为各种各样的长尾任务硬编码食谱,这将是一场灾难。所以,我认为关键在于,融入常识能够真正解决描述任务这个巨大的难题。

第二个重大创新是用于路径规划的扩散模型。很多这项工作都来自丰田的研究。不过,也有很多初创公司正在从事这项工作,例如Physical Intelligence Pi,斯坦福大学的Chelsea Finn的初创公司。

这里最基本的想法是,利用扩散模型的一些东西,也许更多的是从扩散模型本身获得灵感,但这是一种基本上可以学习端到端运动控制的方法,而以前所有的机器人运动控制都是硬编码的。你知道,你要么编程明确的动作,要么编程一个明确的目标,并使用优化库来找到到达目标的捷径。现在,你可以只提供一堆演示。

同样,就像使用深度学习一样,基本上是从这些例子中学习。这意味着拿起杯子,就像扩散模型一样,它们在某种程度上受文本的约束,你可以让同一个模型学习许多不同的任务,然后希望这些模型能够泛化,如果你已经训练它拿起咖啡杯和书,那么当我告诉你拿起背包时,它也知道该怎么做,即使你从未训练过它。这就像圣杯一样,你可以用500个不同的任务训练它,然后就足以让它泛化,去做任何你需要的事情。

我认为这仍然是一个很大的待办事项。

这些研究人员已经测量了一定程度的泛化能力。但归根结底,它也像LLM一样,你知道,你是否真的关心这个东西,是否能够做一些在训练数据中没有人做过的事情。对于家用机器人来说,人们真正想做的可能有上百件事。你可以确保它对这些事情有良好的训练,你所关心的就是任务内的泛化,比如,我以前从未见过这个特殊的咖啡杯,我还能把它拿起来吗?模型在这方面似乎做得很好。

所以,现在机器人技术中的两大关键在于,LLM用于常识,以及受扩散启发的路径规划算法。我认为这是非常有前景的,但我认为有很多炒作。我认为我们现在所处的位置,就像十年前自动驾驶汽车所处的位置一样。

我认为我们有很多很酷的演示有效。我的意思是,十年前,你已经看过人们在高速公路上驾驶汽车的视频,在有安全驾驶员的街道上驾驶汽车的视频。但这需要很长时间才能从那里走到。

我今天乘坐了Waymo,甚至Waymo也只在旧金山和少数其他城市。我认为这些东西真正普及并覆盖所有边缘情况需要很长时间。

我认为对于机器人技术来说,限制因素将是可靠性,这些模型确实擅长做这些演示,比如洗衣服或洗碗,如果它们只在99%的时间内工作,这听起来不错,但这实际上非常令人讨厌。人类非常擅长这些任务。

想象一下,如果每100道菜中有一道被洗坏,你不会想要这样的机器人出现在你家里,或者如果你肯定不会想要它出现在你的工厂里,如果每100个箱子中有一个被它移动时掉落并损坏里面的东西。所以,我认为要让这些东西真正有用,它们必须达到非常高的可靠性水平,就像自动驾驶汽车一样。

我不知道让这些模型从95%的可靠性提升到99.9%有多难。我认为这将是一件大事。另外,我对这些东西的单位经济效益有多好有点怀疑。

这些机器人的建造成本将非常高昂。如果你只是想以一对一的比例替代劳动力,就会对你可以收取的费用设置上限。因此,这似乎并不是一个很好的生意。我也担心自动驾驶汽车行业的情况也是如此。

你认为大多数应用实际上会采用一些较旧的,特别是制造机械,这些机械需要非常精确,即使它只偏离几毫米,也可能会搞砸整个事情,并且能够在边缘进行调整?或者你认为新的用例可能更有趣?我认为要取代很多传统的制造机器人会非常困难,因为一切都依赖于这种精度。如果你有一个模型,再次,只能在99%的时间内到达那里,你不会希望1%的汽车焊接位置错误。这将是一场灾难。是的,很多制造业都是为了尽可能消除差异和不确定性。

硬件方面怎么样?我的很多在机器人领域工作的伙伴,他们最大的问题之一是,有时你只有一个伺服系统出现故障,而修复它需要花费大量时间。这是否阻碍了事情的进展?或者软件仍然没有准备好?我认为两者都有。我认为过去几年软件方面取得了更大的进展。我认为现在很多类人机器人公司都在努力打造令人惊叹的硬件。硬件太难了。

这是一件你建造第一个机器人,它就能工作的事情。太好了。然后你建造了十个,其中五个能工作,三个能工作一半时间,两个不能工作。你把它们都造得一样,你不知道为什么。这就像现实世界具有软件所不具备的细节和差异水平,想象一下,如果你写的每个for循环,其中一些根本不起作用。

有些比其他的慢。你怎么处理这个?想象一下,你向客户交付的每个二进制文件,这些for循环中的每一个都有一点不同。这使得扩展和维护这些东西的质量变得非常困难。我认为这就是使硬件变得真正困难的原因。它不是建造一个东西,而是重复建造一个东西并使其可靠地工作。再次,你会购买一批100个电机,而这些电机中的每一个对相同的输入命令的行为都会略有不同。这是你在Cobalt的亲身经历。机器人技术就是关于如何构建一个尽管存在这些差异但仍然健壮的东西。我们无法将电机的公差降低到……实际上是一切。

我的一个恐怖故事是,在Cobalt,那是很多年前的事了,我们在机器人上安装了一个热像仪,它有一个到内部计算机的USB连接,这首先是一个很大的错误。你不应该使用USB。它不是一个可靠的协议。它的设计是,如果出现错误,用户可以拔掉它并重新插入。我明白了。因此,通常情况下,USB设备的设计没有达到你需要的非常高的可靠性水平,因为它们假设有人会拔掉它并重新插入它。你只是说有人有时会这样做。

我听过这个,但我没有听。我真的很希望我之前听过。无论如何,在某个时候,很多这些热像仪开始出现故障,我们不知道为什么。我问团队里的每个人,嘿,发生了什么变化?软件周围有变化吗?硬件设计周围有变化吗?我没有。

我一直在调查所有这些事情,查看内核日志以了解这个东西发生了什么。最后,采购人员说,哦,是的,去年夏天我为USB电缆找到了一个新的供应商。我就像,什么?你更换了购买USB电缆的供应商?我就像,是的,它是完全相同的电缆。它只是便宜了一美元。结果证明这就是问题所在。这条新电缆的电阻略差,或电磁干扰略差。它大部分时间都能工作。但1%的时间,这些摄像头会发生故障,我们需要重新启动系统的大部分。这完全是因为相同的规格,这两根不同的USB电缆略有不同。所以,这些就是你处理硬件时会遇到的问题。对于听众来说,我们有一期节目采访了BU的Josh Albrecht,他谈到了购买数万个GPU。有些GPU根本无法进行数学运算。是的,这是同样的事情。你运行一些测试来查找坏批次,然后你将其退回给发件人,因为它们只是,GPU无法进行数学运算,对吧?是的,是的,这是事情。

现实世界具有这种细节水平。Eric Jang,他在谷歌从事AI工作。是的,1X。是的,然后加入了1X。我偶尔会在推特上看到他抱怨硬件和供应链。我们彼此认识,我们偶尔会开玩笑。我从机器人转向了AI,而他从AI转向了机器人。我的意思是,看起来非常有希望,现实世界的时间是无限的,对吧?但也很难。而且,是的,我确实会告诉人们,为什么使用软件代理的原因是,它们是可以无限克隆的。是的,它们的工作方式总是相同的,大多数情况下,除非你使用Python。是的,我的意思是,这就是整个论点。我也很感兴趣,你在那里透露了一些alpha信息。我不想确保我们不会失去它。就像你对自动驾驶作为一个生意持怀疑态度一样。我想详细说明一下,因为我的意思是,我认为这不应该被忽略。我们确实有一些公开的Waymo数据。Read from Waymo对他们的统计数据相当公开。他们每周的Waymo出行次数超过100次。如果你假设平均每次出行25美元,那就是1.3亿美元的营收。在某个时候,他们会收回投资,对吧?我们在谈论什么?像怀疑论一样?我认为,再次,我不是专家。我不知道他们的财务状况。是的。

我想说的是,我担心的是,与Uber相比,我不知道Uber司机一年能赚多少钱,但称之为Waymo在同一年将赚取的收入。是的,这些车很贵。这不是你是否能实现盈利的问题,而是你的现金周转周期的问题。建造一辆Waymo,与你赚取的相当于Uber司机带回家的钱相比,你能把它造得多便宜?因为记住,Uber司机,你并没有获得全部收入。你想想,对于Uber司机来说,汽车的成本,汽车的折旧。我不相信Waymo每辆车实际上能赚多少钱。我认为……其他任何事情,离别的想法……行动号召……抱怨……地板是你的。是的,是的。

我很高兴看到更多LLM代理出现在世界上做事情。我认为它们将是,最大的限制因素将开始成为,人们是否信任这些代理的输出?你如何信任一个为你工作了五个小时并带着一些东西回来的代理的输出?如果你找不到某种方法来信任该代理的工作,那么它根本就没有价值。所以,我认为这将是一件非常重要的事情,不仅仅是完成工作,而是在可信、可审计的方式下完成工作,这样你也可以向人类解释,嘿,这就是它的确切工作方式,为什么以及我是如何做到这一点的。我认为这将非常重要。非常感谢。是的,谢谢。这太棒了。