cover of episode Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent|对谈 Sheet0 创始人王文锋

Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent|对谈 Sheet0 创始人王文锋

2025/4/19
logo of podcast 42章经

42章经

AI Deep Dive AI Chapters Transcript
People
王文锋
Topics
王文锋:我认为Agent是模型基于环境反馈去使用工具的程序,包含模型、环境反馈和工具三个关键要素。这波Agent浪潮与以往不同,因为它真正解决了实际问题。Agent的发展主要源于底层模型的进步(特别是OpenAI的出现)和Agent工程的突破(构建合适的context)。Context定义了大模型需要利用的所有信息,包括代码库结构、原文件、API、用户输入等。Agent与以往RAG等方法不同,它强调信息来源是通过自动化方式获取的。Function Call、MCP、A2A等方法都是为了给大模型提供更好的工具使用方式,让其更好地采取行动。Agent的工具使用方式可分为代码方式和模拟人类方式,两者并不矛盾,也可以混合使用。即使SaaS软件不支持MCP,开发者也可以通过MCP标准自行包装其开放的Open API;如果SaaS软件没有开放Open API或SDK,则可以使用视觉方式(模拟人操作)来调用。视觉方式虽然准确度不高,但成本低,速度快,token消耗少。使用浏览器方式的成本更低,并能更好地营造用户信任感,让用户看到整个过程。AI Coding是大模型的灵巧手,是其在没有现成工具时的补充工具。未来Agent市场将长期处于通用Agent和垂直Agent并存的时代。强化学习是Agent概念的基础,脱离强化学习,Agent概念就不成立。强化学习中的状态、行动和激励信号分别对应Agent中的Context、Tool Use和结果评估。Agent创业公司需要将产品设计成一个环境,定义好状态、行动空间和结果,才能设计激励信号,让Agent自我迭代。好的Agent产品应该尽可能地减少用户的认知负担,让用户无需动脑即可使用。聊天框是Agent最好的交互形态,因为它能最大限度地提高用户交互的自由度。判断Agent好坏的关键在于其交付的结果(delivered result),而非其功能的多寡。AI Coding可以保证每一步操作的准确性,避免因单步错误导致最终结果错误。Agent开发者需要解决两个信任问题:相信大模型和让用户相信结果。预测Agent未来发展,需关注Context和RLM的突破,以及模型成本的下降。判断Agent公司好坏,关键在于其团队是否理解强化学习,以及如何设计环境反馈的激励信号。选择Sheet0而非其他Agent工具的理由:100%准确率、稳定性和数据完整性。 曲凯:对Agent的理解和分析,以及对Agent未来发展的思考。 [object Object]

Deep Dive

Chapters
本节探讨了Agent的定义,并比较了当前Agent热潮与过去两年的区别。嘉宾王文锋认为,当前Agent能够真正解决实际问题,而过去更多的是玩具。这种变化主要源于底层模型的进步和Agent工程的突破,尤其是在构建合适的Context方面。
  • Agent定义:模型基于环境反馈使用工具的程序
  • 当前Agent能够解决实际问题,过去更多是玩具
  • 模型进步和Agent工程突破是主要变化
  • Context定义:大模型利用信息总和

Shownotes Transcript

活动预告🥳:4 月 26 日,我们会请到 sheet0.com) 创始人文锋做一场线下活动,大家记得翻到 shownotes 末尾查看报名信息!

关于 Agent 这个话题,我自己有一些核心在思考的问题,相信这些也是很多人同样会有疑问的地方,这期播客中我们就这些问题展开了讨论,并基本得到了一些答案:

1)怎么定义 Agent,Agent 最重要的是什么

2)今天的 Agent 和两年前的 Agent 的区别是什么

3)如何简单快速理解 Function Call,Coding Agent,MCP,A2A,Computer Use,Browser Use 等概念

4)不同方式的区别是什么,有什么优劣之分吗

5)怎么看通用 Agent 和垂直 Agent 的区别,终局是什么

6)AI Coding 和 Agent 最终会是一件事吗,或者二者会有什么关联

7)Workflow 和 Agent 的区别和终局

8)RL 这件事在 Agent 里的重要程度是什么,一家公司(尤其是做 Agent 的创业公司)到底该如何使用 RL

9)大模型自身的 Agent 比如 OpenAI Operator 和其他应用产品的区别是什么,最终市场形态会怎样

10)如何快速判断一家 Agent 公司做得好不好

另外,在整段讨论中,本期嘉宾文锋基于长时间对 Agent 的研究和实操,还提出了很多理解和分析 Agent 的框架和关键要素,以及在接近结尾部分留下了让我非常有启发的一句话:AI Coding 是大模型的灵巧手。

人类博物馆】

**导游:**曲凯,42章经创始人

**33 号珍藏:**王文锋,Agent builder,sheet0.com Founder & CEO,连续创业者,有近十年 AI、Data Infra 产品设计和 Coding 经验。sheet0.com) 已开放 waiting list 申请,即将内测。

时光机】

  • 00:47 Agent 三要素:LLM、Context、Tool Use

  • 1:17 这波 Agent 和过去两年的区别是什么?

  • 2:30 怎么理解 Agent 中的 Context?

  • 4:21 快速理解 Tool Use 的不同方案

    • 4:40 代码调用支线:Function Call、MCP、A2A 之间的区别是什么?
    • 6:35 模拟人类支线:浏览器是大模型能调用的最重要的工具
    • 7:07 两条支线各有优缺点,也可以混合起来
    • 10:27 Manus、Devin、Genspark 各用的什么方案?
    • 12:25 Browser Use 的核心价值是给用户提供「安全感」
  • 14:19 AI Coding 和 Agent 最终会殊途同归吗?

  • 16:15 Agent 的终局会走向通用还是垂直?

  • 17:17 脱离了 RL,Agent 就不成立了

    • 19:15 所以 Agent 创业公司该如何使用 RL?
  • 22:54 一个非共识理解:聊天框 + 场景推荐 UI 界面就是最好的交互形态

  • 31:54 Sheet0 是一个怎样的 Agent 产品?

    • 34:15 怎么把任务执行的准确率做到了 100%?
  • 35:39 Workflow 会被 Agent 颠覆掉吗?

  • 36:49 不同 Agent 的核心区别是什么?

  • 39:05 AI Coding 是大模型的「灵巧手」

  • 41:41 Agent 有两大「信任」命题

  • 44:22 分享一个预测 Agent 未来发展的思考框架

  • 47:33 如何快速判断一家 Agent 公司做得好不好?

【Reference】

文锋推荐大家都读一读强化学习之父 Richard Sutton 的《Reinforcement Learning:An Introduction》)

【活动预告🥳】

4 月 26 日,我们会请到文锋做一场线下活动,感兴趣的朋友欢迎点击链接)或扫描下面的二维码,一起来认识&交流!

The gang that made this happen】

  • 制作人:陈皮、Celia
  • 剪辑:陈皮
  • Bgm:Mondo Bongo - Joe Strummer & The Mescaleros