We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

E191｜小而美的机会来了，聊聊这轮AI Agent进化新范式

2025/5/16

Shownotes Transcript

嗨大家好欢迎收听硅谷 101 我是红军进入 2025 年以来 AI Agent 可以说进展很快我来给大家简单复盘一下今年上半年的一些进展 1 月份 OpenAI 推出了能够自主使用浏览器的 AI Agent Operator

2 月份推出了研究复杂任务的 Deep Research 我相信很多人到现在可能已经是这个产品的深度用户了那 3 月份中国第一个号称通用 AI Agent 的 Minos 爆火出圈 5 月份 Minos 拿到了硅谷老牌风险投资公司 Benchmark 领头的 7500 万美元的融资除此之外就在我们第二次播客录制的当天也就是 5 月 6 号 OpenAI 宣布以 30 亿美元的价格收购 Winserve

另一款编程工具 Cursor 的母公司 Anisfil 也获得了 9 亿美元的融资估值高达 90 亿美元

为什么我们说 AI Agent 在 2025 年一开始就好像被按上了加速键最近我也跟业内数十位从业者聊天发现了三点原因第一是模型写代码能力的提升比如说 Answeropic 去年年中发布的 Sonic 3.5 在代码生成方向有质的提升由此它是带动了一批写代码的 AI Agent 的快速发展像我们上面提到的 Windsurf 还有 Cursor 的这些公司

第二点是 RFT 强化学习微调技术的出现这项技术让即使训练数据在有限的情况下也可以提升模型在特定任务中的表现这也给 Agent 的发展按下了加速键另外 2024 年 11 月底 Anthropic 还提出了一套把传统的信息化服务转变成可以和 AI 交流的一套 MCP 协议

越来越多的网站与服务开始接入 MCP 行业底层基础设施也开始搭建我们今天这期播客的第一次录制是在 3 月初那个时候 minus 还没有推出我们尝试从技术的角度去理解大家在 2025 年提到 AI agent 的时候跟我们之前所说的 AI agent 有哪些不一样我们也尝试着盘点一下我们刚刚提到的这些明星 agent 崛起的核心关键点

那今天跟我们在一起的两位都是大家的老朋友一位是 Midiverse 新石宇宙的创始人陶芳波 Hello 芳波你好 Hi 宏军对还有一位是在大学生聊 AI 那期里面非常非常火的还被很多的听友认为是机器人的 ColantoHello Colanto 你好 Hello 大家好 Colanto 的中文名字是侯泰宇他现在是在纽约大学本科念应用心理学

同时也是一位 AI 的创业者克兰托你最近是花了多少时间在 AI Agent 上最近可能每天都在用各种各样的 Agent 自己因为会开发一些小的产品所以会在用这个 Replet Agent 也可能会用一些 Cursor 这样的 Coding Agent

然后我自己平时也会去研究很多不同的 agent 但可能我研究的类型更多偏向于 agent builder 就是那些造 agent 的地方比如说像微软的 Copilus Studio 像字节的 Codes 等等的这种能够帮助你制造出来更多 agent 的平台对然后我记得之前其实我们也一起讨论了怎么一起去造一个写播客 show notes 的 AI agent 所以你自己是造了多少个 AI agent

已经太多了可能 200 个得有如果说算上不同平台上的因为我自己平时可能会用很多不同的 IDE 来在不同的场景比如说之前有跟宏俊姐分享我们那天录完播客之后其实突发奇想想做一个 AI 生成播客的东西而且当时也发现在平时生成 show notes 的过程中很复杂有没有可能能够用 AI 来帮忙做一个提取

所以基本上你是遇到了一个场景然后你就会去尝试对对对因为我感觉其实今天我还在跟我的朋友讲时代变了尤其是如果你知道怎么做产品你开发一个产品的成本变得越来越低甚至有点恐怖了我觉得 OK

OK 那方波呢一方面我自己用很多 agent 尤其是 coding agent 我每天都在用但同时呢我可能没有造过那么多 agent 但是我是做 agent 平台创业的所以我造过造 agent 的平台之前那个平台呢最早是做一个平台叫 MindOS 还是蛮多人用过的它的

它就是造那种通用的专业性的 agent 但是现在呢我们更多的 focus 专注在一个新的造 agent 的平台叫做 Second Me 第二自我它其实是一个开源的平台而且也会马上就发布了大家可以下载到自己的本地就可以把能够代表你自己的 agent 给造出来我觉得 agent 真的时代来了我们的整个 agent 各种各样的基础设施的组件在慢慢的 ready 马上就要组合成新的一个世界了你的

你觉得什么是 agent 我的视角更多偏向于是机器学习的视角它的确和大众语境下的 agent 是有一定的差别的就机器学习里面的 agent 其实在我的学习和研究的过程当中我们最早接触的是在强化学习里面的一个概念

就是在一个强化学习的环境里面一个 agent 可以基于环境的反馈自主地学习出一个行动的策略从而完成它的一个目标比方说我们知道夏威夷的 AlphaGo 在强化学习的语境里面它就是一个典型的 agent

但我感觉大语言模型来了之后 agent 这个词的意义的确是它有点被泛化到那种偏大众语境去了现在我们对 agent 的概念就是它第一是更像是一个人可以独立地完成任务

第二是它背后是由一个基础的大约模型或者带有思考能力的像最新的这种推理模型来驱动的第三是它可能有一个它自己的记忆的体系第四是它有跟用户的一个交互的界面比方说我们刚才看到的 WindServe 和 Devon 两个都是典型的 coding agent 或者 replit 但是其实它们都有各自的交互界面有的可能直接是在编程的环境里面给开发者用的有的可能更像是给老板用的

他可能会直接完成网络的搜索或者说完成了一个测试的过程但我觉得过去三个月吧在发生一个很有意思的融合最早的我们说的强化学习的 agent 第一是他的技术肯定是偏向于强化学习的第二是他真的会在环境当中去学习那么我刚才提到的大语言模型下绝大部分 agent 是没有这个学习的能力的其实他对于行业的认知对于任务的认知是由创造这个 agent 的人来配置的

比方说我给他配知识库给他配 workflow 但是现在呢越来越多的 agent 尤其是思考模型我们说的那个 reasoning model 出来了之后很多人开始用一种新的叫做强化学习微调的技术去让这个 agent 在大语言模型作为基础的情况下也可以在环境当中探索实现的路径

去学习在一个特定的比如领域比方说法律或者说是操作电脑这些特定的领域下他也有一个自主学习的过程所以我觉得这是一个非常非常好的一个现象就是相当于我们对于 agent 的发展又到了一个新的定义它其实结合了传统的强化学习里面对于 agent 这种自主学习自主探索的能力

加上他在大众语境当中觉得他可以完成通用的任务可以跟人交互可以帮你独立地解决复杂问题的这种目标这就是为什么 2025 年以来其实大家对 Agent 非常的兴奋 23 年 24 年其实 Agent 这概念就出来了就像我们也做过小 MindOS 这样的 Agent 平台但它更像是一个脚手架现在真的觉得 Agent 有智能了尤其是通过强化学习通过思考能力的注入觉得它达到了我们想要的技术办事的状态

你能不能举个例子就是你怎么觉得 agent 有智能了我不知道大家理解中的 agent 是怎么样就是最早你说的那种强化学习中的 agent 就跟我理解的大家在训练一个游戏场景的 agent 比如说让两个小人推方块然后他们怎么样去设计能把自己围起来不让外界的这个东西打到他们你会不会觉得

你会发现它们慢慢会涌现出智能就是它们能有各种可能我们人都没有想到的方法去做这样的一些题我印象中其实早期在 23 24 年的时候大家其实都是在一个游戏的场景里让这些 agent 互相配合来看它们的表现怎么样那现在你说 2025 年因为强化学习加上跟操作电脑的结合就感觉可能会有更多领域的 agent 了就是我理解的 agent 就比如说我告诉一个语言模型说

我现在要回北京然后帮我订一张机票他能从头到尾把这一套执行完我可能会限制比如说给一个时间跟地点他会偏向于早上的时间段直飞就是他能把这一套动作做完我可能就称之为他是一个很好的 agent 了就你觉得你提到的这个 25 年的 agent 跟之前的这些有什么不一样呢你刚才两个比方都答得特别好其实你提到的 agent 本质上都还是带有环境的

我指的它那个变化或者让大家兴奋的原因还是因为一个底层能力的变化原来呢大语言模型其实它是有一个很大的限制的就是它的训练啊无论是我们用的预训练还是就 post training 就后面的那些训练包括我们还会用 RLHF 这种所谓的具有强大学习来帮它去做人类对齐的能力但事实上呢原来的语言模型训练的环节当中是不带有和环境互动的

这就导致了一个现象就是他本身训练的目的就是为了跟人对话而不是为了跟环境互动虽然我可以强行让他作为一个脑子然后去跟环境互动但是原来 23 年 24 年的那种 agent 我们是尝试给他一些工具使用的能力给他增加一个机库让他去在环境当中完成任务但由于他在训练的过程当中没有跟环境互动所以他是非常机械的他并没有办法在环境里面真的学会怎么样去应对这个环境

你刚才提到的两个例子比方说两个小人在一个比赛场里面互相对打看他怎么能打得更好他就是一个典型的在环境当中学习的一个 agent 这就是传统意义上的枪娃学习的 agent

原来我们 23 年 24 年为什么 agent 概念很活但是一直没有很好的落地就是因为环境的缺失导致的那现在回过头来呢从技术上讲我们拥有了一种新的能力比方说你去看 DeepSeek RE 的那种文章你会发现他最后的那个推理能力的训练本质上是他自己和一个问题环境的自主学习的过程并不是像以前我们通过 SFT 给他一个死鸡硬背的知识库

他给了一个问题集和一个他最终的结果但是他怎么去解决这些问题是 AI 像人一样他自己通过思考训练的过程完成的就他自己不断在调整自己的策略调整自己的思考路径然后学会了我怎么样解答好更好的数学题或者解答好更好的编程题这个自主寻找路径解决他的这个过程在以前的训练里面是完全没有的

所以这个我们可以称之为是大圆模型的 alpha goal 的时刻简单讲就是大圆模型真的学会基于一个环境给出的奖励来自主地找到解决方法了

就为什么以前其实很早的时候 23 年 GPT-4 刚出来的时候很多人就说我要用这个模型来操作电脑然后也有很多公司去这样做过但是为什么都失败了呢就是因为这个模型在训练的过程当中根本没有在电脑操作的环境里面待过它只是把互联网的语料喂进去了

所以他可能有一些操作电脑的概念但他并不会真的执行这个行为那为什么 OpenAI 推出那个 operator 相对来讲好像就比较聪明一点就 operator 是一个可以操作电脑的一个 AIL 虽然还不够好他的做法就是我在训练出一个大圆模型了之后尤其是一个推理型模型了之后比方说 OE 然后我再让他在操作电脑的环境里面再去做强化学习有点像你说的那个小人打架的那个感觉或者是下围棋那种感觉

然后再去环境当中去学习怎么样操作电脑可以完成你说的订酒店订机票的这个任务如果没有完成我到底错在哪了我应该怎么去调整我的行动策略那这个事是其实过去半年才刚刚发生的

所以这件事情完成了之后 agent 能够在环境里面更好地完成任务更自主地去思考更自主地去提升自己我觉得就变成了可能了所以 2025 年之后大家就又开始兴奋说哇可能 agent 真的来了他不仅是说 AI 具有了一个思考能力而是说他这个思考能力可以根据环境的反馈来调整来学习这就是一个 big gap

能举一个具体的例子解释一下环境吗我的理解是以前我们问一个问题我们会得到一个正确的答案而加入了环境以后我们再去问一个问题把它放在不同的场景下这个时候我们寻求的不是一个正确答案而是一个符合当下场景的回答我的理解是这样的比方说有一些领域里面它的整个工作的环境是有特定的系统和特定的工具的

编程就是一个很典型的例子编程光靠浏览器是无法完成的它必须有一个比如说 IDE 然后有一个测试的工具测试这个程序能不能跑然后有一套部署的工具同时还要知道怎么去访问 GitHub 去使用开源然后访问一些编程社区看某些问题怎么来解决连它这个环境是对于一个工程师来讲它是非常熟悉的但对于普通人来讲这个环境它就是不熟悉的

所以对于一家创业公司来讲如果他找到了这个环境他就要想办法把这些环境变成一个他所训练的 agent 在操作的空间然后给他定义好一组有效的非常少量的数据给他定义好一组有效的奖励函数那就是一个典型的例子所以编程的 agent 一定是需要公司重新来训练的而不会是大公司说我做一个 agent 所有任务都可以完成

那么有没有类似编程这样的案例呢我觉得是有的比方说法律医疗或者说至少我认为一个评判它的金标准是所有我们认为在现实世界里面是有一个专家他有自己的一套武器库的这样的一个专家才能做的任务有方法论的比如说怎么做硅谷 101 把这档节目做出来如果我有这个方法论我就可以训练一个我的 agent

对甚至你有可能你自己在用一些你特有的工具在找信息那么这些工具其实就是我所需要的环境的一部分这样就可能构成了一个很小的环境包括 Palantir 它不是做军事吗军事里面就有很典型的环境因为它可能要去操作一些武器那这个武器操作的环境就是它特有能够访问到的你有用过 OpenAI 的 operator 来做比如说订酒店订机票的事情吗对我玩过我拿它来买过菜

在哪买菜网站上吗对就是美国那个买菜的网站突然忘了叫什么名字了能不能讲一下你的应用体验然后分析一下它背后的执行的技术是什么这是很好的问题就 OBI 其实它推出了两个 agent 的模型而且这两个其实都是刚刚我讲的就是基于这种新一代的强化学习和大预言模型融合的微调技术来做的分别是 operator 和 deep research 其实他们都是从 OE 微调过来的那么

那么 operator 的体验呢很有意思就是他会在服务器端给你开一个浏览器界面然后你其实是通过浏览器来完成这种操作的你就告诉他说我要去买一个杭州到旧金山的机票但是我要找最便宜的他呢就开始拆分任务去试各种网站看网站给出的价格的反馈然后拿回这个结果之后再继续进行思考然后再去想下一步是什么其实这就是一个比较好的 agent 但他那个速度很慢准确率其实也不够高

但我相信它一定比之前我们直接拿 GPT-4 或者直接拿原始的 OE 去做这个任务会好很多因为它的做法是比如说我把操作电脑这件事情分成几个简单的行为比如点击鼠标然后键盘输入然后打开浏览器的一个新的 Tab 或者搜索谷歌它把这些基本的行为定义起来其实我们仍使用电脑完成一个任务尤其使用浏览器完成一个任务的时候基本上是这些序列的一个动态组合

那么他就把这些序列的使用作为思考过程的一部分

因为 OE 模型不是能思考吗它就用常用学习的微调的方法去微调这个思考的过程使得它思考过程当中不只是在大脑内部想一个步骤而是真的把这些动作也作为一个思考过程的输出然后它一旦有一个动作发现了它就会停止这个思考过程然后去操作这个动作然后看这个动作之后返回的信息是什么比如说网页呈现了什么信息然后再拿回到它的这个思考过程来然后继续

思考所以他相当于是把思考执行反馈继续思考这个环节做成了一个连续的环节

而这个环节以前在上一代我说的基于大模型的 agent 里面是只能通过人的 workflow 的定义就是人对于工作流的定义但是人定义出来的工作流绝对是不灵活的因为他没有办法假想这个 AI 在做这个事情的时候环境会给他什么反馈所以他往往是死板的不灵活的其实他是不智能的从某种程度上来讲所以这个是一个很大的变化包括

包括 deep research 也是这样的就是你会看到他会先去检索检索完了之后发现有些东西回来跟我的信息假设不一样那我可能要再去检索或者我要做一些冲突的解决对吧因为信息源之间可能他的描述是冲突的所以这个其实是把他的思考过程和他在环境里面的行动的能力再把从环境当中的反馈拿回来继续思考的能力结合在一起我觉得这是非常让人兴奋的

你刚刚提到的 OpenAI 的 operator 用电商订菜应该是它是跟 Instacart 合作的对不对对我刚用的就是 Instacart 对 Instacart 它是有集成在 OpenAI 的 operator 里面的比如说你让它去做一些订票的行为它是把整个步骤分解成四步比如说搜索比价选择支付四个阶段它其实也会分解包括比如说你真的要到信用卡的弹出环节了它还是会有一个人工验证的环节

就是你觉得他这个 agent 的智能性跟你还是在做一个 workflow 他的核心的区别点在哪里呢这个是一个很好的问题我觉得人类在做任何事情的时候其实他都有一定的 workflow 比方说点餐厅就是先要打开网页然后看然后比较但是他和我们上一代我只是说像我们之前做的那种 agent 或者说是像 Cos 这样的 agent 里面的一个巨大的差别是

上一代的 agent 需要你把每一步都告诉他

而且是它的步骤其实是跟环境甚至有的时候是无关的就比方说我会告诉他你这一步就是要打开三个网站就是要找到最低的价格就是要在里面找完价格之后一定要点击那个按钮其实有点手把手教的意思但现在的 agent 他在强化学习学习的过程当中他其实学到的是一个大的完成任务的框架而非很细节的一步一步的操作指南

它只是学会说 OK 我大概需要去找几个网站尤其是当你告诉我我需要比价的时候我大概需要去找几个网站但事实上它都是生产的它背后并没有一个真正的 workflow 它相当于把这种 workflow 用一种更灵活的方式学到了整个模型的参数里面去那么它整体上就会有专业性的一个使用的操作但是它对于这种动态变化的灵活性又会高很多

如果真的发现比如说一个网站失败了举个例子它打不开了它可能就会发现它说这个网站可能下线了或者说是它故障了那我再试一个别的网站像这样的能力在以前的 workflow 是不太可能出现的只有通过一个参数化的智能才可以临场去做反应基于反馈去调整它的策略这其实是人本身很自然的一个能力对不对但是上一代基于弹幕性的 agent 其实做不到的

对那 Deep Research 跟 Operator 它相当于是不同方向上的 AI Agent 它的底层技术会有什么不一样呢就是它训练的数据集和它的能操作的工具集不一样

比如说 operator 它的操作集是我使用电脑的那些技术操作对吧比如点开一个 Google 搜索然后去搜索一个关键词或者是用手鼠标点击一个按钮或者在一个框里面输入一段文字它应该是定义的一组最基本的操作集所以它是基于这组操作集上的数据来进行微调的

而 Deep Research 它的操作集其实是各种各样公开信息的检索库里面的一些检索能力它是把各种不同的检索能力组合在一起但是背后的目标定义会不一样然后它的使用的工具集又会不一样但是它训练的过程是一样

都是用一种叫做 RFT 就是强化学习的 funtuning 的技术来做的对简单说一下 RFT 它其实是在 2024 年 12 月底 OpenAI 当时在一系列的直播活动中也就是他们当时搞各种圣诞大礼包的时候第一次去公开了 RFT 的训练流程还有技术细节

那我看从今年开始就已经有很多的公司他们把这个 RFT 技术强化学习微调技术用在 AI Agent 的训练里了我刚才突然想到我用过一个 Agent 但它有点不太像一个 Agent 它有点像是一个环境它叫 Scrappy Barrel 应该是怎么拼 S-C-R-A-P-Y-B-A-R-A 我非常喜欢它它的 slogan 我有点忘记了类似于 A computer for your agent

他给你的 agent 做了一个 computer 因为他们发现一个问题就是比如说现在 agent 你可以编代码你可以分析数据你可以执行各种复杂任务但是你这个能力虽然在增强但是你缺少一个关键要素就是你需要一个安全的你也需要一个可拓展的环境能够让这些 agent 能够真正采取非常 concrete 的这些行动但是现在的解决方案就需要让很多学界的人或者是让一些工程界的人去选择比如说第一种选择是你使用 API

但 API 是有限的且不灵活那第二种情况是你使用浏览器浏览器是不是很稳定的但这个 Scrapy Barrel 他们认为你不要在自己的计算机上运行 agent 他们应该给你创造一种类似于虚拟环境他们为你的 agent 打造一款适用 agent 的计算机他们应该是通过 API 去提供一种及时安全的虚拟环境你可以几秒钟就启动有点像是那个 operator 我当时用它帮我买过秋裤在 Amazon 上对它就很快能创造环境

你刚刚提到了买秋裤是一个应用场景它的 agent 主要是服务于什么应用场景的他们官网上之前应该有写过比如他们给这些销售开发代表你可以用 agent 来查找这些潜在客户信息应该是可以跟这个 salesforce 集成你可以所有操作都在 scrappybarrel 上完成

所以这是一款硬件吗还是一款软件一款软件他们是 YC 去年刚投的 OK 但是它里面是有环境的就是它给 agent 创造一个虚拟桌面你可以在那个虚拟桌面上去执行所有东西就开头就是一个输入框你进去之后你可以直接输入你想让他干的事情他就会基于这个截屏他们后面应该也接了那个 cloud 的 computer use 对

我了解市场上其实大家想做这种编程的工具跟编程的 agent 可以说几十家都是有的比如说最早的从大家直接用大模型来编程到微软的这个 Copilot 到 Cursor 到 Devon 它其实是在一直迭代的那为什么是 Cursor 跟 Devon 这两家公司做出来了

它比其他人好在哪是因为它更深度地理解了这个环境吗还是因为它只是做得早然后很快地占有了市场对因为我是几乎每天都会用 Windsurf 或者说是 Cursor 的平 T 吧类似的因为 Cursor 现在也在快速迭代但在我使用的过程当中其实 Windsurf 会更好用一点我觉得你刚才提的那个问题非常非常的精准就我认为 Windsurf Cursor 或者说是更进一步的 Devon 本质上就是对于环境这件事情的理解比别人要到位

比如我举一个 Windsurf 里面的例子,Windsurf 并不只是一个简单的对代码的插件,其实它特别理解环境里面我要怎么样去获得上下文,我的行动空间是什么。所以在 Windsurf 刚推出来的时候,它自己内部就有一个帖子,一个它内部的引擎说,他们公司最擅长的第一是做了一个 context engine,

他非常知道他所操作的代码空间里面数据在哪里测试在哪里文件在哪里配置在哪里他对这个环境是有一个很清晰的认知的第二是因为以前我们最早用 cursor 写的时候他只会写代码但他不会帮你跑命令行

它不会帮你去互联网上搜索但是 WindServe 在过去几个月的版本里面是有这个功能的也就是它也知道我的这个环境里面不仅仅是在写代码我还要去作为命令号里面去执行一些文件操作我这个环境里面可能还有一个面向是可以去互联网上找到相关的技术文档拿回来做参考你看它把针对 Copilot 这类的编程工具的环境边界就扩大了很多

Devin 他的野心更大他从第一天开始的时候就是说我要直接把 IDE 取掉我根本不在 IDE 里面去考虑环境的问题他上来就做了一个大概有四个子界面的一个窗口左边开着一个浏览器下面开着一个 IDE 上面开着一个和用户交流的空间然后在底下可能开着一个类似于测试环境然后他不仅做了这几个他说我的环境是要比 IDE 大得多并且也细致得多

同时呢它还有一个功能我当时觉得特别好玩就是因为它的目标是让一个 AI 可以更完整的完成一个软件工程的闭环所以它这个时间会很长时间特别长了之后呢大模型它就理解不了所有过程当中所有的行为然后它就有一个区域就有点像人一样比如说我开发一个比较长的事情我要记笔记而且我这个笔记要不断的修正所以它还在自己的环境里面专门加了一个笔记环境那么这个笔记环境就好像有点是它的一个策略式作战式

就他有什么新的思考他就丢进去然后过了一会儿他可能有一段时间他不是在写代码或者在检索他可能在修改他自己的笔记来优化这个笔记当中的一些问题或者优化这个笔记里面对于这个系统设计的一个架构我觉得就非常非常吓人了其实就人会自主创造一些环境让自己来学会怎么在这些环境里面去叠单

那么这个其实也是一个很有意思他们给了一个范例也可以加入到整个 agent 的一个武器库当中来就是我的环境里面可以加入到一个自己思维的一个空间那他们就是因为做了这个所以大家就觉得这个市场本身足够大因为全世界每年的软件工程环我觉得是 4.2 万亿美金的一个市场吧同时他们又对 compact 对 environment 的理解更好所以他们就跑在了前面然后就那么多的热度

这个分析挺有意思的我问一个可能普通人更关心的问题就是刚刚其实大家有提到说现在如果大家要去做一个 AI agent 的话其实环境已经比数据更重要了我

我可不可以理解成只要你对一个方向有非常深度的理解任何人都可以去构建自己的 AI agent 它可能已经成为了一种创业门槛没有那么高的一个创业项目之前可能是大厂的机会但是现在它的门槛降了很多它其实具有两面性

它的一面是因为我们要做一个 AI agent 做好它我们用这种 RFT 的方式可以去大大减少对数据的依赖所以我的可能资本的投入各种各样的算力的投入相对来讲就会少一些

那么这的确是对的但是我其实最近一直也在思考一个问题就是我对于 agent 创业不是特别乐观的一个点是在于说如果那么多人都可以来做 agent 他如果做的还是服务型 agent 到底有多少 agent 是值得被重新做的就尤其是消费者团就 C 团的

举个例子就 deep research 出来像以前我们可能做学术的有很多学术的工具然后做市场调研的有很多市场调研的工具但是 deep research 这种通用的 agent 至少把做信息的调研和研究这件事情似乎可以通过一个 AI agent 完全覆盖住

那么因为人的需求本身是分几个大块的嘛那也许啊就是说 operator 他也不只是帮你买菜和订餐帮你制定旅行的 plan 他也许可以覆盖到 100 个场景但是你想这以前就意味着 100 个不同的创业项目现在就变成了一个 agent 就可以解决了

所以在消费者端 agent 创业到底有多少的机会我其实是有一点点怀疑的你觉得它会被模型冲击到吗就是大模型或者说它会被大厂和大模型公司在一些非常大的领域上给占住他们的位置然后剩下的一些很小很小的机会它的创业的机会会比原来的移动互联网时代创业机会要小很多所以这个时代其实是更适合做小而美的因为大的机会巨头会去做对

而且每一个机会的边界会比原来的边界比如一个软件产品或者一个 APP 的边界更容易变得更大

所以每一个被大厂占住的机会它其实可以覆盖住人的需求和注意力的空间会更大我现在其实在想说就普通人在参与到这个新的时代里面他的机会到底在哪里后来我就想到一个很有意思的一个案例就是微信和抖音在移动互联网时代它分别推出了公众号平台和它的抖音那个视频的平台对不对

那其实平台级的机会这两家完全已经拿住了就创业公司可能要去做这种平台级的机会很少那普通人为什么在这样的时代里面他依然还能赚到钱呢你会发现这些平台上你也得想办法去表达自己的个体性

所以就会有很多自媒体网红他就可以利用这些平台去做一些新的东西所以我还是认为我们如果只考虑 AI 它的工具的生产力的提升其实它对于很多人来讲的确是剥夺了它原来的那些价值的

我没有想清楚这个形态但我觉得就是说当 AI 形成网络之后可能会有一波新的个体被释放的机会出来然后那个时候可能会有新的创业就好像现在其实很多做 influencer 的其实他自己也可以是一个小的创业对吧然后他自己做的 agent 比如说他做的是一个表达自己的一个 agent 那么他有他自己独特的市场但你说我要做一个服务于很多人的 agent 我觉得机会是很小的

行业在快速上升融资也在快速发生但是我发现嘉宾的心态却发生了很多的变化真正在做 agent 的人发现问题也越来越多我们下面来听一下第二次的声音

我

我记得是有一天早上然后我看到了 Manace 发布然后我当时有 Inventation Code 基本上我可以算他们第一批适用的用户我自己去用的时候我是有很强的 Aha moment 因为之前有用过类似的产品比如说像 Replete 或者是 Cursor, Windsor 其实他们在某种层面上都有相同的这种用户路径但是跟 Manace 有不一样的用户体验因为我自己是一个比较重视觉的人所以我会觉得

Mannis 的 UI 做的挺好看的有一种 notion 的风格这是我最开始的第一印象后面我自己也有很长时间去用 Mannis 做一些 use case 比如说用它做过很多的网站我记得前几个月它还不能把一些网站 publish 它只能是单纯做一个网站然后不能发布到他们的 usergathering 里面去但是现在他们已经可以支持你把它变成一个永久的网站而不是一个暂时的网站然后可以发布到他们的社区里面去

我可能用这些功能比较多我也挺喜欢他们的记忆功能跟 OpenAI 的不太一样因为拆 GPT 它也上了这个 Memory 然后跟 Gemini 的 GlobalMemory 也不太一样它更多的是给你两个条件一个条件是当用户执行某些指令的时候这是第一个语句然后第二个是 Mannus 进行什么操作但是如果你看 OpenAI 的这个 Memory 的话它更像是以 RAG 的形式存了一条属于用户的信息在那

它并不是像 Mindless 指令对这样的存储方式所以在正常交互上 GPT 不会有给我作为用户那么强的感知因为我给 Mindless 存了一个指令也是我用在所有的 AI 产品中的一个指令就是我希望它能够在我给它下达任何命令之前一定要先问我尽可能多的澄清性问题要先跟我对齐

因为我觉得 AI 跟人之间对齐的问题是非常重要的但是显然现在很多 AI 跟人是不对齐的 Mines 它其实记住了我这个指令它能一直不断地在执行任何任务之间都在跟我对齐但 GPT 它其实一直没有记住我觉得这是基本上两方面从 UI 和一些功能上面我对 Mines 使用的体验所以你觉得其实它打动你的主要还是在产品的设计上你

你用它的主要的场景就是写网页你觉得它能做出来的产品你用其他的 AI Agent 的工具它可以做到相同的程度吗哪个更好我可能得澄清一下就是写网页是最后的一个载体然后我可能用它的比较多的场景是让它帮我上网大量的扒资料就是做研究但不是学术研究

比如说有段时间我在思考一些关于比如说生物方面或者是一些脑科学方面的一些知识但是我懒得自己在所有去要搜所以我就会让 Manas 变成我的助手然后让他帮我在所有的地方去搜索这些信息然后最后汇总过来一个报告给我们

因为我最开始在用 Mines 的时候我总觉得它有一些信息的量非常大但里面的质却有点低所以我就在想 OK 也许 Mines 更适合做的不是深度的工作而是广度的工作那什么场景需要广度工作呢可能我觉得是那些当我需要快速进入一个领域的时候这些 scenario 会是我比较常用的所以有些时候因为平时我会自己看很多产品我需要了解更多新的这种领域所以我会用 Mines 帮我做这么一个基础的广度的研究

这些场景是我用的比较多然后最后把它变成了一个可交互的网站因为视觉也挺重要的很多时候一些表分析图尤其是市场的一些分析图呈现成网站的形式会更好看一点因为我想做这个 case 是因为当年我看了他们 demo 上有一个对特斯拉股票分析然后那个就是做成了一个网站然后我觉得还挺有意思所以我每次都会让他帮我把它生成成为一个可以被交互的网站

你为什么用 Mainnet 不用 Deep Research 还是说这两个你用的场景是不一样的因为你刚刚用的那个功能其实我觉得跟 OpenAI 他们推出的 Deep Research 是非常相似的首先有两方面第一方面我觉得 Deep Research 等的时间太长了而且等的时间其实我是非常焦虑的然后我也看不到他在干嘛但是 Mainnet 很好地做了这个处理就是他能展开告诉我他每一步 OK 我现在调用网站了然后我现在在干什么东西包括我可以随时打断他

但是 Deep Research 说实话我没有打断过它可能也是能被打断但是 Manus 我可以更灵活去打断它比如说很多时候他们有一个 Jump to Live 的功能就是能够让你直接接管电脑然后你代替 agent 去浏览某些网页然后告诉他该看哪个地方就是这功能是我很喜欢的我会经常点这个 Jump to Live 包括中间我觉得哪做错了我可以打断它然后我也能知道它是这块现在在看网页现在在写代码

它更白盒相比于 OpenAI Deep Research 然后对于 research 来说其实我需要更强的可塑源性所以这两个工具你更喜欢用哪一个从你个人来说我个人更喜欢 Mainless 我也确实用 Mainless 比 Deep Research 更多方波呢我觉得他们做的有几件事情非常好的因为原来我们在做一些 agent 包括 Deep Research 其实它只是在调用一个搜索引擎但是 Mainless 找到了一个更通用的行动级的组合就是 Coding 加 GUI 加上命令行

他们相信这种中间的行动集合它是可以像把爪鱼一样的去渗透到各种各样的工具的所以你就不用一个一个去集成工具一个一个去集成网站

然后他们在 coding GUI 和命令行上去做他的整个 agent 的行动的规划和行动的能力目的肯定是为了通用但是真正你做的时候你就会发现第一大部分人在用 Manus 还是在比如说做网页做 deep research 或者说做一些简单的 PPT 的展示其实它还是属于人群里面比较狭窄的一个使用的部分

所以其实它并没有破圈它更多是一个比如白领人群在日常要做素材的过程当中或者说做一些信息研究的过程当中去做的但更泛的人群比如说他怎么来帮助人去笔货或者在小红书上寻找信息其实这些他都还没有破圈那我觉得这破圈里面一方面其实我觉得跟这个产品交互有关系包括这个 AI 的能力可能还没有那么通用但其实我们后来也在反思一个事情就是说所谓的这个通用 agent

它的限制到底是来自于模型还是工程还是来自于别的我觉得更大的限制可能是来自于这个数据的壁垒

因为今天人本身作为一个通用 agent 它的行动范围很广但是它由于人本身作为一个验证的 token 它可以进入到任何环境里面去的但是 AI 可能就没有办法进到你的小红书进到你的各种各样的环境里所以当这些关键的人在使用了关键的孤岛性的节点我们已经被打断了之后其实它的能力范畴就会受到很大的限制

嗯对刚刚其实你有提到三种能力一种是模型的能力工程的能力还有数据壁垒的能力然后你觉得未来可能在真实的用户的实验中数据壁垒是一个非常重要的点跟核心竞争力但其实我是听了 Mainos 他们的创始人张涛分享他是怎么做出来的

他觉得他们其实做出来他这个产品能引爆的一个核心点其实是 Cloud 的 Sonic 3.7 这个模型的发布同步呢我也看了那个 Cursor 的创始人他们在 Lex Friedman 博客上的一个采访他其实也提到了这件事情就是他们觉得比如说这种自动写代码的 AI Agent 能火 Cursor 能火也是因为整个大模型跟模型能力的提升为什么我们现在觉得 Copilot 它看上去是一个有一点点 old 的 AI Coding 的 Agent 了

是因为它其实没有根据这个模型的升级及时把他们的产品做升级但归根结底大家觉得所有 agent 它的爆火它的突然出圈可能最重要的还是这个底层模型它能力上的提升对我非常同意一个是说大模型本身能力的提升带来了它智力的提升对吧那智力越高肯定对一件事情的理解力就越强但更重要的一个点为什么大家都在提 Sonic

是因为 coding 你可以理解为是一种通用的行动的空间 coding 非常非常强我们的这个数字世界是为代码适配过的由于 coding 这么一个通用 layer 的存在使得你可以几乎写出任意的代码来操作任意背后的数据和环境那么 Summit 为什么厉害其实不只是它智力高而是它是第一个 crack the coding problem 的模型

它让几乎所有的任务在用户的指定下可以通过 coding 这个中间层变成了操作背后数据和其他能力的八爪鱼然后这个对 agent 来讲是巨大巨大的提升所以你刚才讲的 cursor 或者说是 manus 它会非常非常 appreciate 这个能力

但是我想说的这个说数据的问题因为毕竟我们这个环境里面哪怕只是数字环境里面你会发现很多平台很多数据壁垒是通过 coding 无法越过去的比如说我真的要去让他通过一些代码来访问任何一个人的 Facebook 的情况那我就获得不了那么今天这个时间点来看我觉得 minus 还是有很多事情包括任何 agent 还要成为通用凡是 coding 能接触到的东西他们都可以纳入进来但是如果 coding 都接触不到壁垒就不行了

对所以你觉得像 Cursor 还有 WindServe 这些 AI coding 的 agent 它可能最后反而是最容易杀出来的成为一个通用的 AI agent 甚至它可以成为一个应用非常广的巨型的 agent 吗它今天已经有这么一个趋势了 Cursor 和 WindServe 它已经加了一些自定义的 MCP 的接口

也就是说对于专业的人来讲虽然他看上去是个写代码的他甚至可以把你的 notion 加进去他甚至可以把你的各种各样的别的平台的 mcp 加进去让那个 AI 不只是在编程他甚至过程当中也在做类似于 minus 这样的事情来编辑你的 notion

对,因为我最近特别喜欢用那个 Cloud 的 Sonic 的做图,就是它有一个很好用的功能,我觉得很多人可能不知道啊,你可以给一段你的话或者给一段你的逻辑关系,它是可以帮你生成一张类似于 PPT 的一个非常漂亮的表格的,然后它就是通过 coding 的方式完成的。

我一直想说,Mainless 其实它有非常强的对模型的依赖我们是想发展出来一个很好的趋势就是模型越强反而我越强,而不是模型越强然后我就没了因为之前不是有一段时间 GBT 在疯狂更新吗很多 YC 的 AI 公司全都不行了因为他们构建的方法可能不太对我其实觉得 Mainless 也有一些方面的依赖比如说它的能力是外包的它智能能力基本上全部都是托管给大元模型比如靠散热器等等比如你的任务理解,工具调用等等

我猜测这也是他们为什么要有 imitation code 因为有成本和不稳定性的问题比如说你的模型升级 API 波动然后还有一些延迟的问题包括你的输出幻觉其实都会成为你在产品层的一个不可控的变量因为我自己的本质是做产品经理我也在想就是从产品侧该怎么更好去解决这个问题就是姚顺宇他写了一篇文章就 RL 有三个东西一个是算法一个是环境然后还有一个是鲜艳的知识嘛

另外他觉得 evaluation 是比 training 更重要的我当时看到他说这句话的时候我是非常认同的然后包括我记得咱们三月份在录那期播客的时候然后我记得咱们聊到一个话题就是环境是不是优于数据的不过我现在可能更想探讨的是为什么 evaluation 那么重要在之前我去把很多 AI 产品做好我会过度聚焦在 prompt 工程或者是我在挑选什么最新大模型但其实我觉得真正决定产品质量的是对你系统效果的可衡量性的一种判断机制也就是 evaluation

如果比喻一下的话就是 prompt 是那把武器但是 evaluation 是你的准星因为一个 AI 产品它不可能靠一次成功的 demo 就活对吧它是要靠持续的迭代的所以 evaluation 会是你唯一可以量化每次产品你变更后效果的一个工具

但是它又跟传统测试不太一样你需要非常灵活和语义化的系统然后现在基本上就只有三种一种是 human evaluation 你好处就是你与用户的偏好直接相关的对吧然后你有人类的语义理解但是局限性也很明显现在有很多论文都在讲 human evaluation 就是你的反馈很稀疏然后很不精准而且你的成本很高所以就有人做出来了 code based evaluation

它很快速然后又便宜它比较适用这种代码生成类的模型但是它局限就很明显你很不适用语义很复杂或者是用户的交互很丰富的应用现在最新的论文在讲的点应该就是 LM based 的 evaluation 就是纯自动的

也就是说让模型不但能够生成东西又能够评估自己的表现它自动化程度会变得更高所以我会在想如果说往后发展很多这种 AI Agent 让他们活下来并具有一定的竞争力其实 Evaluation 是非常必不可少的一个能力中心应该从一开始就建立一个系统性的 Evaluation 框架

Mindless 显然有很多模块对吧你的意图识别你怎么调用工具调用 API 然后怎么生成其实都需要单独定义一个 Evaluation 的逻辑它不是一个附加测试它应该是整个 Agent 框架的一部分因为类似于 Dev Operations 就是 AI Agent 应该有自己的这种 Evaluation Operations 就你的任何一次响应生成执行都应该过一次评估机制最终你可以发展出来一些比如通用的这种 Evaluation 模板库然后你把它扩展到一些新任务上面

就有点像是 Fenix 这种开源框架你可以抽象出 evaluation 的模块然后你附用到不同场景上比如说有 summary 然后有 reg 然后有 coding generation 等等我觉得这个可能是后面一个很重要的部分对我觉得说的很对尤其是要面向于真实环境的 evaluation 未来的 AI 产品管制上可能都是 agent 产品 agent 产品首先我们上次提到的是先要关注环境

那么在环境之上其实我就要关注怎么去 evaluate 它在这个环境下的表现但如果我们可以把这个 evaluation 上升到 reward 那么这个 reward 我们具有一个可重复生成的特点那么在这个环境上的 evaluation 是一个 reward 那么 AI 在自己在探索自己优化的空间的时候它就可以有一个可以随时参照的 reward 去对齐或者去学习

那这个可能是接下来的 agent 产品更加重要的思考的一个路线对 evaluation 确实是一个很重要的问题也让我想起另一个技术问题就是关于 RFT 强化学习微调与 SFT 监督微调这两种方式的区别

在 OpenAI 发布 RFT 的技术以后我知道现在绝大部分的 AI Agent 的创业者他们都会选 RFT 的方式去做因为效果更好但是其实我们跟一些更加老牌的做 Agent 的创业者聊他们会觉得 SFT 它其实是更节省成本的一种方式因为 RFT 的效果可能会比 SFT 好一个 25%左右就现在做出来大概是这样一个效果

但是在成本上那可能是几倍的增加那我们需不需要为了一个 25%的效果因为你的 agent 推出来你可能是有一个大规模的用户去使用的嘛来去付出更多的成本还是说先用 SFT 去节省成本大家怎么看我听说 Minus 他们团队内部是用的 SFT 的技术

这是一个很好的问题就是 supervised fine tuning 还是 reinforcement fine tuning 我认为技术圈在慢慢地往 RFT 去迁移至于 Mainless 为什么当时没有用 RFT 呢是因为 RFT 的发布本身也没有多久而且 RFT 是要调背后的带有思维链的模型的如果他们选择了用 SunnetSunnet 是不允许你去微调它的

所以他们所谓的用 SFT 调的其实并不是他中间做思维链过程的那个 model 他其实是用 SFT 我估计他们是在调比如说那个 computer user 的 model 其实他们在调他们的手而不是在调他们的脑子其实洪俊杰我还想再补充一个小点对我其实觉得 Mines 有几个就是挺明显的困境我觉得

我记得他们最早能报除了一方面像涛哥讲到的他自己说到的可能 Cloud 327 出来了然后模型变得更强他们做出来这么一个产品力很强的产品也被带动了但我觉得还有另外一方面就是他们把自己定位成了第一个就是 World First General AI Agent 这样的一个定位他们要去抓用户的一个心智

但是这个东西我觉得是一个非常双刃剑的事因为你抓了用户心智但其实 generalist 这样的一个定位其实是很悖论的就是你能做任何事情听起来很强但是用户永远不会想一个什么都能做的人来帮自己做这件事情就是通用性它其实更等于没有第一的联想场景等于没有心智位置

所以他们最开始抓这种新制更像是一种 hype 就是我抓到了那些 early adopter 他们觉得 OK 挺酷的但是你后面该怎么做呢可能这是一个很强的双刃剑的问题就是定位上然后另外就是其实我觉得对于 AI agent 这样的产品你的认知启动成本其实是挺高的因为通用 agent 的学习和使用都需要用户来理解 agent 的能力边界是什么以及就是 agent 是怎么表达的就

就它比你单纯去按几个按钮是更难学会的因为许多用户他根本不知道我该说什么这也是我觉得现在业内聊了很多的一个问题因为我现在用这种 LUI 的产品说实话我都不知道该怎么去提这个问题然后我该怎么说让他能怎么做这也是为什么我之前讲到就是可能我会倾向于让他来问我来跟我澄清然后我再回答他的问题再来到我觉得最重要的一个弊端点吧就是网络效应

我觉得可能 Manus 的网络效应是断裂的因为通用 agent 是没有统一场景的也就是说你难以形成一个平台级的 flywheel 它不像 Notion Slack 它是有组织单位它不像 Ins 对吧它是有一个社交结构的现在 Manus 其实有很多的这种 user gallery 对吧用户上传的 use case 反馈和数据分散所以它难以构建一个正反馈的机制所以我觉得这三点可能是很大的一个问题然后我也对应的想了想一些比较有意思的策略

因为其实通用的这种定位历史上其实有挺多人栽过跟头的比如说有一个产品挺老了就是在 09 年时候它叫 Google Wave 它是一个集合体 Google 现在还有没有我不知道了可能已经被删掉了它集成了邮件 IM 协作文档还有一些可发布东西的平台

但它失败的点就是用户根本不知道它是啥也不知道拿它该干嘛现在我猜也没多少人知道这个产品了但是我在挖掘以前 Google 的一些产品的时候 Google 有个坟墓那坟墓里面找到还找到了 Google Wave 但后来这些功能它被切分了切成了现在的 Gmail 然后 Doc 和现在的 Chat 其实我们能看到就是都是从通用的一个定位然后慢慢切成更加垂直现在我也能看到 Mindless 有一些动作包括 Cursor 也有一些动作就是他们都在全球办了很多的活动

我觉得这是他们的一个策略就是想通过 Community-led Growth 的方式去更好的接触用户了解用户到底真正需要什么垂直场景的东西以沉淀更好的 Use Case 以及 User Scenarios 最后为他们找到方向然后让 Mindless 往这些垂直的领域去走避免 Google Wave 这样的产品的出现我觉得这可能是他们在通用上面怎么解决的问题

你刚刚提到了 AI Agent 如何表达比如说你提到了一个例子就是你让 Agent 来问你一些问题这是一种它的表达方式在你现在试用过的这些 Agent 当中你觉得有哪些 Agent 它的表达是非常好的或者它的交互是非常好的我其实觉得还是 Replete 因为它能非常好的在我需要它来跟我澄清的环节来跟我进行澄清其实我还想再提另外一个产品就是它有可能是 Mass 的竞争对手它叫 Fellow

这个产品也是最近才新发的它是一个 Agentic Browser 是这个谢阳做的它里面很符合我的一个语气就是它在执行任何的任务之前然后它会更可视化地给我对齐对齐完之后呢我就可以让它自己去运行了

因为它是 PC 端所以它其实是有系统级权限的在每一次有高危的操作的时候它会过来找我它会系统级直接给我弹窗比如说 OK 这块需要你登录一下 OK 这块需要你输个密码但 Manus 经常会由于没有这样的对齐由于这样的高危操作场景它其实没有权限所以它会直接卡在那儿一方面可能直接消耗干净了我的 credits 另外一方面可能直接没有完成任务所以我觉得就是像 Fallout 和 Replete 它们都会在关键的场景让 Human in the loop 我们来跟它进行对齐

对因为其实我们今天聊 AI Agent 也是一个比较大的话题就我想问一下你们觉得现在在你们用过的 Agent 里面从整个的用户使用体验包括我们从商业判断这个产品商业前景的角度有哪些是你们特别看好的公司吗我个人认为今天这个市场上还并没有出现一个真正的说是全人群全通用场景的 Agent 产品

但是我觉得大家其实还是在找一个角度切进去我比较看好的一个实话实说还是 Cursor 它是从技术人员的角度切进去但是我觉得我们都低估了 Cursor 作为一个未来的通用 agent 的潜力很多人对 Cursor 的印象还是一个做 vibe coding 的一个工具或者说是来辅助编程的一个工具但随着 MCP 这样的基础的建设 Cursor

科瑟西很积极地在拥抱把它由一个编程工具变成一个可以开放性地连接各种场景应用数据的一个平台

我坐在想是不是有一天它这个界面都会改掉也许它不是一个纯 IDE 的界面或者它会有一个模式一种是以 IDE 为中心我的目标还是做代码的产出对吧另外一种可能是代码产出只是辅助的我的目标其实是为了完成任务美国公司其实做这些事情的时候就有一个特点就是它会先搭一个比较 solid 的底层然后一层一层往上 layer 的上面去建设我比较看好它们

为什么是 Cursor 不是 WindServe 呢因为在我们今天录播客的时候外媒还传出一个消息是 OpenAI 打算 30 亿美元收购 WindServe 然后 WindServe 它也是一个很好的代码工具对就是它们其实差不多吧你想表达的是这一类不独指这家公司对对对但是 Cursor 它的整个市场渗透率还是更高一点

他毕竟还是在 Windsoft 之前更早做出了这个形态嘛所以我比较相信他们团队在探索上的那种进取心吧 Windsoft 被 OpenAI 收购也不代表他我不知道啊也许他跟 OpenAI 也会给他注入一个很强的意志让他变成一个同学 agent 但一个独立的团队我想他的自由空间会更大一点嗯

明白对补充一句就是我觉得 Manas 还是有机会的他是从办公人群的一些办公场景去切入的也不只是做 deep research 他其实有蛮多做文件处理之类的能力他都有的但我觉得他也是从这个角度去切入正确的做法是慢慢地去拓展他上面的能力集他其实通用 agent 的建设是一个很长期的持续积累的过程

Colento 有吗可能我关注的 agent 产品我觉得非常非常有前景的都是那种特别垂的可能也不是大部分人知道但是它在他们那个领域应该是非常出名这种很好因为我自己是很喜欢用很垂的 agent 的因为我觉得它可以解决一个非常具体的细分的需求对我来说这就够了对我用过超级多很垂的然后我又觉得有几个非常的好极其有前景的比如说那个 VentoV-A-N-T-E-L

好像他全身还火了一下他应该刚刚拿到 YC 的钱了就是他专门给那些商业保险经纪人做的一个人工智能软件就是因为很多那种做保险的人他们 80%的时间都是那种重复性的工作比如说你要做很多保单分析然后你要手动录入很多数据所以他们专门帮 insurance 这类的 user 去做一个自动化流程的这么一个 AI 的 agent 他们自己讲能每周帮一个经纪人省 10 个多小时的时间

然后他们的最开始的 demo 能够让一个经纪人在五分钟就能够比较什么长达几百页富含多少个什么 factor 的保单我觉得那个效果很好我看了他们 demo 然后看了很多 user feedback 就是这个产品挺有意思的另外还有一个是 23 年的时候我很关心他们现在做的也不错他们叫 sweet spot

我一直觉得这个产品未来大有前途因为他们是做 AI for granting 的跟我自己之前的创业小项目非常像但他们虽然是做全球就他们帮助全球的 business 然后以及 NPO NGO 包括一些 SMBs 申请 grant 联邦补助金帮他们读 contract 然后还能帮他们做招投标的分析以及帮他们招投标这个做得非常好就是我当时为了不付钱

我换了八九个邮箱因为他们每次是只给你 48 小时限定时间用最后我联系了他们的 CEO 让他们能不能给我开一个会员因为真的很好用而他们里面的用户体验做得非常好就是前期帮你搜各种的 contract 搜出来之后能够帮你做很深的解读所以他们的 UI 在二三年时候做得就不错了

它叫 Sweet Spot 就是甜蜜点 Sweet Spot AI 是一个粉色的我自己用过一个我觉得还挺不错的也是非常垂泪场景的 AI Agent 是叫 GammaG-A-M-M-A 它是一个可以用 AI 去做 PPT 的设计软件之前大家可能比较习惯用 Canva 但是我用了它以后我觉得它可以秒杀 Canva 我只用给它一个大概的框架

它所有的内容会用 AI 自动帮我生成然后排版假设我小朋友的学校给大家讲什么是 Podcast 让他给我做一个 PPT 五分钟完事而且呢如果你觉得哪个地方你稍微要修改一下你给它一个框架或者你给它一个主题它会直接去生成这样的一套 PPT 它输出的 PPT 你觉得哪里有错误你直接手动在里面改一下然后把它导出就好了我觉得非常方便它排版也很好看

这个很巧很巧就是我是 Gamma 的好像是前 100 个用户因为他们是 2020 年创始的我的账号到现在的快速应该是用不完的我一直用 Gamma 很多人对 Gamma 有印象是像刚才您讲的可以用 AI generate ppt

但是我当年用 Gamma 是根本就没有 AI 的时候那个时候我觉得这个产品非常牛逼我现在所有的 presentation 还有我所有的 PPT 我只用 Gamma 做而且我觉得不是因为它的 AI 功能而是因为它的立体效果对它的设计非常好对对对它是模块化的 PPT 然后把不同的模块可以拖拽到不同的页面上去所以会有很炸裂的视觉效果当时我大概记得是疫情的时候应该是 21 年 20 年的时候看了他们一个 demo 怎么就能够在那种静态的这个 PPT 上啪炸出来一个视频我觉得太帅了然后

然后我觉得一定要用 Gamma 去做个 PPT 然后效果就非常炸裂所以我后面就一直用他们然后他们现在又出了各种 AI 生成的功能我觉得做的是非常完善的因为我知道 Gamma 应该是刚 announce 他们出了 AI 功能但其实 Gamma 它对用户的这种分析虽然他们现在如果不付费的话只能用 10 张但是这 10 张一定是我觉得覆盖到大部分人非常长线的需求了

然后包括它可以对每一页做很精细的微调提供基本上所有的组件甚至它能对你每一个家的图片上面区分你是不是可以商用还是说可以去不同的这个图片库里面搜就是我觉得每一个细节他们都考虑到了对对对它的能力就像你说的不仅仅是在 AI 而是它在整个设计领域包括 PPT 的交互上整个都做得非常好我觉得它在这个垂直领域的积淀还是很深的

是的还有一个是想问一下大家这两个月就比我们上次录 AI Agent 你们觉得就是两个月过去了但是是发展非常快的两个月大家觉得你们在心态或者做事方式上有哪些变化吗

我觉得有非常明显的变化尤其这几个月来讲 Mindless 出来然后各种产品都出来了其实我做事情的这个速度会变得更加的快了当我去横向看很多的竞争对手的时候我会觉得他们的速度非常非常快不管是开源还是闭源世界其实都会要求你对一个事情的执行甚至有些时候要大于你的 planning

因为之前可能我从产品经理角度来思考很多时候我们的第一想法是先去拆解很多东西所以你就会把很多东西想得很细然后你就会长篇大论地写了一堆东西

包括我们传统来讲我们应该写 PRD 但实际上现在我觉得很多公司可能也对 PRD 这个事情是没有那么的重视我们觉得应该打通更快的链路比如说从产品的需求然后到工程的实施所以不但是个人的方面包括在工作场景下我觉得所有的事情都在加速可能跟不管是行业内所有产品的浪潮还是跟这个时代的速度我觉得都是有一个同样的速率吧这是我最大的体验就变快了嗯

对然后你上次说你自己断断续续的其实有做过 200 多个 agent 这 200 多个 agent 有什么你商业化比较成功的吗我觉得他们不能被称之为 agent 上次可能我说应该是 chatbot 我觉得 agent 还没有到那个程度因为我觉得它不够智能或者是它不够动态更像是个 workflow

然后我觉得里面比较好商业化的其实还是我二三年做那个它是一个很长的 pipeline 我们当时服务的是东非的中大型的 NGO 和 NPO 帮他们去申请 Federal granting 因为他们是非常缺这笔钱的所以帮他们从第一步就是做搜索那时候用的是 AI 搜索

因为你一往去搜一个 grant 就是你入口是非常深的而且你需要去抓取各种网页的东西所以我为什么不把他们搜索完之后直接展开一个答案给他们而不是给他们一个结果列表所以这个场景是很适合搜索的所以第一步就是先展开这个结果然后用户可以去选择那些他们感兴趣看完结果的 grant 然后再跟那个 grant 上面的文件进行对话

旁边就会有个 copilot 第三步就是当你用户点击申请之后可能会把你调转到 External 的界面然后你也可以回来在我们的编辑器上面去编辑你的这些文书然后你写完之后我们当时没有做一个协同这么一个功能我们就是让用户自己 download 到本地然后再 copy 去 External 的网站上面帮他们取交申请

大概是这样的一个 pipeline 我觉得那个时候还是人工需要看好每一步的但是后面我做了很多 chatbot 都是我在实习或者各种工作中就是在不同的场景里面做了一堆但是那些都没有对个人有商业化但对公司应该是有商业化的但是都比较分散那方波呢我觉得这两个月你们最大的变化应该是你们 SecondMe 的这个产品 launch 了对我最大的关于整个这个 agent 主题的感受我跟 Colanto 反而是有一点反着的

因为 2025 年年初的时候大家觉得今年是 the year of agent 然后虽然 Manus 发布了虽然 MCP 也在变得越来越火但是我现在反而认为 agent 在 2025 年如果要破茧而出成为一个真的大众型的使用 AI 的一种方式还是有很多很多就是越做你就会发现问题越多

你比如说大约模型今天你会认为就尤其在国内像豆包这种甚至我爸妈那样的人他们都会去用就它其实已经变成一个通用的产品形态了就基于大约模型的聊天机器人

但如果我们说 agent 无论它是有一堆垂直的 agent 组成还是说有那么一两个大的通用 agent 组成真的可以让普通人每天也去用 agent 我觉得距离还蛮大的而且很多问题的解决可能它是一个行业性的解决不是一个简单说哪家公司开发了一个什么技术它就可以解决

我举两个例子第一个例子就是我们刚才提到的因为任何一个 AI agent 它其实本质上它是在桥接用户和环境中间的一个你可以理解为是一个转化器它把用户的需求不断地挖掘出来然后在环境当中不断地转化成行动然后它在不断地进行这个双向通道的沟通

其实环境侧虽然今天有 MCP 但其实 MCP 这个协议还非常的不完善包括它的整个渗透率也非常低它就像任何我们所谓的标准化协议要去渗透一样需要生态去配合的时候你可能对它的预期都是以年维度来计算的而不是以月或者以周维度来计算的

那这是我的一个初步的判断所以我觉得这里面有很长时间的生态的建设要去做那么另外一个就是你们刚才一直在提到关于 AI 到底怎么来问人来获得更好的对你需求的捕捉或者对你偏好的捕捉我

我们虽然发布了开源项目现在大概一共有 92K 的 star 也有很多很多社区里面的人尝试在用我们这个东西但我们发现它也是一个很难的问题就是在未来的这个世界里面人如果真的要去用好 A9N 这个工具他自己就得有一个很好的输出的一个通道

理解确实也是很根本的问题简单一句话跟听众解释一下这个 MCP 应该就是多智能体协作的一套协议对不对也不是 MCP 是一个 AI 的智能体一个 agent 怎么样去访问其他的信息源或者 service 的一个协议它不是 AI 和 AI 之间的是 AI 和一个服务之间的

你刚刚提到有一个细节点就是你说 MCP 它可能也是以年为单位去进化的可不可以简单列举一下就是你觉得它现在带进化的一些点我觉得以年为度来进化第一个点还不是说它这个协议到底有什么特别大的根本性的缺点当然它有很多带提升的地方最大的点是当你说我要这个行业愿意去拥抱这个协议把我的数据开放出来的时候其实很多很多的平台它是不乐意的

因为这数据或者说这个接口本来在他们眼中是一个能够他们商业化整个依赖的一个基础那今天我让别的 agent 可以来通过一种 mcp 型的协议来使用我的接口和数据那里面的比如说 authentification 的问题怎么解决里面的数据隐私的问题怎么保护最核心的是我把数据给你我的商业化怎么保障

这些问题其实今天并没有一个行业的标准去解好现在只是说我有了一个技术的通道在这种情况下我觉得整个 industry adoption 是一个一年为单位去走的一个过程

所以在我看来今天的 MCP 更多的还是一种对于 API 的 AI 化的一个风窗没有到真正的 AI native 的让 AI 能够通过这个 MCP 的扇门进到对方的环境里面去做自由的操作这样一个阶段好的好那我们就先这样谢谢大家好谢谢 OK 谢谢

这就是我们今天的节目如果大家听到这里还觉得不过瘾可以持续的关注我们我们接下来还会推出一期 AI Agent 使用体验的节目而这期节目也很有意思就是我们找了很多 AI Agent 的资深用户和搭建者一边是用户的吐槽一边是搭建者的回应我们可以看一下大家在具体使用上有哪些问题

好的如果大家喜欢我们的节目欢迎在你所收听的音频渠道来关注我们比如说你可以在苹果播客小宇宙 Spotify 喜马拉雅蜻蜓 FM 网易云音乐 QQ 音乐上来订阅我们那如果你是在用视频的渠道来听播客可以在 YouTube 或者 bilibili 上搜索硅谷 101 播客来找到我们我是红军感谢大家的收听

E191｜小而美的机会来了，聊聊这轮AI Agent进化新范式 01:04:11 Share

硅谷101

Shownotes Transcript

E191｜小而美的机会来了，聊聊这轮AI Agent进化新范式