We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

从 E2B 到 Browserbase，Agent Infra 新热点中有哪些大机会？ | 对谈 Grasp 创始人雷磊

2025/6/14

42章经

AI Deep Dive AI Chapters Transcript

People

曲

曲凯

专注于推动AI应用创业领域的发展和分享行业见解的“42章经”创始人。

雷

雷磊

Topics

雷磊: 我认为Agent与SaaS的根本区别在于，SaaS是一种工具，需要人们去使用它，而Agent则直接交付结果。因此，我们应该以对待人的方式来看待Agent。未来，Agent将会越来越多，甚至可能取代一部分人的工作，因此为Agent服务的软件场景将是一个巨大的机会，这个市场也会有很大的增量。曲凯: 我认为Agent领域在经历了年初的热潮后，现在是时候关注Agent Infra领域的机会了。因为各种SaaS服务都可以被看作是Agent，所以给Agent做的产品可能会很有意思。

Deep Dive

Chapters

本期节目讨论了 Agent Infra 的兴起，以及未来 Agent 产品的机遇。嘉宾雷磊认为，未来应该是"人为 Agent 服务"，而非"Agent 为人服务"，并阐述了人与 Agent 在工作范式和责任边界上的核心区别。

Agent 赛道热度持续，下一波机会可能在 Agent Infra。
未来应该是人为 Agent 服务，Agent 是有更高带宽，能接触更多知识和信号。
人与 Agent 的核心区别在于工作范式（单线程 vs 多线程）和责任边界。

Shownotes Transcript

我们今天很高兴请到 grasp 的创始人雷雷跟大家打个招呼吧大家好我也是区卡老师的老观众一直很关注四十二量级谢谢谢谢我是一个程序员出身最早在 google 然后中间也经历了很多创业的过程之后加入了字节跳动在字节跳动打造了一个开发者平台

在 2022 年的时候跟我现在的合伙人我们自己出来创业也是做开发者方向的后面也一直在做 AI 相关的方向最近我们在做一个给 AI 用的浏览器叫 Grasp

对所以我们今天请到雷雷是因为你看我们之前路过文峰那期讲 agent 对吧你们也挺熟的对我觉得 agent 今年这波热潮其实从 minus 开始然后到现在为止也差不多三四个月的时间然后各种 agent 你就有通用 agent 有垂直 agent 有 agent 的平台

各个行业反正很多 SaaS 也可以管自己叫 agent 对就这步骤上我觉得过去的差不多了然后下一波呢也经常有人问我们说觉得后面有什么东西可以投或者什么东西会起来然后我确实觉得给 agent 做的产品这些产品就是给 agent 做的可能这个是比较有意思的然后累累他们正好是在做这一块是你们现在是相当于在做一个给 agent 的

用的测量器对所以你是怎么想到要做这件事首先是这样的就是刚才你讲到很多做 SaaS 的也开始说自己是 agent 其实 agent 跟 SaaS 完全就是两个不同的东西 SaaS 是一种工具你得去用它嗯

但是 agent 它交付的是结果所以我们更应该用一个人的方式来去看待 agent 但是 agent 是一个跟人完全不同的一种形态所以说实际上当你给人设计一个软件的时候和你给 agent 设计一个软件它应该是有完全不同的思路出发点的因为它们有不同的场景不同的痛点和不同的特点那

agent 它會越來越多它會比如說取代一部分人的工作然後帶著人類往前去走甚至以後的創新發展那在這種情況下

涉及一些为 agent 使用的这样的软件场景工具或者所谓的叫 agent infra 它就是一个非常巨大的机会这个市场也会有很大的增量对你看现在全球几十亿人然后你如果再把各种网站各种公司主体加起来就不知道是多少了你是相信未来真的是有千亿甚至万亿个 agent 这件事情对业界大家现在经常会有一个讨论就是说这个 agent 到底是通用的

还是垂直的其实我觉得这个讨论没有必要它可以是共存的就像现在有一个大型的商场里面既有综合的商操但是也会有一个一个小的店家它解决的需求和面向的人群或者提供服务是不一样的所以说在我看来未来会有一些通用的 agent

也有无数的垂直领域的小 agent 然后数量你是觉得是无限多个至少比 SaaS 的数量是成千倍的往上涨因为 SaaS 是一种通用的工具但是 agent 它是一个交付结果的店面所以店面的数量是无数多的只要你能够交付在你垂直领域的更好的结果你就会收获一波你的用户用户量甚至不一定要很大

但是它能养活你就像有很多小店铺它长期就那么多客人但是它能活得很好所以你觉得未来像淘宝店一样对但是我觉得比淘宝店还要更进一步它会更垂更小但是背后也有几个大的通用的它是这样的一种并存的状态而且会长期并存明白

然后这个状态我觉得大家畅想未来的时候都会有想到过一点但因为离我们还比较远所以大家可能还没想到说到那个时候到底 agent 会是什么样子他跟人的区别是什么或者他跟人到底是怎么协作互通的一个状态所以你刚才提到说你觉得 agent 和人是完全不一样的对有很大的区别

其实在这个阶段大家可能还是认为 agent 是为人服务的但是在我看来未来应该是人为 agent 去服务因为 agent 他就是有更高的带宽他能接触到比人更多的知识或者比人更多的信号人的认知是有限的对我们上一期播客里面金剑也提了这个点那期我没听还没听的对还没听就说明不是抄导他的关系

对他的观点就是说现在是工具为人服务人输出结果然后 agent 是辅助人他觉得沃达应该是输入到 agent 到结果然后人是辅助 agent 然后底下就有人喷你说人类为什么不是主体地位你怎么看这个问题我觉得不用太把自己当回事更重要的是你到底能不能交付一个好的结果我觉得如果

人辅助 AI 能够交付一个更好的结果那我们为什么不用这种模式呢而不用一定要去强调自己的地位我觉得这个地位它本身也是一种依格这里面一个核心的点是谁去下命令现在其实相当于是老板让人执行任务对人是为人服务未来是不是老板给 agent 和人这个整体下命令了首先我觉得人和 agent 我们不要把它放到一个对立的状态我们并不是比如说我一定要打败他他也不是来取代我的

我们最重要的目的就是我们要把人类和 agent 算在一起这样的一个群体往前去发展在这个发展的过程中它的不同的阶段那比如说 AGI 大家比较认可的现在就有五个阶段嘛第一个阶段 Chatbot 第二个阶段 Reasoning 这都已经过了第三个阶段是 Agent 我们现在正处在这样一个阶段

第四个阶段就是 Innovative,创新在创新这个阶段中 Agent 会是什么样的一个角色怎么能够让 Agent 甚至 AI 做出一些人类没有办法去想到的结果

那么这些事情之前已经发生过一些了以后会发生的越来越多所以在这种情况下我觉得没必要把它作为一个对立只要它产生了一个更好的结果对世界就是一个正向但这个就是比较哲学层面了回到一些更具体的层面上人和 AI 的行动模式就是有区别的第一个区别就是人是一个单线程的工作模式而 Agent 它是一种多线程的并行的工作模式人只能一件事情一件事做

但 AI 可以同时出 100 个方式然后它再从这 100 个方式中去获取到底哪个结果更好了再往下推进这种情况下它带来的还不仅仅是一个工作结果的变化而是一种工作范式的变化所以我们需要去为 AI 的这种新的工作范式去设计一些新的工具和环境

你这里面提的那点是不是正好最近大家在聊 multi agent 就是多 agent 的协同这件事情你刚才说的其实是不是在某种程度上也是一种多 agent 的协同不完全是因为多 agent 它是一种工作模式我说的是 AI 和人的一个最重要的区别因为人和人也可以协作 agent 和 agent 之间也可以协作但是更关键的是人和 agent 在工作或者说处理一件事情上本身有什么区别

我们继续聊 Agent 和人的区别你刚才提了工作方式的区别对第二个区别就是责任的问题人是可以为自己行为负责的但是 AI 它采取的行为所产生的责任到底是由谁来负责的这个就引申到

对于 AI 所处的环境的边界它的划分到底是怎么样的这种划分和个人也是完全不一样明白这两个区别体现在产品上是怎么样的比如也有人说现在我做 SaaS 然后我把其中一个环节交给 agent 他就代替人但感觉你的观点是这个是完全不 work 的未来应该是完全不一样的产品形态对完全不一样的原因就是你刚才说那两点对所以我们可以挨个讲一下就那两点原因落在产品上的区别到底是什么

比如说第一个点工作模式的区别因为我是一个程序员我就用写代码来举例子我们人在写代码的时候它是一个确定性行为我先写第一个方法

再写第二个方法然后我再通过某种逻辑把这些不同的方法给串联起来就形成了这个代码对但是 AI 它可能是先生成 100 个方法这 100 个方法都跑一下看一下哪个是 OK 的然后再把这个 OK 的通过某种方式回到它的系统中进行反馈这样的话它就会不停的去进步所以说在这种情况下更重要的就不再是说我怎么把这个顺序的代码执行解释下来了

而是怎么样去设计一个很好的反馈系统怎么样同时生成了 100 个实时的反馈给他然后他再生成下一个所以他的执行不再是一个方法先写好了然后一式执行而是我先输入进入第一个节点 100 种方法得到一个结果这个结果反馈回去我再生成第二个节点的 100 种方法甚至 1000 种方法这个是一个完全不一样的思路体现在软件中我们就需要有一个非常好的反馈循环

而这个返回循环在人的这种模式中是不存在的它也不需要很实时的返回因为它在最后看到结果就行你讲就是人类其实它还是一个线性思考它得一步一步做就看到结果但 AI 或者说机器它有点那种全局观它直接从结果导向去倒推对吧对就对于人类来讲是说我要去探地图先开第一个地图再开第二个地图对它是一个局部最有

而 AI 它有可能同时去触发 100 种探索这个在计算机领域有一个类似的对比就是第一种叫做贪婪算法它永远在看局部最优而第二种叫做动态规划它永远直接看的是全局最优所以人类的方法叫贪婪的人类在工作模式上是偏贪婪算法的当然有些时候会先全局思考去规划但是你真正执行下来因为人就是单线执行它就是一步一步去执行的

但是 AI 在执行层面上它也可以在全局范围内寻找一个最优解的所以当下你觉得有没有哪个产品已经是在往这个方向去走可以举一个例子 DeepMind 团队最近做了一个叫 AlphaProof 的这样的一个产品它的逻辑很简单就是让模型去解决奥林匹克数学问题人类的这种方式可能就是一步一步的去学习当我遇到这个问题的时候我应该怎么解但是 AlphaProof 它是一种完全不同的模式

他只是设计了一系列的反馈型号并且通过某种办法把数学问题转化成一种机器能识别的题目他只是把题目给他并且告诉他你要去解决它然后让他自己进行推导和训练最终也不知道他到底是怎么去解决的但是从结果上来说他就是可以去解决这个问题所以这里面你看最关键的就是说如果你为人设计一套解题系统你需要设计的是怎么引导他一步一步去完成

而你给 AI 设计的系统你最重要的是设计的你最后那个反馈信号是什么样的而不用去在意中间它到底是怎么做的因为中间它的那个工作模式跟人完全不一样所以我觉得这是最关键的也是我说的它是一种工作范式的区别我们不再是去做流程了

而是再去设计最后的那个反馈其实回到我们自己做产品的时候我们在设计 Grasp 的时候就考虑到了这个点所以我们所做的这种浏览器跟给人用的浏览器就会有一个很大的区别我们会非常在意这个浏览器的结果怎么反向的去回

回饋到系統中所以我們在每一步的結果中我們會去設計循環的一種獎勵機制根據執行和它的結果的判斷把它作為一個獎勵信號這個獎勵信號就是你這次執行它對結構來說產生了一個正向影響還是產生了一個負向影響然後我們會把這個作為一個數據輸入反饋到系統中

在这种模式下我们相信它会越来越智能而且越来越优化这个也就是所谓的强化学习的一种方式是这个感觉现在是比较公认的一种方法对只是到底怎么做谁做的更好不知道对但是这里面有一个很重要的区别就是这个反馈信号到底来自于哪这个在业界有一种说法叫做 grounded signal 它的意思就是说这个信号它到底来源于真实的反馈

还是一些人为的判断这个是完全不同的实际上你看现在的大模型的这个阶段的很多反馈它还是来自于 RLHF 人类的这种反馈但是真实的情况下它应该是根据结果本身是不是被完善了这也是我们在做这个事情里面的一个很重要的点我们要去关注那个最后真正的真实结果它操作网页去完成这个任务那个结论有可能是它真的完成了还是没有完成而不是

当我看到它一个系列的要采取的行为以后我去判断这个行为是好的还是不好的这是第一个点第二个点也可以讲一下具体的例子第二个点安全边界的问题采取责任的问题比如说如果我今天要去生成一个代码这个代码要执行的话

如果是我自己写的它在我的电脑上执行没问题出了问题我也可以负责但是如果这个代码是 AI 生成的它能直接在这上面执行吗如果它把这个文件全删了到底是谁的责任了所以说第一个最基本的要求就是说它需要有一个沙盒为什么今天所有的给

agent 做环境的这样的一些 infra 都在提沙盒这个概念都在去做虚拟化就是因为我们需要有一个边界把 AI 它所产生的影响控制在一定范围内但是在这个范围内也要让它能够更好地去运行

并且我们还希望沙盒它的启动它的执行是足够快的其实回到第一个点上去 AI 它能同时执行很多步所以我们希望这个过程是足够短它能更迅速的拿到结果这样它才能更好地去优化和迭代所以比如说 E2B 这样一个产品它就是主打的是我给了你一个安全的沙盒并且它通过采用像 MicroVM 这种技术使得它的启动时间非常非常短

这个是第二个点的一个现实例子对你看像所谓的环境沙盒包括 e2b 这个产品本身在美国其实现在很火但国内我估计很多人可能还不太知道能不能正好给大家解释一下就以 e2b 为例子它大概是做什么的是怎么跑起来的

因为 minus 用的也是 e2b 对对对其实 e2b 很大程度上它能火也是说也是 minus 带起来的对对其实很多 infra 它的火就是它上层的应用火了跟着火起来了那 e2b 简单来说它就是提供了这样的一种环境让你去跑 AI 生成的代码那

它为了让 AI 的代码能够更有效的运行里面就会做了很多的工作比如说我刚才提到了它启动会非常快它采用一个叫 MicroVM 的技术这是一个进程级的商务跟我们传统的理解的那种 Docker 容器不一样它比那个更快

我在想你看像 minus 这种大家哪怕没用过也看过它的一些案例对吧它肯定是后台会生成一些那些码然后执行一些任务对然后大家的下意识至少我自己的感觉是它肯定是在虚拟机或在云上跑

那这个虚拟机和云和沙盒和 E2P 这几个的一同是什么首先虚拟机它是一种技术它不是一个场景它的最关键的点就是说把物理设备虚拟化出来以后构建一个隔离的环境那可能虚拟化就会有很多不同的比如说最早的那种虚拟机比较重

然后后面有了一些更轻量化的然后包括广义上容器你也可以算成虚拟机的一种包括我刚才说的进程机的虚拟机 Micro VM 所以它是一种不同的技术方案 E2B 是不是一种虚拟机 E2B 它是一个解决方案

虚拟机是它其中的一个技术路径那云和本地其实是有区别的那本地唯一的优点就是它没有网络延迟但是它带来了巨多的问题安全隐患没有办法弹性扩缩它没有办法 7×24 小时运行而这些就是云所解决的问题

那这么说像 Cursor 什么那一堆它都是算本地化吗 Cursor 的话其实它是 copilot 它的更主要的目的是辅助你去生成代码首先它不是一个完全自主的 agent 也不是一个环境当然它慢慢的也在做 agent 了当它去做 agent 以后你就会发现它的技术架构就会从本地变成云端它需要在云端去运行它的代码

但是我看也有人会讲说因为科索包括其他那些产品会提示说你要把这段程序跑起来的话可能会遇到错误他会提示你关闭本地的某个技术的端口会有这种吗这个其实它也是 Copilot 的一种它本质上是在辅助你去做一些判断但是并不是交付结果我知道但是如果比如说我不懂这段代码他这么提示我了然后我就同意了的话确实是有可能系统就崩溃

是有这种风险的是有这种风险的不过这个也是一种思维模式的转变从我的观察中这种模式也在逐渐的发生因为我周围有很多工程师我发现他们之前在使用 AI 代码的生成器的时候他们会去关注生成的是什么样的代码我要去类似做一次 code review 但是现在其实很多人已经不关注了

我就让他去执行这就 web coding 对执行出来以后他的结果只要是符合的就 ok 了就 type 工程师对但是如果在这种情况下的话你怎么样信任他其实是一个很关键的问题你觉得未来是不是这些都应该到云端对他一定是在云端去执行但是他会通过某种方式把这个界面展示给你让你能够看到他这个展示是一个够

构建信任的过程但是归根结底你关注的是结果而不是它生成的代码本身所以类似的推广到其他行为上比如说 browser use 你关注的也是它通过使用浏览器通过去采取一些行为得到的结果而不是它具体怎么去用浏览器所以说这个也是给人用的浏览器和给 AI 用的它一个很大的区别我觉得这还挺有意思的一个比较大的观点就是未来的 agent 包括

往一阵子走产品都应该云端化对至少它的环境是云端的它的客户端可以是在本地因为有一个大前提就是如果你要足够强大的话它的模型要跑到云端那在这种情况下其实把环境和它的模型放在一起是一种很天然的构建模式嗯

但这么听起来一度币好像做的事情也没有特别多它未来跟那些云厂商的关系会是怎么样的我觉得云厂商它更多的就是一个基础设施它有点像是比如说我们构建一个房子它提供的是水电这种资源

而 E2B 是我怎么把资源真正的交付到那些使用这个东西的人身上当然这是人打个引号以后是 agent 所以说它可以类似是装修商它去布置这些水管它是去设计这个东西怎么去交付的所以说他们本身是没有冲突的底层肯定还是云厂商会提供那种最基础的算力

而中间的这一层 infra 它提供的就是这样的一种环境这个环境是 AI 或者 agent 它真正去运行的地方

我觉得你刚才例子举的很妙因为你会发现好多地产商后面就拼商品房了他就说我卖的都是装修好的房子了所以是不是后面一些云厂商也会自己做这些事反正我觉得至少 e2p 是一个很好的被收购的标的对吧这个其实一个很有意思的问题就是说什么情况下一个房地产商他会去做商品房这个你有研究其实很简单就是他只做

拿房修房这件事情只交付毛坯房的时候这个市场容量不够了就没有竞争力了对我就要去往别的更进一步的去卷回过头来

AI 的这个市场本身是一个很大的增长的市场我觉得在这个阶段更多的是应该用一种合作和怎么样把蛋糕做大的逻辑来看这件事而不用过早的去想怎么去分这个蛋糕我觉得在 AI 的这个时代所谓的这些壁垒都是不存在的明白所以如果按以前逻辑是说人用 agent 对吧然后 agent 本身是 SaaS 的话在这个时代下我觉得 agent 绝对不能是 SaaS

agent 就是一个主体所以说你像我们在做的这种东西是给 agent 用的 sus 而不是 pass 明白我刚还好奇一个问题比如还是用 e2b 来举例就是那些代码它不能跑在本地是因为它有可能出各种问题 e2b 说你放到我这来跑

那在他那出问题呢就是他的那些安全能力也很关键是吧对所以说这就是他所定义的这样一种边界他就告诉你哪怕在这出问题了我的影响最大会有多大这个影响你如果是能接受的那就没有问题

所以因为你也是做这一块然后你也多年的 engineer 你觉得什么样的团队是最适合做 e2b 的我觉得是那种在真正写代码和开发 agent 的人因为我觉得给 agent 做 saaS 或者给 agent 做环境需要有两个非常重要的能力编解第一个是你一定要深入理解 agent 的痛点所以你本身要是一个 agent builder

第二是你本身是这种环境的一个很重要的用户就比如说当你要给 agent 写代码的时候你本身应该是一个很深度的写代码的这样的一个人那回到浏览器那比如说第一还是一样的你需要去 build agent 你要有这样的经验第二你需要有很深度的

写浏览器脚本的经验在这个情况下我觉得反倒是比如说你是做浏览器内核的这件事它没那么关键了因为首先内核本身技术比较成熟第二在 Agen 的时代这个内核可能跟上个时代是不一样的关键的是你怎么构建一种好的开发体验 Agen 的使用体验所以说一定要在这个场景下有很深的认知

但比如还是 E2B 那个就是他又得做过 agent 又做过环境对吧但这个还是一个很大范围的人权如果再聚焦比如说我们刚才讲是说他必须安全能力特别好还是说他的云还是什么能力我觉得他不是安全能力特别好而是他能理解安全边界在哪这里还有一个很有意思的例子就是 E2B 其实有一个竞争对手叫 Forever VME2B 已经打了安全了这个是大家拍脑袋都能想到了但是 Forever VM 打的是什么呢

打的是状态什么叫状态这个就很容易我写代码的人就知道比如说每一次代码执行它都会有一个状态代码执行完成以后状态就没了但是在 AI 使用代码的过程中它可能先执行一段脚本然后中间它就去做别的事然后可能比如说过了一个小时它想要接着这个脚本往下运行

那怎么样能够保持这两段脚本的状态不丢失同时这一个小时我不可能一直把环境给它热启动在那等着因为这样会浪费巨大的资源怎么做到这两个上下状态的无缝衔接的同时中间又可以极大的节省资源这不完全就是你刚才讲的第一个人

情况的案例他解决的就是 agent 的并行的问题对吧并行任务然后又要来回反复横跳然后怎么样能接上对吧可以这么理解所以说

这个痛点其实在人类写代码的这个情况下它是不会出现的你就算做了很多年的代码编译器对你去发现这个痛点它也不一定是有很大的帮助反倒是你就是一边写 agent 一边又写代码的这拨人你就会发现在这种情况下它会有这个问题而你去解决这个痛点你就提供一个解决方案那这个解决方案就具备了价值那这个价值本身就是你这个产品的壁垒

我再延伸一个问题我理解这个价值它是给 agent 的 agent 会输出的更好但最后反馈到人类能够衡量的指标上是一个什么指标是说它结果更精准成本更低还是什么

就是成本更好对因为安全这个事其实你挺难去衡量结果的对吧其实安全它是一种比较模糊的概念所以我一直在强调的叫做边界就是说在这个边界范围内你能不能接受其实 e2b 很重要就是它相当于是把 AI 放到了一个围栏中在这个围栏中你知道它最多就只能影响这么多了那这个围栏到底有多大太小了可能对 AI 的限制太大不能办法发挥它的能力

太大了可能大家又没办法接受这个度是很难把控的这个我认为也是 e2b 很重要的一个价值体现你说 minus 在年初的时候他是怎么发现 e2b 这个东西然后怎么知道就要用它的呢这个其实很简单作为一个开发者来讲的话你要解决你的产品中的一个需求痛点比如说 minus 可能就要解决我需要给我的 agent 一个虚拟机然后我需要在里面去跑一些代码脚本

这个时候我就会上网去搜索相关的解决方案我为什么要去找别的解决方案呢因为我自己做我要解决 12345 这些问题这些问题可能他在 E2B 上看到了他们已经解决得很好了所以我就直接用了开发者其实选东西很简单的就是你能解决我的问题但顺便再问一句那哪些东西是自己应该做哪些东西是直接拿别人的来用呢还是你觉得作为开发者来讲只要有别人做的就会很开心的拿来用呢

这个问题其实是开发者圈特别有意思的一个问题就是要不要重复的造轮子从我的观点中我是倾向于用现成的因为在我看来其实开发者他的关键的价值也是交付结果

就是当一个需求来了以后你通过代码的方式去把这个程序构建出来然后这个程序最终交付出去作为一个结果那怎么能够更好的去构建更高效的去完成它这是一个更关键的事情而不是这里面的代码到底是你用别人还是你自己写的所以如果从我自己的角度出发我会倾向于去用那些做好了的除非它没有办法满足我的需求而且这个需求是一个非常非常关键的需求

那我就会要么自己写要么基于他

去做二次定制这也是我们为什么很喜欢开源世界的原因所以你看好 e2b 吗我还蛮看好 e2b 的我觉得它是一个非常重要的 agent 与这个世界交互的渠道你刚才说的另外它那家竞品的 Forever VM 在我看来给 agent 用的环境这个市场是足够大的它能够容纳很多家每一家可能提供不同的解决方案可能在不同的场景下它能够满足的更好

这些如果对标之前的那些产品的话大概像是哪一类我的感觉就是像原来的给人用的 SaaS 现在只是说它变成给 Agent 用的 SaaS 或者叫 Infra 但是它不是最底层的 AWS 那种 Infra

比如说像 Databricks,Snowflake 这种我觉得这是一个比较泛化的一层但是到了今天这个情况下它可能不是像原来那样一模一样的切分方式但如果 agent 我们假设为了它起来有千亿万一个 agent 在全世界无时无刻在运行然后有很多给他们做的环境跟 infra 或者说给 agent 做 saaS

然后这些会怎么影响你刚才提到那些现在的 infra 就包括 Daysbreak 什么这些就是你要么顺应潮流要么你就被历史淘汰这个事情我们已经经历过很多遍了无数的公司它没有顺应潮流没有变化它有惯性它就在历史长河中消失了但是也有一些公司它很快地调整它就能适应这个变化

按这么讲其实就首先如果在听的人认可说未来 agent 会起来我觉得哪怕不知道什么时候大概率它是会起来的那就是背后现在我们能看到一大堆的机会有非常多东西是能够重新做而且市场是非常大的应该能得到这么个结论才对对这个市场在我看来是刚刚才开始如果你把大模型的出现想象成人刚开始有了智能我们可能今天还处于我刚刚才

会生火这样的一个阶段实际上还有巨量的事情是可以去做的甚至因为现在的大模型其实它还没有真正的与这个世界发生交互并且获取反馈所以它还有很长的路要走这里面就会蕴藏巨大的机会好讲完 e2b 再回来讲一下 browser base 就美国那边给 agent 做的产品两个典型对吧一个就是 e2b 一个就是 browser base 对 browser use 应该是被收购掉的好像

那个就是 YC 头嘛然后最近也刚刚拿了新融资他也是 Broad 这个领域的一个玩家了对然后正好你们现在想做的也是给 Agent 用浏览器相关的东西对对你可以先给大家介绍一下这个赛道啊 Broadbase 啊什么这些公司的情况 Broadbase 呢算是一个现在的当红明星了从融资额也可以看出了他一年的时间估值涨到了三亿美金他其实打的概念也很简单就是给 AI 用的浏览器他跟传统浏览器区别就是他首先把浏览器匀化了

他在 AI 使用浏览器的这些场景上做了一些优化比如说 AI 是需要 RAG 的对吧所以说他在使用的过程中他可以去自动的获取网站的一些信息作为上下文来辅助 AI 去操作网站对所以他主要就是优化一下 AI 在使用浏览器中可能遇到了一些痛点如果说 e2b 当时内部主要靠 manus 带起来的话 browserbase 是谁带起来的

Browser base 这个就更有意思了为什么我们会做 browser 这个生意它也是这样的一个逻辑就是我当时在直接跳动的时候我特别喜欢一鸣的一个说法叫做务实的浪漫我们前面都在聊的仰望星空对吧以后未来很大但是你回到今天你也需要去解决具体的问题你需要脚踏实地的去切入那一个最基本的数据就是说现在互联网上的流量有 40%其实已经来自于机械了

那你能够去解决现在这些 40%的流量所遇到的那些问题它就是一个很好的起落点

所以实际上 browser base 很多还是在去解决现在 40%的那些机器人他们在去爬取网页信息的时候所遇到的那些具体的问题比如说他不够智能化比如说他没有办法适应这个网页的调整比如他因为不知道这个网页的信息所以当网页发生变化以后他就失效了类似于这些问题

所以他的客户很多是传统的爬虫公司可以这么理解是吧或者是比如说自动化测试 RPA 什么的对 RPA 你看从 minus 到 fellow 他们两个好像都没有用 browsbase 对但这是为什么他们也都有 AI 用浏览器这个功能对吧然后同时 minus 还选择了 e2b 他为什么不选 browsbase 我觉得可能有一个原因就是 peak 他自己本来就是做这个

对还有一个点是如果你真正去使用 browserbase 的话它产品的使用体验上来还是有比较多的问题的而且 browserbase 不开源 etub 是开源的 manos 我可以借由 etub 去做就这个阶段其实大家都处于很早期你没有办法说真的

那么拿来就用所以说实际上就是还有很多工程问题没被解决嗯但过了这么久应该有些开源的解决方案吧就在 browser use 里面肯定是有一些的但是呢解决的都不算特别好吧包括 playwright 自己也开源了一个叫 playwright mcp 嗯

但是实际上这种浏览器环境本身是比代码环境要复杂一些的就是它涉及到的网络问题延迟问题包括状态管理问题是复杂很多的对正好我们讲一下就给 AI 用的浏览器跟人本身用的浏览器的具体的几个区别是什么首先第一个比较简单的点就是给 AI 用的浏览器它一定是跑在云端因为 AI 是不会睡觉的第二个就是 AI

它对浏览器的页面的读取它不一定要跟人一样通过视觉去操作所以它可以是 headless 也就是说它不需要真正的像人一样就是看到这个界面然后用鼠标去操作 headless 这个词在这一类的场景里面总提对吧但你能不能用大家都听懂的话解释一下到底 headless 是个什么东西

其实一个浏览器它有前端的界面它就是 QC 的用的浏览器如果没有前端的界面它只是用一种进程跑在后端它就是 headless 的这里顺便插一句如果未来 agent 能起来了是不是就都是这样

AI 是不是就都不需要前端理论来说给 AI 用的它是完全不需要一个这样的交互界面因为人的使用方式和 AI 使用方式是不一样的但是这种给人用浏览器也会长期存在因为人也会一直存在下去 OK 这是第二个点还有吗第三个点就是从安全的层面出发比如说如果你今天去用一个浏览器操作的时候

到底登录的时候要不要把这个账号名密码给到大模型呢肯定你不希望对吧但是你也不希望他每次遇到登录问题的时候就来问你说你帮我做一下所以说怎么样解决既能够他能登录自主去操作但是同时又不会把你的账号名密码给大模型这

这是给 AI 用的浏览器里面一个特别的问题跟人完全不一样这个问题你们能解决的对这个问题我们做了一个功能叫做 Secure Local Login 就是安全本地登录我们通过对浏览器的一个定制化使得当你去要登录的时候它会自动去判断并且通过一种纯本地的方式把你的账号名密码甚至是收邮件验证码

填进去整个过程不需要人的干预它是一个全自主的并且绝对不会把你的任何信息传给大模型这也是我们做的一个比较核心的差异化功能了第四个点其实跟刚才我提到的 Forever VM 很类似就是实际上大模型在操作这个浏览器的时候它很多时候会是多步骤的而且很多时候它中间会有很多的间隔

比如说我先去携程我收掉了机票的信息然后我把这个信息拿到另外一个系统中进行推理整个过程可能还需要人的介入和参与最后我决定要买哪张机票了好我回过来去操作这个浏览器你肯定不希望你回过来的时候这个浏览器你又从头开始了你肯定希望是继续上一个页面但是中间这个推理和人角色的过程可能持续很长时间那我们这个浏览器因为是跑到云端的

如果我们一直让它等在那它就会非常耗资源和占用时间所以怎么能够让你在下次回来的时候你直接接着上面的东西继续运行这个过程中你的感觉好像这个网页从来没有消失过一直在那一样但是中间又不会消耗你的资源这也是我们做的一个叫做 Stateful Browser Session 的一个功能

在解决这种问题那这些就是一些很具体的问题了所以这个就是人在使用浏览器和 agent 在使用浏览器的时候它的一些很显著的区别你刚才讲最后那个点我觉得人类也遇到一样的问题我经常跳出去再跳回来他又不让我买了他说价格已更新要重新搜索再重新进就很烦

对但是这个有一个点在于你的这个行为是跑在你的个人电脑上的所以它本质上也就是在浪费你个人的资源可以浪费我个人的资源不可以浪费 agent 的资源因为这个东西跑在云端的话而且 agent 它是并行的所以它可能会同时进行很多那这个资源的浪费可能就不一定能够接受是明白但 browsbase 已经做的还行了对吧嗯

那你们还要做这个事的原因是什么你跟他的区别会是什么如果你今天想要构建一个有 brother use 功能的 agent 他

它一共就分成三层最下面这层就是浏览器的运行室就可以认为它是一个传统的内核浏览器它解决的就是比如说当我要去访问一个网页的时候我怎么从网上把网页的信息拉下来拉下来以后我可能要执行一段脚本我怎么去执行浏览器的脚本怎么去渲染图片就类似于这些的问题有点像云端和引擎

对这就是最基本的一个我们把它叫做 Runtime 的这样的一层那不管是 Broadbase 也好还是原来传统的 Playwright 或者 2C 的话 Chromememe 它本质上都是这一层但是实际上 AI 来了以后呢

上面多了第二層叫做 Agentic 層這一層控制的是 AI 怎麼去跟網頁交互怎麼從網頁獲取信息怎麼去產生信息來影響網頁以及怎麼去推理你的整個過程形成它到底要幹什麼再上面一層就是 Knowledge 層垂直行業的 Know-how

这一层我觉得是所有的那些真正去 build agent 的那些人他需要关注的因为他需要去设计怎么样去反馈系统的这种机制来去优化他最后交付的结果给他的终端用户我们做的是哪个我们做的就是最底层的这两部分就是 agentic 加 runtime 我们把它合而为一因为在我们的观察中这两个点第一它的工程量非常大需要解决很多问题

第二是它的很多问题都是比较通用的开发的时候你都需要去面临所以我们公用把它解决以后我们提供这样的一个封装的 Agentic browser 给开发者这些开发者以后只需要带着自己的行业认知你可能就可以构建一个自己的 Manas 或者自己的 Ferro

但 Brotherbase 做的是哪一层 Brotherbase 做的就是 Runtime 那一层就最下面那一层最下面那一层但最下面那一层我听起来因为浏览器已经这么多年了应该有非常多很好的解决方案了或者说比如说今天 Google 说我想做一个这个东西是不是分分钟就能做出来

对所以实际上在我看来如果纯做下面这一层确实它的壁垒不是足够大的但 Browserbase 有一个很强的先发优势不过 Browserbase 确实也提供了一个开源的框架叫 StageHand 它的逻辑就是开发者可以自己通过 StageHand 实现 Agentic 这一层然后你再接它的 Runtime 这一层然后你就可以构建一个 Agentic Browser 再

把你的行业认知进去但是在我看来这样的话它的功成量太大了因为我们实际做下来中间这一层包括我刚才提到了 Secure Local Login 比如说长状态的管理这些都是很复杂的并且你要去解决这些问题的话实际上你就是要有对底层的 Runtime 的一个控制能

你才能够把这个问题解决的更好所以说你必须要对下面层和中间层一起做你也不能说我就是接不了这辈子做中间层对如果这样的话其实很多你想实现的功能就是实现不了的 OK 所以这也回到刚才点一下为什么 Manas Fellow 他不用这些因为他可能是做的一些更通用的 agent 他就是需要对底层有更足够的操控他要去设计自己的返回循环嗯

那可能就真正的从最底层开始自己做但是未来并不是每个人都需要这样做也不是每个人都有这么强大的工程团队去做这件事所以我们做的就是把这个工程问题我们帮他解决了提供这样一种基础架构给大家然后让大家基于我们去构建自己的 agent

OK 我在想你说的中间那层就是 agent 那一部分它具体在产品上的体现会是什么东西具体的比如说你给我一个任务我们会首先去基于你现在网页和你的任务进行一次推理然后去判断到底要执行哪些步骤而不是说你告诉我你在这个地方要执行哪些步骤但从这个角度来讲你跟 final 的区别是什么

因为他也是说人类给他一个需求他也是去分步骤再去执行首先 Feller 是 2C 的而我们是给开发者用的面向的用户不一样所以从这个层面上来说

理论上 fellow 也可以基于我们去构建 fellow 没有办法解决你的需求的时候你就可以快速基于我们去构建一个 agent 比如我想基于你们做个 fellow 应该是还蛮快的是吧相对来但是实际上 fellow 和 manus 它都不仅仅用到了 browser 这一种环境所以说实际上未来的这种形态就是有大量的 AI infra 或者 AI 环境公司它去提供这种基础设施

然后每一个基础设施就像一个乐高积木一样你买了把它拼起来然后再带上你自己的行业认知或者你相关的一些特定的解决方案然后你就可以构建一个这个 agent 对我觉得现在大家就认为说 agent 有些组成部分肯定要有对吧 AI coding 肯定是它一部分所以它一定会选一个 e2b 这样的一个 coding 的在线的云的环境然后

用浏览器去跟人的互联网世界去做交互去搜集信息去完成一些 action 肯定也是有的所以就会有 browser base 这一类的除了这两个你觉得别的还会有什么首先在我看来 coding 和 browser 一定是两个非常重要的环境这个其实都不用看 Mandos 和 Fellow 你就看行业最大的公司 ChargeBt 的 deep research agent

本质上就是一个 O3 模型再加上一个网页浏览能力和一个 Python 的代码执行器所以代码和 Browser 一定是两个最重要的环境那

除此之外可能还有一些更抽象的环境比如说运行数学公式的环境再往下一层它可能有一些更具体的环境比如说跟物理世界的接触比如说传感器、巨声智能包括像李飞飞他们在关注的空间智能这种就是给模型提供的与真实世界交互的环境

所以你觉得中间那块就是除了 e2b 跟 browser use 就没别的这是两个非常大的类一个类就是 codingcoding 解决的问题就是执行一个逻辑

而 Browse 解决的问题就是与 web 信息的交互所以说如果你从大类上来说其实就是这两类但是中间会有非常多的细分比如说我会有不同的浏览方式我有可能获取信息多我有可能是产生信息多那不同的方式它会有不同的痛点就会有不同的解决方式

解决方案和环境公司出现代码也是一样我执行的是脚本代码是解释性语言还是编译性语言它可能都会有一些区别所以这两个赛道包括你们现在选的这个赛道应该是未来非常大的赛道对我记得之前我们聊天的时候你提到过一句你说今天的 Browse Use 就有点像 23 年的 AI Coding 对吧

对这个观点可以再给大家解释一下吗因为你们二三年的时候一开始做 aircode 也算是 coding 产品对吧对其实你回过头来去看二三年的时候那个时候 ai coding 也有非常多的问题大家也都在怀疑它到底是怎么样但是到今天基本上已经没有问题了那今天的这个时间点为什么是当时的 ai coding 呢其实是这样的就是

实际上一个大模型能不能解决某个具体的问题它有一个很简单的公式就是这个事情的样本级和这个模型的成功率因为大模型它本身是一个概率模型那它们俩一成完以后它得到的那个结果的这个成功数能不能满足人的需求如果能满足人的需求它就会开始变成主流

回到 2022 年的时候那个时候的 gpt3 是不行的但是从 gpt3.5 开始它就突破了一个预指使得像代码这种量级的样本数在乘以它的概率以后达到一个可以被人满足的结果回到今天比方说 use 它的样本数是更大的

而今天的模型的概率显然是没有办法去满足它的成功率的所以说为什么在今天还有很多人会认为说 Broadcast 就是不实用但是随着大模型模型能力的增长然后它的概率的提升

使得当这个样本数成为这个概率所达到的那个结果能够满足人的欲值和需求以后这个事情就立马变成了今天的这个 coding 而且这个事情会发生的比之前更快 AI coding 的结果是现在甚至于全球几百家公司在做估值很高的也有非常多家的你觉得未来 browserbase 或者 browseruse 这个领域也会是这样吗

其實哪怕是 AI coding 我覺得還在非常早期因為如果你從商業層面來看的話全球軟件開發的總市值大概有 3 萬億到 4 萬億美金如果 AI 能夠在其中提升 5%的效率那就是一個 1500 億美金的市場但是今天 AI coding 可能也就是一個幾十億小 100 億美金的市場規模所以它還有很大的空間去增長

那回到 browser use 是一个道理因为今天大量的这种商业行为都是发生在互联网上的我们在用互联网去做销售去做招聘去做沟通去展示我们的成果去获客那这些事情如果能够

通过 AI 提升哪怕 5%的效率它就是一个非常潜在的巨量增长市场在这场市场机会下其实你做这个事情它就是有非常大的机会所以说我觉得现在其实还刚起步你应该日常也跟不少人在聊类似的话题你觉得大家对于给 agent 做产品这件事情现在有什么很强的非共识吗

就是 agent 的产品到底最需要什么这个我觉得是一个非公式每个人的看法都是不一样的有很多人会认为我需要给他更好的上下文更好的知识或者说我需要采取更合适的模型但是在我看来最关键的是怎么设计最好的反馈循环这个是

设计整个 agent 中最最最重要的一点对你看对作业者来讲他的产品设计本身也是一种环境对你的那个环境其实是另外一种环境他们做的其实不是那个环境他做的是 agent 本身环境是 AI 和他所处的那个外在世界的一个交互方式通过这个交互方式他去获取一些真实的结果去

作用到 agent 的本身上然后通过这种反馈再设计一个奖励机制或者一种反馈循环使得他去往上提升他的能力然后交付更好的结果对于 Curse 来讲 VS Code 那套东西那是环境吗对于 Curse 来说其实它 VS Code 里面内置的代码执行器是它的环境但未来这些东西你觉得都应该到云端对

但如果这么讲的话这个就聊的有点偏但我还蛮好奇的如果 e2b 未来应该把这些事都做了 e2b 其实现在也在做类似的事你们的产品什么时候上线大概我们预计应该是下个月就可以开放对就是如果我用你可能很快能做出来个 fellow 未来可能我用 e2b 很快我也能做个自己的 cursor 至少是个低级版的 cursor 是这么一个类比关系吗可能是一个更专注在你的领域中的 cursor

你可以把 Curse 认为是一种叫通用的代码 agent 但是实际上还有很多专业领域的代码 agent 比如说今天这个 agent 就专注于生成一个更好的登录页面那它在这种环境下它所需要的点是不一样的这些点更多的来自于上层的需求在下面的代码执行环境中它是没有区别的这一套公用的代码执行环境是可以跑在 E2B 中的

然后还是在想如果未来 agent 特别多的话但现在捋起来好像就是

E2B 的那个环境和布扎尔兹柚子的环境是值得做的比如说我今天想创业我相信未来 agent 会起来我就是要给 agent 做产品除了这两件事还有什么是你觉得能做的除了环境以外还可以做工具因为 agent 如果你把它做一种新的服务对象的话在服务人的过程中这些工具都是有机会重新做一遍比如说身份

agent 要不要有自己的身份他甚至要不要有一个自己的电话可以接收短信 agent 要不要有支付能力所以支付给了机会可以做所以你这些应该也都考虑过对吧最后选择了 brother use 的方向

对那原因是第一个是我们本身是有很多年经验的这种前端开发所以说我们对于 browser 本身以及做这种自动化流程有很深入的理解第二就是 browser 在我看来它是 agent 的与这个世界交互的一个非常非常重要的渠道所以说这是一个非常非常大的机会我们希望在今天这个很早期的阶段去

去做这个更大的机会明白所以你觉得未来几年吧甚至更长时间你怎么看 Agent 的整体的发展在我看来一个最重要的范式转变就是 AI 会从人类的数据变成他自己去体验这个世界然后从这个体验中去获取那些真实的反馈作为数据来训练他自己不停的去增强

只有在這種情況下他才可能突破人類的認知去發現一些更新的東西怎麼賺他自己的體驗跟數據我舉個例子一張大模型去產生一個川菜菜譜今天我們的做法是怎麼樣我會找一個非常厲害的川菜的大廚看到這個菜譜然後他就告訴你這個菜譜行還是不行然後我們把這個東西告訴 AI 然後 AI 不停的去學習

但这样的后果就是 AI 会越来越受人类的偏见的影响这里插一句我觉得可能人类最大的一个偏见就是我们非常相信人类的知识和人类的鲜艳的这些经验对大模型来说是很重要的所以我不停的把我们的知识灌给它希望它越来越聪明

那有没有一种可能就是人类的这种知识对他来说其实是毫无必要的就像那个 AlphaGo 一样就最后发现人类的旗袍其实没有那么重要对所以这个就是所谓的叫 bitter lesson 所以说在这种情况下我们能不能去发现一种更好的方式然后 AI 去获取更多的更适合他的数据呢

那就是我需要去跟这个世界进行交互所以我回到刚才的这个例子其实你让一个大厨来判断他好还是不好他永远只能无限的去逼近这个大厨真实的情况难道不应该是按照这个菜谱把这个川菜做出来然后你尝一下它要么就很好吃要么就很难吃

然后把这个真实的结果作为一个反馈给他然后他这样的去学习他才有可能某一天做出来一个菜谱然后这个川菜的大厨觉得这个菜谱很难吃但是实际做出来很好吃这个就叫创新它才能突破人类的边界

所以我觉得未来的 AI 的发展它一定要是通过跟环境和世界进行真实的交互然后去获取一些真实的反馈所以这就是我认为在整个的 agent 的发展中环境为什么非常重要的一个原因明白

我最后一个问题就是我听了半天我就觉得那是不是有些云厂商的股票未来应该是能涨得更好更好我觉得很关键点就是说你到底能不能在这个时代快速的去转变跟上这个时代的发展就跟今天的智能手机已经比 10 年前 20 年前的手机市场大了那么多了但是并不是在 20 年前你只要是做手机的你的股票就一定涨得很好你也可能像诺基亚一样淘汰

你也可能从一个完全不做手机的变成一个非常知名的厂商不过整体上来说你说的是对的我觉得未来的云厂商会有更多的机会因为云厂商的机会就是来源于它是卖资源的如果我们这个世界会消耗更多的资源我们会产生更多的数据它就更值钱所以你甚至于会觉得现在有个新的云厂商的机会吗

对,在我看来 AI 的环境这件事情它就是一个 AWS 级别的机会那就还是我们最早聊过的问题但它最后跟 AWS 的关系会是什么呢因为现在这些肯定都是基于别的云 AWS 级别的机会 AWS 自己也可以做这个是毫无疑问的但是在我看来更关键的是谁能抓住这个点所以说如果真的要聊到非常遥远的未来的竞争关系的话

其实你可以认为像我们这种 AI native 的 infra 就是从上往下做我们从最贴近 agent 的使用的那些环境工具开始慢慢的做那有一天我们可能就会构建完全自己的浏览器内核那这个就太难了

你就最后都是大厂在做你还是有道理的还是一个重资源的事情其实我觉得更多的它就是一种相互合作和补足的关系明白然后我最后问一下就是我们今天聊的很多的基础就是未来 Agent 会起来对吧对到底什么时候会起来我觉得我没有办法判断这么长远的事情但是我能够看到的是今天 Agent 它就是不停地在崛起

而且我觉得相对于思考 agent 什么时候会起来更重要的是思考 agent 是不是一定会来的而 agent 来到的那一天我们能够为 agent 做些什么发挥什么价值

但是从商业层来讲这个 timing 肯定很重要所以你们那个产品如果做出来以后你也是会像 browser base 一样先面向那些传统已有的那些什么 RPA 对它一定是一个转型的过程这个世界上它不会凭空出现一些需求它一定是现阶段已经在用的这些人因为他有一些需求没有办法被满足然后正好大模型对于他的这些需求能够很好地去满足比如说智能化营销

或者智能化销售原来的销售工作流和营销工作流它都是不够智能化的 AI 或者 agent 给了他这样的机会这些人可能是第一步去转型的人包括自动化测试可能我们要先服务这样的用户好 OK 我们今天就聊到这儿我们发的时候应该会把活动跟上到时欢迎对给 agent 做产品感兴趣的同学来参加我们活动好谢谢谢谢区凯老师拜拜

从 E2B 到 Browserbase，Agent Infra 新热点中有哪些大机会？ | 对谈 Grasp 创始人雷磊 54:35 Share

42章经

Deep Dive

Shownotes Transcript

从 E2B 到 Browserbase，Agent Infra 新热点中有哪些大机会？ | 对谈 Grasp 创始人雷磊