cover of episode MCP 协议彻底打开潘多拉魔盒!AI 变身万能助手?

MCP 协议彻底打开潘多拉魔盒!AI 变身万能助手?

2025/4/22
logo of podcast AI炼金术

AI炼金术

AI Chapters Transcript
Chapters
The MCP (Model Context Protocol) is a new protocol designed to allow large language models to operate tools and access services by encapsulating external function calls. It offers flexibility in supporting remote API calls and local application operations. This enhances the capabilities of large language models and streamlines tool operation.
  • MCP protocol enhances large language models' ability to operate tools and access services.
  • It supports both HTTP calls and standard input/output (STDIO) protocols.
  • Aims to standardize and improve interoperability of automated tools.

Shownotes Transcript

MCP 它其实是现在它的这个 GUIDE 的这个协议是提供了两类的一类叫做还是你可以通过 HTTP 的方式去调用第二类呢它其实调用了一个协议说你就用标准叫 Standard Input Output 的 STDIO 吧就是标准的输入输出协议你任何东西都可以作为一个标准输入输出的服务去调用

现在你找到的机会就是一个正在融化的冰棍它一边融化你一边赶紧吃然后吃点力气赶紧去找下一根冰棍你千万不要想你可以吃到一个百年的什么东西你吃的就是冰棍这个就是我觉得现在有很多问题我们希望 AI 来解决但是其实不太好解决换句话说就是简单的问题 AI 已经解决的差不多了难的问题感觉人好像也解决的不是很好

欢迎大家来到 AI 练金术那今天的话是我抓着徐文浩同学问一问 MCP 的事徐文浩老师来解释一下 MCP 是啥应该这样讲就是反正最近很流行一个东西叫做 agent 然后我觉得 MCP 就是因为有了 agent 所以要在原来的 function call 这个事情上再用新品装个 99 嘛

就是无非是你把任何可以使用的这些外部的函数调研或者功能用一个协议封装起来然后方便让这个大圆模型说哎有一个统一的说我去说哎这个服务有哪些能力啊有哪些可以用的工具啊然后我自己决策怎么用这个工具啊然后这个工具执行的结果能够返回给我啊他既可以去支持外部的这些

API 的调用也可以支持本地的比如说你本地有个程序它可以用标准输入输出接口把自己的能力用 MCP 的协议暴露出来 MCP 的全称就是叫 Model Context Protocol 我觉得大家不要被那一堆名字一堆什么东西给忽悠住本质上它就是把你叫 SaaS 也好各种软件也好暴露一个标准的接口让大元模型可以调用嘛

那大圆模型只要去关联很多 mcp 的服务就看似有了个所谓的很强的 agent 的能力嘛那我讲一下我在文学上的理解然后你从理工科来指导一下对我理解是就是过去的 AI 的话其实就是个耍嘴皮子的嘛他就是只能说话嘛哪怕我们说他的什么推理啊什么的其实本质上还是文字嘛

哪怕是他写 coding 其实 coding 也是语言的一种嘛那你需要他干更多的事的时候其实你就需要他学会使用工具比如说他能够打开地图对吧他能够打开浏览器他能够用我们用的各种软件那他需要操作这个世界那他操作这个世界的时候呢每一个大元模型就会说那你得把这个工具写个

写按照我的要求告诉我你这个工具咋用对吧你得给我写个说明书就相当于 function call 你得给我写个说明告诉我怎么扩你嘛对吧那我就会扩了但是每一家呢其实 function call 的那个定义都有点不太一样比如说你为了 anthropic 写了一个你给 openai 还得写一个你给 deep seek 还得写一个

就挺烦躁的这是第一个所以的话呢有人就说那要不然我们都用同一种格式吧对吧大家都满足同一个抽象格式都按着 mcp 写大家都按照这个写工具不就说明书就统一了吗你给给中国人看给美国人看都都按这份说明书你给哪个哪个大模型看都看同一份说明书就够了那这是第一点第二点呢就是我的感觉但是这这点我我就是技术上非常不确定好像我印象之前

那个那个 function call 好像那个定义是不是都是要自己定义就是你是这个产品的 owner 然后你来定义这个这个 API 我把它怎么包现在的话呢好像 MCP 有一个风潮就是你只要知道了它的 API 你把它包成 MCP server 的话就大家都在

也可以帮别人包嘛对吧你帮 Photoshop 帮什么 Blender 包一个那这样子的话其实他把中间做这一层那个 MCP Server 的话好像可以独立的有这么一层存在了第一点我觉得好像我应该大致是对的第二点我模模糊糊有个感觉这是对的吗其实我没有太 get 到你讲的那个东西是什么就第一个我觉得是说我觉得大的思路跟你讲讲的是对的是一样的就是说

我们希望大语言模型能够去操作一些工具对吧就大家就讲过很多比如说过去很火的 Publicity 它本质上说我大语言模型能够去做一些搜索然后比方说现在的很多这种编程工具或者说它用过 Cloud 或者用 GPT 它有一个 Canvas

他就说我大语言模型去生成了一段代码之后这个代码可以在一个沙盒环境把这个东西渲染一下不只是语言模型纯粹图文字的这个能力或者说我可以查一下天气或者说我想电商下个单买个东西这个就是大语言模型要给它提供操作工具的能力操作工具

这个能力其实在 mcp 之前也是有的通常是用两个方式来实现第一个是如果大家用过 gpt4 的这个 API 的话

它有一个东西就叫做 function call 对吧或者叫 to calling 典型的场景其实是这样的是说你自己需要定义一个说我有哪些工具调用这个工具的调用的接口长什么样子它其实比较严格而且当这个接口的格式长什么样子当你的这个大圆模型输出一些结构化的内容之后你其实还是自己要主动触发去触发这些任务去执行第二个是我不知道你还记不记得

就是 OpenAI 有一段时间它其实是提供了一个像有点类似于 MCP 的就是说如果你是一个开发者你可以把你的这个 API 接口

根据他定义的一个格式他定义了一个 schema 的格式你可以注册在 OpenAI 我记得当时像 Kalana 还是有一堆服务就是在 OpenAI 上提供了一些类似于 GPTS 的这个能力这个能力就是利用 OpenAI 当时提供的一个标准化的协议去干的这个事但这个就是我觉得之前大家对提供工具能力的这个事的这个想法这个想法呢其实是一个偏向于说好像我们已经找到了一个标准化的解决方法

但是呢我觉得 MCP 其实做了两个比较有意思的事就是说第一个是说他把这个协议你可以认为他定义的更加松散了

怎么叫更加松散了呢就是之前你要去做包装的一个服务你比通常大家都是包装 http 的服务或者包装本地的一个 api 的调用他可以包一切是吧现在对 mcp 他其实是现在既提供了就是他的这个 guide 的这个协议是提供了两类的一类叫做还是你可以通过 http 的方式去调用

第二呢它其实调用了一个协议说你就用标准叫 Standard Input OutputSTDIO 嘛就是标准的输入输出协议那理论上讲任何东西都可以你如果是个 Unix-like 或者 Linux 这样的服务你任何东西都可以作为一个标准输入输出的服务去调用对吧就是你的电脑上的浏览器呀你电脑上的某一个客户端软件呀你就更容易所以我甚至认为它变成更容易的去包装了这个事儿

第二个呢是他其实引入了就是原来大家讲的 to calling 是说我只关心我是那个服务嘛我要定一个服务的这个接口出来

那现在呢他其实引入了一个叫 client 嘛对吧就是你自己可以去写一个这个 client 以前大家其实都觉得 client 就是我自己定义的一个业务或者定义的一个 workflow 但是现在其实他把这个 client 的这个定义也清楚了之后你会发现大家在开发自己的应用的时候会把自己去调用工具的能力包装成一个 mcp 的 client

哦哦他做了更多层然后更多抽象嗯这这样带来的好处是理论上讲就是他变成了一个呃网状的组合吗有很多 servo 有很多 client 理论上讲你都是可以直接互相调用的他不是而不是原来是通常说有很多 API 调用我自己写我的一个应用我调到说我能去调用那些现在大家会假设我有很多 mc server 我自己写的理论上讲任何一个 mccp 的 client 啊

都可以去任意的调用任意多的 MTCP 的 server 我觉得是说它其实定义了这样一个方式你说它本质上和之前的 function code 有什么区别吗我觉得其实也没啥区别那以前就没有出现类似于这种 MTCP server 导航站或者像你说的也没有出现这种网状的结构理论上来讲以前 OpenAI 一家独大的时候它应该也可以出现这种网状结构但没有嘛为啥

我觉得两个一个是就是它是跟伴随着模型的能力提升是相关的要出现这个网上结构就意味着模型本身的我们叫 agent 的能力就是我规划执行任务就是我给了你很多工具你的正确的规划执行任务的能力要强那它一定是模型能力提升到一定地步这个能力才有价值

因为 MCP 其实最近火的但 MCP 不是最近提出的 MCP 提出可能也有至少有半年了吧 MCP 肯定是去年下半年提出的所以最近火我觉得也是说当大家看到模型能力越来越强有越来越多的工具调用的场景开始爆发了之后 MCP 才火的我觉得这是第一

第一个嘛第二个我觉得或者说 MTV 当时半年前刚出来我觉得它比较有价值的是说因为通过本地的标准标准标准数目输出的调用其实你很容易的能够封装很多

本地的 APP 的应用场景我举个例子就比方说理论上讲你用 MCP 你很容易的能够操作本地的浏览器或者你本地有一个什么客户端软件或者怎么样但在没有 MCP 就是大家还习惯 HTTP 请求的时候大家都想我得做个 SaaS 然后这个 SaaS 里我去做一个沙盒的浏览器

这个是对很多的小的应用场景来讲就是开发会变得有点重就是我现在开发一个沙盒浪漫器然后你调任务的时候我随时能把这个沙盒浪漫器就是把这个开发工作做复杂了那么标准输出的确是一个比较简单粗暴的

跟现有的应用去交互或者去服务的这个方式吧你这个部分我追问一下我怀疑我误解了你的意思就比如说我现在的主机上面假设我在用一台 Windows 电脑我的主机上面有一个假设说有一个我们自己公司开发的一个 OA 系统这就是你刚刚讲的就是我主机上有一个有一个客户端软件或者说我这个是采购的好了我采购了一个 OA 系统是一个软件我现在可以

帮这个软件写一个 mcp 我的理解是我需要有他的 api 才能写对他如果不给我 api 我也写不了没有 api 你也可以通过一些 rp 的方式去管理去调用我跟他交互我可以我需要通过一些 rp 的方式可以把它的界面比如说变成一个标准输入输出我举个例子就是你定义了 mcp 服务我说这个假设这个软件

可以比方说填报销对不对然后你定义了一个格式那你的你的客户端跟这个 mcp 的协议叫就通过你自己本机的这个标准输出往那个 mcpprotocol 说说哎你帮我去填一下报销

那它实际呢可能是拿到这个报销指令之后你可以通过一些 RPA 的工具或者系统的 hook 把这个软件打开移到那个屏幕上去点击这些东西一样是可以操作的嘛

那这样子就可以做一切了对所以 Lirania 它可以做一切当然你原来 HTTP 方式也可以但就会其实是变得稍微麻烦一点因为它本身本质上就在本地你没有必要一定要起一个 HTTP 服务来作为接口在本地用标准服务标准输出是一个

更简单的接口但是本质上我觉得这个其实跟什么 function call 跟定义的 FC5 包括跟 OpenAI 之前定义的一些 API 我觉得没有本质差别就是它不是个什么它并没有什么技术上的先进性更多的是

他提出来有人做了一些应用这个模型的 agent 能力也到了一定的程度然后呢感觉 OpenAI 也已经忘记了要推广他们之前定义的那个 OpenAI 现在支持 MCP 对啊但是他们没有再去坚持是他们那个时候把那个东西叫什么就他们当时提过就是说你可以申请他的当然 OpenAI 那个路子不太一样 OpenAI 那个路子相当于他把自己变成了一个中心化的服务注册体系

而不是说我协议开出来你就可以往网上到处可以去找

对吧但是 OpenAI 至少在 MCP 协议出来之后也没有坚持说我推一套我那种标准化注册的这个基于 HTTP 的 API 的那个路径那段时间也有很多人去做了这些服务我觉得有些人还耗到一波流量因为还是有一波开发者很感兴趣嘛只要有新的在 OpenAI 那里注册过来的就有还都比要创造一倍流量对对就会有长线的人进来嘛

这 MCP 也好还包括现在 Google 推的 A2A 也好它不是什么底层技术嘛本账是大家想争夺话语权或者说去定义的一些协议标准对吧你说有什么特别高的技术含量呢也没有我

我倒是因为反正我也没有什么技术含量嘛所以我们看的倒是说如果这个生态会长起来比如说你刚刚讲的那个网状结构会长起来那现在的话你提前进这个网你就更容易被连接到嘛早期的网络所以我们现在也在其实已经在孵化这方面的项目了就是在离主流圈更远一点我们在工业界正在做这个东西对但是你刚刚讲的就是如果是通过 RPA 再连一次的话那我那个故事就能讲得更大一点了

对对那我觉得传统应用理论上都可以通过 RPA 再连一次嘛因为本身微软其实在 Windows 上其实过去几年为了 RPA 也提供了很多协议层面的能力啊就是你可以再包装一下就可以去干这个事了 OK 那那故事就更大了挺好的那 ANA 呢 ANA 的话就是就是 agent 跟 agent 交互了那他们需要相互聊啥呢 A2A 就可能就

他想在外面往外再抽象一层就是说比如他讲 mcp 还是说我有一些工具我然后你可以开发一个 client 或者一个 host 去调动调用管理这些工具这个 host 或者 client 就是一个 agent

那 A2A 说呢那 agent 跟 agent 之间能不能是 agent 跟 agent 互动而不是 agent 跟 mcp 互动这个逻辑就是 mcp 本质上暴露的还是细颗粒度的原子能力我举个例子 mcp 更像说我是个电商我提供了 mcp server 然后我这个 mcp 的这个 server 我提供了很多能力我可以去查询上搜索商品

我可以让你帮我推荐商品然后我可以下单我可以退货那 H&H 是说这个是个

电商的 agent 对吧那个是个本地生活帮我去订旅游出行的 agent 然后这里是一个我的管家的 agent 你们三个之间可以互相协商商量一下对吧这就是 A2A 吧这它就是个更抽象的一层东西但是我觉得 A2A 它比较好的是就是 Google 推这个 A2A 的我觉得比较好是说它把很多实际场景你需要解决的问题

其实都定义出来了因为比较典型的就是说我觉得其实 MCP 没有解决或者 Agena 没有解决的常见的一些场景第一个比如说权限问题理论上讲权限问题在一个企业级的应用场景基本上是必须的你不可能说任何人这个 MCP 在你公司里其实有很多 MCP 的 server 然后你希望大家效率高一点大家可能自己写了 MCP client 就不能把活干了

但是你不可能把 mcp 的 server 的那个 API 比如说你老板可以直接审批一个一百万美金的订单不可能开放给所有人那他就需要有有健全对不对这个是一个第二个 mcp 的 agent 他还是有个很强的假设叫做我的活都是 agent 主动发起的

什么意思呢就是说我掉了你的 mcp server 对吧然后你你帮我去干活然后但是呢我是通过标准输入输出拿到了这个结果然后我再去干下一步那 a2a 他说那有些活他其实不是那个人一直在那等而是说我活干完了你能不能把结果通知我然后所以他还把那些什么 push 的通知呀

把这些健全呀把这些东西包括说我做了很久你这个东西还没做完那你要不别做了吧对他可以把这个一个任务的 cancel 的能力对吧你看你去看他的文档你就说他 agentagent 他说我可以去发起一个任务我可以获得一个任务当前的状态

我还能把这个任务取消了我有那个健全的这个解决我还能说你做完了你可以反向通知我第三个是说那这个 agent 之间互相怎么发现呢就 mcp 是不考虑这个事情所以现在有很多 mcp 的导航站我猜未来可能还会有 mcp 的这种中心注册化的协议那个就退回到 openai 当时推他们那个

标准化的 function code API 那个逻辑了但是 A2A 呢是说那我把这个 agent discovery 这个能力也直接在我这个协议里面定义清楚了

所以我觉得本质上还是说 Google 干的这个事还是比较偏向于说把一个在工业界或者说在一个企业应用场景下需要考虑的所有因素其实都考虑进来了但是我觉得本质上多少 A2A 跟 MCP 也是虽然说它是不同力度的协议但我觉得多少还是有竞争关系的就是如果 A2A 特别流行的话你可能也不太需要 MCP 就是

就是别人用了一个更高度的抽象提供的能力给你你就不太需要那个细腻度的能力了特别是对于普通用户或者说是一般的应用开发者我问你一下因为我们团队在做我其实技术上没有搞得那么明白就是 mcp 他们封装这个比如说它其实里面也是 function 嘛

那究竟是多抽象啊就比如说 Photoshop 它有很多的功能嘛是它里面每一个可能性它都要比如说描述一下还是说其实它可以更抽象的描述说就是比如说叫做把它的头发换颜色这是一种抽象描述它就自己会去里面调度它的几个方式来达成这个功能就是它的颗粒度是细到它一万个功能就是一万个吗还是怎么样

我觉得这个是一个选择问题不是个对错问题就是你可以选择说我只封装到比如说把头发换个颜色你也可以细化到把每一个任何一个操作都封装成一个 MCP 里的 server 里的以下能力跟协议有没有关系跟协议本身没有关系因为 MCP 的这个协议没有规定说因为你这个工具有十个能力你必须给我封装了十个能力出来

你实际对于你的能力的封装其实是一个你的 MCP 对外提供服务的时候你要做决策它的力度要放得多细就取决于就取决于那个 MCP 的 client 你希望这个 client 提供一个什么样的能力但是我觉得比如把十万项能力都封装出来这个事情目前来看肯定还是不太靠谱的吧

这你能力太多本质上还是那个模型没有能力在十万个 API 里帮你选出一个正确的十个选出一个正确的或者一百个选出一个正确的能力他可能今天已经有了但是你真的给他十万个让他选一个正确的这件事情我觉得对他来讲可能也比较难但我没有试过啊说我们就给十万个能力你选一个还能不能选对

了解我换一个例子就是我不用那个真实的例子我就讲我们办公室最近买了一个那个 3D 打印机 3D 打印机操作它的话其实用的是那个 Blender 做 3D 的模型对吧 Blender 是有一个 MCP 的 server 的然后的话我们其实可能通过一个 agent 一个 MCP client 去操作这个 MCP server 对吧

这个过程当中其实有两部分的知识一部分可能是叫做比如说叫做建筑审美的知识或者叫做模型的特殊的这方面的知识比如说我就是要做 3D 手办的知识还有一部分的知识其实是关于这个 Blender 的各种怎么用的知识我现在的理解其实是关于它怎么用的知识其实我是封在那个 MCV Server 里面的但是关于比如说模型手办怎么做会

会达到效果的知识其实我是封在 client 这边的

但是我现在被告知说其实都是封在 mcp server 的说能力的那个行业 know how 其实也是装在下面那一层但是我实际的例子不是这个实际的例子是另外一个工业软件对就是说工业软件可以把他的工程师的 know how 全部封到 mcp server 这一层这个是这样吗从你的观点来看我觉得你原来的想法还是对的就是

你其实不应该把太多的 know-how 放在 MCC server 里这样 agent 就失去它的意义了就你从长线来看长线来看 agent 你可以用 MCC server 只是一个让一个东西暴露一个标准的可以操作的动作或者工具给到 agent 然后 know-how 的能力一般都是放在 agent 的

而不是放在那个工具的就是换句话说你今天去操作 Blenderknowhow 的能力当我知道要做一个模型的时候我不懂 Blender 但是比如你操作 Photoshop 你说我要换背景我应该点哪一个菜单这件事情其实是知道的是你而不是 Photoshop

后头下巴他当然知道但他没有办法来跟你描述这个事情而是那个熟练工那个 agent 对吧那个时候当你有一个员工他是专门去帮你批图的他其实就是你的那个 agent 你肯定失望那些能力其实都应该是 agent 的能力也就是都应该是 mcp client 端的能力而不是应该在 server 端的能力放在 server 端往往是说明两种可能性啊一种是说这个工具比较特殊然后我的模型

发现你发现我用的这些头部的模型理解不了这些能力或者说没有办法规划好这个能力但这个其实就把你的 agent 退化成一个标准化的 workflow 了就在 mc server 那段你相当于把一些固定的能力的流程都定义死了所以我觉得是说除非是迫不得已一般尽量不把能力固化到

或者说你本身你的 agent 要做的是一个更抽象的做决策那你可能把一些细节的东西我觉得这个就跟人去做事情是一样的吧它是分层的你不可能让一个 CEO 高层管理者中层管理者一线员工可能每个人要做决策不一样你如果希望你那个 agent 的同时所有能力都非常强其实也是有难度的但是

按这种方式你可以用 mcp 跳 ftopmcp 或者 a2a 的方式来做对我觉得那可能都是对的因为你刚刚讲了一句说除非那个比较特殊那如果是比较特殊的垂直领域的东西就有可能要在里面要封多一点

因为确实大家因为搞不懂你到底要干嘛对很多的人另外一个思路不是封托一点而是通过 post training 去训一个自己的能管理这些工具的 agent 对也可以放在那边反正对一般大家期望是这样的因为你把它都封在 mcp server 里

那本质上和你之前做标准化的流程自动化做 workflow 做 sas 总之其实是一回事对吧它其实没有用到什么 AI 能力那如果我要 post training 成本高嘛比如说 post training 一个更会用 blender 的我觉得这些所有的成本都不在现在来看 post training 的主要成本还是怎么定义描述问题以及怎么构造数据的问题本身在显卡算力这些的成本其实现在都已经不算高了嗯

你说的不算高是比如说小于几百万美元还是小于几万美元的不算高小于几万美元的不算高吧或者小于二三十万美元这个量级的不算高吧好的好的那要做的时候还可以问一下你几百万美金我也就不看了我觉得主要的挑战现在大部分 agent 大部分这个东西主要的挑战其实还是在那个数据构造跟怎么评估它的能力上而不是在模型训练上

这模型训练其实用一些 30B 左右的比较头部的开源模型做一些 Pulse Training 的效果其实都还可以当然跟最头部的模型比

可能还有差距但最头部的模型很多也不让你微调吧就是 cloud 你也没有办法当到你的这个工业软件的这个领域你也不能去微调它它在那个领域的能力是不是非常好不太确定如果我有那个我们先不讲够不够的数据假如我有真实数据比如说 100 万条都是人类的比如说它就是操作 blender 的

比如说需求说明书以及人类的有一个改说你其实哪几个点做的不好然后人类的真实批改比如说十万条的然后以及真正做出来的那个图发现哪里对哪里不对就全都是真实的这种数据是有价值的对吧有价值那可能要更如果是细聊可能要更细一点就是说你大概率你是你

你是做一个强化学习的你一般是用强化学习去把那个步骤能够把这个能力学出来嘛那就得取决于说你这个数据量是十万条一般就看你的任务复杂程度但十万条我认为一般已经非常足够了那这个还挺有意思的因为我现在就在假想一个就是我是讲故事的人嘛对吧

然后那个我现在想讲一个故事就是比如说像 blender 这种东西他他其实世界上有非常多类似于这种的软件然后有非常多细分的产业的软件然后细分产业的软件其实都就就线上的你看那些 mcp 都不会做到这些东西上来但 blender 会有人做更细分的都不会有人做但是其实都有很多的工程师在用嘛那其实有一层机会就是

给这种软件的话包 mcp 然后另外再在上面做一层 agent 然后 agent 他就会用了嘛其实很多的工作其实就是某个人他会用某个软件他的工作就是操作这个软件那这样子的话我们来其实可以直接交付 result 他可以来吃这个市场嘛所以有这么一个故事的存在你觉得这个故事在技术上是通的对吧嗯

我自己的观察主要的挑战在于很多时候大家觉得这个人只是在操作这个软件但是你发现实际并不是大家觉得我能把程序员的工作给省下来对吧对肯定还是对的他极大地提高了应用开发程序员的这个代价但是呢他好像你会发现那 OberEye 人也不少啊 OberEye 现在也一两千号人呢对吧那为什么呢就是你会发现这些人的主要工作他其实不是在操作那个软件

他操在操作那个软件上花的时间其实是非常少的他大量的时间你会发现比如以程序员为例他其实在跟人沟通比如说在跟产品经理沟通然后他可能是在跟另外一个程序员沟通而不是说他就是坐在那里对着那个屏幕去操作他的那个 ID 就好了我相信这那些大家认为都只是在操作软件的这个事儿

可能也没有那么只是在操作那个软件这个是我觉得可能会比较容易就是面临的一个问题有可能对但我们在找的其实是那种有 BPO 存在的就是就是

既建的商业流程外包的这种如果有这个的话其实很多时候就是非常的既然市场上都存在 BPO 的话而且是既建的 BPO 的话那应该还是蛮标准的或者我这样说我一半乐观一半不乐观不乐观的是什么呢

是说在传统的 BPU 的流程里,很多事成本其实已经被压得很低了,而且那个已经做了很多 AI 辅助的优化,举个例子,现在这些大模型能力那么强,我先讲,比如说我们找人去标注数据,理论上讲我是不是只要掉,理论上讲不论是说我在一个图片里去识别一个什么东西,说框一个这个是裤子,那个是衣服,

比如他讲今天大模型是不是都已经能做了但是那为什么但是如果你去看那些做大模型的公司他可能还是花了不少精力找一些外国公司在标这些数据第一个是人干这个数据的成本真的很低可能并不比模型高多少第二个是 AI 的准确率已经很高了但是没有人那么高

或者说你还是要很多 case 希望人去帮助你去修复同时呢其实人在标这个当中现在已经引入了大量的 AI 辅助他可能比方说他已经把那个框想在那个图里比如说拍一张照标出你这里是眼镜这里是积蓄对不对那现在的做法是 AI 框都已经帮你框好了

连那个文字对应的那个东西人只是去做审教的过程但是审教这个过程你其实已经没有办法再靠 AI 去解决了因为需要审教就是因为 AI 可能现在准确率还没到 100%所以这个是我说我说既乐观也不乐观说我相信 AI 这个能力已经很强不乐观是很多 BPO 我理解成本已经降的比较低了

已经降的比较低了在很多场景下你最终还是会留下一部分人去干那些需要大量沟通的事就是你今天可能能够把传统的客服能够砍掉 80%是因为那些自动的立刻回一个

你发消息立刻响应你或者去问一些你哎呀你东西没收到货你能不能把这个补片填上来呀你能不能把那个什么你就橘子烂了你能不能拍张照给我呀这些事情然后在一些常见的标准流程下我就能答应你退你五块钱行不行呀这些都能做了但还是会有一些

看似简单感觉是说你觉得他的主要工作就是写代码也好就是操作软件也好但是你发现那个反而是他就是操作具体当中的东西确定就是要干这个事所以我去走一遍这个流程可能占这个人的工作中的很小的一部分

比较大的挑战其实很多白领的工作还是在做说我们确定到底要不要这么干还是想到了一些领域的话比较符合你刚刚说的那个条件其实很多领域还没有到那个辅助其实不一定要直接去取代嘛很多时候也就是提效 50%其实大家就很开心了对对对而且我觉得辅助挺有价值的嘛这个也是我觉得就是说 mcp 协议的一个好处对吧

你做一个 mcp 的 client 这个操作可是有机器发起的也可以是由人看到了一些反馈之后发起的就是举个例子现在的这些 ide 什么 cursor 什么都是个 mcp 的 client 但是你人去应用这个软件 apply 去 confirm 返回的结果被应用上去然后再去发起或者你提起一个问题其实是你也是那个 mcp client 的一部分吧

时候你去触发这个 client 去做动作的而不是完全 agent 就是完全 agent 自动把所有的动作都做了

工业软件里面会有更多的机会因为它相对白领的这边没有那么复杂它更偏向于人类就是那个翻译器就不是像比如说比如说你们公司的程序员可能今天在做这个明天在做那个工业界很多的那个那个工程师真的就是每天重复一件事情重复 500 遍所以如果有做工业软件的那个朋友听到播客也可以找跟我联系一下哈哈

最近对这方面比较好奇主要是做 2C 我们做了好几个东西都砸掉了离徐文浩这种人远一点就是我们离 2C 往回退一点这个是就是最近看到一个别人的说说为什么 agent 这个领域在那个写在那个 coding 这个领域其实是 agent 的发展最快的嘛

就是 coding 的技术专家其实也是 agent coding 的产品专家对吧对吧他不用领域知识这个东西需要去学对吧但你换任何一个其他的领域其实你继续要说我很理解 agent 或者 AI 能干什么我还很懂这个领域这个组合其实是难的就像你说的工业界的这个能不能把两拨人互相能不能

正常沟通把这个事情跑起来确实难得对吧我觉得做 C 端产品也是的就有些领域相对容易一些有些领域就会更难一些嘛这个领域的专家离 program 越远这个事情就越难做但好处也是说他的竞争不是一个纯粹的啊我我聪明我手快

对吧我年轻我是反过来想啊就是 mcp 这么其实至少在业内最近火了一下嘛他其实反过来像你讲的就证明了说其实是因为 agent 的能力慢慢开始成熟嘛那其实这里面到底红利在哪里就比如说 manus 我就觉得吃到了一波红利嘛其实就是 agent 半成熟不成熟的时候就是他是第一个号称我们已经做出来了对吧就至少 demo 是好的那其实他就他就占到了这个红利

那下一个可以站到这个红利的那个踩点是踩在哪里当然有一些小的比如做个导航站但这一波已经过去了嘛那下一个这个可以踩到这个点的这个红利这口的话到底在哪里呢非常不擅长判断红利在哪里

对因为我的观察是就红利这个事真的是叫踩着了强行发现还是有难度的反过来讲就是我们不去判断红利而是认为说比如说到明年明年的时候比如说明年底的时候就是世界上所有的软件都有 MCP server 然后也会有无数的 client 在调无数的 server 假设明年底会发生这件事情这个过程当中的价值捕获到底在哪一层就是你是在做个导航站会捕获到这个价值因为这肯定创造了很多价值

其实可以做的事情茫茫多因为你已经知道假设知道明年底未来就是这个样子了从现在你可以做 server 可以做个导航站可以都可以干

但是总归会觉得好像里面哪一层都拿不到价值就是你会觉得价值不活在那里你说从需求的角度我觉得有好多层就是说但不是每层都有钱的我先解释一下第一层我一直说第一层的钱还是在培训跟普及客观点来讲第二层我觉得是一个就跟 DeepSeek 出来之后大家都要上 AI 一样第二层也是在传统的外包实施就这些都是

就是只要虎吉了你就是去这两层都不是发大财的逻辑我觉得本质还是减钢贝的逻辑迪巴西个火了就会有私有化部署的需求

MCP 火了到最后一定也会说啊那我觉得所有公司都后来都都会做然后就是大家都会说我能不能把我内部的系统的所有的服务都变成 MCP 能够暴露出来然后我内部所有的我内部的企业未来的流程能不能我有一个工具说我想干个什么事他自动告诉我说我能通过这些 MCP 还是把这个事干了

那所有的理论海洋企业内部的应用都有一层把它再包装一遍变成 mcp server 的需求呃这是为什么我说这个简纲被逻辑这个就跟当年移动互联网出来说哎我们企业原来有这个 pc 端的这种 portal 门户 oa 对不对我要

我要做个 iPhone 和安卓的 APP 我企业内部的 OA 在移动端也会用这个第一个它的确有用今天你很少会见到你那些最传统的邮箱啊飞书啊 OA 啊流程啊你其实都移动化了嘛那我觉得 NCP 如果说 AZ 的能力上升那理论上讲原来的服务原来的原子能力你都应该用 NCP 包装一层提供出来

然后我要这个东西提供出来我就说了 mcp 有很多事情没有做好那么你如果是做企业服务你就需要把这些全线呀数据隐私呀使用统计呀什么服务监控可观测性呀什么这一套东西你都都需要第二个就是说我觉得大家需要的就 mcp 本账还是给

机器用的所以你需要的其实不是一个导航站而是一个搜索站就是你需要的是一个可以给 MCP client 直接去搜索说有哪些 MCP server 这 MCP server 好不好对吧就能不能不要让人去发现这个东西而让机器去发现这个东西怎么让你自己变成一个对吧然后这些 MCP server 能不能统计出来他们调用的成功率呀他们的结果的采纳率呀它变成了一个

就是这个是服务注册乃至有价的地方就是你能不能做一个 mcp 的真正做一个 mcp 且给机器用的大众联聘我在想一个更垂直的小机会你觉得有这层机会吗就是比如说我随便讲比如说你是一个运输车队公司然后你可能用了 10 个工具然后我是你中间用的比较大的那个工具

然后的话呢我把自己先做一次 msp server 然后做一个 client 给你用你就说说话就可以把我的各种东西你就反正我的能力肯定就让你用的很爽嘛但是因为你习惯了跟我的 client 说话我就慢慢的总归还会你 10 个工具里面会有第二个 msp server 出来吗实在不行我帮他做嘛然后以及甚至于有你没有用的但是其实也满足那个功能的就是竞品他会做好 msp

那其实我只要站了你比如说你工作的这个对话框然后的话呢我就慢慢的可以把别人吃进来因为最后其实看谁站这个其实这是入口逻辑嘛现在因为你要打你要打开不同的 UI 去 graphic interface 所以你可以有十个入口

未来 client 很有可能是一个入口那我先占我有可能把别人吃进去我觉得这个机会不是一个新的公司的这个机会其实是巨头的这个机会是微信丁丁飞书 chat gbtgooglewhatsapp 对吧这个机会我觉得不属于一个新公司不一定你如果就你如果堵在比如说白领的办公室里面可能是这样我们现在躲得很远吧

就生活和白领办公室我觉得都吃不进去但是直接第一步就躲远一点躲到产线上去走到产线上我举个例子他为什么不能用丁丁的或者为什么不能用微信就把这事干了呢对就是他在上面再吃一口就是你可以吃小鱼然后背后还有一个更大的鱼对对对我觉得是说你当然了你说细分到一个任何一个垂直领域或者什么当然都有这个当然我觉得这个机会当然存在我不说这个机会不存在

我说机会肯定是在的因为一旦你应用到那个领域你收窄到一个垂直领域你就会发现通用工具的效率往往不是最高的吧他提供的交互界面他提供的确认问题的方式他提供所有东西未必是最有效的那我那我觉得这也是个周期啊就是

可能一开始你会做一个 APP 慢慢的慢慢的你会发现会变成个微信小程序可能是一个就是你的客户更愿意接受的方式对但是我觉得某种程度上讲这个就是为什么不能听我们这种人想太多对它是个周期我们老想到我们老容易想到说哎呀五年以后这个事情就没了但实际上事儿呢不能这么做事儿就是

可能今年火了就火了嘛对不对火了你先把这个钱给挣了嘛或者你先把这个估值融资先给搞了嘛你也不知道三年五年以后到底是什么你老想着说哎呀这个微信一进来这个事情不就没了吗那

那就是啥事都做不了对不对我忘记是谁说的了说现在你找到的机会就是一个正在融化的冰棍它一边融化你一边赶紧吃然后吃点力气赶紧去找下一根冰棍反正都是冰棍你千万不要想你可以吃到一个什么百年的什么东西吃的就是冰棍对反正我觉得还挺难的啊

了解了那你最近除了 mcp 之外有看什么别的好玩的东西吗那个大家应该都在看嘛就是大家都在看两个吧一个是那个 open i 新出的生徒的那个啊那个肯定肯定我我已经玩的不亦乐乎了我宝宝刚刚还拿我手机在那边疯狂的玩这个嘛第二个是就是大家今年应该都在关注这个视频生成嘛对哎我用现在用下来效果最好的是 google 那个

Google 那个太强了 VL2 它是免费的我快手可灵外给了钱 Google 那个就我宝宝画的我宝宝做的机器人然后我就让他们生成视频的话 Google 对于关节的理解因为那是虚构的机器人全是对的

然后可灵的话就是画面会更漂亮但是其实他对于关键的理解是错的我觉得 Google 还是挺厉害的就是一个是人家财大气粗投入也大积累也重你不管是 Gmail 2.5 Pro 对吧包括 Viu 包括现在他们又推了新一代的 TPU

感觉还是说没有被落下第二个大家可能关注的是 Lama4 比较拉垮对啊为什么会感觉就完全没有人搭理它了就是效果比较拉垮大家觉得原因不知道原因大家听八卦现在的主要的挑战在于说就是 Lohan Fruits 已经被剪的差不多了感觉不管从模型的角度还是从应用的角度

反正最简单最主流的这个市场还是被瓜分的挺快的然后企业侧我觉得海外渗透的比较快国内渗透的还比较浅但是国内的 2B 业务

自古以来都不是很好做我分享两个我看到的比较有意思的方向一个方向就是跟 mcp 一脉相承的这一类的东西我看了一些现在有越来越多的产品其实不是为人类做的就是之前我们是默认我们在为帮人类做东西现在越来越多的你会看到茫茫多多的东西其实都在为 agent 做

这未来如果人类越来越懒我们认为 agent 来做巨多的事情的话你会发现现在的基建都不对

都得为他们比如说 mcp server 一下或者说帮他做个浏览器帮他做个搜索帮他做个 id 这系列的东西能起码 100 个吧都是 full agent 的把人类的那套基础设施因为他现在还是打开一个人类的什么网站啊什么的用人类搜索引擎就很奇怪吗那打开浏览器还在那边翻页神经病啊对所以像像 browser user 什么的这这个看到一个大的好像有一个有一个很明显的趋势就是

for agent 的东西变多了就是把网页变成了 lm.txt 是吧对比如说 browsuse 嘛对吧就这种公司嘛或者说像那个搜索引擎那个叫什么 exa 啊什么的这种其实都是 for agent 的用嘛所以就是你的用户不一定是人嘛你做 mcp server 其实也是这个心态嘛就是你不是在优化这个产品让他什么加了 AI 而是说他更容易被大约模型用嘛所以他其实这个思路他其实是嗯

你的目标对象变了我看到的一个趋势是这个就越来越多的产品是这个这个思路看到一个思路非常让我嗯就我看到了一些非常野心非常大的小产品就是之前的话比如说我跟你讲嗯比如说讲医疗好了那你以前会想我们讲一个创业公司你肯定医疗你就要找一个细分领域去做嘛

对吧你肯定要找什么小切口但是呢你就会发现有创业公司他在做全部 all in one 就他会做 all in one 然后第一个就是他们是小公司第一个就是他们会说我们的代码都是 AI 写的所以历史上那个比如说一个医院要 52 个系统的话我们全用 AI 写的你会觉得

一口鲜血喷出来然后第二点就是你会发现好像产能在蓬勃然后第二点就是他们会把因为是 52 套系统原来的 52 套系统可能他们我也不觉得他一定做好了但是第一个就是他会觉得这个时代变了这 52 套系统我全部用 AI Native 的方式重做了比如说你以前需要干嘛干嘛现在都是 AI 神图所以你以前那些都不需要了虽然我比你少 99 个功能但是你只需要一个了

好他全部重做第二个呢就是很多的产业其实是有比如说你以前做那个广告智能广告投放嘛对吧那广告投放其实是有一个闭环的对吧那如果是人类参与到其中原来的那个模式的话其实那个闭环是很慢的比如说你这一次什么品牌营销最后发现小红书上大家都说这个丑颜色好丑啊你再改然后再重新投放几个月过去了

但是如果全是像你们之前的那种投放的话很有可能你就直接搬的就自动开始改了嘛对吧就自动投放的就变了那现在的话如果是他更细颗粒度的假如他那 52 个系统全是 AI 的那其实就是瞬间把它全部铺出去瞬间数据全部收回来瞬间这边从源头开始策略改

然后全全套打通他们现在这这一类的公司就是小公司但是做 all in one 然后他们的整个的那个故事线就变成了说第一个就是因为现在的代码能力蓬勃所以我们可以做得出来第二点就是我

我把它全部按 AN Native 的方式做的话其实其中 95%的功能可以删掉了因为你之前是因为人类做才需要那么多功能嘛第三点的话就是因为我全套都是我的所以我的那个闭环出来了可能每一个我都不如你但是呢你以前那个闭环

很慢我的闭环就飞快它就相当于 AI 来做优化了哪怕我是不是比你白痴的但是我的优化闭环更快了所以我整个的是更先进的是下一代我就可以靠比如说创业团队做 all in one 的 solution 的话居然可以就去干大事如果是放在五年前你肯定会教育他们的

然后你现在会觉得被他教育了觉得好像也有点道理这个趋势其实跟那个就是跟 ai coding 的这个趋势绑定的嘛就是大家的假设是我用一个 agent 我能够很快的生成一个 solution 对吧就是我不太需要写代码我可能

用一个 cursor 或者之类的然后我定义好一些 mcp 的 server 然后我自动生成代码自动生成在 sandbox 里去运行或者调试拿到一个结果然后用一个比较小的团队就号称说我十个人团队能干别的公司一千个人的活因为我们现在这个业务也做了一段时间你越往后做你越来越发现这个写代码要换的是难度越来越不在写代码上

对这才越来越多的难度不是说啊我有个功能今天要做就是越来越多的挑战会变成说还是在我怎么 acquire useracquire attention 嘛就怎么获取外部的真实的用户而不是说这个功能本身那我能不能做出来对所以他们的逻辑的话就是这些公司往往现在已经有量了就是他们说因为我们直接做出了效果所以我们现在获客非常容易但其实你也不知道他的量是真的假的因为那些体量都是可以造的

对但是数据都很好所以你就会觉得说受到了震撼嗯这也很正常有很多这种 hype 嘛我们叫 hype 就是有很多这种就泡沫一样的东西在里面就现在不是有一个梗吗说 AR 对吧就像神圣罗马帝国一样对吧他既不神圣也不是罗马更不是帝国他既不是 annual 也不 recurrent 更不是 revenue 更不是 revenue

对不对又不 recurring 所以这个我不知道第二个我觉得是比较重要的一个事我觉得这个是大家形成了共识就是大家越来越关注怎么去评估一个原来不确定的问题

这个是这前两天那个不是 openAI 那个姚顺宇还专门写了一篇 blog 吗这个事儿其实我记得三四个月前之前这个 Google 一个 Debian 也写过就是今天的难度就跟我前面跟你说去训练一个 post-training

它的难度其实不在于说我有没有那些代码能够去 trade 这个东西就是代码现在是非常廉价的对吧因为有开源社区有 AI 定义问题和定义 evaluation 吗对对对就是我举个例子我也不能举一个我知道我只能举一个比方说你今天说我想定义出能不能让 AI 生成

好的流行音乐那它的难度不在于 AI 能不能生成音乐而是我怎么评估这是个好的流行音乐所以它会变成这样一个这个问题其实当然我我们不是我不是音乐人我也不懂对吧但是说实话好像也从来没有在哪里就像它不像一个数学题或者怎么样有个标准答案就是什么是好的流行音乐就跟 AI 现在画这个图

就怎么是好的对吧就像你刚才说 vio 你觉得他重要的是他的关节理解都是对的对吧但有些人会可能会觉得说这个图不够漂亮但也有些人可能会觉得说哎他的光影不对啊那那还有个人可能觉得他为什么左边眼睛跟右边眼睛大小不一样当你发现这个事情是我能够我我定义了一个评估准则然后模型的输出结果最终跟我的

商业结果又是强关联的这个事情会变得比较重要我觉得 coding 的好处是说它的确相对比较容易评估这也是它能够跑得比较快的原因但是当我们想要说用 AI 改造每一个行业的时候你会发现有很多领域它不太好评估其实 coding 也没有你想的那么好评估

就是我们曾经去研究过那个 outlier 上面发的各类的 coding 任务然后去去仔细的全部研究过一遍然后跑过非常可怕他他也不是说有 UZI case 就行了他会把人逼疯

然后是给了你一套类似于你刚刚说的光影啊什么的给了你六个维度然后还要你自己去提需求提完之后他写写出来之后会让你按照六个维度去评估他然后甚至于会让你要眼睛看代码不准跑一遍找出他的 bug 之类的很荒谬的各种要求然后觉得啥呀我们其实也做过一些数据评估吧就是说我举个例子啊当然也不是我们做的我们做的我不能举个例就类似于说

我想生成流行音乐对吧那这两首流行音乐哪首更好听呢对不对你想找人来标这么个问题

然后你这样你既让 AI 帮你表两首流行音乐哪首更好听呢又让人表你会发现不同的人跟 AI 比如说你找了 100 对发现基本上跟随机选没区别就是人跟人之间就两个人之间说一致性等于 48.7%什么意思呢就是说有一半我们意见是一样的还有一半我们意见不一样那三个人呢两两之间是基本上在 40%到 60%之间然后 AI 跟人之间呢基本上也在 40%到 60%

这个就是我觉得现在有很多问题我们希望 AI 来解决但是其实不太好解决的地方换句话说就是简单的问题 AI 已经解决的差不多了难的问题感觉人好像也解决的不是很好对人的意见现在已经不知道该怎么听了我们早几天内部有一个 demo 是类似于一个播客的 perplexity 然后我就觉得里面那个人讲话太呆板

然后芒果就跟我讲说你的意见没有新习量你这个叫个人个人偏见就是像你讲的吧就是我觉得这个音乐好听我觉得不好听这个东西对于调这个产品一点帮助了没有这就是你的个人观点怎么怎么调吧

不知道啊哎好难啊那怎么办呢有什么方法吗有什么最佳实践吗写 evaluation 有最佳实践吗没有啊我觉得这个就是个就是看你我就是个团队迭代的过程吧而且我我觉得是说可能每个领域都还不太一样哎最后再问你一个我刚刚刚刚刚想到问题啊就是哎

那你最近用了欧三吗最近你说最新刚发的还没用还没怎么用 OKOK 我还想问你一下就是他一会儿聪明一会儿笨的我就是觉得说他到底是个什么逻辑就是一会儿你会聊到嗨一会儿他就会明显的我觉得他在降势在哄我

然后就觉得说这到底是个啥不是有人说不能用中文提问吗一用中文提问就降制不啊就用中文他一会儿又聪明一会儿就会他会生死守虑然后给我的东西会把我震掉一会儿就觉得你你呀明显就是在偷懒难道要持续的用英文问吗好的那我们今天就到这里欢迎大家关注 AI 令金术我们有一个公众号然后公众号就是徐东浩老师说他会去写那个什么 PC 网事以后会很精彩的大家去公众号上留言催他好的好的好的好的

好希望大家支持我们关注公众号关注那个 AI 联系数然后我们是比较就就在一线的然后那个我是在做那个投资跟孵化然后看过很多项目学庄号是真的在一线但是可以干的对对对我看到上一期有人问说你们两个到底懂不懂啊

我们是一线的从业一线的从业者对对对但是有很多东西也不一定是对的但是我们会聊一些我们真的看到的东西所以大家就是对就是两个人持续聊嘛这跟其他的播客比较不一样就是因为老师这两个人聊所以我们每次聊的东西还会不太一样但是呢比如说我去上人家的播客人家反反复复就问了几个几个问题对吧所以你每次讲的东西都有 50%是重合的

对我们两个讲的东西大部分时候就是还是比较新的东西所以大家欢迎关注欢迎推荐给朋友然后如果你是什么搞什么工业软件啊什么的然后最近想要什么 AI 转型也可以就反正关注我们公众号跟我联系一下觉得互联网呢太可怕了好那我们今天先这样然后结束了拜拜好拜拜

i