We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

E195｜从工具到伙伴：七位AI Agent深度使用者的思考

2025/6/10

硅谷101

AI Deep Dive AI Chapters Transcript

People

Colento

俞

俞舟

新

新琦

曲

曲晓音

课

课代表立正

高

高宁

鸭

鸭哥

Topics

鸭哥：我认为 AI Agent 必须具备三个核心要素。首先，它需要能够调用各种工具，例如搜索引擎或编程语言。其次，它需要能够自主做出决策，理解任务并分解步骤，最终完成目标。最重要的是，这些决策必须是多步骤的，并且能够自我迭代，根据前一步的结果动态调整下一步的行动，而不是像静态工作流一样固定流程。新琦：我从人机协作的角度定义 AI Agent，认为它应该是甲方和乙方之间真正的合作关系。好的乙方能够端到端地承接整个流程，并在关键节点主动介入，提供决策建议。在接受高层指令后，它能够自动执行，最终交付的是一个完整的成品，而不是需要用户自己拼凑的半成品。

Deep Dive

Chapters

本节探讨了AI Agent的定义，技术极客Yager认为AI Agent需要满足工具使用、自主决策和多步迭代三个条件；而非技术背景的嘉宾新奇则从人与AI的合作关系出发，认为AI Agent是真正意义上的甲方和乙方关系，能够端到端承接流程并提供决策建议。

技术极客Yager对AI Agent定义强调工具使用、自主决策和多轮迭代。
非技术背景嘉宾新奇认为AI Agent是甲方乙方合作关系，提供端到端流程和决策建议。

Shownotes Transcript

Hello 大家好欢迎收听硅谷 101 我是关注 AI 应用的特别研究员 Sophie 关于 AI Agent 也就是人工智能体相信咱们节目的老朋友们大多数都不陌生我们之前也从爆款产品 Madas 切入有过不少讨论

今天这期节目是一场关于 AI Agent 的观点大拼图我们邀请到了几位不同背景的嘉宾他们有的是 Agent 的日常用户有的是 Agent 产品搭建者还有的是从商业和投资角度观察这个领域的参与者我们希望用这些来自不同立场的不同观点为大家尽力呈现一幅客观立体的图景来展示 AI Agent 的现状和未来

首先让我们从最基础的问题开始到底什么是 AI Agent 我们先来听听一位典型极客的看法 Yager 是大型物流软件公司 Samsara 的 AI 应用科学家也是活跃在开源社区的 AI 达人他在 GitHub 上魔改 Cursor 的开源项目获得了超过 5000 个行标在 Yager 看来 AI Agent 需要满足三个必要条件第一个条件是他需要能使用工具

比如说他可以调用随从引擎来搜索或者调用编程语言来进行编程第二个是他需要能够自主做决策他需要知道当我拿到这个任务之后怎么样把任务进行分解通过这些顺序用这些参数来调用这些工具最终完成我们的目标而第三个是他这个决策需要是多步的需要是自我迭代的

比如说它不能像一个静态的 workflow 一样我先做这个再做这个定死的这个其实不太能算是 agent 真正算 agent 应该是我根据前一步的结果动态决定我下一步做什么比如说可能是前一步搜索已经得到了很多信息那我就停下来或者是前一步搜索我觉得有另外一个地方启发了我我要深挖那就换个关键字再进行进一步的搜索所以满足这三个条件工具调用自主决策和多轮迭代我觉得才能算是一个 agent

另一位非 AI 技术背景的嘉宾在世界 500 强公司担任数据策略总监业余身为播客主播的新奇他对 Agent 的定义重点在于人与 AI 的合作关系

我自己的定义就是从一个合作视角来说我觉得它是一个真正真正的甲方和乙方的关系而不是一个在聘用合同工的关系我们聘用一个合同工那我要做的工作是我要去定义好问题然后我要去拆解它的关键步骤并且在它完成之后我要去检查它的交付这个是我们跟合同工合作的一个合作流程

但是我觉得真正的甲方和乙方的关系是好的乙方它是一个端到端的一个承接整条流程的系统并且它要在关键的节点是要做一个主动的介入的并且它能够提供决策建议在提供完决策建议在我给它一些非常高层的指令之后它又能自动的执行最终它交付的是一个成品而不是一段一段一段的半成品让我自己把它拼凑成一个成品

下面咱们来听听他们各自使用 Agent 的产品惊喜震撼的时刻压哥告诉我们他从上班写代码到下班带娃都离不开三类 Agent 的帮忙

我喜欢的或者说经常使用的 AI Agent 主要可以分为三类教练型秘书型和搭档型第一种类型的 Agent 比如说 OpenAI 的 Deep Research 或者是 ChargePT 型的 O3 我用他们主要是想从他们那里帮我找到一些调研得到的信息以及帮我进行一些深度的思考把它当做一个了解我不熟悉领域的窗口还有另外一种用法是把它当做一个秘书来用

比如说像最近比较火的 Manus 还有 Devin 我都有订阅像他们就比较适合一些相对简单一点的 hands off 的工作第一个例子呢是我平时要哄娃睡觉很多时候就要给她讲故事

有时候确实可以从比如说 YouTube 上面找一些故事来给他讲但是我希望在这个过程中间带入一些私货就比如说你要好好吃饭要好好睡觉早睡早起这样的东西我就直接跟 Manus 说你给我写一个故事这个故事要基于白雪公主但是你往里面夹带一些私货让她教育小孩要好好吃饭写完以后你调用一个 TTS 也就是文本到语音的转换把它变成一个音频文件给我 Man

Manus 其实非常擅长这样的事情他可以写出一个相当好的文章然后再调用 Edge TDS 把它变成一个语音我就可以在娃睡觉前就放这个语音来哄他睡觉要真的要去做一些正儿八经的软件开发的工作其实我并不会去用 Devon 或者 Manus 这主要不是因为他们这个产品做的不够好而主要是因为他们产品的设计思路我感觉更倾向于这种秘书性质的 Hands off 的工作

如果真的要去做那种科班的复杂的软件开发任务的话我还是比较喜欢用比如说 CursorWindsurf 之类的东西因为他们在设计的角度上就允许或者鼓励你去做频繁的交互做一些手把手的指导

那么这个时候呢我就希望我先跟他讨论得到一个设计然后再让他去把一个个小积木搭起来我作为架构师再把这些积木给他进行组合我去审计他的结果确保他实现了我的目标像这个呢就更符合科班的高标准的要求那么作为副业播客主理人的星期又有怎么样的体会呢星期是如何利用 agent 来辅助他节目后期工作的各个环节呢

有一个新的一个 AI 软件我现在在做他们的内测其实是我自己加入他们的内测群叫 CreateWise 它的好处就是你只要一键上传你的音轨它直接给你呈现出来的东西是一个完全剪辑完了的东西就是它连帮助你去做哪些地方需要剪辑这个角色建议它都把这套都做完了所以它最后呈现的结果是一套剪辑完了之后的一套音频

它甚至有一个非常厉害的做法是什么比如说如果你有一句话你的结构是比较混乱的它甚至能够用 AI 的方式通过模仿你的声音来拟合出一段相对来说结构比较清晰的一段话你听完之后你就觉得哦它已经强大到可以站在我的视角以我的声音来输出了它针对改过的这个语句它是有高亮的所以你可以去听 before 是什么样子的 after 是什么样子的

刚开始他们是选择整段输出就是剪辑完之后你要么要整段音频要么你就不要我这个剪辑版本后来我跟他们提了这个需求说你需要给到我逐句的剪辑的这个空间要不然的话我无法用因为有的剪辑是我喜欢的有的剪辑不是我要的那他们现在把这个优先级提升这个已经上线了行程建议你可以选择要或者不要如果你选择要了之后它能够直接帮你串联到第三个模块就是它的文案生成和宣发

尤其是它的文案生成它是针对你在不同的平台它是生成不同的文案的比如说小宇宙 YouTube 等等对吧如果你是个音频的平台它会帮你生成 show notes 金句标题建议如果你是视频的平台它甚至会针对如果你是 YouTube 或者是 Instagram 你的视频的大小就长宽的那个比例它都会根据这样的一些非常细的一些细节生成可以让你直接一键就转发拿出去发布的这个内容

而另一方面有几款通用型 agent 产品也在一般性任务的执行上收到了用户纽约大学心理学大三学生 Colento 的好评我说几个不同的 scenario 吧我觉得第一个是可能在 general 层面上我可能最近一直在用 Manis 前两天也出来那个 GenSpark 那个 super agent 模式我觉得这两个都对我来说是比较惊艳的对没有到很惊艳但比较惊艳因为他们能帮我完成一些我之前不太想完成的事情

这是通用层面上的,另外就是 coding 层面上我比较喜欢用那个 Replicate 我之前可能用 Cursor 和 Winter,但我后来觉得 Replicate 可能更像是一个 agent 它能帮我做决策更多一点在学术层面上我最近在用那个 Illicit 但 Illicit 我觉得它没有到我心中这个 agent 的定义其他的我可能没有再看到达到我内心 agent 定义的这个产品

我先说一个最直观的因为 Manus 我最开始用的时候我最被它所吸引的是它的 UI UX 我觉得这是第一个差距就是在用户体验的感觉上面其实本质上来说 GemSpark 和 Manus 都支持 agent 执行过程的链接分享和回放

你可以看一遍整个的对话过程然后你可以甚至基于上下文具对话他们都会对任务做很好的规划和任务拆解然后他们也会调用很多不一样的工具可能他们自己去设计的这些工具可能会有一定的小差别因为我感觉 Genspa 之前在旅游上这些上面的场景都已经很不错了所以他们可能会有一些旅游的搜索的工具把他们预先设定好

还有一个比较有意思的差距是 Jasper 有一些功能可能 Messi 还没有比如说他们有一个叫 Call for me 就是可以帮你打电话帮你预约酒店啥的这还挺有意思的对当时让我有一个小的 Aha moment 就是主要是从用户体验和功能上面

AI 有惊喜点当然也有槽点在听听具体槽点之前我想先分享压哥一项有意思的洞察他说随着各种 agent 产品的不断发布他的槽点也在飞速的进化

很多他以前吐槽过的点现在却吐不了了像复杂任务中工具调用能力不足写作 AI-V 太浓上下文窗口不过长等等他在近期发布的产品新版本中都看到了很大程度的改善所以用户今天的槽点和痛点也将是 Agent 搭建者下一步重点空间的方向先从压根的槽点开始

现在 AI 模型的 instruction following 虽然比以前有了很大的进步但还是不太行比如说我想让 GBD 4.1 我给你一个五张的提纲你先写一到三张再写四到五张这样我最后就可以把它拼起来

然后他一定要在一到三章写完之后后面加一个未完待续我不知道他是为什么他就有这种冲动我跟他说你不要加未完待续他就换一个你有什么其他想写的我们下一次再继续写会换一种说法或者我试了很多 prompt engineering 的方法都不太行

最后怎么解决的呢是我们用一种逆向思维说你不是特别想要一定要在那加行字吗我们就把这行字定死你就说未完待续然后回头我再用一个程序把这个字符串替换掉切换成空的最后完美的解决了这个问题但如果他要是 instruction following 做的足够好的话就没有这么些乱七八糟的事情

然后第二个槽点是在我用 AI 产品的过程中间我感觉好多产品还是为了用 AI 而用 AI 举个例子不论是 Cloud 的 computer use 还是 OpenAI 的 operator 他们都会我可以帮你订机票我牛逼我帮你订机票我帮你去输信用卡号帮你输各种信息帮你点 book flight 的按钮

但其实呢我痛点根本就不在这如果你看一下一个人订机票花的时间最多的地方其实不是说去填信用卡号去填我的信息而是说去订下来我到底什么时候走比如说我要是前一天晚上走我会多花一晚上酒店钱但可能机票便宜一点或者是我就不用早上起那么早

或者是我就可以去送娃那如果我后一天走呢我又要考虑送娃的行程时间能不能来得及总的来说酒店加机票的价格是更高还是更低等等等等这个是最麻烦的那如果有一个秘书能帮我整理出来各种选项这个呢是对我用户来说最有价值最能解决我痛点的而不是最后那五分钟我就把信用卡号敲进去所以这是一个对 AI 产品开发者的建议就是还是要针对用户痛点来做不能为了用 AI 而用 AI

第三个就是 AI 很强但是发现人类社会它是一个人类 friendly 的东西它是针对人类自己来设计的很多东西只有人类有 accessAI 根本没有 access 举个例子来说不论是公司内部你跟人家谈设计还是公司外部跟客户谈生意很多时候都没有一个书面的文档都是我们出去喝杯咖啡在喝咖啡的时候把一些重要的决策就定下来或者你谈生意的时候你就吃饭在饭桌上把东西定下来但是

但是 AI 呢它拿不到这些信息像这种 tribal knowledge 没有付诸文字的 knowledgeAI 是完全拿不到的所以这不是 AI 的问题但是你也不可能说你去跟客户喝酒的时候你搞个摄影机把它全部录下来再喂给 AI 这个根本不可能所以这个是一个人类社会的问题我也不知道怎么去解决但确实是一个槽点就是 AI 能拿到的信息还有点像一个冰山一角有很多暗信息或者我管它叫废墟信息

他 AI 还是拿不到如果能拿到的话又会有很多很多的应用场景可以实现而星奇则通过他的亲身体会解释了 Agent 产品缺乏人情味的问题

我现在看到很多的 agent 或者 AI 产品所不具备的这个真实性我举个例子就比如说我们的三人主播我们多人播客里面我们会有笑场对吧就哈哈哈哈笑但是我会发现比如说我用 createwise 他会认为主播一哈哈哈哈主播二同时叠加哈哈哈哈主播三哈哈哈哈一下子就是九个哈哈哈哈在他认为就是一个重复词他就一下就都剪掉了他可能就只保留两个哈哈

可是在我看来这个才是这个节目很有意思的地方或者说集体的沉默这个东西在很多 AI 的软件里面它会认为它是一个声音的 silence 这个 gap 它是需要压缩掉的因为你要保持一定的这种性躁鄙或者怎么样或者是保持有一定的信息密度输出

但是集体沉默很多时候是非常有意思的当一个主播抛出一个问题的时候如果你发现有三秒沉默就说明这个问题非常值得你去探讨因为它能够让两位其他主播沉默的问题就很有意思了但是这个目前在 AI 软件里面也是识别为我应该去掉的部分

所以这个就是在于这种真实性的保留当我们在说音频剪辑的时候首先第一点你是中文还是英文因为我知道不同的 AI 的产品或者 AI 的 agent 对识别中文和转译中文并且形成剪辑中文的音频的建议这个能力和英文之间是有很大的差别的这是第一点第二点就是你的这档音频节目是一个单人的播客还是一个多人的播客这里面有非常非常大的差异如果你是一个单人的播客

相对来说是最简单的但是你是一个多人播客他会碰到两个问题第一个问题是多人播客以我自己的剪辑经验来说我希望是音频处理的时候是分多轨的去处理的而不是合并成一条音轨处理是因为这个里面会涉及到假设三个人有抢话那抢话的这个时候你怎么去保持一个平衡在于说我一方面希望听众能够听得清楚同时我又要保留大家在抢话过程当中那种氛围那种热闹感

这个东西是非常考验手艺人的这个手艺活的这个东西在现在大量的 AI 软件里面或者我们所谓的 agent 里面我们目前没有看到要么是他能够允许我上传多轨但是上传之后他连多轨对齐这一点都很难的做到精准

第二个就是要么他就不允许我上传多轨他只是允许我上传单轨但单轨就涉及到我其实没有办法去消化在单轨里面怎么去剪辑多人强化环节而这个东西恰恰是我自己认为一档播客画龙点睛的那个点睛的这一笔内容质量当然是很好但是你这档播客会不会让我去选择订阅我跟他的整个调性是不是匹配恰恰是出现在这种强化环节

面对我的吐槽邀请啊有一位嘉宾却出人意料的吐槽了这个环节本身这位嘉宾是身为 Statsic 数据科学家博主和 AI 社区 Superlinear Academy 发起人的课代表立正他是这么说的

我能吐槽一下这个吐槽吗但是我觉得这个吐槽的做法本身是错误的第一个错误是你理解上的错误第二个是使用上的错误理解上的错误是 agents 它没有 magic 对吧它是过去的这个大圆模型加上一些信号的工具包括这些 protocol 一点一点做上去的所以说你不太可能指望它今天就做好

然后你如果觉得今天做得不够好的话这是理所应当的事情大家的这个心态啊是从上一个时代带来的就是大多数的工具是 GUI 那 GUI 就是你点一个 button 然后这个 button 就应该 work 如果你点了一个 button 这个 button 不 work 的话你可以吐槽它但是 AI 不是这个样子的 AI 不是外挂也不是魔法对吧所以说你要学会怎么用好它它才能用得好

在探索怎么用好 Agent 工具这一点上,客代表曾在他本人的博客里分享过用 Manus 反复尝试一项任务 15 次终于成功的经历。他说,

所以说它一开始就有做成的潜力但是我前 14 次的使用是不够好的那我应该吐槽 Manos 还是应该吐槽我自己呢 Manos 已经在它的能力之内做得最好了我应该吐槽我自己就是为什么我花了 14 次的电贷才把它做好而不是一次就把它调教成功说明我使用 AI 的能力还有问题对这就是第二个就是大家如果没有一个学习的路径吧或者说是一个改进的路径的话那你肯定是用不好的

你不能用一个 user 心态去对待 AI 你一定要用一个 builder 的心态去对待 AI 就是你一定要去使用然后去用它去 build 你如果还是用一个 user 然后今天吐槽这个产品没有设计到位明天吐槽那个产品没有设计到位的话那你会被这个时代落下的

听了这么多用户的喜悦也好困惑也罢这些问题从开发者的角度看又是怎样的呢我们把视角转向搭建者我把这个问题抛给了身为 agent 搭建者的徐晓英她创立的 Heboss AI 今年初刚上线晓英分享了她的看法

我觉得这个问题呢当然首先存在 AI agent 的 LOM 本身有些情况下不够智能但是我觉得更多情况下它是一个工作方式的变化就举个例子比如说特别牛逼的小天才来到一个公司当实习生他从来没有工作过你让他做啥都哈哈哈哈没问题包在我身上结果你就发现他做的呢怎么不太靠谱到底能做还是不能做他认为他啥都能做但实际上呢他做东西又不太符合你的预期他觉得这个东西有风险呢他又意识不到有风险他又无法跟你沟通说老板这个可能一定那时间内是做不出来的

但这个可能来自于工作经验不来自于智商所以就是我们会发现工作五到十年的人他会非常明确地跟老板讲这个预期是多少我认为这个三天做不完所以更多的是来自于他工作的经验那对应到 AI 上我觉得更多的是来自于他可能同样的事情做过很多遍他知道好还是不好他知道做出来没做出来准确地说不仅是他自己做不做出来而是用户觉得他做没做出来

就是说 AI 做完之后用户的反馈是好还是不好当然我觉得我们如果有更多的这方面的 data 这个 data 呢是掌握在 application layer 的 agent 的这个创作者 AI agent 的这个公司不掌握在 open AI 对吧就是说这个需求本身老板满意不满意这个 data 掌握在像我们这样的 AI application 的这个公司里如果我们有足够的 data 我们是可以知道预期有没有得到满足的但是预期本身是需要老板来定的

当我们没有老板的数据的时候我们不知道老板的预期是什么所以我觉得现在 AI 最大的问题就是他没有工作经验我们需要的是给他提供工作经验以及给他老板的反馈好还是不好做完了还是没做完打几分这样的话我觉得 AI 会更加的准确

还有就是你的 use case 要有一定的聚拢就比如说有些什么都能做的从孩子定范到什么解决宇宙问题啥都能做那这个情况下你的 use case 不是很聚焦其实每个用户的停价体系它没有什么 pattern 对吧就它啥都能做像我们这种比较聚焦我们就是做网站做这种 app 对吧就帮这个小企业主做帮创业公司做帮营销部门做那我们每个 use case 其实可以评判我们有没有达到用户的需求本身招我们的目的是什么我觉得这个聚焦我们就可以有大量的重复性数据来判断我们好还是不好

但是如果不聚焦的话本身这个评判体系就比较难渝州是哥伦比亚大学计算机副教授他的创业公司 Arclex AI 为像新东方沃尔玛这样的企业级客户内部 agent 利用开发提供框架和工具同时也面向终端用户提供自营 agent 产品他从技术层面给出了如何让 agent 更听话的应对策略

其实 agent 它不是只有一个东西它其实有很多的比如说我们要做 guardrail 就是防止它有各种各样子的不好的东西出现它其实是一个比较复杂的过程它不是说它只是一个 tool 我们卖给你就可以了它其实我们是会教你整个一套如果你要完成这个任务什么样子是最好的方式就是 best practice

而且很重要的是你一定要做测试就是你要做 evaluation 如果你不知道你这个 agent 做什么是好什么是不好的话那你这样随便做它肯定是没有好的最后的结果的我们会做各种各样的调整根据它的评测的极一来做像这种情况的话就是可以用 agentic workflow 来处理这些问题在工作流方面小英从产品设计的角度提出了一种具体的解决方案

我们也提供了很多的 tool 其实不是通过 AI 来修改而是让用户像改 PPT 那样圈一下一个字把它弄大弄小改一个动画我们就发现很多情况下虽然 AI 也可以改但是用户还是希望更可控的结果所以这个情况下他们会选择比如说字或者词或者是图片替换或者是加一个效果他们倾向于用老的方法就是 PowerPoint 的这种方法而不是用 AI 的方法因为觉得不太可控所以我们在 AI 的这个天马行空或者能力更强定制化更强但是可能不可控

和可控但是是限制性的功能相比我其实觉得这两个都需要最后关于压哥提到的 AI 缺乏人类暗信息这个根本性挑战小英的看法是

因为我们本身的工作性质它以前也是线上完成的就当你造作一个网站你联系一个巴基斯坦的外包公司或者是发表上的招包公司它本身也是线上它也很少会给你握手通过它握手的力度来判断它是不是喜欢你就是对我们来讲不是那么重要所以呢对我们来讲我们反而可能跟人跟人之间的沟通难比我们也没差多少

这是我们本身的这个赛道的一个比较适合 AI 来超越人类的一个点但是有一些行业像这种线下的服务行业或者是大企业的销售他们很多可能是在高尔夫球场在这个包厢里完成的对吧那这个情况下 AI 确实在这方面的 input 的 data 就不够所以我觉得更多的取决于这个本身 agent 它的性质它本身这个以前要取代人类的工作性质

除了应对这些用户痛点,我们也很好奇,Agent 搭建者们目前还在哪些方向上寻求突破呢?余周教授介绍了他和团队正在探索的前沿技术。比如说我自己的实验室里我们也做一些我认为非常重要的新能力,就比如说我们称之为一个叫 backtracking,就是 self-correction 的能力,就是说它可以根据自己做的怎么样来选择自我纠正。

自我纠正的能力也很重要还有我们称之为各种各样子的 self learning 就是通过自己的方式来学习这也很重要

而小英则透露就是说我们不只是讨论一个 agent 卖一个 agent 给用户我们卖的是个解决方案就需要多个 agent 的合作为了让他合作的更好我们需要一个 AI CEO 或者 AI Leader Agent 来 lead 其他的 agent 我觉得这可能是一个发展的趋势那这个趋势的好处就是我们可以通过多人的力量多个技能不同合作的力量来解决一些本来单技能无法解决的问题

那么 AI 的合作可以取代很多那种人本身一个团队不仅去取代某个工种而取代整个公司取代整个团队我觉得这是一个很大的趋势但云州也提醒我们这条路上还有不少技术挑战

有很多的 agent 同时在一台机器上工作他就有问题很多个 agent 他要分在不同的分布系统的机器上工作那有更多更多的问题就是说怎么更好的高效的 low cost 便宜的去处理这些问题然后还有很多并发各种各样的问题会导致我们说有很多东西要做真的要运用到大型的企业中以及提高很多的能力的话最大的一关就是我们说的安全

就比如说一个大的企业,我们就举一个最简单的系统上的问题好了,数据库,对吧,以前数据库是给人用的,人有权限去改数据库的东西,那现在智能体 agent 要去改这个东西,对吧,如果有同时很多的 agent 要同时去改这个数据库,我们怎么办,对吧,万一你给他改掉了以后,他这个都不一样了。

他搞了半天又要恢复原来的设置那他本身现在的数据库是无法提供这样子比较好的我们知道就是比较 efficient 比较高效的方式来存储以及跟 agent 做连接的比如说你一个 agent 和另一个 agent 的交互哪些 memory 就是你的记忆要分享给别人哪些是可以分享哪些是不可以分享

还有比如说这个数据库有一些 governance layer 有一些 agent 可以接触某些数据有一些 agent 不可以接触某些数据就跟人一样的你没有这个 clearance 你接触不到核心数据是吧那如果你有一些就是我们称之为 safety vulnerability 的话那你又不能做这个事情那哪些是 outfacing 哪些是 inward facing 等等它里面有很多非常具体的工作需要做

除了技术层面,产品设计同样是搭建者们关注的重点。大模型的变化有点像是这个人的智商水平,但是大模型更聪明并不代表这个技能他更懂,因为这个技能本身除了聪明之外,可能还有一些行业的 know-how,或者是比如说对于用户的具体这个所处 use case 的理解,那这个东西不一定是智商导向的,有可能是经验导向的,所以对我们来讲这两个都非常重要。

比如说你是一个创业者你要做一个公司官网你是一个小企业主你想卖客或者说你想卖你的咖啡店的订单那么很多情况下呢你可能需要了解这个行业并且你还要知道这个行业最新的玩法你的竞争对手都在干嘛所以就对我们来讲更多的是能够确保你在你的这个行业你的网站或者你的 APP 能够帮你带来更多的商业价值那我们第一我们需要了解你这个行业第二我们需要与时俱进地了解你这个行业

就你这个行业的新变化我们也要能跟上第三就是 AI 要具备一定的品位这个品位其实更多的是 AI 本身的设计即使你自己不懂设计但是 AI 给你的这个方案是有一定的调性的有一定的个性的并且符合你的品牌的预期的所以这个品位我觉得是非常非常重要的这个不一定是大模型越牛逼品位就越好所以

所以品位其实我觉得更多时候来自于我们的训练也来自于我们可能设计这个 agent 的人本身的品位也来自于我们对于客户他们这个行业所需要品位的理解因为有些客户他说不清楚他要的品位是什么他只告诉你这个不对这个太土了那么太土是什么意思

其实对我们来讲如果一个用户说这个网站太乱太土不够直观这些词都非常的虚对吧我们要理解透过现象看本质这个小企业主如果是健身博主他说土是什么意思如果他是一个卖水电工他说土是什么意思如果是 AI 创业公司的土是什么意思每个人的土还是不一样的对我们来讲这种对用户洞察的理解不一定跟模型本身的优劣有关最后在市场培育方面渝州提出了一项经常被技术人忽视的关键挑战

对我觉得最重要的还是大家现在都说哎这个好像炒得很火但是真实的 roi 没有在大企业中部署的很少但其实我觉得这个东西是时间的问题因为大企业很多东西推进都比较慢然后我们可以看到其实 technology is easypeople are hard

我们要重构他的这个供购流程我们需要说服他重构这个生产关系是非常困难的所以说我们通常要了解他们怎么去教育这些员工然后让他们更好的利用这个 AI 这个部分呢是需要慢慢慢慢做的不是说哎我这个东西今天出来了明天就能用上需要企业从上到下的一种 top down 的方式来解决这个问题

那么这些技术和产品如何转化为拥有壁垒的长期商业模式呢?我们切换到商业视角,一起来听听投资和创业领域的观点。我们先请教一下 AI 产品出海社区 Linkcloud 创始人、前高龄投资人高宁,听听他对 Agent 创业公司如何打破传统 SaaS 壁垒的看法。

新的数据就是数据这一方其实现在看出来不完全掌握在传统的 SARS 的这些公司的手里比如说我是帮助医生去做医疗诊断的记录的那以前这些数据也不在这些传统的 SARS 公司里面因为以前是说医生手打一些放他后的一些数据填到那个表格里面对吧有很多做门诊 SARS 的病例管理的这样的公司

可是现在变成了语音的数据经过 AI 整理了之后这些数据是更新的而且是更准确的而且更丰富的那意味着传统这些数据根本就是落后的了不需要的了那这个时候新的 startup 其实掌握了新的数据以后就而这些新的数据才是客户其实想要的真正的价值

那就在于这一点的话我觉得是很好的能去打破所谓的传统 SaaS 一些垄断的大家都说 Data 才是 SaaS 公司最重要的一个所谓作为 System of Record 但我觉得很多新的数据其实不在传统公司的手里了第二点的话大家会说 Distribution 就是渠道和客户

那我觉得这一点是所有的就 startup 成长起来都会面临问题但问题就在于如果你服务的是一些你初创公司陪伴着一些高速增长的客户发展起来他们会成为未来的平台型的巨头或者是未来的公司之后的话那你陪伴这些独角兽变成超级独角兽变成上市公司那你不就掌握了新的渠道或者新的客户关系吗那我觉得这一点也不是说传统公司永远都是这么牢固的那

那所以我自己还是挺 positive 尤其是在一些这种所谓的大家说在一些 outsourcing 的领域或者是以前是很服务驱动的领域那这些领域中本来就是人在做很多 data 处理相关的 summary 相关的事情的时候的话那明显你的 agent 或者是 AI 也好你其实是能够去更好的处理输入的数据

输出更结构化的更丰富的更有高价值的结果和数据的时候甚至任务的时候的话这个对 Starlight 来说是一个挺好的挑战这种 income 的一个路径吧

压哥则从了解用户偏套和使用习惯的角度提出了默契这个有趣的护城河概念最浅显的一个护城河可能在数据方面比如说 Manas 或者 Devon 它有一个功能是说它可以记下来你对它的纠正并且把这个知识再用到以后的对话中间去

比如说我是一个公司我用 minus 做 PPT 做出来之后呢他第一次给我用的主色系是绿色那我就跟他说不行你把我把主色系改成蓝色这就是一个数据的积累的例子他就会把这个知识记下来那未来比如说我或者公司里其他人在我叫他做 PPT 的时候他就知道他是用蓝色来做

那当这样的事情多了之后呢就会逐渐产生一个东西叫做默契你会觉得这个很好用他知道我老板喜欢什么知道我们公司内部的各种规章制度我不用去天天跟他纠正

这时候来了一个竞争对手但是他再厉害他也不知道我们公司内部的一些东西文档里面有的东西他可能上来还是用绿色来做 PPT 我们就会觉得这玩意吹得那么厉害他怎么其实那么傻他跟我一点默契都没有像这种东西就是一个非常大的护身盒哪怕他真的很聪明但我们也不愿意去用

在这种情况下就意味着我们的创业者或者说产品经理就要去想一个问题我们到底怎么样通过数据来构建这样一个护城河怎么样让用户和 AI 之间产生一种默契这个才是最有效的竞争的手段

小英还进一步指出我们表面上看来是携带码实际上我们是帮用户 run to the business 实际上我们是通过我们的这个软件或者是他的 app 或者他的 website 帮他塑造一个品牌形象帮他吸引用户帮他更好的留住用户帮他更好挣钱所以最终来讲我们是帮助用户挣钱就是这个 agent 最终的目的还是帮助用户挣钱而不只是说我给你做了一个东西我给你做了一个软件你用吧所以我觉得这个情况下呢我们就需要更多的了解他更多的后面的数据

包括它引流引的怎么样用户这个网站上停留了没有我们需要了解更多这方面的数据那我们在这个垂直领域做得越深当然我们的不可取代性就越强如果我们只是说纯粹设计个网站开发这个网站就结束了也不需要考虑最终有没有人用以及转没转化那可能我们的护城河也不是很高我觉得可能护城河也取决于整个这个东西是不是做深是不是从 end to end 都能够给用户解决它最终的那个目的比如说挣钱

这是它最终的目的前面都是一些一步一步的所以我们如果能直接给它最终的目的我们就更难被取代如果我们给它中间的一个某个步就是比如要三步它能挣钱我们解决的是第一步那我们可能会更容易被取代像 OpenAI、Empropic 这些大模型公司自己也在加强 agent 能力他们会不会最终挤压创业公司尤其是通用类 agent 创业公司的生存空间呢

高宁对此有一个很辩证的看法像现在的 GBT 的 DeepSearch 和 Manas 或是 GeneSpark 就是这样的通用型的 agent 那理论上也会多少存在着一些竞合的关系但是因为他们都在做越来越多新增的用户然后越多的小白用户知道 agent 能做什么事情的时候中短期内我觉得还是没有太大问题的

那只是说长期可能模型的用户模型的产品用户越来越多了那他同时在用两款产品的时候如果大家表现出来的差异化不那么明显的时候那一定会有一些替代但我觉得从长期的角度来说因为对于这种应用型的产品它的好处在于它可以选择各种各样的模型哪个好甚至是怎么样的组合更好它的成本它的效率更优那是非常有可能的事情那我觉得这两方面其实都有 pro's and com's

渝州教授也从企业级应用的角度进一步强调了应用层中立性的价值中立的第三方像我们这样子的平台其实更容易更快速地推进

因为谁也不知道将来我是不是要跟 OpenAI 绑定没有人想跟任何一家公司做深入绑定因为我们大家都想要一个 backup 那我们这样子的中立的平台就是给它提供这种方式的那我们知道大的企业 Enterprise 它都要做 Multi-Cloud 所以说为什么我要跟 AWS 绑定我要用它的这个 Framework 呢万一它这个突然不行了我得换一个我怎么办呢所以说这个第三方的像我们这样子中立的平台是非常有优势的

那么具体而言 Agent 创业公司应该如何避免与大模型公司正面竞争呢高宁给出了一个很实际的建议其实 VI 自己也会跟 Harvey 或跟垂直的一些应用去合作而不是完全的去做因为这里面涉及到的一方面你不太可能拥有每家公司私有的数据二方面的话你涉及到跟工作流的磨合打通这些事情是脏活苦活你要去搞清楚人家在日常工作中是怎么用的

workflow 是什么上下游是怎么样的系统层面上游是怎么样的我觉得这些事情大概率大模型公司不会去做尤其是现在越来越大家更 focus 在 AGI 为目标或者是模型的基础能力的提升为目标的情况下二是说如果你是偏通用型的产品的话多少就会有这个隐患了就像你说不管是你纹身图还是你 agent 这个方向上

但是你作为一个应用型的产品你可能就更可能的要往你的核心的用户去做成一个越来越 workflow based 的一个 SaaS 的工具也好或者是越来越跟大客户去合作做一些定制为他们做一些解决方案也好这些是可能 startup 直面这些大模型公司应用产品冲击时候的一些选择吧

最后,我们来聊一个很现实的问题:Agent 由于需要多轮交互和调用工具,经常会消耗大量的 tokens。这会不会带来严重的成本压力呢?对此,Heeboss AI 的创始人小英的回答很有意思:

因为我们是以结果为导向用户他的比价是说以前我要找一个巴基斯坦工程师一个开发团队有设计有文案有 SEO 然后他多少可能几千刀我们再怎么贵也不会比巴基斯坦的团队要贵并且我们再怎么慢也不会比巴基斯坦的团队更慢

所以对我们来讲用户的预期就是说只要能够我 deliver 结果价格跟速度可能都已经足够让我经验了我要的是效果对于这种情况下我觉得其实我们不是很担心 token 本身的成本的问题因为用户本身这个服务本来花的钱更多因为用户不是说你们便宜但是这个巴基斯坦比如说打分是 90 分设计你们是 60 分但你们便宜比如说 10 倍我也用不是的用户是说你至少要跟他一样好看我才会考虑如果我一旦考虑价格可能就不是问题

所以对我们来讲我们注重的是效果要达到跟人一样牛逼的水平技术发展从来不仅仅是技术本身的事它往往也会带来深远的社会影响随着 Agent 技术的普及它可能会重塑人与机器的关系甚至影响社会结构接下来让我们一起来听听嘉宾们对于 Agent 时代的哲学思考和未来展望

Colinto 分享了他对 agent 与人交互方式演变的一些思考传统 AI 对吧传统 AI workflow 上面人类先给 AI 就是大家好一步一步的操作然后 AI 给出来一个 response 让人类来看对吧其实你会发现人类会有两个审核点一个点是我最开始搭的时候过程中审核

第二个点是 agent 给出结果之后我对那个结果审核审核完之后再返回到第一步再去改其实这个是有点小麻烦的对吧因为你要看两次我不会觉得这个次数可能会变少我会觉得你检查的方式应该有一些变化就是未来的 agent 他应该是上来第一步是去跟你对齐你的价值观

对齐你的记忆对齐你的所有的偏好那你做第一步应该是做 alignment 这个 alignment 不只是行为上的 alignment 而是你这个人全人的就是 whole person 的 alignment 然后你放手让 AI 识别清楚你的意图之后去干所有的事

什么时候 AI 来找你什么时候你需要去审核当出现一些高危情况或者是一些极端情况的时候 Agent 来找你问你你 confirm 一下我刚才说这种形态我在 replication 上看到了如果你们去输一个 query 对吧他不会每一步都叫我来 confirm 对吧你如果用 wind serve 如果你不开 auto 模式你每一步都得 confirm 很多东西其实我觉得是不需要 confirm 的你应该让他放手去干的这是一个宏观上的解释

雅各从更广泛的社会匹配角度讨论了在他看来对于赋能 agent 有关键影响的环境因素 AI 到底能够在人类的社会中或者在我们的日常工作中发挥多少作用很大程度上取决于这个问题到底有多 AI friendly 或者说 AI native 就像蒸汽机的例子一样如果我们把整个船它的工作方式都围绕着蒸汽机来构建的话

很可能这是我们能够实现最优化工作流程的关键从数字世界的角度来说哪怕 AI 没有物理世界这个隔阂在数字世界我也非常痛苦我觉得很多东西都不是 AI native 的比如说我写了一个代码我写了一个库我希望别人来用或者我写了一个产品希望别人来用现在的产品说明书或者说文档都是面向人类的

它比较零散因为知道人很弱它阅读速度很慢所以给你拆整很多很多页你要自己去点超链接才可以但 AI 完全没有这个问题你可以人给它几万字它一下就读完了所以 AI 需要的其实恰恰是一个 all in one 同时你可以贴很多代码因为它完全没有障碍就可以阅读很多代码不像人类

是这种 code heavyall in one place 这种东西是最适合 AI 的那如果有两个库或者两个软件一个是 AI friendly 的他给了 AI 这个东西 Cursor 看了这个东西立马就能写 code 另外一个呢是 human friendly 的在未来可能我觉得 AI friendly 的竞争优势会很大很大所以这是另外一个 AI native 有非常现实的价值的一个例子

在 AI 面前人应该扮演怎样的角色又有哪些 AI 难以替代的价值 Colinto 就表达了这样的忧虑

我们跟机器之间的交互变得越来越薄了举个例子原本你用 Google search 对吧你发一个 query 它给一个 response 你这个其实是有点平等的对吧虽然它可能会给一个 result list 你可以选对吧但也是比较平等的你现在跟 GPT 是无边界的交流直到你 token 耗尽对吧你发个 query 它啪啪啪给你出来一长段你给 manus 说一个 query 它给你工作 80 分钟给你完成一个任务你的意义在哪呢你只是给这种高层引导未来是不是你也可以被替代掉我会很担心一个人自己的价值所在

面对这种担忧新奇提出了他对人类创造价值的理解我会觉得我依然是那个能够首先形成想法提供指令精雕细琢保障成品的这一个核心的人而 AI 是我的一个合伙人我需要他给我处理起如果这个内容是一个结构化的可以非常能够被 AI 所获取的这个东西那这个就不能够成为增量价值

而真正我觉得有价值的在音频的世界里面更多的可能是来自于要么是你在某一个非常深入的领域有非常深度的不管是商业洞察还是学术研究这些东西尚且没有为 AI 所消化要么就是以我们自己个人身边的例子

它并没有以一种结构化的方式把这个信息上传到互联网上去的这样的一些信息内容我觉得第三点就是尤其是在多人播客里面以我们的节目为例我们三位主播是在三个不同的时区是在不同的人生的成长的发展阶段那因此我们的观点相对来说它是有一种差异化的张力的

而这个张力可以给我们节目带来的效果就是我们的讨论通常来说是更立体更多元并且更有火花碰撞的我觉得这是一个非常非常好的在 AI 时代下面我们就是要不断地鼓励有观点的碰撞有认知的迭代提升而这个东西可能我们一对一单点跟 AI 去做合作也许不太能够实现而雅各则从人与 AI 的工作关系角度提出了一个有启发性的观点

你就想象一下 AI 它是一个 team member 它不是一个工具也就是说我们跟 AI 之间的关系在逐渐的发生着改变以前当你说一个工具的时候你会说我用我的螺丝刀我开我的车

但是不太会说我把一个什么东西 delegate 给我的车但是你把这件事说我给 AI 来做大家会觉得很自然所以这个是 AI 这个工具跟以前的工具不一样的地方因为它能做的事情越来越多所以我们跟它的关系在发生变化我们跟它更多的变成了领导和下属之间的关系

这就意味着我们人类的核心竞争力往往是从以前的怎么样去你要会用计算器变成了怎么样会管理 AI 这是一个很大但是被忽视的问题因为其实会管人的人非常的少管理本身是一个博大精深需要很多培训和学习的东西其实这恰恰是我们在管理 AI 的时候需要学习的东西它不是说这个兔你像螺丝刀一样拿到手你就看了证明书你就会用了而是你需要会管理才能用好

我觉得这是另外一个要做好的 mindset change 最后 Colento 还强调了人类在价值判断上的不可替代性因为我觉得在哲学层面上来讲 AI 是没有办法代替人做价值判断的如果你回看整个计算机发展历史的话一直是分久必合和久必分的你会发现整合都是以牺牲个性化为代价的

所以我就会越来越想什么东西是我们应该去放弃就什么个性化是我们不应该被放弃的我认为是人境是人本身是绝对不能放弃的所以我会那么想去觉得应该有一个属于个人的大模型因为现在你可以看到所有的 GBTCloud 或者说是 Gemini 这些都是中心化的或者说想要打败魔法只能是魔法

你想打败这些所谓的 centralized AI 你得有一个 personal 的 centralized AI 给到每个人然后每个人可拥有可牵引所以我会很关心 AI 怎么跟人对齐怎么做 responsive AI 就是如果说拿硅谷那两派做比喻我更像是 Jeffrey Hinton 那派而不是 Sam Altman 最后小英则从更宏观的社会学角度思考了 AI 社会可能出现的新型关系我之前看过一个心理学的研究说人跟其他的物种的区别就是我们能够组织大量的人很多

很多动物可能一个族群里可能就 100 个大象或者 50 个大象就很多了我们可以组织几百万人几千万人这是我们人类跟其他动物一个本质差别那下一个问题就是说 AI 能不能组织更多的 AI agent 能不能像人一样可以组织几百万上千万的 AI agent 去做各种各样的事情

那是不是 AI 就可以迸发出更牛逼的能力我觉得这个其实是存在这个能力的只是说我们可能需要 AI 的 LM 的能力更加强它的 context window 更加的多它的 tool use 更加的完美并且 AI 的 evaluation 它能够管理更加复杂的这个架构那还有就是这 AI 跟 AI agent 之间会不会有一些所谓的利益上的不一致对吧就跟人多了总要打架那 AI 跟 Agent 之间

我觉得其实也会的因为他们每个人的 success 的 metric 是不一样的所以就存在利益不一致的地方就像人一样那么这个情况下 AI 跟 AI agent 之间会打架那怎么来评判他们之间谁对谁错我们是到底是期待一个民主的这个投票制 AI agent 投票还是我们期待的是一个独裁的政府就是 AI CEO 说你们都听我的闭嘴那我觉得可能我们马上就会处理类似于人类这种社会架构上的问题而且还有一个问题

还有一个点就是说有可能 AI agent 会管人人也会管一些 AI agent 我们马上就会有这个问题了其实我们就在思考现在我们如何设计这个体系 AICU 如何评判这个人做得好跟不好怎么跟这个人去对接怎么让他提升他的技术能力他的工作水平其实我们现在已经发现了这样的问题

好了今天的讨论真是太丰富了就像嘉宾所说的那样我们可能需要学习管理而非仅仅是使用 AI 我们也需要重新设计环境创造更加 AI 友好的系统更重要的是我们需要找到我们自己在 AI 时代的定位

感谢各位嘉宾今天的精彩分享也谢谢大家的收听如果你对今天的话题有任何想法或反馈欢迎在评论区留言或者通过社交媒体联系我们我是 Sophie 我们下期再见

E195｜从工具到伙伴：七位AI Agent深度使用者的思考 47:08 Share

硅谷101

Deep Dive

Shownotes Transcript

E195｜从工具到伙伴：七位AI Agent深度使用者的思考