cover of episode 从设计Agent Lovart的爆火看Agent类产品的趋势

从设计Agent Lovart的爆火看Agent类产品的趋势

2025/5/16
logo of podcast AI产品黄叔

AI产品黄叔

AI Deep Dive AI Chapters Transcript
Topics
发言人:我认为Lovart作为一个设计Agent,它的成功在于它在垂直领域做到了极致。通用Agent的时代已经过去,因为模型能力有限,很难在所有场景都表现出色。Lovart通过优秀的提示词编排和工程链路,在设计领域取得了显著成果。我观察到,现在的Agent产品核心在于理解用户意图、拆解任务并调用合适的工具。因此,在垂直领域找到好的切入点,优化提示词和工程链路,仍然有机会打造出爆款Agent产品。我坚信,只要选对群体和高价值场景,未来半年到一年内,垂直Agent领域依然充满机遇。

Deep Dive

Chapters
介绍了Lovart这款爆火的设计类Agent产品,它通过输入框接收用户需求,调用相关API(如DALL-E 2)生成图片或视频,并提供编辑功能。Lovart一次可生成多张图片或一个包含BGM和字幕的完整视频片段,展现了Agent产品强大的设计能力。
  • Lovart是一款设计类Agent产品,通过输入框接收用户需求。
  • 它调用了多个API,例如DALL-E 2,生成图片和视频。
  • Lovart提供编辑功能,可对生成的图片进行修改。
  • Lovart一次可生成多张图片或一个完整的视频片段,包含BGM和字幕。

Shownotes Transcript

昨天写了一篇文章产品写的是 LibLib 在海外发的一个设计 agent 叫 LoveArtL-O-V-A-R-T 那这个产品它确实是套壳套到了一个非常高的水准

那他首先我讲一下他的产品形态是什么样的就是一个输入框然后呢你就说你想做什么东西比如说啊你想做一个黄书的表情包然后你把我的微信头像上传上去然后他就会自己开始去规划

规划之后呢然后他会去调用一些必要的软件比如说必要的 API 比如说 JGBT 的 Image1 它是一个生图的模型它就能够基于我的头像然后和他拆解完之后的提示词都发给了 JGBT

然后再把生成的结果返回给你那呃放给你之后呢他其实还不单纯就结束了其实你还可以在那个图上面他加了一个画布你可以在画布上面去对这张图进行编辑啊那所有传统的 AI 编辑的功能都有比如说抹除比如说扩图缩图这些他都有

然后这是他的一个主要流程但他当然不止仅限于一张图片的生成他一次我看应该是像我这样的表情包我记得他是生成了 10 张图

然后它还可以生成视频然后视频的话它自己也会生成 BGM 然后多段 5 秒钟的视频拼接成一个符合它认为 OK 质量的一个视频完整的片段

那这个完整片段他会有几个部分构成第一部分呢比如说多段 5 秒视频拼接在一起然后他自己会去剪辑然后呢包括 BGM 的生成包括字幕的生成都有所以他就是一个非常完整的一个设计类的 agent 然后发了之后确实非常火就他真的是产品很厉害不是我们在吹那这里面呢其实他代表了两种

我觉得代表两种思想第一种就是套客套到极致之后在通用 agent 的领域已经行不通了第二个是套客套到极致在垂直领域是能做得非常好的

我们分开来讲一讲啊第一个首先是 minus 在 3 月 6 号还是 7 号发了之后你看其他吃到了一个最大的红利现在你只要任何一个产品在说通用 agent 的大家都会拿他跟 minus 来做对比对吧就 minus 他已经成为一个事实上的一个呃相当于是对标物 bench park 就你你说你牛逼你只好比 minus 牛逼对吧

现在你任何其他的竞争对手再来做通用 agent 你很难获得像 Manus 这样的这种影响力了这其实会对后面所有做 agent 类产品的公司带来很大的一个冲击首先做通用 agent 肯定不可能做到

很多 good case 反而会有大量的 bad case 因为现在的模型能力就是不行你工程化再怎么做都不可能过度去提高它整个最后的效果特别是多个场景的这种效果因为你通用嘛通用就是大什么你都得做一做但是最后的效果肯定是很多 bad case

包括 Manas 就是非常典型的其实我我写文章我并没有吹他我只说他的诞生的故事我我我其实用的是很少的我算是第一批用 Manas 的用户对吧就当时北京的发布会我在现场那

但我觉得这个事情他是他是这样的就是从 Mandus 到后面你其实他是最大红利以及说啊他把整个 Agen 的赛道给带货了啊

然后大量资本都在关注对吧但现在我们再去做通用 agent 很难再获得同样的声量大家都会想你的现发优势在哪你的没有对吧然后呢你的整个团队的能力又在哪然后呢市场空间怎么样就已经很难去完胜面了所以这就回到说我们要回到去做锤子类的 agent

做垂直的 Leader Agent 又说到我们刚刚第二个话题第二个话题是啥反正我觉得是 talk 套了几次仍然在垂直 Leader Agent 有非常大的价值这点核心在于其实现在仍然是一个提示词走天下的时代因为模型能力上去了提示词能做到的东西就更多了提示词它某种程度上它代表着什么呢编排

我们看现在大量发的 agent 的产品他其实本身就是说他首先去理解你的意图然后去拆解任务对吧每个任务他再去调用各种对应的工具然后执行完你的任务

所以这里面你看他就是两个事情一个是说我要去规划第二个呢是我调用工具来完成规划里面的每一步那这个事情其实我在玩 mcp 的时候呢我我就有非常清晰的意识了啊我会非常明确的在题词里面写第一步干什么第二步干什么第三步我要调用哪个 ncp 干什么第四步 ncp 返回来的结果你再给我干

干什么这样一套下来呢结合现在的模型能力它就能实现的非常非常的好就它的生成效果就比较稳定然后呢质量比较高所以这里面它其实出现了一个问题是你只有编排的好你的 promise 的足够好你才能够很好的去完成这个任务

因为现在模型还没有到 AGI 所以它每个模型都有偏科不同的模型生成不同的内容是质量是不一样的所以设计的 agent 像 Lavat 它就是一个非常典型的在设计的领域把提示词包括工程链路做得非常好的当然不是极好但它已经做得非常不错的一个地步的一个产品它就能在设计品类里面做得非常的不错

那它其实核心逻辑就是说那无非我们用 Lava 的这种设计类的就那么啊若干种的场景吧每个场景我把它的啊这个编排写的非常好然后呢每个每一种场景我调用什么样的模型啊是调用 Klin 的视频生成还是调用 TrueHPT 的还是调用别的对吧那这里面它就会导向说啊不同的场景我能够用一个

当前情况下最优的解法来解决的这个对吧就是所以它仍然是提示词走连下但是提示词你不可能穷尽啊所以在垂直内场景呢你找到这种好的切口设计好提示词包括你把工程联络给搞定然后呢你就可以做出一款不错的 agent

嗯然后对吧你只要切的这个群体相对比较好然后呢这个场景高价值我觉得这个事情仍然接下来半年一年啊还是能做做爆的好吧上高速了那今天就聊这么多嗯拜拜