We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The Agent Landscape - Lessons Learned Putting Agents Into Production

The Agent Landscape - Lessons Learned Putting Agents Into Production

2025/2/20
logo of podcast MLOps.community

MLOps.community

AI Deep Dive AI Chapters Transcript
People
F
Floris Fok
P
Paul van der Boor
Topics
Paul van der Boor: 我在Prosus集团领导AI团队,我们致力于将AI智能体应用于旗下众多公司,服务全球数十亿用户。我们从简单的LLM发展到复杂的交互式系统,过程中积累了丰富的经验教训。AI智能体能够处理比传统方法更多更复杂的任务,但同时也面临着评估难度大、延迟要求高、成本高等挑战。智能体的形式多种多样,包括计算机智能体、网页智能体、API智能体和语音智能体等,其中基于API的智能体最为常见。我们还投资了Prompt Armor等公司,以应对AI智能体带来的安全风险。在成本方面,我们需要关注的是‘每单位智能的成本’,而不是仅仅关注‘每token的成本’。 我们与众多初创公司合作,共同探索AI智能体的应用场景。我们发现,现有的系统和接口往往并不适合AI智能体的交互,需要进行改进。我们也通过建模分析,了解AI智能体对成本的影响,并根据实际情况调整策略。 Floris Fok: 我是Prosus集团的AI工程师,过去一年半的时间里,我参与了超过20个AI智能体项目的开发和测试。其中,只有少数几个项目成功应用于实际产品中,例如内部通用助手‘Kaan’和SQL分析助手。在项目开发过程中,我们发现,将AI智能体细化到特定领域并不一定能提高效率,用户更倾向于使用能够完成整个任务的综合性智能体。此外,评估AI智能体的有效性需要使用明确的指标,避免主观判断。响应速度对用户体验至关重要,过长的等待时间会降低用户的使用意愿。 一些项目失败的原因是未能充分考虑用户的实际需求和使用习惯,例如Jira任务助手项目由于未能处理Jira系统中用户输入数据的特点而失败。改进方案包括先进行用户访谈收集信息,再构建AI智能体,或者采用‘AI优先’的设计方法,直接使用AI构建整个系统。我们还发现,将AI智能体集成到现有工作流程中可能会增加用户的认知负担,需要仔细权衡利弊。在数据分析领域,我们通过在结果中添加假设说明等方式来提高AI智能体的可靠性和安全性。在提示词方面,我们也经历了从复杂的系统提示词到简单的提示词的演变过程。

Deep Dive

Chapters
This chapter defines AI agents as LLMs interacting with the world, contrasting them with isolated LLMs. It explores the complexities of building reliable agents, using the analogy of a Mars rover to illustrate the challenges of integrating various components like memory, action capabilities, and data access.
  • AI agents are LLMs that interact with the world.
  • Building reliable agents is complex, requiring integration of various components.
  • The analogy of a Mars rover highlights the challenges of integrating reasoning engines with other functionalities like memory, actions, and data access.

Shownotes Transcript

Agents in Production Series - Episode One// AbstractDemetrios chats with Paul van der Boor and Floris Fok about the real-world challenges of deploying AI agents across  @ProsusGroup ) of companies. They break down the evolution from simple LLMs to fully interactive systems, tackling scale, UX, and the harsh lessons from failed projects. Packed with insights on what works (and what doesn’t), this episode is a must-listen for anyone serious about AI in production.Guest speakers:Paul van der Boor - VP AI at Prosus GroupFloris Fok - AI Engineer at Prosus Group