We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

EP96 AI Agent：炒作还是革命？从实践+技术角度扒一扒

2025/3/17

硬地骇客

AI Deep Dive Transcript

People

赛

赛头

龟

龟龟

Topics

赛头：AI Agent 的概念既可以指代高级智能体，也可以指大模型结合角色扮演的程序化对象组合。它核心能力是通过LLM进行Function Calling，执行各种任务，弥补了LLM‘没有手和脚’的缺陷。Function Calling的成功率受工具数量和功能差异影响，需要清晰的工具定义和参数。在实际应用开发中，我更倾向于Workflow模式，因为它稳定高效，能快速产出结果。但我也认可Agent模式的自主性和探索性，尤其在需要个性化结果的场景中。小团队在初期开发AI应用时，应该优先采用简单高效的Workflow模式。随着项目发展，可能会演变成类似Agent的框架结构。对于Manus，虽然它宣称是通用AI Agent，但我认为它并不通用，更像是一个专业的调度或管理AI Agent的工具。小而专的AI Agent在特定领域更有效率。龟龟：AI Agent的概念很宽泛，类似于传统意义上的代理人，强调AI代替人类执行任务。AI Agent的核心特点是自主性，无需持续人工干预，能够自主设定计划、获取数据并达成目标，这与传统的AI助手或聊天机器人不同。 Function Calling和MCP协议并非两种协议，MCP是一种更标准化的工具交互协议，而Function Calling是底层能力。MCP管理数据、Prompt和Function Calling（工具），提供标准化的AI应用开发方式。 Workflow和Agent并非竞争关系，可以协同工作。Workflow侧重稳定性和效率，Agent侧重自主性和探索性。两者选择取决于具体场景需求。Workflow和Agent都存在牛鞭效应和信息损失问题，可以通过降低成本、Context Caching等技术缓解。 Manus与AutoGPT等早期框架相比，主要区别在于Manus是面向终端用户的成熟产品，而非框架。在工程层面，没有本质性突破，主要进步在于应用集成和用户体验设计。我认为AI Agent应该往专业方向发展，专注于特定领域，形成完善的AI Agent生态。一笑：从产品传播的角度，人们更倾向于将AI Agent视为一个智能体，一个活生生的东西。这种‘看得见’的特性，增加了产品的趣味性和吸引力，但其核心功能与传统软件并无本质区别。我认为AI Agent应该往更小、更专业的方向发展，每个AI Agent专注于一个特定领域，形成一个完善的AI Agent生态。上层可以再用Workflow等方式进行协作，以保证效率和稳定性。对于小团队而言，在AI应用开发初期，优先采用简单高效的Workflow模式，而非复杂的Agent模式，是更务实的选择。

Deep Dive

Shownotes Transcript

本期聊聊AI Agent，节目内容涉及有function calling机制、MCP协议、Workflow与Agent的关系、AI Agent的挑战与解决方案等核心内容。你将了解到AI Agent的本质，帮助大家理解其核心原理。

更多内容信息和时间线参考下文的硬地笔记，欢迎收听本期节目。

本期赞助

Podwise.ai - Podcast knowledge at 10x speed 🚀)

Apple Store 下载👉🏻 apps.apple.com) ## 硬地笔记

00:00:49 AI Agent 概念的兴起与定义

00:10:38 LLM如何通过Function Calling解决“没有手和脚”的难题？

00:17:10 Function Calling 的成功率与优化

00:24:43 Function Calling 与 MCP 协议的比较

00:31:08 在AI开发中，你偏好Workflow还是Agent？

00:41:31 AI Agent会变得越来越专业吗？未来怎么看？

00:57:05 小团队如何在AI应用中选对模式？

提到的一些名词：

AI Agent: 人工智能领域中的一个概念，指能够自主执行任务的智能体。它能够感知环境，根据目标制定计划，并采取行动以达到目标，无需持续的人工干预，不同于传统的 AI 助手或聊天机器人。
AutoGPT: 一个基于 GPT 模型的开源 AI Agent 框架。它允许用户创建能够自主执行一系列任务的 AI Agent，例如搜索信息、编写代码或进行网络交互。
Manus: 一个 AI Agent 应用，旨在提供一个通用的 AI 助手功能。它能够根据用户的指令自主执行任务，并以可视化的方式展现其工作流程，但其通用性及成本受到讨论。
AutoGen: 微软开发的一个 AI Agent 框架，与 AutoGPT 类似，允许用户创建和管理 AI Agent 以执行各种任务。它提供了更结构化的框架和工具，方便开发者构建复杂的 AI 系统。
LLM (大型语言模型): 指能够处理和生成人类语言的大型神经网络模型。例如，ChatGPT 和 Gemini 都属于 LLM，它们是许多 AI Agent 的核心技术。
Function Calling: 大型语言模型的一种能力，允许模型调用外部函数或工具来执行特定任务。这使得 AI Agent 能够与外部世界交互，获取信息或执行操作，例如获取天气信息或搜索网页。
Model Context Protocol (MCP): 一种用于 AI Agent 与外部工具交互的协议。它定义了标准化的通信方式，方便不同 AI Agent 和工具之间的互操作性，提高了代码的可复用性和效率。
Workflow: 一种通过代码定义的、可控的、步骤化的任务执行流程。在 AI 应用开发中，Workflow 常用于构建可靠且可预测的 AI 系统，与更强调自主性的 AI Agent 形成对比。
牛鞭效应: 供应链管理中的一个概念，指需求波动在供应链上传递时被放大的现象。在 AI Agent 和 Workflow 中，也可能出现类似的 “信息损失” 现象，导致最终结果与预期不符。
AGI (通用人工智能): 指拥有与人类同等或超越人类智能水平的人工智能。在讨论 AI Agent 的通用性时，AGI 常被提及，作为衡量 Agent 能力的终极目标。
Context Caching: 一种优化大型语言模型使用效率的技术。通过缓存上下文信息，可以减少重复计算，降低成本并提高模型的响应速度，从而缓解信息损失问题。

欢迎关注我们