We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode #116: AI Agents, MCP and the problems with AI benchmarks | ft. Matt Carey

#116: AI Agents, MCP and the problems with AI benchmarks | ft. Matt Carey

2025/4/19
logo of podcast Real World Serverless with theburningmonk

Real World Serverless with theburningmonk

AI Deep Dive AI Chapters Transcript
People
M
Matt Carey
Topics
我主要从事 AI 集成工作,最近发现 StackOne 的 API 对构建 B2B 代理非常有用,因为它解决了上下文窗口问题并使所有数据都非常干净整洁。 MCP 类似于 Chrome 扩展程序,为 AI 客户端提供了一个插件系统,允许用户扩展应用程序功能,将 AI 从“黑盒”中移除,让用户可以根据自己的需求添加功能。 MCP 的核心是“工具”API,允许用户通过几行 JavaScript 或 Python 代码与数据库等外部资源交互。MCP 通过标准化的协议,让 AI 应用开发者可以轻松地集成各种外部工具和资源,而无需重复构建集成。工具调用适用于构建自定义 UX 和应用程序的开发者,而 MCP 则更适合那些不需要构建自己应用程序的用户。远程 MCP 服务器是协议的真正力量所在,因为它允许用户无需安装任何东西即可直接使用各种服务。 MCP 的身份验证机制正在不断完善,目前主要使用 OAuth 协议。Anthropic 的 MCP 强调用户控制,通过“采样”机制让用户可以控制工具是否使用 AI 进行外部推理。Google 的 agent-to-agent 方法与 Anthropic 的方法不同,它更注重为每个特定任务使用一个单独的代理。 如果一个系统包含循环,并且 AI 模型可以决定下一步做什么,那么它就是一个代理。是否构建 AI 代理取决于问题的复杂性和不确定性,可以通过尝试使用简单的 LLM 调用和状态机方法来判断。选择合适的模型非常困难,最好的方法是创建黄金标准的输入和输出,然后测试不同的模型。现有的 AI 基准测试通常不代表实际应用场景,因此开发者应该创建自己的基准测试。对于约束性强的任务,LLM 可以有效地解决问题,尤其是在有良好的类型提示和测试的情况下。 大型语言模型的上下文窗口大小并不意味着模型能够有效地利用所有信息进行推理,开发者应该谨慎使用上下文窗口。现有的基准测试容易受到模型参数调整的影响,因此开发者应该创建自己的基准测试来评估模型的实际性能。开发者可以使用公司内部的数据创建长上下文基准测试,以评估模型在处理大量信息时的性能。 获取可靠的 AI 信息的最佳方法是依靠一些了解该领域的专家进行筛选。博客、播客和研究论文是获取可靠 AI 信息的良好渠道。

Deep Dive

Shownotes Transcript

In this episode, I spoke with Matt Carey, founding AI engineer at StackOne, founder of AI Demo Days and member of the OpenUK AI Advisory Board.

Everyone needs a friend who works in AI to help them filter the AI news and get the signals from the noise. Matt is that friend for me!

We discussed AI agents, MCP, and the challenges of AI benchmarks, which help explain the disconnect between the benchmark results and the anecdotal experiences of AI users, such as myself.

Links from the episode:

  • Google's whitepaper on AI agents)
  • Anthropic Building Effective AI Agents)
  • Simon Willison on X)
  • Thorsten Ball's Joy & Curiosity newsletter)
  • AI Demo Days)
  • MCP has a prompt injection problem)

Opening theme song:Cheery Monday by Kevin MacLeodLink: https://incompetech.filmmusic.io/song/3495-cheery-mondayLicense: http://creativecommons.org/licenses/by/4.0)