We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

How Claude Plays Pokémon was made

2025/3/4

Latent Space: The AI Engineer Podcast — Practitioners talking LLMs, CodeGen, Agents, Multimodality, AI UX, GPU Infra and all things Software 3.0

AI Deep Dive AI Chapters Transcript

People

Alessio

David Hershey

Topics

Alessio: 我们今天很高兴邀请到Anthropic的David Hershey，他是Claude Plays Pokémon项目的负责人。这个项目让大型语言模型Claude玩Pokémon Red游戏，并通过一个特殊的系统让它能够看到屏幕、在游戏中导航、记住游戏中的信息等等。目前Claude已经成功地逃离了Mt. Moon，这是一个非常有趣的项目，让我们深入了解一下它的起源和实现。 David Hershey: 我从去年六月开始着手这个项目。我当时想找到一个框架，让我能够以一种实际的方式来实验代理，并测试Claude在执行长期任务方面的能力。Pokémon是一个非常合适的选择，因为它能让我保持高度的参与度，并且我之前也有一些相关的基础。我利用了Anthropic的不同版本的模型，从3.5到3.7，每一次模型的更新都会让Claude在游戏中表现得更好。这个项目也成为了我了解新模型的一种方式。随着模型的改进，Claude能够更可靠地走出家门，获得初始精灵，甚至有时还能给精灵命名。虽然它仍然存在一些问题，例如方向感不强、视觉识别能力不足，但它已经能够捕捉精灵、走出实验室等。这个项目不仅有趣，也为我们提供了一种衡量模型能力的实用方法。通过观察Claude玩Pokémon，我能够更好地了解模型的优缺点，并以此来改进模型。 David Hershey: 在工具方面，Claude主要使用了三个工具：按钮按下工具、知识库工具和导航工具。按钮按下工具允许Claude执行一系列按钮操作，并获取游戏屏幕截图。我通过逆向工程Pokémon Red，提取了游戏中的大量信息，并将其提供给Claude。导航工具则帮助Claude更好地理解游戏中的空间位置，因为它在视觉识别方面存在不足。知识库工具用于存储Claude在游戏过程中学习到的信息，例如精灵的属性和技能。在提示方面，我使用了工具定义、简短的系统提示、知识库和对话历史。系统提示主要告诉Claude如何使用工具，知识库存储长期信息，对话历史则记录了Claude与环境的交互过程。我设置了一些限制，例如知识库的大小和对话历史的长度，以防止Claude生成过多的无用信息。此外，我还添加了一些提示，以帮助Claude避免一些常见的错误，例如误将地上的垫子识别为文本框。在模型选择方面，我使用了3.7版本，它是一个混合推理模型，能够更好地进行推理。随着模型的改进，我减少了提示中的指令，让Claude有更多的自主性来解决问题。我发现，让模型尽可能自由地探索问题，往往能够获得更好的结果。

Deep Dive

Shownotes Transcript

Special lightning pod with David Hershey from Anthropic, the person behind Claude Plays Pokémon. Sonnet 3.7 is currently trying to complete Pokémon Red live on Twitch thanks to a special harness that David built so that it can see the screen, navigate through it, remember facts about the game, and more. (Since recording, it has successfully escaped Mt Moon! You can follow along on Twitch: https://www.twitch.tv/claudeplayspokemon) Get full access to Latent.Space at www.latent.space/subscribe)

How Claude Plays Pokémon was made 37:38 Share

Latent Space: The AI Engineer Podcast — Practitioners talking LLMs, CodeGen, Agents, Multimodality, AI UX, GPU Infra and all things Software 3.0

Deep Dive

Shownotes Transcript

How Claude Plays Pokémon was made