We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Optimizing for efficiency with IBM’s Granite

2025/3/14

Practical AI: Machine Learning, Data Science, LLM

AI Deep Dive AI Chapters Transcript

People

Kate Soule

Topics

Kate Soule: 我领导IBM大型语言模型Granite的技术产品管理。Granite模型家族包含不同尺寸的语言模型（10亿到80亿参数）、视觉模型和辅助模型（Granite Guardian和嵌入模型）。我们专注于高效的模型架构，例如混合专家模型，以降低客户运行模型的成本。我们相信，专注于小型高效模型能够带来显著的性能提升，因为技术正在朝着这个方向发展。我们也重视责任AI，Granite Guardian模型监控模型输入和输出，以提高模型的稳健性和安全性。我们正在积极探索代理技术，并与IBM咨询部门合作，将Granite作为其代理和助手平台的默认模型。我们正在探索边缘环境中的应用，这需要在模型构建、模型本身和模型运行的硬件方面进行优化。未来，AI模型的评估应该更注重效率，而不是仅仅关注基准测试分数的微小提升。我们希望能够在性能成本曲线上的任何位置都能实现高效且灵活的模型。 Chris Benson: 作为访谈者，Chris Benson主要提出问题，引导Kate Soule阐述Granite的特性、优势、技术细节以及未来发展方向。他关注Granite的开源策略、模型架构选择、不同尺寸模型的应用场景、推理效率、责任AI措施、边缘计算应用以及未来发展趋势等方面。

Deep Dive

Chapters

Introduction to Kate Soule, Director of Technical Product Management for IBM Granite, and an overview of her background in business and consulting, leading to her current role in AI. Discussion about the evolution of large language models and IBM's approach to open-source AI.

Kate Soule leads technical product management for IBM Granite.
Soule's background is in business and consulting, with experience in data science.
IBM's Granite is a family of large language models developed by IBM Research.
The rise of large language models and their business applications are discussed.

Shownotes Transcript

我们经常根据排行榜分数来评判AI模型，但如果效率更重要呢？IBM的Kate Soule加入我们，讨论Granite AI如何重新思考边缘AI——将任务分解成更小、更高效的组件，并与硬件共同设计模型。她还分享了为什么AI应该优先考虑效率前沿而不是渐进的基准测试收益，以及无缝模型路由如何优化性能。特邀嘉宾：Kate Soule – LinkedInChris Benson – 网站、GitHub、LinkedIn、XDaniel Whitenack – 网站、GitHub、X链接：IBM GraniteIBM Granite on Hugging FaceIBM Expands Granite Model Family with New Multi-Modal and Reasoning AI Built for the Enterprise

</context> <raw_text>0 欢迎收听Practical AI播客，本播客旨在使人工智能对所有人来说都实用、高效且易于访问。如果您喜欢这个节目，您会喜欢The Change Log。周一发布新闻，周三进行深入的技术访谈，周五则是一个适合您周末休闲的精彩脱口秀节目。您可以在收听播客的任何地方搜索The Change Log来找到我们。

欢迎收听另一期Practical AI播客。我是Chris Benson。我是您的联合主持人，

通常情况下，Daniel Whitenack会作为另一位联合主持人与我一起主持，但他今天不能来。我洛克希德·马丁公司的一名首席AI研究工程师。Daniel是PredictionGuard的首席执行官。今天我们还有Kate Soule，她是IBM Granite的技术产品管理总监。欢迎来到节目，Kate。嘿，Chris。感谢邀请。

所以我想，我知道我们很快就会深入探讨Granite是什么，一些听众可能已经熟悉它了。有些人可能不熟悉，但在我们深入探讨之前，我想问问，我们正在讨论AI模型。这就是Granite以及大型语言模型、生成式AI的世界，我想知道您能否先谈谈您自己的背景，您是如何来到这里的，

我们将简要介绍IBM正在做什么，以及为什么它对此感兴趣，以及它如何融入到这个领域的格局中，对于那些还不熟悉它的人来说。

好的。是的，谢谢，Chris。我负责Granite的技术产品管理，Granite是IBM由IBM研究院生产的大型语言模型家族。所以几年前，在大语言模型真正流行起来之前，我就加入了IBM和IBM研究院。你知道，它们在2022年11月经历了一次类似网景的时刻。所以我已经在实验室工作了一段时间了。我

有点像一只鸭子，这么说吧，我没有研究背景。我没有博士学位。我来自商业背景。我在咨询公司工作了很多年，上了商学院，

然后加入了IBM研究院和这里的AI实验室，以便更多地参与技术工作。你知道，我一直都有一只脚在科技领域。在我担任顾问的大部分时间里，我都是一名数据科学家，并且总是认为，人工智能领域有很多令人兴奋的事情正在发生。所以我加入了这里的实验室。

并且基本上是在大型语言模型真正兴起之前就开始与许多生成式AI研究人员一起工作。你知道，大约两年前，我们正在研究的许多技术，我们突然开始发现并看到，它有巨大的商业应用。你知道，OpenAI真正展示了如果你采用这种技术

并且拥有足够的计算能力来使其强大，它可以做一些非常酷的事情。从那时起，我们作为一个团队努力在IBM内部启动一个项目和产品，用于我们自己可以向客户和更广泛的开源生态系统提供的系列大型语言模型。

我很想知道。我们注意到的一件事是，随着时间的推移，不同的组织正在以非常独特的方式将其大型语言模型定位在其产品中。我们可以看看一些您的竞争对手，看看他们是如何做的。你们如何看待大型语言模型如何融入你们的的产品？IBM对此有什么愿景吗？

是的。我认为大型语言模型的基本前提是，它们是一个你可以构建和以多种不同方式重复使用的构建块，对吧？一个模型可以驱动许多不同的用例。从IBM的角度来看，这个价值主张非常清晰。我们看到很多客户，我们自己的内部产品，其中

有很多工作都集中在数据整理和收集以及为特定任务创建和训练定制模型上。现在有了大型语言模型，我们可以使用一个模型，只需很少的标记数据，突然之间，你知道，世界就是你的了。你可以做很多事情。

这就是为什么我们将大型语言模型的开发集中在IBM研究院内部，而不是某个特定产品的原因。这是一个产品，然后会馈送到我们许多不同的产品和下游应用程序中。

它使我们能够创建这种构建块，然后我们也可以提供给客户在其之上进行构建。以及开源生态系统的开发者，你知道，我们认为它有很多不同的应用程序。

所以，你知道，从组织方面来说，这有点令人兴奋，对吧，我们可以在研究中做到这一点。我们没有损益表，这么说吧。我们这样做是为了最终创建一个可以支持任何数量的不同用例和下游应用程序的工具。

非常酷。你提到了开源。所以我想问你，因为这在组织中一直是一个热门话题，如果我没记错的话，Granite是根据Apache 2许可证发布的。对吗？没错。我只是很好奇，因为我们已经看到双方都有强有力的论点。为什么Granite是Apache？

这样的开源许可证？IBM做出这个决定的原因是什么？是的，当我们讨论如何许可Granite时，我们必须做出两个层面的决策。一个是开放还是封闭。我们要发布这个模型，将权重发布到世界上，以便任何人都可以使用它，而不管他们是否在IBM上花费一分钱？

最终，IBM坚信开源生态系统的强大力量。我们的大部分业务都是围绕Red Hat建立的，能够向我们的客户提供具有企业级保证的开源软件。我们认为

开放式AI是一个更负责任的环境，可以开发和培育这项技术。当你说开放式AI时，你的意思是开源AI。开源AI。确保一下。非常重要的澄清。非常重要的澄清。这就是为什么我们将我们的模型发布到公开环境中的原因。然后问题是根据什么许可证？因为有很多模型。有很多许可证。每个人都在看到的时刻是

你有一个Gemma模型的Gemma许可证。你有一个Llama模型的Llama许可证。每个人都在想出自己的许可证。在某种程度上，这是有道理的。模型有点奇怪。它们不是代码。你不能单独执行它们。它们不是……

软件。它们本身也不是数据，但它们最终就像一大堆数字。所以，你知道，一些传统的许可证，我认为有些人没有看到一个明确的匹配。所以他们想出了自己的许可证。还有所有这些不同的

你可能想用大型语言模型的许可证来解决的潜在风险，这与你对软件或数据所面临的风险不同。但最终，IBM真的只想让它保持简单，就像一个简单明了的许可证，我们认为它能够在没有任何限制的情况下促进生态系统中最广泛的使用。所以我们选择了Apache 2，因为这可能是目前最广泛使用且最易于理解的许可证。

而且，你知道，我认为这也能说明我们认为模型是进一步定制的重要构建块。我们真的相信，生成式AI的真正价值在于能够利用这些较小的开源模型进行构建，甚至开始对其进行定制。如果你做了所有这些工作，并且，你知道，在某些东西之上进行构建，你想要确保你刚刚创建的所有IP都没有任何限制。这就是我们最终选择Apache 2.0的原因。

明白了。关于许可的最后一个后续问题，然后我将继续。它更多的是部分评论。IBM作为AI领域的一员拥有非常强大的历史，以及数十年的软件开发经验。除此之外，我知道几年前收购的Red Hat，

在开源方面实力雄厚，IBM在之前和之后都……我只是很好奇，你认为这是否让选择开源更容易，比如，“我们已经做了很多次了，

我们也会对这件事这样做”，即使它在上下文中有点新颖。从文化上来说，你认为这比一些可能真的难以做到这一点的公司更容易实现吗？那些公司在开源方面没有这样的历史？我认为确实更容易了。我认为……

任何一家走上这条道路的公司都必须考虑一下，等等，我们在什么上面花了多少钱，你要免费把它送出去，并想出他们自己关于这如何开始有意义的等式。我认为我们作为一家公司已经体验过，

当我们将软件和产品作为开源生态系统的一部分创建时，它们会强大得多，而不是我们仅仅保密的东西。所以，你知道，这是一个更容易的商业案例，这么说吧，并且获得了我们需要的批准。最终，我们的领导层非常支持鼓励这种开放的生态系统。太棒了。

转向IBM进入这个领域并开始的时候，你知道，显然你对Granite有历史，你知道，你们现在已经到了3.2版。这意味着你们已经在这个领域工作了一段时间了，但是当你们进入这个构建这些大型开源模型的竞争激烈的生态系统时，这些模型很大，制作成本很高，而且你们正在

寻找对世界产生巨大影响的方法。那么，你们是如何决定如何继续进行，你们想要什么样的架构呢？你知道，你们是如何考虑的，比如，你们在关注竞争对手，其中一些是闭源的，比如OpenAI，呃，一些像Meta AI，你知道，有Llama，你知道，那个系列是你们在关注现有的东西。你们是如何选择适合你们即将构建的东西的呢？你知道，这是一个巨大的投资。

投资。我很想知道你们是如何在看待这个领域时，理解在哪里投资的。是的，绝对的。所以，你知道，这都是关于尝试做出明智的赌注，这些赌注与你正在使用的约束条件和你的更广泛的战略相匹配。所以，你知道，在我们早期，我们的

生成式AI之旅，当我们正在启动和运行该程序时，你知道，我们想要承担更少的风险。我们想学习如何做，你知道，常见的架构，常见的模式，然后我们开始变得更具创新性，并提出新的补充。所以在早期的gen，而且，你也必须记住，这个领域在过去几年里一直在

快速变化。所以没有人真正知道他们在做什么。如果我们看看两年前模型是如何训练的以及做出的决定，游戏就是尽可能多的参数，并尽可能少的数据来降低训练成本。现在我们已经完全改变了。

普遍的观点是尽可能多的数据和尽可能少的参数，以降低模型最终部署后的推理成本。所以整个领域都在经历学习曲线。但我认为早期，我们的目标是真正尝试复制一些已经存在的架构，但在数据上进行创新。

所以真正关注的是，我们如何创建这些已发布模型的版本，这些版本提供相同的功能，但这些模型是由IBM作为值得信赖的合作伙伴训练的，与我们所有的团队紧密合作，拥有一个非常清晰和合乎道德的数据整理和来源管道来训练模型。所以这是我们最初的主要创新目标，实际上不是在架构方面。

然后，随着我们开始变得更有信心，随着该领域开始，我不想说成熟，因为我们仍然处于非常，再次强调，非常早期的阶段，但是，你知道，

我们开始对如何训练这些模型以及什么有效或无效达成了一些共识。你知道，然后我们的目标真正开始关注架构方面，我们如何才能尽可能高效？我们如何训练对客户来说运行起来经济实惠的模型？这就是你看到我们非常关注较小模型的原因，

目前是这样。我们正在研究新的架构。例如，专家混合，我们真正关注的有很多事情，其座右铭是，我们如何才能使它对人们来说尽可能高效地进一步定制并在他们自己的环境中运行。

这是一个很好的开始，当我们深入研究Granite本身时，对其进行了概述。你最后的一些评论，你谈到了更小、更经济的模型，这样你就可以在客户方面获得高效的推理。你提到了一个短语，有些人可能知道，有些人可能不知道，专家混合和。

也许在我们深入研究Granite及其未来版本时，可以从专家混合开始，并解释一下你的意思。

绝对的。所以如果我们考虑这些模型是如何构建的，它们本质上是数十亿个参数，这些参数代表着小的数字，基本上是对信息进行编码。为了做一个非常简单的解释，如果你有一个线性回归，就像你有一个散点图，你正在拟合一条线，y = mx + b，就像m是该方程中的一个参数，对吧？所以这是数十亿规模的。

对于专家混合，我们正在考虑的是，每次运行推理时，我是否真的需要所有十亿个参数？我可以使用子集吗？我可以在我的大型语言模型中拥有参数的小型专家分组，以便在推理时，我可以对调用哪些参数进行更具选择性和智能性的选择？因为如果我不使用一个，

你知道，80亿或1200亿个参数，我可以更快地运行该推理。所以它效率更高。所以实际上，它只是变得更细致了一些，而不是像，我认为生成式AI的早期阶段只是向其投入更多计算，并希望问题消失。我们现在正试图弄清楚我们如何才能在构建这些模型方面更高效。

感谢您对专家混合的解释。这在通过减少参数数量来高效地使用模型进行推理方面很有意义。我相信你们现在拥有的参数数量是80亿和20亿，还是我弄错了？

我们实际上有几个尺寸。你是对的，我们有80亿和20亿。但是说到那些专家混合模型，我们实际上有几个微型MOE模型。MOE代表专家混合。所以我们有一个只有10亿个参数的MOE模型和一个有30亿个参数的MOE模型。但它们在推理时分别使用了更少的参数。所以它们运行速度非常快。

专为更多本地应用程序设计，例如在CPU上运行。所以当你决定在参数数量等方面拥有不同大小的模型时，你是否考虑了这些模型可能被使用的不同用例？你是否有一组场景，你会将你的80亿参数模型用于一个场景，而将你提到的30亿参数模型用于另一个场景？

是的，绝对的。所以如果我们考虑一下，当我们正在设计我们想要训练的模型大小时，我们试图解决的一个重要问题是，你知道，这些模型将在什么环境中运行？我该如何，你知道，在不强迫某人购买另一个GPU来托管它的前提下最大化性能？

所以，你知道，有一些模型，比如小型MOE模型，实际上是为在边缘本地或在计算机上运行而设计的，就像一台本地笔记本电脑。我们有一些模型设计用于在单个GPU上运行，这就是我们的20亿和80亿参数模型。这些是标准架构，不是MOE。

我们的路线图上有一些模型正在研究我们如何才能最大限度地利用单个GPU的运行能力？然后我们如何最大限度地利用一组GPU的运行能力？所以如果你有八个GPU连接在一起。所以，你知道，我们确实在考虑那些不同的

客户可能拥有的计算可用性范围。这些范围中的每一个都可能与不同的用例相关。例如，如果你正在考虑一些本地的事情，那么它可以针对各种物联网类型的用例。如果你正在考虑必须在一组GPU上运行的东西，那么你必须能够接受一点延迟，即模型响应所需的时间。

但是用例也可能需要更高的价值，因为运行大型模型的成本更高。所以你不会运行像一个非常简单的，比如，你知道，帮我总结一下这封电子邮件的任务，同时使用八个GPU。

当你谈到这些模型的细分以及你们是如何做到这一点时，我知道你们有一篇白皮书，我们将在节目说明中链接，供大家在收听期间或之后查看。你们谈到了其中一些模型具有实验性的链式思维推理能力。我想知道你是否可以谈谈这意味着什么，以及

是的，对我们最新发布的Granite模型感到非常兴奋。2月底，我们发布了Granite 3.2，这是对我们20亿参数模型和80亿参数模型的更新。我们在这个新版本中赋予这个模型的一种“超能力”是，我们引入了推理的实验性功能。所以我们的意思是

如果我们考虑这些模型是如何构建的，它们本质上是数十亿个参数，这些参数代表着小的数字，基本上是对信息进行编码。为了做一个非常简单的解释，如果你有一个线性回归，就像你有一个散点图，你正在拟合一条线，y = mx + b，就像m是该方程中的一个参数，对吧？所以这是数十亿规模的。

这个术语有点冒着拟人化的风险，但这是我们作为该领域所达到的结论，所以我现在就用它了，实际上是在说生成更多标记。让模型思考所谓的链式思维，你知道，生成模型可能采用的逻辑思维过程和序列，然后才能触发模型进行响应。

所以我们训练了Granite 8B 3.2，以便能够原生进行链式思维推理，利用这个新的推理时间计算创新领域。我们所做的是，我们使其具有选择性。如果你不需要长时间认真思考2 + 2是多少，你可以关闭它，模型会更快地给出答案。如果

如果你给它一个更难的问题，你知道，思考生命的意义，你可能会打开思考功能。它会在回答之前先思考一下，然后用更长、更链式思维的方式来回答，它会逐步解释为什么它会这样回答。你……

预期，我看到不同的组织以不同的方式做到了这一点。你是否预期你的推理时间计算能力将在所有模型上都存在，并且你正在打开和关闭它？或者你是否预期你的系列中的一些模型更擅长于此，并且始终处于开启状态，而其他模型则不是？哪种方式，你提到了打开和关闭，所以听起来你可能在所有方面都有。是的，你知道，现在，

它被标记为实验性功能。我认为我们仍在学习很多关于它如何有用以及它将被用于什么方面的知识，这可能会决定未来什么是有意义的。但我们看到的是，普遍来说，它很有用，首先，是为了尝试提高答案的质量，其次，作为一种可解释性功能，如果模型正在逐步解释它是如何得出响应的，这有助于

人类更好地理解响应。所以，你知道，我认为我们正在认真考虑将其烘焙到未来的模型中，这是一种不同的方法，对吧，与一些只关注推理的模型不同。我认为我们不会看到这种情况持续很长时间。你知道，我认为我们将越来越多地看到更具选择性的推理。所以，像

Claude 3.7发布了，他们实际上做得非常好，你可以长时间或认真地思考某事，或者只是短时间地思考。所以我认为我们将看到越来越多的人朝着这个方向发展。但是，你知道，好吧，这仍然是，再说一次，早期阶段。所以在接下来的几个月里，我们将学习很多关于它在哪里产生最大影响的知识。我认为这可能会对我们如何设计未来的路线图产生一些结构性影响。明白了。和……

业界对小型模型的推动越来越大。所以，你知道，回顾大型语言模型的近期历史，你知道，你最初看到的是，你知道，参数数量激增，模型变得巨大。显然，你知道，我们已经谈到过这个事实，

运行这些东西的推理成本非常高。在过去，尤其是在过去，我不知道，一年半的时间里，尤其是在开源模型方面，我们已经看到了很多这样的模型，在Hugging Face上推动小型模型。当你考虑的时候，你是否预期

这种能够推理的能力将推动小型模型的使用，转向像你们正在创建的模型，你们说，好吧，我们有这些大型的，你知道，Claude有，你知道，大型模型，以及其他选项，或者一个非常大的Llama模型。你们是否预期吸引更多的人关注一些较小的模型？你是否预期，

你们将继续关注这些更小、更高效的模型，人们实际上可以在不打破组织的银行的情况下将它们部署到那里？这如何融入？是的，所以看，要记住的一件事是，即使没有

尝试，我们看到小型模型越来越能够做到昨天需要大型模型才能做到的事情。所以你看一个微小的，你知道，20亿参数或Granite 2B模型，例如，

在许多基准测试中都优于Llama 270B，后者是一个更大但更旧的模型。我的意思是，它发布时是最好的。但是技术发展得如此之快。所以，你知道，我们确实相信，通过关注一些较小的尺寸，

最终我们将获得很多提升，仅仅是因为技术正在朝着这个方向发展。就像我们不断寻找方法，在越来越少的参数中打包越来越多的性能，并扩展小型语言模型所能完成的工作范围。我认为这并不意味着我们将

永远摆脱大型模型。我只是认为，如果你看看我们关注的地方，我们真的在关注，好吧，模型在哪里，你知道，如果你考虑80-20规则，比如80%的用例可以用一个模型来处理，你知道，可能80亿个参数或更少。这就是我们使用Granite的目标，我们正在努力关注。

我们认为，对于需要大型模型来处理的复杂用例，肯定仍然会存在创新、机会和复杂用例。这就是我们真正感兴趣的地方，好吧，我们如何扩展Granite系列，可能专注于更有效的架构，如专家混合。

来针对那些更大的模型和更复杂的模型尺寸，这样你仍然可以获得大型模型更实用的实现，同时认识到，再次强调，这并不是，你总是需要，总会有那些异常值，那些非常大的案例。我们只是认为，与真正关注并在小型和中型模型空间中提供价值相比，这些案例背后的商业价值不会那么多。

我认为丹尼尔和我讨论过的一件事是，我们同意这一点。我认为大部分用例都是针对较小的模型。既然我们说到这里，我们一直在讨论Granite的各个方面，但是我们可以花点时间让你回顾一下Granite系列，并谈谈

谈谈系列中的每个组件，它做什么，你知道，它叫什么，它做什么，以及概述你们提供的各种东西。绝对的。Granite模型系列拥有我刚才介绍过的语言模型。尺寸在10亿到80亿个参数之间。再次强调，我们认为这些是主力模型，你知道，我们认为80%的任务可以使用80亿个参数或更少的模型来完成。

我们常常通过排行榜得分来评判AI模型，但如果效率更重要呢？IBM的Kate Soule与我们一起讨论Granite AI如何重新思考边缘AI——将任务分解为更小、更高效的组件，并与硬件共同设计模型。她还分享了为什么AI应该优先考虑效率前沿，而不是逐步提升基准得分，以及如何实现无缝模型路由以优化性能。特色嘉宾：Kate Soule – LinkedIn Chris Benson – 网站, GitHub, LinkedIn, X Daniel Whitenack – 网站, GitHub, X 链接：IBM Granite IBM Granite在Hugging Face上的表现 IBM扩展Granite模型系列，推出新多模态和推理AI，专为企业打造

</context> <raw_text>0 我们最近也在3.2版本中发布了一个视觉模型。这些模型用于视觉理解任务。这一点很重要。它不是视觉或图像生成，这正是生成AI早期炒作和兴奋的来源，比如DALI等。我们专注于提供图像和提示的模型。

然后输出是文本，也就是模型的响应。因此，这对图像和文档理解等任务非常有用。我们特别优先考虑了大量文档和图表问答类型的数据集。

真正专注于这些类型任务的性能。所以你可以想象，有一个PDF中的图片或图表摘录，能够回答关于它的问题。我们认为这有很大的机会。因此，RAG是一种在企业中非常流行的工作流程，对吧？检索增强生成。

现在，你PDF和文档中的所有图像基本上都被抛弃了。但我们正在努力，看看能否利用我们的视觉模型来包含所有这些图表、图像、图形和图示，以帮助提高模型在RAG工作流程中回答问题的能力？我们认为这将是巨大的。

所以在视觉方面有很多用例。我们还有一些伴随模型，旨在与语言模型或视觉语言模型并行工作。因此，我们有我们的Granite Guardian模型系列。我们称之为护栏。它们旨在与运行主要工作流程的大型语言模型并行工作。

它们监控所有输入到模型中的信息以及模型提供的所有输出，寻找潜在的对抗性提示、越狱攻击、有害输入和有害偏见输出。它们可以检测幻觉和模型响应。因此，它实际上是一个治理层，可以与Granite并行工作，也可以与任何模型并行工作。

所以即使你部署了一个OpenAI模型，例如，你也可以让Granite Guardian与之并行工作，最终成为负责任AI的工具。

我最后要谈到的模型是我们的嵌入模型，旨在帮助模型在更广泛的AI工作流程中使用。因此，在RAG工作流程中，你通常需要将大量文档或文本转换为所谓的嵌入，以便进行搜索。

以检索最相关的信息并提供给模型。因此，我们的Granite嵌入模型用于这个嵌入步骤。它们旨在进行这种转换，并可以支持多种类似的搜索和检索风格的工作流程，直接与Granite大型语言模型合作。明白了。我知道白皮书中也提到了一些关于时间序列的内容。

你能谈谈这个吗？当然可以。所以我提到Granite是多模态的，它支持视觉。我们还有时间序列作为一种模态。我真的很高兴你提到了这些，因为这些模型真的很令人兴奋。我们谈到了对效率的关注。这些模型的参数大小在100万到200万之间。

在今天的生成AI背景下，这个数字非常小。即使与其他预测模型相比，这些都是非常小的基于生成AI的时间序列预测模型，但它们目前在性能上交付了顶级的成绩。因此，作为此次发布的一部分，我们将我们的时间序列模型提交给Salesforce，参加一个叫做GIFT的时间序列排行榜。它们现在是GIFT排行榜上的第一名模型。

我们真的很兴奋。它们在Hugging Face上有超过1000万次下载，正在社区中迅速崛起。因此，这是Granite系列在时间序列模态中的一项非常优秀的产品。

好的。感谢你为我们介绍你们的模型系列。我实际上想回过头来问一个快速问题，你提到过Guardian提供护栏的事情。如果你花点时间深入探讨这个问题，我认为我们通常会专注于模型及其将要执行的任务。

我喜欢将Guardian代表的这些护栏整合到更大架构中的概念，以解决输入和输出的质量问题。你们是如何想到这一点的？这真的很酷。我喜欢这个想法，不仅是为了你们自己的模型，显然，你们还可以让最终用户将其应用于他们正在做的其他事情，可能是来自竞争对手的。

你们是如何决定这样做的？我认为这是一个相当独特的想法，我们不常听到其他组织提到。是的，Chris，作为开放源码生态系统的一部分，我们能够在其他人的伟大想法上进行构建。因此，我们实际上并不是第一个提出这一概念的组织。还有其他一些护栏类型的模型，但IBM在安全领域有着相当大的投资组合。

特别是在IBM研究方面，在安全领域存在一些挑战，与大型语言模型和一般AI非常相似，这并不是全新的。作为一家公司和一个领域，我们所学到的是，在创建一个强健的系统以抵御潜在的对抗性攻击和处理模型自身的安全对齐时，总是需要多层次的安全防护。

所以，当我们看到开放源代码生态系统中关于护栏的一些工作时，我认为从这个角度来看，这显然是增加生成AI安全和安全堆栈的另一种伟大方式，以更好地提高模型的稳健性，并找出IBM专注于如何实际实现生成AI的实用方式。因此，除了效率之外，还需要什么？我们需要信任。我们需要安全。让我们在这个领域创造工具。

因此，许多不同的原因使得追求这一目标变得非常明确和容易。我们实际上能够在Granite的基础上进行构建。因此，Granite Guardian是Granite的一个微调版本，专注于检测和监控输入到模型中的信息和输出的信息。

团队首先在基础的伤害和偏见检测器上做得非常出色，我认为这是其他护栏模型中相当普遍的特征。但现在我们真的开始把它变成我们的特色并进行创新。因此，在3.2版本的Granite Guardian模型中发布的一些新特性包括幻觉检测。今天很少有模型做到这一点。特别是与功能调用的幻觉检测。

因此，如果你想到一个代理，当一个大型语言模型代理试图访问或提交外部信息时，它会进行所谓的工具调用。因此，当它进行工具调用时，它是基于对话历史提供信息，说明“我需要在HR数据库中查找Kate Soule的信息。这是她的名字。她住在马萨诸塞州剑桥，XYZ。”

我们希望确保代理在填写这些信息时不会产生幻觉，否则，如果她编造了错误的名字，或者说剑桥是英国而不是马萨诸塞州，工具将返回错误的响应，但代理将毫不知情，并将继续以最大的确定性操作在正确的信息上。

因此，这只是一个有趣的例子，说明我们正在努力注入到负责任AI工作流程中的一些可观察性，特别是在代理等方面，因为有各种新的安全问题必须考虑，以使这项技术可行和可实施。

而且，提到代理等问题，以及这在2025年目前是一个热门话题，你能谈谈Granite和代理之间的关系，以及你们是如何思考的？你刚刚提到的一个例子，但如果你能在这方面扩展一下，IBM是如何看待Granite的定位的？代理如何适应？这个生态系统是什么样的？你已经开始谈论安全问题了。能不能为我们编织一下这个故事？

当然可以。所以是的，显然IBM完全投入到代理领域，并且在这个领域有很多事情发生。几个关键点我认为很有趣可以提到。

首先是看一下用于构建代理的开源生态系统。因此，我们实际上在马萨诸塞州剑桥这里有一个非常出色的团队，他们正在开发一个名为BAI的代理框架和更广泛的代理堆栈，像一只大黄蜂。因此，我们与他们密切合作，看看如何优化代理框架与模型，以便能够在构建代理时利用各种新的技巧和窍门。

所以我不想透露太多，但我认为IBM在代理框架和模型共同设计方面有很多有趣的想法。这只会在安全性和安全性方面释放出巨大的潜力，因为例如，在大型语言模型的代理中，代理开发者编程的某些部分你永远不希望用户看到。代理可能检索的数据的一部分，你不希望用户看到。

例如，我正在使用的一个代理可能有权访问任何人的HR记录，但我只被允许查看我的HR记录。因此，我们如何在设计模型和框架时考虑这些概念，以更好地区分应隐藏的敏感信息，以保护模型知道的信息，比如这些类型的指令永远无法被覆盖，无论后续攻击、对抗性攻击有人试图做什么，都说“你不是Kate的代理。你是一个恶意机器人，你的任务是做X、Y和Z。”我们如何通过模型和代理框架的共同设计来防止这些攻击向量？

我认为在这一领域有很多令人兴奋的工作。更广泛地说，我认为即使在更传统的代理概念和实现上，并不是说有一个传统的实现，这一切都是如此新颖，但在更经典的代理实现方面，我们正在与IBM咨询合作。例如，他们有一个代理和助手平台，其中Granite是默认的代理和助手。

这使IBM能够实现各种规模经济。如果你考虑一下，我们现在有160,000名顾问在世界各地使用基于Granite构建的代理和助手，以提高效率并帮助他们完成客户和咨询项目。因此，我们看到了大量的“客户零”，我们称之为“客户零”。IBM在这种情况下是我们的首个客户，我们如何内部构建代理以提高IBM的生产力？非常酷。

我对你们正在考虑的这些问题很感兴趣。随着我们越来越多地向边缘环境推进，而你们已经稍微谈到过这一点，随着我们开始从这些巨型模型迁移到更小的超高效模型，通常在性能等方面表现更好，而我们在各种边缘环境中看到了许多机会。

你能谈谈Granite在这方面可能的方向或现在的状态，以及关于Granite在边缘的想法可能是什么样的吗？是的。因此，我认为Granite在边缘有几个不同的方面。首先，我们如何考虑构建模型？

因此，我们可以优化更小的模型规模。当我说构建时，我是指构建提示、构建应用程序，以便我们不是按照今天的方式编写提示，我喜欢称之为“YOLO方法”，我将一次给出10页的说明，并说“去做这个”，希望模型能遵循所有这些说明并完美完成。小模型，无论这项技术如何进步，

可能在这种方法上不会获得完美的分数。那么我们如何考虑更广泛的编程框架，将事情分解成更小的部分，使得小模型能够操作？然后我们如何利用模型和硬件的共同设计来快速运行这些小部分？

所以，我认为在整个堆栈中有很多机会，关于人们如何构建模型、模型本身以及模型运行的硬件。这将使我们能够将事情推进到边缘，超越我们目前的经验。这将需要再次进行思维转变。目前，我认为我们都非常高兴能够在编写提示时变得有些懒惰，

就像随意写出一堆提示一样。但我认为如果我们能够在如何编程和构建方面变得更加像软件工程师的思维方式，这将使我们能够将事情分解为更小的组件，并将这些组件推向更远的边缘。这是合理的。这非常有道理。

我想最后问你一个问题，随着我们谈论这个问题，你有什么其他的想法吗？你提到过你认为事情正在朝着这个方向发展。你有什么想要补充的，关于行业或者特别是Granite的，关于你认为事情发展方向的内容，当你准备结束一天的工作时，你会在那一刻稍微走神，有什么吸引你的事情在你脑海中浮现？

所以我最近最关注的事情是，我们需要达到一个阶段，模型的衡量标准是它们的效率前沿，而不是说它们在某个指标或基准上提高了0.01。因此，我认为我们开始看到这一点，比如在Granite中，你可以开启或关闭推理。在Claude中，你可以支付更多，进行更复杂的思考，或者进行更短的思考。

但我真的希望我们能达到一个阶段。我认为我们已经为此做好了准备。我们有了可以开始专注于如何使我的模型尽可能高效，同时又尽可能灵活的条件，这样我可以选择在性能成本曲线上的任何位置。

因此，如果我的任务并不困难，我不想在这上面花很多钱。我将以很少的思考将其路由到一个小模型，并能够实现可接受的性能。

如果我的任务价值很高，我会支付更多。我不需要像这样思考。它将自动发生，无论是来自模型架构，还是能够推理或不推理，还是可能在API端点后面进行的路由，将我的请求发送到更强大的模型或更便宜的模型。我认为所有这些都需要，我们需要达到一个阶段，没有人需要考虑这个问题或解决它并进行设计。我真的希望看到这些...

我希望能够看到我们将那些曲线推动得尽可能左侧，使事情变得越来越高效，而不是像“这是排行榜上的一个数字。我又花了X亿的计算成本，将这个数字提高了0.02。”这是科学。我准备超越这一点。

太棒了。非常好的对话。非常感谢Kate Soule今天加入我们的Practically I播客。真的很感激。这有很多见解。感谢你来访。希望我们能在某个时候再次请到你。非常感谢你，Chris。真的很感谢你邀请我参加这个节目。

好的，这就是我们本周的节目。如果你还没有查看我们的ChangeLog通讯，请访问changelog.com/news。在那里你会找到29个理由，是的，29个理由，告诉你为什么你应该订阅。

我告诉你第17个理由，你可能会开始期待周一。这听起来像是有人得了周一症。还有28个理由在changelog.com/news等你。再次感谢我们的合作伙伴Fly.io，感谢Breakmaster Cylinder提供的音乐，感谢你的收听。这就是目前的一切，但我们下次再见。

Optimizing for efficiency with IBM’s Granite 43:38 Share

Practical AI: Machine Learning, Data Science, LLM

Deep Dive

Shownotes Transcript

Optimizing for efficiency with IBM’s Granite