We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Ep 541: AI & Trust: When 98% accuracy won't cut it and how Sage can fix it

2025/6/6

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript

People

Aaron Harris

Jordan Wilson

一位经验丰富的数字策略专家和《Everyday AI》播客的主持人，专注于帮助普通人通过 AI 提升职业生涯。

Topics

Jordan Wilson: 在财务领域，即使是98%的准确率也可能导致灾难性的后果。因此，提高人们对AI的信任度至关重要，而Sage正在通过其解决方案来帮助实现这一目标。 Aaron Harris: 作为Sage的CTO，我认为CFO的工作是建立信任，确保财务报告的准确性。为了让客户信任AI，我们必须以可信的方式设计产品，并重视人工审核。我们构建了自己的机器学习基础设施，并建立了安全机制和控制措施，以确保AI的可靠性和安全性。此外，我们还与AICPA合作，将他们的专业内容用于训练模型，这表明会计行业正在拥抱AI。

Deep Dive

Chapters

The podcast starts by discussing the critical need for accuracy in finance, where even small errors can have significant consequences. The high standards of accuracy required in financial reporting are highlighted, emphasizing the importance of trust in AI systems used for financial tasks.

In finance, even 98% accuracy is considered a failure.
CFOs and finance teams require extremely high accuracy in financial reports.
A single error can severely damage credibility and trust.

Shownotes Transcript

这是 Everyday AI Show，一个日常播客，我们简化 AI 并将其力量带到您的指尖。每天收听，获取提升您的职业、业务和日常生活的实用建议。如果好的还不够好呢，对吧？我认为这是商业领袖在谈到人工智能时一直在思考的事情。

他们会说，嘿，如果我们大部分时间都能做到这一点，让我们继续将其推广到整个组织。有时这可能没问题，对吧？如果您正在做战略、创意工作、内容制作。但是您的账簿呢？您的财务呢？有时 90% 或 95% 的正确率

可能是坏事。在您公司 2025 年及以后的人工智能计划中，这可能是灾难的根源。这就是为什么今天我很高兴谈谈对人工智能的信任，以及，如果您正在观看我们的视频、直播，您会看到我正在亚特兰大的 Sage 未来大会上，Sage 如何真正帮助提高每个人对其

对其人工智能的信任。好吧，我对这次谈话感到兴奋。我希望您也是。大家好！我的名字是 Jordan Wilson。我是 Everyday AI 的主持人。这是您的每日直播播客和免费每日新闻通讯，帮助像您我这样的日常商业领袖不仅了解 AI 世界中正在发生的事情，而且了解我们如何实际利用它来发展我们的公司和职业。

因此，如果您还没有，请务必访问我们的网站 youreverydayai.com。我们将回顾今天的谈话以及更多内容。但就像我说的那样，您可能在这里看到了一些不同的设置。我目前在亚特兰大的 Sage 未来大会上，我很高兴欢迎我们今天的嘉宾 Aaron Harris，Sage 的首席技术官。Aaron，非常感谢您加入 Everyday AI Show。感谢您的邀请。非常高兴来到这里。

是的，实际上是在您的家乡旅行。但是对于我们那些可能不了解 Sage 的观众来说，请告诉我们 Sage 是什么。当然，是的。Sage 是一家全球软件公司，专注于会计、人力资源、薪资、制造，基本上是财务和会计团队运营业务后台所需的一切。所以我们实际上是一家英国公司。我们的总部位于英格兰纽卡斯尔。但我们在世界各地都有办事处。我们在北美的总部显然是纽卡斯尔。

在亚特兰大。这是一家存在已久的公司。我们已经构建会计软件超过 40 年了。我共同创立的那家公司在某种程度上被收购了，我们 25 多年前就开始了。所以我们已经做了很长时间了。在美国我们不太出名，因为美国是一个巨大的市场，这个市场中还有更多参与者。但是如果您去英国、西班牙、法国或德国等一些国家，在会计行业中，我们算得上是家喻户晓的名字。

是的。让我们直接跳到最后。当谈到人工智能与会计的交叉点时，为什么有时 90% 或 95% 的准确率不起作用？是的。我的意思是，有很多方法可以解决这个问题。我认为首先要从这一点开始，看看公司中的首席财务官和财务团队，首席财务官依靠信任。

他们的工作是建立信心，不仅在企业内部，而且在利益相关者中，无论是投资者还是债权人，您都可以依赖他们发布的财务报告的准确性。内部利益相关者可以依赖所提供的预测和预算。而一旦首席财务官发布的内容出现错误，

他们就会失去这种信誉。他们会失去信任。因此，标准非常高。首席财务官和财务团队心态中一件有趣的事情是，如果我在会计的基本等式中差了一分钱，他们会花几天时间寻找它，直到找到它。他们可能永远不会放弃，直到找到那分钱。所以 99%，是的，这行不通，对吧？它必须完美无缺。

是的，不仅如此，对吧？我相信我们许多观众都能理解这一点。大型语言模型本身，对吧？因此，如果您使用的是 ChatGPT 之类的东西，

在数学方面并不总是最好的，对吧？是的，根本不是。根本不是。是的。事实上，大型语言模型经过训练。我的意思是，这就是使它们如此令人惊叹的原因。它们经过训练以具有创造力。我们不想要创造性会计，当然也不希望它们进行数学运算，对吧？在我们构建人工智能的方式中，这是我经常告诉观众的事情。构建可信人工智能的首要规则之一是，当传统开发效果更好时，不要使用人工智能。

因此，如果您希望人工智能进行数学运算，我们将为人工智能提供计算器来进行数学运算。我想更多地了解这部分信任，但我看到了您的主题演讲，当您在屏幕上展示一些东西时，我想，等等，我需要这个，尤其是在 Sage Copilot 出现时。那么，您可以为那些可能不使用 Sage 的观众解释一下您的人工智能产品吗？

什么？你怎么能以如此高的精度做到这一点，并且，你知道，帮助人们更快地结账呢？你知道，你最初说的是两到三周，现在缩短到两到三天了。是的。我们仍然在努力。我们想摆脱它。对。这是一个遗迹。

这是过时的。我们想摆脱这个东西。因此，我们在构建和部署人工智能时会考虑这一点，以波浪的形式。我们构建的第一波我们称之为基于任务的人工智能。这是您不一定能看到正在工作的 AI。因此，我们在应付账款自动化领域构建的第一件事是用于读取和分类发票的 AI。我和数据科学团队的第一次谈话是，好吧，

有很多模型，对吧，来自大型参与者，这些模型只是为了做到这一点。为什么我们不使用其中一个呢？而且，你知道，他们必须让我相信的是，那些模型还不够好，对吧？它们的准确率约为 80%、75% 或 80%。但除此之外，

你知道，那不是均匀的，那不是均匀部署的准确性，他们真的很难找到发票上的总额，对吧？他们在这方面的准确率可能只有 30% 或 40%。事实证明，这很难找到。因此，最终，

我们不得不自己构建模型，复数模型，对吧？我们有五个模型，只是，你知道，其中一些模型正在寻找总额。有些模型正在检查其他模型的工作，以确保，是的，你确实找到了总额。所以，你知道，最终变成了几十个模型。现在，你知道，这种方法的局限性在于，

是您无法真正与该 AI 交互。并且必须非常非常仔细地编排、编写该 AI。它按照被告知的方式准确地执行被告知要执行的操作。

在我们能够与 AI 交互之前，我们无法真正达到自动化水平。因此，大型语言模型（位于 Sage Copilot 背后）是一个巨大的突破。就像现在您可以指导 AI 的工作方式以及它如何完成工作一样。所以这就是，你知道，这是一个巨大的突破，如果你愿意的话，这真的是设计产品方式的心理变化。当我们处于基于任务的阶段时，对吧？

许多客户甚至没有意识到有多少 AI 实际上在幕后运行。直到他们遇到对话界面，他们才意识到这一点。因此，这完全改变了您的设计方式。您现在必须为信心而设计。

是的。我们是如何达到拥有像 Sage Copilot 这样的产品的地步的，它可以准确地利用生成式 AI 的强大功能，同时以更确定的方式工作呢？对吧？就像，就像这样。但是，你知道，我看到，你知道，你已经使用了数十亿个预测、数百万份文档来做到这一点。所以不用，你知道，深入探讨，因为我相信我们可以花几个小时来讨论这部分内容，但是我们是如何达到这样一个地步的呢？是的，您可以作为该领域的全球领导者之一充满信心地说，是的，您可以将 AI 用于一些最重要的财务任务。

是的。我认为这个问题有两个部分或两个答案。

但是首先，我想回到的是，您是如何设计产品的？您必须对客户具有可信度和说服力。因此，如果我今天站在我们的客户面前说，别担心，它是 100% 准确的。我们做到了。他们根本不会相信。因此，您必须调整体验。您必须围绕这种理解进行设计，嘿，我们将使大型语言模型非常准确。

但是我们将要做的是，我们将过度关注理解，好吧，我们是否达到了这个水平？如果没有，我们如何恰当地让一个人来审查这项工作？所以这是如此巨大、巨大的一个部分。

但另一方面是，同样，现成的模型，尽管它们很好，尽管它们很神奇，尽管它们很强大，但它们对于我们的需求还不够好。我们需要一个大型语言模型，它深入了解我们产品的运作方式，并具有专业知识。它需要成为我们 API 的专家。因此，在完成任务的过程中，它可能会编写一些代码。

即兴创作，对吧，使用 API。因此，如果它在构建该 API 请求的过程中出现幻觉，它将无法工作。因此，我们发现这些现成的模型非常出色

但有两个问题。首先，尽管它们很出色，但它们仍然会犯错误。其次，它们非常昂贵。因此，如果我们想不仅要操作这些模型，还要进入构建这些巨大大型语言模型的世界，我将永远无法获得足够的预算来做到这一点。什么？1 亿美元？训练这些模型需要很多钱。万亿参数的成本很高。是的。所以快进两年。

微调这些模型的效率和能力迅速提高。因此，成本下降了，效率提高了，但对我们这样的公司来说，可用的工具也越来越好。因此，我们采用了，正如您提到的，万亿参数的 GPT。GPT-4，我们认为可能是 2 万亿。

我们从一个拥有 70 亿个参数的模型开始。然后我们从那里对其进行了微调。当您进行微调时，您可以去除您不希望它执行的操作。我们训练我们的模型不接受有害提示。我们训练它在交互方式上令人愉快。然后，如果对话与会计无关……

那么我们不想进行那次对话。因此，我们可以将其缩减到一个拥有 70 亿个参数的模型，并且我们可以对其进行微调，使其变得非常非常非常出色。

在我们想要执行的这些会计任务中。你知道，这很有趣，因为我相信我们有很多观众，特别是，你知道，首席财务官，在财务部门工作的人，他们可能第一次或其中一次与人工智能的互动，他们可能看到了结果，他们想，我再也不会碰它了，对吧？因为……

一些早期的，对吧？即使你说像 GPT-4 或一些早期的万亿参数模型，它们也无法进行基本的数学运算，对吧？所以，我认为我谈到过的人，他们都放弃了，嘿，我们不再在这个部门使用人工智能了。但听起来……

您为 Sage Copilot 提供支持的模型之一。我的意思是，听起来它就像拥有博士学位和注册会计师资格一样，对吧？多谈谈您如何通过本质上对这个 70 亿参数模型进行训练以使其成为专家来解决信任问题。是的。我还想谈谈第一次体验。但是但是。

所以我们所做的是，我们采用了该基础模型，然后我们训练了所有产品文档以及关于最佳实践和产品运作方式的产品文档材料、所有开发人员代码。我们用会计教科书和会计考试对其进行了训练。我们用有助于它理解和使用会计师和财务分析师的语言进行交流的内容对其进行了训练。

今天我们宣布的一件非常令人兴奋的事情是，我们正在与 AICPA 合作，AICPA 是认证注册会计师的行业协会。他们现在将把他们的专业内容提供给我们，用于训练模型。现在，这是一个概念验证。在人工智能方面，我们将保持谨慎。所以我不能坐在这里说，就像，这就是我们预测的内容。

但我认为这是一个令人难以置信的信号，会计行业，早期，头条新闻说会计师将不复存在。我认为会计行业不仅在某种程度上拥抱人工智能，而且还在为人工智能模型的开发做出贡献，这非常有趣。但我想回到第一次体验。

因为它非常重要。你完全正确。如果首席财务官使用我们的副驾驶并且他们的第一次体验表明它犯了一个大错误，我们将不会再有机会了。我在硅谷长大，可能就像你们观众中的许多人一样。硅谷的座右铭一直是快速行动并打破常规。嗯哼。

当您在这个行业中构建这种人工智能时，我们必须拥有完全不同的文化。所以我谈到，这有点简洁，但要接受谦逊，拥抱责任。我们必须有不同的心态。我们不能将人工智能仓促推向我们的客户。如果他们有不好的体验，他们就不会回来了。是的。

因此，您已经谈到了如何通过创建和微调您自己的模型来提高准确性，对吧，该模型针对财务、注册会计师等领域的任何人都非常关心的一切进行了训练。

但是后端呢？可观察性、可追溯性呢？Sage Copilot 和您今天宣布的一些内容，特别是这个信任标签，是如何解决这个问题的？是的。我们必须在早期做的一件事是，我们必须为机器学习构建我们自己的基础设施。

所以我喜欢将此与软件即服务的早期阶段进行比较。因此，如果您回到最早的时期，包括 Salesforce 在内的我们所有人以及其他仍在运营的先驱者，

我们必须为我们的开发人员设定一个目标，即我们每周都会发布一个新版本的代码。我们将自动将每个客户升级到该代码的下一个版本，以便每个人始终使用相同版本的代码。我们必须在不中断的情况下做到这一点。

这现在听起来很正常。就像 25 年前，那是不正常的。就像说那是一件非常具有煽动性的事情一样。因此，如果您快进，当我们开始构建人工智能时，我必须给工程师一个更具煽动性的不同任务，我相信。就像，我不想要每周发布。我希望您能够自动训练这个 AI，并在它改进到足以自动更新版本时检测到它。嗯，

但情况更糟了，开发人员先生。就像，您需要能够逐个客户地做到这一点，对吧？因此，我们将有一些从集体中训练的大型模型。但是我们所做的许多事情，我们需要根据每个客户逐个客户地进行训练。因此，您必须构建这个能够自动化所有这些操作的基础设施，但要以安全的方式进行。

因此，我们构建了所有自动化。这就是为什么我们今天有数万个模型投入生产的原因。但我们还做的是，我们内置了所有这些安全机制，所有这些控制措施。因此，我们拥有能够检测模型漂移并启动让数据科学家参与其中的流程的系统。我们有一些安全机制可以检测幻觉。这就是我们实际获得一些专利的地方。所以我们把整个事情称为 Sage AI 工厂。

如果您看到我和我们的客户或分析师、合作伙伴谈论人工智能，我总是会谈到 Sage AI 工厂，因为我认为了解幕后情况非常重要，工厂是如何运作的？这些东西是如何构建的？我怎么知道你在采取措施确保它是安全的？是的。

我很好奇，您现在有多少个组织正在使用 Sage 中的 AI 副驾驶功能？因此，我们在世界各地有数万人在使用副驾驶。我们从小处着手。我们从具有简单会计需求的小型企业开始。我们从倾向于为这些企业服务的会计事务所开始。我们从早期功能开始。

随着时间的推移，我们将其扩展到更多产品、更多国家/地区。但我们也开始进入更复杂的业务。大约六到八个月前，我们为 Sage Intact 推出了抢先体验版。我想在这里要强调的一点是，我们对如何向更多客户开放这一点非常谨慎。这是对的。我们只是，我们太……

我们非常小心，不要有第一次不好的体验。因此，我们将非常谨慎地将其逐步推广给更多客户。是的，这似乎是一个超级战略性的推广，而且显然在信任至关重要的情况下是有意义的，对吧？就像你说的那样，你不能让某人有第一次不好的体验，对吧？

因为风险太高了，你知道吗？所以我很想知道 Sage 副驾驶的迭代过程。然后，你知道，显然随着 Sage 未来大会上宣布的内容而到来的是另一波浪潮。你可能遇到过哪些最初的……

障碍？然后也许你认为接下来是什么，对吧？就信任而言，就可靠性而言，你们已经克服了什么，接下来要克服什么？是的。如果你原谅我，我会讲一个故事。请便。我保证这是为答案做准备。所以我一直在谈论

Sage Intact，我曾经是那里的联合创始人之一。所以 25 年前，我们刚刚开始这个产品。我们刚刚发布了该产品。我们最大的目标，让客户购买该产品的最大障碍是，他们不愿意将他们的数据放入云中。

我们现在对此有点挠头，但您必须想象一下这在当时是多么的新颖。我们会使用您期望的所有论点。我们可以比您投入更多资金用于安全。我们的生计取决于保护您的数据安全。您信任银行保管您的钱。为什么不信任我们保管您的数据呢？这根本行不通。因此，我们最终所做的是，我认为这非常聪明，我们在产品中添加了一个按钮，上面写着“查看我的数据”。

当用户单击该按钮时，我们将弹出一个窗口，该窗口中有一个指向拥有其数据的服务器的数据中心网络摄像头。那时我们只有一个带有客户数据的服务器。所以，你知道，这很容易做到。然后这实际上非常棒。它实际上确实有效。谢天谢地，当我们关闭它时，我们达到了不再需要它的地步。现在，我们关闭它的原因，我再次保证，真实的故事，

我们在数据中心有一名技术人员正在进行一些布线和维护工作，弯腰四处移动。可能应该系好更好的腰带。这时，一位销售代表选择在潜在客户面前点击“显示我的数据”。他们得到了完全的透明度。完全的透明度。他们看到了数据以及其他一些东西。所以这有点像一个关于建立信任以及透明度如何发挥作用的旧故事。

是的。今天，这仍然是事实。如果您与今天的公司交谈，并且他们正在评估您的软件，并且他们知道人工智能是产品的重要组成部分，他们会想知道您是否会保护他们的数据安全，对吧？他们会想知道他们是否可以信任这项技术。人工智能的问题在于，该行业和技术发展如此之快，以至于

监管环境没有跟上。因此，我们不能依赖许多外部信号，对吧，您可以信任人工智能。我们确实使用了一些，我会谈到这一点。因此，我们确定的是，好吧，我们需要在产品中添加一个按钮

我们将其放在每个 AI 功能中，用户可以点击它。将会发生的事情是，而不是那个网络摄像头，我们会弹出我们所谓的 Sage 信任标签。在这个信任标签中，这有点像营养标签，我们将非常透明地说明，好吧，我们使用哪些模型来构建这个？我们是否正在训练我们自己的模型？如果是这样，我们如何使用您的数据以及这些模型的训练？

我们正在采取哪些步骤来保护您的数据安全？有哪些保障措施可以防止偏见或其他伦理问题？

我们将其以易于阅读的格式呈现。如果他们想了解更多信息，我们会给他们一个按钮，他们可以点击该按钮并查看我们所有的人工智能承诺，实际上解决了同样的问题。所以，是的，我们今天宣布了这一点。我们鼓励行业中的其他供应商效仿。我们知道我们不能等待监管机构赶上来。

因此，我们必须继续推进我们认为可以简化这一点并向客户发出信号的事情，这就是为什么您可以信任我们。您认为接下来会发生什么……

或者也许就是这样，对吧？因为我认为每个试图推出负责任、值得信赖的 AI 产品的公司，总会有这个障碍，对吧？使用信任标签，您认为这是否会成为最后一个障碍，因为总会有创新，总会有新的功能，但这是否会成为您克服后会说，哇，这对我来说有很大帮助的障碍之一。

对于财务领域的人来说，能够信任他们数据中的 AI 吗？我认为这会有很大帮助。我的意思是，我认为它首先要做的是让首席技术官不用接电话了。因此，当您获得一位正在评估您的软件的客户时，顺便说一句，我们有数百万客户，对吧？我们有 4000 名销售人员。如果我们得到一个对人工智能有疑问的老练客户，例如……

他们会要求我接听电话并与该客户交谈并解释一下。如果我们有这个信任标签，它只会让人们更容易理解和评估。我认为这至关重要。我认为它不会消失。我的意思是，我认为它会发展变化。这是我们永远解决这个问题的时刻吗？是否会有一个我可以像关闭网络摄像头一样关闭该按钮的时刻？我不知道，但我猜……

人工智能发展如此之快。它发展得如此之快。我认为我们都需要诚实一点，对吧？将继续有很多理由不信任人工智能，对吧？这不仅仅是会计领域的问题。所以，我认为我们必须有这种心态，这不是

这是旅程中的一步，我们将不得不继续评估和研究，好吧，人们对人工智能的信任感如何，以及导致他们不信任人工智能的新事物是什么？我们将不得不边走边适应。所以，Aaron，我们在今天的谈话中谈论了很多内容。从信任和透明度到 Sage 如何不仅……

构建他们自己的模型，以及他们如何向客户展示其使用方法和实施方式。但是，你知道，在我们结束时，您认为对于那些人来说，最重要的是什么，无论他们是注册会计师，还是大型组织的首席财务官，您希望人们从 Sage 未来大会上了解关于对人工智能的信任的最重要的一点是什么？

所以我认为最重要的一点是，未来是我们创造的未来。承担建设未来的责任非常重要。这就是为什么我要和你进行这次重要的谈话。通过我们所有的谈话，我们了解到，信任的最大信号是 AI 背后的公司，对吧？我可能不是一个老练的人。我不知道如何评估这一点，但是，嘿，那是一个品牌。

我信任它。它必须改变你的心态，对吧？你必须透明。你必须可信。你必须愿意承认，嘿，人工智能并非万无一失。它会遇到问题。然后你必须做出这些承诺，你必须公布这些承诺，并且你必须坚持这些承诺。

我认为这不仅是对Sage及其副驾驶以及Sage Future上发生的一切的深刻见解，也是对整个行业的深刻见解。我认为人们听到这一点很重要，是的，真实性和透明度与生产力提升以及您从AI获得的所有其他东西一样重要。因此，Aaron，非常感谢您抽出宝贵时间参加非常忙碌的Sage Future大会与我们一起参加。我们真的非常感谢。

感谢您给我机会谈论我最喜欢的主题。我喜欢它。我喜欢它。所以这次谈话中发生了很多事情。也许你错过了Aaron刚刚告诉我们的金玉良言。别担心。我们将在我们的新闻通讯中回顾所有内容，以及在此处和那里宣布的所有其他内容。

在SageFuture。如果您是CFO或CPA，即使您是小型、中型企业主，也有很多需要了解的内容刚刚宣布。所有这些都将在我们的新闻通讯中。感谢您的收听。请明天回到Everyday AI，了解更多Everyday AI。谢谢大家。

今天的Everyday AI节目到此结束。感谢您的收听。如果您喜欢这一集，请订阅并给我们评分。这有助于我们继续前进。要获得更多AI魔法，请访问youreverydayai.com并注册我们的每日新闻通讯，这样您就不会落后。去打破一些障碍，我们下次再见。

Ep 541: AI & Trust: When 98% accuracy won't cut it and how Sage can fix it 27:08 Share

Everyday AI Podcast – An AI and ChatGPT Podcast

Deep Dive

Shownotes Transcript

Ep 541: AI & Trust: When 98% accuracy won't cut it and how Sage can fix it