We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
O
OpenAI
Topics
OpenAI: 我们在与多家企业合作的过程中总结出了七个关于企业AI的经验教训。首先,企业应该使用系统的评估流程来衡量模型在实际应用中的表现,例如摩根士丹利公司就通过评估语言翻译、摘要和专家顾问的回应来确保其AI模型的可靠性。其次,企业应该将AI嵌入到产品中,从而改变与客户的互动方式,并从根本上重新设计产品,例如Indeed公司就通过将AI模型集成到求职者体验中来提高求职申请率。再次,企业应该尽早开始投资AI,因为AI带来的好处是不断累积的,例如Klarna公司就通过早期投资AI获得了巨大的收益。此外,企业应该定制和微调模型,以提高准确性、领域专业知识和一致性,并加快结果的产生。企业还应该让专家使用AI,以便更好地利用其专业知识和经验,例如BBVA公司就允许员工创建自定义GPT来满足不同团队的需求。同时,企业应该为开发人员扫清障碍,以便他们能够更快、更高效地构建AI应用程序,例如MercadoLibre公司就构建了一个名为Verdi的开发者平台来加速AI应用的构建。最后,企业应该设定大胆的自动化目标,并不断寻找新的自动化机会,例如OpenAI公司自身就一直在探索新的自动化方式。总而言之,企业应该将AI视为基础设施的转变,而不是简单的试点项目,并积极拥抱AI带来的变革。

Deep Dive

Shownotes Transcript

OpenAI分享了一份简短报告,其中包含他们观察到的企业使用AI的七个有效方法。这些经验来自与摩根士丹利、Indeed、Klarna、BBVA和Mercado Libre等公司的实际案例。这份报告堪称一份面向感兴趣企业的蓝图。有兴趣赞助本节目吗?[email protected] 获取无广告AI每日简报:⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠https://patreon.com/AIDailyBrief⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠由以下公司为您呈现:KPMG – 请访问 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠https://kpmg.com/ai⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 了解更多关于KPMG如何帮助您利用AI解决方案创造价值的信息。Blitzy.com - 请访问 ⁠⁠https://blitzy.com/⁠⁠ 以天为单位构建企业软件,而不是以月为单位。来自Superintelligent的代理就绪审计 - 请访问 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠https://besuper.ai/ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠申请贵公司的代理就绪评分。AI每日简报帮助您了解AI领域最重要的新闻和讨论。订阅播客版本的AI每日简报,无论您在哪里收听:https://pod.link/1680633614订阅时事通讯:https://aidailybrief.beehiiv.com/加入我们的Discord:https://bit.ly/aibreakdown </context> <raw_text>0 今天在AI每日简报中,我们将讨论企业AI的七个经验教训。在此之前,在新闻头条中,苹果公司是否真的要在AI领域做一些很酷的事情?AI每日简报是一个每日播客和视频,内容涵盖AI领域最重要的新闻和讨论。感谢今天的赞助商KPMG、Blitzy.com和Super Intelligent。要获取播客的无广告版本,请访问patreon.com/AIDailyBrief。

欢迎回到AI每日简报新闻版块,所有您需要的每日AI新闻,大约五分钟即可看完。现在,谈到生成式AI,苹果公司绝对是笨手笨脚的。在该公司AI战略方面,它犯下了一个又一个错误,一次又一次的延误,一件又一件令人失望的事情。

以至于在三月份,我做了一个播客,专门讨论苹果公司可以采取的六种“救命稻草”策略,以重返AI领域。其中一个重要的主题是与那些没有犯错的人合作。

有趣的是,我们上周末收到了报道,称苹果公司正在与Anthropic合作开发一个AI编码平台。这来自彭博社的马克·古尔曼,他可能是主流媒体中对苹果战略最了解的消息来源。他写道,两家公司正在合作开发一款氛围编码软件,该软件将代表软件工程师编写、编辑和测试代码。古尔曼的消息来源称,该系统是苹果编程软件Xcode的新版本,并将集成Anthropic的Claude Sonnet模型。至少

至少最初,重点将完全放在内部,苹果公司尚未决定是否公开发布它。因此,至少从我们目前掌握的有限信息来看,这似乎是苹果公司使用AI,基本上是构建自己的Cursor版本,以加快其自身的内部产品开发。这延续了去年的一个公告,当时苹果公司表示他们正在为Xcode构建自己的AI编码工具,名为Swift Assist,但最终他们从未推出。

现在,请记住,苹果公司在面向消费者的AI方面不仅远远落后,谷歌和微软都表示,他们高达30%的代码现在是由AI编写的。这大概是由他们自己的模型驱动的,而不是外包给Anthropic。因此,苹果公司不仅在面向消费者的AI方面落后,而且在自身使用AI方面也落后。

在过去的几个月里,苹果公司似乎开始在这个领域采取一些行动。他们调整了一批领导层,调动了负责Vision Pro的人员,让他们负责Siri。蒂姆·库克最近在财报电话会议上试图对公司缺乏光彩的AI推出发表积极评论。库克说,

库克说:“我不认为这是非此即彼。”然而,对于我们所有人来说,我认为亚历山大·安德里亚诺夫的观点很有代表性,他写道:“苹果公司应该在为时已晚之前收购Anthropic。”这确实是我在三月份提出的最大“救命稻草”策略。那么,我们是否会看到它真正实现呢?好吧,就像我当时说的那样,我不确定Anthropic是否想被收购,但如果我是苹果公司,我肯定会尝试。

接下来,与一款人们真正喜欢的科技巨头AI产品形成对比的是,谷歌的Notebook LM即将推出自己的应用程序,该应用程序将于5月20日在iOS和Android平台上发布。

这款免费的独立应用程序现在可以在这两个平台上进行预订。自2023年推出以来,Notebook LM仅通过桌面版提供。我认为对于Notebook LM的粉丝来说,这表明谷歌仍在投资于完整的应用程序体验,而不仅仅是剥离病毒式音频概述功能。音频概述最近也从Notebook LM转移到了主要的Gemini Assistant。一些人认为,该计划可能是将所有内容集成到单一的Gemini体验中,而不是提供一系列界面。

但这似乎表明,谷歌实际上正在将Notebook LM作为一个主要的AI平台进行全面加倍投入。5月20日的发布恰逢谷歌I/O大会的第一天,因此我们可能会在那时获得更多关于它的新闻。

最后,今天,OpenAI仍在应对GPT-4.0谄媚个性带来的影响,并引入了新的更新发布框架。OpenAI在周五发布的一篇扩展的事后分析文章中,讨论了他们的培训后和测试流程。他们写道,在构建他们的最新更新(该更新有点失控)时,“我们对候选改进进行了改进,以更好地结合用户反馈、记忆和更新的数据,等等。我们的

我们的初步评估是,这些单独看起来有益的更改中的每一个,当组合在一起时,可能都在谄媚方面起到了推波助澜的作用。”现在,由于这些挑战,OpenAI已经改变了他们发布模型更新的方式。他们将首先进行公开测试,为新的模型培训后可能改变其个性的测试提供一个选择加入的alpha阶段。透明度也将提高,该公司写道:“……因为我们预计这是一个相当细微的更新,所以我们没有主动宣布它。此外,我们的发行说明中没有足够的信息来解释我们所做的更改。”

展望未来,我们将主动沟通对ChatGPT模型所做的更新,无论这些更新是细微的还是重大的。并且,就像我们在主要模型发布时所做的那样,当我们宣布对ChatGPT的增量更新时,我们现在将包含已知限制的解释,以便用户了解好坏之处。

OpenAI还承诺,即使在诸如A/B测试之类的指标看起来不错的情况下,也要根据定性信号阻止模型更新。事实上,这似乎是最新更新的一个问题,在该更新中,OpenAI没有听取其模型测试人员的意见,而是依赖于喜欢谄媚回应的测试用户。该公司写道:“一些专家测试人员指出,模型行为感觉有点不对劲。”他们继续说道:“然后我们必须做出决定。尽管有积极的评估和A/B测试结果,我们是否应该推迟部署此更新?基于

仅基于专家测试人员的主观标记,最终我们决定发布该模型,因为尝试过它的用户的积极信号。不幸的是,这是一个错误的决定。我们为用户构建了这些模型,虽然用户反馈对我们的决策至关重要,但最终我们有责任正确解读这些反馈。”

整个事件表明,仅仅对系统提示进行微小的调整,就可以改变模型行为的程度。它还表明,简单的A/B测试不应成为构建有用模型的唯一目标。前OpenAI员工安德鲁·梅因回忆起类似的事件,这表明让系统提示正确是多么困难。他写道,

他现在是另一个实验室的创始人,过度使用了我在提示示例中写的“礼貌”一词。他们认为“礼貌”在政治上是不正确的,并想用“有帮助”来代替它。我指出,仅仅关注有用性可能会使模型过于顺从。事实上,它顺从到可以通过几次对话就被引导到色情内容中。在我用简单的交流演示了这种风险之后,提示保留了“礼貌”。这些模型很奇怪。

对我们来说好消息是,每次这些挑战发生时,我们都有机会更多地了解正在发生的事情,并可能将事情引导到正确的方向。

不过,现在,这就是今天的AI每日简报新闻版的全部内容。接下来是主要节目。今天的节目由KPMG为您呈现。在当今竞争激烈的市场中,释放AI的潜力可以帮助您获得竞争优势,促进增长并创造新的价值。但关键在于,您不需要AI战略,您需要将AI嵌入到您的整体业务战略中,才能真正提升其效力。

KPMG可以向您展示如何将AI和AI代理集成到您的业务战略中,使其真正有效,并建立在值得信赖的AI原则和平台之上。查看KPMG的真实案例,了解AI如何帮助其客户取得成功,网址为www.kpmg.us/AI。再次强调,网址是www.kpmg.us/AI。

今天的节目由Blitzy为您呈现,Blitzy是一个企业自主软件开发平台,具有无限的代码上下文,如果您还不确切知道这意味着什么,请不要担心,我们将解释一下,它很棒。因此,Blitzy与您最喜欢的编码副驾驶一起用作企业的批量软件开发平台。它适用于那些寻求在大型代码库上实现显著开发加速的人员。传统的副驾驶可以帮助开发人员进行逐行完成和代码片段。

但Blitze的工作领先于IDE,首先记录您的整个代码库,然后部署超过3000个并行工作的协调AI代理,以批量构建数百万行高质量代码,用于大型软件项目。因此,无论是代码库重构、现代化还是产品路线图的批量开发,Blitze的整体理念都是为企业提供显著的速度改进。

简单来说,对于最终提供给人类工程团队的每一行代码,Blitze都会编写数百次,并使用不同的代理验证输出,以便为企业批量提供最高质量的代码。然后,通常需要数十名开发人员工作数月的项目现在可以用少得多的团队在几周内完成,使组织能够显著缩短开发周期,并将产品更快地推向市场。

如果您的企业希望加快软件开发速度,无论是大型现代化、重构,还是仅仅提高STLC的速度,请访问blitzy.com(B-L-I-T-Z-Y.com)联系Blitzy以预订自定义演示,或者直接点击“开始使用”并立即开始使用该产品。今天的节目由Superintelligent为您呈现,更具体地说,是我们的代理就绪审计。

现在,每家公司都处于发现过程的中间阶段,试图弄清楚自主代理将如何改变他们的内部工作方式,以及他们为客户提供服务的方式,甚至他们实际提供的产品。代理就绪审计是找出代理在哪里以及如何对您的业务产生最大影响的最快、最有效的方法。

我们部署一个定制设计的语音代理来采访团队和领导者,通过混合型人类AI分析流程运行,以生成代理就绪评分,以及关于哪些代理用例可能带来最大价值以及您需要在内部做什么才能最充分地抓住这些机会的一系列见解和可操作的建议。审计结束后,有多种后续步骤。

欢迎

欢迎回到AI每日简报。几周前,OpenAI发布了他们有史以来的第一份企业AI报告。现在,它围绕着他们与之合作的公司得出的七个不同的经验教训构建,鉴于OpenAI在企业内部投入了多少时间和精力,这里有很多关于当前最佳实践是什么样的内容可以学习。

如我所述,他们将这些内容组织成七个经验教训。总的来说,这些经验教训是:一、从评估开始;二、将AI嵌入到您的产品中;三、现在开始并尽早投资;四、定制和微调您的模型;五、将AI交给专家;六、解除开发人员的限制;七、设定大胆的自动化目标。

我喜欢这份报告的一点是,它并非以七个案例研究的形式呈现,尽管每个经验教训都附带一个案例研究。但它几乎可以作为蓝图。如果您正在寻找一个单一的要点,那就是试点和实验的时代已经过去了。蓬勃发展的公司将此视为一次完整的基础设施转变,是对他们运营方式的全面变革,并且他们的行为也是如此。

现在,我们将在最后回到更多内容,但现在,让我们简要地触及每个不同的经验教训。

经验教训1:从评估开始。使用系统的评估流程来衡量模型在您的用例中的性能。以下是OpenAI对评估的定义:评估是验证和测试模型产生的输出的过程。严格的评估会导致更稳定、更可靠的应用程序,这些应用程序能够适应变化。评估是围绕衡量模型输出质量与基准的指标构建的。它是否更准确?更合规?更安全?您的关键指标将取决于每个用例中最重要的事情。

一方面,这听起来很明显。当您试图使用软件来获得特定结果时,您可能希望衡量它是否实现了该结果。然而,与此同时,这是一个如此新兴的领域,坦率地说,这是许多公司在着手构建代理时没有意识到需要投资的领域之一。事实上,这是我们看到人们最想削减成本的领域之一,而我们真的、真的不建议这样做。

OpenAI的案例研究来自摩根士丹利。当他们寻求在内部部署AI模型时,他们关注三个评估指标。语言翻译通过准确性和质量来衡量;摘要,使用商定的准确性、相关性和连贯性指标来评估模型如何浓缩信息;以及人类培训师将AI结果与专家顾问的回应进行比较。

根据准确性和相关性进行评分。基本上,通过根据这三个不同领域衡量他们的AI输出,他们能够充满信心地更广泛地推出这些工具。

为了让您稍微了解一下幕后情况,当我们设计为Super Intelligent Agent Readiness Audit提供支持的语音代理时,我们在工作中构建了一个全面的评估系统。我们根据各种不同的标准评估语音代理,范围从对访谈的保真度,到冗长性和钻牛角尖以及它偏离主题的程度,到语调,以及其他十几个方面。

基本上,所有这些都会影响用户体验的好坏。我们还构建了一个测试套件,以便我们可以让不同的合成生成的化身进行样本访谈,以便大规模测试模型。

顺便说一句,如果您在AI社区四处看看,会有很多人都在鼓吹我们需要更多地关注评估。布鲁克·霍普金斯(看起来她拥有一家代理评估初创公司)写道,对于语音和聊天AI来说,这个经验教训再贴切不过了。幻觉、错误升级或合规性疏忽的风险并非抽象的。它们是客户体验和品牌信任的实际后果。如果您在客户支持中部署AI代理,那么评估就是您的安全网和指南针。

但让我们继续讨论经验教训2,将AI嵌入到您的产品中。他们为此使用的例子是Indeed,该公司将OpenAI模型集成到求职者的产品体验中,以帮助更好地解释为什么向他们推荐特定工作。这导致求职申请启动增加了20%,下游成功率提高了13%。

我认为其他公司可以借鉴的经验,也许OpenAI在这里想说的是,AI不仅仅是员工的生产力套件。它还可以改变您与客户之间关系的输出。不仅是在客户服务方面,尽管这是其中一部分,而且还通过从根本上重新思考您的产品设计。

经验教训3:现在开始并尽早投资。这可能是所有经验教训中最容易理解的一个。他们使用Klarna的例子来展示AI的好处是如何复合的。您从小处着手,很快就会看到重大的进展和实现的重大价值,然后这些价值、节省和好处会进一步扩展。但是,无论您的意图多么良好,这个过程都需要一些时间。关键是,投资AI的最佳时间是昨天,但第二好的时间是今天。

经验教训4:定制和微调您的模型。这是另一个相当明显的内容,其基本思想是,尽管这些模型现成的效果很好,而且它们确实很好,但有很多用例可以直接进行零样本学习并开始使用。一般来说,特别是对于企业用途,您提供的上下文越多(当然,您的上下文是数据),您就能做的事情就越多。

OpenAI将微调与之相关的优势列表包括:提高准确性;领域专业知识,即微调模型更好地理解您行业的术语、风格和上下文;以及一致的语气和风格以及更快的结果。经验教训5,将您的AI交给专家,实际上在某些方面是微调的一个变体。它最终并不相同,但它具有赋予模型更多上下文以使其更好地执行以及以更具体和谨慎的方式执行的共同根源。

因此,他们给出的例子是BBVA,这家全球性银行公司拥有超过12.5万名员工。BBVA定制其体验的方式基本上是允许其员工创建自定义GPT,其中嵌入了专业知识和特定的上下文知识。基本上,他们认识到信用风险团队、法律团队和客户服务团队的用例并非完全相同。

因此,他们鼓励人们实际构建具有该上下文以及现有员工可以利用的专业知识和经验的自定义实现。经验教训6,解除开发人员的限制。他们在这里给出的例子来自MercadoLibre。这是拉丁美洲最大的电子商务和金融科技公司,该公司与OpenAI合作构建了一个名为Verdi的开发人员平台层。OpenAI写道,这个平台帮助MercadoLibre的1.7万名开发人员,“统一和加速了他们的AI应用程序构建”。

这是一个有趣的例子,因为我们一直看到的一个有点令人惊讶的事情是,开发人员、工程师和工程部门往往是最犹豫真正完全接受AI的人群之一。我之前提到过,有时我认为这是出于不好的原因,基本上是人们喜欢他们相对缓慢的工作节奏,并且不想加速。但也有一些非常合理的理由,这与许多AI编码工具和编码助手,当然还有这一代新的氛围编码平台,并非真正考虑到企业用例有关。

现在,并非只有OpenAI在考虑将这种更新的编码能力带给企业。这正是新的AI每日简报赞助商Blitzy所做的,基本上是使用专门的AI代理来彻底加快和扩展企业开发流程。Factory.ai是另一家专门试图将新的代理编码能力带给企业的公司。事实上,虽然我认为这里有很多技术和产品复杂性,但我认为它也将在未来几年成为初创公司最丰富的领域之一,因此我希望会有更多活动涌入这个领域。

最后,经验教训7,设定大胆的自动化目标。为此,OpenAI实际上使用了他们自己。他们基本上指出,即使是这家智能公司,他们也仍在不断寻找新的方法来自动化他们自己的工作。我认为在许多方面,他们在这里提出的与其说是具体的用例,不如说是一种思维方式。

它基本上是始终询问任何具有挑战性、缓慢或只是错失机会的工作流程。是否有办法对其进行自动化以使其工作更快、更好或更便宜?或者另一方面,做以前根本不可能的事情。对他们来说,重点不是具体的例子,尽管他们给出了很多例子。而是关于根本原则。正如他们所说,从一开始就设定大胆的自动化目标,而不是将低效流程视为业务成本。

我认为Twitter上的Casper DeFi在总结所有这些内容的主要要点方面做得非常出色,他写道:“AI不仅仅是另一项IT升级。它是对公司运作方式的彻底重置。”

在回顾了OpenAI的七个经验教训后,他总结道:“真正的经验教训?在2025年,谨慎地进行实验意味着行动太慢。领导者将AI视为基础设施,而不是试点。未来属于那些现在就开始构建、调整、自动化和迭代的公司。”作为每天都在体验这一切的人,我完全同意。现在,这就是今天的AI每日简报的全部内容。下次再见,和平。