最初来自Tool Use播客的讨论。查看完整剧集:https://www.youtube.com/watch?v=-fDu52FzmJc // https://podcasts.apple.com/ca/podcast/will-ai-agents-be-your-automation-breakthrough-ft-nlw/id1773693853?i=1000693646455由以下机构提供:KPMG – 请访问 www.kpmg.us/ai 了解更多关于KPMG如何帮助您利用我们的AI解决方案创造价值的信息。Vanta - 简化合规性 - https://vanta.com/nlw来自Superintelligent的代理准备情况审核 - 请访问 https://besuper.ai/ 以请求您公司的代理准备情况评分。AI每日简报帮助您了解AI中最重要的新闻和讨论。在您收听的任何地方订阅AI每日简报的播客版本:https://pod.link/1680633614订阅时事通讯:https://aidailybrief.beehiiv.com/加入我们的Discord:https://bit.ly/aibreakdown </context> <raw_text>0 今天在AI每日简报中,对未来AI代理的特别采访。AI每日简报是一个关于AI中最重要的新闻和讨论的每日播客和视频。要加入讨论,请关注我们节目说明中的Discord链接。
大家好。欢迎回到另一期AI每日简报。我本周正在旅行,所以我们会做几期不同的节目。我确实有我的播客设备,所以我将录制一些正常的节目。但今天,我将分享我几周前与另一个很棒的播客Tool Use进行的采访的第一部分,内容是关于AI代理的。显然,这是当前的热门话题。因为我在这次采访中担任受访者,所以我比平时更广泛地谈论了我对代理的未来可能是什么样的看法。
所以我要做的是分享这期节目的一半多一点的内容,然后我会给你一个链接,你可以在他们的节目中找到其余部分,Tool Use的那些家伙采访了建设者和企业家,以及其他每天都在使用AI的人,关于他们如何使用AI。所以如果这对您感兴趣,我强烈建议您去看看他们的节目。所以,今天的节目是对我的采访,主题是AI代理的未来。
今天的节目由Vanta赞助播出。信任不仅仅是赢得的,更是被要求的。无论您是正在应对第一次审计的初创公司创始人,还是经验丰富的安全专业人员正在扩展您的GRC计划,证明您对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。企业使用Vanta通过自动化合规需求来建立信任,这些需求涵盖35多个框架,例如SOC 2和ISO 27001。
集中式安全工作流程可以将问卷调查完成速度提高5倍,并主动管理供应商风险。Vanta可以通过将您与审计师和专家联系起来以进行审计并快速建立您的安全程序来帮助您启动或扩展您的安全程序。此外,由于平台中使用了自动化和AI,Vanta可以为您节省时间,让您可以专注于公司建设。加入超过9,000家全球公司,例如Atlassian、Quora和Factory,他们使用Vanta实时管理风险并证明安全性。
在有限的时间内,本观众可以获得Vanta的1,000美元折扣,网址为vanta.com/NLW。网址是V-A-N-T-A dot com/NLW,可享受1,000美元的折扣。本周,我们邀请到了Nathaniel Whittlemore,也称为NLW,他是Superintelligent的创始人兼首席执行官,也是我最喜欢的每日AI播客AI每日简报的主持人。NLW,欢迎。
欢迎来到Till Use。嘿,很高兴来到这里。感谢你们的邀请。我们非常高兴能邀请你。我想我们可以开始吧。我想每个人对什么是代理都有自己的定义,似乎是这样。并没有一个很好的定义。我很想知道你如何定义代理,以及对你来说这意味着什么。我对这个问题其实有非常强烈的观点。你会发现这是我的一个共同点。所以你会看到很多,我认为,在长期从事AI或更偏向技术专家的那些人中,有很多关于代理定义混乱的担忧。而我认为我们不应该关心这个问题。我认为当人们平均谈论代理或提到代理时,他们将AI分为两类,一类是我必须使用的AI,另一类是为我做事而无需我真正告诉它的AI,除了可能第一次之外。显然,这并不十分精确。
但我认为从广义上讲,它能让人们开始思考这个问题。特别是如果你是一个企业领导者,并且正在考虑是否要部署某种辅助式AI或代理,它们确实大致可以分为这两类。我还认为我们很少有
像围绕单个术语那样多的叙事整合,这个术语大致在同一个范围内,每个人都了解这个术语,并且都在试图深入研究代理和自动化之间的细微差别,我认为最终是一种不太相关的追求。我认为人们谈论代理时所寻找的是
它能帮我解决大量的工作,而不仅仅是让我更好地完成工作。是的,我发现这与人们所说的类似,哦,来自OpenAI deep research的最新代理,我已经使用过,而且很棒。然后人们说,那么代码解释器呢?那是代理吗?最终,它是否是工具或工作流程并不重要,只要它能为你解决某个任务即可。通过你的使用,你对哪些用例感到兴奋?你在目前的状态下发现了什么真正有帮助的东西?
所以我们思考了很多。目前Superintelligent的主要产品是我们的代理准备情况审核,它基本上是一个代理化的过程,用于查看整个组织的工作流程、程序和策略,以帮助他们了解他们需要做什么才能准备好使用代理,以及哪些代理用例可能适合他们,这取决于当前的能力。
我认为我们经常最终会与他们分享的是,我们对这些完美协调的多代理工作流程有宏伟的想法,这些工作流程可以解决巨大的任务。但这并不是事情的现状。目前的情况仍然是这种离散的任务,你知道,你必须一遍又一遍地重复的离散任务。
我认为人们和公司越是以这种心态进行实验,他们就越能更好地利用现在代理的能力。我认为这将在今年发生巨大变化。所以真的是单一用途的、非常具体的代理。我认为我从个人角度思考的方式是,我们
我们还没有真正将大量的播客流程代理化。我们使用AI来处理其中的一些流程,但它们有点像没有完全自动化。我认为在构建Superintelligent方面,我们正在经历并彻底重新评估所有工作的完成方式,并尝试将代理工作流程嵌入到我们的工作方式中,对吧?所以我们构建产品的方式正在改变,你知道,基于光标和各种方法。
我们有,你知道,为这个代理准备情况审核提供支持的知识库是一个工作流程,它可以自动化一组不同的代理或自动化,或者你想要如何做。你知道,有一个Zapier部分和几个其他部分,所有这些都加起来可以每天自动从网络上提取有关当前代理能力的信息。所以我们正在逐一检查我们正在做的事情,并询问这其中的哪些部分可以由代理支持、增强或替换,并试图以此为基础进行重新设计。这非常聪明。是的,我们已经尝试使用代理来优化一些播客任务。我认为我们……
我有如此丰富的AI经验,我们倾向于从工作流程的角度思考,我们考虑代理,我们知道它们能够做什么。我们与之交谈的一些人几乎没有AI经验,除了他们进行的一次ChatGPT对话之外。因此,即使只是理解AI如何融入他们的等式、融入他们的业务,也是一件困难的事情。你从哪里开始与那些没有太多AI经验的人开始?你如何向他们解释好处以及他们如何开始?他们本周可以用AI开始做什么?经常出现的一个问题,这种情况已经持续一段时间了,并且与代理无关,那就是人们低估了一些非常基本用例的价值。所以我们之前对Superintelligent用户进行了一项调查。而AI在企业用户中的首要用例是头脑风暴,对吧?基本上是通过让ChatGPT充当顾问或思想伙伴来改善他们的工作,因为他们正在思考事情,对吧?这会随着时间的推移而发展。我认为,你知道,一个有趣的类比是,想象一下你们为播客做的营销或社交媒体。我猜想,你们可能已经从完全自己动手做,转变为现在与ChatGPT合作撰写一些文案,并使用Midjourney制作一些图片。
所以现在它是一种AI支持的流程。所以,你知道,这是一个AI辅助的流程,也许时间减少了,但我敢打赌,好处更多的是质量的提高和你们认知负荷的降低。然而,我想象在未来一年左右的时间里,我们都将能够,我认为,社交媒体代理似乎是最容易执行的,你知道,你每天想要多少条推文?你想让它们与什么相关?有多少是回复而不是这个?你知道,像你
你可以很快地看到它是如何组合在一起的。我必须从之前的消息中提取哪个数据库?所以你会看到这个过程。所以如果人们刚刚开始,
只需使用辅助级AI来了解它如何改善他们的工作,然后再担心节省时间,我认为这通常是一个非常好的起点,你知道吗?是的,绝对的。我甚至看到了这样的进展:你与Claude或ChatGPT进行聊天以获得一些输入,帮助进行头脑风暴,想出标题。
当你可以上传大量文档、大量标准和最佳实践时,创建云项目,以便你可以随着时间的推移获得更一致的结果。我们还尝试过AI编辑器,但我们还没有在那里取得成功,但有趣的是,今天有效的东西与不太有效的东西、稍微有点远的东西之间的差距正在日益缩小。你有没有注意到你的工作流程中有哪些工具真正让你能够
完全抵消一个流程,或者你仍然经常参与这些事情的人工循环?目前在Superintelligent世界中最接近的是这个关于当前代理能力的知识库的自动化。所以当我们试图匹配这个代理准备情况审核时,它基本上的工作方式是,一家公司会来找我们,我们会与他们交谈,然后
然后我们部署一个语音代理来进行这次采访,你知道,我们已经定制了一套问题,我们可以这样做,你知道,很少几次,只是获得一个非常高级别的概述,或者我们可以将其部署到员工级别,覆盖数百甚至数千人,对吧?你得到了所有这些信息。然后根据与所有这些人的访谈,我们将其通过这个代理机会的知识库进行处理,其中包括代理是什么、它做什么、与之相关的用例、与之相关的行业、它符合哪些合规制度、它与哪些技术栈相关。所以它不仅仅是你可能想象的两个或三个向量。这是一个数据库,我不知道,20行或50行左右,关于我们试图收集的所有这些信息。我们已经真正地高度自动化了
获取信息的过程。现在我们仍然有一层额外的其他人为互动。例如,
我获得的关于代理的许多主观信息来自Twitter/X,对吧?比如人们说,哦,这太糟糕了。哦,这太棒了。这实际上非常有用,可以用来衡量你在试图向公司提供是否应该使用它的预期时,某个事物处于什么位置。你知道,如果主观上,Twitter上有一半的观点认为它很棒,而另一半的观点认为它很糟糕,那么你可以带着适当的预期来处理。你知道,我们不确定它是否已经准备好投入黄金时间。它可能有点夸大其词,或者其他什么。所以
它并非完全自动化,因为仍然有很多事情对人工来说更有价值,但它正在接近,对吧?我认为这是一个重要的部分。当谈到播客时,没有任何东西是完全自动化的,尽管我上周生病时做了一个实验
一个更自动化的过程。基本上,我的声音几乎消失了。所以我选择了一个主题,使用deep research来写一篇论文。我认为我最终使用的那篇论文,我尝试了几篇,我最终使用的是什么,AGI时代的经济预测,基本上是AGI将如何影响
经济格局,写了一篇关于它的研究论文,然后将其输入到谷歌的notebook LM中,并让他们将其转换成播客。这就是我那天发布的内容,作为一个实验,它进展得相当不错。这是一个很可爱的想法。所以我认为我不会太频繁地回到这个方法。当我考虑AI每日简报未来可能出现的自动化时,我认为,你知道,可能不会在我的节目中,因为我的节目很大一部分是我隐含地添加的上下文。但是,你知道,新闻报道
播客将很容易从策划它们的自动化提要中转换,然后将其转换成一个被推送出去的播客,你知道。这是一个非常非常简单的步骤集,你知道,每个步骤都需要自己的自动化,但你可以非常有效地做到这一点。是的,绝对的。作为一名长期听众,我可以告诉你,除了信息倾泻之外,添加的个性、添加的视角总是有帮助的。
实际上,我不介意双击deep research,因为我也使用过它,并且取得了积极的结果。但正如你提到的,Twitter氛围测试,很多人似乎不喜欢它。很多人喜欢,但它是一个中间值。
你使用它的经验如何?你认为这是朝着正确方向迈出的一步吗?甚至只是像长期运行的AI流程一样,你认为那是未来吗?是的,我认为它肯定是未来的一部分。我认为,我认为我们将不得不进行大量的实验和迭代,以弄清楚这些东西到底是如何工作的。我的感觉是,大多数对deep research有积极体验的人
已经将其用于它非常适合做的特定类型的知识总结,而那些有负面体验的人则开始发现它不太擅长的地方的锯齿状边缘,对吧?所以很明显,例如,无法访问当代期刊是一个巨大的问题,对吧?当涉及到科学或任何需要访问付费期刊的内容时,它确实会限制其成为超级深入和当代的能力。
我发现的另一件事是,当涉及到变化非常快的领域时,存在……
这可能是一个挑战。例如,我做的这个AGI,它大部分都很好。然而,它绝对过度依赖尼克·博斯特罗姆的超级智能作为资源。我认为它有一点说大多数科学家仍然认为AGI还需要十年或二十年的时间,这显然是,你知道,它没有阅读Twitter,让我们这么说吧。所以我认为存在,存在,你知道,我们将弄清楚,
基本上是研究或,你知道,获取大量来源并将它们转换成一个整合的知识库实际上是一个非常多样化的用例。它不是一个用例。它大约有一千个用例嵌入在一个用例类别中,我们需要一些时间来弄清楚这个特定工具实际上擅长哪些部分。到目前为止,我一直很喜欢deep research。我认为它有一些局限性。我认为
奇怪的是,一些局限性是,当它出现幻觉时,很难知道它实际上出现了幻觉。就像在我不是专家的领域一样,它可能会说一些东西,然后引用参考文献。我想,哦,是的,那是真的,因为它读过那篇文章。对吧?所以它更难发现这些幻觉。我觉得幻觉在AI领域仍然是一个问题。我觉得这是我们仍在努力解决的问题。
你认为幻觉有多大问题?这是你看到的企业的主要抱怨吗?实际上,对于企业来说,这比对于消费者来说是一个更大的问题。我认为消费者对他们可以处理的内容有更高的容忍度,特别是如果它是,你知道,deep research的许多用例并不是
它并不是试图获得生产就绪的东西。它试图获得一种能达到80%或90%的东西。对吧?我看到许多人成功使用的一个用例是,基本上为他们的初创公司提供背景市场描述和规模。对吧?他们试图沟通和理解,比如,他们正在构建的东西的总可寻址市场有多大。
而且,你知道,它非常擅长提取许多不同的资源等等等等。但他们永远不会把它交给投资者,至少如果他们真的是一个好的企业家,他们不会把它交给投资者。但这为他们节省了大量时间。就像我说的,它让他们完成了大约80%的工作。
所以对他们来说,他们可能更有能力发现这些幻觉。幻觉成为真正问题的地方是,当人们实际上,你知道,基本上用AI或代理信息源来替换人工信息源时,这实际上依赖于拥有正确的信息。我们合作的一家保险公司,
发现人们对人工代理出错时给予他们信息的容忍度阈值是大约5%的时间,7%的时间,诸如此类。而对于机器人提供这些信息,它只有不到1%,对吧?人们期望它是绝对完美的。
在某些情况下,如果你处于某种,你知道,高度管制的行业,那么障碍会更高,因为如果你给出错误的建议,你知道,如果你考虑医药、保险,我的意思是任何类似的东西,那么门槛就非常高。所以幻觉是那些奇怪的事情之一,当涉及到消费者时,它通常只是有点滑稽和愚蠢,但对于某些用例在多大程度上能够部署和投入生产来说,这是一个主要的障碍。是的。
绝对的。我试图教人们将其视为维基百科。用它来开始,但它不是你可以作为参考文献放在你的论文中的东西。关于幻觉,很多人试图通过评估来解决这个问题,或者只是构建足够强大的评估集,以便能够减轻幻觉的一些风险。
你发现企业是否正在实施任何其他类型的策略,或者他们是否甚至在贯彻评估,或者只是将其搁置?商业界的氛围如何?我认为评估实际上仍然被低估了。我认为很多公司都喜欢
他们现在才开始了解他们为了实际实施这些工具而必须做的所有事情。令人沮丧或可能令人沮丧的事情之一是,当你意识到你不能只构建这个东西,你必须构建另一套基础设施来支持这个东西,让这个东西工作。对此往往存在抵制。我的意思是,所有正在构建自定义代理或帮助部署东西的自定义构建商店,
他们总是抱怨如何,你知道,预算在到达评估时就结束了,他们不想将这些付诸实践。所以我认为即使评估在那里。正如你所说,我认为使用它们是完全不同的问题。我认为短期内这将得到解决的方式,这出于多种原因是不错的。
我认为你会看到人工参与的时间比理论上需要的时间长得多,以帮助解决和发现这个问题。我认为人工参与除了仅仅是解决AI的技术问题之外,
我还认为它是一种过渡工具,可以减缓AI可能造成的全部任务和工作替代的速度。对吧?它为,你知道,持续的人工参与创造了一种机制,即使是在高度自动化的领域。
这并没有解决工作替代等所有问题。但我认为,即使超过必要的程度,我们也会过度关注这些事情,因为社会将不得不找到方法来减缓AI在替代方面可能做的事情。是的,很有道理。我确实同意评估被严重低估的观点。对我来说,令人惊讶的是,即使是
初创公司也没有使用很多评估。我觉得可能不到10%的初创公司使用真正的评估套件。这让我想到我的下一个问题,即当企业试图实施AI时,你最常看到哪些错误?显然,你知道,有幻觉,也许是过度工程,但我很好奇什么
当企业试图实施代理时,你看到的首要错误是什么?有很多事情。所以,如果你看看公司现在将什么视为他们面临的最大挑战,从广义上讲,往往会出现三个挑战:一是数据准备以及这意味着什么复杂的事情,你知道,比如,他们的数据是否都在同一个地方?它是否准备好使用了?这是一个巨大的行业,仅仅处理这个问题。
第二个是与隐私、网络安全相关的所有问题,所有这些问题。第三个是员工的采用和利用。通常情况下,大致是这样的顺序。你经常看到的是
你知道,X公司将拥有10,000个Microsoft Copilot订阅,但是,你知道,只有33%的订阅正在使用,诸如此类。而且根本没有真正的支持基础设施。没有围绕这种利用的支持基础设施。
围绕这种利用的支持基础设施。我认为这是一个市场差距,非常,你知道,正在开始被填补。我的意思是,这正是Super所处的领域,显然。但它只需要,你知道,需要更多的人在这个领域构建更多的东西,以支持,你知道,采用和实施。这是一个很大的挑战。我认为当涉及到代理时,我们将看到某种,我们将看到期望的不匹配。我认为人们将试图
试图,或者他们会想象他们可以做比他们一开始能做的更多的事情。我认为,你知道,他们会试图,你知道,从一开始就创建这些非常复杂的系统,而这些系统并不能完全正常工作。是的,我可能还能想到更多。我不介意深入探讨一下安全方面的问题。我们熟悉一个开源项目,一个代码网关,它充当本地代理,你的LLM请求通过它进行路由,以便它可以删除PII之类的东西。
但它似乎才刚刚开始。你是否有任何工具或建议可以提供给那些担心安全问题并将LLM引入其工作流程的公司?我认为我会。
在任何时候,当任何人在收听这个节目时,我认为非常值得去尝试审核一下该领域有哪些工具可用,因为这显然是一个如此巨大的问题,现在已经有初创公司了,三个月后将会有更多初创公司,六个月后将会有更多初创公司。他们都将采用不同的方法或略微不同的方法来解决这个问题。
有一个完整的,我的意思是,一个完整的可用支持选项范围,只要人们现在想要解决这个问题。比如,有些公司会进场在本地构建东西。我的意思是,有很多选择。我认为发生在这种技术转变中有趣的一点,这在以前的时代可能并没有以同样的方式发生,那就是
公司比过去构建的东西多得多,而不是购买现成的产品。Menlo做了一项研究,他们的企业采用研究。在23年和24年之间,构建与购买的比率发生了巨大的变化。所以在23年,它大约是80%购买,20%构建。然后去年是……
最初来自Tool Use播客的讨论。查看完整剧集:https://www.youtube.com/watch?v=-fDu52FzmJc // https://podcasts.apple.com/ca/podcast/will-ai-agents-be-your-automation-breakthrough-ft-nlw/id1773693853?i=1000693646455由以下机构提供:KPMG – 请访问 www.kpmg.us/ai 了解更多关于KPMG如何帮助您利用我们的AI解决方案创造价值的信息。Vanta - 简化合规性 - https://vanta.com/nlw来自Superintelligent的代理准备情况审核 - 请访问https://besuper.ai/ 以请求您公司的代理准备情况评分。AI每日简报帮助您了解AI中最重要的新闻和讨论。在您收听的任何地方订阅AI每日简报的播客版本:https://pod.link/1680633614订阅时事通讯:https://aidailybrief.beehiiv.com/加入我们的Discord:https://bit.ly/aibreakdown </context> <raw_text>0 53乘47构建。所以,我的意思是,巨大的,巨大的转变。现在,我认为这种回旋镖又回来了。我认为这反映的是垂直化解决方案和垂直化代理尚未准备好进入黄金时期。因此,那些处于这些垂直领域或正在考虑这些职能的企业
看到了机会,竞相构建它,因为他们可以使用所有这些框架。但我认为自然会发生的事情是,获胜者将在他们开始构建的类别中出现,然后他们会自然地转向任何类型的市场领导者。
但这确实创造了整个有趣的动态。正因为如此,我认为人们更有胆量解决其中一些问题的一种方式是,如果他们无法使用第三方供应商提供的可用安全配置文件来实现目标,那么与过去相比,现在有更多选择可以访问某种自行开发的解决方案,该解决方案具有您可以拥有的最高级别的安全性。 </raw_text>