We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
N
Nufar Gaspar
英特尔设计部门的 AI 无处不在和通用 AI 总监,专注于推动 AI 技术在企业中的应用和发展。
Topics
Nufar Gaspar: 新的认知架构将使构建更好、更安全的AI智能体成为可能。现有智能体存在通用性和约束性不足的问题,导致性能不可靠。新的架构通过提供防护措施和框架来控制智能体,从而提高其可靠性和效率。 开发智能体需要专门的工具和框架,以简化开发流程,提高可靠性,并实现智能体之间的协调。重点领域包括应用开发框架、可观察性和测试工具。企业需要根据自身需求选择合适的工具和人才。 多智能体系统将变得越来越普遍,因为多个智能体协同工作可以提高效率和结果准确性。多智能体系统类似于跨职能项目团队,每个智能体承担特定角色。 智能体需要具备多模态能力,才能更好地感知和理解环境,例如处理视频、音频和图像。Google的Project Astra就是一个很好的例子。多模态能力将为残疾人士和企业带来更多可能性。 学术界和开源社区对智能体研究的投入将加速其发展。大量人才的涌入将推动智能体技术快速发展,并带来更多令人兴奋的应用。 新的接口、标准和协议将出现,以支持智能体与计算机以及彼此之间的交互。这将涉及到新的API和协议,以及更严格的沟通方式。 需要针对智能体开发新的基准测试方法,以更全面地评估其性能。现有的LLM评估方法不适用于智能体,新的基准测试需要考虑多步骤推理和开放式思维等因素。 将出现专门为智能体设计的LLM,以更好地支持其自主活动。这些LLM可能在通用基准测试中表现不佳,但它们更适合智能体的特定需求,例如多步骤推理、长期记忆和上下文保留。 风险投资将大量涌入智能体公司,这将导致大量新公司的出现,以及现有公司对智能体产品的投资和转型。 夏季媒体将出现关于智能体是否被过度炒作的辩论。媒体的炒作可能会夸大智能体的能力,但智能体技术的价值仍然存在。 智能体将与AGI讨论交织在一起,并加速AGI的发展。OpenAI的O3模型在ARC基准测试中超越了人类水平,这将引发关于AGI是否已经到来的讨论。 2026年将比2025年对智能体来说更重要。2025年将是智能体技术发展的关键一年,而2026年及以后的几年将是智能体技术真正发挥其巨大潜力的时期。 NLW

Deep Dive

Key Insights

What are cognitive architectures in the context of AI agents?

Cognitive architectures are blueprints for building intelligent and autonomous systems, essentially designing the 'minds' of AI agents. They provide guardrails or frameworks to control agents, improving their memory and capabilities, and preventing them from becoming too general or unreliable.

Why are multi-agent systems expected to grow in 2025?

Multi-agent systems involve several AI agents working together, each with a specific role, similar to a cross-functional project team. They are expected to grow because they can handle more complex tasks and deliver better results by combining specialized agents, making them more practical and scalable for enterprises.

What is the significance of multimodal abilities in AI agents?

Multimodal abilities allow AI agents to perceive and interact with their environment using multiple senses like video, audio, and images. This enhances their ability to perform tasks more like humans, opening up new use cases, especially for accessibility and enterprise assistance.

How will agent-oriented LLMs differ from traditional LLMs?

Agent-oriented LLMs will be purpose-built for autonomous activities, prioritizing multi-step reasoning, long-term memory, and context retention. Unlike traditional LLMs designed for broad tasks, these models will be tailored to enhance agent performance, potentially using a mix of models for different tasks within an agent.

What is the predicted impact of agents on AGI discussions in 2025?

Agents will accelerate AGI discussions as they demonstrate increasingly autonomous behavior, especially when using advanced models like OpenAI's O3, which has surpassed human benchmarks in certain tasks. However, 2025 is not expected to be the year of AGI, but agents will blur the lines and reignite debates about AI's human-like capabilities.

Why is 2026 expected to be even bigger for AI agents than 2025?

2026 is expected to be a pivotal year as enterprises will likely deploy agents at scale, integrating them into their workforce. The learnings and developments from 2025 will set the stage for broader adoption, leading to significant advancements in how work and life are transformed by AI agents.

Shownotes Transcript

PART 2: Agents are the most important trend in AI heading into the new year. NLW is joined by Nufar Gaspar to count down 25 predictions for AI agents in 2025. Nufar Gaspar is a seasoned AI expert and leader with vast experience in incubating and growing AI products, verticals and communities. She is the Director of AI Everywhere and Gen AI for Intel Design, and consults and trains organizations and teams on the usage of AI and building AI products and companies. Brought to you by: Vanta - Simplify compliance - ⁠⁠⁠⁠⁠⁠⁠https://vanta.com/nlw The AI Daily Brief helps you understand the most important news and discussions in AI. Subscribe to the podcast version of The AI Daily Brief wherever you listen: https://pod.link/1680633614 Subscribe to the newsletter: https://aidailybrief.beehiiv.com/ Join our Discord: https://bit.ly/aibreakdown

</context> <raw_text>0 今天在AI每日简报中,我们将带来2025年25个智能体预测的第二部分。AI每日简报是一个关于AI最重要新闻和讨论的每日播客和视频。要加入讨论,请关注我们节目说明中的Discord链接。

大家好。我们又回到了2025年25个智能体预测的第二部分。你并不一定要先听第一部分。但是,我建议你这么做。我们再次邀请到了Nufar Gaspar,英特尔设计部门AI无处不在和生成式AI的总监。Nufar带来了一个内部构建AI产品的视角,帮助更广泛的AI转型,并且一直都在专业和个人层面思考这些问题。

在第二部分,我们将讨论技术和金融趋势,并以对未来发展方向的宏伟愿景作为结尾。

好的,我们再次回到关于2025年AI智能体25个预测的对话第二部分。我们在第一部分已经讨论了很多事情,奠定了许多基础。现在我们将深入探讨一些更具体、更具体的技术预测。从第14个预测开始,新的定制认知架构将使智能体更强大、更安全。

你这是什么意思?是的,让我们首先定义什么是认知架构。它基本上是一个花哨的术语,指的是构建智能自主系统的蓝图或构建蓝图的蓝图。

你可以把它想象成设计智能体的“大脑”。所以,你们中有些人可能在一年前就听说过智能体,当时AutoGPT和BabyAGI是每个人都在讨论的工具,但它们从未真正流行起来。原因是它们过于通用且不受约束,因此性能不可靠。

而最新一代的智能体,许多个人和公司也引入了新的定制认知架构。这些架构提供了许多护栏,有时也被称为支架和框架,用于控制这些智能体。因此,凭借改进的内存和改进的功能,这些架构使智能体更专注于它们试图做的事情,并防止它们偏离轨道。

由于它们在2024年通过弥合过于松散与获得实际结果之间的差距而取得了成功,因此有许多实验室和公司正在努力进一步改进它们。这很可能在2025年继续下去,我们将获得更好的结果。

我实际上想谈谈你的第15个预测,因为我认为它与之相关,我们可以讨论一下。开发用于智能体开发和管理的新工具、框架和约定。

对。所以,到目前为止,我们经常使用相同的工具来处理新技术。随着智能体的兴起,我们需要更多专门用于智能体开发的工具。它们应该明确地设计用于构建智能体,以便简化和加快构建这些智能体的过程。

一些重点领域将集中在应用程序开发上,因此我们肯定将看到越来越多的框架。我们已经拥有Landgraph和其他开源功能,但越来越多的库和框架可能会出现,以帮助开发人员构建这些智能体的后端或骨干。

为了使它们更可靠,并协调同一系统内的智能体之间或协调相互通信的智能体之间的关系。我们将在接下来的预测中详细讨论。在我看来,另一个将重点关注的领域是可观察性和测试这些智能体的能力。它们将帮助开发人员对他们正在构建的内容更有信心,或者调试他们的智能体。

预测需要改进的任何事情,以及目前不可预测的成本。每当我们想要真正理解、管理或向客户提供关于智能体实际做了什么的可见性时,这些可观察性将作为我们将拥有的开发构建块的一部分变得更加关键。

所以,我猜想我们很多来自企业或商业领域的听众,你刚才说的很多话对他们来说就像天书一样。你认为,那些正在考虑探索智能体和试点智能体的公司,为他们的公司、他们的企业,需要理解多少这些内容?

好吧,当然,我有点偏见,因为在我的整个职业生涯中,我一直都在这些构建AI能力的“希腊人”中间。所以我一直在思考这些事情。

而且我认为,对于那些想要拥有定制功能的组织来说,因为即使是提高一小部分百分比的成果也会对最终结果产生影响,他们肯定会有专门构建或利用AI的团队,他们需要理解,因为他们所处的位置并非为了争取80%。他们正在争取额外的20%。

因此,如果你的公司利用AI来创造非常独特的竞争优势,你可能需要拥有了解这一点的人。对于智能体的早期阶段,你可能能够利用现成的功能,而无需深入研究这个具体的领域。我认为一些听众,即使他们目前还没有达到这个阶段,他们最终也可能希望达到这个阶段,

也许在2025年晚些时候或以后的几年。是的,这就是我的看法。我认为明年会有很多东西可以用来试验,这些东西非常简单易用。将会有一些……

事实上,你所看到的,我们看到很多智能体公司都在做前沿部署工程师的事情,他们实际上是在公司内部嵌入一个开发人员,以帮助为他们的特定数据集和特定环境定制智能体。Sierra正在这样做,其他公司也在这样做。因此,我认为对于这些最初的试点和部署,将会有很多支持。

所以我认为,对这些内容缺乏理解不应该是深入研究的先决条件。但是,我还认为,如果对这些主题,特别是评估能力有一定的机构理解。

或者至少有合适的支持来弄清楚并评估正在测试或部署的当前智能体相对于正在上线的新功能以及未来可能发生的事情的位置,组织将能够做出更好的战略决策。我认为挑战在于,

这将是一个如此快速发展的解决方案领域,它不会像我们试点了一个智能体,我们喜欢它那样干净利落。因此,我们部署了它,然后很酷,我们已经弄清楚了我们的智能体。这很可能是一个不断重新解释和重试事情的过程,因为能力会不断提高。

而这种竞争,你知道,扩展了可能的界限。因此,建立一个能够更深入地理解这一点的学习型组织将非常、非常重要。是的。即使你只是购买,定义供应商正确需求的能力也可能至少让你在某种程度上能够做到言行一致。好的,第16个预测,多智能体系统的数量和实用性增长。好的。

好的,这是一个令人兴奋的预测。同样,你不必害怕技术方面,只是一个对多智能体系统的简短解释。这些系统中,我们有几个AI智能体一起工作以实现一个目标。

通常每个智能体都有一个特定的角色。它们通常就像一个跨职能项目团队。这是最好的类比。在许多情况下,构建这些智能体的人会真正赋予每个智能体一个听起来像职位的头衔。

如果你想要一个具体的编码任务示例,你可能会有一个智能体编写代码,另一个智能体测试代码,另一个智能体调试代码,等等。最终,如果构建得当,通过让一组定义明确的AI智能体一起工作,整体代码功能甚至可以更好。但是……

构建多智能体系统并不容易,因为在这里你必须真正了解智能体。或者,如果你将使用能够使你能够构建多智能体系统的框架或其他功能,它将变得更加普遍

可能在2025年及以后。由于与实际团队工作的类比,并且由于我们已经看到多智能体系统的一些非常有希望的结果,因此行业信心将增强,我们将在2025年看到越来越多的多智能体系统。这是一个非常有趣的领域。

如果尘埃落定,我不会感到惊讶,只有当多智能体系统成为常态时,企业才会真正开始看到价值,或者至少是可扩展的大规模价值。原因是,如果现在我们正在询问,我们有某种

智能体的专业化程度与其执行的可能性之间的相关性,但这使得它成为一组非常有限的任务,你可以立即部署这些任务。呃,

多智能体系统将使你能够获得更多可定制性,并且你可以要求更复杂的事情。所以我认为,当人们真正想象他们心中所有智能体可以做的事情时,他们可能在许多情况下实际上是在想象多智能体系统,即使这未必是我们开始这一年的地方。是的。

而且,就像人类一样,如果你试图让一个智能体同时做太多事情,它会感到困惑。因此,即使对于有时较小的用例,如果我们能够完成它们,它们也可能会让我们获得更好、更准确的结果。好的,第17个预测,更多关注智能体的多模态能力。

好的,在我看来,这也是一个非常令人兴奋的预测,因为当我们谈论AI智能体时,我们谈论的是必须执行任务并具有几乎像人类一样良好的感知和理解能力的事物。为了做到这一点,我们将不得不使这些智能体能够对环境进行多模式感知,无论它们是处理视频、音频、图像,

无论它们是否能够控制计算机等等。所有这些都构成了非常令人兴奋的事情。我最近看到的最令人兴奋的事情是谷歌的Project Astra。我看到了一些演示和一些使用者的证词,这是一个很好的例子,它展示了一个能够使用视频感知环境、与你互动并真正成为你在真实环境中的眼睛和耳朵的模型。

我认为更令人兴奋的是,残疾人能够让这些智能体为他们工作。我知道我们非常关注企业,但这正是我非常兴奋的一个消费者用例。即使对于企业,你也可以想象拥有一个更强大的助手,它拥有所有这些同时工作的传感器来帮助你。是的,我认为……

这是我真正注意到的领域之一。即使在过去的几周里,我们也获得了Project Astra的更新,并且作为OpenAI的12天Shipmas活动的一部分,我们还获得了具有视觉功能的高级语音模式。我认为我们仍然低估了当我们与AI交互的正常方式时,模态将会有多么不同,它是否拥有与我们相同的视觉和听觉环境

对于我们周围的世界。我认为,对于大多数人,包括我自己在内,都很难摆脱将其视为存在于你写入或可能与之交谈的计算机中的事物的想法。但我认为,随着时间的推移,我们将看到一个逐渐的转变,这不仅会开启全新的用例,而且我认为还会对这些工具实际上为我们做了什么产生相当根本的不同理解。

好的,第18个预测,将有更多学术界和开源力量致力于智能体研究,这应该会进一步加速发展。对。我在之前的谈话中提到过这一点,但我已经在AI领域工作多年了,我仍然对过去两年发生的事情感到惊讶。

我认为,除了某些具体的技术改进之外,创造所有这些能力的原因是,全世界如此多聪明的人都在关注一个领域或一个问题。我相信智能体也会享受到同样的待遇,会有如此多的炒作和关注。我们将能够获得更多。

随着来自各个方向的大量脑力,无论是开源、学术界还是工业界,指数曲线将继续下去,我们所有人可能都会因为所有这些而感到兴奋、害怕和更多地利用所有这些技术。

你知道,这有点讽刺,但很有趣。我实际上认为,预训练作为一种扩展方法似乎正在停滞不前,或者至少遇到了一些限制,这只会增加有多少能量和脑力会转向智能体、应用程序和表达,而不是仅仅考虑底层LLM的原始能力增强。

这很有趣。所以在Dwarkesh的播客上,我不知道,是在一段时间以前,也许是三个月、六个月,或者类似的时间,Francois Chalet基本上说他认为OpenAI实际上已经阻碍了AGI,这太吸引人了。他的论点是,一旦ChatGPT出现,每个人都开始思考和关注LLM架构,而没有做其他任何事情。

现在我们正在遇到一些限制,无法获得下一级别的能力,尽管谁知道这是否真的考虑到O3,我认为在从我们拥有的工具中提取能力的不同方法上,将会有更多更有成效的实验领域。是的,但我不知道这是否是减速还是向推理时间推理的自然发展。是的。

愤世嫉俗者会说,因为他们无法在扩展方面给我们足够好的结果,所以大型科技公司都转向了智能体。但我不知道。也许是因为像你和我一样,我们看到了智能体的潜力。这就是为什么他们如此兴奋并投入如此多的精力。也许他们为我们安装了一些好东西,让我们称之为常规LLM。

因为他们都在声称,也许除了Ilya Suskaber之外,他们都在声称我们还没有完全扩展到那里,就像减速一样。所以这似乎也是一个市场讨论,而不仅仅是技术讨论。是的,我同意。说到这一点,第19个预测,新的接口、标准和协议将出现。一种智能体计算机接口。是的。

对。所以,当Entropic首次推出计算机使用时,我们都很兴奋。每个人都蜂拥而至地进行实验,这听起来确实像是某种重大事情的真正开始。然后每个人都很快意识到,它更加繁琐、昂贵且不够准确。

我不确定这是否是正确的方法。例如,我们是否希望智能体像人类一样控制计算机?或者事实上,由于智能体将在计算机上完成如此多的工作,因此需要一个新的接口来让这些智能体控制计算机。

此外,由于将有如此多的智能体一起工作,因此需要新的API和新的协议来规定智能体之间如何通信,以及可能更字面地描述我们如何编写内容,因为智能体不像人类那样能够理解弦外之音。

也许你的错误消息必须是机器可读的,而不是人类可读的,还有很多其他事情。我相信这也将是一个巨大的重点。有趣的部分将是所有这些不同的参与者是否能够达成一致,或者我们将达到一个点,每个人都用不同的协议相互阻碍,而不是开放式地让其他公司的智能体在你的数据上运行。我不确定是否……

所有这些网站都允许智能体调用并在其上执行操作?或者我们将看到一种相互封锁的经济,本质上它们告诉最终用户,如果你想执行此操作,你必须使用我们的智能体,因为我们将阻止你的智能体在我们数据或工具上执行该操作?我猜想它的发展方式与大多数……

这个版本的类似,即最初的分裂和试图获取最终会输给作为基础的开放协议和标准的价值,因为如果它与互联网在其他领域的发展方式类似,那么效率太高了。我绝对认为,未来几年的一个重要部分将是发生这种下层战斗。

为了我们所有人的利益,让我们希望开放式方法能够获胜,因为在我看来,这将是一个更好的经济体。第20个预测,大量投资用于创建面向智能体的基准测试。好的。

那么,你如何衡量智能体的性能?只有当它到达最终目的地时吗?有时我们甚至不知道最终目的地,因此很难衡量这一点。我们已经看到一些最近出现的基准测试试图更开放地对待智能体,并试图……

提出一些评估问题,这些问题需要智能体进行多步骤推理和开放式思考。两个具体的例子是SWE(软件工程基准测试),它试图让智能体或AI执行多个类似人类的软件工程任务,并衡量它们在此方面的执行情况。还有一个有趣的关于研究工程的基准测试,其中智能体需要……

执行人类专家会执行的AI研究。所以这两个都是正在出现的有趣的基准测试。我相信我们将看到越来越多这样的基准测试,因为评估DLLM的现有方法不适用于智能体。它们通常关注最终结果,并且并不能真正说明智能体的执行情况,特别是如果你想打开黑盒并查看智能体为了获得结果而执行的多个推理步骤。

因此,我们将看到更多这样的基准测试,这是理所当然的,因为正如我们之前所讨论的,将会有如此多的竞争产品。除了可能自己进行实验之外,如果我们只使用现有的基准测试,将很难评估它们的执行情况。是的,我完全同意这一点。我认为将需要一套高度实用的基准测试。再次,仅仅从企业的角度考虑。因此,当我们考虑如何推荐时……

智能体X与智能体Y用于我们已与企业确定的某个特定目的,这是一个开始实验的好地方。对我们来说,了解哪些类型的事情是有价值的,正是你刚才提到的那些目前没有基准测试的事情。例如,呃,

在完成手头任务的过程中,智能体需要多少次人类的指导?一次与五次大相径庭。基于这个分数,价值主张完全不同。无论这个分数叫什么,都是我想看到的与围绕智能体做出决策相关的分数。

所以我认为你是对的,这里将会有很多探索。这不仅仅是纯粹的技术基准测试。我认为这些将具有高度的功能性,并且也与实际使用相关。是的,当然。第21个预测,面向智能体的LLM的出现将作为底层模型。

对。同样,也许有点争议,但这是我的观点,随意发表你的看法。但我相信,与非常适合广泛的自然语言任务或有时是图像视频等的传统LLM不同,更面向智能体的LLM将更专门用于为智能体需要执行的那些自主活动提供动力。

而且,你知道,OpenAI的01,现在是03等等。它们是朝着拥有更适合智能体推理的LLM迈出的良好一步。我们可以而且很可能也会看到更多此类模型的创建和使用,一些具体的解释。

它们在通用基准测试中可能并不更好,因为它们不必在所有方面都像我们对现有OpenAI和其他模型进行基准测试那样聪明,但我们希望它们更适合智能体。因此,也许它们会优先考虑多步骤推理。也许它们会优先考虑长期记忆,或者也许它们会在保留良好的上下文方面非常聪明,

或者使智能体在规划和决策方式上更周到。当我们看到这些LLM专业化时,我们甚至可能会看到混合匹配,即使是一个单一的智能体也会为执行其任务的不同步骤使用不同的模型。因此,它可能会使用O3模型进行初始规划,然后它会使用较小的模型来

作为整体流程的一部分执行其正在进行的任务。我相信最终我们将看到一种非常混合的方法,其中使用的一些模型更小、更便宜、更快。其中一些更聪明,最好的工程实践将围绕寻找合适的模型和使用那些可能更适合的模型

即使不仅仅是整体智能体概念,甚至是你特定的垂直领域,我们甚至可能会看到这些模型出现。

是的。我没有太多要补充的。我认为这绝对会发生。我认为,我们对获得更好性能的了解越多,我认为,而且我认为,如果没有什么比这更重要的,那么这样做会有成本激励,对吧?事实上,最先进的智能仍然非常昂贵,这意味着

有很多理由尝试从其他模型和其他方法中获得更多价值。所以我认为我们将看到大量这种定制。

Vanta为ISO 27001、SOC 2、GDPR和领先的AI框架(如ISO 42001和NIST AI风险管理框架)自动化合规性,为您节省时间和金钱,同时帮助您建立客户信任。此外,您可以通过自动化问卷调查并使用面向客户的信任中心展示您的安全态势来简化安全审查,所有这些都由Vanta AI提供支持。

超过8000家全球公司(如Langchain、Leela AI和Factory AI)使用Vanta来展示AI信任并实时证明安全性。了解更多信息,请访问vanta.com/nlw。网址是vanta.com/nlw。

如果2025年AI有一件事是明确的,那就是智能体即将到来。按行业划分的垂直智能体、水平智能体平台、按功能划分的智能体。如果你经营一家大型企业,你明年将要尝试智能体。鉴于这是多么新颖的事情,我们所有人都会回到试点模式。

这就是为什么Superintelligent正在为今年年初提供一项新产品。这是一项智能体准备情况和机会审核。在短短几周内,我们将与你的团队一起深入了解哪些类型的智能体适合你进行测试,你需要哪些类型的基础设施支持才能做好准备,并最终获得一套可操作的建议,这些建议可以帮助你做好准备,了解智能体如何改变你的业务。如果

如果你对智能体准备情况和机会审核感兴趣,请直接联系我,[email protected]。在主题行中输入“智能体”一词,以便我知道你在谈论什么。让我们让你成为AI市场最具活力部分的领导者。好的。现在我们进入最后一部分,投资和媒体炒作。第22个预测,这可能是你最安全的预测。大量风险投资资金将投资于面向智能体的公司。

是的,所以可能每个想要一些资金或好好照顾其股票的人都必须说“智能体”。这也可以成为一个有趣的喝酒游戏。每次财报电话会议,每个CEO会说多少次“智能体”。

你在之前的谈话中提到Y Combinator团队说垂直智能体将比SaaS大10倍。这引起了很多关注,我们知道其他风险投资公司也已经加入了这一技术潮流。这肯定会在2025年继续下去,因此将会有许多新成立的公司。

初创公司和公司,但也将有许多公司增加智能体产品或转向智能体产品。其中一些是理所当然的,一些是自然演变和进步的结果,可能不会将它们载入史册,因为这些公司并没有从这些产品中获得很多价值。我认为这是绝对正确的。这已经发生了。当然,你知道,这最近一直是风险投资的一个主要主题。

我认为有两件事值得关注,这些事情应该告诉我们这是如何发展的。一个是,正是你刚才提到的,在财报电话会议等场合中,AI在多大程度上被智能体提及所取代或补充。这将非常具有启示意义。嗯,但是二,一,

我认为将会发生的一件事是,许多公司和初创公司并非为了资金,而是因为他们意识到智能体可以为他们做一些独特的事情,而意外地开始在现有产品之上、作为现有产品的一部分或作为现有产品的替代品来构建智能体。我们经历过这个过程。因此,Superintelligent提供AI支持启用应用程序

作为一个团队,作为一个自助服务平台,现在越来越多地作为一个智能体产品。这并不是追逐金钱的事情。这是因为我们意识到我们可以用智能体来扩展自己,而这是我们以前无法做到的。我认为许多公司明年将偶然进行实验,其中使用智能体进行构建实际上会解锁他们以前从未见过的全新可能性。因此,这可能是那些罕见的经历之一

风险投资主题,那里有足够的东西来证明所有兴奋和涌入的资本是合理的。是的,我相信有,但你必须对你在构建什么以及出于什么原因保持谨慎。是的。

是的,我认为我更倾向于与投资者交谈。我认为,当涉及到建设者时,对我来说的提醒是,仅仅追逐趋势和风险投资公司正在寻找的东西,而不是为你要构建的任何公司和你要解决的任何问题做出正确的决定,这通常,如果不是总是的话,都是一个糟糕的选择。但是,我想说我会警告不要

明确地不去关注代理,因为你认为它被过度炒作,只是一种风投行为。我认为在构建方面会有很多机会,这些机会将非常有趣且有意义。

当然,直到夏天,因为第23点,到夏天,媒体将就代理是否被过度炒作以及发展是否正在放缓展开辩论。所以,你知道,现有的挑战可能无法解决。在我们这两集的讨论中,我们提到了其中的许多挑战。但新的挑战可能会出现,现实将与目前可能被过度炒作和夸大的媒体预期相符。

幸运的是,媒体也可能会在夏季新闻周期减弱时,承担起打破泡沫的责任,告诉我们代理大多是被炒作的,并没有兑现承诺。而且

我们预测到秋天,我们将面对现实,至少在我看来,现实是代理将继续产生很多价值。这里最重要的是,从我的角度来看,是

虽然新闻周期会来来去去,我们会看到很多标题说代理并非他们承诺的那样,但它们将会是。唯一的警告可能是,这可能比预期的要花更长的时间,也可能比预期的要困难一些,但价值是存在的,并将继续存在,至少在我看来是这样。是的。所以在2023年夏天,这个版本的

ChatGPT在2023年6月经历了第一个下滑月。这是所有这些内容的背景。当然,今年是高盛的“钱太多,价值太少”,以及红杉资本的6000亿美元问题帖子,引发了整个讨论。因此,似乎确实存在一个趋势,即夏季会围绕人工智能产生一种FUD周期。是的。

有趣的是,当这种情况发生时,部分原因是它会特别有趣,因为

自从ChatGPT发布以来,代理实际上一直是最受炒作的事情。如果你回到2023年4月,当时AI每日简报才刚刚开始,每个人都在谈论的是AutoGPT和BabyGPT等等,你知道,从那时起就是代理。所以看到我们实际上拥有一组可能非常具体的、你知道的、某种单一用途的代理被部署,将会非常有趣。然而,你知道,

叙述可能是令人失望的。但我同意这种反炒作周期发生的可能性,以及最终它是不正确的现实。是的,让我们在到达那里后播放这段录音,以证明我们预测到了这一点。第24点,代理将交织在一起并加速AGI的讨论。

好的,当我创建这个预测时,是在上周,OpenAI的最后一天,为期12天的Shipmas之前。对于那些可能已经进入假期休眠状态的人来说,OpenAI在上周宣布O3模型时,再次震惊了Asiet,因为他们说它在ARC基准测试中超过了人类水平。

ARC基准测试是一个专门为评估AI系统泛化和解决问题的能力而创建的基准测试,以证明其具有AGI的价值。直到上周,表现最好的模型还非常低,我认为是20多岁或30多岁,我不记得具体数字了,但OpenAI的O3模型已经超过了人类的能力。

我认为更重要的是,关于我们是否已经到达那里的讨论将在2025年初重新燃起。而且,你知道,随着所有这些代理的讨论,我们需要问问自己,它们之间的关系是什么?因为如果代理表现出越来越强的兴趣

自主行为,并且它们在后台使用O3,O3已经在AGI中超过了一些人类基准,那么界限将变得非常模糊,关于我们是否已经达到AGI的争论可能会进一步进行?我认为在这一年里,随着我们看到越来越多的令人印象深刻的代理用例实现,其中一些讨论甚至可能具有相关性。

然而,我必须首先说,最重要的是,我认为2025年不会是AGI之年,即使有代理和所有这些交织在一起的关系。而且我认为这并不重要。我认为,就像我之前说的那样,重要的是结果或成果。

代理将在2025年产生良好的结果,并且在许多不同任务中具有类似人类能力的巨大潜力,但我不知道这是否会产生那么大的影响,或者除了那些有动机说AGI已经到来的金融公司和特定公司之外,它是否重要。绝对地。我认为AGI最终重要的是它是否可以部署

来改变事情的实际发生方式,对吧?所以我认为这就是它会被卷入或与代理对话联系起来的原因,因为代理将成为下一代最先进技术部署的许多地方,涉及到人工智能。

就其价值而言,弗朗索瓦·沙莱再次担任ARC奖的创建者,ARC奖的创始人,他在推特上谈到这是否意味着O3是AGI。他说的是,虽然新模型非常令人印象深刻,并且代表了

朝着AGI迈进的一个重要里程碑。我不认为这是AGI。O3仍然无法解决相当数量非常简单的Arc AGI 1任务,而且我们有早期迹象表明,Arc AGI 2对于O3来说仍然极具挑战性。这表明,创建未饱和的、有趣的基准仍然是可行的,这些基准对人类来说很容易,但对于不涉及专业知识的人工智能来说却是不可能的。

当创建此类评估变得完全不可能时,我们将拥有AGI。因此,即使现在正在进行大量的讨论,至少该特定基准背后的家伙并不认为我们已经到达那里。但我确实认为你指出的是正确的。当然,这是过去几天里大家都在讨论的大事。我们在12月23日星期一录制这段内容,这几乎是周末每个人都在谈论的事情。但实际上,当事情来临时,你会看到这种情况在Twitter/X上反复发生。

你知道,有人会开始一场关于这是否是AGI的辩论,然后它会很快变成,好吧,这并不那么重要。更重要的是,你知道,这是否意味着软件开发人员完蛋了?这是否意味着,你知道,不同的工作角色将完全改变?所以我认为这将完全取决于真正重要的实践。同样,这就是为什么,你知道,代理将成为故事中如此重要的一部分的原因。然而,

根据第25点,故事的另一部分将在稍后出现。因此,对于代理来说,2026年将比2025年更大。

对。所以我认为在这次谈话中多次提到,这就是我们将看到指数开始的地方。当然,如果我们刚才讨论的所有事情都会发生,那么2025年将是令人惊叹的一年,代理和人类的进步将取得巨大飞跃。

但这仅仅是个开始。我相信2026年以及之后几年将是许多这些学习、发展以及我们从中学到的东西的年份,你称之为试点年,或者越来越多的人接触代理的年份。

在这里,我们将实现通用人工智能的巨大承诺。这就是为什么我如此兴奋的原因。你一开始问我为什么我对代理如此兴奋。正是2025年、2026年及以后将会发生的事情,将让我们所有人对这个时代之前的学习和生活感到惊叹。

是的,我同意这一点,而且我会更进一步。所以我认为在2026年,企业将,那将是企业有意义地和定期地部署代理的第一年,

只是在他们员工的正常工作流程中,对吧?混合型人机协作将越来越成为常态。不是常态,但越来越正常地看到它作为某些职能的一部分。我认为它最初将高度关注特定职能,但我认为在2026年,在某些职能中大规模部署代理将相当正常。

因此,这意味着你必须利用2025年来弄清楚这些职能是什么,如何将它们与你的系统集成,如何构建你需要的围绕它们的新的系统。这将需要大量的努力和实验。显然,这就是Superintelligent致力于帮助人们做的事情。这就是我们进行这些准备情况审核的原因。这就是我们支持代理部署的原因。这就是我们帮助公司构建持续人工智能转型系统的原因。

2025年将是一个极其重要的拐点之年,这将真正推动企业构建允许他们在2026年及以后利用这一优势的系统。我认为这意味着你将真正开始看到,尤其是在2026年及以后,

那些已经构建了这些系统并具备能力的公司,那些已经经历了人工智能转型并拥有这个系统来继续人工智能转型的公司,将以一种前所未有的方式从群体中脱颖而出。所以我认为这将非常非常令人兴奋。我认为今年,

今年将会非常有趣,因为赌注很高,但仍然有很多空间去做一些行不通的事情,以及,你知道,走一些没有结果的道路。这种情况不会持续太久。这将肯定是一年有趣的一年。