We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
主持人:本周新闻中出现了几个有趣的关于世界模型的例子,例如Fei-Fei Li的World Labs和Google DeepMind发布的关于Genie 2的论文,世界模型不仅因为其强大的功能而有趣,还因为它们可能对我们朝着人工通用智能的进展意味着什么。 Jan LeCun:当前的AI模型,例如大型语言模型,无法像人脑一样真正地记忆、思考、计划和推理,因为它们只是预测下一个token或像素的一维或二维预测器,缺乏对三维世界的理解,而世界模型能够构建对世界的三维理解,并通过预测行动结果来规划行动,从而实现更复杂的任务,但这项技术仍有许多难题需要解决,可能需要十年时间才能实现。 Lawrence Knight:要实现人工通用智能(AGI),AI系统需要学习世界模型,就像具有普遍智能的生物系统一样。目前的AI系统,例如大型语言模型,缺乏对世界的深刻理解和常识性推理能力,而世界模型能够弥补这一缺陷,使AI系统能够更好地理解和预测世界,从而实现更高级别的智能。这需要合适的架构和学习算法、传感器、实体以及积极探索世界的动力。 主持人: 当前AI模型的局限性在于其缺乏对三维世界的理解和常识性推理能力,而世界模型有望通过构建对世界的三维理解和预测行动结果来克服这些局限性,从而实现更复杂的任务。然而,这项技术仍然面临许多挑战,可能需要数年甚至十年的时间才能取得突破。 Jan LeCun: 大型语言模型(LLMs)作为一维或二维预测器,无法理解三维世界,因此无法完成人类轻易完成的简单任务。世界模型作为一种新的AI架构,能够感知周围世界并创建对世界行为的认知模型,从而预测行动结果并规划行动,最终实现更复杂的任务。 Lawrence Knight: 要实现人工通用智能(AGI),AI系统需要学习世界模型,这与具有普遍智能的生物系统学习方式类似。当前的AI系统,例如大型语言模型,缺乏对世界的深刻理解和常识性推理能力,而世界模型能够弥补这一缺陷,使AI系统能够更好地理解和预测世界,从而实现更高级别的智能。这需要合适的架构、学习算法、传感器、实体以及积极探索世界的动力。

Deep Dive

Key Insights

Why are world models considered crucial for the development of AGI?

World models are essential because they allow AI systems to understand and predict the three-dimensional world, enabling tasks like reasoning, planning, and common sense reasoning, which are currently beyond the capabilities of large language models (LLMs).

What are the limitations of current AI systems like LLMs?

LLMs are limited to one-dimensional predictions (text) and lack a deep understanding of the physical world. They struggle with tasks requiring common sense, causal reasoning, and practical application of knowledge, unlike humans who learn these skills quickly through interaction with the environment.

How do world models differ from large language models?

World models are three-dimensional representations of the world that allow AI to predict outcomes of actions and understand cause-and-effect relationships. LLMs, on the other hand, are trained on text data and lack intrinsic understanding of the physical world, relying solely on linguistic patterns.

What is the significance of Fei-Fei Li's World Labs and Google's Genie 2 in the context of world models?

Both World Labs and Google's Genie 2 are pioneering the development of world models, which are seen as a critical step toward achieving AGI. These models promise to unlock significantly smarter AI systems by enabling them to perceive and interact with the physical world more effectively.

What challenges does the development of world models present?

Building world models is computationally intensive and requires solving complex problems related to perception, reasoning, and planning. Additionally, integrating these models into practical AI systems remains a significant technical and engineering challenge.

Why do AI systems need sensors and embodiment to learn world models?

Sensors allow AI systems to perceive the environment, while embodiment enables interaction with the physical world, which is crucial for learning cause-and-effect relationships. Without these, AI systems are limited to passive observation and cannot fully develop a robust world model.

What role does the human brain play in the concept of world models?

The human brain learns world models through sensory-motor learning, where it predicts and observes outcomes of actions. This process is fundamental to developing common sense and understanding the physical world, which AI systems currently lack.

What is the current state of AGI development according to experts?

Experts like Jan LeCun believe AGI is still decades away due to the limitations of current AI systems, which lack a deep understanding of the world. World models are seen as a potential solution but are still in the early stages of development.

How do large language models acquire knowledge?

LLMs acquire knowledge from vast datasets but struggle to update their knowledge easily. They rely on retraining for new information, unlike humans who can assimilate new facts quickly with minimal exposure.

What is the significance of the neocortex in learning world models?

The neocortex is a prediction machine that learns world models through sensory-motor learning. It predicts outcomes of actions and updates its model based on discrepancies between predictions and actual sensory responses, which is key to developing common sense.

Chapters
This chapter explores the concept of world models in AI, referencing Jan LeCun's perspective and the advancements by Meta's FAIR lab. It highlights the limitations of current LLMs and the potential of world models to overcome these, leading to more human-like AI capabilities.
  • Current AI models lack true understanding of the 3D world and common sense reasoning.
  • World models, mimicking human mental models, are proposed as a solution.
  • Meta's FAIR lab is focused on developing objective-driven AI and world models.
  • Significant challenges remain in building functional world models, potentially taking a decade or more.

Shownotes Transcript

World Labs和Google Genie 2在过去一周展示了所谓的“世界模型”的演示。在这一集中,我们探讨这些模型对AGI可能意味着什么。 阅读材料:

https://techcrunch.com/2024/10/16/metas-ai-chief-says-world-models-are-key-to-human-level-ai-but-it-might-be-10-years-out/

Vanta - 简化合规 - ⁠⁠⁠⁠⁠⁠⁠https://vanta.com/nlw

订阅时事通讯:https://aidailybrief.beehiiv.com/ 加入我们的Discord:https://bit.ly/aibreakdown

<raw_text>0 今天的AI Daily Brief中,我们讨论世界模型及其对AGI的意义。AI Daily Brief是一个关于AI领域最重要新闻和讨论的每日播客和视频。要参与讨论,请在我们的节目说明中关注Discord链接。

你好,朋友们。本周我们在新闻中看到了一些有趣的世界模型示例。我们看到Fei-Fei Li的World Labs预览了他们构建的一些东西。然后,我们还看到Google DeepMind发布了关于Genie 2的论文。我之前提到过,世界模型之所以有趣,不仅是因为它们酷炫的能力,还因为它们可能对我们朝着人工通用智能的进展意味着什么。

今天,我们将阅读两篇与此相关的文章。第一篇是来自TechCrunch的文章,关于Meta的AI负责人Jan LeCun,他谈到世界模型如何可能是AI进步的关键。我将把这篇文章交给11 Labs版本的我来阅读,然后我会回来。Meta的AI负责人表示,世界模型是人类水平AI的关键,但这可能需要10年的时间。

今天的AI模型是否真的像人类大脑一样记忆、思考、计划和推理?一些AI实验室会让你相信它们是,但根据Meta首席AI科学家Jan LeCun的说法,答案是否定的。

然而,他认为我们可以在十年左右的时间内通过追求一种称为世界模型的新方法来实现。今年早些时候,OpenAI发布了一项新功能,称为Memory,允许ChatGPT记住你的对话。该初创公司的最新一代模型O1在生成输出时显示出“思考”这个词,OpenAI表示这些模型能够进行复杂的推理。

这一切听起来似乎我们离人工通用智能(AGI)已经很近。然而,在最近一次Hudson论坛的演讲中,Lacan削弱了像前AI创始人Elon Musk和Google DeepMind联合创始人Shane Legg这样的AI乐观主义者的观点,他们认为人类水平的AI就在眼前。“我们需要能够理解世界的机器,能够记住事物的机器,具有直觉、常识的机器,能够像人类一样推理和计划的机器,”Lacan在演讲中说道。

尽管你可能听到一些最热情的人士的说法,但当前的AI系统并不具备这些能力。Lacan表示,今天的大型语言模型(LLMs),如驱动ChatGPT和Meta-AI的模型,距离人类水平的AI还很远。他后来表示,人类可能还需要数年到数十年才能实现这样的目标。不过,这并没有阻止他的老板Mark Zuckerberg询问他AGI何时会发生。

原因很简单。这些LLMs通过预测下一个标记(通常是几个字母或一个短单词)来工作,而今天的图像-视频模型则预测下一个像素。换句话说,语言模型是一维预测器,而AI图像-视频模型是二维预测器。这些模型在各自的维度上变得相当擅长预测,但它们并不真正理解三维世界。因此,现代AI系统无法完成大多数人类能够完成的简单任务。

LeCun指出,人类在10岁时就学会了清理餐桌,17岁时学会了开车,并且通常在几个小时内就能学会。但即使是今天世界上最先进的AI系统,基于数千或数百万小时的数据,也无法可靠地在物理世界中操作。为了实现更复杂的任务,LeCun建议我们需要构建能够感知周围世界的三维模型,并围绕一种新的AI架构类型——世界模型。

世界模型是你对世界行为的心理模型,他解释道。你可以想象你可能采取的一系列行动,而你的世界模型将允许你预测这一系列行动对世界的影响。

考虑一下你自己头脑中的世界模型。例如,想象一下看着一个凌乱的卧室,想要把它清理干净。你可以想象捡起所有衣服并把它们放好的过程会解决这个问题。你不需要尝试多种方法或先学习如何清理房间。你的大脑观察三维空间,并创建一个行动计划,以便在第一次尝试中实现你的目标。这个行动计划就是AI世界模型所承诺的秘密武器。

这里的一个好处是,世界模型可以吸收比LLMs显著更多的数据。这也使得它们在计算上非常密集,这就是为什么云服务提供商正在争相与AI公司合作。世界模型是几个AI实验室现在追逐的重大理念,这个术语迅速成为吸引风险投资的下一个流行词。

一组备受尊敬的AI研究人员,包括Fei-Fei Li和Justin Johnson,刚刚为他们的初创公司World Labs筹集了2.3亿美元。AI教母和她的团队也相信,世界模型将解锁显著更智能的AI系统。OpenAI还将其未发布的Sora视频生成器描述为世界模型,但尚未详细说明。

在2022年关于目标驱动AI的论文中,Lacan概述了使用世界模型创建人类水平AI的想法,尽管他指出这一概念已有60多年历史。简而言之,世界的基本表示,例如一间脏房间的视频,以及记忆被输入到一个世界模型中。

然后,世界模型根据这些信息预测世界将会是什么样子。接着,你给世界模型设定目标,包括你希望实现的世界的改变状态,例如一个干净的房间,以及确保模型在实现目标时不会伤害人类的保护措施。请不要在我清理房间的过程中杀了我。然后,世界模型找到一个行动序列来实现这些目标。

根据LeCun的说法,Meta的长期AI研究实验室FAIR(基础AI研究)正在积极致力于构建目标驱动的AI和世界模型。FAIR曾致力于Meta即将推出的产品的AI,但LeCun表示,该实验室近年来已转向专注于长期AI研究。LeCun表示,FAIR现在甚至不使用LLMs。世界模型是一个引人入胜的想法,但LeCun表示,我们在将这些系统变为现实方面没有取得太大进展。

从我们今天所处的位置到达目标还有很多非常困难的问题。他表示,这肯定比我们想象的要复杂得多。如果不花十年时间,我们需要数年才能让这里的一切运作起来,Lacan说。Mark Zuckerberg一直在问我需要多长时间。好吧,回到真实的我。现在你有了一些背景。接下来,我们将把它交给Lawrence Knight,他在Medium上写了一篇名为《朝向AGI,世界模型及其必要性》的文章。这是一篇更长、更全面的文章。因此,我再次将其交给Eleven Labs来阅读。

今天的节目由Vanta赞助。无论你是刚开始还是正在扩展公司的安全计划,展示一流的安全实践和建立信任比以往任何时候都重要。

Vanta自动化ISO 27001、SOC 2、GDPR以及ISO 42001和NIST AI风险管理框架等领先AI框架的合规性,节省你的时间和金钱,同时帮助你建立客户信任。此外,你可以通过自动化问卷和展示你的安全态势来简化安全审查,所有这些都由Vanta AI提供支持。全球超过8000家公司,如Langchain、Leela AI和Factory AI,使用Vanta来展示AI信任并实时证明安全性。

了解更多信息,请访问vanta.com/nlw。今天的节目一如既往地由Superintelligent赞助。

你是否曾想要一个完全专注于AI如何与您的公司相关的AI每日简报?你的公司在AI采用方面是否遇到困难,无论是因为你在寻找能够带来价值的用例时停滞不前,还是因为正在发生的AI转型被孤立在各个团队、部门和员工中,无法改变整个公司?Superintelligent开发了一种新的定制内部播客产品,通过分享来自公司内外的最佳AI用例来激励你的团队。

可以把它看作是一个仅针对你公司AI用例的AI每日简报。如果你想了解更多,请访问besuper.ai/partner并填写信息请求表。我对这个产品非常兴奋,所以我会亲自尽快回复你。再次强调,访问besuper.ai/partner。朝向AGI,世界模型及其必要性,AI mind。当前的AI系统似乎缺乏常识。世界模型会是答案吗?

引言。本文的目的是分享一些关于我们在朝向人工通用智能(AGI)旅程中所处位置的思考。目前,围绕AI的兴奋情绪很高,这得益于大型语言模型(LLMs)的惊人成功,以及它们捕捉媒体和公众想象力的能力。

这引发了关于我们可能处于AGI革命边缘的猜测,伴随着所有的风险和机遇。我是一个认知科学功能主义者,相信机器实现类人智能没有根本障碍。然而,我并不相信我们目前掌握的技术将我们置于通往AGI的不可逆转的道路上。我将论证,为了让人工系统实现类似人类的智能,它们需要学习世界模型。

如果这是真的,而且有很多充分的理由相信它是,那么我们在通往AGI的道路上并没有像一些人希望我们相信的那样走得那么远。本文的意图是作为一系列将进一步探讨AGI主题的文章的引言。

我们将涵盖的内容。本文对以下问题提供简要评论。什么是智能?我们在通往AGI的旅程中处于何处?大型语言模型是AGI吗?什么是世界模型?学习世界模型需要什么?适当的学习架构。传感器。具身性。在我们开始讨论机器智能之前,值得考虑我们所说的智能是什么意思。牛津英语词典将智能定义为获取和应用知识和技能的能力。这是一个非常广泛的定义。

为了让我们在提到人类智能时更加精确,我们可以将其分解为子类别,例如空间智能、身体动觉智能、音乐智能、语言智能、逻辑数学技能、人际智能、自我智能和自然智能。

因此,也许人类智能的一个良好起始定义是跨越上述提到的智能类别获取和应用知识和技能的能力。AGI通常是相对于人类智能来定义的。例如,一个在大多数任务上至少与人类同样有能力的AI系统。在使用这种类型的定义时,重要的是要明确我们是在谈论所有任务,包括认知和物理任务,还是如通常所说的,仅仅是认知任务。

随着我们在本文中逐步深入世界模型的概念以及它们在AGI发展中的重要性,我的论点是,世界模型对试图复制任何和所有类型人类智能的系统至关重要。我们在通往AGI的旅程中处于何处?大型语言模型(LLMs)最近在生成类人文本以及展示一些有限的推理能力方面的成功引发了对AI的极大兴趣。

该领域的一些人甚至建议,最新的LLMs显示出AGI的初步迹象。

DeepMind团队最近在他们的论文《AGI的层次》中提出了一个框架,用于分类人工通用智能(AGI)模型及其前身的能力和行为,并将其操作化以推动AGI的进展。从表1中我们可以看到,尽管到目前为止我们在构建专业的狭义AI系统方面非常成功,但在创建普遍智能的AI系统方面几乎完全失败。

论文的作者建议,ChatGPT、BARD和LLAMA2符合新兴AGI的标准。我不同意这一观点。与这些系统合作后,我不认为它们在广泛的认知任务上等同于或稍微优于一个无技能的人类,因为它们对世界运作的理解很少,因此推理能力非常有限。大型语言模型是AGI吗?语言模型能够生成以非常类人方式书写的文本。

这可能导致我们对这些系统赋予一种或许没有根据的智能水平。如果我们考虑智能的广泛定义,它是指一个系统获取和应用知识的能力。那么让我们考虑这些特征。语言模型能够从用于训练它们的互联网规模数据集中获取大量知识。然而,这种知识的获取代价很高。一旦训练完成,语言模型不容易获取新信息,通常需要全面的自下而上的重新训练才能获取即使是少量的新信息。

这与人类学习非常不同,人类可以轻松吸收新事实,通常在仅接触新信息一次后就能做到。关于知识的应用,语言模型在检索相关知识并以良好书写的文本呈现方面表现出色。它们在我们可能称之为常识的实际应用方面表现较差。正如Jan LeCun所说,LLMs是在需要人类阅读20000年的文本数据上训练的,但它们仍然没有学会如果A与B相同,那么B也与A相同。

Lacan 2022。有一些技术,如少量提示,帮助LLMs在推理方面表现得更好,但这仍然是一个固有的弱点。有强有力的论据表明,即使通过扩展,语言模型也不会在推理世界方面变得更好,因为它们对世界没有内在的理解。Lacan 2022。人们认为,语言是在相对较晚的时期作为对已经普遍智能的大脑的补充而进化的。

与语言和言语最相关的人脑区域是Wernicke区和Broca区。这些区域仅占人脑的一小部分,支持了普遍智能大脑中除了语言之外还有很多活动的观点。鉴于此,没有理由假设语言模型在获取语言方面的非常狭窄的关注应该表现出更普遍的智能。

我认为,人类拥有的而语言模型没有的是对世界运作的深刻理解。正是在这种深刻理解的基础上,我们的语言能力得以建立,使我们能够描述对世界的基本理解。另一方面,语言模型通过使用单词在书面文本中共现的概率分布来编码语言的结构。这使得语言模型能够描述我们世界的各个方面,但没有深刻的理解。

这种缺乏理解的原因在于它们没有扎根于现实世界的经验,导致它们在许多基本的因果推理和物理常识方面挣扎。什么是世界模型?如果大型语言模型和其他AI系统不在通往AGI的道路上,那么问题就变成了它们具体缺少什么?

Jan LeCun和Jeff Hawkins等思想家的共识是,它们缺少一个世界模型。在认知神经科学界,鸟类和哺乳动物具有相对先进的新皮层被广泛接受为学习世界模型。这与对新皮层功能的少量知识是合理的。新皮层本质上是一个预测机器,始终在每种感官模式中对它应该期望感知的内容进行预测。

为了使新皮层能够对世界进行预测,它必须首先学习什么是正常的。大脑通过与环境的互动来学习世界模型,这一过程被称为感觉运动学习。基本上,大脑计划一个动作,预测环境将如何变化,然后观察感官反应并将其与预测进行比较。当感官反应如预测时,世界模型得到确认。当大脑的预测未得到确认时,我们的注意力会被吸引到错误预测的区域,世界模型会被更新。

对像LLMs这样的人工系统可以提出的一个批评是,它们似乎缺乏常识。人类的常识概念可以被视为拥有强大世界模型的表现。常识告诉我们在我们所居住的世界中什么是可能的、什么是合理的以及什么是不可能的。LLMs实际上只从语言的角度理解什么是可能的和合理的。

那么,具体来说,人类学习了哪些类型的常识知识,而迄今为止AI系统却表现出很少的掌握?以下关于我们物理世界的每一个事实都是人类婴儿在生命早期学习的,并且每一个都是我们世界模型的基础。我们学习到世界是三维的。我们学习到世界中每个光源、声音和触觉都有与我们的距离。我们学习到物体的概念。

物体可以遮挡更远的物体。物体可以根据其外观或行为被分配到广泛的类别。物体不会自发出现、消失、改变形状或瞬移。它们平滑移动,并且在任何时刻只能处于一个地方。直观物理的概念,如稳定性、重力、惯性、活体物体对世界的影响,包括主体自身行为的影响,可以用来推导因果关系。学习世界模型需要什么?

如果世界模型对我们是谁以及对普遍智能系统的发展至关重要,我们应该问学习它们需要什么。我们将首先尝试在高层次上回答这个问题,然后深入一些细节。在高层次上,AGI系统需要一个适当的架构和学习算法,通过传感器感知世界,通过身体与世界互动,适当的驱动和动机以积极探索世界并学习世界模型。

人类大脑经过数百万年的进化,形成了一个最优的结构来学习世界模型。复制一个具有类似功能的结构可能是开发AGI的最大挑战。为了学习世界模型,可能需要一个模块系统共同工作。一个好的起点是一个模块系统,在某种程度上反映人类大脑的功能。

Jan LeCun是计算机科学领域的杰出思想家和研究人员,也是卷积神经网络(CNN)的创始人,他在2022年的立场论文《通向自主机器智能的路径》中提出了这样一个系统。在这篇论文中,他提出了一种架构和训练范式,用于开发能够像人类和动物一样学习、推理和计划的智能机器。论文非常详细,长达70页。

一些关键要点包括,AGI可以由一组模块组成,这些模块反映大脑特定区域的功能。这些模块应该通过基于梯度的学习进行训练。基于感知的输入需要转换为抽象掉所有多余细节的表示。

Jan认为,能够在多个抽象层次上表示世界状态序列对于智能行为至关重要。基本的行为动机和驱动需要被硬编码到系统中,相当于人类减少饥饿、恐惧和痛苦的驱动。需要短期记忆来跟踪过去、当前和预测的世界状态。行动可以通过对特定状态的预先学习的自动反应驱动,或者通过更复杂的推理和计划过程驱动。

世界状态和行动的多层次表示可以用于将复杂任务分解为逐步更详细的子任务。Jeff Hawkins在他的书《千脑》中提出了关于机器如何学习世界模型的另一个具体提议。该理论建议,新皮层学习许多完整的物体和概念模型,这些模型共同作用以形成你对世界的感知。该理论的关键要点是,新皮层在结构上是同质的。

用于视觉、触觉、语言和更高层次思维的特定区域都具有相同的结构。新皮层的基本单元,即智能单元,是皮层柱。皮层柱实现了一种基本算法,负责感知和智能的每一个方面。新皮层中的皮层柱通过感觉运动学习来学习世界模型。

预测发生在神经元内部。当神经元识别出一个模式,产生树突尖峰,并准备比其他神经元更早地尖峰时,就会发生预测。皮层柱的秘密在于参考框架。

参考框架是理解智能的关键。大脑使用参考框架安排所有知识,思考是一种在这些参考框架中移动位置的形式。什么和哪里皮层柱之间的功能差异取决于它们的参考框架锚定于什么。参考框架不必锚定于某种物理事物。一个概念的参考框架可以独立于日常物理事物存在。

Jeff Hawkins领导的研究团队正在尝试实现类似于皮层柱所实现的学习算法。在他的书中,他表示他们在这一实现上取得了成功,尽管他们似乎没有在任何学术论文中发布细节。千脑理论是一个引人注目的理论,似乎是进一步研究的有希望的领域。我所阅读的所有理论都一致认为,要学习世界模型,系统需要能够感知其所处的环境。

赋予系统的传感器将根本决定该系统学习的世界模型。如果我们以人眼为例,眼睛使我们能够感知我们称之为可见光的电磁波谱的非常窄的带宽。我们能够感知可见光如何与环境相互作用,但我们对诸如X射线、红外线和雷达等波谱的部分完全无知。

这塑造了我们对环境的特定体验。很容易想象一个传感器校准为不同电磁波谱范围的系统,它将以不同的方式体验环境,尽管这种体验同样有意义。传感器在学习世界模型中所需的概念引发了关于AGI是否需要通过与现实世界的互动来学习其世界模型,或者是否可以在虚拟环境中学习世界模型的问题。

我对这个主题的思考尚未成熟,但我觉得为了使世界模型在现实世界中有用,该模型至少部分需要通过与现实世界的互动来学习。在自主车辆的发展中有证据表明,系统可以在虚拟环境中部分开发,但虚拟环境无法完全替代现实世界的经验。具身性。动物通过与物理世界的互动学习世界模型。Barlow,1989。这被称为感觉运动学习。