We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The Best of 2024 with Sarah Guo and Elad Gil

The Best of 2024 with Sarah Guo and Elad Gil

2024/12/26
logo of podcast No Priors: Artificial Intelligence | Technology | Startups

No Priors: Artificial Intelligence | Technology | Startups

AI Deep Dive AI Insights AI Chapters Transcript
Topics
Jensen Huang: 英伟达的战略已从单一芯片扩展到完整的数据中心生态系统。他们构建了各种配置的数据中心,以确保软件的稳定性和可扩展性,并支持其CUDA平台在不同云平台上的广泛应用。最终目标是实现软件的‘一次构建,随处运行’。 Andrej Karpathy: 未来的AI模型可能比我们想象的要小得多,因为当前模型浪费了大量容量来记住不重要的信息。他认为,模型小型化和去中心化(即‘拥有’而非‘租赁’AI模型)对于AI的普及至关重要。 Bret Taylor: 未来企业与客户的互动将主要通过公司代理(Company Agents)进行,而不是网站。公司代理能够处理各种客户服务和商务事务,这是一种基于当前技术的‘唾手可得’的机会。 OpenAI's Sora Team: Sora视频模型能够学习关于世界的知识,并理解3D信息,这对于构建更智能的AI模型至关重要。他们认为,通过简单的预测数据,模型能够在规模上得到更好的提升,这与人类世界模型的构建方式类似。 Dmitri Dolgov: 实现完全自动驾驶(移除驾驶员)并达到100%的准确率比看起来要困难得多,其挑战在于‘多个九’的准确率。尽管AI技术进步使得构建自动驾驶系统更容易,但要达到完全自动驾驶的安全性要求仍然非常困难。 Dylan Field: 未来的用户界面将是多种模式的结合,语音、文本和其他界面形式将并存,而不是相互取代。他看好智能摄像头作为一种新的输入方式的潜力。 Alexandr Wang: 通往AGI的道路更像‘治愈癌症’而不是‘研发疫苗’,需要逐步解决许多小问题,而不是一蹴而就。他认为,当前模型的泛化能力有限,需要针对特定领域构建独立的数据飞轮来推动性能提升。

Deep Dive

Key Insights

Why does NVIDIA consider itself a data center ecosystem rather than just a chip company?

NVIDIA has evolved from producing single chips to building entire data centers to ensure software and hardware integration works at scale. They build vertically integrated systems, optimize them full stack, and then disaggregate components for sale. This approach allows NVIDIA to graft its infrastructure into major cloud platforms like GCP, AWS, and Azure, ensuring CUDA, their computing platform, is consistent across environments.

What is Andrej Karpathy's perspective on the future of AI models and their size?

Andrej Karpathy believes future AI models could be much smaller than current ones, potentially as small as 1 billion parameters. He argues that current models waste capacity on irrelevant data, like SHA hashes, and that distillation techniques can effectively reduce model size while maintaining performance. The cognitive core of AI, which focuses on thinking and using tools, can be extremely compact.

How does Bret Taylor envision the future of business interactions with AI agents?

Bret Taylor predicts that businesses will transition from websites to branded AI agents that handle customer interactions, including product inquiries, commerce, and customer service. These agents will become the primary digital presence for companies, similar to how websites were in the 1990s. Sierra, his company, is already building such agents for clients like Sonos and SiriusXM.

What insights did the OpenAI Sora team share about video models and their role in AGI?

The OpenAI Sora team highlighted that their video model, Sora, learns about the world, including 3D structures and physical interactions, purely from visual data. This grounding in visual information is crucial for developing more intelligent AI models that better understand the world. They believe Sora’s ability to model the world will contribute significantly to the path toward AGI.

Why is achieving full autonomy in self-driving cars more challenging than it appears?

Dmitri Dolgov of Waymo explains that the difficulty lies in achieving 100% accuracy, which requires solving the long tail of rare edge cases. While advanced driver assistance systems can handle many scenarios, full autonomy demands near-perfect reliability across millions of miles, a much harder problem than initial prototyping or driver-assisted systems.

How does Dylan Field see the evolution of user interfaces in an AI-driven world?

Dylan Field believes that while conversational and agent-based interfaces will grow, traditional UIs will not disappear. Instead, new modalities like voice and intelligent cameras will complement existing interfaces. He predicts that UI will become more sophisticated, and users will interact with AI through a mix of methods rather than relying solely on one type of interface.

What is Alexandr Wang's view on the path to AGI?

Alexandr Wang compares the path to AGI to curing cancer, where solving many small, independent problems is necessary rather than achieving a single breakthrough. He believes there is limited generalization across modalities and that each niche capability will require separate data flywheels. This approach suggests a slow, incremental progress toward AGI rather than a sudden leap.

Chapters
This chapter explores NVIDIA's remarkable growth, transitioning from a chip company to a data center ecosystem. Jensen Huang discusses the reasons behind this evolution, highlighting the importance of building full data centers for software development and optimization.
  • NVIDIA's stock price tripled in 2024.
  • NVIDIA considers the data center the new unit of computing.
  • NVIDIA builds various data center configurations for diverse customer needs.
  • NVIDIA aims for software to run consistently across different platforms.

Shownotes Transcript

嗨,NoPriors 的听众们。我希望你们在 2024 年过得都很棒。回顾今年,我们想和大家分享一些我们最喜欢的对话的精彩片段。首先,我们有一段与 NVIDIA 首席执行官、唯一一位詹森黄先生的对话片段,这家公司正在推动人工智能革命。

自从我们在 2023 年与詹森进行 NoPriors 聊天以来,NVIDIA 的股价已经翻了两番,2024 年每个月都增加了近 1000 亿美元的价值,并进入了 3 万亿美元俱乐部。最近,詹森再次与我们分享了他的观点,这次是关于为什么 NVIDIA 不再是一家芯片公司,而是一个数据中心生态系统。

这是我们与詹森的对话。NVIDIA 已经转向更大规模的,比如说,对客户的支持单元。我认为它从单个芯片发展到服务器,再到机架和 BL72。您如何看待这种进展?下一步是什么?NVIDIA 能否建设一个完整的数据中心?事实上,我们会建设完整的数据中心。我们构建一切的方式,除非你正在构建……

如果您正在开发软件,则需要完整体现的计算机。我们不会制作 PowerPoint 幻灯片并交付芯片。我们构建的是整个数据中心。在我们构建好整个数据中心之前,你怎么知道软件有效?在我们构建好整个数据中心之前,你怎么知道你的架构有效,以及所有你期望的效率,你怎么知道它真的能在规模上发挥作用?

这就是为什么看到某人的实际性能比 PowerPoint 幻灯片中显示的峰值性能低得多并不罕见的原因。而且……

计算不再是过去的样子了。我说新的计算单元是数据中心。对我们来说是这样。所以这就是你必须交付的。这就是我们所构建的。现在,我们构建了这样一个完整的东西。然后对于每一件事,每一种组合,风冷、x86、液冷、Grace、以太网、InfiniBand、NVLink、无 NVLink,你知道我的意思吗?我们构建每一种配置。我们公司今天有五台超级计算机。

明年,我们将轻松再建造五台。所以,如果您认真对待软件,您就会构建自己的计算机。如果您认真对待软件,那么您将构建您的整台计算机。我们大规模地构建它。这是真正有趣的部分。我们大规模地构建它,并且垂直整合。我们对其进行全栈优化,然后我们将所有内容分解并分部分出售。

这就是我们所做的事情中完全、绝对非凡的部分。它的复杂性简直令人难以置信。这样做的原因是,我们希望能够将我们的基础设施移植到 GCP、AWS、Azure、OCI。他们所有的控制平面、安全平面都不同。他们考虑集群规模的方式也完全不同。

但我们仍然使他们能够适应 NVIDIA 的架构,以便 CUDA 能够无处不在。最终,这只是一个想法,我们希望拥有一个开发人员可以使用的大致一致的计算平台,这里或那里有 10% 的差异,因为人们的基础设施略有不同,这里或那里有 10% 的差异,但他们构建的所有内容都可以在任何地方运行。

这是软件的一个原则,永远不应该放弃,我们非常珍惜它。它使我们的软件工程师能够一次构建,随处运行。这是因为我们认识到软件投资是最昂贵的投资。很容易测试。看看整个硬件行业的规模。

然后看看世界各行各业的规模。在这个价值 1 万亿美元的行业之上,还有 100 万亿美元。这说明了一些问题。您构建的软件,您基本上必须维护到您活着的时候。当然,我们必须提到我们与可爱的 Andrej Karpathy 的谈话,我们深入探讨了人工智能作为外皮层(人类认知的延伸)的未来。

Andrei 一直是人工智能发展中的关键人物,从 OpenAI 到特斯拉,再到对我们所有人的教育,他分享了关于人工智能模型的所有权和访问权限的具有挑衅性的观点,并且还说明了为什么未来模型可能比我们想象的要小得多。如果我们谈论的是外皮层,感觉就像……

一件非常重要的民主化访问的事情。您如何看待当前 LLM 研究中正在发生的事情的市场结构,您知道,只有少数大型实验室有机会在下一代进步训练中取得进展。这如何转化为人们将来可以访问的内容?

所以您可能暗示的是生态系统的状态,对吧?所以我们有少数几个封闭平台的寡头垄断,然后我们有一个落后的开放平台。例如 Metalama 等。

这有点像反映了开源生态系统。我认为当这些东西开始时,当我们开始将其视为外皮层时,加密领域有一句谚语,那就是“不是你的密钥,就不是你的代币”。不是你的,是的。就像,如果“不是你的权重,就不是你的大脑”?这很有趣,因为一家公司实际上正在控制你的外皮层,因此也控制着你的一部分……是的,这开始让人感觉有点侵入性。如果这是我的外皮层……我认为人们更关心所有权,是的。就像你一样,是的,你意识到你在租用你的大脑。

就像,租用你的大脑似乎很奇怪。思想实验是:你是否愿意放弃所有权和控制权来租用一个更好的大脑?因为我是。是的。所以我认为这就是权衡,我认为。我们将看看结果如何。但也许有可能……

默认情况下使用封闭版本,因为它们很棒,但在各种情况下你都有一个后备方案。我认为这就是今天事物发展的方向,对吧?例如,当 API 停用一些封闭源提供商时,人们开始实施对开放生态系统的后备方案,例如,他们完全控制并感到有权力的生态系统,对吧?所以也许这只是大脑外观的延伸,你应该回退到开源的东西

如果发生任何事情。但在大多数情况下,你实际上……所以开源的东西继续进步非常重要。我认为如此,百分之百。这并不是一个显而易见的事情,或者人们现在可能同意的观点,但我认为百分之百。我想我一直在思考的一件事是……

在某种意义上,你能达到的最小性能模型是什么,无论是参数大小还是你想如何考虑它。所以我有点好奇你的看法,因为你已经考虑了很多蒸馏、小型模型等等。我认为它可以小得令人惊讶。

而且我认为当前的模型正在浪费大量的容量来记住无关紧要的东西。例如,他们记住 SHA 哈希。他们记得古代。因为数据集没有得到最佳的整理。是的,完全正确。我认为这将会消失。我认为我们只需要到达认知核心。我认为认知核心可以非常小。

它只是思考的东西。如果它需要查找信息,它就知道如何使用不同的工具。是 30 亿个参数吗?是 200 亿个参数吗?我认为甚至 10 亿个。10 亿个令人惊讶。我们可能会达到那个点。模型可以非常非常小。我认为它们可以非常小的原因从根本上来说,我认为,就像蒸馏一样有效。这可能是我唯一想说的话。蒸馏的效果出奇的好。蒸馏是指你获得一个非常大的模型或大量的计算机或类似的东西。

监督一个非常小的模型。我们与 OpenAI 董事会成员兼 Sierra 创始人 Brett Taylor 的谈话描绘了我们将来如何与企业互动的一个截然不同的画面。这是一段 Brett 解释公司代理以及为什么网站将退居次要地位的片段。另一类,即我的公司 Sierra 从事的领域,我称之为公司代理。它实际上不仅仅是关于自动化或自主性,而是

在这个会话式 AI 的世界中,你的公司如何在数字世界中存在?我总是用这样的比喻,我们现在是 1995 年。如果你在数字世界中存在,这意味着拥有一个网站并出现在雅虎目录中,对吧?在 2025 年,在数字世界中存在可能意味着拥有一个品牌 AI 代理,你的客户可以与之互动以执行他们在你的网站上可以执行的所有操作。无论是询问你的产品和服务、进行商务活动还是进行客户服务,

我认为这个领域现在凭借现有技术已经准备就绪,因为,同样,就像基于角色的代理一样,它在技术上并没有沸腾所谓的海洋。你拥有明确定义的客户体验流程,以及作为你的记录系统的明确定义的系统。这实际上是说,在这个世界中

我们已经从网站到应用程序,再到现在的会话式体验。围绕你的品牌,你想要什么样的会话式体验?这并不意味着它是完美的或容易的。否则,我们不会围绕它创建一家公司,但它至少是明确定义的。我认为现在在人工智能领域,如果你正在研究人工通用智能,你的代理版本可能意味着不同的东西,这没关系。这只是一个需要解决的不同问题。

但我认为,你们所有人投资的 Sierra 从事的领域以及许多公司都在说,现在凭借现有技术是否存在一些唾手可得的机会?我绝对认为有。你能描述一下构建公司代理的“挖掘”周期吗?研究与现实之间的差距是什么?作为一个工程团队,你投资什么?你如何理解不同客户环境的范围?就像什么是

这里的投资向量。也许,对不起打断一下,作为起点,甚至可能值得定义一下 Sierra 今天为客户提供的产品是什么?然后你希望它走向何方?然后也许我们可以将其反馈到,这些组件是什么?因为我认为显然大家都在你们垂直领域中崭露头角,但对于更广泛的受众来说,了解你们关注的重点会很棒。是的,当然。我将举几个例子来说明这一点。因此,如果您购买了新的 Sonos 扬声器,或者您的扬声器出现了技术问题,您会看到令人讨厌的橙色闪烁灯。您现在将与由 CIRA 提供支持的 Sonos AI 聊天,以帮助您入门,帮助您调试硬件问题、Wi-Fi 问题等。如果您是 SiriusXM 订户,他们的 AI 代理名为 Harmony,我认为这是一个令人愉快的名字。从升级和降级您的订阅级别到当您购买新车时获得试用版时与您交谈,

总的来说,我想说的是,我们帮助公司构建面向客户的品牌代理。品牌是其中重要的一部分。它是您品牌的一部分。它是您品牌体验的一部分。我认为这非常有趣和引人注目,因为我认为就像,你知道,当我回到所谓的 1995 年时,你的网站就在你的名片上。这是你第一次拥有某种数字存在。我认为同样的新奇感,而且我们可能会以同样的方式回顾今天的代理

感觉,哦,那太古朴了。你知道,如果你回到 Wayback Machine,看看早期的网站,它要么是某人的电话号码,仅此而已。或者它看起来像 DVD 开场画面,有很多图形。客户开始使用的许多代理通常围绕客户服务领域,这是一个非常好的用例。

但我确实相信,如果你快进三四年,你的代理将包含你的公司所做的一切。我以前用过这个例子,但我喜欢它。但想象一下一家保险公司,当你与他们互动时你可以做的一切。也许你正在提出索赔。也许你正在比较计划。我们之前谈到过我们的孩子。也许当你的孩子长大到可以拥有驾照的年龄时,你正在将你的孩子添加到你的保险费中。

所有上述内容都将由您的代理完成。这就是我们帮助公司构建的内容。接下来,我们与 OpenAI 的 Sora 团队进行了交谈,该团队正在构建一个令人难以置信的逼真视频 AI 生成模型。在这个片段中,我们讨论了他们的研究以及了解世界的模型如何融入 AGI 的道路。关于您使用 Sora 完成的工作如何影响更广泛的研究路线图,您能说些什么吗?是的,我认为这里的一个问题是关于

Sora 最终从查看所有这些视觉数据中学到的关于世界的知识。它理解 3D,这是一件很酷的事情,因为我们没有训练它。我们根本没有明确地将 3D 信息烘焙到其中。我们只是在视频数据上对其进行了训练,它了解了 3D,因为 3D 存在于这些视频中。它了解到,当你咬汉堡时,你会留下咬痕。所以它正在学习很多关于我们世界的知识,并且

当我们与世界互动时,其中很大一部分是视觉上的。我们在生活中看到和学习的很多东西都是视觉信息。因此,我们真的认为,就智能而言,就导致更智能、更能像我们一样理解世界的 AI 模型而言,这实际上对他们来说非常重要,因为他们拥有这样的基础,比如,“嘿,这就是我们生活的世界”。它非常复杂。关于人们如何互动有很多内容。

事情是如何发生的,过去发生的事件如何影响未来的事件,这实际上将导致更广泛的、比生成视频更智能的 AI 模型。这几乎就像你发明了未来的视觉皮层加上一部分……

大脑的推理部分或类似的东西,同时。是的。这是一个很酷的比较,因为人类拥有的许多智力实际上是关于世界建模的,对吧?当我们思考如何去做事情时,我们一直在脑海中上演场景。我们做梦时,我们会在脑海中上演场景。我们提前思考要做的事情。如果我这样做,就会发生这种情况。如果我做其他事情,会发生什么,对吧?所以我们有一个世界模型,

而将 Sora 构建为世界模型与人类拥有的很大一部分智力非常相似。

你们如何看待人类拥有非常近似的世界模型与像传统意义上的物理引擎一样精确的东西之间的类比,对吧?因为如果我,你知道,拿着一个苹果然后把它扔掉,我希望它以一定的速率落下。但是大多数人并不认为这是用速度作为计算来表达路径。你认为这种学习在大模型中是平行的吗?是的。

我认为这是一个非常有趣的观察。

我认为我们思考事物的方式是,这几乎是人类的一种缺陷,它不是那么高保真。因此,你知道,我们实际上无法在您深入到非常狭窄的物理学集合时进行非常准确的长期预测,这是我们可以用这些系统改进的事情。因此,我们乐观地认为 Sora 将,你知道,超越这种能力,并且从长远来看,有一天会使它比人类作为世界模型更聪明。是的。

但这当然是一个存在证明,它对于其他类型的智能来说并不是必要的。无论如何,这仍然是 Sora 和未来模型能够改进的事情。好的,所以很明显,投掷橄榄球的轨迹预测将比这些模型的下一个、下一个版本更好,比方说。如果我可以补充一点,这与规模的范式有关,

以及关于我们想要在计算增加时越来越好的方法的“痛苦教训”。在这个范式中非常有效的是执行简单但具有挑战性的任务,即仅预测数据。您可以尝试提出更复杂的任务。例如,一些

不显式使用视频,但可能在模拟近似事物或其他事物的空间中的东西。但是所有这些复杂性在方法随着规模的增加而改进的缩放规律方面实际上并没有好处。随着规模的增加,效果非常好的是预测数据。这就是我们在文本中所做的。我们只是预测

预测文本。这正是我们在 Sora 中对视觉数据所做的,即我们没有试图弄清楚一些新的东西来优化。我们说,嘿,以可扩展的方式学习智能的最佳方法就是预测数据。

这说得通。关于你所说的,Bill,就像预测一样,只会变得更好,没有必要限制近似于人类。我们还与 Waymo 的联合首席执行官 Dmitry Dolgov 坐下来交谈。今天,该公司正在扩展其自动驾驶车队,每周在旧金山和凤凰城等城市完成超过 10 万次完全自动驾驶的行程。这是我最喜欢的出行方式。

在这趟旅程中,Dimitri 解释了为什么实现完全自主(完全移除驾驶员)以及在自动驾驶中实现 100% 的准确性而不是 99.99% 的准确性比看起来要困难得多。为什么它会从,比如说,让我们说高级驾驶辅助系统(在越来越多的场景中似乎有效)转向,比如说,完全自主?有什么区别?是的。这是九的个数。

这是这个问题的性质,对吧?如果您考虑一下我们在 2009 年的起点,我们的第一个里程碑之一,我们为自己设定的目标之一是驾驶 10 条路线。每条路线长 100 英里,遍布整个湾区。高速公路、旧金山市中心、太浩湖周围,所有地方。你必须行驶 100 英里而无需干预。因此,汽车必须从头到尾自动驾驶。这就是我们为自己设定的目标。

大约有十几个人,我们花了大约 18 个月的时间才做到这一点。2009 年,没有 ImageNet,没有 Cognizant,没有 Transformers,没有大型模型,只有小型计算机,你知道吗?很容易上手。它一直都是属性。随着每一波技术的到来,它都非常容易上手。

但难题,而且它有点像曲线的早期部分越来越陡峭,但这并不是复杂性所在。复杂性在于许多、许多、许多九的长尾。如果你追求原型,如果你追求驾驶辅助系统,你就不会看到这一点,而这就是我们一直在投入所有精力的地方,这是问题中唯一困难的部分。我想现在,随着每个技术周期,它都变得越来越容易。所以现在,你可以利用所有进步,

人工智能,尤其是在生成式人工智能世界和 LLM 和 BLM 中,你可以采用一种几乎可以随时使用的,你知道,Transformers 非常棒。VLM 非常棒。你可以采用一种可以接受图像或视频的 VLM,并且,你知道,有一个解码器,你可以用文本提示输入并输出文本。

你可以用少量数据对其进行微调,以从汽车上的摄像头数据转向,而不是文字,而是轨迹或你做出的任何决定。只需取这个东西作为黑盒,你取任何为生活而训练的东西,对其进行少量微调。就像那样,我认为如果你让任何优秀的计算机科学专业的学生今天构建一个 AV,他们就会这样做。开箱即用,你得到的东西

太棒了,对吧?Transformers 的力量,现实主义的力量令人难以置信,对吧?因此,只需付出一点努力,你就能在路上得到一些东西,而且它有效。你可以驾驶,我不知道,几十英里、几百英里,它会让你大吃一惊。

但这够了吗?这足以移除驾驶员并行驶数百万英里并拥有比人类做得更好的安全记录吗?不,对吧?我想这是每一次技术发展、技术和人工智能突破,他们都看到了这一点。感谢您。接下来,我们有我的好朋友 Figma 首席执行官 Dylan Field。Dylan 分享了他对人工智能驱动世界中用户界面将如何演变的预测。

虽然许多人预测向会话式或基于代理的界面转变,但 Dylan 建议新的界面范例将补充现有界面。他还强调了视觉人工智能和智能摄像机作为输入方法的下一个前沿的令人兴奋的潜力。您如何看待用户界面的整体转变?

这将随着人工智能而来。很多事情在短期内都融合到聊天界面中。很多人都在谈论一个代理世界,它完全取消了大多数用户界面。后台只发生所有程序化的事情。您现在如何看待用户界面的发展方向?我的意思是,我认为这有点回到我之前提到的兔子点。是的,在代理方面有很多创新。但我认为,就我们而言

使用用户界面与代理互动,我们才刚刚开始。我认为界面会变得更复杂。但是,即使它们没有,我也怀疑这就像任何新的媒体类型一样。当它被引入时,旧的媒体类型并没有消失,对吧?仅仅因为你有 TikTok 并不意味着你不再观看 YouTube。即使新的

交互形式是通过聊天界面,我甚至不确定我是否相信。但即使我们将此作为 No Priorities 播客中的先验条件,那么我认为你仍然拥有用户界面。实际上,我认为你比以前拥有更多的用户界面和更多的软件。您对多模式有什么预测?例如,您认为语音的需求更多吗?例如,您知道,人们进行的许多辩论是,您何时使用语音、文本或其他类型的界面?

而且,你知道,你可以想象在各种方向上都有各种各样的论点,例如,你何时使用什么以及诸如此类的事情。很多人不是很多。有些人建议,由于多模式模型的兴起,你将拥有更多语音输入或类似的东西,因为你将能够进行实时操作。

对对话进行某种智能的上下文语义理解。因此,您拥有更多基于语音的会话式用户界面而不是基于文本的用户界面。因此,它会改变您对设计的思考方式。所以我只是好奇你对这种未来展望有什么想法。在各种情况下,语音用户界面都非常重要。我认为这可能是我们发现语音用户界面是

开始映射到更传统的用户界面,因为这是您可以以更通用的方式执行的操作。但是,是的,我的意思是,就我个人而言,我不希望通过语音来导航我每天、全天都在与之交互的信息空间。

我也不想以《少数派报告》风格在 Vision Pro 上这样做,完全正确。也许使用键盘和鼠标以及令人惊叹的 Vision Pro 显示器设置或 Oculus,这可能会很酷,但我不想做《少数派报告》中的事情。所以这很有趣。所以我认为我们对交互模式有了这些新的了解,这真的很酷,但是

并且自然倾向于推断并说它们将对所有事情都有用。我认为它们有自己的作用,这并不意味着它们将普遍存在于我们进行的每一次交互中。

呃,但这是一个自然的循环。我认为这很好。呃,对它能做什么抱有某种狂热是健康的。因为如果你没有,那么你就无法找到答案。所以我,我,我支持人们尽可能多地探索,呃,因为这就是你如何在 HCI 上取得进步,并找出如何充分利用计算机的潜力。是的。

我真正看涨的一件事是,我的意思是,你只需要将其视为输入模式或外围设备,但人们很难用视觉方式描述事物。因此,智能摄像机的想法,即使是最基本的想法,

哦,它有效。它有效。我认为这实际上是一个非常有趣的领域,正如你所说,喜欢探索,因为我认为这实际上将是有用的。而且这是每个用户都能做到的事情,对吧?拍照,捕捉视频。所以我认为这将是,我对这一点非常看好。为了总结我们 2024 年最喜欢的时刻,我们有 Scale 首席执行官 Alexander Wang。在这个片段中,他分享了他对 AGI 道路的大胆看法。Alex 还深入探讨了为什么人工智能中的泛化比许多人想象的要困难,以及

以及为什么解决这些利基问题和更多数据评估对于推进技术至关重要。你相信关于人工智能的事情,而其他人不相信。我在这里最大的信念是,通往 AGI 的道路更像治愈癌症而不是开发疫苗。我的意思是,我认为构建 AGI 的道路将在于,你知道,

你将不得不解决一堆小问题,在解决一个问题到解决下一个问题之间,你不会获得那么多积极的杠杆作用。这就像,你知道的,这就像治愈癌症,你必须放大每个单独的癌症并独立地解决它们。最终,在几十年后,我们会回顾过去,意识到我们已经,我们已经,你知道的,构建了AGI,我们已经治愈了癌症,但实现这一目标的道路将是,你知道的,相当缓慢的道路,解决个体能力和构建个体……

数据飞轮来支持最终目标。而我认为业内很多人将AGI的路径描绘成,你知道的,最终我们会,砰,我们就到达那里了。我们会,你知道的,我们会一举解决它。我认为这对于你如何看待,你知道的,技术发展轨迹以及

以及社会将如何应对它有很多影响。我认为这实际上是对社会适应这项技术的一个相当乐观的预测,因为我认为在相当长的一段时间内,这将是一个持续缓慢的进步过程,社会将有时间充分适应所发展出的技术。当你说到一次解决一个问题时,如果我们稍微脱离一下这个比喻,我应该把它想象成……

多步推理真的很困难,蒙特卡洛树搜索并不是人们认为的那样。我们只会遇到扩展瓶颈。解决多个问题的维度是什么?——我认为最根本的是,我认为这些模型的泛化能力非常有限。例如,即使对于多模态,

我的理解是,从一种模态的学习中,并没有积极的迁移到其他模态。所以,比如,从大量的视频中进行训练,并不会对你的文本问题有太大的帮助,反之亦然。所以我认为这意味着,每种能力的细分领域,或者每个能力领域,都需要单独的飞轮,数据飞轮,才能突破并提升性能。你还不相信视频作为世界模型的基础,这会有所帮助。

我认为这是一个很好的说法。我认为目前还没有强有力的科学证据支持这一点。也许最终会有。但我认为这是,我认为基本情况是,比如说,模型的泛化能力并不强。因此,我们实际上只需要慢慢解决很多很多小问题,最终才能实现AGI。非常感谢您在2024年的收听。我们非常享受与那些正在重塑人工智能世界的人们交谈。

如果您想更深入地了解今天听到的任何对话,我们在我们的描述中链接了完整的剧集。请告诉我们您想听到谁的声音,以及您明年有什么问题。节日快乐。在Twitter上找到我们@NoPriorsPod。如果您想看到我们的脸,请订阅我们的YouTube频道。在Apple Podcasts、Spotify或您收听的任何地方关注该节目。这样你每周都会收到一集新节目。并在no-priors.com上注册电子邮件或查找每集的文字记录。