We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode #156 AI Reality VS Speculation with Google Machine Learning Engineer Jiquan Ngiam

#156 AI Reality VS Speculation with Google Machine Learning Engineer Jiquan Ngiam

2025/1/17
logo of podcast freeCodeCamp Podcast

freeCodeCamp Podcast

AI Deep Dive AI Chapters Transcript
People
J
Jiquan Ngiam
Topics
Jiquan Ngiam: 我对人工智能领域的过度炒作持谨慎态度。虽然大型语言模型取得了显著进展,但我认为其推理能力的提升速度不会像一些人预测的那样快,短期内不太可能实现通用人工智能(AGI)。我们正处于多个S型曲线发展的不同阶段,有些领域已经接近瓶颈,而另一些领域才刚刚开始。 我从事机器学习研究多年,亲历了从2012年图像模型的突破到2017-2018年Transformer模型的出现。这些突破得益于计算能力和数据规模的扩大,以及更有效的模型架构。大型模型的训练需要巨大的工程投入和时间,需要克服硬件故障等挑战。 近年来,我们发现通过后训练微调(例如使用强化学习和人类反馈)可以改进模型的行为,使其更符合预期。然而,重要的是要记住,模型本质上只是计算工具,容易出现拟人化误解。 代码数据对于训练LLM至关重要,因为它以最正式的方式表达了推理过程。多模态模型的出现使得AI能够处理文本、图像、音频等多种数据类型,并将其整合到统一的框架中。这使得AI能够完成更复杂的任务,例如根据图像生成代码。 未来,模型将朝着更小、更快、更便宜的方向发展,推理成本将大幅降低。软件设计也将发生转变,更加注重AI的使用,人机交互界面将更加注重对话式交互。 Quincy Larson: 我对人工智能技术的发展和应用前景表示乐观。我认同Jiquan Ngiam关于模型推理能力提升速度可能放缓的观点,但也看到了在其他领域,例如视频生成、3D建模等方面,AI技术仍有巨大的发展潜力。 我关注到AI在代码生成和辅助编程方面的应用,这将极大地提高开发效率。同时,我也注意到AI模型的局限性,例如容易出现幻觉,以及对训练数据的依赖性。 我认为,将个人数据与AI模型相结合,可以极大地提高其效用,但同时也需要谨慎地考虑隐私和安全问题。在设计AI系统时,需要确保用户能够保持对数据的控制权,并能够理解AI模型的决策过程。 我期待着AI技术在各个领域的应用,并相信它将极大地改变我们的生活和工作方式。

Deep Dive

Chapters
This chapter explores the current state of AI, particularly focusing on the limitations of AI reasoning capabilities. It discusses the S-curve of technological advancement and the hype surrounding AI's potential for superintelligence, contrasting it with the more realistic, incremental progress being made.
  • AI progress is more incremental than revolutionary.
  • Reasoning abilities are not advancing as rapidly as some predict.
  • AI development is characterized by multiple simultaneous S-curves of progress.

Shownotes Transcript

很多人看到大型语言模型 (LLM) 就觉得,哇,指数级增长,要上天了。不,不,我不这么认为,我觉得更像是曲线,先快速上升然后趋于平缓,像S曲线一样。但我们处于许多S曲线中。这就是所谓的牛熊市。我对推理能力的飞速发展持谨慎态度,比如,“我的天哪,这将成为超级通用人工智能 (AGI),我可以推理任何事情”。我认为我们更接近于

欢迎回到 freeCodeCamp 播客,您的开发者原始、未经编辑的访谈来源。本周的音乐介绍由我自己演奏鼓、吉他、贝斯和键盘,1996年,卡比超级巨星,迪迪迪国王的主题曲。♪

♪♪♪

♪♪♪

回到 freeCodeCamp 播客。我是 Quincy Larson,freeCodeCamp.org 的教师和创始人。每周我们都会为您带来来自开发者、创始人以及科技领域有抱负人士的见解。本周我们与 Ji-Chun Nham 进行了交谈。他是一位前谷歌大脑机器学习工程师,正在构建工具,使人工智能对每个人都有用,

而不仅仅是开发者。我们将讨论人工智能的实际局限性、人工智能的发展方向,甚至可能讨论在创建人工智能系统方面超越 Transformer 的内容。我们还将学习很多关于人工智能代理如何工作的内容。我对这次谈话感到非常兴奋。freeCodeCamp,我们的播客,由 Wikidata 支持。

Wix Studio。他们提供了一笔资助,Wix Studio 为开发者提供了快速构建网站的工具,所有功能都开箱即用,然后可以使用代码进行扩展、替换和突破界限。更多信息请访问 wixstudio.com。支持还来自 11,113 位通过每月捐款支持 freeCodeCamp 的好心人。

您可以加入这些好心人,并通过访问 donate.freecodecamp.org 来帮助我们的使命。Jeetran,欢迎来到 freeCodeCamp 播客。谢谢,Quincy。我很高兴来到这里,并与您这里的听众交谈。你们这里的人、群体和社区都很棒。

是的,是的。而且,很多人都很兴奋能够直接从消息来源处学习,从一位编码了几十年、与 Coursera 的 Andrew Ng 等人一起工作过的人那里学习,他……

我是一名科学家。

太棒了。我一开始怀揣着这样的梦想,比如,“如果计算机能够变得聪明就好了?”那时我还年轻,对吧?过了一段时间后,我想,“我们能不能去研究一下?”这就是为什么我在斯坦福大学与 Andrew 一起在我的机器学习博士项目中工作了几年的原因。我认为只有在最近几年 Transformer 模型出现后,我们才开始看到一丝希望,比如,“哦,这些机器在它们所做的事情上实际上看起来真的很聪明。它们在帮助我们完成日常工作方面真的很有用。”

看到我们能用它做什么真是令人着迷。所以这始终是我的梦想,我很兴奋能参与其中。是的,我认为这太棒了。是的,让我们深入探讨一下。你已经从事机器学习多年了。你在斯坦福大学的博士项目中学习过,你中途退学是为了帮助 Coursera(第一个大规模在线课程平台)的早期员工之一做软件工程。

这里有什么重大突破吗?突破仅仅是 Transformer 架构、Transformer 方法吗?是什么带来了 ChatGPT 以及随后出现的各种应用程序?是的,我认为,让我们看看。我从事机器学习很长时间了。Coursera 很有趣,也许我会稍微讲一下……

个人的故事,那就是当我从 2009 年、2010 年、2011 年开始从事机器学习时,对我来说,真正有趣的是我们如何才能让更多人参与研究?因为我看到了这项技术的潜力,而且很清楚的是,首先,我们可以快速运行多少实验、多少事情来了解这项技术非常重要。能够学习和使用这项技术的人越多,进步的瓶颈就越大。

所以这实际上是我和 Andrew 推出第一批机器学习课程的起源。如果你们中的任何人做过这个课程,并且在 Octave 作业中遇到问题,那可能都是我的错。就像,我负责创建所有作业。我把它写在那里。这很有趣。Octave 是一种编程语言或机器学习工具包。

Octave 实际上是 MATLAB,对吧?所以它就像 MATLAB 的免费开源版本。在过去,我们都是手工编写梯度。所以在机器学习中,当你有一个目标函数时,你会编写一个叫做梯度的东西来告诉机器如何改进一个函数。所以我们当时都是手工做的。所以也许回到你的问题,一个重大突破是在 2012 年图像模型变得非常好的时候。

所以 AlexNet 在那时出现,我们的视觉模型突然起飞了,我们意识到如果我们扩大我们正在使用的模型,卷积神经网络,并且投入更多的 GPU,更多的数据。这是大数据、真正大数据机器学习的开始,一千个类别,一百万张图像。现在听起来很小,但在当时这是巨大的。是的。

这彻底改变了局面。所以当时的机器学习有两个阵营,对吧?你坐下来,想出要放入模型的特征。哦,我认为图像分类器应该这样工作。所以你这样做,然后你尝试一下,然后你发表一篇论文。但是,奏效并彻底改变一切的方法是,“哦,把它交给一个神经网络,在这种情况下是一个卷积神经网络。”

输入所有数据,训练两天。那时,训练几天是不可想象的。然后看看会发生什么,看看它是否真的达到了目标。所以事实是,我认为 Richard Sutton 是发表了一篇关于这方面的文章的人,那就是扩展

扩展数据、扩展计算、扩展训练。这是机器学习中一直有效的方法。所以我们第一次在 2012 年看到了这一点。现在,这是一个非常关键的点,因为它导致每个人都投资 GPU,投资用于 GPU 的模型训练。然后它就起飞了。这非常有效。图像模型很棒。但是我们还没有真正弄清楚语言。

当时的语言,我们使用的是循环神经网络,这是一种根据前几个词的状态预测下一个词的模型。我们并没有真正做到这一点。我们还没有真正找到允许我们扩展它的架构。我认为大约在 2014 年,有一些关于翻译的论文开始使用基于 Transformer 的论文中的注意力机制。

那是 Vaswani 等人。然后在 2017 年、19 年、2018 年,Transformer 出现了,它采用了这个想法,并说,“好的,我们需要什么样的架构配方才能让它扩展,但更

一种不仅可以扩展,而且对它的工作方式具有鲁棒性的架构。当它扩展时不会崩溃,梯度不会爆炸。所以谷歌团队,Noam、Shazia、Lucas、Kaiser,一群人都在研究这个,创造了 Transformer。然后一旦这个配方在 2018 年确定下来,我们就有了很多好东西的融合。首先,多年来谷歌对 GPU 和 TPU 进行了投资。所以计算能力已经准备好了。

其次,有一种架构配方可以继续扩展,你可以不断添加节点,不断添加更大的节点,但它不会崩溃。第三,所有数据都在那里。我们在互联网上收集了所有这些语言、图像、视频数据,我们现在准备训练这些模型了。然后,大公司、团队需要很多信念的部分是

你愿意花整整一个月的时间来训练这个东西吗?坐下来,设计整个系统,把它连接起来,然后确保它能运行。然后一个 GPU、TPU 会出现故障,编写管理它的软件。最终,这成为一项非常庞大的工程任务。但是一旦有了信念,起飞就很快了。因为一旦人们开始看到缩放损失从那里开始。

太多了。我要把所有这些都分解一下,然后我会重新总结给你,以确保我正确理解了你。首先,你刚才说的一件事,你训练了一个月,一个 TPU 坏了,

这会结束训练过程吗?这会破坏训练过程吗?就像,像它对……一样强大和有弹性,TPU 张量处理单元,你可能还记得,如果你正在收听这个节目,Sundar Pichai 出来,他有一个大盒子,他说,“这是一个 TPU。”这个东西能够进行大规模并行计算等等。它基本上是专门设计用来……

训练模型,据我理解是这样的。所以假设,这个为期一个月的训练过程有多容易,大量的工程人才投入,以及实际运行过程的时间?这个过程完全崩溃并必须重新启动的可能性有多大?当然。在现实世界中,会发生随机的事情。你的硬件并不完美。

事实上,你会看到随机的位翻转,就像随机的量子位翻转,然后他们知道数据被破坏了。所以我们必须做的第一件事,或者像,你知道的,任何训练模型的人都是,你知道的,能够检查点和恢复。

所以你可以训练一些东西。如果它崩溃了,回滚到你知道好的最后一个检查点,然后从那里恢复。接下来你要做的是,你可以在运行中注意训练中的问题。所以如果训练运行正在进行,你会看到这个大的突变。你会说,“好吧,这可能不是一件好事。”

那么你如何判断何时发生突变并做出反应,以及能够进行日志记录和监控呢?日志记录和监控至关重要。没错。然后我认为第三件事是,你向训练架构中添加了很多类似于小技巧的东西,这些东西加起来就很多了。例如,让我称之为梯度裁剪。

你的梯度不应该超过某个值,所以你把它裁剪到某个值。所以如果一个例子进来,它会极大地改变你的神经网络的权重,你不会允许这种情况发生。每个例子改变网络的方式都有限。所以你把所有这些东西都加进去。所以这就像去除极端异常值,本质上是这样。没错。防止它将平均值拉到一个方向太远。正确。但这更像是需要管理所有这些的极端异常值。

但我认为这有点回到了机器学习中已经改变了很多的事情。因为如果你回到十年前,就像过去十年中的任何时间,2010 年到 2019 年、2020 年,一个机器学习项目必须包含很多工作,一个团队获取数据,一个团队训练模型,一个团队评估它们。然后,几个月后,你试图部署它,然后看看它是否真的以良好的方式影响了你的应用程序。这个十年,LLM 的十年,

现在有大型团队为你训练 LLM。作为它的用户,你不再需要担心了。你只需要拿来用就行了。所以你需要从一个想法到尝试一个基于机器学习的想法,一个预测性想法的时间,现在要短得多。可能只是几小时、几分钟。

我认为这极大地改变了我们思考如何开发和部署人工智能的方式。所以迭代过程已经从几个月缩短到可能几分钟。是的,我认为是这样。时间性能增益的数量级有好几个数量级。这很重要。好的。所以我要在这里总结一下所有内容。

尽我所能,你说的所有内容,因为我喜欢……我在做这些采访时会做大量的笔记,我喜欢处理我听到的所有内容,而不仅仅是点头。我觉得很多采访者只是做一些含糊不清的事情,但我认真对待这些事情,作为一个相对外行的人,作为一个非机器学习工程师。让我们谈谈机器学习的历史。所以从 2012 年开始,你说……

巨大的突破。图像模型变得非常好。我记得 Andrew Ng 机器学习课程中的第一个作业之一,这是有史以来最受欢迎的大规模在线课程之一,我相信是识别手写数字。哦,是的,它是。并对它们进行分类。是的。所以你可以给机器学习模型很多不同的任务,但其中一个是分类,它试图从图像中,分解图像并理解,好的,它可能是什么?我刚画的这个数字是 1 还是 7?对。诸如此类的事情。嗯,以及概率上,你知道的,

可能的结果,它可以做出的最佳预测。所以 2012 年,我们在图像模型方面取得了重大突破,它们变得非常好。然后在那个时候,我们作为人类物种,研究人员发现他们可以投入更多的 GPU,图形处理器单元,并行处理单元,

在这个上面,大量的计算。并且出现了两个机器学习阵营。一个专注于找出要放入模型的特征,这就像图像分类器,它应该如何工作。然后另一个阵营是什么?你提到有两个阵营。所以这大约是在 2012 年左右,也就是转向所有神经网络的转折点。是的。

在那之前很长一段时间,很多机器学习都是非常仔细地手工设计的机器学习,顺便说一句,它仍然发挥着很大的作用。例如,你将设计要用于图像的正确过滤器,这就像,我的图像检测器是什么?

或者对于语言,你将试图找出非常仔细地设计语言的句法结构。这就是句法是什么,这就是语法是什么等等。然后反过来就是不要硬编码设计,而是让数据告诉我们它应该是什么。所以无论你需要在图像上使用什么过滤器,让数据

让模型学习它。无论是什么句法结构、语法,都不要手工设计,让模型学习它。所以这有利有弊。这样做的好处是,如果模型能够学习它,它就会变得非常适应任何

你知道的,它可能存在于现实世界中,但共同状态实际上更难以理解发生了什么。所以它更像是一个黑盒子。所以模型做出预测,你会说,“我不知道你为什么做出这样的预测”,但是对。这很好。但归根结底,对我们所有人来说真正重要的是,嗯,这个,输出的质量是预测的质量。嗯,对。它是否会在用户使用产品时改善用户体验?

如果你考虑一下,用户并不关心它是如何构建的,香肠,以及它是手工编码的还是学习的。就像,“嘿,这真的能帮助我完成我的工作吗?”所以让模型自己决定,让机器自己学习的方法最终胜出了。是的,是的。我的意思是,就像一个实际的比喻,香肠,我向正在收听的素食者道歉。但是……是的。

很多人并不关心香肠是如何制作的。它是否负担得起?它是否美味?你知道,这些标准比,“好的,它的肉源是否符合道德标准?”或者是否有……你知道的,防腐剂添加,十年后可能会被发现是潜在的致癌物等等,对吧?或者,你知道的,肉的清洁度?

香肠的生产地点。这些考虑因素,对吧?有些人确实关心香肠是如何制作的,我们看到这种情况在人工智能领域中有所体现,很多人都在倡导某种无黑盒人工智能。是的,所以这很有趣……我不确定你会认为这是监督式还是非监督式,或者……

你会如何定义一个模型,其中已经为该模型提供了某种护栏和路线图,而不是一个从第一性原理通过其训练过程学习的模型?所以,所以他们,我认为主要问题是护栏在哪里?是的。就像它们是在系统设计中出现,还是在……你知道的,数据设计中出现,或者,

它们是在训练后出现的,这是现在很常见的事情,也就是你训练模型,然后在训练后,你做一些叫做训练后的事情,你鼓励它做一些行为,并阻止它做一些行为。所以我认为我们看到的是,与其让约束出现在系统设计中,不如让它们出现在数据设计和机器学习系统行为的设计中?

例如,数据质量和数据清洁度非常关键,因为这些模型本质上是数据的反映。如果你给它提供所有一种类型的数据,并且它们都以某种方式存在偏差,它就会给你相同的偏差输出。如果你告诉它一枚硬币总是 75% 的时间正面朝上,并且数据中就是这样,它就会告诉你硬币就是这样。

垃圾进,垃圾出。垃圾进,垃圾出。没错。然后在训练后,我们在最近几年,实际上是最近才学到的是,你可以使用强化学习来鼓励模型以特定方式表现,拒绝某些响应,接受某些响应。我认为我听说过 Entropic 的“宪法式人工智能”之类的术语。是的。RLHF 是另一个。是的。

我认为……所以,一个很好的例子可能是,LLM 花了很多时间在 Reddit 上,但它们可能也阅读了 Reddit 上很多糟糕的东西。就像很多……我的意思是,有很多子版块被直接禁止了,但仍然有大量极其有毒、令人讨厌的……或者像 4chan 之类的东西。就像,该模型可能在 4chan 上花了一些时间。但是,你知道的,训练后过程……

其中有基于人类反馈的强化学习。我认为 RLHF 就是这样称呼的。这些人就像,“哦,不,你不能那样说话。当你回答五年级学生的数学问题时,你不能像在 4chan 上那样说话。”也许所有这些东西都在那里,但它不知道对与错,它从……或者是什么……

你知道的,文化规范等等。就像它在训练后过程中学习到的那样。完全正确。我认为,我认为需要注意的一点是,我思考的方式是,嗯,

我们很容易开始将模型拟人化。对。我认为这很好。这是一件好事,因为这实际上是使用模型的最佳方式。你把它想象成一个人。你把它当成一个人来对待。这就是与之合作的方式。但是,很容易陷入认为它像人的陷阱。是的。它只是一个计算器。它是一个文字计算器。你输入一堆文字,就会输出更多文字。是的。

它只是预测下一个可能的标记。没错。这就是你从人工智能获得的任何 GPT 响应或任何东西,就像它认为正确的预测。我只是想找到拟人化。拟人化是一个很大的词,但它基本上意味着……

赋予人类不存在的人性。就像你可以将回形针拟人化,突然你就有了 Clippy,对吧?是的。是的。所以我只是想确保人们可能不熟悉的那个大词。我只是想定义它,我想更深入地探讨这个问题,但我只想快速回顾一下我的总结。因为我认为回顾历史非常有趣。所以基本上,就像几十年来,我相信我的理解是

传统观点是你必须在数据中提供路线图,或者你必须在训练过程中提供路线图。所以大多数人工智能都包含大量手工制作的数据语料库,这些语料库被输入到其中或被严格组织,对吧?就像考虑 SQL 查询而不是 NoSQL

存储数据库或类似的东西,甚至可能比这更不结构化,就像垃圾填埋场与购物中心,那里的一切都很好地分类和组织,对吧?从技术上讲,有很多原子,垃圾填埋场中可能有很多有用的东西,但它必须完全……要对垃圾填埋场中的所有东西进行分类并从中提取价值将是一项艰巨的任务,对吧?所以……

很长一段时间以来,人们基本上都在采用这两种方法。然后,在我们从 2012 年左右开始添加大量计算之后,嗯,我认为你说 2017 年、2018 年是 Transformer 出现的时候,这就是开始的全部原因,“嘿,我们可以对这些模型进行后训练。”它,

准确吗?我想确保我准确地捕捉到这一点,因为我正在与一位绝对了解这些事情的人交谈。所以我认为主要区别在于两点。首先,Transformer 的发明最初是为了语言,基于注意力的模型。所以一个是,我们没有一个好的方法来扩展一个语言模型,该模型在非常长的文本序列中都能很好地工作。

Transformer 是第一种方法。我当时想,“嘿,这可以扩展。如果你不断扩大它,它实际上是有效的。”扩展的意思是你可以让很多处理器并行工作,并且可以比只有一个核心处理器快得多地进行训练。

是的。所以我的意思是,规模可能在几个不同的方面。一个是计算,这就是你正在谈论的。就像我们现在有计算能力来扩展,因为我们投资了,你知道的,大约半个世纪的……

使用 GPU 和 TPU 来扩展机器学习计算的工程。第二是模型架构可以在不崩溃的情况下扩展。所以我们之前谈到的梯度不再爆炸,并且有一些方法可以使其更受控制。

然后第三个是,我们现在可以扩展所有这些数据,世界上所有的语言数据或我们拥有的数据。现在还有一个第四点,这很有趣,我认为这导致了人们兴趣的激增,那就是 Transformer 的架构,它的设计方式实际上非常适合,不仅适用于语言,也适用于视觉,适用于图像。

所以对于语言来说,它的工作方式非常明显。你知道,你取每个词或每个词的子部分,然后说,这是一个进入模型的小单元。对于图像,事实证明,你可以取像素,然后说,“嘿,这块像素也可以像一个词一样输入到模型中,把它当作一个词来处理。”在 Transformer 之前,我们没有一种方法能够非常非常好地将这两种模式结合起来。

现在同样的方法可以无缝地接受文本和图像两种输入,并在模型理解的相同世界、相同空间中表示它们。我认为这是第四个非常有趣的部分,它导致了更多的投资,因为人们开始看到构建单个模型的潜力,该模型不仅可以捕捉语言,还可以捕捉语言视觉。现在还有音频、视频,

基本上,如果你有方法将其标记化,那就是我们使用的术语,一种将其转换为标记、转换为机器理解的词的方法,它们现在都可以成为这个统一生态系统的一部分。所以这是一个非常令人兴奋的时刻,因为这是 Transformer 中的关键见解。你可以将它用于任何东西。是的。这就是为什么人工智能音乐……

艺术。人工智能。我使用这些词时加了引号,因为我不喜欢人工智能的滥用。但即使我认为它没用,它所做的事情也很令人印象深刻。我更愿意听人类创作或演奏的东西。所以就这样……

谨慎对待。我不是那种说,“我迫不及待地想看到好莱坞倒闭,这样我们就可以只使用人工智能演员等等”的人。我认为这不会特别引人入胜或有趣。我们将拭目以待。但我确实想指出,人工智能突然能够生成各种类型的图像,人工智能能够生成各种类型的音乐,以及人工智能能够生成的语音和

在本周播客节目中,freeCodeCamp 创始人 Quincy Larson 采访了 Jiquan Ngiam。他是一位前 Google Brain 工程师,正在构建工具,使 AI 对每个人都有用——而不仅仅是开发者。我们讨论了 AI 的力量及其实际能力,并将这些与围绕 AI 领域的许多炒作区分开来。本播客由 Wix Studio 的资助支持。Wix Studio 为开发者提供工具,可以快速构建具有所有开箱即用功能的网站,然后使用代码扩展、替换和突破界限。了解更多信息,请访问 wixstudio.com。本播客还得到了 11,113 位通过每月捐款支持 freeCodeCamp 的好心人的支持。加入这些好心人,通过访问 https://www.freecodecamp.org/donate 来帮助我们的使命。我们讨论了:- AI 代理的工作原理- AI 的发展方向及其局限性- 非开发者如何利用 AI- 开发者如何真正利用 AI你能猜到我在介绍中播放的是哪首歌吗?我们在谈话中讨论的链接:- Jiquan 的公司 Lutra AI:https://lutra.ai/- Jiquan 关于使用大型电子表格的生成式代理接口的文章:https://blog.lutra.ai/generative-interfaces-for-ai-agents- Jiquan 关于 AI 代理的 OODA 循环的文章:https://blog.lutra.ai/ooda-loops-for-ai-agents- Jiquan 提到的论文,可执行代码操作可以引出更好的 LLM 代理:https://arxiv.org/abs/2402.01030</context> <raw_text>0 逼真度,语音的真实感。我们 freeCodeCamp 的一位工程师只用了大概两三个小时,他们用了大约四个小时的时间让我朗读一本有声书。在 freeCodeCamp 播客的第 100 集中,我通过朗读我的书的有声书版本来庆祝。抱歉离题了,但如果你想听听,那就是使用的训练数据。然后她突然进去,让我流利地说西班牙语。

流利,尽管我的西班牙语很糟糕,她让我像这样用西班牙语播报天气预报,做所有这些其他的事情,这些我从未说过的话,听起来就像我一样,我当时想,哇,这太令人印象深刻了,但是很多这些不同的事情发生了,当然视频非常令人印象深刻,尽管它非常……不可思议,观看许多 AI 视频令人不安,但是……所有这些都非常令人印象深刻

大约在同一时间开始起飞。如果我理解正确的话,它们之所以同时起飞,是因为我们找到了将事物标记化并将其馈送到 LLM 的方法,以便我们可以利用其他媒体或其他(称为多模态)模式的 LLM。

我们可以利用我们已经在文字中利用的力量。因为我们已经有了一个很好的文字计算器,大概有六七年了。即使你去看看 GPT-2,它也不错。它可以写一些基本的,比如,“给我写一篇关于莎士比亚的读书报告”,对吧?我们已经有五六年能够做到这一点,而且效果相当不错。嗯,它可能在……你知道,五年级或六年级的水平。然后最近,你知道,它,

通过了律师资格考试等等。所以它在文本方面肯定有所改进,但是利用这种对文本非常有效的现象的过程,呃,

对于其他模式来说,这正是我们同时在许多不同形式的 AI 中获得这种大爆炸的方式。完全正确。事实上,关于这一点,我可能会说两件事。这真的很有趣,对吧?所以如果你想想你刚才提到的,你团队中有人拿了你的录音,然后把它变成了西班牙语,就像用在西班牙语母语人士身上一样。那么,模型需要理解什么才能学会这样做呢?首先,它必须理解如何在英语和西班牙语之间进行翻译。

事实证明,有很多文本是付费翻译的。有一篇英文文本,有一篇西班牙文文本,比如联合国会议等等。有很多这样的文本。所以它改变了这一点。有很多语音转文本,是从英语到文本,到内容本身。也许还有西班牙语文本,西班牙语到西班牙语口语文本。所以它在这里所做的是,因为它理解了一切,模型……

如果模型只在翻译上进行训练,它将无法理解语音。如果模型只在语音上进行训练,它将无法进行翻译,因为你可以从英语语音到英语文本。但是因为模型同时接受了语音和我们拥有的海量语言语料库的训练,

其中包括翻译。现在我们可以同时做这两件事,你会得到一个有趣的效应,你可以从语音到语音,你实际上并没有看到中间的转换,但它是一个端到端的黑盒。所以以前我们会设计一个系统,从语音到文本,再将文本翻译成语音。这实际上是人们会做的事情,但现在你可以一路走下去,这太迷人了。也许可以把它和一些编码联系起来。所以最有价值的训练数据实际上是代码数据。

所以我不确定我们是否讨论过这个问题,但我认为在训练 LLM 时,代码实际上是最重要的训练数据,因为代码是写下推理的最正式的方式。你是在说你要做这个,然后做下一个,等等。但是如果你用英语写,那就非常含糊不清,而代码非常精确。所以它是一种表达推理的方式。我们看到的是,随着模型接受越来越多的代码训练,它们的推理能力实际上确实得到了提高,即使是在非代码任务中也是如此。

现在有了这个,现在有了,比如说,同一个模型也理解图像。

所以你今年开始看到的是,还处于非常早期的阶段,你现在可以发送网站或模型的屏幕截图,或者你想创建的东西,然后说,“嘿,模型,编写代码来生成一个执行该操作的应用程序”。输入是图像,对吧?因为同样是由于它的多模态性,它能够将所有这些联系在一起,并说,“哦,这是我应该编写的 JavaScript 和 HTML 代码来生成该图片”。

这真的很吸引人,对吧?因为现在我们开始进入真正实用、有用的情况,比如,“嘿,网站有一个错误。这是一个错误的屏幕截图。模型能否实际找出代码中的错误位置并修复它?”我认为这是前沿技术,我看到人们尝试将多种模式在工程意义上结合在一起。是的。是的,它……

我只是想花一点时间反思一下你关于代码是人类表达推理和批判性思维的最正式方式的说法。与你可能相信的相反,如果你是一个哲学专业的学生,大多数人不会坐在那里。没有很多被付钱坐在那里写逻辑的人……

等等。大多数被付很多钱来认真思考的人都是开发者。他们可能正试图认真思考并提出所有这些极端情况和所有这些……

将设计规范转换成功能代码。他们这样做的方法是,他们弄清楚社区计算机将如何理解事物以及如何处理事物。然后他们倒着来。好的。我可以给计算机发出什么一系列非常精确的指令来一步一步地前进?所以这些傻乎乎的计算机可以做一些非常了不起的事情,例如,提供流媒体视频,或者使用,比如,

GPS 卫星数据来确定我的猫在房子里的哪个位置等等,对吧?所以我认为承认和理解这一点非常重要,开发者的一个关键能力是将我们周围自然世界的复杂性和模糊性限制在

可以由计算机确定性地运行的东西中,并且你知道它可以可靠地工作,然后弄清楚如何将他们刚刚编写的代码放入,比如,像你以前在 Google 工作时一样,Google 有一个著名的 20 亿行代码库,而且可能比这还要大得多,那是很多年前报道的,但我想它是运行中最大的代码库,但是

我的意思是,如果你考虑一下它的惊人复杂性,以及没有哪个开发者会真正对整个代码库的功能有任何最幼稚的了解,他们可能只关注其中非常小的一部分,试图理解那部分的边缘,以便他们可以将他们的代码放入正确的 API 端点等等。

我想在这里过渡到讨论 AI 在编码方面取得的这些突破,因为我知道那是你正在从事的工作。我们甚至还没有提到它,但你在两年前创立了一家名为 Lutra 的公司,该公司专注于基本上赋能外行人,相对来说是半技术人员,

拥有开发者的能力,使他们能够利用极其精确的代码指令的力量,并且能够将他们的人类自然语言指令转换成实际运行的代码。这对你试图做的事情的评估是否准确?是的,这是一个完全准确的说法。如果我们有时间的话,我很乐意展示一些快速演示。也许你可以口头地带我们浏览一下演示,因为很多人是听播客而不是观看。没错。

这是有道理的。所以他们可以在 Lutra 中做的事情,例如,一个非常常见的任务,我将举一个例子,然后我们可以讨论它在那里做了什么。当然。你可以告诉它,比如,“Lutra,你能去,比如说,找出旧金山的所有咖啡馆,然后把它放在 Google 表格中吗?”然后 Lutra 将会弄清楚如何使用它的工具,比如查找网络信息、搜索地图以及如何创建 Google 表格等等。

鉴于这是一个原生理解所有这些工具并能够使用你的数据、创建它的 AI,对吧?然后它可以做一些事情,比如为你填写电子表格,然后为你做更多的研究,比如,“嘿,对于你找到的每个地方,我想知道他们使用什么设备。我想了解更多关于他们的细节。他们正在招聘吗?他们有什么样的咖啡师?他们使用什么豆子?”所以你开始在那里做很多事情。我们的目标是看看我们能走多远,你知道,我们可以将多少重复的手动任务委托给机器

取决于这一点。而且,

让人们能够腾出时间去做更高级的事情,对吧?战略思维等等。现在,这其中的难点,很多这听起来有点像 AI 代理。是的。这就是人们所看到的。这其中的难点实际上是弄清楚,首先,什么是正确的,我称之为 AI 计算机接口,来构建,来弄清楚这就是 AI 应该如何,或者 LLM 应该如何考虑与软件堆栈一起工作,对吧?

首先。其次,它应该如何理解来自一个人,来自我们自己关于你想做什么的意图?从人机交互的角度来看,我们应该如何与他们来回互动?

然后你如何设计一个能够保持正轨、完成任务并很好地扩展的系统?所以我们所做的核心,我认为这对这个社区来说非常有趣,那就是与其让 AI 一次采取行动,比如进行网络搜索,做这个,添加一个角色,相反,我们所做的是让 AI 在幕后编写软件并运行软件。

这几乎就像你雇用了一位初级工程师,可以根据你的需要,为你即时编写软件,然后在那一刻为你运行软件。对。然后它能够查看它,修复它,继续前进等等。所以这就是我们在那里做的事情。现在,我认为目前主要的用例是,你知道,研究电子表格填写电子邮件,因为人们在电子表格和电子邮件上花费大量时间。而且,我们还可以做更多的事情。是的。

是的,好的,所以我整天都在使用电子表格。我整天都在使用电子邮件。我是一个超级电子邮件粉丝。我认为这个已经有 50 年历史的开放协议仍然比使用 Slack 等等要好得多。我们确实使用 Google Meet。

用于 freeCodeCamp。顺便说一句,我们并不是完全通过电子邮件通信来做所有事情,但我更愿意将所有内容都放在我的收件箱中,这样我就可以轻松搜索它,它是纯文本,我可以轻松操作文本,并且将来可以将其导出并以新颖的方式使用它。

而不是将其分散在 Twitter 私信、Slack 和所有这些不同的地方。我非常赞成将电子邮件几乎用作外部大脑,我不断地参考和搜索它。所以我觉得这很有道理。这只是一个随意的评论。将重点放在电子邮件和电子表格上首先是有道理的,因为你不能煮沸整个海洋。你确实需要专注。而这两个是非常……

高影响力的关注点。所以我想退一步,反思一下你刚才说的话。你说 Lutra 正在接收指令,它有点像,“好的,我明白了。”好的。它就像,它几乎就像在你说话的时候在编码。然后它,它运行代码然后迭代代码吗?就像它正在编写一个数据抓取器来抓取 Yelp 或类似的东西,或者合法地与 Yelp 的 API 交互等等。对。而且,嗯,

而且它发现,哦,这不起作用。就像它正在返回并迭代这段代码一样。就像这个端点可能已弃用。让我看看文档,你知道,诸如此类的事情。它是在这样思考吗?它是如何工作的?太棒了。是的,这是一个非常好的问题,因为我认为你已经说到点子上了,对吧?首先是模型,机器,它们第一次做不到。

因为它们会尝试一下,然后它们会说,“哦,等等,如果你去 Yelp 并四处点击,你就是在进行一些探索,并且你正在理解它正在探索的世界。”所以是的,我们的 AI 实际上确实会对此做出反应。所以它所做的是,我会将其描述为 OODA 框架。我不确定你是否听说过它。OODA?OODA。它代表什么?观察、定向、决策、

然后再次观察、定向、决策、行动。所以 Lutra 所做的是运行这个循环,“好的,让我观察一下世界,也就是,好的,你正在尝试这样做。你的电子表格是这样的。这些是标题。这些是其中的示例角色。现在定向就像,好的,基于此,

我的计划应该是什么?我应该如何打算更新这些数据或者我应该从哪里获取它?好的,我还不知道。让我去 Yelp 看看我是否可以正确获取 Yelp 页面。好的,让我们采取行动,说,好的,让我们只从 Yelp 拉取页面,看看我们得到什么数据。好的,现在我们得到了这些数据。好的,再次回到观察。让我们观察一下我们从 Yelp 获得的数据。好的,看起来我们想要评分、评论和数量,比如也许是最后三个评论反馈的摘要。

我们在本页上是否有?哦,我们没有。现在让我们尝试不同的页面。再次定向,再次行动。现在我们有了。好的,太好了。

现在我们有了它,我们可以更新它了,让我们尝试更新电子表格。让我们对一行进行操作。是的。好的。然后它成功了。好的。现在让我们对三行进行操作。它仍然成功了。现在让我们问用户,他们是否准备好对一千行进行操作?这就像将它的脚趾浸入完成过程中,看看它是如何工作的。在完全提交运行其脚本之前检查反馈。完全正确。所以我向你描述的任何内容实际上都字面地描述了当今平台上非常常见的用户体验。这就是现在发生的事情。

事实上,昨天我们……你看到它实时展开了吗?是的,你看到了。也许我们应该只是口头描述一下。所以,比如,“这样做。”而且,比如,对于 GPT-4 来说,你可以使用,比如,……它被称为,“代码解释器”,一段时间。我不确定他们现在叫它什么。但基本上,你可以运行……它会编写 Python 脚本,你可以查看 Python 脚本。作为一个开发者,我可以理解,比如,“哦,好的,我可以看出它为什么这样做。”

即使 AI 仍然是一个黑盒,但它正在创建这个代码,而这个代码就像它正在使用代码作为中间步骤来处理和继续前进。顺便说一句,OODA,我只是想为所有对这个首字母缩略词感兴趣的人重复一下。观察、定向、决策、处理。

这对机器学习来说并不新鲜。这实际上是美国空军开发的东西,我相信。这可能会敲响警钟。我们正在用我们军队的最佳实践武装 AI 等等。但这确实很有道理。所以……

只是为了理解,比如一个典型的用例,比如假设我说我需要——我们将使用你之前说的那个例子。比如我需要——我正在申请一份咖啡师的工作。假设我不是开发者,或者我是一个开发者,只是需要在某个地方工作一段时间,直到他们完成 freeCodeCamp 课程,对吧?实际上这是一个非常常见的用例,因为我总是告诉人们不要辞掉你的日常工作。

做任何你需要做的事情来维持生计。然后不要开始烧钱等等,只要存钱,在某个地方工作,每天学习几个小时。这就是我告诉人们的。所以也许有人正在听这个,他们想,“伙计,我没有工作。”我的建议,当然,只是去找到任何你能找到的工作,

这可能是一种你可以做到这一点的方法,你可以说,“嘿,给我看看所有,你知道,尝试列出我公寓两英里半径内所有我合理步行或乘坐我的……哦,你甚至可以说靠近主要地铁站,如果你在一个有地铁的城市,对吧?所以你可以传递所有这些标准,然后你可以观察它进行推理,最终的结果将是

比如一个 Google 表格,其中包含所有这些地方的细分,它们的可能薪水,它们是否可能正在招聘。你知道,你会得到营业时间。所以我喜欢我不喜欢夜班工作。比如你可能会发现你排除了 24 小时营业的咖啡馆,只是因为,你知道,经理说他们不会叫你加班。但总是会发生这种情况。比如我以前做过零售工作。这种情况总是会发生。对。

所以你可以输入你所有的不同标准,然后你可以用它来进行非常明智的求职。好的,比如我应该费心申请哪家咖啡馆当咖啡师,对吧?然后,你知道,它可能包括很多连锁店等等。如果它像一个,你知道,像一个一次性的商店或像一个较小的商店,比如我在 freeCodeCamp 播客上采访了田纳西州诺克斯维尔地区一家连锁咖啡店的总经理。他经营着大量的商店。他是一个开发者,他也是一个 Google 表格。

大师,他几天前在 freeCodeCamp YouTube 频道上发布了一个 Google 表格课程,如果你好奇的话,你想学习如何像开发者一样使用 Google 表格,但是

我离题了。所以你可以把所有这些都输入 Lutra,Lutra 会一步一步地向你展示正在发生的一切,以及所有决策过程,你甚至可以潜在地跳入它的决策中。不,不,不。我知道你接下来要说什么。这不是我们不关心的事情。比如,不要浪费你的时间去那里。就这样做。所以你可以像这样几乎可以微调提示信息。

某种程度上是交互式的,或者它是如何工作的?完全正确。完全正确。所以你击中了要害,那就是你到达那里,我知道 Lutra 开始执行这个,开始工作。你可以开始看到它在工作。现在,你提到的代码解释器,GPT-4,这是一种方法。但是如果你考虑代码解释器以及运行代码时,你实际上并没有看到很多输出。

对。除非你在那里放置打印语句,否则你什么也看不到。它只是运行,对吧?我的意思是,你可以告诉 GPT 在那里放置一堆打印语句。是的。所以我们正在研究的实际上是我们设计的东西,实际上是我们自己的一整套代码解释器环境。我们实际上编写了自己的解释器。这实际上开始说,“凯特,当你运行代码时,不要只是让它盲目运行,而是

我们如何能够非常巧妙地挑选出一些东西,当它在处理事情时,并向你展示那些部分?所以当它正在读取网站时,我们不会去读取网站,将网站打印到屏幕上。这没有意义。我们会向你展示一个小预览,比如,“嘿,这就是它正在读取的内容。”哦,它试图从网站中提取数据。这是一个小预览。这就是它正在做的。哦,它试图写入一个表格。哦,它现在开始写入两行了。我们可以向你展示表格,并向你展示它在哪里更新吗?以及展示的整个体验

生动地向你展示正在发生的事情,而不是在它完成时,而是在它发生时,这实际上是一个非常关键的部分。所以作为这个的用户,你可以看到它发生。然后当它像……你描述它的方式,我不知道它是否曾经以这种方式被描述过,但我过去做了很多结对编程,比如早期的 freeCodeCamp,构建 freeCodeCamp 进行了大量的结对编程。很多时候是我与比我更了解的人一起工作,他们正在看着我的肩膀编码。很多时候是我在观看并了解他们将如何做到这一点。

给定相同的问题,并且像,“哦,有趣。你正在做这个、这个和这个。”所以它有点像你几乎像是在他们的肩膀上冲浪,就像看着他们工作一样。所以你可以插话,你可以纠正他们。你甚至可能能够发现他们正在犯的错误,因为信不信由你,这些模型会犯错误,你知道吗?你可以说,“哦,不要使用这种方法。比如这里有一个更有效的算法”,诸如此类的事情。比如如果你真的知道如何编码,并且你看到它做了一些不好的事情,你知道,他们没有使用正确的搜索运算符,或者他们正在使用一些,你知道,

不再是最佳实践了。我将举一个这样的例子。所以 Lutra 的一个用例是,比如,“给我地图上的所有这些位置。”现在,也许你向当地企业销售,你就像,“嘿,这对我来说是一日游。我需要拜访所有这些地方。”啊,旅行商问题。所以我们中有人做了这件事,并且说,“嘿,我们可以让它解决这个问题吗?嘿,你能为我今天创建一个路线并将其放在地图上吗?”所以 Lutra 运行它,运行代码,生成地图。我们想,“伙计,路线不太好。有点奇怪,对吧?”然后我们想,

哦,你能使用两个操作算法吗,你知道,一些 TSP。好的。解决它。然后有时模型会理解这意味着什么。然后他们会即时实现该算法并开始运行它。这就像,“哇,这是一个很棒的路径了。”然后你能将你今天创建的整个路线转换成我可以导出到 PDF 的表单吗?是的。

然后它绝对像,“太好了,我可以为你创建一个 PDF。给你。”这是你今天的路线。它会生成它。然后在幕后,所有这些都是生成代码。代码非常有趣,因为它是计算机的母语。现在,如果你想象一个 AI 试图与机器交互,

对。它应该与 UI 交互吗?它应该与代码交互吗?它应该与某些东西交互吗?事实证明,代码是一个非常原生的事物。是的。我们可以更深入地探讨这个问题。但我还会提到另一件事,那就是当我将其描述为咖啡馆示例时,你可以开始考虑这一点。我们看到人们将其用于

用于许多超出此范围的事情。你有一份公司和潜在客户的列表,你正在与他们联系。也许你想与他们一起制作播客。或者不。你想更多地了解他们。现在,你能要求机器为你做所有这些吗?“嘿,对于所有我想与之交谈的人,公司或潜在客户,去了解更多关于他们的信息。他们在互联网上谈论过什么吗?他们最近参加过其他播客吗?”事实上,正在研究这个问题。而且,建立你拥有的信息的整个体验是 Lutra 非常擅长的事情。

我认为幕后是所有这些,呃,无代码驱动的事情。对。我认为可能交叉引用你通过……比如,比如,比如有一个会议,并且有一个抽奖活动或类似的东西,或者人们将他们的名字和名片放入一个碗中或类似的东西。所以你有一堆名片,而且,呃,也许你喜欢使用 OCR 光学字符识别来将它们放入 Google 表格或某种结构中。所以现在你有了某种临时,呃,

数据库,他们就像,“好的,这些人可能认识谁?或者这些人在 LinkedIn 上是否有任何共同的联系?”而且,我只能想象销售的应用,呃,

我对销售不太了解。顺便说一句,freeCodeCamp,我的推销技巧仅限于入站。人们每天都给我发电子邮件,比如销售人员和类似的人,他们想与我们合作或为课程开发提供资助等等。但我对销售知之甚少,所以请原谅我在这方面的幼稚。但是假设你试图向某个大型企业公司销售

比如,也许你创建了一些进入半导体制造的东西,对吧?你需要了解所有的人,你知道,有点像……

在本周播客节目中,freeCodeCamp 创始人 Quincy Larson 采访了 Jiquan Ngiam。他是一位前 Google Brain 工程师,正在构建工具,使 AI 对每个人都有用——而不仅仅是开发者。我们讨论了 AI 的力量及其实际能力,并将这些与围绕 AI 领域的许多炒作区分开来。本播客由 Wix Studio 的资助支持。Wix Studio 为开发者提供工具,可以快速构建具有所有开箱即用功能的网站,然后使用代码扩展、替换和突破界限。了解更多信息,请访问 wixstudio.com。本播客还得到了 11,113 位通过每月捐款支持 freeCodeCamp 的好心人的支持。加入这些好心人,通过访问 https://www.freecodecamp.org/donate 来帮助我们的使命。我们讨论了:- AI 代理的工作原理- AI 的发展方向及其局限性- 非开发者如何利用 AI- 开发者如何真正利用 AI你能猜到我在介绍中播放的是哪首歌吗?我们在谈话中讨论的链接:- Jiquan 的公司 Lutra AI:https://lutra.ai/- Jiquan 关于使用大型电子表格的生成式代理接口的文章:https://blog.lutra.ai/generative-interfaces-for-ai-agents- Jiquan 关于 AI 代理的 OODA 循环的文章:https://blog.lutra.ai/ooda-loops-for-ai-agents- Jiquan 提到的论文,可执行代码操作可以引出更好的 LLM 代理:https://arxiv.org/abs/2402.01030</context> <raw_text>0 对于那些可能需要使用它并可能使用竞争性工具的人来说,这是上游的,对吧?就像我说的那样,我也暴露了我对半导体行业运作方式的相对无知。“芯片战争”是一本好书,如果你对半导体制造及其历史感兴趣的话。但是……

假设你处于这种情况。也许你可以把它分解一下。像 Lutra 这样的系统在这种情况下如何提供帮助?哦,完全可以。也许我会继续。我举一个具体的例子。我们实际上有一位客户,他们制造医疗设备。他们为狗制造癌症筛查设备。好的。

他们把它卖给兽医,对吧?所以诊所遍布各地,你知道,就像癌症筛查一样。这是无创的,非常易于使用。成本在 10 到 20、30K 设备之间。他们正在寻找所有这些诊所来销售。他们就像,首先是咖啡店或诊所。他们想,我应该卖给谁?事实证明,首先你必须有相当大的影响力。你知道,如果你是一个非常小的组织,你可能买不起这个。你提到了兽医中的多位医生,你

你可能想要,他们意识到,如果你获得了特定的行业认证,AHA 是他们追求的目标,你更有可能成为一个好客户。

现在,所有这些数据都无法在某个你可以购买并说“哦,给我吧”的数据库中找到。但是,如果你查看这些诊所的网站,他们确实会提到这一点,因为这对他们来说非常重要。这些是我们的医生,这是认证等等。所以他们使用 Lutra 来做的是,“嘿,Lutra,我有一份对我有兴趣的人的名单。你能去查一下吗?首先,确定他们是宠物主人还是真正的医生。其次,如果他们是诊所的医生,嘿,他们的诊所是关于什么的?它有分店吗?

它有认证吗?他们今天是否为他们的宠物提供这种服务,比如癌症等等?如果他们这样做,就把列表缩减到这些。他们存在多久了?他们最近存在多久了?所以你可以开始要求它为你完成所有这些工作,编译这些数据,然后说,“好吧,现在我已经准备好确定这些是我应该追求的人了。”所以如果你遇到他们,如果你决定飞过去,给他们寄邮件,给他们发邮件,这将成为你联系他们的非常有针对性的方式。是的。

然后同样的事情不仅发生在对外联系上,也发生在对内联系上,因为他们也会像你一样获得对内兴趣。所以他们只是对控制进行尽职调查。所以如果你有很多对内联系进来,你如何对它进行分类?因为你不想把所有时间都花在那些可能不是你应该服务的真正业务的低质量对内联系上。所以我们说,“嘿,Lutra,所有这些对内联系都进来了。你能帮我整理一下吗?你能做这项工作,确定他们是否是我感兴趣与之交谈的那部分人吗?”

所以他们也可以做到这一点。所以数据处理,理解来自互联网的东西,这是 AI 真正擅长的一件事。我们把它发送到 GPT 中进行教学,但是把它融入你的流程、你的工作流程中,自动化它,并把它放入电子表格和电子邮件中。- 对,在那里你可以仔细检查它并确保它是准确的。你可以进行现场测试,就像人类强化一样,就像训练后的过程一样。

只要你可以在前端仔细检查代码,然后你可以在后端仔细检查数据的输出,你就可以相对有信心地继续进行,你知道,我一直对 AI 的一个挑战是,如果它是一个真正的黑盒,它真的有多有用……

但听起来,如果它正在从互联网上收集这些信息,而不仅仅是从它自己的权重中检索信息,那么你就会遇到更少的幻觉。哦,完全正确。我认为这实际上至关重要,因为我认为模型和我的预测实际上是,如果我们开始将模型视为推理引擎,那么模型就会非常好。

也就是说,输入知识,给出知识,给出你想要完成的任务,并让推理引擎、计算器计算出结果,对吧?

但是,如果你期望模型记住并了解世界上的一切,它就会混淆事实。它会混淆错误的决定,错误的事情。这真的很糟糕。因此,我们越能朝着将这些东西变成推理引擎的方向发展,这些推理引擎接受它们的上下文和输入,所有你关心这项任务的知识,它们的表现就会越好。有趣的结果是,我实际上认为模型可以更小

因为如果模型试图同时推理和记住世界,你需要很多权重,你需要一个很大的网络来做到这一点。但是,如果你只进行推理,你可能只需要更少的权重,不需要那么大。这就是为什么我们现在看到的趋势是,模型的推理能力正在提高,但并不是呈指数级地提高很多,它们仍然在一点点提高。但是模型的成本和速度正在变得更好。

因为在过去一年中,我们设法将模型大小大幅缩小,使其能够做更多的事情,但体积却更小。我认为这是未来几年将持续存在的趋势。所以我们将获得越来越智能的推理引擎,可以这么说。是的。我的意思是,这与我们看待教育的方式是一致的。当然,在美国,人们已经从试图灌输知识,填满人们的头脑转向了。是的。

因为人类可以使用令人难以置信的参考资料,对吧?他们有谷歌。他们有各种旧报纸文章的数据库,他们可以搜索等等。当然,他们还有 LLM 可以帮助他们提取信息……

例如,使用这样的命令:“嘿,帮我提取最近三篇关于这个主题的《纽约时报》文章。”诸如此类的事情,对吧?或者如果他们可以访问文章数据库,他们可以直接搜索《纽约时报》。因为参考资料如此普遍,信息得以保存并且可以访问,你不再需要在某个卡片柜中四处挖掘,或者四处寻找一堆缩微胶片等等。这意味着你可以更多地关注训练孩子成为

推理引擎。这是我对我孩子做的事情。我的孩子们会说,“嘿,爸爸,你知道 X、Y、Z 吗?”我说,“不,这是一个我很容易查到的模糊事实。”正如爱因斯坦(我希望不是杜撰的)所说,永远不要记住你可以查到的东西。对。嗯,是的,有可能,你知道,电网都瘫痪了,我们没有技术了,我会很糟糕,因为它不擅长识别牛奶蛇和……

无论哪种会杀死人的蛇。对,有两种,就像红色和黄色一样

呃,“杀死同伴”之类的。我不记得那是什么,但像在德克萨斯州长大时,你必须学会区分这两种蛇。我当时想,“哦,我可以在手机上查一下。”如果我像一只猫或某种野外的牛排一样,“这是危险的吗?”你知道,或者这是我可以捡起来玩的那种无害的吗?你知道?嗯,所以有这些类型的参考资料,显然,如果你想决定是否吃野生蘑菇等等,我可能不会依赖 AI 系统,呃,某种……

你知道,某种视觉处理系统会查看蘑菇并告诉我,“有毒,无毒”,你知道,那会很酷,但我不会把我的生命托付给它。但我的意思是,听起来我们现在对模型所做的事情是,我们将它们视为推理引擎,而不是试图将整个互联网都放入其中,并让他们能够以一种非常……

的方式调用它,人类经常会弄错细节,他们会记错事情,你知道,例如在审判中,第一手的证词被认为非常薄弱,因为人类是如此不可靠,例如,如果你在刑事审判中,有人说“我发誓那就是我看到从银行跑出来的那个人”,你知道,但这真的是他吗?你知道,人脑真的很反复无常,而且不可靠,这正是我想说的。但是

结合从互联网上获取的信息的可靠性,对吧?互联网的可靠性与初级开发人员智力水平的处理能力相结合,对吧?听起来这是一个非常强大的组合。事实上,你可以拥有一个更小的模型,成本更低,训练成本也更低吗?还是只是推理更便宜?是的。

推理是指你实际使用它的时候。更多的是后者。我认为更多的是后者,推理更便宜。因为我认为到目前为止你所看到的,也许只是一个例子,我认为 GPT-4,第一个推出的模型,

之后,只是 GPT-4 Turbo、4.0、4.0 Mini。如果你看名字,这些都是第一个大型模型的衍生品。对。所以我们发现,我们找到了一种方法来训练一个非常大的模型,然后创建更小的版本,可以这么说,就像大型模型的后代一样,它们几乎和大型模型一样好。

然后从那里开始。所以我认为会有这样的模式,即前沿实验室和大型科技公司将训练一个巨大的大型模型。之后,我们不使用它,而是用它来创建我们在实践中实际使用的较小模型。这就是我们在那里看到的。事实上,我认为最显著的一个可能是 Anthropic。所以 Anthropic 有一系列 clod 模型,其中 clod opus 是最大的一个。

但是如果你仔细观察今天的情况,每个人都使用 Sonnet,它是下一个尺寸的模型。

这是我们所有人都在使用的模型,而且它做得非常好。事实上,我认为 Podsonnet 3.5 最近发布的一些版本非常棒。它在许多指标和不同的场景中都表现出色。所以我认为我们将看到这种趋势继续下去,你仍然想要训练一个大型模型,但可能不是为了直接使用它。是的。

太棒了。为了明确起见,你使用的术语我不确定是否是正式术语,但你说像前沿模型本身,像那些真正大型且昂贵的模型,训练它们可能要花费数亿美元,而便携式模型可能在你的手机上本地运行。例如,Llama 有很多不同的版本。我认为 Gemini 也有不同的版本……

你会损失一些总性能,但你不会损失你想象中那么多性能,考虑到模型更紧凑,运行推理的计算强度也低得多。再说一次,我只想强调一下,对于那些不知道这个术语的人来说,我的理解是训练是制作模型的过程,然后

你运行模型并要求它做出预测。这个过程称为推理。这确实需要花钱。每次我运行 GPT 查询时,我都想,“嘿,GPT,讲个关于香蕉的笑话。”我女儿总是抓着我的手机,她总是使用 GPT。她总是问塞尔达,向王国致敬。但这确实需要花钱。就像五美分左右的计算量。

我认为一个方面是,我认为你抓住了重点,那就是训练是我们学习权重的过程。之后,我们固定权重,我们固定我们学到的东西,然后我们只使用模型进行推理。现在,训练要昂贵得多,因为我们通常必须拟合大量数据。当你运行训练时,你需要做他们所说的前向-后向传递,这需要做更多的工作来设置权重。而推理就像它被冻结了一样。它要简单得多。就像输入你想要的东西,然后得到你想要的东西一样。

我想我的想法是,很多年前,如果你还记得互联网时代、存储时代的开始,我有我的第一个,我记得我的第一个硬盘,我认为是 512 或 256 兆字节,这么大的笨重的东西。我当时想,“哦,我的上帝,我有 256 兆字节的存储空间。”我买了它。这太棒了。把它插上,在当时我的 56.6K 调制解调器上下载互联网上的东西。然后现在就像……

它就像免费的一样。就像,你知道,存储数据、互联网计算机一样,现在这么便宜。我认为这是未来 10 年我非常有信心的事情,对吧?也就是说……

推理的成本,甚至可能这些模型的训练成本将会下降得更多,今天做笑话查询似乎需要五美分,今天可能更像是半美分,甚至更少。在未来,它将成为几分之一美分,我们甚至不会考虑它。它就像你不用担心的事情一样。然后它将在……

这项技术开始渗透到我们使用的不同事物中,以我们不再看到的方式。你知道,我们现在将存储和电力用于很多东西,但我们不再考虑它了。

所以这就是我认为将会发生的事情的长期观点。这将非常令人着迷。我认为模型会变得更小,但与此同时,由于我们机器的计算能力的提高,例如以 iPhone 或 Mac 为例。你已经看到每年都会有一款新的 iPhone、一款新的 Mac,速度每年都会提高 30%,价格大致相同。这种情况将会持续下去。

对吧?如果你预测一下,唯一可能的事情是,当你普遍使用它们时,这些东西的使用成本会变得更低。所以,是的,对我来说,这真的很令人兴奋。我认为这有点说明了未来,那就是,当我想到 AI 时,我在这里有点漫无边际。当然,请说。历史上有一段时间,软件是为人们使用而设计的,

整个 HCI(人机交互)、UX 设计(用户体验设计)领域都像,我们如何设计才能让人们使用软件并成功使用它?这就是按钮所在的位置。这就是应该如何使用功能的地方,你可以点击等等。现在我认为有了 AI,第一步是我所说的“副驾驶”阶段,那就是即使软件是为人们使用而设计的,也很难设计好的软件。

如果你使用 SAP,如果你使用 Salesforce 之类的东西,它们是非常复杂、难以使用的系统。所以我认为第一步将是副驾驶,其中 AI 正在帮助你。这就是你如何使用软件。这就是你应该点击的地方。让我为你点击那里。但是当这些模型像我们讨论的那样变得越来越便宜时,将会有另一波浪潮出现,软件将

它不再是为了让人们使用而设计的,而是 AI 试图辅助它。软件是直接为 AI 使用而设计的。而现在,人类会去问 AI,“嘿,AI,我想完成 X。我需要你帮我完成 X。”然后 AI 会说,“好吧,我应该如何完成 X?”好吧,我可以四处点击 UI,但是如果系统是为 AI 使用而设计的,

那就大不一样了。现在 AI 可以采取许多行动,在那里做很多事情。所以我认为我的假设是,我们正处于一个范式的开始,我们将设计软件供 AI 使用,这是一种非常不同的思考方式,然后让人机界面、AI 人员界面,

可能仍然更像对话一样。所以你与它交谈,你让它做事情。它需要有方法让你理解它正在做什么。但在幕后,我们不需要让人们手动点击东西,因为那不是真正的价值。我们带来的价值不是点击。我们带来的价值是机器应该做什么?

我们的目标是什么?我们是否喜欢机器的输出?我们有品味。我们在脑海中对什么对世界有益有所有这些联系。AI 不知道这些。所以我们带来的价值就是这个。我认为未来 10 年,在我看来,这是一个范式转变的软件设计层。

而为 AI 设计软件和 AI 计算机接口将成为我们仍在摸索的全新领域。AI 人机界面,也就是用户、人类如何向 AI 提供指令,以及我们如何能够看到它正在做什么以及如何理解它。

是的。是的。这令人兴奋。我想更深入地探讨你的一些其他预测,因为显然我们可以考虑,好吧,在一个世界中,人类主要是在查看 AI 创建的软件并批准它并说“继续”,或者查看 AI 创建的软件并说“好吧,继续进行”是什么样的。是的。

也许 AI 会说,“嘿,允许我获得 20 美元,因为我需要 20 美元才能获得这个帐户,这样我才能做这件事,这样我才能完成 X、Y、Z。”这涉及到代理的概念。我想简要谈谈代理以及它们的工作原理和发展方向。也许你可以快速概述一下什么是 AI 代理以及它们是如何工作的,以及

你是否同意对 AI 代理的传统定义,或者你是否认为我们所看到的东西只是可能的冰山一角。然后,是的,我们应该赋予这些代理多少自主权?我们目前正在做的多少人类工作可以委托给代理?只是……

我知道你对此有非常有见地的看法。与其一次一个问题地尝试引出它,不如……

开始吧。告诉我你对 AI 的看法。总的来说,我认为首先,短期内它可能被过度炒作了。未来两年,我们将看到它被过度炒作了。但我认为未来 10 年它被低估了。比尔·盖茨说过,我们倾向于高估两年的进步,而低估我们在 10 年内可以做的事情。所以我认为 AI 处于同样的境地,那里有很多潜力。现在,我认为首先,

我认为这是一个非常令人困惑的术语。因为“代理”这个词有很多含义。每个人对它的定义都有不同的版本。如果你去技术社区,他们会从某种技术意义上定义它,比如它需要进行函数调用。它在一个循环中运行,等等。

如果你去不同的社区,那么那里的术语就完全不同了。是的,我认为就像房地产经纪人或旅行社,或者代表你做某事的人,他们拥有如何使用所有不同航班系统的专业知识。我不是很了解旅行社。几十年来我都没去过。但是是的,当我听到“代理”时,这就是我的想法。好的,很有趣。在我看来,这实际上相当不错。我认为在我看来,这实际上是自主程度的问题。

对。就像,你能做多少,你需要多少照顾,或者你需要多少,你知道,你需要和 AI 待在一起,才能让它完成一项任务?对。所以如果它非常,你知道,在经典的 AI 时代之前,它就像存在的更好东西一样。你是在做这项任务,点击四处,完成它。现在有了 AI 的第一个版本,我们称之为副驾驶,它们可以做非常小的步骤。它们可以为你点击一下鼠标。它们可以调用一个函数。它们可以为你做一些事情。

然后我认为人们看到 AI 代理的梦想是,你可以一直走到极致,那就是我有一些事情想要完成。我需要为我的公司找到更多客户。去找到这五个客户,并为我预订会议。在某种程度上,这是最终目标。但这也很困难,因为这是一个非常艰巨的任务,

很多上下文。完成这项任务意味着什么?如何做好它,而不仅仅是随意地、错误地去做它。还有,什么是成功?然后你再次与用户互动多少?这是我们思考很多的事情,它不是必要的。这不仅仅是让它完成任务,而是让它正确地完成任务。

我认为实现这一目标的方法不一定是试图跳到最后并使其发挥作用。更多的是看看我们今天身处何地。这几乎就像自动驾驶汽车一样。我们是否想让它说,如果你想驾驶它,你只需要在每个城市、世界各地自主驾驶它。或者我们是否想说,“嘿,我们能否首先在高速公路上驾驶?”

这很好。现在让我们进行城市驾驶。这是一个非常繁忙的城市驾驶。让我们做斜坡等等。所以你甚至可以看到 Waymo 或特斯拉的推出方式,他们是如何推出的。所以我们将看到代理采取这种形式。与其看到黑白分明的情况,“今天是副驾驶,明天是代理”,不如看到这种缓慢的、逐渐的转变,我现在可以将一项花费我五分钟的任务委托给计算机,而且它做得很好。现在我可以委托一项花费我一个小时的任务。哦,它做得很好。现在这项任务花费我一周时间。它做得很好?一个月。它做得很好?随着我们的不断前进,时间是我思考的维度之一,以及你可以委托多少。然后任务越大越模糊,制作代理就越难。现在,我如何看待我的代理版本,我如何定义它等等,

我认为它是从更以用户为中心的角度来看的,也就是我如何与 AI 互动?我是否正在提供这样的指令,“好的,现在点击左侧,现在点击右侧。”所以有时你会看到人们进行 AI 演示,其中演示有这个大型提示,

并准确地告诉它每一步该做什么,以及点击这里等等。哦,我为你制作了一个可以做到这一点的代理。对我来说,这并不完全正确,因为你正在提供所有指令。你真正想说的是,在旧金山为我找到五家拥有这种咖啡机的咖啡店,因为我试图向他们出售这种设备。

去,对吧?然后它能够从这些指令中弄清楚如何去做,完成它,等等。然后现在,我们将开始能够向它发出越来越高级的命令。随着时间的推移,对系统来说至关重要的是要具备一些东西,对吧?首先,它需要了解如何使用世界上的工具,如何使用网络,如何使用你的电子表格,如何使用你的电子邮件。其次,如何将你的命令解释为如何与工具交互。

它需要构建我们讨论过的 OODA 循环,如何观察、定向、设计和行动。这非常关键。它需要找到正确的平衡。这里有一个平衡点,即向用户、人员寻求澄清和帮助多少,以及自行继续进行多少,对吧?因为你最不希望它做的事情是,你花了两天时间来处理这件事,你花掉了 100 美元,而你做的事情完全错误。是的。你会想,“该死,你怎么了?”对吧?然后,但是你想要什么?就像,你希望它进行检查。

但是如果你过于频繁地进行检查,它就会变得非常烦人。因为它就像,“别再检查我了。我可以自己做这件事,因为我花了太多时间监督你做这件事了。”

在本周播客节目中,freeCodeCamp 创始人 Quincy Larson 采访了 Jiquan Ngiam。他是一位前 Google Brain 工程师,正在构建工具,使 AI 对每个人都有用——而不仅仅是开发者。我们讨论了 AI 的力量及其实际能力,并将这些与围绕 AI 领域的许多炒作区分开来。本播客由 Wix Studio 的资助支持。Wix Studio 为开发者提供工具,可以快速构建具有所有开箱即用功能的网站,然后使用代码扩展、替换和突破界限。了解更多信息,请访问 wixstudio.com。本播客还得到了 11,113 位通过每月捐款支持 freeCodeCamp 的好心人的支持。加入这些好心人,通过访问 https://www.freecodecamp.org/donate 来帮助我们的使命。我们讨论了:- AI 代理的工作原理- AI 的发展方向及其局限性- 非开发者如何利用 AI- 开发者如何真正利用 AI你能猜到我在引言中播放的是哪首歌吗?我们在谈话中讨论的链接:- Jiquan 的公司 Lutra AI:https://lutra.ai/- Jiquan 关于使用大型电子表格的生成式代理接口的文章:https://blog.lutra.ai/generative-interfaces-for-ai-agents- Jiquan 关于 AI 代理的 OODA 循环的文章:https://blog.lutra.ai/ooda-loops-for-ai-agents- Jiquan 提到的论文,可执行代码操作可以引出更好的 LLM 代理:https://arxiv.org/abs/2402.01030</context> <raw_text>0 是的,有句谚语说,如果你想把事情做好,就自己动手。这句谚语之所以流行起来,其中一个原因是,我很大程度上认同这一点,顺便说一句,我几乎所有能不干净利落地委托给团队成员的事情都是自己做的。没错。这是因为你确实必须投入大量资源来监督并确保它做得正确。

如果做得不对,当然在某些情况下,这非常重要,对吧?比如,如果我把工资单交给某人,而某人正在为我发送工资单,他们犯了一个错误,那么就会有人没有按时收到工资,或者可能是我们必须联系并想办法取回的电汇。国际电汇并不容易退回。诸如此类的事情,对吧?所以,如果风险足够高,那么将其委托给系统就不一定有意义。那么你如何得到它呢?我认为这里真正需要理解的是,这……

不仅仅是委托,而是正确地委托。但什么是正确的,可以说是见仁见智的,对吧?你做工资单的方式与我做工资单的方式不同。所以你不能有一个 AI 系统可以为每个人做工资单。这没有意义,对吧?你几乎需要,就像一个人会做的那样,进行培训。比如,你如何教一个 AI 系统程序,做事的方法?一旦它学会了,

它能否反复可靠地继续执行?它能否相应地对世界做出反应,并在出现意外情况时向你反馈?让这种情况发生。所以在 Lutra,我们思考很多的一件大事实际上就是这个,就像程序记忆一样,训练一个系统。我认为这是非常关键的一个方面。我认为你明天不会看到的是,哦,到处都是 AI 代理在做所有事情。不,你会看到正在学习的 AI 系统,

它们能够来了解你如何做事。你必须教它们,你必须向它们展示如何做某事。然后你会可靠地做到这一点。然后我认为渐进式变化可能会发生在这里,你开始教它们非常小的任务。比如这是我的电子邮件。每天我都希望你浏览所有邮件,对每封来信进行此类研究,只让我知道真正重要的几封。第一天,将对其进行培训。现在这已经相当不错了。第二天,说,嘿,等等,

现在这真的很好,但我仍然希望你开始按照这种格式起草回复。这是我的指导方针。每次起草时都要遵循这些指导方针。这已经相当不错了。哦。

看起来不错。我发送的每一封电子邮件我都无需编辑。现在就发送它们。然后你会说,哦,你能回复我的第一封邮件吗?所以你开始一步一步地深入一点,让它做更多的事情。但这不会是那些一夜之间到处都是的那种情况,因为你想使用你的 AI 的方式和我想要使用我的 AI 的方式将会不同。因此,我认为这种程度的培训个性化将至关重要。每家公司都有不同的设置。因此,我认为这项技术对人们来说越容易塑造

到他们自己的用例中,就越重要。所以我认为这就是我认为代理的发展方向,这就是它将要发展的地方。最初很小,任务很小,但与其一夜之间转变并无处不在,不如说我们开始看到它很容易委托更多任务并将其扩展。因此,它开始以这种方式渗透到我们生活的每一个部分。

是的,这很有趣,可以考虑一下这项技术,这个 AI 代理,如果你将其视为一种与你可以提示和查询的 LLM 以及不同的 AI 工具不同的离散技术,例如使用 AI 将图像自动扩展到一定的清晰度,或者扩展墙壁以具有与你身后相同的壁纸。我的意思是,这很……

肯定会有这类事情发生。但是,我认为代理是一种离散的……

就像建立在下一个大的步骤之上,在我看来,下一步将是从你将一个非常具体的任务委托给 AI,到将一个非常抽象、复杂的任务委托给 AI,这将涉及大量的推理和多步骤,并且可能还需要经常检查。因此,为了回顾你所说的一些内容,

系统必须了解如何使用人们用来完成工作的世界的工具,网络、电子邮件、电子表格。它需要了解推理和理解世界的方法,例如 OODA,它代表观察、定向、第三个是什么?决定,是的。决定和行动。行动。是的。观察、定向、决定、行动。好的。

好的。然后它还需要了解多久与用户联系一次。有些用户将比其他用户更不费事。所以这可能需要高度的个性化。每个人都会有自己想要完成事情的方式。人们会说,不,不要那样做。那适合业余爱好者,其他人则说,哦,没关系,随便。你知道,就像建筑师、高级软件工程师、首席技术官或一家大型公司的工程主管一样,

财富 500 强公司,他们对这个问题的考虑方式与在旧金山经营科技初创公司的人大相径庭,对吧?比如,对于失败以及诸如此类的事情,会有各种不同的方法和可接受性,对吧?比如,当你进行黑客马拉松项目并且只是让你的几个朋友注册时,数据泄露并不是什么大不了的事情。当你是一家医疗保健提供商时,数据泄露会产生巨大的法律影响。

对。所以,就像这样的不同考虑因素。所以我可以看到这些代理需要变化和个性化的许多维度,或者我可以看到其中的一些维度。所以这将是一个可能需要几十年的过程,然后这些代理才能真正成熟。

但我们已经做到了。我的意思是,在你正在构建的东西以及许多其他人正在构建的东西中,我们看到了这个过程的起源、开端,这对我来说非常令人兴奋。

是的。这超级令人兴奋。我们看到了人们可以使用我们的平台做什么,我们对此感到非常兴奋。昨天有人……哦,这很公开。所以他们把它放在 Reddit 线程上。他们说:“嘿,我有很多书,他们正在经营一家书籍类型的初创公司。他们说,我需要获取所有这些信息。”很明显,他们不是那么机械化。

他们说,他们可以提示 Lutra,我想告诉它,嘿,你能帮我解决这个问题吗?把它输入进去。然后你可以看到机器开始推理事物,并经历不同的步骤,然后说,哦,天哪。然后他们最终找到了解决方法。

看到它奏效时真是太神奇了。事实上,几周前的一位用户给我发消息,告诉我他给了 Lutra 一个相当含糊的命令。就像他有一堆公司需要研究,他说,哦,是的,你能去了解一下它们吗?这并不明显问题是什么,但 Lutra 进行了一次网络搜索,找到了数据。然后我说,等等,这不是错误的数据。我应该尝试更具体的网络搜索。所以我们重写了提示,

到其底层的网络搜索引擎。然后在那之后,再次运行它,它得到了正确的结果。我们在这里看到的是,这些模型在给定正确的支架、正确的环境的情况下,可以编写代码。你可能会看到很多周,它们可以编写自己的提示。它们可以开始推理它们,并且可以开始在这个迭代并使其变得更好的推理循环中运行。现在,我认为在这个领域中我们仍然面临许多挑战,正在开发这个领域的一个挑战是

模型有时确实会进入循环,你知道,然后得到所有这些。是的,我们已经看到了许多模型陷入循环并消耗大量计算成本的滑稽例子。我相信他们都一样,我们正处于起步阶段,将会有很多类似于断路器之类的东西被想出来。没错,然后上下文窗口是有限的。它们不像那样大。因此,很多设计都用于我称之为模型周围的支架,其中模型就像推理引擎大脑。

但你不想把所有东西都给它。只需提供所有上下文即可说,走,走,走。你想要仔细考虑你给它什么,如何给它,以便每次它都在难题的一小部分上进行推理。所以它不是试图煮沸海洋。我认为我们在这里应用的概念之一是我所说的抽象级别。所以如果你试图让一个模型

说,确定要点击哪个像素,他们说你正在浏览某些东西,说点击那个,对吧?与说像完成这项任务这样的更高级别的任务相比。比如,你知道,我需要你去这个网站登录并获取这些数据等等。现在这些是截然不同的抽象级别,对吧?其中一个是关于如何实现目标的高级推理。另一个是关于嘿,我应该点击什么具体位置,我应该调用什么 API 等等的非常低级的推理。

我们花费大量时间设计的事情之一是如何让模型始终在一个抽象级别上运行,而不是同时运行两个级别。因为几乎就像,你知道,作为一个普通人,如果我们要坐下来说,好的,修正这篇写作中的所有语法错误,你可以向下扫描语法,但这就像修正所有语法错误,同时还要弄清楚整个高级故事情节是否有意义。这两种事情是不同的。你不能同时做这两件事。

对。因此,弄清楚要使用的正确抽象级别,当你使用这个模型时,这实际上是一个非常有趣的设计问题。

所以你的意思是你可以把它分成几条轨道,比如让一件事情考虑这件事,而另一件事情处理这件事。因为就像你说的,就像我校对过数千篇文章一样。我是主要编辑。我是 Free Codecamps 出版物的唯一编辑,该出版物已出版了 12,000 篇文章,持续数年。话虽如此,我可能只编辑了几千篇,然后我们把它交给了 Abby,她……

正在做你刚才描述的所有事情。她正在阅读文章。她正在捕捉语法错误。当她阅读时,她正在对单词进行重新排序并收紧措辞,使其更接近六年级的阅读水平,以便非英语母语人士更容易理解事物,并且

你知道,将内容分解成更小的段落。如果你真的想让人们阅读你的作品,作为编辑你会做的所有事情。如果你正在撰写学术期刊,你不会关心这些事情。但如果你正在撰写人们在午餐休息时间阅读的东西,你真的想让它易于理解,对吧?如果它具有广泛的……所以……

所以这可能涉及多个不同的模型并行工作或相互传递事物。比如,来,去做这个。比如,好的,你能把这个带给我吗,然后我再接手。所以你说的可能是拥有几个——这将是使用多个不同模型的同一个代理,还是它会以不同的方式提示自己以使自己处于不同的思维状态?是的。

所以我认为这是一个,所以我认为是这样的,从模型的角度来看,这都可以通过同一个非常大的模型、不同的提示来实现。但是提示本身,方式,你知道,就像,所以再次想想它们是文字计算器。如果你试图同时进行两次计算,那么输出应该是什么会非常混乱。你知道,如果你只进行一次计算,哦,这很简单。这应该是输出,对吧?所以

所以你可以始终让它成为两个提示,一个提示做 X,一个提示做 Y,然后你这样做。现在计算器将同时处理这两个提示。只是不要试图同时进行两次计算,因为这有点混乱。现在你可能想要在意识到这非常有效时使用不同的模型。我可以更高效吗?我可以更高,甚至质量更好、速度更快、成本更低吗?这就是你想要构建专用模型的地方。

现在提示被锁定,任务被明确定义,你知道你想要优化它,而且你并不真正关心计算器,这个计算器在这个提示上处理任何其他提示。那么为什么会有这个大型模型闲置着,它可以做其他工作,而你并不真正关心它做其他工作呢?但这就是你拿它说,好的,让我们微调成一个计算器,一个更小的模型,只做一件事。这样做的好处是,当你这样做时,它会更快、更便宜、更好。

所以这是人们在达到这一点时会做的事情。我有很多快速的问题。第一个基于你之前所说的关于拥有一个非常专业的模型的内容。你在 Waymo 工作过,Waymo 是 Google 的自动驾驶汽车部门,对吧?比如,你在那里工作过吗?是的。

我在 Google Brain 工作过,但我参与了与 Able 的许多合作。我的名字出现在他们与他们一起发表的许多论文中。酷。所以这有点像一项专门的任务,只是在物理世界中驾驶汽车,对吧?有三个维度,对吧?你之前谈到汽车必须处理梯度之类的事情。

很多不同的,不是字面上的梯度,比如在旧金山开车,到处都是疯狂的山坡,对吧?不仅仅是梯度下降等机器学习概念方面的梯度。你认为自动驾驶汽车进展如何,你会认为这是一种

非常受益于 LLM 的问题吗?你认为 LLM 会帮助改进自动驾驶吗?

首先,我认为它们进展得非常出色。因为如果你最近去过旧金山,你可能会经常看到人们乘坐 Waymo。它取得的进步令人惊叹。这又是那些事情之一,它不像阶跃函数转变。它就像慢慢渗透进来,越来越多的人乘坐它,它变得越来越好。然后特斯拉也看到了很大的改进。LLM,巨大的作用。LLM 有两种方式。一种是架构方面,我们讨论了这种架构,这种模型允许你摄取不同的模态。

所以同样,自动驾驶汽车有很多传感器,对吧?因此,能够输入所有这些数据并从中获得混合感,非常重要。能够预测不仅仅是物体在世界中的位置,还要预测做什么。这还涉及到很多机器学习,包括行为预测、规划预测等等。而 LMPAC 技术实际上非常适合成为这些预测模型的基础部分。但最重要的是,真正有趣的是,当你开始结合语言模型时,比如实际的

自然语言与驾驶系统一起。我们开始看到的一件事,以及关于这方面的许多论文,比如 Wave 是一家在这方面发表论文的公司,那就是你可以开始……自动驾驶汽车模型中的一个问题是你通常无法弄清楚模型试图做什么?它就像一个黑匣子,对吧?它预测我们现在应该左转而不是撞车,但为什么?事实证明,有一些前沿研究表明,将语言模型附加到该模型上

现在汽车不仅可以预测该做什么,还可以开始发出其推理。比如,哦,我正在四处移动,因为我看到那里有一个行人。看起来像一个可能移动很快的行人。所以我在这里会更加小心。所以很多前沿……你有点像给汽车赋予了良心,就像思想流一样。我不想使用“意识”这个词,因为人们可能会认为它是有知觉的。但基本上是一种表达其决策的方式,并且……

甚至可能通过这些决策进行推理,比如经典的电车难题。假设这里有一个人,那里有三个人,刹车失灵了。我们撞哪一组人?显然,这是一个非常可怕的例子。但在某种程度上……

将其连接到 LLM 将会赋予它,你知道。你听到这些事情。我认为你得到的是,你获得了更多洞察力,这有助于两件事。一件是正在研究这个问题的工程师。你也许可以更好地调试它,弄清楚发生了什么。从 UX 的角度来看,这很有用。我仍然有点不确定我是如何创建它的。我认为还需要做很多工作,但我最近看到不同团队发表了很多前沿研究。

但我认为我们可能在更高层次上会看到的是,我认为我们会看到不同事物的融合。我认为我们仍然会看到非常专业的模型。我们真的想让行人检测做得很好。

对吧?因为这对我们来说非常重要。所以让我们拥有专注于确保我们捕捉到所有行人并围绕其设置指标并记录所有内容的模型。如果你在一个繁忙的停车场,不要错过任何东西。然后我们有更通用的模型。摄取世界上所有传感器数据并预测我们应该在哪里驾驶。

对吧?去哪里,如何转向,所有这些。然后我们在幕后有更经典的机器人技术方法,即,鉴于 LLM 或 AI 机器预测的驾驶路径,我如何改变执行器模型才能实际驾驶?这就像经典的机器人技术,我们不需要 AI 来做这件事。我们只需要解方程,我们就可以计算出平稳的驾驶控制。

所以你有点需要,我认为,所有组件都非常完美地协同工作。你会获得非常平稳的驾驶体验,不会出现抖动,因为系统中有一些系统可以管理抖动等等。你会对看到行人,尤其是小孩子等等时,他们会

做正确的事情并关注他们。然后你有一个 AI 系统,它就像,天哪,世界上有很多边缘情况,有时你开车经过,正在进行施工,那里有一个人挥舞着标志,他们说,不行。你不能硬编码这个。所以你需要一个从数据中学习的系统。事实上,我最好的例子是,你知道在一些交叉路口,他们有拿着停止标志的人来帮助孩子们在放学时间过马路吗?

我记得有一个例子,负责此事的家伙把标志放进了他的背包里,因为他已经下班了,开始骑自行车回家。所以这个停止标志正在移动。如果你天真地硬编码了这一点,汽车会说,停,停,停,停,停,这还在继续移动,这是正在移动的标志。你永远不会走。但如果你从人的角度来看,很明显那是一个人,停止标志没有激活。

对,所以就像在非活动停止标志中你不应该那样做,那么你现在如何解决这个问题呢?世界上边缘情况是无限的,但是有了足够的数据,你就可以开始学习泛化,而如今这些模型真正酷的地方在于,你不仅可以通过在墙上行走并记录汽车上的数据来获取数据,你还可以说,嘿,去阅读整个互联网数据,其中有很多

我相信你可以用 Google 搜索有关停止标志、规则等等的信息。还要使用那个——是的,阅读人们获得驾照时阅读的交通规则书。没错。然后获取该数据,但你阅读的内容,对世界的理解,一般知识,但将其用作驱动汽车的模型的一部分。现在你可以说将知识从不同的来源转移到那里。所以也许这就是你关于 LLM 在哪里发挥作用的问题?我认为这是一个非常令人兴奋的地方,我们可以将知识

在系统之间转移,而不仅仅是依赖于,我们必须收集所有汽车数据并仅使用它,你知道,世界知识可以进入这个难题。是的。是的。所以几个非常快速的问题。告诉我你对 LLM 在未来如何发展的悲观预测和乐观预测,

我知道这是一个很长的时间,很难预测那么远。但是很多人说,哦,将会出现收益递减,将会出现越来越多的资金追逐越来越少的收益等等。你认为未来五年 LLM 可能会发生什么?我会告诉你我的情况,然后我们可以讨论这两个极端。我认为将会发生的平均情况是,所以一个是,我认为我们处于 S 曲线上。

好的。就像,许多人看到 LLM 就说,哇,指数增长,飞向天空。不,就像,不,我就像,实际上,不,我们更像是处于这条曲线中,它向上变平,然后它会再次变平,就像 S 曲线一样。但我们处于许多 S 曲线上。所以这就是悲观和乐观之处。

所以我对推理能力飞速发展有点悲观,就像,哦,我的上帝,这将是超级 AGI。我可以推理任何事情。我认为我们更像是处于推理曲线变平的下一部分,这就像,好的,我们没有数据可以推理了。LLM 非常擅长预测下一个词,但是除非我们获得更多推理数据,否则这很难,对吧?有一些策略可以让我们进入那条 S 曲线的下一部分。

现在我们正处于许多其他事情的 S 曲线的开始阶段。我们正处于视频生成、3D 世界的开始阶段,了解 3D 世界的工作原理。我们正处于那里的 S 曲线的开始阶段。所以你会看到基于视频的模型等等,你知道,仍然有很多机会变得更好。图像模型,我们也处于开始阶段,我认为我们正处于那里的 S 曲线的中间阶段,这就像图像模型现在已经非常好了。在达到 S 曲线的顶峰之前,它们还有很多方法可以改进。

在那里。所以我认为是这样的,悲观和乐观的情况。悲观的情况是,我们只是触及了这个 S 曲线的其他部分,然后我们说,天哪,在那里无法取得更多进展。乐观的情况是,我们找到了新的 S 曲线可以继续前进。我们找到了一种新的推理方法,我们找到了一种新的方法来做到这一点。然后模型会越来越好。这有点像从能力的角度来看。现在从成本和速度的角度来看,我非常乐观。

我不确定这是否是一个坏情况,那就是成本和速度几乎肯定会随着芯片的改进、产量的增加以及我们不断在这方面获得规模经济而变得更好。现在有很多基础设施投资。所以事情会变得更快、更便宜。我们肯定知道我们可以使模型更小,并且仍然具有相同的性能,而且我认为我们正处于该 S 曲线的开始阶段,我认为是在中间点。

所以更小、更便宜、更快。所以我对那部分非常乐观。好的,更小、更便宜、更快。我只想在这里回顾一下。所以你认为就 LLM 的批判性思维和推理而言,我们可能正处于该特定 S 曲线的顶峰,可能会有另一个 S 曲线被一些新的发现解锁,比如转换器是一个非常重要的发现,它推动了我们今天讨论的几乎所有内容。但你非常有信心的一件事是……

价格性能和实际可能的性能将继续增长。你认为这不是 S 曲线。你认为这可能更类似于摩尔定律,或者至少像线性一样……

你会如何描述它?如果你必须挥挥手,曲线会是什么样子?哦,它仍然是 S 曲线。它绝对是 S 曲线。所以它是一条 S 曲线,但我们正处于它的开始阶段。好的,我们正处于价格性能和速度 S 曲线的开始阶段,以及模型变得更小的 S 曲线。模型变得更小的 S 曲线,但它正处于开始阶段。我认为部分原因是,存在这样一个概念,即某些东西非常容易并行化

有些事情在计算方面可以说是令人尴尬地并行。系统的一部分具有这种特性,或者说是转换器。你可以并行化事情。注意力机制中有很多并行性。因此,由于这种特性,你可以投入更多的芯片来处理事情,而事情会因为并行性而变得更快,首先是这一点。其次,我认为,随着我们开始锁定或试图理解,“嘿,是什么架构真正驱动了这一切?”

你越专注于弄清楚计算应该如何进行,你就能生产出更多专门为这些计算而设计的专用芯片。我认为在转换器之后,我们可能会发现更多范例,但这个范例相当不错。你不需要创建一个能够执行你所关心所有其他工作的计算芯片。只需说,“嘿,专注于推理并做到这一点。”事实上,在谷歌,第一款TPU芯片,他们为张量处理设计的第一个芯片,是为推理而设计的。

因为他们意识到,“嘿,我们可以训练模型,但推理将是困难的部分。”所以他们设计的第一个芯片就是关于这一点的。然后在接下来的版本中,他们使其越来越灵活。因此,从这两个角度来看,它只会变得更便宜。我认为某些事情上会有一些物理上的上限,也许是成本方面。但我认为这将是时间跨度。我们的手机、我们的机器、我们的设备,目前一切仍然遵循这一趋势。

是的。是的。另一个……哦,对不起。请继续。不,不,请继续。我想,也许会改变的是,你知道,像苹果设备一样,我用的是iPhone,对吧?因为它们内置了神经处理芯片,我认为有趣的是,你知道,一些最新的进展开始只能在最新的手机上使用,对吧?最新的设备。所以我认为我们可能会开始看到也许是这样的情况,是的,那就是……

你可能想使用,你知道,我认为有一套新的设备,其芯片是为机器学习设计的,芯片是为神经网络推理设计的。你不认为这只是炒作,像在所有东西中都加入AI芯片?你认为不会吗?不,不,不。所以,我的意思是,例如我个人使用AI,我最近经常使用JetGBT语音模式,我对着它说话,它告诉我,当我开车时,当我开车去上班很远的路程时,M-Shot也开车,我对着它说话,它为我写笔记,创建笔记。

现在这从我到手机再到互联网。我完全可以预见几年后,这将只在我的手机上运行。互联网没有参与。我们个人设备上的芯片将变得足够强大,可以开始为我们完成很多工作。

是的,非常酷。我还有一个问题,你认为开放权重与专有基础模型(如GPT-4与Llama)相比,它们在能力方面将如何表现?你认为Llama最终会赶上,还是会永久地落后六到八个月?你如何看待这场竞争?哦,让我们看看。

首先,我要对Meta、马克和他的团队表示衷心的感谢,感谢他们开发了Llama。我认为这确实以一种非常好的方式改变了生态系统的动态,对初创企业来说是一种非常好的方式,对创新来说也是一种非常好的方式。所以我真的很感激这一点。第二点,我认为他们不会总是落后那么多。首先,Meta是最大的

因为它是拥有如此多GPU芯片的最大参与者之一。很少有人拥有笔记中的芯片。我认为他们拥有数十万个芯片。很少有人拥有那么多芯片可以使用。如果他们愿意继续这样做并继续投资于此,他们也拥有所有数据,对吧?他们拥有大量可以用来训练的数据。图像、视频、文本数据、互联网文本数据,

我认为他们拥有训练这些模型的所有能力和技能。从秘密研究的角度来看,我认为几乎没有什么秘密方法。更多的是在工程挑战方面,如何以可靠、可扩展、快速等方式扩展系统以训练如此大型的模型。所以我认为从秘密研究的角度来看,他们没有理由落后六到八个月。现在,一些实验室确实领先。

这绝对是正确的,但我预计从长远来看,领先优势会随着时间的推移而缩小。事实上,我甚至敢于猜测,在某个时间范围内,开源可能会比我的封闭源实验室更快。因为随着计算能力的提高,随着创新的发展,我认为创新的速度实际上取决于世界上的人们,例如团队能够尝试多少不同的想法,看看什么有效。

因此,即使在图像模型方面,当我们看到早期版本的模型出现时,人们也在训练他们所谓的LORAs,即低秩适配器,更小的模型。因此,我们正在混合它们并在社区中做一些非常有趣的事情,并分享它们,并说,这就是你可以调整这些东西的方式。看到这种情况发生的速度非常令人着迷和快速。我认为开源将拥有这种蓬勃发展。现在,开源在这个世界中的难点在于

训练模型的计算需求非常高。因此,即使它是开源的,但这并不意味着人们很容易将其下载到他们的笔记本电脑上,然后使用它并尝试进行实验,尤其是在大型模型方面。我认为这将是使其难以跟上创新步伐的部分原因。

但我认为没有什么能阻止开源在某些方面赶上闭源模型。我认为在这个世界上没有任何秘密方法,他们知道一些生态系统其他成员不知道的事情。是的。太棒了。最后一个问题。这是最后一个问题。

到目前为止,人们主要使用公开可用的信息来使用AI,对吧?例如海量语料库,例如每本盗版书籍和电影以及所有被倾倒到每个Reddit帖子、每个FreecoCamp帮助教程中的内容。我认为我们有数十万……

论坛帖子可能包含在许多这些模型和类似的东西中。但这些都是历史上公开可访问的东西,除了你在提示中输入的内容之外,并没有很多个人信息被整合到其中。

当你开始给予,你知道,潜在的读取权限,也许是写入权限,访问他们的日历或电子邮件等内容,并能够除了已经存在于这些基础模型中的海量信息语料库之外,还能够整合大量个人信息时,你认为这些模型的效用会发生多大变化?你认为这将带来多大的生产力提升?

我认为这将是巨大的。我认为这可能是我们现在更多地使用AI的最大障碍。因为如果你必须从你的电子邮件、你的互联网复制粘贴一些东西到ChatGPT才能让它做一些事情,你不会那样做的。工作量太大了。但是如果它能与你的数据、你的电子邮件表格、你的文档、谷歌文档、云端硬盘等等,以及你的PDF文件原生协作,你只需说,“嘿,去看看那个文件。找到它。事实上,甚至不要告诉我。只要找到它。”

这将是巨大的,对吧?我认为现在我们只是触及了表面,我认为,关于我们如何在日常生活中使用AI。部分原因是它没有很好地集成到我们使用事物的方式的应用程序生态系统中,对吧?所以对于你的问题,我想,它不是很大吗?我认为我们看到这种情况正在改变,对吧?就像我们每天做的很多事情都涉及从某个系统获取数据,可能是电子邮件表格等等,

处理它,以某种有意义的方式转换它,也许编写回复草稿然后发送出去。因此,现在我们越能将AI插入到其中的这些序列中,即获取数据,使用AI来帮助中间步骤,将其推送到另一个系统,我们的生产效率就越高,对吧?我们可以让AI开始承担很多初稿或初步的技术步骤和行动。更容易

给出反馈,编辑,而不是创建,你知道,做批评比创作容易得多。是的,绝对的。所以,是的,就是这样。所以我认为这是其中的核心部分。我认为我们越能将这项技术注入到我们所有的工作流程中,我们就会看到巨大的生产力提升。我认为所有这些中的难点在于……

我们周围的系统设计还没有,你知道,我们还没有为这个设计系统,对吧?我们的软件并非设计为让AI坐在中间为我们做事。因此,现在正在进行大量改造以实现这一点。但我认为你会越来越觉得,“等等,如果我们首先为AI设计它会是什么样子?”

所以我认为也许在编码方面,这就是我们看到AI和工程技术腾飞的地方,那里有像Cursor这样的IDE,我们自己也在内部使用,它只是编码体验的原生部分,你在编码。与其只是编码并说自动完成,不如说,“嘿,我需要在这些五个文件中进行此更改。你能提出更改建议吗?”你走开,去喝咖啡,回来后,它会说,“嘿,看看建议的更改。很好。接受。”

因此,它越以自然的方式集成,我们就越会使用它。我认为这是未来的令人兴奋的部分。所以主要的解锁是……

只是减少使用的摩擦,你不需要复制信息,也不需要解释太多,因为它受益于AI系统,受益于阅读你的电子邮件并知道你向谁发送电子邮件以及所有这些内容的上下文。它在某种工作记忆中拥有所有这些。因此,假设上下文窗口足够大,它可以很好地理解你的目标以及你如何实现它们。这可以成为它代表你完成事情的起点。完全正确。并推荐行动方案。你所说的非常重要。批评比创作容易得多,对吧?就是这样。每个人都是批评家。对我来说,听收音机里播放的一些流行歌曲更容易,呃,我不太喜欢这首歌,而不是创作一首我喜欢的流行歌曲,对吧?那是一项巨大的工作,对吧?所以我绝对认为这真的很酷。这个概念,就像,

有一个巨大的解锁相对容易实现,并且将在未来几年内推出。我的意思是,我们已经讨论了苹果的苹果AI。显然,谷歌在访问大量人们的数据方面处于最佳地位。我想象微软,就像人们开展业务的所有这些不同的工具生态系统一样,他们拥有……

潜力就在那里,只需将AI放入其中,事情就会很快完成。当然,我现在要搁置隐私考虑和安全考虑,因为那将是另一个讨论。但令人兴奋的是,如果我们能够在隐私和安全方面取得正确的平衡,那么在减少我们必须做的繁琐和无聊的管理工作方面,另一边蕴藏着巨大的价值

这样我们就可以专注于更深入的工作,在那里我们实际上是在创造东西,而不是对应于创造东西。是的,我可以看到它会成为一个巨大的改变者。所以……

我很高兴听到你回应这种情绪,并对这种我已有一段时间的感觉做了很多额外的细节补充,即潜在以一种非常谨慎的方式最初使用AI,但可以帮助完成事情。我会说安全和隐私问题,如果你将其抽象出来,而不是将其视为另一个人,就像,“嘿,这只是一个计算器。”

你知道,我们不太担心安全和隐私问题。那是对的。几年后。然后,我们需要考虑的是,这些数据是否会在某个地方进行训练?对。如果不是,它实际上是计算出来的。就像文字输入文字输出。这就是数字输入数字输出。就是这样。对。我的意思是,你必须让它访问诸如密码之类的东西。我的意思是,你可能能够通过密码管理器抽象地做到这一点。是的。他们有一个密钥,他们也使用它。他们实际上并没有接触到实际的密码。所以我同意。有很多层,它们就像安全措施,它们就像你可以设置的障碍,以防止。完全正确。我认为这归结于很多系统设计,以及这些系统如何工作?

当他们采取行动时,他们可以访问什么。例如,对于我们来说,当我们设计我们的系统时,Lutra 直接使用 OAuth。因此,它实际上永远不会看到你的凭据。事实上,它永远不会看到密钥。它只看到,“我可以获取电子表格。我可以阅读它。我可以更新它。”它没有看到底层实现,或者像,“哦,这就是我们获取密钥和令牌并使用它的方式。”不,它没有看到这一点。因此,很多系统设计,当你做对时,实际上非常干净。

那样。你实际上可以对AI能做什么、不能做什么有很多保证。我认为现在对许多人来说,所有这些都还处于早期设计阶段。是的。

是的。这很难考虑,因为我认为很多人是条件反射的。他们会说,“哦,我永远不会让AI访问XYZ。”你可能在技术上不必这样做。你可能只需要给它一种方法,通过你的密码管理器获取它需要获取的内容,而不是实际暴露你的密码。或者你可能已经为它分配了预算,以便它能够访问你的资金,以便它能够代表你进行购买

但是仍然有细粒度的控制,并且你仍然参与决策过程。事实上,我会说那里的用户体验实际上非常有趣,我们开始看到的是,与其给它一个预算,我认为最好让AI估计事情的成本。来找你,说,“我将做X,大约需要花费Y。”

你同意吗?你说,好的,去吧。所以它实际上就像反过来一样,AI应该足够聪明,能够真正弄清楚要做什么以及后果。然后来找你,说,“这些是后果,你同意吗?”是的,这是一个很好的观察。因此,我们越能让人们感觉到他们掌控全局,并且他们确实掌控全局,我认为这很重要。是的,好吧,Jiquan,很高兴认识你。

对你关于AI发展史的各个方面、所有最先进技术、局限性、前景和危险(不是很多危险)进行深入探讨。你和我都对这些工具非常乐观。嗯,

以及AI不同方面的改进速度,因为我认为很多人将AI视为一个巨大的整体。它实际上是许多不同的技术,其中很多并不是实际的AI本身,而是我们在AI周围构建的系统,这些系统在实际完成任务和使人类的生活更轻松、更美好方面起着至关重要的作用。所以我要再次感谢你分享你的专业知识。

酷。谢谢你,Spencer。你知道,能和你一起参加播客真是太棒了,我很高兴分享我们正在做的事情以及我们如何看待这个问题。是的。和往常一样,如果你是观看视频,我已经在节目说明或视频说明中添加了一些有趣的链接。直到下一次,或者我应该说直到下周,因为我们是一个每周播客。祝大家编程愉快。好的。再次感谢你。编程愉快。如果你查看Rucho,请告诉我。很高兴听到你对此的反馈。谢谢大家。干杯。干杯。