We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

841: Andrew Ng on AI Vision, Agents and Business Value

2024/12/3

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive AI Chapters Transcript

People

Andrew Ng

Jon Krohn

Topics

Jon Krohn 询问企业应该如何在追求更强大的模型和利用更有效的智能体架构之间平衡投资。Andrew Ng 认为，除了少数大型 AI 公司外，几乎所有公司都应该专注于构建使用智能体工作流程的应用程序。他指出，大型语言模型的使用成本正在迅速下降，过去一年下降了约 80%。他建议企业优先构建有价值的应用程序，只有在应用成功且成本过高时才考虑优化成本。他认为，大多数企业的生成式 AI 账单非常低，无需过度关注成本优化。他建议使用最好的模型，构建有效的应用，只有在应用成功且成本过高时才考虑优化成本。他认为，在构建有价值的应用之前，过早地优化成本是不明智的。 Andrew Ng 进一步解释说，大型语言模型强大的能力部分源于其所处理数据的丰富性，而非算法的复杂性。他认为，现代 AI 正在结合两种历史方法：Marvin Minsky 的多智能体系统理论和推动深度学习发展的单一算法理论。他认为，智能体工作流程可以使 AI 模型能够针对不同的任务进行专门化。

Deep Dive

Chapters

Andrew Ng discusses the balance between investing in powerful AI models versus leveraging effective agent architectures, emphasizing that most companies should focus on building applications using agents.

Most companies should focus on building applications using agents.
The cost of using AI models is falling rapidly.
Companies should build something valuable first and then optimize costs if necessary.

Shownotes Transcript

这是第841期节目，嘉宾是Landing AI的执行主席Andrew Ng博士。

欢迎收听SuperDataScience播客，数据科学领域收听率最高的播客。每周，我们都会为您带来有趣且鼓舞人心的嘉宾和理念，探索机器学习、人工智能及相关技术的尖端领域，这些技术正在改变我们的世界，使其变得更美好。

我是您的主持人Jon Krohn，感谢您今天的收听。现在，让我们化繁为简。

欢迎回到SuperDataScience播客。我们今天的嘉宾是Andrew Ng，从事数据科学工作的几乎每个人都可能知道他。尽管如此，我还是会介绍一下他。他的一些令人印象深刻的成就包括：斯坦福大学人工智能实验室主任，他的研究小组在深度学习的发展中发挥了关键作用，这使他创立了极具影响力的Google Brain团队，并通过Coursera教育了数百万关于机器学习的知识，他还联合创立了Coursera。他也是AI Fund的董事总经理，Landing AI风险投资工作室的负责人。他曾担任Landing AI（一家专注于特定领域大型视觉模型的计算机视觉平台，类似于语言领域的LLM）的首席执行官，现在担任执行主席。

他还创立了deeplearning.ai，提供关于机器学习、深度学习和生成式AI以及许多其他相关主题的优秀技术培训，关于他的成就我还可以说很多，但我们在此结束，并补充一点，Andrew也是Coursera的联合主席和联合创始人，Coursera将来自300多所大学的在线学习带给了超过1亿的学生。几周前，在纽约的ScaleUp:AI大会上，我在Andrew做完演讲后立即与他进行了一次问答环节。因此，我的一些问题都与他的演讲有关。

也就是说，即使不知道Andrew的演讲内容，这段采访也应该很容易理解，因为我认为我在每个点上都提供了足够的背景信息。但以防万一您好奇，我们在节目说明中包含了他演讲的幻灯片，您可以查看这些幻灯片。关于这次采访的一个特点是，在最后，Andrew分享了他的屏幕，以演示最先进的视觉模型的功能。

屏幕共享显然不适合纯音频播客。但如果这一部分没有完全引起您的共鸣，您可以查看本期节目的YouTube版本，以获得完整的画面。在今天的节目中，Andrew详细解释了为什么具有智能代理AI工作流程的更便宜的AI模型可能不如更昂贵、更先进的模型性能好。他揭示了AI API成本的惊人真相，大多数企业都没有意识到这一点。

他讨论了1980年代的“心智社会”理论如何在现代AI中意外回归。他谈到了突破性的处理视觉数据的新方法，它超越了传统的计算机视觉。最后，他谈到了为什么非结构化数据可能是AI下一次重大革命的关键。您准备好收听这期特别节目了吗？让我们开始吧！

欢迎来到第二阶段的互动环节。那是一个精彩的演讲，正如我们一直以来对您的期望一样。这是我主持的环节。

首先向观众和Andrew介绍一下我自己。我是Jon Krohn，数据科学家和一家名为Untapt的AI初创公司的联合创始人，但我可能最出名的是SuperDataScience播客的主持人，这是收听率最高的数据科学播客。

我很高兴连续三年在这里ScaleUp:AI大会上主持环节。感谢Insight Partners再次邀请我。在您的演讲中，您讨论了您的团队如何发现，使用GPT-3.5和代理工作流程，它可以胜过更先进的基础模型，例如GPT-4的零样本方法。公司应该如何在追求更强大的模型和利用更有效率的代理架构之间平衡投资？

我认为几乎所有公司，除了少数几家大型科技巨头，都应该专注于构建使用代理的工作流程的应用程序。如果您有额外的数十亿美元用于拍卖，那么您可以做任何想做的事情，但我想对大多数企业来说，有很多机会在上面构建应用程序，事实证明，如果您查看生成式AI的使用情况，使用这些模型的成本正在迅速下降。因此，在过去的一年半里，它下降了大约80%。

所以，我发现大约两年前，关于GPT-4很贵的说法很多，但价格下降得如此之快，以至于我会建议更多地关注构建有价值的东西，然后我认为很有可能使用这些LLM，使用生成式AI，随着时间的推移会变得更便宜，而且有些公司在生成式AI上花费数百万美元，所以它可能会很贵，但绝大多数企业不需要生成式AI账单。如果您在上面构建应用程序，它会打开大门，并选择其他API。我看到很多企业从中获得了巨大的价值，而且坦率地说，账单非常小，您会惊讶于它有多小。

是的，这可能会让人感到惊讶。所以，除非人们有数十亿美元可以花，否则让我继续下一个相关的问题，假设人们不会尝试训练他们自己的LLM，如果您是一家企业，您应该更多地考虑始终使用最新最好的LLM，还是更多地考虑掌握最佳的代理工作流程？这似乎是成本和效率之间的权衡，因为是的，虽然成本大幅下降，例如下降了80%，但您可以通过使用GPT-4 mini而不是GPT-4来节省大量资金，因此，如果我可以使用更便宜的GPT-4 mini，并通过利用更有效率的代理工作流程获得更好的结果，那么您认为这对大多数人来说是最好的方法吗？

你知道，我会说别担心LLM的价格。

哦，是的，我认为，哦，但是对于开发目的来说，实际上，你知道，这并非不可能，所以，我仍然建议您自己尝试一下，有时我会在周末花一整天的时间编写代码，进行很多实验，然后发现，在一天结束的时候，我仅仅花费了5美元来验证这个想法，对吧？是的，而且现在，有可能有些大型模型会更贵，有可能花费数十美元，甚至数百美元，但这实际上比您想象的要便宜。所以，我的建议是，最难的事情是构建一个有效的东西，这非常困难。

所以，使用最好的模型，构建一个有效的东西。然后，如果您很幸运地构建了一些非常有价值的东西，而使用它太贵了，这是一个很好的问题。很少有人遇到这个问题，我希望如此，但是当我们遇到这个问题时，我们通常会有工具来降低成本。但我认为，很多人比实际情况更担心使用这些生成式AI API的成本，最重要的事情是，我会说使用最好的模型，使用演示，使用最新最好的模型，只构建一个完成的东西，只有当它成功了，而且只有当它证明太贵了，才去考虑成本优化。

而且，如果您幸运地达到了这个阶段，那么也许可以平衡一下，既要尝试使用更低成本的选项，例如转向GPT-4 mini，也要尝试不同的代理工作流程，看看哪种方法最适合您的用例。

是的，是的。而且要明确一点，有些团队已经成立，他们在这方面花费了太多钱，他们花费时间来优化它，所以可以使用更便宜的模型。您可以使用较小的模型来完成某些事情。

所以我认为您需要针对自己的工作流程进行优化。大多数人使用工具，但我认为在您构建有价值的东西之前，使用这些其他工具来优化成本，这很可能是过早的AI优化，我会避免这种情况。

好的，一个很好的答案。让我们更深入地探讨一下代理AI，这是您演讲中的一个重要主题，您说过这可能是我们目前应该最兴奋的技术。回到您2013年发表在《连线》杂志上的一篇文章，您提到在AI的早期，普遍的观点是人类智能源于数千个简单的代理协同工作。

这就是Marvin Minsky所说的“心智社会”。但您随后在这篇《连线》杂志的文章中提到，您偶然发现了由Jeff Hawkins推广的“单一算法”理论，这使您转向了深度学习。现在，在这篇《连线》杂志文章发表11年后，代理和多代理系统，特别是将这两个概念结合起来，我们现在将这两个想法融合在一起，提供了强大的工具。

问题是，我们谈论它们，谈论它们，谈论它们。我认为，大型语言模型革命的显著之处在于，它在很大程度上是由于少数几种算法，例如Transformer神经网络，事实证明，大型语言模型之所以能够展现如此惊人的能力，在很大程度上是因为数据的丰富性。我们感受到了这一点。

那么，这个假设是否阻止了这一点？这个假设是，即使是人类智能，即使是人脑，很多人类智能也是由于少数几种算法，当它们从世界中获取大量原始数据时，使我们能够学习做所有这些人类能够做的事情。然后，孩子们长大成人，我认为这在很大程度上也是因为他们所获得的数据，可能是遗传学，可能是环境，但实际上是数据。同样的婴儿大脑可以长大成为医生或建筑师，等等。

这就是数据和互动。我认为代理工作流程总是危险的，要对AI和人类进行逻辑推理。但我认为有一点，让AI模型根据我们的提示或我们提供给它们执行特定任务、特定工作、特定工作的额外数据，对不同的任务进行一些专门化。

好的。是的，我很感激您让我提出这个问题。我希望我能为此获得功劳。我有一位非常棒的研究员Surge Mi，所以我必须感谢他提出了这个问题。

我质疑了这个想法。我想现在转向大型视觉模型，这是一个与您在演讲中不断提到的“五种AI转型”相关的主题。这与您提到的即将到来的图像处理革命特别相关，这在您的“AI转型”幻灯片中有所提及。Landing AI有一款名为Vision Agent的产品，它引领了这种图像处理革命的趋势。您能否详细说明为什么规划、使用多种工具和协同生成对于构建有效的视觉AI应用程序如此重要，以及Vision Agent如何应对这些挑战？

我认为视觉革命是在文本革命之后到来的，大型多模态模型至少在今天，在解释图像方面还算可以。但是，当我提到在非代理图工作流程中编写文本提示的方式时，这有点像您要求在最后一刻从头开始写一篇论文，这就是视觉语言模型，大型多模态模型的工作方式，因为如果我假设我看到一个场景，我可以说，你知道，也许，这是一张图片，看一眼，给我答案，对吧？我们可以做一些事情，例如，如果我要求你计算足球场上有多少人，你知道，我可以给你看一堆人的照片，并对它进行分类，有多少人？实际上，如果你还要计算城市里有多少人，一、二、三、四、五，这更像是迭代的代理工作流程，而不是，这是一张图片，答案是什么。这更像是零样本。

只需输入答案，有人发现，如果我们生成一个用代码表达的计划，例如，这些是工具，这是函数，一次检测一个人，然后计算检测到的人数，这样一个简单的计划，像这样用代码表达的计划，可以更有效地处理图像，对于许多关键的图像任务来说，我们还发现，遵循图像视觉工作流程，编写代码需要找到正确的库，正确的开源工具，进入一些非常棘手的编码工作，我们可以做到，但这需要半天时间。编写一个代理来为我们编写很多代码，来制定计划，用代码表达计划，然后执行。我们发现，这大大降低了开发人员的门槛，让他们能够解决许多高风险、非常重要的视觉AI任务，因此有了Vision Agent。所以还有很多工作要做，但我对用户使用它成功地为视觉任务构建软件的数量感到非常兴奋。是的，它确实如此。

看到这一切将如何加速发展真是令人兴奋。我完全同意你的观点，文本处理量是我们现在正处于的阶段，人们才刚刚开始意识到这些应用以及诸如你所做的、在落地AI方面的工作，这肯定将是下一件大事，拥有这些额外的模式将为现实世界的应用提供更多选择。

在我开始回答一些听众的问题之前，我自己还有一个问题。这与你在同一个……五个AI趋势中提到的第五个也是最后一个AI趋势有关，这与非结构化数据有关。你之前谈到过，就数量而言，世界上大部分数据都是非结构化的。因此，随着生成式AI的兴起，我们现在能够利用你正在谈论的那些技术（包括视觉、视觉代理和其他大型视觉模型）来处理这些海量非结构化数据，你如何看待视觉AI改变制造业和医疗保健等传统用例之外的行业？哪些未开发的领域将最受益于这些视觉能力？

我认为会有很多，而且我发现它……我将给出这个不安全的、模糊的答案，它看起来像……电力将被用于何处，就像……男孩，这太笼统了，但也许……我认为……我认为肯定有制造业，我认为是身体自动化，包括……驾驶调用，我们审查……我认为医疗保健，我认为是安全……然后也许……但我能分享一些东西吗？我能确定吗？人们能看到这个吗？

我不知道这个问题的答案，正在环顾房间……我能看到它，是的，我明白了。

后台有人举手说我们刚在周末做完。但这是一个视频检索任务，我们使用视觉代理、正确的代码来检索这些视频。所以，让我……让我看看灰狼在阿什顿这里。

这是一个小的演示……它显示了很多业务，大量的视频……它们只是存储在云端的无数故事。但是，你知道，使用视觉代理，正如演示中所展示的那样，可以索引这些视频，以帮助你找到它们。我看到实际上有很多媒体公司有很多……这是令人兴奋的。对。

它向你展示了……我梦想……你知道它们在哪里，它们诞生的城市，这些部分不可用……让我看看灰狼，我刚在周末尝试过这个。看看它是否有效。但我发现……你知道，我们实际上找到了很多。

现在有一个很好的概述，UI以绿色显示它被发现的地方。如果我点击其他地方，你知道，其他地方没有灰狼，也没有熊或黑色行李箱，对吧？所以我应该最近一直在旅行，但是……

我将……

给你一个听众的问题，安德鲁，因为我们收到了很多，我最喜欢的一个问题是：你将如何减轻用户依赖代理生成的可能不准确的答案的风险？嗯，你知道，如果你有一个由算法驱动的助手，你将得到不准确的答案。与他们可能检索到的更确定性的答案相比，你如何减轻这种风险？嗯，你知道，在更经典的关键词搜索中，就像谷歌搜索一样。

你知道，我确实想知道搜索的确定性，一些确定的……事情。所以我认为也许……我认为机器学习在这些年里发挥了作用，很多年，十年、十五年。我认为很多机器学习答案并不是完全确定的，而且……即使是网络搜索，它也是基于机器学习的，实际上很难准确预测给定的查询将打开什么。

所以我感觉一部分将是用户培训，这可能是一个流行的答案，因为这很难。但我认为……所以我们将使用培训。我认为其中一些将是到位地放置护栏和机制，使这些东西更安全，即使对于不太精通技术的人也是如此。例如，工程师常用的设计模式也是一个确认流程，在……替换所有内容之前，用户会写一个关键的超级产品。好吧，通常不会有AI只是说“完成”。

你的生成式API会弹出一个模型，说：“你真的想买这个吗？”关于费用，结果你不需要所有这些，请说“是”或“否”，有了这种确认流程，它会阻止……它会阻止我向你的信用卡收费，而无需你明确地说“是”。所以我发现这些设计模式可以……可以创建护栏，使AI更安全，但我认为这可能是……软件改进和UI改进与护栏的结合，以及一定程度的用户培训……如果你愿意，是的，我们经常改变这些交易。

有一些不好的例子，对吧？我想，为什么他作为律师被引用，编造了案件和资格，为此惹上了麻烦。那真是不幸。

而事实的一方面是，你知道，很多律师学会了不要那样做。所以这实际上对整个行业产生了巨大的培训效应。嗯，是的，我认为你可能会喜欢那样。

哦，不，不仅仅是一件事。我不想假装我永远不会犯错。永远不会犯错，到处都能做到，完全不现实。在某些地方，我觉得关于它有多糟糕的讨论被夸大了，它远非完美。这确实存在问题。我认为，我认为我看到AI没有被使用的情况，因为这些问题实际上比人们预期的要少得多。

我认为人们对那些早期的例子记忆犹新，比如那个律师，他把虚假的案件和审判……带到了真实的审判中，这些都是由AI系统生成的。所以我们习惯了这些故事。但是……如今的系统比一年前或两年前好得多。

这些失误少得多。我认为这种情况会越来越多，安德鲁。非常感谢你今天抽出时间与我们在一起。

不幸的是，我们的时间到了。我还有更多问题。听众还有更多问题。但是……我们非常感谢你今天抽出时间。

谢谢安德鲁。非常感谢。非常感谢。

能够在今天的节目中采访安德鲁真是太棒了。这位口才出众的偶像谈到了如何使用GPT-3.5的基于代理的工作流程如何在某些任务中胜过更昂贵的模型（如GPT-4），这表明公司应该专注于构建有效的应用程序，而不是追求更强大的模型。

他还谈到，使用生成式AI的价格同比下降了约80%，并且比许多企业意识到的更容易获得……他还谈到大多数公司……Genee账单出奇的小，尽管每调用成本相对较高。他谈到现代AI如何结合了两种历史方法：马文·明斯基的“心智社会”理论（多个简单的代理一起工作）和推动深度学习进步的单一算法理论。

他谈到视觉代理技术如何通过将复杂的视觉任务分解成更小的步骤并生成代码来执行这些步骤，从而彻底改变图像处理，使开发人员更容易构建复杂的视觉AI应用程序。他谈到视频和图像处理能力如何扩展到制造业和医疗保健等传统用例之外，在媒体索引、安全和机器人技术中出现了新的应用，这展示了视觉AI的变革潜力。与往常一样，你可以在superdatascience.com/841上获得所有节目内容，包括本集的文字记录、视频录制、节目中提到的任何材料、安德鲁的社交媒体资料链接以及我自己的链接。除了社交媒体之外，我们互动的方式将在明天12月4日到来。

如果你对安德鲁今天谈到的代理AI感兴趣，那么我有一个好消息要告诉你，因为我将在明天主持一个关于代理AI的半天虚拟会议。它将是互动式的、实用的，并将邀请代理AI领域一些最有影响力的人物作为演讲嘉宾。它将在a16z的Rally平台上进行直播，许多雇主和大学都提供对该平台的访问权限。

否则，你可以使用我们的特殊代码SDSpod23获得Rally的30天试用版，我们在节目中为你准备了该代码的链接。是的，我真的很兴奋，我们将有演讲嘉宾介绍身份。我们将进行代理AI的动手Python实现，并将邀请一位产品经理来告诉我们如何构建利用代理AI系统的有效产品。所以千万不要错过。感谢SuperDataScience播客团队的每一个人，我们的播客经理Polly，我们的媒体编辑Marion Bo、我们的合作伙伴关系经理Natalie J、我们的研究员、抄写员、医生、我们的汽车造型师Silvia Og以及我们的创始人Kirill Eremenko，感谢你们为我们制作了今天的特别节目。

我还想向Polly致敬，她曾在另一家公司工作，她担任我们的播客经理的时间比我主持节目的时间还要长，所以超过四年了，她一直非常出色，是确保我们每年发布104集节目，每周两次，每次都按时完成，达到如此高的水平的关键人物。Polly，我们会非常想念你，但是我们现在有了新的播客经理Sonia，我们掌握在可靠的人手中。欢迎加入，Sonia！好了，如果你喜欢这集节目，请与你认为可能喜欢它的人分享，在您最喜欢的播客平台上评价它，在YouTube上订阅，当然，如果您还没有订阅的话。最重要的是，请继续收听。我很感激你们的收听，我希望我能继续制作你们多年来都会喜欢的节目。下次再见。继续摇滚，期待着……

841: Andrew Ng on AI Vision, Agents and Business Value 26:21 Share

Super Data Science: ML & AI Podcast with Jon Krohn

Deep Dive

Shownotes Transcript

841: Andrew Ng on AI Vision, Agents and Business Value