We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

OpenAI's MASSIVE Announcements at Dev Day 2024

2024/12/6

Lex Fridman Podcast of AI

AI Deep Dive AI Insights AI Chapters Transcript

People

OpenAI首席产品官Kevin Well

主

主播

以丰富的内容和互动方式帮助学习者提高中文能力的播客主播。

Topics

OpenAI首席产品官Kevin Well：OpenAI不会因为高管离职而放慢发展速度，并在开发者日发布大量令人惊叹的新更新，这表明公司致力于持续创新和发展。主播：OpenAI发布的实时语音API是一项突破性技术，它允许开发者创建与AI模型进行实时语音交互的应用程序。这将极大地提高应用程序的自然性和效率，为用户带来更流畅、更自然的交互体验。然而，这项技术也带来了一些安全和隐私方面的挑战，例如潜在的诈骗风险。OpenAI表示，他们正在采取多层安全措施来减轻这些风险。 OpenAI推出的视觉微调功能，允许开发者使用图像数据来微调模型，从而提高模型在特定视觉任务上的性能。这对于医学影像分析、UI自动化等领域具有重要意义，可以帮助模型更好地识别和理解图像信息，提高工作效率和准确性。模型蒸馏技术通过使用大型模型的输出结果来微调小型、高效的模型，从而降低成本并提高效率。这对于需要处理大量数据的企业来说尤为重要，可以帮助他们节省计算资源和成本。提示缓存功能通过缓存模型已处理过的输入数据来降低成本，这对于需要进行大量对话交互的应用程序来说非常有益，可以有效降低运行成本。同时，OpenAI也对用户隐私作出了相应的承诺，确保用户数据的安全。高级语音功能的推广将使更多用户能够体验到ChatGPT的先进语音功能，但欧盟地区的免费用户将受到限制，这可能是由于欧盟的AI相关法规所致。主播: OpenAI在开发者日2024上发布的实时语音API、视觉微调、模型蒸馏和提示缓存等功能，代表着人工智能技术的一次重大飞跃。这些更新不仅提升了AI模型的性能和效率，也为开发者提供了更强大的工具和更广阔的应用场景。然而，安全和隐私问题仍然需要引起重视，OpenAI需要持续改进其安全措施，以确保这些技术的负责任使用。欧盟地区免费用户受限也反映出AI监管的复杂性，需要在技术发展和监管之间取得平衡。

Deep Dive

Key Insights

What is the real-time API introduced by OpenAI at Dev Day 2024, and how does it improve user interaction?

The real-time API allows developers to integrate OpenAI's voice model into applications, enabling immediate responses during conversations. Unlike previous methods that involved latency due to transcription and processing, this API predicts the end of a sentence and responds instantly, making interactions feel more natural. This is particularly useful for applications like language learning and customer service, where real-time feedback is crucial.

How does OpenAI's vision fine-tuning API enhance specialized tasks like medical imaging?

Vision fine-tuning allows companies to upload annotated image datasets to train OpenAI's models for specific tasks, such as identifying tumors in medical scans. By fine-tuning with specialized data, the model becomes more accurate in recognizing specific patterns, like tumors in X-rays, compared to its general image recognition capabilities. This is a significant advancement for industries requiring precise visual analysis.

What is model distillation, and how does it benefit developers using OpenAI's models?

Model distillation involves fine-tuning smaller, cost-effective models using the outputs of larger, more advanced models like GPT-01. This allows developers to achieve high-quality responses at a fraction of the cost and computational resources. For example, a smaller model like GPT-40 mini can be trained to mimic the performance of GPT-01, making it ideal for repetitive tasks and cost-sensitive applications.

How does prompt caching reduce costs for developers using OpenAI's API?

Prompt caching automatically discounts tokens for previously seen inputs in a conversation, reducing costs by 50%. Since the context of a conversation remains largely unchanged with each new message, caching eliminates the need to reprocess the same data. This is particularly beneficial for long conversations, where the cumulative cost of tokens can become significant.

Why are EU users excluded from OpenAI's Advanced Voice Plus rollout?

EU users are excluded from the Advanced Voice Plus rollout due to stringent AI regulations under the EU's AI Act. Compliance with these regulations makes it challenging for OpenAI to offer certain features in the EU. This has led to frustration among EU users, who feel they are missing out on cutting-edge AI advancements available elsewhere.

Chapters

This chapter covers OpenAI's major announcements at Dev Day 2024, focusing on the real-time API for voice models. It discusses the improvements in speed and naturalness of conversation, along with examples of its application in various apps and potential implications, including both positive and negative aspects like the risk of scams.

Real-time voice API enables immediate responses in voice interactions.
Applications include fitness coaching, language learning, and customer service.
Safety concerns regarding potential misuse for scams are acknowledged.

Shownotes Transcript

OpenAI刚刚举办了他们的2024开发者日。这对很多人来说都是期待已久的活动，因为他们实际上是在向开发者推销新的更新，但这些更新实际上每个人都可以使用。我认为更令人兴奋的是，这些令人惊叹的功能正在被嵌入到我们每天使用的所有软件中。所以在今天的播客中，我将涵盖所有新的更新。

具体来说，他们引入了实时语音API、带有视觉效果的微调、模型蒸馏以及他们称之为提示缓存的功能。这些都是令人惊叹的更新，我将在今天的播客中逐一分解它们。在我们开始之前，我想说的是，如果您还没有加入AI Box的候补名单，请前往AI Box。这是我自己开发的AI市场。

以及应用程序构建器，我已经开发了一年多了。而这个月，是的，十月，我有一些非常令人兴奋的消息和一个非常重要的公告即将发布。所以，如果您在候补名单上，您将是第一个知道AIbox.ai的人。我很乐意邀请您加入候补名单，并加入我们的旅程。所以

让我们来看看OpenAI在最近的开发者日上宣布的所有内容。在我说明具体的公告之前，我还想分享一个非常有趣的片段。TechCrunch对他们进行了一次简短的采访，他们谈到，我们知道就在这次大型开发者日和所有发布的公告之前，OpenAI的大量关键高管离开了公司。所以他们被问到了这个问题。在他们进行的简报中，

OpenAI的首席产品官凯文·韦尔谈到所有这些时说：“我先说鲍勃和米拉都是很棒的领导者。我从他们那里学到了很多东西。他们是我们走到今天这一步的重要组成部分。而且，我们不会放慢速度。”我认为，在我们进入开发者日之际，这对很多人来说都是个好消息，因为他们确实没有放慢速度。他们发布了一大堆绝对令人难以置信的新更新。而我想重点介绍的第一个更新

呃，我想涵盖和讨论的是他们称之为实时API的东西。所以，嗯，这是每个人都在谈论的一个。而它实际上所做的是，它是为他们的新语音模型而设计的，它实际上并不是他们最新的、最新的语音模型。

但它本质上是他们实时拥有API的能力。这是供开发者实时使用的。当你与他们的语音模型交谈时，它会立即回应。所以

这实际上取代了什么，或者人们在此之前都在做什么，是使用语音到语音的AI模型。所以有语音到文本和语音到语音或文本到语音，对吧？取决于你是说话还是它给你文本，或者你给它文本而它在说话，诸如此类。无论如何……

对于语音到语音，意思是如果你拿着你的手机，你正在与某些东西聊天，比如，“嘿，教我如何更好地说西班牙语”等等，它会回应你。以前，它的工作方式是，你会说话，它会获取该片段，它会将其转录成文本，发送它，它会……

收听你的声音，阅读或收听它。然后它会给你发送你的语音片段。这需要几秒钟，并且存在延迟。问题在于存在所有这些新的代理或销售工具以及所有这些东西。而获得你的回应需要几秒钟。这看起来很不自然。所以他们现在正式创建了一个实时API，这意味着它正在实时收听你的声音。我认为它部分地预测了你将在句尾要说的话。一旦你说完你的句子，它就会立即

立即给你回应。你可以把它想象成，当你与ChatGPT聊天并向它提问时，你可以看到它如何打出所有字母和所有句子的过程。

本质上，使用这个实时API，语音就像在打字时自动说话一样。过去，它会等到打完所有内容，将其转换成语音，然后将语音包发送给你。现在它是实时回应你的。那么这会解锁什么呢？一些绝对令人难以置信的事情。第一个，他们展示了两个不同公司的演示。一个叫做Healthify。这是一个营养和健身教练应用程序。他们正在使用新的实时API来帮助创意人员

与他们的AI教练进行非常自然的对话，这实际上是为那些希望在饮食方面做不同的事情或需要个性化支持的人们准备的。他们展示了这个演示，其中本质上有一家公司，他们与它交谈，询问不同的健康建议。他们谈到了这个东西能够做什么。当他们提出问题时，它会立即回应他们。他们甚至在与

与它交谈时切换了多种不同的语言。所以我认为他们切换成了印地语，然后他们，而且它理解所有这些并快速回应。所以绝对令人印象深刻。他们展示的第二个演示是为一家名为Speak的公司准备的。这是一个学习语言学习应用程序。他们正在使用实时API来帮助他们的角色扮演功能，这非常非常令人印象深刻。我分享这些演示是因为我认为会有成千上万个新的应用程序，

像这些做非常令人印象深刻的事情一样，但这会让你对事情有一个正确的认识。对于Speak，他们展示了一个演示，他们尽可能轻松地谈论改进语言的不同方法。具体来说，他们正在演示他们的应用程序，该应用程序告诉他们说一个单词，然后他们说这个单词。而AI，不仅仅是听单词，它实际上是在听发音。所以它

非常非常令人印象深刻。而这向我展示了，当它收听发音时，它不仅仅是将语音转换成文本，而是将其转录成文本并将其发送到此模型。它实际上是在听单词。它正在解码语言。这非常非常令人印象深刻。所以他们展示了一个演示，他们只是说，你知道，他们正在用西班牙语说一个单词，它说，“哦，要西班牙语说这个单词，你需要真正地清晰地表达单词的最后部分，并确保你以这种方式发音。再试一次。”所以他又说了一遍，他们说，

太棒了。就像你做得很好，无论它继续前进。这对我来说绝对令人惊叹。当你想到像Duolingo和所有其他我们常用的一些语言学习应用程序时，这些应用程序都将转变为不仅仅是选择屏幕上的正确单词，或者，或者，

你知道，甚至可能是说它，它正在倾听你如何说它。它正在纠正你的发音。它正在帮助你避免任何语法错误。这是一场对话。而这就是，我的意思是，这就是人们学习语言的方式。所以这是完全合理的。所以我认为这两个都是很好的例子。我认为我们将看到的另一个很好的例子是，有时人们会感到恼火。就像提词器或电话推销员之类的东西。实时使用会很烦人。但你也可以想象一下客户服务。很多时候，当我打电话给客户服务时，比如我的互联网公司，我不得不等待，

哦，我的天哪，太烦人了。最近，我为了取消我的互联网服务而等待了大约一个小时，因为我正在换一家更快的互联网公司。如果他们告诉我，“嘿，你想不想，而不是等待一个小时与实际的人交谈以取消，因为取消有多难？这不是一件困难的事情。你想不想与AI交谈，我们可以在两分钟内完成吗？”我会说100%愿意。所以我认为有

如此多的公司和人们将能够利用它来加快流程，节省资金。而客户，我自己，在这种情况下会非常高兴。好像我关心与实际的苏西交谈以取消这个愚蠢的订阅一样。请让我摆脱痛苦。所以我认为这真的很令人兴奋。他们谈到了安全问题。

他们说他们有多层安全保护措施来减轻滥用的风险。实际上，它就像诈骗以及所有这类事情。我最近看到有人做了一个演示，其中他们基本上告诉新的语音模型扮演一个来自印度的骗子，试图骗取你提供

提供你的信用卡信息。这是，我不知道，这是一个印度人做的。所以，你知道，没关系。没有刻板印象。他，他想出了它。无论如何，它在口音方面做得非常出色，说的正是骗子会说的话。而且，

就像我一样，它有点像他正在做的一个有趣和玩笑的事情。但对我来说，我想，“哦，糟糕。”就像它不会是，那不是，那不会是打电话给你的人，因为他们不会说有这种特定的口音。他们会说，有南方美国口音，有西方美国口音，就像你所在地区的地理位置一样，它会，

模仿你的，你的地区。无论如何，我认为有，这就是为什么我认为这个安全和隐私问题很重要，他们正在谈论。他们现在正在实施这些安全措施，是否会有开源模型或其他人滥用的其他模型？100%。所以我认为你仍然必须保持警惕。这不仅仅是，“哦，他们，你知道，OpenAI会为此负责。我们不必担心。”就像，不，这是我们应该关注和关注的事情，但你知道，看起来OpenAI将减轻，嗯，

因为他们是最好的，最大的，最快的。所以人们将能够拥有最好的工具来欺骗你。这很有趣。这即将到来。有利有弊，但我感到兴奋，因为这个新的实时API带来了很多令人惊叹的东西。好的。我想和你谈论的第二件事是视觉微调。所以，嗯，

对于那些不知道的人，我想回顾一下微调，我前几天意识到它并不像听起来那么复杂。这是我们经常在AI中谈论的事情，比如，“哦，他们微调了这个模型”，听起来他们做了一些很花哨的事情。当你给它一堆例子然后要求它给你一个输出时，你实际上就是在微调ChatGPT。这就是微调的全部内容，所以它不像某些……

它不像某些超级，我不知道，独家花哨的东西，你知道，很难理解它做了什么。如果你说，“嘿，给我写一篇LinkedIn帖子。这里有五篇我写过的、我喜欢的LinkedIn帖子的例子，复制我的语气和风格。”你只是通过给出一个例子来微调ChatGPT以复制你的语气和风格。这就是微调的全部内容。

他们现在引入的是视觉微调。所以他们基本上说的是，有数百家，有数千家公司正在进行微调，本质上是提供大型文本数据集。你可以想象一下，如果它像，你知道，我有一个朋友正在微调一个AI模型，他希望它能够编写最有可能获得，你知道，顶级排名的最佳TikTok评论，

嗯，顶级排名。所以这是他的目标。他只想写。非常好的TikTok评论。所以他去抓取了20,000个TikTok帖子或20,000个TikTok评论，这些评论来自大量病毒式传播的帖子，并找到了顶级评论。然后他基本上使用所有这些顶级评论来微调一个模型，说，“看，你理解如何像ChatGPT一样编写评论，但它通常会写出糟糕的或通用的评论。

这里，你知道，对于微调，最好的评论。这些是获得最多赞的评论，复制这种语气、这些语气和风格以及想法，现在编写非常好的TikTok评论。”它，它能够做到这一点。它能够编写出非常有趣、滑稽或诙谐的精彩TikTok评论。所以他对此微调感到非常高兴。好的。所以

这是一件常见的事情。数千家公司正在这样做，正在上传这些大型文本数据集并进行微调。但问题是，有很多用例不是文本，对吧？当你谈论医学影像并试图

定位肿瘤时，是的，ChatGPT的视觉功能可以查看X光扫描并说，“哦，看起来那里可能存在问题。”但它是如何做到的？准确率是多少？所以他们现在正在做的，有了视觉功能，他们允许你使用图像进行微调。让我们以这个发现X光片上事物的医学例子为例，如果你去获取一百张肺部肿瘤的图片，例如，并且

并对其进行注释并进行微调并将其上传到，将其上传到OpenAI。现在，当他们进行图像识别时，他们实际上在识别特定肿瘤方面要好得多，而不是，你知道，现在图像识别可以看到世界上的一切，并不能给你一个想法，但它不是该特定领域的专家。

所以现在你可以将模型微调到该领域。这非常有趣。他们提供了一些已经与他们一起做过此事的公司的有趣例子。其中一家是Grab，这是一家食品配送和拼车公司。他们让它能够看到限速或限速标志。所以它能够更好地做到这一点。有一家公司叫做Automate

它本质上是帮助你……代理可以采取行动，但它是基于UI的，对吧？所以它就像……

像在互联网上滚动并访问网站以及购买和点击以及做事情一样。他们能够使用图像和UI元素对模型进行微调，以便模型知道除了像“这是这个网站，转到销售页面”之外还要点击什么。但如果它像，“销售页面是什么？”他们可以进行微调并说，“好的，这些都是销售页面按钮。这就是单词‘销售’的样子。”

他们可以做得非常具体，或者也许它没有说销售页面，但它只是说“了解更多”，他们可以对其进行微调以了解“了解更多”通常意味着在这些类型的网站上意味着X、Y和Z。所以Automate看到了，我认为他们说它将他们的RPA代理的成功率从16%提高到61%，与基本的GPT-4.0相比，性能提高了272%。所以

非常非常令人印象深刻。另一家公司叫做Coframe，他们实际上使用了这个。这本质上是内置的，它是一个AI增长工程助手，可以帮助企业创建和测试网站和UI的变体。他们基本上试图优化业务指标。所以这很大一部分是自主生成数据

网站的新品牌部分，对吧？他们试图优化这一点。所以他们需要生成新的部分，嗯，基于网站的其余部分。所以他们能够微调，呃，GPT-4，使用图像和代码，呃，他们改进。通过这样做，他们将模型生成具有视觉一致性和正确布局的网站的能力提高了26%，而这与基本的GPT-4模型相比。所以基本上他们上传一张网站的图片，然后他们在下面说生成像

你知道，网站的下一部分。他们能够

你知道，使用基本模型来做到这一点。它就像，“呃，它就像，“好吧，它不太好。它看起来不像应该是网站上的下一个内容。”然后他们对其进行了微调。你可以看到网站的下一部分是完美的。它看起来就像你期望在网站流程中接下来出现的内容一样。他们使用多种颜色相同的单词来做标题的方式与之前完全相同，而我之前无法做到这一点。

所以这个微调使它变得好得多。现在，再说一次，他们都关注安全和隐私，他们正在继续对微调模型进行安全评估，并监控所有输入到其中的内容，以确保它们都被用于，你知道，允许它们被用于的事情。但总的来说，非常非常令人兴奋的模型。

用例。所以我想谈论的下一件事我认为非常吸引人，这是一个叫做模型蒸馏的概念。这是我第一次真正听到这个词的使用。这是我第一次真正听到它成为一件非常流行的事情。但模型蒸馏本质上是使用大型模型的输出对具有成本效益的模型进行微调。这意味着我们有刚刚发布的GPT-4，这是一个令人难以置信的模型，但它要贵得多。我的意思是，贵得多，而且运行起来计算密集得多。但当然，我们还有更小、更快的模型，比如GPT-4 mini，很多我交谈过的开发者都说它感觉几乎是免费的，因为你必须发送一百万条消息才能让它产生任何账单，因为它只是

如此，如此便宜，如此之快，而且经过优化。但问题是，响应不如GPT-4好。

特别是预览。所以他们基本上能够做的是使用更好模型的输出对更小、更高效的模型（如GPT-4 mini）进行微调。过去，他们说人们能够做到这一点，但这有点笨拙。它效果不佳。所以他们简化了整个方法，基本上可以做到这一点。所以你可以根据你的，根据真正好的模型的输出对这些小型模型进行微调。所以你就像，“像，像，

GPT-4一样，它为这个特定问题提供了正确的答案。GPT-4 mini没有。你去生成一千个来自GPT-4的答案。你将它们输入，现在突然这个真正的小型优化、非常便宜的模型能够为你提供你需要的响应。

以如此，如此便宜的价格。这真的很令人兴奋，而且非常有趣，特别是对于那些必须一遍又一遍地执行一些非常重复性任务的公司来说。他们节省了大量的资金。好的，这真的很有趣。我对这个非常兴奋。说到省钱和优化，我想谈谈他们发布的最后一个重大更新，它叫做提示缓存。所以提示缓存是一个绝对令人着迷的话题。同样，它也处于这种优化和，嗯，

使事情更实惠的思维方式中，你基本上正在做的事情，他们将为模型最近看到过的输入提供自动折扣。这意味着，每次你与ChatGPT进行对话时，它都必须查看所有先前消息的上下文才能帮助你处理你当前的消息。所以所有这些上下文都是

它以前已经见过。每次你发送新消息时，虽然每次都会添加少量新文本，但新文本上方的所有内容都是一遍又一遍地重复的，对吧？你的上下文会越来越长。所以它以前看到的所有内容，它都会缓存所有这些数据。

嗯，你将获得50%的折扣，用于执行此操作的令牌。它的工作原理是，呃，当你在使用ChatGPT API时，他们会根据消息中包含多少令牌或多少单词来向你收费。所以如果你向它发送一个包含五个单词的问题，它会根据你的输入向你收取这么多费用。然后。

当你提出后续问题时，突然之间它就像你的先前问题和回答。这可能就像一百个单词，它会根据所有一百个单词加上你的新单词向你收费。它只会不断增加，变得越来越贵。所以这些聊天会随着消息数量的增加而变得越来越贵，但现在他们正在进行缓存，你将获得50%的折扣，用于所有它以前看到过的内容。对我来说，当你查看令牌时，这真的很令人兴奋，看起来像，嗯，

对于他们的定价模型，如果你查看未缓存的输入令牌，则为2.50美元。然后一旦他们开始缓存它，它就会降至1.25美元。所以它便宜了50%，便宜了50%。他们确实说过，因为人们对它看起来的样子有些担心，他们对它的功能有一些具体说明。这是针对超过1000个令牌的任何提示，他们在1000个令牌之前启动它。这实际上并不重要，因为它太短了。

但无论如何，他们说缓存会在五到十分钟的空闲时间后自动清除，这意味着他们不会像缓存你的聊天对话并永远保留它们一样。人们担心这里的隐私问题。所以在空闲五到十分钟后，缓存会被清除，使用一小时后，它们会被完全删除。所以

他们说，对于所有API服务，提示缓存都受我们的企业隐私承诺的约束。提示缓存不会在组织之间共享。好的，这显然是人们想要的东西。绝对令人着迷的信息。

基本上是为了减少成本并使这些事情更高效。所以我看到很多开发者对此非常非常兴奋。我想谈论的最后一个宣布的内容是很多人一直非常期待的，那就是

OpenAI发布了一条推文，并说：“从本周开始，高级语音功能将向全球所有ChatGPT企业版、教育版和团队版用户推出。免费用户也将获得高级语音Plus的抢先体验，欧盟的免费用户将保持更新，我们保证。”好的，所以基本上是高级语音功能……

太棒了，对吧？每个人都在测试并展示演示等等，ChatGPT本质上能够以一千种不同的方式、口音、语气和风格进行交谈。突然之间，所有免费用户都获得了它。所以人们在Twitter上疯狂转发。他们真的很兴奋所有免费用户都能获得它。但与此同时，人们有点生气，因为最后它说Plus，只有欧盟的免费用户。

我们将保持更新，我们保证。所以如果你在欧盟，你将无法获得这些。现在，这其中很多都是欧盟法规、AI法案等等的问题。在我看来，他们有点过度监管了。所以现在你看到像iPhone一样，所有新的Apple智能功能都不会在欧盟推出。当他们推出这些很酷的东西时，它不会在欧盟推出。在欧盟遵守法规和所有事情都变得更加困难。看起来人们对此有点生气。他们说，

生活在欧盟变得越来越令人愤怒。然后他们说，你知道，有人说，“我们的钱不够好。”就像他们生气了，但他们必须遵守法规以及他们必须做的事情。所以总的来说，希望如果你不在欧盟，你将立即获得所有免费用户的这个功能。这真的很令人兴奋。

现在，如果您有兴趣了解使用AI赚钱的不同方法、不同的副业，我已经启动了一个学校社区，叫做AI Hustle。我会在描述中留下一个链接，在那里我每周都会创建一个深入的视频，分解我使用的一个副业，我正在使用AI来做，我赚了多少钱，我正在使用什么产品，我正在制作什么工具，一个精确的分解，我无法公开分享的事情。它都在我的学校社区上。所以每月19美元。

一个月，价格最终可能会上涨到每月100美元。但现在是这个价格。所以如果你锁定它，你可以永远锁定它。我永远不会提高你的价格。我们有一个令人难以置信的社区，超过150人，他们都在分享他们的项目和AI，获得反馈，给你反馈。这是一个很棒的小组，我们会在那里分享独家内容，关于如何，是的，人们正在赚取数千美元，这真的很令人兴奋。所以如果你有兴趣，请查看描述中的链接。我很乐意邀请您加入AI Hustle学校社区，我希望你们今天剩下的时间都过得愉快。

OpenAI's MASSIVE Announcements at Dev Day 2024 22:13 Share