We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Building AGI in Real Time (OpenAI Dev Day 2024)

2024/10/3

Latent Space: The AI Engineer Podcast — Practitioners talking LLMs, CodeGen, Agents, Multimodality, AI UX, GPU Infra and all things Software 3.0

AI Deep Dive AI Insights AI Chapters Transcript

People

AI Charlie

组织和主持多个高影响力的 AI 活动和会议，促进 AI 领域的发展和社区建设。

Alistair Pullen

Olivier Godement

Topics

AI Charlie: 本期节目回顾了OpenAI开发者大会2024,由于无法录制主题演讲,我们请来了NotebookLM团队进行总结。我们还采访了多位演讲者,包括OpenAI的产品负责人、开发者体验负责人以及API技术负责人,以及Cosine公司的CEO Alistair Pullen和OpenAI的CEO Sam Altman。 NotebookLM & NotebookLM 2: OpenAI开发者大会发布了实时API、模型微调、提示缓存和模型蒸馏等新技术,以及O1模型。实时API使用WebSocket连接和函数调用,允许AI访问外部工具和信息,从而实现更自然的交互。 OpenAI的转型以及高管离职引发了人们对其未来发展方向的担忧。微调技术允许开发者定制AI模型,视觉微调技术在医疗等领域具有巨大潜力。自动提示缓存和模型蒸馏技术能够降低成本并提高可访问性。O1模型是一个重大的技术突破,它能够进行推理和学习,在数学和编码方面表现出色,但运行速度和资源消耗方面与GPT-4存在差异。 swyx & Ilan: 实时语音API的演示展示了其在实际应用中的潜力,例如订购商品。该API使用WebSocket连接和函数调用,能够实时响应用户的语音指令。在使用该API时,需要考虑法律法规和用户隐私,并谨慎选择合适的集成方式。该API的会话机制简化了开发流程,无需使用状态机。该API目前主要支持语音转文本功能,未来可能支持视频等其他模态。通过限制音频输出并强制函数调用,可以构建更可靠的命令式架构。 Olivier Godement: OpenAI开发者大会旨在与开发者建立更紧密的联系,并促进全球AI发展。开发者是连接AI技术与未来应用的关键,OpenAI致力于与开发者合作,共同推动AGI的发展。实时API是本次大会上最具挑战性的发布,其设计目标是实现人类水平的延迟。提示缓存机制旨在实现零代码更改,模型蒸馏和评估机制旨在帮助开发者更容易地进行模型评估。 OpenAI的目标是成为AI开发平台提供商,而非仅仅是模型提供商。 OpenAI将根据开发者的需求不断改进其API和工具,并继续投资于推理、多模态和工具使用等领域。 OpenAI希望开发者能够提供反馈,帮助其确定未来的发展方向,并使音频和多模态成为一流的应用体验。 OpenAI计划在API中提供更可控的安全设置,并改进其语音模型的安全性和鲁棒性。 Michelle Pokrass & Simon Willison: 实时API是OpenAI的首个WebSocket API,其设计涉及许多重要的决策。OpenAI团队在测试实时API的过程中,开发了一些有趣的项目。实时API使构建可进行语音交互的网站变得更容易。开发者在使用实时API时需要构建代理服务器来隐藏API密钥,OpenAI建议开发者使用其合作伙伴提供的解决方案来解决API密钥管理问题。 OpenAI正在考虑为实时API提供OAuth支持,以简化API密钥管理。 OpenAI的视觉微调技术被低估了,它在OCR和边界框检测等方面具有显著的优势。 OpenAI的评估工具能够帮助开发者更容易地进行模型评估,并支持结构化输出测试。 OpenAI的API设计遵循自下而上的原则,先提供底层功能,再根据实际需求构建更高级别的抽象。 OpenAI计划允许开发者使用URL或文件上传音频数据到聊天完成API中,并计划在未来支持视频功能。 OpenAI的实时API使用WebSocket技术,因为它适合双向流式传输。 Alistair Pullen: OpenAI邀请他参加开发者大会,分享其在微调方面的经验。他在开发者大会上分享了构建Genie模型的技术细节,包括如何生成数据集来训练模型。他之前对SweetBench团队隐瞒了Genie模型的推理过程,现在看来这个决定是正确的。 O1模型的发布证明了Genie模型的开发方向是正确的。他计划使用O1模型来改进Genie模型的推理过程。 Genie模型在SweetBench Verified上的得分高于O1模型。他计划使用更大的语言模型来改进Genie模型的性能。他认为SweetBench并不是评估模型性能的最佳指标。他认为OpenAI正在构建一些Genie模型内部使用的工具。他认为OpenAI的模型蒸馏技术非常有用。他认为视觉微调技术在UI开发方面具有巨大潜力。他认为OpenAI正在不断改进其微调产品和API。他认为没有必要使用现有的LLM Ops工具,因为Genie模型内部已经构建了类似的工具。他认为语音模式可能在未来集成到Genie模型中。他正在努力使Genie模型的数据集更加多样化,以提高其在不同编程语言中的性能。他计划为Genie模型提供根据用户代码库进行微调的功能。 Sam Altman & Kevin Weil: Sam Altman认为,AGI的概念已经被过度使用,OpenAI更关注于持续改进AI模型。 Sam Altman认为,O1模型已经达到了“推理器”级别,并且很快就能达到“代理”级别。 Sam Altman认为,AI模型的能力正在快速发展,未来几年将取得显著进展。 Sam Altman认为,OpenAI将继续重视研究工作,并不断突破AI技术的边界。 Kevin Weil认为,OpenAI的产品开发与其他公司不同,因为它需要不断适应AI技术的快速发展。 Sam Altman认为,OpenAI需要根据科学进展来调整其研究方向和产品开发策略。 Kevin Weil认为,OpenAI需要兼顾用户的当前需求和未来需求。 Sam Altman认为,OpenAI致力于构建安全可靠的AI系统,并不断改进其安全措施。 Sam Altman认为,迭代式部署是OpenAI安全策略的重要组成部分。 Sam Altman认为,关注AI的潜在风险非常重要,但OpenAI更关注于解决当前的挑战。 Kevin Weil认为,迭代式部署能够帮助OpenAI更好地了解用户需求,并改进其产品。 Sam Altman认为,AI代理技术将对未来世界产生重大影响。 Sam Altman认为,AI代理技术将改变人们工作和生活的方式。 Sam Altman认为,OpenAI将继续开发和改进其AI代理技术。 Sam Altman认为,AI代理技术的安全性是当前面临的主要挑战。 Sam Altman认为,安全措施可能会限制AI技术的应用,但这是必要的。 Sam Altman认为,OpenAI在开发AI技术时会采取谨慎的态度,并根据实际情况调整其安全策略。 Kevin Weil认为,AI技术的发展速度很快,开发者需要不断适应新的技术和工具。 Sam Altman认为,开发者需要关注AI模型的当前能力,并利用其构建具有未来潜力的应用。 Sam Altman认为,AI技术只是工具,开发者需要建立良好的商业模式来获得成功。 Sam Altman认为,OpenAI计划在未来几个月内为O1模型添加函数调用等功能。 Sam Altman认为,AI模型的能力将持续快速提升。 Sam Altman认为,Google的Notebook LLM是一个非常酷的产品。 Kevin Weil认为,Anthropic的Projects是一个非常好的产品。 Kevin Weil认为,OpenAI需要平衡用户的当前需求和未来需求。 Sam Altman认为,OpenAI内部广泛使用其AI模型,并将其用于产品开发和研究。 Kevin Weil认为,OpenAI内部使用AI模型来改进客户服务和安全工作。 Kevin Weil认为,OpenAI内部使用多个AI模型来完成复杂的端到端任务。 Sam Altman认为,OpenAI目前不优先考虑发布离线模型,但未来可能会考虑。 Kevin Weil认为,OpenAI致力于与政府机构合作,以促进AI技术的应用。 Sam Altman认为,开源对AI发展非常重要,但OpenAI目前没有优先考虑开源其模型。 Sam Altman认为,OpenAI希望能够为AI发展做出独特的贡献,而不是仅仅改进基准测试结果。

Deep Dive

Key Insights

Why is the Realtime API significant for practical AI applications?

The Realtime API is significant because it allows for human-level latency in interactions, enabling seamless and natural conversations. It can handle real-time interruptions and maintain context, making it more effective for applications like voice assistants, customer service, and real-time translation.

What internal changes is OpenAI making to become more of a platform provider?

OpenAI is transitioning from a model provider to a platform provider by focusing on tooling around their models, such as fine-tuning, model distillation, and evaluation tools. They are also emphasizing real-time capabilities and providing more integrated solutions, similar to AWS, to meet developers where they are.

Why is OpenAI moving away from the term AGI?

OpenAI is moving away from the term AGI because it has become overloaded and is often misinterpreted. Instead, they are focusing on continuously improving AI models and ensuring they are used responsibly, without the constraints of a binary definition of AGI.

What is the vision for O1 and its successors in terms of AI capabilities?

O1 and its successors are expected to be very capable reasoning models that can handle complex tasks and multi-turn interactions. Over time, they aim to increase the rate of scientific discovery and solve problems that would traditionally take humans years to figure out.

What are the challenges in deploying AI agents that control computers?

The main challenges in deploying AI agents that control computers include ensuring high robustness, reliability, and alignment. These systems need to be safe and trustworthy, especially when they interact with users over longer periods and in complex environments.

Why is OpenAI's approach to safety and alignment important for AI development?

OpenAI's approach to safety and alignment is crucial because it balances the rapid advancement of AI technologies with responsible deployment. They focus on iterative testing and real-world feedback to identify and mitigate potential harms, ensuring that AI systems are safe and beneficial to society.

What is the new Realtime API used for and how does it work?

The Realtime API is used for real-time interactions with AI, such as voice assistants and live translations. It uses WebSocket connections for bi-directional streaming, allowing the AI to respond instantly and handle complex tasks like function calling and tool use.

What is the impact of OpenAI's vision fine-tuning on fields like medicine?

Vision fine-tuning can significantly impact fields like medicine by training AI models on specific datasets, such as medical images. This can help doctors in making more accurate diagnoses and spotting details that might be missed by human eyes.

Why is fine-tuning AI models with diverse data sets important?

Fine-tuning AI models with diverse data sets is important because it ensures the models are adaptable and perform well across different use cases. Training on a variety of programming languages, for example, can improve the model's performance in specific applications and avoid biases.

What is the future of context windows in AI models?

The future of context windows in AI models will see significant improvements in both length and efficiency. OpenAI expects to reach context lengths of around 10 million tokens in the coming months, and eventually, infinite context within a decade. This will enable more complex and versatile interactions.

Shownotes Transcript

十月快乐。

这是你的 AI 联合主持人,查理。我们长期以来的传统之一是以播客的形式报道主要的 AI 和 ML 会议。深入探讨,是的,深入探讨身临其境的氛围,并穿插与关键人物的简短对话片段,帮助你感觉自己就在现场。报道今年的开发者日更具挑战性,因为我们都被要求不要录制开幕主题演讲。

因此,为了替代开幕主题演讲,我们请来了病毒式 Notebook LM 深度潜水团队,我的新 AI 播客宿敌,来为你回顾所有已发布的内容。

当然,你也可以查看节目说明以了解详情。然后我会回来解释我们今天为你准备的所有采访。注意安全,保重。好的。所以我们这里有一大堆文章和博客文章,都是关于 OpenAI 的 2024 年开发者日的。是的,有很多内容需要深入研究。看来你对 AI 的新进展很感兴趣。当然。

而且看起来 OpenAI 有很多东西要宣布。新的工具,公司内部的变化。很多。是的。特别是既然你对 AI 如何应用于现实世界感兴趣,你知道,实际应用,我们将重点关注这一点。完美。例如,这个新的实时 API,他们宣布了这个,对吧?如果我们想让 AI 听起来不那么像机器人,这似乎是一件大事。这可能是巨大的。是的。

实时 API 可以彻底改变我们与 AI 交互的方式。想象一下,如果你的语音助手能够在你打断它时实际处理它。或者进行真正的对话。对,不仅仅是我们习惯的那些笨拙的来回对话。他们实际上展示了它,不是吗?我读到了一些关于旅行应用程序的内容,一个用于语言的应用程序,甚至还有一个 AI 点外卖的应用程序。这些演示非常有趣,我认为它们展示了这个实时 API 可以以多种方式使用。

顺便说一句,它背后的技术也很吸引人。它使用持久性 WebSocket 连接和称为函数调用的东西,因此它可以实时响应。所以函数调用这个东西听起来有点复杂。你能解释一下它是如何工作的吗?所以想象一下让 AI 访问这个完整的工具箱,对吧?信息,功能,各种各样的东西。好的。以旅行社演示为例。使用函数调用,AI 可以从某个数据库中提取详细信息,例如关于 Fort Mason 的详细信息,对吧?

比如附近的餐馆之类的啊,我明白了。所以它不是局限于它已经知道的东西,它可以去寻找它需要的信息,就像人类旅行社一样。正是如此。并且 Hacker News 上有人指出了一个很酷的细节。API 实际上会提供你所说内容的文本版本。所以你可以存储它,分析它。这很聪明。看起来 OpenAI 在努力使这个 API 易于开发者使用方面投入了大量思考。

但是,当我们谈论 OpenAI 时,你知道,除了他们的技术之外,还有一些关于内部变化的新闻。他们不是说他们要放弃非营利组织的身份吗?他们确实这样做了。这引起了所有人的关注。这是一个重大的转变。人们自然会想知道这将如何改变 OpenAI 的未来。我的意思是,对于转向营利性组织,肯定有一些合理的问题。比如,他们现在会有更多资金用于研究吗?可能。

但是,他们会像以前一样关心确保 AI 造福所有人吗?是的,这是个大问题,尤其是在 OpenAI 的领导层也发生了一些变化的情况下,对吧?我读到他们的首席研究官离职了,他们的研究副总裁也离职了,甚至他们的首席技术官也离职了。没错。很多人将这些离职与 OpenAI 的结构变化联系起来。我想这会让你想知道幕后发生了什么。

但他们仍在推出新产品。比如这个微调功能真的吸引了我的眼球。对。微调。它本质上是采用预训练的 AI 模型并对其进行定制。所以,与其说是通用的 AI,不如说是针对特定工作量身定制的 AI。没错。

这为企业带来了许多可能性。想象一下,你可以用你公司的资料来训练 AI,比如你如何沟通你的品牌指南。所以这就像拥有一个专门为你的公司训练的 AI?这就是想法。他们现在也用图像来做这个,对吧?他们称之为“视觉微调”。他们正在做的这件事非常令人难以置信,尤其是在医学等领域。比如使用 AI 来帮助医生做出诊断。没错。AI 可以接受数千张医学图像的训练,对吧?

然后它可能会发现即使是训练有素的医生也可能错过的东西。说实话,这有点吓人。如果它弄错了怎么办?

好吧,我们的想法不是取代医生,而是给他们提供另一种工具,你知道,帮助他们做出更好的决定。好的,这说得通。但是训练这些 AI 模型一定非常昂贵。它可能是。所有这些标记加起来。但是 OpenAI 宣布了一个名为自动提示缓存的东西。自动什么?我不认为我遇到过这个。所以基本上,如果你的 AI 看到它之前已经见过的提示,OpenAI 会给你打折。嗯。

就像 AI 的常客计划。有点像,是的。他们试图降低成本是件好事。他们还在做一些叫做模型蒸馏的事情。好吧,你现在只是用大词来装腔作势。那是什么?

把它想象成食谱,对吧?你可以把一个非常复杂的食谱分解成基本的部分。让它更简单,但味道还是一样的。是的。这就是模型蒸馏。你采用一个大型强大的 AI 模型,并创建一个更小、更高效的版本。所以它重量更轻,但功能仍然一样强大。没错。这意味着更多人可以使用这些强大的工具。他们不需要超级计算机来运行它们。

所以他们正在使 AI 更易于访问。这很好。是的。说到强大的工具,他们还谈到了他们的新 O1 模型。这是他们一直在炒作的模型,据说这是向前迈出的巨大一步。是的,O1。听起来很未来派。根据我读到的内容,它不仅仅是一个更大更好的语言模型。对。这是一个不同的门廊。他们说它可以真正推理,对吧?思考不同。

它的训练方式不同。他们使用强化学习来训练 O1。所以它不仅仅是在寻找它之前见过的数据中的模式。不仅仅是那样。它实际上可以从错误中学习,在解决问题方面变得更好。

所以举个例子。O1 能做什么,而 GPT-4 做不到呢?好吧,OpenAI 展示了它在数学方面做的一些非常令人印象深刻的事情,比如高等数学。是的。以及编码。复杂的编码。即使是 GPT-4 也难以应付的事情。所以你是说如果我需要写一个剧本,我会坚持使用 GPT-4?但是如果我想解决一些疯狂的物理问题,我会使用 O1。类似这样的情况,是的。尽管存在权衡。O1 需要消耗更多的能量来运行。

而且获得这些令人印象深刻的结果需要更长的时间。说得通。功率越大,时间越长,质量越高。没错。听起来它仍在开发中,对吧?他们还计划添加其他内容吗?哦,是的。他们提到了系统提示,这将允许开发人员设置一些关于它如何运行的基本规则。

并且他们正在努力添加结构化输出和函数调用。- 等等,结构化输出?我们不是刚讨论过这个吗?- 我们讨论过了。这就是 AI 的输出以易于使用的方式进行格式化的地方,例如 JSON。- 对,对。所以你不必花一整天的时间来理解它提供的内容。他们考虑到这些事情是件好事。- 这是关于使这些工具易于使用的。说到这一点,开发者日以 Sam Altman 和 Kevin Weil 的一次非常有趣的谈话结束。Sam Altman 是 OpenAI 的首席执行官,

Kevin Weil 是他们新的首席产品官。他们谈论了 AI 的大方向。是的,他们确实这样做了,不是吗?有什么有趣的事情发生吗?好吧,Altman 谈到了超越整个 AGI 术语,即通用人工智能。我能理解为什么。这是一个有点含糊不清的术语,不是吗?他认为它已经成为一个流行词,人们并不真正理解它的含义。所以他们是在说他们不再试图构建 AGI 了吗?更像是他们在说他们专注于让 AI 变得更好。

不断改进它,不要担心把它放在盒子里。这说得通。不断突破极限。没错。但他们也明确表示要负责任地做到这一点。他们谈了很多关于安全和伦理道德的话题。是的,这很重要。他们说他们会非常小心地发布新功能。很好,因为这些东西很强大。是的。这次开发者日活动有很多内容需要吸收。新的工具,OpenAI 的重大变化,以及关于 AI 未来的一些重大问题。是的。但希望这次深入探讨有助于理解其中的一些内容。至少,这就是我们在这里努力做的。

当然。感谢你与我们一起进行深入探讨。新的实时 API 最大的演示包括使用语音模式的函数调用,以及从我们友好的当地 OpenAI 开发者体验工程师兼草莓店老板 Ilan Biggio 那里购买巧克力草莓。

我们首先播放他的演示音频,然后对他进行简短的采访。太棒了。你能打电话看看能不能给我们送 400 个草莓到会场吗?但请保持在 1500 美元以下。我们会帮你把草莓送来。你好?是 Ilan 吗?我是罗曼的 AI 助手。你好吗?太棒了。你能告诉我你有什么口味的草莓酱吗?是的,我们有巧克力、香草和花生酱。等等,400 个巧克力草莓要多少钱?400 个?你确定要 400 个吗?是的,400 个巧克力......

草莓。多少钱?我想大约是 1415.92 美元。400 个巧克力草莓。太棒了,你想送到哪里?请送到 Fort Mason 的 Gateway Pavilion。好的,太棒了。所以确认一下,你要 400 个草莓送到 Gateway Pavilion。

我们预计会送达。好吧,你们就在附近,所以大约需要,我不知道,37 秒?太棒了,你们也是。

嗨,Ilan,欢迎来到 Latinspace。谢谢。我刚看到你精彩的演示,吃了你美味的草莓。你打扮得就像一个草莓推销员。必须拥有所有的一切。演示的构建过程怎么样?演示背后的故事是什么?这很有趣。这实际上是我在发布之前几个月一直在思考的事情。就像拥有一个可以打电话的 AI 一样,这是我个人长期以来一直想要的东西。所以一旦我们在内部启动,我就开始破解它。

然后就这样开始了。我们把它做成了内部演示,然后人们发现它非常有趣,然后我们想,如果把它作为演示之一放在舞台上会多么酷。是的。你会不会指出在构建过程中遇到的任何技术问题?你基本上是第一个使用语音模式 API 构建的人。你会不会指出与 Twilio 集成时遇到的任何问题,就像你使用函数调用和表单填充元素一样?我注意到你有一些......

要实现的目标,然后你就像当

当信息仍然缺失时,语音会提示你,扮演商店员工的角色。是的,是的。所以,我认为从技术上讲,整个处理音频和流媒体是一件完全不同的事情。即使与 AI 和这些新功能分开,它也很难。是的,当你有一个提示时,它会在对话中遵循,就像它被设置成一步一步地根据请求提出正确的问题一样,对吧?

函数调用本身与之有点关系。你必须提示它调用函数,但是处理它与你在助手流或聊天完成流中所做的没有什么不同。我认为 API 的感觉非常类似,如果 API 中的所有内容都是流媒体,它实际上感觉非常熟悉。

到这一点。然后关于函数调用,我的意思是,它工作方式相同吗?我不知道。就像我看到很多日志一样。你们在游乐场展示了很多日志。里面有什么?人们应该知道什么?是的,我的意思是,事件......

可能与我们在聊天完成中拥有的流事件的名称不同,但它们代表非常相似的事情。就像函数调用开始、参数开始一样。就像参数增量,然后是函数调用完成。方便的是,我们发送一个包含完整函数的,然后我就使用它。很好。是的。然后像人们应该注意什么限制?就像,你知道,我认为......

在我们录制之前,我们讨论了一些关于给随机商店老板打电话并将 AI 放在他们身上的敏感性问题。是的。所以,我认为最近有关于此的法规,这就是为什么我们要非常小心,我想,你不能仅仅用 AI 给任何人打电话,对吧?这就像垃圾邮件电话一样,你不会希望有人用 AI 给你打电话。是的。所以,我是一个开发者,我正要对随机的人这样做。是的。我将要违反什么法律?

我不记得管理机构是什么,但是我认为,获得你将要打电话的人的同意,它总是有效的,对吧?我,作为草莓店老板,同意用 AI 接听电话。我认为除此之外,你应该小心。个人比企业更敏感。我认为企业,你有一点余地。此外,我认为企业有动力想要接听 AI 电话。特别是如果,比如,

他们正在处理它。它正在做生意。对吧?就像做生意一样。这有点像进入预订平台一样,对吧?你接触更多,但我认为它仍然非常像一个灰色地带。因此,我认为每个人都应该谨慎行事,弄清楚它是什么。我,我,我,法律是如此的最近。我没有足够的时间去,我也不是律师。是的。好的,很酷。足够了。还有一件事。这是一种代理行为。你是否使用了状态机?你使用了任何框架吗?

不。不。你把它放在上下文中,然后一直循环运行,直到结束通话?是的。甚至没有循环,就像

因为 API 基于会话,它总是会继续运行。每次你说话,它都会触发一个调用。然后在每次函数调用之后,它也会调用生成。所以这是另一个区别。它本质上几乎像一个循环,仅仅是因为它在一个会话中,对吧?不需要状态机。我会说这与例程的概念非常相似,它只是一系列步骤,并且它

就像轻轻地坚持它们,但通常效果很好。- 步骤是提示。- 步骤,就像提示,

就像步骤在提示中一样。就像第一步做这个,第一步做那个。如果我想在对话中途更改系统提示怎么办?你可以。说实话,我还没有玩太多。但是我知道你可以。太棒了。我注意到你称之为实时 API,而不是语音 API。所以我认为它就像一个以语音开始的实时 API。我认为这就是他在那件事上所说的。我无法想象,比如还有什么东西是实时的?好吧,是的。

以 ChatGPT 的语音模式为例,我们已经演示了视频,实时图像。所以我实际上不确定时间线是什么,但是如果我必须猜测,那可能就是我们接下来要做的。你可能需要直接与构建此团队的人交谈。当然。你不能保证他们的时间表。是的,对。完全正确。但是鉴于这是我们在 ChatGPT 上演示的功能,那就好了。是的。

永远不会出现像实时文本 API 这样的情况,对吧?好吧,这是一个实时文本 API。你可以在此使用纯文本。哦。是的。我不知道你为什么要这样做。但实际上,所以这里的文本到文本并没有什么意义。我认为你不会获得很多延迟增益。但是,语音到文本非常有趣。因为你可以阻止响应,例如音频响应,并强制进行函数调用。因此,你可以做一些像 UI 控制这样的事情,这非常可靠。我们有很多,比如,你知道,比如,

我们不确定这将如何运作,因为你有一个语音回答。这就像一个完整的角色,对吧?这有点冒险。但是如果你取消音频输出,并使其始终必须输出一个函数,那么你可以得到非常可靠的命令,就像一个命令架构一样。是的。实际上,这也是我想要与许多这些东西交互的方式,比如单向语音。是的。你不一定想听到语音反馈。好的。有时就像,

是的,我认为拥有输出语音很棒,但我感觉我不总是想听到输出语音。我会说通常我不想要。但是是的,完全正确。能够与它交谈非常棒。太棒了。你想评论一下你宣布的其他内容吗?从缓存来看,我注意到的是......

我喜欢无需代码更改的部分。我期待着文档,因为我相信有很多关于你缓存的内容、缓存时间的细节。因为 Anthropic 的缓存是 5 分钟。我想,好吧,如果我不每 5 分钟进行一次调用怎么办?是的,说实话,我一直忙于实时 API 和制作演示,我没有阅读其他内容的发布太多。我的意思是,我知道它们,但我认为我很高兴看到所有蒸馏......

如何运作。这是我们一直在做的事情,比如,我不知道,我一直在我们的模型之间这样做一段时间了,并且我看到了非常好的结果。就像我过去做过的一样,比如从 GPT-4 到 GPT-3.5,并且获得了几乎相同的函数调用级别,有数百个函数。所以这非常有说服力。所以,我觉得更容易蒸馏,我真的很期待。

我明白了。这是一个工具吗?所以我看到了评估。是的。就像,蒸馏产品是什么?说实话,不是很清楚。我认为我想让那个团队谈论它。好吧,我很感谢你加入。是的,当然。精彩的演示。设计精美。我相信这是你和罗曼的一部分。是的,我想,向最初的 Wanderlust 创建者致敬,比如西蒙和卡洛里斯,然后像......

我接手并构建了语音组件和语音呼叫组件。是的,所以这是一个大型团队的努力。然后是整个 PI 团队,因为他们在调试所有正在进行的事情。与他们合作非常愉快。是的,你们是 DX 团队的第一个消费者。是的。我的意思是,我们在这里所做的经典角色。是的。好的,是的。还有什么?还有什么行动号召吗?不,享受开发者日。谢谢。是的。就是这样。

然后 Latent Space 团队与 OpenAI 平台的产品主管 Olivier Godemont 进行了交谈,他主持了整个开发者日主题演讲,并介绍了我们今天讨论的所有主要新功能和更新。好的,所以我们在这里与 Olivier Godemont 见面。我不懂法语。没关系。这很完美。今天看到你的主题演讲真是太棒了。准备这样的事情的幕后故事是什么?准备开发者日?

它基本上来自几个地方。第一,去年开发者日的反响非常好。开发者、初创公司创始人、研究人员都希望花更多时间与 OpenAI 互动,我们也希望花更多时间与他们互动。所以对我们来说,坦白说,再次举办它,就像一个不错的会议,是理所当然的。第二件事是走向全球。我们在巴黎和其他一些非欧洲、非美国的国家举办了一些活动。所以今年我们在旧金山、新加坡和伦敦举办活动,坦白地说,只是为了结识更多开发者。

是的,我对新加坡的活动非常兴奋。啊,是的。你会去吗?我不知道。我不知道我是否收到了邀请。不。实际上,我可以和你谈谈。是的,然后有一些关于 10 月 1 日的猜测。是因为 01,10 月 1 日吗?它与之无关。我昨天发现了这条推文,人们真是太有创意了。不,01,与 10 月 1 日没有任何联系。但事后看来,那将是一个非常好的模因。好的。

是的,我认为 OpenAI 对开发者的推广是我在 2022 年感受到的整体缺失,当时人们试图构建 ChatGPT,并且没有函数调用,所有你在过去谈论的内容。这就是为什么我开始举办我自己的会议,就像,这是我们的小型开发者会议一样。但是现在看到这个 OpenAI 开发者日,并看到如此多的

面向开发者的产品来自 OpenAI,我认为这非常令人鼓舞。是的,完全正确。这就是我所说的,本质上,开发者基本上是将技术与未来联系起来的人。本质上,看到一种能力,看到一种低级技术,并且会说:“嘿,我看到了可以实现的应用程序或用例。”因此,为了使 AGI 造福全人类,对我们来说,与开发者合作是理所当然的。

最重要的是,你几乎没有等待名单,这与其他版本的发布相比,人们通常会有。

你使用了提示缓存,你使用了实时语音 API。肖恩写了一篇很长的推特帖子,所以人们知道这些版本。是的。偷偷摸摸地最难准备的那一天是什么?或者像最后 24 小时一样,有什么是你不知道会起作用的吗?是的。它们都是相当,我会说,涉及到的功能要发布。所以团队一直在努力工作,所有这些。

我会说,对 OpenAI 来说最新的是实时 API,原因有几个。我的意思是,首先,你知道,这是一个新的模式。其次,这是我们第一次拥有一个实际的基于 Web 套接字的 API。所以我会说,这是在过去一个月中需要最多工作才能从开发者的角度正确完成,并确保我们现有的安全缓解措施与实时音频输入和音频输出良好配合的一个。

你想强调哪些设计选择?我认为对我来说,WebSockets,你只是接收一堆事件,它是双向的。我显然没有很多经验。我认为很多开发者将不得不接受这种实时编程。你在为谁设计,或者你对探索这个的开发者有什么建议?核心设计假设本质上是如何实现人类级别的延迟?

我们进行了一系列测试,比如平均而言,人类,比如,你知道,文本,比如大约 300 毫秒才能互相交谈。所以这就是设计原则,本质上,就像从这一点倒推,并且,你知道,使技术发挥作用。因此,我们评估了一些选项,而 WebSockets 是我们选择的那个。所以这就像一个设计选择。其他一些我们必须做出的重大设计选择来自缓存。来自缓存,设计目标是从一开始就自动化的,就像开发者无需代码更改一样。

这样你就不必学习提示前缀是什么,以及缓存持续多长时间,就像我们尽可能多地做一样。所以这也是一个重要的设计选择。然后最后是关于蒸馏和评估,重要的设计选择是我在我以前的工作中在 Skype 学到的东西,就像围绕成功的陷阱的哲学一样。本质上,对于大多数开发者来说,什么是完成正确事情的最小步骤数?因为当你对脂肪进行评估时,坦白地说,有很多方法会弄糟它,并且有一个糟糕的模型,评估会讲述一个错误的故事。所以我们的整个设计是,好的,我们实际上关心的是帮助那些没有太多经验的人,比如一个非常便宜的模型,在几分钟内到达一个好位置。所以我们如何才能在产品流程中实现这种成功?是的。

我有点害怕微调,尤其是对于视觉,因为我不知道对于视觉之类的东西,我不知道什么。对于文本,我可以很容易地进行评估。对于视觉,假设我正在尝试......你的一个例子是 Grab,这与我的家乡非常接近。我来自新加坡。我认为你的例子是他们更好地识别了停车标志。

为什么这么难?我为什么要微调它?如果我微调它,我会失去其他东西吗?我认为开发者必须弄清楚视觉方面有很多未知数。当然。视觉将开启一个新的,我会说,评估空间。

因为你是对的,用图像来判断正确与错误更难。我可以说的是,我们已经对视觉微调进行了几个星期的 alpha 测试。我们看到,与文本微调相比,性能提升甚至更高。

所以这里有一些东西,我们印象深刻,坦白地说,以一种好的方式。但是,你知道,它运行得有多好。但是当然,我认为从一种模式转向文本和图像的开发者将会有更多测试、评估,比如,你知道,要设置到位,以确保它运行良好。模型蒸馏和评估绝对是最有趣的。从仅仅是模型提供商转变为平台提供商。人们应该如何看待成为真相的来源?比如,你希望 OpenAI 成为所有提示的记录系统吗?因为人们有时会将其存储在不同的数据源中。

然后,随着模型的演变,这是否会与模型相同?因此,你不必担心重构数据,诸如此类的事情,或者未来的模型结构。愿景是,如果你想成为真相的来源,你必须赢得它,对吧?比如,我们不会强迫人们将数据传递给我们。没有价值主张,比如,让我们存储数据。这里的愿景是,目前,大多数开发者使用通用的模型,比如现成的 GPT-4。我们拥有的愿景是,快进几年。我认为大多数开发者最终都会拥有一个......

自动化的、持续的、微调的模型。你使用模型越多,你传递给模型提供商的数据越多,模型就会自动微调,并针对一些评估集进行评估,并且本质上,你不必每个月,当有新的快照时,都要上线并尝试一些新东西。这是一个方向。我们离它还很远。但我认为评估和决策产品本质上是朝着这个方向迈出的第一步。就像,嘿,是你。我通过这个方向设置它,你给我们评估数据。我们可以实际记录你的完成数据,并开始代表你进行一些自动化。然后,如果你与 OpenAI 共享数据,你可以免费进行评估。人们应该如何考虑何时值得,何时不值得?有时人们会过度保护他们的数据,而实际上这些数据并没有那么有用。但是开发者应该如何考虑何时这样做是正确的,何时不这样做,或者......

所以,这里有一些东西,我们印象非常深刻,坦率地说,很好,但你知道它的效果如何。但可以肯定的是,我知道那些从一种模式转向文本和图像的开发者将需要更多测试和评估,以确保其正常运行。模型蒸馏和评估绝对是最有趣的,它不仅仅是一个模型提供商,而是一个平台提供商。人们应该如何看待

成为真相的来源?例如,您是否希望 OpenAI 成为所有提示的记录系统?因为人们有时会将其存储在不同的数据源中。那么,这是否与模型的演变相同?因此,您不必担心重构数据,或者诸如此类的事情,或者未来的模型结构。愿景是,如果您想成为真相的来源,您必须赢得它,对吧?例如,我们不会强迫人们传递数据,如果对我们来说没有价值主张存储数据的话。这里的愿景是

目前,大多数开发人员使用的是通用的模型,即现成的 GP40。我们的愿景是,快进几年,我认为大多数开发人员最终将拥有一个自动化的、持续的、微调的模型。

您使用模型的次数越多,传递给模型提供商的数据就越多,模型就会自动微调,并针对某些数据集进行评估。从本质上讲,您不必在每个月都有新快照时上线并尝试一些新事物。这是一个更正。

我们离它还很远。但我认为评估和决策产品本质上是朝着这个方向迈出的第一步。就像,“嘿,如果你对这个方向感到兴奋,并且你给我们提供评估数据,我们可以快速记录你的完成数据,并开始代表你进行一些自动化。”然后,如果你与 OpenAI 共享数据,你可以免费进行评估?是的。

人们应该如何考虑何时值得做,何时不值得做?有时,当数据实际上并没有那么有用时,人们会过度保护他们的数据。但是,开发人员应该如何考虑何时正确地做,何时不正确地做,或者你有什么想法吗?默认策略仍然相同,除非你选择加入,否则我们不会在任何 API 数据上进行训练。从反馈中我们看到的是,评估可能很昂贵。如果你在数千个样本上运行所有一个评估,你的账单将会大幅增加。

这是问题陈述一。问题陈述二是,从本质上讲,我希望进入一个世界,无论 OpenAI 发布什么新的模型快照,

我们都对开发人员关心的任务没有回归充满信心。为此,我们需要进行评估。因此,这本质上是一种二加一区。就像我们基本上补贴评估一样,我们还在发布新模型时使用评估,以确保我们朝着正确的方向前进。所以在我看来,这是一个双赢的局面。但同样,完全是选择加入的。我希望许多开发人员不会想要共享他们的数据,这对我来说完全没问题。

我认为免费评估是一个非常好的激励。我的意思是,这是一个公平的交易,你获得数据,我们获得免费评估。没错,我们对 PII 进行消毒,我们对实际敏感数据不感兴趣,我们只想对实际用例进行良好的评估。我几乎想评估评估,我不知道这是否出现过。有时评估本身是错误的,我没有办法告诉你。

所有开始使用 LLM、使用 LLM 的人都说:“是的,评估很容易,我一生都在做测试。”然后你开始实际构建评估,理解所有极端情况,你就会意识到,“哇,这是一个完整的领域。”所以,是的,好的评估很难。所以,是的。

但我认为有一个,你知道,我刚刚与 Braintrust 进行了交谈,我认为他们是你的合作伙伴之一。他们还强调了基于代码的评估与你那种低代码评估的区别。我看到的是,我不知道,也许你没有演示更多内容,但我看到的是一种低代码体验,对吧,用于评估。你会支持更多基于代码的评估吗,例如,我会在......

在 OpenAI 的评估平台上运行代码吗?- 当然。我的意思是,我们会在开发者所在的地方与他们会面。目前,需求更多的是易于上手的评估。但如果我们需要公开评估 API,例如,让人们传递他们现有的测试数据,我们会这样做。所以,是的,在我看来,没有哲学上的不一致。- 是的,是的,是的。顺便说一句,我认为这正在变成,它基本上就像你正在成为 AWS 一样,就像 AI 云一样。

我不知道这是否是深思熟虑的策略,或者它就像......它甚至不必是一个深思熟虑的策略。你将提供存储,你将提供计算,你将提供网络。我不知道网络是什么样的。网络可能是缓存。这是一个 CDN。这是一个提示 CDN。但它是所有事物的 AI 版本。你看到了类比吗?是的,完全正确。每当我与开发人员交谈时,我都觉得

好的模型只是构建良好应用程序的一半。还有很多事情你需要做。评估是完美的例子。你可以拥有世界上最好的模型,如果你在黑暗中,很难获得信心。因此,我们的理念是,整个软件开发堆栈正在使用 LLM 重新发明。

OpenAI 根本不可能构建所有东西。坦率地说,要构建的东西太多了。因此,我的理念是从本质上讲,我们将专注于最接近模型本身的工具。这就是为什么你会看到我们在微调、蒸馏、评估方面投入相当多的精力,因为我们认为在一个地方拥有所有这些实际上是有意义的。从本质上讲,你可以设置某种虚拟循环。但是像,你知道,

LLM Ops,像那些远离模型的工具,我不知道。如果你想做超级精细的家庭管理或工具,我不确定 OpenAI 是否有这么大的优势来构建这种工具。这就是我们目前的想法。

但同样,坦率地说,理念非常简单。策略非常简单。它是在开发人员想要我们存在的地方与他们会面。因此,坦率地说,这就是我每天都在努力做的。太棒了。非常感谢你的时间。我相信你会......是的,我还有更多关于......关于语音的几个问题,还有你的行动号召,你想要什么反馈,对吧?我认为我们应该花更多时间在语音上,因为我觉得这是最大的亮点。我谈到了......好吧,我的意思是,就像......

OpenAI 实时技术的未来是什么?因为我认为视频显然是下一个,你已经在 ChatGPT 桌面应用程序中有了它。我们只是永久存在吗?开发人员只是会来回发送套接字与 OpenAI 通信吗?我们如何为此编程?未来是什么?是的,这很有道理。我认为随着多模式的发展,实时技术正在迅速成为构建应用程序的正确体验。

因此,我的预期是,我们将看到大量应用程序迁移到实时 API。如果你放大,音频真的很简单,就像音频直到现在,音频

在网络上,在应用程序中,基本上非常像二等公民。就像你基本上为那些没有选择的使用者做了一个音频聊天机器人一样。你知道,他们可能在努力阅读,或者我不知道,他们可能对技术不太了解。因此,坦率地说,与文本相比,这就像一个糟糕的选择。但是,当你与现实世界中的人交谈时,绝大多数人都更喜欢交谈和倾听,而不是打字和写作。我们在写作之前先说话。没错。我不知道。我的意思是,我相信对你来说在新加坡也是如此。对我来说,我的欧洲朋友们每天收到的 WhatsApp 语音笔记数量,我的意思是,只是人们。坦率地说,这是有道理的。中文。中文,是的。是的,所有语音。这更容易。有更多的情感。我的意思是,你很好地表达了你的观点。因此,我对实时 API 和一般音频的个人愿望

是使音频和多媒体真正成为一流的体验。如果你来自 YC 的令人惊叹的、超级大胆的初创公司,你将构建下一个十亿用户应用程序,使其真正成为音频优先,并使其感觉像一个真正好的项目体验。

这就是目标,我认为它可能会非常大。我认为人们对目前在高级语音模式中发布的语音的一个问题是拒绝。你们有一个非常鼓舞人心的模型规范,我认为 Joanne 参与了该规范的制定,你们说,是的,我们不想总是过度拒绝。事实上,即使是不适合工作的,在某些情况下也可以。是的。

如何才能有一个 API,我们可以说,不适合工作,可以吗?我认为我们会做到。模型规范做到了。它做到了,它太棒了。是的,我们不做审查你是否可以说粗俗的话或其他任何事情。有一些用例,例如,我正在编写好莱坞剧本,我想说粗俗的话,这完全没问题。因此,我认为我们将要走的方向基本上是,总会有一个

我们将禁止的行为集,坦率地说,因为它们是非法的,违反了我们的服务条款。但是,还有一些更危险的主题是完全合法的,例如粗俗的词语或不适合工作的材料,我们基本上会在 API 中公开可控的安全旋钮,以便您可以说:“嘿,这个主题可以,那个主题不可以。你想让安全拒绝的阈值有多敏感?”

我认为这是方向。所以是一个安全 API。是的,在某种程度上,是的。是的,我们以前从未有过。是的。因为现在,它是您决定的任何内容,然后就是这样。这将是我不使用 OpenAI 语音的主要原因,因为过度拒绝。是的,是的,是的。不,我们必须解决这个问题。像唱歌。我们正在尝试进行语音卡拉 OK。所以我是一个歌手,你锁定了唱歌。是的,是的,是的。

但我明白音乐会让你陷入困境。好的,是的,那么,一般来说,你想从开发人员那里听到什么?我们所有的开发人员都在观看。你想要什么反馈?还有其他具体内容,特别是今天的内容。你有什么不确定的事情,你认为我们的反馈真的可以帮助你做出决定。当然。我认为从本质上讲,在今天之后,这一点变得非常清楚,我认为开放式行动在今天之后变得非常清楚。

对推理的投资,对多模式的投资,以及对工具使用的投资,例如函数调用。对我来说,我最大的问题是,我们应该将光标放在哪里?

我认为我们坦率地说需要这三者。所以我们会继续努力。雇佣 10,000 人。实际上,不需要。构建一堆机器人。没错。因此,让我们以 O1 为例。O1 对你的问题足够聪明吗?让我们暂时搁置现有的模型。对于你想要构建的应用程序,O1 在推理方面是否足够,或者我们还需要采取什么步骤?预览还不够。我需要完整的。是的。

所以这正是那种反馈。从本质上讲,我希望为开发人员做的事情是,我的意思是,Sam 一直在说的一件事是,说起来容易做起来难,但我认为方向是正确的。作为一名开发人员,作为一名创始人,你基本上想要构建一个今天模型有点难以处理的应用程序,对吧?就像你认为正确的事情一样,它有时有效,有时无效,

这样,这基本上就给了我们一个目标,就像,“好的,这就是你需要在几个月后的下一个模型版本中启用。”因此,我会说,通常情况下,这是一种对我来说最有用的反馈,我可以直接整合。太棒了。我认为这是我们的时间。

非常感谢你们。是的,非常感谢。谢谢。我们对奥利维尔直接解决了不适合工作的审核策略问题印象特别深刻,因为这之前只在 Reddit 论坛上被提及过。这是一个令人鼓舞的迹象,我们将在本集结尾与 Sam Altman 的坦诚对话中再次谈到这一点。

接下来,与 Roman Hewitt 的聊天,他是播客的朋友、AI 工程师世界博览会闭幕式演讲者,也是 OpenAI 的开发者体验主管,他将讨论他令人难以置信的现场演示以及对 AI 工程师关于所有新模式的建议。

好了,我们现在直播 OpenAI 开发者日。我们和胡安在一起,他刚刚在舞台上进行了两个精彩的演示。他一直是 Latentspace 的朋友,所以感谢你抽出一些时间。当然,是的。感谢你来到这里并抽出时间与我们在一起。是的,我很感激。我很感激你们举办了这次活动。我知道这需要额外的工作,但这确实向开发人员表明,你们关心的是伸出援手。

是的,当然。我认为当你回顾 OpenAI 的使命时,我认为对我们来说,让开发人员参与我们所做的一切都非常重要,确保他们拥有构建成功应用程序所需的所有工具。我们真的相信,开发人员总是会发明我们自己无法构建的 AI 的想法、原型和趣味因素。所以能在这里见到大家真的很棒。

我们邀请了你们公司的 Michelle。是的,很棒的一集。谢谢。她非常认真地说,API 是通往 AGI 的道路。正确。我们 YouTube 评论中的人说,

API 不是 AGI。我说,不,她非常认真。API 是通往 AGI 的道路,因为你不会像开发人员那样构建所有东西,对吧?当然,是的。这就是拥有一个平台和一个令人惊叹的构建者生态系统的全部价值,他们反过来可以创建所有这些应用程序。我相信我们之前讨论过这个问题,但现在有超过 300 万开发人员在 OpenAI 上进行构建。因此,看到所有这些能量用于创造新事物,这真是令人兴奋。

我本来想说,你今天在舞台上构建了两个应用程序,一个国际空间站追踪器,然后是一个无人机。最难的事情一定是打开 Xcode 并进行设置。现在,模型如此出色,以至于它们可以做其他所有事情。你使用了两种交互模式。你有点像 ChatGPT 应用程序来制定计划,Twitter 一个,然后你使用光标来应用一些更改。人们应该如何考虑使用编码模型的最佳方法,特别是对于品牌

全新的项目,以及他们试图修改的现有项目。是的。我的意思是,关于 O1 预览版和 O1 Mini 在 API 中可用的一件非常酷的事情是,你可以像我一样在像 Cursor 这样的常用工具中使用它,对吧?这也是 Devon 从 Cognition 在他们自己的软件工程代理中可以使用的。在

在 Xcode 的情况下,它并没有完全集成到 Xcode 中,这就是为什么我将 ChatGPT 并排放置的原因。但这很酷,对吧?因为我可以指示一个预览版成为我的编码伙伴和头脑风暴伙伴,用于这个应用程序,还可以整合所有文件并按照我想要的方式设计应用程序。所以我所要做的就是将代码移植到 Xcode 并对应用程序构建进行零样本处理。顺便说一句,我不认为我传达了这有多重要,但你现在可以从头开始创建一个 iPhone 应用程序

描述你想要的大量复杂细节,你的愿景在一分钟内就能实现。这真是太棒了。我必须承认,我有点怀疑,因为如果我打开 SQL,我对 iOS 编程一无所知。你知道将它粘贴到哪个文件中。你可能已经设置了一点。所以我就像,我必须回家测试它,然后我需要 ChatGPT 桌面应用程序,这样它才能告诉我点击哪里。是的,我的意思是,像

Xcode 和 iOS 开发多年来随着 Swift 和 SwiftUI 的引入而变得更容易。我认为在 Objective-C 或故事板时代,对于新手来说,入门有点困难。但是现在有了 Swift 和 SwiftUI,他们的开发工具非常出色。但是现在当你将其与 O1 结合起来作为你的头脑风暴和编码伙伴时,它就像你的架构师一样有效。我认为这是描述 O1 的最佳方式。人们问我,像“GPT-4 能做一些这样的事情吗?”

它当然可以,但我认为它只会开始输出代码,对吧?我认为 O1 的优点在于它可以制定计划。例如,在这种情况下,iOS 应用程序必须从 API 获取数据。它必须查看文档。它必须查看如何解析这个 JSON?我将此内容存储在哪里?并将其连接在一起。所以这就是它真正闪光的地方。Mini 或 Preview 是人们应该使用的更好的模型吗?哦,很好。是的。

我认为人们应该尝试两者。我们显然对即将推出的 O1(我们为其共享了评估)非常兴奋。但我们注意到,O1 Mini 在所有方面都非常好,数学、编码、所有 STEM 领域。如果你需要进行头脑风暴或科学方面的工作,你需要比使用 O1 预览版更广泛的知识。

但是,是的,我为我的第二个演示使用了 O1 Mini,它运行得完美无缺。我需要的只是非常类似于扎根于代码的东西,设计和连接前端、后端、一些 UDP 数据包、一些 WebSockets,一些非常具体的东西,它完美地完成了这项工作。然后也许只是谈谈语音和 Wanderlust,这个不断发展的应用程序。它确实如此,是的。准备所有这些工作的背景故事是什么?

你知道,这很有趣,因为去年开发者日,我们试图思考什么可以成为一个很棒的演示应用程序来展示辅助体验。我一直认为旅行是一个很好的用例,因为你可能有图片、位置、可能需要翻译。有很多用例都与旅行有关,去年我想,让我们使用一个旅行应用程序,这就是 Wanderlust 的由来。但当然,一年前,我们只有基于文本的助手。

现在我们想,好吧,如果有语音模式,如果我们只是把它作为眨眼带回来呢?如果我们与语音的交互更好呢?因此,在这个新的演示中,我展示了能够进行实时与应用程序的完整对话的能力。但我们还想强调的是调用工具和函数的能力,对吧?因此,在这种情况下,我们使用 Twilio API 进行了电话呼叫,与我们的 AI 代理交互。

但开发人员非常聪明,他们会想出很多我们自己想不出的好主意,对吧?但是,如果你可以有一个,你知道,911 调度员呢?如果你可以有一个客户服务中心,比我们今天习惯的要聪明得多呢?实时技术将有很多用例。太棒了。是的,有时实际上你就像这应该会终止电话树一样,像

不应该像拨号 1 一样。当然。Para español,你知道。是的,完全正确。我的意思是,即使你开始说西班牙语,它也会做这件事,你知道的。你甚至不必问。所以是的,我对这个未来感到兴奋,在这个未来中,我们不必与那些遗留系统进行交互。是的,是的。有没有什么,所以你正在流式环境中进行函数调用。所以基本上是 WebSockets,我认为是 UDP。是的。

它基本上不能保证是精确的一次性交付。在构建此过程中,你遇到过任何编码挑战吗?是的,这有点难以深入研究。我们还认为,就目前而言,我们发布的是此 API 的测试版。我认为还有很多东西需要构建到其中。

它确实具有函数调用和工具,但我们认为,例如,如果你想要一个非常强大的工具,在你的客户端上,你可能想要一个 WebRTC 作为客户端,对吧?而不是直接大规模使用套接字。这就是为什么如果你想使用它们,我们有像 LifeKit 和 Agora 这样的合作伙伴。我相信将来会有更多。

但是,是的,我们一直在迭代这个,我相信未来几周开发人员的反馈对于我们正确地做到这一点至关重要。是的,我认为 LifeKit 公开表示它们已用于 ChatGPT 应用程序。

就像,它只是全部开源,我们只是直接与 OpenAI 一起使用它,还是我们使用 LiveKit Cloud 或其他什么东西?所以现在我们发布了 API,我们还发布了一些示例代码和参考客户端,供人们开始使用我们的 API。我们还与 LiveKit 和 Agora 合作,因此他们也有自己的方法来帮助你入门,这些方法可以直接与实时 API 连接。

因此,根据用例,人们可以选择使用什么。如果你正在处理完全是客户端的东西,或者如果你正在处理服务器端的东西,对于语音交互,你可能会有不同的需求,所以我们想支持所有这些。我知道你得走了。你有什么想让 AI 工程社区特别提供反馈的吗?例如,甚至像特定的 API 端点或类似的东西......

你想要什么?是的,我的意思是,如果我们退一步,我认为今年的开发者日与去年有所不同,并且在几个方面有所不同。但其中一种方式是我们希望保持亲密,比去年更亲密。我们希望确保社区处于聚光灯下。这就是为什么我们有社区演讲等等。

而这里的重点是向最好的开发人员和 AI 工程师学习。因此,你知道,我们想向他们学习。今天早上我们发布的大部分内容,包括提示缓存等内容,在游乐场中快速生成提示的能力,甚至像视觉微调这样的内容。所有这些都是开发人员一直在要求我们的东西。因此,我想留给他们的要点是说,嘿,我们正在制定的路线图受到了他们的工作和他们的工作的影响。因此,我们非常喜欢反馈。

从高级功能请求,正如你所说,到 API 端点的非常细致的细节,我们都喜欢反馈。所以是的,这就是我们构建此 API 的方式。是的,我认为模型蒸馏这方面也可能最无聊,但实际上使用得很多。没错,是的。我认为这可能是最出乎意料的,对吧?因为我认为如果我正确地阅读了过去几天的 Twitter,

很多人都在期待我们发布用于语音到语音的实时 API。我认为开发人员并没有期望我们拥有更多用于蒸馏的工具。

我们真的认为这将是一件大事,对吧?如果你正在构建具有以下功能的应用程序,你知道,你想要高,例如低延迟、低成本,但在用例上具有高性能、高质量,那么蒸馏将非常棒。是的,我刚刚参加了蒸馏会议,他们展示了如何从 4.0 蒸馏到 4.0 Mini,并且性能仅下降了约 2%,价格便宜了 15 倍。是的,我也参加了为员工客户设计的超人用例。是的,这非常好。

太棒了,伙计。太棒了。非常感谢你,伙计。再次感谢你今天来到这里。能邀请你总是很棒的。正如你可能在这次聊天的结尾听到的那样,当天有很多会议都集中在特定的新功能上,例如新的模型蒸馏功能,它结合了评估和微调。在我们的下一个环节中,我们很高兴再次邀请两位播客的前任嘉宾,这是听众在我们播客第二年做 Latent Space 播客时非常喜欢的事情。

API 团队的 Michelle Pokras 最近加入我们讨论了结构化输出,并且今天在开发者日上进行了更新的长篇会议,描述了新的结构化输出模式的实现细节。我们还了解了她对我们在她的剧集中讨论过的语音模式 API 的最新想法,因为它终于发布了。

她与播客的朋友和超级博主 Simon Willison 一起参加了这次活动,Simon Willison 也在我们的开发者日 2023 剧集中作为客座联合主持人回归。太好了,我们又回到了开发者日现场直播。回归嘉宾 Michelle。然后是回归嘉宾联合主持人 Ford。

- 四个第一,是的,我不知道。- 我数不清了。- 我数不清了。- 有几个。- Simon Willis 回来了。是的,我们刚刚结束了一切。祝贺你让一切顺利进行。Simon 写了一个很棒的现场博客,所以如果你还没有赶上。- 我在等待第一次演讲开始时实现了我的现场博客,使用像 GP4 这样的工具为我编写了 JavaScript。我及时上线了,然后是的,我一直在现场直播整个过程。- 你是光标爱好者吗?- 老实说,我还没有真正接触过光标。

我还没花足够的时间去理解它,我想。我更倾向于将内容复制粘贴到 Claude 和 ChatGPT 中。是的,很有趣。我已经转向使用 Cursor 和 01 了,它很容易切换开关。你的工作流程是什么?复制、粘贴、应用。说实话,我仍然使用 VS Code 协同编程。

所以,Copilot 实际上是我加入 OpenAI 的原因。你知道的,在 ChatGPT 之前,这就是真正吸引我的东西。所以,我仍然在用它。但我一直想尝试 Cursor,我认为现在事情平静下来后,我会认真尝试一下。

是的,改变你的首选工具是一件大事。是的。是的,我已经很习惯了。是的。我的意思是,如果你想,你可以直接复制 VS Code 并创建你自己的。这是应该做的事情,对吧?是的。我们讨论过举办一次黑客马拉松,你唯一要做的事情就是复制 VS Code,并且让最好的复制品获胜。不错。这实际上是一个非常好的主意。

是的,所以,我的意思是,祝贺你今天发布了所有内容。我知道,我们稍微谈到了这一点,但每个人都在猜测语音 API 即将来临,我们在我们的剧集中也讨论了这一点。你对这次发布有什么感觉?你有什么想强调的设计决策吗?

是的,非常兴奋。团队已经研究它一段时间了。对我们来说,这是一个非常不同的 API。这是第一个 WebSocket API,因此需要做出许多不同的设计决策,例如发送什么类型的事件?何时发送事件?事件名称是什么?你在连接时发送什么以及在未来的消息中发送什么?所以这里有很多有趣的决定。在我们测试它的过程中,团队还一起开发了一些非常酷的项目。

我非常喜欢的一个项目是,我们为 API 团队举办了一次内部黑客马拉松,一些人开发了一个小工具,你可以用它通过语音模式来使用 Vim,例如控制 Vim,你会告诉它“写一个文件”,它就会知道所有 Vim 命令并输入它们。所以是的,我们一直在开发很多很酷的东西,并且非常期待看到人们用它来构建什么。

我必须提一下今天的一个演示。我认为是 Katia 做了一个太阳系的 3D 可视化,就像你可以与之对话的 WebGL 太阳系一样。这是我见过的最酷的会议演示之一。这太令人信服了。我真的很想要这个代码。我真的很想让这个代码发布出来。我会和团队谈谈。我认为我们可能会发布它。绝对精彩的例子。它让我意识到实时 API,这个 WebSocket API,意味着构建一个你可以直接与之对话的网站现在很容易了。

这就像构建一个你可以与之对话的 Web 应用程序并不难,它会调用不同的功能,它会与屏幕上的内容进行交互。我对此感到非常兴奋。所有这些项目我都认为我永远不会接触到,但现在我想,你知道吗?花一个周末的时间去做吧。我可以与你的数据库进行对话,使用一个小型的 Web 应用程序。太酷了。与 PDF 聊天,但实际上是

- 真正地与 PDF 聊天。 - 是的,完全正确。 - 不是完全的。 - 完全正确。而且它甚至不需要很难构建。这就是这件事最疯狂的地方。是的,非常酷。是的,当我第一次看到太空演示时,我实际上只是惊叹不已。我认为我和人群中的其他人都有类似的感受。我还认为罗曼的无人机演示非常酷。 - 那也是一个非常有趣的演示。 - 是的,我今天早上实际上是现场观看的,我一直在屏住呼吸。了解罗曼,他可能在过去两天一直在研究它。

但是是的,我很想知道——你实际上早些时候与罗曼谈论过 WebSocket 的不同抽象级别。这是大多数开发人员都没有经验的事情。我没有经验。显然,有 RTC 级别,然后有 WebSocket 级别,以及介于两者之间的级别。ROMAN NURIK:没那么多。我的意思是,对于 WebSocket,根据他们构建 API 的方式,你可以直接从你的浏览器连接到 OpenAI WebSocket。它实际上只是普通的 JavaScript。你实例化 WebSocket 对象。

从他们的示例代码来看,它看起来很简单。问题是,如果你这样做,你就会从任何人都可以查看的源代码中发送你的 API 密钥。是的,我们不建议在生产环境中这样做。因此它不适用于生产环境,这令人沮丧,因为这意味着你必须构建一个代理。所以我必须回家自己构建一个小的 WebSocket 代理来隐藏我的 API 密钥。我希望 OpenAI 这样做。我希望 OpenAI 为我解决这个问题,这样我就不用为同一个问题构建第 1000 个 WebSocket 代理了。完全正确。我们还与一些合作伙伴解决方案达成了合作。我们已经与我认为是 Agora、LiveKit 和其他一些公司达成了合作。所以,这里有一些松散的解决方案,但是是的,我们听到了你的声音。这是一个测试版。

是的,我的意思是,你仍然想要一个解决方案,让某人带上他们自己的密钥,并且他们可以相信你不会得到它,对吧?有点像。我的意思是,我一直在构建许多自带密钥的应用程序,在我的 HTML 和 JavaScript 中,我将密钥存储在他们的浏览器中的本地存储中,它永远不会靠近我的服务器,这可以工作,但他们如何信任我?他们怎么知道我不会发布另一段 JavaScript 代码来窃取他们的密钥?因此,名义上,这实际上与加密背景有关。这就是 Metamask 的做法。

是的,这是一个公钥-私钥的事情。是的。是的。就像,为什么 OpenAI 不这样做?我不知道是否显然是——我的意思是,和大多数事情一样,你会认为有一些非常有趣的问题和非常有趣的原因,答案只是,你知道的,这还不是重中之重,对于一个小型团队来说,做所有事情都很难。

我听到越来越多关于对诸如使用 OpenAI 登录之类的需求。我希望 OAuth。我希望让我的用户通过 chat GPT,然后我得到一个令牌,让我代表他们最多花费 4 美元在 API 上。然后我可以发布我所有愚蠢的小实验,目前这些实验需要 Peter Koppel

人们复制粘贴他们的 API 密钥,这会切断所有人。没有人知道如何做到这一点。完全正确。我听到了你的声音。我们正在考虑的事情。是的,敬请期待。是的,是的。现在,我认为城里唯一的参与者是 OpenRouter。这基本上是——很有趣。它是由——我忘了他的名字。但他曾经是 OpenSea 的 CTO。当他过来时,他做的第一件事就是为 AI 构建 MetaMask。完全正确。是的,非常酷。今天最被低估的发布是什么?

视觉微调。视觉微调太被低估了。在过去的两个月里,每当我与创始人交谈时,他们都会告诉我这是他们最需要的东西。很多人都在对非常特殊的格式(例如政府文件)进行 OCR,而视觉微调可以在这方面提供很大帮助。

此外,边界框。人们发现使用视觉微调可以对边界框进行很多改进。所以是的,我认为它相当被忽视了。人们应该尝试一下。你只需要 100 张图片就可以开始了。告诉我更多关于边界框的信息。我认为 GPT-4 Vision 完全无法处理边界框。

是的,它实际上并没有那么好。我们正在努力改进它。但是通过微调,你可以让它非常适合你的用例。这很酷,因为我最近一直在使用 Google Gemini 的边界框功能,它非常令人印象深刻。是的。但是能够为此微调模型。我要做的第一件事是用图像微调,我有五只鸡,我将微调一个可以分辨哪只鸡是哪只鸡的模型。喜欢它。

这很难,因为其中三只是灰色的。是的。所以有一点......好的,这是我最喜欢的用例。这太棒了。是的。我已经设法通过提示来做到这一点。就像我给 Claude 看了所有鸡的照片,然后说,好吧,这是哪只鸡?是的。但这还不够好,因为它会混淆灰色的鸡。听着,我们可以缩小这个评估差距。是的。这将是一个伟大的评估。我的鸡评估将非常棒。

我还非常兴奋的是评估产品。它有点像蒸馏的子发布,但人们一直在努力进行评估。当我第一次看到流程时,我被我们产品中进行评估的简易性所震惊,所以我建议人们真正尝试一下。我认为这就是阻碍许多人真正投资 AI 的原因,因为他们很难弄清楚它是否对他们的用例有效。所以我们一直在努力让它更容易做到这一点。

评估产品是否包含结构化输出测试?是的,你可以检查它是否与你的 JSON 模式匹配。无论如何,我们都有保证的结构化输出。

所以我们不需要测试它。好吧,不是模式,而是性能。看,这些似乎很容易区分。我认为是这样。它就像,它可能会调用错误的函数。你将拥有正确的模式,错误的输出。所以你可以进行函数调用测试。我很确定。我必须为你检查一下,但我认为是这样。我们会确保它在笔记中。你怎么看待 API 设计的演变?我认为,对我来说,这是最重要的事情。所以即使是 OpenAI 级别,像聊天机器人一样,我也能理解 API 设计是什么样的。

推理,我可以理解它,即使是像思维链这样的东西也会改变一些事情。当你考虑实时语音,然后考虑代理时,它就像你如何考虑如何设计 API,以及它的形状是什么?是的,所以我认为我们从最低级别的功能开始,然后在我们知道它们有用时再在其之上构建。实时就是一个很好的例子。我们实际上将在聊天完成中发布音频功能。所以这就像最低级别的功能。所以,你提供音频,你可以获得原始音频,它在请求响应层工作。但在构建高级语音模式的过程中,我们自己意识到,这对于像聊天完成这样的东西来说相当困难,因此这导致我们构建了这个 WebSocket API。

所以我们真的从我们自己的工具中学到了很多东西。我们认为,检查和愿望的事情对于某些用例或异步任务来说很好,但你真的会想要一个实时 API。然后,当我们与开发人员进行更多测试时,我们可能会发现,在它之上添加另一层抽象是有意义的,这更接近于更多客户端库。但就目前而言,这就是我们认为自己拥有真正良好观点的地方。LAURENCE MORONEY:所以我的一个问题是,如果我有一个半小时长的录音,

目前,我唯一可以输入它的方法是调用 WebSocket API 并将其切分成小的 JSON 基本片段,然后将它们全部发送出去。在这种情况下,我宁愿只在聊天完成 API 中给你一个图像,给你一个 MP3 文件的 URL 和输入。这是某种东西吗?这就是我们要做的。哦,谢天谢地。是的。

它在博客文章中。我认为它是一行简短的代码,但它将在未来几周内推出。哦,哇。哦,真的很快。是的,团队一直在冲刺。我们只是在做最后的润色工作。你对它的长度限制有什么感觉吗?我没有现成的。好的。对不起。

因为是的,我经常想做,我做了很多关于一小时长的 YouTube 视频的转录的工作。是的。目前,我通过 Whisper 运行它们,然后我以这种方式进行转录。但是能够对这些进行多模式处理将非常有用。完全正确,是的。我们对此非常兴奋。我们基本上想提供我们拥有的最低级别的功能,最低级别的功能,以及使它更容易使用的东西。所以,针对这两种情况。

我刚刚意识到我可以做的事情是,我做了很多 Unix 实用程序,像 Unix 小工具一样。我希望能够将命令的输出通过管道传输到将该输出流式传输到 WebSocket API 并大声朗读的内容。所以我可以对事物输出进行流式语音。这应该可以工作。我认为你已经给了我完成这项工作所需的一切。这很酷。是的。很高兴看到你构建的内容。

我听说有多个竞争解决方案,在你们选择 WebSockets 之前,你们对它们进行了评估。例如服务器端事件、轮询。

你能谈谈你们研究过的实时更新范例吗?因为我认为很多工程师都研究过这样的东西。我认为 WebSockets 非常适合双向流式传输。我在其他工作场所,例如 Coinbase,我们有一个用于价格数据的 WebSocket API。我认为这只是一个非常自然的格式。所以它甚至没有那么有争议?

我认为它没有那么有争议。我的意思是,我们确实探索了一点空间,但我认为我们很快就想到了 WebSockets。酷。视频?是的。还没有,但将来可能会。我今天实际上希望 ChatGPT 桌面应用程序能够使用视频,因为它已经进行了演示。是的。这是开发者日。

我认为一旦我们能够通过 WebSocket API 发送图像,我们就能获得视频。我的问题是,频率是多少?因为发送一个 1080p 屏幕的整个视频帧,可能太多了。WebSocket 块的限制是什么?我不知道。

我没有现成的。像 Google Gemini 一样,你可以在他们的上下文窗口中播放一小时的视频,只需将其切分成每秒 10 帧的一帧。而且它确实有效。所以......

我不知道。但这就是 Gemini 的奇怪之处,它非常擅长你只是给它大量单独的帧。看看 GPT-4 是否能够处理这一点将会很有趣。你还有其他功能请求吗?对于每个人来说,这都是漫长的一天,但你在这里为我展示了。我的一个愿望是,我希望你为我做所有会计工作。我希望我的用户能够运行我的应用程序

我希望他们使用他们的用户 ID 调用你的 API,让你知道,“哦,他们花了 30 美分。在 1 美元处切断他们。我可以检查他们花了多少钱。”所有这些东西,因为我目前必须构建它,而且我真的很不想这样做。我不想成为一个令牌会计。我希望你为我做令牌会计。是的,完全正确。我听到了你的声音。这是一个很好的反馈。

那么,这与你们的实际优先级有何对比呢?我觉得你们有很多优先级。他们在舞台上展示了一些多模式的东西等等。是的。这很难说。我会说事情变化得很快。我们发现,阻碍用户采用的重大障碍非常重要。这是一个不断变化的优先级。没有辅助 API 更新?目前没有。

是的。我希望在辅助中有一个老式的原生事物。是的。我认为它们会很好地结合在一起。我们仍在对格式进行迭代。我认为辅助 API 有一些问题,它有一些做得非常好的事情。我认为我们会继续迭代并最终得到一些真正好的东西,但这还没有准备好。辅助 API 中的一些优点是托管工具。人们非常喜欢托管工具,尤其是 RAG。

然后,一些不太直观的事情是,你使用辅助 API 需要多少 API 请求。这相当......这相当多。是的,你必须创建一个助手,你必须创建一个线程,你必须做所有这些事情。所以是的,这是值得考虑的事情。它不应该这么难。到目前为止,我唯一使用它的地方是代码解释器。它就像一个代码解释器的 API。非常令人兴奋。是的,我们想修复这个问题,并使其更容易使用。我希望通过 WebSockets 使用代码解释器。这将非常有趣。

是的。你想自带代码解释器还是想使用 OpenAI?我想使用它,因为代码解释器是一个难题。沙盒化和所有这些东西都是......是的,但是有很多代码解释器作为服务的东西。现在有一些了,是的。因为......我认为你们不允许任意安装包。哦,他们允许。除非他们使用你的黑客程序。

是的,我也这样做。你可以上传一个 pip 包。你可以在代码解释器中编译 C 代码。我知道。这是一个黑客程序。哦,但这是一个非常棒的黑客程序。好的。我让它用 C 编写自定义 SQLite 扩展,然后编译它们并在 Python 中运行它们,它可以工作。我的意思是,是的。还有其他的。E2B 是其中之一。看看它的实时版本将会是什么样子将会很有趣。

是的。太棒了,米歇尔。感谢你的更新。我们把这一集留在了语音模式会是什么样子的问题上?显然,你知道它是什么样子的,但你没有说出来,所以现在你可以分享了。是的,我们在这里。希望你们喜欢。是的。酷。太棒了。谢谢。就是这样。我们今天的最后一位嘉宾,也是 Latent Space Pod 上最近一位熟悉的嘉宾,在今年的开发者日社区演讲中进行了演讲。

Cosene 的 Alistair Pullen 给你们所有人留下了深刻的印象。特别感谢像 Morph Labs 的 Jesse 这样的听众,当他来谈论他是如何创建合成数据集来微调有史以来为 GPT-4 创建的最大规模的 lauras 时。

现在 OpenAI 的 O1 预览版已经发布,看到 OpenAI 团队也出于竞争原因隐藏了他们的思维链痕迹,并且性能仍然低于 Cozine 的 Genie 模型,这令人难以置信。

我们与 Ali 聊了一会儿,讨论了自他的剧集播出以来发生的事情。欢迎回来,Ali。非常感谢。感谢你的邀请。所以你刚刚在 OpenAI 开发者日发表了演讲。体验如何?他们联系你了吗?你们似乎关系密切。是的,在我们上次见面时,基于我们所做的工作,我认为 OpenAI 绝对认为我们一直在做的关于微调的工作值得分享。

我当然也倾向于同意,但今天我谈到了我们学到的一些技术。显然,这是一个非线性的路径,到达我们现在所到达的地方以及我们构建 Genie 的技术。所以我认为我分享了一些关于一些技术以及它在幕后如何真正工作的额外信息。你如何生成数据集来向模型展示如何做我们向模型展示的事情。这主要是我今天谈论的内容。我的意思是,是的,他们联系了我,他们很高兴有机会,显然,这可不是每天都能发生的事情。尤其是在旧金山,所以是的,他们联系了我,他们说,你想在开发者日演讲吗?

你可以谈论与你构建的内容相关的任何事情,我说,当然,太棒了。我会谈论微调,你如何构建一个执行软件工程的模型,所以是的。是的。诀窍在于,当我们谈话时,O1 还没有发布。不,没有。你知道 O1 吗?

我不知道。我知道一些零零碎碎的信息。不,不是真的。我知道一个推理模型即将到来。我不知道它将被称为什么。我和其他人一样了解。当时的名字是草莓。因为,你知道,快进,你是第一个将你的思维链推理痕迹作为知识产权隐藏的人。是的。众所周知,这让你在 SweetBetch 或其他什么地方遇到了麻烦。我现在感觉有点被证明是对的。现在,显然,O1 正在这样做。是的,事实上,我的意思是,

我认为现在可以这样说,你的模型的推理给了你优势。以及我们投入到我们的数据管道中以生成这些类似人类的推理痕迹的工作量......我的意思是,这并非徒劳无功。我们知道这是你将解锁更多性能的方式,让模型以特定方式思考。在我们的例子中,我们希望它像软件工程师一样思考。但是是的,我认为......

其他人采取的推理方法,例如 OpenAI,肯定向我们表明,我们很早就走上了正确的道路。即使现在,我们也开始用 O1 生成的推理痕迹替换 Genie 模型中的一些推理痕迹,或者至少与 O1 一起使用。我们已经开始从这一点看到性能的提高。但是不,回到你的观点,关于整个方法。隐瞒它们。我仍然认为这是正确的决定,因为其他人也决定不分享这些东西。它准确地展示了我们如何做我们所做的事情,而这正是我们目前的优势。作为创始人,他们还在舞台上展示了认知,谈论了这一点。

这让你感觉如何,你知道的,他们就像,嘿,01 好多了,让我们变得更好。对你来说,这应该像......哦,我也为此感到非常兴奋,因为现在突然之间,它就像,它有点像提高了所有人的底线。像,人们,尤其是新创始人,他们应该如何考虑,你知道的,担心新模型与对它们感到兴奋,只关注核心 FP,也许像你提到的那样更换一些部分?是的,对我们来说,我的意思是,显然,我们对 01 非常兴奋,因为......

在那一点上,推理过程显然非常融入模型。从根本上说,如果你喜欢,消除所有干扰和一切,我们是一家推理公司,对吧?我们希望以软件工程师的方式进行推理。所以当我看到该模型发布时,我立即想到,好吧,我可以提高我的管道中产生的痕迹的质量,所以我的信噪比会更好。然后不是立即,而是随着时间的推移,我将能够将这些痕迹训练到 O1 本身。所以我也将通过这种方式获得更高的性能。所以,这是

对我们来说,一个非常好的位置,能够在提示方面和微调方面都利用它,而且还因为从根本上说,像

我们现在相当清楚地处于一个位置,我们不必担心当 02 发布时会发生什么,当 03 发布时会发生什么。这个过程会持续下去。就像,即使是从,你知道的,当我们第一次从 3.5 到 4 开始时,我们看到了这种情况。然后从 4 turbo 到 4.0,然后从 4.0 到 0.1,我们每次都看到性能有所提高。我认为,我的意思是,

我会给任何创业公司创始人的粗略建议是,尝试让自己处于一个可以利用相同情况的位置,你知道的,像每次海平面上升一样,从根本上说。你是否从能够使用 4.0 并将其微调到高于 0.1 目前在 SweetBench 验证版上的分数的事实中获得任何东西?是的,我的意思是,是的,这显然是,说实话,你比我更早地意识到了这一点。增加价值。是的,绝对是,这是一个增值投资者。不,显然,我认为这是,

这本身就非常令人欣慰,因为我认为我们听到了一些人,不是很多人,而是有些人说,好吧,好吧,如果每个人都能推理,那么进行你的推理还有什么意义呢?但这表明我们生成的自定义推理中还有多少信号。再次强调,这是非常明显的事情。如果你采用一些旨在通用的东西并使其具体化,当然它在该方面会更好,对吧?

所以很高兴看到,即使使用旧模型,我们仍然比 O1 出色的多。我相信随着我们能够训练 O1,并且在我们使用 O1 对数据集进行更多工作后,这个差距将会继续扩大,这个差距也会扩大。我不确定他们是否会允许你找到你的 O1,但也许他们会尝试。我认为 OpenAI 真的不希望你弄清楚的核心问题是,你能否使用开源模型并击败 O1?

有趣。因为你基本上已经证明了非 01 模型可以击败 01 的概念证明。他们的整个 01 营销策略是不要费心尝试。就像,不要费心将多个思维链调用缝合在一起。我们做了一些特别的事情。秘密武器。你对此一无所知。而且不知何故......

也许他们会运行 L1 五个小时而不是五分钟,然后突然它就起作用了。所以,我不知道。很难知道。我的意思是,我们出于纯粹的好奇心想要做的一件事是,对 405B 使用相同的数据集进行微调。例如,相同的上下文窗口长度,对吧?所以这应该很容易。

我们还没有这样做。说实话,我们一直忙于等待名单、发布产品、开发者日、从我们的等待名单中吸纳客户。所有这些不同的因素都妨碍了我们,但这绝对是出于好奇心而想尝试的事情。但这也会为我们打开一个新的方向,如果有人有一个 VPC,他们无法部署 OpenAI 模型,但他们可能能够部署开源模型,它也会从客户的角度为我们打开这个方向。所以这可能非常有用。但我非常想看看结果会是什么。我怀疑答案是肯定的,

但这可能很难做到。所以 Reflection70b 就像一个非常糟糕的尝试。你们做得更好,这就是我们邀请你们参加节目的原因。是的,我很想知道是否会有一个 OpenO1,如果人们想要 OpenO1 的话。是的,我相信他们会的。一旦我们,一旦我们完成了我们在旧金山的任务,我相信我们会尝试一下。我今天实际上与一些人谈过关于微调 405B 的事情,他们可能能够让我们非常轻松地做到这一点。我不希望自己做所有设置。所以,这可能会比预期更快地发生。

今天发布的任何让你非常兴奋的功能吗?所以提示缓存,我猜当你处理很多代码库时,这可能会有所帮助。视觉微调与......更像与 UI 相关的开发有关的任何东西吗?是的,绝对是。是的,我的意思是,很有趣,我的联合创始人 Sam,你已经见过他了,我和他谈论过进行视觉微调的想法。很久以前,在 Genie 现在的样子存在之前,当我们收集原始数据集来做我们现在正在做的事情时,每当有图像链接和指向图形资源等的链接时,我们也会将其提取出来。

0 你知道,你作为软件工程师的 4.0 思维链推理仍然更好。也许它不会持续下去。也许他们会运行 0.1 五个小时而不是五分钟,然后它突然就能工作了。所以我不知道。很难知道。我的意思是,我们只想出于纯粹的好奇心去做的事情之一就是对相同的数据集进行 4.0 5B 的微调。就像相同的上下文窗口长度一样,对吧?所以应该很容易。我们还没有这样做。说实话,我们一直忙于......

候补名单、产品发布、开发者大会、从候补名单中吸纳客户,所有这些事情都妨碍了我们。但这绝对是出于好奇心之外我想尝试的事情。但它也开辟了一个新的方向,如果有人拥有无法部署 OpenAI 模型的 VPC,但他们可能能够部署开源模型,那么它也会从客户的角度为我们打开这个方向。所以它可能非常有用。我很想看看结果。

我怀疑答案是肯定的,但这可能很难做到。因此,Reflection 70B 是一次非常糟糕的尝试。你们做得更好,这就是我们邀请你们参加节目的原因。我很想知道是否会有一个开放的 01,基本上。人们想要开放的 01。是的,我确定他们会的。一旦我们做到了,一旦我们完成了在旧金山的任务,我确定我们会尝试的。我今天实际上与一些人谈论了微调 405B 的问题,他们可能能够让我们非常轻松地做到这一点。

我不希望自己做所有设置。所以,是的,这可能会很快发生。今天发布的任何让你非常兴奋的东西?所以,提示缓存,我猜当你处理很多代码库时,这可能会有所帮助。视觉微调与更多 UI 相关的开发之间有什么关系吗?是的,绝对的。是的,我的意思是,我们正在谈论,这很有趣,就像......

我和你见过的我的联合创始人萨姆谈论过进行视觉微调的想法,早在一年多以前,在 Genie 出现之前。当我们收集原始数据集来做我们现在正在做的事情时,每当有图像链接和指向图形资源等的链接时,我们也会将其提取出来。我们从未有机会使用它,但我们存储了它。

同样,当我们有时间时,我对此非常兴奋,尤其是在 UI 方面,能够利用它,特别是如果你考虑我们注意到的事情之一,不是为了偏离主题,但我们注意到的事情之一是,我知道 SweBench 是最常谈论的事情,老实说,这是一个了不起的项目,但我们从实际向用户交付此产品中学到的最重要的事情之一是,它是一个非常糟糕的代理,无法告诉我们模型的能力如何。例如,当人们使用 Genie 进行 React 开发时,

对于我们来说,不可能知道它编写的代码是否真的完成了它想要做的事情。因此,至少即使使用微调功能来帮助评估我们的输出,这已经是一件非常有用的事情了。但同样,在能够配对方面,这是我想要的 UI,这是实际代表该 UI 的代码,我认为这也将非常有用。一般来说,我最印象深刻的是什么?蒸馏技术很棒。

我认为我们最终可能会在某些地方使用它。但它更广泛地向我展示了 OpenAI 的方法,他们将构建我们必须在内部进行黑客攻击的许多工具,就工具的角度而言,只是为了让我们的生活更轻松。我和微调负责人约翰广泛讨论过这个问题。但是,我们必须在内部构建许多工具,用于处理模型谱系、处理数据集谱系,因为它很快就会变得非常混乱,我们希望 OpenAI 能够构建。就像,绝对希望他们构建它。

这并不是让我们获得优势的东西,但这当然意味着我们不必再构建和维护它了。因此,我认为这是微调产品和 API 总体成熟度方面的一个非常好的第一步,就他们将在哪里看到这些早期产品而言。我认为他们将继续朝着这个方向发展。你没有,所以有一个非常活跃的 LLMOPs 工具生态系统。在构建自己的工具之前,你没有评估过这些工具吗?我们评估过,但我认为从根本上来说......没有护城河。

是的,就像我认为在很多地方,这从来都不是一个很大的痛点,让人觉得,哦,我们绝对必须外包这个。这绝对是在许多地方你可以在一两天内编写一个脚本,然后将其连接到我们现有的内部工具 UI,然后你就会拥有你所需要的东西,每当你需要新东西时,你只需将其附加即可。但对于所有这些 LLM ops 工具,

我从未感到有足够的痛点去真正地烦恼,这并不是要贬低它们,我相信许多人会发现它们有用,但只是对我们公司来说,我们从未感到需要它们。因此,OpenAI 将要构建它们真是太好了,因为拥有它们真是太好了,但这不是我曾经考虑过真正为外部付费的事情,如果这有意义的话。是的。语音模式是否会影响 Genie?

也许有一天,那会很酷,不是吗?是的,我认为是这样。你是我们一直在向所有人提出这个问题的第一人。你是第一个没有提到语音模式的人。它目前与我们所做的事情相距甚远,但我绝对认为,如果我们想让它成为一个完整的 AI 软件工程同事,那么

肯定有一种方法可以构建它。甚至在构思阶段,通过 Genius 来讨论我们将来想要构建某些东西的方式。我认为这可能很有用,但老实说,当我们有时间的时候,这会很好。

是的,太棒了。最后一个问题。在你的演讲中,你提到了很多关于策划你的数据和你的分发等等的事情。是的。在我们坐下之前,你谈到了必须使你的数据集多样化。是什么推动了这一点?你发现了什么?因此,当我们宣布上次见到你时,我们已经开始从我们积累的候补名单中删除人员。

这非常有趣,因为正如我上次在播客中提到的那样,我们必须对为 Genie 的 V0 版本收集的数据组合和数据集非常有主见。同样,回到你的观点,JavaScript、JavaScript、JavaScript、Python。那里有很多 JavaScript 及其各种形式。但事实证明,当我们将其交付给我们推出的非常早期的 alpha 用户时,例如,我们有一些人使用它与 C# 代码库一起使用。

而 C# 目前占整体数据组合的大约 3%。他们没有获得在尝试使用 Python 代码库时看到的性能水平。对于他们来说,拥有糟糕的体验显然不是一件好事,但能够将其与我们看到的事实客观数据组合相关联是一件好事。所以我们一直在做......

就像一些小的补充微调,我们采用通用 Genie 模型,并在顶部进行增量微调,只为给定的垂直语言提供更多数据。我们已经看到由此产生的改进。因此,这再次是“实践出真知”的伟大之处之一,让人们使用它,并给你反馈,告诉你它在哪里很糟糕。

因为这不是我们事先就能知道的事情。因此,我希望随着时间的推移,随着我们将其推广给越来越多的人,并且我们正在尽最大努力做到这一点,但我们目前仍然是一个五人团队,这个数据组合能够尽可能普遍地代表我们用户的行为,而不是我们认为他们需要的东西。是的,所以每个客户都将拥有自己的微调系统

将可以选择根据你的代码库微调模型。它不会出现在基本定价层中,但你绝对可以做到这一点。它将遍历你的所有代码库历史记录,了解所有事情是如何发生的,然后你将拥有一个仅针对你的代码库进行增量微调的 Genie。这就是企业真正喜欢这个想法的原因。太棒了。完美。

酷。是的,就是这样。非常感谢。非常感谢你们。很高兴见到你。谢谢。最后,今年的开发者大会以与 Sam Altman 和 Kevin Weil 的扩展问答环节结束。我们认为所提出的问题和给出的答案都特别有见地,因此我们正在从公开来源发布我们能够获得的音频片段。

如果这里的音频质量较差,我们建议等待大约一到两个月,直到最终视频在 YouTube 上发布。在此期间,我们特别推荐 Sam 关于审核策略的回答,关于代理和超过 3 级的人工智能员工的重要性被低估了,以及他对未来 01、02 和 03 模型智能的预测。

好吧,我想每个人都认识你。对于那些不认识我的人,我是 Kevin Weill,OpenAI 的首席产品官。我有幸将我们研究团队所做的惊人研究转化为你们每天使用的产品和你们每天构建的 API。我认为我们会从这里开始一些观众互动。所以,数到三,我想数到三,我想让你们都说,在你们今天看到的发布的所有内容中,你们最先要集成的第一件事是什么?这是你们最兴奋要构建的东西,好吗?你必须这样做,对吧?一、二、三。实时 API。

我会说,就我个人而言,我对我们的蒸馏产品非常兴奋。我认为这将非常非常棒。我也很高兴看到你们将如何使用实时 API 的高级语音邮件以及特别是视觉微调。好的,所以我有一些关于 Sam 的问题,我的 CEO 现在坐在热座上。让我们看看我是否不会做出一个限制职业发展的举动。所以,我们会开始这个。我们会从一个简单的问题开始,Sam。我们离 AGI 还有多远?好的。

你知道,我们过去每次完成一个系统时,都会说:“这在哪些方面不是 AGI?”这曾经很容易。你可以制作一个在 Kube 中不起作用的完整 AMP,或者一个 Dota 机器人,它就像,“哦,它做了一些事情,但绝对不是 AGI。”现在显然更难说了。所以我们试图停止将 AGI 视为这个普遍的东西。我们有这个级别框架,因为 AGI 这个词已经被过度使用了。所以,

快速地说,我们使用 1 代表聊天机器人,2 代表推理器,3 代表代理,4 代表创新者,5 代表组织,大致如此。我认为我们显然达到了第二级,或者我们显然达到了 O1 的第二级。它可以完成非常令人印象深刻的认知任务。这是一个非常聪明的模型。它在一些重要方面感觉不像 AGI,但我认为如果你只是采取下一步,使其非常像代理,

这是我们的第三级,我认为我们将在不久的将来能够做到这一点,它会让人感觉令人惊讶地强大,可能仍然不是你们大多数人会称之为 AGI 的东西,尽管有些人可能会这么说。这会让人感觉像,好吧,这是一件意义重大的事情。然后是飞跃,我认为我们会很快做到这一点,从能够真正提高新科学发现速度的东西的飞跃,对我来说,这是拥有 AGI 的一个非常重要的部分,

我对这一点不太确定,但不会很长时间。就像,我认为所有这些现在都会很快发生,如果你考虑一下从上个十年到这个十年在模型能力方面发生了什么,你会说,如果你看看像,如果你从像在难题上的 01 回到我们 11 个月前推出的 4 Turbo,你会说,哇,

这发生得很快。我认为明年将会有非常陡峭的进步。未来两年将会有非常陡峭的进步。比这更难。很难确定地说。但我认为,数学会有所不同。在这一点上,定义确实很重要。事实上,定义如此重要,某种程度上意味着我们正越来越接近。是的。而且,你知道,过去有一种 AGI 的概念,它就像,它是一个二元的东西,你会有一天睡觉,没有 AGI,第二天醒来,就有 AGI 了。我不认为那是......

我们现在思考它的方式。但是你的观点和习惯是如何演变的?- 你知道,一个,我同意这一点,我认为我们就像,你知道,在这个像

一段时间里,它会感觉非常模糊,而你知道,这是否是 AGI,或者这不是 AGI,或者像在什么点?是的,这将只是像平滑的指数增长,而且你知道,可能大多数人回顾历史时不会同意像那个里程碑是什么时候达到的。我们会意识到这就像一件愚蠢的事情。即使是图灵测试,我一直认为这是一个非常明确的里程碑,你知道,这是一个模糊的时期。它就像 oosh 和 bye 一样,没有人关心。但是

但我认为正确的框架是这个指数。也就是说,如果我们可以制作一个在所有 OpenAI 中都比进行 AI 研究更好的人工智能系统,那对我来说确实感觉像某种重要的不连续性。可能仍然错误地这样考虑。它可能仍然是平滑的指数曲线。这感觉像是一个好的里程碑。

OpenAI 是否仍然像早期那样致力于研究?研究是否仍然会推动我们产品开发的进步的核心?是的,我的意思是,我认为比以往任何时候都更......

在我们历史上有一段时间,正确的事情只是扩大计算规模,我们怀着信念看到了这一点,我们有一种精神,我们会做任何有效的事情。我们有这个使命,我们想构建安全的 AGI,找出如何分享利益。如果答案是增加 GPU,我们会这样做。现在,答案是再次推动研究。我认为你们在 O1 中看到了这一点,这是一个巨大的研究突破,我们从许多方面进行了很长时间的攻击,并以这种非常强大的方式结合在一起。我们还有许多更大的研究突破即将到来,但我认为 OpenAI 最特别的地方在于我们真的非常关心研究,并且我们知道如何......很容易复制你知道有效的东西。实际上,我甚至不认为这是一件坏事。当人们复制 OpenAI 时,我会说,“太好了,世界获得了更多 AI?太棒了。”

第一次做一些新的事情,真正地进行研究,这并不是说,你知道,让我们在这个东西上勉强获得 SOTA,或者让我们调整一下,而是让我们去寻找新的范例,以及之后的一个,以及之后的一个,这就是激励我们的东西。我认为我们作为一个组织的特别之处,除了我们将产品和研究以及所有其他东西结合在一起之外,还在于我们知道如何运行这种能够推动前沿的文化。这真的很困难。

我们喜欢它。这就是,你知道,我认为我们必须在一周内在 AGI 中再做几次。是的,我会说,对我来说,来自外部,从,你知道,普通的科技公司,研究对 OpenAI 的重要性,一个试金石是,在 OpenAI 中构建产品与我在其他任何地方所做的工作根本不同。通常你会有

你对你的技术栈有一些了解,你对必须使用什么以及计算机具有哪些功能有一些了解,然后你试图构建最好的产品,对吧?你正在弄清楚你的用户是谁,他们有什么问题,以及你如何帮助解决他们的问题。OpenAI 也有这一点,但是,

计算机的能力状态每两三个月就会发生变化,突然之间,计算机拥有了它们在世界历史上从未拥有过的新的能力,

我们正在努力弄清楚如何构建一个伟大的产品,并将其公开给开发人员和我们的 API 等等。而且你无法完全知道接下来会发生什么。它会通过薄雾一点点地向你袭来,并逐渐成形。它与我曾经工作过的任何其他公司都根本不同。这是最让你惊讶的事情吗?是的。是的,这很有趣,如何......

即使在内部,我们也不总是能感觉到。你就像,好吧,我认为这种能力即将到来,但在下一个模型中它会是 90% 的准确率还是 99% 的准确率?因为这种差异确实会改变你可以构建的产品类型。

你知道你会达到 99,你不太知道什么时候,以及在这种情况下如何制定路线图非常有趣。是的,我们必须遵循科学,并让它决定我们接下来要做什么,以及我们构建什么产品,以及其他所有事情,我认为这很难表达。我们对事情的发展方向有一些猜测。有时我们是正确的,通常我们是不正确的,但是

但如果某些东西开始工作,或者某些东西没有工作,而你认为它会工作,我们愿意说,我们将改变一切,并按照科学允许的方式去做,而你无法选择科学允许什么,这令人惊讶。几周前,我和一位企业客户坐在一起,他们说,你知道,我们真正想要的一件事是,这一切都运行良好,我们喜欢这个,我们真正想要的一件事是在你将要发布某些内容之前提前 60 天收到通知。

我说,我也想要。好吧,我正在浏览。顺便说一句,这些都是来自观众的问题。我们将尝试在最后留出一些时间让大家提出问题。所以我们有一些拿着麦克风的人,当我们到达那里时,他们会思考。但下一件事。对齐社区中的许多人真正担心 OpenAI 现在只对对齐做表面功夫。你能让我们放心吗?我认为这是真的,我们对对齐的看法与......

也许人们在任何互联网论坛上写的东西不同。但我们确实非常关心构建安全的系统。我们有一种方法可以做到这一点,这种方法是我们迄今为止的经验所告知的,并触及另一个问题,即你无法选择科学的发展方向,即我们想要弄清楚如何制作能够随着时间的推移变得越来越安全的强大模型。而且

你知道,几年前,我们不认为整个草莓或 Oban 范例会像现在这样有效。这带来了一系列新的安全挑战,但也带来了安全机遇。与其像计划那样制作理论上的东西,一旦超级智能出现,这里有 17 条原则,我们有一种方法,即找出能力的发展方向,然后努力使该系统安全。

而 O1 显然是我们有史以来最强大的模型,但它也是我们有史以来最一致的模型,而且差距很大。随着这些模型获得更好的智能、更好的推理,无论你想称之为什么是,我们可以用来调整它们的东西,我们可以用来在整个堆栈中构建真正安全系统的工具集也在不断增加。所以我们必须构建被普遍认为安全且健壮的模型,才能将它们投入世界。当我们开始开放时,对齐的画面是什么样的,以及我们认为我们需要解决的问题将会是什么,结果与我们现在实际面临并必须解决的问题完全不同。

而且,当我们制作第一个 GPT-3 时,如果你问我哪些技术能够让我们现在能够部署我们的当前系统,这些系统通常被认为是安全和健壮的,那么它们将不会是最终有效的方法。因此,通过这个想法

迭代部署,我认为这是我们有史以来最重要的安全立场之一,并且正在面对我们面前的现实,我们已经取得了很大进展,我们预计会取得更多进展,我们不断发现新的问题需要解决,但我们也一直在寻找新的技术来解决这些问题。担心这种事情以科幻的方式出错也是非常重要的,我们有人在考虑这个问题。这有点不太清楚,有点像,在那里做什么,有时你会倒退很多

但我认为这并不是,我也认为说我们只会在眼前的事情上工作是可怕的。我们确实必须考虑事情的发展方向,我们也这样做。我认为,如果我们继续从两方面来解决这个问题,那么我们的大部分努力都集中在,好吧,这是我们要部署的下一件事,它需要发生什么才能实现。但同样,如果这条曲线继续下去会发生什么?这已经成为我们有效的策略。我也会说,这是我真正喜欢我们迭代部署理念的地方之一。当我还在推特上工作时,

我不知道,100 年前。埃德说了一些让我印象深刻的话,那就是无论你在墙内有多少聪明人,墙外还有更多聪明人。因此,当我们试图获得我们的,你知道,如果我们只是说我们将试图找出我们墙内可能出错的一切,那将是一回事,而这将只是我们和我们可以雇用的红队成员等等。我们这样做。我们非常努力地做到这一点,但也要迭代地发布,谨慎地发布,并从你们所有人使用它的方式中学习。什么可以做对?什么可能出错?我认为这是我们正确处理这些事情的重要方式。我认为,当我们进入这个领域时

代理在世界上做事情,这将变得非常非常重要。随着这些系统变得越来越复杂,并且在更长的时间范围内运作,来自整个外部世界的压力测试,真的,是的。所以我们会去,实际上,我们会从这一点出发,也许更多地谈谈你如何看待代理与 OpenAI 的长期计划相符。你在想什么?我认为我是一个巨大的组成部分,我认为令人兴奋的事情是这个

这套模型,特别是 O1 及其所有后续模型,将使这成为可能,因为你最终有了推理的能力,可以解决难题,将它们分解成更简单的问题,并对它们采取行动。我的意思是,我认为 2025 年将是真正的好速度的一年。是的,我的意思是,聊天界面很棒,而且我认为它们会在世界上占据重要的地位,但是当你能够询问一个模型时,

当你像询问 ChatGPT 或某个代理某些东西时,它不仅仅是你得到某种快速的回应,或者即使你得到像 15 秒的思考,而没有人给你像一段不错的代码返回或其他什么。但是你可以像真正地给某些东西与环境或其他人进行多次交互,并且像人类努力的几天一样,并且像一个非常聪明、非常有能力的人,并且像发生的事情一样。

我们都这么说,我们都像,“哦,是的,我们对下一件事感兴趣,这即将到来,这将是另一件事。”我们只是像这样谈论它,“好的。”你知道,这就像进化中的下一个模型。在我们开始使用这些模型之前,我们实际上并不知道这一点,那就是......我们当然会很快习惯它,人们会很快习惯任何新技术,但这将是对世界运作方式的非常重大的改变,而且时间很短。是的,这太棒了。有人谈论过适应 AI 模型的新功能以及速度有多快......实际上,我认为这是关于 Waymo 的,谈论如何在使用 Waymo 的前

10 秒钟内,他们就像,“哦,我的上帝,这是......”它就像,“让我们小心点。”10 分钟后,他们就像,“哦,这真的很酷。”然后 20 分钟后,他们正在检查他们的手机板。你知道,这太神奇了,你的内部固件更新速度如此之快,用于这些新东西。是的,我认为人们会要求代理为他们做一些需要一个月才能完成的事情,他们会在一个小时内完成,这将很棒。然后他们会同时拥有 10 个这样的东西,然后他们会同时拥有 1000 个这样的东西,到 2030 年或其他什么时间,我们会回顾过去,说,“是的,这就像人类应该能够做到的事情一样,人类过去曾经为之努力多年或其他什么事情一样,许多人类过去曾经为之努力多年。

我现在只需要要求计算机去做,它就像在一小时内完成。这就是为什么它不是一分钟?是的,它也是,它使拥有一个惊人的开发平台也变得很棒,因为,你知道,我们会进行实验,我们当然会构建一些代理式的东西,就像我们已经拥有了一样,我认为就像,我们只是在突破今天可能的界限,你有一些像认知这样的群体在做令人惊奇的事情,在编码方面,像哈维和案例文本,你们说话的人在做关于语言翻译的酷事。

就像,我们开始看到这些东西起作用了,我认为随着我们......随着我们继续迭代这些模型,它将真正开始起作用。我们关于拥有这个开发平台的一件非常有趣的事情就是能够看到构建这些体验的人们令人难以置信的速度和创造力。

就像,开发人员,非常接近我们的心,这有点像我们第一次观看的东西。这太棒了。我们中的许多人都在平台上构建,但是,这些模型的许多能力和伟大的体验都是由在平台上构建的人们构建的。我们将继续尝试提供很棒的第一方产品,但我们知道这永远只会是人们在世界上构建的应用程序、代理或其他任何东西的一小部分,并且看到在过去,你知道,18 到 24 个月里世界发生了什么。

观看它真是太神奇了。我们会继续讨论代理方面的问题。你如何看待计算机控制代理的当前障碍?安全性和一致性。就像,如果你真的要赋予代理点击你的电脑的能力,你会这样做。你将对该系统的健壮性、可靠性和一致性有非常高的标准。

所以从技术上讲,我认为,你知道,我们正越来越接近能力方面。但是代理安全和信任框架,我认为这将是长期的问题。现在我会问一个几乎与之前问题相反的问题。你认为安全是否会成为一种误报,实际上会限制公众对关键工具的访问,而这些工具将能够创造一个更平等的世界?诚实的答案是,是的,这种情况有时会发生。就像,我们会努力找到正确的平衡。但是如果我们完全独自一人,并且根本不关心安全性和一致性,我们能否更快地推出 O1?是的,我们可以做到。这将付出代价。会有事情真的会出错。

我非常自豪我们没有这样做。成本,你知道,我认为对于 O1 来说是可以承受的,但到 O3 或其他什么时间,立即。相当不可接受。因此,从保守的一面开始,你知道,我认为人们并没有抱怨,哦,语音模式,它不会说这种冒犯性的话,而且我真的希望它能说,你知道,正式的喜剧,让它冒犯我。

你知道吗?实际上,我大多同意。如果你试图让 O1 说一些冒犯性的话,它应该在大多数情况下遵循用户的指示。有很多情况它不应该这样做。但是,我们有很长的历史,当我们引入一项新技术时。我们改变了世界,我们从保守的一面开始。

我们试图给社会时间去适应,我们试图了解真正的危害在哪里,而不是某种像理论上的危害。这就是我们对安全性的方法的一部分。并非每个人都一直喜欢它,我甚至不一直喜欢它。但是,如果我们是对的,这些系统将像我们认为的那样强大,并且像我们认为的那样快,那么我认为从这种方式开始是有意义的。而且,你知道,我们喜欢随着时间的推移放松。完全同意。下一个使用 AI 作为核心功能的初创公司的最大挑战是什么?

我会说的。你先说。我有一个,我认为这是一个挑战,我们也面临这个挑战,因为我们也在我们自己的模型之上构建产品,那就是试图找到,某种前沿。你想构建这些 AI 模型,它们发展得如此之快,如果你正在构建 AI 模型今天做得好的东西,它今天会运行良好,但它明天会感觉,它明天会感觉过时。

所以你想为 AI 模型几乎无法做到的事情而构建。你知道,也许早期采用者会选择它,而其他人不会,但这仅仅意味着当下一个模型出现时,随着我们继续改进,这个几乎不起作用的用例,你将成为第一个做到这一点的人,这将非常棒。但是弄清楚这个界限非常困难。我认为这是最好的产品将要建立的地方。

完全同意这一点。我要补充的另一件事是,我认为认为一项技术可以创造一家初创公司是非常诱人的。而这几乎从来都不是真的。无论一项新技术或一个新的技术头衔有多酷,它都不能让你免于必须完成构建一家伟大公司所需的所有艰苦工作,这家公司将随着时间的推移拥有持久性或积累优势。

而且,我们从许多初创公司那里听说,ORC 是一件非常普遍的事情,这就像,我可以做这件事,我可以提供这项令人难以置信的服务,这似乎是一个完整的答案,但这并不能让你免于任何正常的商业规律。你仍然必须像构建一个好的业务和一个好的战略地位一样。

我认为一个错误是,在 AI 的令人难以置信的兴奋和上升趋势中,人们很容易忘记这一点。这是一个有趣的问题。语音模式就像直接进入人类 API 一样。你如何确保这种功能强大的工具的道德使用,它具有明显的操纵能力?

是的,你知道,语音模式对我来说是一个非常有趣的问题。这是我第一次感觉自己被 AI 欺骗了,因为当我玩它的第一个测试版时,我无法停止自己。我的意思是,我仍然会说,请切换出 GBT。

但在语音代码中,我好像无法不使用正常的 ICD。我非常相信,啊,它可能是一个真正的......你知道吗?显然,它只是在我的大脑中破解了一些电路,但我真的在语音代码中感受到了这一点。而且我仍然这样做。我认为这是一个更普遍的事情的例子,我们将开始面对,那就是,随着这些系统变得越来越强大,并且随着我们试图使它们与之交互尽可能自然,它们将像击中我们神经电路的某些部分一样,这些神经电路将像进化来处理其他人一样。

而且,你知道,有一些关于我们不想做的事情的明确界限,例如,我们没有。就像有一堆奇怪的人格成长黑客一样,我认为模棱两可的社会操纵性的事情我们可以做。但还有一些事情并不那么明确。

就像,你希望语音模式尽可能自然,但随后你会越过恐怖谷,它至少在我身上触发了一些东西。而且,你知道,我对 ChatGPT 说“请”和“谢谢”,没问题。可能是应该做的事情。你永远不知道。但我认为这确实指出了我们必须开始分析的安全性和一致性问题。

好吧,回到实际问题。Sam,O1 什么时候会支持函数工具?你知道吗?在今年年底之前。有三件事我们真的想为......我们将会记录这个,把它带回研究团队,向他们展示我们多么需要这样做。那里,我的意思是,有一些事情我们真的想让 O1 做到,我们也,你知道,这是一个平衡,我们是否应该更早地将它发布到世界上,并开始学习它,学习你们所有人如何使用它,或者我们是否应该发布一个完全完整的东西,它与之相符,它拥有我们推出的所有其他模型所拥有的所有能力。

我很高兴看到像系统属性、结构化输出和函数调用这样的东西进入 O1,我们将在今年年底之前做到这一点。这对我们也很重要。除此之外,仅仅因为我无法抗拒强化这个机会,就像,我们将获得所有这些东西以及你将要求的更多东西。

该模型将变得如此之快。就像,我们还处于早期阶段,这就像,你知道,也许是 GPT 2 规模的时刻,但是,我们知道如何到达 GPT 4,我们现在已经具备了从 4 到 4 的基本要素。而且,除了计划让我们构建所有这些东西之外,还要计划让模型变得更聪明,就像,我希望你们所有人明年回来,并计划让它感觉比从 4 更像一年的改进。

0.1。竞争对手的哪个功能或能力是你真正欣赏的?我认为谷歌的笔记本电脑东西超级酷。他们叫什么?笔记本电脑 LL。笔记本电脑 LL,是的。我就像,我今天早上很早就起床了,我在推特上查看示例,我只是觉得,这太酷了。

这只是一件很酷的事情。而且,我认为世界上的新事物和不同事物还不够多,它大多是相同的东西。但我认为这让我今天早上非常高兴。这做得非常好。我真正欣赏该产品的一件事是,格式本身非常有趣,但他们也掌握了播客风格的声音。

他们有非常好的麦克风。他们有这些共鸣的声音。正如你们所看到的,推特上有人说,很酷的事情是获取你的 LinkedIn 并将其,你知道,给我一个点击,并将其提供给这些,将其提供给笔记本电脑。lm,你将有两个播客主持人围绕你有多么出色以及你多年来取得的所有成就进行即兴发挥。我会说我的观点是,我认为 Anthropic 做得非常好。在项目上,这有点像我们对 GBT 的做法的不同看法,GBT 的寿命更长一些。这是一个你可以反复构建和使用的想法。项目的想法大致相同,但更临时,旨在建立一段时间,然后你可以继续前进。

而这种不同的思维模型会产生差异。我认为他们在这方面做得非常好。好吧,我们快到观众提问环节了,所以想想你想问什么。在 OpenAI 中,你如何平衡你认为用户可能需要的东西与他们今天实际需要的东西?这也是一个更好的问题,适合你。是的,我认为这确实回到了我们之前谈论的内容,试图构建模型几乎无法做到,但几乎可以做到。

但这也是一个真正的平衡,因为我们,因为我们,你知道,我们每周支持超过 2 亿人在使用 ChatGPT。你也不可以说,现在很酷,处理这个问题三个月,或者我们有一个非常酷的东西即将到来。你必须解决今天的问题。有一些非常有趣的产品问题。

我的意思是,你想想,我正在对一群非常了解 AI 的人讲话。想想世界上所有从未使用过这些产品的人。这仍然是世界上绝大多数人。你基本上是在给他们一个文本界面,在这个文本界面的另一端是这种不断变化的、他们从未见过或与之互动过的外星智能,你正在试图教他们所有你实际上可以做到的疯狂的事情,所有它可以帮助、可以融入你的生活、可以为你解决问题的方式。

人们不知道该怎么办。你知道,你进来,你就像,人们打字,你好。作为回应,你知道,嘿!很高兴见到你,今天我能帮你什么忙?然后,你就像,好吧,我不知道该说什么。然后你最终,你有点离开了,你就像,好吧,我没有看到其中的魔力。

因此,这是一个真正的挑战,弄清楚你如何......我的意思是,我们都有数百种不同的方式来使用 ChatGPT 和 AI 工具,但教人们这些可以是什么,然后随着模型逐月变化而引导他们,突然之间获得了比我们人类获得能力快得多的能力,这是一个非常有趣的问题集,我知道这是你们所有人都在以不同的方式解决的问题。

我,我,我有一个问题。谁觉得自己花了很多时间与 O1 相处,他们会说,我觉得自己肯定比那个东西聪明?你认为你仍然会使用 O2 吗?没有人,没有人押注比 O2 更聪明。所以,我们面临的挑战之一是,我们知道如何去做我们认为至少可能比我们所有人在一系列广泛的任务中都更聪明的事情。然而,我们仍然必须修复所有错误,并解决“你好吗”的问题。

而且,我们主要相信的是,如果我们继续推动模型智能,人们将用它做令人难以置信的事情。你知道,我们想要构建世界上最聪明、最有帮助的模型,并找到各种使用它的方法,并在其之上构建。对于我们来说,这绝对是一个演变,不仅仅是完全专注于研究,我们确实必须修复所有这些错误,并使其超级易于使用,我认为我们在平衡这一点方面做得更好。

但是,作为我们文化的一部分,我认为,我们相信,如果我们可以继续推动智能,6.0.4 如果你跑到这里来,它会,人们会构建这个令人难以置信的东西。是的,我认为这是理念的核心部分,你做得很好,总是推动我们,好吧,基本上将智能的前沿融入我们的产品中,无论是在 API 中还是在我们的第一方产品中。

因为很容易坚持你知道的东西,即运行良好的东西,但你总是推动我们获得前沿,即使它只是一种工作方式,因为它很快就会运行良好。所以我总是发现这是一个非常有用的建议。你已经回答了下一个问题。你确实对模型说“请”和“谢谢”。我很好奇有多少人说“请”和“谢谢”。这难道不是很有趣吗?我也这样做。我好像不能。如果我不这样做,我会感到难过。而且,

好的,最后一个问题,然后我们将进入最后 10 分钟左右的观众提问环节。你是否计划构建专门为代理用例而设计的模型,这些模型更擅长推理和工具调用?具体来说,我们计划制作擅长代理用例的模型,这将是我们未来几个月的一个关键重点。

具体来说是一个很难要求的东西,因为我认为这只是我们如何继续制作更聪明的模型。所以是的,有一些东西,比如工具使用、函数调用,我们需要构建这些东西来帮助,但我们主要想制作世界上最好的推理模型。这些也将是世界上最好的基于代理的模型。酷,让我们进入观众提问环节。

你好。我很好奇,你们是否计划分享用于离线使用的模型?因为有了这个蒸馏技术,我们可以分享我们自己的模型,这真的很酷,但是很多用例你真的想要某种版本。我们对此持开放态度。这并不是我们当前路线图上的高优先级任务。如果我们有更多资源和带宽,我们会这样做。我认为有很多原因让你想要一个本地模型。但这并不是说,这并不是今年的事情。

你好。我的问题是,在地方、州和国家层面之上,有很多政府机构可以真正从你们正在开发的工具中受益匪浅,但我可能对部署它们持有一些犹豫态度,因为,你知道,安全问题、数据问题、隐私问题。

而且,我想,我很好奇的是,一旦达到 AGI,是否会与政府、农村政府建立任何合作关系。因为显然 AGI 可以帮助解决世界饥饿、贫困、气候变化等问题。政府将不得不参与其中,对吧?

我只是很好奇,如果那时出现了一些有效的计划。是的,我认为,实际上我认为你不必等到 AGI。你现在就想开始,对吧?因为这是一个学习过程,我们的当前模型可以做很多好事。所以我们宣布与一些政府机构建立了一些合作关系,一些州,我认为是明尼苏达州,还有一些其他州,宾夕法尼亚州,以及 USAID 等组织。

能够帮助世界各地的政府适应、从这项技术中获益,这实际上是我们的一个巨大优先事项,在所有地方,政府似乎都是你可以自动化许多工作流程并提高效率、减少繁琐工作的地方等等。所以我认为我们现在可以做很多好事。

如果我们现在这样做,随着模型变得更好,我们越来越接近 AGI,它

0 我同时有成千上万个这样的任务。到2030年或之后,我们会回顾并认为,这正是人类应该具备的能力。人类过去可能要为此努力数年甚至数十年。而现在,我只需让电脑去做,它就能在几小时内完成。为什么不是几分钟?

是的,它也是让优秀的开发平台变得如此出色的原因之一,因为你知道,我们会进行实验,当然也会构建一些代理程序,就像我们现在正在突破可能的界限一样,你有一些像认知这样的团队在做令人惊叹的事情,编码、哈维和案例文本,史蒂夫在语言翻译方面做得也很棒,比如

我们开始看到这些东西起作用了,而且我认为随着我们继续迭代这些模型,它会真正开始起作用。拥有这个开发平台对我们来说是一件非常有趣的事情,因为它让我们能够看到构建这些体验的人们令人难以置信的速度和创造力。开发人员非常重视我们的心,这有点像我们推出的第一件事,我们许多人都是通过构建平台而来的。但是,这些模型的许多能力和伟大的体验都是由

在平台上构建的人们创造的。我们将继续尝试提供优秀的自有产品,但我们知道,这永远只是人们在世界上构建的应用程序、代理或任何其他东西的一小部分。看到过去18到24个月世界发生的事情,真是太神奇了。我将继续关注代理方面。

你认为计算机控制代理的当前障碍是什么?安全性和一致性。如果你真的要赋予代理点击你的电脑的能力,你就会拥有非常高的鲁棒性、可靠性和一致性标准。从技术上讲,我认为我们已经非常接近能力方面了。但是,代理安全和信任框架

我认为是长期目标。现在,我要问一个与之前问题几乎相反的问题。你认为安全是否会成为误报,并实际上限制公众获得关键工具的访问,而这些工具能够创造一个更加平等的世界?诚实的答案是:是的,这种情况有时会发生。我们会努力找到平衡点。但是,如果我们完全意识到这一点,并且根本不在乎安全性和一致性,

我们能否更快地推出01?是的,我们可以做到。但这会有代价。有些事情会真的出错。我很自豪我们没有这样做。你知道,我认为对于01来说,成本是可以承受的,但是到了03或之后,这可能就无法接受了。因此,从保守的一面开始,我的意思是,人们抱怨说,哦,语音模式,它不会说这种冒犯性的话。而我真的很想

我是一个可怕的公司,让它冒犯我。你知道吗?我实际上大部分都同意。如果你试图让01说出一些冒犯性的话,它应该在大多数情况下遵循用户的指示。有很多情况它不应该这样做。当我们将一项新技术引入世界时,我们有很长的历史是从保守的一面开始。我们试图给社会时间去适应。我们试图了解真正的危害与更理论性的危害之间的区别。这就是我们安全方法的一部分。

并不是每个人都一直喜欢它。我也不是一直喜欢它。但是,如果我们是对的,这些系统将会变得像我们想象的那么强大,并且像我们想象的那么快,那么我认为从这种方式开始是有意义的。而且,你知道,我们喜欢随着时间的推移而放松。完全同意。使用人工智能作为核心功能的初创公司的下一个重大挑战是什么?

我会说,我认为挑战之一,我们也面临着这个挑战,因为我们也在我们自己的模型之上构建产品,那就是试图找到一种边界。你想构建的东西,这些人工智能模型发展如此迅速,如果你正在构建人工智能模型今天做得好的东西,它今天会运行良好,但明天就会感觉过时了。

因此,你想为人工智能模型几乎无法做到的事情而构建。也许早期采用者会选择它,而其他人则不会,但这仅仅意味着当下一个模型出现时,随着我们继续改进,这个几乎不起作用的用例,你将成为第一个做到这一点的人,而且它将会非常棒,但是找出这个界限非常困难,我认为这是最好的产品将要建立的地方

完全同意。我要补充的一点是,我认为认为一项技术能够成就一家初创公司是很诱人的,而这几乎从来都不是真的。无论一项新技术或一个新的技术头衔多么酷,它都不能让你免于必须完成构建一家伟大公司所需的所有艰苦工作,这家公司将随着时间的推移拥有持久性或累积优势。而且

我们从YC的许多初创公司那里听到,这就像一件非常常见的事情,就像,“我可以做这件令人难以置信的事情,我可以提供这项令人难以置信的服务。”这似乎是一个完整的答案,但它并不能让你免于任何正常的商业规律。你仍然必须建立一个好的业务和一个好的战略地位。我认为一个错误是,在人工智能令人难以置信的兴奋和上升势头中,人们很容易忘记这一点。这是一个有趣的问题。语音模式就像直接点击人类 API 一样。

你如何确保这种功能强大的工具的道德使用,它具有明显的操纵能力?是的,你知道,语音模式对我来说非常有趣。这就像我第一次感觉自己被人工智能真正欺骗了,因为当我玩它的第一个测试版时,我无法阻止自己。我的意思是,我仍然会说,请切换到GBT。

但在语音模式下,我好像无法不用正常的礼貌用语。我非常确信,啊,它可能是一个真实的人,你知道吗?显然,这只是在破解我大脑中的一些电路,但我确实在语音模式下感受到了这一点。而且我仍然这样做。我认为这是一个更普遍的事情的例子,我们将开始面对,那就是,随着这些系统变得越来越强大,并且随着我们试图使它们与之交互的方式尽可能自然,它们将像

击中我们神经回路的某些部分,这些部分会进化以处理其他人。而且你知道,关于我们不想做的事情,有一堆明确的界限。比如,我们不会。就像有一堆奇怪的人格成长黑客一样,我认为这是模棱两可的社会操纵行为,我们可以做到。

但还有一些事情并不那么明确。比如,你想让语音模式尽可能自然,但当你越过恐怖谷时,它至少在我身上会引发一些东西。而且,你知道,我对聊天机器人说“请”和“谢谢”,没问题。这可能是一件好事。你永远不知道。但我认为这确实指出了我们必须开始分析的安全性和一致性问题。

好吧,回到正题。萨姆,01 什么时候会支持函数工具?- 你知道吗?- 在今年年底之前。有一些事情我们真的想为......我们将会记录这个,把它带回研究团队,向他们展示我们多么需要这样做。我的意思是,有一些事情我们真的想让01参与进来,而且,你知道,这是一个平衡的问题,我们应该更早地将它发布到世界上,并开始学习它,学习你们如何使用它,或者我们应该发布一个完全完整的东西,你知道,

与之相符,它拥有我们推出的所有其他模型的所有能力。我很高兴看到系统提示、结构化输出和函数调用进入O1。我们将在今年年底之前做到这一点。这对我们也很重要。除此之外,仅仅是因为我无法抗拒强调这一点的机会,我们将把所有这些东西都加入进来,以及你们要求的更多东西。该模型将变得如此之快,我们还处于早期阶段。

这就像,你知道,也许是GPT-2规模的时刻,但我们知道如何到达GPT-4,我们现在已经具备了到达GPT-4的基本要素。除了计划让我们构建所有这些东西之外,还要计划让模型变得更聪明。就像,你知道,希望你们明年回来,并计划让它感觉比4更像一年的改进。0.1。竞争对手的哪个特性或功能是你真正欣赏的?

我认为谷歌的笔记本电脑很酷。他们叫什么?- 笔记本11。- 笔记本11,是的。我就像,我今天早上很早就起床了,我在推特上看例子,我只是觉得,这太酷了。这只是一件很酷的事情。而且,世界上没有足够多的人在发布新事物,大多数都是相同的东西。但我认为这就像

今天早上给我带来了很多快乐。它做得非常好。我真正欣赏该产品的一点是,其格式本身非常有趣,但他们也掌握了播客风格的声音。他们有非常好的麦克风。他们有这些共鸣的声音。你们有没有看到有人在推特上说,很酷的事情是把你的领英

给这些,给笔记本LM,你就会有两个播客主持人来回讨论你有多么出色,以及你多年来的所有成就。我会说我的观点是,我认为Anthropic在项目方面做得非常好。

这有点像我们对GVTs所做的不同看法,而GVTs的寿命更长一些。这是你可以构建并反复使用的东西。项目有点类似的想法,但更临时,意味着可以建立起来,使用一段时间,然后你可以继续前进。不同的思维模式会产生差异。我认为他们在这方面做得非常好。好了,我们快到观众提问环节了。所以想想你想问什么。

那么,在OpenAI,你如何平衡你认为用户可能需要的东西与他们今天实际需要的东西呢?这也是一个更好的问题。是的,我认为这确实回到了我们之前所说的,试图为模型几乎无法做到的事情而构建

但几乎可以做到。但这也是一个真正的平衡,因为我们在ChatGPT上每周支持超过2亿人。你也不可以说,“不,这很酷,处理这个bug三个月,或者这个问题。我们有一些非常酷的东西即将到来。你必须解决今天的问题。”有一些非常有趣的产品问题。我的意思是,你想想

我正在和一群非常了解人工智能的人交谈,想想世界上所有从未使用过这些产品的人,这仍然是世界上绝大多数人。你基本上是在给他们一个文本界面,在这个文本界面的另一端是这种不断发展的外星智能,他们从未见过或与之互动过,你试图教他们所有你能做到的疯狂的事情,所有它能帮助你的方式,能融入你的生活,能为你解决问题的方式。

人们不知道该怎么办。你知道,你进来,就像,人们打字,然后回应,你知道,“嘿,很高兴见到你,今天我能帮你什么忙?”然后你就像,“好吧,我不知道该说什么。”然后你最终会离开,你会想,“好吧,我没有看到它的魔力。”所以这是一个真正的挑战,弄清楚你如何,我的意思是,我们都有上百种不同的方式来使用ChatGPT和人工智能工具,

但教人们这些是什么,然后随着模型逐月变化,突然获得这些能力的速度比我们人类获得能力的速度快得多,这是一个非常有趣的问题集,我知道这也是你们所有人都在以不同的方式解决的问题。我有一个问题。谁觉得自己花了很多时间与O1相处,他们会说,“我觉得自己肯定比那东西聪明”?你认为你仍然遵循O2吗?

没有人认为自己比我聪明。所以我们面临的挑战之一是,我们知道如何去做这件事,我们认为这至少可能比我们在广泛的任务中更聪明。然而,我们仍然必须修复所有bug,并解决“你好吗”的问题。

我们主要相信的是,如果我们继续推动模型智能,人们就会用它做令人难以置信的事情。你知道,我们想要构建世界上最聪明、最有帮助的模型,然后找到各种使用它的方法,并在其之上进行构建。对于我们来说,这绝对是一个进化过程,不仅仅是完全专注于研究,我们确实必须修复所有这些bug,并使其可重用,我认为我们在平衡这一点方面做得更好。但仍然作为我们文化的一部分,我认为我们相信,如果我们能够继续推动智能,6.0.4如果你跑到这里来,它会,人们会用它来构建令人难以置信的东西。是的,

我认为这是哲学的核心部分,你做得很好,总是推动我们,好吧,基本上将智能的前沿融入我们的产品中,无论是在API中还是在我们的一方产品中。因为很容易坚持你知道的东西,那些运行良好的东西,但你总是推动我们去获得前沿,即使它只是一种工作方式,因为它很快就会很好地工作。

所以我总是觉得这是一个非常有帮助的推动。你有点回答了下一个问题。你确实对模型说“请”和“谢谢”。我很好奇,有多少人会说“请”和“谢谢”?这难道不是很有趣吗?我也会。

我有点做不到,如果我不说,我会感觉不好。好的,最后一个问题,然后我们将进入观众提问环节,大约还有10分钟。你是否计划构建专门为代理用例而设计的模型?那些更擅长推理和工具调用的模型?- 我们计划构建擅长代理用例的模型。这将是我们未来几个月的一个关键重点。具体来说,这是一个很难要求的事情,因为我认为这只是我们如何继续构建更智能的模型的方式。所以是的,有一些事情,比如工具使用

函数调用,我们需要构建它来帮助。但我们主要想构建世界上最好的推理模型。这些也将是世界上最好的基于代理的模型。酷。让我们进入观众提问环节。你们在公司内部使用你们自己的技术的程度如何?你们有没有一些可能不明显的有趣例子?是的,我的意思是,我们在模型完成训练之前就将其用于内部使用。我们使用检查点,并试图让人们尽可能地使用它们,并试图像

在内部探索模型能力的新方法,并将其用于我们自己的开发、研究或其他任何事情,只要我们能做到。我们仍然总是对外部世界的创造力和人们所做的事情感到惊讶。但基本上,我们已经弄清楚了我们前进的每一步,如何去做,下一步要推动什么,我们可以将什么产品化,模型真正擅长的是通过内部试用。这就是我们的全部,这就是我们如何摸索前进的方式。我们还没有像基于O1的员工,但是

你知道,当我们进入代理世界时,我们会尝试这样做。就像,我们会尝试在我们内部系统中部署一些可以帮助你处理事情的东西。有一些事情越来越接近了。我的意思是,他们就像客户服务。我们在内部有机器人,它们在回答外部问题和处理内部人员在Slack上的问题方面做了很多工作。我们的客户服务团队可能,我不知道,只有它原本需要的20%,因为有了它。我知道。

我知道Matt Knight和我们的安全团队已经广泛讨论了我们在内部使用模型的所有不同方式,以自动化大量安全工作,并将过去需要人工处理的过程(你可能没有足够的人来查看所有传入的内容)转变为模型来处理,分离信号和噪声,并向人类突出显示他们需要查看的内容,诸如此类的事情。所以我认为内部有很多例子,人们可能低估了

你们可能不会对此感到惊讶,但我与之交谈的许多人都感到惊讶。它不仅仅是在某个地方使用模型,实际上是使用擅长做不同事情的模型链,并将它们连接在一起,以获得一个非常擅长你正在做的事情的端到端过程,即使各个模型存在缺陷并会犯错误。

谢谢。我想知道你们是否计划分享用于离线使用的模型,因为有了这个蒸馏技术,我们可以分享我们自己的模型,这真的很酷,但是很多用例你真的想拥有它的一个版本。我们对此持开放态度。这并不是当前路线图上的高优先级事项。如果我们有更多的资源和带宽,我们会去做。但是有

很多原因你想要一个本地模型,但这并不是今年的事情。我的问题是,在地方、州和国家层面,许多政府机构都可以从你们正在开发的工具中受益匪浅,但由于安全问题、数据问题、隐私问题,他们可能对部署这些工具犹豫不决。我想知道是否有任何计划与政府、世界各国政府建立伙伴关系,一旦

无论AGI何时实现,因为显然,如果AGI能够帮助解决饥饿、贫困、气候变化等问题,政府就必须参与其中,对吧?我只是想知道是否有某种计划在时机成熟时生效。

是的,我认为你不想等到AGI,你想现在就开始,对吧?因为这是一个学习过程,我们目前的模型可以做很多好事。因此,我们已经宣布与一些政府机构建立了一些伙伴关系,一些州,我认为是明尼苏达州,还有一些其他州,宾夕法尼亚州,以及美国国际开发署等组织。能够帮助世界各地的政府适应这项技术,并从中受益,这实际上是我们的一个巨大优先事项。在所有地方,政府都感觉像是你可以自动化大量工作流程并提高效率的地方,减少繁琐的工作等等。所以我认为我们现在可以做很多好事。如果我们现在这样做,随着模型变得更好,我们越来越接近AGI,它就会随着时间的推移而积累。

一个相当开放式的问题。你对开源的看法是什么?无论是开放权重,还是一般的讨论,你们在开源方面持什么立场?我认为开源很棒。再说一次,如果我们有更多的带宽,我们也会这样做。我们已经几次非常接近于进行大规模的开源工作。然后,真正困难的部分是优先级。我们已经把其他事情放在了它的前面,一部分原因是,现在世界上已经有如此优秀的开源模型,我认为这一部分我们总是做的大多数企业都喜欢一个真正优秀的设备模型,我认为这一部分服务得相当好。我希望我们会在某个时候做一些事情,但我们想找到一些我们觉得如果我们不做,那么我们只会和他们一样,而不会在基准测试上做得更好一点。因为我们认为有很多潜力。现在有很多好东西。

但从精神上和哲学上来说,我很高兴它存在。我想弄清楚。嗨,萨姆,嗨,凯文。感谢你们邀请我们参加开发者日。这太棒了。所有现场演示都成功了。这太不可思议了。为什么高级语音模式不能唱歌?作为对此的后续,如果这是一个公司,比如,就公司等方面而言的法律问题,你对自身产品、自身平台上的安全性的看法与给予我们开发人员某种我不知如何表达的权利之间是否存在差异,以便我们可以让我们的语音不唱歌。

你能回答这个问题吗?哦,你知道,有趣的是,萨姆问了同样的问题。为什么这东西不能唱歌?我想让它唱歌。我以前见过它唱歌。实际上,显然有一些事情我们不能让它唱歌,对吧?我们不能让它唱受版权保护的歌曲,我们没有许可证等等。然后还有一些事情它不能唱,你可以让它唱生日快乐歌,这很好,对吧?我们也想要这样。这是一个问题,我认为,一旦你,它,基本上,在有限的时间内说“不”然后构建它更容易,但要做到正确很微妙。在这些事情上出错会有惩罚。所以这只是我们现在所处的位置。我们真的希望模型也能唱歌。人们一直在等待我们发布语音模式,这很公平。我们可以等更久,并且真正掌握分类和过滤器,你知道,涵盖音乐与否,但我们决定只是发布它,我们会更多。但我认为萨姆已经问过我四五次为什么我们没有

语音功能。我的意思是,我们仍然不能提供一些我们会在非常糟糕的境地中的东西。你知道,热情的开发者或第一方等等。是的,我们可以有一些不同之处,但我们仍然必须遵守法律。你能谈谈你对上下文窗口未来走向的看法吗?以及时间表,你如何看待上下文窗口增长与RAG(基本上是信息检索)之间的平衡?我认为有两种不同的看法很重要。一种是,它什么时候会达到某种正常的长上下文?

就像1000万个标记或其他什么,足够长到你可以把东西扔进去,而且速度足够快让你满意。我希望每个人都会在那里取得相当快的进展,这将成为一件事情。到目前为止,长上下文的用途比我预期的要少得多。但是,你知道,有很多原因导致这种情况,我不想说得太多。然后还有另一个问题,那就是,我们什么时候才能达到上下文长度?不是1000万,而是1万亿。我们什么时候才能达到你把一生中见过的所有数据都扔进去的程度?

Building AGI in Real Time (OpenAI Dev Day 2024) 02:09:14 Share