We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode OpenAI 史无前例的发布会:连续 12 天发布内容全解析

OpenAI 史无前例的发布会:连续 12 天发布内容全解析

2024/12/26
logo of podcast 十字路口Crossing

十字路口Crossing

AI Deep Dive Transcript
People
大聪明
归藏
杨远诚
Topics
@大聪明 : OpenAI 十二天发布会最重要的两个重点是:O3 的发布以及 Day 9 发布的 OpenAI API 更新。O3 模型虽然昂贵,但其领先性毋庸置疑;Day 9 的 API 更新则为未来 AI 应用开发提供了关键基础设施,特别是结构化输出能力的提升对 AI agent 的发展至关重要。 Day 9 发布的 OpenAI API 更新包括 O1 的正式版 API、实时语音 API 的更新和降价以及 SDK 的发布,以及新的偏好微调功能,对 AI agent 的发展至关重要。结构化输出能力的提升是 AI agent 发展的重要因素,Day 9 发布的 API 更新使得结构化输出的成功率达到 100%,为 AI agent 的爆发奠定了基础。Day 9 发布的 OpenAI API 更新,特别是实时 API 的更新,使得 AI 的响应速度更快,成本更低,并支持多模态信息的输入和输出,为 AI 应用的商业化提供了可能性。偏好微调功能允许开发者指定模型输出内容的偏好,并排除不希望出现的元素,提升模型的稳定性。 OpenAI 的十二天发布会,部分内容可能出于营销目的,并非全部代表其最核心的技术突破。 @归藏 : O3 的发布对整个行业具有里程碑式的意义,它展现了 AI 推理能力的显著进步,增强了行业信心。O3 的发布是里程碑式的事件,其进步速度令人惊叹,未来几年人们可能会像记住 ChatGPT 的发布时间一样记住 O3 的发布时间。RFT 功能虽然实用,但由于 O1 成本高昂,短期内应用有限,但随着 O1 价格下降,其应用前景广阔。最初对 OpenAI 满血版 O1 和 O1 Pro 的发布感到怀疑,认为其案例缺乏对普通用户的适用性,但后续使用 Sora 后改变了看法,认为其在开放领域问答方面表现出色。使用 O1 Pro 撰写总结时,其提供的建议具有建设性,并能有效组织思路,避免了以往 AI 工具提供的冗余信息。Sora 的故事版功能和交互体验良好,但其图像质量提升有限,且价格昂贵,部分功能不可用,存在诈骗嫌疑。ChatGPT Projects 功能有助于解决优质对话的归类和筛选问题,并降低模型训练和数据收集的成本。 @杨远诚 : OpenAI ChatGPT Pro 会员定价200美元/年,引发争议,但使用者认为其价值在于可以随时随地与AI进行实时对话,提升效率。Sora 的发布引发毁誉参半的评价,其图像质量虽然达到了一流水准,但视频质量和价格存在问题。Day 4 发布的 ChatGPT Canvas 功能与 Google Cloud 的 Artifact 功能类似,旨在提升 AI 代码和文本处理的交互体验。ChatGPT Canvas 和 Google Cloud Artifact 的核心区别在于产品哲学的不同:Artifact 旨在简化用户体验,而 Canvas 旨在打造 AGI 的终极界面,并扮演创作伙伴的角色。Day 6 发布的 4O 实时视频通话和视频理解功能,以及与圣诞老人通话的功能,在社交媒体上引起了一定的关注。4O 实时语音功能模拟了科幻电影中的场景,极大地提升了用户体验,并拓展了 AI 的应用场景。Day 7 发布的 ChatGPT Projects 功能,允许用户将项目文件整合到一个文件夹中,方便 AI 更好地理解上下文并提供回复。Day 8 发布的 ChatGPT 搜索功能全量开放,但其搜索质量未达到预期。Day 11 发布的 ChatGPT 桌面版功能,允许其读取其他应用的屏幕内容,并进行交互,但其功能细节尚不明确。OpenAI 十二天发布会最重要的两个关注点是 O3 的发布和针对开发者的 API 更新。

Deep Dive

OpenAI 十二天发布会深度解读:O3 与 API 更新双剑合璧

OpenAI 连续十二天的发布会,如同年末一场科技盛宴,不仅带来了备受瞩目的O3模型,更在细节之处展现了其在AI应用开发领域的深厚布局。我和两位资深AI观察者——归藏和大聪明——一起,对这十二天发布会的核心内容进行了深入剖析。

O3:里程碑式的突破,但价格高昂

归藏和我都认为,O3的发布是本次发布会的最大亮点,也是一个里程碑式的事件。O3在编程能力测试中甚至超越了OpenAI首席科学家的得分,其推理能力的显著提升令人惊叹。未来几年,人们或许会像记住ChatGPT的发布时间一样,记住O3的发布时刻。然而,O3高昂的价格(单次任务约3500美元)也限制了其短期内的普及。 O3拥有高低算力两个版本,低算力版本成本更低,未来或许会成为主流。 即便如此,其在数学和代码领域的强大能力,也预示着未来AI在这些领域超越人类的可能性。

Day 9 API 更新:为AI agent爆发奠定基础

大聪明指出,Day 9发布的OpenAI API更新与O3发布同等重要。这次更新包含了O1正式版API、实时语音API的更新和降价、SDK发布以及新的偏好微调功能。其中,结构化输出能力的显著提升(成功率从36%提升至100%)是关键。这为AI agent的开发提供了关键基础设施,并预示着AI agent在未来一年的爆发。

实时语音API的更新降低了成本,并支持多模态信息的输入和输出,这为AI应用的商业化提供了更多可能性。 偏好微调功能则允许开发者更精细地控制模型输出,提升模型的稳定性和可靠性。

其他值得关注的发布:细节之处见真章

除了O3和Day 9的API更新,其他发布也值得关注:

  • 强化微调 (RFT): 虽然目前由于O1的高昂成本限制了其应用,但随着O1价格下降,RFT的应用前景广阔。
  • Sora: Sora的发布引发了褒贬不一的评价。其故事版功能和交互体验令人惊喜,但图像质量提升有限,且价格昂贵,部分功能甚至存在可用性问题。
  • ChatGPT Canvas: 与Google Cloud的Artifact类似,但其产品哲学有所不同。Artifact旨在简化用户体验,而Canvas旨在打造AGI的终极界面,并扮演创作伙伴的角色。
  • 4O实时视频通话和视频理解: 这一功能模拟了科幻电影中的场景,极大地提升了用户体验,并拓展了AI的应用场景。
  • ChatGPT Projects: 这一功能有助于解决优质对话的归类和筛选问题,并降低模型训练和数据收集的成本。
  • ChatGPT搜索: 全量开放后,搜索质量仍有提升空间。
  • ChatGPT桌面版: 可以读取其他应用的屏幕内容,但功能细节尚不明确。

OpenAI的策略:营销与竞争的博弈

需要指出的是,OpenAI的十二天发布会,部分内容可能出于营销目的,并非全部代表其最核心的技术突破。 OpenAI在激烈的竞争环境中,其发布策略也包含了对竞争对手的策略性影响。

展望2025:AI agent的时代即将到来

总而言之,OpenAI的十二天发布会展现了其在大型语言模型和AI应用开发领域的强大实力。O3的突破和Day 9 API更新的意义深远,为AI agent的爆发奠定了坚实的基础。 我们有理由相信,2025年将是AI agent蓬勃发展的时代,各种各样基于AI agent的应用将会改变我们的生活和工作方式。 而OpenAI,无疑将在这个时代扮演重要的角色。

Shownotes Transcript

**这一周的「十字路口」,我们邀请到归藏和大聪明,一起来回顾 OpenAI 连续 12 天的发布会都发布了哪些新东西?**除了让全世界惊叹的 o3 之外,还有哪些同样值得关注的新功能、新技术、新看点?

比如,大聪明认为,没有引起水花的 Day 9 发布特别值得注意:OpenAI API 的更新与 o3 的发布同等重要,因为它为未来 AI 应用的开发提供了关键基础设施。其中,结构化输出能力的持续迭代结果值得关注(从 36% 到 100% 的成功率提升),这将极大促进 AI agent,以及AI 关联到现实世界的项目发展。

从第 1 天到第 12 天,我们将不仅逐一全面详实地介绍每天的发布,还会分享我们的亲身体验和见解。

——————

👬🏻 嘉宾介绍:

  • 归藏是**「AIGC Weekly」 Newsletter** 的主理人,这是全中文互联网我认为最最值得订阅的 AI 资讯周刊,我追更了两年,几乎是每个周末的必修课,获益良多;
  • 大聪明是**「赛博禅心」公众号**的主理人,也是第二次来做客十字路口。
  • 在我的朋友圈中,这两位都全程追踪了 12 天的发布会动态,我相信他们不仅能及时提供最新信息,还能确保内容的高质量。

🚥 02:18 这 12 天发布会中,最值得关注的重点是什么?

🚥 12 天发布会

🟢 11:26 12 天的完整回顾

🟢 14:03 Day 1: 满血 o1 ,ChatGPT Pro $200 会员,o1 Pro

🟢 18:49 Day 2: 基于 o1 的强化微调 RFT

🟢 21:21 Day 3: Sora

🟢 25:15 Day 4: ChatGPT Canvas

🟢 32:54 Day 5: 苹果全系接入 GPT

🟢 33:08 Day 6: 4o 实时视频通话、视频理解、屏幕理解、圣诞老人语音

🟢 37:34 Day 7: ChatGPT Projects

🟢 41:18 Day 8: ChatGPT Search 全量开放并优化体验,免费用户可用

🟢 41:52 Day 9: o1 API(支持 Function Call,并支持 Function Call 联网)、实时语音 API 更新/降价 & 发布 SDK、模型新增支持:PFT 偏好微调

🟢 52:38 Day 10: ChatGPT 的 800 电话、WhatsApp

🟢 53:00 Day 11: ChatGPT 桌面版可读取其他应用,且支持 o1 和 4o 高级语音

🟢 54:50 Day 12:  OpenAI o3正式发布!

欢迎订阅「十字路口」播客

🚦 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会。十字路口是乔布斯对苹果公司的一个比喻,形容它站在科技与人文的十字路口,伟大的产品往往诞生在这里。AI 正在给各行各业带来改变,我们寻找、访谈和凝聚 AI 时代的「积极行动者」,和他们一起,探索和拥抱新变化,新的可能性。

👦🏻  主播 Koji:新世相/躺岛的联合创始人。我相信科技尤其是 AI 会在未来彻底改变社会,赋能人类,欢迎大家找我聊天,碰撞想法,链接下一个可能性。Koji 的即刻Koji 的网站

👧🏻 主播 Ronghui:供职于科技 VC,前《第一财经周刊》驻硅谷记者,Ronghui 的即刻


欢迎加入「十字路口」的会员群

☀️ 第一手的 AI 资讯与洞察

👫🏻 鼓励大家谈恋爱/交朋友/寻找未来的同路人

🦀 添加小助理微信入群:Rwkfbcianvd ,或扫下方二维码

We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Export Podcast Subscriptions