We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode OpenAI 史无前例的发布会:连续 12 天发布内容全解析

OpenAI 史无前例的发布会:连续 12 天发布内容全解析

2024/12/26
logo of podcast 十字路口Crossing

十字路口Crossing

AI Deep Dive Transcript
People
大聪明
归藏
杨远诚
Topics
@大聪明 : OpenAI 十二天发布会最重要的两个重点是:O3 的发布以及 Day 9 发布的 OpenAI API 更新。O3 模型虽然昂贵,但其领先性毋庸置疑;Day 9 的 API 更新则为未来 AI 应用开发提供了关键基础设施,特别是结构化输出能力的提升对 AI agent 的发展至关重要。 Day 9 发布的 OpenAI API 更新包括 O1 的正式版 API、实时语音 API 的更新和降价以及 SDK 的发布,以及新的偏好微调功能,对 AI agent 的发展至关重要。结构化输出能力的提升是 AI agent 发展的重要因素,Day 9 发布的 API 更新使得结构化输出的成功率达到 100%,为 AI agent 的爆发奠定了基础。Day 9 发布的 OpenAI API 更新,特别是实时 API 的更新,使得 AI 的响应速度更快,成本更低,并支持多模态信息的输入和输出,为 AI 应用的商业化提供了可能性。偏好微调功能允许开发者指定模型输出内容的偏好,并排除不希望出现的元素,提升模型的稳定性。 OpenAI 的十二天发布会,部分内容可能出于营销目的,并非全部代表其最核心的技术突破。 @归藏 : O3 的发布对整个行业具有里程碑式的意义,它展现了 AI 推理能力的显著进步,增强了行业信心。O3 的发布是里程碑式的事件,其进步速度令人惊叹,未来几年人们可能会像记住 ChatGPT 的发布时间一样记住 O3 的发布时间。RFT 功能虽然实用,但由于 O1 成本高昂,短期内应用有限,但随着 O1 价格下降,其应用前景广阔。最初对 OpenAI 满血版 O1 和 O1 Pro 的发布感到怀疑,认为其案例缺乏对普通用户的适用性,但后续使用 Sora 后改变了看法,认为其在开放领域问答方面表现出色。使用 O1 Pro 撰写总结时,其提供的建议具有建设性,并能有效组织思路,避免了以往 AI 工具提供的冗余信息。Sora 的故事版功能和交互体验良好,但其图像质量提升有限,且价格昂贵,部分功能不可用,存在诈骗嫌疑。ChatGPT Projects 功能有助于解决优质对话的归类和筛选问题,并降低模型训练和数据收集的成本。 @杨远诚 : OpenAI ChatGPT Pro 会员定价200美元/年,引发争议,但使用者认为其价值在于可以随时随地与AI进行实时对话,提升效率。Sora 的发布引发毁誉参半的评价,其图像质量虽然达到了一流水准,但视频质量和价格存在问题。Day 4 发布的 ChatGPT Canvas 功能与 Google Cloud 的 Artifact 功能类似,旨在提升 AI 代码和文本处理的交互体验。ChatGPT Canvas 和 Google Cloud Artifact 的核心区别在于产品哲学的不同:Artifact 旨在简化用户体验,而 Canvas 旨在打造 AGI 的终极界面,并扮演创作伙伴的角色。Day 6 发布的 4O 实时视频通话和视频理解功能,以及与圣诞老人通话的功能,在社交媒体上引起了一定的关注。4O 实时语音功能模拟了科幻电影中的场景,极大地提升了用户体验,并拓展了 AI 的应用场景。Day 7 发布的 ChatGPT Projects 功能,允许用户将项目文件整合到一个文件夹中,方便 AI 更好地理解上下文并提供回复。Day 8 发布的 ChatGPT 搜索功能全量开放,但其搜索质量未达到预期。Day 11 发布的 ChatGPT 桌面版功能,允许其读取其他应用的屏幕内容,并进行交互,但其功能细节尚不明确。OpenAI 十二天发布会最重要的两个关注点是 O3 的发布和针对开发者的 API 更新。

Deep Dive

Shownotes Transcript

欢迎收听十字路口我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会十字路口是乔布斯对苹果公司的一个比喻形容它站在科技与人文的十字路口伟大的产品往往诞生在这里 AI 正在给各行各业带来改变我们寻找访谈和凝聚 AI 时代的积极行动者和他们一起探索和拥抱新变化新的可能性

我是主播科技杨远诚联合创办了街旁新事项和唐岛我相信科技尤其是 AI 会在未来十年彻底改变社会赋能人类欢迎大家找我聊天碰撞想法链接下一个可能性我是主播荣慧目前在一家专注科技投资的风险投资机构工作之前在第一财经周刊担任驻硅谷记者

本周的十字路口我们一起来回顾 OpenAI 连续 12 天的发布会到底都发布了哪些新的东西除了让全世界都惊叹的在最后一天发布的 O3 之外还有哪些同样值得关注的新功能新技术或者新看点 OpenAI 和 Sam Altman 堪称是营销天才我印象中好像也是第一次有科技公司把发布会一开开个 12 天的这让我想起这个 Transformer 的注意力机制

这 12 天的发布会也可以堪称是 attention is all you need 的一个绝妙实践持续 12 天的发布会的轰炸不仅垄断了科技媒体的头条更让整个行业的目光都聚焦在他们的身上所以这波营销可以说将注意力经济是玩到了极致本周十字路口邀请到两位朋友龟藏藏师傅和大聪明与我们一起来回顾与讨论

那这 12 天到底发布了一些什么好东西归葬是 AIGC Weekly 这一个 newsletter 的主理人这是全中文的互联网我认为这个最最最有两个最啊最最值得订阅的 AI 资讯周刊我追跟了快两年几乎是每个周末的必修课获益良多而大聪明的是赛博禅心公众号的主理人也是第二次来做客十字路口了

那在我的朋友圈里面呢他们二位都是持续 12 天一直在追跟发布会我每天早上醒来第一件事就是看赛博产新的公众号和归藏藏师傅的极客他们都是信息的速度和质量的双重保障那我们在本周播客的 show notes 里面先整理了这 12 天 OpenAI 逐日发布的具体内容方便大家一边听播客一边做参考好那我们开场的第一个问题想问二位你们认为在这 12 天的发布会里面最值得关注的一个重点是什么

大家好我是大聪明这个问题就是我先来呗

正面最值得关注的一个重点在我看来可能不是一个重点可能是两个第一个是毫无疑问欧三的发布他带来了一个完全的遥遥领先的模型虽然他很贵回答一个问题可能需要 3500 美金这个值是我拿尺子量出来的第二个的话是他在发布期间就是隐藏了一个细节在第 9 天左右的时候提到了一个开发者的

更新这两个不更新既包括了是 real time 的 API 的更新也包括了是对够远的支持但这里最核心的是它允许了在 OE 以及在 real time 的时候进行结构化输出这对明年的 AI 的 agent 爆发预买下了目的

预买下了伏笔这两点是我认为非常重要的 OK 好那我们待会可以展开聊一聊这两点欧三的发布和在第九天这个针对开发者发的一系列的 API 那藏师傅呢在你看来最值得关注的一个重点是什么我是规则然后我觉得也是欧三这个肯定是毫无疑问的就是他因为欧凡其实说实话我们最先对大家对他的指望是他是一直在引领整个

整个的行业的方向虽然他有些地方不是做得最好的但是他一定会把那个在行业达到困境的时候给出一个新的路径就是最近前段时间不是伊莉安说那个育训练

到头了嘛那可能在 O3 上我们就看到了这个结果就是 O1 还没有那么明显嘛就没有那么让人坚信这个推理的进化的方向但是在 O3 上我们看到了很明显的一个一个进步和进展那这个我觉得对整个行业的信心和整个比如说投资啊或者一些

其他的东西的信心的体证是非常大的这个还是挺重要的可不可以用什么样的方式让大家感受一下欧三到底有多强一个最直接的一个说法就是因为

有一个程序员的一个大神榜然后呢在那个叫做 Codeforces 它是一个比 Litcode 更硬核的一个编程的算是技能展示或者是竞技平台很多的非常优秀的程序员都会在里面玩一玩比如是 OpenAI 现任的手机科学家他在这个 Codeforces 里面他的得分是 2655 分

而这一次的欧三它的编程得分是 2727 分就是超过 OpenAI 的首席科学家伊大尔杰如果放在现行的榜单里面能够排到人类的第 175 名这还是非常非常离谱的一件事情这个欧三还有一个惊人的数字是他每做一个单任务大概就需要 3500 美金等于是 2 万人民币

然后我看到大聪明也有写公众号说你去问欧三一个问题 9.09 和 9.11 到底谁是更大的数字那这个问题下去两万人民币就没了这是不是也背后说明这里面还是可以再大力继续出奇迹的

这里其实有一个小的细节,在比照 O1 的时候,O3 它有两个版本,一个叫做低算力版本,它计算一次的任务量大概需要 20 美金,可能未来我们用的可能是这个版本,它还有一个高计算量版本,其实也是更详细的模式。

它的计算量是低计算量的大概是 170 多倍然后算下来的话呢就是 3500 美金大概是有 1000 倍的一个增幅大概 3.5 美金到 3500 美金 1000 倍的一个增幅所以其实它那个

我们看到那个 ARK 的表单这时候你们发现一个很有趣的事情正确率的百分比和

和消耗算力的指数是成线性关系的我们可以拉出一条直线近乎的直线就是我计算量每增加十倍然后呢我们的这一个准确度可能会增加个百分之多少百分之二十嗯

10%到 20%之间吧这件事情就一直的假如说我们要到达 100%在这个表达里面到达 100%我们的这个算力成本是天价的

这还不算完在它的一个新的表单里面我们现在看到的是 O3 的高计算量模式能够达到 88%的计算率但是在第二版的 ARK 榜单里面它的正确率就只有 30%了还会再被压缩那如果我们即便是按照 ARK 的测试级实现 ARK 版本的 AGI 我们当前的计算成本可能都是在

百来美金以上了我也看到藏师傅有在极客上发一条很长的内容就是在讲说欧三带给你的一些感受吧然后你还提到一个非常强的说法你说可能在未来几年我们会像记住 ChatGPT 的发布时间一样记住昨天晚上的这个欧三发布的时刻是什么原因让你对欧三的发布这么的兴奋认为它是里程碑一样的事件

其实这些是整理了一些大佬们的说法就是说陶哲轩说这个基础本来是能顶住代言模型可能好几年的但现在一下给它拉到了 25%的成功率包括刚才说的那些程序员那个经济的榜单对吧那这个其实代表了非常令人憧憬的一个未来 O1 到 O3 只用了三个月

那它就达到这样一个进步那如果说这个缩放电力继续的话明年上半年我们会不会有 OSO5 那如果 OSO5 放出来的时候在我们就不是其他领域就只说在数学和代码这两个领域人类是不是就

彻底无法追上它了数学电脑其实是我们构建整个软件世界的一个基石所以这个其实它会带来非常大的变化我补充一个信息关于 AGI 的就是上一次参加 OpenAI 的现象活动当时的 Mark 的一个分享就是这一次我们 O3 发布的时候就是

开局的时候就是 Mark 和 Sam Altman 一块分享的 Mark 当时说了一个很有趣的观点是我们什么时候到达 AGI 取决于我们对 AGI 的定义然后很快之下我们会到达我们所定义的 AGI 而那时候我们会对 AGI 带有一个新的定义然后不断的追赶 OpenAI 它选取了 ARK 作为 AGI 的这么一个评测的合作伙伴 ARK 提到了

一个主流的关于 AGI 的表述能把大部分有价值的经济工作进行自动化的系统那我们看到如果以这个为标准我们可以认为 O3 已经近乎的达到了 AGI 但很快随着我们把这个事情达到了 AGI 我们会有更高更新的标准这个很有趣就是去定义 AGI 到底是一个什么样的定义对吧之前其实大家一直没有打成过共识嘛

那在 ARK 的定义里面就是说真正的智能是在现在是做有经济价值的工作那也依旧意味着它去安慰你的情感或者它去共情你的这种感受这不在 AGI 的定义里面对然后于是的话 ARK 就给出了一个新的定义就是需要说一个 AGI 它并不是指的你有多少技能因为技能是可以通过训练而获得的而是你有多会学习

一个婴儿我们天生的认为他是 AGI 如果是按照我们就是最普世的想法但是他什么技能都不会他既不会编程更不用说是编程到达了人类的 175 名

但是呢他很会学习他可以从零的掌握语言他可以去用筷子他可以去给你娃娃打哭他很会学习那么我们对于 A 加的定义是不是要从有多少技能变成他能够在之后自主的学会多少东西那我们这个聊了最值得关注的 O3 之后我们来过一下就这 12 天到底发布了什么我们先快速的过一过然后我们再来每一天稍微展开一下和大家聊一聊

那第一天呢是满血版的欧万上线那这一天同时还有一个当时大家都这个争议非常大的这期 IGPT 发了一个 pro 的会员这个会员要卖 200 刀一年就有一个很大胆的定价然后同时在第一天还发了欧万 pro 那到第二天呢是发了一个强化微调 RFT 然后第三天是正式版的 SORA 终于发了

然后第四天是发了一个 Canvas 的功能那这个对标的是 Cloud 的 Artifacts 这个更是一个交互上的变化

然后到了第五天第五天很水它几乎是一个给苹果站台的 PR 只是在宣布苹果全系接入了 GPT 到第六天这是这个临近圣诞节发了 4O 的实时视频通话和视频理解那可以理解这个实时的视频流也可以理解你分享过去的屏幕同时根据视频流和屏幕的内容来去实时的问答然后同时因为圣诞节快到了你可以给圣诞老人打电话

然后到了第七天发布了一个叫项目的功能那这个其实也是 Cloud 早就有的 Projects 的功能然后第八天是 CHI GPT 的搜索全量的开放甚至开放给了免费的用户这里面也做了很多的细节体验的优化比如说可以在浏览器的地址栏里面直接搜也可以搜出视频

然后同时也把这个 4o 的实时语音接入了搜索然后到了第九天呢是发了 o1 的 API 然后这里面是一系列给开发者用的 API 然后待会我们邀请大聪明给大家展开讲讲因为这是他认为和 o3 同一样

同等值得关注的主要发布然后到第十天是一个也有点小的一个有一点水的一个发布就是你可以物理意义给恰恰 GPT 打电话而且他还做了一个 WhatsApp 的一个聊天机器人你可以在 WhatsApp 上和他聊天

然后到第 11 天其实是他们之前就发布的东西然后再拿出来讲了一遍就是 CHIGBT 的桌面版就是它的桌面客户端的版本可以读到别的应用上的内容这样你就不用老去比如说给正在写的代码截个图然后丢给 CHIGBT 而是可以直接让他就看看我的屏幕上在干嘛然后直接提问直接回答然后这里是可以支持掉欧万模型也可以支持用 4O 的实时语音功能来对话

然后 12 天就是我们刚才聊到的这个王炸发了一个 O3 这个是让全行业震惊的一个发布那我们现在再回来从第一天开始那我们还记得第一天发布的时候其实很多人是很期待的我相信这个藏师傅和大聪明你们当时应该也熬夜看了发布会吧然后可不可以讲一讲当时看的 O1 和 O1 Pro 和这个 ChaiGPT Pro200 刀的会员的时候你们有哪些感受

我自然感受一他疯了吗 200 刀这已经远超出大家的正常的支付习惯了真的会有大原种去买吗我买了然后的话用了这么一个 OE Pro 然后发现真香我今天会和各位

AI 或者是 XGBT 一块去思考一些东西比如说是项目怎么做事情怎么规划然后我在和 SOU 说的时候基本上他就是一个我给他说一个东西他就会顺着我的话把我东西补全有时候补的还乱七八糟的我要给他纠正很多次但是我是用了 OE Pro 的时候

他经常就是在一次对话中把我所需要做的事拆分得非常清楚那这样的话就能够省了我一小时的反复的修订时间这个事业让我觉得太像了太值了我看到还有一个说法就是 200 道这个 pro 会员之所以值是因为呃

它有点像是一个无线和你可以对话的 7×24 小时随时在线的 HER 就之前那个科幻电影因为你可以实时的开始无线的和 4O 的实时语音对话了然后藏师傅当时看到第一天的发布会之后有去试用吗有一些什么样的感受以前其实我没有买这样的买到会

对就是当时我觉得确实是原种才会买然后那个 OE Pro 当时看他们那个测试因为他们用的是很多推理的方式那可能我或者是普通用户我觉得这也是他们宣发的一个问题

就是他们用的一些案例当然你要去测试智能你用推理你去做数学做物理是可以的但是你需要参差一些说可能真正的普通用户会用到的一些案例就是来体验它有多强他们缺失了这个功能导致我的感知是好你的物理和数学很强好对我没有用因为我并不知道他对于真正的开放开放域的智能他到底有多少提升对

但是后来是因为原种 Sora 我是因为 Sora 我这是专业证原种我用 Sora 开的开了以后去用了一下我发现它对于开放育的一些问题就刚才大通说的我去讨论一些问题的时候会给出很全面而且很新颖的观点和

很具结构性的一个问答回答所以这个确实是挺值得可以讲一个具体的例子吗就是你用 O1 Pro 做了什么我昨天第一次试我就想突然想写一个我跟 AI 的一个一年的总结因为我想说的事情特别多然后我就想让他给出一个大纲或者给出一些我可以写的方向

他给出了很值得参考的方向就是我们知道我们写东西的时候会有个问题就是你去找搜或者 cloud 他会就是刚才大松你说的他说一些你说过的事情或者是很显而易见的事情或者跟你本身的职业或者跟你的路径完全无关的事情但是 OE Pro 不会 OE Pro 真的给出了非常有建设性的意见就是你完全可以按照他这个大纲去一步把它写完

这个很厉害,但这个是很感性的一个结果你不能通过这样去描述它,真的很厉害你只能通过你自己看到它的时候,你觉得这个是你要的东西这里我再补充一个信息刚才提到了如果你是他的朋友会员你是可以无限的使用他的高级语音模式的然后高级语音模式如果你用 API 的调整方式平均每小时的消耗是 50 美金

假如说你特别喜欢和 AI 聊天你只要跟他聊够了四个小时这 200 刀你就赚回来了说实话我真的和 Foro 聊会有一种和真人聊的感觉

Follow 的问题我觉得就是一个是它响应确实还是不够快而且就是贵吧然后我手机一开的时候我手机就会聚烫可能是它这个实现方式有问题这个就说回来那个谷歌那个 Jay Mina 的 Jay Mina 那个我就完全没有这个负担就是我跟 Follow 聊的时候会有负担一个是它很贵一个是它看起来很做的很重但是我跟 Jay Mina 聊的时候就没有这个负担虽然 Jay Mina 现在只会说英语但是我就

就很随便的了而且它那个响应也比欧凡还要快很多可能是模型小的这个也是我用我们真的觉得它很强的一个地方

其实这一次就在这 12 天期间啊,Jemina 也发了 2.0 嘛,然后他受到的 PR 的关注肯定是不如 OpenAI,但是我感觉他的口碑是非常好的,我们其实待会儿也会和大家再讲一讲我们几个人用 Jemina 2.0 的一些体验。

好 那我们到第二天第二天发布的是基于 O1 的一个强化微条叫 RFT 这个可不可以请你们来给大家介绍一下 RFT 是什么一个 AI 比如说是 GPSO 你希望他每次说话的时候非常的简明精炼但他自己不行你就要对他进行一个微条然后是给他非常多的一个样本让他在之前的基础上进行学习

那么 O1 其实它本身并不能够完全的归入我们传统的大模型范畴它其实是一个大模型结合 agent 的一个

聚合物吧只不过他把 Agent 这一块做到大模型里面他给自主的反思那么对于传统意义上的这个微调就不再支持了如果我希望这个 O1 它的生产它的输出有一定的倾向性无论是思考的方式还是输出的样式有一定的倾向性就需要对它进行微调于是就有了一个对于 O1 的一个微调方式 RFT 它其实就是

原来的 FT 的一个变种一个微调的变种它是目标对象从原来的大模型变成了 O1 这种 agent 形式的大模型明白

所以这个发布其实当天也是没有引起特别多的关注是因为其实他带给这个 C 端用户的体验不是那么直接不仅是对 C 端用户不直接吧哪怕是对 B 端呀或者是开发者端呀因为 O1 太贵了就是正常情况下不会把它放到模型成本打过来

而微调的成本还是会比直接使用 O1 它要再加上一层所以说做项目的时候暂时还是不会去考虑的对于绝大多数的项目来说但另外一个层面我们知道模型会不断的降价然后如果它的成本降到一个比较亲民的时候然后同时你还有类似的需求我相信不少的开发者也会对它进行微调的

OK 这是第二天哈然后到了第三天第三天是在发布会开前面的倒数 12 个小时就已经开始有谣言满天飞说今天晚上要正式的发 Sora 所以那天也是蛮多人熬夜在看的呃然后 Sora 是发了但是发出来之后呢呃

就好像这个毁誉参半甚至慢慢的对他的吐槽还越来越多然后这个可不可以请这个藏师傅专门说一下因为你刚才有提到一开始发这个欧万的时候

就满血版 O1 和 O1 Pro 的时候你是没有充 200 道会员的但 Sora 让你充了会员可不可以讲一讲你充会员之后用它的一些体验它是这样的就是它如果你是 plus20 美元用户的话你只能生成最高 720p 的视频而且的话你只能生成十几个就是十几个就结束了那如果你一定要拿它做片子你必须要充 200 美元所以就买了买了以后呢

是的,它有两方面,一个是它的功能还是挺惊喜的,就是比如说在故事版这个,就是它的故事版,就是你可以去连续的出多个视频,然后它会用一些转场做,可能是手尾针,可能其他方式做,把这个视频连起来,帮你做成一个一整段完整的视频,这个其实是在交互上和在那个功能线上,其实做得非常好的,对,

对 接下来我们要说到模型了模型本身的话我们就是说看一个模型的底子你是看那个文生视频嘛那么文生视频的话它的整个的质量就是说好的会很好但是好的很有限它可能比现在最好的视频模型好个零点几这个程度

对就是他达到了一流水准然后视频模型训练和大学模型的训练其实一样的嘛就他也是需要先有个纹身视频的模型然后再基于图去做那个图身视频的这个微调那么在图身视频上你发现他的微调是完全不足的他可能是一个很仓促的结果对就是他但凡说好好训了他就不会成那样就是图身视频

起码我们要的要求是你可以动对吧我不敢你动的好还是动的坏你可以动但是 42 图是视频 90%你深进去一张图输出的就是一张图对你花了可能是几块钱的积分

把它从一张图等了几分钟变成了一张图这个是很恼我的我觉得这个是非常恶劣的一种商业行为它是诈骗它不是说你服务的好坏或者模型的好坏这是诈骗这功能你宣传的完全不可用然后你卖的又那么贵这是一个非常严重的批评对就是一个沉浸问题就是你

你用这个诱导我去开花一个 1500 人民币的一个月的会员然后这功能其实是完全不可用的大聪明的你有什么想要补充的吗因为我本身不是专业的视频作者但这个里面对我来讲这个无限循环以及这个故事版功能对我来讲还是蛮惊喜的说到 Sora 这次发布我觉得还有一个值得注意的细节就是前几天我们和 Monica 的

Founder 小红录播客的时候他提到这一次 Sora 是没有发 API 的这是 OpenAI 历史上少有的一个情况这其实背后有说明就是在今年做应用对 OpenAI 来讲也变得好像更重要了我觉得核心还是要拿数据吧就是一个是拿数据一个是提高市场战略力站出这个人们的认知嘛所以对于 OpenAI 或者其他公司来说做应用一直是

最重要的因为我们都知道这个东西做你发一批人你卖 token 是没有壁垒或者是没有

无法规模效应的你一定要做成产品所以用一些功能把用户留在这去把扩大用户规模让他离不开你这个产品才行说到我们在这个大模型的厂商需要去做应用做一些功能然后来提高用户的粘性那正好就说到第四天的发布了因为第四天发布的就是一个这样的功能是叫 Canvas 当然这个也不新 Cloud 在半年前就已经有了 Artifact 然后当时 Artifact 发布的时候还是

得到了大量的好评确实对生产效率的提升也很有帮助也请二位介绍一下 Canvas 是什么以及如果可以的话再介绍一下它和 Artifacts 的区别我来说一下吧这其实如果先说 Artifacts 那这个东西的话你可以理解为当大模型生产出一个比如说 HTML 然后呢或者是再加点 JS 这样的一个内容之后它是一个前端页面

在 Cloud 里面可以把这个页面直接渲染出来你可以看它的页面好不好然后同时的话如果它生产是一个 Markdown 我也可以拿浏览器把它渲染出来也可以实时的去看然后看最终的效果这是一个非常有利于我看这个前端代码的一个东西而 ChatGPT 呢它的这一个呃

Canvas 其实最早应该是脱胎于它有一个叫做代码编译器的功能就是你让它你给我写一个 G2 头龙楼算法它可能会把这个代码拿个代码框展示给你还可以把这个代码运算给你它后面呢是跑了一个啊

相当于一个 Python 的服务器那在之后那除了能够跑代码之外它还可以在上面给你展示各种各样的文字你可以对这个文字进行一些修改其实我有看到一个网上很有趣的用法就是有一个人他请这个

加 GBT 给他写了一篇论文去做批注然后他还请对方模仿一个哲学系教授的风格来去批注最后在 Canvas 里面展现出来的就很像是一个在 Word 里面看到那样的批注就是首先有一屏是他原来的文章然后批注呢又是在侧边栏再单独出来的然后还会指下到底批注的是文章中的哪个部分这个我看到之后也觉得还蛮惊喜的

这个和原来直接请大模型帮我改写我的文章那个感觉又进步了又升级了从交互层面其实这段时间 OpenAI 私底下是发了好多的货但是它没有开发布会也没有用任何的新闻方式去露出这点其实蛮有趣的包括你刚才说的这个功能我一篇文章放进去然后让它对我进行批注展示出来

这个功能是来自于 OpenAI 前一段时间上个月吧它偷偷的放出来的一个叫做 Predicted API 或者叫做 Predicted 的一个模式要预测性输出就是什么呢我把一篇内容给它然后呢我告诉它怎么改

他就可以快速的把这篇文章要改的地方然后或者是需要批量去盯证的地方给他标志出来并且修改出来这是一个他上线了但一直没有发布的功能那我相信在这个 Khanos 里面他使用的我觉得才的应该就是这个功能

这个其实还真的是挺有用的我之前一直在用 Notion 的 AI 就是会在 Notion 里面请他直接帮我改东西但他也就是直接改了就改了他不会是像比如说你原来请一个同事或请一位律师帮你改一个文件的时候他会保留那个修订记录

然后你自己去决定我要不要接受这一点拒绝下一点对那现在其实 OpenAI 也可以做到这一点然后这里面他还有一个很有趣的点就是因为他只是修订他并不是重写他可以快速的去处理一长篇的内容并且保持你的主体结构不变这个事除在修订文章之外在修改代码上面也是非常的有用

很多时候你在那修改一个代码的时候因为你的代码会和其他的老代码做交互一旦你动了结构有时候会非常非常的麻烦如果它只是修改全部部分参数并且是

这个参数之间如果有关联他会把这个关联一块许可掉就会非常的实用这一块也是预测性输出的一个用法藏师傅有没有什么要补充的他的那个就是那个做就是负责开发生的一个功能的一个人在今年 10 月 4 号发的时候他写过一些内容就说他怎么思考这个功能的

你看阿斯的核心区别和 Adfix 有两个点 Adfix 的就是它的一个目标就是尽量不让你去想什么时候该触发什么时候不该触发什么时候该用什么不该用它会让 AI 决定去给你

它是一个展示性的方案就是说我用一个更友好的方式去展示一些不好在对话中展示的内容这个是核心就比如说文案也是长文本也是然后那个 web 渲染也是但是呢 Kaivas 那个作者吧他的想法是

他想要打造 AGI 的一个终极界面他想象中的 AGI 终极界面是一个空白画布就是你怎么样去调整它都行对然后他核心的话是想作为一个创作伙伴去帮你去创作或者给你知道这个就解释了为什么就是刚才说的那个批注内功能这个就完美的符合一个创作伙伴应该做的事情就是我们想象就刚才那个袁晨说过就是我们想象中的同事去在工作的时候是跟你怎么协作的

写作的他就是会评论你的东西好你可以就是给你建议你可以选择改也可以选择不改然后在代码这也是就是在代码 review 的时候也会我会去给你这个东西去做一些标注或者做一些那个注释你可以选择改也可以选择不改对他是一个你创作伙伴的形式去做的一个功能所以他俩本质上其实是不太一样的所以他就衍生出了这么多不一样的功能

就比如说开发的其实很重对吧它有很多功能其实就是在模拟一个创作伙伴该对你的内容做的一些事情那 RFX 其实是一个很简单的愿景就是说把对话内容里不好展示的内容用一个更好更适合对吧比如说长文本之类的展示形式给你展示出来对我觉得这个是和现在两个根本性不一样导致他俩的这些功能设计上不太一样的东西地方嗯我觉得这个其实还是产品哲学的不同嗯

然后说到这里就是我会感觉 2025 年非常值得期待的一个点就是在 Chatbot 的这种传统交互之外会大家发现有什么新的交互这在很多地方都已经开始在萌芽了不只是在这个 AI coding 像 Cursor 然后也不只是 Devin 带来的 Agent 这样的模式然后也包括看到的 Canvas

甚至还包括这个 Wecraft 的就是纹身图和图生图也包括像 Wecraft 的这个无线白板这样的去做图片编辑的模式我觉得这很多吧就这个感觉都有点数不过来就各种各样的这种产品创新在大量的发生

这个还蛮值得期待的也是上一周和莫妮卡的小红在录播客的时候她有提到在 2024 年有点 boring 因为感觉还是是 CHATGPT3.0 发布的 CHATBOT 这样的和 AI 交互形式的线性外推但是到 2025 年尤其值得期待的一个特别大的原因就是各种各样和 AI 交互的

这种用户体验交互方式已经在雨后春笋的发生了然后到第五天第五天就是给苹果站台这感觉像一个公关发布会一样就是发写这个念了一篇 PR 文章告诉大家你们可以在苹果里面用到下 HPT 了这个没什么特别好讲的那我们就到第六天吧第六天是 4O 的这个时事视频通话和视频理解然后包括和圣诞老人的通话

这个其实是在世界媒体上有一点小水花的因为很多博主就会用恰吉比提去和圣诞老人聊天开玩笑你们在第六天看到这样的发布之后有一些什么样当时的感受或者想法吗高级实时语音这个是一个很极致的一个对让人感觉到这个东西存在智能的一个方式就是可能你说 O1 或者 O3 普通人根本不理解这个东西有什么意义

不就是分吗对吧而且我也用不着对吧但是对于实时语音通话来说普通用户会觉得这个东西真的好厉害因为它就是模拟了一个科幻电影中存在的一个场景对所以就看到你只要在比如说你在小红书或者在呃呃

抖音上发你用这个视频做的一些事情就比如很多人看有些研究生拿他去让他认识这个化学 LG 让他去指导自己怎么去配那个实验对然后或者说做这种跟 GPT 谈恋爱这种对其实就是很出人很容易引起普通用户的顾虑对包括练口语然后包括练习模拟面试就都变得很有用

然后我自己也试了一下因为同期还有剑门的 2.0 也在发一样的东西就可以打开相头你直接举一个东西问他这是啥这个识别率还是蛮准的我甚至指着我墙上的一张海报问他这是一个电影节的海报你告诉我这是哪一年在什么电影节的海报

他这个也都可以给出他的猜测我补充点信息在这一天的发布中他的两个主要的卖点一个呢是可以视频通话了一个是可以共享屏幕了但其实他话说到这儿我们就没说一我们先说他视频通话吧嗯如果我们去翻 open ai 在过去年中他的一个无论是对外投资还是对外合作你会发现这家公司去

涉及了很多线下和硬件相关的场景如果 ChatGPT 能够很丝滑的比如说教你干什么教你去煮咖啡教你去做化学实验那么这个功能也可以迁移到他接下来或者之前投资的那些硬件产品当中

那这个就变成一个相对来讲会网炸很多的东西了而我们会发现这个里面它的技能点也好它们的技术路线也好是一模一样的我们看到这个化学实验

你拿摄像头去怼着一个化学设备那么如果这个摄像头这个 CHAT-GBT 是内置在这个化学仪器里面的呢如果这个东西再和一些机械币结合的呢那这个东西就可能会变成自动化的这是关于这个实时语音的这一块视频电话这一块第二个的话呢是共享屏幕大家可能会记得在去年吧微软去发布了一个叫做 Copilot 的品牌

其中一个很有趣的点是你和你的电脑可以相互的对话然后你的电脑可以自主的去干一些活那在这里面就有一个很有趣的事你需要把这个信息把页面上的信息去传给你的这个助手

这个功能拒传可能是被放弃或者搁浅了但是你会看到在 ChallengeBT 的这一个发布里面它可以去监控其他的应用的一些信息我并不知道它的监控信息到达了一个怎样的程度

但有可能这就是和苹果的一个合作可以拿到很深层的信息那么在移动设备上这个东西就变成了一个额外的一个外挂比如说我是卢士玩家

那我可能边打卢时我就边问他那这以后这张牌怎么出我们其实待会也会聊到他在后面还有发一个客户端的一个功能大概是第 11 天的时候也是类似的就他可以读屏可以理解你屏幕上不管是编程还是你在玩什么游戏甚至是你在和别人聊天他也可以给你一些如何回复的指导理论上都是可以实现的

这个做法其实说白了是绝了很多的 copilot 的产品的路了这就是让大家想到这个经典的 AI 创业的困境吧就是你做的东西会因为 OpenAI 这样的大模型公司的发布而感到开心兴奋而还是你会感到担心和绝望 OK 好那我们再看第七天第七天是发布了这个项目的功能就是

就是你可以把一个项目里面的各种各样的文件全部丢到一个文件夹里面然后再去和这个文件夹进行对话这样这个模型就可以有一个知识库有一个上下文可以更好的来给你一些回复那这个其实也是 Cloud 在半年前就有的功能 OpenAI 现在才加上然后这个做出来之后二位有看到一些有趣的用法吗

具体的预训练或者说模型训练的细节我可能不太知道但是其实这个功能和刚才我说的刚才说的 artifact 功能就有一个特点就是说我们在推理的过程中或者说我们在模型训练的过程中你要对语料进行分析和归类然后你要去识别哪些是高质量的语料然后再把这些合成数据拿去再训练那么归类就有个核心的问题就是

很多内容都是开放性的你其实不太好去验证语言模型输出的内容的对话的价值你想拿去再训练的话可能会有些问题那么这两个功能

就从某种程度上解决了这个问题比如说 project 那么我放在 project 里的所有文件以及我跟他的所有对话基本上应该都是一个主题的如果对话轮数多的话我们通过一些其他的数据筛选的方式其实能筛出来那么这就解决了一个问题就是优质的对话的一个归类同时还附带有一些现实的可能非合成数据的一些预料

对这个其实对模拟训练或者对数据收集是很有帮助的而 DFAC 也是一样就是说嗯那个 Cloud 的 RTFAC 其实带分享的那么我只需要去分析一下分享的数量就分享的能点击的数量我就能判断一个这个

大元模型生成代码的基本上吧它是正相关的它跟代码质量或者说那个对话质量是正相关的那么在代码这一层面或者说长文本这一层面我就呢去把它筛出来去作为一个语调这样就减少了一个筛选的成本对于模型训练本身或者说数据本身收集是有非常好的正向的作用的

就是可能我们会在很多其他的优秀的 AI 项目中以后都会看到越来越多这种事情我看到这个官方其实有一个不错的例子就是把一个求职者的他的各种各样的简历他过去他的社交媒体的所有的链接然后等等然后都放到了一个项目里面

这样就可以让模型更好地了解你是谁然后同时应该就可以这个请 OpenAI 来给你一些职业上的建议或者和你做一些模拟的面试我想讲一个去年差不多这时候的事在去年年底的时候 OpenAI 是更改了一版它的隐私协议在这版隐私协议里面它提到了作为 ChatGPT 的用户呃

任何时候和 OPEN 的信息的交互无论是在 ChatGPT 里面还是和 ChatGPT 的社交媒体的交互这些数据都可以被 OPEN 拿走当成训练预料当时的话随之发布的是 GPT 就是当时我们说的 OPEN 的那个 agent 那

那在这个里面的话就像刚才藏师傅所说的一方面你是可以更方便的去使用 Chadisbt 了另外一方面的话你也为了这一个便捷性帮 OpenAI 做了数据标注这是一个非常聪明且不会

太过于让大家反感的事我觉得这里面其实也是大家都在追求数据飞轮在一个工具应用没有壁垒的情况下它也形成不了社交飞轮的情况下怎么能够增加用户的联系好 那我们进到第八天第八天是 CHIGBT 的搜索全量开放然后搜索的界面和搜索的体验都有了各种的优化然后这个二位有体验下来什么样的感受我对它没有什么感知就是它的整个的思维

搜索质量和这个结果质量在一众 AI 搜索产品里但凡有的用我都不会用它去搜我哪怕自己用谷歌那我们就跳过第八天进到第九天

第九天是发了开发者用的各种 API 然后这个也是大聪明在一开始回答第一个问题就这 12 天有哪些值得关注的重点发布里面特别提到的一点那直接请大聪明来给我们介绍一下第九天发布了一些什么以及你为什么认为它那么重要总的来讲的话是从官方的说明里面它发布了 OE 的正式版的 API 之前是预览版然后它的 real-time 的 API 就是我们的高级的语言交互的 API

是调价了并且是有 SDK 之前的话呢你必须得自己去写这个兼容现在已经有直接的接口可以去调用了第三个的话呢是它新增了一种新的微调方式非常有趣叫做偏好微调稍等我再细讲我们来说一下这个事儿为什么重要

我们都说 2023 年我们当时是有了 agent 然后今年蓬勃这生长面前 agent 需要爆发我们会有慢慢的会让感知也包括是扣子的成长在这些 agent 成长的背后有一个非常重要的

技术的革新这个革新叫做结构化输出什么叫结构化输出呢比如说我希望让我家灯把它调一半的亮度我给灯说这话这个灯不会理我的它只能接受以什么信息呢就比如说像 JSON 这种指定某某灯灯然后是第 19 号亮度 50%这么一个结构化信息那么 AI 可以充当翻译器在去年的时候

我们 GPT-4 那个版本里面吧叫做 0613 那个版本里面那时候呢官方还没有一个比较标准的一个结构化输出的方法他们有一个叫做放声靠不过也不是很稳定如果它只是通过我们所谓的 POM 技巧的话

我完成这个计划数数我登你给我从 70%到 50%它的成功率是 35.9%很多时候你发现它好像也 work 了那只不过是 AI 在后面多试了几次你总算能试对了嘛一次不成再试一次而直到今年 4 月份的时候这一个成功率变成了 75.3%

而到了今年的 5 月份的时候成功率变成了 86.4%而在最近的版本里面也就是 8 月 6 号更新的时候它带来了一个叫做结构化输出的这么一个标准接口在严格模式下接口的输出质量能够达到 100%就是 100%成功

这个事情就很牛逼了所以说我们看到 8 月 6 号之后我们的很多的 agent 的工具那比如说是 Cursor 的 agent 版本或者是巴格尔侠的版本它才从雨后春笋一样的出现因为它的成功率提高了我们再回到我们上面所说的这几个东西第一是 OEOE 它是一个非常强大且牛逼的思考工具

如果我们只拿它去写文章那无所谓如果你希望让 OE 的这一个生产出来的内容能够作用于你的日常的工作无论是你的机械控制你的那个 IoT 的控制你一定需要一个结构化输出再

这次发布之前在第九天发布之前 OE 是不存在结构化输出的或者说你需要自己再通过一些奇怪的技巧让它结构化输出但是是不稳定的而第九天的时候它支持了标准的结构化输出它支持了这个方生抗那么

它就可以百分之百的将这个高质量的思考用于你的日常设备的这么一个控制同时的在 real-time API 里面这个它是新货的条件而这里面有一个没说的是 real-time API 它也支持了结构化输出这个事情意味着什么呢

O1 它需要思考很久思考半分钟但很多时候我并不需要你思考这么久我要关个灯思考这么久干嘛呀我希望我这边说了你那边就关灯了那么 Realtime API 我们实测的话它的延迟是低于 300 毫秒的也就是说我和 AI 说了这件事 0.3 秒以内我的灯就关了它里面也支持了这个结构化输出

这是第一点变化第二点变化的话是优质店每天每小时的消耗是 50 美金 50 美金意味着什么如果要把产品划的话我必须要找到一个每小时能帮我赚 200 美金以上的场景我的天哪每小时赚 200 美金以上的一个线上场景而且只能通过语音聊天

反正我是不太能想到这个场景在哪而这个里面的话在 Rotem API 里面它新的去蒸馏出来了一个 mini 的模型它的成本在每小时 5 美金虽然每小时 200 美金的产品我找不到但每小时 20 美金的场景是有的比如说给海外的这些学生去辅导功课去接待他们的电话的一个 on call 也就是因为此

Utimes API 具备了可商业实践的可能性第三的话呢它发布了这么一个 SDK 其实并不是所有的那个同学都很擅长去玩语音的

那一套模型的而且尤其是在这一套模型里面它是用的那个 websocket 并不是很多人会说的那在新的发布了 sdk 之后你可以直接的去调它的这么一个模型了并且这里面也支持了可能很多人熟悉的这个 webrtc 的这么一套

这使得 Real-time API 能够被很多人去商用了但这个里面隐藏这一件事他没说以前我们叫做端到端的模型语音到语音中间不过文字而这次的更新

它带来了一个叫做多端到多端的模型怎么理解呢它的输入包括你的文件信息文字信息语音信息视频的最多模态的信息你可以同时输入给它而同时输出的包括文字包括方声靠包括语音并且这里面有一个很好玩的事它输出的文字

和他输出的语音是有关联但不一定一样的我再重复一遍他输出的这一个信息他的文字信息和他的语音信息

是非常的有关联性但不一定一样的也就是说它并不是一个顺序的构建而是同步的构建而这里面的话还可以同时的去输出它的 function call 的信息这使得在一些教学场景比如说我现在问 AI 一个问题你给我讲一下为什么三个和尚没水喝

他可以同时输出三件事第一他可以把三个和尚没水喝的这个动画画出来然后有一个鼠标使者某和尚跟我说这是大和尚他不想挑水想让小和尚挑再是把鼠标移到小和尚说这是小和尚他不想挑水想让大和尚挑然后下面同时的去说这个故事的背景

使得这样的一种程序构建成为可能而在第九天之前这一套东西是不可能出现的

这些东西的话呢其实他并没有在发布上说但是如果你去仔细的去读他的文档的话就会发现这才是第九天发布的核心在我们回顾这十二天的内容的时候也有一个提醒就是大家知道 OpenAI 很会做营销所以呢这十二天的内容很多是为营销而发布的它不一定代表着最主要的技术进步和最关键的实力然后另一方面呢就是 OpenAI 也在一个激烈竞争的环境里面所以它的发布有一些

可能也不是他最牛逼的东西他会做一些隐藏他甚至通过这 12 天的发布来去影响竞争对手的一些思考和节奏吧所以大家除了看这 12 天的发布内容本身之外也可以多去看一看他们背后的一些没有发布的东西说不定也能挖掘出一些有价值的一些洞察出来

而另外的一个发布的话呢叫做偏好微调什么叫偏好微调就是我可以让 AI 去输出什么我喜欢吃什么让它去写第二种的话是对于 OT 的这个强化不说了

而偏好微调是可以一个更进阶的我不仅可以告诉 AI 我喜欢什么也可以告诉 AI 我不喜欢什么对它是有点像是黑名单和白名单我就不需要去给他挨个的在提示词里面去说你不能这样你不能入里拔缩的你不能够去说各种冗余的话你不能够使用怎样的语言我直接把它微调进去就行了

这样的话使它的稳定性能够获得一个提升然后这几个事情同时作用下来它其实奠定了接下来一年我们认为的那一套 Agent 的爆发的可能性对所以其实在 2025 年啊

我觉得还是蛮值得期待的在各行各业应该都能看到各种 agent 可以更好的落地了之前很多落不了地还是这个最后实现出来的就是效果不够好嘛取代不了足够多的人工那现在第九天虽然是一个低调的发布但是被大聪明这么一解读发现他的这个对整个应用生态的这个价值是很巨大的这里还有一个好玩的事就是之前如果再没有这个呃

叫做结果化输出之前在对的之前我们所有的和 AI 的交互我们看到所有的 agent 都是一个 chatbot 我们看到真的都是 chatbot 然后你可能说他干了很多事但最终还是一个两三方给到你但是如果他有了防身靠再结合你的各种各样的 IoT 或者是各种各样的其他的东西

它使得和线下失败使得和我们的商业世界可以非常激烈的关联第九天其实是非常硬核的一天我们聊完第九天就到了第十天第十天又变成了非常

好玩的一天你可以这个给 CHIGBT 真的打电话了他发布了一个 800 的电话你可以和 CHIGBT 通话但是呢他又指这个 Costoso 的给了 15 分钟的时间就感觉你这个稍微聊一聊感受一下吧感受一下未来是什么样子但是时间有限那我们跳到第 11 天那第 11 天呢其实发布的是一个已经上线有段时间的功能并不是新功能就是 CHIGBT 的桌面版

可以读到别的应用的屏幕然后根据它读到的屏幕的内容来给用户一些交互这个我还没用因为由于大陆用户用这个车的机器的问题

所以客户都一直尽量避免使用对但其实能看到说它因为我有一个疑问就是我没用啊就是我不知道它是读的评还是读的内容就比如说如果你选择的是一个比如说 Xcode 或者是 VScode 的

他读到的是这个 VS Code 的窗口里的所有内容还是说只是我滑到的屏幕这块内容就这两个意义我觉得是不一样的我理解他应该是可以读到内容的他读的信息有三层第一的话是截屏他肯定能读到的第二的话是他能够读到这个软件里面的内容可以直接读

第三个的话呢在读这个过程中它会额外的强调你滑线或者是鼠标选中的地方以及它有上下文了嘛就你选中的这个部分的上下文它全部都知道了对然后你把鼠标悬浮在 ChatGPT 的 Mac 版的客户端的横幅上在这个过程中你可以看到你选

呃发送给 Chad 这部电视哪些东西那就比如说我现在在写一代码然后同时我选中一部分然后呢你他在思考过程中你把鼠标旋不过去就会看到他发送了 Xcode 的里面的某一个文件的信息同时他也会重点的去标注哪些信息需要你去更用心的去读这个在去查这个呃

防病情形是可以查到的最后啊就到了第 12 天 12 天也是我们开篇聊的第一部分就欧三的这个震撼发布然后刚才已经聊过了好那我们 12 天的内容全部过完之后最值得期待的看上去有两个一个是欧三的发布而欧三现在其实大家还只能内测

可以去申请但申请的概率应该不是很高然后应该还有一个这个预测是明年 1 月份 maybe 大家可以用到一个缩水版的欧三的 mini

然后这是第一个重点值得关注的第二个重点值得关注的就是发布的一系列针对开发者的 API 这个对于应用对于 agent 的繁荣有可能大家想象不到的重大意义然后各种工程师创业者可以特别去关注一下这里面带来的新的机会

好然后我们现在这个聊了 12 天下来之后哈想再问一下二位啊就是在这次发布会上还有哪些值得一提的或者说都没有被多数人注意到的一些小细节你们能想到一些吗有一两个挺好玩的事第一个是呃

他每一次发布会的时候比如说第一天他桌子上会摆桌子上或者后面架子上会摆一个玩偶第二天会摆两个然后最后一天会摆 12 个这是挺有趣的一个恶趣玩而第二的话是他每一次发布的时候他都会额外的去 leak 你一些信息那就比如说是多少天之后 AGI 来临但这些信息我觉得更像是留给你一个悬念让你猜

也好像是给这个媒体留一些标题对 也就是说是 OpenAI 在这种去通过 leak 的方式去搞传播热点还是蛮有趣的我就额外给你点信息我不知道你知道什么你自己去猜吧

我故意给你留出一点好像是内部文件的东西我其实觉得有一个值得关注的小细节就是华人在 OpenAI 内部的这种重要性然后包括 O3 发布的时候其实有一位新出场的一位华人叫任红雨之前是北大的校友然后之前传闻说 O1mini 这里面有三位主要的华人在负责除了任红雨还有 Kevin 和嘉惠张师傅你有什么

注意到的一些细节的补充吗华人这个事情确实是就是这 12 天整个的我觉得华人的比例甚至反倒比白人或者其他其他那个族裔的人的比例都要加起来都要高

这个确实是 OpenAI 现在一个非常大的变化然后另外的话昨天看到有个人问了个问题就是为什么印度人在这里边就是在 AI 领域没有那么多好有趣的东茶为什么没有印度人就是说不是说多少是没有这几段时间我在新加坡那边参加 OpenAI 的新下活动然后现场也是见了就是发布会上的那个 Mark 然后我见了很多的 OpenAI 的新老朋友

在这里面我和一些人聊就提到一个问题就是提到谁可能会是 OpenAI 的这么一个有力的竞争者我本来以为是 Cloud 大家都国内都说 Cloud 击败了 OpenAI 然后我得到了一个不太是我答案的一个答案我说什么是谷歌但这也不代表是 OpenAI 的观点是谷歌为什么

首先两点第一每一个模型都有它的生命周期你能不能在模型的生命周期半年到一年之内把这个训练模型的成本收回来这是一个非常大的问题收回来成本什么的有足够大量的客户来买单

我们看到了谷歌它有自己的办公的一个全家头有自己的非常集成到位的这么一个生态环境它是不筹卖的而 Cloud 它目前是绑定的云马讯云但云马讯云它更多的是基于云的服务而并不能够很快的去铺开

所以说 Cloud 并不一定如果是真的跟我们划起来并不一定能够及时的收回成本谷歌是可以的 OpenAI 应该也是可以的其实这里让我想到确实不同的观点在这个时候会碰撞就广密在最近一次

被问到说 7 家巨头最看好谁的时候他提到的是亚马逊因为他认为这个 Anthropic 和亚马逊之间的合作是非常健康的而在亚马逊的财报里面也能够看到这个 AI 带过去的收入是百分之百的增长那基于 Anthropic 再加上 AWS 的云服务它形成了一个这个协同作用所以在未来亚马逊的实力也是非常可期的

我觉得整个聊下来感觉还是 2025 年会有挺多风云变幻的会有很多让人感到兴奋的事情会发生的因为我们这一期是今年可能就最后一期了然后也特别想问二位在 2024 的年底再回顾这一年你们印象最深刻的 AI 领域的一个技术突破或者产品突破是什么

可不可以先请藏师傅来回答这个问题我觉得最重要的两个就是第一个是 Cloud 3.5 的代码能力突破也就是前端代码第二个是 Solar 发布和多摩台叔叔叔一起的这样一个操作感谢 OpenLine 当时在 Solar 发布的时候放了那么多比较详细的

再过细节出来让我们看到路径才促成了后面一系列的不管是图片模型我们有 Flex 对吧或者说我们有更多的这种海罗 Romeo 克林这些视频模型更好的视频模型让我们可以用对另外的话就是多么太输出的这个东西让

整个的视频音频或者更多模态内容生产在 A 层的层面变成了一个可能就这两个事情结合起来我们明年能看到更多的自动化的

内容生成 AI 产品一直都受限于工具属性无法构建壁垒无法构建让更多的普通人用上那么在明年可能这个东西会带来一个比较大的变化就是说我们在内容生产上会让更多的普通人感受到享受到更多的 AI 生产的针对他自己的内容对 Cloud 的话就是另外一个第二个代码能力代码能力的话尤其是 Telman 代码能力的话它是一个突破性的进展比如说我们刚才说的 Cursor 或者说 Divine 为什么它

10 月份之后 OK 了一个就是刚才大同比说的 Agent 就是结构化输出这样的能力另外的话就是 Cloud 3.5 它的代码能力在比如说在 SWE 这种指标上真正变得可用了才会变得 OK 对

然后我一个感触是我的朋友就是他是一个设计师就是完全不懂开发的设计师我那天跟他展示了一个就是 Bot.6 这个工具他以前根本不敢碰这些开发这些东西他觉得不可能学不会但是那天我第二天我给他展示之后我在找他的时候他给我展示了一个应用他在学粤语他用 Bot 写了一个普通话转粤语的工具那工具做得很好就是他把想到的一些都写上去了

然后他是完全真的完全没有开玩笑他都怕这个东西就是这个东西带来的带给普通人或者带给有创造力的人的变化是非常大的每年我们会看到更多的这种案例比如今年我们有对吧小猫补光灯有花生的对吧还有一些其他的比如说赵春祥对吧可能每年会看到更多这种案例他完全解放了一个人的创意很棒其实 2024 年即将过去看过去一年是有的人觉得 AI 进步是惊人的

或者 Wecraft 等等新的工具

我相信大家是能够感受到 AI 在过去一年的巨大的进步的那在十字路口其实我们一直有一个关键词叫做 AI 时代的积极行动者那这个积极行动有一个很重要的呃

行动的指标就是去积极的试用各种新的工具所以真的在这里还蛮推荐大家去花点时间试一试这些新的工具感受一下扑面而来的这种进步然后说到 2024 年让人印象深刻的 AI 突破其实我自己是认为是年底用到的 Devin 然后他让我看到了一个说了很久的 agent 到底应该长成什么样子第一次觉得 AI 变成了一个真正的像

像同事一样的一个 agent 而且是一个智商情商向上管理能力项目规划能力方方面面都很强的 agent 所以我自己也很期待在明年看到不只在 AI coding 编程领域

agent 的不断的进步也希望看到就是类似的 agent 的交互方式可以放话到各种各样的领域然后其实大聪明也有提到就是在 agent 的进步的背后是 function code 成功率的提高对然后也想问大聪明 2024 年最让你印象深刻的 AI 的突破是什么

我个人的视角可能是更偏向于项目方所以说每当拿到一个新的 AI 的产品之后无论是 Cursor 还是保存牛啊之类的我就会想这个里面是调用了哪些 API 然后是怎样的串行或者并行的去调用的然后把这个东西给解构出来然后最终在汤上里怎样的壳其实我们看见各种各样的非常 fancy 的 AI 应用都可以把它拆解成

几个 OpenAI API 的组合方式这是一定的那么这个时候当我们去看到我们明年或者接下来几个月会有哪些新的玩法的时候有一个非常 tricky 的做法是每个星期去过一下 OpenAI API 的变化和里面的变更

就比如说刚刚提到的 Function Call 从 30%的成功率变成了 100%的成功率那在这一个机遇下它能够带来哪些的变化我个人有习惯就像刚刚提到的我每个星期都会通刷一篇文档那这个过程中我自己总结一下就是今年

基本上 OpenAI 的各种的 API 的变化或者是产生的应用都是围绕着一个词结构化输出怎么这么说呢是在去年年初的时候三月份的时候它 OpenAI 是发布了第一版的结构化输出的方案并不是以 API 的方式给到的而是以一个内测的方式你给

OpenAI 一个 YAML 文件在某些调用的情况下它可以给你一个结构化的一个 JSON 然后直到去年 6 月份的时候 OpenAI 发现了 agent 这么一个可落地的场景去找了很多做 agent 开发的朋友然后同时也表示会进一步的去迭代这个结构化输出的方案

在去年 11 月 6 号的时候 OpenAI 比较悄悄的是低调的发布了一个模式叫做 JSON Mode 这个时候预示着结构化输出成为一个主流的一个重头戏而在今年的时候我们会发现无论是实时交互的 API 多步思考的 API 和等等

等等的这么一个 API 它其中都会去围绕着结构化输出的成长而每一个产品最终落地的时候都预示着都是对应着这一版结构化输出到达了一个新的规范

而在现在的一个新的一个范式里面就是结构化输出将同时的从你给我一个信息我给你一个这档文件变成你给我一堆信息我同时给你一堆的这档文件让你同时有多个手去操作不同的事情而每一件事情的操作的成长率都从 30%变成了 100%使得 AI 可以去 handle 一个足够大足够复杂的交互

在我看来于是 2024 年最令我印象深刻的突破就是结构化输出从一个 tricky 的玩具变成了一个真实的能够影响现实世界的能够影响我们的开发者生态的项目生态的一个非常核心的因素但这个因素是隐藏在背后的并不为大家所见

我们聊完了 OpenAI 这 12 天的发布会然后也不得不提了就是在这 12 天期间 Google 也放了大招发了 Gemini 的 2.0 然后我自己用下来是感到挺震撼的不管是它的这个 flash thinking 的

这一个版本的模型的这种回馈的质量然后包括他把他整个这个思考的过程也暴露出来就思考的过程暴露出来的文本甚至超过了他吐出来的这个答案的文本量就你可以看到他是

多么聪明的一个智能体在认真的对待和认真的拆解你的每一个问题一步一步的思考给答案而且这个速度很快的就是差不多也是几秒内就可以给到答案这个比 O1 当时发的时候可快多了然后同时还有它的多么探也感受这个很丝滑很流畅然后想问一下二位我们在看到这个 2.0 的时候当时用下来有些什么样的感受或者有没有一些可以和大家分享的一些信息资讯等等

我核心的感受就是它的多模特输出刚才其实大腾说了 Oklahoma 也有但是 Oklahoma 其实没有一个地方可以让用户感受到它这个结果但是

但是这边的那个视频理解真的是独一份的巧视频理解它如果我那天试了一个就是说给它一个 20 分钟视频那个视频是没有那个字幕的让它去转录这个视频然后根据视频的内容去给我整理成一个文章就它整个模型一下就给我把整个的这个整理出来了而且会认出结果直接一步输出这个很厉害另外就是比如说我之前参考海鲜那个做了一个

就是说给他一个一分钟的一个 AI 做的一个视频就是多段 AI 做视频其实是 AI 创作者做的视频他有多个分镜那一分钟可能有十几个分镜吧然后他给我输出每一个分镜的开始时间结束时间然后给我输出每一个视频分镜视频的具体内容那这个时候我可以快速的把那个视频复刻出来就是基于我们刚才说的很成熟的这个 DLT 视频模型就是他俩一结合的话我几乎可以复刻任何一个视频

对就是一步到位给他视频点击确定把这次是扔到视频生成模型里直接自动剪辑自动输出

配音如果它有原生的语音模型也可以用它直接出这个也是很厉害的这个是代表一个在内容生产或者在视频内容生产上一个飞跃的效率进步其实今天这一期聊到这里我还蛮开心的就觉得对 2025 的期待值是蹭蹭蹭的往上涨就感觉得到了非常多积极的信念感相信 2025 会发生很多了不起的新的事情

然后也感谢二位吧今天我们先聊到这我觉得你们输出了非常多很独特的洞察看到了我们只看新闻发布会的这个新闻通稿本身看不到的背后的一些细节和观点和对未来的影响然后谢谢二位我们一起期待 2025 也欢迎 2025 你们再多来做客几次十字路口

如果你认为有朋友也会喜欢本期十字路口的内容请转发微信推荐给他们最后欢迎你加入十字路口的会员群我们会在群里每天放送 AI 全球新闻并且鼓励大家在群里聊天互动交朋友寻找未来的同路人

We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Export Podcast Subscriptions