cover of episode E367. DeepSeek有新发现 | 谷歌Veo 3、百度布局等新动态

E367. DeepSeek有新发现 | 谷歌Veo 3、百度布局等新动态

2025/5/21
logo of podcast 创新灯塔

创新灯塔

AI Deep Dive AI Chapters Transcript
People
西
西娅
Topics
西娅:最近DeepSeek R1大火,我发现AI的推理能力虽然增强了,但是对于提示词的遵循能力却变差了。我在写DeepSeek攻略的时候就深有体会。一篇论文指出,使用KeyAlt推理后,大多数模型的执行准确率反而下降,原因是模型对于任务关键限制的注意力降低了。论文还提出了四种提升指令遵循效果的方案,其中Classifier Selected Reasoning最有效,但是成本也比较高。我认为,真正强大的智能应该懂得聚焦,有思考的分寸感。

Deep Dive

Chapters
The DeepSeek R1 model showed improved AI reasoning but suffered from decreased instruction-following accuracy. A Harvard, Amazon, and NYU study explored this trade-off, identifying a decline in attention to crucial task constraints after using key-word reasoning. Solutions for improving instruction-following were proposed, emphasizing the importance of focused, mindful intelligence.
  • Improved AI reasoning capabilities of DeepSeek R1 came at the cost of reduced instruction-following accuracy.
  • Study found that post key-word reasoning, the model's attention to crucial task constraints decreased.
  • Four solutions proposed to improve instruction-following, with Classifier Selected Reasoning being the most effective but costly.

Shownotes Transcript

Hello 你好呀 欢迎收听创新灯塔这是一档给你带来每日全球科技资讯的节目我是西娅 每天都会为你解读科技和商业动态今天是 2025 年 5 月 22 号 星期四让我们开始吧今天的节目将探讨 Deep Security 大火后 AI 推理能力变强但提示词遵循能力变差的现象该如何看待 When thinking fails, that bit falls off, brain 生生

博鳳論文指出的模型準確率下降等問題又該如何解決?谷歌發布的 VO3 在 AI 視頻領域帶來重大突破請能否進一步突破限制走向更廣泛應用百度強化多模態大模型開展數字人直播帶貨等舉措成效會如何?01 萬物高管頻繁離職他能否穩定團隊繼續前行?

接下来让我们来解锁这些商业科技动态吧今年 Deep Sea Core 一火了后大家觉得 AI 推理能力强执行任务应更聪明但也有副作用比如提示词遵循能力变差作者写 Deep Sea 攻略文时就有此感常用模型也因此有了改变后来看到一篇论文 When Thinking FailsStep It Falls Off ReactionFollowing GimsFollowing Gims

论文 When thinking fails, that bit falls off for instance.

Following, when thinking fails 其研究團隊來自 Harvard, Amazon 和 NYU 他們做了兩組測試, IFevo 和 ComplexBench 測了 15 個模型結果驚人,絕大多數模型用 KeyAlt 推理後執行準確率下降他們還找出原因,引入約束注意力概念發現用 KeyAlt 後模型對任務關鍵限制的注意力下降

此外还测了思考长度与准确率关系发现无显著相关性最后论文给出四种提升指令遵循效果的方案其中 Classifier Selected Reasoning 最有效但成本高作者还由此谈及对智能的思考认为真正强大的智能应懂得聚焦有思考的分寸感

2023 年 AI 视频曾有出圈片段但存在不足如只会动不会说话等如今谷歌正式发布 Vale 3 带来重大突破它不仅能生成高质量视频还可理解原始像素自动生成与画面同步的对话多种音效实现画面对白、纯动对齐你音效一气呵成

比如按 90 年代酒吧裡的情景、喜劇場景等提示詞就能生成相應有聲有色的飾品儘管凌晨發布 VO3 也在社交網絡掀起熱潮它還能精準捕捉畫面情緒渲染氛圍音效對口型表現也突出在多方面能力出色其關鍵能力離不開 D-Mint 的 DRA 底層技術

不過目前視頻僅 8 秒且僅面向美國 Ultra 訂閱用戶開放定價 249.99 美元每月但初次亮相已足夠震撼 AI 視頻正邁向視聽一體新階段百度此前在多模態大模型佈局上叫晚且存在誤判如今正強化微星大模型的多模態理解能力

在百度 AI Day 上,副总裁吴田介绍了文心大模型 4.5 Turbo 和深度思考模型 Xe Turbo 的创新点,如通过多种技术提升跨模态学习效率等。

文星大模型 4.5 系列有诸多优势 4.5 Turbo 速度更快且价格大幅下降此前李恩宏因幻觉问题为社族视频生成模型而如今百度积极布局多模态大模型还对开币源、降价等问题进行了纠偏

此外,百度认为 AI 数字人是突破性应用,其研制的相关技术已支持超 10 万数字人主播,且将与罗永浩合作开启数字人直播带货,带货成绩有待观望。英伟达 CEO 黄仁勋在 Computex 2025 及与国外科技博客 Stratacare 的对话中表达诸多观点。

他提到四年前英伟达在中国市场份额达 95%如今只剩 50%其余被中国技术公司抢占他谴责美国把全球 AI 发展变成围堵游戏认为限制英伟达进入中国市场或促使中国发展替代技术如禁止中国用 H20 芯片切断其 AI 能力的想法很无知这还使英伟达面临库存损失等代价且 CUDA 平台也有被替代风险

此外,黃仁勳還稱英偉達是基礎設施企業認為巨生機器人未來幾年會落地以極為主體的機器人系統可能擴大全球 GDP 雖會有崗位變化,但能創造新崗位同時,在 AI 工廠相關方面英偉達推出 Dynamo 系統以優化數據中心讓 Token 生成更高效

号称大模型六小龙的零一万物近期高管变动频繁先是联合创始人谷雪梅近期离职筹备创业公司大方承认本月初联合创始人技术副总裁戴宗宏也离职创业往前细数李先刚黄文浩等关键角色也曾离开

零一万物自 2023 年 5 月成立截至 2025 年 5 月 20 日还有潘兴、曹大鹏等高管及核心团队成员相继离开这或与公司战略调整有关其从追求大参数模型转向聚焦小参数

行业特定模型还进行业务拆分等改革这使部分高管因职业冲击业务范围变化等选择离开高管频繁离职对公司影响深远灵异万物能否稳定团队成功渡劫有待观察

你知道历史上的今天都发生过哪些事情吗在 1960 年 5 月 22 日美国食品和药物管理局 FDA 批准了世界上第一种口服避孕药这标志着避孕技术的一次重大突破为女性提供了更多的生育控制选择这一发明极大地影响了社会和文化促进了性别平等和女性权益的进步

1990 年 5 月 22 日微软公司发布了 Windows 3.0 操作系统这一版本的 Windows 引入了图形用户界面和多任务处理能力极大的提高了个人计算机的易用性和功能性为后来的个人电脑革命奠定了基础 2003 年 5 月 22 日中国成功发射了第一颗北斗导航卫星

这是中国自主研发的卫星导航系统标志着中国在航天技术领域取得了重要进展为全球用户提供了更多的导航选择

2010 年 5 月 22 日苹果公司发布了 iPhone4 这款手机以其革命性的视网膜显示屏 Facetiming 通话功能和全新的工业设计重新定义了智能手机引领了智能手机行业的新潮流 2012 年 5 月 22 日 SpaceX 的猎鹰 9 号火箭成功发射并返回地球这是人类历史上首次由私人公司完成的火箭发射和回收任务

这一成就标志着商业航天领域的重大突破为未来的太空探索和利用开辟了新的可能性这些事件不仅展示了科技和创新的力量也为我们提供了对未来的无限想象和期待好了以上就是本期的所有内容感谢你的收听祝你今天过得愉快我们下期见