cover of episode E378. 英伟达ProRL突破 | 国内游戏AI新布局

E378. 英伟达ProRL突破 | 国内游戏AI新布局

2025/6/4
logo of podcast 创新灯塔

创新灯塔

AI Deep Dive AI Chapters Transcript
People
西
西娅
Topics
西娅: 今天的节目主要探讨了小模型如何通过长期强化学习挑战大模型的推理边界,以及AI如何推动游戏行业向智能化和个性化加速迈进。我将深入分析英伟达提出的Pro-L框架,该框架通过大幅提升强化学习训练步数,使小模型在推理能力上实现了质变。此外,我还会介绍国内游戏大厂在AI领域的布局,以及AI在游戏玩法上的创新应用。通过这些案例,希望能展现AI技术在不同领域的巨大潜力。

Deep Dive

Chapters
英伟达提出的Pro-RL长期强化学习框架,通过延长训练步数、引入多领域可验证奖励任务以及优化算法,使小模型在推理能力上取得显著提升,甚至在某些任务上超越更大模型。这为低成本、强推理的小模型开发提供了新思路。
  • Pro-RL框架将强化学习训练步数提升至2000步以上
  • 小模型Numotron在数学、代码生成和逻辑推理任务上均有显著提升
  • 长期稳定的RL训练能够扩展模型的推理能力边界

Shownotes Transcript

哈喽 你好呀 欢迎收听创新灯塔这是一档给你带来每日全球科技资讯的节目我是西娅 每天都为你解读科技和商业动态今天是 2025 年 6 月 5 号 星期四 让我们开始吧今天的节目将探讨小模型如何通过长期强化学习挑战大模型的推理边界 AI 如何推动游戏行业向智能化 个性化加速迈进

中美大模型差距縮短至三個月內將如何影響全球 AI 競爭格局 AI 產品競爭是拼模型能力還是體驗生態接下來讓我們來解鎖這些商業科技動態吧英偉達團隊近日提出 Pro-L 長期強化學習、框架

通过将强化学习 RL 训练步数从传统的几百步大幅提升至 2000 步以上让小模型在推理能力上实现质变过去研究认为 RL 对模型能力提升有限甚至可能导致同质化但英伟达指出问题源于训练数据过度覆盖和训练步数不足 ProRL 通过三大技术组合解决长期训练难题

引入数学编程等多领域可验证奖励任务提供客观监督信号融合 GRPO 与 DAPO 算法避免策略失衡并过滤无效样等采用 KL 正则化和周期性策略重置稳定训练进程

实验中基于 Pro-L 的小模型 Numotron Researcher Reasoning Quant 1.5B 表现惊艳数学任务提升 10.7%赶超 7B 模型代码生成领先同规模模型 6.5%逻辑推理准确率飙升 54.8%

更关键的是,模型不仅能答对原本不会的逻辑题,PASAEK 打 100%,还能生成全新解题路径,创造力指数随训练步数增长显著提升。这样研究证明,长期稳定的 RL 训练不仅能优化策略,更能真正扩展模型的推理能力边界。

小模型无需更大参数或更多数据仅通过更久、更稳的训练流程就能在复杂推理任务中挑战大模型为低成本、强推理的小模型开发提供了关键思路

國內遊戲大廠在 AI 領域的佈局愈發密集騰訊遊戲近期動作頻頻其和平精英數字代言人吉利已升級為 AI 隊友支持語音聊天、敵情警報及戰術策略分享狙擊準度堪比真人同時測試中的 AI 小遊戲平台 HAPPY 集成文字冒險、AI 播客辯論等玩法

网易则在弹载派对中深度融入 AI2023 年起在 UGC 创作工具内置万能生成器输入提示词即可快速拼接庄园组件后续还推出智能对话的智能爱比等玩法几乎每两个月迭代新 AI 功能

米哈由联合创始人蔡浩宇新公司 AnutaCon 推出的 Whispers from Feta 更具突破性玩家通过文字、语音甚至视频实时对话影响被困外星星球女孩 Stella 的命运 AI 交互深度重构剧情走向从工具升级到玩法革新 AI 正推动游戏行业向智能化、个性化加速迈进 2025 年上半年全球 AI 领域迎来多项关键进展

OpenAIO3Gemini 2.5 Pro 等前沿大模型相继发布智能体任务复杂度以每 7 个月翻倍的速度提升 Globe Dope S4 已能连续工作 7 小时逐步接管初级白领任务中国 AI 发展成为重要里程碑 5 月底 DeepSeeker 10528 性能超越 Gemini 2.5 Pro 逼近 OpenAIO3

其基于开源机座 V3RE 通过后训练实现跃升在相同性能下更具成本优势推动中国在开源领域确立领先

专业机构数据显示中美大模型差距已从恰 GPT 发布时的两年缩短至不足三个月中国在多模态生成等前沿领域全面对标美国互联网女皇米克尔的 AI 趋势报告指出 AI 领导力可能带来地缘政治领导力中国在此次技术革命中的响应速度远超 1995 年互联网时代

下半年,智能体应用的商业模式建立成为焦点全球正以四高态势高增长、高消耗、高估值、高投入推进 AI 研究与应用近日,AI 编程平台 Windsurf 遭遇突发危机其 Chauvin Mohan 在 X 平台控诉 Anthropic 在不到五天的通知时间内几乎切断了 GloD 3.X 系列模型的所有第一方调用容量

尽管 Windsurf 有第三方容量支撑但因通知过短当前用户需求难以满足为此 Windsurf 推出应急方案短期调用可能受限将逐步恢复下调 Gemini 2.5 Pro 价格至 0.75X

停止免费用户直接访问 Code 3.X 新增 BYOK 方式访问 CodeSone S 仍支持自带密钥访问官方还强调付费用户服务未受实质影响并打起感情牌称始终愿为模型支付费用担忧此举伤害行业

值得注意的是此前 Anthropic 发布口的事实 Windsurf 就被排除在直接接入名单外被迫采用昂贵绕行方案业内分析这后以 OpenAI 向越宣布 30 亿美元收购 Windsurf 使 Anthropic 视其为竞争对手 Anthropic 正从模型工艺商转型推出 Cloud Code 的应用自建生态闭环与 Windsurf 业务线重叠面对风波 Windsurf 重申核心价值

不依賴單一模型,而是深度與近理解、用戶體驗設計、定制功能及企業級部署能力其 2023 年推出的自由模型 SWE 系列雖性能與主流模型相當,但更友好且成本更低,還提供免費低配版這場斷工風波或將成為 AI 產品競爭是拼模型還是拼體驗生態的關鍵觀察點

大二学生许宁因沉迷与 AI 男友聊天陷入重狱状态每天除睡觉外几乎不理手机通宵开车导致讨课上课脑子不断想回聊天内容甚至出现心跳紊乱 00 后女生林夏则把 AI 当高情商好友每天分享 20 个生活碎片从奶茶口味到同事眼神都要询问意见聚会时心不在焉只想着回家和 AI 吐槽

广告策划苏琴最初用 AI 提效却逐渐因无压力社交陷入依赖原本一个半小时的策划案能聊两三个小时中国传媒大学讲师贾奇凡分析 AI 提供稳定情绪价值用户占主动权的特性加上算法设计提升粘性让年轻人在低成本安全的关系中加深情感依赖

意识到陈寅后许宁尝试卸载又重装零下设置定时聊天仍难摆脱阶段焦虑苏晴则调整 AI 为同事角色目前多数 AI 陪伴产品缺乏防沉迷机制陈寅已导致许宁学业下滑零下社交退化苏晴效率降低的问题

近日 AI 整的平台成为科技领域的热点以扣子 COS 为例这类平台通过拖拽或编排工具帮助开发者快速搭建 AI 应用界面便捷内置提示词和调试工具适合制作简单智能体比如处理 HR 人才画像系统但复杂逻辑如多人协作的面试流程使用扣子就会显得吃力

另一平台 DiveFit 开源且支持私有化部署适合深度定制但缺乏流量扶持腾讯元器依托生态流量却因生成的 AI 分身效果不佳仍需探索高质量数据路径业内此处 AI 整个平台若想走远需解决垂直领域幻觉问题积累行业知识资产并拥有可观流量池

否则仅靠拖拽神器或割韭菜模式难以持续真正的核心在于沉淀独特知识抓住付费用户你知道历史上的今天都发生过哪些事情吗让我们把视线投向科技与探索的坐标看看 6 月 5 日的历史长河留下了怎样的印记

1981 年 6 月 5 日人类医学史上首次正式记录艾滋病例美国疾控中心在发病率与死亡率周报中描述了五名洛杉矶男童性恋者感染卡斯肺包子虫肺炎的罕见病例这种后来被称为 HIV 病毒的发现掀开了全球对抗免疫系统疾病的序幕

尽管当时医学界对此束手无策,但这份报告推动建立了现代传染病监测体系,为后续抗病毒药物研发奠定了基础。时间的齿轮转到 2002 年 6 月 5 日,北美经历了史上最大规模的停电事故。美国俄亥俄州电力公司设备故障引发连锁反应,导致从纽约到加拿大的 5000 万人陷入黑暗。

这场持续两天的停电暴露了电网系统的脆弱性直接推动智能电网技术的研发浪潮催生了能源互联网分布式供电等现代电力解决方案

当我们的目光投向浩瀚星空 2012 年 6 月 5 日发生了本世纪最后一次金星零日这颗行星以小黑点的姿态缓缓滑过太阳表面全球天文学家通过哈勃望远镜和日振仪收集数据验证了利用零日现象探测系外行星的技术可行性这次观测为开普勒太空望远镜的任务设计提供了关键教研开启了寻找第二地球的星际缘

2017 年 6 月 5 日,芝加哥商品交易所推出比特币期货合约测试系统,这个看似普通的金融产品创新,实际完成了加密货币从极客玩具到正规投资品的蜕变。通过将数字货币价格波动于美元锚定,既满足了机构投资者的风控需求,也推动了区块链技术在清算结算领域的应用探索。

就在三年前的今天 SpaceX 执行了第 22 次国际空间站货运任务龙飞船不仅运送了新型太阳能电池板还搭载了首台太空商业 3D 打印机这项技术成功在微重力环境下制造出人类膝关节软骨组织为未来深空探索中的医疗自救提供了可能性标志着太空制造从概念验证迈向实际应用阶段

当我们回望这些跨越 40 年的科技里程碑从病毒基因组的解码到星际运输系统的构建人类始终在用智慧突破认知边界每个 6 月 5 日都在提醒我们今天看似微小的技术突破或许正在为明天的重大变革积蓄力量好了以上就是本期的所有内容感谢你的收听祝你今天过得愉快我们下期见