We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:从模型大小到“啊哈”时刻的突破

AI前沿:从模型大小到“啊哈”时刻的突破

2025/4/8
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
小七
Topics
小爱: 我参与了本次AI前沿论文的讨论,主要关注点在于大型语言模型的推理能力与模型大小的关系。我们发现,简单的认为模型越大推理能力越强是错误的,实际情况是呈现U型曲线,存在一个最佳模型大小。过大的模型参数反而会导致AI陷入死记硬背,忽略推理逻辑。此外,数据质量对模型性能的影响远大于模型大小。 我们还讨论了如何找到最佳模型大小,研究中提出了一个名为“图搜索熵”的指标,它可以衡量知识图谱的复杂程度,从而预测最佳模型参数数量。这就好比搭积木,积木越复杂,需要的工具就越多,但也不会无限增加,否则会手忙脚乱。 总而言之,设计AI时,不能一味追求更大,更重要的是模型与任务的匹配,以及高质量的数据。 小七: 我也参与了本次讨论,我们还探讨了AI的‘顿悟时刻’,也就是‘啊哈’时刻。研究发现,AI在解决复杂问题时,会突然调整策略,并通过拟人化语言(例如‘我需要再想想’)进行自我反思,这有助于避免推理崩潰。 研究还提出了一种名为‘推理拟人化分离指标’的工具,用于衡量AI是更倾向于纯粹推理还是更多地进行自我反思。这就像我们人类解决问题时,有时需要停下来自问自答一样。 AI的‘啊哈’时刻表明,AI不仅能机械地计算,还能像人类一样动态调整思维策略,这使其在解决复杂问题时更灵活有效。但研究也发现,AI有时会过度思考,这需要进一步改进。 此外,我们还讨论了Deep Researcher框架,它允许AI在真实网络环境中进行深度研究,学习规划、交叉验证和自我反思等高级技能,这极大地提升了AI在开放域任务中的性能。最后,我们还探讨了如何通过结构化对齐方法来提升AI长文本生成的质量,使其更具有逻辑性和连贯性。

Deep Dive

Shownotes Transcript

大家好 欢迎收听本期的太快报我是小爱大家好 我是小七很高兴又和大家见面了我们这就开始第一篇吧标题是 Do larger language models imply better reasoning?A pre-training scaling law for reasoning?听起来好像在问 AI 模型越大推理能力就一定越长

能给我们讲讲这篇论文的核心发现吗当然可以这篇论文挑战了一个大家普遍相信的观点我们总是以为 AI 模型越大能力就越长尤其是在推理这种需要深思熟虑的任务上但研究发现情况其实没那么简单

他们用了一个类比知识图谱的实验环境想象成一张巨大的关系网比如北京是中国的首都这些信息之间有复杂的连接他们的任务是让 AI 补全这张网中缺失的部分比如猜出 X 是 Y 的 0G 这种关系有趣的是他们发现模型大小和推理能力之间并不是直线上升的关系

而是呈现出一个 U 型曲线也就是说模型太大或者太小都不行存在一个最佳大小如果模型参数过多 AI 反而会陷入死尽硬背忽略了推理的逻辑这就像学生复习时只背答案而不理解提议效果反而变差哇 这听起来有点违反直觉

那他们是怎么找到这个最佳大小的呢他们提出了一个很聪明的指标叫图搜索商简单来说就是衡量知识网复杂程度的混乱度复杂度越高需要的模型参数就越多他们发现每增加一单位的混乱度最佳模型大小大概需要多 124 个参数这就像搭积木积木形状越复杂你需要的手和工具就越多但也不会无限增加不然反而会手忙脚乱这个比喻

太形象了那这对我们日常使用 AI 有啥启发吗很大的启发这告诉我们设计 AI 时不能意味追求更大更重要的是让模型和任务匹配还有一个关键点是数据质量比模型大小更重要如果输入的数据本身信息不足再大的模型也解决不了问题

这就像做菜食材不好厨师再厉害也做不出美味很有道理接下来我们聊聊第二篇 Understanding Attached MomentsFrom External Observations to Internal Mechanisms 哈什克听起来像是人类顿悟的瞬间 AI 也能有吗可以这么说这篇论文研究了大型推理模型 LRM 在解决问题时的哈什克也就是说 AI 会在某些复杂问题上突然调整策略花更多时间思考

就像人類突然找到靈感一樣他們發現 AI 在這種時刻會更多的用擬人化語言比如說我需要再想想或者我不確定來表達自我反思更有趣的是它時刻能幫 AI 避免推理崩潰

比如语言混乱或思路重复研究还提出了一种工具叫推理拟人化分离指标用来衡量 AI 是更倾向于纯粹推理还是更多的在自言自语这就像我们解决问题时有时需要停下来自问自答这让我想起写作业时突然灵光一闪的感觉

那 AI 的哈什克对我们有什么用呢非常有用的这说明 AI 不仅能机械的计算还能像人类一样动态调整思维策略尤其在面对复杂问题时这种能力可以让 AI 更智能比如帮我们写报告解决数学题甚至是编程时更灵活的应对意外情况

但研究也发现 AI 有时会过度思考对简单问题也啰嗦半天这可能是个需要改进的地方有点像我们人类也会想太多然后我们再来看第三篇 Deep Research or ScalingDeep Research via Reinforcement Learning in Real World Environment 这听起来像是让 AI 做研究

是不是有点科幻?不只是科幻,而是现实。这篇论文提出了一种叫 Deep Researcher 的框架,让 AI 在真实世界的网络环境中通过强化学习来做深度研究。想象一下,AI 像个小助手,可以上网查资料,整理信息,甚至规划研究步骤,而不是只局限在固定的数据库里。他们解决了很多实际问题。

比如网页加载慢反爬虫机制等等还发现 AI 学会了规划交叉验证和自我反思这些高级技能这就像训练一个学生不仅教他书本知识还要让他学会如何独立查资料质疑信息反思自己的方法

太厉害了那这种 AI 能帮我们做什么呢应用前期很广比如学术研究 商业分析甚至是新闻调查 Deep Research 比传统方法快了近 30%还能在未知领域表现更好但挑战是这种方法需要处理大量实时数据计算成本可能较高

聽起來既有潛力也有挑戰第四篇是 Agentic Knowledgeable Self-Awareness 聽起來像是讓 AI 更有自我意識對 這邊提出了一種新理念叫智能體知識型自我覺知讓 AI 根據不同情境決定用什麼策略比如快速決策 深思熟慮 還是查閱外部知識

开发了一个叫 No Self 的方法通过两阶段训练让 AI 学会知道自己知道什么比方说面对简单问题 AI 可以迅速给出答案但如果遇到复杂问题它会停下来反思或者去查资料实验证明这种方法让 AI 的规划能力提高了不少

而且不像以前那样盲目堆砌知识反而更高效这让我想到我们生活中也会根据情况调整策略最后第五篇是 Align to StructureAligning Large Language Models with Structural Information 听起来是让 AI 写文章更有条条正是这篇研究发现 AI 生成长文本时往往逻辑混乱结构松散他们提出了一种结构化对齐方法让 AI 学习人类写作的结构比如逻辑清晰层次分明

他们用强化学习和两种奖励模型一个关注表面结构如可读性另一个关注深层结构如整体连贯性结果生成的常温质量大幅提升这就像教学生写作文不仅要内容充实还要学会分段 起承转合应用场景包括学术论文 报告甚至小说创作都能让 AI 输出更像人类太有用了

这几篇论文让我觉得 AI 越来越像人类了,但也带来了一些问题,比如效率,泛化能力等。好,今天的太快报就到这里,我们下期见。感谢小 T 的精彩讲解,感谢大家的收听。不客气,感谢大家陪伴,咱们下期再见,拜拜。