We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 不止是强大,更是聪明:AI如何学会思考、复盘与好奇?

不止是强大,更是聪明:AI如何学会思考、复盘与好奇?

2025/7/3
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
晨光
Topics
晨光:我认为AI模型存在偏科现象,就像某些学生数学很好但在其他方面表现平平。研究表明,通过题海战术(监督式微调)训练AI数学能力,可能会导致其在通用能力上出现灾难性遗忘,使其思维模式变得过于数学化,从而影响处理非数学问题的能力。然而,通过强化学习训练AI,就像一个甩手掌柜式的老师,让AI在试错中反思和改进,不仅能提升数学能力,还能保留甚至提升原有的通用能力。这种方法更像是在AI原有的知识体系上精准地安装了一个推理模块,而没有破坏其他部分的功能。因此,我认为我们应该追求理解事物底层的规律和原则,而非快速掌握特定问题的标准答案,培养能举一反三的思考者,而不仅仅是只会应付考试的机器。

Deep Dive

Chapters
本部分探討AI模型的偏科现象,并以论文“数学推理能否提升通用大语言模型能力?理解大语言模型推理的可迁移性”为例,分析了两种不同的AI训练方法(监督式微调和强化学习)对AI模型能力的影响。研究发现,强化学习方法能更好地提升AI的通用能力,避免灾难性遗忘。
  • 监督式微调可能导致AI模型出现偏科现象,在特定领域能力提升的同时,通用能力下降
  • 强化学习能更好地提升AI的通用能力,避免灾难性遗忘
  • 知其然并求其所以然的方式可能才是通往真正通用能力的道路

Shownotes Transcript

00:01:19 AI的“偏科”难题:学好数理化,走遍天下真的不怕吗?

00:05:08 AI 也会“复盘”?聊聊如何让机器像高手一样思考  

00:09:19 语言的“橡皮泥”:我们如何“捏”出更智能的AI?

00:13:57 AI科学家的新玩法:它不猜答案,专找“意外”  

00:17:42 AI“长篇阅读”的秘密:如何让机器像螺旋一样思考?

本期介绍的五篇论文:

[LG] Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning  

[CMU & University of Washington & M-A-P]  

https://arxiv.org/abs/2507.00432 


[LG] ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context  

[AI at Meta]  

https://arxiv.org/abs/2507.00417 


[LG] Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows  

[Apple]  

https://arxiv.org/abs/2507.00425 


[LG] Open-ended Scientific Discovery via Bayesian Surprise  

[University of Massachusetts Amherst & Allen Institute for AI]  

https://arxiv.org/abs/2507.00310 


[LG] HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism  

[National University of Singapore]  

https://arxiv.org/abs/2507.00394