We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

#134. 大模型

2025/3/9

牛油果烤面包

AI Deep Dive AI Chapters Transcript

People

Mengdi

斯

斯图亚特

Topics

Mengdi: 我认为大语言模型的核心突破在于规模化的训练数据和计算资源，即"大力出奇迹"。我的研究经历从基础算法到机器学习，再到如今的大模型，始终围绕着算法和效率的提升。ChatGPT出现之前，我一直在研究强化学习，这为我之后转向大模型研究奠定了基础。ChatGPT的出现标志着语言模型能力的突破，它可以处理各种各样的问题。人类的大部分知识都是以语言形式保存的，当语言模型足够强大时，它就能掌握大部分知识。除了语言模型外，视频模型等其他模型也能进行推理，并一定程度上反映人的思维方式。未来AI的发展方向是多模态的，融合语言、视觉等多种信息。语言会影响思维方式，不同语言的表达方式会影响逻辑链的清晰度。模型能够学习到最容易表达的思维流程。动物的思考主要基于视觉信息。ChatGPT的出现使得大语言模型从AI的一个子领域发展成为整个AI领域的主流。ChatGPT的成功在于集中了大量的资源进行模型训练。模型参数量和数据集大小呈线性关系，更大的模型需要更多的数据进行训练。ChatGPT的训练数据包含了互联网上能够获取的大部分信息。ChatGPT通过大规模训练，验证了scaling law，并以此吸引投资。模型参数量通常以G或B为单位表示，B代表十亿。模型参数是指神经网络中神经元之间的连接。模型参数数量与神经元连接数量相关。模型参数数量可以理解为神经元连接的数量。在ChatGPT之后，大模型的创新主要集中在如何扩大模型规模。最初大模型的规模扩大主要体现在预训练阶段。预训练的目标是生成一个基础模型。现在的预训练包含了强化学习和推理等更多内容。早期预训练主要集中在增加数据量和模型参数量。模型参数大小的平方与训练成本成正比。DeepSeek的论文在出圈前就已具备技术上的优势，例如Latent Attention技术。DeepSeek V2版本的Latent Attention技术是其效率提升的关键。DeepSeek注重从机器学习系统的角度提升模型训练和推理效率。DeepSeek和OpenAI在资源和优先级方面存在差异，导致了其技术侧重点不同。DeepSeek由于资源有限，更注重效率提升。业界对DeepSeek的推理能力和资源效率给予了高度评价。OpenAI率先实现了推理能力，DeepSeek则在资源效率方面取得了突破。DeepSeek在推理能力方面打破了OpenAI的垄断。推理能力本质上是强化学习算法。OpenAI率先将推理能力应用于大规模模型。数据收集和标注是推理能力的关键。推理过程类似于解迷宫或下棋，需要一步一步地进行推导。强化学习能够解决一步步解决问题的问题。强化学习可以用于训练模型的推理能力。强化学习训练出来的推理能力既有泛化能力，也有局限性。强化学习通过将简单的知识组合成更复杂的解决问题的方法来实现泛化。强化学习本质上是一个从简单到难的泛化过程。大模型具有泛化能力，能够学习事物之间的关系。大模型能够学习并理解暗号和密语。大模型能够学习事物之间的关联，并利用这种关联来泄露信息。大模型能够将事物之间的关系抽象出来。大模型能够学习事物之间的关系，并进行举一反三。大模型能够进行in-context learning，根据给定的例子进行学习和推理。强化学习训练出来的推理能力既有泛化能力，也有局限性。大模型具有泛化能力，能够学习事物之间的关系。大模型能够学习并理解暗号和密语。大模型能够学习事物之间的关联，并利用这种关联来泄露信息。大模型能够将事物之间的关系抽象出来。大模型能够学习事物之间的关系，并进行举一反三。大模型能够进行in-context learning，根据给定的例子进行学习和推理。蒸馏是一种将大模型的知识转移到小模型的技术。蒸馏可以提高小模型的效率和性能。蒸馏模型的性能会损失一些能力，尤其是在复杂任务上。DeepSeek的推理能力使得一些研究工作变得更好做了。现在一个大趋势就是DeepSeek的推理能力使得一些研究功能就变得更好做了。模型本身未来的发展方向包括多模态、AI Agents以及通用人工智能。推理能力的提升需要更多的数据和更有效的训练方法。通用人工智能需要模型能够理解和分析各种模态的信息，并与真实世界进行交互。AI应用会对各个学科和教育体制产生巨大的影响。想要进入AI的核心圈，需要学习基础知识，并进行实践练习。斯图亚特: 我想知道大语言模型（LLM）出现的时间和Mengdi当时的研究方向。我想知道Mengdi对ChatGPT出现后的科研变化的看法。我希望Mengdi能够解释什么是大语言模型（LLM）。我对大语言模型能够处理各种任务感到困惑。我想了解OpenAI在推理能力方面取得成功的因素。我想知道强化学习训练出来的推理能力是否具有泛化能力。我想了解DeepSeek的出现以及业界对此的看法。 Vindy: Cat:

Deep Dive

Chapters

本段回顾了嘉宾Mengdi从支持向量机到强化学习，再到全情投入大语言模型研究的职业路径。展现了AI领域技术更迭的迅速和研究方向的转变。

Mengdi的博士研究方向为电子工程与计算机科学(EECS)
早期研究集中在算法和随机算法的加速
科研方向逐渐转向AI，最终全情投入大语言模型研究

Shownotes Transcript

本期节目我们请到了大语言模型的专家Mengdi来给我们介绍一些大语言模型是怎么回事，DeepSeek有什么特别之处，以及大语言模型的推理能力等话题。

嘉宾：Mengdi 主播：斯图亚特、Vindy、Cat 策划：斯图亚特剪辑&时间线：季雨清

00:00:59) 从支持向量机到强化学习
00:04:45) All in大模型
00:06:17) 什么是大语言模型
00:09:43) ChatGPT时刻
00:10:20) 为什么被称为语言模型
00:14:16) ChatGPT如何大力出奇迹
00:20:51) ChatGPT时刻后的创新
00:23:19) DeepSeek
00:26:19) 业内怎么看DeepSeek的出圈点
00:28:20) 为什么是OpenAI
00:29:20) 为什么推理依靠强化学习
00:30:35) 推理是否可以泛化
00:39:07) 推理泛化的局限
00:43:34) 推理的未来
00:45:30) 什么是蒸馏
00:52:37) DeepSeek对当前研究的影响
00:56:00) 大模型领域的发展方向
00:58:49) AI Agent
00:59:21) 通用人工智能
01:01:54) 未来科研怎么走
01:05:00) AI应用
01:06:40) 进入AI核心圈需要做什么准备

关于「牛油果烤面包」 「牛油果烤面包」播客入选2020苹果最佳播客，获得年度编辑推荐，聊科技发展趋势，聊各行业来龙去脉。我们坐标硅谷，邀请第一线的资深专家分享给大家听！

欢迎您在每期节目下方给我们留言，和我们的主播互动交流，或是添加微信小助手nygkmb2022，加入微信听友群。如果您对我们的志愿者工作有兴趣，请点击这个链接) 看我们的招募帖；你有什么有趣的话题，想来作牛油果烤面包的嘉宾，或是对节目有任何的意见或建议，欢迎发邮件和我们联系。我们的邮件地址是：[email protected]

图片： Generated by Dall-E

片头片尾音乐： Courante 1st Cello Suite Exzel Music Publishing (freemusicpublicdomain.com) Licensed under Creative Commons: By Attribution 3.0 http://creativecommons.org/licenses/by/3.0/)

#134. 大模型 01:09:30 Share

牛油果烤面包

Deep Dive

Shownotes Transcript

#134. 大模型