cover of episode E257. GPT-4训练需求激增 | AI芯片战场新动态

E257. GPT-4训练需求激增 | AI芯片战场新动态

2025/1/3
logo of podcast 创新灯塔

创新灯塔

AI Deep Dive AI Insights AI Chapters Transcript
People
杨立昆
西
西娅
Topics
西娅: 大型语言模型(LLM)目前距离真正的人工通用智能(AGI)还有很大差距,算法学习效率低下是核心问题。GPT-4 参数量巨大,训练算力需求极高,这反映了当前LLM技术发展的瓶颈。Transformer 的自注意力机制虽然提高了模型的预测能力,但也带来了巨大的计算成本。未来AI发展需要在算法效率和模型能力之间取得平衡。 芯片行业格局正在发生变化,博通等公司试图挑战英伟达的领先地位,中国企业也迎来了发展机遇。定制化AI芯片将成为未来趋势,这将改变AI产业的竞争格局。2025年AI算力市场将发生转变,推理基础设施需求上升,训练好的大模型需要通过AI推理落地到各个场景。一场智能海啸即将到来,对全球生态、业态、技术、产品和企业产生重大影响。DeepSeek公司发布的DeepSeek V3模型以低成本、高效的方式训练了一个大型语言模型,这可能预示着AI模型开发方式的转变,但也存在精度问题。 杨立昆: 目前大型语言模型无法真正理解世界,实现人类级别的智能需要分层规划能力和对物理世界的良好表征。我们需要开发能够学习世界抽象表征的新方法,例如联合嵌入。只有这样,才能构建真正理解世界的AI系统。 杨立昆: 目前大型语言模型无法真正理解世界,实现人类级别的智能需要分层规划能力。真正的世界模型是根据对当前世界状态的想法和可能采取的行动来预测下一时刻的世界状态。目前我们无法使用生成式模型来学习对物理世界的良好表征。联合嵌入是一种新的方法,可以学习世界的抽象表征。

Deep Dive

Key Insights

GPT-4 的参数量和训练需求与 GPT-3 相比有何变化?

GPT-4 的参数量达到 1.8 万亿个,训练算力需求是 GPT-3 的 68 倍。这表明 GPT-4 的训练复杂性和资源需求大幅增加,但目前的 LLM 离真正的 AGI(通用人工智能)仍有很大差距。

芯片行业的新动向是什么?

博通等芯片公司试图成为下一个英伟达,而英伟达则加速为定制芯片业务招兵买马。中国企业在大模型范式转移中赢得后发优势,国产定制 AI 芯片有新道路。尽管美国政府对中国芯片实施限制,但中国与美国在推理硬件上几乎没有差距。

Google 和微软在 AI 领域的最新战略部署是什么?

Google 依靠 Gemini 在人工智能赛道表现优秀,其多款 C 端产品展示了更新。微软则推进 C 端消费者与 AI 产品的接触,将 CorePilot 集成到办公套件中。OpenAI 在 2024 年开始商业化转型。

DeepSeek-V3 模型的开发对 AI 行业意味着什么?

DeepSeek-V3 模型采用 Mode 架构和 MLAFP8 等技术,训练效率提升了 11 倍,仅用 2048 块 H800 显卡耗时两个月训练完成。其成功可能预示着软件创新正在突破硬件限制,并引发大型语言模型开发方式的范式转变。

2025 年 AI 算力市场将发生哪些变化?

2025 年 AI 算力市场将迎来转变,推理基础设施需求上升,训练好的大模型需通过 AI 推理落地各类场景。专注于推理的初创公司如 Groar 和 Positron AI 推出高性能计算芯片,挑战英伟达的主导地位。

英伟达在 AI 芯片领域的竞争态势如何?

英伟达发布 B300 系列提升大模型推理性能,但其通用结构时代正面临颠覆。初创公司如 Groar 和 Positron AI 推出高性能推理芯片,成本仅为英伟达 H100 的五分之一,性能超越英伟达主流 GPU。

AI 行业的创业机会和挑战是什么?

AI 行业仍有机会,适合财力雄厚或追求够用就行的企业。然而,AI 大模型训练成本高,人才、算力、数据是主要难题。DeepSeek-V3 以低成本训练成功,但存在精度问题,实力不足者入场需谨慎。

历史上的 1 月 4 日发生了哪些重要事件?

1917 年 1 月 4 日,蔡元培就任北京大学校长,推动学术自由和思想解放。1951 年 1 月 4 日,中国人民解放军解放西藏拉萨,结束封建农奴制度。1965 年 1 月 4 日,美国宇航员爱德华·怀特进行第一次太空行走。1990 年 1 月 4 日,哈勃太空望远镜发射。2004 年 1 月 4 日,美国火星探测器勇气号成功着陆火星。

Chapters
本段落探讨了GPT-4巨大的参数量(1.8万亿)及其训练算力需求(是GPT-3的68倍),并指出目前的LLM距离真正的AGI还有很大差距,算法的学习效率低下是核心问题。
  • GPT-4参数量达1.8万亿个
  • 训练算力需求是GPT-3的68倍
  • 目前的LLM离真正的AGI还有很大差距
  • 算法学习效率低下是本质问题

Shownotes Transcript

今天的节目将探讨几个关键话题:GPT-4 的巨大参数量和训练需求意味着什么?芯片行业的新动向,博通和英伟达如何塑造未来?Google 和微软在AI领域的最新战略部署会带来哪些变革?以及,DeepSeek-V3 模型的开发是否预示着AI行业的范式转变?接下来让我们来解锁这些商业科技动态吧。

00:00:44 LLM 发展现状与未来趋势 

00:02:04 2025 年 AI 行业竞争格局变化 

00:03:41 智能海啸将带来哪些变革 

00:05:04 1 月 4 日发生的重要事件 

    本期主播: 西娅

    后期: 西娅

    收听平台: 小宇宙、喜马拉雅、Apple Podcast等。

    如果喜欢我们的节目,欢迎点赞评论转发。