We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 102. 和张祥雨聊,多模态研究的挣扎史和未来两年的2个“GPT-4时刻”

102. 和张祥雨聊,多模态研究的挣扎史和未来两年的2个“GPT-4时刻”

2025/6/2
logo of podcast 张小珺Jùn|商业访谈录

张小珺Jùn|商业访谈录

AI Deep Dive AI Chapters Transcript
People
张小珺
活跃在人工intelligence和大模型领域的播客主持人和专家,通过《全球大模型季报》和《商业访谈录》分享行业深入分析和预测。
张祥雨
李广密
Topics
张祥雨:在深度学习领域,模型扩展(scaling)是推动技术进步的关键动力。ResNet的成功在于它恰好在模型、数据和算力都达到一定水平的历史时机。2012年,数据方面,ImageNet数据集提供了大量数据;算力方面,CUDA的性能提升提供了支持。ResNet通过增加模型的宽度、深度和分辨率来实现扩展。在博士研究阶段,我主要致力于模型扩展,探索了多种方法来解决梯度消失和爆炸等问题。毕业后,我转向研究小模型,发现模型架构设计对小模型至关重要。19年,数据扩展成为主要挑战,CV领域缺少像NLP中GPT时刻的东西。对比学习只在小模型上管理,skill up后效果快速完整。

Deep Dive

Chapters
本节回顾了张祥雨在多模态研究领域的十年历程,从计算机视觉到自然语言处理,以及他对多模态融合的全新思考。他分享了在模型scaling上的经验教训,以及对未来多模态研究方向的展望。
  • 回顾了张祥雨十年的学术研究经历,以及研究主线。
  • 探讨了计算机视觉和自然语言处理的学习历史,以及各自的优势和局限性。
  • 分析了多模态融合的挑战,以及如何利用视觉和语言的对齐关系来提高模型性能。

Shownotes Transcript

今天这集,《商业访谈录》第一次迎来一位co-host,是大家熟悉的李广密。

广密邀请了大模型公司阶跃星辰的首席科学家张祥雨,来聊聊,多模态的前世今生和未来技术的前沿走向。

张祥雨在这集节目详细阐述了:他参与的多模态的10年历史,对多模态的全新思考,以及所预见的下一个“GPT-4时刻”。

他提到一个细节:在训练过程中他曾经发现一件百思不得其解的现象——模型的通用对话能力、情商和知识量都是随着模型变大变得更强,但模型的推理能力(尤其是数学)表现却是先上升后平缓,再扩大反而是下降——这点在业界还未引发广泛讨论。关于这个怪现象,他也给出了自己的解答。

下面是广密和祥雨的聊天。

2025,我们和AI共同进步! 我们的播客节目在腾讯新闻首发),大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 多模态研究的10年史:迷茫和转机

02:00 张祥雨的学术经历和个人研究主线

12:25 CV(计算机视觉)向NLP(自然语言处理)的学习历史

17:14 2022年我开始对单纯靠视觉学出“CV领域的GPT时刻”比较悲观

18:22 纯视觉这个domain有什么问题?GPT这样的生成模型你可以同时拥有生成、理解和人类对齐,而静态图像这三者是割裂的

24:23 我停止了对静态图像表征的研究,构思新的研究主题:短期内利用视觉和语言的对齐关系

29:10 经过尝试还是没做到图像的理解、生成和对齐一体化,我得到一个越来越强的生成模型,和一个越来越强的理解模型,没有起到叠加效果——为什么如此难以融合?

38:45 做了大半年十分迷茫,但在此刻出现了转机

训练大模型发现的怪事、蛛丝马迹与办法

41:11 训练过程中发现了一件百思不得其解的怪事:模型的通用对话能力、情商、知识量确实模型越大越强,但模型的推理能力(尤其是数学)表现是先上升后平缓,再扩大反而是下降

43:10 一些蛛丝马迹:更大的模型做数学题倾向于跳步,不老实

44:33 经过分析,这是next token prediction的本质缺陷

45:42 更大的压缩率未必对应更高的计算精度,我们来做一个思想实验

47:27 生成模型的“特征坍缩现象”

50:48 解决方案就是引入RL(强化学习)

53:28 o1的核心是思维链的pattern——“做思考模型,pattern is all you need”

01:01:52 当模型走到某一步,摆在面前有两个分支——走左边?还是走右边?——一个token之内到底能不能解决?(critical decision)——不能,所以引入反思pattern

01:10:16 o1范式的本质是一种Meta-CoT ,是CoT的CoT

对多模态研究的新思考和新进展

01:10:57 研究完o1,返回研究为什么视觉生成可控性这么差,就有了眉目

01:15:13 简单把生成和理解做到一起,难度非常大,缺失了重要一环CoT

01:15:54 去年中开启新的project:视觉理解(视觉空间的Long CoT)

01:19:06 尝试了半年,结果给大家透露一下吧!

01:21:30 o系列不仅泛化了domain,更吸引人的是泛化了pattern

01:22:16 博弈类问题是难以泛化的领域,有很多无效思考和低级错误

01:24:07 o1激发的反思pattern,在预训练语料中都有分布了

01:31:31 关于预训练加多模态数据有两种说法:影响了text智商?还是增强了scaling law?

01:36:43 往后两条腿走:扩充预训练语料和扩展动作空间

01:45:42 多模态的“GPT-4时刻”还有多久

预见下一个“GPT-4时刻”

01:46:56 long context和多模型协作

02:07:09 架构不重要,架构是服务算法和系统的(为什么我说Linear Transformer不本质)

02:08:30** 下一个“GPT-4时刻”?模型的在线学习/自主学习**

02:21:22 澄清一些有关Agent的观点

02:25:00 人虽然没有生成器官,但人有世界模型

02:26:34 我们的智能水平还在为视觉挣扎,机器人领域在抢跑

【更多信息】

联络我们:微博@张小珺-Benita)

更多信息欢迎关注公众号:张小珺