We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 41.对话智源院长王仲远:关于世界模型,AI与物理世界,与大模型的最前沿

41.对话智源院长王仲远:关于世界模型,AI与物理世界,与大模型的最前沿

2025/7/1
logo of podcast 卫诗婕|商业漫谈Jane's talk

卫诗婕|商业漫谈Jane's talk

AI Deep Dive AI Chapters Transcript
People
卫诗婕
独立商业作者,曾任极客公园执行总编,专注于商业、科技和人文领域的深度报道和分析。
张宏江
王仲远
王兴
Topics
王仲远: 我认为人工智能领域的技术突破往往由年轻人实现。年轻人不受传统思维束缚,敢于尝试和突破,不怕失败。成功的经验有时反而会成为创新的桎梏。智源研究院致力于为年轻人提供舞台,让他们在科研方面有所作为。 张宏江: 我认为一定要支持年轻人,给年轻人机会。智源研究院要给年轻人提供舞台,让他们能够充分发挥自己的才能。

Deep Dive

Chapters
深度学习正朝着"大一统"的方向发展,Transformer架构的广泛应用是重要标志。多模态(跨模态、全模态)成为新的研究方向,但其能否提升模型智能仍存在争议。文章探讨了不同模态的定义及融合方式,并指出越简单统一的架构生命力越强。
  • 深度学习趋势:大一统,Transformer架构的广泛应用
  • 多模态研究:跨模态、多模态、全模态的定义和区别
  • 简单统一的架构更具生命力

Shownotes Transcript

创新应该以何种方式被规划?三年前,我曾经写下过一个中国式尝试——2023年,在中国大模型正如火如荼的时候,我曾专访过智源研究院创始理事长、美国国家工程院外籍院士张宏江博士。(👉《对话智源张宏江:功成不必在我,能成为黄埔军校很好)》)

作为一家非营利机构,智源效仿 OpenAI,是一家独立于政府、商业和高校之外的新型科研机构——2018年,前微软亚洲研究院创始人之一、刚从金山 CEO 的位置上退休的张宏江主导了这一切。

在宏江博士看来,真正的科研创新需要让年轻学者在最有热忱和动力的年龄展开真正高效的学术研究——做最前沿的、敢于失败的、但值得长期投入的技术探索方向。所以,当年的智源,就坚定地喊出了,要给年轻人以舞台。

2020年,智源最早启动大语言模型「悟道」系列,**为此调度大量资源,并大胆地启用年轻人。**后来,大模型创业潮里的灵魂人物:唐杰、杨植麟、刘知远、黄民烈等,都曾是「悟道」项目中出现过的身影。

智源研究院,也被称作为,中国大模型的黄埔军校。

距离那一次采访已经三年过去。智源研究院经历了从大语言模型、到原生多模态世界模型的研究路线进化。而这家年轻的机构,也迎来了首位85后院长——也就是本期嘉宾,王仲远博士。 (2025北京智源大会,智源研究院院长王仲远做进展汇报。)

2018年,33岁的王仲远曾被《麻省理工科技评论》评为“35岁以下科技创新35人”中的「远见者」,理由是,他曾在知识图谱和NLP领域解决多项挑战性问题。是 AI 领域杰出的青年科学家代表。

过去近 20 年,仲远先后经历过微软、Facebook、美团、快手这四家大厂,长期从事 AI 相关研究和产业化。他的到来,也为这所年轻的研究院带来了全新的视野和氛围。在今年六月初的智源大会上,智源空前地邀请到四位图灵奖得主,并发布「悟界」系列模型,其中,多个重要项目负责人都在30岁上下。

**我们的对话,就发生在智源大会后一周。**在这期节目中,你将会听到:

为什么 AI 是年轻人的事业?具身智能是未来吗?

什么是世界模型?它会在通往 AGI 的路上,扮演什么样的角色?

以及**,**为什么让模型理解文字之外的客观世界,是一个更让人兴奋的未来? (Ps. 本期内容后续会出文字与视频版,欢迎前往公众号「卫诗婕 商业漫谈」与B站同名账号蹲蹲关注~)

本期嘉宾:

王仲远(智源研究院院长,前快手副总裁,早年曾任职于微软、Facebook、美团)

本期Shownotes:

Part 0. 前言:智源是一所什么样的机构?

04:14 智源作为一家非营利研究机构,为什么坚定地选择押注年轻人?07:08 首位「85后」院长的诞生08:58 为什 AI 是年轻人的事业?「年轻人没有失败」12:31 仲远加入智源:小学三年级女孩的提问,直击我的心灵## Part 1. 关于仲远:从微软、Facebook 到美团、快手 16:50 微软要求员工,要以最高的道德标准行事17:35 美团王兴:苦练基本功——细节抓到极致,就是基本功19:13 什么是知识图谱?为什么仲远很快就做出了搜索结果的大幅优化?20:48 人大孟小峰教授教会我:研究与系统并重22:23 2010-2016,深度学习飞速发展,「我在亚研院,意识到自己与社会有些脱节」25:27 Facebook:move fast ,break things25:59 快与慢的哲学31:16 同理心、 growth mindset 与「练心智」35:32 愚昧之巅、绝望之谷、开悟之坡## Part 2.过去十多年,深度学习的发展趋势——「大一统」正在发生 41:32 2018年,企业用 Transformer 还是有争议,但深度学习已经开始要「大一统」了42:45 Transformer 「大一统」,意味着什么?44:50 跨模态、多模态与全模态——为什么业内人常说,此多模态非彼多模态?48:57 越简单、统一的架构,会有越强的生命力## Part 3.智源的趋势预测:从大语言模型,到原生多模态世界模型 49:17 智源的大模型趋势预测:从语言到多模态,再到巨量智能和 AI for science,最终到世界模型53:28 多模态数据到底能否提升大模型的智能?这在学术界和产业界是有争论的54:45 这取决于智能的定义:动物没有语言体系,也有它们的智能55:58 「人类的学习过程和现在大语言模型的发展路径是不一样的」58:22 以语言为核心的大模型训练常遇到问题:加入其他模态后,模型的智能水平似乎退化了01:01:13 「原生多模态大模型,它能够越来越接近人类的大脑」01:02:12 智源推出的大模型系列:从**「悟道」(大语言系列模型)到「悟界」**(原生多模态世界模型) (2025智源大会于北京召开,现场座无虚席。)

Part 4. 关于世界模型的争论、多样的技术路线,与智源的信仰

01:04:12 什么是世界模型?LeCun (图灵奖得主)早在2023年的智源大会就提出过,但智源信仰的世界模型路线与 LeCun 稍有不同01:09:07 今年的智源大会上,两大图灵奖得主(Yoshua Bengio 与Richard  Sutton)所信仰的技术路线针锋相对01:11:41 仲远的技术路线预测:基于海量数据训练的基础模型打底,通过强化学习做后训练,推理的Scaling Law 还会持续01:12:46 这条路线在现实世界有观察到:两岁的小女孩自己会拆糖果了01:14:31 失败也是创新的一部分,智源做的是创新的「土壤」## Part 5. 具身智能、世界模型的价值与应用、以及「真开源」 01:17:25 为什么今年,具身智能特别火?01:20:43 2025智源的两大重点:原生多模态和具身智能,为什么这么选?01:23:01 机器人最强大脑、空间任务和智能化01:27:21 原生多模态和具身智能模型,都是世界模型,还是都组成了世界模型?01:27:52 Meta 的 V-Jeppa 2 登顶 HuggingFace 榜首,超越 GPT-4o,世界模型的趋势要来了?01:29:42 智源开源的一系列大模型,被应用的情况如何?01:32:16 仲远上任后,为什么倡导「真开源」?## Part 5. 对于未来,仲远给出哪些确定性的趋势预判? 01:34:45 OpenAI 华人研究院姚顺雨:AI 正在进入中场休息?01:35:43 大语言模型领域的确如此,世界模型的上限还很高01:37:41 智源能给出的确定性趋势判断:AI 将正式从数字世界迈向物理世界 01:38:02 智源要跟世界顶尖的学术研究机构掰掰手腕?

01:39:21 南坡北坡,「南坡这边风景一定会很好」

加听友群👇 有关主理人:卫诗婕,独立商业作者,曾任《极客公园》执行总编,早年任职于《人物》、GQ报道、字节跳动。代表作:《ofo的终场战事》)、《罗永浩:薛定谔的理想主义)》、《朱一旦的枯燥生活)》、《中东社交十年风云:金矿、折戟、浪潮再起)》、《下一站,沙特)》等。作品曾获虎嗅2024年度作者、金字节奖年度新锐作者、网易非虚构文学奖年度作者、全球真实故事奖中文报道十佳。

有关「商业漫谈」:这是一档关注科技、商业、人文的深度访谈节目,致力于记录时代的商业史。聚焦商业趋势、伦理、竞争、价值。