We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 41.对话智源王仲远:中国AI黄埔军校、首位85后院长与大模型最前沿

41.对话智源王仲远:中国AI黄埔军校、首位85后院长与大模型最前沿

2025/7/1
logo of podcast 卫诗婕|商业漫谈Jane's talk

卫诗婕|商业漫谈Jane's talk

AI Deep Dive AI Chapters Transcript
People
F
Facebook
S
Satya
卫诗婕
独立商业作者,曾任极客公园执行总编,专注于商业、科技和人文领域的深度报道和分析。
张宏江
微软
王仲远
王兴
Topics
王仲远:我经历了微软、Facebook、美团、快手等公司,深刻感受到AI领域需要年轻人的活力和创新精神。年轻人没有失败的包袱,敢于尝试,勇于突破,更容易在AI领域取得突破性进展。在智源研究院,我们提倡‘不论资排辈,不看帽子’,鼓励年轻人承担重要项目,并提供充足的资源支持。我们相信AI是年轻人的事业,未来属于年轻人。 我加入智源研究院,是因为被一个小学三年级女孩的问题触动:如果人工智能什么都能做了,我们将来做什么?这个问题让我反思了很久,也促使我思考AI技术突破对社会的影响,以及我们应该如何应对未来的挑战。 在技术路线方面,我认为基于海量数据训练的基础模型是基础,通过强化学习做后训练,推理的Scaling Law还会持续。这条路线在现实世界有观察到:两岁的小女孩自己会拆糖果了。 智源研究院预测AI发展趋势:从语言到多模态,再到巨量智能和AI for Science,最终到世界模型。多模态数据能否提升大模型智能,取决于对智能的定义。人类的学习过程和现在大语言模型的发展路径不一样,原生多模态大模型更接近人类大脑。 关于世界模型,LeCun等人的观点与智源略有不同。智源信仰基于海量数据训练的基础模型,通过强化学习做后训练,推理的Scaling Law还会持续。这条路线在现实世界有观察到:两岁的小女孩自己会拆糖果了。 具身智能是未来,智源在原生多模态和具身智能方面投入大量资源,目标是让AI从数字世界迈向物理世界。我们倡导‘真开源’,希望为AI发展贡献力量。 卫诗婕:本期节目探讨了智源研究院的创新模式、AI发展趋势以及王仲远博士的个人经历和观点。智源研究院作为一家非营利性机构,专注于AI基础研究,并大胆启用年轻人,被誉为‘中国AI黄埔军校’。王仲远博士的加入为智源带来了新的活力和视野。 节目中,我们探讨了AI发展趋势,从大语言模型到原生多模态世界模型,以及具身智能的未来。王仲远博士分享了他对世界模型、多模态、强化学习等技术的理解,以及智源研究院在这些领域的研究进展。他还分享了他个人的职业经历,以及在不同公司的工作经验和感悟。 通过与王仲远博士的对话,我们了解到智源研究院的创新理念和文化,以及他们对AI未来发展的展望。智源研究院致力于打造一个开放、包容、创新的科研环境,为AI发展培养人才,贡献力量。

Deep Dive

Chapters
本节探讨了深度学习的“大一统”趋势,以及多模态在人工智能发展中的作用。嘉宾分享了对跨模态、多模态和全模态的理解,并阐述了智源研究院对原生多模态世界模型的探索。
  • 深度学习开始“大一统”,底层架构趋向统一
  • Transformer架构在多模态领域应用广泛
  • 跨模态、多模态和全模态的区别与联系
  • 智源研究院预测AI发展趋势:语言-多模态-巨量智能-AI for Science-世界模型

Shownotes Transcript

你经历过绝望之谷吗肯定经历过但我不想分享我开始意识到一点人工智能深度学习它有可能要开始大一统了

越簡單的結構越統一的結構它會有越強的生命力能否提升智能非常取決於你對智能的定義對於很多的動物來講它沒有語言體系它也有它的智能對 僅有語言模型是遠遠不夠的人工智能將正式地從數字世界邁向物理世界

哈喽大家好欢迎来到商业漫谈我是诗杰创新应该以何种方式被规划三年前我曾经写下过一个中国式尝试 2023 年在中国大模型正如火如荼的时候我曾专访过智源研究院创始理事长美国国家工程院外籍院士张宏江博士作为一家非盈利机构智源效仿 OpenAI 是一家独立于政府商业和高校之外的新型科研机构

2018 年,前微软亚洲研究院创始人之一,刚从金山 CEO 的位置上退休的张鸿江主导了这一切。在鸿江博士看来,真正的科研创新需要让年轻学者在最有热忱和动力的年龄展开真正高效的学术研究,做最前沿的、敢于失败的、但值得长期投入的技术探索方向。

所以,当年的智源就坚定地喊出了要给年轻人一舞台 2020 年,智源最早启动大语言模型悟道系列为此调度大量资源,并大胆地启用年轻人后来,中国大模型创业潮里的灵魂人物唐洁、杨志玲、刘志远、黄明烈等都曾是悟道项目中出现过的身影智源研究院也被称作为中国 AI 的黄浦军校

距离那次采访已经三年过去 志愿研究院经历了从大语言模型到多模态事件模型的研究路线进化而这家年轻的机构也迎来了首位 85 后院长 也就是本期嘉宾王仲远博士 2018 年 33 岁的王仲远曾被麻省理工科技评论评为 35 岁以下科技创新 35 人中的远见者

理由是他曾在知识图谱和 NLP 领域解决多项挑战性问题是 AI 领域杰出的青年科学家代表过去近 20 年众元先后经历过微软 Facebook 美团快手这四家大厂

长期从事 AI 相关研究和产业化他的到来也为这所年轻的研究院带来了全新的视野和氛围在今年 6 月初的智源大会上智源空前的邀请到四位图灵奖得主并发布物界系列模型其中多个重要项目负责人都在 30 岁上下

我们的对话就发生在志愿大会后一周在这期节目中你将会听到为什么 AI 是年轻人的事业巨神智能是未来吗什么是世界模型它会在通往 AGI 的路上扮演什么样的角色以及为什么让模型理解文字之外的客观世界是一个更让人兴奋的未来欢迎仲远谢谢跟大家先打个招呼吧哈喽哈喽大家好我是志愿研究院的王仲远

众远是非常 high level 的一个嘉宾不是因为今天的 title 是志愿研究院的院长是因为我看了你所有过往的履历和经历确实是一个年轻而优秀的代表所以今天我可能会代表我们很多年轻的听众和读者朋友们多问一些关于成长方面的问题当然我们这场访谈也会涉及到很多硬科技的技术和知识包括行业的发展

今天这个对话有一个渊源应该是三年前了 23 年的时候我采访了智源的理事长张宏江老师那个时候你还没有来然后刚好记录了当时智源的一个非常关键的转型期也梳理了一下智源的历史

那篇文章我也看到了真的是非常好写的也是非常有深度我当时采访洪江老师印象最深的是一点他跟我说一定要支持年轻人给年轻人机会我记得他当时给我举了几个例子就第一个例子是说 2020 年 GPT-3 出现之后志愿研究院也跟当年 OpenAI 一样就是把

其他所有的支线全部砍掉然后 all in 大模型也使得智源变成了我们中国最早做大模型权利的研究的机构第二个点是因为当时 GP3 是万卡集群然后我们智源是从 80 张卡追起然后唐杰教授他当时也非常年轻就想办法去搞卡这也是一个年轻的力量然后第三件让我印象特别深的事情是刘智源教授他跟我说的

当时刘志远教授连副教授都没有评上是一个年轻人但是他在志远申请说他想做大模型然后就给他批卡他最后应该是运作了一个千万级资源的一个项目他就跟我说他特别感谢志远因为在传统的科研体系里面一个这么年轻连副教授都没有评上的人是根本不可能调度这么大的资源的所以当时洪江老师就说一定要给年轻人机会我们今年也看到国家领导人

大大爷说 AI 是年轻人的世界然后你是志愿史上第一位 85 后院长是

对所以我觉得你的到来就给了大家信心让大家相信志愿是一个年轻人的舞台那我们先从你个人讲一讲首先从志愿组建的第一天开始我就知道这个机构的存在 2018 年的时候那时候我还在美团然后因为美团也是志愿的理事单位和发起单位我当时因为在美团也在负责整个 NLP 加搜索的团队其实 2018 年的时候

像 BERT 模型已经出现了在这样的趋势的情况之下志愿研究院成立我对志愿研究院最早的印象其实是志愿学者一堆的大咖然后都聚集在了志愿这样的一个机构包括每年的志愿大会也都是非常非常的火爆那个时候就看跟我也差不多原来都挺熟的一些助理教授副教授在志愿这边也开始承担很大的一个很重要的项目对慢慢的就觉得

这是一个很有意思的一个机构然后到 2022 年底 ChatGPT 发布之后其实是促成了我很多的思考真正开始跟智源这边接触已经是 2023 年 7、8 月份的时候洪江博士也是通过别人的这种引荐接触到了我然后说 哎 愿不愿意跟智源聊一聊所以我当时在想嗯 智源研究院行业里面非常强的这样的一个机构

他们要临选院长我这么年轻按照一万的这种科研机构一般来讲要找个院士或者找一个大咖当时 2023 年我大概也就三十七八岁的样子我当时还觉得

真的会有机会吗你是心动的是吧我是心动的你只是不敢相信找到这么年轻的我我太敢相信包括志愿研究院是北京市的一个新型研发机构其实我跟北京市也有很多的一些交流很有意思最后面从几个候选人中他们选来选去做了一个决定说你们选了哪个人

然后他们说选了那个最年轻的我很好奇找工作是要面试的选院长是要面试吗肯定啊而且是非常多轮一轮又一轮前前后后聊了也有小半年他都考核些什么呢我觉得会全方位的作为院长来讲第一到底有没有在考

科研这块有足够的理解和过往的一些成绩然后在系统开发上因为智源的定位就是新型营发结构我们不是仅仅发表论文那么在系统上有没有实际的一些落地的场景甚至在我加入智源之前我在快手的时候还负责了一些业务包括工程团队所以其实智源还是非常看重落地的能力你刚才讲的系统是指什么

系統指的是最終要讓大家能夠體驗得到這個科研成果而不是一個在論文裡面論文裡面可能只能是專業人士才能體驗得到而系統呢就讓普通人也有機會有可能體驗得到那作為院長其實還需要有管理的能力並戰略建團隊拿結果他是要有一個

整套的体系我看你的履历当中你是非常擅长快速拿结果的一会儿我准备好好跟你聊一聊那为什么 AI 是年轻人的事儿

這也是一個非常有意思的其實很多很多的技術它的突破其實都是年輕人做出來的你說以前我個人認為包括以前其實包括興騰教授他也提過類似的觀點他說我很多的創新其實都是我的學生做出來的在人工智能這個領域其實尤其也是這樣去年我們的資源大會的時候像 OpenAI 的 Solar 的技術負責人他提到了

说我们今天做的所有人工智能的技术突破是颠覆了一万所有的范式那么也就意味着一万可能陷入在传统的科研范式中越深的人越难以自拔越难以突破那种思维的局限和惯性其实有时候年轻人是不受束缚的年轻人是没有失败的真正的突破他是需要去做这些尝试的往往成功的经验就会成为未来创新的

这种桎梏所以这是我们参考青年人挑大量一个很重要的理念的来源我们很多很多重大的科研项目都是由年轻人来担当

单单整体的负责人比如说我们所说到的原生多模态世界模型 E-Mail 3 它的负责人其实今年也才 29 岁它能获得的那也是数千万的资源的支持和团队的支持我想问一些比较微观的问题你们怎么塑造这种氛围有没有一些比较具体的例子我觉得资源有几个非常核心的理念包括不论直排背不看帽子倡导

代表作文化 我們在遴選項目負責人的時候更多的看過往你有沒有一些能夠證明你在科研方面的代表作這個代表作可以是論文代表你能夠有創新突破也可以是你做過的一些開源的項目代表你在行業裡面有沒有自己的一些認知和影響力這些可能代表的是過去那麼更為重要的是

我们要看这个年轻人他有没有对于技术的理想对于科研的追求对于系统落地化的能力我记得您当时采访洪江博士的一个话里面洪江提到了一句叫工程不必在我我非常认同这句话确实工程不必在我

但是怎么去筛选这个人到底有没有技术理想呢有很多很多的方式首先我自己就是一个理想主义现实主义交织的对不断在融合其实我一直都希望能够用人工智能来造福人类当我开始学计算机本质上我就在做这样的一件事情为什么会有这种理想因为我觉得从计算机发明之初起微软当时它有个愿意就让全世界的每一个人都能够用上电脑

當我開始接觸大數據包括在做知識突破做 NRP 的時候我們最希望的就是我們做的每一項技術最終被全世界的每一個人都用而且大家用了這技術之後說真的好用真的解決了我的一些問題這自然而然就變成了我們的一個理想和追求

又有很多现实现实是在我加入微软亚洲研究院那时候其实深度学习刚刚开始我们也做了很多很多的技术突破但是依然会发现好像 AGI 离我们可能还有四五十年我觉得我们先解决具体的问题解决很多单点的技术但我觉得 AGI 可能是我们下一代的事情一切的改变就又回到了刚才提到的 2022 年底 Chad GPT 的发布

我印象很深应该是在 2023 年 3 月份的时候那时候 GPT-4 刚刚发布没几天我到我们家娃的小学去给三年级的小朋友们上了一堂人工智能课就给他们讲你看我们做的这种数字人有多么有意思 check GPT 能够把语文数学英语音乐美术每一个科目的小学题都能解决得非常好

然后全班的小朋友们全部都沸腾了大家说话好厉害以后可以不用做作业了然后当时班上有个小女孩站起来问我说叔叔如果人工智能什么都能做了那么将来我们做什么呢

就這樣一個簡簡單單的問題直擊我的心靈讓我反思了很久我在想我原來覺得像 AGI 依然是下一代的事情甚至下一代才會接觸到 AGI 的可能性還不實現但現在似乎在我們這一代就有可能能夠觸及到並且我們的下一代很可能就會跟它共存

在那个时候这个社会到底会是一个什么样形态的社会我们现在在做的技术突破到底还有哪些没有解决的以及解决完之后人工智能又会发展到什么程度我突然间有一天就又意识到了这似乎又回到了当年我从学校毕业的时候的深度学习刚刚兴起的那个阶段

技术要面临重大的突破产业有可能面临重大的变革但技术的突破的程度还不足以支撑整个产业立刻发生变化所以我对于大模型推动人工智能往通用人工智能的发展我相信它有可能是一次工业级的革命

最次最次可能是一次这种产业界的革命那么不管是哪一种革命呢它可能都会持续几十年短则十年二十年长则三四十年甚至对人类整个未来都有很重大的影响那么这个时候在企业里面有时候是会有力不从心的感觉

我会很难以将自己百分之百的精力都拥在 AI 上因为我可能还得为企业的业务在负责那么这个时候我自己内心是非常挣扎的也就在这个时候志愿研究院抛来了橄榄枝你讲那个小女孩的故事特别感染到我所以你当时是怎么回答她的

很坦承地講直到今天我依然沒有一個很準確的答案我當時回覆小女孩固然人工智能在不斷地發展有很多不確定性但是可能很重要的一點第一是要去了解這項技術適用這項技術同時也能思考它能夠幫助我們解決什麼問題和不能幫助我們解決什麼問題

第二其实人在这个社会里面更重要的是一个世界观人生观价值观这三观的形成能够让你变成对这个社会是不是一个有用有价值的人第三个可能是自我学习的能力我们总说在大学里面经常很多人高考完之后觉得到大学之后

彻底放松了但实际上在大学里面确实它不再是简单的去考察你的各种的知识但是大学里面很重要的是锻炼你去学习的能力

去跟别人交往的能力所以我其实当时也给小女孩回复了我自己的这样的一些想法也仅仅是供他们参考当然我会时不时就想起这样的一段对话时不时就想起原来我认为要四五十年才能实现的场景有可能真的这个时间就缩短到了五年十年就有可能会触及那么在这个时候我们应该做些什么在这个时候我应该要为他做些什么

这些都是促使我最终决定加入志愿研究院非常非常重要的一个原因你们的很多理念和你们对未来的信仰其实藏在你们具体的一些战略和动作里面待会我们会仔细聊到那我想先问一下你刚才提到三观世界观人生观价值观

你自己的三观是怎么形成的原来确实没有非常非常系统的来思考一下自己的三观但其实您刚才这个问题让我真的又回想起来我在人大的时候当时作为师兄师姐给

给太一的新生做的一次讲座我当时里面其实提到了说我们要做人 做事 做学问其实某种意义上也是在阐述这种三观有能力的人他的道德是不过关的他可能对社会的危害是更大的

我加入微软的时候有很多很多的录制培训细节我不记得了但是我唯一记得就是要用最高的道德标准来要求自己只要按照这种要求来行事的话基本上就不会出错所以微软要求员工要以最高道德标准行事这是我自己的个人的总结其实它不会这么直白的说对

其實也大概是在 2018 年 19 年的時候當時美團的王欣新歌其實他發了一份全員信就叫苦練基本功他說商業拉長足夠多的週期來看很多的失敗最終都是源於基本功不過扎實做任何的事情做商業其實最後大家比拼的都是基本功你能不能夠把基本功的每一個細節每一個知識都做到足夠的到位

做到位了它最终组成起来的才是一个非常扎实的最终呈现的成果包括我们提大模型大家都会说为什么有不同的模型公司有的模型公司训练出来的模型效果好一些有的又差一些其实归根结底在我看来也是一个基本功

你的数据的质量你是不是能够抠很多很多的细节能够最终把这个效果给这个数据的质量做出来然后在这个训练的时候你是不是去做到了极致的这个效率的优化对于每一个这个利用率芯片的利用率对于网络通讯里面的每一次的故障是不是能够都能够去处理得很好对于算法中的每一行代码是不是有足够的敬畏和足够的插入到其中的细节

包括在這個過程中去看 Lowes 曲線是不是對於每個 Lowes 曲線中異常的波動都不放過去追究它的原因包括在評測中對於每一次評測異常的結果是不是都願意不斷地去追究不放過任何一個細節那麼這種抓細節的能力其實就是苦練基本功

说到这其实又勾起了我另外一块回忆当时在 Facebook 的时候做一个实体链接的事情搜索和知识图谱的结合最开始他们的准确率是很低的比如说在 Facebook 上做搜索的时候当你搜比如说苹果到底你搜的是苹果公司还是水果的苹果对吧那么它在不同的上下文的时候它就可以链接到不同的我们叫 entity 实体

这就是实体链接然后当然背后可能有一个非常大的一个知识图谱那么就在这样的一个链接的过程中其实我们会看它的链接的准确率就是到底你这个苹果链接到的实体是不是正确的你搜索的结果是不是用户想要的对

最开始他们的实体链接确实效果比较差但我就发现原来他们在做的时候他们只在关注指标只在关注结果但他们没有关注细节所以我也非常深入的去分析了各种 bad case 其实当我们深入的去看每一个细节的时候自然而然你的解法就产生了所以你是在错题集里去归纳总结是吗对 您提的这个非常好细节决定成败

细节决定了最终的成果当然细节也是基本功的一个很重要的一个组成部分所以其实你刚才提到很多时候我在不同的企业不同的机构好像似乎很快都能拿到一些成果

那么我想很重要的一点就是我对于细节其实是比较关注的直到今天对于一些重大的项目我依然会盯得很细你人生当中第一次感受到就是做学术研究这种快感和激动是什么时候

其实我在学校的时候刚才提到了当时在做 SIGMO 这个奖学金申请的时候我们当时就在做了一个 Deep Web 的 learning 很多人可能对于 Deep Web 都不了解了当时在讲网页的时候其实有浅层网页和深层网页深层网页的背后其实是有数据库的

然后于是我们当时在做的一个研究就是如何把这些生成网络的数据给结构化其实就是知识图谱的一些雏形在人民大学在孟老师的实验室给我一个非常非常重要的一个训练就是研究和系统并重因为人民大学它的强项是数据库和大数据那数据库是一个系统性的工程

它先要有一個系統再把系統裡面的每一個環節都要突破到極致所以這樣的一個系統化的一個思維其實也造就了我後來不管是在微軟亞洲研究院還是在企業包括今天我們在智原所倡導的這樣的一個以系統的方式來開展研究它都是一脈相承的回到剛才您的那個問題在這個過程中我們當時做的一個 Deep Web 的數據的一個集成最終

還搭建了一個我們當時叫 Job 通就是幫助高校的找工作或許更加便捷的各種工作信息的系統但是我們很多人民大學的學生就開始用起來了從一開始我就覺得研究最終是為了服務於大家

嗯你在微软做了很多年从应届校招生一路做到主管研究员当时主要负责的是知识图谱和对话机器人这是一个伏笔但是我看你做了六年之后你选择到 Facebook 当时的原因是说因为你想从研究走向实践这个转变又是怎么发生的呢对所以这就又回到了整个技术发展的趋势这个时候已经是 2016 年了是我们知道嗯

这次深度学习的兴起就第三次人工智能发展的烂潮它是从 2006 年的星腾教授在科学杂志上的一篇论文开始开启了深度学习的研究

當然它真正的爆發是在 2012 年也就星成教授帶領他的兩個學生在 Imaginate 比賽上一舉奪冠開始讓產業界又開始關注原來深度學習真的 work 但是其實您看在 06 年到 12 年之間深度學習也在發展但是其實也有很多的技術的爭論

那么在这个过程中从 2010 年到 2016 年我在微软亚洲研究院期间我突然间意识到了我好像与社会开始有些脱节微软亚洲研究院是一个非常非常好的机构直到今天我依然非常怀念当时的那段经历到这时候国内的像阿里巴巴像腾讯

百度已经形成了 BAT 美团也已经出现了包括今日头条也已经出现了似乎在

各種高樓平地起研究院在一個非常安全的港灣有點像世外桃源有點像烏托邦有點像象牙塔歐洲亞洲研究院雖然也在強調技術的 transfer 但它其實還缺少跨團隊之間的協同和更大的一個系統的搭建的能力所以不管是通過跟外界的交流乃至於我的

同学朋友他们给我的反馈我似乎意识到这个世界在发生着剧烈的变化我很担心被这个时代抛弃所以在那个时候我最终决定要迈出这一步要去一个商业性质更强的公司对要去一个真正能够更接近产品

那我打断一下就在 16 年这个节点我相信你当时应该是拿到了很多 offer 应该也不乏今天我们中国的大巨头第一个问题是你当时对这些新兴的公司是一个什么样的看法以及你最终为什么选择了 Facebook 很坦诚的讲我

在微软很长的一段时间我还是希望把这个研究做扎实所以我还一直都在研究院待着但到后来确实也是机缘巧合我原来的老板他回到了美国也去了 Facebook 有一天他跟我说哎 仲远你要不要来 Facebook 看一看吧他说这是一个非常快速发展的企业他跟

微软的工作风格很不一样如果说微软在当时的标签更像是 software company 软件公司那么 Facebook 是真正的互联网公司产品迭代的节奏非常激烈很多的想法

大家想到立刻就干干了之后就立刻的把它变成了产品 More fast, break things 然后全世界几十亿的用户就用到了这种成就感很多时候真的会让人有非常强的 passion 我在 Facebook 工作的时候经常都工作到凌晨一两点这个从来不是 Facebook 主动要求的

回國之後我其實還跟很多人交流我說 Facebook 是真的它在寬鬆的地方非常寬鬆比如說在當年我不知道現在的情況當年作為男生的賠產假居然有 4 個月這個在國內很多時候都不敢想像在很多其他的公司也都不敢想像每週三可以在家辦公

早餐午餐晚餐全部免费提供这是一个让人觉得非常宽松非常自由又能够很容易去迭代的这样的一家公司但是它又通过一系列的景的地方在哪儿

他通过一系列的机制会让你说我要不断的去证明自己创造出新的成绩和结果比如说当时会有 weekly scrum 就大家每周都会在一起快速的同步我们做了什么我们还要做啥包括还相对比较高频的一些 OK review 和激励机制以及淘汰的机制使得大家都在不断的证明自己更何况在 Facebook 你会发现

你周圍都是全世界最頂尖的研究員和工程師不進則退所以我回過頭來在想志願研究院我們也會嘗試去創造這樣的一個環境我加入志願之後我幹的很重要的一件事情就取消了上下班打卡

我們也增加了很多的福利我們還加大了激勵我們的 S 和 A 的同學的這個年終獎大幅的提升甚至超過互聯網公司當然我們也有淘汰保證我們能夠產生了一個創新的氛圍有可能去孵化和孕育頂尖的科研成果的這樣的一個氛圍

我试图一句话总结就是它在过程上是宽松的但是它在结果上其实相对来讲是严格的对 您说到点子上那我很好奇你刚才其实讲到 Facebook 的口号就是快速行动打破传统就 move fast and break things 这种快和慢之间的哲学怎么把握其实快和慢

它是需要一个平衡的节奏感对从模型训练也好从企业管理也好都需要快和慢的结合我们需要看哪一些是能够比较容易摘的果实我们需要去把它尽快的拿到如果是很确定性的事情那你就是要快因为你不快别人就已经产先做出来了但是有一些不确定性的事情就是要慢你要给

科研人員以足夠的思考的時間足夠的反思和嘗試的時間給他與失敗的這種慌容視錯的空間這樣的話才有可能能夠去做到真正的突破

我们今天早晨在开会的时候我们还在聊 Facebook 的 Lama4 为什么好像 Facebook 的 Lama 系列最近有点不那么给力然后从 Facebook 那边的朋友们传出来的一些信息也不一定正确但是他们就说因为很多时候他们都是一拨人

做了幾個月做完了之後可能就換了一波了又做幾個月又換了一波了所以在這樣的一個非常快節奏的這種調整過程中其實他就缺乏了積累和積電嗯嗯那麼我當時的第一反應是嗯這非常 Facebook 非常非常符合 Meta 的 Move fast,Brain things 這樣的一個文化那這種文化我想在很多方面會有他

它独特的一些突破但是在某些方面可能就不那么适用在志愿研究院我们现在也一样对于很多需要龙腾探索的科研项目我们是给予非常充分的耐心有很多的项目可能做了两年三年了我们依然在给它足够的时间和空间

但也有一些项目它是比较确定性的那么我们就希望它是能够大家全力以赴尽快地将它完成所以这是需要一个平衡的一个哲学您讲到的这个有启发我一点我也分享一下我虽然是管过一个小小的团队但我自己也经常被选拔和被管理包括我也在自己也待过我们刚才讲到这种低垂的果实要快速拿到的果实其实也是非常必要的因为

你可以营造一个非常宽松的 long term 的努力的空间但是你选谁其实你选拔的这个人他必须要在过往的这种短期快速拿到果实的这样的一些案例当中他要不停的验证自己他才能为自己争取到这个 reputation 就你要打过简单的仗你才能被赋予那个长盛仗你说的非常对我们需要有一个正循环

这个证据的话是你能够证明自己能够拿到结果你才能获得更多的资源进而去打更大的仗否则的话当你说我要做一个很重大的创新突破我需要很多的资源我需要很长的周期那如何让

投资人如何让资源拥有者他有这样的信心去做你点到了我下一个想问的问题我们刚才梳理了你在微软和 Facebook 这两家公司的经历风格截然不同但是你后来回到国内你加入的两家公司其实也各有各的个性就是美团和快手那综合来看

你怎么看待这几家公司的风格和创始人的风格以及你是否练就了一些识别人和识别公司文化的这种能力我觉得一定有对非常幸运在不同的公司见证了非常优秀的创始人促使我不断地做反思我在微软的时候有一个印象非常深的一本书叫

Refresh 刷新刷新这本书是 Satya 他写的一本书然后里面有两个词是对我影响非常深远的一个是同理心一个是 Gross Mindset 为什么我们没办法达成一致或者为什么我们能够达成一致这样的话才能够有利于合作共赢

但另外一块就是 Gross MindsetGross Mindset 对应的是 Fixed Mindset 我经常在想这两个词应该怎么去翻译 Fixed Mindset 如果对应到中文很多时候我们讲这个人太固执了不去改变他固有的思维方式我觉得自己非常幸运的是在

在微軟期間就已經受到了這樣的一個訓練說一個優秀的人他會隨著這個世界隨著接觸到的這些人一些知識不斷的迭代自己的認知在美團的時候內部會不斷的對一些項目進行復盤認知迭代就是你得想想過去這件事情為什麼做對了

為什麼做錯了不僅要把對的部分給認清楚還是把錯誤的部分也能夠反思清楚很重要我想起來老王曾經舉過的另外一個很有意思的例子他說

當你坐的電梯到了 18 樓到底是你自己有這個能力到 18 樓還是你在電梯裡面在電梯裡面對不斷的笨打然後是你這個笨大的能力到了 18 樓其實你需要有非常清晰的認知最終他會促成我很多的反思我發現原來不同的優秀的企業之間他們背後是有些共性的都需要做認知的迭代所以

我在微软亚洲研究院期间我会学会如何去做研究在 Facebook 的时候学会如何去做快速的落地和产品的落地在美团的时候我就会学会如何去做管理如何去认清楚一个组织和它的战略环对包括结果之间的一些关系这些东西就在不断的学习和迭代的过程挺有意思的所以美团管理的精髓是什么

定战略建团队拿结果练心志前三个可以理解大家听过很多了练心志是什么意思练心志是很多时候即使你尽了全力

你依然有可能失败那这个时候你的内心需要足够的强大我就想起来跟老王曾经的一次的交流和对话曾经说过练成了大家就一起成就失败了就互相成全所以我觉得老王是一个非常有哲学思维的人什么叫互相成全就是你在这个地方你

失败了你练行制练失败了你可能离开了那也祝福你也许你不适合这个地方也许你不适合这个项目也许你不适合这家企业互相成全你有失败过吗肯定有有可以分享的失败吗太多了多到以至于我

没办法完全一下子有哪一个特别的能够立刻出现在我脑海里我想人生的真实的经历永远不会像一些履历上或者像一些公开的报道上那么多关系都是因果

我想每一个人都有自己的独特的人生的经历独特的挫折所以在过去的这十几年中事实上作为一名管理者我很多时候在跟我的团队的下属在谈心的时候我们其实聊的并不是工作我们聊的是如何一起共克人生的艰难我会告诉他们其实你不是个例其实你跟很多很多人一样

面临着这些类似的这些困难练心志要挺过去挺过去之后你就发现自己一波新的高峰又来临了说到这又想起在美团时的一个理论叫愚昧之巅 绝望之谷 开悟之坡很多人的成功会觉得自己很顺利这时候会产生一种错觉觉得自己无所不能做啥成啥

覺得自己是非常有 unique 的獨特的極度之優秀的然後就產生了愚昧之巔尤其特別順利的人他會覺得我就是這家企業裡最重要的人我就是這個行業裡面最厲害的人但

通常愚昧之間他沒有意識到哪些是他自己的能力哪些是賽道的這個風口哪些是平臺的能力這個時候你所取得的成績其實是天時地利 能和中和的結果錯誤的將其都完全歸納為自己的成果的時候

就处在了一个愚昧之巅所以当时在美团的时候老王说作为一名管理者很重要的是当你处于愚昧之巅的时候要把你推向绝望之谷让你认知到其实很多事情只是你因事而为

并不完全是你个人的能力那么你可能会受到很多的挫折因为这个社会有这个社会的运作体系当失败的时候你处在绝望之谷的时候你社会又完全变成了另外一个极端自暴自弃自我否定这其实又是另外一个很不健康的一个想法

你可能需要用一個更加平和的心態來面對這樣的一些事情這就進入到開悟之波你能夠從你的人生低谷中重新爬起來去更加淡然的去看待這個事情

去看哪些事情是可以因能力而为哪些事情你要选择顺势而为哪些事情也许你应该放弃那么你的人生就会进入到一个更加宜兰自得的这样的一种状态所以可有意思了你经历过绝望之谷吗肯定经历过但我不想分享

可以尊重你那你绝望之谷的时候想些什么可以开始爬这个开悟之坡第一你一定要有这个意识就是当你处于绝望之谷的时候你不是孤单的全世界几乎每一个人都会经历自己的绝望之谷首先要尝试平和第二点你要用自己最舒服的方式来帮助自己走出那种抑郁的状态或者低谷的状态比如说

我自己就曾经选择过去旅行当我到了挪威去了挪威的罗夫登群岛那是一遍非常非常美的群岛当时第一时间我的反应是我为什么不早点来既有雪山又有红叶又绿叶还有大海还有蓝天白云

特别的开阔你会发现世界如此之大为什么我要局限在自己的减繁当中我们知道欧洲人是很乐意享受生活的他们的生活是如此的惬意一个可能与世无争传承了几百年的一个小村庄里人们世世代代的这样的一个生活的时候你会在想其实每一个人的人生

都可以有很多的经历不一定只有唯一的路径你的人生的路径可以有很多所以当你找到一种能够让自己走出那种绝望之谷的方式不管是听音乐看电影去旅游你能够走出自己的这种

这种低谷的状态的时候你也许会有不一样的视角当你有不一样的视角你就可以去开启更加丰富多彩的这样的一个人生明白就回到就是在美团的经历在美团做的美团大脑而且这个美团大脑好像现在还在服务它的业务

我不知道我听说是从我自己只身一轮加入美团到后来离开的时候负责整个搜索与 NLP 部大概四五百人的团队当我在美团 scope 的扩大的时候绝对不是因为美团大脑更多的是每一个公司业务项目的成功技术的落地包括我们推动搜索体验搜索各种各项业务指标提升它才能够带来的

一样的也在践行这个理念既要有一些短平快我们能够拿的业务结果但也要有一些为公司 fundamental 的这样一些基础去构建平台性的一些能力的构建否则的话我们会发现如果基础不牢上层建筑是不牢靠的你所拿到的结果很可能只是短期的

所以我们看到很多人是很擅长拿低垂的果实但是却没有长期的思考于是他的职业生涯就总是原地打转但他把所有的低垂果实都拿完了之后就发现自己的职业生涯似乎没办法再称赞了

你后来从美团到了快手之后其实主要的精力是在做多模态是吗对确实因为快手是一个短视频的平台所以它不仅仅有

NLP 事实上快手的 NLP 在最开始的时候还不是主流它更多的是视觉音频当时接手的快手的 MMU 的团队它天然的就是一个 AI 平台的团队它包含了视觉的能力音频的能力后来我们又建设了 NLP 的能力然后我们最后发现很多的技术殊途同归视觉在我加入之后极力推的第一个项目就是把

整个视觉的一些底层的架构底层的模型架构全部升级为 Transformer 在那个时候其实在企业里面 Transformer 依然是有争议的因为它所需要消耗的资源量还是挺大的

但是那个时候是指哪一年其实我们看到 2018 年我刚才提到我们已经开始做了 BERTBERT 的底层其实是 TransformerGPT 的底层也是 Transformer 然后所以你不是在美团做美团就做了其实我会发现 N 好 P 已经开始用 Transformer 了然后当我开始接手像视觉的团队的时候我发现他们底层的模型架构也开始探讨要不要用 Transformer 的时候我开始意识到一点

这个世界人工智能深度学习

它有可能要开始大一统了因为底层的架构开始越来越像越来越接近都开始基于 Transformer 来进行模型的训练固然很多时候他们依然还是按照视觉的 Transformer 包括音频也开始玩 Transformer 从原来的视频音频像 CNN 或者 RNN 的所有的这些结构最终都开始玩 Transformer 结构来做一个转变的时候

我开始意识到多模态我们当时内部有叫跨模态和多模态跨模态就不同模态之间的转换多模态是把不同的模态融合在一起这就可能成为了一种趋势这里有两个问题您能不能用通俗的语言给我们解释一下您刚刚用了一个词大一统如果说大家都用 transformer 它意味着什么

首先意味着他们在编码的时候他们是有可能可以进行统一的了以前的话不同的领域大家是互不干扰比如说自然语言处理他会用分词分词完有这种词法分析什么句法分析语意分析他是分阶段来完成的那么

那么在图像这边可能有它的分类的任务有这种标签生成的任务也有把它转成 embedding 的任务还有一些区域的识别物体的识别等等这些它们背后的模型虽然我们都叫深度学习但深度学习所使用的神经网络的结构是刻不相同这些结构不统一它们的编码方式不统一训练数据的格式不统一最终其实就各做各的对

但全是 FOMO 出來之後也發現語音

视觉 NLP 他们底层都开始用 Transformer 的时候我就开始意识到有可能最终会出现大一统的模型就是不同的模态可以放在一起进行融合我举个通俗的比喻您看对不对就假设我们一共有 30 个人原来这 30 个人分成三个小组每个小组 10 个人大家各自小组用自己的方式去解决自己的任务但是你说的大一统就是把这 30 个人

融為一個小組然後共同去解決這所有的任務是就好像

咱们国家有 56 个民族但是我们都有一个共同的语言叫汉语所以当我们都能够用普通话的时候我们之间就可以交流了一样的不同的模态之间他们就有了共同的语言共同的一个架构这个时候就有可能能够进行一些融合产生一些意想不到的效果出来那您刚刚提到两个概念一个是跨模态一个是多模态因为我看你们志愿今年的这个重点就是在多模态这块而且

不只是多模态是原生多模态我们一会来解释一下但是我先问一下这个跨模态纹身图纹身视频图身文这些它是算跨模态吗对如果单一的看比如说文字变成图像从文字比如说变成声音或者说我们在今年的志愿大会上所发布的物件模型可以从图像变成脑电信号乃至于脑电信号变成图像这些都我们都可以把它认为叫跨模

因为它从一种模态跨到另外一种模态但在过去两年大家好像都用多模态来称呼它是的所以我曾经提到过我觉得大家都叫多模态但此多模态非彼多模态你觉得跨模态更准确是吧

倒也不一定因为我们现在还有叫全模态多模态它更像是一个能够能够同软所有的模型但其实行业内的人还是能分得清楚的当然我们讲这种图像理解视频理解的时候这种的多模态它背后用的模型基本上还都是类似于以 Large Language Model 语言模型为核心再加上不同模态往语言模型的映射 Click 之类的这样的一些架构

所以它是一种一种偏组合式或者说以语言模型为核心的这样的一个构建的方式但是比如说像文字生成图像用的是 DiffusionStable Diffusion 等等这样的一些架构文字生成视频用的是 Diffusion Transformer 这样的一些架构它背后

它的这种多模态实际上它所使用的技术的解决方案和刚才讲的图像理解视频理解的技术解决方案是不一样的所以当我们都讲多模态模型的时候其实非专业人士他是分不清楚你到底说的是哪一个多模态模型那您能给我们梳理一下跨模态多模态全模态到底我们怎么分好呀简单的来讲跨模态指的就是从

一種模態變為另外一種模態那麼什麼叫模態呢像文字 圖像視頻甚至視頻算是單模態還是多模態也有一定的爭論然後比如說腦電信號 3B 這些都可以叫模態

從一種模態變為另外一種模態我們可以簡單的認為其實是一種跨模態那麼多模態指的是我們從輸入的時候就能夠接受不同的模態一起輸入同時輸出的時候也能夠接受不同模態的輸出現在有些多模態模型它的輸入是特定幾種輸入它的輸出可能只有文字或者圖像或者它的輸出其實

只能是從某幾類的模態變成某幾類的模態那麼全模態就是我們希望所有的模態都能作為輸入所有的模態都能作為輸出所以它更代表的是大一統我剛才提到了像我還在快手的時候我就意識到了不同的模態之間的這種技術接待演化因為他們都採用了 Transformer 這樣的底層的統一的架構他們是有融合的

這樣的一種可能性那麼這種融合呢從早期做研究的時候大家只是簡單的把不同的模態拼接起來然後放到模型裡面去訓練當然這又是一個低垂的果實他就可以拿到了那麼現在我們講的原生多模態其實就希望從一開始的時候就能夠設計出一種統一的架構能夠把不同的模態

也許可以各自編碼或者是用某種方式編碼進入到這個架構裡面輸出的時候它也可以是既可以輸出這個比如說腦信號也可以輸出 3D 也可以輸出文字也可以輸出圖像因為我們人類的大腦某種意義上來講其實就是一個全模態的我們可以接受世界各種各樣的信號我們也能輸出各種各樣的信號

我们最直接的输出信号当然是像文字对声音这样的模态但是当我们闭上眼睛我们其实也能想象到一些画面就像一个视频一样所以这就是我们的一个全模态的一个能力它就更加累人对所以嗯

在这么多年的研究和产业实践的这样的一些经验我会意识到其实越简单的结构越统一的结构它会有越强的生命力和越有可能改变这个世界改变这个产业的可能性

智源其实预测了这个 AI 的趋势发展就简单来说就是我们从语言到多模态再到巨神智能和 AI for science 最终到世界模型这是你们现在抛出的一个趋势判断对吗对为什么是这么一个趋势说趋势预测是最有风险的行为因为它很容易被打脸

当然基于我自己长期在研究以及产业的经验很多时候我们对于一些大的趋势还是能够判断的相对比较准的首先讲讲这个技术路线预测是怎么来的去年其实加入智源之后很重要的一个我们是要梳理未来的战略方向就像你刚才提到的

在 23 年的时候您采访宏江的时候也会有这样的一些争论大模型似乎已经开始产业化了智源还需不需要做大模型包括我们的人才可能也有很多的企业会主动的跑来把我们的人才给挖走了那么我们接下来应该做啥但去年其实当我们真的开始梳理分析未来发展趋势的时候我们会有一个基本的一个论断

大模型的发展还远没有到尽头大模型虽然推动了技术有可能通用的能工智能也就 AGI 乃至于 ASI 的发展方向但是现在已经成熟和收敛的技术路线基本上是局限于大圆模型

很多人所说的大模型其实主要指的都是大圆模型以及基于大圆模型所构建出来的多模态模型这样的一个技术路线已经相对成熟所以它应该交给企业来做但是我们可以看到大圆模型它所依赖的文本数据最主要的是互联网数据就像以利亚应该是以利亚在 NixNinux 上有一次的主旨演讲他就提到了说

全世界只有一份互聯網數據因此大圓模型的 PRECHAMP 階段有可能就已經結束了固然可能

伊兰还会有一些新的高质量的数据比如说领域数据比如说一些一些币源的数据可以被用来加入到 Pretrend 但是人类的互联网数据已经被用完了那解决文本数据枯竭的问题有几种方式呢第一种就是合成数据如何让人工智能的大模型有一天能够

通過合成的數據繼續繼續不斷地迭代他的訓練這肯定是一個非常非常重要的一個研究方向在這個研究方向上呃單下來講應該

是一個很重要的研究點但還沒有完全突破因為你可以想像互聯網數據書籍本身也是人類寫的也就是說所有的這些文本數據也是人類在創造的那麼如果有一天機器的智能達到或超過人類的智能的時候他就有可能創造出比人類

创造的高质量的数据还高的这样的一些数据那这些数据就有可能反补用来做大圆模型的训练这就是合成数据这就是合成数据那第二条路径就是那我就不在意它的文本数据枯竭的问题了我已经有了一个加速了很多知识的这样的一个 Foundation Model

那么这个 Foundation Model 它的能力可能还没被完全激发所以这就是后训练和推理它在去年很大程度上改变了

改變了整個產業的格局使得這個慢思考的能力所激發出來的智能又發現了一條新的 scaling load 的曲線所以我們才可以看到有像現在的 O3 O4 有像 DeepSeq 的 R1 以及大家所期待的 R2 那麼在推理上呢是有可能能夠繼續激發智能那麼第三種呢其實我們會覺得第三種解決數據的問題那

就有可能是多模態因為對比文本數據以外其實其他的模態比如說像聲音 圖像 視頻 3D 以及包括像腦信號這些模態

它的數據量可能是文本數據的百倍千倍乃至萬倍這些數據還並沒有被有效的用來做大模型的訓練在這裡面會有提到一個爭論也就是多模態數據到底能不能夠提升大模型的智能這在學術界和產業界是有爭論的因為我自己是從自然語言研究背景出生

作為一名自然語言的研究者來講我們會有天然的一種自豪感 單年的自豪感說語言是人類所足有的沒有任何的一種動物有像人類如此完備的語言體系同時不同的國家 不同的地區它是有不同的語言體系但這些語言體系又都有共同的一些語意的表達

所以我们以前做自然语言处理的时候会经常讲自然语言处理是人工智能环贯上的明珠很多很多的研究者产业界的人是觉得语言才能够提升模型的智能语言是边界对但是

对 但是这也可能得益于包括我自己也管过像视觉像语音包括后来我们做多模台这样的一些真实的一些经历然后我们也会考虑到说

多模态它一定是有它的独特性的能否提升智能非常取决于你对智能的定义比如说对于很多的动物来讲它没有语言体系

他依然能够在这个世界生存他也有他的智能对 他依然能够解决他自己的觅食的问题与同伴交流的问题甚至有一些能力人类并不具备能够攀爬 能够跑得很快通过细微能够分辨能够去对这个世界有各种各样的探究而且在真实落地的时候我们发现仅有语言的这样的一个模态是远远不够的因为在我们真实的

各行各业生产生活中不同的模态是非常多的比如说我们在各行各业都会用 PPT 来汇报这是一个多模态我们有很多的流程图我们有很多的设计图对吧这些都是多模态我们在医疗领域所使用的比如说核磁 CT 包括 PADX 官都是

多模态的数据再比如说在教育领域也有很多的老师的教案笔记这些都是多模态那么这些多模态就意味着不管他能否提升智能他是一定要去人工智能要突破的一个方向另外一方面我们去观察人类的学习过程

和現在的大圓模型的發展路徑是不一樣的我們人類從一出生的時候是不畏人物的 說話的 語言 原體系還沒有形成但我們已經開始學習了我們通過視覺開始接觸這個世界他已經能夠知道這是有危險的這個東西是能拿起來的

所以其實人類從一開始的時候經歷的是多模態的訓練通過眼睛來接受這個世界的信息通過與父母之間的交流來學習這個世界事實上人類的系統性的這種語言的這種學習是從

幼兒園小學才開始學也是先學習語文慢慢的這道數學物理化學越來越複雜所以這是一個學習的一個系統所以我們會認為既然神經網絡是在反照人類大腦的神經網絡在構建的那麼現在固然找到了一條已經

走通的路徑其中一條路徑已經將文字能夠壓縮在了這樣的一個計算機的神經網絡當中那麼應該也要有一條路徑能夠將不同的模態也壓縮在一個計算機的神經網絡當中所以這就是智源研究院我們所去探索的原生多模態的模型

我总结一下您刚才讲的这个原生多模态和我们过往两年在行业里面常常看见的多模态的区别可能行业里面很多的这种跨模态或者叫它多模态它其实还是基于语言为核心的一个训练逻辑但是我看你们是要做大一统是要做一个底层融合的你把这个叫做原生多模态是吗所以架构的选择也包括数据训练的范式是有区别的

比如说现在行业里很多的模态它是先有了语言模型有了语言模型之后再把不同的模态再映射到语言模型的大模型当中但实际上

人类的学习过程不是这样的人类的学习过程就像刚才说的他是从开始把不同的模态信息往里去装所以这是一个训练的一个方法和思想路径的不同所以这种不同就会带来意想不到的不同的效果举个例子现在这种与大圆模型为核心的多模态理解模型很经常遇到的一个问题是

我们可以把代言模型可能训练到了博士生的水平但是结果在加入其他的模态之后它的智能水平似乎退化了退化成了大学甚至退化成了高中水平

这我们经常在看到的一个问题就是 3.1 大还是 3.2 大他搞不清楚了所以他会遇到这样的一个很奇怪的一些现象这跟人类的大脑也不太一样人类的大脑是正常情况下接触到的知识越多我们大脑是越来越聪明

并不会有一天我突然间不会说话了真不出现这种情况那多半我们认为他生病了对吧但正常情况下我们接触到的其他各种模态的信息的时候语言模型能力也在提升对所以这是一个我们其实也想探究的整个神经网络问题的一个本质到底怎么样的一个训练的方式方法能够更好的去训练出一个优秀的

大模型那么我们的原生多模态世界模型就在做这方面的一些探索为什么是这个顺序就是从语言到多模态再到巨声智能 AI for science 再到世界模型其实是这样的首先从语言

道度模态这条路径是因为语言大模型现在已经走通了纯视觉模态的大模型还没有完全走通因为视觉的信号一方面它数据量特别的大另外一方面有效信息又特别的少所以使得纯视觉模态的大模型

他目前为止应该来讲还在做很多的探索还在做非常多的探索我印象中曾经我跟谢善明在交流的时候他因为是从做视觉出身的他就特别希望能够探索出来我不考虑语言我能不能够从视觉里面去学习出智能

我想一定是可以有某種程度的智能但這些智能能不能達到一個我們期待的像語言的那種智能也許是兩種不同的智能所以實際上如果這張圖更加完整的話它是可以從單一模態的大模型要往多模態發展那麼多模態剛才講了多模態的統一的融合一定是一個需要去突破的一種方式否則的話現在現在的多模態的

很多依然在我看来是较低垂的果实就是大家走通了一条路线然后把不同模态映射上去之后发现能解决一些实际的问题了于是大家就先这么去做了但是依然一个非常核心和底层的一些科学问题大家还没有完全的探索清楚也没有完全的解决那么原生多模态大模型它能够越来越接近人类的大脑

那就意味著他能看到這個世界感知這個世界 理解這個世界還能跟這個世界進行交互那麼他能夠進行思考進行推理所以我們認為他最終就要從數字世界就具備了這個能力可以邁向了物理世界其實不具備這個能力當然物理世界中也可以有些智能但為什麼我們在今年的資源大會上發布物界模型呢這是因為我們認為原生多模態的大模型

或者其他架构的多模态大模型已经开始要出现数万已经开始要有可能进入到新的一个爆发的阶段那么他们是能够具备进入到物理世界之后对于整个物理 AGI 的突破有一个重大的支撑他能够看到这个世界感知理解然后还能够与这个世界进行推理交互的时候

整个新的一扇大门就会被打开所以这个物界的界是跨界的界是吗物界的界代表的是虚实世界边界的突破代表的是人工智能从数字世界迈向物理世界所以很有意思当年我们所发布的悟道系列大模型道代表的是我们对于大圆模型系统性方法和路径的一些探索

悟道其实是指的是五道口的一群人一起来探索这样的一些方法探索这样的逻辑居然是谐音然后这次从悟道到误解了从一个数字世界要迈向了物理世界当然这个过程中依然有很多的问题要解决但是多模态大模型它能够支撑这个物理 AGI 变得尤其的不同因为我们可以看到在物理世界原来也有一些智能

比如说基于强化学习本身也能够做像无人驾驶像机器人里面拿个杯子去拿个杯子但他们依然局限在这种展示它不具备像人类一样放好的思考决策行动的能力自主思考主动的决策

然后并且能够执行这些其实在以往如果仅通过强化学习是不太够的诸董我想分享一个我的思考你帮我判断一下对不对好我们刚才其实聊到了从语言到多模态我认为多模态的下一站的重点发展是巨声智能因为我

曾经跟一个专门投巨声智能的投资人聊他跟我讲就是他们真正到产业里面去采访调研这些使用机器人的产业大家普遍回答的是现在真正机器人用上大模型还很少很少结合你刚才讲的过去我们一段时间内比较成熟发展的是大语言模型的能力你发现它没有办法直接用到机器人身上但是多模态可能就可以了

而且一定要原生多模态而且是包含世界模型能力的原生多模态给大家解释一下什么叫世界模型对所以刚才其实提到很多的多模态大模型其实它走的是捷径但不一定是终极路线

走的是捷徑指的是我有了大圓模型把別的模態往大圓模型的影視空間映射完之後發現它已經具備了一定的多模態能力特別像你在一個封閉的環境學到了博士學位然後最後面告訴你這個世界是這個樣子的你突然間受到了巨大的衝擊你這個精神有些失常然後最後面智力下降然後開始能夠渾渾噩噩的解決一些問題但沒有解決本質的問題

所以我们可以看到很多的机器人他在把现有的这种多模态弹幕型用上去的时候

很多時候他對於空間和時間的感知是不夠好的很多時候他在看的時候都是對於靜態畫面的描述因為這是從數字世界就很容易得到的一個訓練數據機於是他可以說這邊有兩個人在交流其中兩個人都穿著黑色的衣服但是你想想我們在真實的世界裡面我們很少這麼交流

大家第一反應是他們實際上是在交談這可能是一個反彈類的節目可能甚至都不是描述性的而是說我口渴了幫我拿一杯水他在預測接下來可能發生的下一個場景下一個動作是什麼

這種動作它是跟空間和時間相關的所以它需要能夠對這個世界有更加深刻的理解它知道當這個水放在這個邊緣的時候是很危險的我不小心一碰

它就有可能跌倒如果這個瓶蓋沒有蓋是一個更加危險的行為因為它可能跌下去之後水會灑了一地因此人類正常的動作就會我趕緊把它蓋好我把這個水放中間一些這是我們人類在真實世界中的一些自然的行為它不會去說這個水放在邊緣一個透明的塑料瓶上面沒有標識這不是我們思考的方式

所以我们认为就要从语言能力牵引的多模态真正到一个你说的原生多模态而且一定是对这个世界有真正理解的原生多模态模型这个过程当中会伴随出现的一个过程是不是要像人类对这个世界的理解方式一样去构建这个世界的建模

对 是杨乐坤在 23 年的时候参加智能大会提出了世界模型而且我们看到前两天他也发布了最新一版的世界模型当然因为世界模型是一个更加宏大的一个命题甚至很多人都在问什么是世界模型什么是空间智能什么是时空智能对吧它跟现在的大圆模型和多模态大模型又有什么样的区别应该来讲

涵义里还没有很明确的定义这就意味着连名词连这个词是什么含义都没有明确的定义的时候自然而然大家对他的理解对于他的技术实践路径就有各自的想法就是不统一的那么乐坤有他自己的一个关于世界模型的理解并且他们做了很多的尝试我想问你们的世界模型跟他提的世界模型有什么区别

我們的世界模型首先還是一課大一統的路徑它其實分了一些模塊但我們其實是希望用更加簡單的方式來做這個世界模型的一個學習當然最終能不能達到我們所期待的世界模型的

效果我覺得這也還有在驗證也許他具備了一定的世界模型的屬性最終我們發現靠一個大一統的模型具備了很多的能力但可能還不夠那需要再加一些模塊

這個時候就很像有了大圓模型我再加一個 Clip 就把不同的模態弄過來了那麼將來的世界模型的構造也有可能變得更複雜但是我們希望從最開始的 Foundation Model 是能夠用一個很簡單很容易擴展

能够 scale up 的这样的一些结构来训练我们这样的一个世界模型的基础模型这是我们的一些技术信仰和理念因为 23 年我就在现场那年 Sam Altman 还做开场雷昆当时分享世界模型的时候我印象特别深的是他完全把 AI 比作一个从一个婴儿慢慢开始长大然后怎么去学习这一点其实

你们今天跟他还是共识的就是要让 AI 像人类一样去学习只不过过往可能更多的 focus 在这个人类怎么学习语言但是其实一个人长大的过程当中五观六感其实都是在接受信息的所以我想在技术路线上永远都会有各种各样的争议都会有大家各自不同的观点我

我可以分享一个小故事今年 2 月份的时候当时跟邓爵教授还有包括乐坤在交流的时候我就发现了乐坤不相信自回归这样的技术路线 auto regressive 所以他在很多的场合都会挑战说代言模型的技术路线是不正确的无法达到 AGI

然后奔爵教授呢他不相信强化学习他觉得强化学习不具备放话的能力包括今年在志愿大会上其实奔爵教授他提出了要有一个 scientist 这样的一个 agent 所以他觉得要用一种 scientist AI

Scientist AI 所以他觉得需要用一种只有智能没有自我的 AI 他需要用一个相对统一管控的方式来构建一个安全的 AI 因为他是悲观派对

但沙特教授就觉得 reinforce learning 因为他是 reinforce 强化学习之父所以他是非常相信强化学习的他觉得人类从出生开始就是在跟这个世界不断的在交互并且得到了 reward 然后在成长所以其实你可以看到

在研究界其實兩個圖靈獎得主大家的技術路線都是不完全不一樣的主張不完全認同的那麼因此世界模型到底應該怎麼實現包括多模態到底應該怎麼做

其实是没有没有大家有不同的路线有人爬南坡有人爬北坡是吧一个在这里你觉得这例子非常好所以也有可能南坡北坡最终都可以爬都可以爬大家经过的风景是不一样的你刚才提到两个图灵奖的得主的 conflict 也是我今年印象很深的我就暂且把他们俩一个分为悲观派一个分为乐观派虽然他们是两场自己的演讲但其实我觉得他们很多观点都是完全相悖的

我觉得我们首先不是一个跟先不划分阵营对我们没办法简单的划分阵营我自己对于技术路线是这么理解的我觉得多半概率下我们会有一个基于海量的数据训练的一个 foundation model 在基于强化学习的方式来提升他的智能激发他的智能这条技术路线呢我有几个

自己的一些思考比如说像大圆模型我们刚才讲解决大圆模型数据枯竭的一个很重要的方式就是通过强化学习去做后训练或者说做推理的 scaling load 使得他的智能在不断的提升他其实是已经有了一个 foundation model 再加上了强化学习

那么在巨神智能这个领域我们也很有可能会有一个多模态模型或者世界模型做一个 Foundation Model 再通过真实世界的不管是数据采集也好或者是它的一个体验

的这种学习也好不断的去激发这个 foundation model 的能力并且将这个学习到的技能给记住所以这些是有可能巨神智能发展的一个路线那么这个路线呢其实我在真实世界中也是有观察到的今年春节的时候呢我就看到了两岁的小女孩她在没有任何大人的教导的情况下学会了拆糖果学会了

把不同的蓝莓穿在一个牙签上我们当时都震惊了我们想从来没人教过他为什么他能学会呢后来我发现原来他在刷手机上的视频他在视频里面看了大量这样的数据他非常开心的看到一个主播的小姐姐在那边拆各种各样的糖果于是他的大脑就学习下了这种可能的能力

他又在真实的世界里面去实践了最开始他失败了他发现怎么识都识不开最后发现这边有锯齿的这样的一个地方他可以识开于是他就学会了这个能力包括穿糖果穿蓝莓穿水果

他發現了這樣穿能夠穿的牢固於是他就學會了這個技能僅僅是一家之言就是我認為有可能最終會是一個多模態的 Foundation Model 或者世界模型的 Foundation Model 再加上強化學習最終是真正意義上的我們未來巨聲機器人的巨聲智能所以你們今年也做了

给巨声智能的大脑模型也做了给巨声智能的底层的 LoboOS 和 LoboBrain 一个大小脑协助的框架主要是为了让这个大脑跟机器人已经具备的小脑能够更加容易的去协同和适配所以我想这个可能是我们

判断出来的一个技术路线但是它会不会成功要验证或者会失败确实不知道但确实我想强调的一点这恰恰是志愿研究院这样的一个机构的魅力所在

我们对于一个我们讨论出来的一个技术路线回到我们最早的时候我们希望有一群有理想有信念有技术尤其有自己的技术信仰的一群年轻人当然他要基于很多的分析基于过完的这个成功的一些科研的成果

大家一起敢于尝试一个全新的技术路线这个技术路线我们认为是有很大的可能性会成功如果它成功了这是我们对于整个中国乃至于全世界促进了整个技术的发展能够让人工智能更好地去照顾人类

但失败了我们也特别希望社会包括媒体包括公众大家对于这样的一个科研的创新有一定的包容性因为毕竟在这个社会里面大家经常容易看到的是特别成功的人大家在去追寻他的一个历史的轨迹但实际上

我們還要尊重尊重這些失敗者只有當有越來越多的這些失敗者才有可能有為數不多的成功但我們不應該忽略也不應該過多的苛責這些失敗者恰恰是因為他們的失敗才讓成功顯得民族的珍貴一個好的創新環境一個好的科研的體系就是要鼓勵

和支持有可能失败的创新你就让我想到一本书就是为什么伟大的创新不能被计划好像是这个书名培养创新的土壤很重要其实你刚才讲的这书我特别论统生态比较重要我们的土壤比较重要所以其实志愿研究院我们正在努力创建的是一个让大家有可能突破有可能做出世界级科研成果的土壤一个环境

在这样的土壤和环境之下它有可能长出一个令人意想不到的果实当然即使有了这样的土壤肥沃的土壤最终我们也有可能并没有我们想象中的收成所以我也总是在不断的呼吁我发现了因为我第一次见你是在群访大概半个月前吧你那天也反复强调了这件事情我能够感受到

这几年跟随志愿去关注你们我会认为志愿追求的其实就不是那个果实当然果实当然人人想要但志愿追求的其实是那片土壤对当我们创建了这样的图览就会有越来越多的在这上面小苗然后有些树可能长成蝉蝶大树有些树也许不一定在

非要在智源的图览中最终展出来我们把这颗苗玉出来之后我们也可以交给市场交给企业这也是一个很好的一个贡献明白明白那我们还是回到这个巨声智能啊因为我们发现今年这个巨声智能特别火

首先就您能不能讲一下为什么是在今年这么火然后第二个点我刚才讲到语言和多么太其实是要找一个场景去不管是收集数据也好训练也好还是应用也好为什么是先挑了巨声智能挑了机器人首先我也不知道为什么巨声智能这么火因为

說實話我自己第一次聽到巨聲智能的時候還是在快手那個時候我們會關注到有 Invody AI 這樣的一個名詞然後這個名詞似乎開始被大家所關注其實大家並沒有形成共識說巨聲智能是不是會是未來包括直到今天雖然巨聲智能很火但我也能經常聽到一些別的聲音乃至於負面反饋覺得

巨神智能是一个泡沫是一个发展不起来的领域那么我想我们永远要尊重这样的声音和争论当然巨神智能会在过去这一两年显得尤其火热我觉得有几个因素一方面来讲从硬件上来看我们看见了人形机器人终于能够开始走起来

开始走得稳了于是科幻片里面大家所想象中的这个机器人的助理机器人的保姆乃至于机器人的朋友有可能出现碳级生命和硅基生命似乎有可能开始共存了

大家就开始了有这样的一些想象第二点就是在强化学习方面因为强化学习帮助了语言大模型有了进一步的能力的提升于是做强化学习的研究者们开始

开始相信机器人的强化学习应该也能够有进一步的突破第三个不管是大圆模型开始让它有可能像人类一样说话和交流还是多模态大模型即使是现在比较局限的我们刚才讲的洁净的这种多模态大模型它也可以开始让机器人开始看到这个世界感知这个世界

它让大家看到了一些曙光和希望当然也有很多包括政策的一些加持使得巨声智能似乎越来越火但我应该也在不同的场合多次的强调和呼吁在我看来巨声智能是一个

5 年到 10 年周期的甚至更长我们要对这个领域有更多的耐心有更多的宽容如果按照历史规律这样泡沫起来太快乐度起来太快

很可能在未來一兩年也有可能陷入到泡沫的低谷如果真的有一天出現這種情況也有可能就是市場的一個規律但也可以請大家相信請大家放心至少在志願研究院我們會繼續踏踏實實的一步一步的把每一項研究工作把每一個項目我們都做好我們不是一個跟分的機構

我们不是因为巨生智能火才做巨生智能恰恰是因为我们做了巨生智能也许是我们带火某种程度上是我们带火了巨生智能我也不确定这是一个我们自己基于我们对于技术路线对于人工智能发展路径判断我们做出来的战略上的一些选择你战略上为什么选了巨生智能我感觉你们今年最大的两个重点一个就是原生多么太一个就是巨生智能

因為剛才提到就是我們希望人工智能最終是能夠造福人類是能夠幫人解決問題他不僅可以做事他還要做事當他做事情的時候他還是需要有一個載體的需要一個本體他需要有個本體不管這個本體是機械手臂

還是輪式單臂 輪式雙臂抑或是人形所以其實我也在不同的場合都強調過我們所說的巨神智能不等同於人形機器人尤其人形機器人我認為需要有更長的週期因為我們要

要尊重事物发展的客观规律我们要尊重产业发展的客观规律不管从硬件的成熟度供应链的完备体系技术的发展规律它都需要一个更长的周期所以大家千万不要认为未来三年机器人就满街跑就能进入到千家万物这是一个完全不切实际的一个期待

今年这个物界它其实是一个系列包含了这个我们刚才有提到的 EMU3 就是它的原生多模态模型然后还有一个脑科学多模态通用基础模型健威 BrainMule 对然后还有一个跨本体巨声大小脑协作框架就我们刚才讲的平台这个叫 RowellOS 是吧

然后还有一个巨声大脑 RoboGrain 然后这两个都已经迭代到 2.0 版本而且我看应该是最近半年发生的事情当然还有一个这个全原子微观生命模型 Open Complex 是吧我们先讲就是这两个巨声领域会用到的一个是大小脑的这个协作框架一个是巨声的大脑上一次群访的时候你用了一个词这是最强大脑这个最强体现在哪里首先我们认为巨声大脑是能够帮助

机器人帮助这些硬件具备智能化的水平智能化最重要的它的泛化性它对于空间的理解能力对于世界模型空间理解以及任务规划的能力这些能力都是 lobal brain 我们会去评价它

就是说 LoboBrain 到底能不能够跟真实的物理世界能够进行交互对空间有很好的理解对我们人类的指令能够有规划其实我们在这些不同的任务上都做了评测跟行业里面已经有的一些 Visual Language Model

跟一些其他的一些多模態模型我們都做了各種各樣的評測包括我們已知的其他的一些巨神大腦的模型都做了評測那最終我們確實證明我們在這些能力上是要超過那些模型的而且我們將它也開遠了我們也會持續的攜帶我們希望能夠持續的打造出這樣一個最強的大腦

當一個最強的大腦在裝到了一個本體中那麼我們就能夠去解決更多的一個事情那麼什麼叫空間任務呢我舉一個例子我們有時候會講說能不能幫我拿一個蘋果這是一個最簡單的任務但很多時候我們也會說哎能不能幫我拿那個最紅的蘋果或者那個最大的蘋果

帮我拿一下最上面的苹果拿了苹果之后放在这一排这其实都是有很多的这种空间的感知这个对于大模型来讲都提出了一些新的一些能力的要求当我去说帮我去拿一瓶水的时候如果这个水前面还有其他东西的遮挡我需要知道或者绕过去或者我要把前面的遮挡物移开这些都是任务规划的

能力对人类来讲很简单但是对于现在的大模型来讲对于现在的机器人来讲这却显得非常非常的难另外一方面我们也非常关注 AI 安全我们希望让大模型包括人工智能最终

它是 AI 向上科技向上它是服务我们人类但不是伤害我们人类所以我们要确保在发展的过程中它还要在我们所符合的价值观或者一个治理框架下能够去做

前两年智源在安全对齐方面因为那个时候其实不光是智源我们看美国就是最先进的这些公司和机构他们也一直都在提 AI 安全对齐我提个很现实的问题就即便智源有它的资金但是资源永远都是有限的我们要集中资源干聚焦的事情像你刚才讲战略的切换重心的确定它是怎么样去确立你们最重要要做的几件事情

我觉得资源永远是有限的我在不同公司不同企业里工作其中学到很重要的一点就是永远要在资源受限的情况之下抓住最重要的事情拿到超预期的结果我在过去的一年多花了很多很多的时间也是在不断的去争取资源所以我们也呼吁有更多的有资源的不管是投资人企业家

乃至于对于人工智能有理想有信仰的社会各界人士都能够提供一些资源能够帮助像资源这样的

科研机构去不断的做探索和突破当然确实做一家非盈利性的科研机构我也还是经常深深的感受到我们发展所需要的资源的这种瓶颈所以很多时候我们也不得不做各种无奈的选择

你们现在最重要要做的几件事情是我们刚才讲的多摩泰 局生智能 生命科学对 是吗这三块其实确实是我们未来几年最重要的发展方向并且在这个发展方向中我们也是有取舍的我们不可能所有的项目都做就好像世界模型刚才说了我们有技术路线一技术路线二 技术路线三我们只能选择一条技术路线那么这条技术路线

就有可能失败但如果我现在是全世界最大的一些企业南坡北坡都爬对他可能就都布局了当然这种布局的过程中最后有可能产生的一种效果是他们具体到某个团队所获得的资源

有可能还不如资源那这就意味着如果我们技术路线选对了还有可能资源能够支持我们做出来的成果比他还好这些都是有可能有可能发生的我问一个最基础的问题就我们刚才讲到的原生多模态模型和巨生智能模型他们是

都是世界模型还是他们一起构成了世界模型您的这问题非常好我也没完全的答案首先因为世界模型就没有一个很明确的定义但我觉得他们是世界模型的一种可能的组成部分嗯

有几个很关键的问题刚才讲到世界模型和多模态我想您应该也留意到了最近 Meta 推出了一个世界模型 VGEPA2 然后它其实是登顶了 Hugging Face 的榜单把那个 GPT-4 长时间霸榜的 GPT-4 给比下去了你们的这个多模态世界模型跟他们比起来现在能够分享说有什么区别吗

这应该就是乐坤所提出来的这个世界模型我们其实肯定会做相关的一些对比但刚才讲了因为从技术路线上就不太一样并且我们会认为板单在这件事情上的意义甚至不那么大在资源内部我们对于巨神智能团队一个非常非常重要的要求就是征机部署我们对于世界模型到底好用不好用一定要在真实的

環境下去驗證不僅僅是在板單上去驗證所以我們可以看到現在大模型各種板單煙花繚亂很多的公司也在刷板確實是有這樣的情況那當然

我们还是会很关注这样的一款模型并且会做更多的一些评测和对比我相信这个对比可能要稍晚一些才有要细节的分享但我比较关注的是我觉得 Meta 出了这么一个世界模型其实给我们吹来了一阵风感觉接下来是一个要讨论世界模型要迈入下一个纪元是吧我倒没有受这个新闻太多的影响因为

我们一直以来都在按照我们自己的节奏和步华和自己的技术路线往前走这些新闻总是会不断的出现不管其他团队研究成什么样我们依然会按照我们对于人工智能技术路线发展的路径对 按照我们自己对于项目的布局一步一步扎扎实实往前推进

那您刚才讲到一个应用和部署的问题啊就问一个最直接的问题你们的原生多模态大模型和你们的巨声智能大模型目前被应用的情况怎么样比如说多模态那个模型它被应用的场景有哪些对

其實你問了一個非常好的問題資源研究院一直都在研發各種各樣的模型很多的模型我們全部都開源出去了開源出去之後我們甚至都不知道被哪些機構哪些團隊最終拿去用了有些甚至變成了產品我舉一個具體的例子

比如說智源研究院在過去兩年所發布的 BGE 系列模型 也就是剛才講的通用向量模型它在去年 10 月份的時候登頂了 Hackingface 閱讀下載量的板手並且是 2023 年以來在 Hackingface 所有發布的 AI 模型中截止到去年年底下載量的第一名它的下載量數以次

但我們其實自己也一直都很難以去追蹤你們可以想像他有數億次的下載不管是個人開發者還是企業開發者都在使用我們的模型因為我自己在企業待過我通過很多很多的企業的朋友

都反饋我說你們智源研究院的 BG 模型真的好用我們內部都在用你想像的到的大家耳熟能詳的這些互聯網公司包括國際上大家知道的大型的互聯網公司乃至於一些熱門的創業公司我們都有得到過反饋說我們在用你的 BG 模型

当然他们不会在公开的场合这么去说这也带来了另外一个问题我们很多时候我们也不知道对到底有哪些团队有些模型再比如说我们的数据我们其实也做了很多很多的开源的数据开源的数据它的下载量也有数百万次然后因为在数据上我们有时候会要求开发者

他稍微登記一下他的姓名單位郵箱這樣的一些基礎信息所以我們後來發現有超過 30 多個國家和地區數百個機構除了大家覺得熱門的這些模型都在用我們的數據都在用我們的框架我想一方面來講志願研究院確實為整個行業和產業不僅僅在輪財

包括在这些开源的模型开源的框架上做了巨大的一个贡献但另外一方面确实因为我们足够的开源开放很多时候我们也难以追踪到底有哪一些产品和哪一些企业在用我们的模型

我留意到您上任之后有一个特别重要的职作就是倡导甄开元其实我觉得甄开元这件事情是特别呼应当年洪江老师他所讲的功臣不必在我志愿研究院也许在骨子里就一直都有功臣不必在我的这样的一个理念这种理念就在于说我们

通过一些项目培养了很多的青年人才这些青年人才可以继续留在志愿做研究做各种各样的项目也可以自己去创业去在市场上折腾也可以到大公司里面去帮助大公司的企业和产品做得更好那么一样的通过开源的社区和生态我们也在任务系无声的支撑着整个人工智能产业的发展

包括您刚才所提到的真开源因为我们知道很多的时候因为商业化的公司它确实有它的业务的需要他们很多时候只开源权重而支援在很多的模型开源上我们是把代码数据包括模型本身包括像一些评测的方法全部都进行了开源帮助大家能够

去复现也能够让大家基于我们的模型做进一步的迭代和研发确实有着一个工程不必在我的理念和情怀在其中明白您曾经在接受采访的时候有给过技术人一些建议其中一个建议是说一定要关心最关键的核心技术你觉得在今天我们这个时代最核心技术是什么

我想不同的領域不同背景的研究員他所關注的核心技術一定是不一樣的就像志願研究院一樣我們對於技術的判斷所以決定了我們對於哪些技術方向的佈局和我們所採用的一個技術的路線但我更想傳遞的其實是要紮紮實實

要抓住每一个细节因为细节决定了成败那么我们对于一些关键的技术大家可以基于自己的理解基于自己对于技术发展的判断基于自己的兴趣基于自己的热情去做我没办法简单的去定义 1000 个人就有 1000 个汉姆雷特那么恰恰是这种图览每个人如果都有自己的攻占精神我想最终我们就会真正培养出

一个独一无二的工匠明白最后一个问题就我最近留意到 OpenAI 的华人员工也是姚班的校友姚顺宇他前段时间给出了一个判断他说 AI 趋势正在进入中场休息在此之前是训练大于评估在此之后将会是评估大于训练这背后就意味着要从解决问题到定义问题我觉得这个是一个非常 sharp 的判断但我不知道您认不认同我部分认同

我觉得顺宇的这个判断呢其实是基于他所在的包括像大圆模型包括可能他对于技术路线的一个判断所带来的一个他的一个观点他是否更多在大圆模型这个呃

至少从我的观点也许在大元模型是这样的因为如果大家翻翻看去年我在接受媒体反弹的时候对于一些技术做出的一些判断去年 6 月份智能大会的时候我当时就做出一个判断是到年底的时候咱们国产的模型是可以追上 GP4 的

再往后可能 agent 就会是一个很重要的一个发展方向那么确实在年底就春节前后我们看到了包括像 DeepSeek 的出来使得咱们国产的模型开始追上了 GPT-4 但我相信即使没有 DeepSeek 我们依然有很多其他的国产模型是有可能追上 GPT-4 的

当我们的国产模型可用的时候它就进入到了一个落地应用产品可以爆发的这样的一个阶段

对于用户需求的洞察对于评测就非常之关键这也是我当年从微软亚洲研究院决定要投身产业界一个很重要的原因对就是模型到了一个可用的阶段当然如果大圆模型确实就到了这个阶段我觉得也许对人类来讲是一件好事因为现在的大圆模型很显然它还是一个工具而已它还不具备

我们所期待的那种真正的超级智能所需要具备的那些特性那么这也意味着对产业来讲是一件好事因为它可以基于这样的一个可用的模型开始迭代出非常多可能的场景但另外一方面从研究院的角度来讲我们会依然去追寻不断的推动大模型可能的上线我们认为

不管是多模态还是巨声或者物理 AGI 还有很多关键性的技术路径要突破整个 AGI 时代或者说物理 AGI 的时代的到来还需要那么几次的技术的重大突破才有可能去通往真正的通用人工智能的时代

志愿研究院就愿意在这样的技术突破中去扮演非常关键的一个角色有可能是我们突破有可能是我们所提供的图案去孕育了这样突破的可能性所以您今天有什么能够给出的确定性的趋势预判最确定的是就像我们今年在志愿大会上所发布的物界系列的大模型我还是非常坚信人工智能将正式的从数字世界迈向物理世界

OK 最后一个问题啊因为我看您之前有讲过就是做志愿的目标是想跟世界顶级的科研机构拜拜手腕我想知道怎么个掰法我们今天跟世界顶级的研究机构的差距或者说差异在哪里我想我一直都是一个理想主义和现实主义不断在在平衡的这样的一个状态啊

志愿研究院一直以来我们都有这样的一个追求我们希望能够变为全球最顶尖的科研机构当然我们与当下世界最顶尖的人工智能的科研机构依然还是有不少的差距

不论在资源的投入还是人才的密度上我们还做的远远不够所以我更愿意非常务实的在我们追寻这个人工智能的物理学家的这样的一条技术路线上扎扎实实的把我们现在手头上的每一件事情都做好我们有这样的一个愿景有这样的一个

心但是路是一步一步走出来的我不去想过多的我们能不能够一定达到高分追寻登顶珠穆朗玛分是我们的追求一步一步的

爬坡是我们正在做的事情所以你想做的事情是带领智源日拱一族是吗是不及鬼步无以至千里刚才讲到了差距有些是差距有些是差异就是中国的最顶尖的科研机构有没有跟比如说美国或者世界差异的部分我想中国是有一个非常广阔的市场庞大的用户群体非常完备的创新创业的体系

在中国的这样的一个大地上来做人工智能我对于长期是非常非常有信心的我想不管遇到什么样的困难

我们都能够克服在新中国刚成立的那么几十年我们是那么的困难我们都熬过来了那么在当今不管我们的经济体量市场的规模我相信没有任何力量能够阻碍我们在技术上在人工智能上的发展所以南坡北坡你觉得南坡肯定风景这边会很好是的 OK

好 谢谢谢谢 谢谢其实好多问题没有问完有一些问题我回去微信还是想听听你的想法你可以用语音好呀 还有吗再给我两个问题我应该就可以问完了那你问吧我觉得其实今天的交流是非常之

深入的我很少回答这么多你们还会布局大模型以外的人工智能技术这个可以大概讲一下会有哪些方向吗好这个问题我先你再问下一个问题然后我看下一个问题是啥我待会都回答好好好没问题最后两个问题啊还有央视的记者在等等 OK 关于 scaling wall 这件事情就是它会一直是主线吗我觉得

其实我自己对于 scaling load 的理解和很多行业里面其他研究者对于 scaling load 的理解是不太一样的在去年的智能大会上我当时分享过一页 PPT 在我看来 scaling load 不是这两年才出现的虽然很多的人工智能的研究者会分析这两年的 scaling load 但如果我们把它时间拉长的足够长比如说过去七八十年我们会发现神经网络这一条技术路线的智能

每一次重大的突破都是伴随着它数据规模算力能力参数规模当然还有包括一些算法的创新综合所带来的一次能力的突破所以很多时候

当我们陷入在对一件事情的纠结争论和挣扎的时候我们如果把时间尺度拉的足够长我们会豁然开朗现在人工智能的大模型在 2018 年的 Bert 模型只有一亿参数它跟我们人类大脑差 100 万倍 GPT-3 是 1750 亿差 1000 倍 GPT-4 1.8 万亿差 100 倍

所以可以看到大模型在快速的接近人类大脑的参数那么 scaling load 还有没有效我认为要当我们的模型有一天能够到达人类大脑的参数的时候我们再来论证说 scaling load 到底是有效还是没效但是因为现在不管是数据的瓶颈

還是算力的瓶頸全世界其實也都面臨著算力的瓶頸因為算力是還要遵循摩爾規律才一步步的發展也許 5 年後的算力 10 年後的算力比今天又有一些重大的提升在那個時候算力 ready 了數據如果也 ready 了然後數據就包含了多模態數據所以當

把时间拉得足够长的时候我对于 scaling load 还是 believe 的 ok 我对于神经网络的这条技术路线是 believe 的多模态的训练下包括我们刚才讲世界模型就是它需要全新的架构也有可能不需要因为 transformer 首先 transformer 已经被证明了是一个非常通用非常好用的一个架构至少它能够实现数据的 scale up 所以

我們認為基於 Transformer 的這種基礎架構它是有可能幫助我們在包括多摩太世界模型上繼續取得突破但你說 Transformer 有沒有它自己的問題

显然是有的 Transformer 的问题它的效率的提升还是有都是有空间的所以现在也依然有很多的很多在做新的架构对在一样的因为一个架构的替代也是一个长周期的事情它跟芯片加速各种效率优化包括算子等等这些都是紧密相关的所以一个新的架构要替代掉 Transformer 它是需要比较长周期不断的被

被认证被验证的这些在我看来都是我们不能排除未来各种的可能性但是我们会基于现有的这些架构会去做各种这样的一些探索所以 AI 进入物理世界最关键的几个难点能大概说一下吗

最關鍵的本質上還是包括像空間和時間的感知能力以及如何去跟硬件結合因為我們知道因為硬件構型不統一導致模型如何去指揮硬件達成它想要的效果並沒有形成一個行業裡統一的標準也是不統一所以大家碎片化所以就發現都還處在一個低水平的一個階段

这些东西都有可能在未来被不断的突破那空间时间的感知力它具体背后是什么

可能就是这个世界模型你刚才问的那个大模型以外的人工智能技术首先我们还是要尊重科学发展的规律科学发展的规律在于我们既会有一些单下主流的技术路线或者我们认为未来可能的主流技术路线的一些布局和这种研发投入但另外一方面我们也会对于一些

可能的有突破性的技术方向要给它足够的时间和空间比如说像现在的大模型的学习路径与人类依然有很多的不一样人类的大脑从一开始就是学习多么态的但是现在的大模型从一开始学习的是语言的数据

人類的大腦它是能夠用很小的瓦數科學家估計大概十幾瓦的這樣的一個功耗就能夠完成如此複雜的這種理解推理和交互而大模型我們看到它要學習全世界的數據全互聯網的數據要用非常龐大的集群來進行訓練非常高端的芯片來做推理

这跟他所消耗的能源和人类的大脑也不一样我们发现人类的大脑是能够通过小样本学习我们只要看几张图片我们就知道这是猫这是狗但对于大模型来讲他要读的是全世界所有的书籍全世界所有的互联网的数据我想没有任何一个人能够去

读完所有的书籍读完互联网的数据所以他的学习路径跟人类的大脑依然是不太一样的因此我们在除了现在的这条人工智能的大模型的技术路线上我们也会去思考内脑智能有没有突破的可能数字孪生心脏能不能够解决我们对于人类身体的另外的一种理解和构造蛋白质生命分子

的建模是不是能够帮助我们对于生命运作的激励有更深刻的认知这些一切都是未解之谜都是我们希望去探索的当然对于一些探索型的项目我们会比较谨慎小资源的投入给我们的研究员以充分的时间和空间的一个宽容我可以分享的是像我们今年在资源大会上所发布的

物界 BrainMule 健微模型它是脑科学领域首个多模态的通用基础模型实际上这就是一个很小的团队做出来的那么它基于了我们这样的一个统一的一个架构也把他们的脑信号就包括脑电信号包括功能核磁双关子等等各种的信号放到这样的一个统一架构去训练之后产生了意想不到的效果

这就是我们提供了这样的一个图览给了研究员自由的探索的空间有可能产生我们意想不到的一些科研的进展和成果所以其实这个也让我很感动就你们并没有完全 focus 在大模型这件事情上在其他地方也留有种子对 还是回到刚才那句话志愿研究院更多提供的是一个图览

辛苦你了还有后面一个算是我聊的比较聊了几个小时因为昨天我还是蛮感动的因为我觉得你做的功课是很扎实的谢谢

好了本期节目就到这里欢迎在留言区评论分享听后感也欢迎留下你想听的选题或是嘉宾这期节目已经在苹果 podcast 网易云音乐 QQ 音乐豆瓣微博音频等平台同步上线欢迎订阅我们下期再见